LLM評価

なんでこんなにAIエージェントは失敗し続けるんや？

この動画は、AI界で注目されているModel Context Protocol（MCP）エージェントの性能問題を深掘りした内容である。Salesforceの研究に続いて発表された学術論文「MCP 101」を詳しく解説し、7つのエラー分析フレ...

2025.08.24

AIエージェント

この動画では、Salesforce AIが発表したMCP Universe benchmarkについて詳しく解説されている。モデルコンテクストプロトコル（MCP）を使用したエージェントAIシステムの実際のパフォーマンスを、GPT-5やCla...

2025.08.22

GPT-5、5.1、5.2

この動画では、AIの創造性に関する議論を取り上げている。研究者らは拡散モデルによる画像生成が実際には高度に予測可能であることを発見し、AIの「創造性」の本質に疑問を投げかけた。一方で人間はAI生成のアイデアをより創造的と評価する傾向があるが...

2025.08.12

AGI・ASI

この動画は、Amazon Bedrockを使用してLLM（大規模言語モデル）の評価システムを簡単に構築する方法を詳細に解説したチュートリアルである。特にRAG（Retrieval-Augmented Generation）評価に焦点を当て、...

2025.06.19

AIベンチマークLLM・言語モデル

この動画は、最近話題となったAppleの AI研究論文について、インターネット上で広まっている誤解を解説し、論文の真の意味と実用的な示唆を説明するものである。多くの人がこの論文を「AIは偽物だ」「推論は機能しない」という証拠として解釈してい...

2025.06.11

Apple・ティムクックLLM・言語モデル