LLM評価

AIエージェント

なんでこんなにAIエージェントは失敗し続けるんや?

この動画は、AI界で注目されているModel Context Protocol(MCP)エージェントの性能問題を深掘りした内容である。Salesforceの研究に続いて発表された学術論文「MCP 101」を詳しく解説し、7つのエラー分析フレ...
GPT-5、5.1、5.2

GPT-5 MCP大惨事:50%以下でCURSOR使えへん?

この動画では、Salesforce AIが発表したMCP Universe benchmarkについて詳しく解説されている。モデルコンテクストプロトコル(MCP)を使用したエージェントAIシステムの実際のパフォーマンスを、GPT-5やCla...
AGI・ASI

衝撃!AIの「創造性」は高度に予測可能であることが研究で判明

この動画では、AIの創造性に関する議論を取り上げている。研究者らは拡散モデルによる画像生成が実際には高度に予測可能であることを発見し、AIの「創造性」の本質に疑問を投げかけた。一方で人間はAI生成のアイデアをより創造的と評価する傾向があるが...
AIベンチマーク

LLM評価を簡単に設定する方法(チュートリアル)

この動画は、Amazon Bedrockを使用してLLM(大規模言語モデル)の評価システムを簡単に構築する方法を詳細に解説したチュートリアルである。特にRAG(Retrieval-Augmented Generation)評価に焦点を当て、...
Apple・ティムクック

Appleの AI論文についての大きな誤解—みんなが見逃している本当のポイント

この動画は、最近話題となったAppleの AI研究論文について、インターネット上で広まっている誤解を解説し、論文の真の意味と実用的な示唆を説明するものである。多くの人がこの論文を「AIは偽物だ」「推論は機能しない」という証拠として解釈してい...