ベンチマーク問題

AI研究

ルカンはLLMが行き止まりだと発言し、そしてMetaがベンチマークを改ざんしていたことを暴露した。その両方が重要である理由

AI業界における5つの重要な動きを分析する。OpenAIとAnthropicの医療分野参入はIPO戦略の一環であり、ヤン・ルカンのMeta退社とLLM限界論の主張は業界の根本的な方向性に疑問を投げかける。物理AIとロボティクスでは、ファウン...
AIハルシネーション・幻覚

なぜ人工知能は幻覚を見るのか?そしてなぜAIベンチマークは偽物なのか?すべてを理解する

本動画は、AIが「幻覚」(ハルシネーション)を起こす根本的な理由と、その問題を解決するための技術的アプローチを詳細に解説している。OpenAIをはじめとする各社の研究によれば、AIは確率的な仕組みで動作するため、訓練データに希少な情報や、明...
GPT-5

GPT-5.2は愚かである(私はベンチマークにうんざりしている)

GPT-5.2が発表され、ベンチマーク上では優秀なスコアを記録したものの、実用面では深刻な問題を抱えていることが明らかになった。文字数カウントのような基本的なタスクでの失敗や、不自然な計算結果など、実際の使用感とベンチマーク性能の乖離が顕著...