ベンチマーク問題

AIハルシネーション・幻覚

なぜ人工知能は幻覚を見るのか?そしてなぜAIベンチマークは偽物なのか?すべてを理解する

本動画は、AIが「幻覚」(ハルシネーション)を起こす根本的な理由と、その問題を解決するための技術的アプローチを詳細に解説している。OpenAIをはじめとする各社の研究によれば、AIは確率的な仕組みで動作するため、訓練データに希少な情報や、明...
GPT-5、5.1、5.2

GPT-5.2は愚かである(私はベンチマークにうんざりしている)

GPT-5.2が発表され、ベンチマーク上では優秀なスコアを記録したものの、実用面では深刻な問題を抱えていることが明らかになった。文字数カウントのような基本的なタスクでの失敗や、不自然な計算結果など、実際の使用感とベンチマーク性能の乖離が顕著...