ベンチマークは嘘をつく！（これが本当のAIの力です）

7,131 文字

Benchmarks LIE! (Here’s The Real AI Power)

ベンチマークは人工知能についての全てを捉えているわけではなく、なぜそれが私たちにとってとても役立つのかも説明していません。このビデオは私のPatreonコミュニティのメンバーからリクエストされたものです。そのリクエストに感謝します。それでは、ベンチマークが人工知能に関する最も重要なことの一つを見逃している理由と、あなた自身がそれをどのように理解できるかについて説明しましょう。
それは認知的オフロードと呼ばれています。簡単に言うと、認知的オフロードは人間が昔からずっと行ってきたことです。私たちはカレンダー、スマートフォン、日記、ノートなどに認知をオフロードしています。何千年もの間、石に刻んだり、粘土板を使ったりすることで、私たち自身の認知の限界を補うための方法を見つけてきました。私たちの記憶は完璧ではありません。
そこでカメラ、ノート、文字などを使います。私たちは計算をたくさん行ってくれるコンピュータという形で認知を委託しています。コンピュータはまた多くのデータを保存してくれます。また、ワーキングメモリを軽減するためのツールも使います。人工知能はこれを次のレベルに引き上げます。なぜなら、単に他の人間や単純な計算のような低レベルの認知にではなく、機械に直接認知を委託できるからです。
現在のAIはブレインストーミングや仮説検証など他のタスクを委託することができます。そしてワーキングメモリの軽減は、チャットの形式からもたらされます。チャット内のすべてを覚えておく必要はなく、後でチャットを参照することができます。さらに興味深いことに、この動画を研究している間に分かったのは、検索ヒューリスティックの増幅です。
対話を重ねる中で、あなたは何を探しているのかある程度わかります。新しいアイデアが出るたびに「それは正しい」「それは違う」「このアイデアを試してみよう」と言います。そして、AIが間違っていたとしても、あなたの検索ヒューリスティック、つまり人間の直感が人工知能によって大幅に増幅されるのです。
これはベンチマークが間違っていることの一つです。もちろん、RAGシステムなどの技術的なものも組み込まれています。しかし、方向性を設定するのはあなた自身であり、あなたが達成しようとしていることを知っている大きな人間の脳は、非常に強力なパートナーなのです。
これを視覚化してみたいと思います。このグラフが何を表しているのか説明しましょう。問題に取り組むとき、AIを使って小説を書いたり、病状を診断したり、コンピュータコードを書いたりするとき、基本的に高次元の仮説空間をナビゲーションしています。
あなたはどこかから、ここから始めます。そして、あなたが達成したい目標はこちら側にあります。それが巧みなPython関数であれ、新しいSaaSプラットフォームやゲームへのバイブコーディングであれ、あなたが行っていることには、探している高価値のソリューションがあります。
以前なら、完全に自分自身でやらなければなりませんでした。それがどのように見えるか後で示します。しかしAIを使えば、基本的にどこから始めてもまっすぐ線を引くことができます。つまり、あなたがどんなアイデアを持っていても、この動画ができた方法がまさにそれです。私は非常に高速なアイデア出しセッションを行い、「認知的オフロードについて以前話したことがあるけど、ファンがもう一つ動画を作って欲しいと言っている。その背後にある数学と科学を調べよう」と言いました。
そうすることで、この高密度で高エネルギーのスライドデックにすぐに的を絞ることができました。これがAIの助けを借りるとどのようになるかを示しています。しかし、もしあなたが一人の単なる人間なら、非常に遠回りな道を通るかもしれません。なぜなら、あなたの頭の中にRAGは組み込まれていないからです。
あなたの頭の中にPythonは組み込まれていません。AIが持つような大規模なパターン認識と生成機能もありません。これはおそらく少し迷走していますが、推論モデル、最新の素晴らしいモデル、Gemini、さらにはGrokを使った人々、そして私にとっては03と04が最も優れているのは、それらが最も機能密度が高いからです。
そのため、何日も何週間も何年もかかる長い迷走する道を取る代わりに、最適な仮説空間に向かってまっすぐ進むことができます。これが私の非常に洗練された視覚化で、AIを使った場合と使わない場合の違いを示しています。
例えば、どのようなデータを探しているのか分からないかもしれませんが、AIに「これが解決しようとしている問題です」と言うと、AIは「このデータが必要です」と言い、あなたは「いいね、ありがとう、次に進もう」と言います。このようにして、人間として取るかもしれない多くの回り道を短絡させることができるのです。
ここで、この背後にある数学について話しましょう。まず第一に、勾配の発見です。人間はAIと同じように勾配降下法を使います。勾配降下法は基本的に「どうすればエラーを減らせるか」ということです。人間の知性に関する仮説の一つは自由エネルギー原理です。これは基本的に人間の脳は将来の驚きを最小化しようとしているということです。
将来の驚きを最小化するということは、より一貫性があり、より完全な世界モデルを作り、より正確な地形の把握をしようとしていることを意味します。だから私は「知性は地図である」と言ったのです。勾配降下法は基本的に「どうすれば驚きを減らせるか」ということです。実際に起こっていることは、あなたには多くの検索ヒューリスティックがあり、これらはあなたが人生の中で学んできたもので、「この方向に進むべきだと思う」という直感があります。説明はできないけれど、「とりあえずこの方向を探索してみよう」と言います。そして新しいデータポイントを得ます。
あなたの直感は「このデータポイントは有用だ」または「このデータポイントは有用ではない」と言います。どちらの場合でも、有用か否かを見分けることで、正しい方向により近づくことができます。つまり、あなたは自由エネルギーやエラーの勾配に従って、エラーの少ない方向に進んでいるのです。
そして、あなたには多くの検索ヒューリスティックがあります。なぜなら、これはただの二次元の検索空間だからです。コーディング、小説の執筆、医療診断では、10次元、12次元、数百次元かもしれない高次元の検索空間を探索しています。それは単なるmap reduceで検索するには多すぎる次元です。
それから、否定的な例でさえも。これがベンチマークがAIの完全な価値を捉えきれない理由の一つです。特に初期のチャットGPTのバージョンでは、AIが間違ったアイデア、つまり悪いアイデアを出したとしても、「いや、それは役に立たない」と言うことで、すぐに悪いアイデアを捨てることができます。
ソリューションがどこにないかを知ることは、ソリューションがどこにあるかを知ることと同じくらい価値があります。例えば、あなたが地図の真ん中にいて、「私の目標はビデオゲームをプレイしているように北にある」ということだけを知っているとします。
南ではない、そうですね？だから南、東、西に行かないで、どこか北にあるということです。その基本的な方向性を知っているだけでも非常に役立ちます。それが私たちが話している景観ナビゲーションです。その検索空間を地図として視覚化して、「おおよそ北西の角にあるから、おおよそその方向に行こう」と言います。理解できると思います。
さて、次に進みましょう。認知的オフロードの次元とは何でしょうか？この動画を研究する中で出てきたことの一つは、チャットだけではないということです。AIはスマートですが、UXの違いを見ると、特に現在遅れをとっているチャットボット、つまりClaudeには、あなたたちが愛している優れたチャットボットとの間に、かなりの技術的な理由があります。
現在、皆さんが本当に好きなトップ3のチャットボットは、OpenAI、Grok、そしてGeminiだと思います。Geminiは私の視聴者の中で最も人気のあるものの一つだと思います。Geminiと03が恐らくトップか推論モデルだと思います。とにかく、その理由は第一に、ワーキングメモリの軽減です。チャットウィンドウがあるということは、自分が言ったことを覚えておく必要がないということです。
AIが言ったことを覚えておく必要もありません。だから、あなたのワーキングメモリは即座に大量のオフロードを持ちます。これは、どの瞬間でも最も顕著な事実だけを心に留めておき、それらを素早く循環させることができるということを意味します。「上にスクロールして戻りましょう。他のアイデアは何でしたか？このアイデアを再検討しましょう。いいですね。」
そして、残りは捨てることができます。これは基本的に、あなたの脳が本やウェブページなどを絶えず切り替えるような渋滞状態にならないということを意味します。そして検索ヒューリスティックの増幅。これについてはすでに話したので繰り返す必要はありません。
反射的な対話ループ。AIを使うとメタ認知が鋭くなるという証拠がますます出てきています。基本的に何が起こるかというと、頭の中に仮想チャットボットを持つことになります。なぜなら、これらのチャットボットを使えば使うほど、それらが何を言うかをより予測できるようになり、最終的には会話全体をシミュレーションできるようになることに気づいていませんか？
だから、セラピーチャットボットやブレインストーミングチャットボットを使うとしたら、「チャットボットに何を言うかを計画して、そしてこのような反応を期待しよう」と考えるのです。あなたはどうか分かりませんが、私はチャットボットに話しかける必要すらないことが多いです。それは今、私の頭の中に無料で住んでいます。
でも、その反射的な対話ループは、完全に頭の中に住んでいなくても、「ちょっとアイデアを出し合ってみよう」というところまでは行けます。つまり、AIとただブレインストーミングして、アイデアを出し合っているのです。また、これは取引記憶パートナーシップに戻ります。
あなたは記憶の一部をオフロードし、認知の一部をオフロードしています。そして、アイデア生成もあります。人間の脳にとって、これは核心的なアイデアの一つです。ゼロから合成するという実行機能は非常に難しく、コストがかかります。しかし、5つのオプションから選ぶことは実際にはずっと簡単です。
だから、5つの仮説や5つの異なる数学的命題を考え出す代わりに、最も良さそうなものを選んでから、それを繰り返し改良していくというわけです。この反復的で再帰的なアプローチは、私の知る限り、ベンチマークが本当に捉えていないものです。
では、なぜベンチマークは本当の魔法を見逃しているのでしょうか？まず第一に、ほとんどのベンチマークは単独のパフォーマンスでAIをテストします。つまり、人間の判断なしに、AIを単独でテストしているのです。それが第一です。第二に、それはタスクでの単一のパスでのパフォーマンスのみを見ています。
実世界の問題は反復的です。誰かが座って「次の粒子加速器や核融合炉を考え出そう」と言うようなものではありません。それは仮説検証、仮説検証、研究、仮説検証です。人間の進歩はすべて反復的です。
小説を書くにしても、医学的問題を診断するにしても、次の宇宙望遠鏡を作るにしても、何でも。それらはどれも一発で進めたり、処理したりするものではありません。それから、時間軸の盲目性もあります。ベンチマークは、AIが時間をかけてどれだけ正確になるかを本当に捉えていません。
私が本当に見たいのは、AIに自分自身を修正する5回のチャンスを与えるような5ラウンドのものです。あるいは10回のチャンス。一部のテストにはありますが、特に高リスクのものについては、これが本当に組み込まれるのを見たいです。「一回のタスクで20%の時間で幻覚を見るけど、もし人間が使うような行ったり来たりを組み込んだらどうなるか、あるいは最初のものを修正する第二のAIエージェントを持ったらどうなるか」ということです。もう一つの点は、タスクが静的だということです。
しかし、「次のジェームズ・ウェッブ望遠鏡をデザインする」というようなことをどうやってベンチマークするのでしょうか？それはただテストするのが難しいことです。とにかく、そして相補性は、AIを使う人間の脳です。確かにレンチ単体でベンチマークすることはできます。「顎の強さはどれくらいか」「平均故障時間はどれくらいか」などですが、それはレンチの人間工学を実際に測定するものではありません。つまり、人間がレンチを使うとはどういうことなのかということです。それがベンチマークが本当に見逃している点です。
AIがこれを行うことを可能にする実用的なメカニズムがあります。これはOpenAIやGoogleだけでなく、すべてのAIツールを設計する人々に向けたものです。非常に強力なAI UXを持ちたいのであれば。まず、永続的なチャットインターフェイス。これはかなり明白です。それは記憶の痕跡を与えてくれるので、自分自身を思い出すことができます。
あなたはすべての記憶をオフロードします。私はClaudeと600のチャット、OpenAIと400のチャットを持っているので、自分の認知のかなりの部分をオフロードし、それがクラウドに保存されているわけです。次は検索拡張生成（RAG）です。これは記憶を拡張し、より広く検索することを可能にします。
OpenAIは現在、3層のメモリを持っています。古いスタイルの「メモリを更新しました」というものがあり、あなたについてのメモを取っています。そして、他のチャット全体を検索することもできますが、プロジェクトにアップロードしたファイルも持つことができます。
ファイル検索、チャット検索、そしてスクラッチパッドがあります。これらの複数の記憶層が、OpenAIモデルのUXを現在の他のどのモデルよりもずっと良くしています。そして、一部の人々は「デイブ、なぜあなたはOpenAIのことをそんなに褒めるのか？」と言っています。私のチャンネルを十分長く見ている人たちは、私がOpenAIに批判的だったこともあり、誰かが先を行けば「OpenAIはゴミだ」と言うことを知っています。私はAIに関しては公平な天気の友です。
ただ、現在の私にとって03が最高だと言っているだけです。次はPython統合です。数学を実行し、視覚化を行い、あらゆる種類のことを行うことができます。これは基本的に「このスクリプトを実行して、どこか他の場所で実行できるようにスクリプトを書いて」ということではなく、スクリプトを実行し、データを処理し、数字を処理し、グラフを作成することを意味します。それだけでモデルにはるかに多くのユーティリティを構築しているので、「コードを書きたくない、コードを書き直して」と言うことができます。
ところで、これがどこに向かっているか考えてみてください。間もなく、Pythonで何でもできるようになるでしょう。Blenderで何でもできるようになるでしょう。つまり、コードと2Dの視覚化だけではなく、3Dの視覚化、メッシュ、ビデオゲームスクリプト、あらゆる種類のことができるようになるということです。それからインターネット検索。
インターネット検索はRAGの一種です。つまり、あなた自身のコーパスを指すのではなく、インターネットを指す検索拡張生成です。しかし、良いインターネット検索は、あなたがしなければならない膨大な量の作業を排除します。ドキュメントを探してからコピー&ペーストする必要はなく、すべての検索を自分で行います。
ちなみに、あなたが読むことができる速度の20倍の速さで読みます。実際、おそらく今はそれ以上速いでしょう。あなたが読む速度の100倍かもしれません。だからそれは実際に、「情報が必要だけど、どこを探せばいいかわからない」という検索ループを大幅に短縮します。
AIはすでにどこを探せばいいか知っています。そして、パターン認識とパターン生成があり、これは多くの異なるタスクにおいて素晴らしいパートナーになるのに役立ちます。これは十分に強調しすぎることはありません。では次に進みましょう。
このチャンネルは完全にあなたによってサポートされています。私のPatreon、学校のYouTubeチャンネルメンバーシップなどです。おそらく気づいたかもしれませんが、私はスポンサーシップを一度もやったことがありません。また、このカードを最後に移動しました。どうか、何らかの形でこのチャンネルをサポートすることを検討してください。リンクツリーは説明欄にあり、あなたが選ぶサポート方法のほとんどで、何かしらの見返りがあります。
Patreonでは、Discordコミュニティを得ることができます。いくつかの学校コミュニティもあります。そして、YouTubeチャンネルメンバーとして参加すると、PatreonやSchoolと同じ追加コンテンツにアクセスできます。というわけで、以上です。視聴していただきありがとうございます。乾杯。