Googleの共同創業者でありDeepMindのCEOであるデミス・ハサビスが、AGIの真の定義と測定方法について新たな見解を示した。彼は1911年までの知識でAIを訓練し、1915年にアインシュタインが発見した一般相対性理論を導き出せるかどうかをAGIの試金石として提案している。この提案は、単なるパターンマッチングと真の科学的推論の違いを浮き彫りにするものである。また、AGI達成には継続学習、より優れたメモリ、効率的なコンテキストウィンドウなど、あと2〜3つの大きなブレークスルーが必要だと彼は指摘する。一方で、ベンチマークの限界やマルチモーダル性の重要性など、AGIをめぐる議論は多岐にわたり、AGIは単一の瞬間ではなく能力のスペクトラムとして捉えるべきだという見方も示されている。

デミス・ハサビスが提案する新しいAGIテスト
デミス・ハサビスがAGIに関する新しいテストを提案しました。これについて詳しく見ていきましょう。ハサビスがインタビューに登場し、AGIと将来の発展について語る中で、真の人工知能についての会話が展開されました。では、AGIの真のテストとは何でしょうか。ベンチマーク、推論、ロボットを見ても、AGIについて広く受け入れられた定義は一つもありません。
確かに、人々は汎用知能と言いますが、それは実際には何を意味するのでしょうか。そこでハサビスは、本当に革新的なテストを提案します。彼が求めているテストの種類は、例えば1911年という知識カットオフでAIシステムを訓練し、その後、アインシュタインが1915年に行ったように一般相対性理論を導き出せるかどうかを確認するというものです。
これこそが、完全なAGIシステムを持っているかどうかの真のテストだと彼は考えています。AGIの私の定義は変わったことがありません。20年、30年前にこの研究を始めて以来、私が常に定義してきたのは、人間が持つすべての認知能力を発揮できるシステムということです。
なぜこれが重要なのでしょうか。まず第一に、脳は私たちが知る限り、おそらく宇宙でも、汎用知能の唯一の存在証明だからです。これも私が神経科学を学んだ理由の一部です。これが可能であるという唯一のデータポイントをより深く理解したかったのです。
そして、これが私が使う定義です。かなり高いハードルです。なぜなら、このテストに対してシステムをテストするなら、人間がこの脳のアーキテクチャでできることすべてを実行できなければならないからです。そしてこのアーキテクチャは信じられないほど柔軟なのです。今日のシステムは非常に印象的で改善していますが、それでもこれらの多くのことはできていません。
真の創造性、継続学習、長期計画など、これらのことは得意ではありません。そしてもう一つ欠けているのは、能力全体にわたる一般的な一貫性です。もちろん、状況によっては、私たちのシステムが昨年夏に行ったように、国際数学オリンピックの問題で金メダルを獲得することもできますが、それでも特定の方法で出題すれば、比較的簡単な数学の問題でつまずくこともあります。
ですから、真の汎用知能ではそういうことが起こるべきではありません。そのような凸凹した知能であってはならないのです。まだかなり多くのことが欠けています。私が求めているテストの種類は、例えば1911年という知識カットオフでAIシステムを訓練し、その後、アインシュタインが1915年に行ったように一般相対性理論を導き出せるかどうかを確認することです。
AGIテストが示す科学的推論の本質
これは本当に興味深いAGIのベンチマークだと思います。そしてこれは重要な何かを浮き彫りにしていると思います。既存の知識のパターンマッチングと、第一原理からの真の特定の科学的推論との違いです。このテストの課題は、実行するのがかなり難しいということです。なぜなら、人間が使うツールなしで結論に到達しなければならないからです。
例えば、アインシュタインは1911年の知識カットオフだけを持っていたわけではありません。彼は何年もの執念深い集中、実験を通じて構築された物理的直感、そしてローレンツの方程式やマクスウェルの方程式などへのアクセスを持っていました。ですから、AIはそのすべての文脈と創造的飛躍を必要とするのです。
このテストが説得力のある理由は、現在のAIに対する主な批判を排除するからです。基本的に、私たちは単なる高度な検索システムに過ぎないという批判です。もしモデルが純粋な推論だけで、訓練データにないものを本当に導き出せるなら、それは質的に異なる種類の知能です。
もちろん、ここでの反論は、これは真のAGIなしでも達成可能かもしれないということです。広範な汎用知能を持たずに物理法則を外挿できる非常に有能な推論システムを想像できます。一つの難しい科学的問題を解決することは、汎用的な主体性と等しくはありません。
AGIのゴールポスト問題
私はMoonshotsから、レイ・ダリオにAGIの動くゴールポストについて心配しているかどうかを尋ねるこの短いクリップをお見せしたいと思います。このAI分野で私が気づき始めたことの一つは、個人が「ああ、AIはこれができない。この基本的なテストに合格できない」と言うことです。
そして実際にそのテストに合格すると、ゴールポストは「わかった、でもこの方法やあの方法ではテストに合格できない」に移動します。ですから、ゴールポストが動き続けるなら、AGIに到達したことをどうやって判断するのでしょうか。レイさん、AGIの定義などが何度も何度も変わり続けるのを見ている中で、ゴールポストが再び動かされることを心配していますか。あなたのシンギュラリティの定義を通過しても、それでもほとんどの評論家は、シンギュラリティが実際に起こったかどうかについて長い間互いに議論し続けるでしょう。
私のものは実際にはかなり厳格です。私のAGIの定義を通過するには、数千の異なる分野の専門家でなければなりません。これは実際にはほとんどのAGIの定義よりも厳格です。ですから、私は十分に厳格な定義を持っていると思います。
AGI達成に必要なブレークスルー
しかし、AGIの達成に関して、ハサビスは他に何を言っているのでしょうか。この動画を見てみましょう。彼は実際に、AGIにはおそらくあと2つか3つのブレークスルーが必要で、そのいくつかをGoogleが現在取り組んでいると語っています。聞いてみてください。これは、LLMのバブルから一歩外に出て真の推論を見るときに、もちろん非常に真実です。
彼が語るAGIに到達するために本当に解決する必要がある重要な問題がいくつかあります。そして私は間違いなく、AGIに到達する前にあと1つか2つの大きなブレークスルーが必要かもしれないという考えの支持者です。そして、それらは継続学習、より優れたメモリ、より長いコンテキストウィンドウ、あるいはより効率的なコンテキストウィンドウと言う方が正しいかもしれません。
すべてを保存するのではなく、重要なことだけを保存する。それがはるかに効率的でしょう。それが脳がやっていることです。そしてより優れた長期的推論と計画です。既存のアイデアや技術を単に拡張するだけでそれを実現できるかどうかは、まだ分かりません。あるいは、あと1つか2つの本当に大きな洞察に満ちた革新が必要かもしれません。
もし迫られたら、私はおそらく後者の陣営に入るでしょう。しかし、どちらの陣営にいるにせよ、最終的なAGIシステムの重要な構成要素として大規模な基盤モデルが必要になるでしょう。それについては確信しています。ですから、私はヤン・ルカンのように、それらが単なる袋小路だと考える人の支持者ではありません。
私の考えでは、唯一の議論は、それらが重要な構成要素なのか、それとも唯一の構成要素なのかということです。そのクリップでは、彼がいくつかのことについて語っているのが分かります。あと2つのブレークスルーが必要だと。もちろん、継続学習、より優れたメモリ、より長いコンテキストウィンドウのような2つの巨大なステップ関数です。しかし、彼が言及しているのは、もちろん、非常に悪名高いヤン・ルカンです。
ヤン・ルカンとLLMの限界論争
ヤン・ルカンについて話している理由は、ここで完全に一周して、なぜ全員が同時に正しい可能性があるのかをお見せするためです。彼は、ヤン・ルカンが基本的にLLMはAGIへの完全な袋小路だと信じているのか、それともAGIへの完全な解決策なのかという事実について語っています。
そして、LLMはおそらくAGIへの完全な解決策ではなく、AGIが実際に何であるかのより広い部分だという意味で、彼はある意味正しいと思います。ヤン・ルカンの発言に馴染みがない場合は、絶対にありえません。そして、私のより冒険的な同僚の一部から聞けるかもしれないことは何でも、今後2年以内に起こることはありません。
フランス語で失礼しますが、絶対にありえません。データセンターに天才の国を持つというアイデアは、完全にでたらめです。絶対にありえません。おそらく持つことになるのは、十分に大量のデータで訓練されたシステムで、合理的な人が尋ねるかもしれないあらゆる質問に対して、それらのシステムを通じて答えが見つかるということです。そして、隣に博士号を持つ人がいるように感じるでしょう。しかし、隣にいるのは博士号ではなく、巨大な記憶と検索能力を持つシステムであり、新しい問題の解決策を発明できるシステムではありません。それこそが本当に博士号なのです。
これは実際に、トム・ウルフが投稿したこの投稿に関連しています。新しいものを発明するには、LLMからは得られないタイプのスキルと能力が必要です。
ARC AGIベンチマークの真実
ヤン・ルカンがLLMはAGIにつながらないと語っていることは、非常に興味深い質問です。なぜなら、彼はLLMは基本的にAGIへの袋小路だと言っているからです。しかし、ARC AGIリーダーボードを見ると、新しい大規模言語モデルの反復ごとに、能力が向上しているのが分かります。
ARC AGIベンチマークは、非常に難しいことで知られています。なぜなら、テストの設計方法が基本的に、人間だけが人間のベースラインである約80〜90%を超えられることを証明するためだからです。しかし、わずか数ヶ月、おそらく1年ちょっとの短い期間で、モデルは5〜10%から、Gemini 3 Deep Thinkが行っているような80%まで上昇しました。
これらは賢いのでしょうか、それとも単なるパターンマッチャーなのでしょうか。何が起こっているのか非常に疑問に思います。問題はこうです。残念ながら、ベンチマークはゲーム化されています。これらのAIラボがそうしていると非難しているわけではありませんが、ベンチマークはもはや、AGIに近づいているかどうかを把握するための有用なターゲットではないと思います。
それが正確に何を意味するのか見てみましょう。調査をしていたところ、このTwitterスレッドについてあまり情報はありませんでしたが、少し深く掘り下げてみました。誰かがARC AGIはあなたが思うほど良くないかもしれないという事実について投稿しているのを見ました。
ミラニ・ミッチェルが調査を行い、彼女は言いました。もちろん、これが私がARC AGIに興奮した理由です。ARCでますます高い精度を達成するための急ぎの中で、この目標が失われているのではないかと心配しています。少なくとも一部のARCタスクは、タスクデータのショートカットや偽の相関を使用して解決できます。
例えば、私たちのグループは、入力の色を表す数字が、偶然の正しい解決策につながる可能性のある算術パターンを見つけるためにLLMによって使用できることを発見しました。そして、エンコーディングを数字から他の種類のシンボルに変更すると、精度が下がることが分かりました。結果は間もなく公開されます。
彼らは他の可能なショートカットも特定しました。基本的に、完全なSubstack投稿がありましたが、すべての要点は、高いベンチマークスコアが必ずしもAIがタスクを実際に理解していることを意味するわけではないということです。完全に間違った理由で正しい答えを得ている可能性があります。
記事から最良の例は、AIモデルがARC AGIを正しく解決するとき、約70%の時間しか正しい推論を説明できないということです。人間は90%の時間で正しく説明します。ですから、約3つの正しいAIの答えのうち1つは基本的に偶然なのです。そして彼らは賢いハンス・フックについて語っています。
1904年に馬がいて、明らかに数学ができ、時計を読み、トランプのカードを識別でき、誰もが天才だと思っていました。しかし、それは質問者からの小さな無意識の表情を読んで、いつ蹄を鳴らすのをやめるべきかを知っていただけだったことが判明しました。何かには優れていましたが、誰もが思っていたものではありませんでした。
そして明らかに、これらのモデルがベンチマークで起こっていることと同じことです。つまり、精度だけではほとんど何も分からないということです。モデルが実際になぜ正しかったのかが、正しかったかどうかと同じくらい重要です。そしてこれは本当に重要なポイントです。誰かがあなたの質問への答えをただ口走っても、なぜその答えを導き出せたのかを本当に理解していなければ、本当には理解していません。
そしてもちろん、それは本当の知能ではありません。彼らが間もなく公開される結果が出たときには、もちろん更新を行います。なぜなら、おそらくARCGIに対する批判や反発があるでしょうから、興味深いでしょうし、誰もそれについて話しているのを見たことがありません。
マルチモーダル性とAGIの未来
私が考え続けていることの一つは、AGIがマルチモーダルになるという事実です。ほとんどの人はLLMがこれやあれを学習することについて話しますが、汎用知能にはテキスト以上の多くのことが必要だということを理解しなければなりません。視覚、音声、触覚、持っているすべての感覚を見てください。物理世界で推論する能力があります。
真の汎用知能には多くのことが必要になります。そして、クリスからのこのツイートを見つけました。彼は言います。もしFigure Roboticsが純粋なLLMラボよりも先に偶然AGIを解決したら面白くないでしょうか。なぜなら、彼らのビジョン・ランゲージ・アクションモデルは、ヤン・ルカンのシステムであるJeppaのように、物理的現実をナビゲートするために超正確な予測的世界モデルを構築することを強制されているからです。次の物理状態を予測します。
もしモデルが実世界の物理学を完璧に予測できるなら、その空間的および時間的推論がAGIの実際の基盤になったら面白いでしょう。彼らのHelixモデルがこのようなことを実現できるかどうか見るのは魅力的でしょう。なぜなら、彼らは世界最高のヒューマノイドロボットを持っているからです。そしてもしAGIを解明すれば、2035年以前に25兆ドルの価値になるでしょう。
ここでCEOのブレット・アドコックが言っているのが見えます。今日私が使うフロンティアラボのAIチャットボットは、まだかなり愚かに感じます。それらは高度なインターネット検索のための研究ツールです。AGIはマルチモーダルになります。あなたの話を聞き、あなたに話しかけ、世界を見て、ほぼ完璧な記憶を持ち、深くパーソナライズされ、世界と相互作用できるようになります。
AGIが完全にマルチモーダルであるというその点については、心から同意します。純粋なLLMシステムと、Figureが使用しているようなマルチモーダルVLA、彼らの新しいHelixシステムのようなものを比較すると、彼らが実際に行っていることとAGIの真の定義のために、ある意味でそれがAGIにつながる可能性があると思います。
AGIについて、そして実際にAGIを定義できるものについて疑問に思っているなら、ヨシュア・ベンジオがここで非常に明確に述べていると思います。彼は、AGIは何か一つの決定的な瞬間ではないと言います。それは実際には能力のスペクトラムであり、これらの能力が増加するにつれて、ますます優れたモデルが得られるだけです。
それは一つの瞬間ではありません。理由は簡単です。知能は単なる一つの数字ではありません。私たちにはいくつかのことに非常に賢く、他のことには愚かな人々がいます。そしてAIも同じです。現在、私たちは知識において、非常に多くの言語などでの能力において、いくつかの点で人間よりもはるかに強力なAIシステムを持っています。
そして他の点では、彼らは愚かです。子供のようです。はい、進歩はおそらくすべての前線で進むでしょうが、しかし、どの瞬間においても全体にわたって人間と同じ能力を持つことはないでしょう。つまり、AGIの瞬間のようなものについて考えるべきではないということです。AIが上達している特定のスキルについて考えるべきです。
それらのスキルを追跡し、それぞれについて、どの目的にどれだけ有用または有益であるか、またどのように悪用される可能性があるか、あるいは制御を失った場合、AIがそれを私たちに対して使用する可能性があるかという質問をすべきです。
AGIとシンギュラリティへの展望
今後数年でAGIを手に入れるかどうかにかかわらず、多くの人々がその質問についてあまり気にしなくなり始めています。彼らは依然として、次の25年または次の50年が、過去25年または過去50年とほぼ同じように展開することを期待しています。2000年から2025年の間には多くの技術的変化がありますが、それは適度な量の変化であり、彼らは2050年には2000年から2025年の間と同程度の変化があると予想しています。たとえ2030年にAGIを手に入れると考えていても。
彼らはAGIが単にその種の継続的な穏やかな改善を推進するものだと考えています。一方、私は2050年までに、世界が今日と同じくらい狩猟採集時代とは異なって見える可能性がかなりあると思います。つまり、25年の進歩ではなく、1万年の進歩のようなものです。AIがすべての知的活動を自動化することによって推進されます。
AGIについて皆さんがどう思うか教えてください。次回お会いしましょう。アンドリュー・ブラックでした。AI Gridをご覧いただきありがとうございました。皆さんが素晴らしい時間を過ごせますように。


コメント