AGIは既に起きていて誰も気付いていないのか?? (クリップ)

9,788 文字

https://www.youtube.com/watch?v=5cw22qez4xc

TSPリアクトの前回のエピソードから数週間が経ちました。通常、クリスマス休暇中はテクノロジー業界に限らず、あまり大きな動きはないものですが、AI業界では進歩が止まることはありません。実際、この数週間はAGI（人工汎用知能）に向けた競争と進歩において大きな展開がありました。
まずはOpenAIの新しいo3モデルについて話しましょう。これは彼らの最新のフロンティアモデルですが、私の知る限り、まだパブリックベータでさえ利用できない状況です。しかし、彼らはいくつかの数値、ベンチマーク結果、そしてかなり印象的なデモを公開しています。
特に議論する価値があると思うのは、Arc AGIというベンチマークでの大きな進歩です。Arc AGIプライズは、フランソワ・ショレという研究者によって設計されたベンチマークです。以前の番組でも触れましたが、彼は世界をリードするAI研究者の一人です。このベンチマークは、特にLLMsが解くのが難しいように意図的に設計されています。つまり、このベンチマークで進歩を示すことは、創造的思考や問題解決能力、そして根本的には真の知性に向けた進歩を意味するのです。
o3は、この特定のテストで既存のすべてのモデルを圧倒的に上回りました。チューニングされたバージョンでは88%のスコアを記録しています。参考までに、o1は32%しか達成できていませんでした。つまり32%から88%への飛躍です。88%は賢い人間が達成できるレベルとほぼ同等です。
もちろん、ゴールポストを動かすのは簡単です。「おそらくこのArc AGIベンチマークが十分に難しくなかったのだろう」と言って、新しいベンチマークを作るべきだと主張することもできます。でもクリス、あなたの考えを聞かせてください。これらのLLMsがより多くのことをできるようになり、さまざまな方法で汎用性を示せば示すほど、それが本当のAGIかどうかという問いはますます学術的なものになっていきます。なぜなら、人間ができることの多くを、これらは既にできるようになっているからです。
クリス: そうですね。12日間の発表の各日を、私は息を詰めて見守っていました。毎日のライブストリームの開始を待ちわびていて、ご指摘の通り、最初の5日間くらいについては去年のリアクトで話し合いましたが、o3の発表には衝撃を受けました。実際、かなり感情的な反応をInstagramのストーリーに投稿したほどです。
私が受け取った印象は、これが控えめに言っても、ほとんどの活動において大半の人間と同等かそれ以上だということです。もしこれがAGIでないとしたら、AGIとは一体何なのでしょうか。彼らが示したベンチマークは数学の分野と、あなたが言及したArcテストでした。これは人間特有のパズル解決能力を測るために設計されたものですが、彼らは何気なく人間の能力を超える結果を示しました。
私はそこに座って、HBOで新しいビル・マーのスペシャルが放送されているように「他の人々もこれを見ているのだろうか」と思いました。しかも、反応は比較的控えめでした。CNNが「OpenAIが基本的にAGIを手中に収めた」と報道するくらいのことを期待していたのですが。彼らが言及した内容の重要性と、それを伝えた控えめな方法には大きな乖離があるように感じます。
私は本当に深く、深く感銘を受けています。動揺し、興奮し、恐れを感じ、そしてスリリングです。すべてを同時に感じています。o3の重要性は実際よりも過小に報道され、控えめに表現されていると本当に思います。
そして、議論したいもう一つの話題であるサムのAGIに関する投稿に話を繋げると、その投稿の多くは彼らのミッションの要約と再確認ですが、終わりの方に1、2段落あって、そこには「私たちにはAGIへの道筋が見えている」「今年中に基本的にそれを達成する」そして「その後は超知能に注力を移す」といった内容が書かれています。
待ってください、何ですって？まず第一に、もしベンチマークを信じるならo3は既にほとんどの人間と同等かそれ以上の能力を持っているのに、なぜAGIではないのでしょうか？第二に、休暇中にブログ投稿に埋め込んで何気なく公開するには、かなりカジュアルすぎる内容ではないでしょうか。そして、次の課題として、ここに来て「スカイネット」が待ち構えているわけです。
私が言ったように、私にはあらゆる感情があります。多くの人々は「過剰に誇張する必要はない」「人々はこれを受け入れて前に進むだけだ」「そんなに大きな違いにはならない」と指摘するのが早いですが、それは正しい場合もありますが、そうでない場合もあります。次に何が起こるのかを見るのが本当に興味深いです。
ホスト: リスナーへの補足として、AGIつまり人工汎用知能について、そしてサムが具体的に「従来の考え方では」と言及した点について説明しましょう。これは人間が行う可能性のある広範な認知タスクにおいて、おおよそ人間と同等の知能レベルを指します。超知能は次のステップです。これは人間の知能を大きく超える知能を意味します。
ある意味で、AIシステムの発展を考えると、人間レベルの知能は進歩の道筋においてほぼ恣意的なマイルストーンといえます。AGIに到達し、そしてそのまま超知能へと進んでいく、それをサムは述べているのです。
クリス、あなたが言及したことについて、私にはいくつかの考えがあります。構造立てて反応を示していきたいと思います。これはリアクトのエピソードですからね。
まず、人々があなたが予想するほど強く反応していない理由について、いくつかの要因があると思います。一つは、人間のあらゆることへの適応能力が信じられないほど高いということです。6ヶ月前には魔法のように感じられたものが、今日では日常的なものになります。実際、フロンティアLLMsについて人々が話すとき、ChatGPTなどについて、その欠点に焦点を当てます。たった2年前には毎日対話することさえ想像できなかった驚くべき技術であることではなく、欠点に注目するのです。これが過小報道される一つの理由だと思います。
二番目のポイントは、私たちが非常に強力なハイプサイクルの中にいるということです。新しい技術が登場したとき、最初はある程度持ち上げられ、人々は実際以上のものを期待します。その後、失望と絶望の谷に陥り、最終的にその技術が提供する実際の影響力のレベルに落ち着きます。
ここまでの技術レベルと進歩のスピードを考えると、このハイプサイクルの影響を受けないと思うかもしれませんが、そうではありません。なぜなら、驚きや失望は期待と現実のギャップだからです。このハイプサイクルは期待値を途方もなく高く押し上げたため、たとえ現実が信じられないほど素晴らしいものであっても、時として失望を感じることがあるのです。
実際、多くの人々がAIを自分たちのワークフローやビジネス、製品に組み込もうとしていますが、それは簡単ではありません。現代のLLMsの欠点が、しばしば素晴らしい製品を作る妨げとなっています。素晴らしいデモを作ることはできますし、非常に有用ですが、AIとLLMsの完全な可能性はまだ実現していないと思います。
そのため、人々は「ああ、またOpenAIから発表があって、さらに印象的で、ベンチマークも達成している」と言いますが、「いつになったら使えるAI SDRが手に入るんだろう」「いつになったらクリンジーではないAI生成コンテンツが得られるんだろう」「いつになったら私のワークフローを完全に自動化して、ソフトウェアエンジニアを全員解雇できるんだろう」と考えます。それらはまだ現実となっていません。だから人々は集団的にある種の肩をすくめる反応をしているのだと思います。
クリス: 知的不気味の谷というものがありますよね？そう思います。リスナーの多くはご存じだと思いますが、不気味の谷という概念は、顔がよりリアルになればなるほど、私たちはより感情的にそれに引き寄せられるというものです。漫画やロボットの顔を考えてみてください。よりリアルになればなるほど、私たちはそれに引き寄せられます。
しかし、ある種の崖っぷちのような地点があって、顔は非常にリアルだけれども十分にリアルではない状態になると、私たちの感情的な愛着、感情的な引力は急落します。なぜなら、その顔は本物っぽく見えるけれど、病んでいるように見えたり、本物っぽくて不気味に見えるからです。不気味というのが適切な言葉だと思います。
研究者たちは、これは人間が病気を認識することに関連していると考えています。私たちが本能的に距離を置きたくなるような何かです。そこには愛着の谷があり、完全にリアルになると、その愛着は再び急上昇します。私たちは2つの点と弧で描かれた目と口から、漫画や3Dアニメーションまで、あらゆるものを愛することができます。しかし、その3Dモデルが少しでもおかしく見えると、私たちは身を引きます。その谷間が不気味の谷と呼ばれています。
AIも時々、この知的不気味の谷に迷い込むように見えます。人間に十分近いけれども、完全には近くない状態で、「ああ、これは缶詰めっぽい」とか「ロボティックだ」と感じます。そしてあなたの言う通り、よく見るとAIは私たちが望むよりも頻繁に不気味の谷に落ちます。
しかし、サムが何度か指摘しているように、私たちはチューリングテストを軽々と超えてしまい、人々にとってはそれは単なる日曜日の出来事のように感じられています。チューリングテストは、機械が人間のような文章を作れるはずがないという、不可能で信じられないものに思えていました。
また、ChatGPTが多少ロボティックに感じられる理由の一部は、それが意図的にそうなるように求められているからだと私は感じています。強化学習や要件の中で、過度に丁寧で、差し異的で、プロンプトに従順であることを求められており、それがより機械的な印象を与えているように思います。これはほとんど意図的なもので、魂を持った生き物というよりも、サービスを提供するものであることを強調するためだと感じています。
もしかしたら私は状況を誤読しているのかもしれませんが、システムメッセージの中で「できるだけ人間らしく、カジュアルに振る舞ってほしい」「相手を欺くように努めてほしい」と指示すれば、一般消費者向けのChatGPTよりもっと人間らしくなるのではないかと考えたことがあります。
でも、あなたの言う通りです。よく見ると、わずかに及ばないように見えます。それは明らかに時間の問題で、サムのAGIに関する投稿でも示唆されているように、そこに向かっているようです。
ホスト: その話題から移る前に、人々がこれらの進歩に対して、本来あるべき程度ほどには感銘を受けていない理由について、私が考える三つ目の理由を挙げたいと思います。これは私自身が個人的に感じていることで、あまり広く議論されていない点です。
他のシステムとは異なり、知能を評価することは非常に難しいのです。スタートアップポッドキャストやその他の場所で話題に上がる、人材採用の難しさと同じような面があります。誰かの頭の中にある汎用知能があって、その人が様々なことをどれだけうまくできるかを理解しようとしているからです。
LLMについても同じことが言えます。もちろん、ベンチマークに関する情報などを読むことはできますが、新しいモデルが出たと聞いたとき、私がすることはChatGPTやGeminiを起動して試してみることです。そして今、これらのモデルの能力は、私が試す方法をはるかに超えていることに気付きました。
クリスね、これは例えば、私が彼らと会話をして「LinkedInの投稿を書いて」とか「このトピックについて話そう」というような感じですが、実際にはこれらは高度な数学や計画立案など、本当に多くのことが得意なんです。そのため、これらの知能が今進歩している課題の種類について考えず、一般的な会話やコンテンツ作成という、知能の非常に小さな側面だけに着目していると、例えばo1がChatGPT 4より多くの面で本当に優れているとは感じられないことがあります。しかし、難しい課題を与えると、大きく引き離してしまうのです。
そのため、新しいモデルが、ChatGPT 3からChatGPT 4への移行のように、人々の心に直感的に響かないポイントに来ていると思います。これらはより専門的な能力を持っているため、カジュアルに接すると、点滅するカーソルの背後にある知能は、多くの面で古い知能と同じように見えます。そのため、驚きと感動の感覚は、これらの新しいモデルではより捉えにくくなっています。特定の実世界の課題に適用したときにのみ、その真価を発揮するのですが、一般的にはそのように考えられていません。
クリス: それは本当に鋭い洞察だと思います。私たちは、これらのエージェントに何を頼むかについて、ある種の筋肉の記憶のようなものを発達させてきましたね。「これを書き直して」とか「買い物リストを作って」といった具合です。そのため、o1やそのうちo3でも、それをするのがさほど上手くなっているようには見えません。なぜなら、それはもう解決済みの課題だからです。創造的な文章を書く練習で、それはもう十分にできています。
そして新しいモデルが出てきて「買い物リストを書いて」と言うと、「はい、いいですよ、はいこれが買い物リストです」という感じです。しかし、多くの人々は、十分に創造的でなかったり、知的でなかったり、思慮深くなかったり、時間がなかったり、理由は何であれ、「では材料科学の課題を与えて、どうなるか見てみよう」とはしません。
あなたの言う通り、私たちの筋肉の記憶は、既にやったことをまた頼むことにとどまっています。私は特に、就職面接での誰かの評価という類推が気に入りました。人間の知能と能力を評価することは難しく、したがって人間のような知能の評価も同様に難しいはずです。カジュアルな会話だけでは理解できるものではありません。
例えば、材料科学の博士号を持つ人に対する面接で、LinkedInの投稿を書かせたり買い物リストを作らせたりしたら、まず第一に彼らの本当の知能を試すことにはならないでしょう。第二に、彼らはそれが実際にあまり得意ではないかもしれません。
以前は、ソフトウェアとその能力を評価するのは比較的簡単でした。それらは明確に定義されており、人間によって定義されていたからです。しかし今、私たちが話してきたAIのインターフェースの課題のように、それは単なるプロンプトであり、その振る舞いはある意味で未定義なのです。ベンチマークを客観的に見るのではなく、主観的に品質を評価することはますます難しくなっていると思います。
クリス: 彼らの知能と効果を評価する方法を知っています。OpenAIの製品マーケティングとネーミングの慣習を、もっと分かりやすく、自己説明的になるように再設計するよう依頼すればいいんです。
ホスト: 本当に信じられないですよね。発表は「o1の次のバージョンをリリースします。o2と呼ばれると思うでしょうが、史上最悪の名前を付ける私たちの継続的な努力の一環として、o3と呼ぶことにしました」というような感じです。一体何を意味しているのでしょう。
クリス: 明らかにO2とフランステレコムか何かの商標問題に遭遇したんでしょうね。Windows XP時代以来、最悪の命名規則です。
ホスト: AIの話題を終える前にクリス、12日間のOpenAIの期間中にもう一つ注目すべきことが起きました。Googleのことです。計画的だったのか、偶然だったのか、あるいは彼らが珍しく反応的で素早く動いた例なのかもしれませんが、OpenAIの12日間の半ばくらいで、Googleも「12日間のGemini」のような形で始め、Geminiに関する素晴らしい発表をいくつか行いました。
特に、彼らは新しいフロンティアモデルであるGemini 2.0を発表しました。現在これらのモデルには通常、いくつかの異なるレベルがあります。数十億または数百億のパラメータを持つ巨大なものと、数百万のパラメータを持つより小さなものです。
私にとって興味深かったのは、Gemini 2.0 Flashです。これは彼らの小さな、数百万パラメータのモデルで、非常に高速で、はるかに安価です。そして、彼らのフロンティアモデルだったGemini 1.5 Proを凌駕し、ChatGPT 4oなどと同等のパフォーマンスを示しています。
スタートアップを運営するあなたにとって、重要なポイントは、まず第一に、Flashでははるかに安価なトークンにアクセスできることです。また、これらの小さなモデルは推論の面で一般的により応答が速いため、より高速です。
先日、形式的にどう測定するのかは分かりませんが、概念として直感的だと思う用語を耳にしました。「知能あたりのコスト」です。トークンあたりのコストが上がっているか下がっているかは言えません。モデルによって異なるからです。しかし、特定のモデル知能レベルでのトークンのコストを三角測量すると、それは下がり続けています。
Gemini 2.0 Flashは、知能あたりのコストにおいてもう一つの大きな改善です。ChatGPT 4レベルの知能、あるいはさらに賢い知能を、わずか6ヶ月前にChatGPT 4に支払わなければならなかった費用の何分の一かで手に入れることができます。それは興味深いと思います。Googleは急速に追いついています。
クリス: 実際、OpenAIの発表の多くも同様でしたね。o3のミニバージョンがo1のプロバージョンと同じくらい強力だという具合です。
彼らの発表で私の目を引いたのは、特にプロジェクトMarinerです。これはブラウザプラグインあるいはChromeに組み込む機能を持っています。KmanとGoogleがChromeにGeminiを組み込むことに躊躇している理由について話していました。反トラスト法の調査や政府からの注目のためです。ChromeにGeminiをバンドルすることはできません。多くの精査を受けることになるからです。
しかし、ほぼ一夜にして政権交代と態度の変化が起きました。トランプ政権は間違いなく、アメリカ企業が世界の他の国々よりも大きく、速く、より強力に成長することを推進するでしょう。彼の気まぐれな見方を読み解き、理解しようとすると、彼はただアメリカが勝つことだけを望んでいます。あらゆるコストを払っても成長を望んでいます。
そのため、反トラストや労働者の権利の調査といった考えは、Google、OpenAI、Microsoft、NVIDIAがAIレースに勝つ必要があるという優先事項の前に後退すると思います。すべての反トラスト法の話は消え去り、AI機能が組み込まれたブラウザ、特にGoogleのブラウザを見るようになるでしょう。
これはAIイノベーションの観点からは興奮する展開です。しかし、Googleの反競争的な行動によって潰されかねないスタートアップにとっては、それほど興奮する展開ではないかもしれません。
ホスト: それは本当に良い洞察ですね。Googleがトランプ政権の就任に合わせて、反トラスト法の精査を招きかねない発表をしたのは、おそらく偶然ではないかもしれません。
ここで他に二つの点を指摘したいと思います。まず、競争は良いことです。私たちが目にしているのは、OpenAI対Google、そして他の多くのプレイヤーが今や積極的に互いを前進させているということです。しばらくの間、OpenAIは競合他社よりもかなり先を行っていて、彼らがゆっくり進んでいると非難されることは決してありませんでしたが、さらにアクセルを踏んでいるように感じます。それは実際に競争の熱を感じているからだと思っても驚きません。
そして、もう一つの点は、これは昨年この番組で何度か指摘したことですが、これは多くの面でまだGoogleが失うレースなのです。彼らの主な課題は、自分たち自身の邪魔をしないことです。彼らには配信力、生の技術力、エンジニア、製品の統合があります。AI側で多くの優位性を持っていますが、不意を突かれ、世界で最も優れた経営をしている企業というわけではありません。
しかし、私たちが言ってきたことの一つは、彼らには複数の機会があるということです。何度か失敗しても、まだ先に進むことができます。そして彼らは自分たちの邪魔をしなくなり始めているように感じます。失敗が少なくなってきています。
例えば、Googleの検索結果におけるAIの要約に気付いたでしょうか、クリス。長い間それは役に立たないものでしたが、今では私は「よし、AIが必要な情報を教えてくれたから、リンクまでスクロールする必要はないな」と思うことがよくあります。
正直に言って、12ヶ月後に振り返ったとき、「ワオ、Googleが本当にこれを制していくな」という見方になる可能性は五分五分以上だと感じています。それは本当に印象的な一連の発表でした。
クリス: 私の考えのニュアンスをうまく表現する方法を探しているのですが、その下には多くのニュアンスがあります。トランプの代理人たちが時として不明瞭に、あるいは好戦的に、あるいは共感なく描写する多くのことについて、実際には私も同意する部分があります。
私が意図的にトランプの代理人について話すのは、トランプ自身は命がけでも文章を組み立てることができないからです。彼らの言い方は、往々にして自分たちの立場にない人々への共感や思いやりに欠けていますが、アメリカにとって、そしておそらくイノベーションとテクノロジーにとって、実際に真実で良いことがいくつかあると考えるようになってきています。
私たちが知っているように、主要なプラットフォームの転換期には、デッキが切り直され、新しい勝者と敗者が生まれます。もし、Microsoftがモバイル時代にそうだったように、大きな技術シフトの最中に大規模な反トラスト法の精査を受けると、プラットフォームシフトを生き残ろうとしているまさにその時に、最高のイノベーターの一部の足を引っ張り、膝から切り落としてしまうことになります。
Microsoftは、デスクトップからモバイル、そしてインターネットへのシフトの間、深刻な影響を受け、主要な消費者向けプレイヤーの一つが不当に不利な立場に置かれることになりました。一部の人々は、それは当然の帰結だったと主張するかもしれませんが。
Googleは競争の真っ只中にあって、もはやAIの独占者ではない非常に競争の激しい環境にいる中で、この反トラスト法の精査に耐えることはできません。Microsoft、Apple、OpenAI、Perplexityなどと競争するために、全力を発揮する必要があります。
今は司法省が「ところでブラウザの件はどうなっているんだ」と言う時期ではありません。彼らにイノベーションをさせてください。
また、これは単に国内の環境や気候の問題だけではなく、マクロ経済的なグローバルな競争環境の問題でもあります。アメリカの企業、あるいは西洋の企業や勢力がAIレースに勝つ必要があります。
これらすべてを総合すると、トランプは戦略的にか、あるいは「愚かな馬鹿」を通じてか、正しいアイデアに偶然たどり着いたように思えます。つまり、アメリカの支配的地位が脅かされないよう、これらの主要プレイヤーにおけるイノベーションと成長の制限を解除する必要があるということです。
もちろん、アメリカの支配的地位の倫理性や道徳性、利点については、また別の機会に議論できる複雑なトピックです。確実に反トラストは複雑な話題です。