イリヤ対Google――誰が正しいかを決める唯一の数字

AGI・ASI
この記事は約17分で読めます。

OpenAIの共同創設者であるイリヤ・サツケヴァーが、Dwarkeshポッドキャストで現在のAI開発における根本的な課題について語った。彼は、現代の大規模言語モデルがベンチマークでは優秀な成績を示す一方で、実用場面では脆弱性を露呈すると指摘する。特に人間と比較して汎化能力が著しく劣り、膨大なデータを必要とする点を問題視している。イリヤはスケーリングの時代が終わりを迎えつつあると主張し、これからは研究の時代が到来すると予測する。この見解はGoogleのGemini 3後の楽観的な立場と真っ向から対立しており、AI業界における最大の論争の一つとなっている。彼が創設したSafe Superintelligenceは、顧客向けサービスを展開せず純粋な研究に集中する戦略を採用しており、人間のような学習能力を持つ「超知的な学習者」の実現を目指している。イリヤの見解が正しいのか、それともスケーリングを続けるGoogle側が正しいのか、今後数年で明らかになるだろう。

Ilya vs. Google - The ONE Number That Decides Who's Right
My site: Story:

イリヤが語る現代AIの矛盾

イリヤ・サツケヴァーがDwarkeshポッドキャストに出演しました。この96分のポッドキャストは誰もが注目すべき内容だと思いますが、私たち全員に96分の時間があるわけではありません。そこで、10分程度でイリヤが何を語り、なぜそれが重要なのかをまとめていきます。

まず最初に指摘すべき大きなポイントは、イリヤが多くの人が目にしてきたことを明言しているということです。そして、それを彼から聞けて本当に嬉しく思います。これらのモデルは、紙の上では実際の使用場面よりも賢いのです。

イリヤはその矛盾から話を始めています。彼は言います。私たちは本来ならSFのような瞬間に生きているはずです。モデルには数兆のパラメータがあり、研究所はGDPの約1%に相当する金額を費やしています。それなのに、モデルは重要な場面では依然として信頼性に欠けると感じられます。ベンチマークは天才と言うかもしれませんが、日常的なユーザーは役立つ馬鹿と言うかもしれません。

彼が挙げる例で私が気に入っているのは、バイブコーディングからの例です。バグを修正するよう指示すると、そのバグは修正されますが、別のバグが再導入されます。その新しいバグを修正するよう指示すると、古いバグが再導入されて、行ったり来たりを繰り返すのです。イリヤはこの問題の原因を訓練方法に求めています。

彼は言います。事前学習は非常に鈍い道具です。大量のテキストを取り込んで、それをどうするのか。そして、洗練、歪み、偏りは強化学習と事後学習の段階で起こります。研究所は公開ベンチマークを最適化するために強化学習環境を設計します。そして人間は、この状況において報酬ハッカーになってしまうのです。モデルが報酬をゲーム化する代わりに、研究者たちがベンチマークスコアを最適化するだけの訓練設定を構築してしまいます。

これと汎化の弱さを組み合わせると、テストでは非常に良い結果を示すモデルができあがりますが、評価マニフォールドやモデルの評価部分から外れると、非常に脆くなってしまいます。

ここで指摘しておきたいのは、これは1つのモデルだけでなく、異なるモデルで程度の差こそあれ見られる現象だということです。優れたモデルの兆候の1つは、他のモデルよりも汎化能力が優れているということです。そしてそれが、世界のトップ2、3のモデルの中にいることを見分ける方法の1つなのです。

ChatGPT o1 thinking、Gemini 3、Claude Opus 4.5。これらはすべて比較的よく汎化するモデルです。そして汎化がうまくいかないモデルの兆候の1つは、私が行った有名なクリスマスツリーテストのような新しいタスクを与えると、完全に崩壊してしまうことです。Kimi K2 thinkingはここで良い例です。Grok 4も同様に汎化がうまくいっていないと私は主張します。

しかし、ポイントは特定のモデルを指摘することではありません。ポイントは、ここでは段階的な違いについて話しているということですが、すべてのモデルがこれに苦労しているということです。完璧でこれに苦労していないモデルがあるわけではないのです。

汎化能力における人間とAIの決定的な差

イリヤの2番目のポイントは汎化についてです。イリヤがDwarkeshに対して行った最も深い技術的な主張は、モデルは人間よりも劇的に汎化能力が劣るということです。

彼らは能力に到達するためにはるかに多くのデータを必要とし、新しい領域に移動させると、まともに賢い10代の若者なら犯さないような失敗をします。そこで彼はこういうアイデアについて語ります。1万時間コンテスト問題を解き続ける学生と、100時間集中して取り組み、上達して次に進む学生を想像してみてください。ひたすら解き続ける学生はコンテストで勝つかもしれません。

しかし人生で賭けるなら2番目の人です。つまり彼が示唆しているのは、今日のLLMは1万時間コンテスト問題を解き続ける10代の若者のようなもので、高度に特化しているということです。そしてイリヤが求めているのは、ある種のサンプル効率性です。

彼が求めているのは、最先端モデルよりも桁違いに少ないデータしか見ていないのに、日常的なタスクでより堅牢で、明示的な報酬関数なしに約10時間で運転のようなことを学べる15歳の子供に相当するものです。10代の若者は、これは危険そうだとか、これは大丈夫そうだという内的な感覚を持って現れます。

10代の若者の中には他の人ほどうまくできない人もいるかもしれませんが、まあそれはそれとして。しかしアイデアは、10代の若者は学習するということです。モデルは学習しません。そこでイリヤの見解は、私たちにはそのような機械学習の原理が必要だということです。人間のような汎化に似たもの、より大きなトランスフォーマーとより多くのトークンを超えた何かが必要なのです。

GoogleとイリヤSafe Superintelligenceの対立

これはGoogleの見解とは鋭く異なります。そしてこれを十分に強調することはできません。これは要約に私自身が飛び込んで言っていることです。Googleの見解、特にGemini 3以降の見解は、イリヤが言っていることの正反対です。これは今のコンピュータサイエンスとAIにおける最大の緊張関係の1つです。

Googleは多くの言葉で言ってきました。事前学習は問題ない、事後学習も問題ない。スケーリングに限界は見えない。私たちはGemini 3を出荷したばかりで、それは本当に良い。そして知っていますか。Gemini 3は本当に良いのです。

だから今、本当に興味深い緊張関係や反論の1つは、ここで誰が正しいのかということだと思います。イリヤは、事前学習と事後学習に課題があると言い続けています。これらのモデルには何かが欠けていると。一方で他の研究所は、事前学習と事後学習に基づくモデルを出荷し続けており、それらはどんどん良くなり続けています。

私は誰が正しいかを決めるほど賢くはありませんが、基本的にAIの第一人者たちの間で、これがどのように機能するかについて大きな意見の相違があることを認識すべきです。

感情と価値関数が学習効率を左右する

イリヤからの3番目のポイントは、価値関数と感情についてです。イリヤが指摘することの1つは、それを機械にもたらす方法を理解するために、人間の学習がどのように異なるかを深く考える必要があるということです。

彼は、感情処理を失ったがIQと言語は保持した患者のケースを引用しています。紙の上では、その人は依然として良いスコアを出しますが、日常生活では意思決定がほとんどできなくなります。

イリヤにとって、これは感情が装飾的なものではないという証拠です。感情は組み込まれています。彼が価値関数と呼ぶものを持っているのです。感情は、状況がどれだけ良いか悪いかについてのシンプルで堅牢な信号です。そして明示的な成功・失敗の結果を得るずっと前に、あなたの直感は知っているのです。

イリヤはそれを真剣に受け止め、強化学習に対応付けています。そして彼は言います。結局のところ、強化学習はエピソードの最後にしか到達しません。そしてそれは極めて非効率的です。なぜなら価値関数は各瞬間にどれだけ有望な未来が見えているかを推定するからです。

ですから、もしあなたの胃に恐怖の穴のような感覚があって、暗い路地を歩かないでと言うなら、それは強化学習の動作方法とは正反対です。そしてイリヤはそれを真剣に受け止めています。

馬鹿げているように聞こえるかもしれませんが、イリヤはそれを馬鹿げているとは思っていません。彼が指摘しているのは、私たちの感情には価値関数があるということです。その恐怖の穴、これが正しい選択だという直感、そしてそれが未来に投影されて、私たちが本当に良い決定を下すのを助けます。一方、強化学習は根本的に後ろ向きで、過去の活動にのみ報酬を与えます。

そのギャップこそが、人間の学習が異なる方法でスケールする理由の核心だとイリヤは考えています。これはオリジナルの考えです。これは本当に興味深い見解だと思います。

スケーリングの時代は終わったのか

4番目、イリヤは、重要な意味でスケーリングの時代は終わったと主張しています。これもGoogleの見解と完全に対立しています。イリヤは、AIには現在3つの時期があると言っています。

人々があらゆる種類のモデルを試したが計算資源が非常に限られていた初期の研究時代がありました。GPTから始まったスケーリングの時代があり、レシピは明確で誰もが参入しました。そして彼が主張する次の時代は研究の時代であり、今回は巨大なコンピュータを使った研究です。

スケーリング則は低リスクのプレイブックを生み出しました。資本があれば、それを効果的により良いベンチマーク数値に変換できました。その時代は終わったと彼は主張しています。

そしてウェブスケールのデータは有限であるため終わったと言っています。イリヤをフォローしている人にとって、これは新しい主張ではありません。彼は1、2年前のNeurIPSで同じ主張をしました。興味深いのは、他のモデル開発者たちが、合成データを含む他の手段で事前学習を継続できると主張していることです。

ですから、イリヤがスケーリングの時代は終わったと主張することが正しいかどうかについては、多くの意見の相違があります。そしてそれは、疑問に思っている方のために言うと、AIエコシステムにとって本当に健全な兆候です。

誰も反対できないとバブルは危険になります。AI システムを構築しているこれらの信じられないほど知的な人々が重要な分野、意見が一致しない分野を持っているという事実は、私たち全員にとって非常にポジティブです。彼らがそれを解決する間、私たちはその恩恵を享受できるのです。

Safe Superintelligenceの研究優先戦略

5番目の要点は、彼が創設した会社であるSSI(Safe Superintelligence)の戦略は研究優先だということです。これが彼がこれを行った理由を説明しています。もし彼が研究の時代が始まったばかりだと信じているなら、彼は約30億ドルを調達し、基本的に消費者向けビジネスは持っていません。

そして彼は、顧客にサービスを提供する負担がないことが利点だと主張しています。これはシリコンバレー出身の人にとっては本当に興味深い主張です。顧客がいないことは素晴らしいと。その点は私にとって少し驚きでしたが、それが彼の立場です。

そして彼は、これは研究時代の会社だと主張しています。賭けは、OpenAIを上回るスケールを実現することではなく、汎化がどのように機能すべきかについて異なる見方を持っているということです。そして十分な計算資源があれば、その見方が正しいかどうかを確かめることができます。

本質的に、彼は汎用人工知能がどのように機能するかについての論文を持っています。そして彼はそれを展開したいのです。

さて、汎用人工知能といえば、イリヤが指摘することの1つは、AGIで何を意味するかを再定義する必要があるということです。通常の定義、つまりすべての人間の仕事ができるシステムは、イリヤの見解では非常に誤解を招くものです。

なぜなら、その基準によれば、人間自身も汎用人工知能ではないからです。誰も幼少期からすべての仕事を実行できる状態で現れるわけではありません。私たちが見ている知能は本当に学習についてのものです。重要なのは、物事を素早く習得できる一般的な学習者であり、静的なスキルのカタログではありません。

これが、AIの時代に人間がうまくやっていけると私が信じる理由です。イリヤが好むのは、超知的な学習者という対象です。人間よりもはるかに速く、はるかに深く、あらゆる仕事を学ぶことができる、超有能な15歳の心のようなものを考えてください。それが彼の頭の中にあるものです。それは彼が発明したものではありません。彼はまだそれを解明していません。誰も解明していません。

それが彼が自分に課した挑戦です。そして彼の目標は、この学習者の多数のコピーを立ち上げ、異なる役割に配置し、それらがどのように特化するか、実際にどのように進化するかを見ることです。そしてそれは、1回の最終的な全知的訓練実行ではなく、並列的な継続学習を通じて機能的な超知能につながります。

これが彼が構築しようとしているシナリオです。学習を続け、時間とともに収束する超知的学習システムのデータセンターのようなものです。彼はこれにどれくらい時間がかかるかまったく分かっていません。彼は研究者として5年から20年のタイムラインを示しましたが、分からないという感じです。

アライメントへの漸進的アプローチ

7番目の要点はアライメントについてです。なぜ彼は漸進的な展開へとシフトしたのか。彼はここで本当に興味深いポイントを指摘しています。

イリヤは本質的に、以前、システムを展開すればそれが急速に経済を乗っ取るというアイデアを考えていたとき、彼は誰も作成していないシステムについて推論していたと示唆しています。それは、超知能について推論する人々に対する私の最大の批判の1つでした。私たちはそのシステムを持っていないのです。それについて大きな仮定を立てるのは本当に難しいのです。

イリヤも同意します。イリヤは言います。私たちはまだ会っていないシステムについて推論することはできません。だから、私たちができる最も安全なことは、システムを漸進的に展開し、そこから学ぶことだと思います。

皮肉なことに、彼はSafe Superintelligenceがシステムを展開しないと言ったばかりです。だから、彼はOpenAIや他の企業がこれを行うことに依存しているのだと思いますが、アイデア自体は健全だと思います。

アイデアは、ますます強力になるシステムを漸進的に展開し、それについて徐々に学び、それを管理する方法を学び、それと協働する方法を学ぶことができるということです。そうすれば、ターミネーターについて理論的に推論を始めるよりも、はるかに根拠のあるリスク感覚を持つことができます。

マルチエージェント環境とエコシステムの重要性

8番目の要点は、マルチエージェント設定と、なぜエコシステムが真の堀なのかということです。Dwarkeshとの対談の終わりに向かって、彼は最先端モデルが互いにゲームをプレイする傾向があるというアイデアについて話しました。彼らは自分自身とゲームをプレイする傾向があります。彼らは、敵対的なマルチエージェントスキーマ内で定義される交渉と戦略の感覚を持つ傾向があります。

これが複雑に聞こえても心配しないでください。ここでシンプルになります。イリヤが基本的に言っているのは、現在のエージェントとモデルの作物には少し問題があるということです。彼らは意図的に、非常に狭い範囲のエージェント戦略に向けてモデルを促す事後学習環境を設定しており、それがAIエージェントの多様性と創造性の低下につながっています。

彼はより多くの多様性、インセンティブ、競争を見たいと考えています。そうすればエージェントは、囚人のジレンマや他の既知のエージェント戦略を永遠に繰り返すのではなく、真に異なる戦略を見つけることで報酬を得られます。

そして彼は、これが最大のモデルを持っているのが誰かではなく、機械学習モデルから本当に興味深い結果を得るための最も興味深く、最も豊かなツールとエージェントとゲームの訓練エコシステムを持っているのが誰かという、別の差別化レイヤーを示唆していると考えています。これは本当に興味深いポイントだと思いますし、それは本当に興味深い堀のアイデアです。

研究における「センス」の価値

9番目、イリヤは研究にはセンスがあると考えています。彼にとって、センスのアイデアは、脳に根ざしているが技術的に作業できる抽象化レベルにある、知能がどのように機能すべきかについてのトップダウンの美学です。

本質的に、知能について現実に根ざした意見を持つこと。その定義によれば、私にセンスがあるのか、あなたにセンスがあるのか分かりません。センスを持っているのはほんの少数の人だけです。

しかしそうは言っても、重要なのは、同僚とは異なる方法で知能を理解することで、難しい問題に対して真に異なるアプローチを取ることができるということです。この対談の冒頭でイリヤが言っていたことを思い出してください。彼は、これらのモデルはうまく汎化したり学習したりしないと考えています。そしてほとんどの人が同意するでしょう。

その場合、その難しい問題を本当に解決するためには、分岐して異なる研究方法を試す必要があります。それが彼が研究のセンスと呼んでいるものです。

ほとんど語られない5つの重要な洞察

これで対談の話は終わりです。お別れする前に、ほとんど誰も話していない5つの要点をお伝えします。さっと、1、2分でいきましょう。

1つ目、汎化はアライメントの下に位置しています。システムがどのように汎化するかを理解していなければ、その価値観が安定した方法で汎化することを期待することはできません。ほとんどの公的な議論は、アライメントをモデルの上に貼り付ける何かとして扱います。イリヤは暗黙的に、アライメントは下にあり、汎化することでモデルがそれらの価値をスケールするのを助けると主張しています。これは本当に興味深いと思います。

2つ目の要点は、研究が停滞していてもビジネスは好調になり得るということです。イリヤの停滞の見方、これに同意するかどうかは別として、Googleは同意していません。彼はこれがすべて崩壊することを意味するとは考えていません。彼はバブルの破裂を予測していません。彼は数千億ドルの収益、印象的に感じられる製品、そして人間レベルの学習を前進させていないかもしれないが興味深い研究の最前線を予測しています。

そしてそのシナリオは可能性が高く、イリヤの見解では、実際には学習について解決していないのに、問題は解決したと宣言する多くの圧力を生み出します。ですからイリヤが心配していることの1つは、皮肉なことに、バブルが破裂することではありません。ビジネスが非常に好調な間にバブルが問題にならなくなることです。なぜなら、ビジネスがとてもうまくいくので、問題は解決したと宣言してしまうからです。そして汎化に関する本当に興味深い研究問題が無視されるのです。

それが3番目の明白でない要点につながります。AGIの瞬間は間違った焦点です。すべてを単一の到着日として枠組み化すること、AI 2027が私たちを誘惑するように、重要なことを曖昧にします。共有メモリを持ち、急速に発展する人間レベルの訓練生を手に入れたとき、それは目覚めの日を設定するよりもはるかに実行可能な考え方です。

だからイリヤが指摘している本当に興味深いことの1つは、おそらく汎用知能について語る機能的な方法は、実際にはエージェントがいつ有用な方法で学習し始めることができるかについて語ることだということです。そして私たちがこれを言うのは面白いです。なぜなら、またもやAnthropicは、エージェントはツールを持った記憶喪失者だという論文を発表したばかりだからです。

たとえ多くのお金を稼ぎ、非常に成功した方法で実装できたとしても、私たちはまだ遠いところにいます。そしてこれが、私がここで持っている大きな要点の1つだと思います。イリヤは、私たちが持っているモデルで大きな成功を収めている一方で、より大きなビジョンからどれほど遠いかを指摘しているのです。

最後に指摘したいのは、イリヤが研究のセンスは信じられないほど稀な戦略的資産だと示唆していることです。彼は、世界でほんの一握りの人々がどの方向を追求し、どれを止めるかを決定すると言っています。

これが、マーク・ザッカーバーグのような人々が適切な知性を買うためにどんな金額でも支払う意思がある理由に色を与えます。有用な方法で、新しい方法で汎用人工知能について考える方法を決定し、新しい研究の方向性を導くことができる人間は、かけがえのない存在です。文字通りかけがえのない。私たちはそれに値段をつけることができません。人々はただ数字を膨らませようとしているだけです。

これをOpenAIの元共同創設者からの現状報告として考えないでください。代わりに、イリヤがSafe Superintelligenceで時間を過ごした後、全体としての分野を見て、彼が形成するのを助けてきたこの進行中の旅で私たちがどこにいるかについての彼の感覚を伝えるために戻ってきたと考えてください。

彼は、AIのスケーリング段階が終わりつつあると考えています。時間が教えてくれるでしょう。1年後にここに座って、Gemini 3が最後の大規模な事前訓練実行だったと言うかもしれません。イリヤは正しかったと。あるいは、事前訓練モデルが継続してスケールしているので、イリヤは何かを見逃したに違いないと考えるかもしれません。

しかしいずれにせよ、イリヤは私たちが解決する必要がある課題の種類について本当に興味深い指摘をしました。そして間接的に、今日のAIエージェントを補完するために私たちがどこに焦点を当てる必要があるかに光を当てたと思います。今日のAIエージェントが有用に機能し、活用されるために私たちがどこに焦点を当てる必要があるか。

メモリは大きなものです。学習能力、ツール呼び出しの処理方法。これらはすべて、イリヤがDwarkeshに指摘した脆弱性の一部から生じています。ですから、この要約を楽しんでいただけたことを願っています。そして幸運を祈ります。超知能への競争で誰が正しいか、見守りましょう。

コメント

タイトルとURLをコピーしました