Google DeepMindのトップAI研究者であるモスタファ・デガニ氏をゲストに迎え、AIが次の世代のAIを自律的に構築する「再帰的自己改善」や、画像生成AIの進化、継続的学習の可能性について深く掘り下げたインタビュー動画である。現在のフロンティアAI研究における最重要テーマや、今後のAI開発のボトルネック、そして長期的な自動化の課題について、現場の最前線からの視点が語られている。

オープニング:AIによる自己改善の現在地
多くの人は、これがすでに起きていることに気づいていません。特にここ数ヶ月の間に顕著です。ほぼすべての研究所において、新世代のモデルは前世代のモデルを大いに活用して構築されています。今欠けているのは、長期的な展望と完全な自動化であり、私たちはその方向へとものすごいスピードで進んでいます。
この完全な自動化が実現した瞬間、自己改善のループを閉じることができます。つまり、モデルを改善するための人間のボトルネックを取り除くことができたということであり、このような開発から再び飛躍的な進歩が見られると期待しています。
こんにちは、マット・タークです。Matt Podcastへようこそ。今日のゲストはモスタファ・デガニ氏です。Google DeepMindのトップAI研究者であり、ユニバーサル・トランスフォーマー、ビジョン・トランスフォーマー、そしてネイティブにマルチモーダルなGeminiファミリーなど、過去10年間で最も影響力のあるアーキテクチャのブレイクスルーのいくつかに中核として貢献してきました。
このエピソードでは、フロンティアAIの最新トレンドを紐解いていきます。AIがループの中で考えるとはどういうことなのか、AIが自律的に次世代のAIを構築する再帰的自己改善の実現に向けたタイムラインなどについて語ります。また、Nano Banana 2による画像生成の技術的進化や、継続的学習が現在のエンタープライズデータパイプラインやRAGシステムの構築方法を根本から覆す可能性についても深く掘り下げます。モスタファ・デガニ氏との素晴らしいディープダイブをお楽しみください。
ループという概念と自己改善の進化
今、AI研究で最も注目されているコンセプトの一つが、ループという概念のようです。そこで、まずはここから始めるのが面白いと思いました。モデルは単純に大きくなることで改善されるのではなく、再帰的に考えることで改善されていくというアイデアです。これは具体的にどういう意味なのでしょうか。
間違いなく、ほぼすべての研究所が投資している最も活発な分野の一つですね。そして、これにはさまざまなレベルのオペレーションがあります。ミクロなレベルでは、基本的に推論時の計算やアーキテクチャなどに使用するループのことです。そしてより高いレベルでは、モデルの開発過程におけるループであり、私たちはこれを自己改善と呼んでいます。
この自己改善という一般的な概念について、非常にシンプルに説明するなら、私たちが何十年にもわたって乗ってきたトレンドの延長線上に過ぎないということです。古典的な機械学習について考えてみてください。昔は人間が座って手動で特徴量を設計し、モデルが何に注目すべきかを決定しなければなりませんでした。そこにディープラーニングとニューラルネットワークが登場し、そういった作業を取り除いて、モデル自身に表現を見つけさせようということになったわけです。
これは実は非常に画期的なことで、私たちはどうにかして巨大な人間のボトルネックと人間のバイアスを取り除くことができました。さらに進んで、アーキテクチャを設計するだけでなく、それ自体も学習させるようになりました。トレーニング信号のすべての部分をキュレーションする代わりに、データ駆動型のアプローチへとスケールし、データに語らせるようにしたのです。
自己改善やこの開発ループは、同じ方向への次のステップに過ぎません。その全体的なアイデアと目的は、これらのモデルを改善するプロセスから人間のボトルネックとバイアスを取り除くことです。今では、人間がモデルのために特徴量をハンドクラフトする必要がないだけでなく、モデルが良くなるたびに人間がループの中に介入することも望んでいません。これが開発側の話ですね。
ですから、決して根本的に新しいものではなく、同じ物語の新しい章というだけです。人間の判断というものをプロセスから取り除くたびに、私たちはボトルネックを乗り越えてきました。この自己改善と開発におけるループは、最高レベルでそれを行っている、つまりモデルを改善しているということです。
もう少し詳細なループの話をするなら、これらのモデルのテスト時計算を増やす方法や、特定の課題内でモデルにプロセスをループさせて洗練させたり考えさせたりする方法について話せますね。最も馴染みのある形は、単なる思考の連鎖であり、追加のトークンを使ってモデルに考えさせることです。しかしそれはその先の話であり、さまざまなアイデアが考えられます。
例えば、特定の難しい問題に対してモデルに計算量を増やさせるにはどうすればいいでしょうか。ダミーのトークンを用意して、それを読み書きテープのように使い、自分が行ったことを再検証したり、さまざまなステップを経た解決策やプロセスを見直したり、何が間違っていたのか、次に何をすべきかを理解させたりできます。
また、負のスパース性、つまりモデルの一部を複数回再利用することも考えられます。このような新しい形のループは、難しい問題に対してモデルにより多くの計算を投じることができるため、非常に役立つことが示されています。
AIがAIを自律的に構築する未来
なるほど、それは推論時の自己改善ですね。先ほども触れられていましたが、もう少しSFチックな、でも急速に現実のものになりつつある大きな概念もあります。それが再帰的自己改善と呼ばれるものです。多くの人がこの話題について話し、ここ数週間で関連する論文もたくさん出てきているようです。概念としての再帰的自己改善とは一体何なのでしょうか。
モデルが自らを改善していくというのを、SFのような状況だと表現されたのは実に興味深いですね。というのも、それは事実だからです。数年前なら、この話題について話すときは学会で展望論文を書き、非常に高いレベルで議論するしかありませんでした。
しかし、今起きていることを確認してみると、かなりの程度でそれが実現しているんです。そして、多くの人はそれがすでに起きていることに気づいていません。特にここ数ヶ月、ほぼすべての研究所で、新世代のモデルは前世代のモデルを大いに活用して構築されています。これはどこでも起きていることだと思います。
まだ完全な自動化には至っていませんが、方向性は非常に明確です。完全な自動化という状況にたどり着くことは容易に想像できます。モデルは自己改善し、世界から学習し続けます。これは継続的学習など、私たちがまだ最も高度なレベルに達していない他の概念とも関連しています。
でも、もし誰かが来て、その場でモデルに勾配を計算させて重みを更新させるアイデアがあると言ったとしても、それはごく普通のことだと感じられます。すごいアイデアだ、とはならないでしょうね。今欠けているのは長期的な展望と完全な自動化であり、私たちはその方向へとものすごいスピードで進んでいます。完全な自動化が実現した瞬間、自己改善のループを閉じることができると言えるでしょう。
そうなれば、問題は主に、モデルがやりたいことを実行するための計算資源を提供することになります。先ほども言いましたが、私たちはモデルを改善するための人間のボトルネックを取り除いたばかりであり、このような開発から再び飛躍的な進歩が見られると期待しています。
数週間前、カルパシーによるAIの自動研究プロジェクトを見聞きした人もいるかもしれません。あれは、うまく機能させるためにかなり的を絞ったものだと思われますが、自己再帰的ループの一例なのでしょうか。
間違いなくそうですね。研究の分野でモデルが実際に非常に意味のあることを行っているのを示す、初期の例の一つだったと思います。私たちはこれまで、モデルが開発ループのエンジニアリング部分を改善する上で、多くの素晴らしい仕事をするのを見てきました。
しかし研究の分野では、何らかの直感や感覚が必要であり、モデルとの長い対話経験を持つ研究者にはできても、必ずしもモデルにはできないと考えられがちでした。しかし、優れた研究者の直感から主にもたらされる成功のレシピの黄金部分のようなものが、モデルによってこれらの開発ループに組み込まれてきている兆しが見えたのだと思います。
これが、すべての天才的な研究者をすぐさまモデルで置き換えられることを意味するのかどうかは、まだ少し考えにくいですね。どれくらい早くそうなるかはわかりません。しかし、数年前には疑っていたこと、つまりこんなに早く実現するとは信じられなかったことが起きているのは確かな兆候であり、非常にワクワクしています。
リスナーの皆さんが理解できるように確認しておきたいのですが、私たちはAIがAIを構築するという話をしているわけですよね。数ヶ月前であれば、研究者に話を聞くと、AIを構築するためにすでにAIを使っていると言うでしょう。しかしそれは、モデルを構築するためのアイデアや考えを出すためにAIツールや推論モデルを使うという意味でした。
ここで私たちが話しているのは、AIが自らを自動的に更新し、再帰的に重みを更新することで、劇的な進歩の加速をもたらす可能性があるということです。そしてあなたが言うには、これはすでに目前に迫っており、あとは長期的な展望とより多くの計算資源の問題だということですね。そういう理解でよろしいでしょうか。
その通りだと思います。これは一つの側面です。もう一つの側面として、すぐにこれらのモデルが完全に自動化されるとは言いません。私たちが解決しなければならない問題は実際にはたくさんあります。しかし、方向性としては、それがどのように実現するかは見えています。決して極端に難しいものだとは見ていません。難しいですが、十分に可能なことです。
完全自動化に向けた評価と形式的検証の壁
わかりました。では、障害となるものは何でしょうか。計算資源についてはお話しされましたが、評価もその一つでしょうか。というのも、回答の質に関して何が正しくて何が間違っているかをモデルが理解する必要があるからです。それは問題の一つですか。
100%そうですね。結局のところ、測定できるものしか改善することはできませんから。評価を得るというのは本当に難しく、最終的には技術的な問題というより、ほとんど哲学的な問題になってしまいます。
これは非常に興味深い観察ですが、非常に有能なチームがあったとして、明確な評価基準があれば、ほとんどの場合、問題に対して大きな進歩を遂げることができます。しかし、評価基準がなければ、進歩を遂げるのは本当に困難です。自己改善のループを回せる地点に私たちがどれくらい近づいているかを測るような評価基準がない、あるいはそれを定義することすらできていないという事実が、その方向への進歩を測ることをはるかに難しくしています。
もちろんプロキシはありますし、例えばモデルのすべてのステップを評価できるかもしれないとか、モデルの何ターン目までを評価できるかもしれないとか、特定のフレームワークや設定でモデルが自己改善を助ける過程を評価できるかもしれないといった方向には進んでいます。反復を必要とする機械学習のこの部分は非常に興味深いものです。
なぜなら、評価基準を構築することの難しさは、複雑なものを確実に実行するためのインフラが非常に複雑であることにも起因するからです。時には、Google内でモデルが安全に動作し、NREや研究エンジニア、研究者が安全な環境で行えるすべての仕事を実行できるような環境をどうやって構築するかを見つけ出すことですら難しいのです。
今のところ、モデルが常に正しいことをすると確信しているわけではありませんし、モデルがどれだけタスクをプッシュできるか、どれくらい長くタスクをプッシュできるかを測定するのは非常に困難です。これらのすべての点をつなぎ合わせてモデルが動作する環境を作り、それを効率的に実行させ、評価に多様性を持たせることが、この方向での進歩のボトルネックの一つになっているのは間違いありません。
数週間前、Axium Mathのカリーナ・ホン氏と楽しい対話をしまして、形式的検証について話しました。あなたの視点から見て、これは有望な分野でしょうか。形式的検証のようなものが、改善のループを継続し続けることを可能にするのでしょうか。
私の意見では、形式的検証は自己改善を可能にする最も強力な鍵の一つですが、唯一の鍵ではありません。数学やコードの論理について考えれば、それは素晴らしいものです。証明を実行して、正しいか間違っているかを確認できますからね。しかし、もう少し複雑で厄介な他のドメインに移ると、例えば医者の推奨が適切かどうかについて形式的な証明を書くことはできません。
したがって、この形式的検証を現実世界のすべてのドメインに拡張するのは簡単なことではありません。しかし、形式的検証に関連する非常に興味深い質問が一つあります。それは、こうした手法や形式的検証に目を向け、現実世界の厄介な部分に対して、いかにしてあのようなどこまでもクリーンで誠実なフィードバックループを構築できるかということです。簡単に検証できないドメインにも拡張していくために、こうした形式的検証の手法の上に構築していくことは非常に刺激的だと思います。進歩を遂げるためには、何らかのクリーンでタイトなフィードバックループが必要ですからね。
モデルの崩壊リスクと汎化・特化のトレードオフ
つまり、強化学習と同じ問題ですね。数学やコードから少し外れた途端、非常に厄介な領域に入り込んでしまうという。モデルの崩壊は考慮すべき問題の一つでしょうか、それとも全く別の話でしょうか。
モデルの崩壊は間違いなくリスクですね。モデルの崩壊は主に、ループが完全に閉じている場合に起こると思います。外部からのシグナルがなく、モデルが自分自身と話しているだけだったり、非常に制限された環境で動作していたりする場合、モデルが崩壊する可能性は十分にあります。しかし、強力な検証者や、AIが生成したデータから来るようなシグナルを固定する何らかの実際の報酬シグナルがあれば、非常に強力なものになり得ます。
ここでの鍵は、現実の何かに根ざした状態を保つことだと思います。そうすれば、モデルの崩壊のような事態はほとんど避けられるでしょう。繰り返しになりますが、それはリスクではありますが、間違いなく致命的な障害ではありません。
では、誰もが理解できるように、そもそもモデルの崩壊とは何かを定義していただけますか。
基本的に、モデルが相互作用するデータや環境があったとして、その環境やデータが例えば別のモデルによって設計されているような場合ですね。そしてモデルがその特定の領域にだけ非常に特化してしまい、突然それ以外のものへの汎化能力を失ってしまう現象のことです。これがモデルが崩壊した場合にもたらされる結果の一つであり、定義の一例と言えます。
汎化能力を失うとおっしゃいましたね。再帰的自己改善の文脈において、自己強化ループは必要だけれどもそれはかなり限定的でなければならないのか、それともより汎用的なモデルがあってそこにループを持たせるのか、その点が特に懸念されるところなのでしょうか。
これは面白い質問ですね。汎化対特化ということです。少し話を戻しましょう。モデルを開発する際、汎化と特化のトレードオフをどうすべきか、私たちは何度も議論してきました。長期的には、すべてを知っていて、いつ深く掘り下げ、いつ広く浅くいくべきかを知っているモデルが欲しいわけです。
エージェント的な動作をするものを想像してみてください。コーディングを行うエージェントがいたとして、そのエージェントが操作のすべてのステップにおいて非常に強力で、本当に優れたプログラマーだったとします。それは素晴らしいことです。極めて特化していますからね。しかし、コーディングの多くの問題では、何らかの計画を立てたり、何が起きているかを理解したり、情報を収集したり、コンテキストに基づいて何をすべきかを決定したりする必要があります。そうしたステップを定義した後に、極めて強力な特化能力が発揮されるわけです。そしてその前段階では、ジェネラリストであることが非常に役立ちます。
AGIの究極の形に到達するためには、汎化能力が絶対に必要です。しかし短期的には、特化型モデルを構築することが、実際に何が可能なのかを学ぶための最も早い方法でしょうし、多くの場合、そうした特化型モデルがジェネラリストモデルへの足がかりになっています。これは非常に価値のあることです。
ですから、自己改善について考えるなら、非常に特定の分野でそれが構築できるかを確認する必要があるかもしれません。例えばコーディングに焦点を当てて、それがうまくいけば、それをどう広げていくか、どうやってより多くのものをこの特化されたセットアップに取り込んでいくかを考えるわけです。
私がいつも言っていることの一つは、人々は自分の問題がどのカテゴリーに入るかなんて気にしていないということです。人間が何かを問題だと呼ぶなら、AIはそれを解決できるべきです。それは根本的にジェネラリストのニーズだと思います。つまり最終的には汎化が必要であり、この超汎化モデルと超特化モデルのスペクトラムを行き来することは、長期的な視点と短期的な視点、そしてその過程でそれぞれの側面の利点をどう生かすかという問題なのです。
現在の特化型モデルとはどのようなものですか。それは別の独立したモデルなのでしょうか、それとも特定のトレーニングを通じて強化された幅広い汎用モデルのことでしょうか。
なるほど、ここがポイントです。かつて私たちは計算資源に制限があり、モデルをある特定の方向に押し上げたい場合、特定の次元を選んでそこに手持ちの計算資源を割り当て、このモデルをあることに非常に得意な、極端なエキスパートにしていました。それが、限られた計算予算の中で私たちが取ろうとしていたトレードオフでした。
計算資源がより利用しやすくなり、安価になっていくフェーズを進むにつれて、データなど他のものの制限を受けるようになります。その中で生じるもう一つのトレードオフは、特にポストトレーニングにおいて、評価ゲームを行う際、モデルをあらゆる分野で均等に優れたものにするのが本当に難しいという点です。
例えば、マルチモーダルのような特定の分野でモデルを良くしようとすると、コーディングの能力が低下してしまったりします。コーディングとマルチモーダルの両方で良くしようとすると、数学や推論に特化したモデルよりもわずかに劣る結果になってしまうのです。ですから、バランスを見つけるのは難しく、その理由の一部はポストトレーニングが一種の過学習を引き起こすからです。モデルの事後学習を行うとき、私たちが持っている最良の局所最適解に過学習させようとします。
すべてに共通して適した局所最適解が存在しないため、選択を迫られることになります。これに直面すると、開発の途中でいくつかの決断を下し、「今の段階では、競争が激しい中で自分の組織のニーズを考えると、この特定の軸を選ばなければならない」と言うことになります。例えば、いくつかの企業はコーディングに非常に強い焦点を当てています。それは仕事を非常に簡単にします。いや、極端に簡単ではありませんが、あらゆる分野で優れたモデルを作ろうとしている競合他社に比べれば、はるかに簡単です。
短期的には、これは非常に効果的だと思います。まず第一に、開発中はすべての次元に気を配る必要がないので、反復のスピードが上がります。研究者やエンジニアの頭のスペースを少し解放し、「これは忘れて、これを限界まで押し上げよう」と言えるからです。そしてもう一つは、すぐにトレードオフにぶつかることがないという点です。
特化型モデルというのは、「この特定の軸を選んで、このモデルを非常に優れたものに見せよう」というものです。繰り返しになりますが、これは組織の現状や競合他社などの状況に基づいた決定です。
AI研究者の未来とデータが果たす役割
素晴らしいですね。数分前にあなたが言ったことで非常に興味深かったのが、カルパシーやあなたのような世界トップクラスの頭脳を持つ人々が自動化されるかもしれないというアイデアです。もし世界で最も賢い頭脳が自動化され、AIが自らを創造するようになったらどうなるのでしょうか。ある時点において、AIがどう機能しているのか誰も理解できなくなるような、そんな未来は現実にあり得るのでしょうか。
かなり哲学的な領域に入ってきましたね。どうでしょうね。数日前に考えたちょっとした話をさせてください。私には1歳半の娘がいます。ここ数年、私は本当に驚かされ続けてきました。面白いことに、私が心に描いていたタイムラインは何度も裏切られてきたんです。
例えば、「これは半年後に起きるだろう」と言ったことが起きなかったり。逆に「これはあまりにも難しすぎるから、今後10年は絶対に解決できないだろう」と思っていたら、突然2、3ヶ月後に誰かが素晴らしいアイデアを出して解決してしまったり。未来を予測するのは本当に難しいです。
あなたがカルパシーや他の研究者の話をした時、私は次世代のことを考えていました。もし娘がいつか私のところに来て、「私は何をすべき?どの専攻やどの科学分野、どの研究分野に深く入り込んで専門家になればいい?」と聞いてきたとしたら。私には本当に良い答えがありません。ほぼ存在しないんです。未来を予測するのはそれくらい難しい。
私がわかっているのは、この世界で影響力を持ち、意味のある存在であり続けるために重要なスキルがいくつかあるということです。その一つは、戦略的であり、決断を下す際にすべてのパラメーターをテーブルの上に並べられることです。特定の主題に関する絶対的な専門家になることは、近い将来おそらく役に立たなくなるでしょう。
カルパシーの素晴らしさは、彼が優れたプログラマーであることや優れた教師であることではありません。もちろんそれらも素晴らしいですが、私にとって最も印象的なのは、彼が何が起きているかについて非常に優れた全体像を持っているということです。情報の流れの中に身を置くことで、次に最も影響力のある行動は何かを決断できるのです。
今彼が影響を与えるためにやっていることは、5年前にやっていたこととは全く異なります。そして彼はそれを続けられると思います。5年後に彼が何をしているかはわかりませんが、彼がそれを見つけ出し、世界に影響を与え続けるほど賢いということはわかっています。
つまり、AI研究者たちは自分たちの仕事を奪うような研究を、今のところすぐにしてしまっているわけではないということですね。
ええ、私たちがそれを避けられるくらい賢明であることを願っています。
わかりました。このエコシステムで価値がどこに着地するのかを考えると、これはよりマクロな質問かもしれませんが、もしAIが自らを創造し続けるようになった場合、その方程式においてデータはまだ必要とされるのでしょうか。それともすべてが計算資源に集約されるのでしょうか。
データの概念というのは、単なるトークンよりも少し広いものです。データとは、モデルがシグナルを得られるすべてのものだと考えてみてください。それは事前学習で使われる生のテキストから次のトークンを予測することかもしれませんし、モデルが相互作用してシグナルを得る超複雑な環境かもしれません。これらは私たちがデータと呼ぶことができるものです。
ですから、データや優れたデータを持つことの価値、あるいはデータに関する作業が消滅して、最終的に計算資源だけがすべてになるわけではありません。データ側で行っている私たちの作業は、環境の構築や、これらのモデルが物理世界と相互作用できるようにすることへとシフトしていくでしょう。そうなると問題は、「自己改善が得意なこれらのモデルに、どうやって現実世界のデータや環境に触れさせ、より多くの根拠付けを提供できるか」ということになります。
データの提供とは、この特定のモデルに私たちがこれまで持っていなかったものへのアクセスを与えることです。少しSFチックな話ですが、例えば匂いをモデルにアクセス可能にするにはどうすればいいでしょうか。今は良い方法がありませんよね。人間の持つすべての感覚器官のおかげで、私たちにとっては情報はとても簡単に入ってきます。今ここに座っているだけで、椅子の硬さや部屋の温度がわかります。こうしたセンサー情報がすべて私に入ってきて、私の次の言葉はこれらすべての入力に基づいているわけです。
自己改善を行うモデルにこれを提供するというのは、すでに非常に困難な問題です。ですから、データに関する作業は、これらの感覚情報をモデルに利用可能にし、それによってすべての情報が与えられた上でより効果的に自己改善できるようにする方向へとシフトしていくと思います。
面白いですね。Sensor as a Serviceのようなものへの大きなトレンドがあるようです。その分野でスタートアップが登場してきていますね。非常に興味深いです。
事前学習とポストトレーニングの現在と今後
数秒だけ自己改善の話から視点を引いてみましょう。去年の大きなテーマは、事前学習に加えてポストトレーニングの加速でした。強化学習の側面ですね。今後数ヶ月、あるいは1年の間で、どのようなところから進歩がもたらされると予想していますか。それはポストトレーニングでしょうか、それとも事前学習でしょうか。あるいはその両方、それとも全く別の何かでしょうか。
この質問への答えは、あなたがいつこの質問をするかによって本当に変わってきます。事前学習とポストトレーニングの間で少し揺り戻しがあるのは明らかです。結論から言うと、事前学習は依然として基礎であり、どれだけポストトレーニングを行っても、悪いベースモデルを補うことは決してできません。しかし現在のところ、ポストトレーニングの投資対効果は非常に強力です。
私自身、数ヶ月前からGeminiのポストトレーニング、主にコーディングとエージェント機能に取り組み始めました。小さな素晴らしいアイデア一つが、例えば振る舞いの面で、事前学習のほんのわずかなコストでモデルを10倍良くするのを目の当たりにしています。ポストトレーニングは間違いなく、大きな影響を与え、モデルを改善するための場所だと言えます。
一方で、他の会社でも同様だと思いますが、Google DeepMindでは事前学習の側にも非常にエキサイティングな研究の成果が注がれています。新しいレシピや新しいアイデアですね。私たちが事前学習で行っている取り組みは、下流の多くの可能性を解き放つことになるでしょう。ポストトレーニングは単なる異なる動作モードです。私自身、この分野のオペレーションには少し新参者なので非常に興味深いです。しかし最終的には、ポストトレーニングと事前学習の間で常に行ったり来たりが続くと予想しています。
事前学習に関するあなたのコメントは、数ヶ月前に現れた「事前学習は死んだ」というようなシナリオに反するものです。あなたの見解は全く違うということですね。
その通りです。結局のところ、誰もが事前学習側にアイデアを持っていますが、そのアイデアを実行するかどうかは、複雑さと期待される利益の関数になります。そして時々、すぐに手の届く果実があると感じることがあります。複雑なレシピを事前学習に持ち込む代わりに、シンプルでエレガントで極めてスケーラブルなアイデアがあれば、それを押し進め、努力をポストトレーニングに移すわけです。そしてある時点でベースモデルがボトルネックになれば、複雑なレシピを喜んで事前学習に持ち込み、それを押し進めることになります。
「事前学習は死んだ」というのは、時間軸が非常に依存するので古い新しいを語るのは少し典型的な話になってしまいますが、ここでの「古い」とはおそらく2週間前とかを指しているのかもしれません。しかし、1年前や2年前に行っていた事前学習のやり方であれば、おそらく収穫逓減が明らかになっているでしょう。しかし、新しいアイデアが事前学習に新鮮なエネルギーをもたらし、突然エキゾチックな何かに向かって扉を開き、それが時間とともにベースモデルの能力を劇的に変える可能性があることは想像に難くありません。
継続的学習とRAGシステムの将来
いつリリースされるかはともかく、Gemini 4に向けたエキサイティングな話ですね。先ほど継続的学習について触れられましたが、これもまた人々が話題にしているホットなトピックの一つです。幅広いリスナーの学びとなるように、継続的学習を定義していただけますか。おそらく自己改善ループと比較対照するのがよいでしょう。これらは異なるものですが、違いを理解するのを手伝ってください。
確かに関連していますが、明確に異なるものです。自己改善とは、モデルが時間とともに賢くなり、その能力を向上させていくこと、つまりモデル自身がそれを行うことです。一方、継続的学習は主にモデルを常に最新の状態に保つことです。医者が新しい研究を読み続け、物事に関する知識を刷新し、知識が古くならないようにしているのと同じだと考えてください。
自己改善と継続的学習の共通の敵は、世界が動いているにもかかわらず重みが凍結されたモデルです。もし凍結されたモデルがあって世界が動いているなら、自己改善も継続的学習も得られません。しかし継続的学習が主に焦点を当てているのは、世界に新鮮な知識がある場合に、モデルの知識のカットオフが過去のものにならないようにすることです。
ですので、一晩中世界で起きているニュースやあらゆる出来事が常に更新されていきます。今日あなたがモデルに質問を投げかけたら、その超新鮮な知識がすでにモデルの重みの中に入っているわけです。外部ソースに依存して知識を取り込む必要がありません。そして、これは非常に難しいことです。本当に、本当に難しい。
大きな問題の一つは破滅的忘却です。モデルのトレーニングが終わった後に新しい情報を学習させようとすると、メインのトレーニング段階ですでに学習した知識が突然退行してしまうのです。これは現在非常に活発な研究分野です。
では、現在の継続的学習の現実はどうなのでしょうか。既存のシステムに組み込まれているのでしょうか、それとも全く組み込まれておらず、まさに組み込まれようとしているところなのでしょうか。
これには二つの側面があります。一つの側面として、研究はまだ「これがレシピだ、これを利用して製品化を推し進めるだけだ」と確信できるポイントには達していないと思います。基本的に、重要な新しい問題が発生するたびに、この探索フェーズがあります。人々が様々なアイデアを試し、あるアイデアから全く異なる別のアイデアへと飛び移るようなフェーズです。
そして、これがある程度機能すると確信できた時に、活用モードに入ります。「できる限り良くしよう、これが推し進める方法だ、スケールさせよう、インフラを開発し、超高速化し、製品化してどうなるか見てみよう」となるわけです。まだその段階にはないと思います。
もう一つの点は、繰り返しになりますが、継続的学習に対する確固たるレシピを持っていなかったため、そのためのインフラを構築したり高速なものに投資したりするのは難しいということです。そうは言っても、Google DeepMind内でこの分野において非常に印象的な進歩を見てきました。
非常に興味深いのは、これが極めて理論的になり得る問題だということです。理論研究をたくさん行っている人々がこの問題に取り組み、大いに楽しみながら多大な影響を与えているのを見てきました。この分野でどれだけの進歩が遂げられたかは印象的ですが、まだ「これだ、みんなでやろう、推し進めよう」と言えるような段階には達していないと思います。
キャリアの歩みとトランスフォーマーへの出会い
素晴らしいですね。あなた自身とあなたのバックグラウンドについても伺いたいです。数分であなたのこれまでのストーリー、AIに携わるようになった経緯、そしてGoogle DeepMindに至るまでの旅路を教えてください。
アムステルダム大学で機械学習の博士号を取得しました。主に言語モデルやテキスト、検索と情報の取得について研究していました。その後、本当にメインストリームに身を置き、大きな進歩を遂げるために奮闘しているグループの一員になりたいと思うようになったきっかけがあります。
2016年と2017年にいくつかインターンシップを経験したのですが、面白いエピソードがあります。2017年の初めにGoogle Brainでインターンシップをしたのですが、それが素晴らしかったんです。要約のためにLSTMに取り組んでいるチームに入ったのですが、要約はその当時最も興味深い問題の一つでした。私は驚いて、「これはすごくいい。残りの人生ずっとこれをやり続けたい。これこそが答えだ」と思いました。そして、その年の終わりにもう一度インターンシップに戻るオファーをもらいました。
するとリクルーターから、「Transformerという論文を発表したばかりのチームがあって、インターンを探している」と言われました。ルカシュ・カイザーと話をしたのを覚えています。ルカシュは、Transformerをベースにしたアルゴリズムマシンを作るというアイデアについて語り、とても興奮していました。
会話が終わった後、私はリクルーターにメッセージを送りました。「このチームに入りたいかわかりません。彼らは何かランダムなことをやっています。誰もがLSTMをやっているのに、なぜ私がTransformerなんていうランダムなアーキテクチャに取り組んでいる人たちのチームに入らなきゃいけないんですか?そんなの消えてなくなりますよ」と。しかしリクルーターが努力しても他に入るチームが見つからなかったので、私はインターンとしてそのチームに加わりました。
そして、それが私の人生を変えました。誰もが他のことに夢中になっている中で、あるビジョンと方向性を信じているこの非常に優秀で賢い人たちの中にいることは、非常に刺激的でした。それから私たちは、先ほどお話ししたアルゴリズムマシン、つまり深さの再帰とパラメータの再利用を行うユニバーサル・トランスフォーマーの論文につながるアイデアに取り組みました。それはほぼ10年経った今でも多くの影響を与え続けています。
それについて手短に教えてください。それは2019年のことだったと思いますが、あなたはその論文の共著者であり、この会話の冒頭で触れたループや再帰的な処理というアイデアそのものですよね。
ユニバーサル・トランスフォーマーの論文は2018年に書いて、一度どこかの学会でリジェクトされたと思います。そして2019年に採択されました。正確には覚えていませんが、ICLRで採択され、NeurIPSか何かでリジェクトされたような気がします。
全体の直感としては、パラメータを再利用し、モデルがその出力をもう一度見直すことに何か意味があるのではないか、ということでした。何かを生成して、それをもう一度モデルに渡し、モデルが処理を行うチャンスを与えるというものです。ルカシュがアルゴリズムタスクと呼んでいたアルゴリズムデータセットから始めました。それはTensorFlowをベースにしたTensor2Tensorと呼ばれるコードベースの一部で、現在も残っています。ユニバーサル・トランスフォーマーのコードをプッシュした当時の自分のプルリクエストも見つけられるはずです。
そこでわかったのは、入力を出力にコピーしたり、出力側で非常に長い入力に対してアルゴリズム的な処理を行うといった特定の問題では、通常のモデル、つまり通常のTransformerはひどく失敗するということでした。しかしループさせることで完璧にこなせるようになったのです。当時Metaが作成したbAbIデータセットがありましたが、それでも素晴らしい結果を出しました。
固定の計算量でトレーニングし、テスト時にはより多くの計算量を開放して入力により多くの演算を投じるという「テスト時の計算」のアイデアを思いつき、非常に興奮しました。最終的には、このモデルに適応型計算メカニズムを導入することになりました。これもまた、アレックス・グレイブスのLSTMの論文から何らかのインスピレーションを受けたものです。
非常に興味深い道のりでした。当時の分野全体が、単純な問題に対してコストを削減するために適応型計算を使用することに集中しすぎていた気がします。しかし今なら、難しい問題に対してコストを増やすために適応型計算を使用できることがわかっています。実は同じコインの裏表なんですよね。当時はリソースの制約などもあって、「文末のあのトークンを処理するのに、なぜすべてのレイヤーを通ってこんなに大量の演算を費やしているのか?本当に24レイヤーも必要なのか?どうすれば減らせるか?」と考えていました。
しかし今は、「物理の問題を解くために、どうやって推論に例えば2週間分の計算量を増やすことができるか」という異なる視点を持っています。この優秀な人たちと一緒にそれに取り組めたのは本当に楽しかったです。
この深さ方向の再帰やパラメータの再利用は、後になって一部の人々から「負のスパース性」として定義されるのを見ましたが、それはMixture of Expertsと結びつける素晴らしい方法だと思います。Mixture of Expertsでは、演算を伴わないパラメータを持ちます。一方ループでは、追加のパラメータなしに演算量だけを増やすことができます。つまりスパース性とは逆の方向に向かうものであり、非常に効果的です。多くの人々がこれを取り入れており、この方向への興奮が高まっているのを感じます。
画像への応用:ビジョン・トランスフォーマーの誕生
魅力的ですね。あなたがこの分野にもたらしたもう一つの根本的に重要な貢献は、2020年のビジョン・トランスフォーマーの論文です。「An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale」というタイトルですね。これについて解説していただけますか。
これについても面白いエピソードがあります。私はこの論文をきっかけに、ビジョンとマルチモーダルの分野に入りました。それまでビジョンの問題には一切取り組んだことがありませんでした。ただ単に、ビジョンの研究をしている人たちの隣に座っていたからというだけなんです。隣の席の人たちがビジョンの研究をしていて、話を聞いているうちに「これは面白いな」と興味を持ったのが始まりです。
当時、私はPaLMの論文に取り組んでいました。そこで「言語モデルには4,000億パラメータのモデルがあるのに、ビジョン側の最大のモデルはどうしてResNetの1億パラメータ程度しかないんだろう?なぜスケールの恩恵がないのか?」と疑問に思ったんです。そこでビジョンの担当者たちと一緒に調べ始めました。「もしかしたらTransformerにはスケーラブルにする何かがあって、畳み込みから離れてこれを試せるかもしれない」と。
もちろん、これがスケーリングの唯一の方法だとは言いません。もしあるグループが畳み込みに十分な時間を費やせば、同じくらいスケーラブルで優れたものを作れるかもしれません。しかし、これを行う利点もありました。機械学習分野の他の研究者たち、つまり言語を研究している人たちがこのアーキテクチャを使っていたからです。彼らはそのためのインフラを構築し、高速化し、時にはハードウェア自体がこのアーキテクチャに基づいて設計されていました。少なくとも短期的にはね。
そこで私たちは推進し始めました。「各ピクセルをトークンにしたらどうなるだろう?」というアイデアもありましたが、コストが高くなり、コンテキストが異常に長くなってしまいました。行ったり来たりがありましたが、面白いことに、最初は畳み込みを模倣しようとするなど、非常に複雑な視点からこの問題に取り組み始めていたんです。
最終的には、チューリッヒの同僚たちが、画像を16×16のピクセルのパッチに分割し、各パッチをピクセルとして扱うというシンプルなアイデアを試すことから始めました。オーバーラップするパッチやウィンドウのことは忘れよう、と。「画像を切り刻んで、それをTransformerに入力し、大量のデータでスケールさせる。そして何か識別的なタスクからモデルのトレーニングを始めよう」と。そしたらそれがうまくいったんです。
私たちにとっても驚きでした。全員が畳み込みを統合したような、派手で非常に複雑なものを考えていたのに、うまくいったのは「パッチ化して、Transformerに入れ、スケールアップする」というシンプルなアイデアでした。そして表現学習のための本当に素晴らしいモデルができたんです。
なるほど。最高レベルでわかりやすく説明すると、過去にはCNNの世界とテキスト用のTransformerの世界という2つの異なるファミリーがあったのに、Transformerのアーキテクチャを画像にも適用できるようになったということですね。そしてあなたのブレイクスルーは、Transformerが画像に対しても同様にうまくスケールできることを証明したことであり、それが現在のネイティブにマルチモーダルなGemini 3への道を開いた、という理解で合っていますか。
ええ、その通りです。それによって、動画や音声にもTransformerを適用させるステップへと進みました。これがマルチモーダルになる唯一のアーキテクチャというわけではありませんが、単一のアーキテクチャでトレーニング中にすべてのモダリティを扱うことができるため、これらのモデルをネイティブにトレーニングすることが本当にシンプルになったんです。
ネイティブ・マルチモーダルと画像生成AIの進化
素晴らしいですね。それでは、Nano Bananaと画像AIの未来に関するあなたの仕事に話を移すのに完璧なタイミングですね。あなたはNano Bananaチームの一員であり、これがリリースされて完全にバイラルになった時はさぞかし楽しかったことでしょう。本当に信じられないようなプロダクトです。それ以降、いくつかのリリースがありました。2025年11月にNano Banana Pro、そして数週間前の2月末にNano Banana 2、別名Gemini 3.1 Flash Imageが登場しました。
多くの人は、画像生成は翻訳機のように機能すると想定しています。つまり、AIがプロンプトのテキストを読み取り、それを描画の指示に翻訳して画像を描くというものです。しかし先ほど話したように、Geminiはネイティブにマルチモーダルです。それは実際にはどのように機能するのでしょうか。モデルはどのようにテキストとピクセルを同時に処理して画像を構築しているのですか。
なぜ私が生成分野に入ったかについてですね。あ、ちなみに一つ言っておくと、私は画像生成の専門家ではありません。これに取り組み始めた時、人々とミーティングをしたのを覚えていますが、彼らがコンピュータグラフィックスや古い直感について話している時、私は何が起きているのか全く理解していませんでした。「私はTransformerをトレーニングしてスケールさせる方法は知っているから、それが役立つなら貢献できるよ」という感じでした。
でも楽しかったです。本当に素晴らしい直感を持った極めて優秀で賢い人たちのグループと一緒に仕事ができたからです。私がこれに興奮した理由は、Nano Bananaそのものに直接関係するわけではありませんが、モダリティ間での「ポジティブ・トランスファー」というアイデアにワクワクしていたからです。
ネイティブにマルチモーダルであることについて考える時、一つの側面はモデルに能力を追加するということです。モデルが画像や動画、音声を理解し、テキストだけでなくそれらすべてのモダリティを生成できるようになる。これらをすべて同時にこなすモデルを持っていることは、プロダクトの観点から間違いなくエキサイティングです。ユーザーにとっても非常に便利で面白いでしょう。
しかし私にとって最もエキサイティングだったのは、これらのモダリティから転移の片鱗を見ることができるかということでした。例えば、画像を生成するのがうまくなるようにモデルをトレーニングしたら、テキストを生成するのもうまくなるのだろうか、と。これには様々な直感がありますが、言語学の文献における「報告バイアス」と呼ばれる古い概念に関連しています。
例えば、あなたが友人の家に行ったとします。そこにはバナナの形をしたソファがありました。家に帰った時、普通のソファに比べてそのソファについて話す確率ははるかに高いですよね。友人に「あそこに行ったら、ソファがバナナの形をしていて面白かったよ」と話すかもしれません。でも、それがごく普通のソファだったら、「あ、そういえば友達の家に行ったら普通のソファがあったよ」なんて言うのは奇妙です。これが言語の報告バイアスです。言語というのは、分布の真ん中にあるような普通のことについては語らないのです。
しかし、画像や世界からの視覚的な入力があれば、報告する必要もなくその情報がただそこにあるわけです。そのため、言語だけを通じて世界に関する知識をたくさん拾い上げるのは本当に効率が悪いのです。不可能とは言いませんが、非効率です。重力について学ぶのに、テキストの教科書をすべて読み込ませて重力の概念やそれが何かを学ばせるより、動画でモデルをトレーニングする方がはるかに簡単です。動画の中ではただ重力が起きているからです。
それは、画像表現に組み込まれた世界モデルの概念ですか。
その通りです。まさにそれです。基本的に、これらのモデルが世界モデルでもあることを望んでいるわけです。モデルに世界について知ってもらいたい。テキストを提示するだけで世界について教えることができる可能性は十分にあります。しかしそれは非効率であり、良い近道はマルチモーダルを導入することです。そして、あるモダリティについて学ぶ最良の方法は、それを生成する方法を学ぶことです。
そこで、Gemini 1からGeminiに画像を生成させるという地点に到達しました。Geminiは初日からマルチモーダルでした。そして、Gemini 1、1.5、2ではなく、2.5の時に初めて画像生成をリリースした理由は、最初はあまり良くなく、本当にプッシュする必要があったからです。他の能力に退行をもたらすことなくこれをどうプッシュするか、そしてこれらすべてをいかにネイティブにまとめるかを見つけ出したのです。それが私にとって非常に興味深い側面でした。
悲しいニュースというわけではありませんが、ポジティブ・トランスファーを見るのは本当に難しいことです。非常に良い戦いにはなりましたが、「画像でトレーニングしたらテキストのパープレキシティが下がった」というのを確認するのは困難でした。ネイティブモデルをトレーニングし、それがすべての機能において優れているという事実はすでに印象的ですが、私の希望は、モダリティ間でのポジティブ・トランスファーを可能にするために、マルチモーダルと世界モデルがマルチモーダルトレーニングを推し進める道となることです。
私はこの分野の専門家たちと一緒に仕事をしてきました。最初は視覚的な品質について話していて、私が「これは素晴らしいモデルだ」と画像を送っても、彼らは「いや、これは良いモデルじゃない」と言うんです。「どういう意味?」と聞くと、私の目には同じように見える二つの画像を見せて「いや、こっちの方がはるかに良い」と言うのです。彼らは画像の視覚的な品質を把握する優れたセンスを持っていました。彼らと仕事をして、次元というものがあることを理解するのは非常に興味深かったです。ちなみに、彼らの直感こそがNano Bananaを優れたプロダクトとして成功に導いた要因です。
しかし私は、「従来の画像生成を超えた何かにこれを押し上げたらどうなるだろう?」と考えました。テキストから画像への翻訳機ではなく、画像について考える機械にするのです。例えば、インターリーブされたテキストと画像の生成を可能にすれば、モデルはテキストのトークンだけでなくピクセルの空間でも考えることができます。テキストを生成し、画像を生成し、また別のテキストを生成し、別の画像を生成する。これを様々な問題に活用できます。子供向けの絵本のように、物語のテキストとそれに関連する画像を組み合わせることもできます。
もう一つ私が非常にワクワクしたのが、漸進的な生成です。例を挙げましょう。DALL-EやImagenなどのスタンドアローンの画像モデルを取り上げて、「50個の詳細が含まれたシーンの画像を生成して」と頼んだとします。失敗するかもしれません。誰かが「55個の詳細まで処理できる優れたモデルを作った」と言っても、「じゃあ60個は?」となれば「もう一度トレーニングして対応します」ということになります。単一ショットの画像生成モデルがテキストから詳細を捉えて指示に従える限界には、結局のところ閾値があるのです。
しかし、漸進的な生成ができれば、テキスト、画像、テキスト、画像と進めることで、モデルにこれらの詳細を一つずつ生成させることができます。最初のショットで完璧な画像を生成することは期待せず、モデルに生成の計画を立てさせるのです。「後で小さなオブジェクトを配置する時に大きなオブジェクトが収まらなくなると困るから、まずは大きなオブジェクトから始めよう」というように。そして次のターンで中くらいのオブジェクト、小さなオブジェクトと進めていきます。
これは極めてスマートなやり方です。計画を立て、各ステップの難易度をモデルが単一ショットで生成できる能力に合わせて調整するため、単一ショットの画像生成能力の限界がボトルネックになることがありません。ネイティブな生成やインターリーブされた生成であるNano Bananaが、画像生成の仕事に全く新しい視点をもたらしたのはこういった理由からです。テキストを画像に翻訳するだけのものとは大きく異なります。
魅力的ですね。これが効率化にも貢献しているのでしょうか。特にNano Banana 2はFlashの側面があります。素晴らしい画像を非常に速く、どうやら非常に効率的に作成できるようです。舞台裏では何が起きているのですか。今説明してくださったことが、それを可能にしている理由なのでしょうか。
まず前提として、私が関わっていたのはオリジナルのNano BananaとNano Banana Proまでで、最新バージョンは関与していません。ポストトレーニングやコーディング、エージェント機能の方がエキサイティングだと感じてそちらに移ったので、この最新版はチームが出荷してくれました。
しかし、何がモデルをより速く、より効率的にしているのかについて非常に高いレベルで言うなら、理由の一つは単にモデルのサイズです。Nano BananaはProのサイズでしたが、今回はFlashです。パラメータのサイズや設定が大きく関係しています。もう一つは、人々が蒸留のレシピを絞り込むのにかなりの時間を費やしたことです。知識の面でも、完全なプロセスよりも軽いプロセスに蒸留する必要がある他の要素についても同様です。
驚くべきことに、サービングのためのインフラ作業も大きな役割を果たしました。私たちには本当に優秀なサービングエンジニアたちがいます。自分のデスクに座っていると、彼らがやってきて何気なく「あ、そういえばモデルを10倍速くしておいたよ」なんて言うんです。本当にすごいことです。どうやってモデルをサービングするかという最適化作業に多大な努力が注がれました。
これらのモデルは通常の言語モデルとは異なる動作をしており、単純な次のトークン予測と同じではありません。優秀なサービングエンジニアは「違うやり方が考えられる」と見つけ出すことができます。彼らの仕事によって効率の面でも大きな改善がありました。
AI分野が抱える見過ごされた課題とホットテイク
わかりました。そろそろ対話の終わりに近づいてきましたので、準備がよろしければ、最後はいくつかホットテイクで締めくくりたいと思います。
ええ、もちろんです。
では、現在AI分野が間違っていることは何でしょうか。
特定の一点を示すのは簡単ではありませんが、これはあくまで私の個人的な意見であり、同僚や他の人も同じ意見を持っているかもしれませんが、「凸凹な知能」を修正することがいかに難しいかということを私たちは過小評価していると思います。それがどれほど重要かを過小評価しているんです。
非常に難しい数学の証明ができるのに、単語の文字数を数えるのに苦労するようなモデルがあったとして、人々は笑って次に進みます。しかし私は、これはこれらのシステムが知識を表現し処理する方法における、根深く未解決な問題を指し示していると考えています。これはパッチを当てて直せるようなバグではありません。
もちろん、これが起きているのはわかっています。何かひどい失敗があった時に、「システムインストラクションやプロンプトに何かを追加してパッチを当てよう」とすることがあります。しかしこれは、モデルがどのように学習するかという構造的な特性に関わる問題です。これが、私たちが現在正確に理解できていないことの一つだと思います。
素晴らしい。現在AI研究において過小評価されているアイデアは何でしょうか。
先ほどあなたが言及された継続的学習ですね。これは間違いなく過小評価されています。先ほども言いましたが、私たちは何かに確信を持てるまで探索モードにとどまり、その後活用モードへと移行します。継続的学習に関しては、それを活用へと押し進めるべき時期はもう過ぎていると思います。
おそらく今の基盤モデルは、本質的にトレーニングが終了した時点で時間が止まってしまっています。RAGパイプラインやファインチューニングのワークフロー、検索システムなど、精巧なインフラはすべて、「モデルは凍結されている」という前提の上に構築されています。これは少し強すぎる前提になりつつあり、私たちはこれらの前提を変えるべき時期に差し掛かっていると思います。もう少し積極的に考え、これを製品化へと押し進める必要があります。継続的学習は現在、少し過小評価されていると感じます。
では、RAGはいずれ消滅すると思いますか。
今のままの姿ではなくなり、違うものになるでしょう。しかし完全に消え去るとは言い切れません。その理由の一つは、RAGは現在の状況に関する問題を解くためにモデルに新鮮な情報をもたらすだけのものではないからです。RAGにはインコンテキストラーニングの側面もあります。モデルのコンテキスト内にある情報と、モデルの重みの中にある情報とでは違いがあります。継続的学習とRAGは、この新鮮な情報をもたらすという点で異なる働きをしています。
もしかしたら、すべてに対してRAGをトリガーする必要がないような形に変わるかもしれません。しかし、現在の時間を尋ねるような分布の尻尾にあるようなものに対しては、今後もRAGを使い続けるだろうと確信しています。
わかりました。最後のホットテイクです。人々が過信しすぎていると思うことは何ですか。
人々は、技術面を推し進めれば十分だと考えています。より賢いモデルができれば、すべてがうまくいくと。しかし私の考えでは、技術的な問題には極めて優秀なのに、他のすべてにおいて盲点を持っているようなAIのバージョンは、世界において意味のある進歩を生み出すことはできません。
他のすべてが自ずとついてくる、あるいは他のすべては大した問題ではないと人々が確信しているのは間違いだと思います。私たちにはガバナンスがあり、規制があり、社会的信頼があり、この技術による利益とアクセスの世界的な分配があります。さらに、この技術を吸収し適応するための組織的な能力といった問題もあります。これらは私たちが十分な注意を払っていないかもしれない問題であり、技術的な部分よりも難しいとは言わないまでも、決して解決済みの問題ではありません。
これらは本当に難しく、技術的な進歩のペースは間違いなく、こうしたメカニズムを開発する世界の能力を追い越して進んでいます。このギャップはどんどん広がっています。私が言いたいのは、この分野は両方を同時に抱え持たなければならないということです。それが一つですね。
長期的自動化と知能の再定義に向けて
わかりました。最後になります。これがホットテイクになるか、単なるアドバイスになるかはわかりませんが、もしあなたが今日ゼロから始めるとしたら、何に取り組みますか。
ゼロからは始めたくないですね。始めるのは大変ですから。もう少し時間をかけたいと思うことが2つと、非常にワクワクしていることが1つあります。ワクワクしていることから始めましょう。短期的にはこれを推し進めるのが非常にエキサイティングで、私自身もこの方向性に貢献したいと思っています。それは、超長期的なタスクの完全な自動化です。例えば、機械が2週間や1ヶ月かけて働くようなものです。
今日のエージェントは非常に印象的で、デモもとても魅力的です。しかし、十分には語られていない「信頼性の複利問題」があります。例えば、エージェントがタスクを完了するために100の連続したステップを踏まなければならないとします。各ステップの成功率が95%だと想像してください。今日のモデルを考えれば95%は非常に素晴らしい数字です。しかし、たった一つの失敗もなくタスク全体を完了する確率は、0.95の100乗、つまり1%未満になってしまいます。
この計算は残酷です。しかもステップごとに95%というのは非常に楽観的な数字です。長期的な自動化は決して不可能ではありませんが、ステップごとの信頼性やエラーからの回復といった、現在のシステムにはまだ備わっていないレベルの機能が求められます。もし私たちが社会的信頼を得て、人々が実際にこれを使ってくれるようにしたいなら、この問題に取り組まなければなりません。結局のところ、人々はモデルの平均的なパフォーマンスではなく、失敗を経験するのです。
モデルが馬鹿げたミスをした場合、100の不完全なタスクをこなすことの利益よりも、信頼に対するダメージの方が大きくなります。このような長期的タスクにおける信頼性は、私たちが間違いなく必要としているものです。
そしてより哲学的で高いレベルの話になりますが、私が取り組みたいのはグラウンディングの問題と、物理世界に接続された堅牢なAIシステムをどう構築するかということです。先ほども言いましたが、データという概念は、どうやってこれらのモデルが物理世界に根ざすようにするか、というものに変わっていきます。積極的に考えなければ、これが自己改善のボトルネックになることは間違いありません。テキストやピクセルの中の統計的なパターンから離れるべきです。
もう一つ関連することとして、知能そのもののより良い定義を考えることです。少し哲学的ですが、間違いなく実践的な問題です。この分野全体、そして私たち自身も、本当に定義できていないものをどんどん構築しようとしています。私たちはモデルをより賢く、より知能的にしようとしていますが、知能の定義があまりにも曖昧で扱いづらいため、意味のある進歩を測るのが難しいのです。
これは先ほどの評価に関するあなたの質問にも関連しています。プロキシやベンチマーク、スコア、能力、そして私が非常に有用だと感じるVidesなどがあるのは良いことですが、最終的には知能を定義する体系的な方法が本当に必要です。それは難しいことですが。今あるものに基づいて進歩を遂げるのは良いことですが、ある時点で「ターゲットは何なのか、目標は何なのか」を正確に特定し、そこに向かって最高速度で推し進めることがより重要になってくるでしょう。
わかりました。モスタファ、本当に素晴らしい対話でした。私たちと時間を共有していただき、本当にありがとうございました。とても楽しめました。心から感謝します。ありがとう。
ええ、お招きいただきありがとうございました。お話しできて楽しかったです。ご招待に感謝します。
こんにちは、再びマット・タークです。Matt Podcastのこのエピソードをお聴きいただきありがとうございます。楽しんでいただけたなら、まだの方はぜひチャンネル登録をお願いします。また、ご視聴やご聴取いただいたプラットフォームで、肯定的なレビューやコメントを残していただけると非常にありがたいです。それが私たちのポッドキャストを成長させ、素晴らしいゲストをお迎えする力になります。ありがとうございました。また次回のエピソードでお会いしましょう。


コメント