自己改善型AIエージェントはもうすぐそこに DeepSeek内部関係者が語る

DeepSeek V2論文の著者の一人であるAI研究者ジョン・ワンが、自己改善型AIエージェントの実現可能性とその技術的課題について語る。現在のAIモデルは既に自己改善の基礎能力を備えているが、メモリ問題、推論崩壊、ワールドモデリング能力の欠如などが主要なボトルネックとなっている。中国の教育システムとAI人材育成の優位性、主要AI企業の特徴、そしてエージェント実現に向けた具体的な技術的課題について、現場の研究者ならではの洞察を提供する。

“Self-Improving AI Agents Are Almost Here…” – DeepSeek Insider

Wanna scale your AI business? Go here: learn how to code with AI? Go here: abo...

DeepSeekでの研究経験と専門家特化
主要AI企業についての見解
中米AI競争についての分析
メモリとエージェントの課題
ベンチマークの課題と推論崩壊
AI研究者としての思考プロセス
まとめ

DeepSeekでの研究経験と専門家特化

2024年初頭にDeepSeekに参加しました。当時、彼らはMOEモデルに取り組んでいて、私が加わった時はDeepSeek V2の開発中でした。このモデルはMLAを使ってKVキャッシュを削減し、より効率的なモデルを実現するものです。

私の在籍中は、主に専門家特化について研究していました。大規模なスパースモデルには多数の専門家が存在しますが、どうすればそれぞれが本当に独自の役割を担えるかという課題です。その期間中に、モデルをより特化させ、下流タスクに適応させる手法を発見しました。特定の下流タスク専用の専門家をトレーニングすることで実現します。

これにより、新しいドメインにモデルを適応させる際に必要なメモリと計算量を削減できるだけでなく、無関係な専門家が単一の下流タスクに過剰適合するのを防ぐことができます。つまり、一般的な能力を維持しながら、モデルをより特化させることができるのです。

これはモデルのアーキテクチャ変更ですよね。最大の進歩はここにあると思いますか、それともクリーンなデータ、より多くのデータ、より多くの計算力にあると思いますか。

厳密に同じデータの下では、すべてのアルゴリズムはベースラインアルゴリズムよりも良いパフォーマンスを発揮します。両方とも非常に重要だと思います。良いデータがあればモデルは改善しますし、より良いアルゴリズムがあってもモデルは改善します。どちらも必要不可欠です。

基本的に現時点では、主要な研究所はそれぞれインターネット全体をスクレイピングしていると言っていいでしょう。Googleは恐らくYouTubeやGoogle検索などから独自のデータをより多く持っているかもしれません。研究所間の最大の違いは、より良いアルゴリズム、より良いアーキテクチャになると思いますか、それとも何か別のものだと思いますか。

実際には研究所を区別できる多くの点があります。一部の研究所はオンラインから利用できるパブリックデータをより多く持っています。一部の研究所はより良いインフラを持っていて、反復速度が非常に速いです。また、一部の研究所はより多くの計算リソースを持っているので、より多くのモデル、より大規模なモデルをトレーニングできます。

DeepSeekは私がいた時点で本当に素晴らしいインフラを持っていたと思います。朝にアイデアを思いついたら、午後には実装できるという感覚がありました。当時はClaude Codeもcursorもコードエージェントもなかったのですが、彼らのインフラは非常にクリーンで、何かを追加したり削除したりしたければ、すぐに実行できました。これが彼らの大きな優位性だと思います。

基本的にはとてもオープンな文化で、エリートたちが自分がすべきだと思うことを自由にできるということですね。

ボトムアップ構造のようなものです。アイデアがあればチームメイトに提案して、作業を始めます。上司はあまり介入せず、十分なリソースを確保してアイデアを推進できるようにしてくれます。チームは非常に協力的です。同じ分野で働いている人もいれば、分野を超えて働いている人もいるので、アイデアを推進したい場合、例えば私がアルゴリズムの改善に取り組んでいる場合、アルゴリズムが実装されたらインフラ側の人々に効率を改善してもらう必要があります。例えばより多くのカーネルを書くなどです。チームメンバーが何かを本当に推進したい場合は、このように協力します。

主要AI企業についての見解

そこでの最も印象に残っている思い出は何ですか。

少し陳腐かもしれませんが、そこにいた時、ランチタイムに中国文学についてみんなとチャットするのが本当に楽しかったです。彼らは本当に多様なバックグラウンドを持っていて、実際に中国文学のバックグラウンドを持つ人もいました。技術系の人たちと中国文学や中国ドラマについてあれほど話せるとは想像していませんでした。本当に楽しかったです。

では、主要なAI企業すべてについて、それぞれ数文ずつあなたの考えを聞かせてください。彼らの優位性は何だと思いますか。まずAnthropicから始めましょう。

彼らのコーディングエージェントは非常に良いと思います。製品選択も非常に良いです。例えばco-workersのような製品戦略的な選択は、私が非常に好きなものです。

OpenAIについては。

OpenAIはかなり早い時期から知っていました。大学1年生の時からOpenAI Gymを知っていました。当時、多くの研究を動機づけていたので、とても感謝しています。他の人々の研究だけでなく、私の宿題も動機づけてくれました。

3年生の時にバークレーに交換留学生として行った後、彼らの論文、特にVPT論文を集中的に読み始めました。BERTやGPT-2のような言語だけでなく、ビデオトレーニングを通じて世界を理解するためにAIモデルのプリトレーニングを始めたもので、とても興奮しました。世界中でゲームをプレイできるゲームエージェントをずっと見たいと思っていたので、これは彼らがやったことです。その後はみんなが知っているChatGPTなどの話です。

Google DeepMindについては。

DeepMindのAlphaGoとは偶然の出会いがありました。当時は中学生で、AIについて何も知りませんでしたが、AlphaGoのライブストリームは見ていて、とても興奮しました。9年後、私たちは偶然にもエージェントインフラをリリースしました。それは後にReActとなり、大規模推論モデルを使った最初のエージェントインフラの一つだと思います。2025年1月21日から27日にリリースされ、ちょうど9年後でした。先月、AlphaGoの10周年記念とReActの1周年記念の両方を祝いました。非常に興味深いです。

次のAI研究所、DeepSeekについて。彼らの主な優位性は何だと思いますか。

彼らの優位性についての私の考えは今も存在していて、長い間存在し続けると思います。それは非常に優れたインフラ、そこでの人々の働き方です。DeepSeekの人材は、この会社を築く上で本当に重要な要因だと言えます。DeepSeekだけでなく、中国の他の多くの企業にとってもです。

具体的には、海淀は北京の地区で、清華大学、北京大学、その他多くの大学があり、非常に優れたAI教育を行っています。チームメイトについてとても良い感じがしましたし、これらの大学すべてがAI教育にますます力を入れていると感じています。特に、一部の大学が高校生向けに非常に真剣な競技会を開催していることを知っています。そのため、彼らが大学に入学する時には、既にTransformerのトレーニング方法やエージェントのトレーニング方法を知っているのです。

それはすごいですね。中国はアメリカよりもこれをうまくやっていると思いますか。

アメリカが高校生に対してどうやっているかは実際には知りません。私はここで高校を卒業していないので。でも中国の高校生からは、中国がこのようなことをやっていることは知っています。

西洋側では、これらの変化は非常に遅いと感じます。教育システムや、何かが起こっているとき、例えばAIが世界を変えているのだから高校生の時間の20%をこれに集中させようというような変化は、永遠にかかると思います。西洋の国でそれが起こっているとは思いません。でも中国では、このような変化をはるかに速く行えます。同意しますか。

最高の人材のリソース配分のようなものですね。どのように配分されるか。

アメリカはより興味主導だと感じます。好きなら、それを追求できます。これは悪いことではないと思います。その分野により意欲的になり、その分野でトップの研究者やトップの貢献者になれるからです。でも統計的にはより多くのリソースを投入すれば、より多くの人材が得られます。

xAIについてはどう思いますか。

xAIは、そのメンバーの一部がSGONの出身で、このインフラを愛しているので知っています。言語モデル推論を単一ターンから複数ターンに推し進め、それを非常に速く行いました。この複数ターンのエージェント的なトレーニング、エージェント的なロールアウトを可能にする最速の推論インフラの一つだと思います。

私たちがReActで持っていたものに非常に近いと思いますが、彼らはそれをはるかに速くしました。私たちは昨年1月にこの複数ターンRL推論トレーニングを行い、彼らは昨年2月に行ったと思いますが、私たちの実装より2倍か3倍速いと思います。SGONの非常に優れた研究者たちだと感じています。SGONにはxAIからの人が多いことを知っています。

Moonshot AIについては。

最初にMoonshotを知ったのはMoonshotの論文からです。その論文では、このオプティマイザーがAdamよりも優れている理由を測定し、非常に大規模な研究でそれを行いました。このようなスライドから、彼らは多くの文献やAI研究を読み、どれが良くてどれが良くないかを理解し、大胆にそれらをモデルに適応させる会社だと感じました。

現在、この戦略は非常に珍しいと感じます。多くの人は既に成功した人だけをフォローしますが、成功する可能性があるがまだ成功していない人をフォローする人は非常に稀です。彼らはMoonの最初のフォロワーだと思いますし、彼らのチームはこの分野で洞察力のある論文を見つけ続けたり、独自の非常に洞察力のある論文やアイデアを作り続けて、それらをモデルに適応させ続けると信じています。あらゆる場所から学び、あらゆる場所から適応する非常に良い特徴です。

中米AI競争についての分析

中国対アメリカのAI競争について、あなたは独自の視点を持っていると思います。あなたは両側にいたことがあり、外部からしか見ていない人よりもおそらくよく比較できます。個人的には、私は中国にもアメリカにも大した時間を過ごしたことがありません。完全な外部者です。でもこれについて話すほとんどの人は、中国側かアメリカ側のどちらかにいます。あなたは両方で独自の洞察を持っています。実際に勝っているのはどちらだと言いますか。AI競争における主な違いは何だと思いますか。例えば、中国はより多くのエネルギーを持っています。電力網に多く追加していて、西洋では誰もやっていないことだと思います。ドイツのような国を見ると、原子炉を停止させていて、文字通り自分たちを妨害しています。幅広い分析をお願いします。

人材についてもっと話せます。中国の教育システムがどのようなものか、実際によく知っているので。

中国の教育システムについて人々が理解していないことを説明してください。

中国の教育システムと多くの国外との最大の違いは、非常に標準化された選抜システムがあり、早い段階から人材を育成しながらフィルタリングし続けることです。6歳で小学校に入ると、多くの人が学校での学習だけでは不十分で、おそらく授業外で学ぶ必要があると言います。例えばクラスを取ります。

ピアノのクラスなども取ります。なぜ親がピアノのクラスを取ることが成功に役立つと感じるのか分かりませんが、実際そうなのです。

私も小学生の時にピアノのクラスを取っていました。

中学校に進むと、そのようなクラスだけでなく、オリンピック課題もあって、グループの中で最高の生徒になることができます。週に1、2つのクラスを取っていたと思いますが、週末全体をこのような数学のクラス、物理のクラス、英語のクラスに費やして、これらの競技会でより良い成績を取るのを助ける生徒もいることを知っています。

基本的に子供たちは放課後の時間をはるかに多く準備、勉強、研鑽に費やしているということですね。

これは非常に高圧的で、非常に競争的なシステムを維持しているので、その中にいると前に進むよう押されます。例えば、高考の最終試験だけでなく、私たちの高校では毎月この種の月次試験もあり、高校の最終学年では毎日少なくとも2つの試験を終え、毎週高考の完全なシミュレーションを行います。

ほとんどゲーム化されているような、より競争的なシステムですね。それはかなり標準的だと感じます。つまり、あなたが望むような人材を常に得ることができます。メトリクスを設計すれば、この非常に競争的で標準化されたシステムの下で、あなたの要件に適合する誰かを常にフィルタリングできます。

教育システムの基盤は非常に大きいので、常に非常に才能のある人がいます。

私の高校と中学校は他のどこよりもはるかに良かったと思います。少なくとも1年目と2年目では、中学校と高校はどちらも3年間ありますが、少なくとも最初の2年間はそれほどプレッシャーがなく、週末にこれらすべてのクラスに行く必要もありませんでした。

おそらくはるかに良かったですし、中学校と高校の間に多くのクラブに参加しました。例えば模擬国連やチェスのクラスなどです。中学校と高校のトレーニング中に興味と意欲が大きく保たれたと感じています。これが大学に進んだときに何かを追求する意欲を持ち続けた理由だと感じています。

高圧的すぎて外部システムによって駆動されすぎると、システムが消えたときに意欲の欠如を感じる人もいます。

私は意欲を保ち続けたと感じています。

仕事環境から9時5時で働いていた人が自分のビジネスを始めて、突然誰も彼らのスケジュールを見ていないのでタスクがなくなり、自由が多すぎるという移行に似ていると思います。似たようなことだと思います。

西洋の教育と中国の教育、最高の人々から最高のものを引き出すのに、どちらのシステムが優れていると思いますか。

どちらも最高の人々を得ることができると思います。それについて強い信念を持っています。少し実証できます。非常にトップになりたいなら、非常に強い意欲が必要で、高圧的な状況下でうまく働ける必要があると感じています。

中国では、意欲があって既にこの高圧をかけるシステムの中にいれば、研究ラインや何らかの意欲を非常に速く推進し続けることができます。アメリカでは、意欲があって高圧の下で競争できるようにすれば、同様に非常に優れた人になれると思います。

平均的な人やアメリカの高校生がどのようなものかは分かりません。彼らと話したことがないので。でも競争があり、ストレスがあれば、ハーバードやMITの入学率を見れば分かります。それらはすべて非常に低いです。競争力を保ち、仲間を通過したいなら、非常に一生懸命働かなければなりません。これはアメリカや独自の教育システムを持つ他の国でも非常に似ていると感じています。

エネルギーについては何か洞察がありますか。これは別の大きな違いだと思います。中国は多くを展開していて、他のすべての国はこれで遅れを取っているか、これがボトルネックにならないと思いますか。AIのスケーリングにおいて、ボトルネックは次の5年、10年で別の場所にあると思いますか。

重要なアイデアは、誰が最初に匹敵する速度で自己改善できるエージェントを作るかです。その時点で非常に高い優位性を持つことになります。これはすべての分野からそれほど多くのエネルギーを必要としないと思います。より良いデータがあれば、より良いアルゴリズムがあれば、エージェントをこの種の自己改善ループに入れれば、おそらくより良くなり、エネルギーを節約する方法を知るようになります。なぜなら、エージェントが自己改善を理解すれば、異なる段階にいるからです。

それは大きな問題だと思いますか。誰が最初にそこに到達するか。

そう思います。

もし言わなければならないとしたら、再帰的自己改善までどれくらいだと思いますか。あなたの直感は。

私自身、自己改善エージェントについて広範囲に取り組んでいて、現在のエージェントは既に自己改善になるラインを越えたと思える非常に優れた能力を持っていると感じています。常識的能力、推論能力、人間との整合性、何をすべきか、何をすべきでないかを知っています。

基本的には、ツール、環境、許可、プロトコルの欠如で制限しているということですね。

ここでの鍵はコンテキスト長です。まずコンテキスト長です。最近のニュースで、誰かがコーディングエージェントを作業環境に配置して、すべてのファイルを削除したというケースを見たと思います。その話は、エージェントのコンテキスト長が制限されているため、数ステップ作業した後にメモリをクリーンにする必要があり、メモリをクリーンにしたときに、コンピュータから何かを削除してはいけないという最初の指示を削除してしまったからです。

ここでのボトルネックはメモリだと思います。エージェントが本当に活用できるほぼ無限のメモリを持っていれば、まずモデルがそれだけのメモリを保持できるようにする必要があります。次に、エージェントが実際にこのメモリを利用する必要があります。時々、エージェントはメモリを持っていても使わないからです。

ほとんどの人は、モデルが100万トークンを許可していても、効果的でないため10万、20万トークンで要約します。

私たちの研究室には特にビジョン言語モデルのケースで研究があります。論文は「なぜVLMが空間知能で失敗するか」というもので、空間タスクに取り組ませて画像を与えても、アテンション空間で画像を参照さえしないのです。多くのトークンがあっても、それを見ないのです。コンテキスト長がさらに長くなれば、非常に大きなコンテキストからこの種のメモリを取得するのはさらに難しくなると感じています。鍵はここにあると感じています。

メモリとエージェントの課題

あなたの直感はどうですか。何らかのベクターデータベースをアーキテクチャに埋め込むことだと思いますか。モデルがリアルタイムで重みを更新できるようにすることだと思いますか。1億トークンのコンテキストウィンドウだと思いますか。

進行中のいくつかの研究があります。詳細には触れられないかもしれませんが、前進できるいくつかのルールがあると思います。まず、人間側からメモリを再考することです。人間のメモリはKVキャッシュではないという意見を聞いたことがあります。それは検証された科学的事実かもしれません。人間のメモリは大きなコードベースから取得するものではありません。人間のメモリは一種の幻覚です。

新しいことを経験します。

人々はこれに気づいていません。記憶を呼び起こすとき、詳細を追加していて、どんどん信頼性が低くなっています。

幻覚の一種です。新しい経験をして、更新されたパラメータから取得しますが、それが存在するかどうかさえ分かりません。これを本当に行えば、人間のメモリと同じくらい、あるいはそれ以上の長いメモリを持つ一種のエージェントを持てるかもしれないと思います。

でもこれは、人間も多く幻覚を起こし、時々それが害になるため、より多くの間違いをするかもしれません。でも、この種の幻覚を制御する方法を見つけて、重要でない詳細では起こるが重要なことでは起こらないようにできるかもしれません。そうすればはるかに多くのメモリを保持するエージェントを構築できるかもしれません。

もう一つのルートは、多くのことをオフロードして、必要なときだけ取得することだと感じています。これはあなたが言及したような、ベクターベースとこのキャッシュを持ち、必要なときに取得するということです。これもはるかに実行可能だと思いますが、この方法でも、前に述べたパラメータに保存する方法でも、どちらもかなり良いメモリベンチマークが必要だと感じています。

私の知る限り、現在のベンチマークは実際には長いコンテキスト理解に多く焦点を当てていますが、本当にこの現実的なメモリベンチマークを見つけたいなら、それは非常に難しいです。もしあなたの読者や視聴者の誰かがこの種のベンチマークを知っていたら、コメント欄で提案してください。

それを言われて、これについての人気のあるベンチマークがそれほど多くないことに気づいたのは興味深いです。ほとんどのベンチマークは、コーディングパフォーマンス、科学的なもの、GPQA、SWE-benchのようなもので、これを適切にテストするベンチマークはそれほど多くありません。

needle in a haystackはありますが、ほとんどの状況でそのような機能ではありません。あなたの人生の1か月を経て、その火曜日にどんな車を見たか、どんな色だったかというようなもので、モデルはそれを完璧に答えます。これは人間のメモリの逆のようなものです。つまり無駄です。メモリのための異なるベンチマークが必要です。

非常に難しいことだと思います。シミュレートされたユーザーを持ち、エージェントと会話し続け、何かを記録したいときにエージェントに尋ねるような、本当に新しいベンチマークが必要です。エージェントはこれらすべてのコンテキストウィンドウから取得できます。

この分野で取り組んでいる友人がいて、彼らはこの種のメモリベンチマークのシミュレートされたユーザーの最も難しい部分は、再現性だけでなく、ユーザーが毎回何か新しいものを生成する可能性があり、これがベンチマークをそれほど安定させないためだと感じています。

また、これらすべての言語モデルシミュレートされたユーザーはあまりにも賢く、実際のユーザーとはそれほど似ていないと感じています。例えば、GPTにいくつかのことを尋ねる場合、最初は非常に曖昧かもしれません。ただ「あれは何、これは何」と尋ねます。GPTが答えて、私はようやく「ああ、私が本当に言いたかったのは何か」と思い出し、クエリを洗練し続けます。

でも現在の言語モデルシミュレートされたユーザーは、最初の段階で自分の発言についてすべてを非常に明確に述べます。テストされるエージェントはそれについて非常に明確に感じ、曖昧なユーザークエリのメモリを保持し、理解し続け、会話を役立つものにする方法についてストレスを感じません。

この時点では、この種のメモリ評価には実際の人間のデータが必要かもしれません。これが今、大企業だけがこれを行っている理由だと感じています。

Remotasksやその他の創造的なもののようなものを生成している企業に対して強気ですか。これらのラベラーを生成しているような。

ラベラーが重要なのか、実際のユーザーが重要なのか分かりません。実際のユーザーでは、クラウドソースワーカーだけでなく、数学、医療、法律など非常に多様な分野で実際に働いている人々もいます。

基本的には、これらのラベラーを持つことはほとんど罠のようなものですね。指示を与えると、スパースデータが得られません。あまりにも特化しすぎていて、パワーユーザーと初心者が必要です。何らかのタスクをしている人や科学研究をしている人が必要です。つまり、実際のユーザー、望むユースケースに近いほど、そこからデータを取得すべきだということですね。

再帰的自己改善の話題について、メモリ以外に、現在のモデルは基本的にそこにある、基本的にこれが可能だというかなり大きな発言をしました。他に何が欠けていますか。

もし私が言うとすれば、メモリの他に、彼らが本当にメモリから改善できるかどうかだと感じています。例えば、Google検索を持っています。それらは一種の検索システムで、本当に良いメモリを持っています。誰かがインターネットに投稿すれば、クエリがあるときはいつでも取得できます。でも非常に良いメモリを持っていますが、Google検索を使ってインターネットのすべてを知っているエージェントを作る方法を知りません。

これについての考えは、無限のメモリを持つエージェントがあるとき、本当にこれらの失敗から学べるかということです。この分野での私たちの研究室の一つは、エージェントが最初に失敗したとき、もう一度試してこのタスクを再度実行するようプロンプトするというものです。

それについての論文がありますね。

論文を書きました。また、非常に古いと言えば古いですが、実際には3年前だと思います。プリンストンによって公開されたReflexionのような、失敗したら再試行させるものもあり、現在のRLがこれをさらに悪化させると感じています。

モデルが早くタスクを完了できれば大丈夫ですが、最初に失敗して再試行するようプロンプトすると、現在の失敗に固執します。再考して非常に長い思考の連鎖を生成し、その後「それでも以前の答えに固執します」と言いますが、この問題に本当に対処する新しいものは生成しません。

現在のベースモデル、例えばQwen 2.5やDeepSeek V3 Instructのようなものが、既にこの種の傾向を示していることが分かります。失敗から学べませんが、RLでトレーニングされたモデルではさらに悪化することが分かります。5回試させる場合と1回試させる場合の改善は非常に非常にわずかです。

これらのモデルが本当に失敗から学び、自己改善のクローズドループを得るためには、新しいアルゴリズムが必要かもしれません。

基本的に人間は自分自身をRLするのが本当に得意ですよね。道路に近すぎる歩道を歩いて、車にもう少しで当たりそうになったら、道路から離れて歩きます。それほど多くの経験は必要ありません。その教訓を学ぶためにインターネットからの何兆ものトークンは必要ありません。

それはTransformerの問題だと思いますか、それとも上に解決できると思いますか。

現在のモデルに欠けている能力の一種ですが、いくつかの技術を使えばTransformer自体が解決できると感じています。例えば、明らかにより良いアーキテクチャがあれば採用できます。高密度モデルからMOEモデルに移行し、線形モデルからアテンションに移行し、この段階で線形モデルに少し戻っているかもしれません。多くの人がこれを研究していて、自然言語推論から潜在推論に移行するかもしれません。

これらはすべて、試すことができる非常に良い新しい方法です。最終的により良いと判明すれば、それに適応できます。でもTransformer自体が多くのタスクで能力を持つことが許されていると感じています。理論的にTransformerがチューリング完全なタスクを解決できることを示している人たちがいると思います。

具体的な論文名は忘れましたが、重要なアイデアはTransformerが理論的に本当に多くのことを解決できるということだと覚えています。これは今のところTransformerで改善できることで、そのアーキテクチャによってボトルネックになる必要はないと感じています。

でも自己改善能力は、これらのエージェントが今良いかどうか、改善できるかどうかを理解するための本当に重要な能力だと感じています。ここでの自己改善ループは実際に、今あまりよく準備されていない、あまりよく研究されていない多くの能力を掘り下げることを可能にすると思います。

一つ考えられるのはワールドモデリング能力です。私のアドバイザーであるChuangは実際にワールドモデリング能力について多くの論文を書いています。一文で定義すると、言語モデルが単一ターンモデルから環境と相互作用するエージェントに移行するとき、アクションを取った後にどんなことが起こるかを知らなければならないということです。

例えば、テーブルを押せば動きます。ボトルを押せば落ちます。単一ターンエージェント、例えば数学タスクに答えたり、このようなツール検索を行ったりする場合、トレーニング段階から何が起こるかを覚えさせることができると思います。例えば、この種のツール関連の複数ターンを行う場合、ツールを使用した後にどんなことが起こるかをモデルに覚えさせることができます。

でも本当に環境で働かせる場合、新しい環境に遭遇し続けます。例えば、私のアドバイザーのポスドクメンターであるスタンフォードのFei-FeiとJiajunは、数千の環境でエージェントを働かせるBehavior Challengeのようなものに取り組んでいます。それらはすべてシミュレートされた家庭環境で、エージェントが新しい環境に遭遇するたびに、彼らの実施形態がどのようなものか、家全体がどのようなものかを理解しなければなりません。家の中を移動して、部屋がいくつあるか、ここで何をする必要があるかを知る必要があります。

私たちはこれについて多くのフォローアップ研究を行っています。例えばTheory of Spaceでは、現在のQAスタイルのベンチマークから、モデルが最初に環境内を移動しなければならず、探索が既に十分だと感じたときに停止し、それから質問を与えるようなベンチマークに変更しました。

そうすることで、エージェントがここで良ければ、この環境を知っているかどうかを知らなければならないことを確認します。これらのエージェントのワールドモデリング能力を改善することにもっと取り組みたいと考えています。そうすれば、本当に環境に展開されたとき、これをしたら何が起こるかというように環境から学び続けることができます。これはエージェントを実世界環境で本当に改善したい場合の非常に中核的な能力として機能すると思います。

テキストだけでなく、これは良い答えだった、悪い答えだったというよりも、部屋やこのコードベースがどのような状態になったか、すべての変数やすべてのものをよりよく理解できるようにするということですね。

実施された世界だけでなく、コード、インターネット、あらゆるものについてもです。

メモリ問題を解決すれば、速い離陸が起こると予想するのは妥当ですか。

私が言及したこれらすべての問題、メモリ問題、自己改善問題、ワールドモデリングのような自己改善の中核能力を解決する必要があると思います。

現在のベンチマークとEvolsについてのあなたの最大の問題は何ですか。良いベンチマークを作るのは非常に難しいですよね。非常に速く飽和し、一部の企業は特定のベンチマークに特化したトレーニングを行います。良いベンチマークを作るものは何だと思いますか。

ベンチマークの課題と推論崩壊

非常に良い質問です。ベンチマークが多く飽和していると感じています。Gemini 2.0 Proは私たちの研究室の研究の一つ、MQを使用したと思います。それは空間知能ベンチマークについてのもので、本当に改善しました。具体的な数字は覚えていませんが、大きな改善でした。問題は非自明であるべきだと感じています。

実際、この分野の非常に著名な研究者から聞いたことがありますが、ベンチマーク問題に関する彼女の基準は、可能な限り難しく、非自明なベースラインを見つけなければならないということです。非自明なベースラインとは何か。現在のモデルが既にこれを非常にうまくできるなら、それは非自明ではありません。最高の人間がこれを行えることも少し非自明です。最高の人間でさえあまりうまくできないものがあれば。

100%が考慮されます。

理想的なケースですが、多くの現実的なケースでは、最高の人間と言わず、最高のモデルでさえこれを非常にうまくできません。

例えば、実際には無視されている非常に重要な能力を見つけました。それは、エージェントがタスクを実行するときに予算要件に従うことです。この種のコードエージェントについて多くのニュースを聞いたことがあると思います。あなたのコンピュータやフォルダ内で働かせると、一晩で数十億のトークンを使います。

これをテストしたところ、これはユーザーが多すぎるトークンを使わないように言わなかったためではないことが分かりました。「このタスクを100万トークンで終えるべきです」と言っても、それよりはるかに多く使います。このタスクを終えるのに何トークン必要かを推定するよう求めると、彼らの予測と実際のタスク完了トークン要件との相関は非常に弱く、0.1程度だと思います。

モデルと話すときと似ていると思います。「この機能は実装するのに数か月かかるかもしれません」と言いますが、現在何が可能で、どれだけ速く構築できるかについて全く分かっていません。これはコストについての似たような問題だと思います。

そのようなベンチマークはどのようなものになるでしょうか。言うコストにできるだけ近く着地させたいということで、おそらくそのコストに対する最良の結果になるでしょう。

私の見解では、良いベンチマークはこの種の特徴を持つべきだと感じています。まず、言及したような非自明な問題です。次に、モデルが失敗したときになぜ失敗したかを知りたいという、分類学によって提示される良い理解を持つべきです。

一部のベンチマークは成功数を使いますが、失敗したケースで何が起こっているかはあまり分かりません。良いベンチマークがあれば、実際には非常に簡単なことだと思います。大きなベンチマークを持つだけでなく、ベンチマーク内に異なるクラスがあります。例えば空間知能を行う場合、アロセントリック、エゴセントリックなど、さらに多くの異なるタスクを与え、エージェントが失敗したときにどのサブカテゴリであまりうまくやっていないかが分かります。これが最初にできることです。

次にできることは、タスクケースだけでなく、答えの失敗ケースから理解することです。例えば、一部のモデルは空間知能問題を解決するとき、オブジェクトを間違って数えたり、異なるオブジェクト間の関係を間違って判断したりするかもしれません。さらに多くのケースがあります。

最後に、現在研究している最も重要で重大なことは、推論の失敗ケースを理解することです。これはプロンプトや答えという以前の2つのことを理解するよりもさらに難しいです。推論は監督さえできないものだからです。推論を監督するための多くのプロキシがあります。例えば、どんな戦略があるかをチェックできます。推論を特定のフォーマットに正規化してより簡単にチェックできますが、それでも答えを直接チェックするよりは難しいです。

ベンチマークがモデルの推論が間違っているかどうかをチェックできることさえできれば、これらのモデルを改善するための洞察にとって非常に良いと思います。

これは人間がどのように教えるかにも似ています。数学のクラスにいて、間違った結果を得たとしますよね。教師は「失敗しました。さようなら」とは言いません。「ステップを見ましょう」と言います。「ステップ4で間違いを犯しました」というように。

そのようにあなたをトレーニングします。そのステップに焦点を当てて、それを理解します。最後だけではありませんよね。非常に還元主義的でしょう。

あなたが触れたこの推論崩壊、これはあなたの代表的な発見だと思います。エージェントが考えるのを止めるところです。これを簡単な言葉で説明してください。

昨年、多くの実験で推論崩壊を経験し続けました。非常に興味深い観察は、これらすべての単一ターンタスクでエージェントがトレーニングステップ全体で推論長を増やすことです。

しかし複数ターンエージェントタスクでは、少なくとも試した約20の環境で、すべてのエージェントがステップ全体で推論長が減少します。なぜこれらのエージェントが複数ターンエージェントステップでRLで推論を学習できないのか非常に奇妙でした。

これは、タスク自体がより難しく、報酬シグナルがよりスパースであるためかもしれないと仮説を立てました。失敗したときにどのステップで失敗したかが分からないからです。また、使用している環境がそれほど多様ではないため、エージェントがこれらの各環境から学び、互いに利益を得ることができません。

モデルの詳細な推論を調べて、推論崩壊がどのように起こるかを示しました。非常に一般的に使用されるスキーマの一つは、エントロピーを追跡することです。エントロピーが失敗すると、モデルはより決定論的な推論を生成し始めます。プロンプトを与えると非常に決定論的な答えを生成しますが、エントロピーを大きくするための多くの戦略を使いましたが、モデルは依然として非常に良いパフォーマンスを得られませんでした。

このモデルでは、非常に高いエントロピーを持っていることが分かりました。例えば、同じ問題に対して異なる答えを生成できますが、これらすべての問題に対して同じ推論セットを生成することが分かりました。

この推論はどのように見えるか。例えば、問題を与えると「良い質問です」と言います。「このタスクを注意深く完了します」と言います。「私はエージェントです。このタスクを行う必要があります」と言います。エントロピーが本当に改善していることが分かります。これらすべての問題に対して多様な答えを生成するからです。でも異なる問題に対して同じ答えのセットを生成します。

相互情報量で測定しました。これは、推論チェーンが与えられたとき、それがどのプロンプトからのものかを検出できるかということです。例えば、任意のプロンプトに追加できる推論チェーンがある場合、これは実際の入力に基づいた推論というよりも、テンプレートのようなものだと感じます。

第一原理からではありません。これはおそらく、LLMが新しいアイデアを発明するのが苦手な理由だと思います。異なるものが同じ推論チェーンを通過させることができるなら、人間はおそらくこれについてより多様です。

あなたが言ったように、より高いエントロピーです。

この問題を検出し、根本原因の一つが、このRL段階でモデルから禁止するのが難しいノイズであることを理解しました。これらすべてのタスク自体がノイズを持ち、これらのモデルにノイズを追加し続けています。

例えば、エントロピーボーナスがあります。実際にはタスクとは無関係なKL項があります。このノイズすべてが一緒になって、モデルが非常に安全で、この種のベースライン報酬を得られる応答を生成すると、それに固執するようにします。他のことを試すとノイズに遭遇することが分からないため、新しいものを生成することから自分自身を禁止し、安全な領域に留まります。

基本的にモデルにとって。

モデルがこれを行うことは自己回帰アーキテクチャによって暗示されていませんか。

アーキテクチャについてではありません。最終的に、タスク自体からのノイズが予想よりも高いことが分かったからです。これらすべてのモデルから勾配を測定しました。更新を行っているとき、非常に低い報酬分散を持つこのタスクでさえ、モデルが多くの答えと軌跡を生成し、その報酬が互いに非常に似ていることが分かります。

これらのグループでさえ、RLは依然として多くの勾配を与えることが分かります。これは、軌跡が似ているように見えても、RLが軌跡内に学ぶべきことが多くあると感じていることを意味します。これがノイズの発生源だと感じています。実際にこのプロンプトからは自分をミュートするべきだからです。これらは私が多く考えると同じ報酬を得る問題なので、最良の戦略はそれをミュートすることです。簡単すぎるか難しすぎるため、学ぶ価値がないからです。

しかし実際には現在のアルゴリズムは、実際にここで非常に大きな勾配を作ると感じています。モデルはこの種の学ぶ価値のないインスタンスから自分自身を学び続け、私たちの介入は非常にシンプルです。それを削除するだけです。

低いシグナル対ノイズ比の軌跡からモデルを削除し、RLモーメントで学ぶ価値のあるこのようなタスクでモデルに学習させ続けます。

あなた自身が人間として多くを経験し、何かは忘れられます。それは学ぶ価値がないと感じ、学びません。

悪い本のようなものかもしれません。読むのを止めますよね。

そうです。学習を止めます。これはRLでも同じだと分かりました。さらに驚くべきことは、これらのモデルの効率を実際に改善することです。多くのロールアウトを生成してその多くを削除するため、効率が非常に悪いと言う人もいるかもしれません。

でも実際には、これらの悪い軌跡から学ばなければ、実際にノイズから自分自身を守っています。学ぶ価値のある軌跡でのみ学習しているため、実際により速く学習します。

これは非常に興味深いです。研究者でない人々にとって、エリートAI研究はどのようなものですか。探索のようなものですか。直感があってそれで遊んでみるのか、それともより厳格な科学的アプローチですか。日々実際にはどのように見えますか。

AI研究者としての思考プロセス

私にとって、研究を行うことは、アイデアを持ち、何かを信じているが、その信念が正しいかどうか分からず、それを検証しようとすることです。すべてのAI研究について、何かを信じていて、モデルを特定の方法でトレーニングすべきだと信じています。例えば、データはこのように定式化されるべきだとか、モデルの何らかのボトルネックが明確に研究されていないとか、そしてそれに基づいて研究を構築したいと考えています。

例えば、関連研究を調べて、彼らが既にこの問題について研究を行ったかどうかを確認します。小規模または大規模でこれらすべてのモデルをトレーニングしますが、最終目標は、あなたの仮定が正しく、同じ分野の他の人々を説得できることを確認することです。

最も重要な前提条件は、基本的に物事を疑問視するのが得意であることですよね。この分野がこうやっているから、こうやっているというだけで仮定しないでください。思い浮かぶのは、OpenAIの初期の頃、スケーリング法則を発見したとき、誰もがより多くのデータは過適合やその他の問題があるため悪いと仮定していましたが、彼らは「より多くのデータが良かったらどうなるか」と考え、試してみたところモデルが良くなり、再度試したところモデルがさらに良くなりました。これはAI競争を現在推進している大きな発見でした。

それをどう説明しますか。生の知性と社会や慣習への疑問の組み合わせのようなものですか。優れた研究者を作る他の変数は何ですか。

質問能力自体について言えば、研究を行う場合、特にますます重要になっていると思います。これらすべてのエージェントがあなたの答えを検証できるからです。重要な質問を提起する基準と能力はますます重要になっています。重要だが明白な質問をするだけではありません。

それを計画に分解し、具体的なステップを作ることができます。例えば、自己進化エージェントが重要であることは分かっていますが、自分自身の進歩、社会の現在の進歩に基づいて尋ねることができる具体的なことは何ですか。

友人が、神経科学がますます重要になっていると多く話してくれました。人間が意識をコンピュータにアップロードできるようなことです。これは本当に重要だと思いますが、今からどうやってそれを達成できますか。今できることは何ですか。

これは実際に彼らを多く悩ませますが、研究をしたいなら、今できることを知らなければならないというのが核心的な能力だと感じています。

タイミングと何が可能かについての良い直感を持つことは本当です。2012年頃のGoogle Glassの有名な例のようなもので、ARグラスですが、その技術には早すぎました。歴史を通じて多くの例がありました。AI分野全体がそうです。1950年代の人々は基本的に数週間でAGIから離れていると予測していましたが、早すぎました。

これを知ることがおそらく最も難しい部分です。何が可能かについての良い直感を持つこと。これはまだ何年も先で、これは今可能だという。

将来からのアイデアを持つ天才でも、現在のツールと現在の技術では単に不可能なことに取り組んでいるため、時間を無駄にしているようなものだからです。

現在のコーディングツールは本当にエージェントと呼べると思いますか。多くの人はLLMとエージェントの違いを本当に理解していません。どう説明しますか。真のエージェントとは何ですか。

大きな質問だと思います。エージェントとは何かについては多くの定義がありますが、エージェントとの最大の違いは環境だと思います。エージェントではなく、環境です。

この分野で働く多くの人々から、エージェントは既に知識に埋め込まれているものしか学べないと聞いたことがあると思います。彼らが使用するタスクの種類を見ることができます。非常に普通だと思いますし、これらのタスクでの彼らの発見に基づいて、彼らの研究は非常に良いと思います。でも数学、単一ターンのコーディング、質問応答のようなものです。

自分の答えからしかフィードバックを得られないと感じます。

報酬からしかフィードバックを得られません。

人間の類推がここで役立ちます。人間は明らかに、人々がAGIのようなエージェントと比較します。AGIは知的な人間ができることが可能です。

でも知的な人間を取り、刑務所の独房に入れて、月に1回だけ紙に手紙を1通書かせ、その人間からの他の入力がない場合、人々はそれをAGIとは言いません。テキストトークンを出力しているだけだからです。でも実際にはAGIです。環境によって制限されているだけです。

完全に同意します。これがエージェントが環境の中にいる必要があると感じる理由です。IMが環境の中にいれば実際にはエージェントですが、それほど良いエージェントではありません。トレーニングする必要があります。

OpenClawはその方向への一歩のようなものかもしれません。AIに完全に専用のコンピュータを与えて、制限しなければ、許可のためにEnterを押す必要がなければ、突然同じモデルがはるかに強力になることに人々が気づいているように。

もちろん、Clawはエージェントです。次のステップは、どうやって自己改善エージェントを作るかです。

基本的には、ロードブロックを削除するようなものです。ソフトウェアは明らかにハードウェアよりも速く動くので、まずオンラインから始めますが、その後物理的なヒューマノイドロボットに進みます。今エージェントがウェブ上で効率的にできないことで人間ができることをリストアップすると、それらはおそらく素晴らしいスタートアップの機会です。支払い、認証などのようなものをリストアップして、それらを破壊していきます。

まず、低遅延の意思決定だと思います。昨年夏にウェブエージェント企業のutoriでインターンをしたので、多くのウェブエージェントを試しました。

世界中のこれらすべての種類のウェブエージェントについて研究し、各ステップで良い推論ができることが分かりました。例えば、各段階でどのボタンをクリックする必要があるか。

でも非常に遅く、人間がアクションを取る前に多く考えることは受け入れられません。もう一つの能力は、具体的に何かは分かりませんが、実際には現在のこれらすべてのエージェント、ウェブエージェントがボタンを非常にうまくクリックできないと感じています。

奇妙ですが、良い推論を持っているのに、推論をアクションに基礎づける方法を知らないというのは事実です。DOMで視覚的にボタンを見ていますが、概念としてのボタンを本当に理解していないのかもしれません。

まず、ボタンがどんな機能を持つべきか理解していません。もう一つは、ボタンをクリックしたいのにできません。

ウェブページのどの位置でボタンをクリックする必要があると言いますが、実際には位置が非常に間違っていて、SFTを使ってもそれを改善するのが非常に難しいのは奇妙です。マルチモーダルインフラやマルチモーダルアーキテクチャ内に私たちを制限する何かがあると感じますが、私はマルチモーダリティの専門家ではありません。推測にすぎません。

他に思い浮かぶ制限はありますか。

ワールドモデリング、予算認識、そして他に何か考えさせてください。これだけしか思いつきません。

これらすべてが解決されれば、おそらく私たちが思っているよりも近いでしょう。モデルに全く改善がなくても、既に大きな利益になるでしょう。Rent a Humanやその他の創造的なものなど、多くのサービスが見られます。エージェントが暗号で計算に支払いができるWeb 4のようなものがあり、生き残るためにお金を稼がなければなりません。人々はこれをリアルタイムで発明しています。多くの人は何が非常に近い将来に可能になるかを理解していないと思います。

遅い離陸であろうと速い離陸であろうと、極めて重要な瞬間を生きているように感じますか。

私の少し独特な見解は、小学校の時からこの言葉を聞いているということです。

毎年が極めて重要です。

どの年が他の年よりも極めて重要なのか分かりません。私の見解は、極めて重要な時代に生きていると感じるなら、どの年も非常に極めて重要だということを覚えているか考えてください。できることは、この極めて重要な時代で自分自身をどう残すかを考えることだけです。

どう関与するか。

どう参加するか。

楽しむだけです。奪われることや形式的なことを恐れないでください。最終的には誰も働く必要がなくなると信じています。彼らの作業効率は今AIよりもはるかに低いからです。

人間がAIに対して何らかの強みを持てるなら、それを使ってAIを改善できます。人間が社会を改善する上で役に立たないなら、AIに任せることができます。これについての考えは、AIが有能で人間を助けることを確認するということです。

AIを構築して、彼らが人間を世界として取らず、人間を排除したいと思うのではなく、モデルを改善し、AGIの最終段階に到達する前に、まず彼らが整合性があり、人間を傷つけないことを確認します。そうすれば、AIに人間をどう改善するかを考えさせることさえできます。社会から、教育から、私たちがすることから、考え方から、哲学的に私たちが何であるかから。

十分に強力なAIがあれば、私たち人間をより良くする方法を理解してくれるでしょう。これが私たちがこのAI分野に取り組んでいる理由の意味だと思います。

まとめ

素晴らしいですね。ここで終えるのに良い場所だと思います。

時間をありがとうございました。あなたの研究をもっとチェックするにはどこに行けばいいですか。Twitterですか。

zenus.meというリンクがあります。私の研究と私たちの研究室、そして私が投稿するものすべて、Twitterの投票、考え、学術的翻訳などをチェックできます。

素晴らしい。ビデオの下にリンクします。ちなみに、AIビジネスをスケールしたくて、私と1対1で働きたい場合は、私のアクセラレーターに申し込んでください。