本動画は、研究者個人のスタイルに適応する自律型AIサイエンティスト「NanoResearch」について解説するものである。従来の画一的なAIとは異なり、スキルバンク、メモリ、そして自己蒸留方策最適化(SDPO)による強化学習を組み合わせることで、ユーザーの自然言語フィードバックから直接学習し、個別の研究アプローチへと進化する仕組みを詳述している。

パーソナライズされたAIサイエンティストの誕生
コミュニティの皆さん、こんにちは。またお会いできて嬉しいです。はい、今日はAIサイエンティストについてお話ししますが、今回は本当にすごい内容になっています。自律的な科学的発見を行うAIについてです。AIが新しいものを発見するのです。ご存知の通り、既存のAIサイエンティストはマルコフ過程的で画一的なパラダイムに囚われています。新しい研究プロジェクトを毎回 t=0 から始まる独立したイベントとして扱い、どれも似たり寄ったりの一般的な論文を作成してしまいます。
しかし、今日私たちはそれを変えようとしています。前回はGoogleのプロアクティブAIについてお話ししましたが、今回はそれをどのように実装し、個々の人間の研究者のAIコンパニオンにするかを見ていきます。これにより、あなたが研究者として求める非常に具体的な方法論的制約をAIがしっかりと理解できるようになります。数学的形式論を好むかもしれませんし、特定の実験方法を好むかもしれません。そこで今日はさらに一歩踏み込み、研究者と緊密に連携する個別の人間型AIサイエンティストを構築します。
それがこれです。進化を続けるNanoResearchです。驚かないでくださいね。パーソナライズされた研究自動化のためのスキル、メモリ、そしてポリシーが登場します。そしてこれはなんと、上海人工知能実験室、香港科技大学、北京大学、浙江大学、交通大学、華東理工大学、香港中文大学によるものです。素晴らしいですね。5月11日の発表です。ついにこの3つの要素が揃いました。スキルMDファイル、そして完全なメモリの更新へと進みます。
それだけではありません。AIの基盤、つまりLLMそのものにまで踏み込み、LLMの学習ポリシーを最適化します。ついにLLM自体の強化学習を行うのです。私たちが知っているすべての要素が変更されています。コードはどこにあるのかという質問が多く寄せられそうですが、もちろんコードも公開されています。MITライセンスですので、ぜひお楽しみください。
画一的なAIからの脱却と経路依存性の導入
現在のAIサイエンティストバージョン2などの自動化された研究者は、高い温度設定のエルゴード的なシステムのように振る舞います。プロンプトを与えるたびに、考え得るあらゆる方法論の広大な位相空間を探索し、結果として誰にとっても全く同じに見える、平均的でマクロな出力を生成してしまいます。そこには個別化がありません。AIは1つの一般的な解決策を探していますが、あなたが実験を好む研究者であるかどうかは無視されてしまいます。
理論的な証明だけを追求する研究者なのか、あるいは徹底的なアブレーション研究を行いたい研究者なのか、一部のコンポーネントを有効にして他のコンポーネントを無効にするようなトリガーをいじり回したい研究者なのか、そういった違いが考慮されません。つまり、現在のAI研究者は記憶を持たないマルコフ的な存在なのです。これを変えていきましょう。
NanoResearchはここに経路依存性を導入します。LLMがすでに学んだこと、つまりAIサイエンティストとしての成功体験や失敗体験を学習するのです。そして、そこには対称性の破れが生じます。自律学習や自己学習を行うLLMを持った瞬間、私たちは対称性を破ることになるからです。厳密なアブレーションを求める実験物理学者であっても、大胆な数学的アーキテクチャを好む理論家であっても、AIは平均的な論文を作成するのをやめ、あなたの個人的なスタイルに真に適応するようになります。
つまり、マルチエージェントシステムやその枠組みなどすべての要素を、特定の人間のユーザーのスタイルに結びつけるのです。物理学で言えば、局所的な熱浴のようなものです。企業は個別化されたLLMや独自のメモリ、スキルを私たちに売り込み、すべてをクラウドプラットフォームに保存させようとしています。だからこそ、私はすべてをローカルマシンで実行しようとしています。それは可能なのでしょうか。
3段階の共進化と自己蒸留による学習
素晴らしいことに、このAIサイエンティストには3段階の共進化が備わっています。私の知る限り、彼らが最初に試みたのは、ハードな制約をスキルバンクと複数のメモリモジュールに蓄積し、さらに重要なこととして、ユーザーの自然言語によるフィードバックを活用することです。これにより、強化学習を通じてLLMのテンソル重みというパラメータ自体を物理的に変更する、あなただけの個別のマシンが出来上がります。
つまりヒューマン・イン・ザ・ループが実現し、あなたが参加することで、マシンはあなたのフィードバックから学習するのです。私は毎日こうしたマシンを使っているので、数ヶ月、あるいは半年、1年と使い続ければ、私がどのように仕事を進めたいか、どのように思考するのを好むかをマシンが正確に把握できるようになるはずです。
では学習について見ていきましょう。スキルバンクは簡単です。スキルMDファイルがありますからね。メモリも簡単にできるでしょう。しかし、文脈内学習を用いずに、テンソル重みを直接強化学習させる方法論をどのように実現するのでしょうか。ここからが非常に興味深い部分です。
元の研究論文のスクリーンショットを見てみましょう。1行目を見るとすべて同じに見えますが、ここにNanoResearchが登場し、厳密な実験者、探索的な研究者、あるいは実用的な論文提出者といったあなたのタイプに合わせて、スキル、ポリシー、メモリが最適化されるようになります。個人的なスタイルを持つことができ、このAIシステムはあなたと共に学習していきます。
どうしてそんなことが可能なのか、数学的背景はどうなっているのか、最適化エンジンやコードの実装はどうするのかと疑問に思うかもしれません。まずは数学から見ていきましょう。数学を理解すれば、何をどうコーディングすべきかがわかります。
最初のステップは簡単です。スキルとメモリの蒸留です。ここに進化が見られます。教師と生徒の学習のようなことが行われています。AIサイエンティストが実行したすべてのアクション、システムの自己批判、そして最終的な結果と人間のオペレーターによるフィードバックを含む、軌跡 τ の終わりに学習が行われます。ここにはオーケストレーター、つまりAIのボスとなるエージェントがいます。このエージェントはコンテキストウィンドウを単にクリアするのではなく、今回の学習サイクルで発生した重要な情報を認識します。
そして、このオーケストレーターエージェントは、マクロな不変規則をスキルとして、プロジェクト固有の事実をメモリとして、永続的なストレージに蒸留します。シンプルですよね。スキルとメモリの更新メカニズムがあり、あなたのドメイン知識の複雑さに応じて、タスクの前にあなたの好みに基づいて構築されていきます。
次のラウンドに進むと、これは反復的なAIサイエンティストであり、オーケストレーターが活躍します。オーケストレーターは、ヒューリスティックなスコアリング関数を通じて、次のコンテキストに関連する上位のスキルとメモリを取得します。これは非常にシンプルな関数です。キーワードのマッチング、タグの整合性、最新性、そしてターゲットに適応した重みを組み合わせます。
これにより、同じ基礎知識やLLMのパラメータ知識だけに頼るのではなく、スキルの検索とメモリの検索を行う次のステップに進みます。前回の動画をご覧になった方なら、スキルの検索の意味がよくわかるはずです。適応的な計画フェーズについても詳しく話しましたね。
スキルとメモリが広範な手続き的知識やプロジェクトの事実を捉える一方で、ここではさらに細やかなユーザー固有の好みを内部化していきます。後ほどステージについてお見せしますが、各ステージの終わりにユーザーが自然言語で即座にフィードバックを提供します。コメントを入力したり自然言語で話しかけたりすると、それが直接オーケストレーターのプランナーモデルである πθ のポリシーにエンコードされます。このオーケストレーターは、コメントに基づいて微調整され訓練されるLLMそのものです。
以前は単なる更新や、スキルMDファイル、メモリMDファイルへの連結を行うだけでした。しかし今回は、それをLLMの内部で直接行うように持ち込みます。私たちのマルチエージェントシステムのAIのボスであるオーケストレーターエージェントは、間違いやポジティブな手順、ネガティブな手順、私たちがどのような科学的アプローチを好むかを正確に学習します。スカラー報酬やペアになった好みのデータではなく、自由形式の言語による人間のユーザーのフィードバックを使います。
では、これをどのように行うのでしょうか。ここで彼らは自己蒸留方策最適化を採用しています。
SDPOの数学的背景
これほど大規模な形でこれが実装されているのを見るのは初めてです。SDPOは、単一のフィードバックインスタンスを、報酬モデルなしで密なトークンレベルの学習信号に変換します。ついにここまできたかと喜ぶところですね。学習へとまっすぐ進むことができるのです。
まっすぐ進めるとは興味深いと思うかもしれませんが、心配は要りません。SDPOの勾配、つまり方策勾配のための ∇θ の数式が提示されています。これを見て一体何なんだと思うかもしれません。AIの数学について説明した私の動画を見ていただくか、2026年2月に発表されたスイスの大学の論文を参照してください。この論文では、ユーザーのインタラクションから自己蒸留を通じて直接学習する新しい手法が段階を追って正確に説明されています。
方法論をどう構築するのか、自己蒸留で何が可能になるのか考えてみてください。自己蒸留は本当に天才的なアイデアです。彼らは古典的な数式を用いて、ここでナブラを示しています。なるほど、そういう仕組みだったのかと理解できるはずです。ここには後知恵の方策 πθ が存在します。これが教師として機能し、更新ごとに固定されたターゲットとして扱われます。これに対して切り離された後知恵モデル πˉθ を定義します。これは独自の方法で定義されています。
この論文の付録には、この数式の数学的証明が記載されています。さらに詳しく知りたい方には、この論文をお勧めします。動画の本題に戻りましょう。彼らは他の研究からの数式を使用し、それを自己蒸留とアドバンテージ関数にシンプルに適用しています。これがアドバンテージ関数であり、当然フィードバック関数 f が存在します。私たちは巨人の肩の上に立ち、先人たちの天才的な知識の上に構築を続けていることがわかります。
素晴らしいのは、やはり報酬モデルがないことです。ユーザーは自然言語でフィードバックを提供します。この方向性は違うと思う、別の数学的手法を使いたい、これら2つの手法を比較してほしい、あるいは全く違うものに切り替えてほしいとマシンに伝えるのです。各ステージの最後にフィードバックを与えると、ボスであるエージェントがそれをプランナーのポリシーに内部化します。この数式のおかげで、明示的なフィードバックを永続的な好みに変換するコードの書き方がわかります。
コンテキスト内学習でもなく、スキルMDファイルに書き込むのでもなく、どこかのメモリとして保存するのでもなく、LLMに本当にこれを学習させます。トランスフォーマー層のテンソル重みを最終的に変更するのです。本当に美しいですね。
AIと研究者のコラボレーションと3つのステージ
もう一度少し戻って、元の論文からの美しいスクリーンショットを見てみましょう。ユーザーの女性がAIサイエンティストをプログラミングしています。彼女には特定の好み、予算、目標とする発表のスタイル、そしてこの科学的な試みで扱いたい特定のトピックがあります。
アイデアはシンプルです。まず、この特定の仕事に必要となる可能性のあるすべてのスキルとメモリを検索して取得します。前回の動画をご覧になっていれば、数学的演算子の検索拡張実行についてお話ししましたが、それがここでのスキル演算子になります。これは検索拡張実行のためのスキル配列と呼ばれます。まさにこれをステップ1の代わりにすることができます。
AIはRAGを通じて利用可能な最高のスキルを見つけ出し、戦略的要素に移ります。AIはアイデア出し、実験、執筆、レビューの計画を立て始めます。見事ですね。次に調整のステージがあり、オーケストレーターで決定されたことを実行するステージエージェントを派遣します。ここがいわば司令塔の役割を果たします。
それが終わると、またスキルの部分に戻ります。そこで新しい方法論を見つけたり、コードの検証を行ったりして新しいスキルを獲得し、それをシステムに蒸留してスキルデータベースに追加します。あるいは、新しい進むべき道、新しい複雑さ、新しい解決策を示すメモリを抽出し、それを新しいメモリファイルなどの形で記録します。
おわかりのように、ここには継続的に学習する3つの要素の更新と取得が常に存在します。メモリは過去の仮説を扱い、失敗に気づき、結果を確認し、制約を確定させます。次に、文献検索、特定のパターンのデバッグ、テンプレートの作成などに使用するすべてのスキルMDファイルが評価と比較され、ツールの使用戦略やAPIとして最適なものが選択されます。
そしてここからが本当に面白いところです。コアとなるLLM、つまりオーケストレーターエージェントのポリシーの更新です。ここに真の知性があり、真の学習が行われています。計画の振る舞いが適応し、スケジュールの好みが更新され、ユーザーのフィードバックがオーケストレーターの将来の行動にしっかりと統合されます。美しいユーザーと美しいオーケストレーターというこれら2つの要素が、AIサイエンティストのために共に働く美しいカップルになるのです。ユーザーとして、オーケストレーターエージェントがあなたの好む方法で振る舞うと確信できます。これこそがあなたの望む個別化です。おめでとうございます。
ちょっと待ってください。ここにステージについての説明があります。公式には3つのステージがありますが、自分で追加したり工夫したりすることもできます。通常、ステージ1のアイデア出しから始めます。次にコーディング、検証、現実世界の実験を行います。そして執筆、要約、理解など、出版に向けて必要なことを行い、最終的に論文が完成します。もう少し詳しく見ていきましょう。
ステージ1はシンプルです。アイデアの生成と計画です。これはおなじみのプロセスですね。システムが学術データベースにクエリを実行する点以外は特別なことはありません。ここでは定量的な証拠の抽出を使用し、既存の素晴らしい論文を参照することで、LLMが他のベースラインをハルシネーションするのを防ぎます。既存の論文に基づいて仮説のプールを生成し、次のステップに進みます。そして、自動化された新規性検証ツールを使用して、すでに存在し、発表されているアイデアを除外します。
どのように進めるかについての仮説プールができたら、計画フェーズに移ります。生き残った仮説は、データセットの使い方、構築すべきアーキテクチャ、検証のためのアブレーション研究、コーディング方法などを示す、厳格なJSON形式の実験ブループリントに変換されます。
ステージ2は検証と最適化です。ここは研究室のようなもので、ブループリントに従ってコーディングフェーズに入ります。システムはリポジトリをクローンし、データセットから自己完結型のコードベース、モデル、トレーニングループ、すべての評価指標を生成します。人間であるあなたは、指標1は好きだが指標3は嫌いといったフィードバックをすでに与えており、ユーザーが好むコーディングスタイルが厳密に遵守されます。Claudeのコードなどで数ヶ月間やり取りをしていれば、あなたのコーディングスタイルをどのように実装すべきか完璧に理解しているはずです。
そして実行とデバッグのフェーズになります。別のLLMである自律型デバッガーが作成されたコードをチェックし、正常に実行できるようになるまでデバッグ、検証、拡張などを行います。
ステージ3は執筆です。要約し、草稿を作成します。破滅的忘却を防いだり、コンテキストウィンドウのオーバーフローを避けたり、導入部と結論が完璧に一致するようにするための、意図的なアーキテクチャの選択です。セクションごとに書き上げるフェーズがあり、その後もちろん外部レビューとして機能するスタンドアロンのプロセスがあり、レビューフェーズを経て完成です。
面白いのは、ここでユーザープロファイルを持っていることです。同じ研究であっても、AI研究者が誰であるかのユーザープロファイルを決定します。最初の研究者の主な特徴がエビデンス重視、2人目の研究者が実用的な方法やクリーンなアブレーション、直接的な実装、査読者への配慮に焦点を当てたアブレーション重視、あるいは純粋にデータセット主導のAI研究者にしたいなど、好みに合わせて方向付けることができます。
自分自身の好みを定義することもできますし、あるいは自分の行動とは正反対の補完的な役割を試してみることもできます。自分のやり方はわかっているので、全く逆のことをする相棒が欲しいというわけです。非常に攻撃的に実験し、クレイジーなアイデアを試し、従来の科学的行動の枠にとらわれないように指示することもできます。
すると、出来上がるブループリントは全く異なるものになります。AIサイエンティストは、エビデンス重視の場合とは異なる解決策を導き出します。たとえば、固定されたマルチスケールCNNを使用したり、時間的特徴ゲーティングや時間的ルーティングを採用したりします。つまり、AI研究者の好みのプロファイルをどのように定義するかによって結果が大きく変わるのです。コードも同様で、固定エンコーダーを使うか、プラガブルなゲート構造を使うか、適応型ルーティングを使うかなど、この科学実験で実装される方法論はユーザープロファイルに完全に依存します。そして当然、執筆される論文にもあなたの特定のプロファイルが反映されます。
圧倒的なパフォーマンスとSkillwayとの相乗効果
結果を見てみましょう。どれくらい優れているのか比較してみます。アブレーション結果がありますが、何が最も重要でしょうか。アライメントフェーズや新規性、その他のパラメーターのいずれを選んでも、完全な実装のNanoResearchが優れています。アライメントを見てみましょう。8.1というスコアです。
スキルバンクがなければ7.9に留まります。メモリがなければ8.07です。計画がなければ7.8、好みの調整がなければ8.0です。これはどれも欠かすことができない要素であり、どれを選ぶかという問題ではありません。なぜなら、真の美しさは何よりもその相互作用にあるからです。
もちろん興味深いのは、他の2つのAIサイエンティストとの比較です。ここにはAIサイエンティストバージョン2やEVOサイエンティストがあり、すべてのパフォーマンスパラメータが示されています。平均APIコール数、トークン数、実行時間、GPU時間、そして興味深いことにコストも記載されています。トークンレベル、APIコールレベル、実行時間レベルで比較すると、実行時間は短く、GPU時間はほぼ半分になっており、それに伴ってコストも大幅に削減されています。これが彼らが示しているパフォーマンスシートの内容です。APIコール、トークン、実行時間、コスト、GPU時間が比較されています。
さて、少し振り返ってみましょう。エージェントが成功したデバッグの経路や手続き型コードを、永続的で再利用可能なスキルとしてメモリに結晶化させていくため、このAIサイエンティストは時間をかけて成長していきます。その後のラウンドでは、コードベースをコンパイルする方法を推測するための探索ツリーの反復回数が激減します。役に立つとわかったスキルを再利用し、過去に役に立ったメモリを再利用するからです。
つまり、自分の知識の上に構築し、成功体験の上に積み上げていくことを理解している学生研究者のように振る舞うのです。理にかなっていますね。また、この論文がAIサイエンティストの視点を、純粋な研究の自動化マシンから、人間と共進化する協調的なエージェントへとシフトさせていることもわかります。もちろん人間が必要だと言う人もいるでしょう。なぜなら、強化学習として自己DPOアルゴリズムを選択したため、人間がいなければマシンは自己発達や自己学習ができないからです。
これは昨日の動画の内容に繋がります。昨日はSkillwayを紹介しました。Skillwayは、インターネット上の膨大なツールからいかにして完璧で実行可能なコンテキストを組み立てるかという、静的で当面の問題に対処するRAGコンパイラです。私が今日この動画を選んだのには特別な理由があります。Skillwayは時間 t=0 における空間的な解決策を定義していると言えるからです。
昨日のSkillwayでは、適切なマクロを選択し、スキルのサブユニットである適切なミクロの依存関係を接ぎ木するための最適なトポロジー的投影を提供する方法を紹介しました。そして私の解釈では、NanoResearchは時間的な発展を通じた時間的な解決策を定義しています。つまり、時間ゼロにおけるSkillwayと、時間進化におけるNanoResearchは完璧に連携しているのです。本当の理解を深めたいなら、ぜひ両方の論文を並行して読んでみてください。もし別の見方がある場合はコメントで教えてください。このようにNanoResearchは、AIサイエンティストのこの進化的な問題に取り組んでいます。
マシンを起動するたびに一からやり直したくはないですよね。エージェントが研究論文を書くにつれて、斬新な手順のステップや成功したデバッグパッチを発見し、試行錯誤によって新しいスキルを学習します。そしてこれらを新しい個別のMDファイル、新しいスキル、新しいメモリファイルとして蒸留し、後で使えるように永続的なスキルバンクに追加します。しかし最も重要な事実は、それが強化学習を通じてLLM自体のパラメータ化された知識にも統合されるようになったということです。
簡単な例を挙げましょう。NanoResearchが6時間の研究実験を行い、物理学者からフィードバックをもらい、非常に特殊なPyTorchのトレーニングループを書いたとします。これが必要だった場合、今日はこれで十分だと考え、このループを新しいスキルとしてプライベートのスキルバンクに保存します。そして翌日、研究者が戻ってきてAIサイエンティストのスイッチを入れると、エージェントは新しい論文を書いたり新しい研究を行ったりする必要があることをすぐに理解します。
オーケストレーターエージェントは再び環境内で利用可能な最高のツールを探し始めます。新しいスキルMDファイルが利用可能であればそれが処理され、Skillwayが引き継いでNanoResearchのスキルバンクをマルチスケールグラフに渡し(詳細は昨日の動画をご覧ください)、物理学研究室のGPUクラスターの特定のサブユニット制約を接ぎ木して構築した特殊なPyTorchループを取得し、それをエージェントのコンテキストウィンドウに完璧にコンパイルします。
昨日や一昨日に行ったことの上に積み上げていくのです。おわかりのように、これがマルチエージェントシステムのための反復的な自己学習プロセスであり、AIサイエンティストとしての研究タスクを実行します。私が本当に気に入っているのは、この3段階の進化です。論文が完成した時、あるいは1日が終わった時、あるいは各ステージの終わりに人間がフィードバックや批評を提供すると、システムは次のように進化をトリガーします。これだけは覚えておいてほしいという内容がこれです。
スキル。AIはステージ2のプロセスで発明したコーディングの修正を再利用可能なスキルMDファイルに抽象化し、スキルバンクのメモリに保存します。メモリに関しては、何がうまくいかなかったかを分析します。ステージ1の失敗した仮説をすべてプロジェクト履歴に記録し、同じ失敗を二度と繰り返さないようにします。失敗から学びます。
そしてポリシーについては、ここでヒューマンインターフェースと人間のフィードバックが非常に重要になってきます。SDPOを介して神経重みテンソルを数学的に調整するための人間の自由形式のフィードバックにより、次の論文ではAIの直感がユーザーの科学的な好み、パフォーマンスのパターン、研究パターンによりマッチするようになります。
本当に美しいと思いませんか?それではまた次回の動画でお会いしましょう。


コメント