AI が科学を破綻させる（CMU）

この動画は、カーネギーメロン大学が開発したAuto Experimentベンチマークを通じて、現在のAI科学者システムの限界を明らかにした研究を解説している。科学論文の再現から複製への段階的なコードマスキング手法により、複雑性がわずかに増加するだけでLLMの性能が劇的に低下することを実証的に示し、真の自律的研究エージェント実現への道のりがいかに長いかを浮き彫りにした内容である。

https://www.youtube.com/watch?v=Z4ewj4ua_0A

AI科学者の夢と現実
核心的コンセプト
挑戦的なマスキング手法
CMUの研究発表
エージェントの5つの構成要素
使用されたモデル
衝撃的な結果
希望的な側面
動的対固定インタラクション
反復プロセスの重要性
コードと理論理解の関係
研究者からの結論
個人的な考察
終わりに

AI科学者の夢と現実

皆さん、こんにちは。コミュニティの皆さんがお戻りいただき、とても嬉しく思います。

今日は科学AIについてお話しします。そう、私たちの代わりにすべての科学的作業を行うマルチエージェントシステムのことです。これこそが夢です。独立して仮説を立て、すべての実験を実行し、科学的発見を推進するAI科学者。私はこれが人工知能の最もエキサイティングな最前線だと考えています。

そして、もちろん皆さんに同意します。「これこそがなぜ私たちがAGIを科学発展のために求めているただ一つの理由だ」とおっしゃるかもしれません。その通りです。

今日、カーネギーメロン大学の友人たちからAuto Experimentという素晴らしい新しいベンチマークが登場しました。彼らがここで示してくれているのは、真の自律的研究エージェントを構築する上で、前方に立ちはだかる記念碑的な課題があることを、現実的で残酷かつ明確で実証的な方法で証明したことです。

彼らが示しているのは、性能が少し低下するというような話ではありません。複雑性を少しでも上げた瞬間、性能が崖から落ちるように急落するのです。壊滅的です。

核心的コンセプト

今日の核心的概念は簡単です。GitHubリポジトリを持つ科学論文の再現から、段階的なコードマスキングを通じたコードの複製へと移行します。そう、あの良き古きBERTモデルです。センテンスBERTモデルです。ここでコードマスキングを行います。概念的にはこれ以上簡単なものはありません。

中心的なアイデアは、2つの基本的な科学的検証タスクの間のギャップを埋めることです。

まず、実験を再現する必要があります。元のコードと環境を取って、PythonやC++など、何であれその環境で実行し、著者と同じ結果を得ることです。これにより、著者による公表された結果が検証されます。

次に、それを複製する必要があります。論文の記述のみを取って、ゼロから新しいコードを書き、独立して同じ結果に到達することです。これにより、方法論そのものが検証されます。

これについてより詳しく見てみましょう。

入力は簡単です。完全な研究論文です。もちろん、ここでは数値結果を除去します。なぜなら、コードに数値結果を計算させたいからです。完全なコードベースがここにあり、すべての実験を実行するためのコマンドライン命令のセットがあります。クラシックな現代のGitHubで見つけるものすべてがそこにあります。ただクリックして進むだけで、実験の完全なコンピュータシミュレーションが実行され、結果が提示されます。

挑戦的なマスキング手法

さて、挑戦的な部分はこうです。コードベース内で、nの数のキー関数（nを1、2、3としましょう）の本体が完全に除去され、「not implemented error」に置き換えられています。つまり、コードベースのどこかに穴があり、LLMのタスクは「このコードを書いてください」ということです。

科学的挑戦を正確に理解し、コードの前後を正確に理解し、そして小さな部分だけコードを書く。目標は明確です。

エージェントは科学論文を理解し、コードベースがどのようになっているか（PythonやC++など）を理解し、n=1、2、3のマスクされた関数の正しいPythonコードを生成し、サンドボックス環境で実験を実行し、最終的な数値結果を報告しなければなりません。彼らは言います。「聞いてください、問題ありません。±5%のマージンを与えます。絶対的に正確である必要はありませんが、±5%です」

CMUの研究発表

ここに、カーネギーメロン大学の同僚たちからの論文があります。2024年6月「再現から複製へ：段階的コードマスキングによる研究エージェントの評価」何という美しく、シンプルでありながら素晴らしいアイデアでしょう。

私が申し上げたように、シンプルな入力があります。完全な科学論文、40ページか50ページの詳細な記述があります。それから完全なGitHubがありますが、GitHubにはコードとすべての実験があります。「python main」など何でも実行できます。しかし今、コードベースで彼らは言います。「どこかの定義、いくつかの関数を除去します。コードを削除し、これがまさにあなたがコードを書かなければならない場所です」

私はこれは簡単だと思います。Cursorがあり、その他様々なものがあります。これはシンプルで、どのLLMにとっても挑戦的ではありません。特に非常に強力なLLMを持つエージェントで行けば問題ありません。ツールも、メモリも、これらは構築できる最高のエージェントの一つです。

そして、シンプルな評価があります。実験を実行し、数値データを得て、正しいか間違っているかを正確に知ることができます。

エージェントの5つの構成要素

エージェントを定義する5つの構成要素があります。

初期プロンプトがあります。エージェントにタスクを説明するシステムプロンプトとユーザープロンプトです。何という驚きでしょう。

次にツール使用を提供します。「たくさんのツール定義があります」標準的なベンチマークで見つけられるものと同様です。美しいです。

エージェントにリポジトリをナビゲートし、ファイルを操作し、スクリプトを実行し、ファイルを修正し、ファイルを編集し、何でもしたいことをする能力を与えます。この仕事に必要なツールすべて、そしてそれ以上を得ることができます。

それから段階的推進戦略があります。エージェントは推論し、異なる方法でアクションを出力するよう推進されることができます。すべてが自由です。

履歴管理があります。メモリがあります。エージェントは自分自身の過去のアクションを振り返ることができます。何が機能し、何が機能しなかったかを見て、スクロールバックし、環境とやり取りできます。そのやり取りの履歴が増大し、LLMがそれらの結果について推論するために利用可能になります。これ以上良いものはありません。

使用されたモデル

もちろん、彼らはGPT-4 Omni、GPT-4 Omni Mini、Claude 3.5 Sonnet、Claude 3.7 Sonnetを使用することに決めました。当時、Claude 4はまだ出ていませんでした。だから利用可能なツールを使わざるを得ませんでした。

申し上げたように、ここにはすべてのアクションがあります。行の検査、ファイル書き込み、移動、スクリプト実行、ファイルリスト、ファイル理解、ディレクトリ変更、ファイル起動、観測入力、すべてが利用可能です。

衝撃的な結果

大量のデータ記述、数値データ、ベンチマークデータがありますが、今すぐ結果に飛びます。もっと読みたい場合は、論文をご覧ください。

そして、ここにあります。「うわあ、何があるのでしょうか？」

ここにNの数があります。x軸で複雑性を増加させ、y軸にパーセンテージでのパス率があります。

GPT-4とClaudeから始まり、0.5と0.7があります。気にしないでください。ほぼ同じ発展を示しているのが分かります。だから、これらのモデルを本当に区別していません。ほぼ同じです。

n=1で35%、36%、37%、どこであれ32%から始まります。そして、複雑性を1ステップだけ増加させてn=2にすると、それは崖です。ほぼ垂直の急降下です。

GPT-4 Omni Miniでは3%、4%を下回り、ほぼゼロです。これは絶対に魅力的です。なぜでしょうか？

エージェントの核心にはLLMがあり、それは巨大なLLMです。Claude 3.7は小さなモデルではありません。エージェントは今、相互依存関係を処理する必要があります。なぜなら、今度は2つのコード要素を書かなければならず、共有ロジック、競合する変数名、競合するデータタイプが2つの関数に生成される可能性があるからです。結果を見ると、n=2でこれは約10%です。これは壊滅的です。

明確にしておきますが、これは性能の低下ではありません。これは我々がここで持っている性能の崖です。複雑性を1から2に増加させると、これが自律AI科学者の最初の主要なハードルです。これを修正しなければなりません。これを解決しなければなりません。これは受け入れられません。なぜなら、3、4、5については、もう忘れることができるからです。

希望的な側面

しかし、ポジティブな面があります。何かポジティブなものがあります。

これがLLMであり、自己回帰システムであり、確率分布と関係があることを理解すれば、これは偶然です。もっと時間を与えてください。もう一度実行させ、もう一度、もう一度、もう一度、もう一度実行させてください。そうすれば、5回実行した緑色に到達し、その5回の中から最良のものを選んで言うことができます。

「うわあ、見てください。青で1回だけ実行させた場合、35%でした、モデルは関係ありません。しかし、5回実行させて最良のものを選んだ場合、48%になります。なんということでしょう、ほぼ50%です」

壊滅的だと言うかもしれません。いいえ、ポジティブな面から見なければなりません。48%です。Claudeではここでそれほど重要ではありません、31から42です。まあ、関係ありませんが、改善があることが分かります。

だから、確率LLMで作業しているため、改善の可能性があります。5回、10回、100回、1,000回実行させてください。将来のいつか、良い解決策を見つけるかもしれません。素晴らしいです。この機会があります。

完璧な検証者が最良の解決策を選ぶことができるかもしれません。しかし、これは本当に満足のいくものではありません。

動的対固定インタラクション

しかし、はるかに興味深いのは、このエージェントにどのような自由を与えるかです。動的対固定インタラクションです。

左側では、最大推論トークンがあります。本当に限界まで行きます。オレンジ色でo3があり、青色でo1があることが分かります。少しの改善があることが分かります。成功率が10%から始まって、22%、24%まで上がります。

これは、テキストコンテキストを取得し、コードを入力し、提出して実行し、結果を得るパイプラインです。デバッグはありません。実行時の結果についての推論もありません。美しいです。これが性能です。最終的な最高性能を20%としましょう。

今度はこれを変更します。「できるだけインタラクトしてください。ツールスイートをできるだけ使ってください。ファイルを編集し、スクリプトを実行し、複数回転し、コードを探索し、コードを書き直し、コードをデバッグし、コードを最適化し、理論物理学に戻り、飛び回り、時間をかけ、何でもしてください」

そして、ここで30%という新しい最高値に到達します。30%の成功率です。

少なくとも少し良いことが分かります。すべてのツールを使う自由を与えれば、少し良くなります。

彼らは言います。「我々が達成した最良の結果は、GPT-4 Omniの動的エージェントで35%のパス率を達成した一方、固定の方は8%しか管理できませんでした」そして彼らは今、「4倍の改善、4倍の改善があります。これは可能ではないでしょうか、美しくないでしょうか」と主張しています。

まあ、35%は素晴らしいとは言えません。これが今日我々がいる場所です。

反復プロセスの重要性

そして今、彼らはここで一般的に結果を教えてくれます。AIによるすべてのこの科学実験、コーディング、理解、推論は反復プロセスです。純粋な試行錯誤であり、デバッグし、推論し、戻ってきて、複数のエージェントを持つ能力です。これは贅沢ではありません。我々が行わなければならない重要な性能ステップです。

彼らは言います。「エージェントフレームワークが最初の試行で失敗することを我々は発見しました。驚異的なほぼ70%の時間で失敗します」

70%の時間で失敗します。これは私が科学者として推奨するものではありませんが、再び実行させ、再び、再び、デバッグし、再び実行し、デバッグし、再び、おそらく幸運であれば、宝くじのように、時々35%の勝者を得るでしょう。

素晴らしいです。これは科学とは呼べません。

したがって、将来の研究は、はるかに賢いエージェントアーキテクチャ、マルチエージェントインタラクション、動的インタラクティブループに焦点を当てなければなりません。さらに、我々のエージェントの核心にあるすべてのLLMのLLM推論能力を向上させ、本当に何かを持つか、科学AIシステムに近づかなければなりません。

コードと理論理解の関係

ここで私が非常に気に入っている他の洞察があります。彼らは尋ねます。「ますますコードをマスクすると、エージェントの性能において何がより重要になるでしょうか。マスクされていない残りのコードを理解することか、それとも研究論文、人間研究者による人間の意図を絶対的に深いレベルで理解することでしょうか？」

方法論、実験が設定された理由の背後にある論理を本当に理解しているでしょうか？実験の理論的物理学的理解がコード書きに役立つのでしょうか、それとも単にコードに焦点を当て、物理学などについて何も理解する必要がないのでしょうか？ただコードとコードで進むのでしょうか？

ここに結果があります。青い線では、取得なしでエージェントにコードアクセスのみを与えます。これは、コードアクセスのみを持つ場合の性能です。

オレンジ色では、理論的科学論文自体にアクセスできる場合を見ます。LLM、エージェント、マルチエージェント、何であれ、論文、理論的理解、実験の人間による説明にアクセスできる場合です。彼らは何をしているのか、なぜしているのか、実験を理解するために何が重要なのか。そうすると、このすべての演習、このベンチマークを行う一般的な性能が良くなります。

ここだけの話ですが、その差はもっと圧倒的で重要であることを期待していました。5パーセントポイント、7パーセントポイントです。つまり、良いです、議論の余地はありません。オレンジ色の方が青色よりも良いですが、本当にそれほどではありません。だから、LLM推論とLLMコーディングには多くの作業が必要です。これは満足できるものではありません。

しかし、「なぜCursorは完璧なのか」と言うかもしれません。低い複雑性ではそうですが、高い複雑性に出た瞬間、実際の科学的複雑性から、ホームページの作り方ではなく、ボタンの作り方ではなく、何か些細なことではなく、科学的発見に入ると、モデルはクラッシュします。

最初は両方ともほぼ同一です。35、36、何であれ、素晴らしいです。しかし、ここでより進むほど、大型言語モデルが論文にアクセスし、チームのアイデアを理解する方が良いです。

研究者からの結論

彼らの結果として、彼らは我々に告げます。「形式的なコードと科学的自然言語の両方を理解することが重要だと思います。しかし、タスクが難しくなるにつれて、科学論文からの高レベルな概念的理解への依存が最重要になることをエレガントに実証しました」

LLMは実験を理解しなければなりません。コードを見るだけでは十分ではありません。別のGitHubにアクセスするだけでは十分ではありません。実験を理解する知的能力を持たなければなりません。

素晴らしいです。

個人的な考察

私にとって、いくつかの持ち帰りがあります。おそらく皆さんも同意されるでしょうし、同意されないかもしれません。論文はここで終わります。これは今、私の考察です。

複雑性は現在のすべてのLLMにとってキラーです。現在のLLMは、ここの数値データで見てきたように、論文をご覧ください。美しくまとめられていますが、LLMは科学のためにゼロから2つの関連する関数を実装する際に生じる依存関係の組み合わせ爆発を処理できません。つまり、これは傷つく声明です。私の心を個人的に傷つけます。これを皆さんに伝えなければならないことが。

第二に、今度はポジティブな部分です。検証は黄金の機会です。我々はここで自己回帰システムについて話しています。次のトークン予測システムです。ただ実行させてください。時間を与えてください。おそらく確率分布の中にいます。時間があれば、良い解決策を見つけるかもしれません。だから、同じタスクの複数の試行、複数の実行を行わせてください。

第三に、私にとって、これらのインタラクション、これらのエンハンス機能は交渉の余地がありません。それらを持たなければなりません。本当に強力な研究エージェントが欲しいなら、環境と動的にインタラクトできなければなりません。実世界にアクセスできなければなりません。結果、理解、テストを検証できなければならず、環境、実験、そこにある実世界とのインタラクションで自分自身の失敗をデバッグする能力を持たなければなりません。

合成データを与えるだけでは十分ではありません。自分自身の体験を開発しなければならず、何度も何度も、完全な推論プロセス、完全な科学プロセス、完全なコーディングプロセスの基盤としての大型言語モデルが必要です。

なぜなら、タスクが科学AIの完全な複製に向けてスケールするにつれて、高レベルな概念でのコーディングの根拠づけ、理論物理学や化学の理論的概念、科学論文で記述されているすべてのものでの根拠づけの能力が不可欠だからです。だから、LLMの推論能力についてなのです。

しかし、この論文を読んだ後、あえて言いますが、ああ、なんということでしょう。真のAI科学者、科学AIマルチエージェントシステムを作成するには長い道のりが我々の前にあります。我々はそれから光年離れています。