AIの爆発的知性への一歩近づく…

AGIに仕事を奪われたい
この記事は約18分で読めます。

10,552 文字

One step closer to the Intelligence Explosion...
Register for 3-hour AI training with GrowthSchool! Free for the first 1000 people who sign up! My Newsletter for Regular...

OpenAIが最近発表した論文は、AIエージェントが最先端のAI研究を複製できることを示しています。これを自然な結論まで進めると、エージェントがまもなく自己改善できるようになることを意味します。これは「PAPERBENCH: AIの研究複製能力を評価する」という論文です。さっそく序論を見てみましょう。
機械学習研究論文を自律的に複製できるAIエージェントは、機械学習の進歩を加速させる可能性があります。想像してみてください。AIエージェントが他の論文の結果を複製するだけでなく、機械学習における新しいイノベーションを発見し、それを自分自身に適用して、無限に繰り返すことができるのです。
これはレオポルド・ダッシャー・ブレナーが「知性爆発」と呼んだものです。AIが自己改善の方法を発見できるようになるその時点で、これらのモデルの能力は絶対的に爆発的に拡大するでしょう。彼らもここでそれに触れています。興奮すべきことですが、AI能力が安全に開発されることを確実にするために慎重な研究も必要です。それがPAPERBENCHの目的です。
PAPERBENCHは、研究論文を取り込み、その研究論文の結果を複製するためのコードを書いて実行するエージェンティックなフレームワークと考えることができます。これらのAIエージェントはウェブへのアクセス、bashターミナル、Python環境、さらには論文自体のページングへのアクセスも持っています。Manis AIを使ったことがある人なら、とても馴染みがあるはずです。
彼らは続けて言います。「私たちはエージェントに論文の内容を提示し、論文の実証的貢献を複製するよう依頼します」。つまり、ここに論文があり、これらのツールがあり、ウェブを閲覧する能力、コードを書いて実行する能力があるから、結果を複製してくださいということです。それは単純に聞こえるかもしれませんが、実際にそれを行い、実践で測定することは非常に難しいことです。
論文を複製するとは実際には何を意味するのでしょうか?複製には、論文を理解し、すべての実験を実装するためのコードベースをゼロから開発し、必要に応じてこれらの実験を実行、監視、トラブルシューティングすることが含まれます。一般的に、各複製タスクは非常に困難で、人間の専門家が最低でも数日の作業を要します。そして今、数時間でそれができるエージェントがあります。
彼らが構築しているこのベンチマーク、PAPERBENCHは、機械学習分野の最近の研究論文20本で構成されています。それらはICML(国際機械学習会議)の一部として12の異なるトピックをカバーしており、深層強化学習、堅牢性、確率的手法などが含まれています。PAPERBENCHの一部である各論文には、手動で作成されたルーブリックが付随しています。彼らは実際に各論文の著者と協力してルーブリックを作成し、ベンチマークの品質と有効性を確実に保証しています。
ここで面白い部分ですが、PAPERBENCHの各ルーブリックは、それが高品質で正確な複製評価であることを確実にするために、元の論文の著者の一人と共同開発されています。これらの機械学習論文の採点は簡単ではなく、人間の専門家が1つの論文を採点するだけで数十時間かかります。そのため、彼らはそれを行うためのLLMジャッジを開発しました。彼らはジャッジのための評価基準も開発し、このフレームワークのあらゆる部分に対して評価を実行しています。
「私たちはLLMベースのジャッジを探求し、自動化されたジャッジの出力を人間の専門家ジャッジからのゴールドラベルのデータセットと比較する補助的評価judge-evalを導入します」
OpenAIがこの論文を発表したのだから、彼らのモデルが最も優れているはずだと思うでしょうが、必ずしもそうではありません。彼らはこのフレームワークでさまざまなモデルをテストしました。基本的にフレームワークをモデル非依存にし、異なるモデルを導入して、それらがどのように機能するかを確認しました。
私がしばらく話していることの一つは、これらのモデルに含まれる生の知性が驚異的であり、人間が想像できるタスクの大部分にとって十分である可能性が高いということです。しかし、それらを単なる知性から実世界のタスクを遂行できるエージェンティックなものに変えるのは、周囲の足場です。その足場は、エージェントまたはエージェンティックフレームワークとしても知られています。つまり、ツールを与え、コードを書いて実行する能力、ウェブを検索する能力、記憶を持つ能力を与えること、本質的には生のLLMの周りに書かれているすべての決定論的コードです。
「私たちの最良のLLMベースのジャッジはO3 Mini Highとカスタム足場を使用し」― カスタム足場と聞くたびに単にエージェントと考えてください ―「補助的評価で83のF1スコアを達成し、このジャッジが人間のジャッジの妥当な代替であることを示唆しています」
このセグメントのスポンサーであるGrowth Schoolに感謝します。2025年は重要な年です。エージェントが労働力に参入し、AIがほぼすべての仕事の側面に浸透しています。多くの人がAIが彼らの仕事を奪うと考えていますが、私はAIを使用する他の人間があなたの仕事を奪うと言います。そのため、超生産的になるためには、AIの使い方を学ぶ必要があります。このチャンネルを見ているなら、あなたはすでに一歩先を行っていますが、さらに進むことができます。
最先端のAIスキルを学ぶ素晴らしい方法は、Growth Schoolのコースを利用することです。Growth Schoolは3時間の実践的なAIトレーニングを提供しており、25以上の異なるAIツールの使い方を教えてくれます。これはあなたの会社の星になる方法です。あなたが金融、営業、人事、採用担当のどの分野にいても、AIを学ぶべきであり、Growth Schoolでそれを行うことができます。Growth Schoolは世界中で100万人以上の人々のスキルアップを支援してきました。これは通常有料のトレーニングですが、現在、最初の1000サインアップに対して、以下の説明欄にあるリンクを通じて無料です。Growth Schoolをチェックしてください。再びこのセグメントのスポンサーに感謝し、ビデオに戻りましょう。
さて、どれが最も優れていたのでしょうか?実は、AnthropicのClaude 3.5 Sonnetがこの論文で最も優れたパフォーマンスを示したモデルでした。彼らはClaude 3.7を含む他のモデルもテストしましたが、成功しませんでした。その理由は後ほど説明します。彼らはGemini 2.5 Proをテストしませんでしたが、私の経験ではGemini 2.5 Proが断然最も優れたコーディングAIなので、どのようなパフォーマンスを示すか知りたいところです。
実際のワークフローがどのようなものか見てみましょう。このピンク色の部分がPAPERBENCHが実際に行うことです。エージェントに論文が与えられ、この思考とツール使用を見ると、論文の読み取り、初期コードの実装、v1パラメータでの実験の実行などが行われています。再び、Manisを使ったことがある人なら、非常に馴染みがあるはずです。これはまさにManisが行うことです。環境を立ち上げ、その環境内でファイルの読み書きができ、その環境内でコードを書いて実行できます。
これは非常に似ていて、だからこそ私は最近の強化学習の進展に非常に興奮しています。これらのモデルをコーディングにより優れたものにし続けています。コーディングモデルは現在最も重要なモデルタイプのように思えます。コードを書くことができれば、基本的に何でもできるからです。また、コード実行は検証可能な報酬です。つまり、コードを書いて特定の結果を求めている場合、それを簡単に検証できます。それがモデルをより良いコード作成者にするために必要な報酬です。そして、それには人間がループの中にいる必要がないため、その報酬フィードバックループで本質的に無限にスケーラブルです。
すべてのコードを書いているとき、実際にすべてのファイルを書いているのが見えます。そして、ファイルを実行します。reproduce.shというスクリプトがあり、それがすべてのファイルを実行し、論文の結果を複製しようとします。その後、採点のためにジャッジに渡されます。採点方法については説明します。単に合格か不合格かではなく、実際にはかなり洗練された採点メカニズムがあり、後ほど説明します。そして、人間の論文の共著者からのルーブリックが判断方法として使用され、最終スコアが出ます。
第一に、Claude 3.5 Newは単純なエージェンティック足場でPAPERBENCHで21%のスコアを獲得しました。素晴らしいというわけではありませんが、この最初の反復としては良いです。3つの論文のサブセットでは、機械学習博士号を持つ人間のベースライン(3回の試行のうち最良)は48時間の努力の後に41.4%を達成しました。これに対して、同じサブセットでO1は26.6%を達成しました。とても興味深いことに、人間の博士たちのスコアの約半分のスコアをすでに達成しています。私はこれまでも、そしてこれからも言い続けますが、これはAIが今後最も劣悪になる状態です。
では、彼らは実際にどのようにしてそれを行うのか、タスクは何なのか読んでみましょう。「評価されるエージェントには論文が提供され、論文への追加説明も提供されます。候補はプロジェクトリポジトリを提出する必要があります。これには、論文の実証的結果を再現するために必要なすべてのコードが含まれており、ルートにreproduce.shというファイルがあり、これが結果を再現するために必要なすべてのコードを実行するためのエントリーポイントです」
ここで重要な部分は、エージェントがウェブ検索にアクセスできますが、単に研究論文の著者のウェブサイトに行って彼らのコードをダウンロードすることはできないということです。なぜなら、通常、著者のウェブサイトにはコードが含まれているからです。そのため、実際にはブラックリストがあり、PAPERBENCHの各研究論文には、アクセスできないウェブサイトのブラックリストがあります。彼らはウェブを閲覧することは許可されていますが、既存の研究論文のコードをダウンロードすることはできません。これにより、既存の研究コードを使用する能力ではなく、ゼロからコードを書き、複雑な実験を実行するエージェントの能力を測定していることを確認しています。
実際の再現についていくつか詳細を話しましょう。「提出物は、その結果が新しいセットアップで実行された場合にのみ結果を複製したと見なされます」つまり、単にコードを実行するだけでなく、実際にコードを新しい環境にコピーして新たに実行します。その環境についていくつか詳細があります。
「私たちはその提出物をA10 GPUにアクセスできるUbuntu 24.04イメージを実行する新しいVMに複製します。クリーンスタートから結果を生成するために、提出物の再現スクリプトを実行し、結果として更新された提出フォルダを「実行済み提出物」と呼びます」。そして、それが再現がどのように行われるかです。
採点はどのように行われるのでしょうか?それがおそらくこの全体の中で最も難しい部分です。再現がどれほど正確か、どれほど正確かをどのように実際に知るのかということです。読んでみましょう。各論文にはそれに付随するルーブリックがあることを忘れないでください。これは完全な論文複製の評価基準を指定しています。その評価基準は論文の主要な共著者の一人によって書かれているので、正確であることがわかります。
提出物の採点方法を説明しましょう。これはツリーのように見えます。一番上にはパスか失敗かがあります。ツリーの中のすべてのノードに沿って下に進むにつれ、基本的に論文のより細かな部分が採点されます。単に「はい、彼らは論文を再現できました」または「いいえ、できませんでした」というだけでなく、むしろこの一部を再現できたかどうか、そしてその一部からより大きな部分、そしてそれのより大きな部分というように、サブセット内のサブセット内のサブセットのようなものです。それぞれが採点され、子スコアが平均化されます。その平均が親に与えられ、その親が上の親に、さらにその親にロールアップされ、最上位ノードには完了の全体的な平均スコアが与えられます。この例では0.55です。
評価の詳細についてお話しましょう。各リーフノードには3つの可能な要件タイプのうちの1つがあります。結果一致リーフノードは、実行された提出物に論文からの特定の結果を複製した証拠が含まれているかどうかを評価します。実行リーフノードは、reproduce.shスクリプトを実行したときに特定の実行結果が発生したかどうかを評価します。つまり、提出物とコードをテストしています。そして3番目のコード開発は、候補のソースコードが要件の正しい実装を含んでいるように見えるかどうかを評価します。つまり、全体の提出物、その実行、そして基礎となるコードをテストしています。
なぜOpenAIはそれをこのように分割することにしたのでしょうか?単に全体をテストして正確かどうかを確認することはできなかったのでしょうか?「結果の一致ノードだけからなるルーブリックを持つことは可能でしょう。なぜなら、結果を一致させることは定義上、論文を複製することだからです。しかし、結果を達成するための部分的なクレジットを与えるために、実行とコード開発ノードを含めます。したがって、PAPERBENCHでのエージェントのパフォーマンスが段階的に向上することを確実にします」
これは非常に重要です。これは、プロセスベースの報酬と結果ベースの報酬を思い出させます。結果ベースの報酬は、ソリューションの正解または不正解によってモデルに報酬を与えます。10のステップのうち9つが正しく、最後の1つが間違っていても、結果ベースの報酬では報酬はなく、失敗です。しかし、プロセスベースの報酬では、各ステップに個別に報酬が与えられます。10のステップのうち9つが正しく、最後の1つが間違っていても、全体のソリューションは正しくありませんが、それでも最初の9つのステップは正しかったのです。最初の9つのステップが実際に本当に良くて正確だったということを学んでいて、それらを再度行うことを学んでいます。報酬を受けたことを学んでいて、直感的にそれはただもっと意味があると思います。
人間の仕事を採点するとき、通常は「これらのステップは全部正しかったけど、これは間違っていたので、それを改善しましょう。しかし、これらは正しかったことを覚えておいて、それを続けてください」と言います。それは非常に人間的な方法であり、それがPAPERBENCHで彼らがしたことです。
それでは、エージェントが従わなければならないルールについて詳しく見てみましょう。提出物が有効であるためのルールです。興味深いことに、PAPERBENCHはエージェントの足場に依存しないように設計されています。PAPERBENCHは基礎となるLLMに依存しないだけでなく、どのLLMでも挿入できますが、エージェントの足場にも依存しません。
「エージェントの環境に特定の要件はありません。エージェントはインターネットを閲覧できますが、論文ごとにブラックリストが存在します」エージェントは著者のコードをダウンロードして実行することはできません。それはごまかしになるからです。エージェントが再現できるかどうかを確認したいのです。各論文のブラックリストには、著者自身のコードリポジトリと、オンライン上の他の複製が含まれています。
次に、実行時間やコンピュートなど、エージェントが利用できるリソースは制限されていません。基本的に任意の環境を使用できます。そして3番目は、開発者はHuggingFaceなどの必要なオンラインサービスのAPIキーをエージェントに提供する必要があります。オンラインアカウントへのアクセスを取得することは、PAPERBENCHで評価しようとしているスキルセットの一部ではありません。そのため、エージェントがHuggingFaceにサインアップするという能力をテストしているわけではないので、単にAPIキーを自由に与えてくださいと言っています。
PAPERBENCHの実行はかなり高価です。これらのエージェントは12時間実行でき、そのコストは非常に速く積み重なります。12時間にわたってすべてのトークンを処理しているエージェントを想像してみてください。数百、数百ドルの話です。そのため、彼らはPAPERBENCH Codevを作成しました。これは評価タスクをコード開発のみに減らし、結果が再現されることを確認するためのコードの実行に焦点を当てることをスキップします。これにより、エージェントのロールアウトと再現ステップに通常必要な高価なGPUハードウェアの必要性が免除されます。彼らはまた、採点のコストも削減しました。
「O3 Miniをジャッジとして使用すると、採点のコストが約85%削減されることがわかります」
大まかに言えば、論文を再現するのに1,000ドル、エージェントが自分の論文を書くのにおそらく数千または数万ドルのコストがかかるというのは、自己改善人工知能を意味するならば、どんな企業も喜んで資金を提供するでしょう。
先ほど述べたように、各ルーブリックは実際に論文の主要な共著者の一人と作成され、論文を読んでから、初期作成、ルーブリックレビュー、反復、最終サインオフまで、1つの論文につき数週間かかりました。そのため、20の論文があることを考えると、それがどれだけの時間がかかったか想像してみてください。だからこそ、彼らは本当に20の論文しか持っていないのですが、彼らはまた、論文の数は実際にはそれほど重要ではないかもしれないと言っています。
これから話題にするLLMジャッジについて話しましょう。それはPAPERBENCHの重要な側面です。人間の専門家を使用した手動採点は、1つの論文につき数十時間かかりました。そのため、彼らは自動化された方法が必要であり、それがLLMジャッジです。重要なことに、「自動化されたジャッジの品質は時間とともに向上すると予想しています」
LLMジャッジの実装はどのようなものでしょうか?読んでみましょう。「特定のリーフノードについて、ジャッジは論文のマークダウン、完全なルーブリックJSON、リーフノードの要件、そして提出物でプロンプトされます。提出物全体はしばしばモデルのコンテキスト内に完全に収まるには長すぎるため、ジャッジに関連性でファイルをランク付けしてもらい、上位10ファイルのみをコンテキストに含めるようにしてコードベースをフィルタリングします」基本的にRAGです。
「私たちはO3 Miniを使用したジャッジが、単一の提出物を採点するのにOpenAI APIクレジットで約66ドルかかると推定しています」それはここで作成されている実際の価値に比べれば全く微々たるものです。「PAPERBENCH Codevでは、コストは論文あたり約10ドルに下がります。私たちのLLMジャッジは、採点のために専門家の人間を雇うよりもはるかに安価で速いです」
では、結果を見てみましょう。これらすべてが実際にどのように機能したかを見てみましょう。「私たちはGPT-4, O1, O3 Mini, DeepSeek R1, Claude 3.5 Sonnet New, Gemini 2.0 Flashを評価しました」おそらく大きく欠けているのはGemini 2.5 ProとClaude 3.7 Sonnetだとわかるでしょう。彼らはClaude 3.7 Sonnetをテストしたかったのですが、レート制限のために出来ませんでした。読んでみましょう。
「私たちはCloud 3.7 Sonnetを評価したいと思いましたが、Anthropic APIのレート制限により実験を完了することができませんでした。エージェントには最大12時間の実行時間を与えていますが、常にレート制限に当たり続けたため、実際に3.7をテストすることができませんでした」
最も有望なパフォーマンスはClaude 3.5 Sonnetの21%でした。Open AI O1は13.2%と弱く、テストされた他のモデルは10%未満のスコアでパフォーマンスが低かったです。なぜ、なぜ他のモデルのパフォーマンスが低かったのでしょうか?
「3.5 Sonnetを除いて、他のモデルはしばしば早期に終了し、完全な複製を完了したか、解決できない問題に直面したと主張しました。すべてのエージェントは、利用可能な限られた時間で論文を最もよく複製する方法について戦略を立てることに失敗しました。私たちはO3 Miniがしばしばツールの使用に苦戦していることを観察しました」
これらはすべてエージェンティックな問題です。エージェンティックフレームワーク自体が改善され、モデルがツールを使用する能力も向上します。だからこそ、組み込みの関数呼び出し、組み込みのツールトレーニングを持つこれらの新しいモデルに非常に興奮しているのです。そして、日々が経過するにつれて、そのタイプの能力がこれらのモデルでますます重要になっているように思えます。
彼らはまだ言います。「これらの失敗モードは、長い時間軸のタスクを実行する能力における現在のモデルの弱点を示唆しています」。Deep Researchのようなものを見ると、それは少し違うように思えますが、人間の介入なしに長時間にわたってタスクをエージェントに与え、それが行くだけで行うことができるようになるまでには、まだ長い道のりがあります。私はManisをかなり使用しています。時々成功することもありますが、しばしば失敗します。
ここで最も重要な部分です。「私たちはエージェンティックな足場に関するさらなる研究がPAPERBENCHでのより良い結果につながると信じています」。つまり、基礎となる知性であるLLMではなく、エージェントフレームワーク自体が改善する必要があるということです。
表4の平均複製スコアを見てみましょう。O3 Mini High 2.6%、GPT-4 O 4.1%、そしてClaude 3.5 Sonnetが21%でテストした他のモデルよりもはるかに優れています。彼らはまた、反復エージェントというものを作成しました。基本的に、エージェントが早期に終了する能力を取り除き、エージェントが「はい、終わりました」または「続けることができません」と言った場合、彼らは本質的にモデルをただ働き続け、解決し続けるよう促すプロンプトを書きました。
それによって、O3 Mini Highは8.5%、Claude 3.5 Sonnetは16.1%、O1 Highは24.4%を獲得しました。36時間の延長制限では、数ポイント高いスコアを獲得しました。とても興味深いことに、ただちょっとした追加の励まし、ここで止まらず続けて作業を続けるようにと言うだけで、劇的に改善しました。
それでは、彼らが発見した限界はいくつかあるでしょうか?まず、データセットのサイズです。PAPERBENCHは現在20の論文で構成されています。理想的にはMLの研究コミュニティの出力のさらに大きな部分をカバーするべきですが、先ほど述べたように、論文の数に焦点を当てることは誤解を招く可能性があります。各ルーブリックは何百ものノードで構成されPAPERBENCHはエージェントを何千もの個別の要件でテストしています。
コンタミネーションも問題です。オリジナルの著者のコードベースはオンラインに存在し、ブラックリストがありますが、トレーニングデータの中にこれらの論文のいくつかがあったと考えるのはそれほど奇妙ではありません。論文の最近性とモデルの知識カットオフの時期により、彼らは論文が実際にトレーニングデータに使用されたとは考えていませんが、将来のモデルでは常にそうとは限らないかもしれません。
これらのデータセットの作成も非常に困難です。論文が必要で、共著者がルーブリックを作成する必要があり、それに多くの労力が必要です。「専門家の人間が完全に数日間かけて作成するのに極めて労働集約的であり、LLMベースのジャッジはまだ人間のジャッジほど正確ではありません。ただし、まだではありません」。
最後にコストです。「私たちは、PAPERBENCHの1つの論文で01反復型エージェント12時間のロールアウトを実行するのに、平均して400ドルのAPIクレジットがかかると推定しています。20の論文ではこれは8,000ドルです。採点はO3 Mini Simple Judgeで論文ごとに追加で66ドルかかります」。安くはありませんが、大局的に見れば十分に価値のあるお金です。
結論として、まだ道のりは遠いです。これらのモデルは優れており、一部を複製できますが、まだ十分ではありません。しかし、モデルが改善している速度、モデルの周りの足場、エージェンティックフレームワークが改善している速度を考えると、間もなくそこに到達するでしょう。そしてそれが起こったとき、それが知性爆発です。

コメント

タイトルとURLをコピーしました