OpenAIが超知性に向けて大きな一歩を踏み出した

AGIに仕事を奪われたい
この記事は約9分で読めます。

4,772 文字

OpenAI Just Took a Huge Step Toward Superintelligence
OpenAI just dropped some insane new research, which suggests we may be closer to Artificial Superintelligence than we th...

OpenAIがとんでもなく凄まじい新しい研究を発表しました。この新しい論文は「Paperbench」というタイトルです。これについて早く投稿できなかったことをお詫びします。私は3月のAI振り返り動画を制作していました。これは実は新しく始める月例シリーズの第一回目です。もしこれに興味があれば、最後まで見ていてください。さらに詳しくお話しします。
さて、この新しいOpenAIの論文について話さなければなりません。まず、皆さんのほとんどはおそらくこのグラフを見覚えがあるでしょう。もしそうなら、これがどこに向かっているのかもうご存知でしょう。そうでない方のために説明すると、このグラフは最近の最も象徴的で話題になっているAI論文の一つから来ています。元OpenAI研究者のLeopold Aschenbrennerによる「Situational Awareness(状況認識)」という論文です。
この特定のグラフは、自動化されたAI研究が実現した場合に何が起こるかを予測しています。それが2027年頃の変曲点で、そこから線が完全に急上昇しています。「でも、それはもう実現しているのでは?」と思うかもしれません。OpenAIやGoogleにはディープリサーチエージェントがありますし、Grokにはディープサーチがあります。これらはすべて自律的にウェブを検索できるエージェントです。そして今ではほぼすべてのチャットボットがリアルタイムでインターネットにアクセスできるようになり、AnthropicのClaudeも最近その仲間入りをしました。
しかし、これらはすべて事実ですが、彼が話しているのはAI研究を行うことができるAIのことです。彼はAI研究が自動化され、AIが本質的に自己改良し、自身のアーキテクチャを構成し、より効率的に、さらには知的にする能力を持つようになる時点をグラフにしています。彼はこれが「再帰的自己改良AI」と呼ばれるものを引き起こす可能性があると考えています。このAIは自身を常に改良し、改良されたバージョンがさらに自身を改良し、それがさらに改良されたバージョンをさらに改良し、さらにさらに改良されたバージョンをさらに改良し…というように、至る所で絶え間ない改良が続き、必然的にある形の人工超知能につながるというものです。
真面目に言うと、これは基本的にテクノロジーがすでに行っていることです。賢い人間の直感とエンジニアリングによって導かれる、常に向上し加速するポジティブフィードバックのフライホイールです。しかし、今や私たちはもはやそれを操縦する立場にないかもしれません。気づかないうちにコントロールを手放しているような感じです。快適さに酔いしれ、進歩に気を取られ、自己決定権を容易さと引き換えにしています。理由は何であれ、この新しいOpenAIの論文が私たちに何かを教えてくれるとすれば、それは私たちがその未来に思っているよりもずっと近づいているということです。
実際の論文に入ると、OpenAIは「Paperbench」という新しいベンチマークを導入しています。これはAIエージェントが最先端のAI研究を複製する能力を評価するためのものです。つまり、自動化されたAI研究を評価するためのベンチマークです。
彼らは「エージェントはICML 2024のスポットライトおよび口頭発表論文20本を一から複製する必要があり、論文の貢献を理解し、コードベースを開発し、実験を成功裏に実行することが含まれる」と述べています。つまり、エージェントは文字通りすべてを完全に自律的に行わなければなりません。人間の介入は一切ありません。
ここで驚くべき点は、これが技術的にはベンチマークですが、ある意味では設計図でもあり、AIエージェントが実際に自分自身でAI研究を行うためのフレームワークでもあるということです。
ご覧のように、彼らはワークフローの全体を示しています。まず、エージェントは実際の研究論文を受け取り、その目標は論文の主な貢献を複製することです。エージェントは論文を読み、何を言っているのかを理解し、一からすべてをコーディングし始めます。次に実験を実行し、結果を再現するためのスクリプトを書き、READMEを追加し、すべてをフォルダに保存します。そのフォルダは実際の研究プロジェクトのように提出され、それが実際に機能するかテストされます。最後に、LLMジャッジがそれを見て、論文の再現にどれだけ近づいたかを判断します。
これまでの発見では、Anthropicの「Claude 3.5 Sonnet new」がシンプルなエージェントスキャフォールド(ウェブ検索、Pythonファイル作成などのツール)を使用して最も成績が良く、Paperbenchで21%のスコアを達成しました。これはあまり印象的に聞こえないかもしれませんが、彼らは機械学習の博士号を持つ人間のベースライン(最良の3回の試行)が48時間の努力の末に41.4%を達成したと言及しています。つまり、それはすでに博士レベルの機械学習研究者の約半分の能力を持っていることになります。しかもこれは、今まで存在していなかったベンチマークでの結果です。
ルールについて簡単に説明すると、このベンチマークはエージェントのスキャフォールドに依存しないように設計されているとのことです。つまり、エージェントが論文を再現するためにどのようなツール、フレームワーク、方法を使用するかは問われません。さらに、実行時間と計算リソースにも制限はありません。基本的に唯一の本当のルールは、エージェントが単に論文のコードリポジトリを検索してコピー&ペーストしてはならないということです。
それが理論的に可能なため、OpenAIは各論文に対してブラックリストを提供しています。これには著者自身のコードリポジトリと、他のオンライン複製が含まれます。また、評価基準は各論文の元の著者の一人との協力の下で作成されました。つまり、各タスクの採点は特別に構築されており、著者自身が彼らの作品の中核的な貢献だと考えるものを反映しています。
ご覧のように、各評価基準はツリーのように構成されており、論文の主な目標がより小さな部分に分解されています。一番下にある葉ノードは、特定のグラフが再現されたかどうか、あるいはモデルが正しく実装されたかどうかなど、非常に具体的な要件を表しています。これらは単純に合格か不合格かで採点されます。その後、これらのスコアは重み付けシステムを使用してツリーを上に組み合わされ平均化されます。つまり、より重要な結果はより多くカウントされます。
このすべてがLLMジャッジによって行われていることに注意してください。彼らはここで、予備実験では人間の専門家が各論文の再現を手動で評価するのは、論文あたり数十時間のオーダーで時間がかかりすぎることがわかったと述べています。しかし、このLLMベースのジャッジを使えば、はるかに速く行うことができ、Paperbenchの提出物の大規模な評価が可能になりました。また、自動ジャッジの品質は時間とともに向上すると予想されており、彼らのベンチマークで報告されるスコアの信頼性も時間とともに向上するとされています。
AIがAIの改善能力をどれだけうまく行っているかを判断しているのです。そしてAIがAIの改善により優れるようになるにつれて、AIの改善におけるAIの判断も向上します。ですから、AIが研究を行い、実験を実行し、結果も採点しています。この時点で、私たちはまだなぜ現れているのでしょうか?もう荷物をまとめて、AGIにすべてを任せた方がいいかもしれません。
しかし真面目に言うと、私たちはまだ真の自動化されたAI研究からは遠く離れています。「遠く離れている」と言っても、AI時間では本当に数年だけのことです。現在、先ほど見たように、Claude 3.5 Sonnetは21%のスコアでPaperbenchで最も成績の良いモデルです。その次はハイコンピューティングの01で13.2%、そしてDeepseek R1が6%です。
Claude 3.5 Sonnetは他のすべてのモデルよりもはるかに先を行っています。その理由として彼らが挙げているのは、Claude以外のすべてのモデルが早期に終了する傾向があり、再現全体を完了したか、解決できない問題に直面したと主張しているということです。
興味深いことに、モデルに継続するよう促し、早期終了する能力を取り除くためのプロンプトを使用すると、Claude 3.5 Sonnetの性能がわずかに低下し、01 Highが24.4%という新しい高スコアを達成したことがわかりました。
ですから、これらの初期結果は非常に印象的ですが、私たちはまだ真の自律的なAI研究の初期段階にいます。ほとんどのエージェントは苦戦し、最も優れたモデルでさえ、早期停止、論文の一部の誤解釈、または主要な実験の再現の失敗などの問題がありました。
OpenAIは他にもいくつかの制限事項を指摘しています。小さなデータセットサイズ、高品質な論文の不足、これらのモデルがこれらの論文のいくつかで事前に訓練された可能性がある汚染、そしてもちろんベンチマークを構築するためのコストと人間の労力などです。
しかし、重要なのはこのベンチマークがたった今発表されたばかりで、Claudeの21%と人間の41%のギャップはすでに縮まりつつあるということです。ここでの教訓は、AIがすでに最先端の研究を複製できるということではなく、OpenAIが最終的にそれを行うAIのための訓練場を構築したということです。彼らは基本的に真の自動化されたAI研究の基盤を築きました。これはLeopoldによれば、まさに超知能につながるものであり、それも速いペースでです。
そしてこれはLeopold Aschenbrennerによるだけではありません。Sam Altman自身も最近のブログ投稿「The Intelligence Age」で、数千日以内に超知能を持つ可能性があると述べ、「これは今までの歴史の中で最も重大な事実であることが判明するかもしれない」と引用しています。
これがOpenAIのPaperbenchです。今週、私たちは公式にASI(人工超知能)に一歩近づいたようです。
この動画を楽しんでいただけたなら、ぜひいいねやコメントを残してください。新しい方は登録もお願いします。
まだ見ていてくださる方々に、新しい月例シリーズを始めたことを手短に伝えておきたいと思います。このシリーズでは過去1か月間にAI分野で起こったすべてのことを振り返ります。通常のアップロードに加えて、毎月初めに主要なリリース、アップデート、ツール、研究、ニュースをすべてカバーする大きな動画が1本あります。3月分の最初の動画を投稿しましたが、結局1時間にもなりました。
それを振り返ってみると、少し内容が濃すぎて、おそらく圧倒的だったかもしれないと気づきました。次回は内容を減らし、おそらく最大のストーリーだけに焦点を当て、すべてのことを深く掘り下げるのはスキップしようと考えています。しかし、皆さんの意見を本当に聞きたいです。この動画を見ている方は、どのような形式が好ましいかを投票できるコミュニティタブにすでにアンケートを投稿しています。ポジティブなものもネガティブなものも、ぜひフィードバックを残してください。皆さんの考えを聞きたいです。
それでは、視聴していただきありがとうございました。次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました