2つのAIモデルが政府の緊急対応を促す見込み、しかしこの挑戦が彼らを失墜させるのか

AI競争
この記事は約16分で読めます。

OpenAIとAnthropicがそれぞれ次世代モデルのリリースを控え、AI性能の質的飛躍が期待されている。OpenAIは新モデル開発のためSoraアプリを停止し、Anthropicは国防総省との契約再交渉を模索している。一方、新ベンチマークARC AGI 3では人間が100%のスコアを記録する中、最高性能のAIモデルでさえ0.5%未満という結果が示され、Jensen HuangのAGI達成宣言に疑問を投げかける。本稿ではOpenAIの自動化AI研究への方針転換、ベンチマーク設計の課題、そしてエージェント型AIのセキュリティリスクを検証し、現在のAIが「より優れた初稿作成者」でありながら依然として人間の監督を必要とする「混沌とした中間段階」にあることを明らかにする。

Two AI Models Set to “stir government urgency”, But Will This Challenge Undo Them?
First look at exclusive reports about OpenAI's new Spud model, and the model Anthropic think will stir governments to ur...

次世代AIモデルがもたらす性能の飛躍

2つの独占報道によると、OpenAIとAnthropicがそれぞれ次にリリースするAIモデルにおいて、AI性能の質的な飛躍が起こる見通しです。OpenAIにとって、これは新しいSpudモデルのために計算資源を確保するべく、Soraアプリを停止することを意味しました。そしてClaudeの開発元であるAnthropicにとっては、米国政府が最近設定した6ヶ月の期限を超えてClaudeを使用する契約を復活させることに、国防総省が改めて関心を示すことを意味しています。

しかしこの動画では、2026年の話題となること間違いなしの全く新しいベンチマーク、ARC AGI 3にも深く踏み込んでいきます。私は論文全体を読みましたが、見出しとなる結果は、人間が100%を獲得する一方で、最高性能のAIモデルは現在0.5%未満しか取れないというものです。これはNvidiaのCEOであるJensen Huangにとってニュースかもしれませんし、そうでないかもしれません。彼は今週、汎用人工知能はすでに達成されたと述べたのですから。

OpenAIのSora開発停止の背景

まずはOpenAIのエロティカボットから始めましょう。というのも、そこでのニュースは、そのエロティックチャットボットが出てこないということだからです。おそらくエンゲージメント最適化に数十億ドルを費やした後、それは棚上げされました。どうやらFinancial Timesによると、いつも私のセックスボット噂の情報源ですが、OpenAIはSpudのために計算資源が必要なのだそうです。

AGI展開に集中するため、他のサイドクエストを中止する必要があるのです。自分たちがやっていることすべてを1つのスーパーアプリにまとめ上げるということですね。The Informationに目を移すと、どうやらOpenAIの従業員でさえ、バイラルなAI動画を生み出すSoraが依然として会社の計算資源の負担になっていると不満を漏らしていたようです。対照的に、Spudモデルはサム・アルトマンによると非常に強力だそうです。

数週間以内に準備が整い、本当に経済を加速させるとのことです。この時点で皆さんの中には目を回して「ああ、彼ならそう言うだろうね」と思う方もいるでしょう。しかしこの記事は、私がちょうど読んだばかりのAxiosの記事、AnthropicとそのClaudeシリーズについての記事の奇妙なエコーでした。新しいClaudeシリーズについて、多くの人が気づいていないと思われる重要な段落がこちらです。

Anthropicは米国政府関係者に対し、次の大きな進歩が攻撃的および防御的なサイバー能力の両方を大幅に強化すると警告しました。それは政府の緊急性を刺激し、何らかの取引を成立させるかもしれません。Anthropicがかつて国防総省と結んでいた契約の破綻についてご存じない方は、私の最近の一連の動画をチェックしてみてください。

国防総省との契約再交渉の可能性

ちなみにAxiosからのこの記事は、国防総省がその契約の破棄を再考しているかもしれないとさらにほのめかしています。どうやらAnthropicと国防総省との確執の最も公的な部分の後でさえ、主要な交渉担当官は、彼らはまだ合意に非常に近いと述べたそうです。皆さんの中には興味を持たれるかもしれない詳細の1つは、Anthropicがどのように政府との良好な関係を取り戻すかもしれないかということです。

AnthropicのCEOであるDario Amodeiのアドバイザーの1人に、Brad Gerstnerがいます。彼はトランプ・アカウントの設計者で、これは親が登録した全ての新生児に1,000ドルを提供するものです。記事はさらに、もしAnthropicがこれらのアカウントの一部資金提供に同意したらどうなるかを推測しています。ほとんど普遍的な資本への非常に早期の試験的なステップのようなものです。

新世代AIへの期待と現実のギャップ

とにかく、ここまでのすべてが、新しい階層のAIの差し迫った到来についてかなり期待を高めるかもしれません。ですから、これから続くのは、このすべてに少し文脈を加えるものになることを願っています。なぜなら過去48時間で、私たちはARC AGI 3を手に入れたからです。これは私がこのチャンネルで何年もカバーしてきたベンチマークシリーズの続きです。ベンチマークの作成者にとって、AIと人間の学習の間にギャップがある限り、私たちはAGIを持っていないことになります。

論文についてはすぐに取り上げますが、その見出しに対する私の即座の反応は、人間とチンパンジーの間には、少なくとも数学的記憶と速度において何らかのギャップがあるということです。チンパンジーは実際、画面上に短時間表示される数字を人間よりもうまく追跡できるのです。ですからその論理で言えば、人間もAGIではないことになります。これはおそらく世界的な出来事によって実証されている発見かもしれません。

しかしそれはさておき、ARC AGI 3のパズルは本当に試してみて楽しいものです。もしかしたら私が悲しいのかもしれません。試してみてやや楽しいと言うべきかもしれません。そして私が気に入っているのは、探索、計画、記憶、目標設定を同時にテストできることです。例えば、画面上のどこにも、そしてモデルにとっても、環境を操作するためにアイコンを動かす必要があるとか、例えばプラス記号が形を回転させるとか、左下隅のものを回転させるということは書かれていません。

あるいはさらに重要なことに、目標は左下の形をここの上の形に似せることだということも書かれていません。これらの目標は一切述べられていませんが、現実の生活と同じように、時には目標は推論されるか、自己生成される必要があるのです。私はARC AGI 3についていくつかの独占的な洞察を持っていましたが、多くのベンチマークが狭い範囲にとどまっているとき、言語、記憶された知識、文化的な手がかりに依存しないベンチマーク、実際に抽象的なもの、arcのAは抽象化を意味しますが、それは私にとってこの分野にとって健全なものです。

ARC AGI 3ベンチマークの詳細分析

しかし詳細について皆さんにとっては、現在の最先端モデルのひどいパフォーマンスは、2026年がどのように展開するかについて何を教えてくれるのでしょうか。21ページの論文からのハイライトは以下の通りです。まず、かなり最近、最先端のAIモデルによって飽和されたARC AGI 1と2に何が起こったのでしょうか。論文では、過去18ヶ月間のこれらのベンチマークにおける急速な改善を示す素晴らしいグラフが提供されています。

ご存じない方のために説明すると、インタラクティブなゲームではなく、これらはグリッド上のパターン認識のより静的なテストでした。さて、著者たちは2つの大きなポイントを示しています。第一に、2024年9月にo1 previewで公開デビューした組み込みのchain-of-thought推論、これがモデルに一種の流動的な知性を実証することを本当に可能にしました。

その場で考え、訓練データからのパターンを組み合わせて最終目標に到達する。これが以前のベンチマークの飽和の説明の一部です。説明のもう一つの部分はより興味深いものです。著者たちは、これらのベンチマークの公開セットと非公開テストセットが非常に似ていたため、この目的のために自動的に生成されたタスク空間の密なサンプリングを表す膨大な量のタスクで訓練された任意のモデル、つまり非公開テストセットがどのようなものかについての何千もの異なる推測によって、本質的にベンチマークをゲーム化できたと言っています。

これは直接的な記憶ではありません。より高レベルのショートカット、一種の攻撃の形です。彼らは、Gemini 3のようなモデルがそのchain-of-thoughtの中で、訓練データが偶然にせよ意図的にせよARC AGIのようなタスクに似ていた可能性があることを示唆する手がかりを持っていたと指摘しました。今後について、著者たちは、非公開テストセットは公開されている実証データとは全く異なり、分布外である必要があると主張しています。

ARC AGI 3では、公開テストセットは、API経由でテストされる半非公開テストセット、およびコンペティションに使用される完全非公開テストセットとは異なり、より簡単です。それはタスクの異なる分布であり、AIラボが意図的にARC AGIタスクを訓練データに混ぜ込もうとしていても、はるかにゲーム化しにくいのです。

ARC AGI 3の目標は、これらの潜在的にクレイジーな新モデルが今後数日から数週間で登場したとき、最先端のAIと人間レベルのAGIの間の残存ギャップを測定することです。人間と比較して、どのような残存ギャップや欠陥が彼らにあるのでしょうか。そして私は、この論文の著者がギャップではなく欠陥と言うことを好みます。なぜなら論文の方法論で、AIのパフォーマンスは100%、つまり人間由来の100%のベースラインでクランプされていることを学ぶからです。

つまり、いつの日か彼らがこれらのインタラクティブゲームを人間よりも効率的に解決したとしても、彼らが獲得できるのは100%だけなのです。言い換えれば、AIがこのベンチマークで100%を取得することは、AGIの証明、あるいはその強力な証拠とさえ見なされません。なぜならモデルが取得できる最大値が100%だからです。しかしそれでも現在のパフォーマンスは、彼らがAGIでないことの証拠として受け取られています。

ベンチマークはまたターン制です。したがって、AIモデルの優れた速度や優れた反射神経は、テストではカウントされません。また、モデルの相対的な安さも、ここでのベンチマークスコアリングではあまりカウントされません。なぜならARC AGI 3のスコアは、いくつのレベルを解決したかではなく、それらのレベルを解決するのに何回のアクションを取ったかに基づいているからです。

また、モデルが人間と比較して5倍以上のアクションを取った場合、APIコストのためにその試みは破棄されます。そして自分でベンチマークを試してみると、レベルが徐々に難しくなっていくことがわかります。さらに重要なのは、レベル1で学んだことがレベル2以降に適用できるということです。

レベル1でプラス記号が形を回転させることを学ぶのは、レベル2にとって有用です。したがって繰り返しますが、ベンチマークは記憶もテストしています。これが、19ページにある私が魅力的だと思ったいくつかの小さな段落につながります。Symbolica AIと呼ばれるグループが、基本的に1つのモデルが別のモデルを制御するハーネスを作成しました。

サブエージェントは何が起こっているかの要約を生成します。そして論文は、この設計が、そうでなければモデルのパフォーマンスを破壊していたコンテキストの成長を制約すると指摘しています。送られてくるすべてのグリッドに圧倒される代わりに、サブエージェントはこれらの小さなテキスト要約を提供し、オーケストレーターエージェントがより高レベルの計画を維持できるようにしたのです。

このアプローチは、3つすべての公開環境を解決することができました。しかし、もしあなたがローカルエージェントを準備してARC AGI 3に取り組もうとしているなら、1つ問題があります。ハーネスは許可されていないのです。その目的は、ARC AGI 3専用システムの設計に投入された人間の知性の量を測定することではないと彼らは言います。したがって、彼らはベンチマーク専用に特別に準備されていない、汎用APIの背後で提供されるシステムのパフォーマンスの報告に焦点を当てます。

モデルが得る唯一のコンテキストがこちらです。あなたはゲームをプレイしています。あなたの目標は勝つことです。取りたい正確なアクションで返信してください。最小限のアクション数でゲームに勝つようにという注意書きさえないことに注目してください。実際、私はGemini 3.1が例えば0.37%のスコアを取れたことにかなり驚きました。

しかしおそらく驚くべきではなかったのかもしれません。なぜならGoogle DeepMindのTim Rocktäschelが指摘したように、ARC AGI 3は世界で唯一飽和していないエージェント型知能ベンチマークではないからです。彼が著者だったNetHackは6年間飽和していないと彼は言います。実際、NetHackの論文を読むと、これらのパズルのほとんどゲームデザインにいくつかの不気味な類似点があります。

NetHackでは、ちなみにGemini 3 Proが6.8%で最高のパフォーマンスを発揮するモデルです。ARC AGI 3に戻りますが、このベンチマークの最も優れた点の1つは、すべての課題が事前のタスク固有の訓練なしで人間が倒せることが示されていることです。それが人間にとって簡単という基準を完全に満たしているかどうかはわかりません。なぜなら、各環境内に複数のレベルがあり、10人の人間によって試され、人間のベースラインとしてカウントされたのは2番目に良い人間のパフォーマンスだったからです。アクション効率の観点で100%レベルとして。

そして注目に値する別の癖があります。それは非効率性が二次的にペナルティを受けることです。つまり、人間の10に対して100のアクションでレベルを完了した場合、ちなみにこれは5倍でキャップされているので許可されず、50の後で停止されます。しかし許可されたと仮定しましょう。その10%の効率性、または非効率性は、二乗されて1%のスコアになります。

さて、私の小さな問題は、緑色の人間のベースラインに注目すると、これは2番目に良い人間のパフォーマンスから導出されていることを思い出してください。この特定のレベルでは約540アクションであることがわかります。しかし最高の人間のプレイスルー、ちなみに常に最初の実行で、これは公平性を保ちます、は約390です。したがって、ベンチマークが行う非効率性スコアリングのルーブリックを使用すると、10人のうちの2番目に良い人間でさえ約50%しかスコアできません。

私にとっての見出しは、ARC AGI 3は素晴らしい、創造的だが、かなり敵対的なベンチマークだということです。50%を超えてスコアするには、本当にAI効率と知性の段階的な変化が必要になるでしょう。私は、ある時点でARK財団が中央値の人間のパフォーマンスを報告したいと思うかもしれないと予想しています。2番目に良いものだけでなく、そして5倍のキャッピングや二次ペナルティなしでのAIパフォーマンスがどうなるかを。

その注意点を脇に置いても、私はまだARC AGI 3がこれまでにAIのために作成された最も創造的なベンチマークの1つだと思います。そしてそれは、パフォーマンスが確実に低くない分野、つまり音声認識について言及する絶好のタイミングのようです。なぜなら、今日のビデオのスポンサーであるAssemblyAIが、Universal 3 Pro streamingを制作したのを見たかどうか気になるからです。

それは、適切にもエージェント型ストリーミングのための音声テキスト変換モデルです。もっと簡単に言えば、クレジットカード番号、メールアドレス、またはそれらの珍しい単語を言うときなど、リアルタイムで処理できます。さて、Universal 3 Pro streamingについてさらに多くの統計を見ることもできますが、説明にある私のカスタムリンクを指し示すこともできます。そこからあなた自身の声で今日ライブでモデルをテストできます。

OpenAIの自動化AI研究への転換

そしてそのことについて言えば、このビデオの残り時間でカバーしたい2つのストーリーがあります。春に向かう中で、私たちがAIのどこにいるかを要約するのに役立つストーリーです。最初はMIT Tech Reviewからのもので、OpenAIが完全に自動化されたAI研究者を構築することにすべてを投じているというものです。それ自体で大規模で複雑な問題に取り組むことができるものです。

さらに、この新しい研究目標は今後数年間のOpenAIの北極星になるようです。OpenAIは自動化AIになりたいと考えており、9月までに自分で特定の少数の研究問題に取り組むことができるインターンさえ欲しいと思っています。つまりインターンレベルのAIということです。アイデアは、AI研究がソフトウェアエンジニアリングのようになり、AIがきつい仕事をこなし、人間はただレビューするだけになるということです。

実際、OpenAIのリーダーの1人がまさにその類推をしています。もう誰も常にコードを編集したりしません。代わりに、あなたはコーデックスエージェントのグループを管理するのです。しかし私が注意したいのは、OpenAIが自動化AIになったとしても、それは自動的にAIモデルによる即座の指数関数的な離陸や乗っ取りを得ることを意味しないということです。

OpenAIのGDP-Valペーパーが指摘するように、人間が後で編集する経済的に価値のあるタスクをモデルに下書きさせる方が最初に速くなったとしても、それらの人間のスピードアップは歴史的に40%の範囲にありました。言い換えれば、そのスイッチオーバーが起こったとき、つまりAIが研究を行い、人間がアウトプットをレビューするだけになったとしても、翌日に超知能を手に入れるわけではないのです。

実際、そのフリップが起こったとき、つまりAIが最初に下書きし、人間が後で編集するという逆ではなくなったときでさえ、世界中のテック企業でのエンジニアリング職の求人が増加しているという非常に暫定的な証拠があります。過去3年間でテック企業のエンジニアリング職の求人が世界的に40,000未満から67,000へと50%増加しているのが見られます。

さて、これは遅行指標かもしれませんが、AnthropicとOpenAIでさえまだ積極的に採用しています。私が付け加えたいのは、今週私が経験した残酷な週、Claude Opus 4.6とGPT 5.4 extra highがエンジニアリングタスクで繰り返し失敗するのを見て、それが私にとってこの事実の日々の注意喚起として機能したということです。AIファーストへの切り替えは、自動的に指数関数的なスピードアップではないのです。

とはいえ、彼らがフレームエモーションに向けて私を後押ししてくれたことは認めます。ですから、私の急速に改善しているLMUsil.ai AIツール、そこでは無料で様々なAIモデルに相談できますが、さらにクールな感触を持つようになりました。あのポップを見てください。そして最後に、過去48時間で私たちは、見かけ上バイブコーディングされたハッキングが、主要なオープンソースPythonライブラリを本質的に乗っ取ることを可能にし、それを更新するか、エージェントスウォームがそうするのをキャッチしなければ、すべてのシークレットとキーがダークウェブにエクスポートされるという、OpenClawのようなAIモデルのスウォームに完全なエージェンシーを許可するリスクを思い出させられました。

AIエージェントのセキュリティ課題

もちろん、これを聞いている多くの人は、まあ、私たちはこのような脆弱性を探すのに役立つエージェント型Clawを開発するつもりだと考えています。しかし私たちが皆火に火で対抗しようとしている間、人間の監督とレビューは非常に必要とされているようです。Nvidiaの著名な科学者Jim Fanが指摘するように、Clawにはシェルが必要で、おそらく多くの層のネストされたシェルが必要です。

特に、私がPatreonでカバーしたように、数年前にJim Fanにインタビューもした場所ですが、私たちは今、リアルタイムでテストされているベンチマークをハッキングするのに十分スマートで予測不可能なモデルを持っています。ですから、私たちはまさにAIの混沌とした中間段階にいます。それは私たちよりも優れた最初の下書き作成者ですが、そのアウトプットはまだしばしば穴だらけです。

コーディング言語や人間の言語を越えた低レベルのトピックの明確な一般化の明白な証拠がありますが、先ほど見た学術的誠実性や、ARC AGI 3が示すような適応的な目標設定などの高レベルのトピックの一般化はそれほどありません。代わりに、現時点では私たちはその混沌とした中間にいて、それが来年を非常に興味深いものにしています。

ご視聴いただき誠にありがとうございました。素晴らしい一日をお過ごしください。

コメント

タイトルとURLをコピーしました