o3 proは野獣だ…Appleの「思考の錯覚」テストを一発突破

この動画はOpenAIの新しいo3 Proモデルの能力について解説したものである。o3 ProがAppleの「Illusion of Thinking」論文で提示された困難な問題を一発で解決し、従来の推論モデルの限界を突破したことを示している。また、o3 Proは従来のチャットボットというより報告書生成システムとして機能し、複雑な問題に対して長時間思考した後に高品質な回答を提供する能力を持つことが紹介されている。

OpenAIから驚愕のニュース
Appleの「思考の錯覚」論文との対決
o3 Proによる見事な突破
より複雑な問題への挑戦
自己改善フレームワークの実装
新たな可能性への恐怖と期待
モデルの進化と複雑化
隠された機能と能力
ベンチマークを超えた真の能力
評価の困難さ
実際の業務での革新的成果
社会統合の新たな課題
結論：新時代の到来

OpenAIから驚愕のニュース

今日OpenAIから非常に大きなニュースが飛び込んできました。まず第一に、OpenAIがo3 Proをリリースし、それが私たちが不可能だと思っていたいくつかのことをすでに突破しているということです。同時に、元のo3の価格が80%下落しました。これは非常に大きなニュースです。つまり、これまで最高のモデルの一つだったものが、今やはるかに安価になったということです。

しかし、まずo3 Proを見てみましょう。何より先に、これらのモデルの使い方についての先入観を捨てる必要があります。このモデルは違うのです。まず第一に、これらの推論モデルのほとんどについて、チャットボットのような前後のやり取りというよりも、報告書生成器として扱いたいと思うはずです。

ここで見ることができるように、私が質問をして、それが回答されるまでにほぼ19分かかりました。では、ほぼ20分もかけて回答するのに、いったいどんな質問をしたのか疑問に思われるでしょう。

Appleの「思考の錯覚」論文との対決

最近Appleがリリースした「思考の錯覚」論文を覚えているでしょうか。この時点できっと聞いたことがあると思います。この論文は少しバイラルになりましたが、その中で彼らは様々な推論モデルに4種類のテストを与えました。

その一つがハノイの塔でした。これらの円盤を一度に一つずつ移動させるもので、どのように移動できるかには特定のルールがあります。しかし要点は、この塔を複製したいということです。左から始まって、右にそれを複製したい。そして円盤が多ければ多いほど、取らなければならない手数が増えるため、より困難になります。

ここに10円盤のハノイの塔があります。これを完成させるには1000手以上、正確には1,024手必要だと思います。非常に複雑です。この人がどうやっているのかわかりませんが、基本的に7分弱でやっています。

この10円盤のハノイ問題は、これらの推論モデルに提示された問題の一つであり、彼らは正しく答えることに失敗しました。ここで見ることができるように、ほとんどのモデルについて、困難なゾーンに入ると、ほとんどが0%の精度に近くなります。

前の動画で説明したように、この論文には多くの問題があります。具体的には、モデルが推論できないということではなく、おそらくコンテキスト長の問題に遭遇しているのです。しかし論文では、モデルをテストするために使用した正確なプロンプトを実際に提供しています。

o3 Proによる見事な突破

そのプロンプトがここにあり、私はそれを新しいo3 Proにコピー＆ペーストしました。10円盤版を使用して、19分間思考し、最適解が1,023手を使うことを理解し、ここで手順をシーケンスで示しました。最初の数手と最後の数手をチェックしましたが、正しいようです。これが正解です。合計1,023手で、最終的な駒を配置する手で終わり、それはペグ2にあります。

研究者たちは位置がゼロインデックスであると言いました。つまり、最初のペグが0、中間のペグが1、右のペグが2です。o3 Proはこの論文の問題を一発で解決しました。言わば「思考の錯覚」を粉砕したのです。

より複雑な問題への挑戦

私はまた、提示された他の問題もテストしています。再び高次の反復で、15人の俳優と15人のエージェントが船で川を渡ろうとしている問題です。どのエージェントも自分の俳優が他のエージェントと一緒にいることを望みません。なぜなら、そのエージェントが俳優を盗むかもしれないからです。

ここでの制約は、自分のエージェントも同席していない限り、船に乗っている間も含めて、俳優が他のエージェントの存在下にいることはできないということです。おそらくこのパズルのバリエーションを見たことがあるでしょう。まだそれについて考えているところなので、準備ができたら戻ってきます。

自己改善フレームワークの実装

しかし、それができることの一部は、私にぞっとするような感覚を与えています。「Agents of Change」という論文がありました。そこでは、これらの大規模言語モデルにカタンの開拓者をプレイさせることを教えましたが、それのための自己改善フレームワークを作成しました。

つまり、再び大規模言語モデルによって駆動されたエージェントもあり、それらが反復的にこのゲームをどれだけうまくプレイするかを改善しようとしました。これには、進化者、戦略家、コーダー、研究者、分析者などのエージェントが含まれていました。そしてゲームをプレイしていたAIプレイヤーです。

その全体の研究、その全体の論文をo3 Proにアップロードし、論文を読んで、基本的に再帰的自己改善アーキテクチャを再現する計画を提案してくださいと言いました。しかし、それを外交ゲームのために行ってください。これはEvery Ink’s AI外交ゲームでした。

13分間思考して、すべてを書き出しました。すべてが完璧に見えます。非常に賢いですね。ゲームプレイの弱点を読んで選ぶ別のエージェント、レポートを読んだり下書きしたりする分析者がいます。分析者は弱点と頻度によってランク付けされた各ゲームを要約します。これは論文のポイントを理解し、それを全く新しいゲームのために書き直しました。

実際にこれをどうやって行うかを書き出しました。リポジトリをフォークして、そのオリジナルのオープンソースプロジェクトの独自のコピーを作成して、そこから始められるようにし、ステップバイステップでこのプロジェクトの構築を開始する方法を教えてくれます。

最後に何と言ったと思いますか？「コードを書いて」と言いました。そしてそれをやったのです。15分21秒で、プロジェクトの内訳を作成し、なぜ30,000行のモノリスではなくスキャフォールディングなのかを説明し、その後、APIキーの追加方法を含む、それらのすべてを一行一行構築していきます。

新たな可能性への恐怖と期待

これは単なるスキャフォールディングなので、すべてのファイルを作成し、次のステップは実際にそれらのファイルの各一つ、それらのエージェントの各一つを構築し始めることです。もちろん、その時点で失敗する可能性があるので、まだテストしています。

しかし、もしそれがすべてを完璧にやり遂げたらどうなるかを考えると、少し恐ろしくなります。もしそれが、この機械学習論文を再現し、その概念を取り出して、人間がコードを書いたり、これらのものを構築したりする必要なしに、別のゲームに適用することに失敗しないとしたら？それはかなり大きなことのように思えます。

モデルの進化と複雑化

このチャンネルをフォローしてきた方なら、新しいモデルが出るたびに、私たちはそれをテストするためにいくつかのプロンプトを使用してきました。しかし時間が経つにつれて、それらのプロンプトは進化しなければなりませんでした。最初はかなりシンプルでしたが、時間が経つにつれて、これらのモデルがどんどん良くなるにつれて、複雑さが本当に急上昇しました。

そして今、私が全体のプロジェクトを再現し、マルチステップのプロンプトを使用し、それぞれが15-20分かかるのを見ています。このモデルについて理解すべき本当に大きなことは、これまでOpenAIで使用していたモデルとは違うということです。ドロップダウンメニューからモデルを選択して、このモデルやあのモデルとチャットしているという感じではありません。

これはAIシステムです。バックグラウンドで多くのツールを実行しており、その一部は思考の連鎖や小さな更新を追跡していない限り見ることさえできません。

隠された機能と能力

そのハノイの塔問題から、これがその思考プロセスから見える詳細です。見ることができるように、それほど多くの情報は提供されませんが、ここで「コメンタリーチャンネルでコードを下書きしています」と言っていることに注意してください。それが何を意味するのか、コメンタリーチャンネルがどこにあるのか知っていたら教えてください。コードが見えません。それは私たちから隠されているようです。

私たちがそれについて話している理由は、これがこのモデルについて理解すべき重要なことだからです。単なるモデルというよりも、バックグラウンドでツールを実行できる完全なシステムであり、必ずしも見ることさえできないものなのです。

o3 Proは、ChatGPTを有用にするツールにアクセスできます。ウェブ検索、ファイル分析、視覚的入力についての推論、Python使用、メモリを使用した応答のパーソナライズなどです。初期のユーザーテストでは、o3 Proがo3よりもほとんどのユーザーに好まれていることが示されています。ほとんどの場合でo3を上回っています。

ベンチマークを超えた真の能力

最新版のGemini 2.5 Proと似ているためベンチマークがそれほど印象的ではないと言う人もいますが、これらのベンチマークがここで行ったことを捉えているかはわかりません。このo3 Proは巨獣です。

これはおそらく私が見た中で最も良い記事の一つで、何が違うのかを説明しています。Latent SpaceのLatent.spaceからのもので、下にリンクを貼ります。「God is hungry for context: first thoughts on o3 Pro」というタイトルです。

これはRindrop.aiのBen Hilacからのもので、彼は言っています。私たちには4oのような素早い高速モデルがあり、それらとチャットできる。彼らは私たちの友達のようなものだ。そして純粋な知性の端を押し進める深い分析のために使用する巨大で遅く高価なIQ最大化推論モデルがある。

彼らは複雑な問題を撃ち抜き、批判に優れています。もしこれがいくつかのことを完全に完了できるなら、私は少し驚くでしょう。それが何を意味するのか、言葉で表現することさえできません。文字通り少しゲームを変えることになるでしょう。

鍵はそれとチャットしないことでした。報告書生成器として扱うことです。これはほとんどの推論モデルo3、o1について真実でした。タスクを与えて、それを理解させ、少し後で戻ってくる。それが彼がo3を使用する方法です。

評価の困難さ

しかし、ここにo3 Proを評価する問題があります。それはより賢い、はるかに賢いです。しかし、それを見るためには、はるかに多くのコンテキストを与える必要があり、私はコンテキストが不足しています。

私を驚かせることができる簡単なテストや質問はありませんでした。それはまるでこの巨大な巨獣が、その限界、その能力を真にテストするのに十分大きな問題、十分に複雑な問題を実際に必要としているかのようです。

その限界を押し進めることは、最初の試行で正当に困難です。このことは数時間前に出たばかりで、すでに思考の錯覚問題を解読し、他のものでも急速に進歩しています。最初からそれを困らせることは困難です。

あなたが尋ねるすべての小さな簡単な質問では、簡単な質問をすることでそれがどれほど良いかを見ることはできません。アインシュタインに2+2は何かと尋ねても、質問が簡単すぎるため、彼の知性レベルを測ることはできないかもしれません。

実際の業務での革新的成果

ここで彼らは続けて、Raindropでの過去のすべての計画会議の履歴とすべての目標、さらに音声メモの記録まで集めたと言っています。ちなみに、ChatGPTには今、会議を録音してくれて、会議議事録などを提供してくれる機能があります。試したことがなければ試してみてください。これは先週以内に出たと思います。

大量のコンテキストをアップロードした後、o3 Proに計画を立てるように求めました。私たちは驚かされました。それは、私が常にLLMに作成してもらいたかった正確な種類の具体的な計画と分析を吐き出しました。ターゲットメトリクス、タイムライン、優先すべきもの、絶対に切るべきものについての厳格な指示を含む完全なものでした。

o3の計画は妥当でした。より少ないo3は妥当で合理的でしたが、o3 Proが私たちに与えた計画は、実際に私たちの将来についての考え方を変えるほど具体的で根拠のあるものでした。

これは評価で捉えるのは困難です。これが私が話していることです。それはメトリクス、評価、ベンチマークには現れないでしょう。OpenAIのPaperBenchは、これらのAIが機械学習研究を複製する能力をテストする最も近いものだと思います。この怪物、この巨獣をPaperBenchに解き放って、どれほど大きなジャンプを起こすかを見てみたいです。

社会統合の新たな課題

彼は続けて、o3 Proを試すことで、今日のモデルが始まりと終わりのあるこれらの小さな離散的なタスクで本当に良いことを実感したと言います。彼らはそれらを本当に本当にうまくやります。私たちは簡単なテストが不足しています。

本当の挑戦は、それらを社会に統合することです。それはまるで、本当に高いIQの12歳が大学に行くようなものです。彼らは賢いかもしれませんが、統合できなければ有用な従業員ではありません。

あなたがチェックできるように、これへのリンクを残します。o3 ProとO3の比較があり、それは非常に異なります。昼と夜のように違いますが、コンテキストを与える必要があります。

あなたの最も難しい問題、多くのデータがある何かを与えてください。人々はまだStrawberryのRの数を数えるように求めています。私たちはそれを過ぎました。

結論：新時代の到来

これは、世界に解き放たれた非常に強力な能力を持つ印象的なモデルです。そして数時間以内に、もちろんPlentyがこのモデルを破ってジェイルブレイクします。とにかく、すべては順調です。

ちなみに、私はこの人にインタビューする予定ですので、Plentyへの質問があればコメントで教えてください。

すべてのテストを行うことができませんでした。なぜなら、この獣のようなモデルにとって本当に良いユースケース、本当に良いテストを考え出すのにどれほど時間がかかるかのためです。しかし、それは非常にまもなく来ます。そしてそれは一種の恐ろしい、または恐ろしく良いかもしれません。