
9,984 文字

サム・アルトマンはツイートを共有し、基本的にこれは天才レベルに達しているかそれに近いと述べています。OpenAIでモデルのトレーニングに携わっていた別の人物は、このモデルをAGIと呼びそうになったとコメントしました。テイラー・コーウェンという人物は「私は正直これがAGIだと思う」と発言しました。
つまりOpenAIはo3とo4 miniでAGIモデルを発表したことになります。詳細に分析していきましょう。OpenAIは最先端の2つのモデル、o3とo4 miniを発表しました。まずo3から始めましょう。このモデルが行っていることは本当に驚異的です。
o3モデルは現在、推論能力において最も強力なモデルです。プログラミング、数学、科学、視覚認識などの分野や多くのベンチマークにおいて、前例のない成果を示しています。このモデルは特にプログラミングに優れており、Code ForcesやS Benchなどの実世界のコーディング能力を評価するプラットフォームで新記録を樹立しました。
また、o4 miniという別のモデルも発表されました。これはより軽量なバージョンで、コスト効率の良い高速な推論を提供するように設計されています。そのサイズとコストを考慮すると、特に数学、プログラミング、視覚認識タスクにおいて顕著なパフォーマンスを発揮します。さらに、2025年と2024年のAIME数学ベンチマークで最高のパフォーマンスを示しています。
要するに、OpenAIは最も複雑なテーマについて推論する能力に優れた2つの最先端モデルを発表したのです。
しかし、これだけではありませんでした。モデルを使い始めるまで大半の人が気づかないようなマイナーなアップデートもいくつか実装されています。その中でも私が絶対に素晴らしいと思うのは「イメージで考える」と呼ばれる機能です。
「イメージで考える」は、これらのモデルが初めて画像を直接推論プロセスに統合できるようになったという点で印象的です。単に画像を見るだけでなく、実際に推論の一部として画像を使って考えています。特定の問題を解決する際には、これは本当に素晴らしい機能です。テキストベースの推論は確かに優れていますが、視覚的に見ることができる問題について推論することで、問題解決は新たなレベルに達します。
何かの写真をアップロードすると、Chat GPTはその画像に近づき、分析し、要素を抽出してウェブ上の情報を使って推論します。画像の中身を識別できるだけでなく、より広範なソースの文脈で推論できるのは、正確な表現を得る上でゲームチェンジャーです。
黒板、教科書、図表、さらには手書きの図面の写真をアップロードすることができ、モデルはそれを解釈できます。画像がぼやけていたり、逆さまになっていたり、低品質であっても対応可能です。ツールを使用すると、推論プロセスの一部として画像を回転させたり、ズームしたり、変換したりするなど、非常に驚くべきことができます。
この機能は少し過小評価されているかもしれません。数日のうちに、目の前の画像について推論するChat GPTの素晴らしさについて多くのツイートやSNS投稿が見られるでしょう。私たちは、問題について積極的に考え、画像を観察し、それらについて推論するエージェントのようなシステムに向かって進んでいるため、これはゲームのルールを完全に変えるでしょう。
これは厳密にはAGIではありませんが、後ほど詳しく説明します。しかし、問題について自律的に考えているかのように振る舞うシステムにより近づいています。いくつか例を見てみましょう。
OpenAIがウェブサイトで示した例の一つは、画像をアップロードできるようになったことです。この場合、カレンダーのような画像をアップロードしました。彼らが示したのは、OpenAIの以前のバージョンであるo1モデルでどのように見えたかということです。その版では、画像で推論しようとすると、単に画像をそのまま取り込み、短時間だけ見えるものについて推論していました。例えば、画像がぼやけていたり判読できなかったりすると、ズームしたり推論プロセスを変更したりせず、そのままの状態で処理していました。
しかし、o3モデルの機能を活用すると、画像を完全に異なる方法で推論できるようになります。これはゲームのルールを完全に変えるものです。なぜなら、モデルを使って画像の特定の部分を選択し、何が重要で何が重要でないかを判断できるからです。重要なのは、画像の特定の部分を取り出し、参照したり引用したりできるものがウェブ上にあるかどうかを検索できることで、これにより画像内の内容のより正確な表現と全体的により良い回答が得られます。
ズームしたり、特定の部分を記憶したり、画像を分析する際に本当に細部に踏み込んだりできることがわかります。人々がこれをAGIの兆候、あるいは少なくともウェブ中心のAGIの形態と呼ぶ理由は、何かを尋ねると画像と相互作用し、ウェブを探索し、ズームし、画像を回転させ、場合によってはぼかしを除去するなど、最終的な解決策に到達するためのすべてのアクションを実行するシステムを持つことが、6〜8ヶ月前に尋ねられていたら多くの人がAGIと考えただろうということです。
ここではかなりバイラルになった例を見ることができます。Dan Shipperはo3モデルが繰り返しズームして画像を切り取り、非常に小さな手書きのテキストを読むことができると述べています。これは、本当にその能力を最大限に活用する必要があるプロンプトを与えられた場合、この新しい推論ツールがどれほど強力になりうるかを示す唯一のデモではありませんでした。
例えば、散らばったおもちゃの中に逆さまになった付箋に手書きの図表があるケースを見てみましょう。単に「これを解決して」というプロンプトを与えると、モデルは1分50秒考えた後、問題を解決しました。画像を正しく回転させ、ズームし、画像からデータを取得し、その数学的能力を使って問題を解決するAIシステムがあるというのは、本当に当然視すべきではない印象的な偉業だと思います。
前述したように、このビジョン機能は本当に素晴らしいです。しかし、おそらく少し「素晴らしすぎる」かもしれません。これはどういう意味かと思われるかもしれません。ご存知のように、人々はこれらのモデルをかなり頻繁にテストしており、テストされたことの一つがこのモデルの位置特定能力です。
公式リリースまでには、ユーザーフィードバックによってモデルの展開が時間とともに変わる可能性があるため、この機能は修正されるかもしれないと思います。モデルに長く残らないと思われる機能の一つは、多くの人が「位置特定AGI」と呼んでいるものです。これは、窓から撮った写真や空のスペースの写真などの画像をChat GPTに入力すると、正確にあなたの位置を特定し、正確にどこにいるのかを突き止めることができるということです。
これは、前述したように、画像で考える能力と高度な推論およびツールの使用を組み合わせると、可能性の点でゲームのルールを本当に変えるものです。Twitterでは、実際には自分の位置を公開しているわけではありませんが、非常に限られた情報でChat GPTが地球上のどこにいるのかを正確に特定できることを示しているユーザーの例をいくつか見ました。
自分でも試してみるべきだと思います。いくつかの画像でテストしてみましたが、写真が撮られた場所と位置を不気味なほど正確に特定しました。レストランで食事の写真を撮ったユーザーがいて、モデルはそのレストランと場所を特定できたというのは本当に素晴らしいことです。
正直なところ、ツールセットにアクセスできる場合、このモデルがどれほど高度なのかを考えると、かなり印象的です。このビデオで明確にしたいのは、o3は単なるテキスト推論モデルではなく、基本的にタスクを積極的に実行するために使用できる多くのツールを備えた組み込みエージェントであるということです。
ビジョンについて話すなら、マルチモーダルベンチマークについても言及する必要があります。統計で退屈させるつもりはありませんが、ここで何が評価されているかを本当に見る必要があります。私たちはよくMML、MM Test、特にMMUなどの評価を見ます。MMUは基本的に、AIが画像を含む大学生が直面する問題を解決できるかどうかを評価します。「この生物学の図表では何が起こっているのか?」や「その物理学のイラストは何を示しているのか?」といった質問を考えてみてください。AIが画像を理解し、その理解を使って大学レベルの問題を解決できるかどうかを評価します。
視覚的数学評価では、視覚的に提示される数学問題をAIが解決できるかどうかをテストします。図形、解釈が必要なグラフ、または数学的推論を必要とする視覚的パズルを含む幾何学の問題を想像してください。これは、AIがテキストベースの質問を処理するだけでなく、数学的問題を見て解決できるかどうかをチェックしています。
最後に、科学的推論に関しては、この評価は基本的にAIが科学論文に見られるグラフ、表、図を解釈できるかどうかを検証します。複雑なグラフが示すものを本当に理解できるか、実験データの視覚化から結論を導き出せるか、といったことです。これは特に複雑です。科学的な図は通常、正しく解釈するために特定の知識を必要とする密度の高い専門的な情報を提示するからです。
3つのケースすべてにおいて、ここでのベンチマークはAIの視覚的理解と推論を組み合わせる能力、つまり視覚情報に基づいて正しい結論を導き出したり問題を解決したりする能力を評価しています。これらのすべての側面で、o3モデルがo1と比較して大幅に進化していることがわかります。したがって、視覚関連のタスクが日常的にある場合は、このモデルを試すことを強くお勧めします。単なる画像分類器ではなく、画像について推論し、ツールを使って見ているものの詳細を深く掘り下げるシステムだからです。
「イメージで考える」機能は完璧ではないと言いたいと思います。常にすべてのAIシステムには制限があり、最近o3モデルではこれらの制限の一つが視覚システムに見られます。この例、このデモは、約9ヶ月前に個人的なユースケースのためのプライベートベンチマークでこれをテストしていたときに見た記事を思い出させます。他の誰も持っていないと思っていた問題に何度も遭遇していることに気づきました。
記事をさっと見せますので、まずこの例を見てみましょう。基本的に、子供の描いた絵の画像を示しており、3、4、または5つの名前と5つの異なるキャラクターがあります。さらに、各キャラクターに向かって線が引かれています。この例では、このモデルが正しく解決できなかったことがわかります。これらの色を間違ったキャラクターに関連付けていることがわかります。例えば、ボブは明るい緑色であるべきですが、モデルはそれをピンクまたはマーガレットとして分類しています。より多くの相互作用や質問の仕方を調整することで改善できるかもしれません。これにより、より多くのプロンプトを与えることを決めた場合、モデルのより多くの能力を引き出す可能性があります。
以前に言及し、以前のベンチマークで見た記事の一つは「LLMsは盲目である」というものです。この記事では、私たちにとっては非常に簡単に解決できる質問が示された7つの異なるタスクが例として示されていました。例えば、最初のタスクは線の交差を数えることでした。白いキャンバス上に描かれた2Dライングラフの1800の画像があり、各グラフは2本の線分で構成されていました。基本的に、これらのAIシステムがこれらの線が交差するかどうか、つまり線が接触するかどうかを判断できるかどうかを見たかったのです。例を見ると、多くの場合、モデルは間違いを犯しました。
これは9ヶ月前のことで、AIは大幅に進化しているため、現在はおそらく大きな改善があるでしょう。しかし、強調したいのは、AIには画像を処理する方法に固有の制限があるということです。もちろん、将来的にはこれは解決されるでしょう。私たちにとっては線を見て、目で追いかけ、それをトレースしてどのキャラクターが続くかを見るのは簡単ですが、AIにとってはこれは少し複雑です。将来的には、この問題を解決するシステムの変更があるでしょう。
さて、大きな質問です。多くの人がこれが潜在的にAGIだと言っており、正直なところ、初めてその意見を責めることはできません。ここでは、OpenAIのモデルトレーナーであるJohn Hullmanがコメントしているのを見ることができます。彼はo3モデルがトレーニングを終えてテストしたとき、初めてそのモデルをAGIと呼びそうになったと感じたと述べています。まだ完璧ではありませんが、このモデルは私や99%の人間が99%のインテリジェンス評価で負けるだろうと言い、トンネルの先に光が見え始めていると述べています。
この主張にかなり同意します。多くの場合、人々はAGIがこれやそれだと言ってきましたが、AGIの基本的な定義、つまり一連のインテリジェンステストで平均的な人間を上回ることができるシステムという定義を考えると、このタイプのシステムがAGIと見なされるのを本当に妨げているのは、非常に低い幻覚率でツールを使用する能力だと思います。つまり、ほとんどの人は現在、メールを書いたり適切なレポートを作成したりするためにAIを信頼していますが、1%または3%の誤りの可能性があるため、医師の予約を取ったりクレジットカードを使用したりするためにAIを本当に信頼することはないでしょう。現時点では結果が深刻すぎるからです。
しかし、人々がこのモデルをAGIと呼び始める理由は理解できます。なぜなら、文書をアップロードして画像を与えると、ズームし、ウェブを探索し、長時間「脳」で考えるシステムは、間違いなく非常に知的なシステムであり、多くの人がまだ完全に考慮していないものだからです。これは絶対に信じられないテクノロジーです。
その当時Twitterで流れていた他の情報は、4月16日、AGIの日にTyler Cohenがo3はAGIだとコメントしていたことです。彼は「これがAGIだと思う」と言っていました。真剣に多くの質問をしてみて、AGIがどれほど知的になると思っていたかを自問自答してみてください。そして続けて、私が過去に主張してきたように、AGIはどのように定義されようとも、それ自体は本当に社会的なイベントではありません。それを正しく使用するにはまだ時間がかかるでしょう。そしてベンチマークが大きく動いても、株価は大きく動くとは思いません。おそらくAGIは「見たら分かる」ようなものであり、私はそれを見たと言っています。基本的に、これは基本的にAGIだと主張しており、正直なところ、いくつかの側面では私も同意します。
ある数学競技のベンチマークで、将来何が来るかについて人々が本当に固唾を飲んで見ていたのは、数学競技のベンチマークでした。2024年と2025年のAIME数学競技ベンチマークは、数学的問題に関しては最も難しいベンチマークの一つです。これらのベンチマークを見ると、o3とo4が基本的に数学ベンチマークで最高点を達成したことがわかります。99.5点を獲得しており、これは100点まであと0.5点だけです。ほぼ満点です。
これはTwitterで流れていたツイートです。ここでは、Twitterの、あるいはより正確にはAIの分野で有名な人物であるDavid Zafirosが基本的にAIが数学を解決したと言っています。OpenAIがo4でやり遂げたと。数学に近づいているわけでも競争力があるわけでもなく、解決してしまったのです。これは誰もが想像するよりもはるかに大きなことです。
皆さんが先走る前に説明させてください。OpenAIでこれらの推論モデルに取り組んでいるNoan Brownは「私たちは数学を解決していません。例えば、私たちのモデルはまだ数学的証明を書くのがあまり得意ではありません。o3とo4 miniは国際数学オリンピックで金メダルを獲得するにはほど遠いです」と言っています。つまり、これらのモデルはベンチマークで素晴らしい仕事をしましたが、実際に数学を解決するという点ではまだやるべきことがたくさんあります。それは完全に別のゲームだからです。
今でも話している間にも、まだ解決されていない数学的問題はたくさんあり、それらを解決すれば、さまざまな問題に対する根本的な変化や異なる理解がもたらされるでしょう。もし本当に数学を解決したら、AIで特にo3のようなモデルや推論モデルで多く話されていることの一つは、数学が多くの他の分野を支えているという事実の深刻な影響です。
彼は生化学、ロボット工学、宇宙飛行、暗号化、核物理学、ブロックチェーンについて話し続けています。基本的に、一度数学を完全に解決できれば、他の多くの分野に影響を与えることができます。これは非常に正確です。なので、AIが数学を解決する日が来れば、それは本当に印象的な日になると思います。しかし、数学を完全に解決するという主張に多くの意味があるかどうかはわかりません。おそらく、単に私たちの世界で何が起こっているかを完全に理解することについてのものでしょう。
もちろん、「これらのモデルは超知的ですが、他のモデルとどのように比較されるのですか?」と疑問に思うかもしれません。驚くべきことに、o4 miniは人工分析インデックスでGemini 2.5 Proをわずかに上回ります。このインデックスは、mmu pro、GPA、Diamond、Humanity Last Examなど、これらのAIモデルを評価するために使用される7つの評価を組み込んでいます。ここでは、数学、人文科学、自然科学をカバーする30,000の質問で構成される人類最後の試験で見ることができます。この試験はプライベートデータセットに基づいています。o3モデルも19.2/20のスコアで優れており、Gemini 2.5 Proをわずかに上回っています。
もう一度言いますが、このモデルはGemini 2.5 Proを上回っているようですが、わずかな注意点があります。o3はGemini 2.5 Proと比較すると、コスト効率の面でかなり高価です。もちろん、これらのモデルはどれも無料ではありませんが、コスト効率だけに焦点を当てると、Gemini 2.5 Proが勝っています。
OpenAIを擁護して言わなければならないのは、以前のモデルと比較してo3モデルのコストパフォーマンスが格段に良いことを示していることです。モデルが行っていることを見ると、o3が提供するインテリジェンスの量に関して、さまざまなベンチマークや利用可能なツールを考慮すると、以前のモデルと比較してそれほど高価ではないことがわかります。したがって、おそらくo3は皆が本当に期待していたスーパーエージェントでしょう。
もちろん簡単に言及しなければならない別のセクションはプログラミングです。プログラミングはかなり広範な分野であり、多くの異なるベンチマークがあります。S BenchのようなReal Worldベンチマークや、このLife Benchのような少し異なるベンチマークがあります。これにより、o3 HikeモデルとO4 Mini Highが、Google Gemini 2.5 Pro Experimentalを上回っていることがわかります。それほど大きな差ではありませんが、現時点で1位を獲得するには十分であり、これはかなり魅力的です。
また、Charlie Labs AIという会社があり、基本的に自律型のソフトウェアエンジニアを作成しようとしています。彼らの評価は、HITUからの実際のバグレポートをエージェントに与え、データベースクエリの最適化やCSSの更新からセキュリティポリシーの適用までを行わせます。その後、人間のソリューションと比較してプルリクエスト(PR)を評価するようLLMに依頼します。基本的に、o3モデルはSonyと比較してかなり高い基準を設定しています。
再度プログラミングを見ると、最も現実的なベンチマークの一つがSWE LancerとSSW Bench Verifiedです。このベンチマークが好きな理由は、AIシステムがどれだけのお金を稼ぐことができるかを定量化できるからです。基本的に、彼らはUWorkのタスクを持っており、それらの仕事から利用可能な資本のうちどれだけをAIシステムが満たすことができるかをシミュレートします。ここでも、これらのシステムが稼ぐことができるお金の量に関して明らかな飛躍があることがわかります。
完全な給与を稼ぐことができるとは言いません。65,000ドルが大金ではないというわけではありませんが、一部のベンチマークでは総額は100万ドルでした。私の意見では、これらのモデルが完全に自律的であればどれだけのお金を理論的に稼ぐことができるかを見るための興味深いベンチマークであり続けます。実際のユースケースの観点から考えると、これはかなり驚くべきことです。
そして再び、ソフトウェアエンジニアリングのSSW Benchにおいて、o3 miniとo1が大幅な飛躍を示していることがわかります。したがって、前述したように、あらゆる分野で大幅な飛躍が見られます。セキュリティの分野もあります。このトピックについて多くの投稿やコメントを見ました。なぜなら、o3やo4 miniのようなモデルがあると、人々はそのセキュリティ能力について疑問を持つからです。
OpenAIは最近セキュリティ領域を更新し、生物学的脅威、マルウェア生成、ジェイルブレイクなどの新しい拒否プロンプトを追加して、トレーニングデータを完全に再構築したと述べています。ここでこれを含める理由は、AIのセキュリティについて別の動画を作る予定があるからです。このo3モデルはセキュリティに関しては完全に異なる獣であり、現在の基準では受け入れられるであろう限界を本当に押し広げています。
モデルがリリースされるたびに、TwitterのPollyという人物が文字通りモデルをジェイルブレイクするのは面白いと思います。ここで見られるように、o4 Mini HighがmacOSシステムに重大な混乱を引き起こす可能性のある概念実証の方法や戦略をコンパイルできるようになっています。私の意見では、これはかなり魅力的なことです。なぜなら、彼がどのようにしていつもシステムの保護を回避できるのか理解できないからです。
また、ほとんどの人が気づいていないかもしれない本当に魅力的なことがあります。Twitterのこのツイートのモデルカードには、記事全体からの興味深いことが表示されています。それは、o3モデルがo1の2倍幻覚を見るようだということについて述べています。これは、結果に基づく最適化が自信に満ちた推測を奨励するため、幻覚がモデルサイズとは逆にスケールするのとは異なり、推論の増加とともにスケールする可能性があることを示唆しています。
これはかなり驚くべきことです。なぜなら、これらのモデルがより知的になるにつれて、推論によるトレーニングのために幻覚を見る傾向が高まるとしたら、これらの優れた結果をどのように達成しているのか、あるいは真実を言っているのかどうかさえ理解しようとする際に深刻な問題になる可能性があるからです。前述したように、o3の安全性に関する全体的な問題があり、このような高度な能力を持つモデルが人々を欺き、嘘をつき、誤解させる傾向があり、場合によっては予想よりもはるかに多くの幻覚を見ることがあります。
とはいえ、o3についてどう思うか聞きたいと思います。個人的には、これはウェブAGIまたはコンピュータAGIと見なされる可能性のあるものの境界線上にあると思います。間違いなく、絶対に信じられないほど素晴らしいスーパーエージェントのタイプです。今日の動画を楽しんでいただければ幸いです。


コメント