O3は本当に役に立つ

AGIに仕事を奪われたい
この記事は約10分で読めます。

5,427 文字

o3 Is Really F***ing Useful
OpenAI has just released o3 and o4-mini, its most advanced reasoning models to date. These models blend image and text r...

AIデイリーブリーフへようこそ。今週のAI業界の大きなニュースは、水曜日にOpenAIが発表した新しい推論モデルであることは明らかです。OpenAIはO3とO4 Miniをリリースしました。O3は彼らの最も先進的な推論モデルである一方、O4 Miniは価格、速度、性能のバランスが取れた選択肢として紹介されています。さらに、O4 Mini Highと呼ばれるO4 Miniのハイリソースバージョンもあります。OpenAIの伝統である「完全に明確な名前」の傾向は続いているようですね。
この新しい推論モデルのバッチでは、Oerファミリーにいくつかの新機能が導入されています。まず、モデルは推論プロセスに画像を統合できるようになりました。GoogleのGeminiのようなマルチモーダルモデルでは既に同様の機能が創発的特性として現れていましたが、OpenAIが推論モダリティの限界を押し広げるのは今回が初めてです。OpenAIはVentureBeに「これらのモデルは単に画像を見るだけでなく、画像を使って思考します。視覚的・テキスト的推論を融合させた新しいクラスの問題解決が可能になります」と語りました。
もう一つの大きな改善点は、新しいモデルが一般的なツールにネイティブに訓練されたツール使用能力です。同社は「強化学習を通じてツールの使い方だけでなく、いつ使うべきかを判断する推論についても教え込みました」と書いています。グレッグ・ブロックマン社長は「これらのモデルは実際に難しい問題を解決しようとする際、思考の連鎖の中でツールを使用します。例えば、O3が非常に難しいタスクを解決しようとして600回ものツール呼び出しを行うのを見たことがあります」とコメントしています。
これはエージェント機能において大きな飛躍を意味する可能性があります。任意の状況に適したツールを見つける能力は、エージェントにとって最大の鍵となるものの一つであり、最終的に完全に自律したエージェントを実現するために非常に重要です。現在、エージェントの最も一般的な失敗状態は、ツールを使うべき時を認識できないか、適切にツールにアクセスできないかのどちらかです。
新しいモデルのリリースには、何を意味するのか、どれだけ気にすべきなのかよくわからないベンチマークの大量の結果が付きものですが、ツール使用能力はここでも示されています。例えばO4 Miniは、Pythonインタープリターへのアクセスを与えられた場合に、Aimeme 2025数学コンペティションで99.5%のスコアを獲得しました。より広い意味では、OpenAIはO3が標準的なコーディング、科学、エージェントタスク全般で最先端のベンチマーク結果を達成していると主張しています。しかし、以前から私が言っているように、ベンチマークの課題を考えると、人々が実際にこれらのツールで何をしているかを見る方がはるかに重要だと思います。
VoxのFuture Perfectのケルシー・パイパーは、O4 Mini Highが彼女自身の「幻覚と複雑な推論に関する個人的な秘密のベンチマーク」を通過した最初のモデルだと述べています。彼女のテストでは、複雑な中盤のチェスボードの入力と「1手でメイト」というプロンプトを提示します。ただし、1手でチェックメイトする方法は存在しません。AIモデルはこの種の広範なチェスパズルで訓練されていますが、必ずしもこうした引っ掛け問題が訓練セットに含まれているわけではありません。パイパーは、以前のテストでモデルが何千もの可能性を検討した後、解決策を幻覚することを示していたと述べています。これは一般的に盤面に余分な駒を追加したり、違法な手を含めたりすることになります。そして、モデルは幻覚した解決策が正しい理由を長々と正当化します。
彼女はこれまでにすべてのClaudeモデル、Gemini 2.5 Pro、GPT-3 Mini High、Grok 3でこのテストを実行しましたが、解決策が不可能であることを理解したものはありませんでした。なぜこれが重要なのでしょうか。「私がこの問題を考案したのは、AIの可能性と限界の核心に迫るものだと思うからです。自分の前提を疑問視できないAIは常に制限されますし、自分の間違った答えに固執するAIも同様です」と彼女は指摘しました。
推論の過程は8分間続き、他のどのクエリよりもはるかに長かったと彼女は述べています。「これは間違いを犯したり解決策を幻覚したりする可能性のある場所がたくさんあるということです。解決策があるという期待は非常に強かったですが、それを克服しました」。ただし最後に「その説明にはまだいくつかのチェスの不正確さが含まれていました。確かにこれらを完全に信頼することはできませんが、継続的に改善されていることは間違いありません」と付け加えました。
さらに熱心な支持は経済学者のタイラー・カウアンから寄せられました。彼は「真剣に言って、これはAGIだと思います。たくさんの質問をしてみて、自分がAGIにどれだけ賢くなることを期待していたのか自問してみてください。私は過去にAGI(どう定義するにせよ)はそれ自体が社会的な出来事ではないと主張してきました。それを適切に使いこなすにはまだ長い時間がかかるでしょう」と書いています。
ベンチマーク、ベンチマーク、ブラブラ…もしかしたらAGIはポルノのようなものかもしれません。見ればわかるんです。そして私は今それを見ました。旅行のため、通常ならやるはずのO3との対話は今週はあまりできていませんが、私は絶対に100%タイラー・カウアン陣営にいます。必ずしもO3がAGIだということではなく、それは重要ではないということです。これらのモデルは私にとって、O1や以前使っていたものと比較して絶対的な段階的改善を遂げています。ビジネスの思考パートナーとしてテストしていますが、推論ははるかに徹底的で、はるかに興味深く、全般的に優れています。
実際、Super Intelligent内の全員にO3をほぼすべてのことのブレインストーミングパートナーとして使うよう「要求」(基本的には要求しました)しています。それほど良いものだと本気で思っています。これらのモデルの最良の使用事例が正確に何であるかを理解するには、まだ時間がかかると思いますが、私のように全ての同僚に今後すべてのビジネスやりとりでそれを使うよう要求する人が増えれば、きっとより早く理解できるでしょう。
人々が非常に早く飛びついた一つの使用事例は、O3が地理的位置特定(ジオグ)に驚くほど優れているということです。風景や建物の写真を基本的に与えると、モデルはその位置を地図上で特定できます。Xのヘンリーは「10年前なら、CIAはこれを手に入れるためなんでもしたでしょう。すべての人間に知的なスーパーウェポンが渡されたのです。ますます奇妙になっています」と書いています。
まだ試す機会がなかった方は、このモデルを試してみることを強くお勧めします。特に何か特定のことをしようとしていなくても、現在考えているどんなビジネス上の質問でも聞いてみてください。思考や協力のパートナーとして使い、過去のモデルとどれだけ違う感じがするか体験してみてください。もちろん、新しいおもちゃの最初の数日の輝きの中にいて、実際にはそれほど違いがないという可能性はありますが、そうではないと思います。
O3とO4 Miniのリリースに完全に影を落とされましたが、OpenAIは月曜日に非推論モデルファミリーの新しいアップデートも発表しました。GPT-4.1はGPT-4oの後継機となり、APIを通じて開発者が利用できるようになりました。GPT-4.1ファミリーには3つの異なるサイズがあり、フルサイズモデルと並んでMiniとNanoバリアントが用意されています。OpenAIによると、Nanoバージョンは彼らの最小、最速、最も安価なモデルになるとのことです。
もう一つの大きな更新点として、これらのモデルは100万トークンのコンテキストウィンドウを持ち、Googleが最近リリースしたGemini 2.5 Proと一致しています。以前議論したように、超長いコンテキストウィンドウは特にコーディングアシスタントやエージェントにとって重要で、ユーザーがモデルに完全なコードベースを投入したり、より長いエージェントワークフローを実行したりすることができます。GPT-4.1は明確にコーディングユースケースを対象としているようです。
OpenAIの広報担当者は「開発者が最も気にする分野での改善のために、直接のフィードバックに基づいてGPT-4.1を実際の使用のために最適化しました。フロントエンドコーディング、余分な編集の削減、形式の信頼性の高い遵守、レスポンス構造と順序の厳守、一貫したツール使用などです。これらの改善により、開発者は実際のソフトウェアエンジニアリングタスクにおいてかなり優れたエージェントを構築できるようになります」と述べています。
少なくとも、これはOpenAIが非常に積極的に価格で競争していることを示しています。OpenAIのポストトレーニング研究リードであるミシェル・ポカスは「すべてのタスクが最高の知性や最高の機能を必要とするわけではありません。Nanoはオートコンプリート、分類、データ抽出、あるいは速度が最大の関心事である他のあらゆる場合の作業馬モデルになるでしょう」と述べました。
起業家のポール・ゴシエは、今週のリリースはその部分の総和以上のものであると指摘し、「O3 Highを設計者として、GPT-4.1をエディターとして使用することで、Aderポリグロットコーディングベンチマークで83%という新しい最先端を達成しました。また、O3 Highだけを使用した場合と比較してコストも大幅に削減されました」と投稿しています。
コーディングといえば、このショーでずっと話題にしてきたのは、しばらくの間、AnthropicのClaudeが開発者にとって最初の選択肢だったということです。しかし、OpenAIはその戦いを決して諦めておらず、これらの新しいモデルと共に、新しいコーディングエージェントもリリースしました。サム・アルトマンは「O3とO4 Miniはコーディングに超優れているので、それらをより簡単に使用できるようにするために新製品Codex CLIをリリースします。これはあなたのコンピュータで動作するコーディングエージェントで、完全にオープンソースであり、今日から利用可能です。急速に改善すると予想しています」と投稿しました。
オープンソースであるため、当然ながら、OpenAIエコシステム外のモデルも利用できるフォークが既に存在します。最初の反応は良好なようです。グービーは「Codex CLIをO3で使ったら、1時間で約150インタークンを使ってしまった。今からO4 Miniに切り替えるLMAO」と述べています。
とはいえ、O3は優秀で、いくつかの長年の問題を修正しました。ラシャド・シュラバストは「Codex CLIの印象は今のところイマイチです。Claude Codeはまだずっと優れています。O4 Miniを使ったCodexは、特に指示された場合、微妙なバグを修正するためのワンショット単一ファイル編集に素晴らしいです。イテレーションやコンテンツの保持、マルチファイル編集には普通です。ドキュメント作成やコードベースの説明には最悪です」と書いています。
今のところClaudeは安堵のため息をつけるかもしれませんが、OpenAIがその分野で競争したいと考えていることは非常に明らかです。これは水曜日にBloombergがOpenAIがWindsurfを買収しようとしていると報じたことからも裏付けられています。Windsurfはおそらく最も有名なCursorの競合相手で、8月には12.5億ドルの評価を受け、今年初めには30億ドルの評価で資金調達を検討していたと報じられています。報道によれば、OpenAIは30億ドルでの買収を検討していますが、情報筋によるとこの取引はまだ確定しておらず、破談になる可能性もあるとのことです。
なぜCursorを直接買収しないのかと思うかもしれませんが、サム・アルトマンもそれを考えたようで、主要なエージェントコーディングプラットフォームを買収するために2回の試みを行いました。1回は昨年末、もう1回は今年初めです。実際、CNBCの情報筋によると、OpenAIはWindsurfとの契約を見つける前に、AI分野のコーディングドメインで20社と会談したとのことです。
全体として、OpenAIにとって非常に忙しい週でした。そして他の状況であれば注目に値したかもしれない話題を半ダースほど無視しています。今は、O3を試してみて、O4 Miniも試してみてくださいという強い直感を残しておきます。これらは本当に異なる品質のモデル、異なる品質の体験であり、異なるタイプの使用事例を開くと思います。とりあえず今日のAIデイリーブリーフはこれで終了です。

コメント

タイトルとURLをコピーしました