OpenAI o3は完全なエージェントである

7,966 文字

In this episode, Chris and Jakob take the full ChatGPT o3 model for a spin, going through our usual suite of coding, bus...

こんにちは皆さん、The Feature Crewへようこそ。クリスマスが早く来ました。o3が登場しました。推論能力に大きな進歩があり、それをテストする準備ができています。果たして話題の通りの性能を発揮するでしょうか。ベンチマークは良好に見えます。ジェイコブ、何か背景を教えてもらえますか？
はい、OpenAIにとって大きな週になっています。彼らはO1シリーズのモデルに代わるO3バージョンと、o3 miniに代わる高速で低計算量ながら推論能力の高いバリアントであるo4 miniの両方をリリースしています。新しい、いわゆる現時点で最高のモデルをテストできることに興奮しています。
さて、ここにいます。予想通り、まずは惑星テストから始めましょう。さらに優れた惑星を生成できるか見てみましょう。かなり良い結果を期待しています。話題の通りの性能を発揮するか見てみましょう。
いつも通り大きなプロンプトを入力します。チャットにプロンプトのリンクを貼るので、自分でも試してみたい方はぜひどうぞ。基本的には、手続き的に生成された惑星を作るよう依頼しています。大気や雲、回転速度などの要素をコントロールし、単一のHTMLファイルとして出力するよう求めています。これは主にテスト目的ですが、モデルの性能が非常に良くなってきているため、HTMLファイルの限界に近づきつつあるかもしれません。
送信しましょう。実行中です。過去には、プロンプトへの忠実な対応をかなり見てきました。地形、大気、雲、水の生成が時々上手くいっていました。この高度なモデルと重厚な推論能力により、プロンプトに本当に忠実で、多くの機能を一発で実装できることを期待しています。
リクエストが完了しました。見てみましょう。おお！何かが起きています。とても興味深いです。地形に何が起きているのか、ピンク色が見えますね。ああ、これは海面レベルですね。わあ！
最初に気づくことは、水深のシェーダーが動作していることです。緑と青のグラデーションがとても興味深いです。そして明らかに動く影があります。これは雲でしょうか。雲の高さの設定がないので、追加してみましょう。そして大気も見てください！
かなり印象的な結果だと思います。ここまで来るのに少し時間がかかりました。多くはカットしますが、たくさんのプロンプトを実行し、毎回キャンバスを使おうとすると問題が発生しました。現時点での推奨事項は、o3でコードを書く場合はキャンバスを使わないことです。キャンバスは使わないでください。
しかしこれはかなり印象的です。間違いなく今まで見た中で最高の水のシェーダーです。大気にはいくつかの不具合がありますが、素晴らしいです。これまで見た中で最高レベルです。地形も素晴らしく見えます。
また、クリス、もし続けて見てみると、極点になるような目立つ部分はありますか？ないようですね。コードを見てみましょう。これらの成果物をアップロードしますが、ノイズをコードにマッピングするための実装が改善されているようです。
また、赤道についての概念も持っているようですね。山が上部ではグレーで、下に行くにつれてより豊かになっているのが分かります。その一部は高度によるものだと思いますが、明らかに座標に基づいたバイオーム割り当てを使用しています。
これは素晴らしい結果です。キャンバスで苦戦していたことを考えると、見られて嬉しいです。もう一つ言っておきたいのは、一時的なチャットでより良い結果を得たということです。これはこのテストを何度も与えてきた履歴があり、混乱しているからかもしれません。同様の問題に遭遇した場合は一時的なチャットを試してみてください。すべてをリセットしてクリーンな状態にするのに役立ちます。
しばらくo3について少し心配していましたが、この水とシェーダー、そして惑星へのノイズマッピング方法を見ると非常に励みになります。これまで見たことのないより良い結果が出始めています。特に水のシェーダーは驚異的です、本当に素晴らしいです。
これを改良していきましょう。フィードバックを与えて、どれだけ改善できるか見てみましょう。現在持っている画像を添付し、初期結果を見ていく中で気づいた問題点をいくつか指摘しました。
雲と大気の高さをより制御できるようにし、それらが確実に見えるようにレンダリング方法を更新するよう求めています。両方とも半分見えていましたが、完全には見えていませんでした。また、惑星全体をより興味深くするためにバイオームを増やすよう求めています。
送信しましょう。熱帯雨林、サバンナ…明らかにより詳細なバイオームを追加しています。シェーダーを記述していますね。地形生成は確実に良くなりました。より明確な山や丘を見ることができます。緯度に基づいたバンドも見えます。小さな砂漠が発生していて良いですね。
しかし雲はまだ完全に壊れているようです。何も起きていません。雲の高さを最大にしても、標高を非常に低くしても、海面レベルを非常に低くしても、バンドは超クリアに見えますが、雲がどこにあるのかわかりません。
興味深いですね。雲を失ってしまったようです。大気と雲をすべて機能させるというフィードバックにすべて従ったわけではありませんが、地形生成は改善されました。さらに押し進めましょう。
オンラインでアーティファクトを見つけて、雲を追加できるか試してみてください。チャンネルでこれまでもやったように、一人称視点に移行し、完全なゲームにするよう依頼します。木々や岩、資源を収集する能力を求めます。
正直なところ、思っていたほど自信がありません。これが崩壊してしまうのではと心配です。何かエラーがあるかもしれませんが、エラーを送信して完全なゲームになることを期待しましょう。
準備はいいですか？行きますよ。何かが起きています。ここに来ました。うわ、すごく速く移動します。木々が巨大です。わお！ただの浮かぶカメラのようです。おお！資源を収集しているようです。はい、収集しました。
少しフィードバックを与えましょう。何かしら動作するものを作り、一人称視点に移行しましたが、明らかにすべてがやや首尾一貫していませんでした。木々や岩が地形に接続されておらず、プレイヤーは地形と一緒に回転していませんでした。
最終的なコーディングテストの結論として、これらの改善を求めています。クリス、これが読み込まれている間、何か考えはありますか？
前に言っていたように、OpenAIがこれらのモデルが前任者よりも厳密に優れていると言っているのに、私たちが得ている結果は厳密に優れているわけではないのは少し奇妙です。多くの反復を経て、モデルを何度も方向転換させなければならず、それでも雲が適切に機能しているのを見ていません。過去にはモデルが雲を実装できたのを見てきました。
しかし、このモデルは過去のモデルでは見られなかったことを成し遂げました。最初のショットでほとんどの機能を完璧に実装し、クールな大気シェーダーと水シェーダーを実現できました。より多くの知性の兆しを見ていますが、厳密に優れているという点はこの特定のテストでは見ていません。
皆さんご自身のテストで何を見るか興味があります。ぜひコメントで共有してください。結果が出ました。見てみましょう。o3のコーディングの最終ショットです。何ができたか見てみましょう。
大気を修正しました。表面の上を歩いています。あれが雲です！雲ができました！木々はまだ適切に配置されていませんが、雲を修正しました。一人称視点からの大気は素晴らしく見えます。これは簡単なことではありません。
これは実際に構築できる何かになり始めています。o3の知性を本当に見始めています。完璧ではありませんが、本当にクールなことが起きています。
ビジネス推論テストに移りましょう。チャンネルの視聴者には馴染みがあるはずです。多くの情報を含む長いファイルがあります。これはDeep Researchの結果で、現在利用可能なモデル、エージェント、それらのベンチマークパフォーマンスについての大量の情報が含まれています。
ここでo3に依頼するのは、Serving Labsという架空の企業のアナリストになり、Deep Researchが収集したすべてのデータに基づいて分析を行い、予測を立て、そして最終的に、この架空の企業がモデルとエージェントに関してどのようなものを使用すべきか、そして将来に向けての戦略はどうあるべきかについての推奨事項を出すことです。
送信しましょう。最初に気づくのは、これが初期結果ですが、エージェントの分析も含めるよう指示したにもかかわらず、モデルに本当に集中しており、さらにそれは最新のモデルの一部だけです。
Deep Researchのデータを掘り下げてみると、ディープリサーチモードのo3は新しいモデルを見逃し、エージェントに関する分析の要求も見逃していました。
とはいえ、特定のエージェントフレームワークについて言及するなど、エージェントについていくつかの素晴らしい推奨事項を出し、エージェントアーキテクチャとモデル使用にまたがる非常に詳細な推奨事項を出しました。ここで知性の兆しを見ていましたが、欠けているデータと欠けている分析についての懸念がありました。
フォローアップのプロンプトを出し、特にOpenAIの最新モデルとエージェントに関する分析に特別な注意を払うよう依頼しました。その最終結果を見てみましょう。
ジェイコブが言ったように、「モデルだけでなくエージェントについても予測とチャートを作成してください。また、OpenAIの最新モデルを検索し、モデルチャートと推奨事項を更新してください」と言いました。
注目すべきは、上部に2分間考えたと表示されていますが、その思考時間中に13の検索を実行し、30のソースを引用したことです。これはディープリサーチがスタンドアロン機能としては消えるかもしれない場所です。ディープリサーチはo3の機能、あるいはディープリサーチのある種のバージョンになっています。研究と分析はそれを見る興味深い方法かもしれません。
これらの実際のチャートに移ると、最初のチャートは大幅に改善されています。これは素晴らしいストーリーを語っており、コスト対パフォーマンスをマッピングしています。これは非常に実用的で、最新のモデルがチャートの右上に集まっているのが見え始めています。これはまさに私たちが期待していたことです。
最大コンテキストウィンドウを見ると、これは以前と同じチャートですが、より新しいモデルについての情報が含まれています。古いモデルの大きな落ち込みが少なくなり、新しいモデルはコンテキスト長においてより大きな規模にあります。
エージェントのタスク成功率、新しいチャートができました！これははるかに詳細で、より実用的だと思います。見てみましょう。わあ、デボン、大敗北ですね！
このベンチマークがいつ取られたのか、デボンのどのバージョンか、どのモデルがバックにあったのかを調べる必要がありますが、これは非常に興味深いです。そして過去と予測されるエージェントのパフォーマンス、グラフ化しています。
どのメトリクスを選んだのか見てみましょう。最高クラスのエージェントタスク成功率です。それを時間の経過とともにグラフ化しています。これはかなり平滑化されたチャートですね。タスク成功率とは何か、どのタスクセットに対してなのかということですが、指示に従ってパフォーマンスをグラフ化し、それを将来に延長し、少し予測を行っているのを見るのは興味深いです。
いつものように、これらのアーティファクトをアップロードするので、実際のコードを掘り下げて、どのように予測していたのかを見て、それに同意するかどうかを確認できます。指示に従っているのを見るのは素晴らしいです。
含意も示していて楽しいです。わお！まず、どのモデルをデフォルトにするかを見ると、これは今まで見た中で最も詳細な推奨事項です。それらのコンテキストとパフォーマンスに対するコストに基づいて特定のモデルについて話し、「難しいタスクにはo3にルーティングすべき」と言うだけでなく、ルーティングすべき特定の状況とOpenAIが作成したツールでそれをどのように行えるかを提案しています。これは、この最初の推奨事項だけでも、このテストで今まで見たよりもはるかに有用です。
そして、特定のモデルと特定の実装スタックを引用し、両方の要素に基づいて推奨事項を行うなど、こうした推奨事項が続きます。また、ベンダーニュートラルを維持するためにOpenAIのエージェントSDKでツールやステーションを構築するが、ロジックとlang chainは維持するなど、より製品中立的な姿勢を見るのも良いですね。
その傾向予測についてのメモにも気づいています。これは過去よりもはるかに詳細です。通常、線形予測を見てきましたが、ここでは過去からこのフロンティア成功値を計算し、90％に達する減速シグモイドを使用してモデルを作成しているようです。そして、シグモイドを選んだ理由として、残りのタスクには実世界の検証とツールの信頼性が必要であり、それがより長いテールになるだろうと考えているからだと述べています。
コーディングテストでは大きな飛躍が見られなかったかもしれませんが、ビジネステストではこの大きな飛躍が見え始めています。これは今まで見た中で桁違いに優れています。これは今まで得た中で最も密度の高い結果です。素晴らしいことがたくさんあります。いくつかを指摘しましたが、残りのビデオをこのテキストの壁を見つめるだけにはしたくありません。
これは私たちのウェブサイトにアップロードされ、説明欄にリンクが貼られます。チェックしてコメントで意見を教えてください。現時点では素晴らしい結果であり、エージェンティックな計画と推論の代理となる次のテストに移るのが楽しみです。
チャンネルの忠実な視聴者の皆さんは、迷路チャレンジをご存知でしょう。迷路をナビゲートし、壁を越えずに終点に到達するための最良の解決策を見つけるよう依頼します。
大きな質問は、ジェイコブ、どれくらい複雑なものから始めるべきか、いつもの5×5から始めるべきでしょうか？10に上げることができると思います。モデルが10くらいまでできることを見てきましたが、最大値がどれくらいだったか正確にはわかりません。ここで上限が破られることを期待しています。
また、クライアントでテストしており、OpenAIが今朝指摘したように、これらのモデルが実際にLLMシステムになりつつあるため、この問題を解決するための興味深い戦略が期待できるかもしれません。コードを実行したり、最良の結果を計算したりするかもしれません。これにより以前のモデルに比べて大きな優位性がありますが、それをオフにする方法はありません。そのため、利用可能なツールでどこまでできるか見てみましょう。
10×10の迷路をテキスト表現と画像の両方で添付し、成功の可能性を最大化しています。また、出力する形式など、いくつかの指示も含めています。私たちのツールは最終結果をチェックし、最良の経路と比較することができます。
ASIで迷路を再構築しました。ジェイコブの指摘通り、Pythonベースの迷路分析を行っています。期待は高いです。楽観的な気持ちに戻ってきました。
合法的な経路があります。ツールに入れて作業を確認しましょう。確認してみましょう。成功です！最善の解決策を示しましょう。それが最善の解決策でしょうか？そう思います。最善の解決策と同等です。素晴らしいです。
もっと大きな迷路で挑戦すべきでしょうか？この時点で、このテストは壊れたかもしれません。私たちではなく、OpenAIがこれらのランタイムツール使用を含めることで、このテストを壊したのかもしれません。
それが実際に何を意味するのか少し悩んでいます。以前のモデルにコードや総当たり解決策を求めて自分で実行した人には、これらの機能の一部は利用可能でしたが、この場合はプロンプトだけですべてを行い、最終結果を提供します。
ツール使用はテーブルステークスになり、すべてのモデルに統合されていく世界に移行しています。ここで数を20に上げましょう。モデルがサイズ20の迷路を達成するのを見たことはありませんが、ツールが混在しているので、これが成功すると期待していますが。
20×20の迷路について考えています。考えています。検証しています。そこにあります！いいえ、壁にぶつかりました。一つの壁にぶつかりました。これは素晴らしい。これは完璧な出力です。本当に限界に達しました。
それでは、試練を終えました。コーディングテスト、ビジネスロジックテスト、エージェント推論テストを見てきました。最先端であるという主張は広く真実だと思います。一般的に、ランタイム中にツールと検索を使用できる領域でかなりうまく機能しているのを見ました。それ自身の推論スケーリングを活用できるところでうまく機能しているようです。
一方、コーディングテストでは、私たちが検証者となり、エラーやフィードバックを送り返す必要がありました。これは進行中の研究と一致しています。推論者とフロンティア推論者は、完璧な検証者がある場合と実行パスがそれを活用する場合に最適です。
codeexを試し、完璧なツール使用環境のo3がコーディングテストで期待していたことを上回ることができるかどうかを見るのが楽しみです。しかし、これは人々がこれらのことを再学習する必要があるという兆候だと思います。
OpenAIが今朝言ったように、o3は単なるモデルではなく、本当にモデルシステム、AIシステムです。より多くの機能が組み込まれ、システムの動作が追加され始めている機能に適応するにつれて、私たちユーザーはそれらの使い方を変える必要があります。チャンネルとしても、テストを更新する必要があります。
この傾向が他の多くのプロバイダーからも続き、すべてを一つのシステムAIシステムに統合するGPT5のようなモデルでピークを迎えると予想しています。彼らはすでにその用語を植え付け、私たちにそれについて話させています。
エキサイティングですね。年はまだ始まったばかりです。まだ4月ですが、すでに隔週で指標が動いているようです。反応を期待しています。Anthropicは何か出さなければなりません。現時点ではほとんど会話に入っていません。Gemini 2.5 Proはコーディングで圧倒的な成績を上げました。おそらくAnthropicが次の大きなリリースになると思いますが、OpenAIも私たちを驚かせることがあります。
そして、o3についてより深く調査します。他のモデルと比較し、OpenAIの新しいワークホース推論者としてo4 miniを調査します。登場するこれらのモデルすべてと、反応として出てくると思われるすべてのモデルをテストすることにとても興奮しています。
いつものように、コメントでテストしてほしいこと、このモデルについての考え、あなた自身のテストで出てきたことを教えてください。これらのビデオのリリースに従いたい場合は登録してください。ビデオが気に入ったら「いいね」を押してください。視聴してくれてありがとうございます。
皆さん、ありがとうございました。