GPT-4o-miniは4oよりも優れているかもしれない

9,635 文字

In this video, we do a comparison between o4-mini and o3, with some surprising results.Artefacts from this episode:o4-mi...

皆さん、Feature Groupへようこそ。今日は多くのリクエストに応えて、先週OpenAIからリリースされた製品の続きを見ていきます。今回は4o mini highに注目し、少なくとも比較のために3oと比べてみたいと思います。反復的により知能の高いoモデルが前身と比べてどの程度うまく機能するかを見てみたいと思います。前回の動画でご覧のように、3oはコーディングに苦戦することがあり、「ベンチマークが示すほど良くない」という声もありました。また、TwitterでGPT-4o miniが3oよりも優れたコーダーだという噂も聞いています。それを検証したいと思います。
今日はこの両方のモデルでコーディング、ビジネス推論、迷路テストを行っていきましょう。さっそく始めましょう。
まずはコーディングテストです。ゲーム化された進化シミュレーターを作ります。3oは以前これに苦戦しました。前回はGeminiとのコーディング対決で長い仕様を与えて実装させるテストでしたが、今回は以前使ったものに3Dという制約を加えて、最新モデルにとってより難しくしています。両方のモデルがどう対応するか見てみましょう。左側に3o、右側に4o mini highを配置します。
mini highの方が先に応答しました。「high」は考える時間が長いという意味です。3oのレンダリングを確認しましょう。
興味深いことに、同じプロンプトに対して4o mini highはデフォルトでcanvasを使ったのに対し、3oはそうしませんでした。3oが何をしたのか見てみましょう。
面白いですね。3Dにしていて、ビリヤードボールのように見えます。下にあるものが何をするのかはよくわかりません。大きくして再起動してみましょう。
黄色い部分は食べ物でしょうか？でも何か足りないようです。おそらく生成時間があって、最終的に再生成されるのでしょう。グラフは恐らくフィットネスを示していますが、ボールがもう見えません。クリックする必要があるのでしょうか？再起動をクリックすると、グラフはゼロに戻ります。
これは少し調子が悪そうですね。4o mini highの方を確認してみましょう。
これはいいですね、すでに複数の世代を処理できており、実際に見ることができます。ただ、何を最適化しているのか、フィットネスが何なのかは明確ではありません。グラフが表示されているので何かが起きているのは確かですが、おそらく何らかの食べ物を取りに行こうとしているのでしょう。
両方のモデルは一発で少し不完全な結果を出していて、意外ですね。このモデルも3Dという制約を本当に守っているかどうかは疑問ですが、各ボールは3Dのようです。両方に弱点を修正する機会を与えましょう。総じて言えば、mini highの方が良い反応を示しています。少なくとも壊れておらず、複数の世代を処理してプロンプトに従っているようです。現時点では4o miniの方が優れていますが、引き続き改良して何ができるか見ていきましょう。
3oには、次の世代が表示されないバグの修正、複数の食べ物オブジェクトの追加、オリジナルのプロンプトに従ってゲーム化するコードの追加をお願いしました。4o mini highには、最適化の目的を明確にすること、バグの修正、視覚的により興味深くすることをお願いしました。両方に送信しましょう。
これがロードされている間に、前回の動画で多くのポジティブなコメントをいただいたことに感謝します。新しく登録してくれた皆さん、ありがとうございます。まだ登録していない方は、今後の動画をフォローするためにぜひ登録してください。サポートに感謝します。
両方のモデルが応答しました。まず3oを確認しましょう。食べ物が1つしかないと指摘したところ、いくつか追加されています。食べ物の数を変更できるようになり、ボールが食べ物に向かって移動するようになりました。各世代で食べ物が移動するようですが、ボールは前の食べ物の位置に向かっているのか、それとも食べ物への距離などを感知しているのかわかりません。グラフが急に下がっているので、おそらく任意の方向に進んでいるだけのように見えます。
3oの性能は引き続き期待外れです。過去には他のモデルや3o mini highでより良い結果を見たことがあります。詳細なプロンプトを与えても3oは前回の動画で失敗したことを考えると、プロンプトの詳細さに関わらず、実装の質が良くないのは興味深いですね。
次に4o mini highの実装を見てみましょう。シミュレーションを開始します。おっと、バグっていますね。各ティックが新しい世代になっています。下に食べ物の要素があるようですが、残念な結果です。
モデルは他の分野では優れていますが、このようなワンショットコーディングのパフォーマンスが両世代のモデルで低下しているのは奇妙です。他のテストではワンショットで顕著な改善は見られませんでした。おそらく編集者として指示に応えることに最適化しているのかもしれません。
これは伝統的にはシティやプラネットほど印象的ではなくても、ある意味ではより難しいコーディングテストです。失敗したのは残念ですが、無限のラビットホールに入るのではなく、モデルが得意とする他のテストに移りましょう。Gemini vs 3oの比較動画をチェックすると、このプロンプトをさらに進めてGeminiがどのように対応したかがわかります。
次はビジネス推論テストに移りましょう。通常は特定のドメインに関する長いテキストデータから始めて、架空のシナリオでビジネス分析を求めますが、今回はそのテキストを自分で探すようにお願いします。OpenAIの新世代モデルは、推論とツールを使用して深い調査を行い、完了したと判断した時点で最終的な回答を提供できます。
まず、両方のモデルに大手テック企業の最先端AIモデルについて調査を行うよう依頼し、回答する前にできるだけ多くの調査を行うよう指示します。これは、ベースモデルが深い調査タスクにどれだけ近づいているかのシミュレーションです。そのあと、通常の調査プロンプトを送信して、グラフと分析、視覚的な資料を作成してもらいます。
通常の「思考」が行われる場所で、実際にツールチェーンのようなものが機能しているのがわかります。ウェブ検索や参照を行い、検索間で推論しています。両方のモデルで同じ深い調査活動を行っています。推論の一部として、ウェブで検索した結果をもとに、何を継続して連鎖させるべきか考えています。
4o mini highが先に戻ってきました。興味深いことに3oはまだ進行中ですが、両方約1分間考えていました。深い調査リクエストはもっと長くなるかもしれませんが、ウェブ検索を実行して情報をまとめるという点では悪くない努力です。本物の後に登場した多くの深い調査クローンよりも優れており、非常に有望です。
興味深いことに、3oは即座に表を選択していますが、モデルの情報が古いようです。GPT5の噂や2.5 Pro 15など、4.1や4oなどの最新情報が得られていないのは奇妙です。ウェブ検索がいくつ行われたか確認できませんが、OpenAIの最新情報を取得できるはずでした。
これは深い調査の最初のステップとして、4o mini highの方がこのプロンプトに対して優れているように見えますが、本格的な分析に移る前に両者を同じレベルに揃えるためにフィードバックを与えるべきでしょうか。3oに「最新のOpenAIモデルを見逃しています、もう一度探してください」と伝えましょう。
ちょっと待ってください、これはすべて幻覚でしょうか？3oは完全に幻覚を見ています。OpenAI、Google DeepMind、Metaについて、4o mini highもLlama 4を見逃していますが、少なくともLlama 3.1が2024年後半にあると述べており、これは事実です。一方、3oはLlama 3が2025年4月18日にあると明示的に述べており、これは幻覚です。
おそらく推論が古く、最新モデルではなく特定のモデルを検索したのでしょう。最新のOpenAIモデルを検索したのに新しいモデルが得られなかったとは考えられません。これはツール訓練の興味深いテストであり、情報を間違って解釈する可能性を示しています。この最初の応答は明らかに間違っています。
3oはディープリサーチを支えるモデルであり、ベースモデルがこのツールチェーニングやエージェント的な作業においてどのように改善されているかを見ることができますが、3o側での幻覚は、なぜまだ専用のディープリサーチボタンと微調整されたモデルが必要なのかを示しています。
3oには「OpenAIとMeta AIを見逃しています」と伝え、4o mini highにも「Meta AIを見逃しています」と伝えて、修正してもらいましょう。その後、「分析を進めてください」と指示します。
4o mini highは少しミスをしましたが、3oはより多くのミスをしました。4o miniの方が優れているように見えます。表形式は左側の方が見やすいですが、表を求めたわけではありません。重要なのは情報の正確さです。
今日はまだ優れた性能を見ていませんが、難しいテストを与えているからです。しかし、「4o Mini Highは3oより優れているか」という質問は正当なものに見え始めています。大きな差ではありませんが、小さな兆候が見られます。
右側を読んでいくと、より良く見えます。3.7の情報などが含まれています。4.1フラグシップ、Mini、Nanoなど、すべての情報を得ています。3o、4o mini、4oイメージ生成モード、オーディオスタック、Llama 4ファミリーなど正確な情報を得ています。Llama 4のセンターシフトについても言及していますが、私はそれを知りませんでした。
今日の情報にも関わらず、すでに比較を行っているのは興味深いです。GPT-4.1を選んでいます。ほとんどの情報を見つけ、Llamaの日付は修正していませんが、Llama 4の正確な日付を見つけました。
4o miniに「最新のMeta AIを見逃しています、もう一度情報を探してください」と言ったところ、すべてを再検討しています。3o、4o mini、2.5 Pro、Llama 4などの情報を得ました。3oがコード全体に苦戦したように、ここでも同様のパターンが見られるかもしれません。3oは差分のみを提供し、4o Mini Highは更新された完全な調査を提供したように見えます。
両方がメタや他の最新情報を取得したので、ほぼ同じレベルになりました。次は、通常行うように情報をまとめてグラフを作成するよう依頼します。
ツール呼び出しを引き出すために、プロンプトを少し変更しています。通常と同様に「情報に基づいて詳細な分析を行い、モデルのパフォーマンスを調べてまとめてください」と依頼しますが、通常は「Pythonグラフを作成して単一の統一ブロックを提供してください」と言うところを、「ツールを使用して分析を行い、コードなどを例として反復し、新しい発見が得られたと思うまで続けてください。いくつかのグラフを提供しますが、出力はあなたの裁量に任せます」と言っています。
これにより、コードを実行したり情報をより良く提示する方法を考えたりする自由を与えています。特にツール呼び出しが向上するこれらのモデルに、より表現の自由を与えることで知性の差を示すことができるでしょう。
3oがコードを実行しているようです。両方がツール呼び出しを行っています。グラフが表示されていますが、ファイルタイプが異なるようです。なぜか表示されていませんが、大きくすると表示されました。奇妙なバグがありますが、Pythonグラフがレンダリングされたので助かります。
3oの応答を見ると、ベンチマークパフォーマンスを比較する表から始まっています。これは役立ちますが、比較しているベンチマークはGSMを除いてやや古いものです。MLUはほぼ上限に達しており、Human Evalは疑問があります。今日人々が注目しているコーディングベンチマークやエージェンティックベンチマークが含まれていないのは残念ですが、これらは古いモデルを含むすべてのモデルで見られるベンチマークなので批判はしません。
Gemini 2.5 Proが再び登場していますが、最初から存在していなかった可能性もあるので、フィードバックで見逃したかもしれません。このチャットスレッドをオープンソース化するので、確認してみてください。
3oはMMULパフォーマンスに焦点を当てていますが、これはかつてゴールデンスタンダードのベンチマークだったので理解できます。シンプルな棒グラフで、特に注目すべき点はありません。
このグラフはより有用で、フロンティアモデルのパフォーマンスについて説明しています。コードを見ないと正確にどのようにモデル間を平滑化したかはわかりませんが、予測を含んでいます。2026年に96.2%、2027年に101%としていますが、MMUが100%を超えることはあり得ないので明らかに間違っています。
ただし、線形予測では2027年のMMUで101%は不可能だと述べています。直線的な外挿を使用したところ破綻したと認識しているのは良いことです。自己修正ができ、「これは間違っているけど、とにかくやってみました、ここに作業があります」と言っています。
そして線形スケーリングが機能しないなら、ツールの使用、検索、エージェントループなど他の方法を使用する必要があるという有用な推奨事項を提供しています。エラーを修正しただけでなく、それから有用な推奨事項も作成しており、非常に印象的です。
より深いパターン作業も行っています。事前トレーニングの密なスケーリングが収益逓減を示していることや、リーダーたちが事前トレーニングのスケーリングに加えて他の戦略を使い始めていることなど、合理的な観察から始めています。これは真実であり重要です。
いくつかの点では非常に権威的です。例えば、コンテキストについて「100万トークンが新しい基準である」と述べ、参照を提供しています。これは情報を述べる素晴らしい方法であり、読者にとって非常に有用です。エグゼクティブへの要約を提示しようとするなら、このような言葉遣いが望ましいです。これは少し主観的ですが、多くの良い分析を提供しています。
マルチモダリティやオープンウェイトについても同様であり、含意も正確です。非常に要約されていますが、含意は正確です。
そして中小企業（SMB）向けの具体的な推奨事項を提供しています。ターゲットオーディエンスごとに推奨事項を分類しているのは素晴らしいです。特定のターゲットを求めたわけではありませんが、中小企業については尋ねました。
中小企業をさまざまな目標に分類しています。例えば、一般的な推論と高リスクのカスタムチャットや法律アナリストには、OpenAIを通じて4.1 miniを使用することを推奨し、コンプライアンスコストが組み込まれていることやminiティアのハードコスト、トップティアの精度についても説明しています。これは素晴らしいです。ビジネスが求めているのはまさにこれで、単に「最高のモデルを使用してください」というのではなく、各目標に応じて異なるモデルを推奨しています。
さらに、モデルの推奨を超えて、どこでホスティングすべきかも提案しています。これは推論の次のステップを示しています。マーケティングクリエイティブにはGPT-4oとイメージモードを使用すれば、コピーとグラフィックに単一のエンドポイントを持つことができ、DALLとの調整が不要で、安定した価格とブランドセーフなフィルターがあると説明しています。
収集したデータに基づいた二次的な推論が多く見られ、非常に素晴らしいです。これはビジネスが実際に求めているものであり、この応答はかなり長いので、オープンソース化して皆さんに見ていただきますが、スクロールすると他の見出しも見ることができます。コストガードレールについて言及していますが、これはLLMを展開する際の最大の問題です。将来の戦略的展望や意思決定者向けの主要なポイントも含まれています。
全体的に、二次的な思考が含まれており、非常に有用です。エグゼクティブに提供するとしても、これは実際にかなり良いものでしょう。3oのコーディングのワンショットには感心しませんでしたが、これは以前見たビジネス推論よりもはるかに優れています。推奨事項においては、業界内の人間レベルに達しています。以前はインターンレベルやおそらく大学院レベルと言っていましたが、これはかなり良いです。
これは一つの素晴らしいシステムから期待するよりもはるかに優れています。すべてを詳細に調べたわけではないので、ミスがあるかもしれませんが、オープンソース化するので確認できます。かなり感銘を受けました。
次に4o Mini Highの応答を見てみましょう。最初のグラフには問題があります。異なるモデルの列と、一部が未来の年の行があります。これらのモデルは存在しておらず、幻覚で相対スコアを主張しています。過去のスコアを幻覚し、未来を予測しています。現在のスコアが正確かどうかも確認していません。
おそらく独自のパフォーマンス指標を作成しているようです。コードを見ると、これらの数値をどこからか引き出しているようですが、2024年に3oは存在していなかったので、明らかに幻覚です。与えるどのような指標も間違っています。
過剰適合しようとしたように見えます。「情報を作成する必要があり、これがその方法だ」というようなアプローチです。このグラフでは、歴史的なデータと予測を示していますが、すべて非常に直線的な分析であまり必要ではありません。
4o mini highは初期データ収集では優れていましたが、グラフでつまずき、その後も分析で苦戦しています。完全に幻覚を見ているわけではなく、自作の指標を少し使用していますが、一般的に推奨事項はプロンプトからの情報を表面的に繰り返しています。3o側で見られたような二次的な思考は行っていません。「これがあなたの主要な作業馬であるべきだ」といった少しの二次的思考はありますが、3o側ほど深くなく、求めた新しい洞察を持っていません。
研究部分ではなく実際のビジネス推論部分では、3oが明らかに勝っています。3o側のほうが洞察の提示方法も主観的・客観的な面でもはるかに優れています。3oには少なくともいくつかの新しい洞察があり、正直なところ3oに感銘を受けました。同じプロンプトと同様の情報を与えたのに、これほど大きな違いがあるとは思いませんでした。これらの会話を共有するので、興味のある方は確認してください。
最後のテスト、迷路ツールに移りましょう。迷路ツールはすぐに人気のあるテストの一つになりました。コミュニティでも使われているのを見て嬉しく思います。ぜひタグ付けしてください。
3oのレビューを見た方は、3oがこのテストでかなり良い成績を収めたことを覚えているでしょう。限界近くまで押し上げ、20×20の迷路でほんの少しのミスを犯しました。コミュニティの中には20×20の迷路で成功した人もいます。時には画像とテキスト表現の両方を含めることでモデルが混乱する場合があります。
今回は二つのモデルを比較するとき、10×10から始めて徐々に難易度を上げていきます。モデルを混乱させないために、迷路のテキスト版のみを含めます。両方とも同じ迷路を用意しました。
4o miniが先に戻ってきて「最短経路はこれです」と言い、3oはまだ考えています。AIの経路をレンダリングしてみましょう。うまくいきました。参考までに、10×10は既に以前の推論モデルの多くを上回り始めています。
レンダリングを通じて思考を見ると、何らかのツール呼び出しを使用してコードを実行し、問題の解決方法を実際に理解しているように見えます。これは問題にアプローチする非常に合理的な方法です。
3oも戻ってきました。まったく同じ経路を選んでいるようです。A1、A2、A3、A4から始まり、同じように終わっています。両方のモデルが10×10をこなせたのは印象的です。以前の動画では、7サイズでさえ多くのモデルにとって難しかったことを覚えておいてください。
難易度を上げてみましょう。15ではなく、いきなり20にします。これはかなり大きくなります。両方に20×20の迷路を送信しました。10から20への大きなジャンプで、一方または両方、あるいはどちらも解けるかどうか見てみましょう。
3oが先に戻り、その後すぐに4o mini highも戻ってきました。3oのプランを検証しましょう。有効です。ツール呼び出しのおかげでスケールし続けるはずですが、これは非常に印象的です。続いてmini highもレンダリングしてみましょう。
あ、小さなミスを犯しています。ほぼ完璧でしたが、わずかなミスがありました。D7、D8、D9と言っていますが、D7、D8、D9は正しくありません。
4o mini highはかなり惜しいところまで来ていて、ほんの少しミスしただけなので称賛に値します。コードの表現方法などが原因かもしれませんが、明確な勝者が決まりました。どちらも非常に接戦でしたが、3oがこのサイズ20の迷路で少し優れていました。
両方のモデルはここで素晴らしいパフォーマンスを示しており、利用可能なツールを使用して実際に良い解決策を見つけることができています。これは単にトークン予測を使うのではなく、このWorld of Reasoningについて話してきたことです。世界を実際に理解するための方法を拡張したいのです。
このテストでかなり大幅な改善が見られています。最終的には基準点としてより大きな迷路を送信する必要があるでしょうが、古いモデルは10サイズや7サイズの迷路でも大変苦労していました。両方のモデルの素晴らしい成果です。
これは、ツール呼び出しと推論スケーリングが従来のLLMドメインではない領域でどのように役立つかを示しています。シングルショットコーディングのパフォーマンスではモデルに少し後退が見られましたが、3oのビジネス推論や両モデルのエージェント推論では大きな進歩が見られました。これらのモデルが本当に得意とすることが分かり始めています。
また、GPT-4.1のビデオをチェックすると、そのモデルはコーディングと指示に従うことが非常に優れており、シングルショットコーディングのパフォーマンスは3oよりも優れているかもしれません。本格的な比較が必要かもしれません。OpenAIの戦略は興味深く、これらのモデルが収束するのを見るのが楽しみです。
自分自身でテストすることが重要ですので、引き続き試してみて、特定のモデルが特定のことに優れているかどうかコメントで教えてください。GPT-5での統一まで、モデルごとに長所があるでしょう。引き続きこれらの比較を行い、状況を把握していただけるよう努めます。
いつもご視聴いただきありがとうございます。ぜひいいね、フォロー、登録をお願いします。前回の動画へのサポートとコメントに感謝します。次回の動画でお会いしましょう。