03と04-mini – すばらしいですが、過剰な宣伝は簡単にしてしまうものです

AGIに仕事を奪われたい
この記事は約13分で読めます。

7,308 文字

o3 and o4-mini - they’re great, but easy to over-hype
Critical analysis of the two most powerful new models behind ChatGPT, o3 and o4-mini. Not just the system cards, benchma...

数時間後にフライトがあるので、いつもの動画よりもかなり手短なバージョンになります。OpenAIから04 Miniと03がリリースされ、これのような狂ったようなハイプ(誇大宣伝)を生み出しています。でも、このハイプは正当なものでしょうか?
私は懐疑的かもしれませんが、OpenAIは自社の新しいモデルを大々的に宣伝してくれると分かっている人々に先行アクセスを与える傾向があります。誤解しないでください、これらは01などの以前のモデルよりもずっと優れていますが、天才レベルを超えているわけではありません。それを複数の方法で証明できますが、いくつかの例だけをお見せします。
そう、私はシステムカードのほとんどを読み、すでに20回ほどモデルをテストしました。両方のモデル、つまり04 miniと03についてお話しするべきですね。AIに全く詳しくない人のために言うと、これらは現在、chatGPT内の最高のモデルです。もちろんGoogleのGemini 2.5 ProやAnthropicのClaude 3.7とは異なります。
Tyler Cohenなどは03をAGIだと言っていますが、正直なところ、Tyler Cohenについて話す人がいても私は彼が誰なのか分かりませんが、03がAGIだとは思いません。私にとってAGIとは、モデルが人間が行うことができるほとんどのタスクで人間の平均以上のパフォーマンスを発揮できることです。知識、コーディング、数学に関しては、専門家に焦点を当てない限り、それは絶対に真実です。しかし一般的には、そこまでではありません。
選べる例はたくさんありますが、これをご覧ください。5本の線があり、全部でいくつの交点があるかを尋ねました。「描かれた5つの線分が交差する異なる点は8つあります」と答えました。皆さんのことを知っていますので、「線を延長すれば、もしかしたら8箇所で交差するかもしれない。間違ってないのでは?」と一時停止して言うかもしれませんね。いいえ、これは03が正確に意味したことです。例えば、ここに1つの交点があります。
ここでAGIについての私の理論全体を説明することはできませんが、これは非常に簡潔な動画です。しかし、それは間違いなく幻覚(ハルシネーション)がないわけではありません。それは完全な嘘であり、OpenAIもそれを知っています。素晴らしいモデルで大きな改善です。04 Miniは調子の良い日にはGemini 2.5 Proに匹敵する可能性がありますが、間違いなく幻覚がないわけではありません。
両方のモデルは最初からツールを使用するように訓練されており、これはモデルを改善する素晴らしい方法だと思います。そしてそれらはさらに急速に有用になるでしょう。
私が03を過小評価しすぎていると思われるかもしれませんが、私自身のベンチマークであるSimple Benchの最初の公開10問のうち6問正解したのは初めてのモデルでした。いくつかの回答には本当に感銘を受けました。そして、かなり年配の男性が超高層ビルの頂上まで登るのに3〜5分かかるという回答には同意しませんが、それでもOpenAIのモデルとしては初めて正解しました。
しかし先ほどのテーマに戻りましょう。橋を通過する車のトランクやブーツから落ちた手袋は、トランク部分が開いていて川が真下にあるため、川に落ちる可能性が高いというような、かなり基本的なミスをすることがあります。橋はどうなったのでしょうか?前回の動画で少し触れたように、これを正しく答えることもありますが、多くの場合間違えています。
あなたはどう思いますか?天才レベル以上の人に会ったとしたら、手袋が車から橋の上に落ちる可能性も考慮するでしょう。O4 Mini Highは公開されている質問の10問中4問正解していますが、小さな高速モデルとしては実際にはかなり悪くありません。
ちなみに、両方のモデルがプラス層に来ているので、本当にProティアに払うことについて考え始めています。ともあれ、こちらが価格です。これらの数字はあまり意味がないかもしれませんが、重要な比較点は03とGemini 2.5 Proとの比較です。大まかに言って、Gemini 2.5 Proは03よりも約3〜4倍安いです。ベンチマーク結果を見るときにそれを念頭に置いてください。
最初のベンチマーク結果は重複テストについてです。はい、Geminiは正解しています。ちなみにマルチモダリティについて言えば、Gemini 2.5 ProはYouTubeビデオや生のビデオを処理できますが、03はできません。03にビデオをアップロードできると知ったとき、最初はとても興奮しましたが、それはメタデータの分析をしているだけです。
03はネイティブにツールを使用するように訓練されていることを知っています。そして、ベンチマークウェブサイトを分析し、カバー画像を作成し、ほぼ正確な詳細な分析を行った方法に特に感銘を受けました。それは先頭を走るものがなぜ優れているのかについての推測と、ベンチマーク自体とその限界についてのかなり微妙なアドバイスを提供しました。
あなた方の中には、以前作成した03 WOWビデオについてどうなのかと言う人もいるでしょう。まず第一に、AIは非常に速く動きます。4〜5ヶ月でもAIにとっては大きな変化があります。それでもwowモデルですが、例えばGemini 2.5や時にはClaude 3.7 Thinkingと比較してwowではありません。
彼らがプレゼンテーションに忍び込ませたもう一つの重要な詳細があります。12月に私が取り上げた03は「ベンチマーク最適化」されていると言いました。ARCプライズで確認されたものでは、彼らがテストしたバージョンよりも計算量が少ないか、思考時間が少ないと言いました。
ベンチマーク最適化とは、03に長く考える時間、つまりより多くの推論時間の計算を与えたということだと私は推測しています。言い換えれば、私たちはARC AGIを粉砕したモデルとまったく同じものを得ているわけではありません。
ベンチマークに移る前にいくつかの詳細情報を紹介します。両方のモデルは200,000トークンのコンテキストウィンドウを持っています。約150,000語だと思いますが、最大80,000語を出力できます。これはかなりクールだと思います。トレーニングデータの限界と考えられる知識のカットオフ日は2024年6月1日です。これはGemini 2.5 Proの2025年1月と比較されます。まだ確認する時間がありませんでしたが、GPT4oに基づいているようで、そのため更新されたトレーニングカットオフ日がないようです。
いくつかのベンチマークを見てみましょう。YouTubeビデオからスクリーングラブを取っただけだと非難しないでください。競争的数学では、03と04 Miniはトレーニングデータに含まれていない可能性のあるデータセットで非常に良い成績を収めています。参考までに、このベンチマークではGemini 2.5 Proは約86%です。
複数回の試行でGrock 3は93%ですが、OpenAIがこれを何回試行したのかはよく分かりません。おそらく最初の試行だけでしょう。いずれにせよ、ナレーターが言ったように、これらのモデルにツールを持たせると、競争的数学ベンチマークの一部を飽和させるほど非常に優れています。
同様に、競争的コードでも、ベンチマークできるものなら彼らはそれを圧倒します。これらのモデル、さらには他のモデルファミリーは、本質的に評価最大化器です。4時間前の私の動画で触れたように、PhD レベルの科学では、ここに結果が見られます。83.3%と81.4%です。
参考までに、Geminiは84%、Claude 3.7 Sonnetは84.8%です。これはClaudeでは複数回の試行ですが、Gemini 2.5は単一の試行です。つまり、Gemini 2.5は単一の試行ではどちらのモデルよりも優れています。今夜AGIだと宣言するのは少し奇妙に思えますが、Gemini 2.5 Proが出たときには宣言しませんでした。
私にとって、どちらもAGIではありませんが、私はAGI否定論者ではありません。それは数年以内に来ると思います。私の定義の最も簡単なバージョンは、例えば04を賢い人間よりも雇いたいと思うときです。彼らはランダムな不具合やキー画像のカットオフなしに完全な動画を編集できるでしょうか?あるいは、私を1万ポンドの借金に追い込むことなく、私のAmazonショッピングをすることができるでしょうか?
信じられるほど知的に見える素早いドラフトを作成することは理解できます。そしてしばしばそうです。その意味では私よりもはるかに賢いです。これらの試験でこのようなスコアを取ることはできませんが、人間のIQと比較することはかなり勧められません。なぜなら、このようなスコアを取れても、重なりの数を数えたり、落ちる手袋の下に橋があることを考えたりできない超クレイジーなコーダーやPhDをいくつ知っていますか?
トレーニングデータにあれば素晴らしいですが、MMUではそうではありません。MMUはMMLUと似ていて、多くの異なるドメインにまたがりますが、チャートやテーブル、グラフなどを含む質問に焦点を当てています。03は82.9%を獲得しています。これは実際にGemini 2.5 Proの81.7%よりも優れています。それでOpenAIによく頑張ったと言えます。
人類最後の試験では、本当に難解な知識のベンチマークと考えることができますが、Deep Researchを持つOpenAI自身の以前の記録だったことを考えると、私にとってはやや残念でした。公平を期すと、再び03はこのベンチマークで18%を獲得したGemini 2.5 Proを打ち負かしています。
しかし、ディープリサーチは03の初期バージョンで動いていたとOpenAIが言ったことを考えると、私はもう少し期待していました。特に「新しく改良された」と誰かが言った、Pythonとブラウジングツールを備えた03、あるいは04でさえも、より多くの知識が注入されていることを期待していました。このベンチマークで自分自身の記録に挑戦しているだけなので、それは少し厳しいかもしれません。なので再び彼らによく頑張ったと言えます。
OpenAIからのリリースノートは、「外部の専門家」による評価で、03が「主要なエラーを20%少なく」したという点で非常に興味深いものでした。それは素晴らしいですが、「幻覚がない」と言われていたのに何があったのでしょうか?Sam Altmanが「幻覚がない」と新しいモデルについてリツイートしているのを見たら、私が一般的なホワイトカラーの労働者であれば、パニックになるでしょう。
真実は何でしょうか?それは絶対に幻覚がないわけではなく、主要なエラーを少なくすることは素晴らしいですが、それでも主要なエラーがあることを認めています。
すでに見てきたように、ADAのポリグロットコーディングベンチマークの一部では、ハイ設定の03が実際に記録を樹立しています。それはGemini 2.5 Proよりも10ポイント以上高いです。しかし、ハイ設定の01、つまり長い時間考え、多くの思考の連鎖を使用すると、ほぼ200ドルかかったことを覚えているかもしれません。それはGeminiの6ドルと比較されます。
つまり、03ハイはGemini 2.5 Proを上回り、したがって広く使用されるようになるかもしれませんが、極端なコストがかかります。あるいは、すべてのTL;DRは、03がリードを取ったそれらのドメインでさえ、コスト効率の良いリードを取っていないということです。
Codeex CLI、ターミナルから実行できるエージェントについては、明らかにClaude Codeを目標としていますが、もちろん2時間半しか経っていないので、テストする時間がありませんでした。もちろん、OpenAIがCursorのライバルであるWindsurfを買収すれば、それは加速するかもしれません。
もちろん、前の動画をチェックすれば、OpenAIのChief Product OfficerであるKevin Weilは、競争的コーディングは例えばフロントエンドコーディングと常に同じではないと非常に明確に述べています。だから自分自身でテストする必要があります。いつものように、それはあなたのドメインにどれだけの高品質データがあるか、そしてデータの多様性に帰着します。
機械学習では、この例で見られるように、データの一部を過剰に訓練することがあることを私たちは皆知っています。はい、これは03でした。
最初のコメントの中には「APIが今夜出ているので、両方のモデルをSimpleBenchでテストすることについてはどうですか?」というものがあるでしょう。私のフライトがあるので、私の同僚が今夜それを行うことを願っています。結果は今夜ウェブサイトに掲載されるはずです。
それはGemini 2.5 Proからリードを奪うかもしれませんが、はるかに多くのコストがかかると思います。しかし、ほとんどの皆さんがすでに知っているように、今日の動画のスポンサーであるWeights and Biasesなしでは03をSimple Benchでテストすることができませんでした。
彼らのweaveプラットフォームをチェックしたい場合は、SimpleBenchウェブサイトを通じて、あるいはもちろん説明のリンクからチェックすることができます。私たちはPatreonでDiscordワークショップを開催して、Weaveの使い方を紹介する予定ですが、基本的には私たちがこれらのモデルをベンチマークするために使用しているものです。
それは、様々なオプションを調整し、改善し、比較するために見ることができる、メルセデスの中にいるようなものです。そして前述のように、彼らは無料のコースを提供するAIアカデミーを持っています。SimpleBenchを続けてくれているWeights and Biasesに感謝します。
フライトのために、AI Explainedの動画の歴史の中で初めて、システムカードの一部しか読んでいません。それでも、いくつかのハイライトを紹介します。
報酬ハッキングの例を見つけました。これは、モデル自体がチャレンジを解決するのではなく、パラメータを調整して解決したように見せかけ、スコアを最大化します。ゲームをハッキングしてスコアを変更し、ゲームに勝つようなものです。03はこれを約1%の頻度で行いました。
最近、Metaからの論文を覚えていますか?私は著者たちと議論していましたが、モデルが実行できるタスクの長さが7ヶ月ごとに倍増しているというものです。その論文にはいくつかの注意点がありますが、Metaは03を分析したとき、他の公開モデルを超える能力を見出し、以前の能力スケーリングトレンドからの予測を上回ったと言っています。
つまり、50%以上の信頼性で完了するソフトウェアタスクの時間地平線は、7ヶ月未満で倍増している可能性があります。明らかに、これらのことの一部は他の動画で取り上げる必要がありますが、もう一つのハイライトは、03と04 MiniがモデルをリリースすることさえできないというOpenAI自身の高リスク閾値を超える既知の生物学的脅威を、初心者が意味のある形で作成するのを助けることができる一歩手前にあるということです。
私はこれを人々に伝え続けています。AnthropicとOpenAIからの責任あるスケーリングポリシーのために、彼らは特定のモデルをリリースすることさえできなくなると約束しています。これはあなたの視点によって、安心か失望かが分かれるでしょう。
しかし、今夜は03はAGIだという叫び顔のサムネイルをたくさん見ることになるでしょうから、もう一度過小評価に戻りましょう。そのノイズを打ち消すために、OpenAIのリサーチエンジニアのインタビューパフォーマンスをチェックしてください。01から04までの信じられない指数関数的な成長を見てください。まあ、実際にはそうでもないですね。
また、AIが人工知能研究論文を複製できるかどうかをテストするpaperbenchも見てください。今夜見るAGIが到来したという狂ったサムネイルや動画にこの特定のチャートが見つからないと思います。01のパフォーマンスは24%、ブラウジングなしの03は18%、O4 Miniは25%です。
理解します。完全に同じ条件での比較ではありませんが、これは正確には指数関数的ではありません。義務的な注意点として、今年中に進歩があると期待しています。ただ、すべてのチャートがAGIハイプを裏付けているわけではないと言っているだけです。
03についてのより楽観的な考えをこの2つで締めくくります。より多くの計算を要求するかもしれませんが、パフォーマンスは上昇し続けています。そして、モデルをより長く考えさせることは、私たちが活用できる別の軸であることにさえ触れていません。
OpenAIのNoam Brownが言ったように、これらの両方をさらにスケールするための余地がまだたくさんあります。だから、見出しを無視してハイプを打ち消すと、人生のすべての時間においての良いアドバイスですが、03は本当の進歩を表しています。OpenAIよくやりました。
AIがどのように改善しているかについてもっと知りたい場合は、約4時間前の私の動画をチェックしてください。どちらにせよ、素敵な時間をお過ごしください。

コメント

タイトルとURLをコピーしました