o3はいくつかの記録を塗り替えるが、AIは課金勝ちになる

7,049 文字

o3 breaks (some) records, but AI becomes pay-to-win

A green card, o3 vs Gemini 2.5, 6 Benchmarks and a whole bunch of my thoughts on what on earth is happening in AI, from ...

この動画はAIにおける急速な進歩についてです。その進歩は、あるOpenAIのベテラン研究者がグリーンカードを拒否されたというニュースから、米国中心ではなくなるかもしれません。OpenAIの最新モデルである03のリリースからまだ数日しか経っていませんが、すでにいくつかの記録を塗り替え、さらに多くの疑問を投げかけています。特に順序はありませんが、半ダースほどの論文を参考に、AIの最先端における現状について4つのアップデートをお伝えします。
まず、OpenAIやGoogleのような企業がこうしたモデルからどれだけの利益を得るか、そしてあなたにいくらかかるかという話に入る前に、現時点で最高のモデルはどれかという問題があります。実はこれはあなたの使用目的やどのベンチマークを見るかによって大きく異なるため、判断が非常に難しいのです。現時点で私にとって明らかな二大候補は03とGemini 2.5 Proでしょう。03リリース当日に公開した動画で、最も有名なベンチマークでは両者が互角であることを紹介しました。
しかし、それ以降、さらに興味深いベンチマーク結果が出てきました。例えば、10万語ほどの長い小説内のパズルを解く能力について考えてみましょう。正直なところ、私はGemini 2.5 Proがこの分野でリードを保つと予想していました。様々な長さのテキストで、最も長いものまでパズルを組み立てることができたからです。結局のところ、長いコンテキストはGeminiの専門分野です。しかし、そうではありませんでした。ほぼすべての長さのテキストで03がリードを取っています。第3章のヒントが第16章に関連していることを知っているなら、03があなたにとって適切なモデルでしょう。
「誰がそんなことを気にするの？物理学や空間推論はどうなの？」と言う人もいるでしょう。ここに72時間以内に出たばかりの新しいベンチマークがあります。トップ2つの候補を比較してみましょう。Gemini 2.5 Proがリードし、それに03 Highが続きます。ちなみにGemini 2.5 Proは03の4分の1の価格であることを覚えておいてください。参考までに、このベンチマークにおける人間の専門家の精度は依然として最高のモデルをはるかに上回っています。もしあなたが、世界を経験するのではなく、主にテキストを読むことによってあらゆる種類の現実的な物理的相互作用について学ばなければならないとしたら、おそらく同じ問題を抱えることでしょう。
これは実際、トップ2つのモデルと人間のベースラインとの差の多くを説明しています。私自身のベンチマークであるSimple Benchでは、これら2つのモデルは私のベンチマークのすべてのトリックを見抜き始めていますが、空間推論ではまだかなり失敗しています。これはSimple Benchや物理ベンチマークからの問題ではありませんが、例えば右手のひらを左肩に置き、左腕を右腕と胸の間の隙間に通すという例で考えると、あなたはおそらく理解できますが、モデルはこれが何を意味するのか全く分かりません。トレーニングデータにはなく、何が起きているのかを視覚化できないのです。
ただ、このような問題に関しては、後ほど触れますが、ツールを使えばモデルが正解できるようになるかもしれません。正解の話といえば、複雑な生物学実験プロトコルのトラブルシューティングテストでは、03がGemini 2.5 Proを上回ることがわかりました。03は94パーセンタイルのスコアを獲得しています。もちろん、これはテキストベースの試験であり、実際に研究室でプロトコルを実施することとは異なります。
バランスを取るために、今度はGemini 2.5 Proが03のパフォーマンスを上回るベンチマーク、競争数学を見てみましょう。噂で聞いたかもしれませんが、03と04 miniはAIM 2025（高校数学コンペティション）でツールなしで最先端のスコアを獲得しました。両モデルとも約90％の正解率でしたが、ツールを使うと99％以上になりました。あまり知られていないかもしれませんが、AIMはUSMO（かなり難しい証明ベースの数学テスト）の予選テストの一つにすぎません。これらは全て高校生向けのテストであり、プロの数学とは大きく異なることに注意してください。
USMOでは、高設定の03が約22％正解したのに対し、Gemini 2.5は24％でした。再度言いますが、Geminiは4分の1の価格です。より興味深いのは、USMOが最も難しい高校数学コンペティション、国際数学オリンピードの予選にすぎないことです。GoogleはAlpha Proofというシステムを持っており、そのコンペティションで銀メダルを獲得しました。Alpha Proofについては他の動画で説明していますが、7月の今年の大会では、Googleが金メダルを取り戻すかもしれないと予測しています。
より身近な分野に戻りましょう。「リスはフェンスを登っているのか、降りているのか」という単純な視覚的チャレンジはどうでしょう。または「この2匹の犬はサイズが大きく違うか」という質問。このベンチマークはナチュラルベンチと呼ばれ、おそらく予想できたと思いますが、03はGemini 2.5よりもよいスコアを獲得しています。どちらも当然ながら、人間のパフォーマンスをはるかに下回っています。
最初の印象とは異なり、実はGemini 2.5 Proの方が地理位置特定（ジオゲッシング）で優れています。ランダムなストリートビューを与えられて、どの国でその国内のどの場所にいるかを知ることができます。実際、その差はかなり顕著で、2.5 Proは03 highをはるかに上回っています。考えてみれば、GoogleがGoogle Maps、Google Earth、そしてもちろんYouTubeとWhimoを所有していることを考えると、おそらくそれほど驚くことではありません。
最後のベンチマークですが、ビジュアルパズルはどうでしょうか。どの凧が最も長い糸を持っているか、答えはCです。ビジュアルパズルベンチマーク全体では、Gemini 2.5 Pro は03はおろか01をも下回っています。もちろん、どちらも平均的な人間、ましてや専門家の人間をはるかに下回っています。
お金の問題に入る前に、もう30秒ほどお時間をいただきたいと思います。OpenAIは基本的に、視覚能力を大幅に向上させたVAR手法を公開しました。03が質問に答えるためにズームインしているように見えることに気づいたかもしれません。VARのエグゼクティブサマリーは何でしょうか？基本的に、モデルは高解像度の画像に圧倒されるので、この手法は質問に最も関連する可能性のある画像の部分をマルチモーダルLMを使って推測します。その部分が切り取られ、元の画像と一緒にモデルのコンテキスト、ビジュアルワーキングメモリに追加され、質問とともに提出されます。
私が03に「ウォーリーをさがせ」（アメリカではウォルドー）の画像を与えたときの動作を見ることができます。言語モデルは、ウォルドーが展望台や通路のような場所に現れる傾向があると推測し、その領域を切り取ることを決定します。他のベンチマークと同様に、実際にはウォルドーを見つけることができませんでしたが、私は見つけることができました。正直に言って、私も約3分かかりましたが。
これらがAIの最先端モデルですが、これはどこに向かっているのでしょうか？OpenAI自身によれば、2030年には1,740億ドルの収益に達するそうです。すぐに価格の点であなたにとって何を意味するのかについて触れますが、実際にこの予測は私にとってかなり妥当に思えます。2024年に彼らがわずか40億ドルを稼いだとしても、非常に急速に成長する可能性があると思います。ただし、最大の数字でさえグローバルなホワイトカラー労働の価値の1％にも満たないことを考えると、誰かが壮大に間違っているか、私が疑っているように2026年か2027年にデータセンターに天才の国を得ることはないか、あるいはこれらの数字が壮大な過小評価であるかのどちらかでしょう。
ここで、AIが課金勝ちになりつつある（あるいはすでになっている）理由について、私の非常に要約した考えをいくつか紹介します。言い換えれば、なぜ私やあなたがAIの最先端に留まるためにますます多くのお金を支払わなければならないのかということです。先日、GoogleがOpenAIや最近のAnthropicと同様に、おそらく月額100ドルから200ドル程度のプレミアムプラスとプレミアムプロの層を計画していることがニュースになりました。
考えてみてください。もしAGIまたは超知能が「単純なひとつのトリック」、アルゴリズムの微調整、あるいは強化学習の小規模なスケールアップで実現できるのであれば、これらの企業のインセンティブは、安全性を考慮した上で、そのAGIをできるだけ早く全ての人に提供し、市場シェアを獲得し（彼らが常に望むように）、独占を得て、その後AGIへのアクセスに課金することになるでしょう。一方、パフォーマンスが計算能力の単なるスケールアップによって購入できるなら、誰かがその計算能力に対して支払わなければなりません。つまりあなたです。
01から03、さらには04 miniへの移行で急速な進歩がありましたが、Anthropicのこのことによれば、強化学習を通じたポストトレーニングや推論はすぐに数十億ドルのコストがかかるようになるとのことです。また、ポストトレーニングは魔法ではなく、実際には元のベースモデルにない推論パスを作り出すことはできません。これは清華大学から出たばかりの新しい論文によるものです。この論文と前の論文に関する私の詳細な分析に興味がある方は、私のPatreonに20分の動画をアップしたばかりです。いつものように、Patreonを通じてチャンネルをサポートしてくださる皆様に感謝します。
OpenAIの元最高研究責任者が言ったように、これは推論やポストトレーニングに低いつリンフルーツがたくさんないということではありませんが、それでも彼は間もなく推論が「プリトレーニングに追いつく」と予測しています。つまり、対数線形のリターンを提供するという意味で、10倍の投資を行って、進歩のためにもう1つのインクリメントを得なければならないということです。
また、サム・アルトマンが最近OpenAIをモデル企業と同じくらい製品企業と呼んだことを考慮してください。彼らはある意味でAGIのボールから目を離し、計算支出あたりのドルリターンにより焦点を合わせているようなものです。これらの企業はそれほど多くのGPUとTPUを持っていません。研究者たちがより大きなベースモデルやより多くのポストトレーニングを試みるたびに、サム・アルトマンは新しいユーザーのレート制限、新機能のリリース、レイテンシーと比較して判断しなければなりません。
Epoch AIのこの研究は主にトレーニング実行またはベースモデルのプリトレーニングのスケールアップに焦点を当てていましたが、非常に大まかに言って、2030年までにGPT-4のトレーニングに2022年に使用されたよりも10万倍の実効計算能力を持つと予測していました。しかし、仮に2030年までに現在よりも5桁多い計算能力を持っていたとしても、OpenAIが1,740億ドルの収益を達成するためには、その計算能力に対する競合する要求をすべて考慮してください。
彼らのモデルはパラメータ数で見ると、現在と比較して平均して1000倍大きくなるかもしれません。ごく最近まで、ほとんどの無料ユーザーは約80億パラメータのモデルであるGPT-4o Miniを使用していました。しかし、無料ユーザーがGPT-4のサイズのモデルに慣れ始めているとしても、GPT-4.5は約20兆パラメータ（一部の人は12兆と言いますが、いずれにしてもGPT-4oよりも約2桁大きい）です。もちろん、その頃には私のようなパワーユーザーはGPT-4.5ではなく、おそらく10倍から100倍大きいGPT-5か6を使っているでしょう。
さらにユーザーベースもあります。OpenAIは月間アクティブユーザー6億人にサービスを提供していますが、5年後には60億人のスマートフォンユーザーがいるかもしれません。GoogleはGeminiで最近、わずか数ヶ月でユーザーベースを4倍の3億5000万月間アクティブユーザーに増やしましたが、それが簡単に2倍、3倍、4倍になる可能性があります。これには計算能力が必要です。これはすべて、モデルがより長く考えるようになる前の話です。
それからレイテンシーの問題もあります。DeepResearchは素晴らしいですが、平均で5〜10分かかります。それを5秒程度に短縮するために、10倍の計算能力を費やすことを想像できるでしょう。また、ユーザーあたりの使用量も忘れないでください。2027年や2030年のAGIシナリオでは、もちろん誰もが現在よりもはるかに多くこれらのチャットボットを使用することになります。これはさらに10倍です。そして、これはSoraのようなテキストから画像、テキストから動画などのことを考慮する前の話です。
これは長い説明でしたが、OpenAIのような企業によって利用される実効計算能力が12桁のオーダーになることも想像できます。これには、より多くのチップだけでなく、より効率的なチップやより良いアルゴリズムなども含まれます。2030年までに5桁のオーダーではまったく足りないでしょう。ここで注目すべきは、これらのことは、今後数年で非常に高価なプロトAGIがあることを排除するものではないということです。
数日前にOpenAIの上級スタッフメンバーがこう述べています。「OpenAIはAGIを、ほとんどの経済的に価値のある仕事で人間を上回ることができる高度に自律的なシステムとして定義しています。私たちは確かにまだそこにはいません。はるかに遠いです。」この動画の前半のベンチマークからも同じことが推測できたかもしれません。しかし彼は続けて、「AGIの雰囲気は私にとって非常に現実的です。特に03が思考の連鎖の一部としてツールを動的に使用する方法です。」
再度言いますが、これは私たちがAGIを達成したということではありません。実際、彼はこれを死守すべき丘だと言っています。私は彼の最後の言葉に同意します。物事はしばらく遅いままですが、それが速くなると、本当に速くなります。今日は物事が速く感じられますが、実際にはまだ加速しており、もっと速くなり始めるでしょう。もしお金を使う意思があれば。
有名なAI研究者のフランソワは、クエリあたり数セントから数万ドルまでのコストで、ゼロの流動知能から人間に近いレベルの流動知能に到達できると述べています。結局のところ、モデルが全ての種類のツールを呼び出すための共有言語を持つAnthropicのモデルコンテキストプロトコルのようなものが登場しています。また、ツール呼び出しが03の強化学習トレーニングの一部であったことも知っています。
ですから、解剖学の質問に失敗する03がOpenSIMのようなオープンソースソフトウェアを呼び出し、シミュレーションを実行し、関連するパラメータを入力し、コードインタープリタのようにコードを実行して、結果のシミュレーションを見るようになるまでどのくらいかかるでしょうか？まもなく、ほぼあらゆるソフトウェアがこれらのモデルのトレーニング体制の軌道に吸い込まれる可能性があります。
これは多くのセキュリティ問題を引き起こすことを認めますが、それらは先に解決する必要があります。そのため、この動画のスポンサーであるGrace Swanを紹介します。目の隅に見えるかもしれませんが、6万ドルのコンペティションが進行中です。あなたがプロの研究者でなくても、画像入力を使用して主要な視覚対応AIモデルをジェイルブレイクしようとすることができます。
これらの脆弱性を悪用して報酬を得ながら、同時にAIの安全性とセキュリティを向上させることができるのは非常に驚くべきことだと思います。これらは公開リーダーボードを持つ非常に正当なコンペティションであり、OpenAI、Anthropic、Google DeepMindによって監視されています。このコンペティションの勝者が、説明にある私の特別なリンクを使用したとしたら、素晴らしいと思いませんか？もちろん、勝利の全クレジットを私が取り、その栄光に浸ることになるでしょう。
コメント欄で、現在オンラインでバイラルになっているニュースについてあなたの考えを自由に述べてください。確かに、私たちは狂った時代に生きています。最後まで視聴してくださり、本当にありがとうございます。あなた方の視聴に感謝の気持ちがなくなることは決してありません。素晴らしい一日をお過ごしください。