
3,842 文字

OpenAI対ディープシークのAIレースが凄まじい勢いで加速しています。先週、ディープシークがR1を発表し、今度はOpenAIがo3モデルシリーズで反撃に出ました。これは全てを変えようとしています。
では、このOpenAIのミニについて深く掘り下げてみましょう。正直なところ、調べれば調べるほど頭が完全に吹き飛びそうです。冗談ではありません。これは通常の段階的なアップデートではなく、本当の意味での飛躍的進歩だと感じるので、皆さんには注目していただきたいと思います。
最初のニュースの時点でもワクワクしていましたが、全てのデータを詳しく調べた今、これは絶対に聞いておくべき内容です。OpenAIはo3ミニという新しい効果的な推論モデルを発表しました。STEM分野で優れているとされていますが、「優れている」というのは控えめな表現です。
このモデルは、より高価な競合モデルに追いつくだけでなく、多くの重要な面で凌駕しているのです。本当に素晴らしいことです。
コスト効率の面について詳しく見てみましょう。通常、コスト効率が良いというのは、オリジналの劣化版であることが多いのですが、ここでは性能を犠牲にすることなく、純粋な知的能力をより小さなパッケージに圧縮する方法を見つけ出したようです。これこそが本当の魔法のトリックです。コンパクトカーが壊れることなくV8エンジンを搭載するようなものです。正直、かなり凄いことです。
具体的な内容に入っていきましょう。これらのベンチマークについて話してみましょう。グラフは時として退屈に感じるかもしれませんが、これらは注目に値します。2024年の数学の競争結果を見ると、わずかな改善ではなく、大きな飛躍が見られるからです。
以前使用していたプレビューモデルは56.7%の精度で苦戦していました。o1では83.3%と改善が見られ、そしてo3ミニは中程度の努力レベルでも79.6%を記録しています。これは少ない計算能力で以前のベンチマークとほぼ同等の結果です。さらに、高努力レベルのo3ミニでは87.3%という驚異的な性能を示しています。
最適化された設定で、これまでの全ての競合モデルを凌駕するモデルを目の当たりにしているのです。皆さんには、これがどれだけ凄いことか分かっていないかもしれません。これは単なる数値の小さな上昇ではなく、能力の顕著な向上なのです。絶対に信じられないほど素晴らしいことです。
数学は素晴らしいですが、実世界での応用はどうでしょうか?誰もが一日中数学の問題を解いているわけではありませんからね。まあ、そういう人もいるかもしれませんが。
ここで博士レベルの科学的質問、GPQ-Aダイヤモンドの結果が重要になってきます。そしてまたしても同じパターンが見られます。中努力と高努力のo3ミニは、それぞれ76.8%と79.7%の精度で他の全てを上回っています。これは以前のモデルが78%以下に留まっているのと比べると、わずかな改善ではなく、一貫した全体的な性能向上なのです。
博士レベルの問題でより高い精度を機械が出せるということは、研究の加速や複雑なタスクの効率化など、大きな意味を持ちます。可能性はほぼ無限です。考えてみると本当に驚くべきことです。
さて、いよいよ本題のコーディングに入りましょう。o3ミニが真価を発揮するのはここです。単にコーディングが得意というだけでなく、exceptionally(例外的に)優れていて、信じられないほど高速です。
ライブベンチコーディングのデータに注目してください。もはや競争になっていません。この新しいo3ミニは、古いモデルを完全に置き去りにしています。数字は嘘をつきません。基本的なコーディング関連タスク用に設計された低レベルのo3ミニでさえ、o1の高レベルモデルを凌駕しているのです。
競技プログラミングのCodeForcesのスコアでも同じ傾向が見られ、o3ミニは努力レベルに応じて着実に向上し、最大2,130というELOスコアを記録しています。これは相当なコーディング能力です。開発者の方々は、このモデルに注目する必要があります。本当に信じられないほどの進歩です。
o3ミニがSTEMとコーディングで優れていることは分かりましたが、それを視覚的に見るとどうでしょうか。TwitterユーザーのFlavio Adamoが素晴らしいデモを見せてくれました。彼はo3ミニとDeepSeeker R1に、跳ねるボールと回転する六角形をコーディングする課題を出しました。
彼の言葉によると、o3ミニはR1を完全に打ち負かしたとのことです。実際に見てみると、その通りだと言わざるを得ません。o3ミニは驚くほど滑らかで現実的なシミュレーションを生成し、物理の動きも完璧です。流体の動きも印象的です。
DeepSeeker R1の試みも悪くはありませんが、その洗練さに欠けています。ボールの相互作用が正確ではありません。DeepSeeker R1はオープンソースの強力な競合相手として、この分野で真剣な挑戦者となっていることは認めるべきです。しかし、この直接対決では視覚的な差が歴然としており、o3ミニは競合相手を数段上回っています。
しかも、開発者が熱望していた機能、例えば関数呼び出し、構造化された出力、開発者メッセージなどを備えたo3ミニを展開していることを考慮に入れていません。実世界のユーザーからのフィードバックを設計に組み込んだようです。
さらに、ストリーミング機能も組み込まれており、最も素晴らしい点は、開発者が低、中、高の3つの推論オプションから選択できることです。これにより究極の柔軟性が実現されています。単に強力なモデルというだけでなく、使用することを前提に設計されたモデルなのです。これは本当に凄いことです。
その柔軟性について少し詳しく見てみましょう。これはゲームチェンジャーです。基本的に最適なトレードオフを選択する能力を与えてくれています。速度が必要な場合は低設定を使用し、どんなに遅くても最大限の力が必要な場合は高設定を使用し、バランスを取りたい場合は中設定を使用します。
3つの異なるモデルが1つのパッケージになっているようなものです。特定のタスクの要件に合わせて推論の努力レベルを上げ下げできる能力は、非常に重要です。しかも、全てが低遅延で実現されているのです。これは本当に信じられないほど素晴らしいことです。
そして彼らは爆弾を投下しました。ChatGPTの無料ユーザーも利用できるようになったのです。これは前代未聞です。推論モデルを全てのユーザーに、一銭も求めることなく開放したのは初めてのことです。無料プランのユーザーは、単に「推論」を選択するか応答を再生成することで、o3ミニにアクセスできます。これ以上何を望むことができるでしょうか。
このレベルの技術へのアクセスにおいて、これは本当にゲームチェンジャーです。OpenAIが何を計画しているのか、本当に興味深い推測を呼び起こします。これは単により良いモデルを作るということだけではなく、より大きな何かの布石を打っているように感じます。
これらの高度な機能をできるだけ多くの人々が利用できるようにしたいと考えているようです。o3ミニがo1モデルを凌駕しているにもかかわらず、一般的な知識についてはo1が最適であることを強調していることを考えると、将来何が起こるのか興味深いところです。
人間の選好テストについても忘れてはいけません。数字だけでは全体像を語れない場合があるからです。中努力レベルのo3ミニの応答が、o1ミニよりも好まれているのを目にしています。これはSTEM分野だけでなく、非STEM分野のタスクでも同様です。
これは、明確さ、正確さ、有用性において、人々が実感できる改善を感じているということです。人間の選好テストは非常に価値があります。なぜなら、機械が実世界でどのように機能しているかを示してくれるからです。皆さんには、これがどれほど驚くべきことか分からないかもしれません。機械が単に正しい答えを出すだけでなく、人間が好む方法で答えを提供しているということです。これは非常に重要なことです。
o3ミニは素晴らしいですが、完全版のo3が登場したらどうなるでしょうか?考えてみてください。これは単なる推測ではありません。サム自身から確認が取れています。彼はツイートで「o3ミニの新機能をもう1つ用意しています。最高のものは最後に取っておきました」と述べています。
これは単なるツイートではありません。AI業界全体を興奮させるように慎重に練られた声明です。何かを発表するとは言っていません。実質的に、素晴らしいものがもうすぐ来ると叫んでいるようなものです。彼は期待を高める方法を知っています。
皆さんはどう思いますか?ウルトラモードでしょうか?ドランクモードでしょうか?それとも全く別のものでしょうか?何であれ、注目しておく必要があると思います。なぜなら、o3ミニが最高のものを最後に取っておいたのなら、これは本当に何か大きなことの始まりだからです。
皆さんには注目していただきたいと伝えています。物事は急速に動いています。AIの革命は進行中です。このツイートが何かの前触れだとすれば、シートベルトを締めてください。これは凄まじい展開になるでしょう。


コメント