
2,296 文字

OpenAIがフラッグシップモデルを発表しました。これからの5分間で、これらのモデルについて知っておくべきことをすべてお伝えします。
最初の大きな話題は、経済学者のTyler Cowenがベンチマーク、ベンチマーク、あれこれと言っていることです。「AGIはピンと来るものだ。見ればわかる。そして私は見た」と。
しかし、これはAGIに近づいているとは言えません。このOpenAIの大々的な発表と5分間の動画から得るべき重要な教訓があるとすれば、それは「スケールが効く」ということです。OpenAIのモデルは、より多くの計算能力でより多くのトレーニングを繰り返し行ってきました。
これが教えてくれるのは、より多くの計算能力、より多くのデータ、モデルサイズが実際に効果を発揮するということです。テスト時のスケーリングも、トレーニング時のスケーリングも効果があります。どちらにしても、これらのモデルは特定のサイズのモデルをより多くのデータでより多くトレーニングしたものです。
モデル自体については、印象的なベンチマークがたくさんありますが、それらには微妙な違いがあります。特に重要なのは、OpenAIがこれらのベンチマークをツールありで示していることです。一部の数値はツールあり、一部はツールなしのものです。
これはどういう意味かというと、例えば「2 + 2」を尋ねたい場合、回答する方法は2つあります。モデルが獲得した知識だけを使う方法では、「2 + 2 = 4」となります。もう一つはツールを使う方法です。ベンチマークで「ツールあり」と表示されている場合、OpenAIはツールへのアクセスを提供していないか、特定のツールへのアクセスを提供しています。
この場合、コーディング競技であるCodes Forcesでは、OpenAIは最新モデルのo3をターミナルへのアクセス付きで提供しました。モデルにbashを与え、モデルは実行したいコードを走らせて、特定のスコアを獲得しました。ベンチマークや理解すべき微妙な違いがあるということです。それを念頭に置いておいてください。
共同創設者のGreg Brockmanは、これらのモデルは彼自身よりもコーディングが優れていると述べました。SweepBench Verifiedというベンチマークを見ると、o3は69点、o4 miniは68.1点でした。
参考までに、同じベンチマークでClaude 3.7 Sonnetは補助なしで62.3%、より能動的にする異なる補助を使うと70.3%のスコアを獲得しています。したがって、OpenAIが発表したものが驚異的に異なるとは思いません。o3 highは81.3%のスコアを獲得していますが、おそらく後で利用できるようになるo3 highや、o3のプロユーザーがアクセスできるo4 mini highへのアクセスは現時点ではないでしょう。
このモデルが特に優れているはずの一つの点は、エージェントのユースケースです。o3とo4 miniはすべて、エージェントとツール呼び出しにおいて既存のモデルよりもはるかに優れているはずで、ベンチマークからもそれが見て取れます。これらのモデルは基礎からエージェントとシームレスに連携するようにトレーニングされています。
また、o1やo3 miniよりも安価であるという点も注目に値します。以前はo1で行っていた同じタスクを、現在はo3 high、o3 medium、o3 lowでより低コストで、同様のパフォーマンス、実際にはさらに優れたパフォーマンスを得ることができます。全体として、これらのことがこのモデルを開発者にとって良い選択肢にするでしょう。
私が思うに、ここで最も興味深いのはベンチマークではなく、OpenAIが「画像による思考」と呼ぶものを試みたことです。ベンチマークは本当に良いもので、このモデルはClaude 3.7とほぼ同等で、異なるベンチマークでは3.7よりもはるかに優れています。
最も重要なのは、OpenAIが「画像による思考」という新しい概念を作り出したと主張していることです。これはマルチモーダルな推論モデルのようなものです。画像を与えて質問すると、OpenAIはズームイン、トリミング、画像の反転、変換、フリップなど、正しい答えを得るためにあらゆることができるPythonツールなどのツールを持っています。私の意見では、これがこの特定のモデルファミリーで彼らが行った最良のことの一つです。
モデルは非常にシンプルで、「最高、最高、最高」というものです。o3とo4 miniが新しいモデルであり、Chat GPT Plusのサブスクリプションを持っていれば、すぐに使用できます。ドロップダウンをクリックすると、o3とo4 miniが表示されます。
o3は高度な推論を使用し、o4 miniは最新モデルで、コーディング関連のタスクに最適なのはo4 mini highです。しかし、実際にはもっと良いニュース、あるいは今日最大のスクープは、OpenAIがVinesurfという30億ドルの価値があるコーディングエディタの買収交渉を行っているということです。OpenAI自体はClaude Codeとほぼ同等のOpenAI Codexというものを持っています。
これでOpenAIが今日発表したことの速報は以上です。モデルを使ってみて、Tyler Cowenが間違っているかどうか教えてください。コメント欄でお知らせください。また別の動画でお会いしましょう。ハッピープロンプティング!


コメント