
2,175 文字

ChatGPT 4.5が今日、約1時間ほど前にリリースされました。多くの人が混乱しているので、その戦略について話していきます。正直なところ、混乱するのも当然の理由があります。まず、4.5は高価です。それを具体的な金額で示すと、100万トークンあたりの価格設定になっています。
数日前にリリースされたClaude 3.7 Sonnetの場合、出力コストは100万トークンあたり115ドル、入力コスト(何かを送信する場合)は100万トークンあたり3ドルです。比較すると、今日リリースされたChatGPT 4.5の出力コストはその10倍、100万トークンあたり1500ドルです。入力コストは100万トークンあたり75ドルで、3ドルと比べると圧倒的に高く、25倍もの差があります。
計算コストの高さは現実のものです。非常に現実的なので、Sam Altmanは現時点ではProプラン利用者にしかこれをリリースできませんでした。Plusプランはまだ待つ必要があるようです。彼らは何万個ものGPUを追加していると言っています。これを考えると、Nvidiaの株価が今日8〜10%ほど下落したのは実に皮肉です。Sam Altmanがこのモデルを提供するためにどれだけの計算能力を追加する必要があるかについて文字通り語っているのに、人々は「なぜ推論機能のないモデルにこれほどの労力をかけるのか」と考えているからです。
O1 Proは推論し、O3も推論します。Claude 3.7 Sonnetはハイブリッド型のモデルで、必要に応じて推論したりしなかったりします。コードに特化しており、これは高価値のユースケースです。
OpenAIの戦略はレゴブロック型のプレイだと言えます。ChatGPTはマーケットリーダーであり、チャレンジャーではありません。Claudeはチャレンジャーなので、特化する必要があり、コードに特化しています。ChatGPTはマーケットリーダーとして市場を率いるためにあらゆる基盤をカバーする必要があります。つまり、Deep Researchだけを作ったり、O1 Proだけを推論用に作ったりして勝てるわけではありません。彼らが持つ数億人規模のユーザーベース(唯一の存在)を獲得するためには、すべてをうまくこなすモデルを作る必要があります。
このモデルがうまくやろうとしているのは、ベンチマークでは捉えられない新しいニュアンスですが、ChatGPTは長期的な成功のための重要な構成要素だと考えています。彼らは感情知能、ニュアンスのある文章スタイル、驚きを与える能力を強調しています。これらはAIM評価には表れませんが、実世界でのユーザーとのやり取りには現れるものです。
長期的な賭けは、計算コストを下げ、すでに持っている他のモデルとハイブリッド化し、第2四半期までにGPT-5を作ることです。そのGPT-5には4.5のおかげで感情知能が組み込まれ、推論部分やその他の要素も含まれるでしょう。今日リリースされたものだけで4.5を判断すると、おそらく正しく評価できていません。ChatGPT 4.5は、ChatGPTのカスタマーエクスペリエンスをより魅力的で持続的なものにするために、最後のレゴブロックを所定の位置に配置したものとして見る必要があります。
したがって、今後のChatGPT 5、6、7などは、これらの複雑な基本要素を正しく理解することに依存しています。計算コストから考えると、感情知能、ニュアンス、驚きを与える能力は非常に計算集約的であり、それは私にとって驚くことではありません。これらはマシンにとって本当に難しいことのようです。もしマシンがこれらを非常にうまくできるなら、それは本当に大きなことです。それは真に新しいことであり、測定が難しくても本当に重要な成果です。
これがSam AltmanがGPT 4.5で行っていることであり、なぜ実世界での評価とパフォーマンスや能力についての実世界での会話が重要なのかを改めて示しています。これらのベンチマークでは十分ではなく、これらのことを教えてくれないからです。私たちはこれに慣れる必要があります。
もう一つの良い例はClaude 3.7です。コードに関してより意見を持つように作られていることが話題になっています。これは設計上の決定であり、評価には表れないけれども非常に重要な設計上の決定です。あなたはそれに同意しないかもしれません。より柔軟なモデルが欲しいと言って、実際に3.5 Sonnetを使いたいと思うかもしれません。または同意して、これが提供する構造が好きで、特定のコード構築方法を主張してくれることが、足場が整っているのでより速く構築するのに役立つと思うかもしれません。
あなたは意見を持つことができますが、その意見を持つにはモデルが何をするのかを知る必要があります。そして私たちは、ここのような場所で掘り下げて話す以外に、それを行う良い方法を持っていません。より良い評価方法が必要です。
ともかく、それがGPT 4.5であり、その戦略であり、今後の展開です。Proプランに加入している方は試してみて、感想を教えてください。現在はProプランでのみ利用可能で、来週Plusプランにも提供される予定です。


コメント