GPT-4.5:OpenAIの最も興味深いモデルとは?

AGIに仕事を奪われたい
この記事は約8分で読めます。

4,722 文字

https://www.youtube.com/watch?v=CH8hJ7bVXZQ

OpenAIがGPT-4.5を発表しました。おそらく彼らがこれまでにリリースした中で最も興味深いモデルの一つでしょう。彼らによれば、これはフロンティアモデルではなく、GPT-4の計算効率を10倍以上向上させたものです。しかし、このモデルの価格はGPT-4oの約30倍です。パフォーマンスはGPT-4oと比較すると良好ですが、他の最先端モデルと比較すると、まったく近いとは言えません。
では、なぜ彼らはこのモデルをリリースしたのでしょうか?その答えは、OpenAIの前チーフリサーチオフィサーであるBob Mの投稿にあると思います。彼は「GPT-4.5がo1より賢くないことに失望しないでください。事前学習のスケーリングはレスポンスを全体的に改善し、推論のスケーリングは思考時間が利益をもたらす場合に大幅に改善しますが、それ以外ではあまり変わりません」と述べています。
つまり、GPT-4.5は非常に強力なベースモデルであり、OpenAIはこれをベースに構築していくということです。その上に構築する推論モデルは、これまで見てきたものよりもはるかに強力になるでしょう。このモデルは巨大で、OpenAIがこれまでに開発した中で最大かつ最も知識豊富なモデルです。正確なサイズはわかりませんが、参考までに、あるツイートでは「バージョン番号の.5は、おおよそ事前学習の計算量が10倍になることを意味する」と述べられています。
これについて考えてみてください。それを基準にすると、このモデルはGPT-4oまたはGPT-4の10倍の計算量で、それでも10倍計算効率が良いとされています。そしてOpenAIでさえ、この10倍計算効率の良いモデルを提供するのに苦労しています。
Sam Altmanのツイートによれば、「GPT-4.5の準備ができました。良いニュースは、これが私にとって思慮深い人と話しているように感じる最初のモデルだということです」と述べています。彼は「AIから実際に良いアドバイスをもらって、驚いて椅子に背中を預けた瞬間が何度かありました」とも言っています。悪いニュースは、このモデルを最初からすべての人に提供するわけではないということです。
彼は「これは巨大で高価なモデルです。Plusユーザーとプロユーザーに同時にリリースしたかったのですが、成長が著しく、GPUが不足しています」と述べています。ここでの唯一の勝者はNVIDIAでしょう。彼らは来週に数万台のGPUを追加し、その後Plusティアにロールアウトする予定です。
最も興味深い点は、これが推論モデルではなく、ベンチマークでは突出した成績を出さないということです。実際にそれを確認できますが、これは基盤モデルとして推論モデルのトレーニングには非常に強力なモデルになると思います。
彼らはブログ投稿よりも多くの情報を含むシステムカードもリリースしました。まずはブログ投稿を見て、その後システムカードを見てみましょう。
彼らはこれをGPT-4.5のプレビューと呼び、これまでで最大かつチャットに最適なモデルだと述べています。ただし、彼らは実際のコーディング能力ではなく、特に「バイブス(雰囲気)」に焦点を当てています。彼らによれば、事前学習と事後学習のスケールアップにおいて前進しており、パターンの認識、異なる接続の描画、そして推論なしで創造的な洞察を生成することに非常に優れているようです。これは推論モデルではなく、IQよりもEQ(感情知能)に焦点を当てているようです。
大規模言語モデルのトレーニングには2つの異なるパラダイムがあります。一つは推論をスケールアップするもので、o1やo3 miniのような新世代のモデルがこれに当たります。他の例としては、Grok Thinking、Gemini Thinking、R1などがあります。これらのモデルは、応答する前に考え、思考の連鎖を生成できるため、複雑なSTEM(科学、技術、工学、数学)や論理的問題に取り組むことができます。
しかし、創造性を高め、より良い「バイブス」を持たせたい場合は、世界モデルの精度と直感を向上させる教師なし学習に焦点を当てることができます。GPT-4.5はそのようにトレーニングされているようで、計算能力、データ、アーキテクチャ、最適化の革新をスケールアップすることで実現しています。
疑問は、このモデルに基づいてスケーリングの壁に当たっているかどうかですが、そうではないようです。ただし、ベンチマークでのこのモデルのパフォーマンスは、期待されていたほど優れてはいません。
彼らは2018年にトレーニングされたGPT-1からGPT-4.5までの応答の小さなスニペットを投稿しています。これらのモデルがどのように進化してきたかを理解するために、ぜひ確認することをお勧めします。
例えば「最初の言語は何ですか?」という質問に対して、GPT-1は基本的に同じことを繰り返すだけでした。GPT-2は実際に意味をなす最初のモデルでしたが、応答はそれほど素晴らしくなく、より一貫した応答を生成できるようになっただけでした。当時、OpenAIはGPT-2があまりにも危険であり、人々が大規模言語モデルを悪用するだろうと言って、リリースを望んでいませんでした。
その後、3.5では応答がより詳細になり、これが世界を震撼させ、この革命を始めたモデルです。GPT-4 Turboも比較的冗長で、そしてGPT-4.5があります。あなたの好みや嗜好に基づいて、GPT-4.5からの応答をGPT-4やTurboよりも好むかもしれませんし、その逆かもしれません。しかし、このモデルは現時点では主に「バイブス」に関するものです。
彼らはバイブスに焦点を当てているため、特に人間との協力に焦点を当てています。彼らはモデルに人間のニーズと意図のより深い理解を教え、そのトレーニングに基づいて、人間は場合によってはGPT-4.5からの応答をGPT-4oよりも好むようです。
人間の好みに基づくこのシステムをゲーム化することも可能です。例えば、チャットボットアリーナリーダーボードでは、モデルがより冗長な応答を作成していると、人々は通常それらの応答を好むことを一部のモデル作成者が理解しています。チャットボットアリーナリーダーボードで非常に高いスコアを獲得するモデルもありますが、実生活での使用は限られています。GPT-4.5ではどうなるか見てみる必要があります。
このビデオで何度も言及したように、これは推論モデルではありません。しかし、OpenAIはこれを事前学習によってより賢く、より知識豊富になる可能性があり、このようなモデルは推論やツールを使用するエージェントにとってさらに強力な基盤モデルになると述べています。
現在の状態では、ツールの使用に非常に適しているオプションではない可能性があります。これはWindsurfの作成者であるCodiumのCEO、Vun Moanのツイートでも強調されています。彼は「GPT-4.5がWindsurfでロールアウトされています。限られたテストから、Sonetなどのモデルよりも高価で、遅く、ツール呼び出しが劣っています」と述べています。
では、ChatGPTでGPT-4.5をどのように使用するのでしょうか?プロユーザーであれば、すでにアクセスできるはずです。私のようなPlusユーザーは、おそらく来週アクセスできるようになり、検索機能、アップデート、画像アップロード、そしてキャンバス機能を使用できるようになります。ただし、現在はChatGPTでの音声、ビデオ、画面共有などのマルチモーダル機能をサポートしていません。
開発者はAPIを通じてこれを使用できますが、これは非常に大きく、計算機集約的なモデルであり、より高価で、GPT-4oの代替にはならないと彼らは述べています。どれくらい高価かというと、100万トークンあたり75ドルです。比較すると、GPT-4は100万トークンあたりわずか2.5ドルです。おそらくこれは、私がこれまでに見た中で最も高価なモデルでしょう。
使用例については、創造的なタスクとエージェント計画のために設計されており、現在は128,000のコンテキストウィンドウを持つ研究プレビューで利用可能だと彼らは述べています。では、エージェントやコード関連タスクでどれほど優れているのでしょうか?結果はそれほど印象的ではありません。
システムカードでは2つの異なるバリエーションが報告されています。一つは事前調整、もう一つは事後調整です。一般的に、元のGPT-4oよりも少し優れていますが、常にo1やo3 miniよりも遅れています。これはOpenAIのリサーチエンジニアの面接質問の例です。多肢選択問題では、確かにGPT-4oよりもはるかに優れていますが、O3 miniと同等だと思います。
Sweep Benchでは、GPT-4oよりもはるかに優れていますが、OpenAIはここでオープンウェイトモデルや他のフロンティアモデルを含めていません。例として、DeepSeek 3のようなオープンウェイトモデルと比較してみましょう。
これらの結果から、2つのことに気づくでしょう。Sweep BenchでのGPT-4.5のスコアは38%で、GPT-4o(元のバージョンと思われます)は31%、最新バージョンのGPT-4oは38.8%で、実際にはGPT-4.5よりも優れています。しかし、DeepSeek 3のような他の最先端のオープンウェイトモデルと比較すると、遅れを取っています。DeepSeek 3は推論バージョンのR1ではなく、わずか6000億パラメータしかなく、GPT-4oやGPT-4.5と比較すると、おそらく何桁も小さいでしょう。
Samのツイートに戻ると、ベンチマークではそれほど良い成績を出さず、おそらくはるかに良い「バイブス」を持つでしょうが、そのバイブスはコーディングではなく、クリエイティブライティングのみに適用されます。実際、彼らのライブデモ中にも単一のコーディングタスクを行わず、このブログ投稿でも単一のコーディングタスクやコーディングデモを見ることはないでしょう。
まとめると、これは非常に興味深いリリースですが、おそらく革命的なものではなく、モデルはこれまで見てきたものと比較して、より良いEQを持っているかもしれません。彼らがAPIに設定している価格を考えると、おそらく本番システムでこれを実行することは事実上不可能でしょう。
アクセスと価格設定に関しては、フロンティア基盤モデルに関して2つの異なるグループが形成されつつあります。一つはOpenAIのように、より多くの高価な機能でエリート化が進んでいるグループです。一方、Googleのように最高のモデルを持っていないかもしれませんが、ほぼすべてのモデルを完全に無料で提供しているグループがあります。これは驚くべきことです。その間に、Anthropicがあり、十分なGPUを調達できないため需要に追いつけておらず、中国から出てくるモデルは通常、ウェブインターフェースで無料アクセスを提供し、APIの価格も非常に競争力があります。
これらすべてについてどう思うか教えてください。いくつかの非常に興味深いグループが形成されていると思います。この動画が役立ったことを願っています。視聴いただきありがとうございます。いつものように、次回もお会いしましょう。

コメント

タイトルとURLをコピーしました