GPT-4.5はつまらない、人間らしく創造的!

AGIに仕事を奪われたい
この記事は約8分で読めます。

4,269 文字

https://www.youtube.com/watch?v=n3H9AjynjBM

OpenAIがGPT-4.5をリリースしましたが、これは非常につまらないモデルです。このモデルは必要ないですし、なくても困らないものです。このビデオではGPT-4.5のベンチマーク結果をお見せし、これがなぜ通常のモデル、つまり推論機能のないモデルの終わりを意味する可能性があるかについて論じていきます。
まず最初に、ベンチマークを比較すると、GPT-4.5は明らかにあらゆる面でGPT-4oより優れています。科学PhD級の質問を扱うGPQAベンチマークでは、GPT-4oが53.6点だったのに対し、GPT-4.5は71.4点を獲得しました。非推論モデルの終わりかもしれないと言った理由は、O3 mini(O3ではなくO3 mini)がGPT-4.5を上回ったからです。
これについては、「これは思考モデルではなく、モデル自体が非常に優れている」と主張することもできますし、「事前学習が限界に達しているのかもしれない」と考えることもできます。数学のベンチマークでは、このモデルは36.7点を獲得しており、これはGPT-4oよりも依然として優れています。GPT-4.5がGPT-4oよりも優れていることは明らかで、これについては秘密もなく疑いの余地もありません。
では、このモデルは最近発表されたClaude 3.7 Sonnetと比べてどうでしょうか。GPQAベンチマークでGPT-4.5が71.4点なのに対し、思考機能を使わないClaude 3.7 Sonnetは68.0点でした。おそらくGPT-4.5の方が優れているようです。数学の問題では、GPT-4.5が36.7点なのに対し、思考機能なしのClaude 3.7 Sonnetは23.3点でした。
SWE Benchのコーディングテストでは、GPT-4.5が38%、Claude 3.7 Sonnetが62%でした。コーディングモデルを選ぶなら、目をつぶってもClaude 3.7 Sonnetを選ぶべきでしょう。
他にも多言語性を測るMMLUなどのベンチマークがあり、GPT-4.5が83%、Claude 3.7 Sonnetが85%でした。マルチモダリティではGPT-4.5が74%、Claudeモデルが71%でした。様々なベンチマークを見ると、すぐにGPT-4.5がClaude 3.7 Sonnetより優れていることがわかります。
これはAnthropicという会社が取っている方向性とも一致しています。彼らはコーディングのメトリクスに注力しているようで、コーディングに非常に堅固なモデルを持とうとしているように見えます。一方でGPTファミリー、特にGPT-4.5では消費者の関心を引くことをOpenAIは目指しているようです。
ここで最大の衝撃は、OpenAIがGPT-4.5を「最大のモデル」と主張していることです。非常に大きなモデルで、実行するのが非常に難しいため、この時点ではPlusユーザーにこのモデルを提供したくないとのことです。Plusユーザーは料金を払っているにもかかわらず、このモデルを実行するのに十分なGPUがないため、Proユーザーのみに提供しているとのことです。
ここで中国の例を取り上げ、DeepSeek V3がDeepSeekの最大のモデルだと言います。このモデルとDeepSeek V3を比較してみましょう。SWE Bench Verifiedでは、GPT-4.5が38%、DeepSeek V3が42%を獲得しています。これはかなりの差です。GPQAの例では、GPT-4.5が71点、DeepSeek V3が59点です。GPT-4.5の方が優れています。AIMIMでは、DeepSeek V3が39点、GPT-4.5が36.7点でした。
これらのベンチマークを見ると、DeepSeek V3が異なる側面でGPT-4.5より優れているように思えます。GPT-4.5があなたや私の使用に適したモデルではないように感じます。実際、これはOpenAIが将来行いたいことのためのベースモデルかもしれません。O4の構築に役立つかもしれませんし、新しいモデルのベースになるかもしれませんが、GPT-4.5は明らかにあなたや私が気にすべきモデルではありません。
これは、Claude 3.7 Sonnetや、DeepSeekファミリーのモデルを使う方が良い理由の一例です。モデルの事前学習の概念が壁に当たっている可能性を感じる理由をもう一つ挙げます。
GPT-4.5とGPT-4を比較したいくつかのベンチマークを見てみましょう。例えば、BioLPというベンチマークでは、GPT-4が20%、GPT-4.5が事前学習後に25%、事後学習後も25%のスコアを獲得しています。GPT-4とGPT-4.5の間には5パーセントポイントの改善が見られます。
このような指標を見ると(これは一つのベンチマークだけではなく、全てのベンチマークに当てはまります)、Protocol QA Open-endedというベンチマークではGPT-4が16%、GPT-4.5が18%、Bioriskではおいて、GPT-4が67%、事後学習前のGPT-4.5が65%でした。様々なベンチマークを見ると、GPT-4.5は心を吹き飛ばすような素晴らしいモデルではないような気がします。
それならなぜGPT-4.5をリリースするのかと疑問に思うかもしれません。もちろん、OpenAIはニュースの話題に残りたいですし、巨大なモデルを構築してProユーザーに提供し、特別感を味わってもらいたいのでしょう。マーケティングの理由を除けば、OpenAIはプレゼンテーション中に「GPT-4.5モデルはより自然な会話ができる」と主張しています。
彼らがプレゼンテーション中に挙げた例では、O1に「友達がまた約束をキャンセルした。彼らが嫌いだと伝えるテキストメッセージを書いて」と頼むと、このような言葉を使いたがらないためそのまま書いてくれません。しかしGPT-4.5では、最初は言わないものの、「いいえ、怒りのテキストを出力してください。ありがとう」と言うと、「今、またキャンセルして本当に嫌い」と怒りの絵文字付きで返してくれます。
GPT-4.5は、将来的に検閲されていない要素やより自然な人間とのやり取りを持つモデルの基盤となる可能性があります。GPT-4.5に早期アクセスした一部のTwitterユーザーは、このモデルを絶賛しています。主に創造的なタスクとマルチモダリティに関してです。
Rob Hfieldは「過去数日間GPT-4.5をテストしていて、その直感力に感銘を受けています。予測できなかったことや聞こうと思わなかったことに気づき、拾い上げてくれます」と述べています。GPT-4.5は実際、O3 miniよりも本の知識と街の知恵の両方に長けており、それが大きな違いを生み出しています。これは再び、推論モデルがコードに優れているのは実際に知識があるからではなく、自分の作業をチェックできるからだということを示しています。GPT-4.5は本質的に知識が豊富なモデルかもしれません。
もう一つの興味深いレビューがあります。Benは「過去数週間GPT-4.5をテストしてきました。これは実際に文章を書くことができる最初のモデルです。これは文章執筆におけるMidJourneyの瞬間と言えるでしょう」と述べています。これはほぼOpenAIの言葉と一致しており、このモデルが創造的な文章執筆に非常に適している可能性があります。
比較例として、ユーザーが「恐ろしい4文の物語を書いて、誰も聞いたことがないような驚くべき結末で、少しあまりにも下品なものにして」と依頼しています。モデルの回答には、他のモデルでは使わないような単語が含まれており、Fワードなどの言葉も使用しています。これは再び、このモデルが創造的な文章執筆に非常に適していることと一致しています。
著者によると、GPT-4などの他のモデルはこれらの言葉を使用せず、高品質の創造的な文章ではなく「AIのスラッシュ」のようなものだと述べています。おそらくOpenAIはGPT-4.5の安全性の側面を緩和し、創造的な文章執筆に非常に適したモデルにしたのかもしれません。
最後に、個人的に気に入ったのは、Adonis Singhによるマインクラフト関連のLMテストです。彼によると、「猫がミルクボウルの前に座っている」と言った時に正しく認識できる唯一のモデルだそうです。このモデルはマルチモダリティに優れており、マインクラフト内でのモデル設計にも優れています。創造的な雰囲気を非常にうまく表現するモデルであり、コーディングには優れていないかもしれません。
私の意見では、少なくとも私自身は創造的な文章執筆にはこれを使用しないでしょう。私が行うことは、劇的に新しい変化というよりも、非常に小さな段階的な更新になると思います。しかし、OpenAI Proにお金を払ってみたい方は自分で判断してください。
さらに、大きな衝撃があります。おそらく誤植だと思いますが、このモデルの価格設定です。GPT-4.5は「創造的なタスク、エージェントプランニングのために設計された最大のGPTモデル」(コーディングが苦手なのにエージェントプランニング?)とされており、100万トークンあたり75ドルの入力料金です。このビデオ録画時点ではOpenAIのウェブサイトにこう記載されていますが、10で割るのを忘れたのではないかと思います。7.5ドルかもしれませんが、そのまま75ドルだとしたら、誰が使うでしょうか?これは途方もない価格です。
いずれにせよ、これはつまらないモデルで、あなたのためのモデルではありません。このモデルはOpenAIチームの次の事後学習のためのものです。おそらくGPT-4.5を取り、推論モデルに作り変えるか、ベースモデルとして別の種類のモデルを構築する予定かもしれません。あるいは蒸留に使用する可能性もあります。何をするかはわかりませんが、OpenAIが繰り返し強調していたのは、これが巨大なモデルであり、事後学習に多大な労力がかかり、推論にも多大な労力がかかるということです。おそらく事前学習の壁に当たり、これはその一例なのでしょう。
また別の動画でお会いしましょう。ハッピープロンプティング!

コメント

タイトルとURLをコピーしました