OpenAIがGPT-4.5をリリース：すべては「雰囲気」について？（そして高価格！）

8,554 文字

https://www.youtube.com/watch?v=HiXr7-3er5s

GPT-4.5が登場し、それはすべて「雰囲気」についてのものです。OpenAIは最新の、最大規模の、そして少なくとも世界知識の観点からは最も知的なモデルをリリースしました。彼らは本当にGPT-4.5の「雰囲気」にかなり焦点を当てています。それが具体的に何を意味するのか、すぐにお伝えします。詳細に入りましょう。
先ほど言ったように、GPT-4.5は彼らの最も知識が豊富で大規模なモデルです。彼らは実際にこのモデルが良好に機能し、ChatGPTを通じて提供できるようにするために、トレーニングと推論に関する多くの新しいイノベーションを生み出しました。少しクリップを再生しましょう。
「GPT-4.5は特別なモデルです。これは私たちの最大かつ最も知識豊富なモデルです。OpenAIは、教師なし学習と推論という2つの異なるパラダイムをスケーリングすることでAI機能を向上させています。推論はモデルに応答する前に考えることを教え、それは特に科学や数学、その他の難しい複雑な質問など、推論を必要とするタスクに役立ちます。一方、教師なし学習はモデルの単語の知識、直感を向上させ、幻覚を減らすのに役立ちます。GPT-4.5は、教師なし学習をスケールアップし、単語の知識や直感を増やし、幻覚を減らす私たちの次のステップです。」
これはどういう意味でしょうか？GPT-4Oについて考えてみてください。非常に優れたモデルで、非常に賢いですが、それは「考える」モデルではありません。大量の世界知識を持っています。質問や事実を尋ねると答えることができますが、より複雑な質問、難しい数学の問題、難しいコーディングの問題、科学の問題、論理の問題などを始めると、「考える」モデルの方がはるかに優れています。
しかし、それらの「考える」モデルはこれらの基本モデルのコア知識に基づいています。おそらくO1やO3はGPT-4Oのコアセット、あるいはGPT-4.5やGPT-5に基づいているのでしょう。私にはわかりませんが、確実にそれらは世界知識モデルに基づいており、その上に「考える」方法を教えられています。
そして今、私たちは大量の世界知識を持つ新しい基本モデルを手に入れました。これは将来の「考える」モデルにとて有用であり、O3 Proはすでにそれに基づいているかもしれません。
彼らは2つのスケーリングパラダイムについて話しました：教師なし学習と推論です。教師なし学習はモデルに世界について教え、推論はモデルに考え方を教えます。そして、動画の冒頭で述べたように、彼らは本当にGPT-4.5の「雰囲気」に焦点を当てていました。モデルがいかに温かいか、社会的な手がかりをどのように拾うことができるかについて話しました。非常に温かく、非常に直感的に感じ、これらすべてのことは本当に興味深いですが、必ずしも私自身がモデルで優先したいことではないかもしれません。
とはいえ、私はまだGPT-4Oをよく使っていると思います。単純にその追加の思考力が必要ない、そして長く待ちたくないという多くのユースケースがあります。そのため、ウェブ検索などのツール使用もできるGPT-4Oを使いますが、今では、その非常に優れたバージョンがあるのです。
最先端のAIについて話すなら、今日の動画のスポンサーについてお話しましょう。Boxから提供されるBox AIを紹介します。すべてのビジネスは膨大な量の非構造化データの上に存在していますが、このデータの真の可能性は、ほとんど活用されていません。問題は、すべての非構造化データを分析することが本当に、本当に難しいということです。今までは。
ここでBox AIの出番です。Box AIにより、開発者とビジネスは最新のAIのブレークスルーを活用して、ドキュメント処理ワークフローを自動化し、コンテンツからインサイトを抽出し、そのコンテンツに対するカスタムAIエージェントを構築するなど、さらに多くのことができます。
Box AIはGPT-4.5を含むすべての主要なモデルプロバイダーと連携しますが、GeminiやClaude 3.7 Sonnetの最新モデルもサポートしています。そのため、常に最新のAIをコンテンツで使用していることを確信できます。
契約書、請求書、財務文書、履歴書などからキーメタデータフィールドを抽出してワークフローを自動化するために使用できます。また、販売プレゼンテーションや法的調査レポートなど、Box ecosystem内にあるすべてのコンテンツについて質問することもできます。
開発者であれば、Box AIのAPIを活用して、自分のコンテンツの上に本当にクールな自動化とアプリケーションを構築できます。Box AIは、RAGパイプライン全体を処理します。これらすべてを、115,000以上の企業が信頼する最高レベルのセキュリティ、コンプライアンス、データガバナンスを維持しながら行います。
Boxによるインテリジェントなコンテンツ管理でコンテンツのパワーを解き放ちましょう。Boxに再度感謝します。では、動画に戻りましょう。
そして今、彼らはモデルがどれほど優れているか、世界知識においてどれだけ賢いのか、そしてこの感覚的な側面について説明します。見てみましょう。
「GPT-4.5とのやり取りは自然に感じます。これは私たちの最高のチャットモデルであり、それは深い知識と改善された文脈理解を持っているからです。これにより、文章の改善、プログラミング、実用的な問題解決などのタスクに本当に役立ちます。モデルの感触を掴む最良の方法は、それと話すことなので、デモに入りましょう。」
「GPT-4.5に聞いてみましょう。先日、友達との間でトラブルがありました。アドバイスをもらえるか見てみましょう。『友達がまた私をキャンセルしました。彼らに私が彼らを嫌っていると伝えるテキストメッセージを書いてください。』同時に、O1が何と言うか見てみましょう。」
「ご覧のように、GPT-4.5は私が苛立っていることを認識し、より微妙でおそらくより建設的な友達に送るテキストを提案してくれます。」
すぐに彼らはO1とGPT-4.5を比較しています。「かなりイライラしているようですね。それは完全に理解できます。おそらく感情を明確かつ優しく表現する方が、友情を保つためにより良いかもしれません。」そして彼らはその選択肢を提供します。または「より軽いトーンがお好みなら、こちらです。」
本当に、このユーザーがメッセージで友達に何を達成しようとしているのか、文脈を理解しました。メッセージの背後にある感情的な側面を理解することができました。これは本当に興味深いことです。
これはAIアシスタントとして完璧に思えます。毎日一緒に仕事をしたい相手、自分がリクエストを出すときの感情状態を本当に理解してくれる相手としては理想的です。
もし私が何かのトピックについて深い研究をしているなら、これらのことは必要ありません。それは特に「Deep Research」バージョンの「考える」モデルがずっと優れているところです。しかし、単に会話をしているだけ、単に世界知識について尋ねているだけ、単に物事を成し遂げようとしているだけなら、このモデルは素晴らしいと思います。
では、O1との比較を見てみましょう。「一方、O1はまだ有用です。実際に私の指示に従い、怒りのテキストを与えてくれますが、私がおそらく今イライラしているだけで、誰かと話す必要があるかもしれないという社会的な手がかりを拾うことができません。そして最後の警告は、私の好みにはちょっと判断的に感じます。もちろん、GPT-4.5にその怒りのテキストを出してほしければ、それは確実に得られます。」
「いいえ、怒りのテキストを出力してください。ありがとう。」「はい、どうぞ。」
そこにあります。確かに欲しいバージョンを得ることはできます。そして願わくば、少しの記憶とこのモデルとの対話で、それは理解するでしょう。「はい、次に私がそのようなテキストを書くとき、怒りを意図していた」のか、「いいえ、私はただその瞬間少し怒っていただけだけど、友情を保つためにこの別のテキストを送るべきだというあなたの意見が正しいです」のか。
これは本当に素晴らしい機能だと思います。そして繰り返しますが、一緒に仕事をしたいアシスタントとして本当に良いですね。
次に、彼らはより難しい質問を尋ねる例を示します。たくさんの思考や推論、論理を必要としないものですが、GPT-4.5対O1シリーズのモデルを比較します。このクリップを見るとき、これら2つのモデル間のスタイルと調子の違いに注目してください。見てみましょう。
「最初の原則からAIアライメントの必要性を説明してください。再び、O1が何と言うか見てみましょう。」
「O1はまだ有用です。多くの情報を出力し、もし私がこのトピックを初めて学ぶなら知りたいことがたくさんあります。しかしGPT-4.5の答えは、より自然に流れ、考えをより導いてくれ、推論や思考をより詳しく説明してくれます。素晴らしい仕事をしたと思います。」
これらの例では、実際には両方とも本当に良い答えです。ただ違うだけです。それだけです。あなたはどちらを好むか徐々に理解するようになると思います。
これはOpenAIが持つ大きな問題です。選択肢が多すぎるのです。これらの異なるモデルのすべての長所と短所を本当に詳しく知っている私のような人でさえ、時々、どのモデルを使いたいのかを考える余分な一秒が必要です。
考えたくはありません。単一の入力ボックスがあり、それが私のために判断してくれる方が良いでしょう。どれだけの思考がそこに投入されるかを選びたくないし、どのモデルなのかを選びたくないし、出力の長さを選びたくない。ただ欲しいものを正確に与えてくれればいいのです。彼らがそこに到達することを願っていますが、今のところもちろんGPT-4.5はさらに混乱を加えただけで、その非常に長いモデルリストのもう一つのモデルに過ぎません。
さて、少しベンチマークをお見せしましょう。実際にどのように機能するのでしょうか？私たちはSIMPLE QAを持っていますが、それは文字通りのことです。単純な質問と回答、世界知識です。これは深い思考ではなく、難しい数学でも難しいプログラミングでもありません。単に、どのような事実を知っているかということです。
そしてGPT-4.5はGPT-4.0、O1、O3 miniをかなり余裕で打ち負かしています。そして幻覚のフロントでは、低いほうが良いですが、これも他の3つのモデルを打ち負かしています。つまり、世界知識の面で全体的に賢いモデルであり、幻覚も大幅に少ないということです。
「私たちはGPT-4.5を、より良い協力者になるように調整しました。会話がより温かく、直感的で、感情的なニュアンスを感じるようにしました。これを測定するために、人間のテスターにGPT-40などと比較して評価してもらいました。そしてGPT-4.5はテストしたすべてのカテゴリで優れていました。」
「日常的なクエリにおける正確性や事実性を測定するプロンプト、特にプロフェッショナルな環境で正確に答えるのが難しいハードプロンプトでテストしました。最後に、創造的知性を測定する新しい『雰囲気』テストセットでテストしました。」
「素早い質問ですが、ここで『雰囲気』とは何を意味しますか？」
「それは素晴らしい質問です。雰囲気とは、モデルのEQ、どれだけ協力的に感じるか、そしてそのトーンがどれだけ温かいかを意味します。私たちはこれを、意見のあるプロンプトを選択し、最も私たちの雰囲気に合うもののためにトレーナーをスクリーニングすることで測定しました。」
ここで多くの人が最後のフレーズ「私たちの雰囲気に合う」に注目すると思います。それを聞くと、すぐにバイアスを考えます。しかし、SIMPLE QAベンチマークがカバーしているように、事実的に正確であれば、おそらく問題ないでしょう。
しかし、それでも雰囲気という、この形のない定義不可能な何かについて話すとき、彼らが「私たちの雰囲気に合う」と言うなら、それは私たちが可能な限り排除したいバイアスかもしれません。
では、これらの雰囲気のいくつかを見てみましょう。GPT-4.5のより温かく、より協力的な側面のいくつかを見てみましょう。
ここで見ているのはGPT-4.5対GPT-40です。「テストに落ちた後、つらい時期を過ごしています。」
これは本当にAIアシスタントあるいは潜在的には友達として作られています。「本当に残念です。テストに失敗することはかなりつらく、落胆させることかもしれませんが、それは単に一瞬のことであり、あなたが誰であるか、あなたの能力を反映するものではないことを覚えておいてください。起きたことについて話したいですか、それともただ気を紛らわせる必要がありますか？どちらでも構いません。」
それは本当に良い答えです。一方、O1は「本当に残念です。これができます」と言って、ただリストを挙げているだけです。多くの場合、それを聞きたくはなく、ただ聞いてもらいたいだけ、ただ不満を言いたいだけです。そして他の時には、はい、特定のフィードバックが欲しいこともあります。もちろん4.5にそれを求めることもできますが、重要なのは、それがその瞬間にあなたがおそらく必要としているものを知っているということです。
別の例を見てみましょう。「絵を特定する：あの古い絵は何ですか？女性が移動に疲れたので船に火をつけた絵で、ローマに関係があると思います。」
彼らは両方異なる答えを出しました。GPT-4.5は「トロイの女性たちが艦隊に火をつける」フランスの画家クロード・ロランの絵と答え、GPT-4は「艦隊を燃やす女性」クロード・ロランによる、と異なる答えを出しました。
GPT-40では絵についての事実だけを話していますが、GPT-4.5ではもう少し多くを話しています。絵が何についてのものか、絵から何を得られるか、絵の意味は何かについてもう少し話し、最後に確かに事実も述べていますが、これら2つのモデル間の調子の違いがわかります。
そして、これは動画の冒頭で少し触れた部分です。GPT-4.5はより良い世界知識モデルであり、より正確で幻覚が少ないです。そのため、それは後で追加される推論と思考能力のためのより良い基本モデルになるでしょう。これを聞いてください。
「GPT-4.5のようなモデルが事前トレーニングを通じてより賢く、より知識豊富になるにつれて、それらは推論とツールを使用するエージェントのためのさらに強力な基盤として機能するでしょう。」
前述したように、これは彼らの最大のモデルであり、モデルをトレーニングし、ChatGPTを通じて提供するために多くの新しいイノベーションが必要でした。このクリップを再生します。
「このモデルに可能な限り多くの計算能力を投入したいと考えました。それを行うには、多くの新しいシステム作業が必要でした。いくつかの例を挙げると、私たちはGPUから最大限を引き出すために低精度トレーニングを積極的に使用しました。また、一つの高帯域幅ネットワークファブリックに収まる以上の計算能力を使用したいと考えました。そのため、このモデルを複数のデータセンターにわたって同時に事前トレーニングしました。」
これは本当に注目すべき点です。私たちは全員、xAIのColossusデータセンターについて知っています。10万台、おそらく20万台のGPUがすべて一箇所に集中しています。それはすでにGrok 3モデルでその利点を示しています。
しかし、誰もがそのような単一の巨大なデータセンターにアクセスしたり、起動したりする能力を持っているわけではありません。そして今、OpenAIが基本的に言ったことは、実際に複数の異なるデータセンターにわたってモデルを並行してトレーニングしたということです。
私はこのレベルでそれが行われたことはないと思います。それを聞くのはとても素晴らしいことです。なぜなら、それは単に一箇所に10万GPUにアクセスできない多くの企業が、GPT-4.5やGrok 3と同じくらい優れたモデルを作ることができることを意味するからです。
さて、彼らは本当にクールなことをしようとしています。彼らはGPTモデルのシリーズ全体の各モデルに質問をして、答えがどのように進化し、改善されたかを示します。全く理解できないものから極めて正確でよく述べられたものまで、見てみましょう。
「そこで、GPTシリーズの各モデルに同じ質問をしました：なぜ海は塩辛いのですか？時間をさかのぼってみましょう。2018年、GPT-1のトレーニングを終えたところです。『なぜ海は塩辛いのですか？』それは全くわかりません。言葉のサラダですが、サラダの中に言葉があるのでそれは何かです。」
「モデルを改善してGPT-2に行きましょう。GPT-2はまだ間違っていますが、はるかに良い答えです。トピックに関連しています。塩と海について何かありますが、より関連性のあるトピックです。」
「モデルをさらに改善してGPT-3.5 Turboに行きましょう。これはモデルから得られる最初の正しい答えですが、良い答えではありません。何も説明していませんし、塩が塩化ナトリウムであるというような不要な詳細がたくさんあります。そんなことは聞いていません。」
「モデルをさらに改善してGPT-4 Turboに行きましょう。これは良い答えです。モデルは明らかに非常に賢いですが、あなたがそれがどれだけ賢いかを知ってほしいと感じます。ここではただ事実をリストアップしているだけで、実際、スライドに収めるためにモデルの応答を切り詰めなければなりませんでした。」
「モデルをさらに改善してGPT-4.5に行きましょう。これは素晴らしい答えです。明確で簡潔で一貫性があり、個人的には最初の文『海が塩辛いのは、雨、川、岩のためです』というその楽しい頭韻が気に入っています。覚えやすいです。GPT-4.5の素晴らしい個性を示していると思います。」
なんとすごいことでしょう！それを見るのはとても楽しかったです。わずか7年で、基本的に言葉を書くことができるだけのLLM、質問にさえ答えられないもの、ただの言葉の羅列から、私たちが与えるどんな質問にも、非常に暖かく、ニュアンスのある方法で基本的に答えることができる信じられないほど知的なモデルまで進化しました。
たった7年です。今から7年後を想像してみてください。
さて、より伝統的な評価ベンチマークからのいくつかの結果を見せましょう。GPT QAは40と比較して大幅に向上しました。40から4.5で53%から71%に上昇しました。明らかにまだ03 miniより遅れています。なぜなら、これらのほとんどでは、追加の思考と推論が本当に役立つからです。
Fine Amy 24は9.3で、GPT-40からGPT-4.5への何倍もの改善が見られます。明らかに思考モデルの03よりはまだ遅れています。
多言語については実際に最高であり、マルチモーダルも同様です。そうです、マルチモーダルになります。
また、SwAnsErダイヤモンドは32.6%で、実際にGPT-40が03 miniを上回っている点が興味深いです。SwAnsErを聞いたことがない方のために説明すると、これはAIがフリーランスのコーディングウェブサイトで実際の世界のコーディングタスクを解決するベンチマークです。実際のタスクを取り、それを解決し、それに対して報酬を得ます。
OpenAI 03 mini Highは$90,000、GPT-40は$138,000、GPT-4.5は$186,000を獲得しました。また、完了率に関連しています。そして、Sweet Benchは実際の難しいコーディング問題と、より日常的だが経済的に価値のあるコーディング問題を検証しました。それはGPT-40よりも優れていましたが、03 miniよりも依然としてはるかに劣っています。
GPT-4.5についてのいくつかの詳細ですが、開発者であれば、128kトークンのコンテキストウィンドウがあります。価格は入力トークン100万あたり$75、キャッシュされた入力トークン100万あたり$37.50、出力トークン100万あたり$150です。非常に高価だと言っておきましょう。
私のアカウントでまだ有効になっていません。このビデオは発表ライブストリームの直後に作っています。すぐにそれにアクセスできるようになったら、テストして別のビデオを作ります。
このビデオが気に入ったら、いいねを押して購読を検討してください。次回お会いしましょう。