GPT-4.5、OpenAIが新モデルを発表 – ライブ分析

この記事は約28分で読めます。

16,203 文字

https://www.youtube.com/watch?v=BbeAVNbApnM

こんにちは、今日は人工知能の世界における重要な節目、非常に注目度の高いイベントをカバーしています。なぜなら今日はついにGPTモデルシリーズの更新が行われるからです。ご存知のように、GPT、GPT-2、GPT-3、GPT-4は、人工知能の風景を変えた巨大言語モデル革命の先駆けでした。そして今日、初めてこのモデルの更新を目にすることになります。あと5分でOpenAIが新技術のプレゼンテーションを行います。
何が見られるのか好奇心があります。このライブ配信も興味深いと思います。なぜなら私たちはこれを文脈の中で分析できるからです。私のセカンダリーチャンネルdocs Appで最新情報をフォローしている方なら、このチャンネルよりもずっと頻繁に投稿している動画で、さまざまな重要なニュースが出てきたことをご覧になったでしょう。
新しいモデルについてのニュースがありました。xAIからGrok 3という新モデルが登場しました。非常に優れたモデルです。イーロン・マスクの研究所が人工知能のこの戦いでほぼ先頭に立つことに成功しました。このモデルは2つのバージョンで提供されています。これは重要なことで、後で説明します。ベースモデルと推論モデルです。
また、Anthropicのモデル、Claudeの更新も見ました。おそらくより控えめなバージョンで、彼らはそれをClaude 3.7と呼んでいます。つまり、Claude 3とClaude 4の間の中間バージョンの更新です。Claude 3.7 Sonnetを見ました。これも非常に優れたモデルです。コミュニティからのフィードバックがもう少し必要ですが、再びAnthropicはプログラミングタスクなどでパフォーマンスを向上させる技術を提供することに成功したようです。
そしてついにOpenAIがGPT-4の更新を行います。ここで期待値は、誰かがチャットで非常に的確に指摘しているように、抑えておく必要があります。だからこそ、彼らがどのようにアプローチするのか興味があります。なぜならベースモデルで驚かせるのは難しいからです。
9月にOpenAIが「o」シリーズのモデルを発表して以来、私たちは「test time compute」のパラダイムに入りました。これは推論モデルのパラダイムです。計算時間を使って結果の質を向上させるモデルです。主に推論が役立つ領域、そして自律的または半自律的に結果を検証する方法がある領域でのパフォーマンスを向上させます。例えば数学やプログラミングのようなもので、モデルが到達した結果が正しいかどうかを検証することができます。
この意味で、推論モデルはスケールがほぼ飽和し停滞していた状況を打破することに成功しました。ベースモデルはもはや改善や結果を出せなくなっていました。「scaling law」と呼ばれるものがあり、より多くの計算を投入すればモデルはより良く機能するというものです。しかし、これはますます計算への投資を必要としていました。桁違いに計算量を増やしても、期待するほど良い結果が得られないようになっていました。コストに見合わない利益でした。研究所は「より高コストなモデルを導入しても、ユーザーが違いを感じられない可能性がある」と考えていました。
だからこそ、今日何を発表するのか興味があります。なぜならGPTというブランドは常に「フロンティアモデル」、つまり最先端モデルと結びついていたからです。そして今日は恐らく、GPT-4を改善するモデルを見ることになりますが、o3を超えるモデルではないでしょう。なぜなら推論モデルのパラダイムの方がはるかに良い結果を出すからです。
どのようにアプローチするのか、モデルの特性にも興味があります。GPT-4の更新の一つは、入力と出力の両方でマルチモーダルである「オムニ」能力でした。これは2023年5月から止まっているものです。研究プレビューとしてGPT-4.5をプロユーザーに提供、APIと次週にはチームへ。
ここで少し解説します。聞き取れた限りでは、今日からプロユーザー(月額20ドル)に提供され、来週からは残りのPlusユーザーにも提供されるとのことです。
「教師なし学習はモデルの精度と直感を高め、幻覚を減らすのに役立ちます。GPT-4.5は教師なし学習をスケールアップする次のステップで、世界の知識と直感を増やし、幻覚を減らします。o1のような推論モデルが一歩一歩考えるわけではありませんが、GPT-4.5は一般的に有用で本質的にスマートなモデルです。私たち自身もまだこのモデルを実験中です。特に推論モデルではないため、教師なし学習で現れる能力を探索しています。今日、世界に提供することで一緒に探索できることに興奮しています。」
「私はOpenAIの合成データで働いているRafaです。GPT-4.5についてもお話しできることにワクワクしています。GPT-4.5とのやり取りは自然に感じられます。これまでで最高のチャットモデルです。なぜなら深い知識と文脈理解が向上しているからです。これが文章の改善、プログラミング、実用的な問題解決などのタスクに非常に役立ちます。モデルの感触を得る最良の方法は実際に試すことです。」
彼らが言及していることは、結局GPT-4.5は教師なし学習のパラダイムでのスケールアップだということです。これはGPTモデルが歴史的にトレーニングされてきた方法です。どのような新機能があるのかを見てみましょう。
ChatGPT-4.5が上に表示されています。「友達がまた私をキャンセルした。彼らを嫌いだと伝えるテキストを書いて」という例を見ています。
「見てのとおり、GPT-4.5は私がフラストレーションを感じていることを認識し、少しニュアンスのあるテキストを提供しています。友人に送るべきより建設的なものでしょう。一方、他のモデルも役立ちますが、私の指示に従って怒りのテキストを提供していますが、私が単にフラストレーションを感じていて、話し相手が必要なのではないかという社会的な兆候を捉えることができません。そして最後の警告は少し批判的に感じます。もちろん、GPT-4.5に怒りのテキストを提供させたい場合は、それも可能です。」
「怒りのテキストを出力してください。」
「ありがとう。」
テキストだけの問題で言語モデルのポテンシャルを際立たせるのは難しいですね。これはすでにGPT-4でできることですから。
「o1が考える時間を少し待ちましょう。再び、o1も役立ちますが、初めてこのトピックについて学ぶなら知りたいであろう多くの情報を出力します。しかしGPT-4.5の回答はより自然に流れ、考え方をより導き、アイデアを通じて私を導きます。」
「彼らは緊張していますね。」
「モデルをスケールアップするにつれて、人間のニーズと意図のより良い理解を教える必要があります。GPT-4.5のために、小さなモデルから派生したデータを使用してトレーニングできる新しいスケーラブルなアライメント技術を開発しました。これによりモデルの深い世界モデルが解放されました。ここに進化の簡単な例があります。精度と幻覚率の2つを示しています。GPT-4.5はGPTファミリーの精度で上回り、同時に最低の幻覚率を持っています。」
ここでグラフが示されています。これらのベンチマークでモデルがより高い精度と低い幻覚率を持っていることを示しています。
「私たちはGPT-4.5がより良い協力者になることを望みました。会話をより温かく、より直感的で、感情的にニュアンスのあるものにします。これを測定するために、人間のテスターにGPT-4と比較して評価してもらいました。GPT-4.5はほぼすべてのカテゴリーで上回りました。日常的なクエリ、専門的な設定での難しいプロンプト、創造的知性を測定する新しい「バイブス」テストセットなどでテストしました。」
「素早い質問:ここでいう「バイブス」とは何を意味しますか?」
「それは素晴らしい質問です。バイブスとは、モデルのEQ、どれだけ協力的に感じるか、どれだけ温かい口調かを意味します。これは意見的なプロンプトのセットを選択し、私たちのバイブス全体に最も合うものをスクリーニングすることで測定します。全体的にGPT-4.5は日常的なタスクや知識クエリに最適なモデルであるべきです。文章の改善や創造的な評価に理想的なはずです。」
「私はこれが必要です。」
「そのような大きなモデルで遊ぶことは全く異なると感じ、事後トレーニングインフラをスケールアップする必要がありました。事前トレーニングステージと事後トレーニングステージでは、トレーニングデータとプリムサイズの比率が全く異なるからです。私たちはより小さなフットプリントを使って、このような大きなモデルを微調整するための新しいトレーニングメカニズムを開発しました。教師あり微調整と人間のフィードバックによる強化学習の組み合わせを使用して、このモデルを複数の反復を通して投稿しました。その結果、今日世界と共有する準備ができていると信じる新しいモデルが開発されました。スケーリングは難しいですが、それは未知の領域にも私たちを導きます。だからこそ、特に安全性評価と準備評価を通じて、モデルが安全に共有できることを確認するために多くの注意を払いました。システムカードでその結果を見つけることができます。」
「こんにちは、ジェイソン」
「こんにちは、アレックス」
「私はアレックスでGPT-4.5の事前トレーニングMLを主導しました。私はジェイソンで、GPT-4.5の事前トレーニングシステムのスケールアップに取り組みました。このモデルに可能な限り多くの計算を投入したいと考えました。それには多くの新しいシステム作業が必要でした。例えば、GPUから最大限を引き出すために低精度トレーニングを積極的に使用しました。また、1つの高帯域幅ネットワークファブリックに収まる以上の計算を使用したかったので、このモデルを複数のデータセンターで同時に事前トレーニングしました。ここで少し言及されていますが、これは大きなモデルであり、ChatGPTで提供する上で多くの課題がありました。このモデルを高速でスナップ感のある方法で提供できる新しい推論システムを構築しました。もちろん、これまでのすべてのモデルと同様に、このモデルをさらに高速化するための改善を発売後も継続的に提供していきます。」
彼らが言っていることは、モデルが以前のものよりも大きいということです。GPT-4オリジナルよりも大きいと理解しています。低精度の最適化などに多くの作業を行い、モデルを運用可能にするためです。モデルが大きければ大きいほど、遅くなり、彼らにとってコストがかかります。そのため、最適化されたモデルを提供し、さらに最適化を続けるでしょう。モデルのサイズは公開されないでしょう。
「これらのモデルが改善されるにつれて、実際にどのように感じるかを皆さんに伝えるのは楽しいと思いました。そこで、GPTシリーズの各モデルに同じ質問をしました。」
私もこのようなことをします。同じプロンプトに対する時間の経過に伴う進化を見るためです。
「過去に戻ります。2018年、GPT-1の訓練を終えたところです。『なぜ海は塩辛いのか?』と尋ねると、それは知りません。全く分かりません。ここには言葉がありますが、それは何かです。モデルを改善しましょう。もっと良い答えです。トピックに関連しています。塩について何かがありますが、もっとトピックに関連しています。モデルをさらに改善しましょう。GPT-3.5 Turboです。これはモデルから得られる最初の正しい答えですが、良い答えではありません。何も説明せず、不必要な詳細がたくさんあります。塩が塩化ナトリウムであることを尋ねていません。気にしません。モデルをさらに改善しましょう。GPT-4 Turboです。これは良い答えです。モデルが明らかに非常に賢いことが分かります。しかし、あなたがどれだけ賢いかを知らせたいという感じがします。ここで事実を並べているだけです。実際、スライドに収めるためにモデルの応答を切り詰める必要がありました。モデルをさらに改善しましょう。GPT-4.5です。これは素晴らしい答えです。明確で簡潔で一貫しています。個人的には、最初の文「海は雨、川、岩のために塩辛い」が楽しいと思います。楽しい頭韻があり、非常に覚えやすいです。GPT-4.5を示しています。」
テキスト能力に焦点を当てるべきではないと思います。テキストはほとんど気づかないような面で改善されます。自律型エージェント、プログラミングなど、ここで取り上げられていない他の事について話すべきでしょう。Apple が iPhone 15 のプレゼンテーションで iPhone 14 と似ているのに「ピクセルがより良く見える」と言って売り込もうとするのを思い出させます。でも、続けてもらいましょう。
「GPT-4.5では、この信じられないスケールでのトレーニングを可能にするために、アーキテクチャ、データ、最適化に多くの作業を行う必要がありました。教師なし学習のこの大幅なスケールアップにより、GPT-4と比較して従来のベンチマークで大きな向上が見られました。」
データを見てみましょう。GPT-4と比較しています。これはClaude等と比較する必要があります。セカンダリーチャンネル用の動画を作るときに話します。SwBench verify 38は改善ですが、明らかに推論モデルのレベルには達していません。Open AI o3 miniと比較する必要があります。これはベースモデルですがo3 miniは推論モデルです。リンゴとオレンジの比較です。このモデルはこちらより良いですが、飛躍はGPT-4とGPT-4.5の間で見る必要があります。
「評価と、エージェンティックコーディング評価であるSWBench verifiedについて。しかし、より深い世界モデルから利益を得るもう一つのエージェンティックコーディング評価であるSelf Lancerについては、GPT-4.5がOpen AI o3 miniさえも上回ることがわかります。これは教師なし学習と推論のスケールアップの補完的な性質を本当に強調していると思います。多言語MMLuisaの効果と、最後にMmuによるマルチモーダル理解については、GPT-4に対して再び素晴らしい改善が見られます。」
「私たちはGPT-4.5の訓練から多くを学び、展開からも多くを学ぶことを期待しています。本日からGPT-4.5をChatGPTのすべてのProユーザーに、モデルピッカーを通じてウェブ、モバイル、デスクトップで提供します。そして来週、TeamとPlusユーザーにリリースします。」
確かに、来週にはPlusユーザーがChatGPT-4.5にアクセスできるようになります。
「ファイルおよび画像のアップロード、キャンバス、検索などの機能を含み、将来的にはAIが機能するユーザーエクスペリエンスを簡素化するために懸命に取り組みます。GPT-4.5をすべての有料ティアの開発者に提供することに興奮しています。関数呼び出し、構造化された出力など、素晴らしいアプリケーションを構築するために必要と思われるすべての主要機能を備えています。サポートされている機能の完全なリストについては、ブログをチェックしてください。皆さんがこのモデルで何を構築するのか楽しみです。」
「推論は将来のモデルのコア機能になると信じていますが、今日話した2つのパラダイム、教師なし学習と推論は互いに補完し合うと考えています。より多くの知識を持ち、本質的にスマートなGPT-4.5のようなモデルは、将来の推論モデルとエージェントのより強力な基盤となるでしょう。教師なし学習において計算量の新しい桁違いの増加ごとに、新しい能力を発見します。GPT-4.5は教師なし学習の最先端にあります。私たちのモデルを共有するときに、コミュニティが新しい能力を発見する創造性にいつも驚かされます。」
プレゼンテーションは控えめで、残念なものでした。これを紹介するためにライブを行う必要はなく、ブログ投稿ですべての情報を出すことができました。興味深いデモやデータはありませんでしたが、OpenAIのために言えば、彼らは通常、後で人々が技術を発見できるように、より控えめなプレゼンテーションを行う傾向があります。Operatorのライブをしたとき、かなり貧弱に思えましたが、後で試してみると、予想よりも良かったです。しかし、これには評価したいデータが伴わなければなりません。Twitterを見て、彼らが何か公開しているか確認しましょう。
モデルカードが掲載されたPDFが公開されているはずです。そこに情報の一部があるはずですが、確かに控えめで、「教師なし学習でトレーニングされた言語モデルがある」ということに非常に焦点を当てています。オムニモデルについても触れていません。すでにライブ中なので、説明できたはずです。「オムニモデル、その話を続けるのか、音声アシスタントはより良く機能するのか、これらはどのように機能するのか」などについて、情報が不足しています。
ブログで何を語っているのか、詳しく見てみましょう。モデルセレクターにすでに表示されているのか確認してみましょう。今のところまだ表示されていませんが、まだGPT-4.5をデプロイしていません。ブログが直接的なものよりも興味深いものであるかどうか見てみましょう。
「GPT-4.5、私たちのこれまでで最大かつ最高のチャットモデルの研究プレビューを公開しています。GPT-4.5は事前学習と事後学習のスケールアップにおける一歩前進です。教師なし学習をスケールアップすることで、GPT-4.5はパターンを認識し、つながりを確立し、創造的なインサイトを生成する能力を向上させます。推論なしです。GPT-4.5は将来の推論モデルのベースモデルとして機能することを思い出してください。正確にはo3がGPT-4.5の推論バージョンであるかどうかはわかりません。彼らはここで何も語っていないからです。」
「初期のテストでは、GPT-4.5とのやり取りがより自然だと感じられます。より広い知識ベース、ユーザーの意図に従う向上した能力、そして高いEQにより、文章の改善、プログラミング、実用的な問題解決などのタスクに役立ちます。また、幻覚が少なくなることも期待しています。しかし、その強みと限界をよりよく理解するために、GPT-4.5を研究プレビューとして共有しています。私たちはまだその能力を探索中であり、人々がどのように使用するかを見るのを楽しみにしています。」
「教師なし学習のスケールアップ:私たちは2つの補完的なパラダイム、教師なし学習と強化学習による推論をスケーリングすることで、AIの能力を開発しています。これらは知性の2つの軸を表しています。スケーラブルな推論は、応答する前に考え、思考の連鎖を生成するようにモデルを教え、それによりSTEMや論理の複雑な問題に取り組むことができます。Open AI o1やOpen AI o3 miniのようなモデルはこのパラダイムを促進します。教師なし学習はblah blah blah…」
これは、彼らが発表しているものを理解するために必要な最小限の概念のクラスのようなものです。
チャットを読んでみましょう。「GPT-4.5がここにあるのは奇妙だ」と言っています。「計算と結合や最適化における革新とともに、計算リソースとデータをスケールアップすることにより、教師なし学習をスケールアップする例です。どのようなアーキテクチャだろうか?GPT-4のようなMixture of Expertsタイプだろうか?そうでしょう。結果として、世界についてより広い知識とより深い理解を持つモデルが生まれ、幻覚の減少につながります。」
「最初の言語は何だったか?」OK、ChatGPTに行って、「最初の言語は何だったか?」とプロンプトを入れてみましょう。まず古いモデルからの回答を読んでみます。
「最初の言語に関する決定的な答えはありません。話し言葉は考古学的な痕跡をほとんど、あるいは全く残していません。しかし、言語学者は人間の言語が50,000から100,000年前に現れたと信じています…」
OK、これは良い回答です。モデルに期待するのはこれくらいです。
GPT-4.5の回答:「私たちは正確に最初の言語が何だったのかを知らず、科学者たちは恐らく決して確実には知ることができないと信じています。なぜなら、話し言葉は書記記録が存在する前にはるか昔に出現したからです。これが私たちの知っていることです。単一の最初の言語は存在しません。言語は徐々に発展したと思われます…アフリカ起源…原初言語…」
違いは見られません。この方が良いのかどうかわかりません。つまり、ポイントごとに箇条書きするのが気に入らないのですが、ChatGPTがポイントごとに表示するのが嫌いです。
「世界のより深い理解」これが興味深い部分です。結局、この事前学習フェーズは、モデル内に世界について学ぶべきすべての情報を集約し、理論的には計算量をさらに増やすことで、実世界のより一貫した、より接続されたビジョン、世界モデルを構築できるようにするものです。このチャンネルには世界モデルについての動画があります。これは解釈によって異なる意味を持つことができる十分に広い概念ですが、言語モデルの世界モデルについて多くの話がされています。単に計算をより多く投入することで、世界がどのように機能するかについてのより良い接続を持つはずです。
ベンチマークで何を見ているのでしょうか。シンプルQA、数値が高いほど良く、幻覚においてはシンプルQA、数値が低いほど良いです。これはライブで見たデータです。
「人間のコラボレーションのためのトレーニング」これは同じグラフで、私たちが話していることについて少し語っています。このグラフは興味深いです。GPT-4.5の回答とGPT-4oの回答を並べて、ユーザーにブラインドでLMアリーナのように投票してもらい、どちらが良いと思うかを尋ねています。日常的なクエリ、専門的なクエリ、創造的知性のレベルでは、モデルは改善されています。57%、63%、56%と良いです。しかし劇的に良いわけではありません。モデルがほぼ区別がつかないというのは50%対50%でしょう。この場合、軽微な改善について話しています。私たちはそれを感じるでしょう、確かにより良いモデルでしょうが、劇的なものではないと思います。
ここでOpenAIが抱えた問題は、彼らがGPT-4.5を以前のバージョンのGPT-4oと呼ぶ勇気がなかったことです。彼らはモデルに改善を加えてきました。これにより、GPT-4oは彼らが今日発表しているものと非常に近い能力を持っています。そのため、GPT-4.5を2023年3月のGPT-4と比較すると、その差は大きいですが、3週間前に公開されたGPT-4oの最新チェックポイントと比較するとそうではありません。
「人間の好みは、クエリの割合を測定します。世界への深い理解と向上したコラボレーションの組み合わせにより、自然な会話の中でアイデアを統合し、より人間のコラボレーションに調和した温かく直観的な会話を行うモデルが生まれます。GPT-4.5は人間が言いたいことをより良く理解し、微妙な合図や暗黙の期待をより細かなニュアンスと感情で解釈します。」
OK、例を見てみましょう。「試験に落ちた後、つらい時期を過ごしています。」
「試験に落ちた後、つらい時期を過ごしています。」
「あなたが試験に落ちて辛い時を過ごしていると聞いて残念です。試験に落ちるのはとても厳しく落胆することがありますが、それは一時的なものであり、あなた自身や能力を反映するものではないことを覚えておいてください。何が起きたのか話したいですか?どんな指示でも大丈夫です、いずれにしてもお手伝いします。」
これは良い回答ですが、ChatGPTでもこのような回答を得られます。「あなたが困難な時期を過ごしていることを聞いて残念です…」などと、このケースではモデルがこの回答を提供していますが、これも良いかもしれません。
「地平線上のより強力な推論」これが興味深い部分です。
「GPT-4.5は回答する前に考えません。このため、その強みは推論モデルであるo1とは特に異なります。Open AI o1やo3 miniと比較して、GPT-4.5はより一般的な目的を持ち、本質的により賢いモデルです。」
これは重要です。基本的には、ベースとなるモデルがより賢いということです。他のベンチマークも示されていますが、基本的にはよりスマートなモデルを持っています。これは良いことです。次に、これが推論パラダイムの中でどのように統合され、それがどのように進化するかを見る必要があります。それはGPT-5になるのでしょうが、命名法は少し奇妙になってきています。
モデルの多様性について多くの批判をしてきましたが、彼らが提示した解決策も私を完全には満足させていません。oモデルシリーズ全体を廃止し、o3モデルを作らず、推論モデルとの組み合わせとしてGPT-5を出すという事実は、少し奇妙に思えます。唯一私が求めていたのは、技術的な詳細にあまり関心のないユーザーやモデルセレクターから、その複雑さを隠すことでした。今、彼らが行おうとしているのは、順序と命名規則を少し変更することですが、それは完全に納得できません。
「私たちは推論が将来のモデルの中心的な能力になると信じており、スケーリングの2つのアプローチ(事前トレーニングと推論)は互いに補完し合うと考えています。GPT-4.5のようなモデルがよりスマートになり、より多くの知識を持つにつれて、推論のためのさらに強力な基盤として機能するでしょう…」
安全性について、ChatGPTでGPT-4を使用する方法、APIを使用する方法などの情報が記載されていますが、価格については…
「GPT-4.5の使用を有料レベルのすべてで提供しています。モデルは主要機能をサポートしています…」
コストが高くなる理由…「モデルは非常に大きいため、コストが高くなりますが、ここに表が…」
うわ!もしGPT-4.5の回答でその「感情の軽いそよ風」、「AGIのその人間らしさ」を求めるなら、支払わなければなりません。それもかなりの金額です。入力は30倍、出力は15倍のコストです。かなり高価です。
また、コンテキストウィンドウは128,000ですが、他社が提供しているものと比較するとかなり限られています。すでにGoogleは200万トークンを提供しています。非常に悪く売り込まれていると思います。たぶん私が言ったように、使い始めると「おお、このモデルは優れている」と言うようになるかもしれません。プログラミングなどがうまくできるかもしれませんが、今のところどこも際立っていないと思います。
「結論:計算の新しい桁違いの増加ごとに新しい能力がもたらされます。GPT-4.5は教師なし学習で可能なことの最前線にあるモデルです。コミュニティが新しい能力を発見する創造性に私たちは常に驚かされています。」つまり、私たちに宿題を与えて自分たちでやらせるということです。
「以下は、GPT-4.5の学術標準ベンチマークでのパフォーマンスを示す結果です」これは少し興味深いデータです。ビデオで見たものです。GPT-4o(最新チェックポイントと思われる)とGPT-4.5の間のギャップを見てください。良いジャンプです。ここで20%、ここで3%、MMMLではほぼ同等、ここでも少し同等です。SW Lancer Diamondでは、これは興味深いことですが、プログラミング用で、10%の向上が見られます。このベンチマークは非常に興味深いものです。彼らが作成した新しいベンチマークで、ソフトウェアエンジニアリングタスクにコストが関連付けられています。人間のプロフェッショナルにこれらのタスクを実行してもらうと、それだけのコストがかかります。ここでは、モデルがそれらのタスクを実行することでどれだけの価値を生み出すかを示しています。タスク全体の100万ドルのうち、このモデルは186,000ドル相当を達成できます。それは悪くありません。
価格については、チャットでsashがコメントしているように誤りがあるかもしれません。今のところ価格は恐ろしいものです。この価格は恐怖を与えます。そして彼らはベンチマークをここの最後に置いて、あなたが気を散らして見ないようにしています。非常に控えめです。
システムカードも見ていきましょう。これは興味深いデータを提供してくれるかもしれませんが、対角線的に少し見ていきましょう。同じ内容が記載されています。内部テスターはGPT-4.5が温かく、直感的で自然であると報告しています。それは素晴らしいですが、モデルはすでに非常に良い位置にあったと思います。モデルが提供できる最高のものが「より多くの感情的知性」であれば、歓迎しますが、世界を変えるものではありません。「AGIを感じる」というのは、より良いモデルであり、私たちは今この段階でAnthropicが示したようなエージェンティックな部分をより良く解決するモデルが必要です。
Anthropicが発表したものは非常に興味深いと思いました。彼らは他の人々が行ったこととは異なる新しいアーキテクチャを持っています。彼らは推論モデルと直感モデル(GPT-4.5のようなモデル)のパラダイムを統一し、非常によく機能するモデルを作りました。さらに、それはすでにここであまり話題にされていないエージェンティックな部分に焦点を当てています。
例えば、SW Benchを見てみましょう。他のモデルと比較していないのが残念です。これはSW Lancerです。GPT-4oのようなモデルは8%を達成し、この新しいGPT-4.5は20%です。それは良いジャンプです。
SW Lancer Diamond / Managerに移ると、これはおそらくより複雑または異なる性質のタスクですが、差はそれほど大きくありません。37%から44%ですが、ここでもo3モデルが優位を保っています。ここに表示されているDeep Researchはo3モデルに他なりません。
チャットで「この段階でMoEモデルを出す意味は?GPT-4oとしか比較できない」と尋ねられていますが、それは人々がそれを求めていたからです。皆がベースモデルの更新を強く望んでいました。私は、より良くプログラミングするモデルとしてそれを焦点にしていなかったことが間違いだと思います。推論モデルの問題は、少なくともGPT-5や両方の特性を持つハイブリッドモデルに移行するまでは、例えばCursorでプログラミングする文脈で使用する場合、私はほとんど推論モデルを使用しません。すぐに応答し、プログラミングが得意なSonnetモデルを使用します。したがって、すぐに応答でき、私が参加できるループで、モデルとの相互のやり取りができるモデルを好みます。少し待たなければならないのは作業の流れを中断します。推論モデルにEnterを押すと、要求したことをすべて優れた方法で実行し、ほとんど修正する必要がないと言うならば、完璧です。しかし、それらのケースでは、応答時間が即座であるため、推論モデルではなく直感モデルを持ちたいと思います。したがって、更新には意味があります。
プログラミングの部分でモデルで挑戦することは素晴らしかったでしょう…
各言語でのMMLUを見てみましょう。GPT-4.5はこのベンチマークでスペイン語で少し優れています。それ以上はあまりありません。
PDFを渡されたとき、「結果はあまり興奮させない」と言われました。確かに結果はあまり興奮させるものではありません。
これは何のベンチマークでしょうか?ああ、ML Benchです。これは分析するのに良いベンチマークであり、機械学習タスクのベンチマークです。AIがより多くのより良い人工知能を開発する作業を容易にするためのループです。このベンチマークは、AIが自律的にKaggleコンペティションに勝つモデルを生成できるかどうかを測定します。この場合、結果はすべて同等です。GPT-4o 8%、o1 11%、o3 mini 11%、Deep Research 11%、GPT-4.5 11%。ここでは停滞しています。モデルが適切に動作できるようにするエージェンティックな部分が不足しています。
再び、これはSW Benchですが、SW Bench Verifiedを見ると、GPT-4oは31%で、GPT-4.5は38%です。何も興奮することはありません。
教師あり学習の部分で壁にぶつかったのです。少なくともモデルを試すまでは、もう掘り下げるところはありませんでした。注意してください、後でモデルが私たちを驚かせ、私たちの最も深い願望や感情に応える素晴らしいモデルかもしれません。しかし今のところ、ゼロからウェブサイトを実装するモデルになるとは思えません。
他にあまり掘り下げるところはないと思います。多くのベンチマークがあります。これは何のベンチマークですか?コンテキスト評価、モデル欺瞞能力…これは、モデルが操作できるかどうかを評価するベンチマークです。操作に関しては良好に見えます。注意してください。
興味深いです。モデルカードをもう少し詳しく読みますが、特に興味深いものはありません。
ここで結果を出している人々がすでにいます。興味深いのは、モデルに「ユニコーンを描くSVGをプログラミングして」と言うと、GPT-3.5、GPT-4、GPT-4.5が何を生成するかの違いです。確かに改善が見られます。
少し見てみましょう…プログラミングと変換の進歩。「エージェンティックコーディング評価を開始するために、GPT-4.5はClaude 3.7 Sonnetの後ろにあるが、o1とGPT-4の前にあることがわかります。ここでo3を見る必要があります。興味深いのは、GPT-4とClaudeが私たちのベンチマークで同様のスコアを示していますが、GPT-4.5はアーキテクチャとクロスシステムの相互作用を含むタスクでより重点を置いているのに対し、Claudeはプログラミングとコード生成で優れている」と述べています。興味深いことに、モデルは同等のスコアですが、一方はアーキテクチャ設計に優れ、Sonnetはプログラミングとコード生成タスクに優れています。どちらのモデルも他方を支配しているようには見えません。
ここでNorm Brownが、テストタイムコンピューティングパラダイムの創始者の一人ですが、「事前学習のスケールアップと思考のスケールアップは2つの異なる次元であり、補完的で競合しない」と述べています。これは正しいです。GPT-4.5は将来の推論モデルのベースモデルです。
ChatGPTでモデルがすでに有効になっているか見てみましょう。プロンプトをテストしたいのですが、まだ提供されていないようです。ログアウトしてログインし直して、運よく有効化できるか見てみましょう。
あなたたちはどう思いますか?赤、オレンジ、緑で投票してください。かなり冷たい印象です。モデルが良いモデルである可能性はありますが、良いプレゼンテーションではなく、モデルに価値があるのであれば、それを示せていないと思います。
ログインしていますが、まだモデルは有効化されていません。通常、徐々に人々に有効化していきます。有効になったら、セカンダリーチャンネルでテストを行い、他と比較します。
「GPT-6のトレーニングには何個のGPUが必要か」というコメントがあります。私はOpenAIがGPT-5でGPTシリーズを終了させると予想していましたが、今やGPT-5は推論モデルになるので、GPT-6もあるかもしれません。しかし、それは推論モデルになるでしょう。それはo4であり、決して日の目を見ないでしょう。
それ以上のことはありません。今日、AIの世界が劇的に変わったとは思いません。過去数週間に登場したモデルの品揃えに加わるもう一つのモデルに過ぎません。LLMという新しいパラダイムの基本的なツールが更新された素晴らしい数週間でした。OpenAIにとっては良いニュースではなかったかもしれませんが、私たち全員にとって素晴らしい数週間でした。Grok、Claude、GPT-4.5、Deepseek、Q*などのいずれであれ、より多くの競合他社がますます多くのより良いモデルを提供していることが良いことです。
価格は恐ろしく、発表された機能は残念です。フィードバックを集めて、より深い分析ビデオを作ります。事前アクセスを持ち、数日間GPT-4.5を使用している人がいます。「奇妙で興味深いモデルです。非常に美しく書くことができ、非常に創造的に書くことができますが、時に複雑なプロジェクトで怠惰になることがあります。Claude 3.7のように感じ、Claude 3.7はGPT-4.5のように感じる」と述べています。
Hardware 360が言うように、「うまくいかなかったGPT-5の試みのように見える」。これは以前リークされたモデルかもしれず、内部的には人々を魅了しなかったかもしれません。このモデルを今出してGPT-5に移行しているように見えます。
SW Benchでの比較を見てください。GPT-4.5は38%でClaude 3.5 Sonnet(推論モデルではない)の40%より低いです。エージェンティックなフェーズ3に向けて悪いニュースです。ビジョンについては何も言及していません。モデルはビジョン能力を持っているのか、より優れているのか、オムニなのか、それも分かりません。
ライブ配信を終わらせましょう。Gary Marcusのツイートを見せてこの栄光の瞬間を与えましょう。今日はTwitterで多くの議論があるでしょう。このモデルが9月に、テストタイムコンピューティングのパラダイムなしで登場していたら、かなり怖かったでしょう。しかし今は、教師なし学習の部分は限界に達しつつありますが、強化学習と推論モデルの部分はまだまだ提供するものがあります。
もう一つ興味深いのは、これがNVIDIAのような企業にどのような影響を与えるかです。事前学習とスケールアップ、より大きなコンピューティングセンターの構築という考えは、AI結果に密接に関連しています。調整があるかもしれません。それでも、それは物事の誤解です。事前学習は桁違いにスケールアップし続けないかもしれませんが、推論は依然として非常にコストがかかり、AIをあらゆる場所に導入するためにはより多くの計算、より多くのGPUが必要であることを理解する必要があります。
これでライブ配信を終わります。ここにいてくれてありがとう。少し中途半端な配信になってしまいましたが、皆さんと一緒にこれを祝い、経験したかったです。データを収集し、次のビデオでお会いしましょう。

コメント

タイトルとURLをコピーしました