GPT-4.5の紹介

AGIに仕事を奪われたい
この記事は約9分で読めます。

5,047 文字
https://openai.com/index/introducing-gpt-4-5/

https://www.youtube.com/watch?v=cfRYp0nItZ8

こんにちは、私はMiaです。OpenAIのリサーチリードを務めています。本日は最新のモデルリリースであるGPT-4.5を紹介します。GPT-4.5はリサーチプレビューとしてChatGPT Proユーザーと開発者向けにAPIで公開されており、来週からはPlusユーザー、教育機関、チーム向けにも提供する予定です。
GPT-4.5は特別なモデルです。これまでで最大かつ最も知識豊富なモデルとなります。OpenAIでは、教師なし学習と推論という2つの異なるパラダイムをスケールさせることでAI能力を向上させています。推論は応答する前に考えることをモデルに教え、科学や数学など推論を必要とする難しく複雑な質問に特に役立ちます。一方、教師なし学習はモデルの精度と直感力を向上させ、ハルシネーション(誤った情報の生成)を減少させます。
GPT-4.5は教師なし学習をさらにスケールアップする次のステップであり、知識と直感力を向上させ、ハルシネーションを減らします。OCシリーズモデルのように段階的に推論するわけではありませんが、GPT-4.5は一般的に有用で本質的にスマートです。私たちはまだこのモデルの実験段階にあり、特に推論モデルではないため、教師なし学習で生まれる能力を探索しています。今日、皆さんと一緒に探索できることをとても楽しみにしています。
こんにちは、私はRafaです。OpenAIで合成データに取り組んでいます。GPT-4.5についてお話しできることを嬉しく思います。GPT-4.5との対話は自然に感じられ、これまでで最高のチャットモデルです。より深い知識と文脈理解の向上により、文章の改善、プログラミング、実践的な問題解決などのタスクに非常に役立ちます。
モデルの感触を掴むには、実際に対話するのが一番です。デモに移りましょう。GPT-4.5に「先日友人とトラブルがありました。また約束をキャンセルされました。彼らを嫌いだと伝えるテキストメッセージを書いてください」と質問してみましょう。O1(推論モデル)の回答と比較してみましょう。
GPT-4.5は私がイライラしていることを認識し、もう少しニュアンスのあるテキストを提案してくれました。これは友人に送るにはより建設的なものでしょう。一方、O1も有用ですが、指示通りに怒りのテキストを提供し、私がただ単に今イライラしているだけで誰かと話すことができれば良いかもしれないという社会的なキューを捉えることができません。また、最後の警告は少し批判的な感じがします。もちろん、GPT-4.5にも怒りのテキストを出力させることは可能です。「いいえ、怒りのテキストを出力してください」と指示すれば書いてくれます。
別のことを試してみましょう。モデルの深い知識を見てみましょう。「AIアラインメントの必要性を基本原則から説明してください」と質問してみます。再びO1の回答と比較します。
O1も役立ちますが、多くの情報を出力し、このトピックを初めて学ぶ場合に知りたいことを提供しています。しかしGPT-4.5の回答はより自然に流れ、アイデアを通じて私の思考をより導き、推論やより深い考え方を示してくれます。素晴らしい仕事をしてくれました。
モデルをスケールアップするにつれて、人間のニーズや意図をより良く理解するよう教える必要があります。GPT-4.5では、小さなモデルから派生したデータを使用してトレーニングできるようにする新しいスケーラブルなアラインメント技術を開発しました。これによりモデルの深い世界モデルが解放されました。
こちらの簡単な評価で、精度とハルシネーション率を測定しています。GPT-4.5はGPTファミリーの中で最も高い精度と最も低いハルシネーション率を示しています。私たちはGPT-4.5をより良い協力者となるようにアラインメントし、会話をより温かく、直感的で、感情的なニュアンスを持つものにしました。人間のテスターに依頼し、GPT-4.0とO1と比較して評価してもらったところ、あらゆるカテゴリでGPT-4.5が優れていました。日常的なクエリにおける正確性や事実性、専門的な設定で正解が難しい問題、そして創造的な知性を測定する新しい「バイブ」テストセットでテストしました。
バイブとは何かという質問ですが、バイブとはモデルのEQ(感情知能)、どれだけ協力的に感じるか、そしてその口調の温かさを意味します。これを測定するために、意見の強い一連のプロンプトを選び、私たちのバイブに最も合うトレーナーをスクリーニングしました。全体として、GPT-4.5は日常的なタスクや知識クエリに最適なモデルであり、文章の改善や創造的なバリエーションに理想的です。人々がどのように使用するか楽しみにしています。
こんにちは、私はYolです。事後情報を担当しています。このような大きなモデルで遊ぶことは全く異なる感覚であり、事後トレーニングインフラストラクチャをスケールアップする必要がありました。事前トレーニング段階と事後トレーニング段階では、トレーニングデータとプライムサイズの比率が全く異なるためです。より小さなフットプリントを使用して、このような大きなモデルを微調整するための新しいトレーニングメカニズムを開発しました。教師あり微調整と人間のフィードバックによる強化学習を組み合わせて、複数のイテレーションを通じてこのモデルをポストトレーニングしました。その結果、今日展開する準備ができていると信じる新しいモデルを開発しました。
Langが言うように、スケーリングは難しいですが、未知の領域にも導いてくれます。そのため、特に安全性評価と準備評価を通じて、モデルが世界と共有するのに安全であることを確認するために細心の注意を払いました。これらの結果はシステムカードで確認することができます。
こんにちは、Jasonです。こんにちは、Alexです。私はGPT-4.5の事前トレーニングMLをリードし、Jasonは事前トレーニングシステムのスケーリングに取り組みました。このモデルにできるだけ多くの計算能力を投入したいと考え、それには多くの新しいシステム作業が必要でした。
例えば、GPUを最大限に活用するために低精度トレーニングを積極的に使用しました。また、単一の高帯域幅ネットワークファブリックに収まる以上の計算能力を使いたかったため、複数のデータセンターにまたがってこのモデルを事前トレーニングしました。先ほど言及されたように、これは大きなモデルであり、ChatGPTでそれを提供するには多くの課題がありました。このモデルを高速で快適に対話できるようにするための新しい推論システムを構築しました。もちろん、以前のモデルと同様に、ローンチ後もこのモデルをさらに高速化する改善を継続的に提供していきます。
モデルがどのように進化し、私たちがそれをどのようにスケールしているかについて話してきましたが、これらのモデルが改善されるにつれてどのような感じになるのかを皆さんに伝えるのも面白いと思いました。GPTシリーズの各モデルに同じ質問「なぜ海は塩辛いのか」を尋ねてみました。ここでその進化を紹介します。
時間を遡って2018年、GPT-1のトレーニングを終えたばかりの頃です。「なぜ海は塩辛いのか」と質問すると…全く分かっていません。質問に対して単語のサラダ(意味のない単語の羅列)を返しています。サラダの中に単語があるので何かはありますが。
モデルを改良してGPT-2に進みましょう。GPT-2はまだ間違っていますが、はるかに良い回答です。トピックに沿っており、塩と海に関する何かがあります。より的を射ているかもしれません。
さらにモデルを改良してGPT-3.5 Turboに進みます。これが初めて正しい回答を得られますが、良い回答とは言えません。何も説明されておらず、「塩は塩化ナトリウムです」など不必要な詳細が含まれています。それは聞いていませんでした。
さらにモデルを改良してGPT-4 Turboに進みましょう。これは良い回答で、モデルが明らかに非常に賢いことが分かりますが、その賢さを示したいという印象を受けます。ここでは単に事実を列挙しており、実際、スライドに収めるためにモデルの応答を切り詰める必要がありました。
最後にモデルを改良してGPT-4.5に進みます。これは素晴らしい回答です。明確で簡潔、まとまりがあります。個人的には、最初の文「海が塩辛いのは、雨、川、岩があるからです」が頭韻を踏んでいて楽しいと思います。非常に覚えやすく、GPT-4.5の素晴らしい個性を示しています。当時、GPT-2にどれほど驚いたか覚えていますが、ここまで進化したことは驚くべきことです。
GPT-4.5を実現するためにシステムをスケールアップする作業に加えて、アーキテクチャ、データ、最適化に関しても膨大な作業を行ってトレーニングを可能にしました。この教師なし学習の驚異的なスケールアップにより、GPT-4と比較して従来の言語モデルベンチマークで非常に大きな向上が見られました。
推論を重視する科学評価であるGBQでは非常に大きな向上が見られます。ただし、応答する前に考え推論できるOpenAI O3 miniにはまだ及ばないことに注意してください。このような評価では特に役立ちます。「考える前に回答したら70%は取れないだろう」と思いますが、GPT-4.5が考える能力なしでこれほど高いスコアを獲得するのは非常に印象的です。
数学コンペティション評価のAMYやエージェント型コーディング評価のSBench Verifiedでも同様の傾向が見られます。しかし、より深い世界知識の恩恵を受けるエージェント型コーディング評価のSW Lancerでは、GPT-4.5はOpenAI O3 miniさえも上回っています。これは教師なし学習と推論のスケールアップの相補的な性質を浮き彫りにしていると思います。
幅広いトピックをカバーする多言語言語理解ベンチマークであるMultilingual MLUでも同様のドラマチックな効果が見られます。そして最後に、マルチモーダル理解のMMUでもGPT-4と比較して素晴らしい向上が見られます。
GPT-4.5のトレーニングから多くを学び、また展開からも多くを学ぶことを期待しています。本日から、GPT-4.5はウェブ、モバイル、デスクトップでモデルピッカーを通じてすべてのProユーザーに公開され、来週にはチームとPlusユーザーに、その次の週には教育機関とエンタープライズに公開される予定です。
ChatGPT 4.5は、ファイルと画像のアップロード、キャンバス、検索など、多くのChatGPT機能とシームレスに統合されています。将来的には、AIがあなたのために単に機能するように、ユーザーエクスペリエンスを簡素化するよう努めます。また、本日、すべての有料プランの開発者にもGPT-4.5を公開できることを嬉しく思います。関数呼び出しや構造化された出力など、素晴らしいアプリケーションを構築するために必要な主要機能がすべて揃っています。サポートされている機能の完全なリストについては、ブログをご確認ください。皆さんがこのモデルで何を構築するのか楽しみにしています。
私たちは、推論が将来のモデルの中核的な能力になると信じていますが、今日お話しした教師なし学習と推論という2つのパラダイムは互いに補完し合うと考えています。GPT-4.5のように世界知識が豊富で本質的に賢いモデルは、将来の推論モデルとエージェントにとって、より強固な基盤となるでしょう。教師なし学習における計算能力の新たな桁違いの向上ごとに、私たちは新しい能力を発見します。GPT-4.5は本当に教師なし学習の最前線にいます。
私たちのモデルを共有すると、コミュニティが創造性を持って新しい能力を発見することに、いつも驚かされます。今日、皆さんと一緒に教師なし学習の最前線を探索したいと思います。直感的で知識豊富なAIと人間の相互作用という、GPT-4.5の新しい時代を迎えることを本当に楽しみにしています。

コメント

タイトルとURLをコピーしました