RFT発表、OpenAIがモデルを改善する方法と現在のAIエージェントの状態

19,690 文字

RFT Launch, How OpenAI Improves Its Models & the State of AI Agents Today

In this episode, I sit down with Michelle Pokrass, who leads a research team at OpenAI within post-training focused on i...

ミシェル・ポクリスはGPT-4.1とOpenAIの背後にいる重要人物の一人です。ポストトレーニング研究のリーダーとして、彼女はこれらのモデルを開発者にとってはるかに優れたものにする上で重要な役割を果たしました。私はジェイコブ・エフロンで、今日のUnsupervised Learningでは、GPT-4.1など様々なことについて掘り下げました。
ミシェルとの会話の中で私のお気に入りの部分には、エージェントの現在と将来の状態、将来のモデルが異なるグループ向けに目的に合わせて構築されるかどうか、RFTとそれが開発者にとって何を意味するか、モデルにとって手の届く範囲のものと遠い将来のものを見分けるための戦術などが含まれます。また、企業がAIの急速な進歩に対してどのように自らを成功に導くことができるか、そしてアプリケーションレイヤーでどのような創業者が勝利するかについても話し合いました。
そして最後に、OpenAIのエージェント製品の次の展開についても触れました。最先端を定義するのを助けている人との素晴らしいエピソードでした。それでは、ミシェル・ポクリスをご紹介します。
ミシェル、ポッドキャストに来てくれてありがとう。本当に感謝しています。
はい、呼んでくれてありがとう。ここに来られてとても嬉しいです。
はい、今日はGPT-4.1についてあなたと探求したいことがたくさんあります。あなたはモデルが現実世界での使用と有用性に重点を置き、ベンチマークにはあまり焦点を当てていないと述べました。これはTwitterの議論やモデルを試している人々の間で確かに共感を呼んでいるようですね。
実際にはどのようにしてそれを実現するのですか？
はい、良い質問です。このモデルの本当の目標は、開発者にとって使って楽しいものでした。よくあることですが、私たちだけではありませんが、時にモデルをベンチマーク向けに最適化すると見栄えは良くなりますが、実際に使おうとすると「指示に従ってくれない」とか「フォーマットが変だ」とか「文脈が短すぎて使えない」といった基本的なことでつまずきます。
このモデルでは、開発者が長い間求めていたものと、そのフィードバックをどう再現できるかに本当に焦点を当てました。多くの焦点は、ユーザーと話し、彼らのフィードバックを得て、それを研究中に実際に使えるevalに変えることでした。
モデルトレーニングに着手する前に、かなり長い準備期間がありました。evalの整備と私たちのモデルの最大の問題がどこにあるのかを理解することに取り組んでいたのです。ブログ記事にも書きましたが、私たちは社内に指示従順性のevalを持っています。これは実際のAPI使用に基づいており、人々が教えてくれたことに基づいています。これがこのモデルを開発する際の北極星のようなものでした。
私はあなたがこのeval選びについて話すのを聞いたことがあります。スタートアップやAPIの上に構築している人々に行って「モデルができないことは何か」と尋ね、それらの問題に対して最適化しようとするというアイデアについてです。みんながきっと最適化して欲しい15の項目を持っていると思いますが、どうやって重要なevalを見つけるのでしょうか？この構築過程で学んだことはありますか？
実は逆の問題の方が多いです。彼らが「これら100のevalがあるから、全て修正してください」とは来ません。むしろ「この一つのユースケースでは少し変だ」と言い、私たちは「それはどういう意味ですか？」と聞かなければなりません。実際にいくつかのプロンプトを試して理解するのです。
だから、多くの作業はユーザーと話し、そこから重要な洞察を引き出すことです。最近ユーザーとの会話から興味深い洞察を得ました。私たちのモデルが「世界について知っていることを全て無視して、文脈内の情報だけを使ってください」という指示に対してもっと良くなれるということでした。
これはAMIGBQのようなevalでは見られないものですが、この特定のユーザーにとって最も重要なのは、モデルがシステム指示だけに注目し、すでに知っていることを無視することでした。
質問に戻ると、最も重要なものを決定する方法は、基本的に顧客との間で繰り返し出てくるテーマを見て、私たち自身もモデルを内部で使用し、うまく機能していない部分を把握しています。また、私たちのモデルの上に構築している内部の顧客もいます。これらすべてを合わせて、どのevalセットを追求するかを決めています。
リスナーに対してevalのリクエストはありますか？「本当にこの分野についてもっと例や、テストしたいものがあればいいのに」と思う領域はありますか？
はい、はい、いつでももっと欲しいです。私はいつもこのeval製品を宣伝しています。オプトインすると、evalに無料の推論を得られ、その代わりに私たちはそれらを使用できます。特に私が興味を持っているのは、より長い文脈の実世界のevalです。長文脈のevalを作るのは本当に難しいです。
合成メールはニッチなユースケースを狙うには良いですが、長文脈で全体的にうまく機能するかどうかを知りたい場合、私たちはもっと必要です。もう一つは指示従順性です。これはMLで定義するのが最も難しいことだと思います。誰もが「モデルがこの指示に従わなかった、これが得意ではない」と言いますが、人々は実際には何百もの異なることを意味しています。そのあたりについてもっと情報があれば、いつも興味を持っています。
このプロセスで出てきたお気に入りのランダムなevalはありますか？すでにいくつか例を挙げていますが、機能しないと驚いたものや、特に改善するのが楽しかったものはありますか？
これは面白いですね。私たちは4.1の異なるバージョンをいくつかテストし、実際のアルファユーザーにテストしてフィードバックを得ました。あるカスタマーは、私たちが最終的に出荷した第4バージョンよりも第1バージョンを本当に好んでいました。彼らだけがそのように感じていて、すべてのevalはこれらの間で右肩上がりでしたが、それが何なのか全く理解できませんでした。何かすごくニッチなユースケースで、どこにもカバーされていなかったのです。
これらのモデルで全員を満足させるのは難しいです。ほぼ不可能ですが、指示に十分に従うものを作れば、より多くの人にプロンプトの改善を教えることで満足してもらえます。そして、ファインチューニングの提供は、より多くの人を満足させる本当に素晴らしい方法だと思います。
100％同意します。このモデルは数週間前に出ましたね。もちろん、これを多くの人とテストしていたので、人々がどのように使うかある程度の感覚はあったと思います。しかし、それを世に出して、予期せぬ方法で使われるのを見るのはいつも楽しいですね。この数週間で、モデルが解決できた予想外のことで特に楽しかったものはありますか？
はい、人々が構築している多くのクールなUIを見るのが本当に楽しいです。実は、モデルの最後の方に密かに入れたのは、UIとコーディング能力の大幅な改善です。そこで本当にクールなアプリを見てきました。また、ナノを利用している人々を見るのも大好きです。小さく、安価で、速いです。Boxがドキュメントの17ページを読めるような製品機能を持っていると思います。アーロンがモデルを使った結果をツイートしているのを見ましたが、コア製品に対するかなり印象的な向上でした。
ナノの背後にある仮説が「安価で高速なモデルによってAIの採用をさらに促進できるか」というものだったのを見るのは非常にクールで、答えはイエスのようです。人々はコストと待ち時間のカーブのすべてのポイントで需要を持っています。
その答えは一般的にイエスのようですね。皆さんはいつも価格を下げていて、それがいつも需要を刺激しているようです。サムや他の多くの人があなたをこの全体を実現させた立役者の一人として認めていますね。このようなモデルを最初から最後まで出荷するには実際に何が関わっているのでしょうか？舞台裏でどのような作業をしているのですか？
はい、良い質問です。明らかに舞台裏には大きなチームがいます。基本的に、これら3つのモデルはそれぞれある程度新しいプリトレーニングを受けています。標準サイズ、ミニ、ナノがあります。プリトレーニングチームからの本当に素晴らしい仕事です。
「ある程度新しいプリトレーニング」とはどういう意味ですか？
良い質問です。いわゆる「ミッドトレーニング」、つまり鮮度の更新です。大きい方はミッドトレーンですが、他の2つは新しいプリトレーンです。私のチームはポストトレーニングに多く取り組んでいます。データの最適な組み合わせを決定する方法、RLトレーディングの最適なパラメータを決定する方法、または異なる報酬の重みを決定する方法に多く焦点を当てています。
これがどのように実現したかについては、多くの開発者がGPT-4に関して多くの痛点を持っていることに気づき始め、評価に3か月ほど費やしました。その後の3か月は訓練が猛烈に行われた時期でした。「このデータセットはどう機能するか」や「これらのパラメータを調整するとどうなるか」といった実験をたくさん行いました。
それがすべて新しいプリトレーンと連携しました。最後に約1か月のアルファテストがあり、非常に急速にトレーニングを行い、フィードバックを得て、できるだけ多くそれを取り入れようとしました。
これの一部はこれらのevalを収集することでした。そのevalセットはまだ関連していると感じますか？それとも、4.1をさらに改善するために最適化すべき全く新しいものを集める必要がありますか？
残念ながらevalの賞味期限は約3ヶ月です。進歩が非常に速く、物事はとても早く飽和するので、私たちはいつも探し続けています。
モデルでは明らかに指示従順性を改善し、長い文脈も改善しました。どちらもエージェントにとって信じられないほど有益です。エージェントについてはどこまで来ているのでしょうか？4.1後のこの分野の状態をどのように特徴づけますか？
現在のところ、エージェントは範囲がうまく定義された領域で驚くほどうまく機能します。モデルに適切なツールがすべてあり、ユーザーが何を求めているかが比較的明確な場合、そのようなユースケースはすべて非常にうまく機能します。しかし今は、曖昧で混沌とした現実世界へのギャップを埋めることがより重要です。
カスタマーサポートボックスに何かを入力するユーザーは、実際にはエージェントができることを知らず、エージェント自体も自分の能力について認識が不足している可能性があります。またはエージェントが特定の情報を知るために現実世界に十分接続されていない可能性もあります。
正直なところ、多くの能力はすでにあると思いますが、文脈をモデルに取り入れるのが非常に難しいのです。改善できると思う一つの領域は曖昧さです。開発者がチューニングしやすくすべきです。曖昧な場合、モデルはユーザーにさらに情報を求めるべきか、それとも仮定を持って進めるべきか。モデルが常に「これをすべきですか？本当に大丈夫ですか？これをしていいですか？」と聞いてくるのは明らかに非常に迷惑です。そこにはもっとステアラビリティが必要だと思います。
私たちは皆、そのような研修生と一緒に働いたことがありますね。微妙なバランスが必要です。ある程度の権限委譲は欲しいけれど、あまり多すぎないように。
モデルの基本的な能力は、モデル自体に十分なコンテキストやツールを接続していないために、多くの面で完全に示されていないようですね。それを改善する余地がかなりありそうです。
そうですね、まさにその通りです。外部のベンチマークで関数呼び出しやエージェントツール使用を見ると、モデルが不正確と評価される失敗事例を詳しく調べると、大部分が誤評価されているか曖昧な場合、またはユーザーモデルを使用しているけれど、そのユーザーモデルが十分に指示に従っていない場合です。
実際にモデルが単純に間違ったことをする事例を見つけるのに苦労しています。もちろんそういう事例はありますが、ほとんどのベンチマークは飽和していると言えるでしょう。
今後6〜12ヶ月でそうした多くのものが追加されると想像します。より多くのツール、より多くのコンテキストが入るでしょう。残っているギャップの一つは、より長期のタスク実行だと感じています。これらのより長く、より曖昧な、多段階のタスクに向けて進歩を続けるために必要なことについてどう考えていますか？
エンジニアリング側とモデル側の両方で変更が必要だと思います。エンジニアリング側では、エージェントが何をしているかをフォローしやすく、何をしているかの要約や、介入して軌道を変更する方法などのAPIやUIが必要です。オペレーターでそれを持っていて、かなりクールです。介入して方向付けができますが、APIの他の部分ではそれほどありません。それがエンジニアリング側のコア機能だと思います。
モデリング側では、物事がうまくいかない場合の堅牢性が必要です。明らかに、時にはAPIが500エラーを返し、モデルは行き詰まるでしょう。より多くの堅牢性や「やり抜く力」を訓練することを望んでいます。それは私たちが時々考える別の方法です。
モデルの別の部分で、誰もが気付いていると思うのは、コードがどれほど優れているかです。AIコードについて現在どこにいるのか、何が機能し何が機能しないのかをどのように特徴付けますか？
そうですね、コードに関しては、4.1や他のモデルは問題がローカルにスコープされている場合に驚くほど優れています。例えば、モデルにライブラリを変更するよう頼むと、すべてのファイルが互いに近くにあり、非常に理にかなっています。しかし、私たちが見逃しているSWEBenchタスクは、モデルが本当にグローバルなコンテキストを必要とし、コードの多くの異なる部分について推論する必要があるものです。
あるいは、1つのファイルに非常に技術的な詳細があり、それを別のファイルに渡そうとしている場合もあります。グローバルな理解をさらに改善する必要があると思います。
フロントエンドコーディングにも大きな改善を加えましたが、さらに改善したいと思います。美しいフロントエンドコードを生成するだけでなく、フロントエンドエンジニアがそれを誇りに思えるようにすべきです。リンティングの問題やコードスタイルも重要な焦点領域です。
最後に、常に改善していく別のことは、頼んだことだけを変更し、他のすべてを変更しないことです。モデルはあなたのコードのスタイルに適応し、自分のスタイルをあまり注入しすぎないべきです。内部のevalでは、GPT-4から4.1にかけて、無関係な編集が9％から2％に減少しましたが、明らかに2％はゼロではないので、引き続き改善していきます。
それは日常のコーディングでどのように使用することになりますか？
私は今チームを管理しているので、コーディングはそれほど多くありません。これらの会社でうまくやるための避けられない軌跡ですが、Codeexを使っています。正直なところ、GitHub Copilotもまだ使っています。依然として素晴らしい製品です。WindsurfとCursorも時々使います。
Codeexは独立して作業する方法が本当にクールです。主に使用しているモデルはスピードのためGPT-4 Miniです。
多くのベンチマークについて触れましたが、「ベンチマークはまだ関連性があるのか」という議論が常にあります。コーディングでは長い間、ベンチマークは全体像を語らず、使ってみて初めて分かるという感覚があったと思います。それはどの程度真実であり、現在のこれらのベンチマークの状態とその有用性についてどのような見解をお持ちですか？
SweetBenchはまだ有用なベンチマークだと思います。55対35.5を達成できるモデル間の実際の違いは驚くほど異なります。Aderのevalもまだ非常に有用ですが、完全に飽和して役に立たないものもあります。
基本的に、evalのライフスパン中に最大限活用し、その後は次に進んで新しいものを作る必要があります。3ヶ月の賞味期限は確かに厳しいですね。SweetBenchが飽和したら、必ず後継者が出てくるでしょう。
GPT-4.1について非常に興味深いのは、これが開発者向けに構築されたもので、開発者が求めていたものを改善するためのevalがあることを明示的に伝えていることです。これからOpenAIのモデルファミリーがどのように進化するのかという疑問が生じます。異なるエンドユーザーやドメイン、タスク向けにポストトレーニングされたプリトレーニングモデルを想像できます。この特定のエンドグループ向けにモデルを構築することから多くのことを学んだと思いますが、それについてどのように考えていますか？
一般的に、私の哲学はAGIのGに本当に注力し、汎用的な1つのモデルを作ることです。理想的には、今後は製品の提供をシンプルにし、両方のユースケースに1つのモデルを使用し、Chat GPTのモデル選択状況もシンプルにしようとしています。
しかしGPT-4.1については、特に急な必要性があり、Chat GPTから切り離せば、この問題に対してより迅速に進めると考えました。これにより、モデルをトレーニングしてフィードバックを得ることがより速く、異なるタイムラインで出荷することができました。また、モデルトレーニングで興味深い選択をすることもできました。
Chat GPT特有のデータセットの一部を削除し、コーディングデータを大幅に重み付けすることができました。これは別のドメインをターゲットにしている場合にできることです。しかし一般的には、シンプル化することを期待しており、OpenAIのすべての研究者の創造的エネルギーが一つのモデルに集中している方が、APIに焦点を当てたサブグループだけよりも優れていると思います。
どのようなドメインでも一般化が大規模に行われており、すべてを1つのモデルに入れることは有益だったと感じます。しかし、この的を絞ったアプローチでこれほど成功を収めたことは興味深いですね。
両方に余地があります。時には、ユーザーのために物事を切り離して非常にうまく出荷することが理にかなっています。
それを再び行う可能性はあると思いますか？
可能性はあると思います。需要がどこにあるかを見て、多くの変更をその場で行っています。
皆さんは非常に速くモデルを出荷していますね。名前付けについては、いくつの異なるモデルがあるかについて常に議論されています。企業はモデル機能の最先端を把握しようとしています。この分野では毎月のように新しいモデルが登場する中、会社が最先端を維持するためのベストプラクティスはありますか？これらのAPIのユーザーだとしたら、どのように考えますか？
残念ながら、すべてはevalに戻ります。最も成功しているスタートアップは、自分のユースケースをよく理解し、本当に良いevalを持ち、新しいモデルがリリースされたときに1時間かけてevalを実行できる企業です。
また、本当に成功しているお客様は、プロンプトやスキャフォールディングを切り替え、特定のモデルに合わせて調整できる人たちです。それをお勧めします。
もう一つは、現在のモデルの手の届く範囲をわずかに超えたものを構築することです。10回に1回だけ機能するけれど9回に機能してほしいものなど。このようなユースケースを持っていれば、新しいモデルがリリースされたときに物事がうまく機能し、市場で最初になれます。
「手の届く範囲」を判断するための経験則はありますか？時にはこれらの機能がいつ実現するかを判断するのは難しいと思います。
ファインチューニングで大幅な改善が見られる場合、例えば10％の合格率がファインチューニングで50％になるなら、それはおそらくあなたの製品にはまだ十分ではありません。それは瀬戸際にあり、数ヶ月後の将来のモデルがおそらく単純にそれを解決するでしょう。
それは非常に理にかなっています。プロンプトとスキャフォールディングを切り替える能力について触れましたが、投資側で考えることの一つは、モデルができることをベースに多くの企業がスキャフォールディングを構築し、今日の製品を機能させるために制限の周りに構築しますが、新しいモデルがリリースされると、そのスキャフォールディングの一部が不要になることです。
「指示に従うのがはるかに優れているので、この長いコンテキストウィンドウがあるため、こういったハッキーなことをする必要がない」というように。そういう中で、スキャフォールディングを構築すべきかどうか、どのようなスキャフォールディングが意味を持つのかについてどう考えていますか？
これをスタートアップとしての存在理由に戻したいと思います。あなたの存在理由はユーザーに価値を届け、人々が欲しいものを作ることです。スキャフォールディングを構築し、自分のものを機能させることは非常に価値があると思います。基本的に、この機能がより簡単に利用できるようになる前に数ヶ月の裁定を行っているのです。
しかし、将来のトレンドを念頭に置くことは重要だと思います。今はRAGのようなものを構築するか、プロンプトに指示を5回入れるかもしれませんが（もっとも4.1ではそうではありませんが）、物事を変更する準備をしておく必要があります。
コンテキストウィンドウは向上し続け、推論能力はさらに良くなり、指示従順性はさらに向上するでしょう。これらのトレンドがどこに向かっているのかを見ておくことが大切です。
今後についての他のヒントはありますか？
マルチモーダルは別の一つです。モデルは非常にネイティブにマルチモーダルになり、使いやすくなっています。
それはGPT-4.1の比較的目立たない部分だったと思います。マルチモーダル機能は非常に印象的ですね。
正直に言って、プリトレーニングチームに大きな賞賛を送ります。これらの新しいプリトレーンはマルチモーダルを大幅に改善し、今後もこれらの改善が続くと思います。GPT-4では機能しなかった多くのことが、モデルがそこで改善されたためにGPT-4.1では機能します。今日は中途半端な結果しか得られなくても、明日はより良くなるので、タスクについての情報をできるだけ多くモデルに接続する価値があります。
ファインチューニングについて言及しましたが、これも興味深いですね。ファインチューニングについて、初期には多くの人が「これが実際にどれほど役立つのかわからない」と感じていたのが、新しいモデルでファインチューニングのルネサンスがあり、実際に役立っていると感じられるようになりました。その流れは真実だと思いますか？人々はどのように考えるべきで、より多くの人がファインチューニングに関する以前の前提を見直すべきでしょうか？
ファインチューニングを2つのカテゴリーに分けると思います。1つ目は速度と待ち時間のためのファインチューニングです。これは依然として私たちのSFT（教師付きファインチューニング）の主力です。GPT-4.1はうまく機能しますが、待ち時間のごく一部で利用できます。
しかし、フロンティア機能のためのファインチューニングはあまり見てきませんでした。SFTで本当にニッチなドメインに対してそれらを得られるかもしれませんが、RFT（強化学習からのフィードバック）では、特定の領域でフロンティアを押し広げることができ、ファインチューニングプロセスは非常にデータ効率が良いため、100サンプル程度で済ませることができます。
私たちのRFT提供は実際に来週GAに出荷されます。おそらくリスナーの皆さんはそれが出たときに聞くでしょう。とても楽しみにしています。うまく機能するユースケースがいくつかあります。例えば、エージェントにワークフローの選択方法や決定プロセスの進め方を教えることなどです。
また、ディープテックにも興味深い応用があります。スタートアップや組織が他の人が持っていないデータを持っていて、それが本当に検証可能な場合、RFTで絶対的に最高の結果を得ることができます。
一つ気づいたことは、必要な例の数があまり多くないということです。初期には「これらの企業は何万もの例を持っていて、競争で勝てるだろう」と思われていましたが、データは確かに重要ですが、以前考えられていたよりもはるかに少ない例で済むようです。
これら2つのトレンドによってファインチューニングがより興味深くなっていると思います。非常にデータ効率が良く、RFTは基本的に私たちが内部でモデル改善に使用しているのと同じRLプロセスです。それが驚くほどうまく機能することを知っており、SFTよりも壊れにくいので、ディープテックや最も難しい問題に本当に役立つと思います。
これは誰もが試すべきものですか？もちろんモデルができる場合もありますが、例えば、人々が望むほど正確でないものに対して、これを試す価値があるでしょうか？
私の考え方では、スタイルの問題であれば、おそらく最近発表したプリファレンスファインチューニングを使用すべきです。より単純なことなら、例えばナノに分類させたいけれど10％のケースで誤りがあり、SFTでそのギャップを埋められるなら素晴らしいです。しかし、市場のどのモデルもあなたが必要とすることをしないような場合は、RFTに頼るべきです。
検証可能な場合、これを行いやすくするようなことを示唆していましたが、RFTが特に効果的な領域やより簡単に検証できる領域について、何か大まかな経験則はありますか？今や誰もがコードや数学以外でこの質問をしています。
チップ設計や生物学、例えば創薬のようなものがあると思います。探索が必要かもしれないが、機能するものが簡単に検証できるようなもの、それらが良い応用例だと思います。
確かにチップ設計はそうですね。創薬は永遠に素晴らしいユースケースですが、実際に人で機能するかどうかを確認するのに10年かかることもあります。フィードバックループは常に中間ステップを含みますが、興味深いですね。
GPT-4.1でこれらのマルチモーダル機能を見て、RFTを生物学のために使用する能力について触れました。常に「ロボティクス基盤モデルや生物学基盤モデルのような、スタンドアロンタイプの基盤モデルが存在するのか、それとも別クラスのモデルなのか」という質問があります。あなたの見解はどうですか？以前AGIのGについて言及しましたが、その面で収束していると感じますか？
そう思います。一般化は能力を大幅に向上させます。ロボティクスについてはまだ分かりませんが、経験的に最高のロボティクス製品が独自のモデルであるかどうかを知ることになるでしょう。しかし、私が社内で見ているトレンドでは、すべてを組み合わせると、はるかに良い結果が得られると思います。
皆さんはすぐに、人々のために何を使用するかを舞台裏で選択する1つのモデルができると示唆していますが、今日はまだそれを持っていません。企業としては、どのモデルを選ぶべきか、何をしようとしているのかに応じてのおおまかな経験則はありますか？
完全にそうです。これはかなり難しい決定樹なので、シンプル化することが楽しみです。私の考え方はこうです。Chat GPTでは、私はChat GPTの熱心なユーザーです。そこでの主なモデルはGPT-4で、時々ライティングやクリエイティブなものにGPT-4.5を使います。そして最も難しい数学の問題や、例えば税金申告をしていて正確にしたい場合はGPT-3を使います。あなたも同じようなモデルをチャットで使っていますか？
私はまだモデルが税金を任せられるほど十分に良いとは確信していなかったので、まだそれをしていませんが、あなたが十分に良いと言うなら素晴らしいです。来年は絶対にそうします。
私はむしろ税理士をダブルチェックしています。信頼できるソースで検証してください。消費者側については確かにその通りです。
企業ユーザーについては、できるだけ速く安くしたいと思いますが、人々はまだ各種モデルをいつ使うべきか正確に理解しようとしています。
私の考え方はこうです。開発者はまずGPT-4.1から始めるべきです。ユースケースにうまく機能するか確認し、もし機能して速さを求めるなら、ミニとナノを検討し、それらをファインチューニングすることを検討します。明らかに、最小モデルとしてまずミニ、次にナノです。
そしてGPT-4.1にとって手の届かないことがあれば、GPT-4 Miniを試し、十分な推論能力を得られるか確認します。それからGPT-3に行き、それも機能しなければGPT-4 MiniでRFTを試します。
モデルを使用する別の側面として、皆さんがモデルと共にリリースするプロンプトガイドを常に楽しんでいます。プロンプト側でうまく機能するさまざまなこと、時には直感に反することもあり面白いです。GPT-4.1をプロンプトする方法として特に好きなものはありますか？
XMLやプロンプトを適切に構造化することが非常にうまく機能することが分かりました。もう一つは単にモデルに続けるよう伝えることです。そのコツが好きです。次のバージョンでは修正したいと思っていますが、「問題を解決するまで戻ってこないでください」とモデルに伝えることで、パフォーマンスがどれほど向上するかは驚くべきことです。それらは興味深く、ある程度直感に反するものでした。
クックブックでその「続ける」という効果が大きいと示されていますが、次世代のモデルにそれを組み込んで、もはやそれが問題にならないようにするにはどうすればよいですか？
私たちのポストトレーニングプロセスは、使用されるデータの正確な組み合わせに非常に敏感になる可能性があります。1つの差分フォーマットでモデルをトレーニングするポストトレーニングプロセスを想像してみてください。そして、ユーザーが全く異なる差分フォーマットを使用しており、モデルが少し迷子になっている状況です。
しかしGPT-4.1では、思いつく限り約12の異なる差分フォーマットでモデルをトレーニングしました。目標は本当にうまく機能するものを提供することです。そして、おそらく最良のものを文書化することです。プロンプトガイドには、うまく機能する差分フォーマットがあります。
しかし同時に、私たちのドキュメントを読まない開発者（ほとんどの人）にとっても、すぐにうまく機能することも望んでいます。最良の方法を使用していなくても機能することが望ましいです。私たちは一般的なプロンプトと一般的な機能に多くの焦点を当てています。そうすることで、モデルに特定の方法を組み込むことを避けます。
「続ける」というのは、社内のチームにも言うべき素晴らしいことです。確かに、全体的に役立ちます。
evalは最も洗練された企業がうまくやっていることの一つだと述べましたが、一部のOpenAI製品やテクニックで、少数の企業が本当にうまく使っていて「もっと何千もの企業がこれを使ったり、このように考えたりしたらいいのに」と思うことはありますか？
私が一緒に仕事をするのが好きな開発者の中には、自分の問題をよく理解し、問題全体のevalを持っているが、それを特定のサブコンポーネントに分解できる人たちがいます。彼らは「モデルが正しいSQLテーブルを選ぶ能力がこの割合で向上したが、正しい列を選ぶ能力はこの割合で悪化した」というようなことを私に伝えることができます。
この粒度のレベルは、何が実際に機能していて何が機能していないのかを解明するのに本当に役立ちます。そして彼らはそれに対して特定の部分を調整できます。システムをモジュール化し、異なるソリューションを簡単に接続できるようにすることは、最初は少し時間がかかりますが、長期的には速く進むことができると思います。
人々が常に尋ねる質問の一つは、リーディングAIアプリ企業が必要とするAI専門知識の量と、モデルを棚から取ってきて顧客を理解する優れたエンジニアであることの違いです。長期的に見て、ファインチューニングに適用するデータを理解したり、evalを調整したりする能力は、アプリケーション層の企業にとって本当に重要なスキルセットになるのでしょうか、それとも基本的にモデルを棚から取って基本的なファインチューニングを行い、コアAI研究能力はそれほど重要ではないのでしょうか？
私は本当に万能な人に期待しています。製品を理解し、何でもできる本当に実行力のあるエンジニアを理解している人々です。正直言って、将来的にはこれらのモデルとソリューションを組み合わせるのにそれほど多くの専門知識は必要ないと思います。
そのため、研究発表だけを持つたくさんのPhDよりも、実行力のあるハッカーのチームについて聞くときの方が、私ははるかに強気になります。
これらのモデルを前進させる多くの興味深い領域があります。モデルをさらに良くするための将来の研究領域で最も期待しているものは何ですか？
私たちのモデルを使ってモデルを良くすることに本当にワクワクしています。これは特に強化学習で役立ちます。モデルからの信号を使用して、モデルが正しい軌道にあるかどうかを判断できます。
また、より一般的な研究領域ですが、反復の速度を向上させる取り組みもしています。実行できる実験が多いほど、より多くの研究が行われます。現在、実験を最小限のGPUで実行できるようにすることが本当の焦点です。ジョブを開始し、朝起きたときに、それが機能しているかどうかを知ることができるようにしたいのです。
それは純粋なインフラの問題ですか、それとも後者の部分について何か他の要素がありますか？
実際にはそうではありません。また、トレーニングしているものが、実験している内容について信号を得るのに十分なスケールであることを確認する必要があります。そこにも興味深いML問題があります。
モデルを使ってモデルを良くすることと、正しい軌道にあるかどうかの信号については、現在どこにいますか？それは機能しますか、それともまだ初期段階ですか？
それは驚くほどうまく機能します。合成データは非常に強力なトレンドでした。この点をさらに推進することが楽しみですが、より強力なモデルがあればあるほど、将来的にモデルを改善するのが容易になります。
皆さんはいくつかの本当に興味深いエージェントを出荷しました。おそらく最も有名なのはDeep Researchで、私が常に使用している製品です。基本的には、モデルがそれを使用することに非常に優れるようになるまで、ツールまたはツールセットで強化学習を使用していると理解しています。
エージェント全般にその種のアプローチがどのようにスケールすると想像しますか？これは、特定のエンドユーザー向けの特定モデルを構築することや、ツールに対して特にRLを行うことと、一般化のGとの間の問いの一種のサブバリアントです。
Deep Researchはゼロからイチへのステップだと思います。Deep ResearchやOperatorはゼロからイチまたは二へのステップで、モデルをこの特定のことに本当に深くトレーニングしたいところです。しかしGPT-3で見たのは、モデルをあらゆる種類のツールで優れたものにトレーニングできるということです。
実際、1セットのツールの使用を学ぶことで、他のツールセットでも良くなります。したがって、今後はツール特有のトレーニングをそれほど期待していません。それはすでに証明されており、現在はこれらの機能を広く組み込むことができます。
それがGPT-3について人々が本当に好きなことの1つです。Deep Researchの多くの機能を持っていますが、より速くできます。本当に最高のレポートが必要な場合はDeep Researchを使用できますが、その中間のものが必要な場合はGPT-3が最適です。
一般的なモデルがツールの使用やこれらのタスクの実行により優れるようになるにつれて、より簡単になる領域や難しくなる領域があると思いますか？皆さんは公に、コーディングエージェントを持つと述べていますが、人々が考えている中で、どの機能が早く来るのかについての心的モデルはありますか？
SweetBenchの数字がすでに多くの人間が得るであろうものを超えていることを考えると、コーディングが間もなく来ることは明らかです。これらの長いランを監督する能力はあります。
他のことに関しては、長いワークフローを考えています。GPT-3について既に興味深いのは、開発者が指定したツールを呼び出すと、それらはすでにモデルの思考の連鎖の一部になっていることです。モデルは前のツール呼び出しの思考と出力を使用し、次に何をすべきかについてさらに考えることができます。
そのため、エージェント的な顧客サポートや他の種類の機能は、個人的にはすでにあり、単に一貫性のある製品を作るためにすべてを接続する必要があると思います。
多くの面で、これらのモデルの能力は、それらを物事に接続したり、企業がそれらを使用する準備をしたりするといった実際の細かい実装を超えているようです。
もし今すぐモデルの進歩を完全に止めたとしても、これらのモデルからだけで何十兆ドルもの価値を引き出せるのかについての大きな議論があります。あなたは明らかに「はい」という立場にあるようです。
インターネットの能力過剰を考えると、オンラインになることによる飽和には至っておらず、インターネットは依然として世界を食べています。AIについては、GPT-3.5 Turboの能力さえも飽和させていません。その能力レベルだけを必要とする10億ドル企業がまだ始まると思います。
今やGPT-4.1や推論モデルがあり、もし本当に今止まったとしても、少なくとも10年分の構築があると思います。
サムは明らかに、モデルファミリーをGPT-5に統合することについて話しており、それは本当に楽しい「これを指す、あれを指す」という時代を終わらせるかもしれませんが、これを単一のモデルに統合するために実際に何をする必要がありますか？
それはモデルが何に良いかに戻ります。現在、GPT-4シリーズはチャットに本当に優れており、世界のほとんどのユーザーがGPT-4を使用しています。トーンやスタイルの好みにマッチさせ、素晴らしい会話をするのが好きです。人々との深い会話を理解したり、良いサウンディングボードになったりします。
しかしGPT-3は非常に異なるスキルセットを持っています。問題を本当に深く考えることができます。「こんにちは」と言ったときに、モデルが5分間考えることを望みません。
ポストトレーニングと研究により広く直面している本当の課題は、これらの能力を組み合わせることです。モデルを本当に楽しいチャットパートナーにしつつ、いつ推論すべきかも知っているようにトレーニングすることです。
これはGPT-4.1にも関連します。チャットデータの重みを下げ、コーディングの重みを上げてコーディングを改善したと言いました。そのため、モデルが何のために調整されているのかを正確に理解する必要がある、ある種のゼロサム決定があります。これがGPT-5の本当の課題です。適切なバランスをどのように取るかです。
興味深いことに、人々が過去に異なるモデルに惹かれた理由の一つは、非常にパーソナリティベースだったと思います。「このモデルのパーソナリティや雰囲気が好き」というものです。
1つのモデルに組み合わせようとすると、ある種の中央値的なパーソナリティになると思いますが、長期的には、プロンプトを通じて、あるいはあなたについて学ぶことを通じて、人々が異なるパーソナリティを望むのかどうか疑問に思います。モデル自体がそれらすべてのパーソナリティを持ち、それが現れることができるかもしれません。それについての考えはありますか？
私たちはすでに拡張メモリでこの方向に進んでいると思います。私のChat GPTは、私の母や夫のものとは非常に異なります。すでにこの方向に進んでいると思います。あなたについて知れば知るほど、より便利になります。
また、あなたについて知れば知るほど、好きなものに適応できます。これは将来のパーソナリティにとって非常に強力なレバーになると思います。また、より調整可能にもします。
すでにカスタム指示を使用して、「大文字が好きではありません」や「フォローアップの質問をしないでください、それが好きではありません」などとモデルに伝えることができます。そこでステアラビリティにより焦点を当てると思います。誰もが望むパーソナリティを微調整できるべきだと思います。
しかし、あなたはどのようなパーソナリティを求めていますか？
まだ発見中です。冗談のようなやりとりが楽しいです。少し楽しく、個性的で、時には言っていることでリスクを取るような、友達と一緒に過ごすような感じが好きです。いつもそれを楽しんでいます。
OpenAIでのあなた個人の旅についても興味があります。OpenAI内でさまざまな役割を担ってきましたし、会社もあなたがそこにいる間に成長と経験の百万の異なるサブチャプターを持ってきたと思います。
あなたの個人的な旅について少し話していただけますか？また、初期の頃と比べて、今この大きなチームをリードしている今、何が似ていて何が違うと感じますか？
はい、私は2年半ここにいて、APIチームのエンジニアリング側に入りました。実際、私のバックグラウンドはエンジニアリングの方が多いです。
以前はCoinbaseなどの他の会社で、高頻度低遅延のトレーディングシステムを構築していました。バックエンドの分散システムに焦点を当てていました。しかし、大学ではAIを学び、そこで教授と一緒に研究プロジェクトに取り組み、当時OpenAI Gymを使用したことを覚えています。それはとても素晴らしかったです。
エンジニアリングに1年半ほど取り組んだ後、特にAPIのモデル側に焦点を当てる方が理にかなっていると思いました。開発者向けのモデル改善に十分な焦点がなかったのです。構造化出力のようなものを求める声をよく聞いていたので、それが研究を始めるきっかけでした。モデルをトレーニングし、エンジニアリングシステムを構築しました。
その後、このチームを結成し、研究に移りました。最近、チームを少しリブランディングし、現在はパワーユーザーに焦点を当てています。パワーユーザー研究チームです。このリブランドの理由は、APIだけに焦点を当てていないからです。
明らかに、開発者は最も目の肥えたパワーユーザーの一部です。他のユーザーが知らない機能を使用し、モデルのプロンプト方法を最もよく知っています。能力を最もよく知っています。しかし、Chat GPT全体にもパワーユーザーがいます。無料版にも一部いますし、PlusやProにもたくさんいます。
私はChat GPTのパワーユーザーとして連絡を受けていないことに少し侮辱を感じています。しきい値に達しているかと思いましたが、おそらくもっと多く使用している人がいるのでしょう。
このようにモデルを使用している人々から多くの信号を得ています。パワーユーザーに焦点を当てることが興味深い理由は、彼らが今日行っていることが、1年後に中央値のユーザーが行うことになるからです。フロンティアにいて、モデルをより良くするために何ができるかを理解することから多くを学びます。
この2年間でどのような変化がありましたか？組織はサイズも取り組む範囲も大きく変わったと思いますが、今でも同じだと感じるものと、本当に異なるものは何ですか？
出荷のペースは同じだと思います。これほど大きな組織がこれほど速く動けることは本当に驚くべきことです。異なるのは、もはや会社で行われているすべてのことにコンテキストを持つことができないことです。
以前は、進行中のすべてのクールなプロジェクトについて良い状態を持ち、それらの研究アップデートをすべて読み、親密に知ることがより可能でしたが、今はもう起きているすべてのクールなことを知ることができないことを許容する必要があります。
私たちはいつも、現在のAI談話での過大評価されていることと過小評価されていることの1つをお尋ねする簡単な質問ラウンドでインタビューを終えます。
過大評価されているものとしては、ベンチマークです。多くのエージェント関連のものが飽和しているか、人々が得られる絶対的な最高の数字を発表していますが、現実的な数字は異なります。過小評価されているものとしては、その反対で、独自のevalです。本当の使用データを使用して何がうまく機能しているかを理解することが過小評価されています。
AI世界で昨年からお考えを変えたことは何ですか？
これはファインチューニングに戻りますが、以前はファインチューニングにあまり期待していませんでした。数ヶ月の裁定取引ですが、それは本当に時間の価値があるのでしょうか？しかし、実際にはRFTはフロンティアを押し広げる必要がある特定のドメインにとっては時間の価値があると思います。
特にあなたを納得させた特定のファインチューニングがあったのですか、それとも時間の経過とともにこれを見て納得したのですか？
今の素晴らしいことは、私たちの以前のポストトレーニングスタックやGPT-4.1スタックがSFTだけではないことです。私たちはモデルのトレーニング方法を出荷していませんでしたが、RFTでは基本的に強化学習と同様のアルゴリズムです。そのため、自分たちが引き出せる能力を実際に得ることができるという大きな変化だと思います。
モデルの進歩は、昨年と比べて今年は同じ、多い、少ないのどれだと思いますか？
ほぼ同じだと思います。遅くなるとは思いませんし、現時点では急速な離陸状態にあるとも思いませんが、引き続き速く、多くのモデルが出てくるでしょう。
お気に入りを選ぶのは難しいかもしれませんが、解決が難しい問題のクラスについて述べましたが、企業アプリケーション以外で、あなたが最も期待している消費者向け製品や、OpenAI以外で日常的に使用しているものはありますか？
AI系のものをたくさん使っています。最近はLevelsを使っていて、かなりクールなAI重視があります。Whoopにも非常にクールなヘルスインサイトがあります。AIをデジタルの世界だけから連れ出すのは非常にクールだと思います。
これは興味深い会話でした。最後に何か伝えたいことがあればどうぞ。人々はどこでGPT-4.1やあなたについてもっと学ぶことができますか？リスナーに向けて何か指摘したいことはありますか？
はい、完全に。ありがとうございます。GPT-4.1については、もっと詳しく知りたい場合はブログ記事を公開しています。私はTwitterにもいて、開発者やパワーユーザーなどのユーザーからのフィードバックを聞くのが大好きです。
もし私たちのモデルで何かうまく機能していないことがあり、それを示すプロンプトがあれば、メールをください。私のファーストネーム@openai.comです。モデルをより良くするためのフィードバックを得るのが大好きです。
あなたがこれから受け取る中で最も変わったメールについて、つまり何か分かりにくいユースケースのプロンプトについて、再びお話を伺いたいですね。
はい、すでにいくつか良いものを受け取っています。
ミシェル、本当にありがとうございました。これはとても楽しかったです。
こちらこそ、呼んでいただきありがとうございました。