GPT-5.1におけるモデルの振る舞いの形成 — OpenAIポッドキャスト第11回

本動画では、OpenAIの研究リーダーであるChristina KimとプロダクトマネージャーのLentia Ramenが、GPT-5.1の開発における重要な進化について語っている。今回のリリースで初めて、ChatGPTの全モデルが推論モデルとなり、必要に応じて思考プロセスを発動できるようになった。GPT-5.1は、前バージョンで指摘された「直感の弱さ」や「冷たさ」といったユーザーフィードバックに対応し、コンテキストウィンドウの拡張、カスタム指示の改善、そして新しいパーソナリティ機能の導入を実現している。モデルのパーソナリティとは、回答スタイルだけでなく、アプリ全体の体験を含む包括的な概念である。研究チームは、ユーザーの自由度を最大化しながら有害性を最小化するという原則のもと、モデルの創造性と表現力を拡大しつつ、ステアラビリティ(操舵可能性)を維持するという繊細なバランスを追求している。今後は、8億人を超える週間アクティブユーザー一人ひとりに最適な体験を提供できるよう、さらなるカスタマイズ機能の開発が期待される。

Shaping Model Behavior in GPT-5.1— the OpenAI Podcast Ep. 11

What does it mean for an AI model to have "personality"? Researcher Christina Kim and product manager Laurentia Romaniuk...

こんにちは、Andrew Maineです。これはOpenAIポッドキャストです。本日のゲストは、OpenAIでポストトレーニングに取り組む研究リーダーのChristina Kimと、モデルの振る舞いに焦点を当てたプロダクトマネージャーのLentia Ramenです。GPT-5.1について、モデルをより良くする要素、パーソナリティをステアラブル(操舵可能)にすることへの注力、そして今後の展望についてお話を伺います。

今回初めて、ChatGPT内の全てのモデルが推論モデルになりました。ほとんどのユーザーにとってパーソナリティというのは、もっと大きな概念だと思います。それはモデル全体の体験なのです。ChatGPTで自分が望む体験を得られるようになるべきです。ここでの技術的課題は、ステアラビリティを損なわずに、パーソナリティとして感じられるモデルの特性を引き出す方法を見つけることです。

Andrew Maineが続けます。モデルとその経時的変化についてお話しできることをとても楽しみにしています。モデルという言葉を使うこと自体、今では少し奇妙に感じます。なぜなら、それがもっと多くのものを含んでいるように思えるからです。全ては研究から始まります。GPT-5.1が計画されていたとき、目標は何だったのでしょうか。

Christina Kimが答えます。私たちにとって主な目標の一つは、GPT-5について寄せられていた多くのフィードバックに対応することでした。また、5.5インスタントを推論モデルにするための多くの作業も行ってきました。個人的に5.1リリースで最もエキサイティングなのは、史上初めて、ChatGPT内の全てのモデルが推論モデルになったことです。

現在のモデルは、必要に応じて「考える」ことを決定できます。これは思考の連鎖のようなものです。モデルはプロンプトに基づいて、どれだけ考えたいかを決定します。単に「やあ」とか「どうしてる?」といった挨拶をモデルに送る場合、モデルは考えません。しかし、もう少し難しい質問をすると、どれだけ考えるかを決定できます。これにより、答えを洗練させ、必要に応じてツールを駆使して考え抜き、その後で答えを返すための時間を得られます。Daniel Kahnemanが呼ぶところのシステム1とシステム2の思考のようなものですね。

推論モデルをデフォルトモデルとして全員に提供することで、はるかに賢いモデルを手にすることができます。より賢いモデルがあれば、特に指示に従う能力など、あらゆる面で改善が見られます。多くのユースケースでは、人々は推論があまり必要ないと思うかもしれませんが、知能の向上により、特定のクエリに対してモデルが実際に応答前に考えることが本当に役立ちます。私たちは、これが全体的な評価指標を改善することを確認しています。

Lentia Ramenが説明します。このような製品を管理し、人々に何が違うのかを説明するのは、おそらく困難だと思いますが、GPT-5とGPT-5.1の違いをどう説明しますか。そうですね、まず第一に、非常に多くのことが変化しているため、確かに難しいです。しかし今回の場合、私たちが話したかったのは、ChatGPT 5のローンチに伴ってコミュニティから寄せられたフィードバックとして聞いたことです。

私たちが聞いたことの一つは、モデルの直感が弱く、温かみがないと感じられたということでした。それを深く掘り下げると、いくつかの異なる要因が見つかりました。第一に、それはモデルが応答する方法だけではなく、つまりモデル固有の振る舞いだけでなく、モデルの周辺の要素でもありました。

例えば、私たちのモデルは短いコンテキストウィンドウを持っていました。つまり、ユーザーが以前に言ったことについて十分な情報を保持していませんでした。これは、モデルがユーザーが伝えた本当に重要なことを忘れているように感じさせ、ユーザーはそれを覚えていてほしいと思っていたのです。「今日は本当にひどい日だった」と言って、10ターン後にモデルがそれを忘れていたら、とても冷たく感じられます。これは今回のローンチの一環として調整した点です。

一部は実際にモデルの応答方法でした。しかしGPT-5で新たに導入したものとして、チャットモデルと推論モデルの間でユーザーを移動させる自動スイッチャーがあります。これらは応答スタイルが若干異なり、ひどい日を過ごしていることについてモデルと話していて、その後「ひどいがん診断を受けた」と言ったときにモデルが思考モードに切り替わると、非常に不快に感じたり冷たく感じたりすることがあります。そして、以前は抱えていた問題についてあなたを導いてくれていたモデルから、非常に臨床的な答えが返ってきます。

私たちが実際に行おうとしていた変更の多くは、全体として、フードの下で多くのことを変更しているにもかかわらず、このモデルがより温かく感じられるようにするにはどうすればよいか、ということでした。もう一つ調査したのは、一般的な指示追従能力でした。5.1はカスタム指示に従うのがはるかに優れており、これも私たちが聞いていたフィードバックのもう一つの要素でした。リリースされるモデルには、それぞれ独自の癖や若干異なる振る舞いがあります。

実際、人々はコントロールできる限り、それをあまり気にしないと思います。「ねえ、それは変だった。やめて」と言えるのであれば。しかし、モデルがその文脈を引き継げない場合、カスタム指示を保持できない場合、それは問題です。そこで、このフィードバックに対応するために、カスタム指示機能を実際に強化し、指示をより一貫して引き継ぐようにしました。

最後に言いたいのは、こうしたことの多くは個人の好みだということです。だからこそ、私たちはスタイルや特性タイプの機能、パーソナリティのようなものを導入しました。これにより、ユーザーはモデルを特定の応答フォーマットに導くことができ、ChatGPTがどのように応答するかについて、もう少しコントロールできるようになります。

スイッチングは興味深いです。なぜなら、今では複数のモデルがあり、単一のモデルではないからです。そして、なぜそれが必要なのかを説明されました。スイッチャーや異なるモデルについて話すとき、ほとんどの人にとっては混乱を招く可能性があると思いますが、それをどのように説明しますか。

Lentia Ramenが答えます。私たちのモデルには非常に異なる能力があり、把握し続けるのは難しいことがあります。その一部は、アプリ内でさまざまなものを継続的に試してみることですが、確かにプロダクトワークの一部は、ユーザーが選択すべき正しいモデルに導くための適切なUIを用意することです。それがモデルスイッチャーです。モデルスイッチャーは、さまざまな文脈でユーザーにとって最も役立つ答えの種類を学習します。さまざまな評価指標を見ています。

例えば、推論モデルの場合、人々が科学的に非常に正確で非常に詳細なものを求めている場合、そのようなプロンプトに対してそのニーズに応えているかどうかを評価指標で確認し、ユーザーをどこに切り替えるかを予測できます。

Andrew Maineが尋ねます。Christinaさん、スイッチャーについて、そして今やモデルが無料ティアの誰もが使えるようになり、ベースモデルを使用する人は誰でも推論モデルを使っているという事実について、それは実際にどのような影響を意味するのでしょうか。

Christina Kimが答えます。研究にとって多くのオープンな疑問があると思います。おっしゃるように、より速いモデルですが、必ずしも愚かである必要はありません。つまり、全員にとって可能な限り最も知的なモデルを手に入れたいということです。そして、これは、最先端のフロンティアモデル、つまり数分間考えるようなディープリサーチのようなもので、より長く考えるモデルで、より興味深いことができることについて、より深く考える扉を開くと思います。それはバックグラウンドでツールとして呼び出せるかもしれません。ですから、私たちが何を考えたいかについて、多くの研究上のオープンな疑問があると思います。

しかし、私たちがモデルのシステムを持ち、それが単なるモデルではない世界に入っていくと思います。さまざまなツールがあり、5.1について考えるとき、人々はそれが単一の重みのセットのようなものだと思い込みますが、実際には、この推論モデル、この軽量な推論モデル、自動スイッチャー(これもそれ自体がモデルです)、そしてさまざまなツールがあり、それらもまた異なるモデルに支えられています。ですから、これらすべてのシステム、そしてモデルがより賢くなるにつれて、より興味深いユースケースとより興味深いプロダクトの意味合いが開かれていくと思います。

Andrew Maineが続けます。8億人のユーザーがいると、おそらくその膨大な量に加えて、多くのユーザーフィードバックを得ていると思います。それをどのように整理し、理解し、どのように活用できるかを考えるのでしょうか。

Lentia Ramenが答えます。実際、その多くは会話リンクから始まります。ユーザーが行っていた会話を実際に見ることができる場合が多く、その会話で正確に何が起こったかを確認し、ソリューションをターゲットにできるように解剖を始めることができます。例えば、モデルが非常に冷たいことを言ったり、文が非常に短く感じられたりするような本当に奇妙な体験をしたというフィードバックをユーザーから得た場合、実際にその会話リンクを見ることができれば、そのユーザーが実験に参加していたことがわかり、この特定の実験が特定のケースで特定のユーザーにとってエッジがある可能性がある理由の良い例になります。

しかし、少なくとも、5.1チャットから5.1推論にユーザーを移動させる自動スイッチャーについては、ユーザーからのさまざまなシグナルを見て、これが彼らにとって機能しているかどうかを把握しています。各応答が事実性でどのようにパフォーマンスを発揮しているか。レイテンシはどうか。すべてのユーザーがより良い答えを求めていても、待つことを望んでいるわけではないからです。ですから、いつ切り替えるか、どのようにそれが最も効果的かを把握するために、さまざまなシグナルのバランスを取るのは、少し芸術と科学の組み合わせです。

Andrew Maineが尋ねます。知能の観点から、つまりIQの観点からモデルを改善しようとする場合、ベンチマークと評価指標があります。しかし、EQ、つまり感情的知性について話しているとき、それをどのように行うのでしょうか。どのようにそこでの進歩を測定するのでしょうか。

Christina Kimが答えます。これは非常にオープンエンドなものであり、実際、私の研究チームのアジェンダの一部であるものの一つは、私たちがユーザーシグナル研究と呼んでいるものです。これは報酬モデルをトレーニングし、強化学習中にシグナルを取得して、ユーザーのプロダクションデータに対して使用できるようにすることです。このタイプの研究は、意図のようなものについて多くのことを得られるので、本当に興味深いと思います。

EQについて考えるとき、それはより賢いモデルによってのみ良くなると思います。なぜなら、それは本当にユーザーが何を望んでいるか、ユーザーが望んでいることの文脈は何か、そして会話に他に多くのメッセージがあり、ユーザーのメモリと履歴についてこれらのことを知っているという事実を考えると、モデルがどのように最善に応答すべきかを理解しようとしているからです。

Lentia Ramenが続けます。EQにはもう一つの要素があると思います。高いEQを持つ人間について考えるとき、それは聞く能力、あなたが言ってきたことを覚えている能力、Christinaが言及したユーザーシグナルのような微妙なシグナルを拾う能力です。ですから、これの一部は、先ほど述べたように、実際にはコンテキストウィンドウが正しい情報を前方に運んでいることを確認すること、またはメモリが正しくログされていることを確認すること、あるいはユーザーと共鳴するスタイルを持っていることを確認することです。

5.1と共にローンチしたパーソナリティ機能では、その一部は、ユーザーがモデルと対話するときに共鳴するスタイルを持てるようにすることです。なぜなら、それもEQのように感じられるからです。

Andrew Maineが尋ねます。モデルに関してパーソナリティをどのように定義しますか。

Lentia Ramenが答えます。二つの方法があると思います。私たちがパーソナリティ機能と呼んでいるものがあり、もし名前を変えられるなら、実際には応答スタイルまたはスタイルとトーンと呼びたいです。これについては何度も議論しました。名前はまだ変わるかもしれません。パーソナリティのその側面は、モデルが応答するときに持つ可能性のある特性は何かということです。簡潔ですか。長い応答ですか。そのようなことです。どれくらいの絵文字を使いますか。

しかし、ほとんどのユーザーにとってパーソナリティはもっと大きなものだと思います。それはモデル全体の体験です。それは、少しモデルを擬人化することになりますが、私と比較すると、私のパーソナリティの一部は、今日私が選んだ靴、着ているセーター、髪のスタイリングの仕方です。それがChatGPTアプリの感覚です。使用するフォント、応答の速度や遅さ、つまりアプリ自体のレイテンシ、そこには非常に多くのものがあり、それが私がハーネスと呼ぶものからくるパーソナリティです。

ハーネスにはコンテキストウィンドウが含まれます。ユーザーをレート制限するかどうか、いつするか、なぜなら、レート制限をかけて能力が若干異なる別のモデルに送ると、ユーザーにとって異なる体験のように感じられるからです。多くのユーザーはこれをパーソナリティと呼んでいます。ですから、パーソナリティは少しオーバーロードされた用語であり、この仕事の技術は、コミュニティがパーソナリティについて言っていることを聞き、それをChatGPT内とモデル内のコンポーネントに実際にマッピングする方法を見つけ出し、ユーザーにとって違和感のある体験を引き起こすことだと思います。

Andrew Maineが尋ねます。研究の観点から、パーソナリティを形成することはどれほど難しいのでしょうか。

Christina Kimが答えます。ポストトレーニングを行っているとき、明らかに私たちがバランスを取ろうとしている非常に多くの異なることがあり、私たちが行う研究でさえ、ここでは非常に芸術でもあります。なぜなら、私たちはサポートしたいと思うすべての異なるタイプの能力について本当に考えているからです。ここにさまざまなタイプのものがあり、強化学習を使用すると、報酬設定を行うときに、ここで目指している最終目標は何かを決定しようとして、すべての異なる選択を行っています。

ヒットしたいすべてのものをヒットできるように、非常に微妙な調整を行おうとしていますが、同時に、多くのユーザーが温かさのようなものと呼んでいるものを失わないようにしています。

Lentia Ramenが続けます。ユーザーは本当にChatGPTを体験します。モデルのパーソナリティは、ChatGPT体験全体です。それは画像生成がどれだけうまく機能するか、音声がどれだけうまく機能するか、テキストがどれだけうまく機能するかです。彼らはこれを一つのオムニ体験として見ており、フィードバックを読むとき、実際にユーザーと関わって彼らの会話を見ると、その多くは実際には混乱から来ています。

彼らはこれが一つのものだと感じていますが、実際には多くのものの集合体です。ですから、時間が経つにつれて、これらすべてのモデルが一貫して改善され、それらの間の統合が一貫して改善され、よりシームレスに感じられることを期待すべきだと思います。ですから、そこに到達すると思います。

もう一つ、Christinaの仕事について本当に複雑だと思うことがあります。私はモデル仕様と呼ばれるこの文書の共著者の一人です。その中で、私たちはユーザーの自由度を最大化しながら害を最小化することについて話しています。自由度を最大化するということは、これらのモデルでほぼ何でもできるべきだということです。しかし、例えばエムダッシュを使わないようにモデルに多くの圧力をかけた場合、モデルからそれらを取り除こうとした場合、それは、エムダッシュが欲しいユーザーがそれを求めることができないことを意味します。なぜなら、私たちはモデルをそれを決してしないように訓練してしまったからです。

ですから、ここでの技術の一部は、パーソナリティとして感じられるモデルの癖をどのように引き出すか、同時にステアラビリティを壊さないかということです。それがユーザーが最終的に望んでいることです。それが自由のコンポーネントです。

Christina Kimが続けます。最初のバージョンのChatGPTをリリースしたとき、私たちは人々がそれを悪用することを非常に心配していたので、すべてを拒否にしました。モデルは「これはできません」と言うのが大好きでした。世界で最も安全なモデルを作りたいなら、何でも完全に拒否するものを作ればいいわけです。しかし、それは私たちが実際に望んでいることではありません。私たちが望んでいるのは、人々にとって実際に非常に使いやすいものです。ですから、モデルが下さなければならないすべての異なる決定について、正しい境界線は何かを理解しようとする、このバランスの取り方なのです。

Andrew Maineが笑いながら言います。誰がそれをツイートしたか忘れましたが、「はい、できます」と言うだけで最高のプロンプトハックでした。モデルは「ああ、そうだね、これができるね」と言っていました。私は今、書くときにエムダッシュを使いまくって、人々を混乱させています。それは私です。

しかし、それは実際に非常に大きな課題です。なぜなら、おっしゃったように、モデルの能力を高めようとしているからです。モデルはこれらのパターンを拾うことで学習しますが、明示的に「これをしないで」または「あれをしないで」と伝えようとすると、それはほとんどピンクの象を考えないように誰かに言うようなもので、頭に詰まってしまいます。モデルはそれについてはるかに良くなりましたが、まだ進むべき道があるようです。

あなたが触れたことですが、OpenAIの目標は、人々がこれらのモデルを自分が望む方法で使用できるようにすることであり、誰かをこれに誘導しようとしないことです。あなたがここにいてから、これがどれほど進化したのを見てきましたか。

Lentia Ramenが答えます。いくつかの点で、原則は常に同じだったように感じます。つまり、自由度を最大化し、害を最小化することです。これらの境界を理解するモデルの能力は継続的に向上していると思います。私が最初に入社したとき、モデルは「それはお手伝いできません」とか、「これは私が」と言っていました。拒否境界を越えようとすると、本当に批判的に聞こえていました。

今では、セーフティシステムチームが、セーフコンプリーションと呼ばれるもので素晴らしい仕事をしていると思います。これは基本的に、セーフティ境界に触れるようなことをモデルに求めても、実際に有害なことをせずに、真剣にリクエストを解決しようとするものです。ですから、技術は本当に進化していると思います。

Andrew Maineが言います。私はミステリースリラーを書いていて、他のモデルにイライラすることがありました。実際、過去に犯罪が起こったことや動機などについて説明する必要があると言ったとき、Open AIのモデルはこれに最適だと思っていました。他のモデルは完全に拒否することがあり、私は「これは役に立たない」と思っていました。そして、モデルがそれを行うのが上手になるのを見てきました。しかし、それはあなたが常に交渉しなければならないこのフロンティアのようなもので、どこまで行きたいかを考えなければならないようです。

Lentia Ramenが答えます。そうですね。一つ言いたいのは、弁護士が性的暴行事件の証拠をChatGPTに確認するよう求めていたという、私たちに転送されたメールをいつも覚えているということです。ChatGPTはそこから暴行内容をすべて削除していました。なぜなら、特に同意のないセックスのような、グラフィックな暴力やゴアには立ち入らないからです。しかし、その弁護士にとっては本当にひどいことでした。彼らは「もしこれを実際に提出していたら、依頼人のケースを完全に弱めていただろう」と言っていました。

私はもともと司書です。図書館は情報へのアクセスを扱い、理論的には、人間が話すことができ、探求したいすべてのこと、あらゆるアイデアが図書館で利用可能であるべきです。ChatGPTについても同じことが言えると思いますが、それらのルールを文脈化する適切な方法を見つけることが重要です。

私が挙げた弁護士のケースでは、それは理にかなっているかもしれません。しかし、元恋人への復讐メールを書いている場合、それは非常に異なるものです。ですから、これの一部は、そのレベルのニュアンスを処理できるように技術を進歩させることです。私たちは常に良くなっていますが、常にもっとやるべきことがあります。

Andrew Maineが言います。これらのモデルが知能の面で改善されるにつれて、バイアスの扱いが良くなっていることに気づきました。それは意図的な努力だったようですね。

Lentia Ramenが答えます。その通りです。私たちは1か月、1か月半ほど前に、これに関する進捗についてのブログ投稿を公開しました。私たちがモデルで本当に注意しているのは、主観的な領域をどのように扱うかです。私たちは、モデルが不確実性を表現できること、ユーザーがもたらすあらゆるアイデアを受け入れ、それらの質問に真剣に答えられることを確認したいと思っています。同時に、客観的な真実がある場合は、常にそれに基づいていることが重要です。

ですから、ユーザーが私たちのモデルで変化し始めるのを目にするはずのことは、これらの未知の質問により開かれた方法で答えることができ、ユーザーが会話をどこに向かわせたいかを本当に自己決定できるようになることです。

そして、チームが行ったもう一つの本当にクールなことは、研究者のグループとモデル行動チームの何人かが、これらのモデルの創造性に取り組んでいることだと思います。私にとって、これは5.1の中の隠れた機能のようなものです。このモデルの表現範囲ははるかに広くなっています。もちろん、モデルが持つ自然なデフォルトがあり、それはそれほど違って感じられないかもしれません。しかし、繰り返しになりますが、それを限界まで押して、本当に本当に洗練された方法で話させようとしたり、非常に非常にシンプルな方法で話させようとしたりすると、創造性のスペースで実際にこれらのモデルでできることがもっとたくさんあります。

Christina Kimが続けます。これがポストトレーニングを本当に芸術のように感じさせるものだと思います。なぜなら、私たちには改善しようとしているさまざまなタイプのタスクと能力があり、それらには正解の答えがないからです。例えば、数学が本当に得意なモデルを作ろうとしている場合、実際にはそれほど多くの答えがそこにあります。明確な答えがあるたくさんの問題があります。

しかし、非常に主観的で、文脈とユーザーに本当に依存し、実際の最良の理想的な答えがここで何であるか、そのようなものがある場合、ですから、私はこのタイプの仕事に本当に興奮しています。

Andrew Maineが言います。クールですね。初期の頃、人々は「ああ、それはあまりうまく書けない」と言っていたのを覚えています。私は「おそらくこれらのオンラインフォーラムの平均的な人と同じくらいうまく書いている」と思っていました。そして今では、それが大幅に改善されたようです。

Lentia Ramenが答えます。そして、最初のプロンプトで気づかなくても、書き方を変えるように頼むだけかもしれません。それもまた、私たちが取り組む必要があることだと思います。各ローンチでこれらの拡張された能力をChatGPTで引き出す方法を見つけることです。

Andrew Maineが尋ねます。今後、行動をどこに向かわせたいですか。どれだけカスタマイズ可能にしたいですか。

Christina Kimが答えます。5.1のローンチでは、人々にカスタムパーソナリティを提供するための多くの作業がありました。これは実際に本当に良い前進だと思います。私たちは現在、週に8億人以上のアクティブユーザーがいます。一つのモデルのパーソナリティが、パーソナリティをどのように定義しようとも、それらすべての人々に実際にサービスを提供できる方法はないと思います。

ですから、私たちは、モデルがはるかに賢くなるにつれて、はるかにステアラブルになる世界にいたいと思います。ですから、ChatGPTで自分が望む体験を得られるべきです。

Lentia Ramenが続けます。私はこれを、ユーザーが望むレベルのカスタマイズにこれらのモデルを操縦できるよう、適切な機能をユーザーの前に配置する方法として考えています。私たちが今行っているパーソナリティの仕事は最初のステップだと思います。テストし、反復し、学びます。しかし、それには非常に多くのものがあります。

申し訳ありませんが、もう一つの逸話ですが、私の兄が初めてプロを使ったときのことを覚えています。彼は生化学研究の博士号を持っていて、プロンプトを与え、「ああ、これは学部生が答えるようなものだ」と言いました。私は「あなたがこの研究室でこの種のツールを使ってこの種の科学に取り組んでいる最先端の研究者であり、あなたの学術レベルで応答するように伝えられますか」と言いました。

彼はそうして、「なんてこった、モデルは私たちの研究室が2週間前に突破したばかりのことを提案しましたが、まだ公開していません」と言いました。ですから、これらのモデルは非常に強力ですが、オープニングプロンプトで彼がしたことのようなレベルでカスタマイズする方法を知っているだけで、非常に強力になり得ます。

人類がそれをまだ理解したとは思いません。ですから、それがパーソナリティの操縦であれ、これらのモデルとそれらから最大限を引き出す方法についての人間の理解を進めるためにChatGPTに組み込む必要がある他のツールであれ、それが私たちの前にある課題だと思います。

Andrew Maineが言います。前回のエピソードで、OpenAIの科学部門を率いているKevin Wheelと、OpenAIと協力している科学者でありヴァンダービルト大学の教授でもあるAlex Luchskaと話しました。彼は同じような経験を経て、少しプライミングを与えると、突然モデルがそれらの分野ではるかに能力が高くなったことについて話していました。

それがプロンプトエンジニアリングだったわけです。プロンプトエンジニアリングは、ベースモデルをどのように操縦するかを理解しようとしていました。時間が経つにつれて、人々がそれらのタスクを実行しようとしていることを理解すると、その最初の部分を期待する必要がないようにモデルをトレーニングできました。大学院生であることを伝える必要がなくなるフェーズに移行していくと思いますか。

Christina Kimが答えます。そう思います。特に今、モデルがあなたが誰であるか、あなたの文脈のメモリのようなものを持っているので。そして、モデルがより知的になるにつれて、モデルはこれらすべてのものを推測でき、あなたの専門知識に合った方法であなたと話すことができるはずだと思います。

Lentia Ramenが続けます。その通りです。ですから、その一部は、これらの推論されたもののようなものであるべきだと思います。おそらくある程度のステアラビリティがあると思います。これは私自身のPMとしての見解であり、すべてのPMが私に同意するとは思いませんが、ユーザーは常に、私たちが彼らについて推測していることと、それがモデルをどのように操縦しているかを知っているべきだと思います。

ですから、彼らは常に戻って変更するツールを持つことができます。例えば、設定パネルでメモリをオンまたはオフにしたり、削除したりできます。ユーザーが本当に望んでいることを推測し、プロンプトする必要がないように、そのプロブレムをプロアクティブに解決できることと、ユーザーが常にコントロールできるようにし、私たちがすべてを盲目的に推測しているだけではないことを確認することの両方について、本当にクールなことがあると思います。

Andrew Maineが尋ねます。メモリがどのように機能するか少し説明していただけますか。

Lentia Ramenが答えます。メモリは基本的に、モデルがあなたとの会話に基づいて、後で参照するためにあなたについて知っていることを書き留めます。これは本当に素晴らしいことです。なぜなら、毎回自分自身を繰り返す必要がないからです。私はLentiaです、OpenAIのPMです、モデル行動に取り組んでいますと言う必要がありません。それはすでにこれを知っています。なぜなら、あなたはすでにそれを言ったからです。ですから、将来の会話でその情報を実際に使用できます。

また、あなたに応答するときに答えを考え抜くのに役立ちます。その文脈があります。そして、それが本当に答えをあなたにとって最も有用な応答に基づかせると思います。

Andrew Maineが言います。私はパルスを持っていて、それは素晴らしいものでした。毎朝小さなアップデートを受け取り、メモリのおかげで、私が行っている会話をフォローしています。それは私のためにこれらの小さなカスタム記事を作成しています。研究を引っ張り、他のものを引っ張り、私に物事を見せています。これは、メモリを持つことの大きな利点であるとは本当に考えていなかったものの一つです。

今では、会話から離れているときだけでなく、それに基づいて私のために物事をプロアクティブに見つけていることがわかります。とてもクールです。

Lentia Ramenが答えます。その機能に直接取り組んでいるわけではありませんが、私たちが上流で行っている仕事、素晴らしいモデルを構築することや、私たちが望む能力に関する評価指標を形成することが、実際にChatGPTチームが私たちのモデルの力を明確にするこれらの素晴らしい機能を構築するのを可能にすることを見るのがクールだと思います。

ですから、はい、彼らはあなたの好み、習慣を学ぶことができ、はい、彼らはあなたのためにあなたの興味に基づいて素晴らしいストーリーを作成したり、素晴らしい情報を見つけたりできます。このプロアクティブな機能は、ユーザーがこれらのモデルから最大限を引き出すのを助ける一つの方法です。

Andrew Maineが言います。パーソナルなモデルにするための本当に興味深い方法になってきているようですね。メモリがないモードで何かを使うと、違って感じます。コールドスタートのように感じ、こんにちは、元気ですかという感じです。私は「ああ、どこでこの会話をしているの?」と思います。

これは課題の一つでしょうか。人々が「何かが違う感じがする」と言っているとき、彼らはそれをうまく表現できないのです。

Lentia Ramenが答えます。そうですね、最も難しいフィードバックは逸話だと思います。次に難しいフィードバックはチャットのスクリーンショットです。なぜなら、それらのメタデータはどこで物事がうまくいかなかったかを教えてくれるために実際には添付されていないからです。ですから、私は実際にChatGPTの共有機能が大好きです。私たちの側でそれらのリンクの一つを持っているとき、それを検査して、この時点でモデルがどのような種類の文脈を持っていたか、何が起こっていたかを見ることができます。ですから、そのユーザーフィードバックをデバッグできます。

Andrew Maineが言います。それは素晴らしいポイントです。なぜなら、人々が「ねえ、正しく答えてくれなかった」と私に尋ねたことがあるからです。私は「どのモデル?」と聞きます。「ChatGPTを使っていた」と彼らは言います。私は「わかりました」と言います。それについてもう少し掘り下げる必要があります。フィードバックを共有するか、会話全体を共有する方が理にかなっていると思います。

今後について、最も興奮していることは何ですか。

Christina Kimが答えます。これらのモデルは本当に非常に能力が高いと思います。彼らは非常に多くのことができます。そして、人々が彼らと何を構築するかを見るのが待ちきれません。ChatGPTアプリで次に何が来るかを見るのが待ちきれません。一般的に、人々は何ができるかを本当に目覚め始めていると思います。それが私を興奮させるものです。

Lentia Ramenが言います。あまりティースしたくはありません。

Christina Kimが続けます。誰がツイートしたか忘れましたが、「計測するには安すぎる知能」。私たちは人々のために非常に賢いモデルを手に入れたと思います。そして、私は常にこれを言ってきました、最初にチャットをローンチしたときでさえ、これはそれの一つのフォームファクターに過ぎないですよね。これらのスマートなモデルで、可能になる非常に多くのことがあります。

ですから、Lentiaが言っているように、私はこれらのより賢いモデルで持つであろう多くの異なる新しいプロダクト探索にも非常に興奮しています。なぜなら、LLMの進歩で見てきたと思いますが、より賢いモデルを手に入れるとすぐに、新しいユースケースがアンロックされるからです。そして、新しいユースケースには新しいフォームファクターがあるべきだと思います。ですから、それについて非常に興奮しています。

Andrew Maineが尋ねます。ユーザーが最高の体験を得るために、どのようなアドバイスがありますか。

Lentia Ramenが答えます。私のアドバイスは、いつも人々に言っていることです。あなたの本当に難しい質問、あなたが本当によく知っていることを試してください。私は以前スキーレーサーでした。本当に本当にうまくスキーをする方法について多くの意見を持っています。そして、モデルがどのように変化し、改善しているかを見るために、それについてプレッシャーテストするのが大好きです。

事実として、私たちは常にアップデートを出荷しています。ですから、「ああ、コーディングには素晴らしいと聞いた。でもうまくいかなかった」とか、「アプリを構築するのに役立つと聞いたけど、試してみたらうまくいかなかった」と言うのは非常に簡単です。それは今日は真実かもしれませんが、3か月後にはそのユーザーにとって全く異なる状況になっている可能性があります。ですから、続けて、遊び続けて、試し続けてください。これらのモデルから最大限を引き出すための最良の方法です。

Andrew Maineが言います。より良いプロンプトを考え出すのを手伝ってくれるようにモデルに頼むこともできます。素晴らしいポイントです。私は両親にそれを勧めています。それははるかに良くなりました。以前は「どうプロンプトすればいいですか」と尋ねると、モデルは「そうだと思います」のような推測をしていましたが、非常に多くの例を見てきたので。

Christina Kimが言います。そうですね。私はいつも、私が尋ねるべき最良の質問は何かを理解しようとしています。最大限に活用するためにあなたに何を尋ねるべきか、のようなことを尋ねます。

Andrew Maineが尋ねます。深く個人的な質問です。答える必要はありません。答えなかったら本当に気まずくなります。ChatGPTに設定したスタイルやパーソナリティの選択は何ですか。

Christina Kimが答えます。偏っているかもしれませんが、デフォルトにしています。私たちがトレーニングしているものですから。

Lentia Ramenが答えます。私は常にそれらすべてを切り替えています。それは私の仕事の性質だと思います。これらすべての異なる設定がどのように感じられるかを理解したいのです。すべてのユーザーにとって。ですから、2日ごとに何か違うものを試しているような気がします。

とはいえ、私を話すのに幸せにする組み合わせは、おそらくナードですね。これは非常に探索的な応答スタイルです。物事をアンパックするのが好きです。そして、私はアルバータ出身です。もしかしたら私だけかもしれません。これはカナダの州です。カナダのテキサスのようなものです。私は馬や牛と一緒に育ちました。ですから、田舎のアルバータ人のように話してもらうのが好きな部分が私にはあると思います。

それは素晴らしいのですが、専門的な文書を書こうとしたときに、モデルが「ハウディ」と言うと、「ああ、素晴らしい、いや、そのPRDからアルバータ人を取り除きましょう」となります。しかし、とてもクールです。

Andrew Maineが言います。どうもありがとうございました。