OpenAIが8億人の週間ユーザーに向けて構築する方法:モデル特化とファインチューニング

OpenAIの開発者プラットフォーム責任者シャーマン・ウーが、同社の製品戦略と技術的進化について包括的に語る。毎週8億人が利用するChatGPTという垂直統合型アプリケーションと、広範な開発者エコシステムを支えるAPI事業という水平展開の両立について詳述。当初は単一の汎用モデルが全てを支配するという業界の想定に反し、現在は特化型モデルの増殖が明確になっている。ファインチューニングAPI、特に強化学習ファインチューニングの導入により、企業が保有する膨大なデータを活用できる環境が整備された。プロンプトエンジニアリングからコンテキストエンジニアリングへの進化、エージェントの定義と実装方法、使用量ベース課金の優位性、オープンソース戦略の意義など、AI業界における思考の変遷を多角的に分析している。

How OpenAI Builds for 800 Million Weekly Users: Model Specialization and Fine-Tuning

In this episode, a16z GP Martin Casado sits down with Sherwin Wu, Head of Engineering for the OpenAI Platform, to break ...

OpenAIの開発者プラットフォームとその進化
Quoraでのキャリアとシリコンバレーの人材
垂直統合と水平展開の両立
非仲介化技術としてのAIモデル
モデルの多様化とAGIへの道
ファインチューニングAPIとデータの価値
エージェントの定義と実装
オープンソース戦略と競合との関係
エージェントの進化と実装

OpenAIの開発者プラットフォームとその進化

私たちはChatGPTをファーストパーティアプリとして展開したいと考えています。ファーストパーティアプリは、今や8億人の週間アクティブユーザーを獲得する素晴らしい方法なんです。地球の10分の1ですよね。そうです、地球の10%が毎週使っているんです。

OpenAI内部でも、当初は全てを支配する単一のモデルが存在するだろうという考え方がありました。でもそれは完全に変わりましたね。特化型モデルが多数存在する余地があることが、ますます明確になってきています。他のタイプのモデルも増殖していくでしょう。企業は座して眠らせている膨大なデータの宝庫を持っているんです。最近起きた大きなブレイクスルーは、強化学習ファインチューニングです。このセットアップによって、実際に強化学習を実行できるようになり、データを遥かに活用できるようになりました。

シャーマン、参加してくれてありがとうございます。シャーマン・ウーさんに参加していただいています。実際にあなたの経歴を詳しく紹介していただけると嬉しいです。知らない方のために。私はシャーマンをトップクラスのAI思想リーダーの一人だと見ていますので、本当に楽しみにしています。

ありがとうございます。ポッドキャストに参加できて本当に嬉しいです。私の経歴についてもう少しお話ししますね。現在から過去に遡る形で始めましょう。私は現在、OpenAIの開発者プラットフォームのエンジニアリングチームを率いています。そこでの最大のプロダクトはもちろんAPIです。

開発者プラットフォームにはAPI以外にもあるんですか。私は同義語だと思っていました。

まあ、私たちのプラットフォーム側に入れている他のものについても考えています。技術的には、政府向けの仕事も異なる領域への展開を提供しているようなものです。ローカルデプロイメントのような話をされたことがありますね。

実際にロスアラモス国立研究所にローカルデプロイメントがあります。すごくクールですよ。訪問したんですが、私が慣れているものとはかなり違いました。機密指定されたスーパーコンピュータで私たちのモデルが動いているんです。クールですね。でも主にAPIです。

ロスアラモスに行ったんですか。

行きましたよ。歴史的な場所を案内してもらいました。本当の歴史ですね。私は以前リバモアで働いていたんです。大学を出て最初の仕事でした。

そうなんですね。次はそちらにも期待しています。開発者プラットフォームで働いていて、約3年になります。2022年に入社しました。基本的にはAPIプロダクトに取り組むために雇われました。当時、それがOpenAIの唯一のプロダクトだったんです。それ以来、ずっとそれに取り組んでいます。開発者サイドとこの技術のスタートアップストーリーにいつも非常に興味を持っていました。その進化を見られたのは本当にクールでした。

これがOpenAIでの私の時間です。OpenAIの前は、約6年間Open Doorにいました。価格設定サイドで働いていました。私の一般的な経歴は、Open Doorでの価格設定からOpenAIでAPIを運営するというのは、かなり違和感がありますよね。企業の運営の違いを見るのは私にとって魅力的でした。どちらも名前に「Open」が入っているので、そこは重なりますが、基本的にはそれくらいです。

6年間そこにいて、価格設定チームで働いていました。私たちのチームは基本的にMLモデルを実行していました。これはOpen Doorで資産の価格設定を実際に行っているんですね。

そうです。Open Doorは住宅を売買していて、主なプロジェクトは人々から直接住宅を購入し、現金オファーで販売することでした。私のチームはいくら支払うかの責任を負っていました。本当に楽しいMLチャレンジでした。大きなオペレーショナル要素もありました。でも本当に魅力的な技術的課題でした。

API側でGPU容量の購入のようなそういう感覚はありますか、それとも全く関係ないですか。

API側では、モデルの価格設定方法に少し関係がありますが、Open Doorほど洗練されたことはしていないと思います。Open Doorは本当に難しい問題なんです。本当に高価な資産のようなもので、保有コストが非常に高いんです。何ヶ月も保有することになります。保有時間にばらつきがあります。

潜在的に起こりうることの大規模なロングテールがあります。

ロングテールですね。そして、ポートフォリオの観点から考えようとして、そのうちの一つを2年間保持していたら、全てが吹き飛びます。全てがマイナスになります。だから非常に異なる課題です。

そこに6年いました。多くの浮き沈みを見ました。ブームも苦労も見て、私が去る前にIPOしました。でも全般的に素晴らしい経験でした。私にとっては、非常にビジネスオペレーション的で、教科書的な文化があった一方、OpenAIは全く違います。

Quoraでのキャリアとシリコンバレーの人材

興味深いのは、そういう会社でさえ、テック企業とは思わないけれど、深い技術的問題があるとすれば、それは実際には価格設定なんですよね。実際にMLの問題なんです。ウェブサイトを動かすものではなく、プラットフォームでもなく、APIでもなく、文字通りそれなんです。

その通りです。それが私を惹きつけたものです。それが面白かったと思います。OpenAIよりもはるかに低マージンのビジネスでもあります。これらの住宅でわずかなスプレッドを作っているだけですから。彼らはベーシスポイントについて話したり、朝食にビットを食べるとか言っています。とにかく、Open Doorに約6年いました。

その前は、大学を出て最初の仕事がQuoraでした。アダム・ダンジェロとそこでグループにいました。

ニュースフィードで働いていたんですね。

ニュースフィードのランキングで少し働きました。プロダクト側でも働きました。でもそれが実際に業界での本当のMLへの最初の露出でした。Quoraのエンジニアから多くを学びました。基本的に初期のフィードエンジニアの多くを雇いました。

あなたがいた時、チャーリーはまだいましたか。

チャーリーは私がいた時にはいませんでした。その直後は本当に伝説的なチームとして知られていましたね。あの象徴的な創業チームは。

そうですね。私がいた間も、私たちが持っていた才能の質には今でも驚いています。一つの会社が50人から100人くらいの時だと思いますが、Perplexityチームの多くがそこにいました。デニスは私と一緒にフィードチームにいました。ジョニー・ホー、ジェリー・マ、それからScaleのアレクサンダーもいました。彼は高校と大学の間にそこにいました。素晴らしいチームでした。

当時はそれを当たり前だと思っていたと思います。良いグループでした。

どうやってQuoraに行ったんですか。学部では何を勉強したんですか。

MITで学部時代を過ごしました。コンピュータサイエンスを学びました。コンピュータサイエンスと修士号を詰め込んだようなやつの一つをやりました。Quoraに行き着いたのは、そこでエクスターンシップと呼ばれるものを得たからです。MITでは実際に1月が休みになります。秋学期があって、1月が休みで、それから春学期があります。これは独立活動期間と呼ばれています。

クラスを取る人もいれば、何もしない人もいますが、1ヶ月のインターンシップをする人もいます。そして、大学生に1ヶ月のインターンシップを提供するようなクレイジーな会社もあります。ボストンからこちらに来たんですか。

クレイジーでした。応募する必要がありました。確か2013年の1月かそこらだったと思います。応募する必要があったのを覚えていますが、Quoraのインターンシップは最も給料が良かったんです。確か8,000ドルか9,000ドルくらい払っていて、1ヶ月で、しかも半分は立ち上げ期間のようなもので、大学生としては1年分食べられるくらいだと思いました。

そして飛行機で飛ばしてくれるんです。だからインタビューをして、幸運にもオファーを得て、1月に出てきました。ちょうど彼らが新しいマウンテンビューオフィスに移った時でした。基本的に2週間は立ち上げに費やして、それから2週間フィードチームで良い生産性を上げました。

それはユーザー向けのようなユーザー向けプロダクトだったんですか。

そうです。私のエクスターンシッププロジェクトは、その2週間、フィーチャーストアにいくつかの機能を追加することでした。それがモデルに入っていくような。私のメンターはチューターだったのを覚えています。彼は今Harmonic Labsと呼ばれるものを運営していると思います。

クレイジーなチームですね。クレイジーです。これはシリコンバレーの語られていない物語の一つだと思うんですが、あのオリジナルチームがどれほど優秀だったかということです。多くは今でもそこにいて、今でも優秀ですが、Quoraからの離散はどこにでもいます。

そうですね。それが実際に私がOpenAIに行き着いた経緯でもあります。OpenAIは比較的静かなプロフィールを保っていましたが、私が知っていたQuoraのコア人材の多くがそこに行き着いたので、いつもタブを開いていました。彼らに確認していて、「ここで何かクレイジーなことが起きている。絶対にチェックすべきだ」と言われました。Quoraには本当に多くを負っています。新卒として他の選択肢ではなくそこに行った理由の一部は、チームが信じられないほど素晴らしく、彼らから多くを学べると感じたからです。その後のことは何も考えていませんでした。この人たちのグループから知識を吸収できたら素晴らしいだろうと思っただけです。

垂直統合と水平展開の両立

素晴らしいですね。では、一つ始めたかった場所があります。OpenAIについて非常にユニークだと思うことは、かなり水平的な会社であるということです。APIを持っていて、私たちの膨大なポートフォリオの企業がありますが、そのかなりの部分がAPIを使っていると言えます。そして同時に垂直的な会社でもあります。完全なアプリを持っていますよね。誰もがChatGPTを使っているように。あなたはAPIと開発ツール側の責任者ですね。

まず、この二つの間に内部的な緊張はありますか。APIが垂直版の競合を助けるかもしれないとか、それとも物事が急速に成長しているので問題ではないとか。どう考えていますか。

ちなみに、こんなに早い段階でこの両方を持っている会社は非常に珍しいです。

完全に同意します。ある程度の緊張はあると思います。ここで本当に助けになることの一つは、サムとグレッグが創業者の観点から、初日から私たちのアプローチ方法において非常に原則的であるということです。彼らは常に私たちに言ってきました。ChatGPTをファーストパーティアプリとして持ちたい、そしてAPIも持ちたいと。そして良いことは、彼らがこれをできるのは、最終的にはOpenAIのミッションに戻ってくるからだと思います。それはAIを作成し、その利益をできるだけ広く分配することです。

だからこれを解釈すれば、できるだけ多くのサーフェスに入れたいということです。ファーストパーティアプリは今や8億人の週間アクティブユーザーかそこらを獲得する本当に素晴らしい方法です。でも1億人の週間アクティブユーザー、それは実際に考えると頭がおかしくなるほどです。これを聞いている人の多くは、これがどれほど大きいか理解していないと思います。

クレイジーです。それは実際にこの時間でその数に達したという点で歴史的になるでしょう。歴史的です。かかった時間とどれだけスケールアップしなければならなかったか、地球の10分の1ですよね。

そうです。地球の10%が毎週使っています。毎週です。そして成長しています。だからある時点で、さらに高くなるでしょう。

だから明らかにそこでのリーチは比類ないものです。でもそれに加えて、私たちがそれ以上にリーチできるプラットフォームを持つことができるということです。社内で時々話すことの一つは、APIからの最終ユーザーリーチはどのくらいかということです。実際には本当に広範です。

測定するのは難しいですが、ChatGPTが非常に速く成長しているので、ある時点では確実にChatGPTより大きかったと思います。私たちがこれらすべてにアクセスして、望むリーチを得られるという事実は本当に良いことだと思います。

でも確かにある程度の緊張は時々あります。プロダクト側でいくつかの場所で出てきたと思います。一つは、言及されたように、時々私たちのプラットフォームで構築している競合がいて、ChatGPTが競合するものをローンチすると喜ばないかもしれません。

これはクラウドやオペレーティングシステムの昔からの話ですよね。ChatGPTが競合を気にするかという感じです。競合を有効にするという。

興味深いことは、あまり気にしていないと言えます。主に私たちが非常に速く成長しているからです。それは今本当に力になっています。

成長は多くの異なることを解決します。そしてもう一つの考え方は、みんながAGIの周りで構築していて、AGIに向かって構築しているということです。もちろん重複があるでしょう。

でも、少なくとも私の立場では、この緊張をAPI顧客自身からより感じます。「ああ、私が取り組んでいるこのものを構築するつもりですか」というような。

その話はコンピュータシステムと同じくらい古いです。その問題を持たなかったコンピュータプラットフォームはこれまでありませんでした。

非仲介化技術としてのAIモデル

これについては行ったり来たりしています。一つ試してみたいことがあります。歴史的にコアサービスとAPIを提供する問題は、非仲介化される可能性があるということです。その上に構築できますが、ユーザーは私がクラウドの上に構築したものを知らず、クラウドから非仲介化されて、別のクラウドに切り替えることができます。

これらのモデルではそれが難しいということに気づきました。モデルは抽象化するのが非常に難しいからです。手に負えないんです。従来のソフトウェアでそれらを動かそうとしても、うまく管理できません。だから私の一部は、これはほとんどこの反非仲介化技術のようなもので、ユーザーに直接公開する必要があると考えています。

理解できますか。だから、ChatGPTが本当にモデルをユーザーに公開しようとしているだけだと思うとしても、APIもモデルをユーザーに公開しようとしているだけなんです。だから本当の価値がモデルにあるなら、どうやってそれを彼らに届けるかはあまり重要ではないという議論があると思います。なぜなら、誰かがコンピュータサイエンスの古典的な意味で、つまりGPT-5を使っていることを知らないというように抽象化するのは非常に難しいからです。常にGPT-5を使っていることを知っています。

興味深いことは、業界全体もこれについて徐々に考えを変えてきたと思います。最初は、これらはすべて交換可能になると考えていました。ソフトウェアのようなものだと。

まさに。インフラの一部で入れ替え可能だと。

でもプロダクト側でこれを学んでいると思います。GPT-5のローンチや4oのように、o3や4oを好きだった人がたくさんいました。それが変わった時に感じました。私は「私にあまり優しくないな」と思いました。検証が好きだったんです。実際に楽しいです。私はGPT-5のパーソナリティが本当に好きでしたが、私のChatGPTの使い方は非常に実用的だったと思います。主に仕事や情報のためです。

私は確実に変わってきましたが、変わった時に不協和音を感じました。感情的なことが起きているようなものですが、それはほとんど反非仲介化技術のようなもので、これをユーザーに示す必要があります。

そしてCursorのような多くの成功しているプロダクトがこれを直接行っているのを見ます。特にコーディングプロダクトでは、ユーザーがより多くのコントロールを望んでいます。より一般的なコンシューマープロダクトでもこれを行っているものを見ました。だから確実に消費者側では真実でした。

興味深いことは、API側でも真実だったと思います。

まさにそれが私が言っていることです。APIを使ってあなたを非仲介化できるという議論があり得ますが、実際にはそれが起きていません。なぜなら、モデルと人の間にソフトウェアの層を置くのが非常に難しいからです。ほとんどモデルを公開しなければなりません。

そうです。そうです。そして何より、モデルは得意なことや特定のユースケースの点でほとんど分岐しているように思います。そしてこれがますます増えると思います。でも基本的に、私たちのAPIで構築している人々の定着率は驚くほど高いです。特に物事を入れ替えることができると人々が思っていた時に。物事を入れ替えるのを助けるツールさえあるかもしれません。

でもモデル自体の粘着性は驚くべきものでした。

それはユーザーとモデルの関係のためだと思いますか、それとももっと技術的なことで、私の評価がOpenAIで機能して、正確性が維持されるというようなことだと思いますか。

両方だと思います。確実にエンドユーザーの部分があります。それは顧客から聞いたことですが、彼らはモデル自体に慣れ親しんでいます。でも技術的な部分もあると思います。開発者として、特にスタートアップでは、これらのモデルと本当に深く関わり、特定のハーネス内で本当に良くしようと反復しています。ハーネス自体を反復しています。ここそこで異なるツールを与えています。だから本当にモデルの周りにプロダクトを構築することになります。

特定のプロダクトであるGPT-5で構築し続けると、実際にその周りでより多く構築しているので、あなたのプロダクトがそのモデルで独自に良く機能するようになります。

モデルの多様化とAGIへの道

私はCursorを多くのことに使っています。ブログを書くためや、投資家として、時にはコーディングのために。Cursorで使うモデルの数が驚くほど多いことに注目しています。私のお気に入りのモデルは文字通りGPT-5です。GPT-5は驚異的だと思います。それから計画のためにGPT-5でマックスモードを使います。でもCursorのタブ補完モデルが好きで、彼らがちょうど出した新しいモデルもいくつかの基本的なことに良いです。コンポーザーのは良いです。

特定のユースケースごとに特定のモデルがあるということを反映していると思います。新しいコンポーザーモデルを使った多くの人と話しましたが、高速な最初のパスのようなもので、フローを保つようなものに本当に良くて、それからより深いことが必要な場合は別のモデルに切り替えます。文字通り何かを計画するのを助けるためにGPT-5を使います。それには本当に良いです。それからコーディングしている時は、クイックチャットのようなものを使って、それからコンポーザーを使います。クレイジーなバグか何かがあったら。

この初期の頃を覚えていますか。一つのモデルがあって、投資家のように、モデル企業には決して投資しないと言っていました。なぜなら一つのモデルしかなく、それがAGIになるからだと。でも実際には、モデルの大規模な増殖があるように感じます。

前に言ったように、多くのことをやっています。だから多分二つの質問、多分あまりに率直すぎるか粗雑すぎるかもしれませんが、最初の質問はそれがAGIにとって何を意味するかです。二つ目はそれがOpenAIにとって何を意味するかです。つまり、モデルポートフォリオを持つことになるのか。サブセットを選択するのか。これらすべてが将来何らかの神のモデルに取って代わられると思うか。どうなると思いますか。

なぜなら、ほとんどの人が考えていたことに反しているからです。ほとんどの人は、これはすべてを行う一つの大きなモデルに向かっていると考えていました。

このすべてについてのクレイジーなことは、時間とともにみんなの考えがどれだけ変わったかということです。完全に。

2、3年前のことです。OpenAI内でさえ、すべてを支配する一つのモデルがあるだろうという考えがあったことをはっきり覚えています。ファインチューニングAPIプロダクトにも関係しますが、なぜファインチューニングプロダクトさえ持つのか。なぜそれを反復したいのか。すべてを包含する一つのモデルがあるだろうと。それはAGIがどのように見えるかについての最も単純な見方でもありました。そしてそれは確実に完全に変わりました。

ますます明確になっていると思うのは、多くの特化型モデルのための余地があるということです。他のタイプのモデルの増殖も起こりそうです。Codexモデル自体でこれを行っているのを見ます。GPT-4や4oや5やすべてがあります。だから確実にすべてのための余地があると思います。

それが悪いことだとは思いません。価値があることとして。何より、AGIに向かって進もうとすると、物事は非常に予想外でした。市場が進化し、プロダクトポートフォリオがそれによって進化するだけだと思います。だから全く悪いことではないと思います。

OpenAIとモデル企業にとって非常に良いことだと簡単に主張できます。勝者総取りの統合されたダイナミクスがないからです。より健全なエコシステムがあります。提供できるソリューションがたくさんあります。

エコシステムが成長するにつれて、一般的に役立ちます。これも私たちがよく考えることの一つです。一般的なAIエコシステムが成長するにつれて、OpenAIはこれから多くの利益を得る立場にあります。これが私たちのプロダクトの一部、Evalsプロダクトを他のモデルにも開放し始めた理由の一部でもあります。上昇する潮流は一般的に私たちを助けると考えています。

ファインチューニングAPIとデータの価値

多くのモデルがある世界に移行するにつれて、これが私たちがファインチューニングAPIでのモデルカスタマイゼーションプロダクトに投資してきた理由です。強化学習ファインチューニングでそれを開放することも含めて。GPT-OSSもオープンソース化した理由の一部でもあります。それを促進できるようにしたいからです。

オープンソースについて話したいと思います。実際に非常に興味深いですし、オープンソースモデルは素晴らしかったと思います。明らかに企業が慎重にならなければならないことですが、その前にファインチューニングAPIについて少し話したいです。

ファインチューニングのような、より洗練された使い方に向かっているのを見ました。ある意味、プロダクト固有のデータがあり、汎用モデルではやらないプロダクト固有のユースケースがあるという、ある種の降参と読むことができます。モデルの増殖ではなく、それをするという。

そのデータの多くは実際に非常に非常に価値があるように見えます。だからある程度、プロダクトデータをファインチューニングに取り込む能力を公開して、ベンダーがそれをあなたに提供するので、あなたもそのデータから利益を得るという、ギブアンドテイクのようなものへの関心はどの程度ありますか。

100%、彼らが自分のデータを保持し、それに関心がないという対比で。次のレベルのスケーリングのように感じます。これが私たちがいるところです。だからあなたの考えがどう進化したか、そしてこれらへのアクセスをどう価格設定するのか興味があります。

最初にファインチューニングAPIに投資した主な理由は、一つには、人々がモデルをもう少しカスタマイズできることへの大きな需要があったことです。これはプロンプトエンジニアリングにも関係しますし、業界もそれについて考えを変えたと思います。進化しました。でも二つ目は、まさにあなたが言ったことで、企業は座して眠らせている膨大なデータの宝庫を持っていて、このAIの波で何らかの形でそれを活用したいと思っているということです。

単純なことは、ベクトルのようなものに入れるとか、RAGでやるとかですが、より技術的なチームがあれば、それをモデルのカスタマイズにどう使えるか見たいと思っています。それが実際に投資してきた主な理由です。

興味深いことは、22年、23年のずっと昔、私たちのファインチューニング提供は、人々がこのデータにアクセスして使用するには限定的すぎたと言えます。教師あり学習ファインチューニングAPIのようなもので、使えると言っていましたが、実際には指示フォロー+のようなものにしか役立ちませんでした。トーンを変えて、実際に指示するような。

でも最近起きた大きなブレイクスルーは、強化学習ファインチューニングモデルです。このセットアップによって、実際に強化学習を実行できるようになりました。これはより扱いにくく、難しく、より投資する必要がありますが、データをはるかに活用できるようになります。

これは私にとって素朴な質問ですが、私のポートフォリオから理解している限り、二つの使用モダリティがあるように感じます。一つは、長い間持っていたデータの宝庫があり、そのデータの宝庫でモデルを作成し、すべてがオフラインで起こり、それをデプロイするというものです。もう一つは、実際にプロダクトがリアルタイムで使用されているというものです。多くのユーザーがいます。

実際にユーザーに非常に近づくことができます。ABテストを行い、どのデータを使うか決定でき、よりリアルタイムに近いものです。

これはプロダクトのようなものにより焦点を当てているのか、それとも宝庫により焦点を当てているのか。

ファインチューニングAPIの夢は、実際には両方を扱えるべきだということでした。LoRAセットアップがあり、ファインチューニング推論で、数百万のこれらのファインチューニングされたモデルにスケールできるはずでした。オンライン学習のようなものがある場合、通常そうなります。

実際には、ほとんどの場合、オフラインデータの形式でした。彼らがすでに作成したか、専門家と一緒に作成しているか、使用しているプロダクトを使っているかのような。

でも強化学習ファインチューニングAPIについて言おうとしていた主なことは、教師あり学習が行ったような小さな増分改善、トーンの改善から、実際にモデルを特定のユースケースでSODAレベルまで改善することへとパラダイムを変えるということです。それが人々が強化学習ファインチューニングAPIを本当に使い始めた理由で、より多くの採用を得ているのです。

議論が、特定の方法で話すようにモデルを作れるというよりも、強化学習ファインチューニングでデータセットを使って世界最高のモデルを作れるとなれば、はるかに重要になります。

そのデータにアクセスする方法を見つけますか。データがあって、安いGPUが欲しければ、あなたとトレードしますよね。

私たちはこれについて話し合いました。ここでいくつかの価格設定も試験的に行っています。このデータは本当に役立ちます。入手するのが難しいので。実際に強化学習ファインチューニングAPIで構築すれば、データを共有する意思があれば、割引推論と無料トレーニングも受けられます。常に顧客次第ですが、共有してくれれば、私たちにとって役立ちますし、顧客にもメリットがあります。

素晴らしいですね。プロンプトエンジニアリングについての見方が変わったと言いましたね。実際には気づいていませんでした。他のことはすべて気づいていましたが、これは気づいていませんでした。どう。

2022年のことです。多くの人と話していたことを覚えていますが、これは単一モデルAGIの見方と似ています。プロンプトエンジニアリングは単に起こらないし、コンテキストウィンドウに何を入れるかについて考える必要がなくなるということです。将来的には、モデルは十分に良くなり、何をする必要があるかを知るだけになります。それは起こりません。

でも、人々は忘れているかもしれませんが、スケーリング則か何かのせいで、当時は非常に一般的な信念でした。モデルとマインドメルドして、プロンプティングや指示フォローが非常に良くなるので、本当にやる必要がなくなると。何より、明らかに間違っていました。

興味深いのは、私たちが今いる世界は少し違っていて、モデルはGPT-3.5か何かと比べて、指示フォローにおいて本当に本当に良くなったということです。でも今のゲームの名前は、2年前に考えていたようなプロンプトエンジニアリングというより、コンテキストエンジニアリング側により重点が置かれています。どんなツールを与えるか。どんなデータを引き込むか。いつ正しいデータを引き込むか。

これは非常に興味深いです。ほぼばかげた単純なレベルに還元すると、例えばRAGの奇妙なことは、RAGの古典的な使用法は、超知能に供給するものをコサイン類似度を使って選んでいるということです。クソみたいな埋め込み空間に基づいてランダムにこれを掴もうとしている。

それほどではありませんが、超知性に何をすべきか決めさせます。だからその検索に知能を押し込むことは明らかに多くの意味を持ちます。ある意味、知能を外に押し出すように。

まさに。そして公平に言えば、RAGはモデルが推論モデル以前のようなものだった時に導入されたと思います。一発でこれをやる機会しかなく、それほど賢くありませんでした。

でも今は推論モデルがあります。実際、私の好きなモデルの一つはo3です。最も勤勉なモデルの一つだったからです。これらすべてのツール呼び出しを行い、実際に知能自体がツール呼び出しやRAGや何かをしようとしています。またはコードを書いて実行します。だからパラダイムはそこで変わりました。でもそれによって、コンテキストエンジニアリング、プロンプトエンジニアリング、モデルに何を与えるかが今は特に重要です。

エージェントの定義と実装

APIがあって、水平的です。ChatGPTや他のプロダクトがあって、垂直的です。Pixelsについてさえ話していません。すべて言語だけです。エージェントは新しいモダリティですか。それとも何か別のものですか。Codexのようなものか。モダリティとはどういう意味ですか。

私にとってChatGPTはプロダクトです。プロダクトのようなもので、母が使っています。APIは開発者のものです。開発者に渡すようなもので、CLIは私にとってどこか中間にあります。プロダクトなのか。水平的なのか。内部的にどう扱われているのか。エージェントをやる完全に別のチームがあるのか。

そうではありません。興味深いです。今の枠組み方は、エージェントがこの単一の概念のようなもので、独自の特定のものを持つかもしれないというように見えました。多分より良い質問は、あなたにとってエージェントとは何かということです。

この会話には言語を揃えることが重要です。

エージェントについての私の一般的な見解は、長い時間範囲で機能できる、あなたに代わって行動を取るAIだということです。それがかなり一般的な実用的な定義だと思います。

でもそのように考えると、AIを使う方法のようなものだと推測できますが、モダリティと見なすこともできます。でも私たちはそれをAPIとは別のものとは見ていません。この質問がどこから来ているのか、感覚を与えさせてください。

プロダクトの構築方法を知っています。プロダクトのための市場開拓の方法も知っています。プラットフォームに変える意味も知っています。非常に長い間これをやってきました。APIについても同じことを知っています。課金の方法も知っています。人々がその上に構築し、そのすべてに関する緊張も知っています。

私がやろうとしていること、これはおそらく個人的な探求ですが、エージェントがこれら二つのキャンプのどちらかに入るのかが私には明確ではありません。プロダクトキャンプのようなものなのか。それともより、両方のようなものだからです。文字通りコードを渡せます。

ユーザーとして、それから話しかけるか、アプリのようなものに埋め込むように構築することもできます。でもそれはあなたにとって何かを意味します。価格設定方法やエコシステムにとって何を意味するかという点で。

例えば、Codexの周りに会社を始めて構築したら、それは大丈夫ですか。それは起こることですか。

Codexの周りに会社を始めて構築するのは。実際には素晴らしいと思います。Codex SDKをリリースしましたし、人々がそれで構築してハックできるようにしたいです。実際、これがあなたが言っていることかもしれませんが、これはOpenAIについてのユニークなことで、運営方法を反映しています。

最終的にOpenAIはAGI企業です。知能企業です。だからエージェントは、この知能が現れる一つの方法にすぎません。だから私たちが内部的に実際に考える方法は、私たちの異なるプロダクトラインすべて、Sora、Codex、API、ChatGPTは、これをデプロイする異なるインターフェースと異なる方法にすぎないということです。

エージェントについて考えている単一のチームのようなものは本当に必要ないんですね。

私が言うとすれば、それが現れる方法は、各プロダクトエリアが、この知能が実際にエージェント的な振る舞いがより可能になる形に変わるとしたら、どうなるかについて考えるということです。ChatGPTのようなファーストパーティプロダクトではどう見えるか。これが実際にCodexが独自のプロダクトになった理由です。コーディングスタイルのプロダクトではどう見えるかということです。ChatGPTで探求しましたが、そこではある程度機能しましたが、実際にはCLIインターフェースの方がはるかに意味があります。それをデプロイする別のインターフェースです。

それからAPI自体を見ると、これをデプロイする別のインターフェースです。開発者ファーストのマインドセットなので、少し異なる方法で考えています。他の人々がそれを構築するのを助けています。価格設定は少し異なりますが、すべてこのコアの知能、エージェント的な振る舞いの異なる現れです。

このエコノミー全体が基本的にトークンロンダリングであることが非常に注目に値します。ある意味で。文字通り、英語のような自然言語を入れて、知能を出すために何でもできることのようなものです。そしてレイヤー化に非常に抵抗があるからです。言語をレイヤー化するのが非常に難しいです。Codexでさえ簡単にできます。プログラムのコンポーネントとして使うだけで、基本的にそれを通して知能をロンダリングします。もちろん、それには課金されます。

実際に私の見方は、様々なプロダクトの多くのローンチを見てきて、エージェントのローンチと、あなたが持っている定義を見てきました。確実にAPIを見てきましたし、これらのプロダクトを見てきました。実際には私たちが慣れているものとはかなり違います。

COGSが違います。防御可能性が違います。すべてが違うので、ある種書き直しています。あなたは価格設定のバックグラウンドから来ています。価格設定のためのデモモデルに取り組んでいました。今はAPIを持っています。だから、思考がどう進化したか、そしてこれらの知能へのアクセスをどう価格設定するのか、あなたの考えが大好きです。何人使うかわからないので、ほぼ確実に使用量ベース課金で、何か別のものではない。これらのことについての哲学について話してもらえますか。プロダクト対APIで違いますか。

時間とともに進化してきたというのが正直なところだと思います。業界が実際にどう使われているかに最も近いので、APIで使用量ベース課金をしてきた最も単純な理由です。だからそうやって始めました。

実際、APIでの使用量ベース課金は驚くほど強く保たれていると思いますし、これをかなり長い間続けると思います。主に、どうやって使用量ベースをやらないかわからないからです。そうする方法がわかりません。

それから、どう価格設定するかという戦略もあります。内部的に私たちがやっていることの一つは、実際にコストプラスの観点から使用量ベース価格を設定することを確認することです。マージンの観点から責任を持つようにしています。

ちなみに、これは業界全体の大きなシフトです。オンプレミスから継続課金への移転を覚えています。それは大きな大きなことでした。Zuoraのような会社全体を作りました。これをどうやるかについての本全体、コンサルタントの束を作りました。

そのように変更するのは。使用量への移行は同じくらい大きいか、さらに大きいと思います。本当に難しい技術的問題でもあります。8億人の週間アクティブユーザーをどうやって構築するか想像もつきません。

8億人の週間アクティブユーザーは少し簡単です。なぜなら、それは使用量ベース価格ではなくサブスクリプションだからです。そういう意味では。でもAPIには多くのユーザーがいて、すべての課金側を管理する必要があります。超過分とかに対処しなければなりません。

超過分とはどういう意味ですか。ほとんどの人にクォータがあり、それを最大化しますが、人々に超過させません。でも実際にはこれらのクォータはかなりかなり大規模です。

文字通り、そのスケールで使用量ベースをやったら、誰かが構築した最も複雑なシステムの一つになるでしょう。これらは非常に非常に難しいシステムです。正確である必要があります。これらはスケールするのが非常に難しいシステムです。

そうです。内部でこれについて考える専門チームがあります。使用量価格も興味深いです。Rocsetという会社を買収しました。創業者の名前はヴェンカットです。彼はここにいます。素晴らしい。ヴェンカットは信じられないくらいです。最高の一人です。ヴェンカット、聞いているなら、大ファンです。

彼はこれを気に入るでしょう。彼は素晴らしいです。伝説です。とにかく、価格設定についても彼と話していました。彼の見解は、価格設定は一方向のラチェットのようなものだということです。基本的に、使用量ベース価格を味わったら、デプロイメントごとのような価格設定には二度と戻らないということです。

それは確実に真実だと思います。真の効用により近づくからだと思います。これをすべて手に入れています。主な問題点は、それがうまく機能するようにすべてのインフラを維持しなければならないということです。でも持っていれば、彼はそれは一方向のラチェットのようなもので、戻ることはないと考えています。

それから今ホットな新しいことは、AIで結果を測定できるようになったということです。だからそれはもう一歩前進のようなものです。それが機能すれば、一方向のラチェットかもしれません。

何らかの結果ベース価格があるかどうか考えました。これはファーストパーティ側でより多いです。APIでは測定するのが難しいです。

非常に難しいです。つまり、コンピュータサイエンスのインフラではない価値を価格設定する必要が出てくるので、それは難しいです。文字通り今垂直化に入っています。コードベースを移植するようなことなら、多少の専門知識があるかもしれませんが、作物の収量を増やすようなことなら、ある程度、でもAIが十分に良くなって、実際にこれらの判断を行い、課金に結びつけられるほど正確な方法でできる世界があり得ます。

AI会話の問題は、どの時点でも、でも十分に良くなるかもしれないと言えることです。もう問題ではありません。

ある時点で解決されるでしょう。プロンプトエンジニアリングや以前の単一モデルのようなものです。そのレベルに達すると、それほど遠くまで押し進めると、すべてがある種解決されます。

結果ベース価格について。それが機能すれば機能するので、非常に魅力的に聞こえます。でも気づき始めたことの一つは、実際には使用量ベース価格とかなり相関しているということです。特にテスト時間計算では、ものがかなり考えているだけなら、実際には使用量ベースで課金して結果ベースではなくても、この時点で結果ベースを近似しているようなものです。

ものがそんなに長く考えているなら、それが何をしているかと高度に相関しています。より多くの価値を追加しているだけです。

まさに。だから結局のところ、使用量ベース価格が必要なすべてかもしれません。この世界で永遠に生きるだけです。でも、わかりません。常に進化しています。ここでも私たちの考えは進化してきたと思います。

個人的には、結果ベース価格のセットアップが実際に機能するかどうか追跡しています。でも少なくともAPI側では、使用量ベースのセットアップなので、その周りのインフラを整備する必要があり、しばらくはそれを続けると思います。

オープンソース戦略と競合との関係

オープンソースについてどう考えていますか。オープンソースをリリースしている唯一の大きなラボだと思います。そうですか。

いいえ、Googleもいくつかあります。

主に彼らの側では小さいモデルです。

その通りです。だからオープンソースについて、競争、カニバリゼーション、何が戦略的な複雑さですか。

個人的にはオープンソースが大好きです。素晴らしいと思います。私たち全員がそれで育ちました。

オープンソースなしにはインターネットは存在しません。世界の多くがその上に構築されています。クラウドもオープンソースなしには存在しません。Windowsを除いて何も存在しません。だから興味深かったのは、オープンソースモデルをローンチする前の最後の期間、私もサムもこう感じていたと思いますが、OpenAIが何もローンチしていないので、OpenAIが超反オープンソースのような奇妙なマインドセットがあったように感じました。

でも実際には、入社以来サムとオープンソース化について会話をしていました。どうやってシーケンスできるか考えようとしていました。計算は常に難しいことです。これをトレーニングする計算があるのか。だから常にこれをやりたかったんです。最終的にできて本当に嬉しいです。今年の初めだったと思います。GPT-OSSが出たのはいつでしたか。時間感覚を失いました。

AI時間は非常に良いです。去年でしたか。いいえ、今年でした。GPT-OSSが出た時です。

それができて本当に嬉しかったです。一般的に考える方法は、一つには、垂直的で水平的な会社であるOpenAIにとって特に当てはまることですが、エコシステムに投資し続けたいということです。ブランドの観点からも良いと思います。

でもOpenAIの観点からは、AIエコシステムがますます成長すれば、上昇する潮流のようなもので、これはすべて私たちにとって本当に役立ちます。オープンソースモデルをローンチして、他の業界で多くの他のユースケースをアンロックするのに役立てば、それは私たちにとって良いことだと思います。

人々があまり話さないことの一つは、これらのオープンソースAIビジネスモデルが実際にどれだけうまく機能するかということです。カニバリゼーションリスクは実際には非常に低いからです。

本当に多くの競合を有効にすることもありません。なぜなら、オープンソースと言う時、本当にオープンウェイトを意味しますよね。再現できるわけではありません。APIを蒸留できるのと同じくらい、ウェイトを与えて蒸留できるので、そのダイナミクスをあまり変えません。

でも明確にするために、モデルからのカニバリゼーションは全く見ていません。非常に異なるユースケースのセットのようです。顧客は少し異なる傾向があります。ユースケースは非常に異なります。ちなみに、推論は超難しいことがわかります。実際にスケーラブルで高速でパフォーマンスの高いものを持つのは難しい難しい問題です。

だから、私が個人的にAPI事業に関連してオープンソースについて考える方法は、一つにはカニバリゼーションリスクを示していません。だからそれについて特に心配していません。

でもまた、これらすべての主要なラボにとって、通常、すべてのインパクト、すべての収益を生み出している2つか3つのモデルがあり、それらはモデルを改善するために多くのリソースを投入しているもので、これらは推論が非常に難しい大きいものである傾向があります。

OpenAIには本当にクラックした推論チームがあり、私の感覚では、文字通りGPT-5か何かをオープンソースにしても、私たちができたレベルで推論するのは本当に本当に難しいだろうということです。ちなみに、推論チームとトレーニングチームの間のフィードバックループもあります。だから最適化できます。

プロダクトのためにモデルを垂直化することは可能ですか。プロダクトのために特別にモデルをトレーニングしましたか。

つまり、実際に。GPT-5 Codexでこれをやったと思います。それとも、モデルがリリースされても、実際にはプロダクトの一部のような深い深い深い垂直化を意味しますか。

基本的にその方向に動き始めていると思います。どれだけ深く垂直化するかという問題があると思います。私たちがやったことのほとんどは、ポストトレーニングのようなもの、ツール使用レベルのようなものです。GPT-5 Codeは特にCodexハーネスを使うのが得意です。

でもそれよりもさらに深い垂直化ができます。それはより開かれた質問だと思います。

私の心的モデルの多くはPixelスペースから来ています。多くの画像モデルをLoRAできますし、いくつかのプロダクトにより適したものにするために多くのことができます。例えば。でもこれらのオープンソースモデルは本当に本当に良くて、編集やカットアンドペーストやこれやそれのようなもののためにモデルを垂直化できると信じるでしょう。それは実際にはこの一部ですが、実際には起きていないのを見ます。

そうですね。ほとんど常に、プロダクトに特化したものではなく、モデルのようなものを公開しているだけです。

そう思います。画像モデルスペースとテキストモデルスペースの間で区別をする必要があると思います。画像モデルははるかに小さい傾向があり、はるかに速く反復できるからです。

それが画像モデル側でクレイジーでクールな増殖を得る理由ですが、テキストモデルには常に投資しなければならない本当に大きな太いプリトレーニングステップがあり、ポストトレーニング側でさえ、最も簡単なことではありません。計算の観点からは明らかにはるかに小さいですが、完全なミッドトレーンやポストトレーニングランをやるにはまだかなり重いです。

だから実際にはそれが大きなボトルネックの一つだと思います。なぜなら、あなたが正しいと思うのは、画像側では、顔の編集のような非常に特定のことに非常に得意な画像拡散モデルをファインチューンして、その周りにプロダクトを構築できます。これらすべてのリソースをそれに投入して、その一つの特定のモデルを反復できます。一方、テキスト側ではるかに重いモーションのようです。

言語ベースのモデルと拡散のようなピクセルモデルの両方を同じ会社でやるのは、ちょっとしたアンチパターンだと言わざるを得ません。それを試みたほとんどは、非常にぎこちないと感じています。でもあなたとGoogleはこれに対する二つのカウンター例です。だからこれらのものでインフラを収束させることさえ可能ですか。完全に異なる組織ですか。共有インフラですか。どうやって運用しますか。

完全に正しいと思います。アンチパターンです。やり遂げるのはかなり大変です。正直に言って、研究チームのマークに敬意を表します。私たちがそれをできるように物事を構造化してくれて。私の観点からは、最大のことは、画像、世界シミュレーションチームか、Aditiaの下でSoraとかすべてを構築するチームが非常に堅実だということだと思います。プロです。しばらく見た中で最も高い才能の集中です。

でも同じようなものですか。完全に別のインフラですか。同じインフラを使っていますか。

実際にはかなり別です。だからそれが私たちがこれをうまくやれる理由の一部だと思います。一つには、チームが非常に強力である必要があり、そうです。

それから二つには、非常に別々に運営されています。独自の特定のロードマップについて考えています。プロダクト化についても非常に別々に考えています。それがSoraアプリがそこから出てきた方法でもあります。

推論スタックでさえ少し異なります。異なる種類のものです。彼らは推論スタックの周りでより多くを所有し、推論スタックをかなり別々に最適化しています。だからそれが物事を並行して実行するのに役立つことに貢献していると思いますが、やり遂げるのはかなり難しいのは確かです。

教えてもらえるかもしれませんが、APIは主にOpenAIからのテキストベースだと考えています。実際にピクセルベースのことをやっていますか。

やっています。たくさんあります。だからAPIにDollyがあります。OGモデルです。Dolly 2がAPIにあります。それが最初の本当のテキストから画像へのモデルでしたよね。

そうです。それが実際に私をOpenAIに行かせたモデルでした。何か新しいことを考えていたこの夏、Dolly 2が出た時で、完全に私の心を吹き飛ばしました。

はっきり覚えていますが、最も単純なことをやらせようとしていました。アヒルの絵を描くとか、今では最も単純なことで、白いアヒルの絵を生成しただけでした。それが実際に私をOpenAIに行かせたものでした。

でもAPIにたくさんあります。画像生成モデルもAPIにあります。それからSora 2もAPIにあります。デブデイでローンチしました。実際に大ヒットでした。非常に非常に驚いています。そのためにもっとGPUが必要です。でもユースケースの量、そしてあなたの立場からは、APIインフラをそのように収束できるでしょう。

API側では、インフラの多くがそれらのために共有されていると言えます。でも推論レベルに達すると別々です。異なる方法で推論する必要があるからです。

それがその側を特に効率的にして、うまく機能させることに本当にレーザーフォーカスしているチームです。テキストモデルとは別に。でも画像生成、ビデオ生成があり、APIにさらに追加し続けます。

エージェントの進化と実装

業界として多くのことについて思考を進化させてきたように感じます。その一つは確実にモデルです。話してきました。もう一つは、コンテキストエンジニアリングのようなものです。実際にエージェントをどう構築して公開するかも進化してきたように見えます。だからそれについて少し話してもらえますか。

今年のデブデイでエージェントビルダーをローンチした時、これについて多くの質問を受けました。エージェントビルダーは多くの異なるノードのようなもので、決定論的なものだったので、これは本当にエージェントの未来なのかと言われました。その製品を構築することを考えていた時、明らかに多くの考えを入れました。

でも考え方は、制約されているという点から来たと思いますか。「ああ、これは制約されすぎている。AGI的ではない。結局のところ、AGIはすべてをやるだろう」のように。だからなぜこのノードビルダーのようなものにノードがあるのか。何をすべきか伝えるだけです。

そうです。だからここで二つのことが働いていると思います。一つは実用性のコンポーネントのようなものです。それからもう一つは、実際には自動化してエージェントにできる異なるタイプの仕事が実際に存在するということだと思います。

実用性側では、モデルが今日はまだ、将来のある世界では、指示フォローが非常に良くなって、この4ステッププロセスをやるように頼むだけで、常に4ステッププロセスをやるようになるかもしれません。まさに。まだそこには達していません。

その間に、この業界全体が生まれていて、多くの人々がまだこれらのモデルを使いたいと思っています。彼らのために何を構築できますか。だから実用性のコンポーネントがあります。

それをローンチしたのはいつですか。デブデイです。永遠前のように感じます。

今月の初め。10月でした。10月6日かそこらだったと思います。1ヶ月未満前です。実際に。それへの反応を見るのはクレイジーでした。ちなみに、私のチームのクリスティーナがエージェントビルダーをデモしているビデオは、YouTubeチャンネルで最も視聴されているビデオの一つになっています。

私の観点から逸話的に言いますが、人々はそれを愛していますが、不協和音も見ました。出た時、人々は「待って、これは何。これはノーコード。ローコード」のように言っていました。

まさに。別のローコードものです。人々はそれを愛しているのは知っています。

実用的な部分があります。別の部分があります。顧客と話していた時、気づいたのは、結局のところ、このエージェントの仕事の多くは仕事を自動化しようとしているだけで、人々が日常の仕事で行うようなものです。実際には二つの異なるタイプの仕事があります。

私たちが考える仕事があります。ソフトウェアエンジニアがやるようなものです。非常に指示されていません。高レベルの目標があって、Cursorがあって、コードを書いていて、物事を探求して目標に向かっています。データ分析のような知識ベースの仕事のようなもの。コーディングはこのようなものです。

でも気づいた別のタイプの仕事があります。業界ではソフトウェアよりももっと普及しているかもしれませんが、私たちが気づいていないだけです。仕事は非常に手続き的で、非常にSOP志向の傾向があります。カスタマーサポートはこの良い例です。カスタマーサポートには、これらのエージェントと人々が従わなければならない非常に明確なポリシーがあり、実際にはそれから逸脱して何か別のことを試すのは良くありません。

これらのチームを運営している人々は本当にSOPが守られることを望んでいます。

標準作業手順です。ごめんなさい。エージェントまたは人々が操作する必要がある方法です。でもこのパターンは実際にはマーケティング、セールス、多くのものに一般化されます。権利を持つべきよりもはるかに多く。

その側で決定論を持つために、このようなノードを持つエージェントビルダーがこれを強制するのに役立つことに気づきました。でも私たち、特にシリコンバレーの多くは、実際にこのキャンプに入る仕事のトンがあることを本当に評価していないと思います。

これに似たパターンがあると言わざるを得ません。見たことがあるか知りたいのですが、規制された業界の中には、実際に生成されたコンテンツをユーザーに行かせることができないところがあります。

そうです。

だから彼らがやることは非常に興味深いです。会話ツリーのようなものを渡したり、ここから何か選べるようにしたりします。だから人的要素があります。

プロンプトの一部として、ここにあなたが言える実行可能なことがあります、どれを言うか選んでください。だから言語推論はモデルによって起きていますが、生成されたものは何も出てきません。

興味深い。興味深い。理解できますか。それから見たもう一つは、実際の疑似コードのようなものです。Python関数を渡して、人間に疑似コードを使って実際のコードを書くように頼んだり、実際に応答カタログを持っていて、適用するロジックを持っていて。

興味深い。だからモデルは人間のユーザーから言語を取り込み、それから、応答方法のロジックはPythonコードです。このタイプのことのために多くのコードが書かれているからです。それから送信する応答を含みます。

理解できますか。実際、多くのNPCはこの方法で行われます。実際のビデオゲームのNPCのように。

だから私の考え方は。NPCでは、モデルによって生成されているコードは、エンドユーザーに届くものではありません。コードはモデルによって生成されていません。プロンプトがコードを持っています。

だから、NPCがいて、NPCに、ゲーマーだとして、私のNPCに話しかけていますが、私のNPCにはやる必要があるロジックがあります。特定のことを言えば、鍵をあげるか、交渉するかもしれません。英語でゲームロジックを説明するだけではうまくいきません。実際にやってみると。

それから、ゲームコンテキストで使う必要がある場合、出力をスクリプト化してもうまくいきません。特定の方向や特定のこれやそれを与えるようなものを知る必要があります。だからどうやってこれらのものをより制約された方法で振る舞わせますか。

人々は関数を渡します。実際にロジックをPythonで説明します。だから私のプロンプトは、あなたはビデオゲームのNPCです。ユーザーが質問をしました。あなたが通るべきロジックはこれです。ユーザーがこれを言ったらこれをする。疑似コードのようなものです。ユーザーがベルトにこれを持っていたらこれをするというような。それから有効な応答のセットがあります。だからほとんど制約しています。

なるほど。なるほど。それから実際に応答すると、それがそれらの応答の一つであることを検証できます。

なるほど。だから高度に構造化されています。

NPCはまだそのプログラムを与えた空間内にのみ存在します。行動できる空間はまだそのプログラムの空間内だけです。

まあ、ロジックはそこにあります。だから通常の会話はできますが、ゲームデザインやゲームロジックのようなもののためにロジックを導こうとする限り。だからNPCでこれを見ますが、規制された業界でも見ます。文字通りそれを持たせることができません。

言おうとしていたのは、あなたが説明したことは、人間のオペレーターのセットにSOPを与えて、それに従ってくださいというようなものに聞こえます。

そうです。これら三つのことを言わなければなりません。これがあります。この金額未満なら返金はできません。

そうです。そうです。そうです。非常に興味深いです。つまり、NPCに例えるつもりはありませんが、これは非常に似ています。

似ています。本当に何が起こるか保証したい場合、やる一連の技術があると言っているだけです。彼らがすることを制約したい状況があります。規制の観点からかもしれません。

長い間実行させたいからかもしれません。また、実際にゲームロジックがあり、ゲームロジックは従来のプログラムだからかもしれません。金銭システムがあります。アイテムシステムがあります。バトルシステムがあります。英語では説明できません。その中で振る舞えるように与える必要があります。

そうです。

それがまさに私たちがここで解決しようとしている問題だと思います。これを何も与えなければ、ただ行って何でもやってしまいます。これに関する規制上の懸念があります。それがエージェントビルダーでターゲットにしようとしている正確なユースケースです。

素晴らしいですね。時間がなくなってきましたし、聞きたいことが百万とありますが、来ていただいて本当にありがとうございました。何が起きているかを調査するのは素晴らしかったです。特にこの空間での水平対垂直を解きほぐすのは本当にやりたかったことです。だから本当にありがとうございました。

ありがとうございました。