OpenAI の新しいエージェント開発ツールの内側

19,097 文字

https://www.youtube.com/watch?v=Awvj4yLYafo

新しいエージェント構築ツールについて、私はジェイコブ・エフロンです。今日の Unsupervised Learning では、非常に幅広い議論を行いました。開発者がこれらのエージェントがどこでうまく機能し、どこでうまく機能しないかについてどう考えるべきか、またコンピュータ使用モデルとその使われ方について話し合いました。企業がこのエージェント中心の未来にどう構築していくべきか、そしてこれらのモデル上に構築しているアプリケーション開発者を差別化するものは何かについても議論しました。さらに AI インフラ、開発者にとって必要なものが何か、そしてスタートアップが競争できる余地がまだどこにあるかについても取り上げました。
OpenAI からの非常に説得力のあるリリースの直後にこれを行うことは、とても楽しかったです。皆さんがこのエピソードを本当に楽しんでいただけると思います。それではさらに前置きなく、エピソードをお届けします。
お二人とも、ポッドキャストに来ていただきありがとうございます。
「こちらこそよろしくお願いします」
「参加できて嬉しいです」
おめでとうございます。OpenAI では退屈な瞬間は決してありませんが、この1ヶ月はあなた方の基準からしても、リリースした量がさらに凄まじかったですね。
「そうですね、かなりの旅でした」
きっとそうだと想像できます。リリースしたものすべてについて掘り下げたいことがたくさんありますが、まず最も高いレベルで、私たち消費者が今後5年、10年でエージェントとどのように対話するかについての長期的なビジョンについて聞かせていただけますか？
「現在、チャットGPT、Deep Research、Operatorなどの表面で起こっていることを見ています。人々は特定の場所に行っていますが、これらのエージェント製品の基盤となるモデルとAPIをリリースすることの最も興奮する点は、それらがウェブ全体のより多くの製品で見られるようになることです。
コンピュータ使用機能があなたの好きなブラウザに来たり、Operatorがあなたの仕事の日常的なタスクを自動化したり、クリックやフォーム入力、リサーチをすべて行ってくれるようになります。これらが今日使っている製品にどんどん深く組み込まれていくことが、私たちがAPIプラットフォームで最も期待していることです。この技術を広めて、どこにでもあるようにすることです」
「APIプラットフォームで働くことの素晴らしい点の一つは、人々が何を構築したいのかを実際には知らないことです。非常に垂直的なものですね。チャットGPTのファーストパーティでは、人々が何をしたいのかある程度わかりますが、APIでは、彼らは自分のドメインを私たちよりもはるかによく知っています。これらの製品やモデル機能がどのように垂直領域に入っていくかを見るのは非常に興味深いでしょう」
特に待ち望んでいるエージェントはありますか？皆さんは何らかの理由で旅行エージェントが好きなようですが、あなた方にとって最も気になるものは何でしょうか？
「私の一番は、APIデザイニングエージェントです。スティーブと私が行ったり来たりする時間の量は…単に各パラメータ名を考えて、pram_configかconfig_paramかなどと議論するだけでも…それは素晴らしいでしょう。最高のAPIデザインを見るDeep Researchのようなものを持っていて、本当に優れたものを得るのは…私たちが本当に気に入っているすべてのAPIで微調整することもできます。それは実際にとても良いアイデアです」
「誰かがあなたのAPIを取って、あなたが気に入る製品を返してくれることを願っています。それが夢ですよね」
確かに。多くの人が疑問に思っているのは、これらのエージェントはまだ非常に初期段階であり、ウェブにアクセスし、以前のパラダイム向けに構築された方法でお互いに通信していることです。これらのエージェントがウェブにアクセスしたり、お互いに通信したりする未来的な方法について、様々な考え方があります。エージェントがエージェントと話していることに気づいて、情報交換が容易な何かに切り替えるというYCのウイルス的なデモもありました。これがどのように進化すると思いますか？開発者はあなた方をあらゆる方向に導くでしょうが、初期の兆候はありますか？
「確かに、ウェブから情報を得たり通信したりするエージェントについては、すでに大きな変化が見られます。エージェントが単一のターンで、ウェブを検索するかどうかを決め、ウェブから情報を得て応答を合成するという世界から変わりました。それが2024年の特徴でした。
2025年はすでに、Deep Researchのような製品が登場し、モデルがウェブから情報を得て、得た情報について考え、立場を再考し、ウェブから別の情報を得て、時間を節約するために複数のウェブページを並行して開くというものです。このような思考プロセスでのツール呼び出しのチェーンは、エージェントがウェブから情報にアクセスする方法において大きな変化です。
これらのウェブページ抽出の詳細が、近い将来、他のエージェントに置き換えられることも想像できます。このエージェントが他端にAIエージェントと話していることを知る必要さえないかもしれません。それはただ呼び出すエンドポイントであり、決定を下したり、進路を変えたり、まったく別のことをしたりするのに使用する非常に有用な情報を得たと考えるだけです。
私が見ているのは、ツール呼び出しがインターネット、プライベートデータ、プライベートエージェントの間で起こっているこの思考プロセスのチェーンに、すべてがシームレスに組み込まれることです。それが私が見ている方向性です、ほぼ今後数ヶ月のうちに」
これは企業がどうあるべきだと思いますか？明らかに世界の一つのバージョンでは、彼らはただエージェントが彼らのサイトにアクセスし始めるのを待つことができます。もう一つのバージョンは、彼ら自身でエージェントを構築して、消費者のエージェントがそれに当たりやすくすべきだということです。これらの会社で製品を運営している人々は、このことについてどのように考えるべきでしょうか？
「開発者はすでにこれを行っています。我々はまさにこの理由のためにエージェントSDKをリリースしました。人々はこれらのビジネス問題を解決するために、複数のエージェントの群れを作成しています。顧客サポート自動化問題を見ると、返金を担当するエージェント、請求や配送情報を担当するエージェント、FAQを引き出すか人間にエスカレーションするかを決定する別のエージェントがあります。
我々はすでにこの多エージェントアーキテクチャが非常に人気があるのを見ています。そして開発者がそれを構築しやすくしたいと思い、そのためにエージェントSDKを構築しました。これらのエージェントを公共のインターネットに公開し、それがどのように役立つかは非常に興味深いでしょう。あまり見られていませんが、いつかそうなることは非常に理にかなっています。
会社や製品へのアドバイスとしては、今日あなたの会社が直面している実際の問題を解決するために、これらのAIエージェントを社内に構築することです。そして他の誰かがあなたと通信するためにこれをインターネットに公開することが意味をなすと明らかになったとき、それは起こるでしょう。まだそれほど遠くないと思いますが、それは今後数ヶ月のうちに起こるでしょう」
「全くその通りです。また、本当に興味深いのは、これまでモデルが見ているデータのほとんどは、あなた自身のデータ、チャット履歴、ファイル検索、そういったものですが、特にウェブにより接続されたこれらのツールでは、ウェブ全体からモデルに入るデータがもっと増えるのを見るでしょう。あなたが提供するデータだけでなく、それは本当に興味深いことです」
開発者がこれらのAPIを組み込むことを考えているとき、エージェントがうまく機能する場所とそうでない場所についてどのような経験則を使いますか？アドバイスはどうでしょうか？
「少し戻りましょう。2024年のほとんどのエージェント製品は、非常に明確に定義されたワークフローと10個未満のツール、多くても12個程度のツールと、ここからそこへ、そしてそこへという非常によく調整されたものでした。そして多くの企業はそのように、本当にクールなコーディングエージェント、本当にクールな顧客サポート自動化プロジェクト、Deep Researchプロジェクトなどを構築しました。
2025年になると、すべてがこの思考のチェーンで起こるというモデルになりました。モデルはその推論プロセスの中で、明らかに複数のツールをどのように呼び出すべきかを理解する十分な賢さを持ち、また間違った道に進んでいることに気づいたらUターンして別のことを試すことができます。確定的なワークフロー構築プロセス全体から離れたと思います。
OpenAIは強化微調整などのツールに取り組んでおり、これを開発者自身が使えるようにしています。次のステップは、その10〜15ツールの制約をどう取り除くかです。数百のツールにこれを公開し、呼び出すべき正しいツールを見つけて使用できるようにすることができるかどうか。それが本当に次のブレイクスルーになると思います。そうなれば、必要なすべての超能力を持つことになります。計算能力があり、異なるツール軌道について推論する方法があり、多くのツールへのアクセスがあります。
今後数ヶ月で、ツール数の制約を取り除くことに本当にワクワクしています。ただ、今日のモデルでそれを機能させるのは難しいですが、それは変わるでしょう」
「また、これらのモデルが必要なことをするために利用できる実行時間を増やすことも考えています。人間なら、一日かけて何かに取り組み、必要なツールをすべて使って仕事を終わらせることができます。今、特にDeep Researchのようなモデルでは、分単位の実行時間が見られますが、これらのものが時間単位、日単位で動けるようになれば、本当に強力な結果が得られるでしょう。
昨年は、非常に特定のガードレールを設けて、物事がレールから外れないように密接に連鎖させる必要がありました。今はより柔軟に何を許可できるようになったようで、夢は「ここに数百のツールがあり、あらゆるタスクで使えるから、解決してください」ということです」
「全くその通りです。次世代のモデルが開発者が持つすべてのユースケースにどのように一般化するかを見るだけでなく、強化微調整の技術もあります。タスクとグレーダーを作成し、開発者が自分自身のタスクとグレーダーを作成して、モデルに特定の開発者のドメインに固有の問題を解決するための正しいツール呼び出しパスを見つけさせることができれば、それは素晴らしいでしょう。
次のシリーズのモデルと、強化微調整からの初期結果に本当にワクワクしています。それらがすべて合わさって、実際に非常に役立つ信頼性の高いエージェントが作られるでしょう」
「その本当にクールな点は、モデルの思考のチェーンを操縦していて、あなたのドメインについて考える方法を教えているということです。これは本当に強力な考え方のモデルです。基本的に、法律学者のようにモデルをトレーニングする方法、医師のようにトレーニングする方法、あるいは大学の4年間があなたに特定の考え方を教えるのと同じように、強化微調整はそうした領域でモデルがどのように特殊化していくかの素晴らしい例です」
そのために、評価と評価の古典的な問題の一つは、オフザシェルフで簡単に使えるものを提供したいと思う人がいることです。同時に、これらのドメインの中には非常に固有の問題を持つものがあります。インフラレベルで、法律や医療などの領域で微調整を行う人々に提供する正しいレベルのツールについて、どのように考えていますか？
「まだ進行中だと思います。今、私たちが公開しているのは基本的に、開発者が自分のグレーダーを構築する方法を提供しています。例えば、医療タスクで50％の評価を示すものがあれば、モデルの思考の流れや出力を、医学の教科書のような既知の真実に基づいて照合できるグレーダーを構築できます。
微調整の過程で、モデルをより良い出力を生み出す方向に導くことができます。私たちは基本的な構成要素、つまりモデル出力を取得してそれを何らかの真実と照合したり、数学的に正しいことを証明するためのコードを実行したりできる非常に柔軟なグレーダーを提供しています。単に「この文字列がこの文字列と等しい」とチェックするだけでなく、数学的な正確さがあるということです」
今、AIのさまざまな側面で最大の問題は、実際に何が評価できるかということだと思います。テストコンプや何をスケールできるかという大きな問題です。医療と法律を例に取ると、これらの評価の批判の一つは、「弁護士になることは司法試験に合格することではない、医師になることはこれらの医学試験に合格することではない」ということです。現場で人々が行っていて、このようなアプローチを最もうまく活用する創造的な方法だと感じるものは何かありますか？
「正直なところ、Operatorや Deep Researchを社内で構築した人々と話した後、これらのことを行うのは現時点では非常に難しく、多くの反復が必要です。ドメインにピッタリ合うような形で評価とタスク生成を製品化したものは、まだ見たことがありません。これは今年解決すべき最大の問題であり、もしかしたら来年までかかるかもしれません。技術は出てくるでしょうが、本当に良いタスクとグレーダーをどのように構築するかは非常に難しいでしょう。
現在、これらの製品は存在しているので、Deep Researchのようなものを構築することが可能だとわかっています。インターネット上でもいくつかの複製が見られます。十分な証拠はありますが、ほとんど誰でも利用できるようにそれを製品化する方法が難しいでしょう」
コンピュータ使用についてはどうですか？開発者が今日、それをどこで使うべきか、どこでうまく機能するかについて、どのように分類しますか？
「コンピュータ使用は驚くほど多くのクールなユースケースがありました。最初は、APIを持たないレガシーアプリケーションが多くのコンピュータ使用のユースケースになると思っていました。人々は長い間これを自動化しようとしてきましたが、できませんでした。それは確かにそうで、医療分野など、人々が3〜4つの異なるアプリケーションで非常に手動のタスクをクリックしているような顧客がいくつかいました。それはとてもうまくいきます。
しかし、Googleマップで研究を行うためにそれを使用している企業の例も見てきました。アルファフェーズの間に利用していたUnifi GTMという会社があり、基本的に気候技術のスタートアップが「この会社は充電ネットワークを拡大したか」などの質問をするという使い方でした。エージェントはGoogleマップを開き、ストリートビューをオンにして、場所に行き、より多くの充電器があるかどうかを見ていました。GoogleマップにはAPIがありますが、ストリートビューにAPIがあるかどうかは実際にはわかりませんが、どの正確な場所を見るか、どの方向を見るかを把握するのはおそらく本当に難しいでしょう。基本的に何でも自動化できるので、それはクールでした。そこから始めて、後でAPI的なアプローチを考えることができるかもしれません」
「その通りです。多くのドメインはJSONにマッピングされず、プレーンテキストでウェブ上で提供できません。ビジョンとテキスト取り込みの組み合わせが必要なこれらのユースケースは、コンピュータ使用に本当によく適しています」
それは本当に興味深い例ですね。Unifiは面白いですね。明らかにあなたたちは多くのアルファテスターを持っていて、これをリリースした次の日には、すべての大企業が「私たちがこのAPIで構築した素晴らしいもの」と言っていたように感じました。リリースからわずか1週間ほどですが、予想していなかった特に気に入ったもの、あるいはこれらを使用しているクールな方法はありますか？
「コンピュータ使用のものが最もクールだと思います。コンピュータ使用でのプラットフォームプレイヤーにも本当にワクワクしています。私たちが持っている他のツールを考えると、ウェブ検索、ファイル検索、そしてコンピュータ使用があります。ウェブ検索では、人々がウェブからデータを取得してモデルのコンテキストに入れるためのAPIを提供する多くの企業があります。ファイル検索は正直言って非常に成熟しており、ベクトルデータベース業界があります。コンピュータ使用では、物事は非常に初期段階です。
人々やビジネスが主にやりたいことは、クラウド上のDockerコンテナやVMを取り、そこにソフトウェアを入れ、認証を入れて、物事を自動化できるようにすることです。いくつかの本当にクールなものがあります。Browser Baseというサービスを提供する会社があり、Scrappy BararaというYCスタートアップがあり、ホスト型仮想マシンでコンピュータ使用モデルをうまく機能させるための優れた開発者体験を持っていると思います。
私は開発者プラットフォームの人間なので、それらのプラットフォームプレイを見て、「人々がその上に構築するものは何か」と考えるのはとても興奮します。私のトップ2はBrowser BaseとScrappy Bararaで、彼らが何をするのか見るのが楽しみです」
「Arcも非常にクールなことをしていると思いました。彼らは基本的に、タブを開いて指示を与えると、バックグラウンドで何かをしてくれるツールを構築していました。それはOperatorのようなユースケースですが、製品に本当に組み込まれています。それはただのウェブブラウザで、ウェブブラウザのタブに組み込まれているわけではなく、ブラウザ自体の一部です。そのようなネイティブ統合は本当にクールだと思いました」
「それをDiaと呼んでいると思います」
「超クールですね」
APIを使用している最も洗練されたユーザーが行っていることで、「これをもっと広く普及させればいいのに」と思うようなことはありますか？
「ポッドキャストに参加して世界に伝えられたらいいのに。これらのいくつかの機能を使用する良い方法です。最も洗練された人々が使用しているパターンに気付いたことがありますか？」
「ツールについては、まだかなり初期段階だと感じます。アルファフェーズでは、彼らがモデルとツールに試みていることをさせようとして、それがうまくいかなければ、プロンプトエンジニアリングを試し、それもうまくいかなければ、これをワークフローの一ステップにするという人々を見つけました。それらのステップを経ることで、通常彼らは望んでいるものを得ます。「ウェブ検索ツールがちょうど必要としているものを与えてくれていないが、これをワークフローの一部にして、ウェブから情報を取得し、それを他の何か、決定論的なものか別のLLMステップに渡すことができるか」という感じです。
しかし全体としては、まだかなり初期段階だと思います。今後数週間でたくさんのことが発見されるでしょう」
「質問を少しひっくり返すと、私が本当に出荷できてよかったと思うことの一つは、エージェントSDKにおいて、あなたの仕事やタスクを多くの異なるエージェントに分散するという考え方です。それは非常に、シングルプロセッサコンピュータ対マルチプロセッサコンピュータのようなものです。各エージェントに一つのタスクに集中させ、すべてのコンテキストを与えると、それらのタスクでの効率が大幅に向上します。一つのエージェントに100の異なることをさせようとプロンプトエンジニアリングするのではなく、それを分散させるのです。
私たちがそのパラダイムを発明したかどうかはわかりません（おそらくしていないと思いますが）、それを本当にファーストクラスのパターンとしてシフトしたことは本当に素晴らしいと思いました」
「これはとても興味深いです。「うまくいかない場合はステップとして追加できる」と言いましたが、投資側では興味深い難問があります。現在のモデルの能力が何であれ、人々はそれを機能させるために必要な足場を構築しているように感じます。それは今すぐ市場に製品を出し、価値のある製品を提供します。同時に、もし浜辺に行って3〜6ヶ月待ってモデルが良くなるのを待てば、100のツールから1つのことをするのに対して、ステップを連鎖させる代わりに、ただ実現できるかもしれません。
人々がモデルの周りに構築しているステップについて、どう考えていますか？それは時間と共にすべて不要になるのか、それともそのうちのいくつかは有用なのでしょうか？」
「これは最も重要なことだと思います。エージェントやエージェントとツールのオーケストレーションは今最も重要なことです。なぜなら、私の意見では、モデルは多くのAIアプリケーションが活用しているところよりもはるかに先に進んでいるからです。これらのモデルから抽出できる価値はとても多いので、モデルがうまく機能するように周りにものを構築することは、AIスタートアップや製品が行うべき非常に重要なことです。
顧客サポート自動化のような、概念としては長い間存在していたものでも、2023年後半から2024年初頭にかけて本当に解決した会社がいくつかありました。しかし採用はやや遅いです。最初の10-15-20社が動いたほど速く動く会社はあまり見られません。これは、オーケストレーションが上手く、トレースを見ることに細心の注意を払い、プロンプトエンジニアリングの方法を把握し、プロンプトが劣化しないようにeval setを持つことがいかに重要かを示しています。今日これは本当に難しいことです。どれほど難しいか信じられないほどです。だから人々に伝えるのは、これらのモデルを機能させる方法に焦点を当てることが正確にやるべきことだということです」
「100%同意します。また、タスクを多くの異なるエージェントに分割するという考え方は、ワークフロー全体のデバッグをはるかに簡単にします。本当に能力のあるモデルがあって100の指示があり、いくつかのトークンを変更すると、メールの結果が劇的に変わるかもしれません。しかし、単に一つの受け渡しエージェント、一つの振り分けエージェント、一つのこれというように持っていれば、それぞれを調整することがより孤立しており、評価でヒルクライミングしながらその影響範囲がはるかに小さくなります」
Latent Spaceに出演した時、時間をかけてより多くのノブを追加して開発者にとってよりカスタマイズ可能にしたいと言っていました。それが時間の経過とともにどのようになると思いますか？また、箱から出してすぐに比較的使いやすいものを提供することと、究極的なカスタマイズ性の間のこの種の緊張についてどう考えていますか？
「全くその通りです。『梯子としてのAPI』という考え方は、ResponsesAPIを設計する際に私たちが第一原則から取り入れたものです。つまり、いくつかのことが重要です。箱から出してすぐに多くの力を与えたい、シンプルなことを本当に簡単にしたい、そして人々が努力するごとに少し多くの報酬を得られるようにしたいということです。
例えば、ファイル検索は本当に使いやすいものです。ドキュメントをアップロードするだけで、APIで行う必要さえなく、ウェブサイトで行うことができます。ベクターストアIDを入れるだけで機能します。これがうまく機能しない場合、チャンクサイズを調整するためのノブがあります。デフォルトは400ですが、200や1000にすることもできます。これらのノブには意味のあるデフォルト値があり、少し深く掘り下げて、努力に対してより多くの報酬を得ることができます。
ファイル検索の例ではさらに深いレベルがあります。メタデータフィルタリング、再ランカーのカスタマイズなどがありますが、最初からすべてを設定する必要はありません。これらの機能は提供され、公開されており、ドキュメントで見つけることができますが、APIを試すだけなら「再ランカーって何？」と考える必要はありません。
できるだけシンプルにすることを考えています。APIを呼び出すためのクイックスタートを4行のcurlコードにすることに長い時間をかけました。それがこれほど簡単であるべきだと本当にこだわりましたが、必要であれば設定できる50以上のパラメータもあり、それらには時間とともに妥当なデフォルト値が設定されます」
「他にどのようなノブを追加したいと考えていますか？」
「ウェブ検索では、サイトフィルタリングを追加したいと考えています。これは大きな要望です。現在はインターネット全体を検索するか、プロンプトでそれを行う必要があります。ウェブ検索における特定の場所も、都市や国を設定できますが、ブロックやコートまで設定することは、特に天気やイベント型のクエリにとって非常に重要です、特にサンフランシスコの微気候については」
「そうですね、本当に」
「ResponsesAPIで本当に興奮していることの一つは、AssistantsAPIに存在したすべての機能を構築することですが、ユーザーに強制することなく。2023年11月にAssistantsAPIをリリースしましたが、会話の保存、アシスタントオブジェクトにモデル構成を保存するなどの概念がありました。しかし、始めるためのハードルがかなり高いことがわかりました。
Responsesでは別のアプローチを取っています。単一のAPIコール、単一のエンドポイント、学ぶ必要がある一つの概念から始め、会話を保存したい場合はThreadsオブジェクトのようなものを使用することを選択でき、モデル構成を保存したい場合はアシスタントタイプのオブジェクトを使用することを選択できます。これらは単なるパラメータを構成するだけです。つまり、OpenAIにホスティングさせるためのノブです。短期的には本当にそこに到達したいと思っています」
「以前にリリースしたAPIを振り返ると、これらは主にそれらに取って代わることを意図していますが、何か学びや「本当にうまくいったこと」、あるいは「実際にはそこで見当違いをしていて、現在のイテレーションでそれを修正した」ことはありますか？」
「全くその通りです。AssistantsAPIで本当にうまくいったのはツールの使用です。特にファイル検索ツールで大量の使用を見ました。そこがAPIが本当に市場にフィットしたところです。人々が自分のデータをAPIに持ち込み、モデルにそれを検索させたいというニーズでした。
しかし、間違っていたのは、Nunが言ったように多くのことです。単に使うのが難しすぎました。コンテキストをオプトアウトする方法がなく、多くの人々はコンテキストストレージを好まず、各ターンで自分のコンテキストを提供できるChat Completionsインターフェースを望んでいました。
しかし、Chat Completionsインターフェースもかなり制限があります。APIは一つのことしか出力できず、モデルは多くのことを行います。バックグラウンドで多くのことを行って、その思考と行動のすべての結果を提供できるようにしたいです。
AssistantsAPIの最良の部分、つまりツールの使用と複数の出力などと、Chat Completionsの使いやすさを組み合わせようとしました」
「それは非常に理にかなっています。開発者はこの開発者ツールのスイートと、MCPの状況についてどのように考えるべきでしょうか？」
「それらはおそらく異なる問題を解決しています。ResponsesAPIは、モデルとの複数ターンのやり取りを本当に良くすることに焦点を当てています。モデルが自分自身を複数回呼び出し、複数のモデルターンを持ち、ツールを複数回呼び出して、複数のツールターンを持って最終的な答えにたどり着くことができるという基盤を提供しています。それがResponsesAPIという構成要素です。
MCPはツールをどのように使用し、モデルにツールをもたらすかについてのものです。これらは正直なところ、ある意味で非常に補完的です。ツールレジストリとツールエコシステム側で何をするかを考える必要がありますが、MCPは非常にクールで、それは私たちがエコシステムにどのようにもたらすかを考える必要があることです」
「私が驚くのは、ChatGPT以降の最初の数年で、あなた方が現在リリースしているエージェントオーケストレーション、ベクトルデータベースなどの側面を行おうとする多くのAIインフラ企業が登場したことです。あなた方が構築しているものの上に存在することが意味のあるスタンドアロンAIインフラ企業の機会と、意味をなさないかもしれない部分についてどう考えていますか？」
「私たちの側では、ユーザーと協力して彼らの要望を聞き、彼らはLLMに何をしてほしいかのためのワンストップショップを望んでいます。彼らは自分のデータとインターネットを検索できることを望んでいたので、その方向に一歩踏み出しました。
とはいえ、AIインフラ企業は非常に強力で無限に柔軟な低レベルのAPIを構築しており、そのような種類のものには常に大きな市場があるでしょう。私たちはただ、ユーザーが求めているもの、つまりよりすぐに使えるツールを構築する必要があります。この空間に対して異なるアプローチを取っていますが、垂直特化型のAIインフラ企業も存在するでしょう。
コーディングスタートアップのためだけにVMを構築し、コードをテストして可能な限り早くVMをスピンダウンできるようにする会社もあります。RunLoopと呼ばれているものがあると聞いています。垂直化されたAIインフラは続けるのに意味があると思います」
「それは私たちがビジネスとして関わりたくないものですね。また、LLMOpsの会社があり、プロンプトの管理、請求の管理、使用状況の理解などの興味深いことを行っています。これは必ずしも低レベルインフラではありませんが、開発者が気にすることです」
「マルチモデル方式、マルチプロバイダーなどでそうですね」
「OpenRouterなどですね」
「あなた方は開発者と話し、彼らのウィッシュリストを聞くことに日の大半を費やしていると思います。多くの要望を現在のAPIに組み込んだようですが、常にやるべきことがもっとあると思います。評価を問題として話していましたが、開発者にとって今日のモデルを扱うことを痛みに感じさせる問題の優先順位をどのように考えていますか？そして解決すべき最も重要なことは何でしょうか？」
「ツールは確かに私たちにとって非常に大きな課題です。基本的な構成要素がありますが、その上にツールエコシステムを構築する必要があります。MCPの側で素晴らしい仕事が行われていることは明らかで、それは私たちにとって最優先事項です。
また、コンピュータ使用VM空間はまだかなり初期段階であり、それも大きな課題です。企業がこれらの仮想マシンを自社のインフラに安全かつ確実にデプロイし、それらを観察し、コンピュータ使用モデルがその上で行っているすべてのことを観察する方法をどうするかです。これらのコンピュータ使用モデルはとても速く良くなるだろうと感じています。私たちはそのパラダイムのGPT-1や2の段階にすぎず、このものは信じられないほど役立つようになるでしょう。そのフロントのインフラがどのように離陸するか非常に興味があります」
「アルファ期間中に本当に興味深かったことの一つは、人々がコンピュータ使用ツールを試そうとしたさまざまな環境です。モデルはブラウザ環境で最もうまく機能します。それは一種のトレーニングされた環境ですが、人々はiPhoneのスクリーンショットやAndroidでそれを使用しようとしていて、「それを考えたことさえなかった、とても興味深い」と思いました。
人々が望むことの可能性は無限だと思います。iPhoneのVMだけを扱う会社があるでしょうか？以前はiOSのテストフレームワークだけを行う会社がありましたが、今はAIモデル用になっています。Ubuntuのさまざまなフレーバーなど、本当に大量の断片化があり、コミュニティがどのようにしてギャップを埋めるかを見るのは非常に興味深いでしょう」
「また、サイバーセキュリティ作業を行おうとしているスタートアップも見ています。コンピュータ使用を使って30分間調べることで、他のサイトやサーフェスの脆弱性を見つけようとしていて、非常に興味深いです」
「本当に興味深いです。あなたの仕事の楽しい部分の一つは、おそらく研究チームと緊密に統合され、モデルが出てくるのを見ることでしょう。モデル側で注目していることはありますか？次のコンピュータ使用モデルや、エージェントに使用される次のモデルを得る時、どのようなマイルストーンや能力を「もし我々がXができれば、それは開発者にとってとてもゲームチェンジングなことになる」と思いますか？」
「それは興味深い質問です。実際、YCのスタートアップから多くのプロンプトをもらっていて、彼らはいつも「これは決して機能しない」と言います。それらをOpenAIダッシュボードでプリセットやプロンプトとして保存していて、新しいものが出るたびに3、4つを試します。それらはすべてエージェントツール使用に焦点を当てており、かなり単純な6、7つの異なるツールがあります。ターンごとの信頼性の高い実行を探しています。次のシリーズのモデルでは楽観的ですが、いくつかのものはただうまくいきません。
また、より小さく、より速いモデル、特に本当にツール使用が得意なモデルを見つけることにも熱心です。世界のO1のようなモデルの周りに座っている作業用モデルやサポートモデルについて考えると、これらの本当に速い分類や保護などを行うモデルがあり、そういったタイプのものには改善の余地がたくさんあります。最速で最小の分類子は取り組むのに本当にクールでしょう」
「特に微調整可能なものは非常に良いですね。特定のユースケースに本当に心ゆくまでそれらを調整することができ、それは本当にクールでしょう。それらのフリートを持つことは素晴らしいでしょう」
「私にとっては差分(diff)です。モデルがコードに綺麗に適用できる差分を出力し、それがそのまま機能し、調整する必要がないようになることが望みです。それは非常に大きな進歩になるでしょう。モデルは行番号をあまり理解していません」
「最近、中国から本当に印象的なエージェント作業がありましたが、それに対するあなたの反応は何でしょうか？最先端のエージェントは常に最先端のモデルと一緒に進むと思われていましたが、彼らはAnthropicのモデルを使用していると思いますが、そのパラダイムに少し挑戦したように感じます。それらのデモに対するあなたの反応はどうでしょうか？」
「私の反応は、私たちが社内で言っていることと同じです。モデルの能力はすでにそこにありますが、それを活用できる人がとても少ないです。これがまだこのような状態であることは驚くべきことです。開発者や誰もがモデルでより強力なものを構築できるようにしなければなりません。例外的なAIやML人材である必要はありません。それは人々に適切なツールを与え、適切なモデルを与え、エージェントSDKのようなもので彼らを組み合わせることを支援し、より多くの人々が中国から出てきたようなものを構築できるようにする必要があるという事実を裏付けています。それが私の見解です」
「評価から本番環境、微調整、そして戻るまでのフライホイールをはるかに速く回転させることは、非常に強力なループであり、私たちはそれをはるかに簡単にする必要があります」
「それをより簡単にするための重要な要素は何だと思いますか？」
「正直なところ、その答えがあれば素晴らしいのですが、最大の課題は…まあ、OpenAIの研究チームはいつもそれを行っています。モデルはチャットが上手くなり、すべてのDeep Research的なことが上手くなり、次のOperatorモデルはコンピュータ使用においてはるかに強力になるでしょう。それをどう製品化するかが私たちが解決する必要のあることです。
明らかに、多くの労力と、トレースを非常に注意深く観察し、適切な評価を作成することで、それは確かに機能します。私たちはただこれを製品化する必要があり、これを簡単にする方法を見つける必要があります。今日よりも約10倍簡単になる必要があります。それは確かに可能です。評価を作成することはできますが、評価を作成するのは大変な作業です。私にとって最大の課題は、タスクやワークフローを評価するプロセスをどのようにもっと簡単にするかということです」
「面白いのは、新しいモデルが出るたびに、人々はそのユースケースを発見するのに6〜9ヶ月を費やし、おそらくこれらのモデルが実際に何ができるかの1%しか発見せず、次のモデルに移るということです。かなり驚くべきことです。
私たちは全員、この非常に大きな変化の瀬戸際にいると感じていると思います。特にこれらのツールをより簡単にするにつれて、エージェントはますます普及するでしょう。普通の企業やコンシューマーのCEOとして、これについてあまり考えていなかった場合、彼らの立場ならば何をすべきでしょうか？エージェントの未来において、これらのモデルと対話する何らかの方法を持つ企業を運営している場合？」
「フロンティアモデルの探索、コンピュータ使用モデルの探索から始めるべきです。社内のいくつかのワークフローを取り上げ、物事をエンドツーエンドで自動化するためのマルチエージェントアーキテクチャを構築する感覚を掴むよう試みてください。それが今すぐできる最も実行可能で実際的なことだと思います。
ツール側では、手動のワークフローのうちどれがツールインターフェースを必要としているかを把握し、それを始めてください。クラウド時代にブームだったデジタルトランスフォーメーションと自動化が今戻ってきていると感じます。時には「これ全体を自動化したい」というユーザーと話すことがありますが、行うべき作業の90%は、使用しているある特定のツールにプログラムでアクセスする方法を見つけることであり、LLMの部分は中央にほんの少しあるだけです。これは私たちにとって非常に異なる問題であり、今はコンピュータ使用でそれを解決し、本番環境に入れることができますが、実際にはアプリケーションを自動化する方法を見つけ、フロンティアモデルを試すことをお勧めします」
「この時代の開発者であることは本当に興味深いです。長い間、開発者としてより良いフレームワークやプログラミング言語などを通じて、仕事の下位20%を常に自動化してきました。そのため、会社を経営していたら、従業員に「日々の業務の中で最も嫌いなことは何か、そしてそれを自動化する方法を見つけよう」と尋ねるでしょう。それは皆を幸せにし、もちろん生産性を向上させるでしょう。私はそのように考えます」
「あなた方はそれをやっていますか？」
「いや、私の給料の範囲外ですが…」
「素晴らしいです。興味深い会話でした。いつも最後にクイックファイアラウンドで締めくくるのが好きで、最後の5分に広範な質問をいくつか詰め込みました。まず、今日のAI世界で過大評価されていることと過小評価されていることを一つずつ挙げてください」
「私の答えは、エージェントは過大評価され、同時に過小評価されているということです。私たちはここ数年、エージェントについて話してきました。完全な2つのハイプサイクルを経ました」
「まさにその通りです」
「同時に、実際にそれを解決し、Deep Researchのようなものを構築したり、非常に手動のタスクを完全に自動化したりする企業は、本当に多くのことができるので、過小評価されています」
「あなた方は最先端にとても近いところにいますが、過去1年でAI世界について考えを変えたことは何ですか？」
「私にとっては確かに、これらの推論モデルのパワーです。私たちはいつも推論という概念が来ることを知っていましたが、それがツール使用と組み合わさって、OperatorやDeep Researchのようなものを作り出すことをどれほど理解していなかったかということです。
この完全にワークフローベースのセットアップから、思考の流れの中でツールの使用を理解し、実際に本当に強力な結果を提供する完全にエージェンティックな製品へ移行できることを見て、それが私にとって最大の変化でした。そして強化微調整のアルファの初期結果を見ることも、私にとって最大の変化でした」
「私にとっては微調整全般です。モデルに入れることができる知識はすべてGPUから出てくるときに組み込まれていると思っていましたが、自分自身のカスタム情報をたくさん追加して、それが特定のタスクにどれだけ針を動かすかを見るのは印象的です」
「長期的なアプリケーションビルダーの最大の差別化要因は何だと思いますか？ベンチャーの質問としては、モデルと、これらのエージェントを本当に構築する方法についての深い知識なのか、ドメインをとてもよく知っていて何を構築すべきかを知っているだけなのか、あなた方はどう思いますか？」
「それは一種の組み合わせだと思います。そして、モデルからAGIを本当に引き出す能力を持つための特別なソースが何であれ、プロンプトエンジニアリングなのかワークフローオーケストレーションなのか、他の何かなのか、それは大きな差別化要因になると思います」
「私にとってはオーケストレーションが本当に上手であることです。それが最大の要因になると思います」
「それはどういう意味ですか？ツールとデータを多くのモデル呼び出しと一緒に持ってくるということですか？」
「思考のチェーンでこれらのツールを呼び出す、強化微調整の方法で、または複数のLLMを連鎖させ、それを素早く行い、評価し、改善することが非常に上手であるということです。それが今後1〜2年で人々を前進させる最大のスキルだと思います」
「素晴らしいです。今日、これらのモデルの最も未開拓のアプリケーションは何だと思いますか？科学研究側で何か驚くようなものを見ましたか？」
「それは本当に…Oシリーズモデルが始まったとき、主な期待は科学研究が行われる速度に大きな変化があるだろうということでした。いくつかの初期の報告は見ましたが、それがどう変わるのか非常に興味があります」
「AI業界全体に対する批判の多くは、インターフェースがまだ正しくないということだと思います。特に学術界のような空間では、すべてが長い間同じ方法で行われていて、そこで適切なインターフェースを見つけることが本当に重要であり、そこでの採用を大きく推進するでしょう」
「ロボット工学も…多分大きな何かが起きる時期かもしれませんね。Open[AI]の起源、古き良きルービックキューブ」
「モデルの進歩は昨年と比べて今年は多いか少ないか、同じだと思いますか？」
「より多くなると思います」
「そうに違いありません」
「特にモデルが私たちにより良いデータを使って改善する方法を教えてくれることも含めて、それはフィードバックループなので」
「OpenAI以外でどのAIスタートアップやカテゴリーに最も興奮していますか？」
「私はOpenAIに入る前は旅行会社で働いていたので、誰かが旅行業界を本当に解決するのを見るのが本当に楽しみです。旅行業界は非常に保守的で、大手企業は少数しかないので、実際のAI旅行エージェントを誰が構築するのか本当に楽しみです」
「エージェントのための誰もが好きなデモですね」
「そうですが、人々が使用している製品はありません。本当に楽しみです」
「なぜまだ機能しないのでしょうか？」
「わかりません、このあとすぐに調べに行きます」
「私はGranolaをよく使います。それを聞いたことがありますか？それは私のお気に入りのAIツールです。私は非常に会議が多い役割なので、それはとても役立ちます」
「素晴らしい製品ですね。人々が引くべき興味深いスレッドがたくさんあると思います。あなた方が最近リリースした素晴らしいものもたくさんあります。最後の言葉をあなた方に任せたいと思います。リスナーがAPIについてもっと学ぶためにどこに行けばいいか、案内したい場所はどこですか？」
「私たちのドキュメント、platform.openai.com/docs、また、TwitterのOpenAI Devsチャンネルやアカウント、コミュニティフォーラムも常に見るべき良い場所です。そのドメインが何かわかりませんが、community.openai.comかな。GoogleでOpenAIコミュニティフォーラムを検索すれば見つかるでしょう、またはChatGPTに尋ねてもいいです」
「素晴らしい、お二人とも本当にありがとうございました。とても楽しかったです」
「ありがとうございました」
「皆さん、ジェイコブです。出発前にもう一つだけ。もしこの会話を楽しんでいただけたなら、ショーに5つ星の評価を付けることを検討してください。そうすることでポッドキャストがより多くのリスナーに届き、最高のゲストを招くのに役立ちます。
これはUnsupervised Learning、Redpoint Venturesによるアイポッドキャストのエピソードでした。私たちはAIの最も鋭い頭脳に、今日何が実際のものであるか、将来何が実際のものになるのか、そしてそれがビジネスや世界にとって何を意味するのかについてプローブします。AIの急速に変化するペースの中で、私たちは最も重要なブレークスルーを理解し、現実のより明確な絵を見るのを助けることを目指しています。ご視聴ありがとうございました。次回のエピソードでお会いしましょう」