開発者向けステート・オブ・ザ・ユニオン

本動画はOpenAIの第3回開発者向けイベント「Dev Day」における開発者向けセッションの記録である。グレッグ・ブロックマンが2015年のOpenAI創設時の計画から現在に至るまでの軌跡を振り返り、強化学習と教師なし学習という二つの柱がどのようにGPT-5や推論モデルo1へと結実したかを解説する。オリビア・ガンモアはプラットフォームチームを率いる立場から、知的モデルの構築、コーディングの加速化、エージェント開発支援、そしてChatGPTでのアプリケーション展開という4つの重点領域について詳述する。GPT-5 ProやSora 2といった新モデルの紹介に加え、CodexのSlack統合やMCP対応、GitHub自動コードレビュー機能、そしてCodex SDKの発表が行われた。さらにAgent Kitによるワークフロー構築の簡素化、評価ツールの強化、強化学習ファインチューニングの拡張が紹介され、RAMPの事例を通じて実用的な活用方法が示された。最後にカチャがMCPプロトコルを基盤とするChatGPTアプリSDKのデモンストレーションを行い、開発者が独自のインタラクティブアプリケーションを構築し、数億人のユーザーに届けられる未来を提示した。

Developer State Of The Union

The developer experience is being rewritten with AI. The Developer State of the Union will explore how Codex, gpt-oss, a...

OpenAIの軌跡と開発者コミュニティへの感謝
プラットフォームの4つの重点領域
新しいモデルとオープンモデルの展開
コーディングツールCodexの進化
Codexの新機能のまとめ
エージェント構築のためのAPI進化
RAMPによるAgent Kit実演
Agent Kitの新機能
ChatGPT用アプリ構築
Apps SDKの今後の展開

OpenAIの軌跡と開発者コミュニティへの感謝

私はグレッグ・ブロックマンです。もう3回目のDev Dayだなんて信じられません。開発者の皆さんはOpenAIのミッションを前進させる上で鍵となる存在です。今日お話しする内容に入る前に、私たちがどのようにここまで来たのかについて少しお話ししたいと思います。

2015年、ナパで1日かけてオフサイトミーティングを開き、後にOpenAIの創設チームとなるメンバーが集まりました。そしてOpenAIが何をするのかという計画を立てたのです。非常にシンプルな計画で、順序は決まっていない3つのステップから成っていました。ステップ1は強化学習を解決すること。ステップ2は教師なし学習を解決すること。繰り返しますが順序は決まっていません。そしてステップ3は徐々に本当に複雑なことを学習していくことでした。私たちはスペルがあまり得意ではなかったので、徐々にという言葉のスペルを間違えてしまいました。でも幸いなことに、後でそれを修正してくれるAIを作ることができました。

それが私たちの最初の計画でした。問題は、これを実際にどう実践するかということでした。2016年、人々が私たちの最初のオフィスにやってきました。それはたまたま私のアパートでもありました。ここに写真がありますね。そして仕事に取りかかり、AGIを構築し、それを誰もが恩恵を受けられるものにするというミッションを実現するために、実際に何をすべきかを真剣に考え始めました。

うまくいかないことをたくさん試しましたが、初めてうまくいったのは2017年、複雑なビデオゲームDota 2での成功でした。私たちのDotaの結果を覚えている方はいますか?当時から私たちをフォローしていた方は?かなりの数の手が挙がっていますね。これは今でも私たちの多くが取り組んだ中で最も楽しいプロジェクトです。2万人の叫ぶファンがいるアリーナで、あなたのAIが世界最高の人間プレイヤーと対戦する様子を想像してみてください。

そのコミュニティの熱狂を見るのは本当に素晴らしいことでした。私たちは強化学習を使ってこの領域で素晴らしい成功を収めました。これは計画の最初のステップでしたね。これをスケールアップすれば素晴らしいことが起こると実際に確認できたのです。しかしそれは1つのステップに過ぎませんでした。次のステップは教師なし学習で、2017年に再び魔法のような出来事が起こりました。

2017年は非常に生産的な年でした。これは「教師なし感情ニューロン」という論文によるものでした。これは次のステップ予測プロセスを通じて意味論が現れるのを、非常に具体的で否定しがたい形で初めて目撃したときでした。この論文を覚えている方はいますか?手を挙げている方はかなり少ないですね。少なくとも当時はDotaほどクールではありませんでした。しかしこれは今日皆さんが目にしているものの多くに繋がっています。

この結果の背後にある考え方は、私たちがモデルを訓練したということです。これはトランスフォーマー以前のLSTMでした。Amazonのレビューで次の文字を予測するというものでした。ただの次のステップ予測です。そしてそれは最先端の感情分析分類器を学習しました。コンマがどこに来るかだけでなく、レビューが肯定的か否定的かを実際に判断できるようになったのです。これは見た目よりも難しいことです。なぜなら「この製品は素晴らしかったけれど、全く動作せず広告と違っていた」といったようなものがあり得るからです。

つまり、キーワードを探すだけでなく、本当に意味を理解する必要があるのです。しかし私たちはこれがデータから、次のステップ予測から現れるのを見たので、何をすべきかが分かりました。これをスケールアップしなければならないと。そして実際にそうして、2019年にはGPT-3ができました。このモデルは意味論を学習しただけでなく、有用だと感じられました。おそらくこれを使って製品を構築できるだろうと。しかしどのような製品を構築できるのか?

私たちは、医療分野で何か作るべきかもしれないと考えました。しかしそうすると、AGIの「G」、つまり汎用性を諦めることになると気づき始めました。なぜならそれは病院に対してエンタープライズセールスをしなければならないことを意味するからです。おそらくスタッフに医師を雇わなければならないでしょう。特定のアプリケーションに全力投球して、本当にトンネルビジョンになってしまうでしょう。では教育はどうか?しかしそこでも全く同じ問題があります。

そこで私たちは、この技術をAPIの背後に置いたらどうかと考えました。開発者に、この技術を実世界のアプリケーションにどう接続するかを見つけ出してもらうのです。正直なところ、このプロジェクトは失敗する運命にあるように感じました。おそらく私がこれまでに取り組んだ中で最も難しいプロジェクトでした。なぜならスタートアップを構築すべき方法とは正反対だからです。本来は解決したい問題があって、その背後にある技術は誰も気にしないはずです。問題を探している技術ではないのです。

しかしうまくいきました。驚くほどうまくいき、今でもうまくいっています。それがうまくいった理由は皆さんのおかげです。開発者のおかげです。この技術に情熱を持ち、それを世界に届け、有用にし、実世界のアプリケーションに接続する仕事をしてくれる人々のおかげです。ありがとうございます。本当にありがとうございます。この期間に起こったことを見るのは本当に素晴らしいことでした。

昨年、私たちはこれら2つの柱、教師なし学習と強化学習を1つのパッケージにまとめました。これはモデルo1、私たちの推論モデルによるものでした。これはすべて2015年の計画の一部です。そして今、私たちは徐々により複雑なことを学習し、実世界のアプリケーションに接続し、その好循環を持つことに取り組んでいます。

一番上に「グループサイズをスケールしすぎないように、永遠に120人未満でいる」と書いてあるのが見えますね。私たちは今それよりもかなり大きくなっています。その部分はうまくいきませんでしたが、残りはかなり新鮮でした。しかしミッションはまだ完了には程遠いです。

今日に早送りすると、私たちにはGPT-5があり、多くの皆さんがそれを使って素晴らしいアプリケーションを構築しています。Codexがあり、皆さんはそれと協力してソフトウェアを開発し、その上に素晴らしいアプリケーションを構築できます。そして今日発表したように、間もなく皆さんのアプリケーションをChatGPTで世界中の数億人のユーザーに届けられるようになります。私たちは皆さんとともにAIとソフトウェアエンジニアリングの未来を形作ることにとても興奮しています。そして私たちが構築している未来、開発者ツール、皆さんのために構築しているもの、そして一緒に構築しているものについてもっと共有するために、オリビアをステージにお迎えできることを嬉しく思います。

プラットフォームの4つの重点領域

ありがとうございます、グレッグ。皆さん、こんにちは。私はオリビア・ガンモアで、OpenAIのプラットフォームチームを率いています。今日は、私たちが取り組んでいる4つの重要なことについてお話ししたいと思います。1つ目は知的なモデルを構築していること。2つ目はコーディングを加速させていること。3つ目は皆さんがエージェントを構築するのを支援していること。そして最後に、ChatGPTでアプリケーションをスケールさせるのを支援していることです。

これらのいくつかについてはサムとの基調講演で触れましたが、今からさらに深く掘り下げていきます。まずはモデルから始めましょう。ほんの数か月前、私たちは最も有能で信頼性の高いモデル、GPT-5を出荷しました。私たちはGPT-5をエージェント的なタスク用に設計しました。

つまり、命令に従うことやツールの使用が本当に得意になるように作ったということです。また、コーディングインテリジェンスの限界も押し広げました。GPT-5は複雑で大規模なコードベースをリファクタリングできます。単一のプロンプトから趣味の良いフロントエンドUIを生成でき、一度に何時間も自律的に動作できます。そして私たちは、Augment CodeのようなスタートアップがGPT-5上で長時間実行されるエージェントを構築しているのを目にしています。では見てみましょう。

これはかなりシンプルな例ですが、ユーザーがエージェントにGitHubのイシューを見るように頼んでいます。そしてエージェントは基本的に多くのツールをコーディングしてコンテキストを見ていきます。イシューはここにボタンを追加することのようですね。本当に速く進みますが、とにかく趣旨は分かると思います。かなり印象的です。これは基本的な例ですが、私たちは何百、時には何千ものツールを呼び出し、何分も、時には何時間も実行されるエージェントが構築されているのを見ています。これがGPT-5が設計された作業の種類です。

しかし、数か月前のローンチ時に1つ明らかになったことがあります。GPT-5は他のどのモデルとも違うということです。GPT-4oやo1で機能したプロンプトはGPT-5には直接適用されません。そこで、多くの顧客と協力して得た、GPT-5から最大限の効果を引き出すための3つの原則、ルールをご紹介します。

1つ目は、プロンプトをシンプルに保つこと。GPT-5では短く明確な指示であるほど良いです。2つ目は評価すること。ちなみに、私たちはより効果的なプロンプトをGPT-5に提案するためのプロンプト最適化ツールを構築しました。そして最後に、体系的に反復すること。プロンプトやツール呼び出しの変数を一度に1つずつ編集してください。そして私たちは数週間前にこれらのステップを説明するドキュメントを公開しました。

そして今日、GPT-5 ProがAPIで利用可能になりました。これはChatGPTで利用可能なのと同じモデルで、GPT-5よりもさらにスマートです。より高価です。より長く考えます。ですから精度がすべてであるユースケースや瞬間のために取っておいてください。その知能の高さには驚くと思います。

また、今日発表した別のモデル、待望のSora 2もAPIで利用可能です。これで高品質のビデオをアプリケーションから直接生成できます。そしてOpenAIには、このローンチに本当に本当に興奮している人物が1人います。開発者、開発者。

今朝ここにいました。まさにあの通りのことが起こりました。実際、私たちはAPIで2つのSoraモデルを出荷しています。1つはSora 2です。2つ目はSora 2 Proです。Sora 2は高速な実験に理想的です。つまり、速く反復してプロンプトを洗練させるときに役立ちます。そして一貫して機能するプロンプトができたら、Sora 2 Proに切り替えます。Sora 2 Proは細部にさらに注意を払います。

簡単な例をお見せしたいと思います。Invideoは動画作成プラットフォームを構築しているスタートアップです。Soraを使えば、クリエイターはあらゆる種類の動画を作れます。たとえば、ここではニューヨーク市がアヒルに占拠されるという映画的なフィルムになります。

少しドラマチックですね。もう少し軽くしましょう。

このビデオをお見せしたかったのは主に、ビデオを再プロンプトする能力が雰囲気を完全に変えることができ、キャラクターの一貫性が全体を通して保たれているのを感じられるからです。とても素晴らしいです。

新しいモデルとオープンモデルの展開

Sora 2に加えて、AIに命を吹き込む2つの他のモデルも出荷しています。以前の世代のコストのほんの一部で、より小さな音声モデルとより小さな画像生成モデルを出荷します。まず、APIで全く新しいmini realtimeモデルを出荷します。これは音声から音声に使用されているモデルです。

この小型モデルは大型モデルよりも70%安価で、平均して同じ音声品質と表現力を持っています。これは大きな勝利です。2つ目に、APIで新しい画像生成モデルを出荷します。これはより小さなもので、実際には現在ChatGPTで使用しているのと同じモデルです。このモデルは元のImagenモデルと同様の品質ですが、価格を80%削減しています。

AIをより利用しやすくすることについて言えば、今年初めに私たちのオープンモデルであるGPT-4o miniをリリースしました。目標は非常にシンプルでした。AIへのアクセスを真に民主化することでした。これらのオープンモデルは、開発者がいる場所で、ローカルで、オフラインで、あるいはオンプレミスが必要な業界のために、柔軟に構築できるようにします。そしてコミュニティからの反応は素晴らしいものでした。

今朝の時点で、数か月でHugging Faceで2300万ダウンロードがありました。147か国の開発者から応募があるハッカソンを開催しました。しかし、本当に素晴らしいと思ったいくつかの例をお見せしたいと思います。

左側に見えるのはOpenSOCです。OpenSOCは基本的に、繰り返しのセキュリティタスクを自動化するセキュリティオペレーションセンターです。追加のデータ保護のためにGPU上でローカルに実行され、オンプレミスであるためセキュリティチームはデータを完全にコントロールでき、クラウドは必要ありません。

右側に見えるのは別のものです。これはLifeline Meshです。ネットワークが停止している自然災害時のためのローカルエージェントです。人々を繋ぎ続けるためのローカルメッシュとして機能します。たとえば言語を翻訳し、人々を緊急リソースに誘導します。GPT-4o miniがAIを人々のポケットに入れることができる良い例です。

コーディングツールCodexの進化

次に、コーディングについてお話ししたいと思います。過去数か月間、チームはCodexで本当に本当に素晴らしい仕事をしてきました。実際、彼らのことを知っているので、今私が話している間も彼らは素晴らしい仕事をしていると分かっています。そしてCodexは今、ターミナル、IDE、GitHub、そしてクラウド全体で動作します。

私たちは最近、Codexをさらに有能にしました。GPT-5 Codexという、エージェント的なコーディングにさらに最適化されたGPT-5のバージョンです。この新しいモデルは、特にリアルタイムで皆さんと協力し、それ自体で複雑な作業を引き受けるのが本当に得意です。さらに、私たちが適応的思考と呼ぶものを持っています。つまり、モデルはタスクの複雑さに応じて思考に費やす時間を動的に適応させることができます。

そして開発者たちはすでにCodexで信じられないようなものを構築しています。ここでの1つの例は、複雑なアルゴリズムを視覚化する素晴らしいツールです。2つ目は、JavaScriptのためのインタラクティブなノートブックのような新しいアプリです。そしてあれは音楽ですね。Codexがハウスミュージックのようなコードを書くのを手伝ってくれるなんて誰が知っていましたか?とにかく、私はこのCodexの雰囲気が大好きです。

私たちは皆さんがCodexをどのように活用しているかに圧倒されてきました。そして今日、Codexをチームにとってさらに便利にする新機能を出荷します。Slack統合があります。目標は、Slackのチーム会話の中で直接Codexにタスクを割り当てられるようにすることです。Codex SDKがあり、目標はカスタムワークフロー内で直接Codexをトリガーできるようにすることです。また、多くの新しいエンタープライズ機能、環境コントロール、モニタリング、分析ダッシュボードも発表しています。

しかし新機能を見てみましょう。そのためにロマをステージに戻ってお迎えください。ありがとう、オリビア。Codexがどれほど生産性を向上させ、チームを助けることができるかは本当に素晴らしいです。私たちははるかに速く、はるかに優れた製品を出荷しています。しかし今日ローンチする新機能のいくつかをもっと詳しく見てみましょう。

今朝早く、私はCodexを様々なサーフェス、CLI、コードエディタ、そしてCodex Cloudでさえお見せしました。しかし今、私のラップトップを見て、昨年のDev Dayから観客席にいた方々のために思い出を蘇らせましょう。私たちのお気に入りのデモアプリであるWanderlust、旅行アプリで作業していると想像してください。Slackに飛びましょう。

ここでご覧のように、スレッドが進行中です。もちろん、私がステージにいる間、Domが私にメッセージを送っています。しかしこの最初のスレッドを見てください。今のところ、私はアプリがモバイルでうまく動作しないと言及しています。そしてDominicもダークモードのサポートがなかったと追加しています。

そしてもちろん、今何ができるか?会話のコンテキストにCodexを追加して、ダークモードとモバイルサポートを追加してくださいとお願いするだけです。そうするとすぐにCodexがサムズアップして、完了したタスクを作成するのが見られます。Domに関しては、後でStripeを追加するようにCodexをタグ付けすると思います。

しかしCodexが作成したそのタスクを見てみましょう。ここで展開すると、Slackスレッドの完全なコンテキストを含むプロンプトが見られます。それに3分半取り組みました。さらに良いことに、Codexがここで何をしたかのスクリーンショットが見られます。素晴らしいのは、モデルがツールを使うとより良く動作することです。

この場合、モデルはクラウドでPlaywrightを使って実際に自分の作業をスクリーンショットできました。ここではダークモードサポートを追加し、アプリのモバイル対応性を1つのスクリーンショットにまとめてチェックしたことが分かります。そしてもちろん、この後、問題を修正するためにプルリクエストを作成することができます。

それでは、それを超えたものを見てみましょう。ビジョンとマルチモーダル能力について話すと、特にビジョン能力を見るとき、私のお気に入りの機能の1つは、私たちがbest of nと呼ぶものです。モデルがスケッチや送信した写真のビジョン能力を持つだけでなく、クラウドでもこれらの能力を使用する能力です。ここで別のスレッドに移ります。このタスクはCodex Cloudに送りました。

これを見てください。たとえば、私は携帯のChatGPTアプリからホワイトボードの写真を送りました。Wanderlustに追加される新しい画面、旅行ログのようなものです。ご覧のように、非常にローファイです。いくつかアイデアはありましたが、プロンプトでは3番目の画面を追加して楽しく興味深いものにできると言及しました。これらは単なるアイデアで、アプリがモバイルでレスポンシブであることを確認してくださいなどと書きました。

そして今興味深いのは、ここで思いついた美しいスクリーンショットが得られるだけでなく、選択できる複数のバージョンがあることです。ここでネットワークの問題があるようですが、ここにもスクリーンショットがあります。素晴らしいのは、これらのタスクのいずれからでも、それをVS Code IDEに持ち込めることです。

たとえば、これらのタスクの1つに取り組んでいると想像してください。これらの1つを開始点として使いたいでしょう。それをプルダウンして反復を開始します。そして美しいのは、エージェントとの魔法のようなペアリングがあり、タスクをローカルで仕上げるか、またはクラウドのCodexに戻して仕上げてもらうこともできることです。

これがマルチモダリティとCodex Cloudの組み合わせのようなものです。そしてもちろん、これらすべてをCLIまたは拡張機能のいずれかで使用できます。しかし今日お見せしたい1つのエキサイティングなことがあります。それはMCPサポートを追加する能力です。私たちは今、CLIとID拡張機能内でMCPツールをサポートしています。

たとえばここでターミナルに移ると、実際に/mcpコマンドを入力でき、2つの新しいツールを追加したことが分かります。Chrome Dev Tools MCPとFigma MCPがあります。特にFigma MCPは非常に興味深いです。これを見てください。たとえば、Figmaファイルを開きます。これらは私たちのデザイナーがWanderlustのために作った美しいデザインの一部です。昨年のDev Dayのためにすでにこれらのいくつかを実装していました。

しかしたとえば、ここにスクロールすると、ここに1つの画面、旅行プランナーがあり、実装する機会がありませんでした。そして今、Codexにタスクを任せることができるようです。今行わなければならない1つのことは、Figmaのデスクトップアプリでここで右側にMCPサーバーを持つ能力を有効にすることです。これらのコンポーネントの1つを選択できます。たとえば、このデートピッカーのようなものを選択して、VS Code拡張機能に戻ることができます。

ステージに上がる前に送ったこのプロンプトを見てください。Figmaで選択したノードからコードを取得します。新しいデートマーカーコンポーネントを作成します。チャットアシスタントを更新して、今日の日付で中央に配置して確認できるようにします。そうするとすぐに、最も興味深い部分はこれでした。自動的にCodexがMCPサーバーからそのコンポーネントのコードをプルしなければならないことを知っていました。後で作業を再確認できるようにスクリーンショットも取得しました。

そして最後に、コードを見ると、まずこの新しいコンポーネントのための新しいインポートがあり、そこに作成したばかりのデートマーカーがあります。ここでアプリに戻って更新すると、この新しいコンポーネントがすでに作られているのが分かります。考えてみると本当に魔法のようです。なぜなら今、レイアウトとコンポーネントを非常に非常に素早く実装できるからです。

これに取り組むためにFigmaチームとパートナーシップを組めたことは本当に素晴らしいことでした。しかしFigma以外にも、私たちは数十のMCPツールをサポートしています。特に私が気に入っているのは、Chrome Dev Toolsです。これは数週間前にローンチされたばかりです。たとえば、VS Codeに戻って、新しいスレッドを開始して、Chrome Dev Toolsを開いて、アプリに3つのパフォーマンス改善を提案してくださいと言うことができます。

このタスクを実行すると、すぐにCodexがChrome Dev Toolsが有効になっていることを知り、それを呼び出して何が起こっているかをチェックします。現在、管理されたブラウザを自動的に開き、独自の管理されたブラウザでアプリを開いています。

コンソール警告、ネットワークアクティビティ、ログをチェックできるようになります。この特定のケースではパフォーマンスメトリクスです。非常にエキサイティングなのは、何を実装できるかについての答えを持って戻ってきて、変更を行い、開発者や顧客のためにアプリをさらに高速にできることです。

素晴らしいのは、これが何を意味するかを考えると、Codexは以前からサーバーログにアクセスできましたが、ここで初めてデザインファイルやフロントエンドログにもアクセスできるようになったことです。そしてその過程で、Codexはagents.mdも参照できます。そのフォーマットでコーディング指示を置くことができ、作業が終わったようです。

完全な思考の連鎖を見ることができ、ここでたとえば私のカードアートについて3つの提案が出てきました。何ができるでしょうか?アプリバンドルが大きすぎるようです。MapKit統合について改善すべきことがいくつかあるかもしれません。そしてもちろん、再びCodexをタグ付けして、これらの変更を拾って実現させることができます。

これがCLIとID内でのMCPサポートです。しかし、私がお見せしたすべてはCodexが指先にある力です。しかし、それが指先にない場合はどうでしょうか?Codexがどのように本当に遍在し、個々のタスクを超えてワークフロー全体を改善できるかを見てみましょう。

ブラウザに戻ると、まず遍在するエージェントを持つためにローンチしたのはGitHubでのコードレビューです。GitHubでコードレビューを有効にすると、今後チームからのすべてのプルリクエストは自動的にCodexによってレビューされます。これは非常に大きなことです。ちなみに、これは単なるコードの静的解析ではありません。

実際にプロジェクト、依存関係を深く理解しています。実際にコマンドを実行して作業をチェックしています。私が追加したこの非常にシンプルなプルリクエストを見てください。報告すべき特別なことは何もありません。Codexはノイズを追加せず、すべて良好であることを示す小さなサムズアップ絵文字だけです。

しかしもっと興味深いのは、これを見るとCodexが私のプルリクエストで何かを見つけたことです。私は確実に何かを見逃していて、本番環境でバグを作成する可能性があります。ここでは、たとえば、ストリーミングのすべてのケースを処理していなかったようです。

実際、会話を続けてCodexをタグ付けし、これを修正してもらえますか?と尋ねることができます。実際に続けて、必要な変更を行うことができます。これは本当に便利で、本当に強力です。私たちは今OpenAIで、入ってくるすべてのプルリクエストをレビューするためにコードレビューを使用しています。

しかしもちろん、これはチームがレビューを行うことに取って代わるものではありませんが、本番環境で皆さんに届く前にバグを捕まえるのに本当に役立っています。しかし今、CLI、IDE、Codex Cloudがあり、この信じられないようなエージェントがあります。そして私たちは、アプリや製品や機能を構築している皆さん開発者全員にこのエージェントを提供したいと考えました。そのため今日、Codex SDKをローンチしています。

Codex SDKを使用すれば、まったく同じエージェントを皆さん全員が利用できるようになり、ワークフローや強力なコーディングエージェントが必要な場所ならどこにでも組み込めます。いくつかの例を挙げると、夜中にPagerDutyが鳴るとします。目を覚ますとCodexがすでに本番環境の問題をトラブルシューティングして修正を準備しています。

あるいは、機能を本番環境にロールアウトし終えて、削除したいデットコードや機能フラグがあるかもしれません。これはCodex SDKの素晴らしいユースケースです。あるいは、コードを出荷するたびにドキュメントを更新したいかもしれません。それも可能です。

ここで私が非常に興奮している1つの例をお見せしたいと思います。それはこのCodex SDKをワークフローだけでなくアプリにも持ち込む能力です。私の携帯を画面に映せたら、この例をお見せします。これは私がReact Nativeを使って取り組んでいる小さなプロジェクトです。ワークアウトを追跡する非常にシンプルなアプリで、このアプリを自己進化するようにしたらどうかと思い始めました。

私がここで話している間に、クイックスレッドを開始しましょう。ホーム画面を更新すると言います。ビューポートが少しずれているようです。ホーム画面を更新して新しいトレンドを追加します。これがうまくいくか見てみましょう。ここではアクセスが難しいようです。もう一度素早く実行してみます。開けるか見てみましょう。しばらく時間をあげます。

しかしアイデアは、アプリがCodex SDKを埋め込んで魔法のように自己進化し、自動的に再起動できるようになることです。これは製品内に住んでいるコーディングチームメイトを持っているようなもので、より多くのソフトウェアを構築できます。これがCodex SDKの背後にある本当の魔法です。

ホーム画面を2つの新しいトレンドで更新します。このタスクを送信します。Codexはバックグラウンドで実行され、実際にこれらすべてのことを引き受け、リポジトリを検査します。ここでご覧のように、構造化された出力をストリーミングしています。興味深いのは、計画、コードの記述、コマンドの実行など、すべてのステップでJSONオブジェクトが発火されることです。

このコンテキストが保持されるため、エージェントは考え、計画し、時間とともに改善し続けることができます。今ホーム画面に戻ると、まだ作業中ですが、現在行われているこのタスクに基づいて、数秒でいくつかのトレンドがポップアップするはずです。

現在、アプリ全体を再構築し、トレンドデータを検索しているのが分かります。もちろんこれは単なるデモアプリで、Codexを新しいタブとして配置しただけですが、これがユーザーのための新機能に組み込まれたコーディングエージェントを持つことについて、皆さんの心にいくつかのアイデアを呼び起こすことを願っています。

そしてこれがまだ動作している間に、Codex SDKをデプロイするもう1つの方法はGitHubアクションを使うことです。今日GitHubアクションをローンチしています。たとえばCI/CDパイプラインにCodexをデプロイしたい場合、数行のコードだけで、また英語で書かれたプロンプトだけで、持つ力は驚くべきものです。

チームが必要とするあらゆる種類のワークフローを自動化できるようになります。そしてできました。シンプルなプロンプトとアプリ内のCodex SDKに基づいて、このアプリでリアルタイムでアプリを更新する2つの新しいトレンドがあります。ありがとうございます。

Codexの新機能のまとめ

要約すると、まずCodexがチーム会話に直接貢献し、そこからタスクを拾える新しいSlack統合を見ました。Codexのマルチモーダル能力、クラウドだけでなくローカルでも、FigmaやChrome Dev ToolsのようなMCPツールでツールを呼び出す能力を見ました。GitHubでのコードレビューを見たので、Codexは本番環境に出荷する前に問題を拾うことができます。

そして最後に、Codex SDKの力です。CLIやIDで提供しているのと同じエージェントを、コーディングエージェントが必要な場所ならどこでも使えます。チームワークフロー、構築している製品機能など、開けるすべての可能性について考えてください。今、チームやユーザーのために難しい課題を解決する素晴らしいコーディングエージェントが自由に使えます。

Codexは本当にソフトウェアを構築する方法を変えています。これにより今が開発者にとって最高の時期になっています。本当にありがとうございました。それではオリビアにお返しします。ありがとうございます。

エージェント構築のためのAPI進化

それではエージェントの構築についてお話ししましょう。API原始型の簡単な歴史を一緒に見ていくのが楽しいかもしれないと思いました。とても興奮しています。Dev Dayでだけ、約1000人とAPI設計の歴史についてオタク話ができます。2分でやりましょう。

私たちは5年前にcompletionsから始めました。グレッグが素敵なスニペットを持っていたと思います。モデルにプロンプトを与えると、モデルがあなたの考えを完成させました。シンプルですが限定的でした。それから2年前、chat completionsを構築し、今日chat completionは事実上の業界標準です。

しかし2023年以来、多くのことが変わりました。今日のモデルはマルチモーダルです。多くのツールを呼び出し、もちろん推論するために思考の連鎖を使用します。そのため私たちはResponses APIを構築しました。Responses APIは今日、エージェントを構築するための旗艦APIです。そして何十万もの開発者が今、毎日Responsesを使用しています。

Responses APIがエージェントを構築するための最良の原始型である理由は3つあると思います。1つ目は、APIに組み込みツール、ウェブ検索、ファイル検索、MCPがあることです。2つ目は、モデルが1つのリクエストで複数のツールを呼び出せることです。3つ目は、ターン間で推論トークンを保持することです。

そして私たちが見たのは、この設計がマルチターンリクエストでもより速く、よりコスト効率的になることです。平均して、Responses APIはchat completionsより20%速いことが分かります。これは長いリクエストにとってはかなり大きなことです。そして開始するのにわずか4行のコードしかかかりません。かなり素晴らしいです。

しかしもちろん、エージェントを構築するには素晴らしいAPI以上のものが必要です。良いエージェントを構築するのはかなり難しいということに誰もが同意できると思います。複雑なワークフローをゼロからオーケストレーションしなければなりません。適切なプロンプトを見つけなければなりません。カスタムUIをデプロイし、データソースをプラグインし、評価を設定しなければなりません。

非常に多くの作業です。だから私は今日のAgent Kitの発表が本当に大好きです。エージェントプリミティブをカスタマイズ可能なビルディングブロックに変えます。そしてこれらすべては、同じ強力な機能を持つResponses APIの上に構築されています。

Agent Kitに命を吹き込むために、RAMPのエンジニアリングディレクターであるViralをステージにお迎えできることを嬉しく思います。彼はRAMPがAgent Kitを使って調達エージェントを構築する方法を見せてくれます。

RAMPによるAgent Kit実演

皆さんこんにちは、私はViralです。RAMPのエンジニアリングチームで働いています。これが初めて私たちのことを聞く方のために言うと、RAMPは企業の時間とお金を節約するために設計された財務オペレーションプラットフォームです。観客から簡単なパルスチェックから始めたいと思います。職場で何かソフトウェアを購入しなければならなかったことがある方は手を挙げてください。

たくさんの手が挙がっています。では、このプロセスをスムーズまたは楽しいと表現する方は手を挙げたままにしてください。観客から何人かブーイングが聞こえます。ええ、かなりひどいです。ソフトウェアを購入するのは本当に複雑です。

どこに行けばいいか分からず、経費ポリシーが何か分からず、なぜ法務やITと話しているのか分からず、何らかの理由で他の5つのチームも関与しているかもしれません。従業員としては、欲しいものを買って仕事に戻りたいだけです。RAMPでは、ソフトウェアを購入する全く新しい方法、数週間ではなく数分でできる方法について考えようとしていました。

エージェントがソフトウェアの購入方法を自動化できたらどうだろうかと自問しました。OpenAIのAgent Kitで構築したものを共有できることを嬉しく思います。次の数分間で、どのようにこれを行ったかを説明します。

ここに視覚的に構成したバイヤーエージェントがあります。これらのノードのいくつかをクリックすると、調達リクエストを支援するアシスタントであることを示す初期プロンプトが見られます。ここに条件もあります。ベンダーについて尋ねているのか、購入情報について尋ねているのか、意図を自動的に解析します。そして右側の特定のエージェントにルーティングさせます。

これを詳しく見てみましょう。これにはウェブ検索のような組み込みツールがあります。ベンダーについての追加情報を検索したいとき、これは本当に便利です。ベンダーの価格ページに行ったり、セキュリティドキュメントを調べたり、トラストセンターの情報を入手したりできます。すべて組み込まれているので、本当に便利です。

このエージェントを素早くプレビューすることもできます。たとえば、これをライブで反復しているとしましょう。私のチームはChatGPTをたくさん使っています。なぜChatGPT Businessシートをさらに5つリクエストしないのでしょうか。

それを実行すると、エージェントがリクエストの処理を開始し、条件を通過して、今は追加のソフトウェアの詳細を取得しています。エージェントが購入サマリーについて推論し始めるのが見られます。これは以前は手動で行わなければならなかったので、エージェントに行ってすべての情報を調べてもらう方が確実に良いです。

まだ推論しています。今フォーマットしています。よし、最終的に出力が得られました。正確に見えます。OpenAI Chat Business、開始日は今月、終了日は今から1年後、ボリューム5シートです。しかし皆さんどうでしょう、私なら、これがどんなアプリでも表示されたら、確実にこれをクリックしないでしょう。

ですから、これをもっと良くして、ユーザーにとってもっと信頼できるものにしたいと思うかもしれません。OpenAIのAgent Kitウィジェットビルダーでこれを更新するのに実際に時間を費やします。昼食時にこれに取り組んでいて、これが私たちが持っているサマリーのようなものです。確実にずっと良く見えます。

ベンダーではなく「何のために」と言うように、ここで少し調整してみましょう。そうすれば本当に明確になります。右側でライブで更新されるのが見られます。デザインチームと協力して適切なUXを反復したいときに、これが本当に便利だと個人的に感じています。

ウィジェットビルダーに入って、何かを本当に素早く更新できます。そして最も魔法のようなことは、ここでダウンロードをクリックできることです。ダウンロードファイルに移動して、エージェントビルダーに戻り、プレビューを閉じて、このノードをクリックします。以前はJSONが更新または送信されているのが見えました。これをウィジェットに変更して、今エクスポートしたウィジェットを追加します。

ええ、以前持っていたものとまったく同じに見えます。ウィジェットをより信頼できる、より良く見えるように設計したので、デプロイしてみましょう。実際にここでコードボタンをクリックして、このワークフローIDをコピーしてバックエンドコードに入れることができます。

バックエンドのセットアップがない場合は、ここでAgents SDKタブをクリックして、生成されたTypeScriptまたはPythonをコピーできます。これは新しいプロトタイプに取り組んでいるときに本当に便利で、ここにすべての足場が含まれているのは本当に簡単です。かなり広範囲であることが分かります。

すでにローカル開発環境でこれをセットアップしていて、ワークフローIDをコピーしました。それではRAMPダッシュボードに飛び込みましょう。これがRAMPダッシュボードです。これはユーザーがRAMPに入るときに見るものです。ここでこのAIアシスタントタブをクリックすると、右側のこの体験は完全にChatkitによって動いています。

カスタムテーマでRAMPのブランドカラーに合わせることさえできました。先ほどと同じプロンプトを追加しましょう。ChatGPT Businessシートがさらに5つ必要です。ここにドラッグインできる請求書もあります。エージェントが推論を始めるのが見られます。ビジネスベンダーを取得し、ChatGPT Businessをウェブで検索しています。このリクエストを経費ポリシーに照らしてチェックしています。

皆さんどうか分かりませんが、私は会社の経費ポリシーがどこにあるかさえ知りません。承認されて良かったです。そして私たちが取り組んでいるカードができました。そして送信できます。素晴らしい。以前よりもはるかに苦痛が少なかったです。

この特定のトレースはうまくいき、成功でした。しかしこれを本番環境にデプロイしたら、このエージェントがどのように機能しているかを監視したいでしょう。実際にここでこのログタブをクリックするだけで本当に簡単にできます。

1つずつ見ることができますが、RAMPのスケールでこれが何千もあった場合、毎日それを見る時間はありません。実際に、エージェントが指示に従っているかどうかを評価できる採点者を作成できます。RAMPの製品コピーガイドラインをすでに貼り付けました。

エージェントが簡潔であることを確認したいですし、エラーが発生した場合は、単に「エラー、何かが間違っていました」と言うだけでなく、明確に説明されることを確認したいです。これは皆さんも以前いくつかのエージェントで気づいたことがあると確信しています。実行をクリックすると、トレースの採点が始まります。

私たちのチームにとって最も便利なことの1つは、私たちが気にしていることに集中することです。それはプロンプトとコンテキストエンジニアリングの部分です。複雑なTLパイプラインを管理したり、データが適切な場所にあることを確認したり、すべての環境が適切にセットアップされていることを確認したりすることではありません。これは合格したようです。素晴らしい。私たちの仕事はここで完了したようです。完全なエージェントがあります。

簡単に要約すると、バイヤーエージェントワークフローを作成するためにエージェントビルダーを使用し、Chatkitにデプロイし、トレース採点で最適化しました。結果として、以前は数日または数週間かかっていた調達が、今では数分以内にでき、チームは調達リクエストの管理ではなく、実際に気にしていることにはるかに多くの時間を費やせるようになりました。

RAMPでのミッションは企業の時間とお金を節約することです。Agent Kitが提供するすべての機会がそれを加速させることに興奮しています。本当にありがとうございました。

Agent Kitの新機能

素晴らしかったです。本当にありがとう、Viral。このトピックから進む前に、Agent Kitでできる4つの新しいことを思い出していただきたいと思います。まず、ワークフローをゼロから始める必要はありません。エージェントビルダーで、すぐに使えるテンプレートを提供しています。

ここにシンプルな例があります。これはカスタマーサポートエージェントを構築するのを支援するテンプレートです。ロジックとガードレールが完備されているので、開始するのにかなり良いです。2つ目は、Chatkitが会話に命を吹き込むための視覚的なウィジェットをサポートしていることです。チャート表示、メール送信、チャット内での購入を行うウィジェットを作成できます。

そしてそれらすべてがブランドのルック&フィールに合います。3つ目は、評価製品でプロンプトを自動的に改善できるようになりました。評価製品に大規模な更新を行いました。完了した評価実行を取り、ツールに新しいプロンプトを提案させ、その後評価を再度実行して違いを測定します。

多くの顧客が評価製品から実際の大きな価値を得ています。たとえばCarlyleを例に取りましょう。Carlyleは、ご存じない方のために言うと、グローバル投資会社です。デューデリジェンスエージェントの精度を評価で30%向上させました。もう1つの大好きな例はRipplingです。HR

ソフトウェア会社で、セールスエージェントを構築しており、評価で開発時間を40%削減しました。ですから、評価を甘く見てはいけません。

そして4つ目にできることは、エージェント専用の強化学習ファインチューニングRFTです。今日、RFTをツール呼び出しに拡張しているので、モデルが適切なタイミングで適切なツールを呼び出すことができます。これはもちろんエージェントにとって重要です。また、カスタム採点者も出荷しているので、最も重要なことでパフォーマンスを測定できます。

多くのトップスタートアップが実際の価値を見出しており、1つの例はAmbienceです。Ambienceは医療スタートアップで、RFTでインターンレベルが15%改善しました。2つ目の例はCognition、DevIの開発元で、GPT-5がRFTにより推論トークンが少なくて済むため、難しいコーディング問題を50%速く解決できることを発見しました。

ChatGPT用アプリ構築

最後に、ChatGPT用のアプリを構築する方法について詳しく見ていきましょう。サムが先ほど述べたように、Apps SDKは今日からプレビューで利用可能です。ChatGPT内で完全にインタラクティブなアプリケーションの構築とテストを開始でき、ユーザーはアプリとチャットできるようになります。自然言語にも応答できます。

これはMCPの上に構築されており、MCPはアプリサーバー、モデル、UIを同期するバックボーンです。すべてがうまく連携します。Node、Python、またはMCPでサポートされている他の言語でバックエンドを自由に実行できます。Reactや他のフレームワークを通じてフロントエンドに独自のコードを持ち込むこともできます。

そして重要だったのは、ユーザーのためのチャット体験全体を完全にコントロールできることです。これについてはすでに多くのことを聞いているので、開発者体験を見るのが楽しいと思いました。それでは、Katyaをステージにお迎えしましょう。

皆さんこんにちは。私はKatyaで、開発者体験チームにいます。では、既存のMCPサーバーからChatGPTでカスタムアプリを表示する方法を見てみましょう。これを閉じて、ラップトップを開きましょう。

この会場の照明に接続するMCPサーバーがあると聞きました。そうですね。今朝の基調講演で、Romanは音声を通じてこの部屋の照明を変更するために、MCPツールとリアルタイムAPIをどのように使用できるかを示しました。それでは今、本当にクールで新しいこと、ChatGPTからこれらの照明をコントロールすることをお見せしましょう。

あらゆるシステムをコントロールし、ChatGPTインターフェイスから直接あらゆるツールにアクセスできることを想像してください。それでは、どうやってこれができるかをお見せしましょう。ここで、このMCPサーバーをChatGPTへのコネクターとして追加しています。サーバーはローカルで実行されていますが、Ngrokを使用してインターネットに公開しているので、ChatGPTがそれを見ることができます。

ローカル開発に非常に便利で、これは開発者モードを有効にしているときに利用できます。ChatGPTとの統合をテストする素晴らしい方法です。ここにツールに接続されたMCPサーバーがあり、これらのツールがあります。たとえば、照明システムで利用可能なトラック、照明キューをリストするツールがあります。実際にトラックを再生するツールもあります。

そしてOliviaが述べたように、Apps SDKはMCPプロトコルを拡張して、ソースとともにUIコンポーネントやウィジェットを返すことができます。それでは今、コネクターをアプリに追加したので、実際にここで新しい会話を開始して有効にします。どの照明トラックが利用可能か尋ねます。

ChatGPTは私のMCPサーバーからツールを取得しており、私が尋ねた1つのことに対応するものを見つけます。トラックのリストです。そして私のMCPサーバーはツールとともにウィジェットデータを返すので、ChatGPTはインターフェイスに直接UIをレンダリングできます。完璧です。では実際に試してこれがうまくいくか見てみたいと思います。トラックを再生してみましょう。

うまくいきました。しかしそれだけではありません。会話の中で、この動く色のようなトラックを再生したいと言うこともできます。やってみましょう。動く色のトラックを再生します。そうすると再び、ChatGPTは今度は再生トラックツールで私のMCPサーバーを呼び出します。何をしているか見てみましょう。

ツールを呼び出しています。アプリから会話へ本当にシームレスに移行できます。しかしApps SDKで得られるもう1つのクールなことは、ウィジェット状態の概念です。具体的な例を見てみましょう。ここに同じ照明システムに接続する照明トラックで新しいシーケンスを作曲できるステップシーケンサーコンポーネントがあります。

これは単なるReactコンポーネントです。ですから、慣れている方法で完全に自由にこれを構築できます。良いニュースは、もしあなたがウェブ開発者なら、技術的にはすでにApps SDK開発者だということです。学ぶべき新しい言語や新しいフレームワークはありません。

また、MCPサーバーにcreate sequenceというツールもあります。これは異なるトラックシーケンスの状態を表すパラメータを取り、ここでUIコンポーネントも渡しています。MCPプロトコルを一連のメタフィールドで拡張しました。これには、アプリに関するすべての情報と、ツールを静的アセットに接続する方法が含まれています。

これはOpenAI固有のものではありません。アイデアは、すべてのMCP開発者がこの新しい標準を採用して、ChatGPTのような互換性のあるクライアントがMCPツール呼び出しとともにUIコンポーネントをレンダリングできるようにすることです。では、会話に戻りましょう。実際には新しいものを作成します。新しいシーケンスを作成したいと言います。アップビートにするのを手伝ってください。サプライズしてください。

そして全体的な雰囲気を持たせたかったので、サウンドトラックを追加する機能も追加しました。モデルは今、私たちのツールを呼び出し、そのコンポーネントの適切な初期状態が何であるべきかを考えています。シーケンスに初期状態があり、私が尋ねたことでうまく機能します。アップビートな状況を求めたので、何を思いつくか見てみましょう。

これには数秒かかります。これが思いついたビートです。実際にこれを再生してみましょう。聞いてみましょう。

いいですね。いいですよ。もう少し良くできると思います。実際にこれをフルスクリーンで開いて、いじってみます。ここでこのクラップトラックを追加して、もう少しビートを追加します。オーディオをプレビューします。目をくらませたくありません。

クールに聞こえます。クールに聞こえますが、まだ何か足りない気がします。ここでシーケンスの状態を保存します。そして、さらにアップビートにするためにタムトラックを追加してくださいと言います。ここで思考を削除して速くします。タムトラックを追加してください。アップビート。行きましょう。ライトでも見られます。

待って、時間がかかっているのでこれを更新します。タムがここにあります。完全な結果を見たいなら、聞いてみましょう。

このトラック、本当にクールだと思います。これは双方向通信チャネルで、実際に会話の一部である視覚的にリッチな体験を本当に構築できます。これはChatGPTユーザーのために構築できることを示す1つの例にすぎませんでした。

しかしApps SDKはMCPに基づいており、会話とデータを同期させておくためのシンプルなAPIを持つあらゆるウェブコンポーネントをサポートしているので、技術的には可能性は無限です。他のいくつかの例を見てみましょう。

ChatGPT内でアプリを使用することについて本当に興味深いと思うのは、それがあなたのことを知っているということです。あなたが好きなことや通常アプリで何をするかについてのコンテキストを持っています。これらのアプリを呼び出して、その追加のコンテキストを持ち込むことができます。

町で最高のピザ屋について尋ねて、カスタマイズされた結果を得ることができます。潜在的なユーザーに、必要なときに推奨事項を表示できます。たとえば、私がクラシックなマルゲリータが大好きだということを知っているので、私の状況に合わせた提案をしてくれます。

また、ユーザーが見たいものにアプリを適応させることもできます。たとえば、どれが最も近いか尋ねることができます。カルーセル付きの素敵なマップが得られます。再びクラシックなマルゲリータです。ChatGPTがどのように学習を手助けできるかを考えると、学習のためのこれらの視覚的な没入型体験を持つことができます。

たとえば、地球について尋ねることができます。地球と太陽系について教えてください。これは昨年のDev Dayでリアルタイムセッションを見た方には思い出を呼び起こすかもしれません。ここに来ました。地球に焦点を当てています。待ちましょう。

フルページで開きます。素晴らしいです。ChatGPT内で直接視覚的に学習する全く新しい方法があります。繰り返しますが、可能性は無限です。ここでは空が限界です。本当に、ありがとうございました。

Apps SDKの今後の展開

さて、ChatGPTでアプリを使ってできることのいくつかの例を見てきました。照明をコントロールし、音楽を作成し、パーソナライズされた推奨事項を取得し、美しいビジュアルで学習できます。これらが皆さんにいくつかのアイデアを与えたことを願っていますが、もっとたくさん思いつけると確信しています。今日から構築を始められます。

そして今年後半、アプリの提出を開始できるようになると、何億人ものChatGPTユーザーにアプリを届けられるようになります。ありがとうございます。それではOliviaにお返しします。

ありがとうKatya。Katyaが述べたように、私たちはこのビジョンの最初の段階にいるだけです。目標は、これを早期に皆さんの手に渡し、フィードバックを聞いて反復できるようにすることです。今年後半には、レビューと公開のためにアプリケーションを提出できるようになります。

また、ユーザーが新しいアプリケーションを発見するためにブラウズできるディレクトリをリリースする予定です。収益化についても間もなく共有する予定です。これは始まりに過ぎません。私たちが構築するものの多くは開発者の影響を受けています。素晴らしい1日でした。

ここにいてくださって、そして皆さんが構築しているすべてのものに本当にありがとうございました。