OpenAIの最高製品責任者が語る次なる展開:ハードウェア、GPT-5、ジョニー・アイブ、エージェント、その他

AGI・ASI
この記事は約38分で読めます。

この動画は、OpenAIの最高製品責任者であるKevin Weilへのインタビューである。ChatGPTの進化、AI製品開発の新しいアプローチ、エージェント機能の実装、ハードウェア開発への参入、そして汎用人工知能(AGI)への道筋について詳細に語られている。特に注目すべきは、OpenAIが単純な質問応答システムから、実世界でタスクを実行するエージェントシステムへの移行を進めていることである。また、ジョニー・アイブの参画によるハードウェア製品開発や、コーディング分野での急速な進歩についても言及されている。

ChatGPTの進化:質問応答からタスク実行へ

私たちは現在、ChatGPTが質問に答えるものから、実際に現実世界であなたのためにタスクを実行する製品への移行期にあります。あなたがそれが取る行動をコントロールできるべきです。それを実現する最良の方法は、一緒に共進化することです

サムは世代間の違いについて少し話していますが、20代前半の方がChatGPTを使う場合と、もっと若い世代では、それが人生を運営する方法の核心部分となっているのです。常時オン的な性質があるのです。あなたのポケットの中に、あらゆる質問に答えるだけでなく、学びたいことは何でも教えてくれるスーパーアシスタントがいることに気づくのです。

モデルの能力がどれくらい先まで提供されているでしょうか。今日取り組まれているもので、2026年半ばまでモデルに組み込まれない可能性があるものはありますか。予測不可能です。時には予想より時間がかかることもあります。また時には、全く予期していなかった能力が現れて、突然何かが機能するようになることもあります。これは製品構築の全く異なる方法です。コンピューターは2ヶ月前にはできなかったことができるようになり、私たちは常にその状態にあります。

OpenAI最高製品責任者との対話

今日は、OpenAIの最高製品責任者であるKevin Weilをお迎えできて非常に興奮しています。TwitterやFacebookなどの企業でのキャリアを積んだ後にいらっしゃいました。お話しすることがたくさんあります。

まず、Kevinさん、お時間をいただきありがとうございます。今日はもうお忙しかったですね。サンフランシスコの朝で、すでにいくつかのものをローンチされていますね。

はい、その通りです。お招きいただき、ありがとうございます。初めてのライブSubstackなので、楽しみです。

新製品ローンチが示すChatGPTのビジョン

生放送の1時間前に、OpenAIからまた一連の製品ローンチがありました。これらは、ChatGPTに対するあなたのビジョンと製品の方向性について何を教えてくれるでしょうか。

今朝ローンチした最大のものは、6つの異なるものをローンチしましたが、AIの長期的な未来にとって最も重要だと思うのは、個人データや企業データに接続できる一連のコネクターをローンチしたことです。

これは、Google Docs、Gmail、Calendar、SharePoint、OneDrive、Dropbox、Box、Linear、その他日常的に使用するツールへのコネクターです。推論モデルの台頭により、それらを使用するサービスやデータに接続することで、モデルがはるかに有用になります

単に知識を持っているだけでなく、例えば職場で、Google DocsやSharePointに接続すれば、日常的に使用するドキュメントに接続できます。突然、ChatGPTは企業やプロジェクトの状況、進行中の特定の事項について、すべてのコンテキストを得ることができます。

会社の従業員にドキュメントへのアクセスを与えないということはないでしょう。会話や戦略などが起こっている場所なのですから。今、ChatGPTにそれを行う能力があります。今日は読み取り専用ですが、今後ChatGPTが行動を取れるようになることは想像できます。ドキュメントを書いたり、プレゼンテーションを作成したり、タスク管理システムにタスクを書いたりして、最終的にこれらすべてを組み合わせて、本当に従業員のように働き始めることができるはずです。

最重要企業の最高製品責任者として

今日、世界で最も重要な企業だと思う会社の最高製品責任者として、日々、週々、どのように感じていますか。

それは特権です。これまで働いた中で最もエキサイティングな場所です。キャリアの中で、素晴らしい同僚と一緒に多くの素晴らしい場所で働く幸運に恵まれてきましたが、私たちの前にある機会、AIが私たちの生活を変えるスピードは、本当に大きなインパクトを与える能力があることを意味し、私たちはそれを非常に真剣に受け止めています。

素晴らしい同僚と働き、モデルがどのように進化し、これがすべて私たちの生活にどう影響するかを最前列で見ることができ、うまくいけば、あなたの生活やここで聞いている皆さんの生活に違いをもたらす製品を構築できることを願っています。

テクノロジーが私たちの日常生活を変える方法

2022年11月以来、約10億人の人々がChatGPTを使用することに票を投じました。テクノロジーは常に私たちを変えます。テレビはTV dinnerと水冷器での議論をもたらしました。インターネットも明らかに私たちを変えました。車も同様で、大型小売店、郊外、白いピケットフェンス、デスパレートな主婦をもたらしました。AI製品は私たちの日常生活をどのように再形成するでしょうか。

テクノロジーの波があると得られる興味深いことの一つは、前の波でやっていたことを新しいメディアで始めるということです。最初のテレビ広告は、人々がステージに立ってラジオ広告を読むものでした。その後、人々は今日のコマーシャルのような、よりインタラクティブでダイナミックなものができることを徐々に理解していきました。

私たちはまだ、人々がAIが自分の生活や仕事に与える影響を見るとき、そのモードにいるのかもしれません。「よし、これらのプロセスがある。どうやってAIを上から振りかけて、より良く、より速くなどにできるか」と考えているような感じです。それも良いことです。

以前のテクノロジー移行と同様に、力は新しいテクノロジーを使って第一原理から行っている作業を完全に再考することから来ます。モバイルは単にポケットの中のコンピューターではありませんでした。GPSへのアクセスがあり、通知があり、テクノロジーと相互作用する全く新しい方法がありました。

来年にかけて、私たちは皆、AIで物事を行う方法を再発明するプロセスにいると思います。楽しい部分は、テクノロジーが非常に速く動いていることです。これまでのキャリアで扱ったどのテクノロジーよりも速いです。再発明している間にも、テクノロジーは新しい能力を獲得しており、生きているのがエキサイティングな時代です。

驚くべきユーザー行動と世代間の違い

その変化の速度はかなりのものです。今日、4ヶ月前には不可能だったことを探していました。o3を使って、旅行時に良質な信号が必要な場合の小型ポータブル5G ルーターを見つけるのを手伝ってもらいました。o3は無線周波数チップセットの技術仕様すべてに踏み込んで、「この古いルーターには若干良いQualcommチップセットがあり、もう使われていませんが、アメリカの地方環境では1つ余分な信号を得られますが、ヨーロッパでは得られません」と言いました。これは少し狂気じみていると思いながら座っていました。

でも、そのような行動について本当に興味があります。ChatGPTユーザーから見た驚くべき行動は何ですか。サムは世代間の違いについて少し話していますが、製品チームが研究したり優先順位を見つけたりするのが本当に難しいことについて、学んだことの味わいを教えてください。

サムが話した方法だと思います。今日の人々の多くは、既存のワークフローにAIを振りかけているような感じで、若い人々にとってはネイティブな方法で、AIなしで育った私たちにとってはネイティブではない方法です。

私の子供たちは、もちろん、自分自身をカスタマイズし、あらゆる質問に答えることができる超強力なAIと話すことができると思っています。最近大学を卒業するエンジニアのような子供たちは、cursorやwind surfのようなAIエディターを使ってコードを書く以外の方法を知りません。彼らにとっては完全に自然で、ある意味で彼らにスーパーパワーを与えています

それが、私たちが最年少ユーザーや若いユーザー、10代後半や大学生などが製品をどのように使用しているかを多く見る理由の一つです。それが私たちに多くのことを教えてくれるからです。

若い世代のAI利用の特徴

では、その違いを特徴づけることができますか。20代前半でChatGPTを使用している場合、30代半ばや40代前半の人と比べてどのように感じが違うのでしょうか。

常時オン的な性質があります。あなたのポケットの中に、あらゆる質問に答えるだけでなく、学びたいことは何でも教えてくれるスーパーアシスタントがいることに気づくのです。

そのような方法で人生を歩むとき、私たちの他の人々は通り抜けるプロセスを覚えようとし、それらをどのように再考できるかを考えようとしています。若い人は、そのようなプロセスを持っていなかった可能性があります。そのため、AIと一緒に基礎から構築しました。そのため、それは彼らが人生を運営する方法の核心部分です。ある意味では、彼らが先を行っており、私たちの他の人々が追いついているのです。

テクノロジーへの恐怖に対処する

多くの人々がこのテクノロジーを恐れています。ブリュッセルから戻ったばかりで、異なる分野の人々と話しましたが、恐怖の感覚を得ることがあります。それに対処するために製品で何が変わりうるでしょうか。

本当に重要だと思うことの一つは、人々が「AIについて何をすべきか。どう考えるべきか」と尋ねることです。私の答えは常に、ただ使ってみることです。もちろん、誰もがChatGPTを試すべきだと思いますが、私たちのものでも他のものでも、使い始めてください。それが、読んだことのある超怖いものではないと気づく一番の方法だからです。

それはただ、より多くのことを成し遂げる手助けをしてくれます。「ああ、これは素晴らしい。今、人生の一部になり、物事を成し遂げ、退屈な仕事を自動化してくれる素晴らしい新しいもの持っている」となります。だから一番のことは、ただ使い始めることです

また、テクノロジーが改善される速度を考えると、今使い始めなければ、それに追いつくのがさらに難しくなるでしょう。AIが私たちの生活の大きな部分になると信じるなら、それは逃したくない列車です。

ユーザーコントロールとエージェントへの移行

だから、一番のことは使い始めることです。でも、私たちはエージェントやその他のことに向かうにつれて、ユーザーがコントロールできることを確実にすることを多く考えています

ChatGPTや他のAIを使用するときに、あなたに代わって多くのことを勝手に行って、あなたがコントロールを感じられないようなことは望ましくありません。質問に答えたり、いくつかのドキュメントを読んで要約したりするようなことなら一つのことですが、ChatGPTが質問に答えるものから、実際に現実世界であなたのためにタスクを実行する製品への移行期にあるので、あなたはそれが取るあらゆる行動をコントロールできるべきです。

時間が経ってモデルが良くなり、より信頼するようになれば、もちろん、より多くの手綱を与え、より多くの行動を自律的に取ることを信頼できるようになりますが、あなたはそのすべてのステップをコントロールすべきです。それが私たちが信頼を築くための最も重要な方法の一つだと思います。

個人的な体験:医療文書の理解

あなた自身の体験について興味があります。私たちの多くは、LLMを使用するときに「おっと」という瞬間がありますよね。崇高なことが起こったり、2年間の作業が5秒で返ってきたりします。あなた自身の製品を使用した最近の「おっと」瞬間は何でしたか。

これは少し実用的ですが、私にとって本当に意味のあることでした。私たちの息子の一人が軽微な手術を受け、すべての確率では大したことではないが、悪いことである小さな可能性があるというものでした。

手術を行い、それを取って生検に出し、結果を待っていました。親として、論理的には何かある確率は本当に小さいと分かっていても、神経質になります。

ある時点で、郵便でかなり威圧的に見える医師の文書が届きました。理解できない多くの言葉があり、それが何であるかを特徴づけていました。これについて心配すべきか、心配すべきでないかは書いていませんでした。ただ特徴づけて終わっていました。

医師に連絡が取れませんでした。手術中か何かでした。「何を意味するのか」と思って、その写真を撮り、ChatGPTに入れて、「心配すべきですか?5歳の子供に説明するように説明してもらえますか?」と言いました。

ChatGPTがそれを行い、「いいえ、これは全く問題ありません。心配することは何もありません」と言いました。実際、医師が非常に忙しくて72時間連絡が取れなくなりました。ChatGPTがなかったら、親として座ってくよくよ考えていた場合、その72時間は恐ろしい72時間だったでしょう。

ChatGPTが答えることができました。これは、素晴らしい医療アクセスがある私たちのようなケースです。同じアクセスがない世界中の人々への影響を考えると、本当に強力で、ChatGPTの過小評価されている部分だと思います。

モデル命名の哲学

それは素晴らしい話で、息子さんが健康で良い結果になったことを嬉しく思いますが、この特定の製品の力についても語っています。本当に複雑な製品で、ChatGPTの左上の面白いドロップダウンについて尋ねずにあなたと話すことはできません。そこには何かがあるはずです。皆さん非常に優秀なので、「次はどう注文すべきか。何と呼ぶべきか」についての内部的な冗談があるはずです。実際に何が起こっているのでしょうか。o3と、急いでいる場合は4oをすべて使うべきではないでしょうか。

全く公正な質問です。そして、私たちの命名についても笑っていただいて構いません。反復的デプロイメントの哲学に戻ります。これらのモデルは、AIがすべてを変えると思います。世界を変え、社会を変えるでしょう。それを行う最良の方法は、一緒に共進化することだと私たちは信じています。

これらのモデルを世に出し、人々の手に渡し、理解を助け、また彼らがモデルの能力や弱点などを発見するのを助けます。そのため、私たちは一緒に学び、非常に迅速に反復し、改善することができます。それが一部です。

もう一つの部分は、私たちが進むにつれて多くの新しい能力を構築していることです。一つのモデルだけがあって、すべてを一つのモデルに構築する時間を取ったとすれば、間違いなくはるかに遅く動くことになるでしょう。

確実により単純になりますが、はるかに遅く動くことになります。なぜなら、時には特定の一連の能力を持つ新しいモデルを構築する方が簡単な場合があるからです。特定のことは得意だが、他のことはそれほど得意ではないモデルです。そうすれば、一緒に多くのことができるモデルのコレクションを持つことになります。個々のモデルにはそれぞれ長所と短所があります。

基本的に、私たちはより速く進み、より多の能力を人々の手に渡すことを最適化し、少しの混乱を犠牲にしました。そして時間が経つにつれて、新しい機能をより制御し、より良く理解するようになると、コアモデルに統合し直します。

多くのことをうまくできるGPT-4のようなモデルがあります。そして、私たちが今後のGPT-5で行おうとしていることは、学んだ多くのことを取り入れ、より多くの能力を単一のモデルに構築して、人々が推論しやすくすることです。どのモデルを使うか?ただGPT-5を使えばいい

完璧な世界では、あなたが尋ねる質問がどれほど難しいかを知っているので、このような答えを与えるべきか、しばらく考えるべきかを知っています。それが私たちが目指していることです。

GPT-5への期待と開発の透明性

ある意味で、それは現在ユーザーにある認知的負荷を軽減しています。私は座って考えます。時間はあるか、複雑な質問か、推論モデルo3に行く必要があるか、間違った方向に進む可能性があるので長いプロンプトが必要か。そして、あなたが話していることは、それをすべて圧縮してモデル自体に組み込むことです。

そうです。そして、過剰な約束をして「将来は一つのモデルだけで、すべてが単純になる」と言いたくありません。なぜなら、GPT-5をローンチしたとしても、その後に構築しようとしている新しい能力があり、それらを人々に届け、反復的にデプロイしたいからです。

そのため、常に新しいモデルがあり、主力モデルがあり、実験し、一緒に学んでいる特定のフロンティア能力を持つ新しいモデルがあるという現象が常にあると予想しています。そして時間が経つにつれて、それらが成熟すると、すべて単一のモデルに統合されます。

多くの速度が実際に学習ループを通り抜けることについてのようです。学習ループで、すべての馬を同時に走らせて、モデルが何の能力に対してどう働くかについて十分なデータを集めることができ、それがGPTの開発と提供に役立ちます。日付も分刻みで共有していただけることを希望しています。

分刻みで、はい。ですから、自分たちでタイミングを計ることができます。しかし、それはモデル能力がどれくらい先まで提供されているかということでもあります。今日取り組まれているもので、2026年半ばまでモデルに組み込まれない可能性があるものはありますか。

良い質問です。ここで働くことの最も興味深いことの一つは、何が来るかをある程度感じられることです。私は研究チームにいないので、研究者と協力し、働く中でこれを得ています。

製品側では、次の3ヶ月くらいに何が来るかはかなり分かっています。次の6ヶ月についてはぼんやりとした感覚があり、それを超えると言うのが難しくなります。特定の一連の能力について少し知っているが、霞の中から少し物事が見えてくるような感じです。

時には能力が研究だということです。公式があってクランクを回すだけではありません。新しいことを発見していて、予測不可能です。時には予想より時間がかかることもあります。また時には、全く予期していなかった能力が現れ、突然何かが機能するようになることもあります。

Deep Researchの予期しない成功

予期していなかった、ただ機能したものの例を挙げることができますか。

Deep Researchは興味深い例です。しばらくの間、少数の研究者がこのことを考えていました。「おそらく、モデルがこの反復的な研究を行えるようにできるだろう」という感じでした。

Deep Researchでは、おそらく1週間かかる任意に複雑なクエリを与えて何かを研究させることができ、それが出かけて100回の検索を行いますが、一度にすべてではありません。3、4、5回行い、得られた結果について推論し、尋ねたことにどう関係し、まだどんなギャップがあるかを理解しようとします。そして、さらに検索を行い、しばらくコードを書いて考え、さらに検索を行うかもしれません。

この反復的なプロセスは、誰かが非常に複雑な研究レポートを書かせた場合にあなたがすることです。もう研究は行いません。Deep Researchに行き、自分でそれを行う方法を実際に覚えていません。でも、理解しています。一歩ずつ進み、探索戦略を見つけ、行き止まりに行き、戻ってくるのです。

そのため、あなたの質問に対して、一部の人々が「これはまとまってきているが、いつまとまるかは明確ではない」と言っていたものでした。これを信じて実現しようと働いていた研究者の小さなチームがありました

しばらくの間、十分良くありませんでした。そして、いくつかの進歩があり、突然「これは十分良くなってきている」となりました。その時間枠のどこかで、製品とエンジニアリングチームも彼らと一緒に働くことにしました。

そして、研究チームと製品・エンジニアリングチームが同じ部屋にいて、それぞれのユニークなスキルを発揮するとき、OpenAIの本当に魔法的な部分があると思います。解決しようとしている問題を理解し、ユースケースを持ち帰り、それらのユースケースに対して成功かどうかを測定するための評価とベンチマークを作成し、研究チームがそれを取ってモデル自体を改善するために使用し、特定の製品に向けてモデルが改善される密接なループが得られます。

最高の製品は、その方法で構築するものだと思います。Deep Researchは良い例です。

新しい製品開発手法

それは製品開発について考える新しい方法です。製品開発の歴史を考えると、90年代以前、消費者インターネット以前は、エンジニアが運営していて、「これができる新しいチップがある」と言い、そのチップで有用なことができるソフトウェアを見つけようとしていました。

消費者インターネットの大きな突破口は、製品マネージャーを製品開発の中心に置くことだったと思います。リーンで反復的で、非常にデータドリブンでユーザー中心でした。

今、あなたは全く新しいモデルに到達しています。私はそれを、インターネット以前の製品エンジニアリング主導への回帰では全くないが、かなり新しいものだと特徴づけるでしょう。研究者が少し新しい能力である何かを発見し、その能力をどのように製品化できるかについて非常に迅速な議論を持つ必要があり、それが実際にその機能を果たしているかどうかを確認するためにどのように測定できるかという言葉を使いました。

この時点で本当に進化している新しい分野ですか。

製品を構築する全く異なる方法だと思います。確実に私のキャリアで行ったことのあるものとは異なります。研究内には一種のスペクトラムがあります。ほとんど学術的な性質の研究チームの部分があります。彼らは誰も今まで理解したことのないことを見つけようと、新しい突破口を探しているからです。

そのような種類のことは、全く製品主導でありたくありません。探索と根本的な突破口のための多くの余地を与えたいからです。

そして、実際に特定のことを非常にうまく行うようにモデルを教えようとしている、より後訓練側にある研究の他の端があります。それらのチームは、共通の目標を持つ製品・エンジニアリングチームとはるかにパートナーシップを組む傾向があります。その間に一種のスペクトラムがあります。

私たちが正しいと思う方法は、確実に完全に製品主導でありたくありません。それはこの場所の魔法ではありません。完全に研究主導でもないかもしれません。人々のためにどんな問題を解決できるか、世界で最大のインパクトをどのように与えることができるかについてのフィードバックを知るのは良いことだからです。

本当に研究を核心とした両方の組み合わせです。それを愛しています。世界で最も楽しく、非常に速く動きます。コンピューターは2ヶ月前にはできなかったことができるようになり、私たちは常にその状態にあります

評価システムの重要性

しかし、研究と働くとき、スケーリング法則を見て「サラ・フライが10万GPUにサインオフしたので、訓練実行が完了する6ヶ月後にはこれができるようになる」と言うより多くのことがあります。それより多くのことがあります。

私が魅力的だと思うことの一つは、それらの能力を製品にどのようにマッピングするかです。評価について話しましたが、これは評価のことだと思います。評価の構造とは何ですか。15年前に持っていたかもしれない古い製品要求仕様書に置き換わるものですか。

ある意味でそうです。モデルがどこで良く、どこで良くないかを理解するために、モデルをある種の知性として考えると、知性は非常に多面的です。人々は百万の異なる方法で賢く、一人の賢い人は特定の分野で他の人より良く、悪いです。

評価を考える一つの方法は、異なる次元でのモデルの能力と知性を測定する方法としてです。USAMO数学オリンピックスタイルの問題をどれほどうまく解けるか、化学でどれほど良いか、創作についてどれほど良いかの評価を持つことができます。

それらにパブリックベンチマークを使用していますか。AKGIやAmyやGPQAのような測定方法として。

特定の製品を構築するとき、最も効果的な製品構築方法の一つは、製品ニーズを満たすためにモデルに持たせたいスキルを評価に変えることだと思います。そうすれば、実際にそれにどれほど良いかを理解でき、時間の経過とともにどのように良くなっているかも理解できます。

しかし、魅力的なことの一つは、1年前に私たちが皆使っていた評価は、すべて非常に明確でした。数学でテストしていて、数学では正しい答えがあります。創作評価について話すことはできますが、創作では答えがないので、どのように採点するのですか。

それが一つの問題です。もう一つは、より複雑なタスクを引き受け始めると、質問に答えるだけでなく、実際に何らかのマルチステップワークフローを自動化しようとしています。それを行う正しい方法に曖昧さがあるかもしれません。

AIが航空券を予約している場合、正しい航空券を採点する単一の方法はありません。また、この特定のタスクを実際にどのように採点するかという、非常に興味深い挑戦的な主観的な方法に入ります。評価を持つことの一部として、それを自動化したい場合、それのためのグレーダーも持つ必要があります。そうすれば、その評価でどのように行っているかを非常に迅速に理解できます。

興味深いです。時間の経過とともにPMにとってより重要になるスキルの一つは、構築している製品のための評価を実際に作成する能力です

プロンプトエンジニアリングの進化

はい、それが一つで、もう一つはフロントエンドでのプロンプトです。なぜなら、これらのリークで私たちが見始めているもので、どれほど本物かわかりませんが、お気に入りの基盤モデルやコーディングツールの流出したシステムプロンプトがあると言うXアカウントが多数あります。

すべてのクエリと一緒に出る構造化された指示であるシステムプロンプトは、本当に本当に複雑です。それ自体が製品になっているのです。数千語に及び、高度に構造化されており、まとめられるときに明らかに戦略が適用されています。

私のような人々に製品を出荷するときに考えると、そのスキルと能力はどれほど重要ですか。

実際に人々が気づく以上に重要だと思います。時間の経過とともに、それをより少ないものにしたいと思いますし、時間の経過とともにそうなると思います。1、2年前に戻ると、誰もがプロンプトエンジニアリングについて話していて、AIで何かを行うために誰もがマスターしなければならないスキルになるだろうと言っていました。

そのように話されることはそれほど聞かなくなりました。それは良いことだと思います。理想的には、特定のユーザーにとって、質問がある場合、AIに何かをしてもらいたい場合、正確な正しい言葉を使ったか、正しい例を与えたかなどの秘技に入る必要がないほど、重要でなくなります。ただ機能すべきです

それは知性の向上の一部は、モデルがあなたがしようとしていることを理解し、あなたがそれで非常に懸命に働く必要なく、それを良く行うことができるということだと思います。

とはいえ、プロンプトはまだ重要で、モデルはプロンプトで非常に制御可能です。そのため、何かをローンチして、特定の方法で期待した通りに動作していないことがわかり、多くの場合プロンプトで調整できることがわかります。モデルを再訓練する必要はありません

だから、時間の経過とともにそれをより必要でなくしたいと同時に、それはまだ強力なベクターであるということです。

エージェントの定義と実装

これらは製品の方向性の2つのベクターですが、3つ目は、エージェントのアイデアと、エージェントが私たちにもたらすものです。おそらく、私が使った最初のOpenAIのエージェント製品はDeep Researchで、エージェントという言葉がかなり投げ回されています。

私はエージェントという言葉を使い、一連のプロンプトをAPIを通じて文字列化し、ドキュメントを一連のステップを通して他の端に移動させるロジックがあることを意味します。あなたにとってエージェントとは何を意味しますか。

私たちはエージェントを独立した作業ができるものとして考えています。質問して答えを得るクイックなものではなく、実際に現実世界であなたのためにタスクを実行するものです。

もう一つは、私たちがちょうどローンチしたソフトウェアエンジニアリングエージェントであるcodexだと思います。操作しているコードベースがある場合、コードベースで新機能を構築したり、何かをデバッグしたりする場合、このエージェントに「この問題を修正してほしい。ウェブページの背景にこれをしてほしい。この新機能を構築してほしい」というプロンプトを与えることができます。

それは出かけて、あなたの全コードベースを見て、すべてのコンテキストを理解します。バグを修正している場合、そのバグがどこに存在するかを理解しようとし、新しいコードを書いて、プルリクエストを作成します。「コードに対して行う必要がある変更のセット」というdiffです。そして、コードをレビューできます。

エージェントが全体を行いました。私はエンジニアでしたし、余暇に少しコードを書きますが、OpenAIのために1行のコードも書いたことがありません。しかし、codexで、ローンチの数日前に、寝る前にやらなければならない作業をたくさんやっていた夜11時頃でした。「今すぐバグを修正できると思う」と思いました。

比較的単純に見えるバグを見つけて、codecに文脈を貼り付けて「このバグを修正してもらえますか?」と言いました。ちなみに、それは私が人生で働いたことのない言語でした。だから、自分でやらなければならなかったとしたら、さらに時間がかかったでしょう。

10分後にプルリクエストがありました。合理的に見え、提出しました。実際の正当なエンジニアがそれを見て「これは正しく見える」と言いました。今日出荷されているいくつかのコードラインがあり、私がcodexを使用したことから来ています。

このソフトウェアエージェントに実世界のタスクを実際に解決させることができるとき、その力について語っています。その間、私はメールを書いたり、Slackでフォローアップしたり、日常の仕事でやることをやっていました。だから、純粋に付加的でした。それは本当にクールだと思います。

Codexの実際の影響

codexプロセスには少し時間がかかります。読んで理解し、変更を行う必要がある多くの材料があります。私はこれについて興味があります。今日、OpenAIのコードベースの何割が、人間のエンジニアではなく、最初の段階でcodexによって生成されているかという質問は、コード自動化や開発者拡張を行う製品を構築した人は誰でも尋ねられる質問です。

かなり意味のあるもので、急速に増加しています

クールなことは、一度に10のこれらのタスクを開始できることです。10のcodexエージェントが10の異なるタスクで働いているのに、なぜ1つでないのか、すべての並列性の価値を実際に与えようとしています。

評価について、前のトピックに接続するために、製品に関しても非常に微妙な重要性があります。構築しようとしている製品と解決しようとしている問題に合わせる必要があります。

コーディングは一つのことではありません。コーディングは全世界の小さな垂直ですが、コーディング内でも多くの異なる種類のコーディングが得意になることができ、開発者が行うすべてのタスクで、本当に良くなりたいタスクの種類は何かということです。

codecで、それは実際に重要なコーディングの種類は何か、どんなタスクと開発者が行うすべてのタスクの中で、本当に良くなりたいタスクは何かを行って言う素晴らしい例でした。私たちはそれらのための評価を作成しました。そして、モデルを訓練するとき、それらでより良く、より良く、より良くなっているかを監視しました。

タスクと例をモデルが学習するために蓄積しますが、解決したい特定の問題のセットに対応する特定の評価のセットに対してそれを行います。その点で非常に能力駆動型です

エージェントの制御と信頼性

それは能力駆動型で、あなたが正しいレベルのスコアを得ていることを確認するのに十分なテストを行い、また、軌道から外れないことを確認することについて語っています。これらのエージェントがより複雑になり、より複雑なタスクが与えられるとき、それは心に留めておくべきことだと思います。

私のワークフローの一つで、非常にシンプルなもので、エージェントに一連のウェブページからデータを取得し、Excelスプレッドシートに入力してもらいたいというものがありました。第三者のエージェントフレームワークを使用していました。

それは非常に勤勉で、Kevinさん、「作業をチェックしなければならない」と言い、約400回それを行い、75ドルの請求書を残しました。最初に正しく取得していて、この奇妙なループに陥ったのです。

「これらのものをどのように制御するか」という人々の声を聞くことの一つだと思います。人類が制御不能な方法の手段からではなく、企業の信頼性から、魔法使いの弟子のようにならず、イタリアへの1便を予約するよう頼んだだけなのに200便予約してしまわないよう、どのようにこれを確実にできるかということです。そのすべてをどのようにテストしますか。

前に話したように、ユーザーがここでコントロールできることを確実にすることの一部だと思います。ある時点で「十分チェックした。もう良い」と言えるようにすべきです。

この全部で興味深いもう一つのことは、テクノロジーが非常に迅速に進化しているということです。私たちがテクノロジーで慣れているよりもはるかに迅速です。物事が展開され、本当にスケールを達成するのに数十年かかることに慣れています。

AIテクノロジーで見る現象の一つは、AIがまったくクラックできないベンチマークや評価があり、人々は「AIはそれができない」と言い、そしてある日、誰かがその評価で5%を得るモデルを出荷し、まだほとんど仕事ができないが、それを理解し始めるということです。

そして、必然的に見つけることは、2ヶ月後にその評価で30になるモデルがあり、4ヶ月後に60になるモデルがあり、6ヶ月以内に完全に飽和し、モデルがその新しいスキルで素晴らしく、永遠にそうなるということです。そのため、「存在証明」から「もちろんAIモデルはそれができる」に非常に迅速に進みます。

開発の速度は、まだ完全に慣れていないものだと思いますそれは最初の1、2%です。それが困難になり、それができることを証明します。それはキティホーク飛行機で、30年以内に大西洋を越えて多数の乗客を移動させていますが、この場合は30日以内です。

コーディング分野の戦略的重要性

コーディングとコーディングエージェントについて尋ねたいと思います。Gen AIアプリケーションの成長を見ると、Similar Webが数週間前にデータを出しました。ベースラインは、一般化されたチャットボット、ChatGPTなどが四半期ごとに25%成長しているということでした。

事実上、他のすべての製品カテゴリー、画像生成、動画生成、音声生成は、それより遅く成長しているか、サイズが減少していて、私はそれをコアモデルの能力のブラックホールとして見ています。

Similar Webによると、成長がより速かった一つのカテゴリーは、四半期75%で、コーディングでした。商業的な観点からコーディングを選択したのは、需要を本当に見ることができ、開発者が常に実験を喜んでするからですか、それとも、テスト可能で構造化され検証可能な出力のセットであるため、世界の他の部分を占める曖昧で非定形なタスクよりも少し簡単なチャレンジだからコーディングを選択したのですか

本当に良い質問で、実際にコーディングはこれらのことすべてに当たる垂直です。一つには、コーディングを速くできれば、すべてのエンジニアをより効果的にできれば、私たち自身もより効果的になり、さらに速く構築でき、AGIをより速く世界にもたらすことができるので、私たちにとって本当に重要です

それは私たちの観点から興味深いことです。AGI自体への明確な種類のマイルストーンやステップです。なぜなら、非常に一般的な目的の推論だからです。数学や他のことのように、正しい答えを得たかどうかを知ることができる、比較的採点可能なタスクでもあります。

私たちのエンジニアが慣れ親しんでいるものでもあるので、彼らが理解し、良い直感を持っている問題空間です。また、あなたが言ったように巨大な市場でもあります。また、早期採用者でいっぱいの市場でもあります。テクノロジストがこれに飛び込んでいます。

また、比較的オープンで規制されていません。健康などのように、行わなければならない他のすべての種類のことがあるものに入ろうとすることとは異なります。そのため、コーディングを本当に興味深い市場にするこれらの興味深いことすべての集約です。

そのデータは見ていませんが、完全に信じます。

コーディング分野の民主化

コーディング内で、もう技術的にエンジニアではないあなたのような人々にサービスを提供している兆候をすでに見ていますか。言い換えれば、これらのツールを通じて市場の拡大を見ていますか。

ええ、そして世界へのコーディングの民主化に非常に多くの価値があると思います。定義の仕方によっては、世界中に3000万人の開発者がいるのでしょうか。それは素晴らしいです。多くの人々です。

しかし、10億人がコードを書くことができたらどうか想像してみてください。この間、地元の郡で働いていて、人々にワクチン接種などを届けようとしていた人と話していました。人々がサインアップして基本的なことをできるようにウェブサイトを追跡するためにまとめようとしていました。

全世界が忙しく、彼らはできませんでした。ウェブサイトを作るスキルがなかったので、ウェブサイトを作成できませんでした。その結果、誰もが圧倒されていた時に、あまり効率的でない方法で物事を管理し、手作業をたくさん行っていました。

彼は「これらのツールがあったら想像できますか。一晩でウェブサイトを作成できたでしょう。機能して、より効果的に仕事ができたでしょう」と言っていました。世界を見回すと、それの百万倍があります。

コーディングについてのもう一つの非常に興味深いことは、9番目の理由かもしれませんが、それは非常に汎用的なテクノロジーだということです。コードを作成できれば、あらゆる種類のものを作成できます。だから、10億人がコードを書けるかもしれないというアイデアには、本当に強力な何かがあります

プラットフォーム企業としての役割

しかし、インターネットがソフトウェア業界を変えた方法で、これがソフトウェア業界を根本的に変える可能性についても語っています。パッケージングと配布のためだけでなく、ソーシャルテクノロジーと相互作用した方法です。

フロッピーディスクのMicrosoft Wordは、Google Docsとは異なり、他の誰かとノートを交換することを許可しませんでした。

そこにある大きな質問の一つは、最もパフォーマンスの高いモデルを構築しているプラットフォーム企業として、スタートアップのためにどれだけのスペースを残すかです。MicrosoftがWindows 95か97かで何かでディスク圧縮を導入したとき、ディスク圧縮を提供していた多くの第三者企業があったのを覚えていて、そのときにすぐに事業を失いました。

新しい基盤モデルをリリースするたびにXで起こることです。「Kevinがつぶやくたびに、さらに50のスタートアップが死ぬ」のような感じです。あなたや他の企業が構築している基盤モデルの能力の向上から救われるAIソフトウェア世界のソフトウェア世界にはどこにスペースがありますか

Steven Sinofskyが一度、これについて興味深い話をしてくれました。StevenはMicrosoftでWindowsを運営していて、すべてを運営していました。彼は、Windows 3.1からWindows 95への移行についての話をしてくれました。

インターネットの始まりで、ほとんどの人がインターネットを使用していませんでした。Windows 3.1でインターネットに実際に接続しようとする場合、オレゴン大学の教授のウェブサイトに行き、TCP/IPスタックをダウンロードし、自分でコンパイルし、デバイスドライバーをインストールしてから、実際にインターネットに行くことができました。

そして、Windows 95では、もちろんインターネットが起こっていて、彼らは「Windows でこれを出荷する必要がある」と思いました。だから、そうしました。「その大学の教授が全この作業を行い、今あなたがそれを出荷した」という人々がいました

Stevenのポイントは、今日でも、いくつかの教授のウェブサイトに行き、TCP/IPスタックをダウンロードし、自分でコンパイルして動作させる必要がある世界に住みたくないでしょう。ただインターネットを使いたいのです。

基本的に、プラットフォームの期待、プラットフォームの消費者期待は時間の増加関数です。プラットフォームが、実際に人々が構築したいものを構築するために、10の異なる企業が全く同じ基盤インフラストラクチャを構築しなければならないところを見る場合、おそらくそれを提供し、その10の企業がより興味深いことをできるようにすべきです

その話を常に覚えています。人々がこれらのプラットフォームからより多くを期待するようになるという事実は非常に現実的だと思うからです。しかし、この世界の開発者にとって、第三者にとって、すべてのアップサイドがあります。プラットフォームがより多くのビルディングブロックを提供すれば、これらのビルディングブロックで車輪を再実装する時間を減らし、実際にユニークな価値を追加することに多くの時間を費やすことができるからです。

AIは私たちの生活のすべてを絶対に変えるでしょう。想像できるあらゆる産業、あらゆる垂直、あらゆる地理において、AIは触れるでしょう。だから、開発者が再発明し、再考するための非常に多くの機会があると思います。より多くのビルディングブロックを簡単にすることでそれを加速するためにプラットフォーム側でできることは何でも、行うべきです

若い起業家へのアドバイス

20歳の息子がOpenAIの上に製品を構築したいとしたら、彼が構築するのに良い場所はどこでしょうか。

ほとんどどこでも、非常に多くの機会があります。サムが一度言ったことがあり、それは私に響きました。「企業を構築していて、モデル能力の最前線で構築している場合、かろうじて動作することを構築していて、私たちの次のモデルを待つことができない場合、それがあなたの製品を歌わせることになるので、おそらく正しい場所で構築している」。

なぜなら、世界に以前は不可能だった新しいものを導入しているからです。代わりに、現在のモデルの弱点をカバーする一種の足場を構築していて、実際に私たちの次のモデルを恐れている場合、それは構築する悪い場所です。平均して、モデルは本当に速く改善するので、一つのモデルの弱点は次のモデルの弱点ではないからです。

構築するものは、始めに話したようなものです。第一原理からユースケースを再考し、AIと一緒に基礎から構築することです。次に出るモデルがあなたの製品を歌わせるものになるから興奮する場所にいる場合、それは素晴らしい場所です。

それは素晴らしいヒューリスティックです。実際にそこにいる創設者なら、モデルがまだできないが、少し時間で可能になることを構築したいと考え、その能力の上に構築できると考えてください。

ジョニー・アイブとの協業

製品について話すときに、新しい製品バディであるジョニー・アイブについて話さずにはいられません。あの素敵な白黒写真がリリースされたときのオフィスの雰囲気はどうでしたか。

人々は信じられないほど興奮しています。どうして興奮しないことがあるでしょうか。私は一日中、ジョニーがデザインした製品を使用しています。彼は私たちが毎日使用する最も愛されている製品とハードウェアの一部を構築することに参加してきました。彼と働きたくないわけがありません。

プロセスを通じて彼を知り、彼はこれほど多くを成し遂げた人にとって、非常に謙虚で、思慮深く、親切で、話し方が柔らかいという、とても素敵な人間でもあります。そして、時々何かを言うと、「なんてことだ、それは世界を見る全く異なる方法で、今まで考えたことのなかった何かに目を開かせてくれる」となります。

だから、天才と素晴らしい人間の組み合わせです。彼と働くことに興奮しないわけがありません。もちろん、彼はイギリス人です。

ハードウェア開発への参入

彼とあなたのグループはどのように働くのでしょうか。どのように連携するのでしょうか。

彼はこれらの消費者ハードウェア製品に焦点を当てて入ってきており、時間の経過とともに、OpenAI全体のデザインで非常に重要な役割を果たすと思います。それについても非常に興奮しています。ジョニー・アイブがあなたのデザインの多くを担当することになるなんて、どうして興奮しないことがあるでしょうか。

うまくいけば、ある時点でドロップダウンに取り組んでくれるでしょう。私たちはアイタッチを持っているので、最後の数分で、それがハードウェアと全体的なビジョンとどのように相互作用するかについて話すのは興味深いです。

全体的なビジョンはある意味で、あなたが始めに話したものです。従業員のように少し働くAIシステムについて話しました。家庭生活の人々にとって、それはヘルパーのようなものだと思います。私たちはそれをスーパーアシスタントとして考えています。

そして、それとハードウェアデバイスを持つ必要性との関係は何でしょうか。私はすでにかなり良いハードウェアデバイスを持っています。今話しているものです。

それは機会です。何度も言ったように、AIは私たちの生活と日々のすべての部分、世界のすべての部分に触れるでしょう。それは、毎日使用するサービスと製品の多くを再発明し、再考する機会があるということを意味します。

私が毎日使用する多くの製品があり、それらは素晴らしいです。AIで根本的に変わる必要があり、変わるべきです。そうでなければ、私たちが持っているこれらの素晴らしい新しい能力、特にそれらの能力が12ヶ月、24ヶ月、36ヶ月後にどこにあるかのすべてを活用していません。

ソフトウェア側とハードウェア側の両方で、ここで再発明し、再考する機会があると思います。私たちは、それがどのように起こるかについていくつかの考えを持っています。明らかに、ジョニーはこれについて深く考えており、一緒に何を構築できるかを見るのを楽しみにしています。

この分野で構築している他の多くの人がいることは確実で、私たちがAPIと開発者プラットフォームに多くの注意と注意を払う理由の一つです。世界はOpenAIだけではないからです。AIを使用して本当にクールなものを構築する素晴らしいスタートアップと既存企業と他の皆がいるでしょう。私たちが構築する第一者製品もあれば、私たちのモデルを活用する他の人が構築する他の製品もあります。これらの両方が私たちにとって本当に重要です

私はすでに、モデルと働くための電話のフォームファクターの限界を実感し始めています。o3に長めのプロンプトを実際に入れることはできず、それと話すことに本当に依存していて、うるさい場所にいる場合はうまく働きません。私の周りにアンビエント知性を持つアイデア、常にAIモデルが私の会議を聞いていて、私の仕事をするために定期的に彼らと話しているという。

だから、電話のパワードローと電話のサイズと他のことをするものの限界を見始めます。それは本当にエキサイティングな機会になるでしょう。アルファテストに私をサインアップしてください

競合他社との比較

最後に、いくつかの質問を投げかけます。中国のトップAI企業のコア基盤モデル能力はどれくらい遅れていますか。

以前ほど遅れていません。そして、US AI研究所として、それを非常に認識する必要があると思います。私たちが皆使用する主要なモデル、権威主義的なものではなく民主主義的原則から構築されたモデルであることが本当に重要だと思います。私たちはそれを本当に真剣に受け止めています。

お気に入りのAIアプリ

中国で構築されているか、どこか他の場所から来ているかにかかわらず、OpenAIによって構築されていないAIアプリで、あなたが好きで使用し、遊んでいるものはありますか。

多くの動画アプリは非常に楽しいと思います。また、Waymoは魔法的だと思います。それは、AIが私たちの生活に触れる方法の私のお気に入りの例です。自動運転は10年間「2年先」でしたが、今突然ここにあり、機能し、多くを変えるでしょう。絶対に魔法的です

ランニングとAIコーチング

あなたは熱心なランナーで、GarminやSuuntoを持っているかどうか、そして今日はそうでないが、AIがもたらすことができる運動トラッカーから何を望むかについて興味があります。

良い質問です。実際、私は主にApple Watchを使用していて、100マイルレースなどを行う場合、これではバッテリーが十分でないので、Garminを使用します。

何を望むか。実際、より良いコーチングを愛すると思います。少しだけ、AIは完全にできると思い、Stravaは周りで取り組んでいることがあると思いますが、より良いコーチングとワークアウトの分析などを見たいです。ほとんどのユーザーにとって今日専門的なコーチから得るような種類の分析をAIから得ることが可能だと思います。

5年後には「それが存在しなかった時など想像できない」となるような種類のことだと感じています。しかし、今は少しだけ顔を覗かせているところです。

でも、その個人化されたコーチングを持つ可能性は、かなり崇高になるでしょう。

AGIの実現時期

最後の質問です。AGIをいつ出荷しますか。

私たちは取り組んでいます。毎日少しずつ近づいています。毎日ですが、いつ分かるでしょうか。分かるでしょうか。

私は思いますが、話した知性が多面的であることの一つです。今日すでに、AIが人間よりもはるかに良い場所がたくさんあります。そして、AIが人間よりも笑えるほど悪い場所があります。

しかし、新しいモデルがあるたびに、月ごとに、ベースラインが上がり、AIがより多くのことで超人的になり、より多くのことで、ある時点で、実質的にすべてで超人的になり、それを呼ぶでしょう。しかし、一度にすべてが起こるわけではありません。

一晩寝てAGIがなく、朝起きてAGIがあるというものではないと思いますAIがより多くのことでより良くなる漸進的なプロセスです

その考えで、Kevin、その丘を登り続けてください。今朝お時間をいただき、ありがとうございました。あなたとお話しできて素晴らしかったです。

お招きいただき、ありがとうございました。

コメント

タイトルとURLをコピーしました