OpenAI共同創業者のGreg Brockmanが、AGI実現への道筋、Sora 2の技術的進化、コンピュートリソースの制約、AIによる労働市場の変革について語った包括的なインタビューである。トランスフォーマーアーキテクチャの汎用性、ベースモデルと後処理の関係性、プロアクティブなAIへの移行、開発者プラットフォームとしてのOpenAIの戦略など、AI技術の現在と未来を多角的に論じている。Brockmanは1~3年以内のAGI実現を予測しつつ、それを終着点ではなく継続的なプロセスとして捉える視点の変化を明らかにし、エネルギー供給やハードウェアインフラの重要性、人間とAIの協働関係の未来像について詳細に展開している。

OpenAIの挑戦:コンピュートの限界と未来への展望
現在、最大のボトルネックはどこにあると思いますか。
私たちは、エネルギーが大規模なボトルネックになる世界に向かっています。
CerebrusやGrokのような新しいプレイヤーを検討したことはありますか。
2017年にCerebrusを見たとき、私たちはすごく興奮しました。2017年のOpenAIは、今日のOpenAIとは全く違っていたと思います。
驚くかもしれませんが、人々は今でもいつも耳を傾けるわけではありません。
私の仕事は危険にさらされていますか。
AIは多くの仕事を変えるでしょう。
まだ開発者は存在するのでしょうか。
私たちは社会契約の多くの基本を変えることになると思います。
AGIの定義はまだ同じですか。
私は本当にそれを目的地のように考えていましたが、代わりに私たちは本当にそれを継続的なプロセスとして考えています。
仮に今、コンピュート供給を10倍にしたとしましょう。売上も10倍になりますか。
10倍になるかどうかはわかりませんが、5倍になるでしょうか。
ChatGPTは、静的なウェブサイトに行って単に物を読むことがいかに不自然であるかを本当に実感させてくれます。
ソフトウェアは完全に生成されるようになると思いますか。
そう思います。すごくクールになると思います。
OpenAI内部での会話はどのようなものですか。
苦痛と苦しみです。それが本当の真実です。
さて、Greg、今日は参加していただき本当にありがとうございます。
呼んでいただきありがとうございます。ここに来られて嬉しいです。
いくつか質問があります。まずスケーリングから始めたいと思います。具体的にはSoraについてです。Sora 2が先週リリースされました。Soraのようなモデルのスケーリングについて考えることはどのようなもので、テキストや画像モデルとはどう違うのでしょうか。
基本的な考え方としては、広いレベルで見ると、すべてはまだディープラーニングであり、同じメカニズム、同じような基本原理です。大量のコンピュートでスケールアップし、順伝播、逆伝播、勾配ステップを行います。より詳細なレベルでも、まだトランスフォーマーなんです。これは実際かなり驚くべきことです。
そうですね。
そして、異なる方法で訓練します。異なるプロセスを使用しています。拡散のようなことを考えたり、これらのモデルにコンピュートを注ぎ込む方法について異なる考え方をしたりします。しかし基本的に、私が非常に驚くべきだと思うのは、テキストと動画という、予想できる限り異なるモダリティについて話しているにもかかわらず、それらを学習し生成する実際の基礎となる計算プロセスにおいて、この大規模な重複があるということです。その事実について本当に深いものがあります。
トランスフォーマーアーキテクチャが次のレベル、おそらく完全なワールドモデルに到達させてくれるとかなり楽観的ですか。Sora 2は明らかにその方向への大きな一歩です。
そうですね、2つのことがあります。1つは、大きなアイデアが不足しているのではないか、トランスフォーマーのレベルの別のイノベーションが必要なのではないか、という多くの疑問があると思います。イノベーションの余地はたくさんあると思いますし、それを見てきました。アルゴリズムの進歩がペースを保ってきたと思います。私たちは何年もかけて、曲線が正確にどのようなものかを見るための研究を行ってきました。それらが止まるとは思いません。スケーリング曲線も続いていますし、データ曲線も続いています。そして、この革命を推進してきたのは、複数の制限因子があり、それぞれを調整し続けることができ、モデルのパフォーマンスが適切に増加し続けるということです。だから、まだまだ構築すべきものがたくさんあると思います。
AGIが今日持っているモデルとかなり似たものになっても驚かないでしょうが、まったく同じアーキテクチャだったら衝撃を受けるでしょう。
これらの異なるタイプのモデルを見るとき、それらはすべてトランスフォーマーベースですが、コストや、今日提供している異なるタイプのモデルのユニットエコノミクスをどのように測定するかという点で、かなり大きく異なっていますか。
異なるパフォーマンス特性が確実にあります。時には、最適化が異なる別の推論スタックを持っていることもあります。異なるモデルは異なるタイプのハードウェアに対して異なる代謝をするかもしれません。メモリとコンピュートなどの間の正確なバランス、これらのことは異なる可能性があります。詳細レベルでは非常に異なる多くのシステム作業があり、ハードウェアから叫ぶようなパフォーマンスを本当に引き出そうとすると、非常に異なる次元に押し進められます。
しかし、結局のところ、私たちは本当にこのすべてのイノベーションの基本的な推進力、そしてそれを世界にもたらすことは、コンピュートだと考えています。できるだけ多く構築する必要があります。異なるアクセラレータやそのようなものの特殊化がいくらかあります。しかし、ズームアウトすると、すべてはただ行列乗算を行い、アテンションメカニズムのようなものを行っているだけです。
そして、私たちは内部で容量の多くのやりくりを行い、5つの異なるモデルを最適化できる一人の時間に対する5つの異なる要求に優先順位をつけています。大変ですが、それが私たちがやるべきことです。
AMDとのパートナーシップとハードウェアの進化
さて、ハードウェアの話を続けましょう。AMDとの大きな発表がありました。AMDハードウェアの上に構築することは根本的に異なりますか。それとも、今、引き出せるリソースのますます大規模なプールを持っているというだけで、深い技術的変更を行う必要がありますか。
実際、私たちは長い間、多くの方法でAMDソフトウェアに投資してきました。私たちはTriton上に構築しています。それは私たちがスポンサーし、開発を支援してきたプロジェクトであり、私たちのGPUの大部分がTritonカーネルを効果的に実行しています。そして、推論とトレーニングがあると見ています。推論を機能させるには大規模な固定費がかかります。
トレーニングを機能させるにはさらに大規模な固定費がかかり、私たちは実際に今年、非常に少ない作業でAMDソフトウェアを使用し、良好なパフォーマンスを得ることができるポイントにいます。その多くは、私たちが非常に長い間持ってきたこのパートナーシップを通じて可能になっており、多くのフィードバックを提供してきました。推論の観点から、私たちはスケーリングについてかなり良い感触を持っており、異なるハードウェアには異なるニッチがあります。私たちはMI450シリーズに興奮しており、そこには多くの良いイノベーションがあります。
そして、推論とトレーニングのためにNVIDIAも大量にスケールアップします。
CerebrusやGrokのような新しいプレイヤー、ウェーハスケールコンピューティングのようなものを検討したことはありますか。
2017年にCerebrusを見たとき、私たちはすごく興奮しました。なぜなら、それは全く新しいパラダイムだったからです。数字を見て、「もし100万個のようなものを持てたら、AGIを構築できる」と思いました。非常に異なるプラットフォームだと気づきます。
そして、非GPU アーキテクチャの構築は、2017年に予想していたよりもはるかに難しいことが判明したと思います。しかし、最初から、私たちは本当にエコシステム全体をマッピングしました。すべての異なるチッププレイヤーと話をしようとし、アドバイスを与えようとし、ワークロードの形状について話しました。
正直なところ、ほとんどの企業は私たちの話を聞きませんでした。2017年のOpenAIは、今日のOpenAIとは全く違っていたと思います。
驚くでしょう。人々は今でもいつも耳を傾けるわけではありません。
わかりました。しかし、ある程度は、彼らが私たちが間違っていると思ったということでさえなかったと思います。チップの世界から来て、問題を見る特定の方法を持ち、ワークロードを理解していない人々がいる場合、「いや、いや、いや、この視点は後ろ向きです。この別の方法で本当に考える必要があります。それは小さなモデルではなく、大きなモデルについてのことになるでしょう」などの設計インプットを言おうとします。それを受け入れなければ、その上に全体の世界観をリベースすることは非常に難しいです。
そして、この分野で成功したプレイヤーを本当に区別してきたのは、ディープラーニングの視点を持つ人々を連れてくるか、ワークロードがどこに向かっているかに本当に注意を払おうとする人々だったと思います。
コンピュートの構築からの推論の提供までのパイプライン全体を見るとき、今日最大のボトルネックはどこにあると思いますか。
つまり、私たちは絶対的なコンピュート不足の世界に向かっていると思いますし、少なくとも米国では、エネルギーが大規模なボトルネックになる世界に向かっていると思いますが、サプライチェーンのあらゆる部分が、私たちが来ると見ている需要ショックにまだ適応していません。そして、それが私たちが何年も何度も何度も言い続けてきたことに戻っています。私たちは「もっとコンピュートを構築する必要がある」と言ってきました。
OpenAIが独自のチップを開発しているという噂がありますが、独自のエネルギーグリッドやシステムへの投資、その分野での新しいものの発明を見ることはありますか。
10年前、2015年、2016年の私に早送りするか巻き戻して、私たちが何をするつもりかを尋ねたとしたら、私たちはAGIを構築するためにここにいます。そして、私たちはそれを非常にソフトウェアの取り組みとして考えていました。実際、私たちは新しいアイデアを思いつく必要があると考えていました。それをクリックして所定の位置に収めます。AGIが作成されました。実際にはコンピュートの取り組みであることがわかり始めました。それは他の多くのものよりもはるかに簡単にスケールできる基本的な試薬のようなものです。だからこそ、コンピュートを非常に強く押すのです。限界まで押し上げる必要があります。
そして、実際には行わなければならないこの大規模な物理インフラストラクチャの構築があることに気づき始めます。そして、私たちは今その世界に入っています。Stargateのようなことを行い、独自のデータセンターの構築を始めています。そして、それがどこで止まるかは、本当に世界が何を供給する意思があるかについてです。
世界が、市場が、私たちだけでなく業界全体から来ていると私たちが本当に大声で言おうとしている需要に目覚めるなら、素晴らしいです。エネルギーを自分たちで構築する方法を理解しなくても済むなら嬉しいです。しかし、私たちはミッションを遂行するためにここにいます。
コンピュート配分の課題と意思決定プロセス
今持っている限られたGPU、限られたコンピュートで、消費者製品、エンタープライズ製品、開発者API、トレーニングなど、多くの競合するニーズがあります。そのコンピュート投資がどこに属するかを決めようとするとき、OpenAI内部での会話はどのようなものですか。
苦痛と苦しみです。それが唯一の、それが本当の真実です。
本当に難しいです。なぜなら、これらすべての素晴らしいことが見え、誰かが別の素晴らしいことを売り込んできて、「はい、それは素晴らしい」と言いますが、あなたたちは本当に多くのことをしています。どのようにして、何を、つまり、私たちは小さな会社で、多くのことの中から何をするかを決めることができず、だからOpenAIの規模でそれを想像することさえできません。それは何ですか。その内部会話がどのようなものか、もう少し教えてください。
メカニズムは、より具体的には、私たちは何年にもわたってそれらを進化させてきましたが、今はチーフサイエンティストのYakaと研究を一緒に運営するMarkがコンピュート配分を決定しています。しかし、より広く言えば、実際には研究サイドとアプライドサイドの間に最初の分割があり、それは通常、Sam、Fijiのような一連の人々で裁定されます。通常はそのような一連の人々がその呼び出しを行っています。そして、研究内では、それがどのように配分されるかを説明しました。
メカニカルレベルでは、GPUを実際にシャッフルする大変なタスクに本当に専念している私のチームの多くの人々がいます。だから、見るのは本当に素晴らしいです。たとえば、Kevinがいます。Kevin Parkは私のチームの誰かで、彼のところに行って「このプロジェクトのためにこれだけ多くのGPUが必要です」と言うと、彼は「わかりました、終わりつつある5つのプロジェクトがあり、これはこの時点で終わらせる必要があるので、Tetrisを機能させることができます」と言います。
そして、どこにコンピュートを向けたいかというこの意図の部分と、実際のソルバーを見るのは本当に素晴らしいです。その一部は人間であり、一部はスプレッドシートであり、一部は、モデルをそこに入れられるかどうかは非常に興味深いと思います。しかし、簡単なプロセスではないと言えます。
しかし、コンピュートはチームの生産性の大きな推進力であり、人々は本当に気にかけています。コンピュートを取得するかどうかに関するエネルギーと感情は、過小評価できないものです。
ChatGPTの進化とインターネット体験の変革
さて、少しギアを変えましょう。発表がありました。より良い説明方法がないので、ウェブをChatGPTに持ち込んでいます。Zillowの例を示しました。アプリがChatGPT内でのよりネイティブな体験に移行し続けるにつれて、エージェントが私たちに代わってますますブラウジングし続けるにつれて、起こっているように見える人間とインターネット体験のこの分離についてどう考えていますか。
実際の人間がインターネットに行って従来のウェブサイトをブラウジングしている時間は減少しているようです。今後18か月はどのようになると思いますか。
ちょっと待ってください。実際、前の答えに1つ追加したいことがあります。私たちが向かっているのは、コンピュートが経済全体の経済生産性の推進力となる世界でもあると思います。そして、OpenAI内で見たこのミクロコスモは、あなたがあなたの会社内で見ると言ったように、どこでも見ることになると思います。そして、私は本当にこれを、このコンピュート不足を緩和し、全体的な配分の前にこのコンピュートの衝突を緩和する方法として、コンピュートを構築する必要があると見ています。次の質問に移る前に。
現在、供給と需要の比率はどれくらいだと思いますか。どれくらい離れていますか。
かなり離れていると思います。桁数はわかりません。たとえば、今、コンピュート供給を10倍にしたとしましょう。売上も10倍になりますか。10倍になるかどうかはわかりませんが、5倍になるでしょうか。そうかもしれません。
なぜなら、私たちはリリースできない非常に多くの製品をホッパーに持っているからです。Pulseのようなものが非常に具体的に見えます。プロのみですよね。Pulseは本当に素晴らしい製品です。
それについて話します。本当にクールな製品です。
もっとコンピュートが必要です。もっとコンピュートが必要です。
それを言うステッカーが必要です。
わかりました。インターネットの分離について話しましょう。なぜなら、インターネット、私たちがインターネットをブラウジングする基本的な方法が、私たちの目の前で劇的に変化しているように見えるからです。特に、エージェントが私たちに代わってブラウジングできるようになり、今では従来のウェブサイトをChatGPTに持ち込むことができるようになっています。
私たちが見ているその移行についてどう思いますか。
ChatGPTは、静的なウェブサイトに行って単に物を読むことがいかに不自然であるかを本当に実感させてくれると感じています。静的な情報、あなたが探している単一の事実のようなもので、実際に欲しいものとはあまり関係のない大きなページを掘り起こしているようなものです。
そして、私たちはそれをほとんど超えたと思います。それはまだ起こっています。それは支配的なパラダイムや人々が本当にやりたいことではありません。価値を付加していない時間を費やしていたことに気づきます。針のために干し草の山をふるいにかけているようなもので、機械が本当にそれをあなたのためにやるべきです。本当にそうすべきです。
そして、ChatGPTのアプリで、これらの動的なアプリで見始めることになると思うのは、ウェブサイトに行って何かをするためにたくさんのボタンをクリックするというのも、この完全に後ろ向きなもののように感じられ、ずっと前に超えているべきだったというものです。
そして、人々は自分の時間をはるかに保護するようになる世界に移行していると思います。もう言い訳はありません。価値を付加していないこと、人間が一生懸命考えていないこと、創造性を提供していないこと、何らかの形で方向性、フィードバック、そのようなものを提供していないことには。大きなリストをふるいにかけているだけなら、それはAIのためのものです。
それでは、それがウェブでの収益化をどのように変えるかというと、従来はCPMベースの広告ベースで、ウェブサイトに目を向ける代わりに、無料のコンテンツと広告を提供しますが、エージェントがあなたに代わってブラウジングし、特にZillow.comのようなものをChatGPTに持ち込むと、広告を提供していたのかというすべての対立があり、それがどのように見えるかということになります。これらの変化が起こるにつれて、ウェブの収益化レイヤーの変化についてどう考えていますか。
真実は、まだ誰も知らないと思います。しかし、探求しなければならないと思います。新しい収益化パラダイムの正しい方法、これらすべてをスケールさせる正しい方法を見つけなければなりません。しかし、基本的には、ユーザーに価値を付加することを確認するという新しい圧力がこれらの技術からあると思います。
そして、ChatGPT自体を見ると、今はサブスクリプションベースの製品です。3年前にローンチしたときには予測していなかったかもしれませんが、人々は価値を付加するので喜んで支払います。プロフェッショナルな生活、個人的な生活、全体的に価値を付加します。
そして、広告に場所がないというわけではないと思います。しかし、気を紛らわせながら、気にかけている文章を見つけようとして、たまたまそのページにいて何かをクリックするという広告は、もうそれほど価値の基本的な推進力のように感じられません。
しかし、新しい収益モデルがあると思います。収益化する新しい方法があるでしょう。そして、正直なところ、おそらく構築するのに最もエキサイティングな時期だと思います。
プラットフォームの変革と開発者体験
10年以上前に巻き戻して、モバイル移行中のパブリッシャーを見ると、多くがAppleに従属するようになりました。なぜなら、彼らはアプリストアにいたからです。なぜこれが異なるのか、ChatGPTが本当に人工知能体験のホームページ、最初の場所になる理由について、彼らに何と言いますか。
物語はまだ書かれていないと思います。そして、AIについて私が持っている1つの観察は、それは常に驚くべき方法で展開するように見えるということです。これまで見たことのないものとは全く異なります。それは思い出させる要素を持っていますが、「これはまさにインターネットのようなものだ」とか「これはまさにモバイルのようなものだ」とか「これはまさにアプリストアのようなものだ」と言えるような1つのパラダイムはないと思います。何か違うものだと思います。
それでは、AIとどのように対話したいかは何ですか。他のすべてとのやり取りを仲介する1つのウェブサイトがあるというようなものですか。完全には確信が持てません。なぜなら、AIの要点は多くの点で、機械を人間に近づけることだからです。ウェブサイトとURLがあって、このものに行かなければならないと考えるために自分を歪める必要はありません。機械は頼んだことをするだけです。
そして実際、機械はあなたが望むかもしれないことをプロアクティブに考え、あなたのためにそれを行うべきです。そして、パラダイムのこれらのシフトは、エントリーポイントは何か、機会はどこにあるかについての考え方もシフトさせるだろうと思います。そして、ここには構築すべき表面積が非常に多くあり、そのすべてへのインターフェースとなる1つのポータルを持つことさえ可能かどうかは明らかではないと見ています。
実際、それについて続けたいと思います。AIがほとんどのニーズを予測できるようになるまで、どれくらいかかると思いますか。ChatGPTが最初に出たとき、それは非常にリアクティブでした。プロンプトを出します。それが何かを返してくれます。今、Pulseのようなもので、はるかにプロアクティブになり始めています。
今後24か月で、プロアクティブとリアクティブの比率がどのように展開すると思いますか。
プロアクティブがはるかに焦点になり始めると思います。または、小さなタスクを与えて、AIが1日、1週間、1か月考えるようになります。そして、AIが1年のように生産的に考えることができるようにしたいという願望があります。10年のように。
その1年間、人間の中断なしで。
そうですね、人間のやり方と少し似ていると思います。Andrew Wilesがフェルマーの最終定理を解くようなものを考えてみてください。彼は基本的に一人で10年のようにそれに取り組んでいたことで有名です。
文字通り人間とのやり取りが全くなかったというわけではありません。おそらくサブ問題について考えていて、人々にそれについて尋ねたでしょう。そして、それが私たちが達成したいことだと思います。壮大な問題を解決するのを助けるAIが欲しいのです。そして、常に細かく管理する必要なく、生産的な作業を行うために離れていけるAIを持つことは素晴らしいことです。
人間を細かく管理するのはあまり楽しくありませんし、AIを細かく管理するのもあまり楽しくありません。しかし、私たちが向かっているこの種の世界は、望むなら細かく管理できるものだと思います。生産的な人間の労働者にとって、常に細かく管理すると、おそらく長くは幸せではないでしょう。
そして、それは本当にあなたがどのように働くかの表面を開き、時間をどこに費やしたいかを本当に選択できるようになると思います。
AIが何時間も独立して、自律的に考えることができるというハイライトをたくさん見てきました。AIが自律的に考えることができる期間と、その期間に実際に達成することのトレードオフについてどう考えていますか。なぜなら、1+1をするのに30時間かかるのと、癌を解決するのとでは少し違うからです。与えられたウィンドウ内での知性の圧縮とそのウィンドウの拡張、そして2つのトレードオフについてどう考えていますか。
素晴らしい質問だと思います。非常に誤解を招くベンチマークを持つことは非常に簡単です。あなたの指摘の通り、問題にはその背後にこの計算複雑性のようなものがあるとほとんど考えることができると非常に明確だと思います。より多くの思考、より多くのパワー、より多くのコンピュートを必要とする問題があります。
そして、欲しいのは、これらの難しい問題の1つについて1日生産的に考えることができるAIですが、10秒で解決してくれるといいですね。それは素晴らしいでしょう。だから、答えはこれらは2つの異なる次元であり、両方を押し続けることが重要だと思います。
GPT-5とCodexの進化
さて、それでは、GPT-5は完全な自律性でどれくらい考えましたか。Codexはどれくらい考えましたか。
実際には、記録が何であるかはわかりません。7時間のようなものを見たという報告をしている多くの人々を見たことは知っていますが、それが実際に限界かどうかはわかりません。
どこかオンラインで見つけることができますが、興味深い問題にかなり多くのコンピュートを費やすことができるポイントに今います。
Sora 2について話しましょう。本当に楽しく、素晴らしいです。私のチームの何人かは少し中毒になっているかもしれませんが、大丈夫です。使うのが本当に楽しいです。
これを開発していたとき、新しいモデル、Sora 1から離れて、なぜそれをこのソーシャル体験に構築することに決めたのですか。Sora 1が取った道を取り、より伝統的な方法で使用のためにリリースするのではなく。
通常、どのような表面を構築するかについて考える方法は、本当にモデルの能力に帰着します。これは多くの点でChatGPTをどのように得たかと非常に似ています。チャット関連のことを行うためのこのインフラストラクチャに取り組んでいたことを覚えています。そしてGPT-4があり、最初のポストトレインを行ったことを覚えています。当時、私たちは指示フォローを行っていただけで、質問のデータセットがあり、AIを訓練して答えを提供するだけでした。
もう1つ質問を提供したらどうなるか試してみました。前の質問と答えのコンテキストに依存する質問です。実際にその情報を利用すべきだと一般化するでしょうか。そしてそうしました。そして、このモデルは賢いと思いました。このように一般化できるのです。チャットモデルになりたいのです。技術がそのように形作られているので、これをチャットシステムとしてリリースすべきだと非常に明確です。
そして、Sora 2については、その雰囲気が少しあると思います。モデルの強みと弱みは何ですか。それで何ができますか。根本的に新しいことは何ですか。そして、私たちが行くことができた多くの方向があったと思いますし、まだ行くことができる多くの方向があります。
内部から私にとって常に少し悲しいことは、任意のインターフェース、モデルの任意のポストトレーニングについて、実際には深い方法で生のモデルの能力を本当に狭めているということです。
興味深いですね。
本当に本当に興味深いです。これらの生のベースモデルでそれらを使って遊ぶと、使うのは信じられないほど難しいですが、その中に可能性の宇宙があります。そして、何をフィルタリングするかを決定することにつながる各決定の背後にはおそらく非常に多くのものがあります。少し話してください。途中で切ってすみません。
いいえ、これは実際に外部の人々が本当に理解していないことだと思います。そして私にとって、これは非常に悲しいことです。なぜなら、私たちはベースモデルをリリースしていたからです。GPT-3はベースモデルでした。ポストなし。使うのが信じられないほど難しい。昔、すべてのプロンプトエンジニアリングでGPT-3を使いましたか。
そうです。
タスクを解決する6つの例のようなものを提供しなければなりませんでした。それは、モデルがベースモデルであることの機能ですか、それとも複数の反復で良くなっただけですか。
考える具体的な方法は、これらのベースモデルは次のステップ予測を行うように訓練され、人類の思考と感情、そして利用可能なすべての公開データを観察しているようなものです。だから、このプレフィックスが与えられたら、次に何が来るかを言おうとしているだけです。次に何が来ますか。そして、推論時には、公開されているデータのどこかで見つけたドキュメントの途中にドロップしているようなもので、次に何が来るかを尋ねています。
そして、この自然発生的な分布で発生する可能性のある方法でクエリをフォーマットする方法を考える必要があります。そして、質問と答えと質問と答えと質問と答えのリストがあり、質問がある場合、おそらく次に来るのは答えだということがわかります。しかし、質問しかない場合、次に来るのは別の質問かもしれません。だから、AIを、トレーニング分布のように見える合理的なドキュメントのようなものの途中にいると考えさせるようにロールプレイしようとしているようなものです。
そして、これは使うのが非常に難しいので、貧弱なインターフェースです。良い製品ではありません。そして、それは表現する行動や価値についてコントロールできないものでもあります。世界を観察して成長する人間にとって、すべての知識があるようなものです。そしてある程度、Alec Bradfordが好んで使用する1つの類推は、これらのベースモデルは人間よりも人類を訓練するようなものだということです。すべてがそこにあります。あらゆる種類の価値観があります。あらゆる世界観があります。
そして、特定のインスタンスでどのように応答するかという質問に対して、人間がそこで応答できるほとんどすべてのものがあり、モデルをセットアップしてそうすることができます。しかし、ガードレールがあるため、一貫した価値観に本当に絞り込みたい場合、特定のケースでどのように振る舞うべきかを言うモデル仕様がある場合、その上に他のステップが必要です。そして、それがポストトレーニングです。この生の宇宙、この生の知性を取り、それをほぼ一貫した性格または一貫した行動のセットに洗練することです。
それは、よりソーシャルな製品にするという決定がポストトレーニングの前に来たのか、それとも何かを発見したのでしょうか。模倣を本当にうまく行う傾向があるのか。操作の順序は何でしたか。
通常、それは少し反復ループで進みます。ベースモデルを取り、特定の方法でプロンプトするようなものです。これは興味深いです。実際、これはとてもクールです。このことで信頼できるとしたらどうでしょう。すべてのこの作業をする必要はありません。だから、ベースモデルは世界最高のプロトタイピングエンジンのようなものですが、信頼できません。本当にやりたいタスクを実行させるための適切なプロンプトを見つけるのが非常に難しいからです。だから、これはほとんどコミュニケーションの問題であり、ポストトレーニングはこのコミュニケーションです。
Soraとカメオ機能の未来
あなたのカメオは公開されていますか。
私のカメオは現在公開されていません。私のものを公開しましたが、Sam Altmanもこれに言及していたと思います。人々があなたの肖像を操作することは実際に驚くほど快適です。
そうですね、かなり簡単だと思います。かなり楽しいです。
正直なところ、私のカメオの状態の背後にはあまり考えがありません。なぜなら、6か月後には、私たちが何をしても、他の誰かがカメオを行うことができ、制限されていないビデオモデルをリリースするだろうと思うからです。だから、私たち全員の肖像がカメオ化される世界に向かっていると思います。
OpenAIが本当に代表するものの一部は、この技術がどこに向かっているかを人々に知らせようとし、有益だと思う方法でリリースしようとすることです。
そして、私たちの選択にそれが本当に見えます。しかし、私たちはこの技術を完全にコントロールしているとは信じていません。それを構築しているのは私たちだけではありません。
Sora 2を見ると、それはワールドモデルです。世界をシミュレートすることができます。Yann LeCunは、LLMだけではAGIに到達するのに十分ではないと言っています。言語だけでは世界をモデル化するのに十分ではないからです。
それに同意しますか。同意しませんか。そして、ワールドモデルは本当にAIの未来であり、AGIに到達するものですか。
過去5年、10年のAI進歩から学んだことを見るのが好きです。今、一方または他方の経験的証拠を見たことは何ですか。そして、言語モデルはワールドモデルを持っていないと思います。
書かれた言語にはワールドモデルを構築するのに十分な情報がありません。ところで、これは長年の議論です。これは10年のことではありません。50年、100年のようなものです。長い時間です。GPT-4ができることの半分をできると予測できなかったと思います。水筒をテーブルに置いて、ボトルからキャップを外して、テーブルの下に置く、キャップはどこにあるかのような質問をします。その特定のクエリをテストしたことはありませんが、正しく理解すると思いますか。おそらく。
そして、私が与えた試験がありました。カップに大理石があります。テーブルからカップを持ち上げます。ボールは今どこにありますか。
まだテーブルの上です。
だから、GPT-3.5はそれを理解しませんでした。4は理解しました。そして4.0以降はその後それを完璧にこなしました。空間認識があります。
正確に。それはあなたに何を教えますか。現在の超高度なタスクで完全に信頼できるとは限らない場合でも、あなたは超高度なタスク、テストを持っていて、今それを克服しました。それはあなたに軌跡を示します。
だから私にとって、理解とは何を意味するかというような意味論的な議論に巻き込まれるのは非常に簡単だと思います。これらのモデルは本当に理解していますか。単に理解をシミュレートしているだけですか。それは何を意味するのかさえわかりません。それらの言葉が何を意味するのかわかりません。
しかし、モデルにとって不可能だと思うこのタスクをキャプチャする評価を見せてください。そして、モデルが右に忍び寄り始め、それを通り抜け、飽和させるのを見ています。持っていると思います。
それはSam Altmanが以前言ったことのようなものです。知性は本当に予測だけです。予測は知性です。
そして、大規模言語モデルは実際にAGIになることができるという類似した議論のようです。では、自分勝手に聞きたいのですが、私の仕事は危険にさらされていますか。Mr. Beastは、AIはコンテンツクリエイターの生計に対する脅威だと言いました。それが私の仕事です。
何を心配する必要がありますか。心配していますか。どう思いますか。
AIが多くの仕事を変えることは間違いないと思います。現在、多くの人々が行っている仕事で、その後は完全に認識できない方法で変わるか、単にそこにないかのいずれかになる仕事がおそらくいくつかあるでしょう。
考えてさえいない新しい仕事が作成されるでしょう。バランスは何でしょうか。これらの新しい仕事の形は何でしょうか。それについてどう考えるか。そして、基本的に私が考える方法は、形のような1つのことはこのAI革命について真実だと思うということです。社会契約の多くの基本を変えることになると思います。
豊かさの世界に行くと思います。そして、経済的に働いていない場合でも、この素晴らしい生活の質を持つべきだと思います。しかし、努力している場合、ステータスゲームをプレイしている場合、何でもやっている場合、はるかに多くのものが利用可能になり、獲得し、構築し、価値を付加するものがはるかに多くなると思います。だから正直な答えは、AIイベントホライズンの反対側に私たちの前にあるものを誰も正確には知らないということです。
私が知っている1つのことは、今想像できるよりも奇妙で、おそらくより楽しいものになると思うということです。
仕事を始めたばかりなので、続けたいです。
価値があると思うのは、AIが変えるのが難しいと予想することの実際に人間のつながりについてのことだと思います。それは非常に興味深いことです。
また、価値があると思うのは、配管工や電気技師のような熟練した職人のようなものだと思います。彼らはすでに不足していると思いますし、価値を付加することさえできるこれらのドメインでAIを構築することは本当に難しいと思います。
開発者プラットフォームとしてのOpenAI
Codexや OpenAIがリリースする他の製品について話しましょう。開発者イベントにいて、開発者でいっぱいの部屋があります。Agent Kitを発表しました。OpenAI上に構築する開発者は、潜在的なプラットフォームリスクについてどう考えるべきですか。
これは内部で考えていると確信しています。以前にもこの質問を受けたことがあると確信していますが、ミームは、OpenAIがDev Dayを開催するたびに、1000のスタートアップが死ぬというものです。
それは信じていませんが、その会話は内部でどのように見えるかについてのあなたの考えを聞きたかったです。その線はどこに引かれていますか。これが私たちが構築しているものと、これが他の人が構築するためのプラットフォームを提供するものとの間。
この質問をよく受けます。それについて多く考えますし、私たちにとっても非常に重要です。最終的には、世界がこのAIファーストの経済に移行するのを助けたいのです。それが皆を高揚させるものであってほしいですし、それを単独で行うことはできません。絶対にできません。開発者と本当に協力する必要があります。
この技術を現実世界に接続する方法を見つけるために、私たちのプラットフォーム上に構築する人々が必要です。そして、選ばなければなりません。なぜなら、私たちは会社だからです。今は数千人です。多くの人のように聞こえますが、経済全体の規模を見ると、小さいです。ドメインの数、それぞれで良い仕事をするために必要な専門知識の量を見ます。だから、非常に選択的でなければなりません。
そして、本当に考えようとしているのは、相乗効果があるドメインは何か、私たちが専門知識を持っているドメイン、または本当に見ることができるドメインです。たとえばコーディングです。それは私たちがコーディングについて多く知っているものです。そしてコーディングをうまくやれば、私たち自身の仕事をスピードアップします。そこに素晴らしい相乗効果があります。だから、できるだけ多くの人々を増幅する方法について本当に考え、本当に価値を付加できると感じる特定のドメインに深く入ろうとします。
コードはAGIの言語だと思いますか。
素晴らしい質問です。正直なところ、自然言語がAGIの言語になると思います。彼らがお互いに話すのは、少し最適化された英語のようなものかもしれません。たとえば、今年IMOで金メダルを獲得した数学の証明のいくつかを見ると、証明は実際にかなり読みやすいです。しかし、非常に簡潔で、AIが発見した興味深い方言のようなものです。
人間とAIの協働の未来
人間はしばらくの間ループに入っていますか。これらのモデルが良くなるにつれて、中間から中間への押し出しが外側に向かうのを見ていますが、現在、最初にプロンプトし、最後に検証する人間の余地がまだあります。それはどれくらいの間そうなるのでしょうか。永遠にそうなるのでしょうか。それがどのように展開すると思いますか。
この技術の根本的な目的は人間に利益をもたらすことだと思います。そして、人間だけではありません。動物、喜びと喜びを経験できるすべての生き物です。そして、それはAIが皆を高揚させるものであるべき何かだと思います。だから、質問はそれが何を意味するかです。
プロンプトを作成し、コンテキストエンジニアリングのコードを書かなければならない世界にいたいとは思いません。これらはレガシーに感じられる機械的な詳細です。コンピュータがそうではなかったもの、コンピュータがあるべきものではないもののように感じられます。だから、私が望むもの、世界が望むべきだと思うものは、機械を人間に近づけ、あなたの目標は何かを理解し、あなたが目標を達成するのを助けるAIツールです。だから、それが本当の鍵だと思います。
人類を高揚させることを確認したいと思います。それがOpenAIのすべてのミッションであり、それを達成する方向に技術を動かそうとしています。
わかりました。コーディングについてよく考える人にとって、明らかにCodexで多くの時間を過ごし、何が、自然言語コーディング言語であるものを構築することについて考えています。ソフトウェアは完全に生成されるようになると思いますか。一貫性を解決できると仮定して、オペレーティングシステムレベルまでずっと。画面で見るすべてのピクセルがリアルタイムで生成されます。
そう思います。すごくクールになると思います。
完全に生成的なUIがどのように見えるかを考えることは、実際には少し心を曲げるものです。ボタンがありますか。ボタンはありませんか。最も自然なものは何ですか。おそらく私たちが構築するインターフェースの多くは、傾向や、オペレーティングシステムが実際に今どのように機能するかの周りにあることに気づき始めます。
しかし、ゼロから再考できるとしたら、レガシーコードはありません。ファイルやフォルダーなどの概念はありません。どのように見えるでしょうか。実際には答えを知っているとは感じませんが、繰り返しますが、完全に驚くべきものになることを保証します。
わかりました。その未来を少し想像しましょう。まだ開発者はいますか。その世界にはまだアプリケーションがありますか。おそらくそうではないように思えますが、何を見逃していますか。
Soraのようなものを見てください。完全に。ところで、Soraは私にとって本当に興味深いものです。なぜなら、私たちが行ったプロモーションビデオの1つを見ていたことを覚えているからです。Billがスノーモービルに乗っていて、ヘルメットを脱ぐと、「Billはスノーモービルが本当に上手だ」と思いました。そして「ちょっと待って、彼はこれをしなかった」と思いました。そして、人間がどのように関与しているかが非常に異なることに気づきます。彼が実際にスノーモービルをしていた映画とは非常に異なりますが、彼はまだ関与しています。彼はこれの創造的なプロセスについて考えていました。彼のカメオです。このビデオの中に存在する彼についての何かがあり、誰かのカメオでSoraビデオを作ります。あなたはそれを共有しています。それについて興奮しています。
そして、あなたがそれについて興奮したという事実は、実際に私をそれについて興奮させる何かです。そして、今年初めから、画像生成がバイラルになったときから、この教訓を実際に得ました。皆がこれらの、自分自身や家族の肖像画のようなものを生成していました。
生成された画像を作るだけ、あなたの犬の写真が今クールなアニメスタイルに変わったようなもののような、現実に根ざしていない画像だけなら、誰も気にしません。つまらないです。クール、何でも、という感じです。しかし、そこに人間性の要素があるとすぐに、このつながりでそれを根拠づける要素があるとすぐに、人々は本当に興味を持ちます。
そして、人間性の増幅を持つことができると思います。あなたの子供の写真で、今はたくさんのAIの興味深いことが起こっていて、そのアーティファクトは人々がつながる何かです。しかし、ソフトウェアに戻すと思いますが、人々は何らかの動的システムがどのように機能するか、またはアプリの未来が何であれ、それを想像するからアプリを構築するのではないかと思います。
特定の方法で共有するようなものがあったらクールではないでしょうか。そうすれば、AIはあなたの開発者であり、彼らにアウトソースし、彼らは大量のコードまたは完全に生成的なUIを生成します。しかし、キャッチアプリストアで共有します。
素晴らしい人間体験をキュレーションすること、またはさらに短い言葉で言えば、趣味が将来非常に重要になるように本当に聞こえます。実際にアプリを開発できるようなこれらのより難しいスキル以上に。あなたはこの体験をキュレーションするだけです。それがあなたが信じていることですか。
その形のものを信じていると思います。それは良い高次のビットだと思います。世代から世代のモデルに移行する熟練した技能がいくつかあると思います。モデルが何ができるかを本当に探求しようとする人々は、何とか最高の結果を確実に得る傾向があります。
しかし、基本的に、あなたが何を望むかを知ること、良い判断と趣味を持つこと、それらは重要だと思います。
Agentic Commerceとショッピングの未来
StripeのCTOで、Agentic Commerceプロトコルを発表したばかりです。それはずっと前から考えていたことですか、それとも最近の発見ですか。内部で、「これは私たちができる非常にクールなことです。エージェントが私たちに代わってブラウジングし、購入できるようにする」と言ったのは、ずっと前から考えていたことですか。
この分野についてのことは、新しいアイデアはないということです。これらのアイデアはすべて、人々が何度も考えてきたものです。新しいのは、実際にそれらをうまく利用するのに十分なモデルです。そして、プラグインでそれを見ることができます。数年前にプラグインを行いました。
モデルはそれに対して準備ができていませんでした。プラグインが多すぎるとモデルが混乱し、それらをどのように呼び出すかわからなくなるため、一度に3つのプラグインのようなものしかアクティブにできませんでした。そして、今日のモデルは、以前にいた場所よりも無限に信頼性が高いです。
だから、新しいのは時間ですが、必ずしもアイデアではないと思います。
わかりました。そして、ChatGPTを通じて買い物をしますか。Samがそうしていると言っていたのは知っています。
面白いことに、私はあまり多くの買い物をしません。だから、最近の私の買い物の100%はChatGPTを通じてだったと言えます。
わかりました。少し未来について話しましょう。
つまり、今まさにそれについて話していると思いますが、昨年のDev Dayから非常に多くのことが起こりました。GPT-4だったと思いますが、今は1年後で、非常に多くのものをリリースしました。来年、2026年のDev Dayはどのように見えますか。そして2030年のDev Dayはどのように見えますか。
難しい質問です。来年は素晴らしいモデルがいくつかあると思います。
私が最も興奮しているマイルストーンは、難しい問題を解決できるモデルを本当に持つことです。私が好きな類推は、AlphaGoのことを考えることです。2016年、ムーブ37です。それは人々のゲームの理解を変えました。それをコーディング、材料科学で想像してください。医学で想像してください。
そして、AI単独で、あるいはトップの人間と支援されたAIで、本当のブレークスルーを持つことになると思います。そして、それが見え始めると思います。
開発者にとってその有用性は何でしょうか。
ほとんど言い表せないようなものです。あらゆる種類のドメインに対してです。金融の誰かを助けたいなら、彼らの最も難しい金融問題を解決できる最も素晴らしいアプリケーションを構築できます。おそらく最高の金融問題にはまだ到達しないでしょうが、本当に難しい問題に到達すると思います。ところで、多くのコンピュートが必要になります。
だから1つは、人々がこれらのものを適用するこれらのタスクが経済的に価値があることを確認する必要があるということです。そうでなければ、誰もそのコンピュートに資金を提供する意思がないからです。世界のためにやりたいと思う何かであるためにできるものがいくつかあるかもしれません。そして、それは私たちのミッションと非常に一致していると思うものです。
しかし、この技術とこの種のブレークスルーマシンを実現する方法について本当に考えなければならないものになると思います。2030年は本当に予測が難しいと思います。多くの人々のAGI時間軸をはるかに超えているポイントにいると思います。
AGIの時間軸と定義の進化
あなたのAGI時間軸は何ですか。聞かなければなりません。
もちろん、もちろん。通常のすべてのような、曖昧な定義、何でもです。しかし、1〜3年の時間軸にいると思います。
おそらく1よりも3の方に近いと思いますが、2030年までにそこにいなかったら、驚くでしょう。何かうまくいかなかったような感じがするでしょう。
ほとんどの経済的に実行可能な人間の仕事ができるというAGIの同じ定義をまだ持っていますか。あなたの現在の定義は何ですか。変わりましたか。
変わった根本的なことは、私は本当にそれを目的地として考えていたと思います。
ミッションを完了するためにOpenAIを構築しているだけです。
しかし、代わりに、私たちは本当にそれを、そして私はそれについてどう考えるかの成熟に成長したと思いますが、この継続的なプロセスとして考えています。経済的に価値のある仕事で人間とマッチできるAIという特定のポイントがあります。または、2018年に使用した定義が何であれ。そして、それは重要なマイルストーンですが、終わりではありません。
そして、これは本当に重要だと思います。なぜなら、本当にそのフォロースルーについてだからです。AGIについて話すことから超知能へ、またはこれらの言葉をすべて拒否する人々にシフトし始めているのを見ることができます。私にとって、それは最も重要なことではありません。
私にとって重要なことは、AI進歩を遂げることができるか、経済全体を高揚させることができるか、実際にこれらの利益を人々に提供できるかということです。そして、それが何を意味するかを考える必要があります。Soraのようなものについて考えます。ChatGPTで安全性にどのように取り組んでいるかについて考えます。これらは重要なトピックです。それらは私たちのミッションの非常に中核です。だから、私たちは本当に全体のエンドツーエンドについて考えようとします。
しかし、そこにポイントがあり、私たちは振り返って、それが基本的に2018年に話していたことだったと言うと思います。そして、それはそれほど遠くないと思います。
わかりました。皆さん、Greg Brockman、本当にありがとうございました。感謝します。


コメント