
11,483 文字

私たちの次のゲストは紹介する必要がないので、紹介はしません。サム・アルトマンです。ただ言っておきたいのは、サムは私たちが開催した3つのAIイベント全てに参加して考えを共有してくれており、これを本当に感謝しています。ありがとうございます。ここは私たちの最初のオフィスでした。
そうでした。もう一度言ってください。そう、ここが最初のオフィスでした。ここに戻ってこられて嬉しいです。最初のオフィスに戻りましょう。2016年に始めました。2016年ですね。先ほどジェンソン・フアンが来て、最初のGGX1システムをここに届けたと言っていました。そうですね。
今から見ると、あのマシンがどれほど小さく見えるか驚きますね。現在のボックスもまだ巨大ですが、懐かしい思い出です。どれくらいの重さでしたか?まだ一人で持ち上げられるくらいの時代でした。彼は約70ポンド(約32kg)と言っていました。重かったですが、持ち運びはできました。
2016年の時点で、今日ここにいることを想像していましたか?いいえ。あそこに座っていて、14人くらいのチームで、あなたは新しいシステムの開発に取り組んでいました。それでさえ、私たちはホワイトボードを見ながら何をすべきかを話し合っていました。私たちがどれほど研究所のようだったかを過小評価するのは難しいです。強い信念と方向性と確信はありましたが、実際の行動計画はありませんでした。
会社や製品のアイデアは想像できなかっただけでなく、LLMというアイデア自体もまだ遠い将来のものでした。当時はビデオゲームをプレイすることを試みていました。ビデオゲームをプレイすることを試みていました。今でもビデオゲームに挑戦していますか?今は結構上手くなっています。
最初の消費者向け製品であるChatGPTが登場するまでにさらに6年かかりました。その道のりで、偶然の産物としてそのレベルに到達するためのマイルストーンをどのように考えていましたか?
最初の消費者向け製品はChatGPTではありませんでした。そうですね、Dalleでした。最初の製品はAPIでした。途中でいくつかの異なる方向性に賭けることにしました。最終的に、研究論文を書くだけでなく、実際にシステムが機能するかどうかを確認する必要がありました。ビデオゲームをプレイできるか、ロボットハンドを作れるか、他のいくつかのことができるかを見てみようとしました。
ある時点で、最初は一人から始まり、最終的にはチームがロートルな学習と言語モデルの構築に取り組むことに興味を持ちました。それがGPT-1、そしてGPT-2につながりました。GPT-3の時点で、私たちはかなりクールなものを持っていると思いましたが、それをどうすればいいのか分かりませんでした。
また、さらにスケーリングするためにもっと多くのお金が必要だと気づきました。GPT-3を作り、GPT-4に進みたいと思っていましたが、数十億ドル規模のモデルの世界に入っていました。それは純粋な科学実験としては難しいです。粒子加速器のような施設でさえ難しいでしょう。
そこで、必要な投資を維持できるビジネスになる方法を考え始めました。また、これが実際に役立つものに向かっていると感じていました。GPT-2をモデルウェイトとして公開しましたが、あまり大きな反響はありませんでした。私が企業や製品について一般的に観察したことの一つは、APIを提供すれば何らかの形でうまくいくということでした。
これは多くのYC企業に当てはまることでした。また、何かをより使いやすくすれば、通常は大きな利益があります。これらのモデルを実行するのは難しく、モデルも大きくなっていたので、ソフトウェアを書いて、モデルを効率的に実行する方法を考えました。また、何を構築すべきか分からなかったので、製品を構築するのではなく、他の誰かが何かを構築することを期待しました。
2020年6月頃だったと思いますが、GPT-3をAPIで公開しました。世間一般は関心を示さなかったものの、シリコンバレーは「これはクールだ、何かを指し示している」と反応しました。ほとんどの人からは注目されなかったのに、一部のスタートアップ創業者は「これは本当にクール」または「これはAGIだ」と言いました。
GPT-3 APIで実際にビジネスを構築した唯一の企業は、コピーライティングをサービスとして提供する数社でした。それがGPT-3が経済的閾値を超えた唯一のものでした。
しかし、最終的にChatGPTにつながった一つのことに気づきました。人々はGPT-3 APIでビジネスを構築することはできなかったものの、プレイグラウンドでモデルと会話することを楽しんでいました。当時はRHF(強化学習による人間からのフィードバック)を使ってチャットを簡単にする方法を見つけていなかったので、チャットは酷いものでしたが、それでも人々はそれを楽しんでいました。
ある意味で、それはコピーライティング以外のAPI製品の唯一のキラー用途で、最終的にChatGPTを構築するきっかけとなりました。ChatGPT 3.5が登場した頃には、APIでビジネスを構築できるカテゴリーが1つから8つほどに増えていました。しかし、人々がモデルと会話したいという私たちの確信はとても強くなっていました。
Dalleを作り、それはまあまあうまくいっていましたが、特にファインチューニングができるようになったこともあり、モデルと会話できる製品を構築したいと考えていました。2022年頃に発売しました。そう、約6年後の2022年11月30日です。それに至るまでに多くの作業がありました。今では週に5億人以上の人々がそれと会話しています。
観客からの質問を受け付ける準備をしてください。これはサムのリクエストでした。パットが言ったように、あなたはこれまでのすべてのASCENDに参加しており、多くの浮き沈みがありましたが、過去6ヶ月は製品をどんどんリリースしているように見えます。多くのものをリリースしてきましたが、製品の速度、リリースの速度が継続的に上がっているのは驚くべきことです。
これは複数の質問です。大きな企業でどのように製品速度を時間とともに上げてきたのですか?多くの企業が犯す間違いは、大きくなっても新しいことをしないことです。大きくなるべきだからただ大きくなるだけで、同じ量の製品しかリリースしません。それが本当に停滞するときです。
私は全員が忙しくあるべきだと強く信じています。チームは小さく保ち、社員数に対して多くのことをすべきです。そうしないと、あらゆる会議に40人もの人が参加し、製品のわずかな部分を巡って大きな争いが起こります。
ビジネスにおける古い観察として、優れた幹部は忙しい幹部だということがあります。私たちの会社や他の多くの会社では、研究者、エンジニア、製品担当者がほとんどの価値を生み出しており、そういった人々には忙しく、高い影響力を持ってもらいたいです。
成長するなら、より多くのことをしなければなりません。そうでなければ、多くの人が部屋で争ったり、会議に参加したり、何かについて話し合ったりするだけになります。私たちは比較的少数の人に大量の責任を持たせるようにしています。そしてそれを機能させるには、多くのことをする必要があります。
また、私たちは多くのことをする必要があります。私たちは今、重要なインターネットプラットフォームの一つを構築する機会があると思います。もし私たちが本当に人々のパーソナライズされたAIとなり、多くの異なるサービスで、人生を通じて、そしてこれらの異なる主要カテゴリーやより小さなカテゴリーすべてにわたって使用されるなら、構築すべきものはたくさんあります。
過去6ヶ月でリリースしたもので特に誇りに思うものはありますか?今のモデルは本当に優れています。まだ改善すべき領域はもちろんありますし、それに向けて急速に取り組んでいますが、現時点でChatGPTは非常に優れた製品だと思います。モデルが非常に優れているからです。
他にも重要な要素はありますが、一つのモデルが多くのことをとても上手くできることに驚いています。小さなモデルと大きなモデルを構築し、多くのことをしているとのことですが、この業界の人々はどうすれば足を引っ張られずに済むのでしょうか?
私たちのモデルは、人々の「コアAIサブスクリプション」と、それを使用する方法を構築したいと考えています。その一部はChatGPT内でできることです。また、そのサブスクリプションの他の重要な部分もいくつか持つでしょう。しかし主に、私たちはより賢いモデルを構築し、将来のデバイスや将来のオペレーティングシステムのようなものなど、さまざまな表面を持つでしょう。
まだ私たちのプラットフォームとなるAPIやSDKなどを正確にどうするかは決まっていませんが、決めます。数回試行錯誤が必要かもしれませんが、必ず実現します。それによって世界に信じられないほどの富の創造を可能にし、他の人々がその上に構築できるようにしたいと思います。
しかし、私たちは「コアAIサブスクリプション」とモデル、そして中核サービスを目指します。そしてまだ構築すべき多くのものがあるでしょう。つまり、コアAIサブスクリプションにはならないでほしいが、それ以外のことはできるということですね?私たちは試みます。もし私たちよりも優れたコアAIサブスクリプションを提供できるなら、どうぞやってみてください。それは素晴らしいことです。
3,400億ドルの評価額で400億ドルを調達しているという噂がありますが?噂ですね…私たちが発表したのかどうか分かりません。発表したかどうか確認したかっただけです。そこからのあなたの野心の規模は何ですか?
これから素晴らしいモデルを作り、良い製品を提供していきます。それ以上のマスタープランはありません。確かにOpenAIの人々が観客にいるので、彼らがそれを証明できるでしょう。私たちは「クレイジーな複雑なことをしよう」という逆算はしません。
通常、それはうまくいきません。私たちはAIインフラが大量に必要だと知っています。大量のAI工場のボリュームを構築する必要があります。モデルをより良くする必要があり、優れた消費者向け製品とそれに関連するすべての部分を構築する必要があります。
しかし、私たちは機敏さと世界の変化に応じた戦術の調整を誇りにしています。来年構築する製品について、おそらく今は考えていないでしょう。私たちは人々が本当に愛する製品セットを構築できると信じています。それに対する揺るぎない自信があり、素晴らしいモデルを構築できると信じています。
実際、私は今ほど私たちの研究ロードマップに楽観的だったことはありません。研究ロードマップには何がありますか?本当に賢いモデルです。しかし、目の前のステップについては、一度に1つか2つずつ考えています。
前に進むことを信じていて、必ずしも逆算することを信じていないのですね?一部の人々が、彼らがどこに行くのか、どう逆算するのか、世界を征服する方法など、素晴らしい戦略について話すのを聞いたことがあります。しかし、そのような人々が本当に大成功するのを見たことはありません。
質問がある方?マイクがこちらに来ています。大企業がAIネイティブになるための組織変革について、ツールの使用と製品の製造の両面で何を間違えていると思いますか?小さな企業が明らかにイノベーションにおいて大企業を打ち負かしています。
これは基本的にすべての主要な技術革命で起こることです。驚くべきことは何もありません。彼らが間違っていることは、常に間違っていることと同じです。人々は自分のやり方に固執してしまいます。組織も同様です。
もし四半期ごとに多くの変化があり、情報セキュリティ委員会が年に一度しか会議を開かず、どのアプリケーションを許可するか、どのようにデータをシステムに入れるかを決めるなら、それを見るのは本当に痛ましいことです。しかし、これはクリエイティブな破壊です。これがスタートアップが勝つ理由であり、業界が前進する方法です。
大企業がこれを受け入れる速度には失望していますが、驚いてはいません。私の予測では、あと数年は戦い、これがすべてを再形成することを装わず、最後の瞬間に急いで対応するでしょうが、時すでに遅しとなります。一般的に、スタートアップは古いやり方を続ける人々を追い越します。
これは人々にも当てはまります。平均的な20歳がChatGPTをどう使うかを見て、それから平均的な35歳がどう使うかを見ると、その違いは信じられないほどです。スマートフォンが登場したときのようで、子どもたちはすぐに上手に使えるようになりましたが、年配の人々は基本的なことができるようになるまで3年ほどかかりました。もちろん、人々は徐々に統合していきますが、現在のAIツールに関する世代間の隔たりは驚くべきものであり、企業はそのもう一つの症状に過ぎません。
他に質問はありますか?それに関連して、若い人々がChatGPTを使っているクールな使用例で、私たちを驚かせるようなものはありますか?
彼らは本当にオペレーティングシステムのようにそれを使っています。複雑な方法でセットアップし、多くのファイルに接続し、頭の中に複雑なプロンプトを記憶していたり、コピー&ペーストできる場所に保存していたりします。それらはすべてクールで印象的ですが、もう一つあるのは、彼らは人生の決断をするときにChatGPTに相談せずには決断しないということです。
ChatGPTは彼らの人生のすべての人物についての全コンテキストを持ち、メモリ機能が本当に変化をもたらしています。大まかに言えば、年配の人はChatGPTをGoogleの代替として使い、20代や30代の人は人生のアドバイザーとして使い、大学生はオペレーティングシステムとして使っています。
OpenAI内部ではどのように使っていますか?多くのコードを書かせています。どれくらいの量ですか?数字は分かりません。また、人々が数字を言うときは常に非常に愚かなことだと思います。マイクロソフトのコードの20-30%が書かれていると言っても、コード行数で測るのは狂気の沙汰です。
意味のあることを言えるとすれば、それは意味のあるコードを書いているということです。量は分かりませんが、実際に重要な部分を書いています。興味深いですね。次の質問。
サム、マイクが離れていきますが大丈夫ですか?アルフレッドの質問に対する答えで、消費者向けとコアサブスクリプションに焦点を当てていることが興味深いと思いました。また、収益の大部分は消費者向けサブスクリプションから来ています。10年後もAPIを維持する理由は何ですか?
将来的にはすべてが一つのものに統合されることを本当に望んでいます。他のサービスにOpenAIでサインインできるべきです。他のサービスはChatGPTのUIを引き継ぐための素晴らしいSDKを持つべきです。あなたを知り、あなたの情報を持ち、後で何を共有したいかを知り、あなたに関するすべてのコンテキストを持つパーソナライズされたAIを持つなら、多くの場所でそれを使いたいでしょう。
現在のAPIバージョンはそのビジョンからはまだ遠いですが、そこに到達できると思います。それに関連した質問があります。その質問を奪ってしまったようですね。アプリケーションレイヤーの会社を構築している多くの人々は、それらの構成要素、異なるAPIコンポーネント、Deep Research APIなどを使って何かを構築したいと思っています。そのプラットフォームを可能にすることは優先事項になるのでしょうか?
それらの間の何かを望んでいます。HTTPのような未来のインターネットのための新しいプロトコルがあり、物事が連携し、より小さなコンポーネントに分解され、エージェントが常に異なるツールを公開・使用し、認証、支払い、データ転送がすべての人が信頼するレベルで組み込まれている状態を望んでいます。
すべてがすべてと通信します。まだそれがどのようなものかは完全には分かりませんが、霧の中から出てきています。それについてより良い感覚を得るにつれて、そこに到達するためにはおそらく数回の反復が必要でしょうが、そういう方向に物事が進むことを望んでいます。
サム、後ろの方からです。私の名前はロイです。AIは明らかにより多くの入力データでより良くなります。センサーデータを取り込むことについて考えはありますか?温度など、物理的な世界のデータを取り込むことで、AIが現実をより良く理解できるのではないでしょうか。
人々はそれをよくやっています。人々はセンサーデータをAPIに入れ、一部のユースケースでは本当にうまく機能します。最新のモデルはこれをうまく処理しているように見えますが、以前はそうではありませんでした。そのため、おそらくいつかもっと明示的に組み込むでしょうが、すでに多くのことが起こっています。
こんにちは、サム。プレイグラウンドで音声モデルを試すことにとても興奮しました。2つ質問があります。まず、インフラの観点でOpenAIにとって音声はどれほど重要ですか?また、製品とChat GPTのコア部分でどのように登場すると思いますか?
音声は非常に重要だと思います。正直に言って、私たちはまだ十分に良い音声製品を作っていません。それでも大丈夫です。十分に良いテキストモデルを作るのにも時間がかかりました。いつか必ずそのコードを解読し、それができたとき、多くの人々が音声インタラクションをもっと使いたいと思うでしょう。
最初に現在の音声モードをリリースしたとき、最も興味深かったのは、タッチインターフェースの上に新しいストリームがあり、話しながら同時に電話で何かをクリックできることでした。音声とGUIのインタラクションには、まだ解明していない素晴らしいことがあると思い続けています。
その前に、まず音声を本当に素晴らしいものにします。そうすれば、既存のデバイスでクールなだけでなく、本当に人間レベルの音声を実現できれば、音声が全く新しいクラスのデバイスを可能にすると思います。
コーディングについても同様の質問です。コーディングは単なる別の垂直アプリケーションですか、それともOpenAIの未来にとってより中心的なものですか?
それはOpenAIの未来にとってより中心的なものです。コーディングは、これらのモデルがどのように機能するかの中心になると思います。現在、ChatGPTに応答を求めると、テキストが返ってきたり、画像が返ってきたりします。しかし、プログラム全体が返ってくることが望ましいです。
すべての応答に対してカスタムレンダリングされたコードが欲しいと思います。少なくとも私はそう思います。これらのモデルが世界で物事を起こし、多くのAPIを呼び出したりする能力が欲しいです。そのため、コーディングはより中心的なカテゴリーになると思います。
もちろん、APIやプラットフォームを通じてもそれを公開しますが、ChatGPTもコード作成に優れているべきです。アシスタントからエージェント、そして基本的にアプリケーションへと移行するのですね?非常に連続的に感じると思いますが、はい。
より賢いモデルについてのロードマップに確信を持っているとのことですが、素晴らしいですね。私の心の中では、より多くのデータ、より大きなデータセンター、トランスフォーマーアーキテクチャ、テスト時のコンピュートなどの要素があります。過小評価されている要素や、ほとんどの人の心のモデルにはないが、その組み合わせの一部になるものは何でしょうか?
これらの要素はそれぞれ本当に難しいです。明らかに最も影響力のあることは、大きなアルゴリズムのブレークスルーです。まだ10倍や100倍のブレークスルーがいくつか残っていると思います。そう多くはありませんが、1つか2つあるだけでも大きな違いです。
アルゴリズム、データ、コンピュートが主要な要素です。こんにちは。あなたは世界最高のMLチームの一つを率いています。賢い人々にイッサのように深い研究を追求させることと、トップダウンで「これを構築しよう、実現しよう、うまくいくかどうかは分からないが」と言うことのバランスをどのようにとっていますか?
調整が必要なプロジェクトもあるので、トップダウンのコーディネーションが必要な場合もありますが、多くの人がそれを過剰にやりすぎていると思います。おそらく他の方法で優れたAI研究や優れた研究所を運営する方法はあるでしょうが、OpenAIを始めたとき、優れた研究所がどのようなものかを理解するために多くの時間を費やしました。
そのためには過去に遡る必要がありました。実際、私たちにアドバイスできる人のほとんどはすでに亡くなっていました。優れた研究所が存在してから長い時間が経っていました。人々はよく、なぜOpenAIが繰り返しイノベーションを起こし、他のAI研究所が模倣するのか、なぜバイオラボXは良い仕事をせず、バイオラボYは良い仕事をするのかと尋ねます。
私たちは常に「これが私たちが観察した原則です。これが私たちがそれらを学んだ方法です。これが私たちが過去を見たものです」と言います。そして皆は「素晴らしい」と言いますが、「別のことをやります」と言います。それは構いません。アドバイスを求めに来たのに、好きなことをすればいいです。
しかし、私たちが研究所を運営するためにしようとしているこれらの少数の原則(私たちが発明したわけではなく、歴史上の他の優れた研究所から恥知らずにコピーしたもの)が私たちにとってどれほどうまく機能しているかは驚くべきことです。そして、何か他のことをする賢い理由を持っていた人々は、それがうまくいきませんでした。
これらの大規模モデルについて、知識を愛する者として本当に魅力的なことの一つは、人文科学における芸術的な周期的変化に関する長年の疑問や、体系的な偏見などが社会でどの程度実際に起こっているのかを検出できるという点です。これらは以前は仮説を立てるだけでした。OpenAIは学術研究者と協力して、人文科学や社会科学で初めて学ぶことができるこれらの新しいことを解き明かすための考えやロードマップを持っていますか?
持っています。人々がそこで何をしているかを見るのは素晴らしいことです。私たちは学術研究プログラムを持っており、パートナーシップを組んでカスタム作業をすることもありますが、ほとんどの人は単に「モデルへのアクセスが欲しい」または「基本モデルへのアクセスが欲しい」と言います。そして私たちはそれに非常に優れていると思います。
私たちがやっていることのクールな点の一つは、モデルをできるだけ賢く、安く、広くアクセス可能にするようにインセンティブ構造が構築されていることであり、それは学術界や世界全体に非常に役立ちます。いくつかのカスタムパートナーシップを持っていますが、多くの場合、研究者やユーザーが本当に望んでいるのは、私たちが一般的なモデルを全体的により良くすることだと分かりました。
そのため、私たちの取り組みの約90%をそれに集中させるよう努めています。カスタマイズについてどのように考えているか知りたいです。OpenAIでのサインイン、記憶の持ち込み、コンテキストについて言及しましたが、カスタマイズやアプリケーション固有のポストトレーニングは、コアモデルをより良くするための一時的な解決策だと思いますか?そしてそれについてどのように考えていますか?
理想的な状態は、非常に小さな推論モデルに1兆のトークンのコンテキストを持たせ、あなたの人生全体をそこに入れることだと思います。モデルは再トレーニングされず、重みはカスタマイズされませんが、そのモデルはあなたの全コンテキストにわたって推論でき、効率的にそれを行うことができます。
あなたがこれまでに行ったすべての会話、読んだすべての本、読んだすべてのメール、見たすべてのものがそこにあり、さらに他のソースからのすべてのデータが接続されています。あなたの人生はコンテキストに追加され続け、あなたの会社も同じことをすべての会社のデータに対して行います。
今日はそこに到達できませんが、他のすべてのものはその理想からの妥協だと考えています。そして最終的には、そのようにカスタマイズを行いたいと思っています。
最後の質問を後ろから。こんにちは、サム。時間をありがとうございます。今後12ヶ月間で、価値創造の大部分はどこから来ると思いますか?高度なメモリ機能、セキュリティ、またはエージェントが現実世界でより多くのことをし、相互作用できるようにするプロトコルのどれでしょうか?
ある意味で、価値は本当に3つのことから継続的に生まれるでしょう。より多くのインフラストラクチャの構築、より賢いモデル、そしてこれらを社会に統合するための足場作りです。それらを推進すれば、残りは自然と解決すると思います。
より詳細なレベルでは、2025年はエージェントが仕事をする年になると思います。特にコーディングが支配的なカテゴリーになると予想しています。他にもいくつかあると思います。来年はAIが新しいものを発見する年になるでしょう。おそらくAIが非常に大きな科学的発見をしたり、人間がそれを行うのを支援したりするでしょう。
私は、人類の歴史における本当の持続可能な経済成長の大部分は、地球に広がって植民地化した後は、より良い科学的知識からもたらされ、それを世界に実装することから来ると信じています。そして2027年は、それがすべて知的領域から物理的世界に移行し、ロボットが好奇心の対象から真剣な経済的価値の創造者になる年だと思います。
しかし、これはその場で思いついた推測です。いくつかの簡単な質問で締めくくってもいいですか?素晴らしい。ChatGPT-5は、ここにいる私たち全員より賢くなるのでしょうか?もしあなたがGPT-3よりはるかに賢いと思うなら、まだ少し道のりがあるかもしれませんが、GPT-3はすでにかなり賢いです。
2つの個人的な質問です。前回あなたがここにいたとき、OpenAIとの小さな問題を乗り越えたところでした。今、perspective(視点)とdistance(距離)を得て、ここにいる創業者たちに回復力、持久力、強さについてのアドバイスはありますか?
時間が経つにつれて楽になります。創業者として多くの逆境に直面し、課題はより難しく、より高い賭けになっていきますが、より多くの悪いことを経験するにつれて、感情的な負担は軽くなっていきます。
抽象的には課題がより大きく難しくなりますが、それに対処する能力、構築した回復力は、一つ一つ経験するたびに簡単になります。創業者として直面する大きな課題の最も難しい点は、それが起きる瞬間ではありません。
会社の歴史では多くのことがうまくいかなくなります。急性の状況では、多くのサポートを得られ、アドレナリンで機能できます。本当に大きな問題、例えば会社のお金が尽きて失敗するようなことでも、多くの人があなたをサポートし、乗り越えて次のことに進むことができます。
自分の心理状態を管理するのがより難しいのは、危機の後の余波です。人々は危機の最中の対処法に焦点を当てがちですが、本当に価値のあることは、どのように破片を拾い上げるかを学ぶことです。それについて創業者たちに読むべき良いものを見つけたことがありません。
危機の0日目や1日目や2日目にどう対処するかではなく、60日目にどのように再構築するかについてです。それは練習して上達できる領域だと思います。サム、ありがとうございます。あなたは公式には育児休暇中ですね。ここに来て私たちと話してくれてありがとうございます。感謝します。


コメント