本動画は、OpenAIの共同創設者兼社長であるグレッグ・ブロックマンが、AIの自己改善、スーパーアプリへの戦略的な注力、AGI(汎用人工知能)への道筋、そして計算リソースのスケーリングについて語ったインタビューである。動画生成AIから推論モデルへのリソース移行の理由や、ビジネスと個人生活の双方を支える次世代AIエージェントの展望、さらには増大する電力需要や社会的な懸念に対するOpenAIのスタンスまで、今後のAI開発の最前線が詳細かつ実践的な視点から解説されている。

AGIへの展望と圧倒的な需要
ここ数年のうちにAGI(汎用人工知能)が実現することは極めて明白だと思います。まだ能力にばらつきはあるでしょうが、コンピューターを使うあらゆる知的作業において、AIがそのタスクの最低ラインをこなせるようになるはずです。
OpenAIで最も恐ろしかった瞬間は、実はChatGPTをローンチした後のことでした。ホリデーパーティーに参加した際、「私たちは勝ったんだ」という雰囲気を肌で感じたのを覚えています。それまで、そんな感覚を抱いたことは一度もありませんでした。「いや、私たちは常にチャレンジャーであり、これまでもずっとそうだったじゃないか」と思ったのです。
ChatGPTをローンチした瞬間、チームとまさにこんな会話をしたのを覚えています。彼らが「計算リソース(コンピュート)はどれくらい買うべきでしょうか?」と聞いてきたので、私は「全部だ」と答えました。彼らが「いやいや、真面目な話、どれくらい買うべきですか?」と聞き返すので、「私たちがどれだけ構築しようと努めても、需要には絶対に追いつけないと確信している」と伝えたのです。
今回は、OpenAIの共同創設者であり社長のGreg Brockman氏をスタジオにお迎えし、AIの最も有望な機会や、OpenAIがそれをどう活かそうとしているのか、そして「スーパーアプリ」とは一体何なのかについて伺います。本日はお越しいただきありがとうございます。
お招きいただきありがとうございます。
現在、OpenAIは動画生成の取り組みを縮小し、ビジネスとコーディングのユースケースを組み合わせたスーパーアプリにエネルギーを注いでいる時期にお話を伺っています。私を含め、外部から見ている人間にとっては、OpenAIはコンシューマー向けで勝者となっているのに、今になってリソースを移行させているように見えます。一体何が起きているのでしょうか。
戦略的シフトとスーパーアプリへの注力
私たちがこれまで進めてきたのは、ディープラーニングというテクノロジーを開発し、私たちが常に思い描いてきたようなポジティブなインパクトを本当に生み出せるかどうかを見極める世界でした。人々を助け、彼らの生活を豊かにするアプリケーションを構築できるか、という段階です。
それとは別に、このテクノロジーを実際にデプロイ(展開)しようとする部門もありました。ビジネスを維持するためであったり、現実世界での影響を測る実践的な経験を積むためであったりします。それは、このテクノロジーが実際に結実し、私たちがこの会社を立ち上げた時に思い描いていたすべてのことが現実になる時のための準備でもありました。
そして今、私たちはこのテクノロジーが確実に機能するという確証を得た瞬間にいます。ベンチマークでのテストや、ある種「頭脳的」な能力のデモンストレーションといった段階から抜け出し、さらに開発を進めるためには、現実世界でテクノロジーを稼働させ、人々が知識労働や様々なアプリケーションでどのように利用しているかというフィードバックを得る必要がある段階に来ているのです。
ですから、これはテクノロジーの進化のフェーズに伴う、より大きな戦略的シフトだと捉えてください。「コンシューマー向けからB2Bへ移行する」というよりも、「私たちが注力できる最も重要なアプリケーションは何か」を問い直しているのです。すべてに注力することは不可能ですからね。私たちが開発していく中で相互にシナジーを生み出し、意味のあるインパクトをもたらし、すべての人を向上させるようなものは何か、ということです。
リストを見てみると、コンシューマー向けには様々な形がありますが、一つのパーソナルアシスタントのようなものがあります。あなたを理解し、あなたの目標に寄り添い、人生で成し遂げたいことを手助けしてくれる存在です。また、創造的な表現やエンターテインメントなど、他の多くのアプリケーションもあります。
一方、ビジネス側に目を向けると、俯瞰してみれば「困難なタスクがあり、AIがそれを実行できるか。そのためのコンテキスト(文脈)をすべて持っているか」という一つのことに集約されるかもしれません。私たちにとって明確なのは、優先順位のトップに2つのものがあるということです。一つはパーソナルアシスタント、もう一つは困難な問題を解決してくれるAIです。
私たちが保有している計算リソースを見ると、この2つに資金を投じるだけでも十分とは言えません。そこに他の多くのアプリケーションや、AIが人々の役に立つであろう様々なものを追加し始めると、到底すべてを網羅することは不可能です。
つまり、これはテクノロジーが成熟し、これから急速に信じられないほどのインパクトをもたらすという認識の表れであり、私たちが世界に提供し、輝かせたいと願うアプリケーションのセットをしっかりと優先順位付けして選択する必要があるということなのです。
OpenAIの様々な取り組みについてお話しされる際、よく「OpenAIはディズニーのような存在になり得る」と表現されていますよね。中心に圧倒的な優位性があり、それを様々な形で展開していくという考え方です。ディズニーにはミッキーマウスがいて、そこから映画やテーマパーク、Disney+を展開しています。OpenAIにとってはそれがモデルであり、動画生成を行ったり、アシスタントになったり、エンタープライズや仕事のサポートをしたりできるわけです。
では、そのような中心的な優位性を保ちながら、あらゆる方向に展開していくことはもはや不可能になったということでしょうか? つまり、選択と集中をすべき時が来たと判断されたのですか。
実は、ある意味ではそのストーリーは以前よりもさらに真実味を増していると思っています。しかし、技術的に理解しておくべき重要な点は、Soraのモデル(ちなみにこれは驚異的なモデルですが)は、コアとなる推論能力を持つGPTシリーズとは異なる技術ツリーの枝にあるということです。
これらは全く異なる方法で構築されており、ある意味、これらのアプリケーションのために私たちが両方の枝を追求し続けるのは非常に困難だと言わざるを得ません。
開発ツリーの選択:SoraからGPTの推論能力へ
もちろん、ロボティクスの文脈ではSoraの研究プログラムを継続しています。ロボティクスは明らかに変革をもたらすアプリケーションになると確信していますが、まだ少し研究フェーズにあります。ロボティクスはまだ十分に成熟しておらず、今後1年間で知識労働の分野で起こるような、このテクノロジーの真の飛躍的な普及と同じようには展開できません。
そのため、現時点ではGPTシリーズの開発に最優先で注力する必要があるという認識に至りました。これは単にテキストだけを意味するわけではありません。例えば、双方向のコミュニケーションや優れた音声インターフェースを持つといった頭脳的な機能も含まれます。これらもこのテクノロジーを非常に使いやすく、有用なものにしますが、技術ツリーの異なる枝というわけではありません。これらはすべて一つのモデルであり、あなたがおっしゃったように、それを少しずつ異なる形で調整しているのです。
計算リソースが限られている世界では、枝分かれしすぎて2つの異なるアーティファクト(成果物)を持つことは、維持するのが非常に困難になります。なぜ計算リソースが限られているかというと、需要が膨大だからです。私たちが作成するすべてのモデルに対して、人々がやりたいことが山のようにあるからです。
なるほど。では、動画が物体の動きを理解するような、いわゆる世界モデル(ワールドモデル)のバージョンには賭けない理由について少しお話しいただけますか。ロボティクスには明らかに有用だと思いますが、Soraで確かな進展が見られていたこの分野ではなく、なぜGPTの推論モデルのツリーに賭けているのでしょうか? 動画生成の第1世代、第2世代、第3世代の進歩は凄まじかったのに、なぜ今の場所に注力するのですか。
この分野における問題は、機会が多すぎるということです。私たちがOpenAIの非常に初期の段階で観察したのは、想像し得るすべてのことがうまく機能するということでした。もちろん、そこに伴う摩擦のレベルや、必要なエンジニアリングの労力、計算リソースの要件などは異なりますが、数学的に健全である限り、あらゆる異なるアイデアでかなり良い結果が得られ始めるのです。
これは、ディープラーニングという基盤技術の力、つまり、あらゆる種類の問題の本質に迫り、データを生成した根本的なルールを真に理解するAIを持つ能力を示していると思います。データそのものが重要なのではなく、根底にあるプロセスを理解し、それを新しいコンテキストに適用できるかどうかが重要なのです。それは世界モデルでも、科学的発見でも、コーディングでも可能です。
このテクノロジーの展開を考える上で私たちが現在いる場所は、「テキストモデルはどこまで到達できるのか? テキストの知能はどこまでいけるのか? 世界がどのように機能しているかについて、真の概念を持つことができるのか?」という議論があった場所です。
そして、私たちはその問いに対して明確な答えを出したと思っています。それはAGIへとつながる道であり、私たちにはその視界が開けています。今年登場するさらに優れたモデルの道筋が見えているのです。OpenAIの社内では、計算リソースをどう割り当てるかという苦悩が常にあり、それは時間とともに減るどころか増しています。
ですから、核心にあるのは順序付けとタイミングの問題なのだと思います。今この瞬間、私たちがずっと夢見てきたようなアプリケーションが手の届くところに来始めています。例えば、未解決の物理学の問題を解決することなどです。最近、ある物理学者が長年取り組んでいた問題を私たちのモデルに与えたところ、12時間後には解決策が導き出されたという結果がありました。彼は「モデルが実際に『考えている』と感じたのはこれが初めてだ。人類が決して解決できないかもしれないと思っていた問題を、AIが解決したような感覚だった」と語っています。
そのような出来事を目にすれば、2倍、3倍の投資をして注力しなければなりません。なぜなら、人類のためのその計り知れない可能性を本当に解き放つことができるからです。
私にとってこれは、これらの要素の相対的な重要性の問題ではありません。OpenAIの使命である「AGIを世界に届けること」、そしてそれがどのようにすべての人に利益をもたらすかという私たちのビジョン、さらに、それを推し進め、エンジニアリングを行い、さらなる科学と研究を進めて実現させる方法が見えている技術ツリーを持っているという事実が重要なのです。
なるほど。後ほど、今後予定されている次世代モデルのラインナップについても伺いたいのですが、その前にもう少しこの点について掘り下げさせてください。
今年初め、Google DeepMindのDemis Hassabis氏とお話ししたのですが、彼にとってAGIに最も近いと感じられるのは、彼らが開発している画像生成AIのNano Bananaだと言うのです。その理由は、画像や動画の生成AIがそれらを作成するためには、オブジェクト間の相互作用を理解し、世界がどのように機能しているかについて少なくとも何らかの概念を持っている必要があるからです。
これは大きな賭けだとは思いますが、もしそれが事実だとしたら、別のツリーに倍賭けすることで、OpenAIは何か重要なものを見落とす可能性はありませんか?
2つの答えがあります。一つは、絶対にあるということです。ええ、この分野では選択を迫られます。賭けに出なければならないのです。そして、それこそがOpenAIの原点でもあります。私たちは「私たちが信じるAGIへの道は何か」を真剣に考え、そこに強く注力しました。ランダムなベクトルを足し合わせるとゼロになってしまいますが、ベクトルを揃えれば一つの方向に進むことができます。
もう一つのポイントは、画像生成は実際にChatGPTの中で非常に人気があり、私たちが引き続き投資し、優先順位を高く置いている分野だということです。私たちがそれができる理由は、それが世界モデルのような拡散モデルの技術ブランチ上にあるのではなく、実際にはGPTのアーキテクチャに基づいているからです。
ですから、データの分布が異なっていても、コアとなる技術スタックにおいてはすべて一つのものなのです。これこそがAGIの本当に驚くべき点です。音声対音声、画像生成、テキストといった全く異なるように見えるアプリケーション(ちなみにテキスト自体も、科学、コーディング、個人の健康情報など多面的です)のすべてを、一つの技術的な枠組みの中で実現できるのです。
私が、そして会社として技術的な観点から注目していることの多くは、私たちの取り組みをいかに統合するかということです。なぜなら、私たちはこのテクノロジーが経済全体を押し上げ、動かすものになると確信しているからです。経済全体というのは巨大なものです。私たちがそのすべてを担うことは到底できませんが、私たちが担うべき役割、つまり「汎用人工知能(Artificial General Intelligence)」の「General(汎用的)」な部分を果たすことはできるのです。
それがAGIの「G」の部分ですね。
まさにその通りです。
スーパーアプリがもたらす未来のユーザー体験
統合(ユニファイ)という言葉が出ましたが、この「スーパーアプリ」とは一体どのようなものになるのでしょうか? コーディング、ブラウザ、そしてChatGPTを一つにまとめるという理解でよろしいですか。
その通りです。私たちが望んでいるのは、AGIの力、つまりその汎用性を真に体験できるようなエンドポイントとなるアプリケーションを構築することです。
現在のChatGPTについて考えてみてください。ChatGPTは今後、あなたのパーソナルアシスタント、つまり「あなた専用のAGI」になっていくと考えています。あなたを見守り、あなたのことをよく知り、あなたの目標に沿って行動し、信頼でき、このデジタル世界であなたを代表するようなAIです。
現状では、ソフトウェアエンジニアのために作られたツールだと考えられるかもしれませんが、それはすべての人にとってのCodexになりつつあります。望めば誰でもCodexを使い、コンピューターに自分の望むことを実行させることができるようになります。
そして、それはもはやソフトウェアを書くことだけにとどまりません。コンピューターの使い方そのものに関するほぼすべてのことです。例えば、私はノートパソコンの設定を行うのにも使います。「ホットコーナーの設定方法を忘れたから、Codexにお願いしよう」と指示すれば、ただ実行してくれます。
コンピューターは本来、人間がコンピューターに合わせるのではなく、人間に合わせて適応するべきものです。あなたがコンピューターにさせたいことを何でも頼めるような、一つのアプリケーションを想像してみてください。
AIが実際にウェブブラウザを使えるようにするためのブラウジング機能が組み込まれており、ユーザーはAIの行動を監視できます。また、チャットであろうと、コードであろうと、一般的な知識労働であろうと、アプリケーションに関係なくすべての会話が一つの方法で統合されます。AIは記憶を持ち、あなたのことを知っています。私たちが構築しているのはそういったものですが、それはまだ氷山の一角にすぎません。
私にとってさらに重要なのは、技術的な統合です。基盤となるモデルのケースで少し触れましたが、過去数年間で本当に変わったのは、もはやモデルだけの問題ではなくなったということです。
それは「ハーネス(制御の仕組み)」の問題です。モデルはどのようにコンテキストを取得するのか? 世界とどのように接続されているのか? どのような行動を取れるのか? 新しいコンテキストを得た時、モデルとの対話のループは実際にどのように機能するのか? これまでは、わずかに異なる複数の実装がありましたが、私たちはそれを一つに収束させようとしています。
私たちはその単一のバージョンを持ち、特定のアプリケーションに非常に薄い形で適用できる、AIレイヤーのようなものに行き着くでしょう。金融に特化した素晴らしいものが欲しければ、あるいは法律に特化したものが欲しければ、小さなプラグインやスキル、UIを構築することもできますが、基本的にはその必要はなくなるはずです。この一つのスーパーアプリが非常に幅広い用途をカバーするからです。
このアプリはビジネスのユースケース向けですか? それとも個人のユースケース向けですか?
両方です。そしてそれが本当に核心部分なのです。ノートパソコンというコンピューターが、個人用なのかビジネス用なのかと問うのと同じです。両方ですよね。それはあなたのためのものであり、このデジタル世界へのインターフェースを提供するパーソナルなマシンです。それこそが私たちの作りたいものです。
ビジネス以外の観点から少しお話しいただけますか。私が個人生活でスーパーアプリを使うとしたら、何に使い、私の生活はどう変わるのでしょうか。
今のChatGPTの使い方と同じように考えてみてください。現在、人々はChatGPTをどのように使っているでしょうか? 実に多様で驚くべきアプリケーションに使われています。
時には、「結婚式でスピーチをするので、原稿作りを手伝ってくれないか」と頼んだり、「自分のアイデアにフィードバックをくれないか」と尋ねたりします。「スモールビジネスを立ち上げようとしているので、アイデアをくれないか」という質問は、個人と仕事の架け橋になるかもしれませんね。
そういった質問のどれもが、スーパーアプリに投げかければ答えてくれるようなものになるはずです。ChatGPTのこれまでを振り返ると、すでに進化を続けています。以前は記憶機能がありませんでした。全員に対して同じAIが、毎回ゼロからスタートしていたのです。それはまるで、見知らぬ人と話しているようなものでした。
しかし、記憶を持つことでAIははるかに強力になります。過去のやり取りを覚えているのですから。コンテキスト(文脈)にアクセスできれば、さらに強力になります。あなたのメールやカレンダーと連携し、あなたの好みを真に理解し、あなたの目標を達成するために活用できる、過去の経験というより深い層を持っていればどうでしょう。
現在のChatGPTにある「Pulse」という機能を見てください。ChatGPTがあなたについて知っていることに基づいて、あなたが興味を持ちそうなことを毎日提示してくれます。ですから、個人的な領域においても、スーパーアプリはこれらすべてのことを、はるかに深く、豊かな方法で行うようになると思います。
いつ頃リリースする予定ですか?
今後数ヶ月をかけて、段階的にそこへ到達していくと考えてください。ここで話しているビジョンの完全な形をリリースできるはずですが、それはピースごとに提供されます。
私たちが手始めに行うのは、例えば現在のCodexアプリです。これは実は2つの機能が一つになっています。ツールを使用できる一般的なエージェントのハーネス(制御基盤)であり、同時にソフトウェアの書き方を知っているエージェントでもあります。
この一般的なエージェントのハーネスは、非常に多くの異なることに使用できます。スプレッドシートに接続したり、Word文書に接続したりして、知識労働を支援することができます。そのため、私たちはCodexアプリを一般的な知識労働において圧倒的に使いやすいものにする予定です。というのも、OpenAI社内では、すでに人々がそれをそのように使っているという有機的な適応が見られているからです。
それが第一歩であり、今後さらに多くの機能が登場する予定です。
昨日、あなたの同僚の方とお話ししてCodexを見せてもらったのですが、彼が言うには、あるユーザーがCodexに動画編集の手伝いを指示したそうです。するとCodexはAdobe Premiere用のプラグインを作成し、動画をチャプターに分割し、編集を開始したとのことでした。
私たちが目指しているのはまさにそれです。そういう話を聞くのは本当に嬉しいですね。私たちがこのシステムを役立ててほしいと願っているのは、まさにそういったことなのです。
Codexアプリ自体は元々ソフトウェアエンジニア向けに作られたものであり、ソフトウェアエンジニアではない人にとっての現在の使いやすさは、実のところかなり低いという現状は非常に興味深いです。設定を行う際、開発者なら何を意味するのか、どう直せばいいのか分かるような些細なエラーにいくつも直面するからです。開発者にとっては日常茶飯事でも、開発者でなければ「一体何だこれは? こんなの見たことがない」となってしまいます。
それにもかかわらず、プログラミング経験のない人がこれを使い始めてウェブサイトを構築したり、あなたが言ったようなことを実行したりしています。様々なソフトウェアとのやり取りを自動化し、大きなレバレッジを得ているのです。例えば、私たちのコミュニケーションチームのメンバーは、これをSlackやメールに接続し、大量のフィードバックに目を通し、見事に要約するために使っています。
このように、高いモチベーションを持つ人々は、ハードルを乗り越えてそこから素晴らしいリターンを得ることができます。ある意味で私たちは、本当に賢く、有能で、実際にタスクをこなせるAIという「非常に難しい部分」をやり遂げました。今度は、それを広く有用なものにし、参入障壁を取り除くという「ある意味ではるかに簡単な部分」を行わなければなりません。
競合の状況を見てみると、AnthropicにはClaudeアプリがあります。チャットボットのClaude、Claude Co-work、Claude Codeなどがあり、彼らなりのバージョンのスーパーアプリを持っています。Anthropicが早い段階でこのポジションに至った理由は何だとお考えですか?また、それに追いつくチャンスについてどう思われますか?
12ヶ月から18ヶ月ほど時計を巻き戻してみると、私たちは常に「コーディング」というドメインに注力していました。様々なプログラミングコンテストや、非常に頭脳的なタスクにおいて、私たちは常に最高の数字を出していました。
しかし、私たちがそれほど投資していなかったのが、使いやすさの「ラストワンマイル」でした。つまり、「このAIはとても賢くて素晴らしいプログラミングコンテストの問題を解けるが、現実世界のコードベースは見たことがない」という現実です。現実のコードベースは乱雑で、AIが経験してきた世界ほど原始的で綺麗なものではありません。その点において、私たちは遅れをとっていたと思います。
しかし、昨年の半ば頃から私たちはその問題に非常に真剣に取り組み始めました。ギャップは何か、まだ遭遇していない現実世界の乱雑さはどのようなものか、どのようにしてトレーニングデータを取得するか、ということに集中するチームを立ち上げました。AIが実際にソフトウェアエンジニアリングを行い、奇妙な形で中断されるといった経験を積めるトレーニング環境を構築したのです。
現時点では、私たちはすでに追いついたと言えるでしょう。競合他社と真っ向勝負をした場合、人々は私たちを選ぶ傾向があります。フロントエンドの改善にも取り組んでおり、そこも修正していく予定です。しかし、これが私たちが取ってきた一般的な動きです。つまり、モデルを作って別のものを構築するのではなく、製品をエンドツーエンドで考えるという使いやすさに目を向け、全体を一つの製品として考えるということです。
研究を行う際にも、それがどのように使用されるかを考えています。それがOpenAI社内で変えてきた動きです。ですから、今年一年を通じて信じられないほど飛躍的なモデルが登場することになります。ロードマップを見ると、何が可能になるのか本当にインスピレーションを受けます。そして同時に、私たちは今、ラストワンマイルの使いやすさにも強く焦点を当てているのです。
2022年以降、OpenAIは誰もが認めるリーダーでした。そして今、明らかに競争は激化しています。先ほど「私たちは追いついた」という表現を使われましたが、社内の雰囲気は変わりましたか? ChatGPTのように圧倒的に先行していた状態から、今は本当の戦いの真っ只中にいるわけですが。社内の状況を伝える報道などからもそれが見て取れます。会議の場でも「もうOpenAIにサイドクエスト(寄り道)はない。これに全集中する」といった話が出ていると聞きます。ここでの環境や雰囲気はどのように変わりましたか?
私個人の話で言えば、OpenAIで最も恐ろしかった瞬間は、実はChatGPTをローンチした後のことでした。ホリデーパーティーに参加した際、「私たちは勝ったんだ」という雰囲気を肌で感じたのを覚えています。それまで、そんな感覚を抱いたことは一度もありませんでした。
「いや、私たちは常にチャレンジャーであり、これまでもずっとそうだったじゃないか」と思ったのです。この分野の競合他社は、より多くの資本、人材、データ、すべてを備えた既存の大企業です。なぜOpenAIが競争できているのか? ある意味、その答えは「私たちが決して現状に満足しなかったから」に尽きます。私たちは常に自分たちをチャレンジャーだと感じてきました。
ですから私にとって、市場に競合他社が現れ、素晴らしい仕事をしているのを見ることは、実は非常に健全なことでした。他社がどこにいるのかに固執し始めれば、自分たちもその場所に留まることになり、他社はすでに先へ進んでしまいます。私は、他の人々がまさに私たちがいる場所に焦点を当ててきたからこそ、私たちはさらに先へ進むことができるのだと考えています。
これは会社に結束と統合をもたらしてくれています。先ほど、私たちが研究と展開(デプロイメント)をほぼ別のものとして考えていたのが、今では本当に統合しようとしているとお話ししました。私にとって、それはとても素晴らしいことです。
ですから、今の世界は「私たちは彼らが言うほど優れているわけでもないし、彼らが言うほど悪いわけでもない」と私が常に感じているような世界です。非常に安定していると思います。モデル生産の核心部分については、ロードマップやこれまで行ってきた研究投資に非常に強い自信を持っています。そして製品側でも、これを世界に届けるために、すべてが一つにまとまる素晴らしいエネルギーに満ちていると感じています。
開発プロセスと次世代モデルへの期待
すでに何度か、素晴らしいモデルが控えていると仄めかされていますね。「Spud」とは何でしょうか? 報道によれば、Spudの事前学習(プレトレーニング)が完了し、OpenAIのCEOであるSam Altmanがスタッフに対し、数週間以内に非常に強力なモデルが期待できると伝えたとのことです。これは数週間前の話ですが、チームはそれが経済を本当に加速させ、私たちの多くが予想していたよりも早く物事が進むと信じています。優れたモデルとはどのようなものですか?
私としては、それは決して「一つのモデル」についての話ではないと考えています。私たちの開発プロセスは、まずプレトレーニング(事前学習)があります。そこで新しいベースモデルを作成し、それがその上にさらなる改良を構築するための基盤となります。これは常に会社全体の多くの人々による巨大な取り組みです。過去18ヶ月間、私が最も力を注いできたのもここで、大規模な学習に対応するためのGPUインフラストラクチャや、学習フレームワークを行うチームのサポートに集中してきました。
そして次に、強化学習のプロセスがあります。世界について多くを学んだこのAIがその知識を応用し、その後ポストトレーニング(事後学習)のプロセスを行います。そこで「さて、これで問題の解き方が分かったね。これを様々なコンテキストで練習してみよう。そしてこれが行動と使いやすさのラストワンマイルだ」と教え込むのです。
ですから、私はSpudを新しいベース、新しいプレトレーニングモデルだと考えています。このモデルには、おそらく2年分の研究成果が結実しています。非常にエキサイティングなものになるでしょう。人々がそれをどう体験するかと言えば、単純に「能力の向上」として感じられるはずです。
私にとって、それは単一のリリースについての話ではありません。このリリースが行われた瞬間に、それはこれから登場するものの初期バージョンに過ぎなくなるからです。私たちは、改善プロセスの各ステップをさらに押し進めていきます。ですから、私たちが向かっているのは、ますます加速していく進歩のエンジンを手に入れた状態であり、Spudはその道のりの一歩に過ぎないのです。
では、現在のモデルにはできなくて、次のモデルにはできるようになることは何だと思いますか?
はるかに難しい問題を解決できるようになるだけでなく、よりニュアンスに富んだものになると思います。指示をより正確に理解し、コンテキストをより深く理解するようになるでしょう。
人々がよく口にする「ビッグモデルの匂い(big model smell)」というものがあります。モデルが実際に格段に賢く、能力が高くなると、ユーザーの意図にはるかに柔軟に応えてくれるようになり、それを肌で感じるようになるのです。質問をしたのにAIがうまく理解してくれないと、いつもがっかりしますよね。説明し直さなければならず、「これくらい推測できるはずなのに」と思ってしまいます。
ですから、ある意味では質的に変化し、定量的にも多くのシフトが起こるだろうと考えています。これまでならイライラして決してAIを使わなかったようなことでも、今後は何も考えずにただAIを使うようになるという新しい領域が生まれるでしょう。私たちはあらゆる分野でそれを目の当たりにするはずです。
それがどのように「天井を引き上げる」のかを見るのがとても楽しみです。私たちはすでに物理学への応用などを目にしています。AIはよりオープンエンドな問題や、より長い時間軸のタスクを解決できるようになるでしょう。そして同時に、AIが「床を引き上げる」、つまりユーザーがやりたいどんなことに対しても圧倒的に役立つ存在になるのをとても楽しみにしています。
一般のユーザーにとって、その変化を実感するのは少し難しいかもしれません。GPT-5の前には多くの期待が寄せられていましたが、実際に登場した時の一般の初期反応は少し期待外れだというものでした。しかしその後、特定のタスクにおいてAIがどれほど優れているかを人々は理解したと思います。これからの次世代モデルのシリーズについて、特定の職業の現場で強く実感されるようになると思いますか?それとも、あらゆる人にとって広く実感できるような改善になるとお考えですか?
おそらく同じような展開になると思います。リリースされた時には、試してみて「これは今まで見たものとは全く別次元だ」と感じる人もいれば、必ずしも知能がボトルネックになっていなかったアプリケーションでは、モデルが賢くなってもすぐには実感できない人もいるでしょう。
しかし、時間が経つにつれて実感できるようになるはずです。なぜなら、根本的に変わるのは「システムにどれだけ依存するか」だからです。私たちがAIとどのように関わっているかを考えてみると、私たちは皆「AIにはこれくらいできるだろう」というメンタルモデル(心的な想定)を持っています。そして、そのメンタルモデルは実はかなりゆっくりと変化していくのです。
経験を積むにつれて、AIが魔法のようなことをやってのけると「おぉ、すごい。こんなことができるのか。想像もしていなかった」となります。健康情報へのアクセスといったアプリケーションでこの例が見られます。
私の友人に、自分のガンの様々な治療法を理解するためにChatGPTを使った人がいます。彼は医師から末期であり、もうできることはないと告げられていました。しかし彼はChatGPTを使って様々なアイデアを調査し、結果的に治療を受けることができたのです。
機械から何かを得るためにそれだけの労力を費やすには、AIがそのアプリケーションにおいて自分の役に立つというある程度の確信が必要です。私たちがこれから目にすることになるのは、そのようなあらゆるアプリケーションにおいて、AIが助けになるということが誰の目にもはるかに明らかになるということです。ですから、テクノロジーそのものが向上することに加えて、私たちのテクノロジーに対する理解が変化し、それに追いついていくという側面もあるのだと思います。
そして、OpenAI社内でもそれに依存する機会が増えるということですね。現在、自動化されたAI研究者を開発中であり、この秋に登場する予定だそうですが、これは一体どのようなものですか?
現在の進むべき方向として、私たちはこのテクノロジーの「離陸(テイクオフ)」の初期段階にいます。離陸とは何を意味するのか。AIが指数関数的にどんどん賢くなっていくということです。その理由の一部は、私たちがAIを使ってAIをさらに良くすることができるからです。これにより開発プロセスは加速します。
しかし私が離陸について考える時、それは現実世界へのインパクトのことも指しています。すべてのテクノロジーはS字カーブを描きますが、少し引いて見てみると、いくつかのS字カーブが重なって最終的に指数関数的な曲線になることがあります。私たちは今まさにそれに直面しているのだと思います。
技術開発が加速度的に進み、勢いを増すエンジンとなっていますが、世界にもすべての追い風が吹いています。チップ開発者はプログラムにより多くのリソースを投じており、そのテクノロジーの上で開発を行い、それをあらゆるアプリケーションにどう組み込むかを模索する人々の経済圏があります。そのすべてのエネルギーが蓄積され、AIが単なる余興から経済成長の主要な原動力へと移行する離陸フェーズに入っているのです。
これは単に私たちの壁の中で何をしているかという問題ではなく、世界全体、経済全体がどのように一丸となってこのテクノロジーとその有用性を共に推し進めていくかということなのです。
では、そのAI研究者は具体的に何をするのでしょうか?
AIが自律的に実行できるタスクの割合が大きくなり、私たちがAIに自律的に動かせるようになる瞬間が来るでしょう。私たちは現在その構築を進めています。それが何を意味するのかについては多くの考慮がなされていますが、それは必ずしも、AIを放っておいて後から戻ってきて良い結果が出たかを確認する、という意味ではありません。
私たちはAIの管理に深く関与することになるでしょう。現在でも、経験の浅いジュニアな研究者を長く放っておくと、あまり役に立たない方向に進んでしまう可能性が高いのと同じです。しかし、シニアな研究者やビジョンを持つ人がいれば、彼らは必ずしも機械的なスキルを知っている必要はありません。インターンが作成したプロットに対してフィードバックやレビューを提供し、「あなたに達成してほしいことはこれだ」というビジョンに沿って方向性を与えることができます。
ですから、私はこれを、私たちがモデルを作成し、新たな研究の突破口を開き、これらのモデルを現実世界でより有用で使いやすくする能力を劇的に加速させるシステムだと考えています。そして、それをますます速いスピードで行うのです。
すみません、もう一度確認ですが、具体的に何をするのですか?「AGIを見つけに行け」と指示したら、AIがただそれを見つけようとするということですか?
基本的にはそのようなものだと考えていただいていいと思います。実用的なレベルで言えば、私たちのリサーチサイエンティストが行っているエンドツーエンドの業務をすべて引き受け、それをシリコン(コンピューター)の中で実行できるようにするものだと考えています。
AI開発における安全性とオープン化の議論
離陸(テイクオフ)のもう一つの捉え方として、AIの進歩が漸進的なものから勢いを増し、人間よりも賢い知能へと止まることなく行進していく、という考え方があります。この分野で物事がうまくいく可能性がある一方で、そのプロセスが悪い方向へ進む可能性について心配することはありますか?
絶対にあると思います。このテクノロジーの恩恵を享受するためには、リスクについても真剣に考えなければなりません。私たちの技術開発へのアプローチを見れば、安全性とセキュリティに多くの投資をしていることが分かるはずです。
良い例がプロンプトインジェクションです。非常に賢く、有能で、多くのツールに接続されたAIを持つのであれば、誰かがおかしな指示を出したからといってシステムが乗っ取られないようにする必要があります。これは私たちがかなりの投資を行ってきた分野であり、信じられないほど素晴らしい結果を出している、素晴らしいチームが取り組んでいます。
これらの問題の中には、人間との類推で考えると興味深いものがあります。人間もまた、フィッシング攻撃を受けたり、様々な方法で騙されたり、自分が取り組んでいることの全体的なコンテキストを理解していなかったりすることがあります。私たちはそういった類推を開発プロセスに取り入れ、モデルをリリースし、開発する際には常に、「それが人々の意図に沿ったものであり、実際に役立つものであることをどう保証するか」を考えています。
これは私たちが非常に重視していることです。ただテクノロジーを推し進めるだけでなく、純粋に技術的な問題や、OpenAI単独で解決できるわけではない問題、つまり世界や経済がどう変わるのか、誰もがこのテクノロジーからどう利益を得るのかという、より大きな疑問も存在します。私は技術の推進だけでなく、その潜在的なポジティブなインパクトをどう確保するかについて、非常に多くの時間を割いて考えています。
しかし懸念されるのは、これがレースになっているということです。このOpenAI本部の壁の中で行われていることは、安全性に関してより低い境界線や障壁しか持たない多くのオープンソースプレイヤーたちによっても模倣されています。「クリエイティブになるには多くのことを正しく行う必要があるが、破壊的になるには悪意を持った一人がいれば十分だ」とあなたがかつておっしゃっていたと思います。
それが私にとっての懸念の焦点です。これは明らかにレースであり、猛スピードで進んでいます。同業者の多くは「全員が立ち止まることに同意するなら立ち止まる」と言いながら、一向にスピードを落とす気配がありません。リスクを冒すだけの報酬が見合っているのでしょうか?
報酬はリスクに見合うものだと思いますが、その答え方では少し大雑把すぎるかもしれません。
私がどう考えているかをお話しします。OpenAIの創業時から、私たちは「素晴らしい未来とはどのようなものか? このテクノロジーがどうすればすべての人を向上させることができるか?」と問い続けてきました。そこには2つの異なる視点があると考えられます。
一つは中央集権的な見方で、「このテクノロジーを安全にする方法は、一つのアクターだけが開発することだ」と主張するものです。そうすればプレッシャーもなくなり、正しく構築することに集中し、準備が整ってから全員に提供する方法を考えればよい、というわけです。これはある意味で受け入れがたい考え方でもあります。
代わりに、「レジリエンス(回復力、強靭性)」という別のアプローチを考えることができます。これをオープンなシステムとして捉え、多くのプレイヤーがテクノロジーを開発している状態です。しかしそれはテクノロジーだけの問題ではなく、このテクノロジーが本当にうまく機能するための社会インフラを構築する問題なのです。
電気の発展の歴史を見てください。電気は多くの人々によって生産され、実際に危険性やリスクを伴います。しかし私たちは、電気の安全基準、その利用方法、規模の拡大方法に関する多様な方法を通じて、安全インフラを構築してきました。これほど巨大なスケールで民主的に利用されるようになれば、規制が設けられます。検査官が存在し、そのテクノロジー特有のニーズや特性に合わせたシステム全体が構築されてきたのです。
AIに関して私たちが本当に理解したことは、これには幅広い議論が必要だということです。テクノロジーが到来し、すべての人のすべてを変えるのであれば、多くの人々がそれを認識し、そのプロセスに参加する必要があります。どこかの中央集権的なグループによって秘密裏に行われるべきものではないのです。
これは、このテクノロジーがどのように展開されるべきかという核心的な問いであり、私たちはこのテクノロジーの発展の周りに現れるべき「レジリエンスのエコシステム」を強く信じています。
AGIの定義と今後のマイルストーン
あなたは今、私たちが離陸プロセスの真っ只中にいるとおっしゃいました。NvidiaのCEOであるJensen Huang氏は最近、AGIはすでに達成されていると考えていると発言しました。これに同意されますか?
AGIの定義は人によって異なり、私たちが現在持っているものをAGIだと言う人も多くいると思います。議論の余地はあるでしょう。しかし興味深いのは、現在のテクノロジーとしてのAGIには非常に「ばらつき(jaggedness)」があるということです。
コードを書くといったタスクに関しては、絶対に超人的(スーパーヒューマン)です。AIはただそれをこなし、何かを作り出す際の摩擦を大きく取り除いてくれます。しかし、人間ができる非常に基本的なタスクの中には、私たちのAIがまだ苦戦するものもあります。ですから、「どこに境界線を引くか」という問題であり、現時点では科学的というよりも、雰囲気や感覚に近いものになっています。
私自身としては、私たちは間違いなくその瞬間に向かっていると感じています。もし5年前に今日のシステムを見せられていたら、「あぁ、これこそ私たちが話していたものだ」と言ったでしょう。しかし、実際に目の前にあるものは、私たちが想像していたものとは全く異なります。ですから、私たちは自分のメンタルモデルを適切に調整する必要があるのだと思います。
では、まだそこには到達していないということですか?
私は……基本的には70%から80%のところまでは来ていると思っています。かなり近づいています。ここ数年のうちに、まだ能力のばらつきはあるでしょうが、AGIが実現することは極めて明白だと思います。コンピューターを使う知的作業のほぼすべてにおいて、AIがこなせるようになるはずです。
今の時点では少し不確実な答え方しかできません。なぜなら、不確定性原理のようなもので、議論の余地があるからです。私個人の定義で言えば、ほぼ到達しており、あと少し進めば絶対的に到達すると考えています。
(ここでホストによるイベント告知のナレーションが入る)
AIがもたらす日常生活とビジネスへの影響
2025年の12月に何が起こったのか教えてください。機械に何時間も中断なしでコーディングさせ続けるというアイデアが、単なる理論から、「しばらくはこれを任せても大丈夫だ」と誰もが確信した瞬間へと変わった転換点だったように思えます。具体的に何があったのでしょうか。
新しいモデルのリリースによって、AIができるタスクの割合が20%から80%へと劇的に跳ね上がったのです。これは、「AIに任せられたらいいな」というレベルから、「ワークフローをAI中心に完全に再構築しなければならない」というレベルへの大きなシフトでした。
私自身にもその瞬間がありました。何年にもわたって試してきた「私のためにウェブサイトを構築して」というテスト用のプロンプトがあります。私がコーディングを学んでいた頃、このウェブサイトを作るのに数ヶ月かかりました。これまでは、25回ほどプロンプトを繰り返し、4時間ほどかけてようやく正しく動作するものができるといった具合でした。しかし12月には、「ワンショット」で、つまり一度AIに頼んだだけで見事に作り上げてしまったのです。
どのようにしてモデルはそれほどの飛躍を遂げたのでしょうか?
その多くは、より優れたベースモデルによるものです。OpenAIはプレトレーニング(事前学習)技術の向上に長年取り組んできました。あの瞬間、私たちは今年残りの期間に何が起こるかという「味見」を少しだけ体験したのです。
しかし、それは何か一つの要素によるものではありません。私たちは常に、イノベーションのあらゆる軸を押し広げています。これらのモデルの非常に興味深い点は、ある意味では飛躍的でありながら、ある意味ではすべて連続的だということです。0%から80%になったわけではなく、20%から80%になったのですから。
ですから、単に良くなり続けているとも言えます。そして、その改善は私たちがリリースするマイナーアップデートのたびに続いていることを確認しています。例えば、私が密に協力しているエンジニアの一人は、以前はAIに低レベルのハードコアなシステムエンジニアリングをさせることができなかったのが、今では完全に任せられるようになりました。設計ドキュメントを渡し、実際に実装させ、メトリクスやオブザーバビリティを追加し、プロファイラーを実行し、彼が期待していた通りのものになるまで改善させることができるのです。
ですから、考え方としては、「ゆっくり、ゆっくり、そして突然一気に」というようなものかもしれません。しかし、現在機能しているものを見れば、1年以内、あるいはもっと早く、信じられないほど信頼性の高いものになることがすべて示されています。
あなたが少し前にインタビューで、この自律型コーダーであるCodexはソフトウェア開発者専用だと言っていたのを聞いたので、驚きました。今回の会話の前半では、実際には誰もがこれを使えるとおっしゃっていましたね。ご自身の視点が変わったきっかけは何だったのでしょうか?
私はCodex(コードという名前が入っていますからね)を、コーダーのためのものだと考えていました。OpenAIの社員の多くはソフトウェアエンジニアであり、自分たちのために作っているわけですから、そう考えるのは非常に自然なことでした。
しかし、このテクノロジーが進歩するにつれて、私たちが生み出した基盤技術は「コード」に関するものでは全くないことに気付き始めたのです。それは主に「問題解決」に関するものでした。コンテキストを管理し、システムを制御し、AIがどのように統合されて仕事を行うべきかを考えることだったのです。
コードにおいてさえ、今や誰もがアクセスできるようになりました。仕事を代行してくれるものを管理できるようになったからです。ビジョンがあり、達成したいことがあれば、意図を説明するだけでAIが実行してくれます。
そう考えると、「なぜコーディングだけに焦点を当てているのか?」という疑問が湧いてきます。Excelのスプレッドシートやプレゼンテーション作成など、非常に機械的なスキルが求められる作業は山ほどあります。AIがコンテキストを理解し、優れたレベルでそれらをこなすだけの純粋な知能を持つようになった今、私たちがそれをよりアクセスしやすくすれば、Codexは「コーダーのため」から「すべての人のため」へと突然変わるのです。
この大きな改善が見られた直後、シリコンバレーでは「OpenClaw」と呼ばれる現象が起きました。あるいはハイテクコミュニティ全体での現象かもしれません。人々は、AIボットにデスクトップのアクセス権を与えたり、Mac Miniを用意してメールやカレンダー、ファイルへのアクセス権を与え、自分たちの生活をAIに運営させるというような方法で、AIを信頼し始めました。
そしてOpenAIは、OpenClawの創設者を社内に迎え入れました。AIが人々の生活を運営する手助けをする存在になるという点についてお話しされていましたが、OpenClawのチームを社内に迎えたのは、そうしたビジョンに基づくものなのでしょうか?
このテクノロジーの核心は、それがどのように役立つのか、人々がそれをどう使いたいのか、エージェントのビジョンとは何か、そしてそれが人々の生活にどのように組み込まれるのかを解明することです。これは非常に困難な問題です。
私がこのテクノロジーの過去の世代を見てきて感じるのは、前のめりに取り組み、好奇心旺盛で、ビジョンを持っている人々がいるということです。それは真のスキルであり、新たに台頭しつつあるこの経済において非常に価値のあるスキルとなっています。
OpenClawの創設者であるPeter氏は、信じられないほどのビジョンと創造性を持つ人物だと思います。ある意味では特定の技術に関する話ですが、別の意味では技術の話では全くありません。これらの能力をどのように人々の生活に落とし込むかという問題なのです。
技術者として非常にワクワクすることですが、人々に実用性をもたらすことに注力する人間としては、これは私たちが倍の投資を行い、強く注力している分野です。
自律型AIエージェントに自分の代わりに働かせることについて、最近非常に興味深い発言をされていましたね。「これを行う時、あなたは自分の目標やビジョンを達成するために動く何十万ものエージェント艦隊のCEOになる。しかし、一つ一つの問題が具体的にどう解決されているかの細かい部分には入り込まない。ある意味で、この新しい働き方は、自分が問題の『脈絡(パルス)』を見失っているように感じさせるかもしれない」と。これは良いことなのでしょうか?
良い面と悪い面が混在していると思います。私たちがすべきことは、これらのツールがもたらす強みを認識し、弱みを軽減することです。人々にレバレッジや主体性を与え、ビジョンや達成したいことがあれば、エージェントの艦隊がそれを代行してくれるようにするのです。
しかし、世界がどのように機能しているかを考えてみてください。最終的には責任を負う当事者が存在します。ウェブサイトを構築しようとして、エージェントがミスをしてユーザーに影響が出た場合、それはエージェントのせいではなく、あなたの責任です。ですから、あなたは気にかける必要があります。
人々がこれらのツールを使う際、人間の主体性や人間の責任、人間がAIをどう使うかがシステムの中核部分であり、非常に根本的なことだと認識する必要があります。ですから、エージェントのユーザーとして(私たちOpenAI社内でもそうですが)、責任を放棄することはできません。「AIが勝手にやってくれる」と言うことはできないのです。
もちろんです。しかし、あなたは「問題そのものの脈絡(パルス)を見失っているように感じる」とおっしゃいました。それは責任の所在とは別の問題ですよね。
私にとっては、それらは結びついています。もしあなたがCEOであり、詳細から遠ざかりすぎていたらどうでしょう。会社やチームを運営しているのに、現状の脈絡を掴めていなければ、良い結果には結びつきません。
私がそこで言いたかったのは、人間が何が起きているかを知らなくて済むのが望ましいということではありません。家の建設をゼネコンに依頼するチームと協力している場合、彼らがきちんと対応してくれると信頼できるのであれば、心配する必要のない詳細はたくさんあります。しかし、最終的に詳細が間違っていれば、あなたはそれを気にかけるべきですし、気づくべきです。
「脈絡を見失っても構わない」と盲目的に言うことはできない、という重要なニュアンスがここにはあります。私たちは前のめりになり、「強みと弱みを本当に理解するために脈絡を掴み続ける必要がある」と言うべきなのです。そして、これらの低レベルな機械的な詳細から手を引くのは、システムが良い仕事をしてくれるという信頼を築いたからでなければなりません。
モデルについて最後の質問です。モデルがたどってきた進化についてお話しいただきました。プレトレーニング、ファインチューニング、強化学習によって問題を段階的に解決するようになり、インターネットに出て行動できるようになりました。そして今、そのプロセスを通じてモデルがツールを使うことを学習した段階にいます。間違っていたら訂正していただきたいのですが、この進化の次には何が来るのでしょうか?
私たちが生きている世界は、機械ができることの能力と深さが増し続けている世界です。これまでは「ツールの使用」について話してきましたが、今後は実際に素晴らしいツールそのものを構築する必要があります。
デスクトップを使えるAIのようなコンピューター利用について考えれば、AIはあなたができることなら何でもできるようになります。しかし同時に、企業における認証はどう機能するのか、監査証跡やオブザーバビリティ(可視性)はどう機能するのかといった、基盤モデルの能力に追いつくための技術も少し構築しなければなりません。
全体的な方向性としては、コンピューターに自然に話しかけられる、非常に優れた音声インターフェースのようなものが含まれます。この会話と同じくらい自然に、AIがあなたを理解し、必要なことを実行し、良いアドバイスをくれます。
朝起きると、「こちらが昨晩エージェントが進めた仕事のデイリーレポートです」と提示してくれます。おそらくあなたの代わりにビジネスを運営していることでしょう。これはテクノロジーの巨大なアプリケーションになると思います。「起業の民主化」が間違いなくやって来ます。
「こういう問題がありました。この顧客が怒っていて、本物の人間と話したがっています。あなたが話すべきです」といった具合に、すべてが実現していくでしょう。
そして、人類が解決できる課題や野心の「天井を引き上げる」ことも、このテクノロジーの次のステップであり、私たちはすでにその最先端を目の当たりにしています。
私がとても楽しみにしているのは、AlphaGoの「第37手」を覚えていますか? 人間が決して思いつかなかったような、あの創造的な一手です。あれがゲームに対する人類の理解を変えました。それと同じことが、あらゆる分野で起こるでしょう。科学、数学、物理学、化学、材料科学、生物学、ヘルスケア、創薬で起こります。そしておそらく、文学や詩、その他の多くの分野でも起こるでしょう。私たちが今は想像もできないような形で、人間の創造的な理解とアイデアの着想を解き放つことになります。
モデルがそれほど強力だとおっしゃるのに、なぜそれがまだ起きていないのだと思いますか?
モデルが何ができるかということと、人々がそれをどう使っているかという間に「オーバーハング(ギャップ)」があるからだと思います。私たちはこれらのモデルの中に何があるのか、まだ理解し始めている段階なのです。
ですから、これ以上の進歩がなくても、すでに巨大なシフトが起こるでしょう。計算リソースとAIを原動力とする経済は間違いなくやって来ます。しかし同時に、私たちがこれまで非常に得意としてきたのは、「測定可能なタスクでモデルを訓練すること」でした。
完全な検証者(正解)が存在する数学の問題やプログラミングの問題から始めました。よりオープンエンドな問題に移行するための進歩の多くは、創造できるものの空間を広げることでした。賢く物事を理解するAIがいれば、タスクがどれだけうまくできたかの評価基準をAIに与えることができます。
もちろん、詩のような創造的な文章について「これは良い詩か?」と評価するのははるかに難しいことです。そのため、私たちがAIに教え、AIが経験を積み、色々なことを試す能力はこれまで限られていました。しかし、それらすべてが変わりつつあり、私たちにはその道筋が見えています。
Peter Thiel氏が言っていたと思うのですが、「もしあなたが数学の人間なら、言葉を扱う人間よりも、このモデルの登場によって自分の仕事が深刻な危機に立たされる可能性が高いだろう」と述べていました。あなたはかつて数学クラブのメンバーでしたよね。そのことについて懸念はしていませんか?
私たちが得るものよりも、失うものを見る方がはるかに簡単なのです。「私は今までこうやってきた。昔はこの数学コンテストに出ていた。今はAIがそのコンテストを解けるようになった」と深く理解しているからです。
しかし、人間にとって本当に重要なのは、数学コンテストのことではなかったはずです。私たちが現在行っている仕事のやり方を考えてみてください。箱(コンピューター)の後ろでタイプを打つような仕事です。100年前にはそんなことはしていませんでした。それは自然なことではなく、私たち全員が吸い込まれてしまったデジタルの世界にすぎません。
人間であるということは、そういうことではないはずです。人間であるということは、ここに存在し、他の人間とつながることです。AIは、人間同士のつながりを増やし、人々との絆を深めるための膨大な時間を解放してくれると確信しています。それは私が非常に楽しみにしていることです。
データセンターとエネルギー問題への責任
私たちが、あるいはあなたが、よりエージェント的なユースケースに移行するにつれて、より大規模な学習(プレトレーニング)が本当に必要なのかどうかという議論があります。特に、モデルが十分に賢くなれば、それを世界に放ち、データセンターが必要だったプレトレーニング以外の分野で多くの向上を得ることができるのではないか、という意見です。あなたはスケーリングに携わり、そのプロセスをリードしてこられましたが、この議論についてどうお考えですか?
その議論は、技術開発がどのように進むかについての非常に重要な点を見落としていると思います。モデル生産のパイプラインの各ステップは掛け算で機能するため、すべてのステップを改善したいと考えるのが絶対的な事実です。
私たちが目の当たりにしているのは、プレトレーニングを改善すれば、他のすべてのステップがはるかに容易になるということです。モデルがより速く学習できるようになるからです。モデルが自身の失敗から学び、様々なアイデアを試す際、最初から能力が高いため、そのプロセス自体が速くなります。より少ない失敗で済むのです。
大きなシフトがあったとすれば、それは「単独で頭脳的なシステムを訓練し、ただ大きくし続ける」という考え方から、「実際に試してみること、人々が現実世界でそれをどう使っているかを理解し、それを訓練にフィードバックさせること」への移行です。しかしそれは、研究を継続することの価値や重要性を失わせるものではありません。
もう一つ変わった点は、以前は純粋なプレトレーニングの能力ばかりに焦点を当て、推論(インファレンス)の能力についてあまり考えていなかったことです。過去24ヶ月間の大きな変化は、「基盤に素晴らしい特性を持つモデルを作りつつも、強化学習を行い世界に提供するためには、それが推論可能でなければならない」というバランスに気付いたことです。
つまり、可能な限り大きくするのではなく、下流での利用を考慮し、最高の知能とコストのバランスが取れたものを追求し、その2つを同時に最適化するということです。
推論に比重が移ったとしても、NvidiaのGPUは必要ですか?
絶対に必要です。理由は複数ありますが、一つは、推論と学習のバランスがどう変化しようと、コンピュート(計算リソース)を一つの問題に集中させる以外に、大規模な学習を実現する方法はないからです。
デプロイメント(展開)のフットプリントはかなり大きくなると思いますが、特定の巨大なプレトレーニングの実行があり、そこに大量のコンピュートを集中させたいと考える時期は必ずあります。
また、Nvidiaのチームは信じられないほど素晴らしい仕事をしているので、私たちは彼らと非常に緊密に連携しています。
「プレトレーニングはもう十分だ、モデルは十分に賢い」と人々が言う時期は来ないのでしょうか?
それは「人類が目の前にあるすべての問題を解決したら、そう言えるかもしれない」というのに似ています。私たちが達成したいことの天井や野心は非常に高いのです。おそらく過去50年間ほど、私たちはそこから少し身を引いてしまっていたのかもしれません。
例えば、「すべての人にヘルスケアを提供する」という明確に見える課題について考えてみてください。病気になってから対処するだけでなく、ライフスタイルを考慮し、病気になる前に潜在的な病気を早期に発見する予防的なヘルスケアです。これは、よりインテリジェントなモデルを通じて実際に達成できる課題だと思います。
完全にその問題を解決できるレベルになれば、「今の2倍賢いモデルが必要か?」と問うかもしれません。しかし、それを要求するような問題は他にもまだまだ存在します。
データセンター構築のコスト計算についてお話ししましょう。今年初めに1100億ドル(約17兆円)を調達されました。その計算はどうなっているのですか? その資金はデータセンターに直結するのでしょうか? 投資家にどう還元するか、その計算について教えてください。
非常にシンプルです。私たちの目の前にある巨大な出費はコンピュートです。しかし、コンピュートをコストセンターではなく、レベニューセンター(収益源)として考えてみてください。営業担当者を雇うのと同じです。製品を販売でき、スケーラブルな販売方法がある限り、営業担当者が増えれば増えるほど収益は上がります。
私たちが置かれている世界では、需要に追いつくスピードでコンピュートを構築できないという状況が続いています。私はこれを非常に具体的に実感しています。現在、何をローンチするか、コンピュートをどこに割り当てるかについて、非常に痛みを伴う決断を下さなければなりません。AIを原動力とする経済へと移行するにつれて、経済全体でこれをより広く経験することになるでしょう。
問題は、「どの課題にその巨大なコンピュートが割り当てられるか」です。誰もがパーソナルエージェントを持てるようにするにはどうスケーリングするか? 誰もがCodexのようなシステムを使えるようにするには? それを行うためのコンピュートは世界に十分に存在しません。私たちはその問題の先を行こうとしています。
しかし、これは新しいカテゴリーですよね。これほどの巨額の資金がこのようなプロジェクトに投じられたのを世界は見たことがありません。新しいカテゴリーを構築する際、それがうまくいくという確信をどのようにして持つのでしょうか?
いくつかの要素があると思います。第一に、現時点ですでに歴史的な前例があります。ChatGPTをローンチした瞬間、チームと「コンピュートをどれくらい買うべきか?」と話し合ったことを覚えています。「全部だ」と私が言うと、彼らは「いやいや、本当にどれくらいですか?」と聞き返しました。私は「どれだけ構築しようとしても、需要には追いつけないと確信している」と答えました。そしてそれは事実でした。それ以来、毎年それが真実となっています。
課題は、これらのコンピュートの購入を、実際に納品される18ヶ月、時には24ヶ月、あるいはもっと前から確定させなければならないということです。つまり、将来を見据えた予測が必要不可欠なのです。
私たちが向かっている世界では、これまで収益の大部分はコンシューマーのサブスクリプションから来ており、それは常に非常に重要です。他の収益源も現れつつあります。しかし、今明らかに台頭している機会は「知識労働」です。すべての企業がこのテクノロジーが実際に機能することに気付き、競争力を維持するためには導入しなければならないと考えているのが具体的に見えます。
ソフトウェアエンジニアがそれを利用している有機的なエネルギーがあり、企業内で様々な知識労働に利用される浸透が始まっています。この業界で見られる支払い意欲と収益成長は非常に明確です。今まさに起こっています。これを単純に将来に投影するだけです。
私たちが世界には見えていないかもしれないもので見えているのは、これらのモデルがどのように向上していくかという道筋です。これらすべてを総合すると、経済という想像を絶するほど巨大なものがここからどう成長するかの最重要事項は、「AIをいかにうまく活用できるか」と「それを動かすための計算能力をどれだけ利用できるか」になるということです。
現在の最大の収益源はコンシューマーのサブスクリプションだとおっしゃいましたが、ビジネスが最大の収益源へと逆転する予測ですか?
エンタープライズ、あるいは生産的な知識労働に利用する人々がどれほど急速に成長しているかは非常に明確です。価格設定について考える時、現在のCodexの仕組みを見ると、ChatGPTのコンシューマーサブスクリプションを持っていればCodexを使えます。ですから、このカテゴリー、あのカテゴリーというように明確に区別されるものではないと思います。根本的には、ユーザーとしてのあなたが、ノートパソコンのようにデジタル世界へのポータルを持つことになり、収益はそこから生み出されることになるでしょう。
AnthropicのDario Amodei氏があなた方について言及し、「リスクのダイヤルを回しすぎて『YOLO(人生は一度きり)』のようなギャンブルをしているプレイヤーがいて、私は非常に懸念している」と語りました。あなたのインフラ投資への賭けを指しているのだと思いますが、これについてどう思われますか?
いいえ、同意できません。私たちは非常に思慮深く、これから何が起こるかを見極めてきたと思います。今年でさえ、参加している誰もがコンピュート不足に陥るのを目の当たりにするでしょう。私たちはそれが来ると最も早くから気付き、このテクノロジーがどう展開するかを予測して構築を進めてきました。
他社の動きを見ていると、おそらく昨年末頃にそのことに気付き、利用可能なコンピュートを探して奔走し始めましたが、実際にはほとんど残っていなかったのではないでしょうか。このような発言をするのは簡単ですが、ソフトウェアエンジニアリングが最初の例であるように、このテクノロジーが機能し、現実のものとなっていることは誰もが気付いています。そして、私たちは根本的に利用可能な計算能力によって制限されているのです。
彼はまた、「もし自分の予測が少しでも外れれば、会社は倒産する可能性がある」とも述べていました。あなたにとっても同じ状況ですか?
こちらにはより多くの「オフランプ(逃げ道)」があると思います。ダウンサイド(下振れリスク)のケースを心配するのは非常に妥当な疑問です。しかしある意味で、私たちが賭けているのは一つの会社についてではありません。セクター全体に対する賭けなのです。「このテクノロジーが生み出され、私たちが目にするこの巨大な価値を提供できると信じるかどうか」なのです。
再度、証明された証拠を挙げます。もしあなたがソフトウェアエンジニアでなく、Codexを試したことがないなら、それがどれほど違うか言葉で説明するのは難しいほどです。半年前に私たちは社内でこれを見ていましたが、外部にはまだ証拠が少なかった。今では証拠があります。半年後には誰もがそれを実感するでしょう。そして、「素晴らしいモデルがあるのにコンピュートが足りなくて使えない」という痛みを私たち全員が感じることになると思います。
昨年末、私たちの番組で2026年の予測について話し合った際、ゲストのRanjan Roy氏が「2026年は誰もがエージェントを使う年になる」と言いました。私は「実際に目にしたら信じるよ」と答えましたが、今や私自身がエージェントを使っています。まさにここに来たというわけです。
何を構築するのに使っていますか?
一緒に働いている人たちとの間で、動画の公開時期やサムネイルのデザインについて共通認識を持つための社内ツールを作りました。YouTubeからのデータも統合し、サムネイルに基づいて動画のパフォーマンスをランク付けできるようにしました。自分で一から外注してお金を払ってまで作ろうとは思わなかったようなカスタムソフトウェアです。
この瞬間が面白いと思うのは、ソフトウェアは本来スケーリングし、大衆に使われるものですが、自分専用に作られたものではないものが多すぎるということです。AIによって、私たちはより自然な形でソフトウェアとやり取りできるようになるのかもしれません。
それこそが鍵だと思います。私たちが作ってきたコンピューターは、私たちをデジタルの世界に「引きずり込んで」きました。スマートフォンをスクロールするのにどれだけの時間を費やしているか考えてみてください。
はい。
様々なボタンをクリックし、あれとこれを接続しようとするのに費やす時間。なぜそんなことをしなければならないのでしょうか?
代わりにAIは、機械をあなたに近づけ、あなたに合わせてパーソナライズし、あなたが達成しようとしていることを理解してくれます。コンピューターに話しかけ、コンピューターが自分の代わりに物事を行ってくれるというポップカルチャーの世界が、いよいよ現実のものになりつつあるのです。それは実際にできることになり始めています。その驚きは、実際に試してみなければ本当に理解できないものです。ですから、私たちは今、非常に特別な瞬間にいると確信しています。
テクノロジーの受容と未来への備え
では、なぜAIは一般大衆の間でこれほど不人気なのでしょうか? 例えばYouGovの調査によれば、「AIが社会に与える影響はネガティブなものになる」と予想するアメリカ人は、「ポジティブなものになる」と予想する人の3倍に上ります。その理由はなんだと思いますか? AIのブランドイメージについて懸念はありますか?
AIが彼らにとってなぜ良いものなのかを、国全体に示す必要があると感じています。経済全体のため、GDPを成長させるためといった大局的な話だけでなく、彼らの生活をどう助けるのかという点です。
実際、私が毎日耳にする非常に具体的なストーリーがたくさんあります。ある家族の話ですが、子供が頭痛や健康問題を抱えていたのにMRI検査を拒否されていました。そこで彼らはChatGPTで症状を調べ、保険会社にMRIを受けさせるよう交渉する材料を見つけました。実際に検査を受けた結果、脳腫瘍が見つかり、適切な情報にアクセスするためにChatGPTを使ったことで子供の命を救うことができたのです。
これはほんの一例にすぎません。このテクノロジーを真の意味でパートナーとして活用することで、人生が大きく改善されたり、命を救われたりした人々のストーリーが無数にあります。
そのようなストーリーが十分に世に出ていないのだと思います。これは多くの人々の生活の中で起きているのに、まだ語られていません。私たちが持つ90年代のポップカルチャーや歴史的背景には、AIに対して非常にネガティブで、何が間違った方向に進むかを懸念するものが多くあります。しかし、実際にAIを使って実用性や価値を見出した人々は評価を変えます。
ですから、このテクノロジーの波が人々の生活を向上させ、人間同士のつながりを深める助けになるということを、人々が理解するのを私たちがまだ十分に助けられていないことについては、非常に強く懸念しています。これは私の頭の中で大きな焦点となっています。
ここにある機会と、AIがなぜそれほど重要なのかを考えれば、これが今後の経済的・国家的安全保障の源泉になると思います。国家の競争力に関わる問題であり、AIが全く逆の方向へ向かう中国のような他の国も存在します。ですから、それを認識し、全員にどう恩恵をもたらすかを真に理解することは非常に重要です。
しかし、私たちは政治的に不安定な時代に生きています。雇用の懸念もあります。私がAIについて誰かと話すたびに、「自分の仕事はあとどれくらいもつのか?」と聞かれます。
さらにデータセンターについて考えると、世論調査の結果は一般的なAIへの評価よりもさらに悪いものです。Pew Researchの調査によれば、データセンターが環境や家庭のエネルギーコスト、近隣住民の生活の質に対して「概ね悪影響を与える」と答える人がはるかに多いのです。良い仕事を見つけるのが難しい時代に、自分のコミュニティにデータセンターが建設されるのを見て、「環境にもエネルギーコストにも生活の質にも良くない」と人々は言います。彼らは間違っているのでしょうか?
データセンターに関する誤情報が確実に多く存在していると思います。良い例が水の使用量です。世界最大級のスーパーコンピューターの一つである私たちのアイオワ州アビリーンの施設を実際に見てみると、そこでの水の使用量は、一般家庭の年間使用量と同じです。つまり、水の使用量はごくわずかなのです。
それにもかかわらず、「データセンターは大量の水を消費する」という誤情報が飛び交っています。電力についても同様で、私たちは人々のエネルギー価格を押し上げないよう、自分たちで費用を負担するというコミットメントを掲げています。地元コミュニティを改善することは非常に重要であり、これは現在業界全体として約束していることです。
データセンターを建設する際、私たちは地域社会に入り込み、現場で何が起きているか、どうすれば貢献できるかを真剣に理解しようと努めています。データセンターに伴う税収があり、雇用も創出されます。そこから生まれる多くのメリットがあります。ですから、重要なのは「私たちがどう振る舞うか」であり、それは私たちが非常に重く受け止めている責任です。
なるほど。しかし、彼らの電力コストが上がらないとしても、電力を引き込まなければならず、それは潜在的により多くの汚染を意味します。それは懸念事項ではないのですか?
「エネルギーコストを押し上げない」ということには、はるかに多くのニュアンスがあると思います。現在の送電網(グリッド)の仕組みを見ると、実際には利用されていない、いわゆる「座礁電力(stranded power)」が大量に存在しています。そして、送電システムをアップグレードする必要があるのです。
それを納税者や料金支払者に負担させるのではなく、私たちが負担することが非常に重要です。クリーンな電力を利用できるにもかかわらず、それが十分に活用されず、事実上捨てられている場所がたくさんあります。
ですから、老朽化した送電網をアップグレードする明確な理由ができることには、地域社会にとって大きなメリットがあります。例えばノースダコタ州では、データセンターが進出し、すべての人のためのインフラ改善に貢献したことで、住民の電気料金が下がったという事例もあります。
政治に関する最後の質問です。あなたは親トランプのスーパーPAC(特別政治活動委員会)であるMAGA Inc.に2500万ドル(※編注: 音声上は金額言及なしだが質問の文脈)を寄付されました。Wiredのインタビューであなたは、「このテクノロジーがすべての人に恩恵をもたらすよう支援できることであれば、私は何でもする」と述べ、「それが私をシングルイシュー(単一争点)の投票者や支持者にするのであれば、それで構わない」と語りました。
私がシングルイシューのアプローチについて常に疑問に思うのは、仮に候補者があなたのやっていることを完全に支持していなくても、最終的に国が強くなることの方が、あなたの目標をはるかに実現可能にするのではないか、ということです。どんな政治活動であれ、北極星(絶対的な指針)は「より強い国」であるべきではないのでしょうか。もしそうだとしたら、その寄付にはそうした意図も含まれているのですか?
私の見解をお話しします。私と妻はその寄付を行いましたが、超党派のスーパーPACにも寄付をしています。このテクノロジーは、今後数年のうちに急速に到来し、あらゆるものを変革し、経済の基盤となるものです。しかし、それは人気がありません。だからこそ私たちは、このテクノロジーに真剣に取り組み、向き合ってくれる政治家を本当に支援したいのです。
もちろん、このテクノロジーは国としての私たちを向上させるものだと考えています。ええ、私はシングルイシューの寄付者です。これは私が独自の貢献をできる分野だと感じています。しかし、国としてこのテクノロジーを積極的に推進すべきだという支持を表明することこそが、その核心なのです。
AIを恐れている人に何を伝えますか? 「仕事が奪われる」「コミュニティが汚染される」「世界が速く変わりすぎる」と思っている人に、直接話しかける機会があるとしたら、どのようなメッセージを送りますか?
一番にお伝えしたいのは、「ツールを試してみてほしい」ということです。現在のAIがあなたに何をしてくれるのかを本当に理解するには、実際に体験してもらうしかありません。私たちは、このテクノロジーから生まれる計り知れない機会、可能性、そして力を日々の生活の中で目の当たりにしています。
先ほど、今ならどんなものが作れるかについてお話ししましたよね? これまでウェブサイトを作ったことのない人が、ウェブサイトを作れるようになります。スモールビジネスを始めたいけれど、バックエンドの処理や管理の仕方に悩んでいるなら、AIがすぐに助けてくれます。
あなたの健康のためにどう役立つか、愛する人のためにどう役立つか、お金を稼ぐために、あるいは節約するためにどう役立つか。これらはすべて現実のものとなります。
これから「何を失うか」を想像する方が、「何を得るか」を想像するよりもはるかに簡単です。しかし、方程式の両側を本当に理解するために、公平に試してみる価値はあると思います。
ちなみに、世論調査のデータではあまり語られないことですが、AIを試したことがない人たちこそ、はるかにネガティブな反応を示します。一方、パワーユーザーやカジュアルに使っている人たちは、概ねこのテクノロジーに対してポジティブな印象を抱いています。
私自身、このテクノロジーについて長い間考えてきましたが、今目の前で展開されていることは、私たちが想像していたよりもはるかに驚くべきものであり、有益であり、圧倒的にポジティブな影響をもたらすと確信しています。
最後にお聞きします。未来に向けてどう備えるべきか、アドバイスをお願いします。「ツールを触ってみる」というだけでは不十分だと思います。私の友人たちも「自分の仕事や世界がどうなるのか分からない。どう対処すればいいのか知りたい」と相談してきます。
それでもやはり、一番重要なのはテクノロジーを理解することだと思います。テクノロジーから最大の価値を引き出している人々は、好奇心を持ってアプローチし、自分のワークフローで実際に試し、「真っ白な入力ボックスを前にして何をすればいいのか?」という最初の壁を乗り越えられる人たちです。
「自分がマネージャーになれる」「方向性を決められる」「委任できる」「監視できる」という主体性の感覚を養うこと。そのスキルを磨くことが根本的に重要になります。
私たちは、人間が人間を助け、人間同士のつながりを育み、人間が自分がやりたいことをする時間を増やせるようにするために、このテクノロジーを構築しています。ですから問いは、「あなたは何を望むのか?」ということになります。それを明確にし、このテクノロジーの助けを借りてそれを実現しようと努力することこそが、最も重要なことなのです。
Greg、本日は番組にお越しいただきありがとうございました。
お招きいただきありがとうございました。
リスナーの皆様、ご視聴ありがとうございました。次回のBig Technology Podcastでお会いしましょう。


コメント