Google Cloud CEOが語る:Anthropic、TPU、Mythos、NVIDIA、そしてその先へ

Google・DeepMind・Alphabet
この記事は約38分で読めます。

本動画は、Google CloudのCEOであるThomas Kurianへのインタビューである。TPUの供給能力やインフラストラクチャの優位性、データセンターの電力問題への取り組みについて詳しく語られている。また、NVIDIAとの比較、Anthropicとのパートナーシップ、AIのエージェント化がもたらす開発環境の変化、そしてAIによるサイバーセキュリティの脅威と防御策など、AI業界の最前線におけるGoogleの戦略と今後の展望が包括的に解説されている。

Google Cloud CEO: Anthropic, TPUs, Mythos, NVIDIA and more
Join My Newsletter for Regular AI Updates 👇🏼 Links 🔗👉🏻 X: 👉🏻 Forward Future X: https:/...

Google Cloudキャンパスでの対話の始まり

私たち自身が単なる他社の知的財産のディストリビューターではなく、私たち自身の知的財産を所有しているのです。

しかし、人工知能の神話に関して、アメリカのより幅広い層の心と認識をどのように変えていくのでしょうか。

Mythosは初の10兆パラメータモデルになると噂されていますね。

自社のチップを持ち、需要があることは、チップを持たないよりも良いことです。

次の大きなボトルネックはどこになるのでしょうか。

Geminiを一般公開するのに安全ではないと判断する境界線やベンチマークのようなものはありますか。

私たちには、他のすべてのAIラボから寄せられる、到底満たしきれないほどの需要があります。

Thomas、夜も眠れなくなるほどの懸念事項は何ですか。

Thomas、本日はお越しいただきありがとうございます。今日はGoogle Cloudキャンパスにお邪魔していますが、お時間をいただき本当に感謝しています。

こちらこそ、お招きいただきありがとうございます。

お話しできるのをとても楽しみにしていました。たくさん質問を用意しているんですよ。

いいですね、何でも聞いてください。

TPUのキャパシティと圧倒的な需要

最近私がずっと考えている最初の質問は、TPUのキャパシティについてです。AnthropicやOpenAIのような他の最先端ラボを見ると、彼らが話しているのは計算資源の制約についてばかりです。

ええ、そうですね。

でも、こちらのGoogleを見ると、フルスタックを備え、自社のチップを持っていますよね。そして自社の推論を提供するだけでなく、トレーニングを行い、推論リソースを販売し、競合他社があなたのチップ上でモデルを構築するのも許可し、さらには自社チップの販売も行っています。他の最先端ラボが十分なキャパシティを確保できないでいる中、どうしてそれほどのキャパシティを持っているのでしょうか。また、それについてどのように考えているのですか。

私たちが世界のどの部分を収益化しているかを考えてみると、ある場所ではトークンそのものとチップで収益を上げ、別の場所では他社のモデルのトークンから収益を得つつ、その基盤として私たちのチップを使っていただいています。その理由の一部は、私たちが何年も前に遡って長期的な計画を立てているからです。このAIの波が来ると予測したとき、物理的な制約を受けないように様々な要因を検討しました。

私たちはエネルギー源の多様化を図りました。データセンターを建設できるように不動産を確保しました。データセンターの構築方法も変えたのです。従来の建設作業ではなく、より多くを製造プロセスへと移行させました。製造のほうが建設よりも常に早く進められるからです。

さらに、マシンのデプロイにかかるサイクルタイムも短縮しました。これらはすべて私たちが実行してきたことであり、キャパシティの面で非常に役立っています。そしてシリコンの側面では、私たちは常にパートナーとしてNVIDIAと協力してきましたが、同時に自社製シリコンの構築も目指してきました。これに取り組んでもう11年目か12年目になりますね。私たちのイベントでは第8世代のTPUが発表される予定です。

はい、それについても後でお聞きするつもりです。

このように、これは私たちが何度も何度も繰り返し行い、その優位性を繰り返し提供してきた真の技術なのです。そして興味深いことに、現在ではAIラボだけでなく、他のセグメントからも需要が見られます。たとえば、資本市場におけるCitadelが私たちのTPUをどのように活用しているかについて語っているのを目にするでしょう。エネルギー省やハイパフォーマンスコンピューティングの顧客も話題にしています。つまり、TPUはAIアルゴリズムだけでなく、より汎用的なインフラストラクチャになりつつあるのです。

では、TPUを収益化するあらゆる手段に計算資源を割り当てる際、それらをどのように比較しているのでしょうか。もし具体的な数字を共有いただけるなら素晴らしいのですが、単にTPUを販売することと、AnthropicやOpenAIにインフラを通じて推論を提供するのを許可すること、そして自社のGeminiモデルを提供することを比較した場合、それぞれのアプローチはどう違うのでしょうか。

私たちはこれらすべての投資バランスをとっています。そして、どの方法で販売するにせよ、自社の知的財産を所有しているため、素晴らしい利益率を達成できています。私たちは他人の知的財産の単なる販売代理店ではありません。それが私たちの助けとなっており、売上高と営業利益率の両方が向上しているのをご覧いただけると思います。

また、私たちはTPUを別の領域にも展開しています。例えば資本市場を見ると、非常に興味深い発見がありました。アルゴリズム取引はこれまで数値計算を用いて行われており、それは主にムーアの法則に制約された従来の計算リソースで行われていました。世代ごとの段階的な改善は遅くなってきています。そのため、多くのトップ企業は、推論へとシフトすることで得られる莫大な改善効果に気づいたのです。数値計算の手法を用いる代わりに推論へ移行すれば、推論時間における改善をそのまま享受できます。そして彼らが参入してくると、たとえば取引所に近い場所など、彼らの拠点に私たちのマシンを置きたがります。

なるほど。

そこで私たちは、いくつかの主要な顧客のために、彼らのデータセンターでTPUを利用できるようにし始めました。これは少し異なるビジネスモデルですね。マクロな視点で見れば、多様化は製品を向上させると言えます。なぜなら、様々な場所からの要件を知ることができるからです。収益化の多様化も私たちの成長を助けてくれます。例えばサプライチェーンのベンダーと取引する際、私たちがこれらのチップを自社のニーズだけでなく市場にも提供しているため、彼らはGoogleの需要がはるかに大きなプールの総和であると認識し、結果として私たちは有利な条件を引き出すことができるのです。

この点についてもう少しお聞きしたいのですが、もし計算需要が無限であるなら、研究開発の面だけでも、なぜ計算資源を溜め込まないのでしょうか。なぜ手元に残しておかないのですか。さらに踏み込んで言えば、すべてのAIラボがAGIを目指しており、最初にそこに到達しスケールアウトできた者が勝つのであれば、キャパシティを自社のために、自社のモデルのために保持しておく方が実は非常に有益に思えます。私は何か見落としているのでしょうか。

これらすべてに資金を供給するためには、利益を上げなければならないということです。

Googleは莫大な利益を上げていますよね。

しかし、それを続けるにはキャッシュフローを生み出し続けなければなりません。そしてこれは、十分なキャッシュフローを生み出すためのもう一つの手段なのです。私たちが他者に割り当てる量は、常に自社のニーズと資本要件とのバランスをとって決定されています。どのラボにいようとも、ベンチャーキャピタルがいつまでも資金を提供してくれるわけではありません。

確かにそうですね。

計算コストが上昇する中で、もし赤字覚悟のビジネスを運営し、トレーニングコストをカバーするだけの利益を推論や他の手法から得られていないとすれば、そのギャップが広がるにつれて、資金調達の選択肢は狭まっていきます。

私は、Googleがいかにユニークな立場にあるかについてよく話しています。潤沢な資金源があり、チップがあり、モデルがあります。あなたのGeminiチームがやって来て、リソースが足りないと言うことはありますか。この点にこだわって申し訳ないですが、他の企業が追いつけないでいるという話を聞くと、本当に驚いてしまうんです。

これらのリソースに対する需要は常にあります。これからの10年間は常に供給よりも需要が上回る状態が続くと思います。そして、もし自社のチップを持っていれば、それは有利な立場と言えます。持っていなければ、他人の製品を再販することになります。キャパシティが制約された環境では、ユニットエコノミクスはより高価になります。しかし私たちの場合、チップを管理しているため、ユニットエコノミクスは魅力的なままです。つまり、シリコンを所有していることが私たちの強みになるのです。

あなたのTPU、つまり計算インフラストラクチャ全体のパイを見たとき、トレーニング、推論、TPUの販売、他のラボへの推論提供の割合はどうなっているのか少し教えていただけますか。

大まかに言うと、詳細は公表していないので各要素について詳しくはお話ししません。

もちろんです。

しかし大局的に見れば、クラウドはAlphabetの資本の約半分を占めており、ご存知の通りはるかに速く成長しているため、その割合は拡大しています。それが一つの分割であり、私たち側の成長の大部分はGeminiと私たちのモデルからもたらされています。大まかな目安としてそう考えていただければと思います。

データセンターの展開と電力へのアプローチ

データセンターとその建設について言及されましたが、データセンターについて話す際、建設と製造の違いとは何なのか説明していただけますか。

はい、それは単に容量を展開する際の単位の違いです。例えば、マシンのラックをデータセンターで組み立てることができます。あるいは、マシンの列全体を工場で製造し、それをデータセンターに展開することもできます。展開できる単位が大きければ大きいほど、中央の拠点で事前に構築し、事前にテストすることができ、結果としてデプロイメントがはるかに速くなります。

新しいデータセンターの展開を計画する際、あなたもおそらく誰よりもご存知でしょうが、特にアメリカではデータセンターに対するかなり否定的な感情があります。好感度は20%ほどだと思います。それについてどう考えていますか。また、AI業界全体が人工知能、特にアメリカに戦略的優位性をもたらすデータセンターの展開に関する世論や感情をどのように変え始めることができるとお考えですか。私は人工知能全般に対して非常に楽観的なのですが、どう思われますか。

データセンターに関して人々が本当に懸念しているのはいくつかの点です。第一に、自分の州や郡のエネルギーコストが上がるのではないかということ。

ええ。

第二に、データセンターが稼働する地域社会に十分な雇用がもたらされるのかということです。そこで、私たちが取り組んでいることがいくつかあります。第一に、送電網からエネルギーを奪うのではなく、メーターの裏側の技術に投資しています。そして州が望めば送電網と相互接続し、送電網が供給不足になった場合には私たちのエネルギーを送電網に供給できるようにしています。私たちは代替エネルギー形態にも投資しています。発電して分配するという従来の方法が、必ずしもエネルギー供給の唯一の方法ではないと考えているからです。

私たちが検討していることの一つは、AIの需要によって生み出され、やがてより広い市場に提供できるような新しいエネルギー供給形態によって、エネルギーの単価を下げることができるかということです。第三に、私たちが消費するエネルギーの単位、いわゆるPUEについて、業界最高水準を確保することに多大な注意を払っています。つまり、100メガワットの計算能力が必要な場合、エネルギー源からどれだけ少ない追加メガワットで済むか、エネルギーを無駄にしていないかということです。私たちはこの点において世界で群を抜いて効率的です。熱交換の仕組みや冷却方法など、そこには無数の要素が関係しています。

最後に、私たちは進出している地域社会に投資しています。Googleが1つの巨大な場所に展開していると地域社会に感じさせないよう、多くの場所に分散させています。そうすることで、個別の州が私たちが彼らの資源に大きな負担をかけていると感じないようにしています。これまでの実績も素晴らしいものです。私は自社のデータセンターの多くに足を運んでいます。地域経済に触れ、学校教育システムにいる子供たちを見たり、私たちにとって非常に重要であるデータセンターを運営する従業員を見たりすると、私たちがそれらの地方のコミュニティにどれほどの経済発展をもたらしているかを実感します。それは私たちの責任の一部だと考えています。

素晴らしいですね。地域社会ではなく、より広い世論についてはいかがですか。そこに入って雇用を創出し、投資を行い、電力を使い果たして直接的に価格を引き上げるようなことはしていない。それはすべて素晴らしいことですが、人工知能に関してアメリカの幅広い層の心と認識をどのように変えていくのでしょうか。

それはプロセスになるでしょうね。そして、単に人々に雇用の喪失を心配させるような問題を引き起こすのではなく、社会にとって良い形で技術を適用できる場所を見つけることだと思います。いくつか例を挙げましょう。

ぜひお願いします。

私たちの基調講演でSignalという会社を紹介します。彼らはドイツを拠点とする最大の健康保険会社です。現在、彼らはチームの業務を支援するために、Gemini Enterpriseに基づいて構築された多くのエージェントを展開しています。本当に興味深かったのは、私たちが彼らと仕事を始めた当初、それが雇用の喪失を意味するのではないかという大きな不安があったことです。しかし、彼らは誰一人として解雇していません。実際、この治療を受ける資格があるかどうかという顧客からの質問に対する回答の正確さとスピードが、調査に23分かかっていたケースが数秒にまで短縮されたことがわかりました。これにより効率が向上し、カスタマーケアの質も高まりましたが、彼らは一つの雇用も手放していません。

また、私たちは米国臨床腫瘍学会とも協力しています。彼らはアメリカのすべての腫瘍医、5万1000人のメンバーを抱える大規模な組織です。彼らは、医師が患者と向き合う際に標準治療のガイドラインを理解するのをAIが支援するアプリケーションを求めていました。患者が乳がんで来院した場合のガイドラインは何か、しかしその患者が糖尿病も患っていることが判明した場合、特定の抗がん剤は処方できない、といった非常に複雑なルールがあります。これらのルールは重なり合っていることも多く、医師は100%正確な回答を提供する支援を必要としていました。ハルシネーションは許されません。私たちは彼らを支援し、医師が患者のケアをするのに役立っています。メンバーからのフィードバックは非常に報われるものでした。このように多くの例がありますが、私たちが常に最も重要だと言っているのは、例えばウェルス・アドバイザーの構築です。

現在、一般的な市民を考えてみてください。もしあなたが富裕層であれば、プライベートバンクに行ってウェルスマネジメントの専門家にアドバイスをもらうことができます。しかし、そのような資金力のない平均的な人は、質の高いアドバイスを得られないかもしれません。Citigroupはウェルス・アドバイザーを構築しており、イベントでそれを披露する予定です。これは、Geminiの推論機能とタスク管理機能を使用して人々にアドバイスを提供し、必要であれば投資行動を支援するものです。これらは社会が有益だと感じるものの例です。AIが大規模な雇用の喪失を引き起こすという懸念と、こうした恩恵を享受する側面との間でバランスを取るには時間がかかります。そしてそれは、私たちが社会として歩んでいる道のりの一部なのです。

AIの普及がもたらす雇用への影響と社会的なメリット

同感です。特に雇用の喪失は、アメリカの一般の人々が非常に心配していることだと思います。あなたの組織、Google Cloudについて直接お聞きします。人工知能によってより多くの自動化が進み、エンジニアや組織の他の部分がより生産的になっているのを目の当たりにして、現在採用を行っているのですか。それとも人員を削減しているのでしょうか。あるいは安定していますか。その点についてどのような状況でしょうか。

私たちは製品や営業のために人員を追加しています。市場開拓組織で多くの人を採用し、最前線で展開するエンジニアも多数採用しています。新しい製品を構築する分野では、能力を強化しています。例えば、人々が目にしていないものの例をお話ししましょう。ずっと前に、モデルがコードを理解する上でより高度になり、第二に、モデルがタスクを実行するためにコンピューターを使う方法を学ぶにつれて、驚くほどうまくこなせる多くのことがあると私たちは言いました。しかし、コードを理解する際の問題の一つは、コード内の脆弱性も発見できるということです。

新しいモデルのいくつかによるサイバーセキュリティの脆弱性について、大きな不安がありますね。

それについても話しましょう。私たちはかなり前に、3つのことを行う決定を下しました。第一に、コード内の問題を検出する方法としてGeminiを改善すること。多くの顧客がこれを利用しています。

第二に、脆弱性を非常に早く発見できるようになると人間が追いつけなくなる可能性があるため、コードを修復できるモデルの構築を支援すること。これについては新しい機能が登場します。Wizという会社を買収提案した際、私たちはWizと共に新しい機能を披露する予定です。それは真の意味での継続的な検出に関するものです。

ええ。

人々はこれを継続的レッドチーミングと呼んでいます。私たちは3つの異なるタイプのエージェントを紹介する予定です。脆弱性が確実に修正され、不意打ちを食らわないように継続的にシステムを攻撃するエージェント。これは以前はできなかったことです。次に、発見された問題に優先順位をつけ、本当に修正が必要なものを把握できるようにするエージェント。そして第三に、それらの修正を支援するエージェントです。

まだ採用を続けていると聞いて安心しました。

より生産的になり、さらに採用もしているのですね。

世の中にはBlockのような大きな例がありますよね。Jack Dorseyがブログ記事を出しましたが、Blockは組織の半分をレイオフし、AIのせいにした、あるいはその理由としてAIを挙げました。Googleがこの生産性向上を雇用増加と結びつけているのに対し、Blockが「いや、会社を変革する。人数は半分でいい、もっとうまくやる」と言っている。この違いは何だと思いますか。この矛盾はどこから来るのでしょうか。

すべての会社にはその製品やサービスに対する需要があり、各CEOが独自の決定を下します。私たちは十分な需要を見込んでいるため、投資を行っているのです。

NVIDIAとの比較とTPUエコシステムの強み

少しNVIDIAについて話しましょう。Jensen Huangが最近Dwarkeshのポッドキャストに出演し、CUDAやNVLinkネットワークツールのおかげで、トークンあたりの総所有コスト(TCO)という点でNVIDIAのアーキテクチャが最も安価であると語っていました。彼らはより良いトークノミクスを提供していると。この評価に同意しますか。全体的な総所有コストでGoogleが最高だと思いますか。もしそうでないなら、Googleはどのように追いつくのでしょうか。

私たちが総所有コストで最高だと言ってくれるお客様がたくさんいますよ。

あはは、それが答えだったということですね。

現実として、AIラボであれば最高のプラットフォームを選びます。使っているのは私たちの社内チームだけではありません。他のすべてのAIラボから、私たちが応えきれないほどの需要が寄せられています。だからこそ言えるのですが、もし私たちがずっと高価であったなら、彼らはTPUを求めてこないでしょう。

TPUを特別なものにしている大きな要因はスピードですか。Geminiファミリーのモデルは非常に速いことに気づきました。私自身スピードを重視するタイプなので、この速さはとても高く評価しています。通常、ASICについて見るとき、それらは特化されており、汎用的なGPUよりもはるかに速い傾向があります。それは多くのAIラボやあなた自身の顧客にとってのセールスポイントなのでしょうか。それとも、彼らはやはり一日中品質を求めているのでしょうか。

品質ですね。3つの核となる要素の組み合わせだと思います。チップではなく、システム全体の話だからです。例えばTPU v8のシステムでは、v8は9600個のチップを持っています。v8iは確か1152個のチップが単一の光トーラス・ネットワーク上につながっています。そのため、ポッド内のすべてのチップにわたって信じられないほど高い帯域幅と、非常に予測可能なレイテンシがあります。これにより、メモリからデータを取り出して処理し、再びメモリに戻す際の速度において、極めて高い効率が得られます。

例を挙げると、トレーニング用チップであるv8tは、単一のシステムに2ペタバイトのメモリを搭載できます。2ペタバイトというのは、デジタル化された米国議会図書館のすべてのデータの100倍ほどのサイズです。

すごいですね。

そして超低遅延ネットワークであるため、メモリからチップへのスループットは極めて高速です。第三に、プログラミング・スタックの観点からその上のレイヤーを見ると、Googleが構築し業界に提供してきたコンパイラ最適化のためのツールが数多くあります。例えばJAXや、PyTorchとの素晴らしい協力、XLA、Pathwaysなど、これらはすべてGoogleが構築した技術です。

これらすべてを組み合わせ、推論時のVLM(視覚言語モデル)を見ても、私たちが超最適化した技術がいくつもあります。このスタック全体が、TPUシステムを非常に効率的で強力なものにしているのです。そしてそれは「グッドプット」と呼ばれる指標を通じて確認できます。グッドプットとは、どれだけの効果的なスループットが見られているかということです。

また、私たちは何年も前、3、4年前くらいにいくつかの決定を下しました。例えば、先ほどのエネルギーの話にもあったように、エネルギーが不足することを予測していたので、ワットあたりのコスト、あるいはワットあたりのトークンを最適化することに注力しました。これも多くの人々が求めている要素の一つだと思います。

AIモデルの進化とエージェント化の波

計画とTPUについて少しお話しされましたが、11年前と言いましたか。

はい。

テクノロジーの世界においてこれほど昔に下された決定が、ここ数年でこれほど多くの実を結んでいるのを見るのは驚くべきことです。現在の市場の動向に基づいて、あなたの計画はどの程度変化、あるいは分散しているのでしょうか。何年も前に下した決定が現在でも適用され揺るぎないものなのか、それとも絶えず変更を余儀なくされているのでしょうか。

私たちがスタックの様々なレイヤーにわたって持っている歴史は、時間とともに複利のように積み重なってきたと言えます。TensorFlowを作ったとき、トレーニングには大規模な分散プログラミングモデルが必要だと気付き、例えばJAXを構築しました。それはTensorFlowを使って人々が試みていることから学び、新しい分散トレーニングモデルが必要だという過去の蓄積の上になされたものです。過去に行ってきたことから学び、新たな改善を加えながら蓄積していくものもあるわけです。

同時に、私たちは市場の動向に非常に敏感であり、顧客の声に耳を傾けて決定を下しています。例えば、なぜ推論用チップであるv8iを作ったのかと聞かれますが、それは結局のところ、どんなに資金が潤沢であっても、推論で利益を出さなければトレーニングの資金をまかない続けることはできないと気づいたからです。少なくとも損益分岐点から見てトレーニングコストをカバーしなければならず、ベンチャーキャピタルの資金にいつまでも頼ることはできません。

そこで私たちは、推論に対する大きな需要が生まれるだろうと考えました。推論を最適化するために必要な要素はわかっていましたし、率直に言って推論用チップv8iの需要は私たちの予想をはるかに超えていました。

第8世代のチップについて話しましょう。今回初めて、2つの異なるチップファミリー、つまり推論用と事前学習用の2つのチップに分割されました。まず確認ですが、Ironwoodはより推論向けに構築されたものですよね。

Ironwoodは混合型でした。トレーニングと推論の両方に使われていました。例えばチャットのような推論には日内変動があります。昼間は人々が起きていて多くの質問をしますが、夜は寝ている人もいます。そのため当時、多くの人々がスポットインスタンスとして推論に、例えば学習後の推論として夜間にスポットインスタンスで使っていました。ですから汎用チップだったのです。

v8tは主にトレーニング用です。推論での使用を検討している人もいます。そしてv8iは主に推論用ですが、小規模なモデルを持つ人々はこれをトレーニングにも使用します。

チップを分割するという決定に基づくと、ワークロードがどこに向かっているかについて何を意味しているのでしょうか。現在どのような状況が見られ、今後5年間でどうなると予想していますか。主要なワークロードはどこになるのでしょうか。

それは、私たちがGeminiで行っている作業にも、シリコンにも現れています。Geminiを見ると、モデルにはいわば3つのフェーズがありました。最初のフェーズは、人々がモデルに一連の質問をし、モデルが答えるというものでした。マルチターンで反復することはあっても、基本的には検索チャットボットのような体験でした。私たちのGemini Enterprise製品も検索して質問に答える機能を提供しています。また、深い分析を行うためのDeepResearch機能も追加しました。

ええ。

その後、第2のフェーズが到来し、拡散モデルが主に画像、音声、動画などのコンテンツを作成するために使用されるようになりました。そしてGemini 1.5 Nanoなどにより、メディア入力は常に可能でしたが、メディア出力がメインモデルの一部となりました。WPPのようなクリエイティブ企業や、様々なCPG企業がコンテンツを作成するために、私たちのエンタープライズAIプラットフォームであるGemini Enterpriseを使用するのを目にしました。現在では、これを使ってあらゆる種類のコンテンツ作成が行われています。

なるほど。

そしてモデルは、世界の抽象化を扱うのが非常に得意になりました。「世界の抽象化」というのは、企業に行けば、モデルは様々な異なるシステムと接続されなければならないということです。顧客についての質問に答えるためにCRMシステムと会話する必要があるかもしれません。サプライチェーンや計画システムを見る必要があるかもしれません。モデルがこれらを扱うのが非常に得意になるにつれて、究極の抽象化とは、世界中の他のものをコンピューターとして抽象化することだと気づきました。コンピューターと話すことができれば、あらゆるソフトウェアの形態はコンピューターがそれと話すための抽象化に過ぎないので、コンピューターはすべてのものと話すことができるからです。

それが究極の抽象化だと思いますか。モデルがコンピューターやブラウザの使用を制御できるようになることが。

しかし、それらのシステムから得られる情報を理解することも重要です。ただコンピューターと話せるだけでなく、コンピューターが与えてくれる情報に対応できなければなりません。意味がわかりますか。

はい。

それが「エージェント」という概念につながりました。エージェントとは、タスクを委任できるモジュールのようなものです。エージェントは自身を一連のスキルとして説明し、ツール一式を操作する方法を知っており、コンピューターを含むそれらを操作してあなたに代わってタスクを実行できます。

私たちにとってそれは、Xfinityが顧客ケアのスケジュール設定や管理に利用したり、Walmartが計画からスケジューリングまで組織内の様々なことに利用したりすることを可能にします。Boschは製造業で利用しています。Merckは、新薬発見から患者への提供まで研究の全サイクルを自動化するために私たちを利用していると話しています。これが進化の次のフェーズです。ですから、モデルのスキルが進歩するにつれて共同設計を行い、実行できることの幅を広げているのです。

推論用にチップを分割した決定と、それがどう結びつくのか教えてください。

振り返ってみると、最初のフェーズで検索の質問をしたとき、入力トークンは出力トークンよりもはるかに多かったのです。モデルに非常に複雑で長い質問を投げかけ、それが答えを返すという形でした。次にコンテンツ生成の段階になると、「私の犬がスーパーマンのマントを着て車を運転している動画を作って」というようなシンプルなプロンプトを与えると、出力トークンの生成に時間がかかるようになりました。これにより、トークンの種類や構成比が大きく変わりました。マルチモーダル化が大きな要因であり、出力トークンの量が増加しました。

そしてエージェントの時代になります。これはチップ設計に3つか4つの異なる形で影響を与えました。一つは、メモリ内にどのくらいの期間データを保持する必要があるかということです。例えば、どのようなKVキャッシュが必要になるか。6時間、7時間、あるいは12時間も実行される可能性のあるタスクを委任するわけですから、トークンとしてデータを頻繁に出し入れしたくはありません。コストが高くつくからです。それが一つの例です。

第二に、このシステムにコンピューターを操作させたいと考えますよね。ちなみにそのコンピューターとは、従来の古典的な計算機のことです。

ええ。

だからこそ、それが当社のチップ開発にどう影響したかと聞かれれば、Intelと協力するだけでなく自社のARMチップも開発しました。これらのツールから汎用コンピューティングの利用が生まれると予測したからです。多くの異なるステップを実行するエージェントを推論で走らせる際、推論コストを真に最適化するために、モデルのメモリ内にオブジェクトを保持・固定し、極めて効率的に実行させたいと考えます。メモリ内でのデータ保持方法について、内部で多くの工夫を凝らしています。

さらに実践的な例を挙げると、レイテンシを管理するために、推論を複数の場所に配置したいという要望があります。一部の大きな場所に集約できるトレーニングとは異なります。そのため、v8iは空冷モードでも稼働できるようになっており、より多くの場所に配置できます。多くのデータセンターでは依然として空冷が主流だからです。こうした決定の背景には多くの思考が巡らされています。今挙げたのは、状況を説明するための3つの簡単な例に過ぎません。

エージェントの要素は本当に興味深いですね。トークンが実際にどう使われるかを根本から変えてしまうわけですから。

Anthropicとの提携とプラットフォーム企業としての立ち位置

NVIDIAは極端な共同設計についてよく語っていますが、Googleはあらゆるレイヤーにおいてそれを実践しているように見えます。

はい。

まず、エージェント的な使用、特にハードドライブへの大量の読み書きを行う場合など、最適化すべき要素がたくさんあります。TPUスタックで最近最適化したものは何ですか。また、エージェント使用の成長に基づいて、次の大きなボトルネックはどこになるとお考えですか。

私たちは常にシステム全体を見渡しています。いくつか例を挙げましょう。来週、2つの新しいストレージソリューションを発表します。一つはマネージドLustreソリューションです。スループットを毎秒10テラバイトまで向上させました。これはまさに大規模なトレーニング向けに設計されています。これを巨大なクラスターと相互接続し、大規模なデータセットがある場合、その大規模なLustreクラスターから巨大なトレーニングフリートにデータを読み込むことで、超高効率なスケールを実現できます。これが一つ目です。

二つ目に導入したのは、「Rapid Storage」と呼ばれる新しい超低遅延の推論ストレージシステムです。そのアイデアは、推論に必要な情報をクラウドストレージに中央集権的に保持しつつ、推論チップが稼働している場所に、いわばフォワードプロキシのようにマウントできるというものです。これにより、推論プロセッサからRapid Storageへのフェッチが驚くほど速くなります。毎秒15テラバイトなので、超低遅延が得られます。

これらすべてを共通のネットワークバックボーン上で最適化したいと考えますよね。そこで、「Virgo」と呼ばれる新しいネットワーク形態を導入し、巨大なクラスター全体で超低遅延の接続速度を提供します。他にもスタックの多くの部分で、エージェントの導入を見据えた共同設計を行っています。その目的は、最高のパフォーマンスと品質を備えたエージェントを実行するための最も効率的なコスト構造を人々に提供することです。

次の大きなボトルネックはどこでしょうか。

次の大きなボトルネックは、主に消費者が仮想マシン(VM)を使用する際の問題になるでしょう。例えば、自宅にいる消費者がエージェントを作り、そのエージェントに旅行の計画を立てさせるとします。もしあなたが休暇に出かけるとして、ツール(最近ではMCPやAPIと呼ばれますが)として公開されている8つの旅行サイトを調べ、ヨーロッパや東南アジアへの旅行を予約し、総費用を計算して予算を教えてくれ、という一連のタスクを依頼したとしましょう。

消費者はVMを永遠に稼働させ続ける余裕はありません。ご存知のように非常に高額になります。ですから、タスクが完了するたびにVMをアクティブ化・非アクティブ化したいと考えます。そしてこれらのツールにはローカルストレージが必要であり、これらの仮想マシンはオーバーサブスクライブされる可能性がありますが、そこから超効率的に読み書きできるローカルディスクも必要です。これがボトルネックになるでしょう。なぜなら、この技術をどれだけ広く利用可能にできるかに直結するからです。企業なら当然支払えますし、より安く効率的になればより多く利用できますが、消費者に届けようとすれば、これらのコスト構造を設計し直さなければなりません。すべての人に届けたいなら、エージェントからGemini、ストレージシステム、コンピューティングシステムに至るレイヤーを超えた共同設計の能力が求められるのです。

共有していただきありがとうございます。Anthropicについて少しお話ししたいと思います。AnthropicはGoogleの顧客の一つですよね。

はい。

彼らは多くの点でユニークな会社です。ClaudeはGoogleの最大のライバルの一つでもありますが、同時にあなたは彼らのトレーニングや推論のバックボーンでもあります。この決定についてどのように考えていますか。先ほども触れましたが、もう少し詳しくお聞きしたいです。Anthropicのモデルを動かしながら、彼らはGoogleと競争している。これは全員に力を与え、えこひいきはしないというAWSのプレイブックのようなものなのでしょうか、それとも何か違うのでしょうか。

Googleはプラットフォーム企業です。プラットフォーム企業である以上、ビジネスの異なる部分が市場の異なるプレイヤーと競合することはあります。ビジネスの一部が彼らに供給し、別の部分が彼らと競争するかもしれないのです。私たちはモデルにおいてクラス最高であると決意しており、Geminiのモデルだけでなく、Geminiを取り巻くエンタープライズツールポートフォリオを含むツールチェーン全体で私たちが成し遂げたことを非常に誇りに思っています。

同時に、私たちのTPUを求める顧客もいますし、Anthropicはその一例です。これはプラットフォーム企業であることの一部に過ぎません。例えば「Apple向けにモデルをどの程度最適化しているのか。それは皆さんのAndroidプラットフォームやエコシステムと競合するのではないか」と聞かれるのと同じです。ご存知の通り、Appleは私たちのモデルについて契約を結んでいます。はい、競合しますが、それがプラットフォーム企業であるということなのです。

10兆パラメータモデルの可能性とデータ処理の未来

Anthropicの件について少し引っかかっているのですが、彼らはエンタープライズレベルで競争しており、Appleはそうではありません。あなたが彼らに力を与えていて、先ほどおっしゃったように現在はTPUのキャパシティに余裕があったとしても、ある時点で難しい決断を迫られるかもしれません。そのキャパシティをAnthropicに提供できるのか、それともGeminiのために確保するのか、あるいは自社の研究のために確保するのか。その決定はどのように下すのですか。

Sundar Pichaiを含めた経営陣がおり、私たちはこれらを議論し、成熟した企業としてその決定を下します。毎日難しい判断があります。例えば、Anthropicからだけ需要があるわけではありません。仮にGeminiにXの量が、世界の他の国々にYの量があるとした場合、私たちに要求してくる何百もの他のラボや顧客に対して、Anthropicにどのくらいの割合を割り当てるのか。これらは誰もが直面する複雑な決定です。私から言えることはこうです。自社のチップと需要がないよりは、ある方が良いということです。

よくわかりました。Mythosについて少しほのめかされましたが、これは初の10兆パラメータのモデルになると噂されています。Googleはすでに10兆パラメータモデルの領域に参入しているのでしょうか。近いところにいますか。そのライフサイクルの中でどの位置にいるのでしょうか。

Geminiについては、近日中のイベントやその後に新しい発表がある予定です。モデルの能力に関して、私たちはGeminiの現在地を非常に誇りに思っています。長期間にわたって最先端であり続けてきました。非常に間もなくGeminiの新しいバージョンが登場しますが、私たちが見てきたすべてのベンチマークから、それについても非常に自信を持っています。

仮に、TPUサイドであなたが監督していることに基づいて、10兆パラメータモデルについて考えた場合、それは現在の世界の状況において提供可能なサイズなのでしょうか。

私たちには分散サービングを行う能力があり、これにより非常に大規模な密結合モデルを極めてうまくスケーリングすることができます。これは長い間導入されてきました。提供できないようなモデルは設計しませんので、TPUが世界最大のモデルを提供できると確信しています。そして最も重要なのは、私たちが分散サービングに使用しているサービングスタックは、定義上、業界のすべてのモデルプロバイダーの中でTPU上で最も効率的であるということです。ですから、私たちは最大のモデル、特に最大のGeminiモデルを提供できると確信しています。

ということは、事前学習側でのスケーリングの減速は見られないということですね。業界では一時、事前学習は減速しており、これからは強化学習や推論時間に焦点を当てようという声がありましたが、そのような感覚はないのですか。

チップ設計やシステム設計、キャパシティの不足などといった観点からは、そのようなことは見受けられません。

基礎となるデータについてはいかがですか。合成データのより効果的な使用は見られますか。

はい、見られます。私たちが歴史的に見てきたことの例を2つか3つ挙げましょう。これまでモデルに供給されていたデータの多くは、テキスト、音声、動画、ファイルなどの非構造化データでした。これらは成長し続けています。しかし、エンタープライズの文脈におけるこれらの現実は、実は処理が非常にシンプルだということです。エージェントに質問をし、「出典やこの答えをどこから導き出したのか教えて」と頼んだ場合、それが文書の中にあるなら、その文書へのリンクを示すだけで済みます。

しかし想像してみてください。「この製品の需要を満たすためにどのくらいの在庫が必要か教えてください」とモデルに質問したとします。これは、一連のテーブルに対して動的にアクセスするSAPシステムやサプライチェーンシステムに対するクエリに変換されます。そのクエリをどのテーブルから取得しているかに分解して正確に処理し、出典を示す、つまり「どうやってそれを導き出したのか、どうやってその答えが正しいと知ることができるのか」を示すのは、はるかに複雑な問題です。

エンタープライズ分野での私たちの取り組みにより、Geminiの軌道最適化ハーネスにおいて、複雑なフィールドなどの構造化データを使ったサイクルをより多く供給することができます。コンピューターの使用やブラウザーの使用について話す際、1000個のフィールドやドロップダウンリストを持つエンタープライズアプリケーションを見たことがありますか。コンシューマーアプリでそのような複雑さを持つものは存在しません。

したがって、この分野にいることで、私たちはGeminiシステムにそれらのいくつかを教え、ハーネスに組み込むことができるのです。

エージェントによるコーディングとGoogleの開発体制

ハーネスやエージェントコーディング全般について続けましょう。私自身も最近よくコーディングをしています。Googleに友人がいる人のバイラルツイートがありましたが、内部ではGoogleはエージェントコーディングの最前線にはいないと言っていました。これについての見解はいかがですか。Googleはエージェントコーディングをどのように導入しているのでしょうか。またAnthropicの名前を出さざるを得ませんが、彼らの出荷スピードは驚異的です。Googleはエージェントコーディングの最前線にどう適応していますか。

現在、多くのエンジニアが当社の内部コーディングハーネスであるJetSkiを使用しており、そのフィードバックは強化学習ループの中で直接DeepMindに送られ、コーディングにおけるGeminiの品質を日々向上させています。私の組織でも多くの人々がこれを使用しています。

一つ気づいたのは、私がこれまで以上に生産的になっているということです。

非常に速く出荷できていますし、とても楽しんでやっています。すべてのコード行をレビューしているわけではありません。実は、ごくわずかな行しかレビューしていません。

しかしGoogleにそれはできませんよね。私のは小さな遊びのプロジェクトですが、Googleはリスクの高いプロジェクトやサービス、製品を提供しています。どのようにして、エージェントコーディングの最前線に立ち、非常に多くのコード行を生成しながらも、品質を維持し、展開されるすべてのコード行を確実にレビューしているのでしょうか。

私たちがソフトウェアエンジニアリングの生産性について語るとき、外部で報じられているのとは少し異なる見方をしています。Googleのように製品を作る企業で働いていると、本当に重要だと気づくことが2つか3つあります。例えば、シニアエンジニアはジュニアエンジニアよりもはるかにコンパクトなコードを書きます。ですから、私たちはコードの行数を指標として数えません。一般的に、スキルの低いエンジニアはシニアエンジニアと同じタスクを行うのにより多くのコードを書くからです。

何年も前から「コードの行数を数えるな」というのは一種の決まり文句ですが、今ではなおさら、全体的な出荷スピードが問われていますね。

ええ、ですからどれだけ機能を追加できるかが重要なのです。

なるほど。

第二に、Googleには伝統的に、コードをチェックインする際にはピアレビューが必要だというルールがあります。通常、ピアレビューはシニアマネージャーによって行われます。それがボトルネックになるため、私たちはGeminiを導入し、エンジニアはそれを利用しています。例えば最近クラウド部門で、コード内のセキュリティ脆弱性をスキャンするためにGeminiを導入しました。ツールがコードを生成するためだけでなく、コードを検査するためにも使用されているのです。これにより、シニアエンジニアがレビューを行う段階で、多くの事前作業が完了している状態になります。

第三に、真のソフトウェア企業における長期的な視点で見ると、エンジニアが非生産的な作業に最も時間を費やしているのは問題のデバッグです。

そこで私たちはGeminiの別バージョンを構築しました。来週披露する予定の一つですが、世界で最も複雑なコンピューターとは何だと思いますか。世界で最も複雑なコンピューターはクラウドです。PCがおもちゃに見えるほどです。私たちは自社のクラウドのすべてをツールとしてモデルに公開しました。そして現在、インシデントのトラブルシューティングにGeminiを使用しています。これもまた、人々が機能するスピードを向上させ、ひいてはモデル自体の品質を向上させるのに役立っています。このように、私たちは様々な次元からこの問題を見ています。

しかし、生産性が向上し、より多くの機能をより速く出荷できるようになると、コード行数が測定基準ではないとはいえ、間違いなくこの速度向上の結果としてコードは増えます。すべての行をレビューできない限界が来るのではないでしょうか。さらに抽象化してその先を考えると、人間が実際のコードや展開される機能を理解する度合いが時間とともに減っていくように思えます。特に、AIを使ってコードをレビューしたりデバッグしたりする場合はなおさらです。AIにコードを作らせ、AIにコードをレビューさせているとすれば、私たちはコードと機能の根本的な理解を失いつつあるのでしょうか。

AIがもたらすサイバーセキュリティへの脅威と防御策

それは業界として管理しなければならないリスクですね。人々はプロンプトを与えればコードブロックが生成されるから、プロンプトを理解していればコードを理解する必要はないと言います。しかし現実には、複雑なシステムにおいて、プロンプトがシステムの潜在的な振る舞いをすべて説明できるわけではありません。

確かに。

例えば、例外処理にどう対応するのか、などです。少し前に「ソフトウェアエンジニアはこんなに必要なくなる」と言われましたが、その矢先にモデルが登場し、多くのセキュリティ脆弱性を発見しました。モデルと一緒に働くために大量のソフトウェアエンジニアが必要になったちょうどその時にです。私たちは、バグやセキュリティの脆弱性を具体的に修正できるバージョンのモデルを導入しています。

しかし、ツールを使いこなし、それに集中する人間は依然として必要ですよね。

時に業界は極端な方向に振れてしまうことがあり、まさに必要なときに「誰も必要ない」と言い出したりします。

ええ。

だから私たちはもっと長期的な視点で物事を見ています。例えば、コードを異なる視点で見て実際にレビューするためのスーパーバイザーモデルが必要かどうかを常に検討しています。先ほど「依然としてコードのピアレビューを行っており、シニアエンジニアがレビューを行うためにツールを使用するのを支援している」と言ったのはそのためです。

そこで疑問が生じます。もしツールがコードを生成した場合、特定のパターンに対する自己認識がないため、自身が生成したコードの問題を見つけられるほど自己認識力があるのでしょうか。私たちはその解決策を模索しています。私たちの目標は常に最高のモデルを大規模に適用することです。私のチームだけでも、毎日何千人もの人々がそれを使っています。キャンパスに足を踏み入れれば、6つものウィンドウを開いている人々を目にするでしょう。一つでコーディングし、一つでコンパイルし、一つでデプロイとテストを行い、もう一つではバックグラウンドでコードレビューを実行している、といった具合です。多くの人々がJetSkiというツールハーネスを使っており、それは仕事の進め方を進化させる一環なのです。

サイバーセキュリティについて触れられましたね。その話題で締めくくりましょう。Anthropicは、Mythosモデルのサイバーセキュリティ機能が高すぎたため、少なくとも現時点では一般公開を見送る決定を下しました。Googleとしてはこれについてどうお考えですか。どのような反応でしたか。また、Geminiを一般公開するのに安全ではないと判断する境界線やベンチマークのようなものはありますか。

どのようなラインになるかについて、現在検討を進めています。しかし、私たちの課題はこういうことです。もしMythosが一連の問題を発見したとして、そのうちの何パーセントがオープンソースモデルでも発見できたでしょうか。なぜオープンソースモデルに言及するかというと、どれだけ防御を固め、「クローズドソースモデルが敵の手に渡らないようにする」と言ったところで、オープンソースモデルは確実に敵の手に渡るからです。

そしてそれらはますます進化していますよね。

ええ、良くなっています。遅かれ早かれ、すべてのパターンではないにせよ、その一部は検出可能になります。では、どう対応すべきでしょうか。私たちはユニークな存在です。なぜなら私たちはハイパースケーラーであり、モデルプロバイダーであり、そしてMandiantチームとWizのようなサイバーセキュリティ組織も抱えているからです。

私たちは3つの実践的なことを行っています。もし人々がモデルを使って問題を発見するようになれば、人間が修正するよりもはるかに早く問題が見つかるため、問題の修正を支援するモデルが必要になります。そこで私たちは修正を支援するモデルを検討しています。

第二に、もし彼らがモデルの脆弱性を発見すれば、モデルやコンピューターを使って大規模な攻撃を仕掛けてくるでしょう。

それを防ぐために、「月に1回システムのレッドチーミングを行う」といった方法では十分ではありません。継続的なレッドチーミングを実行できるエージェントや、実際に修正を支援できるエージェントの導入が必要です。コードを修正することと、古いコードが実行されていたすべての場所を特定して削除し、パッチが当てられ更新された新しいコードを展開することは別の話です。これが第二の要素です。

そして第三に、世の中には膨大な量のコードがあります。何から始めればいいのでしょうか。

ええ。

ここでも、何を特定し優先順位をつけるべきかを支援するツールを構築しました。

これは、モデルではなくソフトウェアのオープンソースに対する賛成または反対の議論になるのでしょうか。オープンソースであればすべてのコードが公開されており、モデルがそれを見て脆弱性を見つけ、悪用するのに格好の標的になります。クローズドソースにはその問題はありません。しかし一方で、オープンソースははるかに早く強化されていくでしょう。これについてどうお考えですか。賛成の議論ですか、それとも反対の議論ですか。

いいえ、Googleはオープンソースを大量に使用し、オープンソースに多大な貢献をしています。私たちは、これらの問題を実際に修正するために、私たちのツールを使ってオープンソースコミュニティを支援していくつもりです。

私が指摘しているのは、敵対者がモデルを使用し、攻撃を試みる最初のターゲットは人気のあるオープンソースライブラリになるだろうという現実です。なぜなら、それが彼らに最大の攻撃対象領域を与えるからです。これらはすべて対処し修正することが重要だと考えている要素であり、私たちは業界の他の企業と共にそのプロセスを進めています。

今後の課題と長期的なビジョン

Thomas、最後の質問です。夜も眠れなくなるほどの懸念事項は何ですか。

私たちは非常に多くのバランスを取っています。議論の一部にもありましたが、データセンターやネットワークの資本インフラストラクチャ、そして皆に行き渡る十分なTPUについて、適切な長期計画を立てられているか。第二に、重要な領域の問題を常に押し進めているか。3年前、AIが進化するにつれてサイバー領域が確実に影響を受ける分野になると予測し、その問題を解決すべきだと言いました。

ええ。

Wizを買収する提案をしたとき、「なぜそんなことをするのか」と聞かれました。当社のGemini Enterpriseプラットフォームを見ると、今年の1月から現在までの間に、トークン数は1分あたり100億から160億に急増しています。そしてGemini Enterpriseの企業ユーザー数は順次40%増加しています。

私たちは常に、顧客やユーザーのために正しい問題を解決しているかを問いかけており、それが常に私たちの焦点です。市場や技術が急速に進化しているため、何か起きたときには、ほとんどの場合その前に解決策を用意しておかなければなりません。アグレッシブに問題を解決し、市場をリードし続ける限り、私たちのチームは素晴らしい仕事をしてきましたし、彼らの成し遂げたことを非常に誇りに思っています。今後のイベントも楽しみにしています。

Thomas、本日は本当にありがとうございました。感謝いたします。

コメント

タイトルとURLをコピーしました