
11,082 文字

私たちはジェフ・ディーンをお迎えしています。ジェフの経歴を読むと、彼はグーグルでほぼすべてを任されてきました。この業界の起源やBERT論文など、何年も前にこの業界の火付け役となった取り組みを監督してきました。私たちSequoiaでは、パートナーのビル・コーンがSequoiaに来る前の約10年間、ジェフと共にグーグルでエンジニアリングのほとんどを率いていたことを大変幸運に思います。
ジェフとビルをお迎えしましょう。ありがとうございます。ジェフ、お会いできて嬉しいです。私たちは数年間一緒に仕事をしましたが、ジェフは今でも時々私と話してくれるので、それを誇りに思っています。時々夕食をともにするのは本当に楽しいですね。そうですね、彼は現在Alphabetの主席科学者だと思います。
最初に伺いたいのですが、明らかに部屋の多くの人々がAIとその進展に興奮しています。グーグルは明らかにトランスフォーマーなど、この業界の基盤となる多くの技術を導入しました。グーグル内部だけでなく、業界全体を見渡して、あなたはどこに向かっていると思いますか?
そうですね、この期間は実際にはかなり長い時間をかけて発展してきました。一般的な認知度が上がったのはここ3、4年ですが、実際には2012年から13年頃に、当時としては大規模なニューラルネットワークを使って興味深い問題を解決できるようになり始めました。同じアルゴリズムアプローチが視覚、音声、言語に対して機能するということが分かりました。それは非常に驚くべきことで、これらの問題を解決するための手法として、従来の手作業によるアプローチではなく、機械学習に注目を集めることになりました。
2012年頃から私たちが興味を持っていたことの一つは、非常に大規模なニューラルネットワークをどうスケールさせ、訓練するかということでした。当時としては他のものより60倍大きいニューラルネットワークを訓練しました。データセンターにあった16,000のCPUコアを使用しました。そして非常に良い結果が得られました。
これによって、このようなアプローチをスケールさせることが非常にうまく機能するという確信が私たちの心に固まりました。その証拠はたくさんあり、より大きなモデル、より大きなデータセットにスケールする能力を向上させるためのハードウェアの改良もありました。「より大きなモデル、より多くのデータ、より良い結果」という表現がありました。
これは過去12年から15年間、比較的真実であり続けてきました。そして物事はどこに向かっているかですが、私は今私たちが持っているモデルは本当に興味深いことができると思います。それらはすべての問題を解決できるわけではありません。モデルが良くなるにつれて、年々解決できる問題のセットは増えています。
より良いアルゴリズムの改良があり、同じ計算コストでより大きなモデル、より能力の高いモデルを訓練する方法を示してくれます。そしてハードウェアのスケーリングがあります。ハードウェア単位あたりの計算能力が向上し、また強化学習や訓練後のアプローチがモデルを改善し、私たちが望む方向に導いています。それは本当にエキサイティングだと思います。マルチモーダリティもまた大きなことだと思います。音声やビデオ、画像やテキスト、コードを入力し、それらすべてを出力できる能力は非常に有用です。
業界は今、エージェントに魅了されています。エージェントはどれほど現実的だと思いますか?グーグルはエージェントフレームワークを導入したことは知っています。グーグルのものではないかもしれませんが、エージェント関連の一部は私には少しベイパーウェア(実体のない約束)のように思えます。
そうですね、申し訳ありません皆さん、私は少し直接的な性格で、何人かの方はそれをご存知でしょう。大丈夫です。私はそこに多くの可能性があると思います。なぜなら、適切な訓練プロセスを持つエージェントが最終的に仮想的なコンピュータ環境内で、今日人間ができる多くのことができるようになるという道筋が見えるからです。
現在、彼らはいくつかのことはできるが、ほとんどのことはできません。しかし、そこでの能力を向上させる道筋は合理的に明確です。より多くの強化学習を行い、学習できるエージェント経験をより多く持ち、いくつかのことはできるがほとんどのことはできない初期の製品を持っています。それでも人々にとって信じられないほど有用です。
物理的なロボットエージェントでも同様のことが起こると思います。現在、この部屋のような散らかった環境ではロボットは今日ではうまく機能しませんが、今後1〜2年で、この部屋で20の有用なことができるようになる道筋が見えます。
それによって、それらの20のことができる非常に高価なロボット製品が導入されるでしょう。そして、経験から学習することで、コストエンジニアリングされて10倍安くなり、1,000のことができるようになるでしょう。そして、それはさらにコストエンジニアリングと能力の向上をもたらすでしょう。
エキサイティングですね。そしてそれは今日と異なっているとしても、やはり来つつあるようです。若い企業の多くで出てくるもう一つのことは、大規模モデルで何が起きているかということです。明らかにグーグルにはGemini 2.5 ProやDeep Researchなどがあり、それからOpenAIや他のプレイヤーがいます。オープンソースかクローズドソースか、大規模言語モデルは何個あるかという開かれた議論があると思います。どこに向かっていると思いますか?明らかにグーグルは強い立場にあり、その分野で支配したいと思っていると思いますが、その状況をどのように見ていますか?
明らかに最先端のモデルを構築するには非常に多くの投資が必要です。そして50個もそのようなものはないでしょう。おそらく数個でしょう。また、それらの有能なモデルがあれば、はるかに軽量なモデルを作ることができ、それらはより多くのことに使用できます。なぜなら、2014年のNeurIPSで拒否された(影響力がないと判断された)蒸留のような技術を使用できるからです。私はその共著者でした。
その技術はDeepSeekに役立ったかもしれないと聞いています。それは、より良いモデルがあれば、それをより小規模なものに入れることができる本当に素晴らしい技術です。それは実際に非常に軽量で高速で、あなたが望むようなすべての種類の特性を持っています。この分野には多くの異なるプレイヤーがいると思います。なぜなら、異なる形のモデルや異なる種類のことに焦点を当てたモデルがあるからです。しかし、本当に有能な汎用モデルが数個あれば、かなりうまくいくでしょう。
十分理解できました。ハードウェアも興味深いことだと思います。私から見ると、すべての大手プレイヤーが自社のハードウェアを構築しているようです。明らかに、グーグルはTPUプログラムについて非常に公に発表していますが、Amazonも独自のものを持っています。うわさによるとMetaもあり、OpenAIも構築しているといううわさがあります。
多くのハードウェアがありますが、業界はNVIDIAについてしか聞いていないようです。あなたのオフィスではそうではないと思いますが、それをどう考えていますか?このような特殊なハードウェアはどれほど重要ですか?
機械学習スタイルの計算に焦点を当てたハードウェアを持つことが非常に重要であることは明らかです。私は「減少精度の線形代数のためのアクセラレータが欲しい」と言うのが好きで、世代を経るごとにそれらがより良くなることを望み、超高速ネットワーキングで大規模に接続されることを望みます。それによって、モデル計算を可能な限り多くの計算デバイスに分散させることができます。非常に重要だと思います。2013年にTPUプログラムを立ち上げたのは、推論のために多くの計算能力が必要になることが明らかだったからです。
それが最初の世代でした。次の世代のTPU、TPU v2は推論と訓練の両方に焦点を当てていました。現在、イノベーションを数えるのをやめたいくつかの迷惑な理由で今はアイアンウッドと呼んでいて、それは間もなく登場します。
その前はトリリウムでした。インテルのチップ命名戦略のようなものには気をつけてください、それはあまりうまくいっていません。少し話題を変えますが、おそらく部屋の人々からの質問に移りましょう。物理学者の友人がたくさんいます。彼らはジェフ・ヒットンと彼の同僚が物理学でノーベル賞を受賞したときに少し驚いていました。AIがさまざまな分野でどこまで進むと思いますか?私の知っている一部の物理学者は、物理学者ではない人がノーベル賞を獲得し始めたことに少し気分を害しているようです。
かなり遠くまで行くと思います。また今年、私の同僚のDemisとJohn Jumperもそれを受賞しました。はい、それをほとんど忘れていました。そうです。だから月曜日と火曜日、あるいは何でもいいですが、ノーベル賞のお祝いが2回ありました。それはAIがさまざまな種類の科学に影響を与えていることの証だと思います。なぜなら、その核心は興味深いデータから学ぶことができるかどうかであり、科学の多くの部分は物事の間のつながりを作り、それらを理解することについてです。そしてそれを行うのにAIの支援を受けることができれば、科学のさまざまな分野で見てきたことの一つは、多くの分野が何らかのプロセスの信じられないほど高価な計算シミュレータを持っていることです。例えば天気予報や流体力学、量子化学シミュレーションなどです。
多くの場合、それらのシミュレータをニューラルネットの訓練データとして使用し、シミュレータを近似するものを構築できますが、今や30万倍高速です。それは科学の方法を変えます。なぜなら、突然「昼食に行って1,000万の分子をスクリーニングする」ということが可能になるからです。それは今や可能です。持っていない計算機で1年間実行しなければならなかったことと比べて。それは基本的にあなたがどのように物事を行うかというプロセスを変え、より速い発見をもたらすでしょう。
この時点で会場からの質問が最も興味深いと思います。ジェフへの他の質問もありますが…まあ、実際にジェフ・ヒットンについて簡単に続けると、彼は有名にグーグルを去りました。推論や学習のための将来のプラットフォームとしてのデジタルとアナログコンピューティングの違いを研究した後です。推論ハードウェアの未来はアナログですか?
それは確かに可能性があります。アナログには非常に電力効率が良いという素晴らしい特性があります。デジタルのものも推論のためにはるかに特化できる余地がたくさんあると思います。
そして通常、それは少し扱いやすいですが、一般的な方向性として、今日私たちが持っているものよりも10倍、20倍、5万倍も効率的な推論ハードウェアをどのように作ることができるかというものです。そしてそれは私たちが心を込めれば、間違いなく可能だと思います。実際、私もそれに少し時間を割いています。
こんにちは、開発者の経験とハードウェアについて質問したいと思います。TPUハードウェアは非常に印象的だと思いますが、CUDAや他の技術がTPUレイヤーよりも使いやすいという世間の認識があります。それについてのあなたの見解や、多くの怒りのメールを受け取っているかどうかを教えてください。
クラウドcTPUのお客様とはあまり接点がありませんが、確かに経験は改善できます。2018年に取り組み始めたシステムの一つにPathwaysがあります。これは本当に多くの異なる計算デバイスを取り、それらに本当に素晴らしい抽象化を提供するように設計されています。仮想から物理デバイスへのマッピングが基礎となるランタイムシステムによって管理されています。
PyTorchとJaxの両方のサポートがあります。社内では主にJaxを使用していますが、持っているのは単一のJax Pythonプロセスで、それは10,000のデバイスを持っているように見え、MLの研究者としてコードを書くだけで進めることができます。4つか8つか16か64のデバイスでプロトタイプを作り、定数を変更すると、1,000、10,000チップを持つ異なるPathwaysバックエンドに対して実行できます。
私たちの最大のGeminiモデルは、数万のチップを持つ単一のPythonプロセスで訓練されていて、それはかなりうまく機能しています。かなり良い開発者経験です。一つ言えることは、これまでのところ、それをクラウドの顧客に提供していませんでしたが、クラウドネクストでPathwaysをクラウドの顧客にも提供することを発表したばかりです。
そうすれば、他の全員も数千のデバイスが接続された単一のPythonプロセスという素晴らしい経験ができます。それは256チップのために64プロセッサを管理するよりもはるかに良い経験です。なぜそのようなことをしたいのでしょうか?
Gemini APIを使うのが大好きです。Google Cloudの認証設定ではなく、APIキーが一つあればもっと簡単でしょう。Google CloudのGeminiスタックをGeminiプロジェクトと統合する計画はありますか?現在はテスト用のセットアップが別になっていますよね。
はい、見直されている合理化がたくさんあると思います。それは既知の問題ですが、個人的にはあまり時間を割いていません。しかし、ローガンや開発側の他の人々がこの摩擦を認識していることを知っています。私たちは私たちのモデルを使うのにストレスがないようにしたいです。
それはうまくいっていますか?コンピューティングにとって興味深い時代です。ムーアの法則とデナード・スケーリングが完全に終わり、AIが狂ったようにスケールしています。これらのスーパーコンピュータとインフラを駆動し、それらの上にワークロードをマッピングするという世界でユニークな立場にいらっしゃいます。コンピューティングの未来はどのようになると思いますか?コンピューティングインフラはどこに向かっているのでしょうか?漸近的な思考実験のレベルではどうでしょう?
過去、例えば5年、10年で、コンピュータで実行したい計算の種類が劇的に変わったことは本当に明らかです。当初は小さな波紋でしたが、今では非常に大きなニューラルネットワークを非常に高いパフォーマンスと非常に低い電力で実行したいことは明らかです。また、それらを訓練したいと思っています。訓練と推論はかなり異なる種類のワークロードです。
だから、2つのために異なるソリューションを望むか、あるいはやや特殊なソリューションを望むと考えるのが有用だと思います。そして、この新しい現実、すなわち本当に非常に有能なモデルを実行したいという現実のために、計算プラットフォームのあらゆる種類の適応が見られると思います。
その一部は、あなたの電話のような低電力環境で行われるでしょう。あなたは電話で非常に良いモデルを、多くのパラメータで、超高速で実行したいと思うでしょう。それで、あなたが電話に話しかけると、それはあなたに話し返し、あらゆる種類のことを手伝うことができます。ロボットや自律走行車でこれらを実行したいと思うでしょう。
私たちは既にある程度行っていますが、それ用のさらに良いハードウェアは、それらのシステムを構築することをはるかに容易にし、世界でより有能な物理的エージェントを作るでしょう。そしてデータセンターで非常に大規模にそれらを実行したいと思うでしょう。また、一部の種類の問題には多くの推論時計算を使用したいと思うでしょうが、他の問題に対してはそうではありません。いくつかの問題に対しては、他の問題に比べて10,000倍の計算を使用したいことは明らかです。それは私たちが持つ新しいスケーリングのノブであり、それはモデルをはるかに高性能にしたり、はるかに良い回答を提供したり、そのくらいの計算でそれができない計算の1/10,000でできないことをモデルができるようにします。
しかし、すべてのことに10,000倍の計算を費やすべきではありません。それでは、どのようにしてあなたのシステムをそのためにうまく機能させるのでしょうか?私はそれはハードウェア、システムソフトウェア、モデル、アルゴリズムのトリック、蒸留などの組み合わせだと思います。これらすべてのことが、小さな計算のフットプリントで素晴らしいモデルを実現するのに役立ちます。
私が気づいたことの一つは、伝統的なコンピュータサイエンス、少なくともアルゴリズムと計算複雑性を研究する人々は、すべての演算回数に基づいていました。人々がハードウェアとハードウェアの詳細、システム設計を再発見するにつれて、ネットワーク帯域幅やメモリ帯域幅などについて考える必要があることが再び注目されています。本当の計算がどのように見えるかという現実のため、多くの種類の伝統的なアルゴリズム分析を完全に再考する必要があると思います。
そうですね、大学院の私のオフィスメイトの一人は、キャッシュを認識したアルゴリズムに関する論文を書きました。なぜなら、ビッグO記法では、一部の操作が他の操作よりも100倍悪いという事実を考慮していなかったからです。
その通りです。現代のML計算では、非常に小さなレベルでのデータ移動を気にします。SRAMからアキュムレータに物を移動させることは、いくつかのごく小さな数のピコジュールがかかりますが、それは実際の操作コストよりもはるかに多いです。だから今日では、ピコジュールを口先に持っていることが重要です。
もう一つの簡単な質問です。Vibeコードを使用しますか?少し試してみましたが、実際に驚くほどうまく機能します。
はい、私たちはいくつかの素晴らしいデモチャットルームを持っています。実際、多くのチャットルームがあります。チャットルームを通じてGeminiを実行しています。私は約200のチャットルームに参加していて、朝起きて歯を磨くと、ロンドンの同僚が忙しく活動しているため、9つの通知を受け取ります。
人々がクールなデモを送信できるチャットルームがあります。特にクールだったのは、YouTubeの教育向けビデオをフィードして、「このビデオの概念を説明するのに役立つグラフィックとインタラクティビティを使用した教育ゲームを作ってください」というようなプロンプトを出すというものです。
毎回うまくいくわけではありませんが、30%の時間で実際にクールで、微分方程式や火星への旅行、あるいは何らかの細胞に関連することに関連したものが得られます。それは教育にとって信じられないほどの兆候です。私たちが今持っている、そして今後数年で持つであろうツールは、この世界を多くの積極的な方法で変える素晴らしい機会を持っています。
だから、それは私たちが努力すべきことであることを忘れないようにすべきだと思います。そこで一度止めて、そしてそこからかもしれませんね。
検索の未来についてのあなたの考えをお聞きしたいです。特にChromeは非常に大きな配布を持っていて、ChromeはすでにクレジットやWebサインインの資格情報を知っていることを考えると。GeminiをChromeに直接組み込み、別のアプリではなくChromeアプリをGeminiアプリにすることについて考えたことはありますか?長年グーグラーとして働いているので、このことを考えてみてください。
核となるGeminiモデルや他のモデルから多くの興味深い下流の用途があると思います。一つはブラウザや完全なコンピュータデスクトップでの作業を手助けできるかどうかです。あなたがしていることを観察し、タブのOCRを行ったり、あるいはタブの生の内容にアクセスすることで、それは非常に役立つと思います。この分野ではマリナーなどのような初期の作業があり、ビデオ形式で公開デモを発表しています。それらは非常に有用なもののように見えます。結論はまだ出ていません。
ジェフへの質問です。あなたの洞察力のあるコメントをありがとうございます。先ほど、基盤モデルのプレイヤーの数はおそらく少数だけになるだろうと言及されました。これは主にインフラコストや最先端を維持するための投資の規模によるものです。この最前線の戦いが展開される中で、最終的な姿をどのように見ていますか?最終的にはどこに行き着くのでしょうか?最大のクラスタを構築するために最大の小切手を書いた人が勝つのか、あるいは統合されたメモリの最適化や既に持っているものの効率的な使用など、より良い活用法なのか、あるいは消費者体験なのか、この軍拡競争はどこに行き着くのでしょうか?スカイネットに最初に到達した人が勝つのではないですか?
本当に良い洞察力のあるアルゴリズム作業と、本当に良いシステム、ハードウェア、インフラ作業の両方が必要になると思います。私はどちらか一方がもう一方よりも重要だとは思いません。なぜなら、例えば私たちのGeminiの世代から世代への進化で見られたことは、アルゴリズムの改良はハードウェアの改良と同じくらい重要であるか、もしかしたらそれ以上に重要かもしれないからです。あるいは問題に投入しているより多くのハードウェアよりも重要かもしれません。
しかし、両方が非常に重要です。そして、製品の観点からは、この空間には初期段階の製品がありますが、何が何十億人もの人々が毎日使用する製品になるかはまだ私たちは集合的に見つけ出していないと思います。おそらく教育分野や一般的な情報検索、つまり検索のようなものですが、大規模なマルチモーダルモデルの強みを活かすようなものになるでしょう。
おそらく、人々が自分の仕事環境で物事を行うのを手助けすることは非常に有用なことになるでしょう。そして、それは製品設定でどのように表現されるでしょうか?50の仮想エージェントのチームをどのように管理するか、彼らは物事を行うために出ていきますが、彼らはほとんど正しいことをしているでしょうが、時々彼らは選択する必要のある何かについて私に相談する必要があるでしょう。私は彼らに少し方向性を与える必要があります。50人の仮想インターンをどのように管理するか?それは複雑になるでしょう。
ジェフ、来てくれてありがとう。ここにいる。ああ、すみません。この質問をするのに世界中で最も適した人はいないと本当に思います。ジュニアエンジニアのレベルで24時間稼働するAIがどのくらい近いと思いますか?
そんなに遠くないです。それは6週間か6年か、それとも毎年AIは犬の7歳のように見えるのですか?私はそれが来年くらいに可能だと主張します。
事前訓練のスケーリングと強化学習のスケーリングについて話しました。これらのモデルの将来の軌道についてどのように考えていますか?すべての計算を持つ一つの大きなモデルになるのか、それともより大きなモデルから蒸留された小さなモデルの集合がパラレルに動作するのか?将来の状況をどのように見ていますか?
私はいつもモデルのさまざまな部分に異なる専門知識を持つ、スパースなモデルの大ファンでした。なぜなら、生物学的なアナロジーからわかるように、それは私たちの実際の脳がとても電力効率が良くなる部分的な理由だからです。私たちは20ワットぐらいで、多くのことができますが、シェイクスピアの詩の部分は、車の中で私たちに向かってバックしてくるゴミ収集車について心配しているときは活性化していません。
私は専門家の混合スタイルのモデルでそれを少し行っていると思います。その分野での初期の研究では、2,48人の専門家を持ち、それが効率性に劇的な改善をもたらすことを示しました。訓練のフロップごとに10〜100倍効率的なモデル品質です。
それは非常に重要です。しかし、まだ空間を完全に探索しているとは思えません。なぜなら、現在人々が行う傾向のあるスパース性の種類は非常に規則的だからです。モデルの中のパスが他のパスよりも100倍か1000倍高価であるようなものが欲しいと感じます。
そして、モデルの専門家や部分に、非常に小さな計算量のものと非常に大きな計算量のものが欲しいと思います。おそらくそれらは異なる構造を持つべきです。そして、新しいパラメータや新しいスペースの一部でモデルを拡張できるようにしたいと思います。そして、おそらくモデルの一部を圧縮できるようにしたいと思います。それの一部に蒸留プロセスを実行して、サイズを4分の1にします。
そして、いくつかのバックグラウンドのガベージコレクションのようなものがあり、それは今「素晴らしい、より多くのメモリを使うことができます。だからそれらのパラメータやメモリのバイトを他の場所に置き、他の場所でそれらをより効果的に使用するつもりです」のようなものです。それは私にとって、今日私たちが持っているものよりもはるかに有機的で継続的な学習システムのように思えます。
唯一の問題は、今日私たちがやっていることが信じられないほど効果的だということです。そのため、完全にやり方を変えるのは少し難しくなります。しかし、私は本当に今日私たちが持っているような、より厳密に定義されたモデルよりも、そのようなスタイルで物事を行うことには大きな利点があると思います。
もう一つの質問をして、たぶん締めくくりにしましょう。
1年以内のジュニアエンジニアの話題に戻りたいと思います。そこに到達するために必要な進歩は何だと思いますか?明らかにコード生成が良くなるかもしれませんが、コード生成以外で、何がそこに到達させると思いますか?ツールの使用、計画の強化?
そうですね、この仮想的なエンジニアはおそらくIDEでコードを書くだけでなく、もっと多くのことについての理解が必要です。例えば、テストを実行する方法やパフォーマンスの問題をデバッグする方法など、そのようなことをどのように知る必要があります。そして、人間のエンジニアがどのようにしてそれらのことを行うかは知っています。彼らはそれらを達成するために使用できる様々なツールの使い方を学びます。
そして、彼らはその知恵を通常、より経験豊富なエンジニアから得るか、たくさんのドキュメントを読むことで得ます。そして、ジュニア仮想エンジニアはドキュメントを読むことや、仮想環境でものを試すことが非常に上手だと思います。それは、これらのことのいくつかでより良くなる方法のように思えます。
そして、それがどれだけ遠くまで私たちを連れて行くかはわかりませんが、かなり遠くまで連れて行ってくれるように思えます。
ジェフ、来てくださり、あなたの知恵を共有してくれてありがとうございます。ありがとう。お会いできて嬉しかったです。


コメント