Google DeepMindのCEOであるデミス・ハサビスが、AIの現在と未来について包括的に語った講演である。AlphaFoldによるノーベル賞受賞体験から始まり、Genie世界モデルによる革新的な3D環境生成、ロボティクスとAGIの発展状況、科学的発見の加速化について詳述している。特に、AIによる創造性の限界と真の汎用人工知能に必要な要素について深く考察し、今後5-10年でのAGI実現可能性や、エネルギー効率化、薬物発見革命など多岐にわたる応用分野への展望を示している。

Google DeepMind CEO登場
私たちの未来のカギを握る可能性のある天才です。Google DeepMindのCEOであり、同社の人工知能の原動力となっています。ノーベル賞受賞とチャールズ国王からのナイト爵位を経て、人工知能のパイオニアとなりました。私たちは現代において本格的にAIに取り組んだ最初の存在でした。
AlphaGoは大きな分水嶺となった瞬間だったと思います。私の会社であるDeepMindにとってだけでなく、AI全般にとってもです。子供の頃からAIに対して抱いていた目標は、科学的発見を加速するためにそれを使用することでした。皆様、Google DeepMindのデミス・ハサビスをお迎えください。
拍手
いらっしゃいませ。こちらにお招きいただき光栄です。ありがとうございます。タッカー、マーク・キューバンの後での登壇、ありがとうございます。まず最初に、ノーベル賞受賞おめでとうございます。
ありがとうございます。AlphaFoldという驚くべきブレイクスルーに対してです。以前にもお話しされたかもしれませんが、ここにいる皆さんがぜひ聞きたがっていると思うのですが、ノーベル賞受賞の時の体験談を聞かせていただけますか。どこにいらっしゃって、どのように知ったのでしょうか?
とても現実離れした瞬間でした。すべてが現実離れしているんです。彼らが知らせる方法もそうです。すべてが公開される10分前に連絡してくるんです。スウェーデンからのあの電話を受けると、本当にショック状態になってしまいます。すべての科学者が夢見る電話なんです。
そしてその後のスウェーデンでの王室との授賞式、一週間のセレモニーは素晴らしいものでした。120年間続いているものです。最も素晴らしかったのは、金庫から取り出されたノーベルの本を見せてもらい、他の偉大な科学者たちの隣に自分の名前を記帳できることでした。
ファインマンやマリー・キュリー、アインシュタイン、ニールス・ボーアといった偉人たちの名前の隣に自分の名前を書き込めるというのは、信じられない瞬間でした。ページをめくりながら過去の偉人たちを見て、その本に自分の名前を記すんです。信じられないことでした。
受賞候補に挙がっていたという予感はありましたか?
噂は聞こえてきます。今の時代にあれほど秘密が守られるのは本当に驚くべきことです。スウェーデンにとって国宝のようなものなんです。AlphaFoldがそのような認証に値するかもしれないという話は聞こえてきていました。
彼らは科学的ブレイクスルーだけでなく、実世界でのインパクトも重視するんです。それが現れるまでに20年、30年かかることもあります。いつ実現するのか、そもそも実現するのかも分からないものです。だから驚きでした。
おめでとうございます。ありがとうございます。数週間前にノーベル賞と一緒に写真を撮らせていただいた時のことは、私にとって大切な思い出になります。
AlphabetにおけるDeepMindの役割
AlphabetにおけるDeepMindとは何でしょうか?Alphabetは様々な事業部門を持つ巨大な組織ですが、DeepMindとは何で、あなたは何に責任を持っているのでしょうか?
私たちはDeepMind、現在はGoogle DeepMindと呼ばれていますが、数年前にGoogle とAlphabet全体の様々なAI取り組みをすべて統合しました。DeepMindを含む異なるグループの強みをすべて一つの部門にまとめました。現在の説明としては、私たちはGoogle全体、Alphabet全体のエンジンルームだということです。
私たちが構築している主要モデルであるGeminiをはじめ、ビデオモデルやインタラクティブな世界モデルなど、多くのモデルをGoogle全体に組み込んでいます。現在、ほとんどすべての製品、すべての分野に私たちのAIモデルが入っています。
現在、数十億人の人々がGeminiモデルとやり取りしています。AI概要、AIモード、Geminiアプリを通してです。これはまだ始まりに過ぎません。WorkspaceやGmailなどにも組み込んでいます。私たちにとって最先端の研究を行い、それを即座に数十億人のユーザーに提供できる素晴らしい機会なんです。
人員はどのような構成ですか?科学者、エンジニア?どのような構成になっているのでしょうか?
Google DeepMindには約5,000人がいて、80%以上がエンジニアとPhD研究者です。つまり約3,000から4,000人ですね。
Genie世界モデルの革新
モデルの進化があり、多くの新しいモデルが登場し、新しいクラスのモデルも出てきています。先日、Genie世界モデルをリリースされましたね。Genie世界モデルとは何でしょうか?動画もあると思うので、実際に見ながら説明していただけますか?
見ていただく必要があると思います。これほど驚くべきものなので。動画を見ながら、デミスに解説していただきましょう。
ご覧いただいているのはゲームや動画ではなく、世界です。これらの一つ一つが、Genie 3によって生成されたインタラクティブな環境なのです。これは世界モデルの新たなフロンティアです。
Genie 3を使えば、自然言語を使って様々な世界を生成し、インタラクティブに探索することができます。すべて単一のテキストプロンプトで。
これらの動画、すべてのインタラクティブな世界は、テキストプロンプトだけで生成されています。そして人々が矢印キーとスペースバーを使って3D環境をコントロールできるんです。
ここで見ているすべてのピクセルは、リアルタイムで完全に生成されています。プレイヤーやインタラクションする人がその世界の部分に行くまで存在しないんです。この豊かさは全て生成されたもので、ここで部屋のペイントをしている人が見えますが、壁に何かを描いています。そしてプレイヤーが右を見て、また戻ってきます。
今、この世界の部分は以前は存在していませんでしたが、今は存在しています。そして戻ってくると、先ほど描いた絵の跡がそのまま残っています。すべてのピクセルが完全に生成されたものです。
そして「チキンスーツを着た人」や「ジェットスキー」などとタイプすれば、リアルタイムでシーンに組み込まれます。本当に驚くべきことだと思います。
これを見ていて理解するのが難しいのは、私たちは皆3D要素を持つビデオゲームをプレイしたことがあり、没入的な世界にいる経験があるからですが、作成されたオブジェクトはありません。レンダリングエンジンもありません。3Dレンダリングエンジンであるunityやunrealを使っているわけではありません。
これは実際にはAIによってリアルタイムで作成される2D画像なんです。このモデルは直感的な物理学を逆算しています。何百万ものビデオやYouTube動画、その他の世界に関する動画を見て、そこから世界の動作原理を逆算したんです。まだ完璧ではありませんが、ユーザーとして多くの異なる世界で一貫した1、2分のインタラクションを生成できます。
後で見れる動画では、ビーチの犬やクラゲをコントロールできるものもあり、人間に限定されません。3Dレンダリングエンジンの動作原理は、プログラマーがすべての物理法則をプログラムすることです。光がオブジェクトからどう反射するか、3Dオブジェクトを作成し、光が反射して、私が視覚的に見るものがソフトウェアによってレンダリングされます。物理学の作成方法、物理学の実行方法に関するすべてのプログラミングがあるからです。しかし、これは単にビデオから訓練されて、すべてを理解したんです。
ビデオと一部のゲームエンジンからの合成データで訓練され、それを逆算したんです。私にとって、このプロジェクトは非常に心に近いものですが、同時に驚くべきことでもあります。90年代の初期のキャリアで、私はビデオゲームとビデオゲーム用のAI、グラフィックスエンジンを書いていました。すべてのポリゴンと物理エンジンを手でプログラムすることがどれほど大変だったか覚えています。これが水面の反射や材料の流れ、オブジェクトの挙動を簡単に行うのを見るのは驚くべきことです。すべてを標準で行っています。
このモデルでどれだけの複雑さが解決されたかを説明するのは難しいです。本当に本当に本当に驚くべきことです。
AGIと世界理解への展望
これはどこに向かうのでしょうか?このモデルの第5世代を想像すると?
このようなモデルを構築している理由は、Geminiモデルのような通常の言語モデルの進歩を感じているからですが、最初からGeminiをマルチモーダルにしたかったんです。画像、音声、ビデオなどあらゆる種類の入力を受け取り、何でも出力できるようにです。
真に汎用的なAI、AGIを構築するためには、AGIシステムは言語や数学の抽象的な世界だけでなく、私たちの周りの世界、物理的な世界を理解する必要があると感じているからです。もちろん、これはロボティクスの動作に重要で、おそらく今日不足している部分です。
また、スマートグラス、日常生活で役立つスマートグラスアシスタントのようなものにも重要です。あなたがいる物理的な状況と、世界の直感的な物理学がどう動作するかを理解する必要があります。
このタイプのモデル、これらのgenieモデルやVOという最高のテキスト-ビデオモデルを構築することは、世界のダイナミクス、世界の物理学を理解する世界モデルを構築していることの表現だと考えています。生成できるなら、それはシステムがそのダイナミクスを理解していることの表現であり、最終的にはロボティクスの世界につながります。
今日のビジョン言語アクション(VLA)モデルの最先端状態はどうでしょうか?カメラで世界を観察し、言語やテキスト、音声を使って何をしたいかを伝えると、物理的に行動して何かを実行する方法を知っている汎用システム、箱、機械について教えてください。
Gemini、Geminiライブ版を見ると、携帯電話を周囲の世界にかざすことができます。皆さんにもぜひ試してほしいのですが、物理的な世界について既に理解していることが魔法のようです。
次のステップは、それをグラスのようなより便利なデバイスに組み込むことだと考えています。そうすれば日常のアシスタントになります。街を歩いているときに推奨事項を提供したり、Google Mapに埋め込んだりできます。
ロボティクスについては、Geminiロボティクスモデルという、追加のロボティクスデータでファインチューニングされたGeminiのようなものを構築しました。本当にクールなのは、この夏にリリースしたデモでは、テーブル上のオブジェクトと相互作用する2つの手を持つテーブルトップセットアップがあり、2つのロボット手があって、ロボットに話しかけることができるんです。
「黄色いオブジェクトを赤いバケツに入れて」などと言えば、その言語指示をモーター動作に解釈します。これがロボティクス専用モデルではなくマルチモーダルモデルの力で、実世界の理解をもたらすことができます。最終的には、ロボットが世界を安全にナビゲートするために必要な理解と同様に、UI・UXになるでしょう。
サンダーにも聞いたのですが、最終的には汎用ロボティクス用のUnixのようなオペレーティングシステム層やAndroidのようなものを構築できるということでしょうか?それが十分な数のデバイスで十分にうまく動作すれば、このソフトウェアが存在するために世界で突然台頭するロボティクスデバイス、企業、製品の増殖があるでしょうか?
まさにその通りです。私たちが追求している戦略の一つは、ロボティクス横断的なOS層のようなAndroid戦略です。しかし、最新モデルを特定のロボットタイプ、ロボット設計と垂直統合し、エンドツーエンドの学習も行う興味深いことがあります。
実際、両方とも非常に興味深く、両方の戦略を追求しています。
ヒューマノイドロボットは良いフォームファクターだと思いますか?世界で意味があるでしょうか?人間は多くの異なることを行うように作られているので人間には良いが、問題を解決したいなら、洗濯を畳んだり、皿洗いをしたり、家を掃除するのに異なるフォームファクターがあるかもしれないという批判もあります。
両方の場所があると思います。実際、私は5年、10年前は特定のタスクに形状特化したロボットを持つという意見でしたし、産業用ロボットは確実にそうなると思います。実験室や生産ラインなど、特定のタスクに最適化できる場合は、全く異なるタイプのロボットが必要でしょう。
一方、汎用使用や個人使用のロボティクス、そして普通の世界との相互作用については、ヒューマノイドフォームファクターが非常に重要かもしれません。もちろん、私たちは物理的な世界を人間のために設計したからです。階段、ドアウェイ、私たちが自分たちのために設計したすべてのものを、現実世界でそれらすべてを変更するよりも、私たちが既に設計した世界の方法とシームレスに動作するようにフォームファクターを設計する方が簡単かもしれません。
そのタイプのタスクにはヒューマノイドフォームファクターが非常に重要という議論があると思います。しかし、特殊なロボット形態の場所もあると思います。
今後5年、7年で数百万、数千万台について見解はありますか?頭の中でビジョンはありますか?
はい、私はこれについてかなり多くの時間を費やしていますが、ロボティクスについてはまだ少し早いと感じています。今後数年でロボティクスで真の「すごい」瞬間があると思いますが、アルゴリズムにはもう少し開発が必要だと思います。
これらのロボティクスモデルが構築されている汎用モデルは、まだより良く、より信頼性があり、周囲の世界をより良く理解する必要があります。それは今後数年で実現すると思います。
また、ハードウェア側では、最終的に社会を支援し、生産性を向上させる何百万台のロボットを持つことになると思います。しかし、ハードウェア専門家と話すときの鍵は、スケーリングオプションに向けてどの時点で適切なレベルのハードウェアを持つかということです。特定のロボットタイプの数万台、数十万台を作ろうとする工場の建設を始めると、ロボット設計を迅速に更新し、反復することが困難になります。
6か月後により信頼性があり、優れ、器用な次世代ロボットが発明される可能性がある場合、早すぎると判断すると問題になります。
コンピューティングのアナロジーを使うと、70年代のPC DOSのような時代にいる感じですね。
そうかもしれません。しかし、10年が1年で起こると思います。そうした年の一つですね。
科学的発見への応用
他の応用について話しましょう。特に科学において。ノーベル賞受賞科学者として、科学者として心に近いものですが、AIでできる最も素晴らしいことは、現在の技術や能力、私たちの脳などでは人間には手に負えない問題であり、この可能性をすべて解き放つことができることだと感じていました。
最も興味深い科学分野と科学のブレイクスルーはどこで、そこに到達するためにどのようなモデルを使うのでしょうか?
科学的発見を加速し、人間の健康などを支援するためのAIは、私がキャリア全体をAIに費やした理由であり、AIでできる最も重要なことだと思います。適切な方法でAGIを構築すれば、それは科学の究極のツールになると感じており、DeepMindでその多くの方法を示してきたと思います。
最も有名なのはAlphaFoldですが、実際には材料設計、融合炉のプラズマ制御支援、天気予報、数学オリンピアド問題の解決など、科学の多くの分野にAIシステムを応用してきました。同じタイプのシステムに追加のファインチューニングを行うことで、基本的にこれらの複雑な問題の多くを解決できます。
AIができることについては、まだ表面をかじっているだけだと思います。不足しているものがあります。今日のAIには、まだ新しい推測や新しい仮説を思いつくという意味での真の創造性がないと言えます。与えられたものは証明できるかもしれませんが、新しいアイデアや新しい理論を自分で思いつくことはできません。
それは実際にAGIのテストの一つになると思います。人間としての創造性とは何でしょうか?
歴史上最高の科学者たちや、もちろんアーティストたちと一緒に祝う直感的な飛躍のようなものだと思います。アナロジーや類推的推論を通して行われるかもしれません。私たち人間科学者がそれをどのように行うかについては、心理学や神経科学に多くの理論があります。
しかし、それの良いテストは、現代のAIシステムの一つに1901年の知識カットオフを与えて、1905年にアインシュタインが行ったように特殊相対性理論を思いつけるかどうかを見ることです。それができるなら、AGIに近づいているかもしれない本当に重要なものに取り組んでいると思います。
もう一つの例は、囲碁の世界チャンピオンを破った私たちのAlpha Goプログラムです。10年前に勝っただけでなく、囲碁のゲームで以前に見たことのない新しい戦略を発明しました。ゲーム2の有名な手37は現在研究されています。しかし、AIシステムが囲碁のように優雅で、満足のいく、美学的に美しいゲームを思いつけるでしょうか?新しい戦略だけでなく。
現在のところ、これらのことへの答えはノーです。真の汎用システム、AGIシステムに不足していると思うのは、そのようなことも行える能力です。
AGI実現への課題
何が不足しているかを分解できますか?また、ダリオ、サムなどが共有している「AGIは数年先」という見解に関連して、その信念に同意されないのでしょうか?システム構造、システムアーキテクチャの理解において何が欠けているのかを理解する助けになりますか?
この基本的な側面は、最高の人間科学者が行えるような段階的な進歩ではなく、これらの直感的な飛躍を模倣できるかということだと思います。優秀な科学者と偉大な科学者を分けるのは、両者とももちろん技術的に非常に有能だということです。
しかし、偉大な科学者はより創造的で、他の分野から何らかのパターンを発見し、解決しようとしている分野にアナロジーや何らかのパターンマッチングができるかもしれません。
いつかAIがこれを行えるようになると思いますが、その種のブレイクスルーを行うのに必要な推論能力や思考能力を持っていません。また、一貫性も不足していると思います。
競合他社が今日持っている現代のシステムについてPhDレベルの知性だと話すのを聞くことがありますが、それはナンセンスだと思います。PhDレベルの知性ではありません。PhDレベルの能力は持っていますが、一般的に汎用知能であるべき全分野でPhDレベルで実行できるわけではありません。
実際、今日のチャットボットとやり取りしていると皆知っているように、特定の方法で質問すると、高校数学や簡単な計算でも単純な間違いを犯すことがあります。真のAGIシステムではそれは不可能であるべきです。
AGIに5年から10年かかると言えると思います。また、不足しているものの一つは継続的学習です。システムに新しいことをオンラインで教えたり、何らかの方法でその行動を調整したりする能力です。
多くのこれらの核となる能力がまだ不足していると思います。スケーリングがそこに導くかもしれませんが、もし賭けるとすれば、まだ必要な1つか2つの不足しているブレイクスルーがあり、今後5年ほどで実現すると思います。
一方で、使用されているレポートや採点システムが2つのことを示しているように見えます。一つは大規模言語モデルの性能の収束、二つ目は各世代での性能改善の減速または横ばいかもしれません。この2つの発言は一般的に正しいのでしょうか、それともそうでもないのでしょうか?
いえ、内部的にはそれを見ていませんし、まだ巨大な進歩率を見ています。また、より広範囲に物事を見ています。私たちのGenieモデルやVOモデル、Nano Bananaを見てください。Nano Bananaは狂っています。バナナです。
バナナです。ここにいる誰か、Nano Bananaを使ったことがある人はいますか?信じられないですよね?私は子供の頃Adobe PhotoshopとKai’s Power Tools、Bryce 3Dを使っていたオタクなので、グラフィックシステムとそこで何が起こっているかを認識することは本当に驚くべきことでした。
これが多くのクリエイティブツールの未来だと思います。バイブコーディングしたり、話しかけるだけで、Nano Bananaで素晴らしいのは、変更したいものを指示に従い、他のすべてを同じに保つ一貫性があることです。
反復して、最終的に欲しい出力を得ることができます。これが多くのクリエイティブツールの未来だと思います。人々はそれを愛し、それで創作することを愛しています。
創造性の民主化は本当に強力だと思います。子供の頃、Adobe Photoshopの本を買って、画像から何かを削除し、それを埋め、ぼかす方法を学ぶために読んでいたことを覚えています。今では誰でもNano Bananaで、ソフトウェアに何をしたいかを説明するだけでやってくれます。
2つのことが見られると思います。誰もが過去のように信じられないほど複雑なUXやUIを学ぶことなく、これらのツールを使って作成できる民主化です。
一方で、映画製作者やトップクリエーター、アーティストとも協力しています。彼らが新しいツールがどうあるべきか、どのような機能が欲しいかをデザインする手助けをしてくれています。私の良友で素晴らしい監督のダレン・アロノフスキーなど、彼と彼のチームはVOや他の私たちのツールを使って映画を作っており、彼らを観察し、協力することで多くを学んでいます。
最高のプロフェッショナルも超強力になり、ターボチャージされることがわかります。最高のクリエイティブ、プロのクリエイティブたちが突然10倍、100倍生産的になれるからです。頭にあるすべてのアイデアを非常に低コストで試して、欲しい美しいものにたどり着けます。
実際、両方が真実だと思います。YouTubeクリエイターなどの日常使用のために民主化している一方で、ハイエンドでは、これらのツールを理解している人々がいます。誰もがこれらのツールから同じ出力を得られるわけではなく、そこにはスキルがあり、ビジョン、ストーリーテリング、トップクリエイティブの物語スタイルもあります。
彼らがこれらのツールを使うことを本当に楽しんでいると思います。これらのツールによって、はるかに速く反復できるようになります。
エンターテインメントの未来
各個人が興味のあるコンテンツの種類を説明する世界に到達するでしょうか?「デイブ・マシューズのような音楽をかけて」と言えば新しいトラックを再生してくれる、あるいは「映画『ブレイブハート』を舞台にしたビデオゲームをプレイしたい、その映画の中にいたい」と言えばその体験ができる。そこに到達するのか、それとも社会では依然として一対多のクリエイティブプロセスを持つのでしょうか?
文化的にどれだけ重要なのか、少し哲学的ですが興味深いのは、誰かが作ったために皆で共有する一つの物語を持つストーリーテリングがまだあるのか、それとも私たち各自が自分だけのバーチャル的なものを開発し、引き出すようになるのかということです。
実際に、90年代にゲーム業界でゲームデザイナー兼プログラマーとして始めた経験から、これについてよく考えているのですが、エンターテインメントの未来、おそらく新しいジャンルや新しいアートフォームの始まりを見ていると思います。少し共同創作があるところです。
依然としてトップクリエイティブビジョナリーがいると思います。彼らは魅力的な体験とダイナミックなストーリーラインを作り、同じツールを使っていても一般人ができるものより高品質になるでしょう。
また、何百万人もの人々がそれらの世界に飛び込む可能性がありますが、それらの世界の特定部分を共同創作できるかもしれません。おそらくメインクリエイティブがその世界のほぼ編集者のような役割を果たします。
これが今後数年で予見していることで、Genieのような技術で私たち自身も探求したいと思っています。
素晴らしいです。
Isomorphicと薬物発見
時間をどのように過ごしているのですか?Isomorphicについて説明していただけますか?そこで多くの時間を過ごしているのですか?
はい、そうです。私はIsomorphicも運営しています。これはタンパク質折り畳みにおけるAlphaFoldのブレイクスルーを基に薬物発見を革命化する私たちのスピンアウト会社です。
もちろん、タンパク質の構造を知ることは薬物発見プロセスの一歩に過ぎません。Isomorphicは、タンパク質の適切な場所に結合するが副作用のない化学化合物の設計など、多くの隣接するAlphaFoldを構築していると考えることができます。
薬物発見を数年、時には10年かかるものから、今後10年で数週間、さらには数日に短縮できると思います。
信じられないことです。これは間もなく臨床に入るのでしょうか、それともまだ発見段階ですか?
現在プラットフォームを構築しており、先ほど講演されたCEOのイーライリリーやノバルティスとの素晴らしいパートナーシップがあります。私たちの内部薬物プログラムもあり、来年のどこかで前臨床段階に入ると思います。
候補が製薬会社に引き渡され、彼らがそれを前進させるということですね。
その通りです。がんや免疫学、腫瘍学に取り組んでおり、MD Andersonなどとも協力しています。
決定論的モデルと確率論的モデル
あなたがAGIについておっしゃったことに戻りたいのですが、これを単純化しすぎているかもしれませんが教えてください。モデルは確率論的または決定論的になり得ます。モデルが入力を受け取って非常に特定の何かを出力する、論理的アルゴリズムがあって毎回同じものを出力する、あるいは確率論的で物事を変更して選択を行う、確率80%でこの文字を選択、90%でこの文字を選択する、などです。
薬物発見モデリングを行う際の分子間相互作用の基礎となる物理学や化学と同期する決定論的モデルをどの程度開発する必要があるでしょうか?データで訓練された確率論的モデルと連携する新しい決定論的モデルをどの程度構築しているのですか?
素晴らしい質問です。実際、当面の間、そしておそらく今後5年ほどは、ハイブリッドモデルと呼べるものを構築していると思います。AlphaFold自体がハイブリッドモデルで、学習コンポーネント、あなたがおっしゃる確率論的コンポーネントがあり、これはニューラルネットワークやトランスフォーマーなどに基づいており、与えられたデータから学習します。
しかし、生物学や化学の多くの場合、学習するのに十分なデータがありません。そのため、化学や物理学について既に知っているルールの一部も組み込む必要があります。例えばAlphaFoldでは、原子間結合の角度などです。
AlphaFoldが原子同士が重なることができないことなどを理解するようにします。理論的には学習できるでしょうが、学習能力の多くを無駄にしてしまいます。実際には制約として持っている方が良いのです。
すべてのハイブリッドシステムでのトリックは、Alpha Goが囲碁ゲームについて学習しているニューラルネットワークとどのようなパターンが良いかを学び、その上にプランニングを行うモンテカルロ研究があった別のハイブリッドシステムだったように、学習システムとより手作りされたシステム、特注システムを結婚させて、実際にうまく連携させる方法です。
それはかなり巧妙に行う必要があります。
そのアーキテクチャは最終的にAGIに必要なブレイクスルーにつながると思いますか?解決する必要がある決定論的コンポーネントがありますか?
最終的に行いたいのは、これらのハイブリッドシステムの一つで何かを理解したら、最終的に学習コンポーネントにアップストリームすることです。
エンドツーエンド学習を行い、与えられたデータから追求している物を直接予測できれば、常により良いです。これらのハイブリッドシステムの一つを使って何かを理解したら、戻って自分が行ったことを逆算し、その学習をその情報を学習システムに組み込めるかどうかを見ようとします。
これは私たちがAlpha Zero、Alpha Goのより汎用的な形で行ったことの一種です。Alpha Goには囲碁特有の知識が含まれていました。しかしAlpha Zeroでは、学習した人間のデータ、人間のゲームを含め、それを取り除いて、実際にゼロから自己学習だけを行いました。
もちろん、そうすることで囲碁だけでなく、あらゆるゲームを学習できるようになりました。
エネルギー需要とモデル効率化
AIからのエネルギー需要について多くの誇大広告と騒ぎが起こっています。これは数週間前にワシントンDCで開催したAIサミットの大きな部分で、最近テクノロジー業界で誰もが話している第一のトピックのようです。この電力はすべてどこから来るのでしょうか?
しかし、私があなたに聞きたい質問は、モデルのアーキテクチャやハードウェア、またはモデルとハードウェアの関係に変更があり、出力トークンあたりのエネルギーや出力トークンあたりのコストを下げることで、最終的に私たちが直面するエネルギー需要曲線を無効にするかもしれません。それともそうではなく、かなり幾何学的なエネルギー需要曲線を持ち続けると思いますか?
興味深いことに、両方のケースが真実だと思います。特に私たちGoogleとDeepMindでは、強力でありながら非常に効率的なモデルに多く焦点を当てています。なぜなら、毎日数十億のユーザーに AI概要を提供するなど、私たち自身の内部使用例があり、それは極めて効率的で、極めて低遅延で、提供するのが非常に安価でなければならないからです。
蒸留のような多くの技術を私たちは開拓してきました。内部でより大きなモデルがより小さなモデルを訓練するというものです。小さなモデルが大きなモデルを模倣するように訓練します。過去2年の進歩を見ると、同じ性能に対してモデル効率は10倍、さらには100倍向上しています。
それが需要を減らしていない理由は、まだAGIに到達していないからです。そのため、フロンティアモデルでも、より大きなスケールで新しいアイデアを訓練し、実験し続けたいと思う一方で、提供側ではどんどん効率的になっています。
両方のことが真実で、最終的にエネルギーの観点から、AIシステムはグリッドシステムや電気システム、材料設計、新しいタイプの特性、新エネルギー源の効率性という点で、今日使用するエネルギーよりもエネルギーや気候変動などにはるかに多くを還元すると思います。
今後10年でAIがそのすべてで支援し、今日使用するエネルギーをはるかに上回ると思います。
10年後の世界展望
最後の質問として、10年後の世界を説明してください。
わあ。10年、10週間でさえAIでは一生涯です。10年の分野ですよね?しかし、今後10年でAGI、完全なAGIを持つことになると感じており、それは科学の新しい黄金時代、一種の新しいルネサンスを到来させると思います。
エネルギーから人間の健康まで、その恩恵を広範囲で見ることになると思います。
素晴らしいです。ノーベル賞受賞者デニスへの感謝にご参加ください。
ありがとうございました。素晴らしかったです。ありがとうございます。


コメント