GoogleのAI責任者が明かす2026年のAIの姿

GoogleのAI責任者であるデミス・ハサビスが、2026年のAIの未来像について語ったAxiosのインタビューを詳細に分析する。完全なオムニモデル、ロボティクス、画像・動画生成、音声、3D、テキストという6つのモダリティの統合が進展し、Geminiがこれらすべての分野で急速に進化していることが明らかになる。特にGemini Robotics 1.5による複数ステップのタスク実行、Veo 3の動画生成、Gemini Liveによるリアルタイム音声支援、そしてGenie 3のワールドモデルなど、Googleが多岐にわたる領域で技術的優位性を確立していることが示される。さらに、Co-ScientistやCodemenといったエージェントベースのシステムにより、科学研究からセキュリティ、データサイエンスまで幅広い応用が期待される。2026年に向けて、Googleが提供する技術革新の全体像を包括的に解説する内容である。

Googles AI Boss Reveals What AI In 2026 Looks Like

Checkout my newsletter : - 🐤 Follow Me on Twitter 🌐 Learn AI With Me :

GoogleのAI責任者が語る2026年のビジョン
Googleの多方面にわたる技術的優位性
画像生成と動画生成の進化
Gemini Liveの実用性と可能性
ワールドモデルという新たなフロンティア
エージェントベースシステムの展開

GoogleのAI責任者が語る2026年のビジョン

デミスは最近Axiosとのインタビューで、2026年のAIの未来がどうなると考えているかを基本的に述べていました。この動画では、すべてを詳しく掘り下げて分析していきます。

彼が2026年に起こると言っている最初のことの一つが、完全なオムニモデルです。詳しく入る前に、彼が何を言っているか聞いてみてください。本当に興味深いですし、Googleはこれを手中に収めていると思います。

今後12ヶ月の進歩はどのようなものになるでしょうか。今日から1年後にここに座っているとしたら、世界では何が変わっていると信じていますか。私たちが強く推進しているのは、モダリティの収束だと思います。

つまり、私たちのメインの基盤モデルであるGeminiは、最初からマルチモーダルでした。画像、動画、テキスト、音声を受け取り、今では徐々にそれらの種類の出力も生成できるようになってきています。そして、マルチモーダルであることによって、本当に興味深いクロスポリネーションが得られていると思います。

その最良の例の一つが、私たちの最新の画像モデルであるNano Banana Proです。これは視覚についての驚くべき理解を示していると思いますし、本当に正確なインフォグラフィックなどを作成できます。ですから、来年にわたって、その進歩を多く目にすることになると思います。例えば、動画が言語モデルと収束すると、そこで非常に興味深い能力の組み合わせが見られることになると思います。

もちろん、完全なオムニモデルスタックには基本的に6つの部分があります。ロボティクス、画像、動画、音声、3D、そしてテキストです。

Googleの多方面にわたる技術的優位性

そして重要なのは、Google Geminiがこれらすべての分野で急速に進歩しているということです。そして、ほとんどの人がGoogleがどれほど進んでいるか、そしてなぜGoogleが未来を支配する立場にあるのかを理解していないと思います。つまり、これをどのフロンティアAI企業と比較しても、Googleが事実上リーダーである複数の面でGoogleと競争するのは非常に難しいと私は主張します。

最初に取り上げるのはロボティクスだと思います。Googleはここで少し遅れていますが、Gemini Robotics 1.5は2026年にアップデートを受ける可能性が高く、かなり良いものになると思います。実際に多くのロボティクスのアップデートを見てきましたが、これまでのところかなり有望です。

Gemini Robotics 1.5を紹介します。次世代の物理エージェントを動かすための新しいモデルファミリーです。今や初めて、より長い複数ステップの課題を解決できるようになりました。

アロハ、これらの果物を色の合うお皿に分類してもらえますか。もちろん、喜んでお手伝いします。緑の果物を緑のお皿に入れてください。

私たちはそれに思考能力を持たせています。環境を認識できます。ステップバイステップで考え、この複数ステップのタスクを完了します。バナナを黄色いお皿に入れてください。

この例は非常にシンプルに見えますが、その背後にあるアイデアは本当に強力です。同じモデルが、ヒューマノイドのようなより洗練されたロボットを動かし、より複雑な日常的なタスクを行うことになります。

こんにちは、アポロ。洗濯物を分類するのを手伝ってくれますか。もちろんお手伝いできます。白いものは白いビンに、濃い色のものは濃い色のビンに入れてください。素晴らしい。

さて、これを入れ替えることができます。すみません、アポロ。そしてロボットは私がそうしたことを知っていて、反応します。ここで思考の全体的な流れを見ることができ、行動するたびに考えています。

Gemini Robotics 1.5は、広範なタスクを分解し、考え、そして複数のステップにわたって行動を取ることができます。Gemini Robotics 1.5のもう一つの大きな変化は、今では私たちのすべてのロボットが、異なる形態に合わせてファインチューニングする必要なく、同じモデルを使用していることです。

新しいエージェント的な能力により、Gemini Robotics 1.5はインターネットを使って質問に答え、問題を解決できます。

こんにちは、アロハ。私の位置情報を使って、物体を正しいコンポスト、リサイクル、ゴミのビンに分類してもらえますか。サンフランシスコの廃棄物ガイドラインに基づいて分類タスクを実行するために、コンポストには緑のビン、リサイクルには青いビン、ゴミには黒いビンを使います。タスクは完了しました。よくできました。ありがとう。

Gemini Robotics 1.5は、真に有用なAIエージェントを物理世界に導入するための一歩であり、コミュニティに次世代の役立つロボットを構築するための強力な新しいツールを提供します。

画像生成と動画生成の進化

もちろん、画像もあります。そして先ほど見た画像は、Nano Banana Proを使用しています。そして、マルチモダリティと統合について話しているとき、ここで私が意味しているのは、ほとんどの人がNano Banana Proの画像が実際にエージェントのように推論することを理解していないということです。

画像を作成する際、実際に画像を作成してから調整すると思います。それを見て、物事を変更し、「さて、これが実際に機能する画像だ」となり、これが非常に正確である理由です。そして、これが私が言っている理由です。多くの異なる分野で完全な収束が得られることになります。

おそらく彼らはこの技術を動画や他のものにも追加するかもしれません。もちろん、動画といえばVeo 3があります。実際、ボリュームを下げましょう。これが大きすぎるのは嫌なので。しかし、これはもちろんVeo 3の動画です。おそらくVeo 3の動画はすでに見たことがあると思います。もし見ていなければ、今お見せします。

これはもちろん、画像から動画への変換です。Veo 3は動画デモンストレーションに関して依然としてほぼリーダーであり、本当に本当に優れていると思います。そして、ほとんどの人はVeo 3がどれほど優れているかを本当に理解していません。そして将来、2026年には、もちろんVeo 3はさらに良くなるでしょう。前回はナンバーワンの座を獲得しました。

そして、Googleが再び何度も何度もナンバーワンの座を獲得することに疑いの余地はありません。ですから、それが実際にどこに向かうのかを見るのは非常に興味深いでしょう。

Gemini Liveの実用性と可能性

さて、もちろんGemini Liveもあります。これはGoogleの最も過小評価されている機能です。これは、マルチモダリティ、ライブ音声、その場で推論する能力、そして実際に人間を助ける能力の組み合わせです。

このデモンストレーションは少し長いので、スキップしたい場合はまったく問題ありません。しかし、このデモンストレーションは数日前にバイラルになりました。なぜなら、車のオイル交換の仕方を知らない男性が、Gemini Liveを使って実際にこれを行うことができたからです。

そして、これは大規模に初めて、個人がAIを使い、AIと推論し、基本的にAIに自分ができないことを案内してもらうという点で、どのようなものであるかを見ることができました。これは簡単なデモンストレーションです。約3分間だと思います。個人的には、この男性はおそらくすでに車のオイル交換の仕方を知っていたと思います。

しかし、レイテンシーが改善され、推論が良くなり、さらに多くの知識を持ち、はるかに困難なことについてより良い方法で推論できるようになった2026年に、これがどのようなものになるか考えてみてください。そして繰り返しますが、これはOpenAIと完全に競合しており、彼らは素晴らしい仕事をしていると思います。

こんにちは、私はGeminiです。やあGemini、これは私の2009年式BMW 335iです。オイル交換を手伝ってもらえますか。もちろんです。どんなオイルとフィルターを持っていますか。そして、ドレンプラグ用のレンチやオイルフィルターレンチのような適切な工具を持っていますか。

ええ、推奨されているCastrol 5W40と正しいオイルフィルターを持っています。そして、オイルフィルターハウジング用の正しい工具を持っています。

素晴らしい。始めるのに必要なものはすべて揃っています。車を持ち上げて、オイルドレンプラグにアクセスしましょう。わかりました。オイルフィルターはどこですか。

オイルフィルターはエンジンの前部、インテークマニホールドのすぐ下にあります。オイルを排出する前にオイルキャップを外すのは常に良いアイデアです。

わかりました、そうします。さあ、上げます。車を空中に上げました。オイルドレンプラグはどこですか。

それが取り外す必要があるプラスチックパネルです。ドレンプラグはそのパネルの下にあります。パネルが外れて、これがドレンプラグのようです。サイズは何ですか。

17mmのドレンプラグのようです。今から引き抜きます。オイルを受け止めるためにドレンパンが設置されていることを確認してください。排出されたら教えてください。

排出するはずです。オイルが完全に排出されたら、ドレンプラグエリアを拭き取り、新しいワッシャーをドレンプラグに取り付けることができます。新しいワッシャーをドレンプラグに取り付けました。今から車に戻します。

N54エンジンの正しいトルク仕様は何ですか。ドレンプラグの正しいトルク仕様は18フィートポンドです。

わかりました、18です。さて、フラップが戻りました。車を下ろす準備ができました。車を下ろしてから、オイルフィルターに焦点を当てることができます。

オイルフィルターを取り外しました。わかりました。古いフィルターが手にあるのが見えます。新しいフィルターを取り付ける前に、新しいフィルターに付属しているキャップの大きなOリングを交換する必要があります。

キャップの先端には小さなOリングもあり、それも交換する必要があります。ビニール袋の中に2つのOリングが見えます。それらでフィルターキャップのものを交換してください。小さなマイナスドライバーやピックを使って、Oリングを優しくこじ開けることができます。

わかりましたか。ピックでOリングを優しくこじ開けています。緑色のOリングが所定の位置にあるようです。

新しいOリングと新しいフィルターを入れました。完璧です。オイルフィルターキャップの準備ができたので、エンジンのハウジングにねじ込んでください。

オイルフィルターハウジングを締めています。トルク仕様は何でしたっけ。実は18フィートポンドです。トルクレンチをその設定にして、完了したら教えてください。

さあどうぞ。18ポンドです。オイルを補充する準備ができました。N54はどれくらい必要ですか。

6.9クォート、つまり6.5リットルです。N54にはディップスティックがありません。エンジンを始動して数分間回し、オイルを循環させる必要があります。その後、車両の電子オイルレベルセンサーを使ってレベルを確認できます。

わかりました、Gemini。オイルは満タンのようです。オイル交換の準備が整ったようですね。また素晴らしい仕事が完了しました。

本当にありがとう、Gemini。どういたしまして。オイル交換のお手伝いができて光栄でした。

皆さんはどうか分かりませんが、これはモデルが良くなることで2026年に何が来るかを示していると思います。そして、このデモンストレーションは本当に本当に私を驚かせましたし、多くの人を驚かせたと思います。

ワールドモデルという新たなフロンティア

さて、Googleが話しているもう一つのことは、もちろんワールドモデルです。そして、ワールドモデルは2026年のテーマになると思います。2026年に何が来るかについてのビデオを作るかもしれません。ワールドモデルについて、デミスが何を言っているか見てみましょう。

来年にわたって見られるもう一つのことで、私が個人的に取り組んでいるのはワールドモデルだと思います。私たちにはGenie、Genie 3と呼ばれるシステムがあります。これはインタラクティブなビデオモデルのようなものと考えることができます。

ビデオを生成して、ゲームやシミュレーションの中にいるかのように歩き回り始めることができ、1分間一貫性を保ちます。これは非常にエキサイティングだと思います。

Googleのワールドモデルが何であるかを知りたい場合は、このビデオをチェックしてください。あなたが見ているのはゲームや動画ではありません。世界です。これらのそれぞれは、Genie 3によって生成されたインタラクティブな環境であり、ワールドモデルの新たなフロンティアです。

Genie 3を使えば、自然言語を使って様々な世界を生成し、インタラクティブに探索できます。すべて単一のテキストプロンプトで。世界で時間を過ごすのがどんな感じか見てみましょう。

Genie 3はリアルタイムのインタラクティビティを持っています。つまり、環境があなたの動きや行動に反応します。あらかじめ構築されたシミュレーションを歩いているのではありません。ここで見ているすべてのものは、あなたが探索する際にライブで生成されています。

そしてGenie 3にはワールドメモリがあります。だからこそ、このような環境が一貫性を保つのです。ワールドメモリはあなたの行動にも引き継がれます。例えば、この壁に絵を描いているとき、私の行動は持続します。

目を離して世界の他の部分を生成できますが、戻ってきたときに、私が行った行動はまだそこにあります。そしてGenie 3はプロンプト可能なイベントを可能にするので、その場で新しいイベントを世界に追加できます。

他の人や交通手段、あるいは全く予期しないようなものなど。Genie 3を使って、現実世界の物理学や動き、あらゆる種類のユニークな環境を探索できます。

明確な地理、歴史的設定、架空の環境、さらには他のキャラクターを持つ世界を生成できます。Genie 3が次世代のゲームやエンターテインメントにどのように使用できるか、楽しみにしています。

そしてそれは始まりに過ぎません。世界は身体化研究、現実世界で働く前にロボットエージェントを訓練すること、または災害準備や緊急事態訓練のための危険なシナリオをシミュレートすることに役立つ可能性があります。

ワールドモデルは、学習、農業、製造などの新しい道を開くことができます。Genie 3のワールドシミュレーションが世界中の研究にどのように利益をもたらすか、楽しみにしています。

エージェントベースシステムの展開

そして、Genie 2からGenie 3へのジャンプはかなり驚異的だったので、クレイジーだと思います。Genie 4、Genie 5といったワールドモデルが、クロスモダリティによって動かされる超超優れたものになることを想像できます。これらのワールドモデルがどれほど良くなるか、本当に信じられないほどになると思います。

もしこれに慣れていないなら、これらのワールドモデルは基本的に探索できる仮想世界のようなもので、メモリがあり、推論があります。本当にクレイジーです。過去にはこんなことを考えもしなかったでしょう。実行するのにおそらく非常に計算コストが高いと思いますが、それでも魅力的です。

もちろん、エージェントベースのシステムもあり、これはGoogleが取り組んでいるものです。もう一つは、エージェントベースのシステムかもしれません。この分野ではエージェントについて多く話されていると思いますが、完全なタスクを行うにはまだ十分に信頼できません。しかし、今後については…

Googleはエージェントシステムを完全に支配しています。慣れていない場合、これはCo-Scientistです。これはGemini 2.0で構築されたマルチエージェントシステムで、基本的に仮想科学協力者のように機能し、研究者が新規でテスト可能な科学的仮説と研究計画を生成し、洗練するのを助けます。

これは基本的に、科学研究方法の主要なステップを反映するように設計されており、文献検索や要約を超えて、科学者が述べた研究目標に合わせた独創的なアイデアや実験戦略を提案します。

ですから、この種のエージェントは将来非常に人気になると思います。このAIエージェントが非常に優れていて、新しいことを提案でき、新しいことを発見し、新しいことをテストして検証できるようになることを想像できますか。これが全体的なエージェントシステムです。もちろん、これは科学者向けです。

おそらくあなたや私が使うことはないでしょうが、これもまた、Googleが持っている切り札の一つだと思います。繰り返しますが、GoogleにはCodemenエージェントがあります。これはGoogle DeepMindによって開発されたAIエージェントです。

コードベース、特にオープンソースプロジェクトのセキュリティ脆弱性を検出、デバッグ、修正するように設計されています。このLemoniは、推論のためにGemini Deep Thinkモデルを活用し、動的解析のような高度なツールを使用しています。これは基本的にもう一つの素晴らしいエージェントです。

そして、もちろんGoogleのデータサイエンスエージェントがあります。これは、Google Collab内およびGoogleのデータプラットフォーム全体でエンドツーエンドのデータサイエンス作業を自動化するAIアシスタントです。

つまり、Googleが2026年のロードマップに関して取り組んでいる様々なことの多さを、皆さんは理解し始めていると思います。そして、このビデオには載っていない、多くの異なるモデルなど、Googleから多くのものを見ることになると思います。しかし、ほとんどの部分については、カバーしたと思います。

そして、私がカバーしたかったことの一つは、AlphaEvolveです。そしてこれは、基本的に他の科学者のようなものでしたが、これはもちろん、科学的アルゴリズム発見のためのGemini駆動のコーディングエージェントです。これはもちろん、AI科学者のようなものです。

これらすべてのエージェント、そして言及しなかったものもいくつかあるのですが、Googleが2026年にどれほど良くなるか想像できますか。正直なところ、彼らが提供するすべてのものに驚くことになるでしょう。

というわけで、このビデオについてどう思うか教えてください。次の動画でお会いしましょう。