Gemini 3 リークがゲームを変えた…オムニ AI の台頭?

Google・DeepMind・Alphabet
この記事は約9分で読めます。

この動画では、Google の次世代 AI モデル「Gemini 3」に関するリーク情報と、その革新的な可能性について詳しく解説している。信頼できる情報源からの漏洩により、Gemini 3 がコーディングとマルチモーダル機能で大幅な性能向上を遂げることが明らかになった。特に注目すべきは、DeepMind が目指す「オムニモデル」という概念で、これは従来のテキストベースの言語モデルとは異なり、物理世界を直感的に理解し、あらゆるモダリティを通じてコミュニケーションできる世界モデルである。Gemini 3 は単なる AI アシスタントを超えて、真の AGI に向けた重要なステップとなる可能性を秘めている。

Gemini 3 Leak Just Changed the Game… The Rise of Omni AI?
Gemini 3 details that was leaked by two different sources on X and Demis Hassabis vision for future of Gemini and likely...

Gemini 3 に関する信頼できるリーク情報

ついに Gemini 3 について信頼できる詳細情報が入ってき始めました。一体何を期待すべきでしょうか?Gemini 2.5 と比べてどうなのか、そしていつリリースされるのでしょうか?

数日前、Semi Analysis がこんなツイートをしました。「Google があまりにもツイートが下手なので、代わりに我々がやります。Gemini 3 は信じられないほど高性能なモデルになりそうです、特にコーディングとマルチモーダル機能において。」

Semi Analysis は Dylan Patel によって設立された非常に信頼できる情報源です。この人を見たことがあるかもしれませんが、注目すべきは Gemini の事前学習共同リーダーである Demetry が「でたらめを作るのは良くない」とツイートで返答したことです。

彼はおそらく秘密にしようとしていたのでしょう。Dylan は「あなたの関係者が事前学習がどれだけうまくいったかについて多くの情報をリークしています。私が何を作り上げていると思っているのかわかりませんが、正確なモデルの詳細を DM でお教えしてもよろしいですよ」と応答しました。

「やってみろ」と言われ、「了解、今 DM しています」となりました。判断はあなたにお任せしますが、Dylan はこれまで 100% の的中率を誇っているので、これが実際にリークされた情報だと私は確信しています。

それと並行して、Flow with AI の創設者 Derek Kne が以前こんなツイートをしていました。「Gemini 3 のリードエンジニアが来週私たちのオフィスに立ち寄る予定です。深い質問を用意しておきます。あなたなら何を聞きますか?」

その後、自分自身をクォートツイートして「Gemini 3 について話しました。今月ではありませんが、まもなくです。3.0 の Flash は 2.5 Pro よりも優秀になるでしょう。これ以上は言えません。シートベルトを締めてください」と言いました。

Gemini 3.0 Flash が 2.5 Pro よりも優秀だというのは、思っているより印象的なことで、その理由は後で説明します。

Demis Hassabis が語る Gemini 3 の本質

次に信頼できる情報源は、Demis Hassabis 本人からのものです。そもそも Gemini 3 は Gemini 2 やその後続バージョンとどう違うのでしょうか?Demis が Lex Friedman の番組で説明しました。

「2.5 から 3.0 に移行するには何が必要なのでしょうか?2.5 にはすでに多くのリリースがあり、性能の飛躍的向上がみられるようですが、新しいバージョンに移行するとはどういう意味なのでしょうか?性能の問題でしょうか?それとも全く異なる体験の風味についてでしょうか?」

「私たちの異なるバージョン番号の仕組みはこうです。新しい種類の完全な実行と新バージョンの完全な製品化には、およそ 6 か月ほどかかります。その間に多くの新しい興味深い研究の反復とアイデアが生まれ、それらを全て集めます。

アーキテクチャ面での過去 6 か月分の興味深いアイデアを想像してみてください。データ面かもしれませんし、様々な可能性があります。それらを全て収集し、パッケージ化して、次の反復に有用そうなものをテストし、それらを全て束ねてから新しい巨大なヒーロー学習実行を開始するのです。

そしてもちろんそれが監視され、事前学習の終了時には、様々な異なる方法でポストトレーニングがあり、パッチを当てる異なる方法もあるため、そこでも多くの利得を得ることができる実験段階全体があります。

バージョン番号は通常、基本モデルである事前学習済みモデルを指し、2.5 の中間バージョンや、異なるサイズや異なる小さな追加は、多くの場合、同じ基本アーキテクチャから後で行うことができるパッチやポストトレーニングのアイデアです。」

Google のバージョニング戦略と Gemini 3 の革新性

OpenAI と違って、Google はバージョニングシステムに非常に慎重です。強化学習、蒸留、ファインチューニング、その他すべてで現在の Gemini 2 ファミリーを改善している一方で、並行して最良のアイデアと改善点をすべて集めて、ゼロから作成される次のモデルのためにまったく新しいアイデアで完全に新しいモデルを構築しています。

そのため、すでに Gemini 3 Flash が Gemini 2.5 Pro よりも優秀だとされているのは本当に印象的だと思います。Gemini 3 ファミリーにはまだテーブルに多くの改善の余地が残されており、私たちは今後 6 か月間にわたってサブバージョンの急速な導入を体験することになるでしょう。

最も興味深い質問は、Gemini 3 が構築されているこれらの新しいアイデアが何かということです。これが基本的にすべてのポイントです。彼らはいくつかの基本的な側面を改善するためにゼロからスタートに戻り、Demis は複数の機会でそれについて話してきました。彼は実際にかなりオープンでした。

例えば、彼は動画が重要だと言及し、その後 Veo をリリースしました。その後、動画との相互作用について話しました。「そしてもちろん次の段階は、おそらくそれらの動画をインタラクティブにすることです。そうすれば実際にその中に入って動き回ることができます」と言い、まもなく彼らは Genie をローンチしました。

そのようなケースは数多くありました。彼が何かをさりげなく言及すると、少し後にそれが実際の製品として現れるのです。

マルチモーダル AI からオムニモデルへ

最近、彼はマルチモーダリティと世界モデルに信じられないほど焦点を当てています。ご存知のように Nano Banana は信じられないほど印象的でしたし、Veo、Genie、その他もそうです。これらは主に異なるモデルですが、DeepMind は Google I/O で言ったように、それらを組み合わせようとしています。「Gemini を完全な世界モデルにすることは、新しい種類の AI を解き放つための重要なステップです」

他のインタビューでも、「Genie について考え、Veo について考え、Gemini について考えると、これらの多くは現在別々のモデルですが、それらのモデルが一緒に収束し始めているのが見え始めています。いわゆるオムニモデル、つまり何でもできるモデルです。

そして、それが AGI システムがすべての異なる側面を、これらすべての異なる専門モデルで見るのと同じ品質レベルで実際に処理できるべきことだと思います。しかし、おそらく一つの大きなモデルでです。私たちが世界モデルと呼ぶものに近づき始めていると思います。

世界がどのように機能するか、世界のメカニズム、世界の物理学、そしてその世界の中の物事のモデルです。そしてもちろん、それが真の AGI システムに必要なものです。」

DeepMind はオムニモデルを構築しようとしています。これは、マルチモーダリティの追加レイヤーを持つテキストベースのモデルではなく、言語も理解する世界モデルを意味します。

物理世界を理解する AI の必要性

Demis が提起する非常に興味深いポイントがあります。「私たちがこの種のモデルを構築している理由は、私たちが感じており、常に感じてきたのは、Gemini モデルのような通常の言語モデルで明らかに進歩しているということです。しかし、Gemini の最初から、それをマルチモーダルにしたいと考えていました。

つまり、画像、音声、動画など、あらゆる種類の入力を受け取り、何でも出力できるようにしたいのです。私たちがこれに非常に興味を持っているのは、AI が真に汎用的になるため、AGI を構築するために、AGI システムは私たちの周りの世界、私たちの周りの物理的な世界を理解する必要があると感じているからです。言語や数学の抽象的な世界だけではなく。

そのため、この種のモデル、これらの Genie モデル、そして最高のテキストから動画への変換モデルである Veo を構築することは、世界の動態、世界の物理学を理解する世界モデルを構築している私たちの表現なのです。それを生成できるなら、それはあなたのシステムがその動態を理解していることの表現です。」

彼らは単に娯楽ツールとして動画ジェネレーターを作っているのではありません。モデルが現実の特徴を捉えることができることを示すために構築しているのです。一貫性があり、物理的にもっともらしい動画を生成できることは、それを実証する一つの方法です。

つまり、目標は物理世界を直感的に理解し、すべての異なるモダリティを通じてコミュニケーションするモデルを持つことです。

Gemini 3 とロボティクスの融合

Gemini 3 がそのビジョンにどれほど近いかは実際のところわかりません。彼らが共有したすべてに基づく私の推測では、Gemini 3 は現在私たちがマルチモーダリティと呼ぶものにおいて信じられないほど印象的になるでしょう。

しかし、私たちがそれをマルチモデルではなくオムニモデルと呼ぶことが許される閾値がどこにあるのかはわかりません。それがどのように異なるかのアイデアを与えるために、Gemini 2 には実際にロボットデータで部分的に学習されたロボティクスバリアントがあり、その結果、中間システムなしに音声による指示に基づいてタスクを実行できる物理ロボットができました。

「私たちは Gemini robotics models と呼ばれるものを構築しました。これは追加のロボットデータでファインチューニングされた一種の Gemini です。本当にクールなのは、この夏にいくつかのデモをリリースしましたが、テーブル上のオブジェクトと相互作用する二つの手、二つのロボットハンドのテーブルトップセットアップがあり、ロボットと話すことができるということです。

つまり、『黄色いオブジェクトを赤いバケツに入れて』などと言うと、その言語指示をモーター動作に解釈します。これがロボット専用モデルではなく、マルチモーダルモデルの力であり、それと相互作用する方法に現実世界の理解をもたらすことができるということです。

最終的には、ロボットが世界を安全にナビゲートするために必要な理解だけでなく、あなたが必要とする UI UX になるでしょう。」

どれだけの違いがあるかがわかります。言語モデルも恐らくテキストを使った一連の指示を通じてロボットハンドを動かすことができるでしょう。しかし、指示を行動に直接結び付けるためにロボティクスデータで学習されると、天文学的に速く、より良く、よりダイナミックになります。

真の理解に向けた次のステップ

今、これらのロボットハンドのようなオムニモデルを想像してみてください。物理学を通じて推論するのではありません。それを直感的に理解し、その上で推論するのです。

私は実際に Gemini についてかなり興奮しています。特に Genie 3 や Nano Banana を見た後、Google が次のステップを踏むための正しい道筋にあることを確信しています。

あなたはどう思いますか?ちなみに、OpenAI も今年中に別のモデルをドロップする可能性があります。では、Gemini か GPT か、2026 年の開始時にはどちらがトップに立っているでしょうか?そして、それらは現在持っているものよりも大幅に優れているでしょうか?

ご視聴ありがとうございました。次回お会いしましょう。

コメント

タイトルとURLをコピーしました