リリースノート：Geminiのマルチモーダル機能

この動画は、GoogleのGeminiにおけるマルチモーダル機能について詳しく解説したものである。Geminiのマルチモーダル・ビジョン製品リードであるAni Baddepudiが、テキスト、画像、動画、音声を統合的に理解する単一モデルとしてのGeminiの設計思想と実装について語っている。AGI構築における視覚能力の重要性から始まり、動画理解、文書処理、空間認識といった具体的な機能、そして将来的なマルチモーダル出力機能まで幅広くカバーしている。特に、従来の個別モデルによるアプローチと比較して、単一のマルチモーダルモデルがもたらす能力の相乗効果や、開発者が構築可能な新しい製品体験について詳しく議論されている。

Release Notes: Gemini's multimodality

Ani Baddepudi, Gemini Model Behavior Product Lead, joins host Logan Kilpatrick for a deep dive into Gemini's multimodal ...

Geminiのマルチモーダル設計思想
マルチモーダルの技術的基盤
情報損失と汎化能力
動画理解の技術的革新
マルチモーダル機能の相互作用
製品開発戦略と焦点領域
現在と未来の製品体験
新しいインターフェース設計
生産性向上の未来
動画理解の技術詳細
今後の展望と出力モダリティ
文書理解とOCR
チーム構造と今後の方向性

Geminiのマルチモーダル設計思想

Geminiは当初からマルチモーダルモデルとして構築されました。もし我々がAGIや、人間の一般的なタスクを実行できる強力なAIシステムを構築したいのであれば、視覚は人間の体験における中核的な要素です。これらのモデルは、我々と同じように世界を見て知覚できるべきなのです。

私は視覚が依然として、モデルの能力と人々が構築している製品との間に最も大きなギャップがある領域の一つだと思います。人々がこれらのモデルで何ができるかの直感を構築するのに時間がかかるため、我々はその世界ではまだ非常に初期段階にあると思います。

この生産性の部分が私が最も興奮している点です。我々はすべてが視覚である世界を見ています。これらのモデルは我々と同じようにあなたの画面を見て世界を見ることができるのですが、同時にあらゆる分野のドメインエキスパートでもあるのです。これは私が本当に楽しみにしている未来だと思います。

こんにちは、皆さん。Release Notesへようこそ。今日は、Geminiのマルチモーダル・ビジョン製品リードであり、また新たにGeminiモデル行動の製品リードでもあるAni Baddepudiさんとお話しします。Geminiマルチモーダルについてお話しいただき、ありがとうございます。

こちらこそ、お招きいただきありがとうございます。

Geminiは当初からマルチモーダルモデルとして構築されたと思います。これは実際にはどういう意味でしょうか？なぜそうだったのでしょうか？Gemini 1.0に遡って、我々がマルチモーダルな言語モデルを構築するという旗を立てた時のことを考えると、その背景を教えていただけますか？

マルチモーダルの技術的基盤

はい、まさにそうです。DeepMindは長い間、マルチモーダル機能に取り組んできました。その理由は、もし我々がAGIや、人間の一般的なタスクを実行できる強力なAIシステムを構築したいのであれば、視覚は人間の体験における中核的な要素だからです。医学、金融などの様々なドメインにおけるタスクには、強い視覚的要素があります。

Gemini 1.0の時代からのビジョンは、人々と同じように世界を見て知覚できるモデルを持つことでした。これにより、これらのモデルがそのような方法でタスクを実行できるようになるのです。

これについて私はいつも考えています。AIプロダクトの多くを見ると、それらはマルチモーダルになることを叫んでいるように感じられるからです。テキスト世界だけで構築していると、多くの奇妙なプロダクト体験を作らなければならないのですが、多くの場合、解決策はマルチモーダルにして、モデルに何かを視覚的に見せることなのです。

マルチモーダルライブAPIの議論を我々は推進してきましたが、これはそれが実際に展開される素晴らしい例です。人々は実際にそのようなものを構築できるのです。Geminiがマルチモーダルであるという話に戻りますが、モデルの観点から「ネイティブマルチモーダルモデル」であることは実際に何を意味するのでしょうか？

単一のモデルが最初からマルチモーダルになるように訓練されています。高レベルでは、これはテキスト、画像、動画、音声、これらすべてのモダリティがトークン表現に変換され、モデルがこれらすべての情報を一緒に学習することを意味します。

これによって得られるのは、テキストだけでなく、テキストと画像、音声、動画などを理解できるモデルです。私がこれらのモデルについて考えるのが好きな抽象化は、それらが我々と同じように世界を見て知覚できるべきだということです。これが、これらのモデルを最初からネイティブマルチモーダルとして訓練する背景にある目標です。

情報損失と汎化能力

そうすると、何らかの圧縮損失効果が発生するのでしょうか？トークンは実際には数値であると考えていますが、画像について考えると、一枚の絵は千の言葉に値するとも言いますが、同時にモデルはマルチモーダルで本当に優秀だと感じます。何らかの魔法が起こっていて、ニュアンスを失わないようになっているのでしょうか？

はい、まさにそうです。いくつかの点があります。まず、画像から情報を失うことは大きな研究課題です。画像をトークン表現に変換する際、我々は本質的に画像から一部の情報を失います。これは、画像表現をより損失の少ないものにする方法の継続的な研究課題です。

二つ目は、動画に拡張する際、我々は動画を1秒間に1フレームでサンプリングし、訓練中には他のトリックを使用できますが、モデルが動画ストリーム全体を見ていないため、情報を失います。

確かに情報損失はあります。本当に驚くべきことは、これらのモデルがかなりよく汎化することです。十分な画像を見ると、動画を見ると、たとえそれらが1秒間に1フレームでサンプリングされていても、これらの能力はかなりよく汎化し、そしてこれらのモデルが可能になることは驚異的です。

これらは我々が取り組んでいる継続的な研究課題です。

動画理解の技術的革新

これを聞いている方々にとって、もしまだ見ていない場合、我々はGemini 2.5 Proが動画理解において最先端のモデル性能を持っているというブログ投稿を公開しました。これは非常に視覚的な使用例であり、AI Studioなどで構築したこの能力を示すために、多くの本当に素晴らしい視覚的使用例と出力があるので、ブログ投稿を読んでいただければと思います。

これは動画対画像とどの程度関連しているのでしょうか？動画をうまく機能させるために、モデルの観点から多くの複雑さが発生するのでしょうか、それとも実際には舞台裏で多くの画像を渡しているだけなのでしょうか？

動画、2.5モデルはかなり驚異的です。いくつかの点があります。まず、以前のGeminiモデルは動画でかなり良好でしたが、堅牢性が少し問題でした。例えば、1時間の動画をモデルに入力すると、モデルは最初の5分から10分に焦点を当て、その後の動画では注意が散漫になるという問題がありました。

これらはチームが大量に取り組んできた品質面の問題で、特に長時間コンテクスト動画に関して、これらは非常に動画固有のものであり、これらの能力の真の利点です。

二つ目は中核的な視覚改善であり、それは動画にも汎化します。ブログ投稿で強調している本当にクールな例の一つは、動画をコードに変換する能力です。これは多くのクールなことを可能にします。動画をアニメーションに変換したり、動画をウェブサイトに変換したりできます。

私はレシピのYouTube動画を入力して、それを段階的なレシピに変換しました。人々が多く使用している使用例は、講義の動画をそれを講義のウェブページや講義ノートなどに変換することです。

これは大学を楽しくしますね。

はい、そうです。

つまらない講義をたくさん取って、それをAIに入力すると、すべてがインタラクティブでカスタマイズされた学習体験になります。

まさにそうです。これらのものは、あなたが学習できるインタラクティブなアプリに変わります。Gemini 2.5の本当にクールなことは、動画を情報媒体として活用して本当に有用なことを行うことを可能にするということだと思います。つまり、両方の要素があると言えるでしょう。

マルチモーダル機能の相互作用

Ani、あなたと私は、このマルチモーダル傘の下に実際に多くの異なる視覚使用例がバンドルされていることについて多く話しています。OCR関連のもの、動画理解、おそらく私があまり知らない、あるいは頻繁に考えない他の50のものがあります。

マルチモーダル製品Gemini側からこれをどのように考えていますか？これらすべての能力間の関係と相互作用は何でしょうか？それらは互いに独立しているのでしょうか？一つが良くなるとすべてにわたって利得が見られるのでしょうか？関係は何でしょうか？

二つのことがあります。まず、単一のマルチモーダルモデルを持つことの利点は、多くの正の能力転移が見られることです。この2.5リリースのクールなことの一つは、動画からコードへの変換が本当によく機能することです。2.5モデルがコードでずっと強力だからです。

二つ目は、視覚内でも多くの能力転移が見られることです。過去には、これらの多くに対して別々のモデルを持っていたでしょう。別々のOCRモデル、別々の検出、セグメンテーションモデルなどです。

今のクールなことは、これらすべてがGeminiにバンドルされていることで、それは多くのクールな使用例をもたらします。例えば、強力なOCRが必要だが、モデルが動画で何が起こるかを理解し、それを転写するための強力な時間理解も必要な動画を転写しているとします。

我々が本当に興奮している使用例の一つは、Geminiをペアプログラマーとして使用することです。IDEの動画をGeminiにストリーミングし、コードベースについて質問し、回答を得るなどです。これは強力なコーディング能力、強力な中核的視覚（空間理解OCR）、そして動画内の情報を時間軸にわたって理解する能力、つまり時間的推論部分を必要とする使用例です。

製品開発戦略と焦点領域

この使用例が大好きです。1年後を見ると、すべての開発者製品が何かを持っているだろうし、実際にはそれよりも一般的かもしれません。OSが何かを持つだろうし、異なる製品がこれのカスタムバージョンを持つだろうと思います。なぜなら、それがとても人気があるからです。

ライブAPIで構築している顧客の牽引力からすでにこれを見ており、多くのクールでありふれたAIアプリケーションではないものが構築されています。人々が同じことをやっている場合が多いので、人々が新しいものを構築するのを見るのは素晴らしいことです。

モデル能力の観点から何に焦点を当てるかについて、あなたが言った点について、基本モデルが良くなると、潮が満ちてすべての船を持ち上げるようなものについて、どのように考えているかも非常に興味深いです。

マルチモーダルの観点から、我々は実際にその賭けをする必要がない、なぜなら自然に起こるからという特定の領域がありますか？それとも、基本モデルが上がってもよくなっていないので、ここに焦点を当てる必要があるということを見るために、明示的にそれを追跡する必要がありますか？

これは素晴らしい質問です。三つの部分に分けたいと思います。

まず、今日ユーザーと顧客にとって重要な使用例があります。APIを使用している人々、つまり開発者、マルチモーダル視覚使用例でGeminiを使用するGoogle製品などです。これらは、Geminiを非常に強力にする必要がある短期的な能力のように感じられるものです。

二つ目の部分は、これらの長期的な願望的能力の一部で、非常に重要だと思います。これらは、今日人々がGeminiにできるように求めていないものですが、強力なAIシステム、AGIなどを構築するために非常に重要だと思われるものです。

クールな例の一つは視覚推論です。Gemini 2.5モデルでこれの初期の兆候を見ており、これはピクセル上で推論する能力です。いくつかのおもちゃの例があります。多くの表面を持つピンボールがあり、ボールが辿る経路や、どのバケツに落ちるかについてGeminiに尋ねるようなものです。

これは非常に興味深い能力です。なぜなら、モデルはテキスト形式で推論しているのではなく、実際に画像上で推論し、画像内でボールの軌道がどうなるかを理解する必要があるからです。これは非常にシンプルなおもちゃの例ですが、これがロボティクスのようなものにとって重要になる未来を外挿できます。

ロボットや自動運転車が、実体化された推論を動かすGeminiのようなAIシステムを持っていれば、それは多くの使用例を開放します。これらは顧客が今日我々に求めているものではありませんが、チームが非常に興奮しており、AGIを構築するために非常に重要だと思うものです。

三つ目は、あなたが言うように、我々が驚かされるもの、つまり我々が一種計画するもの、そしてこれは我々のモデルをスケールアップすることから起こるものです。2.5はこれの素晴らしい例でした。

我々は特に、これらのモデルが画像からコードへ、動画からコードへでこれほど素晴らしくなることを計画していませんでしたが、これは2.5で非常に強力な能力であることが判明しました。そして、これが起こっている初期の兆候を見たときの鍵は、使用例が何であるか、そしてこれらのものがどこで本当に強力になり得るかを理解することだと思います。

この例はUXからコードへです。これらの能力により、デザイナーと製品マネージャーのワークフローが完全に変わると思います。今、私はUXをスケッチして、それをGeminiに入力でき、そのUXインターフェースのためにHTMLやJavaScript Reactを使用してかなり良いプロトタイプを生成します。このようなものは非常にクールで、我々が驚かされる能力です。

現在と未来の製品体験

これはPMであることをずっと楽しくします。

我々が多くの時間を費やして話し合っているもののこのレンズを通して、一つの部分は、人々が実際にマルチモーダルで何を構築しているか、そして我々がどのように、今興味深いものを構築している人々を助けるか、同時にビルダーやスタートアップ創設者を説得しようとする、これがあなたが構築できる次のすべてのもので、これが良いアイデアで、これが能力であるということです。

そのレンズを通して、視覚の観点から最も興奮していることは何ですか？人々がこのもので構築できる製品体験と、彼らが今構築していると思うものと比較して、それほど興味深くないものもあるが、まだモデルから引き出すことができる多くの能力があると思います。

視覚でいくつかの本当にクールなことを人々がやっているのを見始めていると思います。これの一部は、これらのことを機能させるのに十分強力にモデルが成長したことから起こります。これを三つのバケツで考えるのが好きです。

最初は、既存のモデルやシステムができていた使用例です。これらは従来のOCR、翻訳、画像検索のようなものです。Google Lensは、類似のセーターを見つけるようなショッピングや、この植物や動物を識別するのに役立つような分類で、これを非常によくやっています。

人々がこれらのことに既存の視覚モジュールを使用することに慣れており、Geminiはこれらすべてのことができる単一のモデルであるため、この領域で多くの使用量を見ていると思います。二つ目と三つ目を見ると、より興味深くなり始めると思います。

私がGeminiができると考えるのが好きな二つ目の使用例セットは、人間ができるタスク、または言うなら、あなたが特定のドメインの専門家を連れていた場合に、彼らができるタスクです。これらは、我々が仕事でロンドンに多く旅行し、私が本当に楽しんでいることの一つは、Geminiを持って街を歩き回り、周囲のことについて質問することです。

以前は、Googleに尋ねるためにテキストで質問を考え出さなければならず、応答を得る必要がありましたが、今は視覚を使用してこれらの質問を尋ねる完全に損失のない方法を持っています。

私が他の日に試していた別のクールな使用例は、たくさんのコメントがあるGoogle Docがあり、コメント付きのドキュメントのスクリーンショットを撮り、それをGeminiに入力して、「これらのコメントに回答しながらこのドキュメントを書き直すのを手伝って」と言いました。

Geminiはかなり良い仕事をしました。50%のコメントが完璧に対処され、30%はかなり良好で、軽微な調整が必要でした。20%は書き直さなければなりませんでした。しかし、これを外挿すると、すべてが視覚である世界を見ており、これらのモデルはあなたの画面を見ることができ、我々と同じように世界を見ることができるが、同時にあらゆる分野のドメインエキスパートでもあるという未来を見ています。これは私が非常に興奮している未来です。

三つ目のセットは、人間を超えた、または人間が実行可能な時間内にできるタスクを超えた使用例だと思います。これらは、6時間の長い動画を見て、物事が起こる特定の瞬間を見つけることができることなどです。非常に長いスポーツゲームを入力して、ハイライトリールを生成するようなものです。これは人間がやるには多くの時間がかかります。

または、画像上で細粒度のセグメンテーションマスクを生成することは、人間がやるには難しいことです。別の例は、動画があり、それをインタラクティブ学習アプリケーションに変換できる動画からコードへのもののいくつかです。これらは人々がやるには長い時間がかかることですが、これらのことでGeminiをゼロショットできます。

これらのモデルで何ができるかの直感を構築するのに時間がかかり、また我々がこれらのことをスムーズに行うためのインターフェースを構築するのに時間がかかるため、我々はその世界では非常に初期段階にあると思いますが、本当に二つ目と三つ目の部分に取り組むことができる世界に私は本当に興奮しています。

新しいインターフェース設計

二つ目と三つ目の部分に取り組むこれらの製品が、今日のものとどの程度異なって見えると思いますか？今日AIチャットアプリを持っていて、「すべてが視覚である」という世界を完全に受け入れたいと想像して、そのマントラを愛しています。「すべてが視覚である」と言うシャツを作るつもりです。

差分は何でしょうか？その道を買いたい人々は実際に何をしなければならないでしょうか？なぜなら、ビルダーは今日の世界でエッジを見つけようとしていると思うし、視覚にはあまり多くの製品がないため、現在この分野で構築している人々にとって多くの興味深いエッジがあると思うからです。

これらのモデルを可能な限り擬人化することが本当に好きです。これらのモデルを特定のタスクでの専門人間として考え、人間が特定のタスクを実行する、または何かを行う方法でインターフェースを扱うことです。

業界として、我々は主にチャットをインターフェースとして初期設定しました。主に人間がチャットを使用することに非常に慣れているからです。我々は常にメッセージを送り、検索を検索に使用するなどしますが、実際にはこれらの人間のコミュニケーションと相互作用のモードの一部は、実際にはるかに自然だと思います。

これの一部は、これらのことを行うのに十分にモデルが良くなることであり、我々はそこに到達していると思います。私が本当に考えていることは、これらのモデルを可能な限り自然に感じさせることができるかということです。世界は人間のために構築されたので、同じ方法でこれらの機械とシステムを構築することは理にかなっていると思いますが、そこに到達するにはまだいくらかの作業があります。

私が本当に興奮している未来のビジョンは、今日、ほとんどのAI製品はターンベースです。モデルまたはシステムにクエリを投げ、回答を得て、再びモデルにクエリを投げ、回答を得て、そのプロセスを繰り返します。すべてが視覚であるこの世界観では、私が非常に興奮している製品は、AIシステムとのインターフェースが双方向のオーディオ/ビデオインターフェースである世界を持つことです。

これはいくつかのクールなことをもたらします。あなたのモデルは人間と同じように音声と動画を理解できます。それはプロアクティブになれます。視覚的な手がかりに基づいて、それは提案できます。

生産性向上の未来

これが私が実際にやりたいことです。この生産性の部分が私が最も興奮していることです。なぜなら、もしモデルが私のコンピューターの画面を見ることができる何かについて、私はモデルに尋ねることができるが、本当にやりたくない多くの使用例があると思うからです。モデルが私の画面でこのことが起こるたびに、これらのことを私のためにやってくれ、と書きたいです。

それは私のターミナルでエラーが発生するようなものです。実際にモデルと話すことなく、多くのものを見つけて修正の提案を与えてくれるモデルが欲しいのです。

非常に興味深い製品方向が多くあります。実際に、それを構築するのはそれほど複雑でもないように感じられます。これも本当に興味深いです。我々がちょうど出荷したもので、ライブAPIと多くのもので、すぐに使えて多くのことができます。

まさにそうです。狂ったことは、これらのモデルは今日これらのことでかなり良いということです。新しい製品がどのように見えるかを考える一つの方法は、あなたの肩越しに見て、あなたが見ることができるものを見て、物事であなたを助けてくれる専門人間を持っていることを想像することです。

今日これが機能する形態要因は画面共有です。あなたの画面をモデルに入力でき、タスクを実行するためにあなたの画面を見ているからです。

Gemini Liveに使用した一つの例は、私が料理をしていた時です。以前は、段階的なレシピに従い、私がやっていることをレシピにパターンマッチングしようとしなければなりませんでしたが、多くの場合、レシピの通りに正確に出来上がりませんでした。Geminiができるクールなことは、あなたがやっていることをやっている間に見て、その後動画内の視覚的な手がかりに基づいて、プロアクティブに、やるべきことを提案することです。パスタを茹でていたら、「今パスタを加えて」のようなことを言うのです。

これをやるために電話を持ち上げていただけですか？これが我々がメガネを必要とする理由です。

まさにそうです。

何らかの他のメカニズムが必要ですね。

はい、そうです。中核的な問題はインターフェースを開発することです。我々がメガネに向かう世界に移行していると思いますし、Googleでもこれらのことに取り組んでいます。それがこれを行う一つの方法かもしれませんが、他の方法もあるかもしれません。

電話は、ある程度のモビリティを失うため、あまり良くありません。そのため、それほど自然に感じられませんが、私には…

ネックレスですね。

まさにそうです。人々はネックレスも試しています。これらのモデルまたはシステムがあなたの肩越しに見て、あなたが見るものを見て、現実世界でのものであなたを助けることができると考えることは、非常に強力だと思います。

実際にこれを実践で可能にするインターフェースをどのように構築するかが問題です。この議論に関連する別の部分で、私が非常に興奮していることは、プロアクティブ性と並んで、これらのモデルが高レベルでマルチタスクできることです。我々は今思考モデルを持っています。モデルと話すことができ、それは視覚を持っているので、私を見ることができるか、私が見るものを見ることができ、私がモデルと話している間に同時に考えることができると想像してください。つまり、音声と動画を取り込むことができるが、同時に何らかの形で考えることもできるのです。

またはProject Marinerのようなものがあり、Geminiが画面上で作動し、アクションを実行できます。クールな世界は、私がGeminiと話している間に、それが私の画面でことを行い、私にフィードバックを提供するなどのことです。

これが私が本当に興奮していることであり、私が多く考えていることです。これらのモデルをできる限り人間のように、あるいはそれを超えて、超人間のように感じさせることができるか？そして、インターフェースを我々ができる限りそれに近づけることができるかを考えることです。

動画理解の技術詳細

それが大好きです。Ani、我々は以前、モデルが実際に、バックエンドで、トークンの観点から画像がどのように見えるかを理解することについて話しました。動画側ではそれはどのように起こるのでしょうか？動画理解使用例と画像理解使用例の間の舞台裏での差分は何でしょうか？

まず、Geminiは動画を取り込み、動画上での最先端の動画理解と推論ができる唯一の基盤モデルの一つです。Geminiが動画を理解できるために、音声コンポーネントと視覚コンポーネントの両方を理解できる必要があります。

これはかなり解決が困難な問題です。これらのものを整列させる必要があるなどのためですが、今日これが起こる方法は、各指定時間チャンクでその音声に対応する音声とフレームをインターリーブすることです。本当に注目すべきことは、これがかなりよく汎化することです。モデルはこのアプローチを使用して動画をかなりよく理解できるのです。かなり自然に感じられます。

FPS会話の一部で、我々はこれについて多くのスレッドを蹴っています。モデルレベルで、複数の異なるFPSを持つために、我々は何かをしなければならない理由について良い直感を持っていません。我々はただより多くの画像を取得できないのですか？そして、それは音声部分を一種不明瞭にするか、各画像にアタッチされたコンテキストが少なくなるので、処理時に推論能力を失うだけなのでしょうか？なぜFPS機能を追加するのが難しいのでしょうか？

いくつかのことがあります。まず、これの一部は単に設計の関数です。1 FPSでかなりよく機能し、かなり良い仕事をしたように見えたものです。それは言うまでもありませんが、より高いフレームサンプリングを持つことが非常に役立つ多くの使用例があります。

人々がGeminiに来て、ゴルフスイングを入力してGeminiにゴルフスイングを評価してもらったり、ダンスの動きを批評してもらったりするようなことを見てきました。これらのタイプのものにとって、より高いFPSを持つことは非常に強力です。

これは我々が取り組んでいることです。顧客が動画を遅くし始めるのを見た時、これが本当のニーズであることを実際に見ました。人々は、例えば5 FPSが欲しいとします。そこで彼らは動画を5倍遅くして、これをサポートできるようにしたのです。

1 FPSの理由の一部は、我々がGeminiと我々のトークン化を設計した方法です。1 FPSのサンプリングは約1時間の動画をサポートしました。これらのモデルでサポートするのに非常にクリーンな動画長でした。それでも、我々はより効率的なトークン化を考え出し、リリースしました。これらのモデルは200万コンテキストで最大6時間の動画ができます。

これは低詳細でもあります。

これは、はい、まさに低詳細ですが、パフォーマンスは驚くほど非常に高いです。我々は以前の256の代わりに64トークンで各フレームを表現しています。

それはどういう意味でしょうか？より少ない詳細を使用する時の64トークン表現を使用した場合、起こっていることのより冗長でない説明があるということでしょうか？我々は図書館に座っているので、もしあなたが後ろの写真を撮り、64トークン表現を行った場合、本のタイトルが少なく見えるか、実際に何が起こるかということですか？これは雑音の多い例なので、作るのが難しいかもしれません。

これは非常に抽象的なアイデアです。我々が実際に見ているのは、我々のトークン化方法が強くなるにつれて、動画内のフレームを表現するのに必要なトークン数が少なくなっているということです。Gemini 1.0の時代には、64トークンで画像を表現することは非常に損失の多い表現でした。

我々が今日見ているのは、実際に64トークンが驚くほどよく動作し、ほぼ実際に256と同じ品質レベルまで動作するということです。なぜより高いフレーム/秒でサンプリングできないのかという以前のあなたの質問に戻ると、理由の一部は、モデルが1 FPSで訓練されたからです。

サンプリングレートと、これが結果として、モデルがこの時間枠またはサンプリング方法で音声と動画を整列させることを学習することですが、それは我々が取り組んでいることであり、近々共有するクールなことがたくさんあります。

より高いFPSが着陸するのを楽しみにしています。そうすれば、Geminiが私のゴルフスイングがどれほどひどいかを教えてくれるでしょう。私は十分にゴルフをしないからです。

今後の展望と出力モダリティ

あなたと私は多くのことについて話してきましたし、また、あなたがモデルパーソナリティのことをやるように移行する際に、Geminiマルチモーダルの未来はどのように見え始めるでしょうか？明らかに、我々は今、音声、画像で、ネイティブ出力モダリティ機能の多くを立ち上げました。世界の将来のバージョンでは、単一のモデルで動画も含まれることを願っていますが、それは素晴らしいでしょう。しかし、非出力モダリティ側では、フロンティアは今出力モダリティにあるような感じで、入力モダリティにはあまりないようですが、マルチモーダル入力の観点から、品質や能力の観点から、まだ多くの丘登りの場所があると見ていますか？

たくさんあります。まず、我々がこれらのモデルがマルチモーダルインとマルチモーダルアウトで素晴らしい世界に到達したいと思います。任意のモダリティを取り込み、任意のモダリティを生成できるのです。生成の一部は非常に興奮しています。

視覚側では、まだやることがたくさんあります。私が本当に興奮していることの一つは、これらの能力の一部を一緒に持ち込んで、より結合したシステムを形成することです。

例えば、Geminiは空間理解で素晴らしいです。2D境界ボックス、3D境界ボックス、点座標、セグメンテーションマスクなどを生成できます。

これは本当にクールです。これを以前に試したことがない人のために、もしあなたがこの動画録画を見ているなら、スクリーンショットを撮って、我々の後ろを見ると、今すぐAI Studioに行くことができます。これはネイティブ画像生成編集も持っており、空間理解から恩恵を受けていると思います。

ソファとAniを壁に移動させてと言うことができ、それは実際に何がそれであるかを理解するでしょう。これは単に空間理解と言うのがメインのものだということの宣伝ですが、実際に試してみるのは本当にクールです。

空間理解についてのクールなことは、過去のモデルは検出をできたということです。Geminiが検出をできることのクールなことは、この推論バックボーンと世界知識も持っているということです。Geminiができるクールなことのいくつか、これは非常にシンプルな例ですが、この画像で一番左にいる人を検出するようにGeminiに言うことです。

Geminiはそれができます。なぜなら、画像上で推論し、オブジェクトがあること、またはオブジェクトの相対的な位置を理解し、その後境界ボックスを生成できるからです。以前に試したことは、我々のマイクロキッチンにある冷蔵庫の画像を撮り、どの飲み物が最も少ないカロリーを持つかと尋ねたことでした。そして、それは水のボトルの周りに境界ボックスを生成しました。これらのことは非常にクールです。

我々はまだこれらの能力の非常に初期段階にあります。まだ一種おもちゃのように感じられます。そこで多くのことができると思います。それでも、これらの隙間能力の多くは、非常に特定のパワーユーザーのグループを持っています。空間関連では、これらのモデルを大量に使用しているロボティクス用のモデルを構築している人々がいます。なぜなら、空間理解はロボットの実体化された推論と知覚の中核的な構成要素だからです。

私が興奮していることは、これらの能力の一部が理解側だけでなく、生成側でも一緒に来ることを見ることです。空間で得られるクールなことの一つは、思考の概念もあるということです。モデルが画像内のオブジェクトを指し示すことができ、画像内のもののために境界ボックスを生成できる場合、それは視覚データフォーマット上で推論し、考える能力をモデル向上させるのです。

それは私が非常にクールだと思うことでもあり、我々は多くの人々が取り組んでいます。

視覚は依然として、私が既に作った点について意見を述べると、モデルの能力と人々が構築している製品との間に最も大きなギャップがある領域の一つのように感じられます。構築すべき多くの興味深いことがあるような感じがするのに、構築されているものがそれほど多くないので、このもので会社を構築する立場にある人々にとって、私は再び興奮します。

文書理解とOCR

我々が多く話すモダリティの一つは、この文書理解、モダリティではないかもしれませんが、使用例です。Geminiと文書理解とOCRの周りで多くの肯定的な牽引力を見てきました。それについて話し、モデルがそれで良くなるのに何が必要か、その使用例がどのように見えるか、人々がなぜそれについてそんなに興奮しているかを話してもらえますか？

多くの情報が文書に保存されています。文書は、Geminiが分析し、推論するのに本当に良いべき強力な情報媒体であることは非常に明らかです。

文書を視覚使用例として多くの需要を見る理由は、OCRや翻訳などを行うことができる既存の視覚モデルがあったからだと思います。しかし、Geminiで得られるクールなことは、これらの能力を得るが、Geminiが提供する推論バックボーンと一緒に得られるということです。

文書で私が本当に興奮していることの一部は、かなり複雑なマルチステップタスクを実行するために、モデルのコンテキストとして多くの文書を入力できることです。これは、Gemini以前の既存のモデルでは不可能だったことです。そして、個人情報、企業などの情報がこれほど多く文書に保存されているため、それは非常に強力な視覚使用例だと思います。

文書でGeminiを使用することが興味深い他の理由は、過去には、文書での方法、これらのワークフローが機能した方法は、ユーザーが文書をOCRしてから、それをテキストとしてAIモデル、AIシステムに入力するか、これらのことをOCRしてから、その媒体で情報を保存することでした。検索用の情報上で検索や検索などです。

文書を理解するために視覚を使用することのクールなことは、今や人間ができるのと同じように文書を見ることができる本当に強力なシステムを持っているということです。ここでのクールなことの一部は、文書は多くの場合、単なるプレーンテキストではないということです。興味深いフォーマットを持ち、チャート、画像、図表などを含んでいます。

過去には、これらは転写して、検索のような使用例にも使用するのが非常に困難でしたが、これらのより複雑なタスクのいくつかにも使用されました。Geminiのクールなことは、これらすべてを入力でき、Geminiが人間と同じようにこれらすべての文書を読み、その後多くのクールなことができるということです。

他の日に私が試していたことは、100万トークンのコンテキストで、過去10四半期にわたる企業の決算報告書を入力し、つまり何万ページもの資料を200万トークンで入力し、私のためにこれらの企業について多くの分析を行わせたことです。ここでのクールなことは、これを効果的に行うには、これらの文書内の非常に長い複雑な表を読むことができる必要があり、以前のOCRモジュールはそれほど得意ではなかったのです。

文書がこれほど大規模な情報の保存であることを考えると、人々がこれにGeminiを使用し、我々も多く気にかけていることは非常に理にかなっています。

これはまた、非常にユニークにGoogleらしい感じもします。公式のGoogleのミッションは、世界の情報を整理し、それを普遍的にアクセス可能にすることです。私について考えても、私のアパートのどこかの引き出しに、もう二度と見ることのない紙のハードコピーがたくさんあります。そして、私が今日持っているデータでさえ、その媒体では普遍的にアクセス可能ではありません。

これは素晴らしい点です。視覚について私が非常に興奮していることは、情報の保存として視覚を開放し、視覚情報をGoogleのミッションに対してはるかにアクセス可能で有用にすることです。

文書で、我々はこれを見ます。Geminiは素晴らしく、我々が呼んでいるレイアウト保持転写です。文書を転写し、レイアウト、スタイル、構造を保持できます。

視覚が情報をよりアクセス可能にする他の本当にクールな方法は、実際には動画です。我々が多くの人々がやっているのを見ることは、周りのもの動画を撮り、これらの動画をGeminiに入力し、それを使用して情報をカタログ化することです。多くの人々が本棚や図書館の動画を撮り、その情報をカタログ化します。

私はAI Studioでこれを常にやっています。私が参加した、または聞いたポッドキャストで誰かが話したトピックの長い動画を取り、興味深いクリップなどを引き出してもらいます。

自分が話さなければならないのを聞きたくないコンテンツで、特にすべての作業をモデルに任せられることは、非常に非常に強力です。

まさにそうです。これはまた、タスクをはるかに効率的にします。私がロンドンのオフィスにいた時にやったことは、そこには非常に美しい図書館があり、この図書館のすべての本の動画を撮り、Geminiにジャンル別、著者別にこれらの本をカタログ化するように頼んだことです。

Geminiはこの世界知識、推論バックボーンを持っているが、また単一のモデルでこれらの視覚能力も持っているため、これを非常によく行うことができました。マイクロキッチンでも同じことをしました。

この後、ここで試してみましょう。

Gemini 1.0の日々から私が試していることは、我々のMKでスナックをカタログ化することです。これらのモデルは今、これらの使用例でほぼ完璧です。これは、ユーザーインターフェースに関する質問の一部にも関係すると思います。これは、以前は不可能だったため、自然な使用例のように感じられません。

人々は従来のOCR、翻訳、分類、これらのタイプのことに視覚を使用することに非常に慣れていますが、Geminiのマルチモーダル能力が我々に与えるのは、以前は不可能だと思っていなかった多くのことを行う能力です。そして、それも展開するのに時間がかかると思います。

チーム構造と今後の方向性

Ani、一種の一貫したスレッドの一つで、これが意図的かどうかはわかりません。これについて反省しなければなりませんが、このポッドキャストで人々と持つ会話の多くは、チームGeminiのように、みんながいて、深いコラボレーションがあり、すべての異なるモダリティがよくなることが、他の人々のモダリティをよくするということです。

マルチモーダル側で、チームがどのように見えるか、構造がどのようなものか、研究の人々は誰か、すべてのそのようなことについて、少し文脈が少ない人として、どのように考えていますか？

多くの人々がいます。まず、私は大規模な研究チームの単なる報道官です。Geminiマルチモーダルチームは最も素晴らしいチームです。我々はGemini 1.0の日々から大幅に成長しており、これもこれらの能力がどれほど強くなっているかを示しています。

本当に素晴らしいことは、マルチモーダルにはこれらの能力の多くと我々が話してきた多くのことがあるということです。これを実現するために必要なもの、非常に困難な問題は、これらの能力を単一のモデルに一緒に持ち込み、各能力が非常によく機能することを確実にする必要があるということです。

我々のマルチモーダルチームを率いるJBがいます。彼はロックスターです。彼は、Flamingoの日々のように、Gemini以前から視覚に取り組んでいます。我々は、画像、動画、これらすべてのもの、空間のワークストリームリーダーを持っています。本当に注目すべきことは、これらすべてがこれらのマルチモーダル能力で非常に強力な単一のモデルに一緒に来た方法です。

それについて反省するのは非常に興味深いです。これがデフォルトの結果だとは思いません。これは、一緒によく働く素晴らしい人々がいるからかもしれませんが、そのコラボレーションを実現するのは困難だと思います。何度も何度も、実際に展開し、機能し、モデルの観点から素晴らしい結果を得ることができるのを見るのは非常にクールです。みんなが一緒に来ることから。見るのは素晴らしいです。

もう一つの本当に素晴らしいことは、チームが本当に考えている、開発者と消費者がこれらの視覚能力をどのように使用するかについて本当に深く考えており、我々は本当にこれに対する強い直感を構築し、それを我々のモデルに持ち込もうとしていると思います。我々はこの非常に密接な製品モデルフィードバックループを持っています。

二つ目は、人々が将来これらの能力をどのように使用するかについて、お互いに多くの時間を費やして考え、チャットすることです。これらの能力がはるかに強くなり、結合した方法で一緒に来ることに外挿すると、人々が1年後、2年後、5年後に、これらのモデルとやり取りする方法は何でしょうか？そして、今日入るキャパシティの多くは、我々のチームが持つこのビジョンに向けた構成要素を構築しており、これも非常に強力だと思います。

この一年間、マルチモーダルでのすべての進歩を見ることは素晴らしかったです。あなたとJBとマルチモーダルチームとコラボレーションできることは素晴らしかったです。モデルの事柄以外でも、あなた方全員がやった困難な作業を非常に感謝しています。人々がマルチモーダルAPIドキュメントについて苦情を持っている場合、Aniに行けば、彼がそれらをより良くするのを助けてくれますが、あなたは今、モデル行動の事柄に取り組み始めるように移行しています。

モデル行動について深く掘り下げることはしませんが、種を植えるために、これは現在確実に多少緊急性のあるものだと思います。次に何を考えるでしょうか？

我々が話してきたことの一部に関連して、私が非常に重要な問題だと思うことは、これらのモデルが自然に相互作用するように感じられることです。今日、我々がこれらの非常にターンベースのシステムを持っている世界に戻ると、それは一種不自然に感じられ、少し時代遅れに感じられます。私が情熱を持っていることは、好感が持てるAIシステムを構築し、自然に相互作用できることです。

モデル行動の事柄についてより詳しく説明すると、これがどのように翻訳されるかは、モデルに共感などのスキルを与え、ユーザーを理解し、暗黙の意図を理解できるようにし、モデルにパーソナリティを与える一方で、Geminiが持つこれらすべての素晴らしい生の能力のバランスを取ることです。

これの他の部分は、今日の多くのAI使用例、これらのモデルは多くのテキストを与えるだけです。私が多く考えていることは、情報をより情報密度の高い、またはハイカロリーの方法で伝達するために使用できる興味深い視覚フォーマットがあるかということです。我々がこれらのことを考えるのが好きな方法です。

そして、Geminiが話し、相互作用するのに良いモデルにするために、これは非常に重要な問題だと思います。

これに興奮しています。私があなたへの種の点は、人々が実際にNotebookLMオーディオオーバービューのパーソナリティの方法と、会話の観点から関わる方法を本当に好んでいることです。非常に親しみやすく、人々は本当にそれを好きです。

そこで引っ張るべき興味深いスレッドがあると思います。私は、将来いつか、興味深い結果があるかどうかを見るために、これについてもっと話し合わなければなりません。見ている人々のために、あなたとマルチモーダルチームは、AI Studio、Gemini API側で、我々の最も強力なコラボレーターの一部だったと思います。

あなたとチームがそれをすべて実現するために非常に一生懸命働いてくれたことを感謝しています。これはこの非常にユニークな研究から製品への加速ストーリーのように感じられます。あなた方すべてがAPIがどのように見えるか、能力が何であるか、すべてのこの種のことを気にかけているようです。それをすべて実現するために非常に一生懸命に推進してくれたあなたとJBとその他のみんなに感謝します。

同様に、AI Studioを通じてこれらの能力を生き生きとさせてくれて、本当にありがとうございます。

時間を取って、すべてのマルチモーダルについてチャットしてくれてありがとうございます。そして、聞いてくれたみんな、ありがとうございます。次のエピソードでお会いしましょう。