Gemini 2.0の舞台裏

16,117 文字

Tulsee Doshi, Gemini model product lead, joins host Logan Kilpatrick to go behind the scenes of Gemini 2.0, taking a dee...

スーパー興奮してます、2.0についてですが、大きな展望として、なぜ私たちは2.0に期待すべきなのでしょうか。実際にGemini 2.0は素晴らしいマルチモーダルなエージェントを構築することを可能にします。エージェント体験について、単にエージェントについて語るのではなく、より多くの議論をするようになると思います。2.0をまずフラッシュとして出荷していることは、私にとって最も嬉しいことです。基本的に1.5プロモデルよりも優れたパフォーマンスを発揮します。フラッシュは本当に実用的なモデルで、それが大好きです。このモデルで登場する新しいモダリティや新機能としては、画面理解、空間理解、ネイティブな検索ツールの使用があります。そしてこれらを組み合わせると、本当に素晴らしいことができるようになります。正直なところ、とても興奮しています。これは2.0のストーリーの始まりに過ぎないと感じています。
今回のエピソードでは、トゥルシー・ドーシさんとお話しします。彼女はGeminiモデルのプロダクトヘッドで、Googleで様々なチームを率いており、最近リリースされた実験モデルの出荷を支援した共同開発者の一人です。トゥルシーさん、ようこそ。
ありがとうございます。ここにいられて嬉しいです。
トゥルシーさん、この会話をとても楽しみにしています。今日はGemini 2.0をローンチしますが、ここまでの道のりは長かったですね。しかし、2.0で出荷した新しいものについて話す前に、この1年間でどのような進展があったのか少しお話しいただけますか。2023年12月にGeminiがリリースされましたが、Gemini 2.0の出荷に至るまでの過去12ヶ月はどのような進展があったのでしょうか。
はい、本当に驚くべきことだと思います。Geminiの1周年を迎え、まだ1年しか経っていないということを考えると、Googleと業界全体での進歩の速さを示していると思います。1年前の今日、私たちは1.0 Geminiを出荷していました。これは初めて、APIや開発者向けの外部エクスペリエンスといった文脈で大規模モデルを出荷する機会でした。このような作業を行うためにチームをどのように組織するか、何を出荷したいのか、開発者がどのようなエクスペリエンスを求めているのか、エンタープライズのお客様がどのようなエクスペリエンスを求めているのかについて、多くのことを学んでいました。
1年が経過し、私たちは定期的に出荷を行い、これらのモデルの新バージョンを定期的にトレーニングしています。より良いリズムを構築し、何を構築しているのか、なぜそれが重要なのかについて、より多くの確信を得ています。また、私たちの製品にも多くのものを組み込んでいます。Google検索、Geminiアプリ、YouTube、APIを見ていただければ分かりますが、実際にGeminiをGoogleの全製品、ワークスペースにもたらしています。昨年12月から現在までの進歩を見るのは素晴らしく、本当に興奮する部分です。
はい、私もそう思います。今回は何か根本的に異なる感じがしますか？それとも、単なる別のクレイジーなサイクルのような感じですか？私は前回のGeminiモデルが出荷されたときはGoogleにいなかったので、傍観者として見ていましたが。
いいえ、実際に根本的に異なる感じがすると思います。正直なところ、私も昨年12月にGeminiが出荷されたときは現在の役職ではありませんでしたが、Googleにいて、Geminiのローンチの一部でした。昨年出荷したときは、初めてのことでした。未知の領域に足を踏み入れるような感じで、本質的に新しいことを一緒になって行うような感じでした。今年の興奮する点は、根本的に新しい機能を提供し、Gemini 2.0をより素晴らしいものにしていますが、これらのモデルの出荷方法についてのマッスルを構築したような感じがするということです。それは、1年前に始めたときとは全く異なる感覚です。
また、先ほど述べたように、出荷するものについてより多くの確信を持っているように思います。昨年出荷したものについても本当に興奮していましたし、素晴らしいものでしたが、業界全体が生成AIが世界にとって何を意味するのか、人々がどのようにそれを使用するのか、モデルをどのように異なる方法で使用するのかについて学んでいる最中でした。一方、今年出荷するときは、最適化したい使用事例の種類、私たちが本当に興奮している指標、進歩が何を意味するのか、これらのモデルにとって何が良いのかについて、より明確になっています。
業界にもより多くのものがあります。より多くの人々がモデルをテストし、試してみているのを目にします。そのため、Geminiの周りにより多くのコミュニティができており、それによってモデルをテストし、試してみる人々が実際にいるため、出荷がより興奮するものとなっています。そのため、構築方法や出荷方法において、意味のある変化があると実際に感じています。カオスな状態は変わっていないと思いますが、それは変わっていません。
そうですね。2.0について、大きな展望として、なぜ私たちは2.0に期待すべきなのでしょうか。このモデルにはどのような新しいモダリティや新機能が搭載されているのでしょうか。あなたの視点からもう少しお話しいただけますか。
2.0について私は本当に興奮しています。1年前にGeminiを発表したとき、私たちはこの種のユニバーサルなマルチモーダルモデルについて話しました。Gemini 2.0では、それが多くの方法で実現されているのを実際に見ることができると思います。Gemini 2.0は実際に素晴らしいマルチモーダルなエージェントを構築することを可能にし、それはGemini 2.0によって動作するProject Astraで見ることができます。また、Marinerと呼ばれる別のプロジェクトでも見ることができます。これは実際にコンピュータ画面上でアクションを実行することを可能にします。
その大きな部分は、Gemini 2.0が根本的にネイティブにマルチモーダルであるということです。実際に画像を出力することができ、テキスト音声変換の形で音声を出力することができ、実際に素晴らしい空間理解と推論を通じてアクションを駆動することができます。これらの機能を統合し、モデルでどれだけ良くなっているかということが、私が本当に興奮している全く新しい使用事例のセットを実現します。
また、2.0フラッシュが依然として極めて高速なモデルであることも指摘する価値があります。これは素晴らしいことです。なぜなら、信じられないほど複雑な推論、コード、マルチモーダルなタスクを、依然として光速で実行できるモデルで実行できるからです。これら2つの組み合わせは、モデルがリアルタイムアプリケーションに非常に適していることを意味します。モデルは、実際に物事を素早く行う必要がある場合や、大量のタスクを行う必要がある場合に本当に適しています。そして私は、それが大きな違いだと思います。基本的に1.5プロモデルよりも優れたパフォーマンスを発揮します。
はい、2.0をまずフラッシュとして出荷していることは、私にとって最も嬉しいことです。なぜなら、1.5フラッシュは開発者と本当に共鳴していると思うからです。開発者に尋ねれば、生成AIの構築を始めようとする多くの人々にとって、明らかにデファクトな選択肢となっており、他のモデルを使用していた人々にとっても同様です。1.5フラッシュで開発者が既に興奮していた、より良く、より速く、より安価なというナラティブを続けることは、私たちにとって大きな勝利だと思います。
はい、そして私たちがGoogleで本当に構築したいもの、つまり本当にスマートで能力の高いモデルでありながら、実際に使用できるモデルを示していると思います。フラッシュは本当に実用的なモデルで、それが大好きです。プロダクトマネージャーとして、それは私たちが重視したい種類のものだと感じます。実際のユーザーが私たちの製品から価値を得られるものとは何か、ということです。
その通りです。これは最初の新しいモデルではありませんでした。最近、実験モデル、1114モデルと1121モデルをリリースしました。番号は私の頭の中で混乱していますが、急速に次々とリリースしました。内部で多くの人々と話していますが、なぜ私たちはこれを行っているのでしょうか。なぜ実験モデルをリリースしたのでしょうか。あなたの視点から、多くの場合、新しいモデルを世に送り出すボタンを押す人として、開発者の視点からのフィードバックループはどのようなものでしょうか。
はい、私たちは今年の夏から実験モデルの出荷を始め、最近1114と1121を出荷しました。正直なところ、これらのモデルを出荷することは非常に活気づけられる経験でした。その動機は、例えば私はYouTubeのプロダクトマネージャーでしたが、そこでは常にライブ実験を行っていました。新しい変更を出して、それらの変更がユーザーにどのように受け取られたかについて、実際のフィードバックを得ていました。
モデル構築の側では、その迅速なフィードバックループを得る方法を見つけるのが難しい場合があります。なぜなら、モデルを出して、企業がそれを基に構築を始めた後で、「実は、何かを変更したので、新しいモデルがここにあります」と言って、そのモデルを引き戻すことはできないからです。しかし、開発者やエンタープライズのお客様にフィードバックを与える機会を提供し、モデルに何を見たいのか、どのような種類のユースケースに実際に興奮しているのかを実際に伝えてもらいたいと思います。
もう一つの素晴らしい点は、Geminiがまだとても新しいため、モデルを出荷するたびに、私たち自身が思いつかなかったことをそのモデルで人々が行っているのを目にすることです。人々が発見し、試し、実際に新しい扉を開き、私たちが試すべき新しいことに興奮させるユースケースがあります。そして、この実験的なフィードバックループを作成した場合にのみ、それが起こると思います。
実験バージョンのこれらのモデルを出す大きな動機は、開発者の前にモデルを出し、実際のフィードバックを得て、人々が何に興奮しているのかを見ることができ、そのフィードバックを取り入れて次のバージョンのモデルをより良くし続けることができるということです。そのため、本番用のモデルを出荷するまでに、バグは何か、何が機能し、何が機能していないのか、人々は何に興奮しているのかを把握するプロセスを実際に経ています。私はそれが私たちをより機敏な方法で出荷するように動機付けると思います。それは本当に良いことだと思います。
はい、私にとって最も楽しいのは、出荷したい新しいモデルがあり、それが実験的なもので、次の48時間はすべてが火の車になるまで、このものを出荷することです。それは、カオスですが、実際に参加できる最も楽しいことの一つだと思います。将来的にはもっと見られることを期待しています。
これが実際に私たちの筋肉の一部になることを願っています。そして、私たちはすでにそれを見ています。実験モデルは単にGeminiを出荷する方法となり、実際にGeminiコミュニティと関わる方法となっています。そのため、視聴者の皆さんも、これらの実験モデルを実際に試していただき、フィードバックをいただきたいと思います。なぜなら、それは私たちの製品に出荷するモデル、そして最終的に開発者やエンタープライズのお客様にグローバルに提供するモデルに積極的に反映されているからです。
私たちが受け取った質問やフィードバックの1つは、実験モデルは素晴らしく、私たちはそれらを愛し、それらは素晴らしく、実験するのはとても楽しいのですが、実際にこれらのモデルで本番環境で何かを構築したいということです。本当に良いのですが、実際に本番環境に投入できるモデルを手に入れたいのです。これについてあなたはどう答えますか？開発者として、実際にそのモデルを使って何かを構築しようとしている人々に対して、どのように答えますか？
はい、私たちもそれを望んでいます。そのため、私たちも本当にGeminiで構築し、本番環境で構築することを望んでいます。そして、近い将来に何かを提供できるように取り組んでいます。私は、実験モデルを出荷することが、本番モデルの出荷を遅くするという兆候ではないことを願っています。実際には、より多くのモデルをより速く出荷するという兆候であることを願っています。
そのため、私たちは皆さんの手にモデルをより多く提供し、フィードバックを得て、これらのモデルがどのように構築できるかを確認し、勢いを維持し続けようとしています。しかし、私たちは定期的なカデンスで本番モデルを出荷し続ける計画を持っており、自分たちにそれを約束しています。実際に、人々がこの質問をしているのは、人々が私たちが提供しているモデルに興奮しているという意味なので、嬉しいことです。そしてその興奮を維持できることを願っています。
はい、私たちは自分たちのための公開ベンチマークが必要です。GAモデル間の時間と、実験的な反復の数、そして私は、データが正確にあなたが言っていることを示すことを願っています。これは本当に、世界が本当に構築したいと興奮しているものを構築できるように、最高のモデルを世界の手に渡すのを助けるための道筋です。
はい、そしてすぐにGAモデルが登場します。私たちは本当に、あなたが構築できる何か興奮するものがあることを確認するために取り組んでいます。
素晴らしいですね。2.0には、私の考えでは3つの主要な機能があります。ネイティブツール使用のすべて、マルチモーダルのすべて、そしておそらく、ツール使用とは別のクラスとして分けたい場合は、モデルのエージェント的な性質も第3のクラスとしてあります。しかし、おそらくネイティブツール使用から始めましょう。ここでの話は何でしょうか？なぜ人々はモデルでネイティブツール使用が利用可能になったことに関心を持つべきなのでしょうか？そして、モデルレベルで実際に何が起こっているのか、もう一段階深く掘り下げて、もし話せる範囲で話していただけますか？
はい、このモデルのネイティブツール使用が何であり、なぜそれが興奮するのかについて、2つのことをお話ししましょう。そして、なぜこれが重要なのかについて話し合うことができます。2.0で導入している1つのことは、ツールとしてのネイティブ検索です。これが本当にクールなのは、実際にモデルを訓練して、応答を検証したり情報を得るために検索を呼び出すべき時を知るようにしているということです。
モデルが苦労している1つのこと、そして私たちは長い間これを知っていましたが、それは幻覚と事実性です。なぜなら、モデルがすべての情報を持っているわけではないからです。これは特に新鮮さの点で当てはまります。昨日何かが起こり、それがモデルのトレーニングデータに含まれていなかった場合、そのためモデルは幻覚を見たり応答を作り出したりする可能性が高くなります。
そのため、モデルを訓練して、検索を呼び出すべき時を知る、または質問に答えるための情報を実際に持っていないことを認識するように訓練すると、モデルは検索から呼び出し、はるかに正確な方法で答えることができます。そのため、ネイティブな検索使用によって、モデルの事実性に大きな向上が見られます。
そして、あなたが尋ねるかもしれない質問は、「まあ、それは単に検索を呼び出すのとどう違うのですか？ネイティブに検索を呼び出すとはどういう意味なのですか？」ということです。実際にすべての質問で検索を呼び出したいわけではありません。クリエイティブなストーリーを書きたい場合など、実際に検索を望まない質問もあります。また、モデルが実際に上手く答えられるため、必要のない質問もあります。
そのため、モデルを訓練して、検索を呼び出す時を賢く判断できるようにすることは、実際にはるかに豊かな全体的なモデル体験を意味します。なぜなら、検索を呼び出す時は上手く行い、検索を呼び出す必要がない時も素晴らしいモデル応答を得られるからです。そのため、モデルの全体的な品質は本当に良いままです。これは、あらゆる種類のネイティブツール使用に当てはまります。
今日、誰かと話していた時に、これについて考えるのに本当に役立つ類推を教えてもらいました。新しい言語を学んでいる場合、多くのモデルがツールを呼び出す関数呼び出しは、基本的にモデルに「ここに新しい単語があります、この新しい単語を学びなさい」と言うようなものです。ネイティブツール使用は、単語を最も良い方法で、最も良い文章構造で、最も創造的な方法で使用する方法についてすべてです。また、複数の単語を一緒に連鎖させて、実際に複数のツール呼び出しを組み合わせることもできます。
例えば、私たちはGeminiが検索を呼び出し、そしてコードも呼び出す必要があることを知る必要があると考えています。コードインタープリターです。そのため、検索情報を取得し、おそらくグラフを生成する必要があるため、Pythonを呼び出す必要があります。そのため、モデルが実際に複数のツールを一緒に使用する必要があることを知り、それをシームレスに行うことができる能力は、本当にネイティブツール使用の力が来る場所だと思います。これは本当に素晴らしいと思います。
その類推は本当に役立ちます。ネイティブツール使用について頭を悩ませてきた人として…はい、実際にその功績を完全に主張することはできませんが、共有させていただきます。本当に素晴らしいと思うからです。
モデルがネイティブにツールを呼び出したい状況で、「ツール使用を無効にできますか？」というような、あなたが…はい、ツールをモデルに渡して有効にしているのですが、ツールが有効でない場合、モデルは依然として「ここで検索したいのですが」のように言うのでしょうか？
ツールが有効でない場合、モデルはツールを呼び出すことができず、そのため、自分が利用できるものを使って答えることになります。そのため、モデルが合理的に答えられる範囲で、合理的な回答を得ることができます。しかし、例えば検索の場合、モデルが情報にアクセスできる場合、特に昨日や一昨日に起こったような最近のことについては、事実性がはるかに高くなると思います。
それは本当に興味深いですね。また、内部のベンチマークから、これが人間の好みにどのように影響するかについての情報があるかどうか気になります。純粋な事実性の観点からは、おそらく人々は真実を望むでしょうが、場合によっては、スタイルの観点から、あるいは人々がモデルと対話する方法の観点から、ネイティブツール使用が有効な場合と従来型のチャット体験の場合とで、モデルの振る舞いがどのように変化するのかはわかりません。
はい、それは良い質問です。私たちはいくつかのテストを行っていますが、再び、2.0のリリースが人々の実際の使用からさらに多くのフィードバックを得られることを願っています。あなたの指摘通り、事実性に関するケースで厄介なのは、私は何が事実かをしばしば知らないということです。
そのため、例AとBの例の間でどちらが良いかと尋ねられた場合、私は必ずしも何が正しいかを知らないかもしれないため、または自分の個人的な意見によってバイアスがかかるかもしれないため、何が正しいかに基づいて判断することはできません。そのため、事実性を追求しようとする場合と、ユーザー好みのエクスペリエンスを提供しようとする場合を完全に切り離すのは難しいと思います。そして、私たちは両方のバランスを取りたいと考えています。特に医療のような特定のドメインでは、事実性を非常に重視しています。それは回答を正しく得ることが本当に重要なドメインです。そして、それは評価を考える1つの方法だと思います。
全体として、しかし、私は主にポジティブなフィードバックを見てきたと言えます。そして、その一部は、ローガン、私たちが先ほど話していた、複数のツールを一緒に連鎖させることについての会話によるものだと思います。ネイティブツール使用は、エージェント的な振る舞いへの道を開きます。実際に本当にクールなことができるようになります。例えば、「この情報を取得して、それをプロットしてください」と言うことができます。そして、これらのツールが一緒に機能できるため、複数のことを組み合わせることができます。
そして、「わお、モデルができると思っていなかったこと」や「Geminiを使ってできると思っていなかったこと」についての非常にポジティブなユーザーフィードバックを見てきました。そして、それ自体が非常にポジティブなフィードバックにつながると思います。
私は、あるものをネイティブツールにするかどうかの決定をどのように行うのか気になります。明らかに、検索は私たちがGoogleだからとても理にかなっています。しかし、ネイティブツール機能の観点から、他にはどのようなものが見込まれているのでしょうか？計画としては、すべてをネイティブツール機能にするのでしょうか？それとも、開発者は「私が本当に欲しいツールがネイティブツールではない場合、将来的にどのような道筋があるのか」について考えるべきなのでしょうか？その観点からの質問です。
はい、それは良い質問です。本質的に、私たちはモデルを関数呼び出しに非常に優れたものにしたいと考えています。そのため、私の希望は、開発者として、このようなネイティブツール使用を導入し、モデルを複数のツールを一緒に連鎖させることやコンポジショナルな関数呼び出しを可能にすることで、開発者にとって価値のあるあらゆるツールを実際に使用できるようになることです。
私たちは、少数のネイティブツールに制限されたくないと考えています。私は、ネイティブツール使用と特定のツールを、私たちGoogleが開発者に価値を追加できると本当に知っている領域として、そしてそれを徹底的に追求する領域として考えています。例えば、Astraを見てください。Astraはレンズを使用し、マップを使用し、検索を使用します。そのため、より包括的なエクスペリエンスを提供するためにGoogleのマジックを多く使用しています。
そして、私たちが考えているのは、これらのツールからのマジックをどのように組み込むか、それはどのように見えるのか、それはいつ意味を持つのか、ということです。そのため、「これが私たちが間違いなく持ちたい5つのネイティブツール」という良い答えは持っていません。私たちが見ているのは、開発者が何を試しているのか、Googleとして私たちはどのようなツールで開発者に本当に価値を追加できるのか、そして何かをネイティブに訓練することが実際にパフォーマンスの違いを生むのはどこかということです。
私は、検索について、いつ検索を呼び出すべきか、いつ呼び出すべきでないかを知る能力が本当に違いを生むと思います。なぜなら、すべてのプロンプトに対して実際に検索を望むわけではないからです。また、開発者やユーザーとして、いつ検索を呼び出すべきかを知る必要があるというのは、直感的ではありません。「これは事実に基づく検索が必要な質問だ」とか「これは検索が必要ない質問だ」というのは、必ずしも直感的ではないのです。そして、私たちはそれについて考える必要がないように抽象化したいと考えています。
事実性のように、モデルの中核的なものについては、コードも同様です。私たちは本当にモデルがネイティブなコード実行を行えるようにしたいと考えています。なぜなら、再び、あなたが「これはコードが必要なケースだ」と考える必要がない場合が多くあるからです。例えば、モデルに「52足す47は何ですか」と尋ねた場合、モデルは「それを計算するためにコードを実行する必要がある、なぜならそれが正しい方法だから」と言います。ユーザーとして、コードを呼び出す必要があることを知っている必要はありません。モデルが、そのような例ではコードを実行すべきことをネイティブに知っていることを望んでいます。
そして、私たちはそれを抽象化し、開発者やユーザーにとってより簡単にするべきケースをどのように見つけるのでしょうか。
私は、モデルが検索を呼び出すかどうかの決定をどのように行うのか、もう少し詳しく話せるかどうか非常に興味があります。それは単に、アノテーターが「これらのケースでは事実に関する質問があり、したがってモデルが検索ツールを呼び出す必要がある」と言う人間の好みに基づいたトレーニングデータの束を持っているのでしょうか。それは実際にどのようなものでしょうか？
はい、それは本当に興味深いと思います。モデルがこれらのことに優れるようにトレーニングする方法という観点から。また興味深いのは、モデルが複数のツールを使用する必要がある場合を理解するようにトレーニングすることです。例えば、すべての答えを検索から得ることができず、したがっておそらくマップやレンズなど他のものを使用する必要がある場合などです。そして、それはAstraを考える時、そしてそれが実際にレンズをツールとして呼び出すべき時、マップ検索を行うべき時、あるいはGoogle検索に行くべき時をモデルが理解する必要がある時に、興味深いことだと思います。
はい、それは理にかなっています。私は休暇の数週間を使って、ネイティブツール使用で何かを構築しようとすることを楽しみにしています。2.0の次の新しいものは、この追加のマルチモーダルストーリーです。モデルがネイティブに画像を生成する機能を導入し、また、モデルはネイティブに音声を生成することもできるようになります。その観点から付け加えたいことがあれば教えてください。また、モデルが将来的に嗅覚を持つようになるのか、あるいはどのような他のモダリティがあるのか気になります。
モデルが嗅覚を持てたら、それは私が考えたことのない全く新しい次元ですね。しかし、はい、まず、マルチモーダル生成について本当に興奮しています。人々が私によく尋ねる質問は、「なぜGeminiが音声や画像を生成できることが重要なのか」というものです。なぜなら、画像を生成できるImagineもあり、音声を生成できるテキスト音声変換APIもあるからです。そして、なぜGeminiがそれを行えることが素晴らしく、異なり、興味深いのかということです。
私が思うに、Geminiがマルチモーダルに生成できる最先端に私たちがいる今、本当に強力なのは、実際にGeminiの現実世界の知識とその生成能力を組み合わせることができるということです。画像生成の場合の2つの異なる例を挙げると、私たちが遊んでいる楽しい例があります。テーブルの上にカップと本が置かれている画像を入力し、カップはソーサーの上にあります。そして、「Gemini、この画像にスプーンを追加して」と言います。
実際に現実世界の理解と、画像の中でスプーンがどこにあるべきかの理解を持つモデルであれば、スプーンをどこにでも置くことができます。しかし、モデルが実際に、スプーンはおそらくカップとソーサーに関連していることを理解しているため、それが画像の中でスプーンを置きたい場所であり、本や植物の上にランダムに置くべきではないことを理解しています。Geminiは実際に、スプーンを適切なサイズで、適切な場所に配置することを素晴らしく行います。そして、これらのことを一緒に組み合わせることで得られる魔法のようなことができるのです。
もう1つの例はローカライゼーションです。「ベンチに座っている人を生成して」と言った場合、インドにいる場合と、シアトルにいる場合、フランスにいる場合では、ベンチに座っている人の見え方が異なる可能性があります。そして再び、Geminiは現実世界の知識を持っているため、実際の世界のコンテキストにより適合した画像を生成することができます。
私が好きな例は、朝食は国によって異なるということです。そのため、「朝食の画像を生成して」というのは、あなたが誰で、どこで食事をしているかによって、同じではないのです。そのため、これらのものを一緒に組み合わせることが、本当に魔法が生まれる場所だと思います。そして、それは人々が遊んで、フィードバックを見ることを本当に楽しみにしているものです。
そして、これはネイティブ音声でも同じように展開されています。ネイティブ音声生成でできることは、実際にスタイルを与えることです。「海賊のスタイルでこれを言って」とか「これを…のスタイルで言って」などです。そして、これも再び、Geminiの現実世界の理解があるからこそできることです。これらのものを一緒に組み合わせて、プロセスの中でより多くの魔法を、あるいは少なくとも補完的な魔法を作り出すことができると思います。これは素晴らしいことです。
そして、Gemini 2.0フラッシュは、私たちの最初のネイティブにエージェント的なモデルです。それは実際に何を意味するのでしょうか？なぜ人々は興奮すべきなのでしょうか？
個人的に、私はプロジェクトMarinerのような取り組みの未来に本当に興奮しています。実際に、他の方法では非常に手作業に感じる特定のタスクを自動化できることには、本当に強力な何かがあると思います。例えば、レシピを取得し、「材料を私の買い物かごに入れて」と言えるようなことです。それは、私が感じるような、単純なタスクです。単純なタスクですが、大きな違いを生むものです。
また、音声を継続し、モデルとの対話が継続的な形式となることにも本当に興奮しています。そして、それはAstroが本当に活用していることだと思います。なぜなら、それは実際に、クエリを入力したり、電話で何かを入力したりする時に、私たちが通常慣れているよりもはるかに自然に対話を感じさせるからです。
そして、このような種類のエージェント的なエクスペリエンスをGeminiが動かせることが何を意味するのかという観点から、私はそれを次のように考えています。Geminiは、画面理解や空間理解、あるいはネイティブ検索ツール使用のような、多くのこれらのコア機能を持つエンジンのようなものです。そして、これらのものを一緒に組み合わせると、本当に素晴らしいことができます。
なぜなら、例えばGeminiのコア推論機能と画面理解機能を取り、ウェブサイトをどのように移動するべきかをモデルが理解するのを助けることができるからです。そして、それらの種類のことが、エージェント的という概念を可能にします。それは私にとって、本当にモデルが実際にあなたの代わりに現実世界でアクションを完了できることを意味します。そして、私たちは今、ここで一緒に持ってきた機能でそれらを達成できる転換点にいると思います。
トゥルシー、これはエージェントについてのホットな意見です。私が見る多くのデモは、実際に人間が価値を得るようなことをモデルがする周りのものです。私は彼女とAIエージェントのショッピングについて話していました。彼女は「私はショッピングが大好き。なぜエージェントにそれをさせたいの？」と言います。私もショッピングが好きです。ショッピングは楽しいですよね。そのため、私は現在の開発者にとって、価値を創造できる実際のエージェント的なユースケースは何なのか気になります。また、それは次の12ヶ月で変わるのでしょうか？Geminiはそれを根本的に変えるのでしょうか？
はい、私は人間を補完するようなものにGeminiがなることを望んでいます。そのため、理想的には、あなたが助けを必要とする場所で助けてくれ、最初から自分のプレートに置きたくなかったものを取り除いてくれることを望んでいます。そして、人々は本当に異なります。私はショッピングが大好きで、個人的にそこから多くの価値を得ています。私の夫はショッピングが嫌いで、おそらく次の6ヶ月分の黒いTシャツをGeminiが買ってくれることを本当に喜ぶでしょう。
しかし、それを言うと、これは例えば買い物かごのユースケースを私が特に価値のある例として見つける理由です。なぜなら、それは私が楽しまないような種類のショッピングだからです。そして、私は、これらのモデルが異なる種類のユーザーに、異なる種類のコンテキストで、異なる価値を持つことを見るのは興味深いと思います。
そのため、私はGeminiでの私たちの仕事は、開発者が彼らのユーザーベースのために経験を作り出す多くの機会を作ることだと思います。それは彼らのユーザーベースのエンターテイメント、生産性、私たちがどのように定義するにせよ、そのポテンシャルを最大化します。そして、私たちは、人々がまだそれらの経験に対するエージェンシーを持ち、経験の中で彼らが興奮する部分に喜びを見出すことができるような方法で、それを構築することに注意を払う必要があると思います。そして、安全で意図的な方法でそれを行う必要があります。
しかし、世界中には自分の経験の異なる部分を自動化したいと望む多様な人々がいるため、開発者はそれが実際に展開される異なるニッチを見つけることができると思います。
トゥルシー、私たちは過去12ヶ月の間に、AIという傘の下にまとめられる多くの他のトレンドを見てきました。そして、エージェントはそれらの1つになる可能性があると感じています。私は毎日エージェントという言葉を聞き、毎日AIという言葉を聞きます。そして、それらは最終的に同じものとして合流する可能性があると感じています。これについてあなたはどう思いますか？また、2.0はその方向への一歩なのでしょうか？
私は、Gemini 2.0がその方向への一歩であることを望んでいます。私は、多くのことを指す言葉を使い始めると、それはある程度その意味を失い始めると思います。そのため、現在、エージェントには多くの意味があります。なぜなら、私たちはまだそれらが何であるかを定義しようとし、それらの基礎を構築しようとしているからです。
しかし、私たちがより多くの、願わくはGeminiのようなモデルを持ち、その上に構築されたプラットフォームやインフラストラクチャを持つにつれて、より多くの開発者がエージェント的な経験を構築できるようになると思います。私たちは、単にエージェントについて話すのではなく、構築しているエージェント的な経験の種類についてより多く話すようになると思います。全体としてのエージェントについてではなく、世界と対話したい方法の種類について、より細かく話すようになると思います。
そして、会話は変化し、私たちが使用する語彙の種類も変化すると思います。そのため、はい、エージェントという用語は、おそらくあまり…使われなくなるわけではありませんが、少なくとも時間とともに意味が薄れていき、私たちが実際に意味することのより具体的な定義に置き換わっていくと思います。
トゥルシー、私は終わる前にいくつかの質問を矢継ぎ早にしたいと思います。これらはあなたの個人的な意見でいいです。必ずしもGoogleが公式に承認した立場である必要はありません。もしこのGeminiモデル、2.0モデルに違う名前をつける機会があったとしたら、ブランドのガイドラインに従う必要はなく、何でもいいとしたら、何と名付けたでしょうか？
ああ、私は本当に名付けが下手なんです。それはひどい質問です。実際には分かりません。大丈夫です。トゥルシーと呼んでもいいですが、それは悪くない選択肢です。でも、私はそれが好きです。
これは、私たちが小さなモデルを成功させてきた例の1つです。私は、最終的に大きなモデルが得られると思いますか？
いいえ、私はまだスケールアップには多くの価値があると信じています。私たちは小さなモデルと大きなモデルの両方を行う必要があると思います。そのため、それがどのように見えるのかを考えています。まず、開発者がそのレベルの力や推論を価値あるものと考える実際のユースケースは何かを考える必要があると思います。
また、推論と機能を実際に強力にする推論時間の努力の成長に伴い、モデルのサイズがどこで価値を追加するのか、推論時間がどこで価値を追加するのかも考える必要があります。これは、私たち自身が今研究している研究の一部で、前進する道をより良く決定するためのものです。
それが好きです。最後の質問は、あなたが個人的に非常に興奮しているAIのユースケースで、まだ日常生活の一部として十分に機能していないけれど、モデルのもう数回の改良や、2.0でさえも実際に可能になることを期待しているものはありますか？
ああ、良い質問です。私は、先ほど話したコンピュータ制御に戻りますが、私たちはその旅の始まりにいると思いますが、それを本当に安全で直感的で有用な経験にするためには、まだまだ多くの作業が必要だと思います。
また、私は対話が大好きで、現在、多言語対話は業界として改善しているスペースですが、本当にモデルにグジャラーティー語とヒンディー語と英語を交互に話しかけ、実際にモデルが私のメンタルモデルに合った明確な、整合性のある方法で応答できるようになることは、私たちが継続的な改善を見ることになるスペースだと思います。それについて本当に興奮しています。
そして、モデルが現在上手くできていないことの1つで、私がもっと見たいと思っているのは、私はダンサーで、モデルを使ってコレオグラフィーを手伝ってもらおうとし続けているのですが、それは私たちがまだ改善できる領域だと思います。それは私が密かに期待を持っている1つですが、私以外の誰もそのユースケースを気にしていないと思うので、そこに到達するでしょう。
トゥルシー、これは本当に楽しく素晴らしい会話でした。このモデルを出荷するために5月以来の過去6ヶ月間、Geminiチームの残りのメンバーと共に行った全ての努力に感謝します。そして私は本当に正直なところ興奮しています。なぜなら、これは全力疾走でここまで来たように感じますが、これは2.0ストーリーの始まりに過ぎないように感じるからです。私たちにはまだ多くの予定があり、次の6ヶ月は楽しいものになるでしょう。
はい、私も本当に興奮しています。2025年は素晴らしいものになるでしょう。そしてローガンにも感謝します。この道のりは大変でしたが、本当に素晴らしいものでした。来年が楽しみです。
これでGoogle AIリリースノートのこのエピソードは終わりです。Gemini 2.0のスケーリングと新しい研究プロトタイプの詳細については、オロ・ヴィニョルスとのGoogle Deepmindポッドキャストをチェックしてください。彼らはエージェントAIの未来について深く掘り下げていきます。次回まで、私はローガン・カトリックでした。