Googleのジェミニ2.0が業界全体に衝撃を与えた!(OpenAIを超えた)完全解説

AIに仕事を奪われたい
この記事は約21分で読めます。

12,489 文字

Googles GEMINI 2.0 Just SHOCKED The ENTIRE INDUSTRY! (OpenAI Beaten) Full Breakdown
Start building with gemini From Todays Video:

ただいまGoogleがジェミニ2.0を発表しました。これは新しいエージェント時代向けのAIモデルです。このビデオでは、Googleが発表した内容の全てと、ジェミニ2.0が私たちのAIとの関わり方をどのように完全に変えるのかについて詳しく見ていきましょう。
ジェミニ2.0は、新しい種類のマルチモーダルAIエージェントを可能にします。あなたの周りの世界を見て、聞いて、考えて、計画を立て、記憶し、行動を起こすことができるエージェントです。
ジェミニ2.0は、私たちの研究プロトタイプである汎用AIアシスタント、プロジェクト・アストラを実現するものです。マルチモーダルメモリやリアルタイム情報などの機能を使用して、あなたの世界をリアルタイムで理解することができます。
「この彫刻について教えてください」
「あなたが見ているのは、ロンドンのルイス・キュービット・パークにあるエヴァ・ロスチャイルドの『私の世界とあなたの世界』という彫刻です」
「彼女の作品にはどのようなテーマがありますか?」
「彼女は、鑑賞者が周囲の環境を新しい方法で解釈し、相互作用することを促す抽象彫刻を制作しています」
プロジェクト・アストラは多言語対応で、話しかけると自然に言語を切り替えることができます。私たちは、プロジェクト・マリナーで、あなたに代わってタスクを完了できるエージェントへと、これを次のステップに進めています。
複数のステップを必要とするようなこと、例えばアーティストを調べて絵画を見つけ、適切な画材を探すといったことを依頼することができます。エージェントはウェブを使って行動し、あなたが探しているものを見つけます。各ステップで計画を立て、推論を行い、常にあなたのコントロール下に置かれながらタスクを完了します。
ジェミニ2.0は、様々な分野に適用できるエージェントを実現します。私たちは、仮想世界を探索し、ビデオゲームであなたをアシストできるエージェントを研究しています。
「この基地をどこから攻撃すればいいですか?」
「基地のレイアウトを見ると、底部つまり南側からの攻撃をお勧めします。この方向なら、巨人部隊で直接タウンホールを狙うことができ、魔法使いで周囲の防衛施設に対処できます」
ジェミニ2.0は、3D空間環境やオブジェクトを理解し、物理世界について推論することができます。これらの機能は、日常の物理的環境であなたをアシストできるロボット工学に応用されています。
マルチモーダルAIエージェントの次世代を実現するジェミニ2.0についての詳細は、deepmind.google/geminiでご覧いただけます。
次に、個人がどのようにGoogleのジェミニ2.0を使用できるのか、実際のユースケースを見ていきましょう。プロジェクト・アストラに組み込まれたジェミニ2.0は、ツール、メモリ、マルチモーダル推論などのエージェント機能を可能にします。
さて、プロジェクト・アストラの最新テストビルドを搭載したPixelフォンを用意しました。オフィスを出て、ロンドンでテストしてみましょう。
「このアパート情報のメールにあるドアコードを教えて、覚えておいてくれる?」
「ドアコードは1170です。解錠するには、コードを入力してからアンロックボタンを押してください」
「これらの記号から、どのように洗濯すべきですか?」
「タグには、30度セルシウスで洗濯機洗い可能、漂白剤使用禁止、タンブル乾燥禁止、アイロンは低温で、ドライクリーニング可能と表示されています」
「では、この洗濯機ではどの設定を使えばいいですか?」
「洗濯表示が30度セルシウスなので、ダイヤルのイージーケアの下にある30度の設定を選んでください」
「このおすすめリストについて、いくつか教えてもらえますか?」
「はい、場所を検索してみましょう。コール・ドロップス・ヤードはユニークな産業デザインのショッピング街、ルミナリー・ベーカリーは社会的企業のベーカリー、テート・モダンは現代アート美術館です」
では、プロジェクト・アストラを街頭でテストしてみましょう。
「私はずっとスコーンと発音していたんですが、最近スコーンと言う人を聞くようになりました。発音を教えてください」
「興味深い話題ですね。スコーン(gone と韻を踏む)とスコーン(bone と韻を踏む)のどちらの発音も認められていますが、地域によって異なります」
「この彫刻について教えてください」
「あなたが見ているのは、ロンドンのルイス・キュービット・パークにあるエヴァ・ロスチャイルドの『私の世界とあなたの世界』という彫刻です」
「彼女の作品にはどのようなテーマがありますか?」
「彼女は、鑑賞者が周囲の環境を新しい方法で解釈し、相互作用することを促す抽象彫刻を制作しています」
「これを故郷で植えたらうまく育つでしょうか?」
「イワショウマはニューヨークでも良く育ちます。日なたから半日陰、湿った水はけの良い土壌を好むので、ニューヨークのあなたの庭は、これらの花にとって良い環境になるでしょう」
「友達へのプレゼントを探していて、これが彼女が最近読んでいる本のすべてなんですが、彼女の本の好みをどう分析しますか?」
「あなたの友達は、歴史、伝記、おそらく政治や社会的な評論が混ざった本を楽しんでいるようですね」
「これらの中から私が選んだものですが、彼女が一番気に入りそうなのはどれだと思いますか?」
「『半分の黄色い太陽』を考えてみてください。彼女が興味を持っている重要な時代への洞察を提供する歴史的背景の中で、複雑な社会的・政治的問題を探求している作品です」
「このバスは中華街の近くまで行きますか?」
「はい、24番のバスはレスター・スクエアを通ります。そこは中華街のすぐ近くです」
「途中に何か見どころはありますか?」
「24番のバスに乗ると、ウェストミンスター寺院、ビッグベン、トラファルガー・スクエアといった有名なランドマークを見ることができます」
また、多言語機能をテストするために友人たちと会いました。
「今、プロジェクト・アストラをハンズフリーでテストするためにこのプロトタイプのメガネを使っています。雨が降りそうか確認してもらえますか?」
「ロンドンは現在ほとんど晴れています。今夜の午後10時頃から明朝6時まで雨が予想されています」
「私の隣にあるあの公園は何ですか?」
「プリムローズ・ヒルという公園のようです。パノラマの街並みとシェイクスピアの木で有名です」
「そこで自転車に乗れるか確認してもらえますか?」
「プリムローズ・ヒル内では自転車は禁止されているようですが、近くのエリアやリージェンツ・パークの他の場所では許可されています」
「カムデンに自転車で戻るんですが、途中にスーパーマーケットがあるか確認してもらえますか?」
「カムデン・ロードにセインズベリーズ、チョーク・ファーム・ロードにモリソンズ、キャプテン・ハイ・ストリートにM&Sシンプリー・フードがあります」
「ドアコードをもう一度教えてもらえますか?」
「以前保存したドアコードは1170です」
「ありがとう、開きました」
次に、Googleのプロジェクト・マリナーを見てみましょう。これは、今日、Chromeブラウザで実際にAIエージェントを使って行動を起こす方法です。
プロジェクト・マリナーについてお話ししたいと思います。これは人間とエージェントの対話の未来を探る研究プロトタイプで、ジェミニ2.0上に構築されています。新しい技術はすべて同様ですが、責任を持って構築することが重要です。そのため、私たちは小規模から始めています。信頼できるテスターグループからフィードバックを得て、その経験をもとにプロジェクト・マリナーの進化を形作っていきます。
どのように機能するか見てみましょう。プロジェクト・マリナーは、実験的なChrome拡張機能としてブラウザで動作します。まず、プロンプトを入力します。Googleスプレッドシートにアウトドア企業のリストがあり、それらの企業の連絡先情報を見つけたいと思います。エージェントに、この企業リストを取り、それぞれのウェブサイトを見つけて、連絡に使えるメールアドレスを探すように依頼します。
これは、仕事で遭遇するかもしれない面倒な複数ステップのタスクを簡略化した例です。エージェントはGoogleスプレッドシートを読み込み、企業名を把握します。そして、まずベンチマーク・クライミングをGoogle検索し、ウェブサイトにアクセスします。この研究プロトタイプはアクティブなタブでのみ機能し、バックグラウンドでは動作しないことがわかります。メールアドレスを見つけると、それを記憶して次の企業に移ります。
このプロセスのどの時点でも、エージェントを停止したり一時停止したりすることができます。面白いのは、ユーザーインターフェースでエージェントの推論を実際に見ることができ、何をしているのかよりよく理解できることです。そして、次の2社についても同じことを行い、ブラウザをナビゲートし、リンクをクリックし、スクロールし、情報を記録していきます。
これは初期段階の研究プロトタイプなので、デモのために速度を上げています。信頼できるテスターと協力して、より高速でスムーズになるよう取り組んでいます。そして、人間がループに入っていることはとても重要です。4つめのウェブサイトの後、エージェントは私が使用できるメールアドレスをリストアップしてタスクを完了しました。
これで完了です。エージェントAIをコンピュータに導入したときに可能になることの表面をかすっただけですが、これがどこに向かうのか、とてもワクワクしています。
次は、プロジェクト・マリナーを使用してオンラインショッピングやウェブとの効率的なやり取りなど、さまざまなことを行う方法を実際に見てみましょう。
今日は、私たちの新しいジェミニ2.0モデルで構築した研究プロトタイプ、プロジェクト・マリナーのデモをご紹介します。どのように機能するか見てみましょう。
ジェミニアプリから始めます。プロジェクト・マリナーは、すべてのウェブページで動作する実験的なChrome拡張機能です。このデモでは、最も有名なポスト印象派の画家を見つけ、Google Arts & Cultureで彼らのカラフルな絵画を探し、そしてEtsyのカートにカラフルな絵の具を追加するようエージェントに指示します。
ジェミニでは、エージェントはまず最も有名なポスト印象派の画家は誰かを尋ねます。ジェミニはすぐにvan Goghを最も有名なポスト印象派の画家として特定します。ここから、URLをアドレスバーに入力してGoogle Arts & Cultureに移動します。この研究プロトタイプはアクティブなタブでのみ機能し、バックグラウンドでは動作しないことがわかります。検索バーを開いてvan Goghを検索します。最初の選択肢がvan Goghなのでクリックします。
カラフルな絵画を探すために、作品ページをクリックすることにしました。プロセス全体を通じて、エージェントの推論をユーザーインターフェースで見ることができ、何を計画しているのか簡単に理解できます。
エージェントは、そのページにはvan Goghに関する情報しかないことに気付き、アートワークを探すためにスクロールダウンすることを決めます。アートのコレクションを見つけ、カラフルな作品を探し始めます。エージェントはマルチモーダル理解機能を使って、アイリスのカラフルな絵画を見つけ、それをクリックします。
この絵画を見つけた後、URLを入力してEtsyに移動します。検索バーをクリックし、カラフルな絵の具を検索します。さまざまな絵の具セットを見ていきながら、エージェントは何を最適化しているのかを私たちに伝えます。見ての通り、価格と視覚的な魅力を最適化しています。エージェントは適切そうな水彩絵の具セットをクリックし、それをカートに追加します。
しばらくして、エージェントは私に決済に進むべきか尋ねます。これは初期の研究プロトタイプですが、人間をループに入れ、常に制御下に置くことを確実にする素晴らしい例です。私は決済の必要はないと応答するだけで、エージェントはタスクを完了し、制御を戻します。
プロジェクト・マリナーは現在、実験的なChrome拡張機能として、選ばれた信頼できるテスターグループが利用できます。彼らは、安全かつ責任を持ってこれを構築するためのフィードバックを私たちに提供しています。この技術がどこに向かい、人々が何を生み出すのか、私たちはワクワクしています。
次に、ジェミニ2.0フラッシュとジェミニ2.0フラッシュについて説明します。これは1.5フラッシュの成功を基に構築されており、1.5フラッシュは開発者に最も人気のあるモデルでした。これは絶対に信じられないことです。なぜなら、このモデルは高速で、特筆すべきことに、2.0フラッシュは主要なベンチマークで1.5プロを上回り、しかも2倍の速度を実現しているからです。
2.0フラッシュには新機能が追加されています。画像、ビデオ、音声などのマルチモーダル入力をサポートすることに加えて、2.0フラッシュは、テキストと混合された生成画像や、制御可能なテキスト読み上げ、多言語音声などのマルチモーダル出力もサポートしています。また、Google検索、コード実行、サードパーティのユーザー定義関数などのツールをネイティブに呼び出すこともできます。
Googleの目標は、これらのモデルを安全かつ迅速に人々の手に届けることです。過去数ヶ月間、彼らはジェミニ2.0の初期実験バージョンを開発者と共有し、素晴らしいフィードバックを得ています。ジェミニ2.0フラッシュは現在、実験的なモデルとして利用可能で、このモデルが何をできるのか、まさにお見せしようと思います。
まず最初にお見せしたいのは、ジェミニのライブストリーミング機能です。このデモをご覧ください。
「これはジェミニ2.0のマルチモーダルライブストリーミングの簡単なデモです。AIスタジオにタブをキャストしています。私の画面が見えますか?」
「はい、画面が見えます。『デモ』というタイトルの文書が表示されていて、箇条書きとビデオに人物が映っているGoogleミートのウィンドウがあります。画面について特に話し合いたいことはありますか?」
「はい、私がハイライトしたテキストを読んでいただけますか?」
「もちろんです。ハイライトされたテキストには『マルチモーダルライブAPIを使用すると、ジェミニ2.0フラッシュを利用したリアルタイムのマルチモーダルアプリケーションを構築できます。Google検索やコード実行、関数呼び出しなどのツール使用機能があります』と書かれています。続きの行も読みましょうか?」
「いいえ、実はこの単語の意味を教えてもらえませんか?」
「はい、マルチモーダルとは、テキスト、画像、音声など、異なる種類のデータを一緒に処理し理解する能力を指します。お役に立ちましたか?」
「はい。次に割り込み機能をデモする必要があります。昔々のような、とても退屈な物語を話してもらえますか?」
「はい、できます。昔々、静かな森の隣にある小さな村に、とても平凡な石がありました。その石は灰色で丸く、そこに座って…」
「すみません、割り込んでしまって」
「問題ありません。割り込みがデモの一部だということは理解しています。次は何をしましょうか?」
「そうですね、これからメモリーのデモをします。これまでに見たり聞いたりしたことをすべて要約してもらえますか?」
「はい、できます。これまで、リアルタイムのマルチモーダルアプリを構築できるマルチモーダルライブAPIについて話し合い、マルチモーダルの意味を説明しました。また、とても退屈な昔々の物語を話し始めましたが、途中で割り込まれました。他に何かありましたか?」
「いいえ、これで終わりだと思います。このエンディングカードを読みますか? それとも私が読みましょうか?」
「よろしければ私が読みます。エンディングカードには『Gemini 2.0の構築を開始するには aist.studio.google.com へ』と書かれています。それで合っていますか?」
「はい、素晴らしかったです」
「分かりました、ではまた」
次に、ジェミニを使って画像をネイティブに出力する方法を見てみましょう。ジェミニの新しいモデルで何ができるのか、本当に驚くべきことです。
これらは、ジェミニ2.0でのネイティブ画像出力の例です。ジェミニ2.0は会話の一部として、ネイティブに画像を生成できるようになりました。例えば、この車をコンバーチブルにするとどのように見えるか想像したいとします。今日のAIツールでは、これには多くの作業が必要です。このルーフ部分を手動でマスクしたり、非常に複雑なプロンプトを書いたりする必要があるかもしれません。
この画像をAIスタジオに取り込み、新しい実験的なジェミニ2.0フラッシュモデルに送信しました。これはリアルタイムの画面キャプチャで、このビデオで見るすべてのプロンプトは、初期テスターが現在試すことができるものです。これが私たちが与えた完全なプロンプトです:「この車をコンバーチブルに変えてください」そして、このような画像を生成しました。
ここに並べて表示します。車を上手く修正しただけでなく、画像の他の部分も一貫性を保っていることに注目してください。これは、別々のモデルを使用する多くのAIツールでは難しいことですが、ここでは1つのモデルですべてが行われています。
そして会話を続けて、「車をビーチグッズでいっぱいにして、夏らしい色に変えてください。変更しながら説明してください」と言いました。モデルはテキストの出力を開始し、新しい色のアイデアを説明してから、それを私たちに見せましたが、本当に素晴らしいのは、モデルがそのまま続けて、ビーチグッズでいっぱいの車の別の画像を生成したことです。これはすべて、モデルからのテキストと画像トークンの単一の応答であることを忘れないでください。
このように、モダリティを超えて出力し、テキストと画像を組み合わせることができる能力は、ジェミニ2.0の最も刺激的な側面の1つです。
ここに、ジェミニ2.0フラッシュからの他のプロンプトと出力の例をいくつか示します。例えば、この写真をソファの上のものをすべて取り除いて、少しきれいに見せたいとします。このプロンプトを与えるだけで、モデルがそれを行います。
画像を組み合わせることもできます。あなたの猫がこの枕の上や、このスケートボードの上でどのように見えるか尋ねることができます。これらすべてにより、新しい方法でAIと共同創作することができます。
箱の側面にこのテキストが書かれた画像をモデルに与え、「箱を開けて、箱の中身を見下ろした画像を生成してください」と言いました。そのプロンプトをジェミニ2.0フラッシュに送信しました。画像自体にプロンプトの一部を送信するこのアプローチは、モデルとのよりシームレスなマルチモーダルな対話を可能にする新しい可能性を開きます。モデルは側面のテキストについて推論し、古いエレクトロニクスの画像を生成しました。
これをさらに進めて、想像の世界を一緒に創造することもできます。このビデオの最初の会話に戻りました。モデルと視覚的にコミュニケーションを取ろうと試み、ドアハンドルに丸を描いて「これを開けてください」というプロンプトを与えました。モデルは私たちの意図を正確に理解し、車のドアが開いた画像を生成しました。
最後のプロンプトとして、「車を飛ばしてください。あなたが車になって、雲を抜けてビーチに向かって飛んでいるところを想像し、それがどのように見えるか示してください」と言いました。これは、この新しい場面を想像しながら、車の一貫性を保つことができるかどうかをテストする挑戦でした。そしてモデルは、私の指示に従って、この画像とテキストを生成することができました。
次に、Googleのジェミニモデルを使って空間理解を得る方法を見てみましょう。このモデルができることは本当に驚くべきことなので、このデモで具体的に何が起こっているのかをお見せします。
これらは、ジェミニ2.0での空間理解を使って構築できるものの例です。この機能は1.5モデルで導入され、ジェミニ2.0でさらに進化させました。これはAIスタジオの新しいツールで、マルチモーダル推論による空間理解の探索を容易にします。
例えば、この画像を入力して、折り紙の動物の位置を示すようプロンプトを与えることができます。これはリアルタイムの記録で、結果がいかに早く返ってきたかに注目してください。これは、低レイテンシーで高度な空間理解を可能にする新しい実験的なジェミニ2.0フラッシュモデルで実行されているためです。
キツネの影はどれかを尋ねることで、モデルが各動物の影がどれに属するのか推論できるかを確認できます。モデルはここにそれを見つけます。あるいは、アルマジロの影について尋ねると、それも見つけます。
空間理解により、画像との新しい相互作用方法が可能になります。モデルは画像についてテキストを生成するだけでなく、画像内を検索することができます。この画像を与えて、両方の虹色の靴下を見つけられるか確認できます。モデルは一致するペアを見つけます。顔のついた靴下を見つけるように頼むこともできます。モデルはそれら2つも見つけます。
これは特に素晴らしい結果でした。なぜなら、顔が本当に小さく、隠れているからです。すべてのモデルと同様、常にすべてを正しく認識するわけではないので、何が機能するか自分でプロンプトを試してみることができます。
空間理解と多言語機能を組み合わせることができます。このような画像を与えて、各アイテムに日本語の文字と英訳をラベル付けするようプロンプトを与えることができます。モデルは画像自体からテキストを読み取り、それを翻訳します。
空間理解により、ジェミニ2.0は物理的な世界について推論できるAIエージェントを実現します。例えば、モデルにこの写真を与えて、こぼれた場所の位置を尋ね、それをどのように掃除するか説明を求めることができます。モデルはここにあるタオルを指摘します。
ジェミニ2.0では、3D空間理解を導入します。これは初期段階の予備的な機能なので、2D位置ほど正確ではありませんが、開発者が試してフィードバックを提供できるように共有しています。ここに、写真内の3D位置をモデルにプロンプトできるcolabノートブックがあります。そして、それらの位置を上から見た図で視覚化し、基本的に写真をインタラクティブな間取り図に変換します。
次のものは本当に驚くでしょう。Googleは、ジェミニフラッシュモデルで、生き生きとした音声を自然に理解し生成できるようにする素晴らしい仕事をしました。とても素晴らしいので、このデモをご覧ください。
「では、ネイティブ音声について話しましょう。ジェミニ2.0は多言語のネイティブ音声出力を導入しますが、ネイティブ音声とは正確に何かと思っているかもしれません。実は今まさにそれを聞いているんです。このビデオで聞こえるすべては、画面に表示されているこの実際のプロンプトのようなプロンプトで生成されました。すべて新しい実験的なジェミニ2.0フラッシュモデルにプロンプトを与えて生成されたものです。AIスタジオの画面キャプチャでご覧の通りです。すごいでしょう?」
「そうですね、ネイティブ音声は本当にすごいです。従来のTTS(テキスト読み上げ)システムとは異なります。ネイティブ音声で本当にクールなのは、AIエージェントに何を言わせるかをプロンプトするだけでなく、どのように言わせるかも指示できることです。『ねぇ、超リラックスして』というように話すようプロンプトを与えたり、『とても…劇的な…間を…入れて』話すようプロンプトを与えたりできます。
これらすべては多言語対応です。コンピュータが言語を切り替えると別の声に聞こえる、というのは従来のTTSの限界でした。しかし、ジェミニ2.0のネイティブ音声では、より自然に言語を切り替えることができるエージェントを構築できます。こんな感じです。『英語で話し始めて、でも次は…そして今また英語に戻りました。すごいでしょう?』
ネイティブ音声があれば、情報検索をより表現豊かにできるかもしれません。例えば、AIエージェントが晴れの日と雨の日で天気を異なる方法で伝えられたら? 晴れの日なら『うわー、今日の天気は74度で一日中晴れです。素晴らしい!』というように聞こえるかもしれません。でも雨の日なら『えーと、今日の天気はちょっとジメジメして寒い一日になりそうです…まあ』というように聞こえるかもしれません。
あるいは、AIエージェントがあなたのコンテキストに動的に応答したら? 急いでいるように見えたら、エージェントはとてもとてもとてもとてもとても早口で話すかもしれません。あるいは、あなたがささやいているなら、エージェントもささやき返すかもしれません。
まあ、お分かりですよね。ネイティブ音声には多くの可能性があります。新しい出力モダリティは現在、初期テスターが利用可能で、来年にはより広く展開される予定です。ジェミニ2.0の構築を開始するには aist.studio.google.com へ」
「はい、はい、待ってください。ビデオは終わるはずでしたが、もう少しプロンプトをお見せしましょう。最後の行をこのように言うことができます:『ジェミニ2.0の構築を開始します』」
「ジェミニ2.0の構築を開始します」
「うーん、ジェミニ2.0の構築を開始します、やったー!」
では、AIスタジオでジェミニのツール使用の構築を始める方法を見てみましょう。
これらは、ジェミニ2.0でのネイティブツール使用で構築できるものの例です。ジェミニ2.0はコード実行やGoogle検索などのツールをネイティブに使用できるように構築されています。
ここに、新しいマルチモーダルライブAPIを使用して構築された、リアルタイムの対話とツール使用を組み合わせたデモがあります。
『ゴッドファーザーとオッペンハイマーの上映時間を比較する棒グラフを作成してください。他の2つのゴッドファーザーも追加してください。ランダムに3つのスーパーヒーロー映画を選んでグラフに追加してください』
モデルがいかに早く応答したかに注目してください。これは新しい実験的なジェミニ2.0フラッシュモデルによって駆動されているためです。リアルタイムで検索やコードを実行しながら対話することができます。
このデモの本当に素晴らしいところは、グラフレンダラーの設定がいかに簡単かということです。そのツールが何をするのか、このように説明するだけでよいのです。そしてモデルは、あなたが与えた簡単な説明を使って、自分でグラフをレンダリングする方法を理解します。
このデモと共に、あなたが始められるcolabノートブックをオープンソースで公開しました。AIスタジオでツール使用を探索することもできます。
例えば、ニューヨークのレストランを調査する必要があり、これらすべての場所の電話番号、住所、簡単な説明を調べる必要があるとします。このプロンプトを2.0フラッシュモデルに与えると、いかに早くそれを行うかご覧ください。モデルは検索クエリを作成し、情報を取得し、このテーブルに入力します。さらに探索できるように、引用とリンクも提供します。
アプリケーションでのツールの使用をカスタマイズし、制御することができます。一部のことにはGoogle検索を使用し、他のことには使用したくないかもしれません。「スポーツに関する質問にのみGoogle検索を使用する」といった指示を書くことができます。
そうすると、このような質問をすると、モデルは検索を使用せずに回答しますが、これを尋ねると、指示通りにGoogle検索を使用して回答します。
指示に基づいて適切なツールを使用するかどうかを決定するこの能力は、ジェミニ2.0でのネイティブツール使用の強みの1つです。
これらは、ジェミニ2.0であなた自身のマルチモーダルAIエージェントを構築できる方法のほんの一例です。
次に、素晴らしいものをご紹介します。AIパワードコードエージェント、Julesに会いましょう。
あなたのチームがバグバッシュを終えたばかりで、長いバグリストを見つめているとします。今日から、PythonとJavaScriptのタスクをJulesに任せることができます。これは実験的なAIパワードの共同エージェントで、ジェミニ2.0を使用し、GitHubワークフローと統合して非同期で動作します。
Julesは、あなたが実際に構築したいものに集中できるように、バグやその他の時間のかかるタスクを処理します。Julesは問題に効率的に対処するための包括的な複数ステップの計画を作成し、複数のファイルを効率的に修正し、修正をGitHubに直接ランディングするプルリクエストも準備します。
次に、SquadBustersというゲームをプレイするために、ジェミニ2.0で構築されたAIエージェントを使用した完全な長さのデモがあります。これは、ゲーマーとAIエージェントの間のリアルタイムの未編集の対話です。エージェントの応答は、ユーザーからのビデオと音声フィード、およびインターネットから取得した情報に基づいています。特定のポストトレーニングやゲーム統合は行われていません。
「ねえ、ゲームを始めようと思うんだけど、週間クエストを確実にコンプリートしたいんだ。クエストが見える?」
「はい、見えます。300個の宝石を集め、10体のボスモンスターを倒す必要があるようです。300個の宝石については既に進捗がありますね」
「いいね、ゲーム中に忘れちゃうから、思い出させてくれる?」
「もちろんです。クエストを見守って、リマインドしますよ」
「ありがとう」
「どういたしまして、リマインドが必要な時は言ってください」
「あのー、キャラクターを選ぼうと思うんだけど、Redditで最強キャラ(メタ)は何か、ちょっと検索してくれる?」
「はい、調べてみましょう。見つかったことをお知らせします」

コメント

タイトルとURLをコピーしました