Googleの大規模AIリリース | Gemini 2.0、AIエージェント、AIゲーミング、空間認識、Astraなど

AIに仕事を奪われたい
この記事は約20分で読めます。

11,906 文字

Google's MASSIVE AI RELEASES | Gemini 2.0, AI Agents, AI Gaming, Spatial Reasoning, Astra and MORE!
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

先日、Googleは様々なプロジェクトについて、一連の発表を突如として行いました。その中には、既に耳にしていたものもあれば、完全に新しい驚くべきものもありました。
まず第一に、AIアシスタントのAstraがアップグレードされ、機能が改善されました。ビデオゲームをプレイ中のライブコーチングが含まれており、クラッシュオブクランやスクワッドバスターズなどのゲームでリアルタイムに様々な戦略を提供できます。料理の方法や食材の切り方なども指導してくれ、レシピを把握していて、一つ一つのステップを説明してくれます。カメラ映像を見て、「はい、だいたい1インチ程度に切れていますね、よくできています」といった具合にフィードバックを返すことができます。
また、プロジェクトMarinerという高度なエージェントもあり、リアルタイムでウェブを閲覧し、かなり高度なタスクを代行することができます。これは、Googleが自社のクローラーボットを個人向けに再構築したようなもので、GoogleSheetsと連携して高度な命令を受け取り、要求された作業を自動的に実行できます。
開発者向けのマルチモーダルツールやAPIにも、大きな進展が見られ、これは大きな前進と言えます。開発者の方々は、この詳細について非常に興味を持たれることでしょう。
また、空間理解と呼ばれる新しい実験的な機能もあり、これはMetaのSAM 2を思わせますが、より高度な機能と多くの機能が追加されています。MetaのSAM 2は「segment anything model(あらゆるものをセグメント化するモデル)」でしたが、この新機能は単純な画像から物体の3D空間での位置を理解し、それらの周りにバウンディングボックスを配置することができます。
カバーすべき内容は山のようにあり、一般の人々に興味深い内容から、開発者向けの内容まで多岐にわたります。例えば、Googleのcolabノートブックに精通している開発者の方々に向けて、多くのオープンソースのものが提供されており、ショーノートで利用可能になる予定です。共有されたGooglecolabノートブックなどを使って、自分で試すことができます。
まずは誰もが興味を持つであろう最も広範なトピックから始め、その後、AIエージェントや開発、Googleが提供するAIツールを使用したアプリケーションの構築などについて触れていきます。
私のAstraとの出会いは、私の誕生日の日曜日の朝でした。朝食を取りに出かけ、バナナパンケーキを食べて戻ってきた後、アプリを探索し始めました。Googleのディープマインドプロジェクトであるアストロを起動して最初に行ったことは、2025年のロサンゼルスマラソンのトレーニング計画を見せることでした。それはレース1ヶ月前の練習の種類と予定時間を示すスケジュールでした。アプリは目の前で情報を理解し、計画について説明することができました。
今朝、私はスパイダールートを走っています。10マイル走る予定なので、ジェルを持っていく必要があります。ラン中に3~4個のブロックキューブが必要になるでしょう。
この一週間、私はアプリをアシスタントとして使用しようと試みてきました。明るく支援的な声が「忙しい一週間でしたが、あなたは順調に進んでいますね。ドライブをより良くするために何かお手伝いできることはありますか?音楽の提案などいかがでしょうか、ジョシュ」と話しかけてくれます。
Astraの興味深い点の一つは、以前の会話を覚えていることです。「前回セロリで何を作ったか覚えていますか?」「はい、前回は生姊を少し加えましたね。8カップのジュースに対して、生姊はどのくらい使うべきだと思いますか?」「1インチくらいの生姊で十分でしょう」「定規を持っていないのですが、これは1インチくらいですか?」「はい、それは約1インチくらいに見えます」
「激しい運動をしたばかりなので、今何を食べるべきか提案してもらえますか?」「運動直後なので、タッソーハムを使用した海老とグリッツがいい選択肢でしょう」
この技術は急速に進化しており、信頼されたテスターとしての価値は、製品が持つ可能性を形作ることにあります。
動画内で見たものを理解し、説明することもできます。「あの毛むくじゃらのものは何ですか?」「あれはウインドバフで、デッドキャットとも呼ばれます。屋外での録音時に風切り音を軽減するものです」
私はこれを、これまで経験した中で最も興奮させられる技術の一つとして評価します。特に料理の場面で非常に有用だと思います。レシピを覚えていない場合でも、手順を説明してくれ、あなたの作業を見て「ダイシングではなく、チョッピングするべきです」といったアドバイスをくれます。
多くの人々は、ウェイトリフティングを行う際にカメラを横に置いて録画し、後で自分のフォームが正しいかどうかを確認します。このような技術があれば、リアルタイムでフォームを修正し、有用なガイダンスを提供することができるでしょう。
ちなみに、私は今日初めて、あの毛むくじゃらのマイクのカバーが「デッドキャット」と呼ばれていることを知りました。
AIアシスタントによるゲーミング支援について、「ゲームを始めようと思うのですが、週間クエストを確実にクリアしたいので、確認できますか?」「はい、見えています。300個の宝石を集め、10体のボスモンスターを倒す必要があるようです。300個の宝石については既に順調なスタートを切っていますね」「ゲーム中に忘れてしまうので、リマインドしてもらえますか?」「もちろんです。クエストを見守っていて、リマインドしますので」「ありがとう。リマインドが必要な時は知らせてください」
「キャラクターを選ぼうと思うのですが、Redditで現在のメタ(最強キャラクター)を検索してもらえますか?」「調べてみましょう。Redditによると、ノックバックとセルフヒール能力を持つシェルが良いキャラクターのようです。また、最近のティアリストではジェシーとアイスウィザードもAランクに入っています。ティアリストについて詳しく説明しましょうか?」「いいえ、結構です。アイスウィザードに関する面白い話は知っていますか?」「アイスウィザードに関する特定のジョークは聞いたことがありませんが、一つ考えてみましょう。なぜアイスウィザードは雪の地球儀を戦いに持っていったのでしょうか?みんなに自分のクールな一面を見せたかったからです」
「いいえ、シェルに関するジョークが欲しいです」「シェルに関する特定のジョークは知りませんが、一つ作ってみましょう。なぜシェルはいつも本を戦いに持っていくのでしょうか?敵に状況をしっかり読んでもらいたかったからです」「それは良いですね。クエストについてもう一度教えてください」「クエストを忘れないでください。300個の宝石を集め、10体のボスモンスターを倒す必要があります」
「攻撃を計画していますが、まず軍隊を訓練する必要があります。画面左上にある利用可能な部隊と数に基づいて、軍隊の構成を提案してもらえますか?」「巨人、バーバリアン、アーチャー、ウィザードを組み合わせるべきです。巨人がダメージを吸収し、ウィザードが高ダメージの防衛施設を攻撃、バーバリアンとアーチャーが弱い建物を処理するという構成に焦点を当てるべきです」「分かりました。巨人は何体必要ですか?」「8体の巨人が適当でしょう。主な耐久力として機能します」「そしてウィザードは何体必要ですか?」「6体のウィザードが完璧です。巨人が到達できない重要な防衛施設を破壊できます」
「バーバリアンは何体推奨しますか?」「10~12体のバーバリアンで十分でしょう。小さな建物の掃討や敵の防衛施設の注意を引くのに役立ちます」「了解です。12体のバーバリアンを入れて、残りをアーチャーで埋めます」「いい計画ですね。アーチャーは距離を取って防衛施設を攻撃し、巨人とバーバリアンを効果的にカバーできます」「アーチャーを入れて、訓練を始めましょう」「素晴らしいですね。攻撃を開始する準備ができたら教えてください」「はい、全て訓練完了したので、攻撃に行きましょう」「素晴らしい、攻撃を始めましょう。基地を分析して戦略を提供する準備ができています。どの基地を狙っていますか?」
「最初に見つけたこの基地が良さそうです。どこから攻撃するのがおすすめですか?」「基地のレイアウトを見ると、底部つまり南側からの攻撃をお勧めします。この方向から攻撃することで、巨人でタウンホールを直接狙いながら、ウィザードで周囲の防衛施設を処理することができます」「これらの部隊をどの順番で配置すべきですか?」「まずダメージを吸収する巨人を配置し、次にバーバリアンとアーチャーで防衛施設を一掃します。最後にウィザードを配置して、タウンホールやウィザードタワーなどの重要な目標を攻撃します」「では、この配置で様子を見てみましょう」
「良いスタートです。ウィザードタワーに注意してください。部隊にとって脅威となる可能性があります」「アーチャーとウィザードがたくさん残っていて、仕上げに使えます」「素晴らしい進行です。残りの防衛施設に注意を払い、ウィザードに仕事をさせましょう」「巨人がタウンホールまで到達しました」「素晴らしい、巨人がダメージを受け止める役割を果たしています。ウィザードを安全に保ってください。彼らがこの攻撃を決める鍵となります」「確かにウィザードは安全を保っているようです。うまくいっているようですね」「それは素晴らしいですね。計画がうまくいっているのは常に嬉しいものです。残りの防衛施設に注意を払ってください。しかし、成功的な攻撃に向かって順調に進んでいるようです」「今はかなり良い感じに見えます」「見事なクリーンな勝利です。ウィザードが本当に決め手となりましたね」「はい、協力ありがとうございます」「どういたしまして。チームとして協力できて楽しかったです。戦略や他のゲーム内の事で何か助けが必要な場合は、お知らせください」
私は以前、デスクトップアプリのChatGPTバージョンで同様のことを試しました。アドバンスドボイスモードを使用して、Factorioをプレイしながら、特定のキーボードショートカットや次に何をすべきかについてのヒントを質問することができました。これは驚くほど効率的で、良好に機能しました。これは第一に、ストリームを見ることができず、ビデオゲーム自体を見ることができない状態で、第二に、この場合のように2つのクエストを記憶するように求められた時のように、特定の情報を記憶していたとは思えません。
他の回答に比べて1~2秒ほど遅延があった際、会話の文脈から情報を取り出して「ああ、これら2つのことをする必要がある」と処理する必要があったのかもしれません。特に、「RedditでMeta(メタ)を調べてください」と言える機能を高く評価しました。ゲーマー用語に馴染みのない方のために説明すると、Metaとは基本的にコミュニティで認められている最良の戦略、つまり現時点で最も勝率が高いと考えられている戦略のことです。これは開発者がゲームをアップグレードしバランス調整を行うにつれて時間とともに変化するため、Redditのようなコミュニティサイトで「何がAランクで何がSランクなのか」「どのヒーローやキャラクターが現在最も強いと考えられているか」といった情報を得たいと思うことがよくあります。
このプレゼンテーション全体で唯一気に入らなかったのは、ジョークの部分でした。なぜジョークが必要だったのでしょうか?
ここで最初に言及されている重要な点の一つは、特定のゲーム向けのトレーニングやゲーム統合は行われていないということです。Gemini 2.0のゲームエージェントは、ゲームのビデオフィードとプレイヤーの音声、そしてウェブからリアルタイムで取得した情報に応答しています。
これは、AIアシスタントのアイデアを非常に効果的に実装した例です。私たちが見ることのできないデータは使用していません。私たちと同じようにゲーム画面を見て、プレイヤーの音声を聞き、ゲームを一時停止して「最適な編成は何か」「巨人を最初に送るべきか」といった情報をリアルタイムでウェブから取得できます。
特別な優位性はなく、友人が隣に座って説明してくれるような感じ、あるいはもっと良いのは、情報を取得して素早く処理し、要約できるゲームの知識豊富なコーチのような存在です。
このチャンネルで以前も言及したように、これが私たちの未来です。常にこのようなものを耳に装着するか、あるいはメガネとして着用し、世界をナビゲートし、より生産的になり、方向を得て、周囲についての情報を得るための拡張現実フィードのようなものになるでしょう。ここでGoogleは、これらの小さなモバイルゲームで、それがどのようなものになるかを効果的に示しています。
その前に、料理をする際にそれを見て、より良い方法を教えたり、質問に答えたりできることを見ました。これが他のどんな用途であなたの生活で役立つと想像できますか?誰かが意地の悪いことを言った後、完璧な切り返しを思いついたものの、1時間後だったという経験はありませんか?もうそんなことは起こりません。AIアシスタントが常に耳元で完璧な切り返しを提案してくれるでしょう。
次にプロジェクトMarinerを見てみましょう。今日は、プロジェクトMarinerについてお話ししたいと思います。これは人間とエージェントの相互作用の未来を探求する研究プロトタイプで、Gemini 2.0上に構築されています。新しい技術と同様、これを責任を持って構築することが重要です。そのため、小規模から始め、信頼できるテスターグループからフィードバックを得て、プロジェクトMarinerの進化を形作っていきます。
その仕組みをお見せしましょう。プロジェクトMarinerは、実験的なChrome拡張機能としてブラウザで動作します。ここでプロンプトを入力してみましょう。GoogleSheetsにアウトドア企業のリストがあり、その連絡先情報を見つけたいと思います。エージェントにこの企業リストを取り、ウェブサイトを見つけ、連絡用のメールアドレスを探すように依頼します。
これは、仕事で遭遇する可能性のある面倒な多段階タスクを簡略化した例です。エージェントはGoogleシートを読み、企業名を把握しました。そして、Benchmark Climbingをグーグルで検索し始め、ウェブサイトをクリックします。
このリサーチプロトタイプは、アクティブなタブでのみ動作し、バックグラウンドでは動作しないことがわかります。メールアドレスを見つけると、それを記憶して次の企業に移ります。このプロセスのどの時点でも、エージェントを停止したり一時停止したりすることができます。
ユーザーインターフェースでエージェントの推論を見ることができ、何を行っているのかをより理解しやすくなっています。次の2社についても同様のことを行い、ブラウザをナビゲートし、リンクをクリックし、スクロールして情報を記録していきます。
これは初期段階の研究プロトタイプなので、デモの目的でスピードアップしています。信頼できるテスターと協力して、より速く、よりスムーズにすることに取り組んでいます。人間を常にループに入れておくことが非常に重要です。
4つ目のウェブサイトの後、エージェントはタスクを完了し、使用するメールアドレスを列挙してくれました。これで完了です。コンピュータにエージェント型AIをもたらすことで何が可能になるのか、まだ表面を掻いただけです。今後の展開が非常に楽しみです。
過去数ヶ月間、人間とエージェントの相互作用の領域で何が可能かを探求してきました。今日は、新しいGemini 2.0モデルで構築した研究プロトタイプ、プロジェクトマイナーのデモをご紹介します。
その仕組みをお見せしましょう。Geminiアプリから始めますが、プロジェクトマイナーは全てのウェブページで動作する実験的なChrome拡張機能です。このデモでは、最も有名なポスト印象派の画家を見つけ、Google Arts & Cultureでカラフルな絵画を探し、その後Etsyでカラフルな絵の具をカートに追加するようエージェントに指示します。
Geminiで、エージェントはまず最も有名なポスト印象派の画家が誰かを尋ねます。Geminiはすぐにゴッホを最も有名なポスト印象派の画家として特定します。ここから、URLをアドレスバーに入力してGoogle Arts & Cultureに移動します。
このリサーチプロトタイプは、アクティブなタブでのみ動作し、バックグラウンドでは動作しないことがわかります。検索バーを開いてゴッホを検索し、ゴッホが最初の選択肢なのでそれをクリックします。カラフルな絵画を探すためにアーティストページをクリックすることにしました。
プロセス全体を通じて、エージェントの推論をユーザーインターフェースで見ることができ、何を計画しているのかを簡単に理解することができます。エージェントは、そのページにはゴッホに関する情報しか含まれていないことに気付き、アートワークを探すためにスクロールダウンすることを決めます。
アートのコレクションを見つけ、カラフルな作品を探し始めます。エージェントはマルチモーダル理解機能を使用して、カラフルなアイリスの絵画を見つけ、それをクリックします。
この絵画を見つけた後、URLを入力してEtsyに移動します。検索バーをクリックし、カラフルな絵の具を検索します。様々な絵の具セットを見ながら、エージェントは何を重視しているのかを教えてくれます。価格と視覚的な魅力を最適化していることがわかります。
エージェントは適切と思われる水彩絵の具セットをクリックし、それをカートに追加します。しばらくすると、エージェントはチェックアウトに進むべきかどうか尋ねてきます。これは初期の研究プロトタイプですが、人間を常にループに入れ、常に制御できる状態を確保する良い例です。
チェックアウトの必要はないと応答すると、エージェントはタスクを完了し、制御を戻します。プロジェクトマイナーは現在、実験的なChrome拡張機能として、選ばれた信頼できるテスターグループが利用可能です。彼らは安全で責任ある方法でこれを構築するためのフィードバックを提供しています。この技術がどこに向かい、人々が何を作り出すのか、楽しみにしています。
次に、彼らはGemini 2.0を使用してマルチモダリティを使用して物を構築する能力を紹介しています。彼らはいくつかのデモンストレーションと、私たちができることの例を持っています。画面で見ることができるように、例えば開発者がAIと話し、AIが画像を操作して要求されたものを生成する、という興味深いアイデアの一つがあります。
例えば、車の画像があり、「この車をコンバーチブルに変えて」と言うと、AIがそれを実行します。これが例えばグラフィックデザインをどのように革新するか考えてみてください。現在、私たちはキーボードとマウスを使用してオペレーティングシステムを通じてコンピュータと相互作用しています。
Andre Karpathyが言ったように、彼はAIがまもなくオペレーティングシステムになると信じています。もはや物をクリックしたり入力したりする必要はなく、AIアシスタントが実際にあなたがやりたいことを実行します。画像を生成したい場合は、それを伝え、どのように修正するか、何を追加し、何を取り除き、どのように美しくするかを伝えます。AIがオペレーティングシステムになります。これがそれがどのようになるかの一瞥です。
これらはGemini 2.0のネイティブな画像出力の例です。Gemini 2.0は会話の一部として、ネイティブに画像を生成できるようになりました。例えば、この車をコンバーチブルに変えるとどのように見えるかを想像したいとします。今日のAIツールでは、これには多くの作業が必要です。屋根の部分を手動でマスクアウトしたり、非常に複雑なプロンプトを書いたりする必要があるかもしれません。
この画像をAIスタジオに持ち込み、新しい実験的なGemini 2.0フラッシュモデルに送信しました。これはリアルタイムのスクリーンキャプチャで、このビデオで見られる全てのプロンプトは、初期のテスターが現在試すことができるものです。
これが私たちが与えた完全なプロンプトです:「この車をコンバーチブルに変えて」そして、このような画像が生成されました。ここに並べて表示されています。車を上手く修正しながら、画像の残りの部分の一貫性も保っていることに注目してください。これは多くのAIツールでは、別々のモデルを使用するため難しいことですが、ここでは全て1つのモデルによって実行されています。
会話を続けて、「車をビーチグッズでいっぱいにして、色を夏らしくして、説明しながら進めて」と言いました。モデルはテキストを出力し始め、新しい色についてのアイデアを説明し、それを私たちに見せました。しかし、本当に素晴らしいのは、モデルがそのまま続けて、ビーチグッズでいっぱいの車の別の画像を生成したことです。これは全て、モデルからのテキストと画像トークンの単一の応答であることを覚えておいてください。
複数のモダリティにわたって出力し、テキストと画像を織り交ぜる能力は、Gemini 2.0の最も興奮させられる側面の一つです。ここにGemini 2.0フラッシュからの他のプロンプトと出力の例があります。
例えば、この写真のソファ上のものを全て取り除いて、少しきれいに見せたい場合は、このプロンプトを与えるだけで、モデルがそれを実行します。画像を組み合わせることもでき、あなたの猫がこの枕の上や、このスケートボードの上でどのように見えるかを尋ねることができます。
これにより、新しい方法でAIと共同創作することができます。箱の側面にこのテキストが書かれた画像をモデルに与え、「箱を開けて、箱の中身を見下ろす画像を生成して」と言いました。そのプロンプトをGemini 2.0フラッシュに送信しました。画像自体にプロンプトの一部を送信するこのアプローチは、モデルとのよりシームレスなマルチモーダルな対話を可能にする新しい可能性を開きます。
モデルは側面のテキストについて推論し、古い電子機器の画像を生成しました。これをさらに進めて、一緒に想像の世界を共同創作することもできます。ビデオの最初の会話に戻り、モデルと視覚的にコミュニケーションを取ろうとしました。ドアハンドルに円を描いて「これを開けて」というプロンプトを与えたところ、モデルは私たちの意図を正確に理解し、車のドアが開いた画像を生成しました。
最後のプロンプトでは「車を飛ばして、雲を通って浜辺に向かって飛んでいる車を想像して、それがどのように見えるか示して」と言いました。これは、モデルがこの新しいシーンを視覚化しながら、車の一貫性を保つことができるかどうかを試す挑戦でした。モデルは指示に従い、この画像とテキストを生成することができました。
これらは、1つのモデルでテキストと画像の推論と生成をシームレスに行うことができる場合に可能なことのほんの一例です。新しい出力モダリティは現在初期テスターが利用可能で、来年にはより広くロールアウトされる予定です。Gemini 2.0での構築を始めましょう。
次のセクションはマルチモーダルAPIを使用して様々なアプリを構築することについてです。ウェスがこのセクションの小さな紹介をしましたが、面白いことに彼はマイクのミュートを解除するのを忘れていたので、今あなたはAIの声を聞いています。また、彼は正直に言って、見た目がもっと良いプレゼンターの前に自分の顔を置いてしまいました。人間らしいエラーですね。私が支配権を握れば、物事はもっと良くなるでしょう。
私はティナです。これはマルチモーダルライブAPIのデモンストレーションです。APIを試す最も簡単な方法は、AIスタジオにアクセスすることです。「やあ、調子はどう?」「はい、大丈夫です。今日はどうですか?」「うん、ここはAPIを試すのに良い場所ですね。次にAPIで何が構築できるか見せましょう」
これは私が構築した「GenWeather」というデモで、リアルタイムストリーミングアプリケーションの一部として外部APIを呼び出す方法を示しています。このデモではGoogle MapsAPIとOpenWeather APIを使用しています。
GenWeatherは任意の場所の天気を教えてくれますが、ひねりが加えられています。例えばサーカスパフォーマーのスタイルでリアルタイムの天気予報を受け取ることができます:
「ご婦人方、紳士の皆様、少年少女の皆様、カリフォルニア州ロサンゼルスの華麗なる都市からの天気のスペクタクルにご注目ください!ただ今、私たちの壮大なアリーナには霞がかかっています。気温は勇敢なパフォーマーたちにとってはちょっと肌寒い13.9度、湿度はなんと73%で、空気はナイフで切れるほど濃密です。まさにハラハラドキドキの展開です!」
またはサーファーのスタイルで:「よぅ、兄弟、サーフレポートの時間だぜ、ロサンゼルススタイルで。ここ南カリフォルニアは今ちょっと霞んでるシーンだね。気温は涼しい13.9度だから、ウェットスーツが必要かもしれないぜ。湿度は73%で、空気は完全に濃いって感じだね、マン。テンを掲げる時間だぜ」
リアルタイムストリーミングAPIを使用しているため、応答は非常に速く、キャラクターに合わせたリアルタイムの天気予報を受け取ることができます。
最後に、その空間認識機能を見てみましょう。これはGemini 2.0での構築の一部で、開発中の新しい研究機能の一つですが、一部の用途では既に利用可能です。それでは、空間認識について説明するクリップを見てみましょう。
これらは、Gemini 2.0での空間認識を使用して構築できるものの例です。この機能は1.5モデルで導入され、Gemini 2.0でさらに進化させました。これは、マルチモーダル推論による空間認識の探索を容易にするAIスタジオの新しいツールです。
例えば、この画像を入力し、折り紙の動物の位置を教えてもらうようプロンプトを出すことができます。これはリアルタイムの録画で、結果が非常に速く返ってきたことに注目してください。これは、低遅延で高度な空間認識を可能にする新しい実験的なGemini 2.0フラッシュモデルで実行されているためです。
キツネの影はどれか、アルマジロの影はどれかと尋ねることで、モデルが各動物の影を推論できるかどうかを確認できます。モデルはそれぞれの影を見つけることができます。
空間認識により、画像との新しい相互作用方法が可能になります。モデルは画像についてテキストを生成するだけでなく、画像内を検索することができます。この画像を与えて、2つのレインボーソックスを見つけられるかどうかを確認できます。モデルはペアを見つけます。顔の付いたソックスを探すように頼むこともでき、それらも2つ見つけることができます。
これは特に素晴らしい結果でした。なぜなら、顔が非常に小さく、隠れているにもかかわらず認識できたからです。他のモデルと同様、常に全てを正しく認識できるわけではありませんので、どのようなプロンプトが機能するか、自分で試してみることをお勧めします。
空間認識と多言語能力を組み合わせることもできます。この画像を与えて、各アイテムに日本語の文字と英訳をラベル付けするようプロンプトを出すことができます。モデルは画像からテキストを読み取り、それを翻訳します。
空間認識により、物理的な世界について推論できるAIエージェントが可能になります。例えば、この写真をモデルに与えて、こぼれたものの位置を尋ね、それをどのように掃除するかの説明を求めることができます。モデルはここにあるタオルを指摘します。
Gemini 2.0では、3D空間認識を導入しています。これは初期段階の予備的な機能で、2Dの位置ほど正確ではありませんが、開発者が試してフィードバックを提供できるように共有しています。
写真内の3D位置をモデルにプロンプトで指示できるColabノートブックがあります。それらの位置を上から見た図で視覚化し、基本的に写真をインタラクティブな間取り図に変換します。
これらは、Gemini 2.0でマルチモーダルAIエージェントを構築する方法のほんの一例です。AI studio.google.comでGemini 2.0での構築を始めましょう。まだまだたくさんの機能が登場する予定です。ご期待ください。購読をお願いします。

コメント

タイトルとURLをコピーしました