8分で理解するGeminiのエージェント的ビジョン

Google・DeepMind・Alphabet
この記事は約9分で読めます。

Googleが発表した「エージェント的ビジョン」は、Gemini 2.0 Flashに搭載された革新的な機能である。従来の画像認識タスクをエージェント的なタスクへと変換し、画像のズーム、パン、回転、変形といった操作をPythonコードで実行しながら、より深い理解を実現する。Think-Act-Observeフレームワークに基づき、画像を段階的に分析・処理することで、従来手法と比較してベンチマークスコアが大幅に向上している。本動画では、Google AI Studio上での実践的なデモンストレーションと、Pythonコードによる実装方法を通じて、保険査定などの実務への応用可能性まで解説する。

Gemini Agentic Vision in 8 mins!
Agentic Vision in Gemini 3 Flash converts image understanding from a static act into an agentic process. It treats visio...

Googleの新機能エージェント的ビジョンとは

Googleが非常にクールなものをローンチしました。それはエージェント的ビジョンと呼ばれています。これは視覚タスクをどのようにエージェント的なタスクに変えるかという組み合わせなんです。エージェント的ビジョンという響きがかっこいいだけでなく、実際に日常的なAIタスクに優れた実用的な意味を持っているので、超クールなんですよ。

この動画では3つの異なるパートに分けて説明していきます。まず最初に、エージェント的ビジョンとは何か、そしてどうアクセスするのかを理解していきます。次に、Google AI Studio上でこのエージェント的ビジョンのライブデモを見ていきます。そして3番目に、Pythonコードでエージェント的ビジョンを実装する方法について、シンプルなコードのウォークスルーをお見せします。

まず、エージェント的ビジョンとは何でしょうか。エージェント的ビジョンは、GoogleがGemini 2.0 Flashと共にローンチした新機能です。Gemini 2.0 Proには存在しません。Gemini 2.0 Flashにあるんです。

エージェント的ビジョンは、通常の視覚関連タスクをエージェント的タスクに変えます。つまり、画像を取得してズームイン、パン、回転、変形など、シンプルなPythonコードでできるあらゆることを行うコード実行があり、それによって以前は不可能だったより深い方法で画像を理解するということです。

ベンチマークでの性能向上

Googleは、エージェント的ビジョンによって、Gemini 2.0 Flashが視覚が重要な要素である多くの異なるベンチマークで、はるかに優れたパフォーマンスを発揮していると主張しています。

例えば、この特定の例を見てください。オフィスQAです。これは質問応答関連のタスクです。ここを見ると、エージェント的ビジョンなしではモデルはわずか65点でした。エージェント的ビジョンを使うと、文字通りモデルの既存の能力を使っているんです。コードを実行でき、コードを書け、画像をズームでき、そして今70%を獲得しました。

全体を通して、モデルはエージェント的ビジョンを有効にした場合の方が、エージェント的ビジョンなしの場合よりも良いスコアを出しているのが分かります。

Think-Act-Observeフレームワーク

エージェント的ビジョンを簡単に理解したい場合、エージェント的ビジョンには3つの重要なステップがあります。最初のステップは思考、行動、観察です。これはエージェントフレームワークにおける非常に似たReActモデルのようなものです。

ユーザーからクエリがある時はいつでも、ユーザークエリは画像とテキストと共に送られます。その特定の時点で、エージェントは3つのことを行います。まず、何をしなければならないかを考えようとします。次に、それに対して行動しようとします。そして、観察しなければならないループを作成し、同じプロセスを繰り返します。最終的にタスクが完了したら、ユーザーに出力を提供します。

ReActフレームワークと非常に似ていますね。これがThink-Act-Observeフレームワークで、これがエージェント的ビジョンのコア能力なんです。

実践デモ:指の数を数える

でも今、エージェント的ビジョンについてたくさん話してきました。エージェント的ビジョンについてのデモを素早くお見せしたいと思います。例えば、インフォグラフィックスを分析できます。これは非常に面白い例です。なぜかというと、このような絵文字をアップロードすると、モデルはすぐに手には5本の指があると想定してしまうんです。だから5と答えるでしょう。

でも、この画像をよく見ると、1、2、3、4、5、6となっています。6本の指があるんです。だから今、何本の指がありますかと尋ねていて、推論を助けるために画像に注釈をつけるように特別に指示しました。では、思考プロセスを見てみましょう。

この思考プロセスをクリックすると、最初に絵文字の指を数えようとしているのが分かります。次に再評価しようとしています。まず数えていて、それから数が最終決定されたと言っています。今、画像処理ライブラリのPillowを使ってPythonコードを書いています。そして実行しようとしていて、最終的にそこには6本の指があると言っています。

だから、これらすべてのことを行った後、6本の指があるという結論に達したんです。

実用例:ゲージの数値読み取り

では、現実世界でより実用的な意味を持つかもしれない別の例を見てみましょう。ここでは画像をアップロードして、ゲージの数値は何ですか、必要ならズームインしてくださいと言っています。ゲージの数値が何かを確認する必要があります。

そして思考プロセスを実行しています。まず、ゲージの位置を特定すること。それが最初にやらなければならないことです。ゲージの位置を特定した後、どこをズームしなければならないかをマークしました。その情報がPythonコードに入ります。そのPythonコードは実際にズームインして、クリックして、つまりそのクロップを作成します。そして、ここで情報を見ることができます。

今、ゲージの読み取り値はおそらく華氏64度だと言っています。明示的にエージェントを実行しなくても、たった1つのコマンドでこれらすべてのことができるんです。

Google AI Studioでの実践

これらはすべてクールな例です。YouTubeの説明欄にリンクを記載しますので、すべての例をチェックすることを強くお勧めします。でも今、Google AI Studio上でテストしてみます。

そこに行ったら、モデルGemini 2.0 Flash previewを選択して、コード実行を追加してください。コード実行を有効にしてください。コード実行はこれにとって重要だからです。

このケースでは、画像をアップロードして、単純にペダルにズームインして何本のペダルがあるか教えてくださいと言いました。人間として、あなたに言われたら私は何をするでしょうか。私の頭を最初に通るのは、まずペダルがどこにあるかを特定しなければならないということです。

おそらくここに位置を特定して、それからズームインして、1、2、3、4と数えようとするでしょう。4本やりました。では、AIが何をするか見てみましょう。

思考プロセスを開いて見ます。まず、ペダルの数を明確にしています。オルガンコンソール上のペダルを正確に識別して数えることに集中しています。ペダルボードをズームインして、長い木製の鍵の明確なビューを得ました。また、エクスプレッションペダルをもっと詳しく調べています。正確な数のためには、異なるタイプを理解することが鍵です。

これがモデルが自分自身に言っていることです。それに基づいてコードを書き、コードが実行されています。ペダルがある正確な場所のピクセル座標があるのが分かります。それからすべてを行った後、画像を取得して理解しようとしています。ズームインして正確なペダルを取得して、最終的に教えてくれています。

まず4本のエクスプレッションペダルがあり、合計36本のペダルがあります。だからこれを数えて、これを数えて、それから総合情報を提供しているんです。一方、人間としての私は、これをペダルの総数として与えたかもしれません。

Pythonコードでの実装方法

Google AI Studio上でこのモデルの使い方が分かったので、Pythonコードに統合することが非常に重要です。チャンネル名がone little codeなので、コードを書かなければなりません。お見せしましょう。

環境変数を取得しました。APIキーを取得するには、ここに行ってGet API keyをクリックして、ここでAPIキーを取得できます。そのキーをenvファイルの中に追加できます。それを追加したら、agentic_vision.pyファイルを取得します。

ここでは最初に、APIキーをインポートするためにenvを使おうとしています。それを行った後、この特定のコードのコア部分は、GoogleのGeminiからjaiライブラリを使用して、コードをGoogle AI Studioに接続することです。

一般的にGoogleモデルにアクセスする2つの異なる方法があります。1つはVertex、より本番ソリューション的なもので、非常に複雑です。GoogleはGemini AI Studioでより簡単な方法があることを見つけ出しました。だからそれをやっていきます。

from google import jai、from google.jai import typesとなっています。それから初期化があり、接続を作るためにAPIキーで初期化しています。それから画像を与えています。

同じ画像、与えたペダルの画像を与えています。画像を与えた後、モデルGemini 2.0 Flash previewを選択して、同じ質問、エクスプレッションペダルにズームインして何本のペダルがあるか教えてくださいと与えました。今、特にエクスプレッションペダルと言っています。

ここを見ると、ペダルにズームインしてくださいと言いました。だからすべてのペダルを教えてくれましたが、今はエクスプレッションペダルだけと言います。すでに4本だと分かっています。ツールでは、コード実行をツールとして有効にしています。

これが全体のコードです。いや、Cursor、何も変更しないでください。そして最後にレスポンスを印刷します。

このコードを見ると、ズームインした画像に基づいて、4本のエクスプレッションペダルがあると言っています。

まとめと実用的な応用

素早く要約すると、GoogleがGemini 2.0 Flashでローンチした新機能、エージェント的ビジョンとは何かを学びました。Google AI Studio上で同じことをどうやって行うかを学びました。いくつかのユースケースを学び、今Pythonコードでそれをどう行うかのコードウォークスルーを通りました。

エージェント的ビジョンとは何か、そしてどのように本番対応のコードで使用できるかを理解する上で、これがあなたにとって役立つことを願っています。例えば、自動車保険などがある時に、AIを使って保険引受業務を行っている人がたくさんいます。これは、画像にズームインして、へこみがあるかないかなど、写真を見なければならないケースで非常に役立つでしょう。

たくさんの異なるユースケースがあります。何かユースケースが思い浮かんだら、コメント欄で教えてください。それ以外は、また別の動画でお会いしましょう。ハッピープロンプティング!

コメント

タイトルとURLをコピーしました