Gemini は今やあなたの画面をリアルタイムで見ることができる — そしてあなたの行動をすべて判断している

AGIに仕事を奪われたい
この記事は約9分で読めます。

5,102 文字

Gemini Can Now See Your Screen In Real Time — & It’s Judging Everything You Do
Gemini Can Now See Your Screen In Real Time — & It’s Judging Everything You DoGoogle just gave Gemini AI real-time scree...

Googleはついに、大きな発表をすることなく、AIアシスタントのGeminiに「見る」能力を与えました。同社は普通のスマートフォンをGeminiのビジョン機能のための強力なツールに変える新機能の展開を開始しました。現在、Geminiはスマホの画面やカメラを通して物事を見て、それが何であるかを理解できるようになり、これまで以上にスマートでインタラクティブになっています。
そして興味深いことに、この新機能を最初に発見したのは好奇心旺盛なRedditユーザーで、彼らはその仕組みを示す動画を共有するのに時間を無駄にしませんでした。このアップデートは、Googleが長い間語ってきた「Astra」と呼ばれる刺激的なプロジェクトを実現するものです。この新技術により、Geminiはもはやテキストに応答するだけのチャットボットではなく、実際にリアルタイムで視覚情報を見て処理することができるようになりました。
最も魅力的な機能の一つは、スマートフォンの画面で何が起きているかを監視する能力です。「Share screen with live」という新しいボタンを使えば、Geminiはユーザーが見ているものをすべて継続的に監視することができます。これまでGeminiは静止したスクリーンショットしか理解できなかったため、一度に1つの画像しか処理できませんでした。しかし今や、このAIはユーザーがスクロールしたり、スワイプしたり、アプリを切り替えたりするのに合わせて追従することができます。これは日常的なタスクにおいてGeminiをより便利にする画期的な変化ですが、プライバシーに関する疑問も生じさせます。Geminiが常に監視していると、人々は本当にAIアシスタントにすべてを見られたいのかと疑問に思うかもしれません。
この件で最も驚くべきことは、もう一つの大きなアップグレードでGeminiがスマホのカメラを通して見ることができるようになったことです。GoogleはAIが色や物体をいかによく認識できるかを披露し、非常に高度に見せています。しかし、大きな疑問は、実生活での体験がGoogleの洗練されたデモンストレーションと同じくらい印象的かどうかということです。多くの場合、テクノロジー企業は画期的な機能を約束しますが、実際の結果は必ずしも期待に沿うとは限りません。
それでもこれは大きな前進です。人間のように世界を見て理解することができるAIというアイデアは、SFマンガのような感じがします。人々がこれを便利だと思うか、気味悪いと思うか、あるいはその両方かにかかわらず、一つ確かなのは、Geminiが急速に進化しており、これはほんの始まりに過ぎないということです。
では、この新機能の意義について深く理解していきましょう。この新機能について注目すべき点の一つは、Googleの月額20ドルのOneプランの下で提供されるGemini Advancedという特別なサブスクリプションを支払っている人々に最初にリリースされていることです。このプランは追加のAI機能を提供し、通常の無料版よりも強力になっています。
興味深いのは、Googleが自社の高級デバイスだけにアクセスを制限していないことです。あるRedditユーザーが共有した動画では、Xiaomiスマホで機能が動作しているのが示されており、Googleが幅広いデバイスでの使用を許可していることを示唆しています。とはいえ、同社は以前からPixelまたは今後発売されるGalaxy S25を使用するユーザーが特別な扱いを受けるかもしれないと示唆しており、おそらく更新の速さやパフォーマンスの向上が期待できるでしょう。
もちろん、「目」を持つAIアシスタントはGeminiが初めてではありません。Microsoft Copilot、ChatGPT、Grok、Hugging Faceの新しいHugging Snapアプリなど、他のAIツールも同様の機能を提供しています。しかし、これらのアシスタントは通常、特定のサードパーティアプリに紐づけられており、ユーザーがわざわざアクセスする必要があります。Geminiが異なるのは、Androidに直接組み込まれており、使用するのがはるかに簡単だという点です。AIアシスタントに興味があるけれどまだ使っていない人にとって、これは最終的に試してみる完璧な理由になるかもしれません。
Googleがこの機能を今展開する決断をしたのは偶然ではありません。AIアシスタント間の競争は激化しており、Googleは先頭に立ち続けるために懸命に努力しています。Amazonは新しく改良されたAlexa Plusを大々的に宣伝していますが、現時点ではまだリリースされていません。一方、AppleのアップグレードされたSiriは複数の遅延に直面しており、iPhoneユーザーは待ち続けています。
これによりGoogleは有利な立場に立っています。Geminiは初期の問題や名称変更など難しいスタートを切りましたが、今や大きく前進しています。現在、GeminiはAlexaもSiriもできないことや完了できないことを行っています。なぜなら、Googleはプロジェクト「Astra」に大きな夢を持っており、これを「人々が常に使いたくなる次世代アシスタント」と呼んでいるからです。
そしてこれはおそらく始まりに過ぎません。今後数週間でさらなる更新や改良が予想されるため、ユーザーは常に注意を払い、次に何が来るかGeminiをチェックすべきでしょう。
では、このGemini Liveで提供される他の機能について見ていきましょう。
Geminiのスマートな対話方法について、私たちはすでにGoogleがAIアシスタントのGeminiに、スマートフォンの画面に表示されているものを見ることで世界を理解する全く新しい方法を提供していることを知っています。この刺激的なアップデートはまずPixel 9シリーズでリリースされ、Gemini Liveは「ライブについて話す」能力を獲得しました。これにより、ユーザーは画面に表示される画像、ファイル、さらにはYouTube動画についてもAIとリアルタイムでの会話ができるようになりました。
この機能は最初に9to5Googleによって発見され、即座の助けが必要な瞬間に最適です。料理チュートリアルを見ていてさらなるガイダンスが欲しい場合や、理解できないミームに出くわした場合でも、Geminiは説明を提供する準備ができています。
これまで、Gemini LiveはChatGPTのような他のAI音声アシスタントと同様に機能し、ユーザーの画面に何があるかを本当に知ることなく質問に答え、会話を行っていました。しかし、この新しい能力により、特定のコンテンツを見て、それを会話に含めることができるようになりました。
Pixel 9ユーザーにとって、このプロセスは簡単です。浮動するGeminiオーバーレイを開くと、YouTube視聴時に「動画について話す」、Google Filesでドキュメントを表示する際に「PDFについて話す」、または画像を見る際に「これについて話す」などの提案がポップアップします。これにより、画面上にあるものを手動で説明する必要がなくなり、すべてがより速く、より便利になります。ギャラリーから画像をアップロードしたり長い説明を入力したりする代わりに、Geminiは単に見るだけで物事を理解できるようになりました。
機能が有効化されると、Gemini Liveは現在画面に表示されているものをプレビューし、それについてチャットする準備ができています。YouTubeで旅行動画を見ている場合、Geminiは訪れるべき素晴らしい目的地を提案するかもしれません。PDF契約書を読んでいる場合、AIはすぐにそれを要約できます。そして、意味が分からないルネサンス芸術の作品を見つめている場合、Geminiはその背後にあるシンボリズムを説明するかもしれません。
しかし、このレベルのAI関与が少し過剰だと感じる人にとっては朗報があります。ユーザーはこの機能をオフにすることができ、Geminiが常に彼らが見ているものを分析しないようにすることができます。
最も良い点は、この機能がPixel 9ユーザーだけのものではないということです。Googleは、この機能がすぐにSamsungのGalaxy S24およびS25スマートフォンでも利用可能になり、近い将来さらに多くのAndroidデバイスに拡大する計画があることを確認しています。ですから、あなたのスマホにまだこの機能がなくても心配しないでください。Gemini Liveがあなたの日常のデジタル体験の一部になるのは時間の問題です。
通知とプライバシーについて、Googleはライブ会話中にユーザーに通知する方法に小さいながらも興味深い変更を加えているようです。画面上部に静かに表示される通常の通知の代わりに、一部のユーザーは今、AIとチャットするというよりも電話をしているような感覚を与える何かを目にしています。
多くの人々がこのGeminiの新しい電話のような通知がより多くのデバイスで利用可能になることを望んでおり、それには正当な理由があります。このアップデートの最大の利点の一つは、Geminiがまだ聞いていることを常にユーザーに思い出させることです。以前は、古い通知が非常に小さく見逃しやすかったため、人々はしばしばAIとのライブチャットの最中であることを忘れてしまうことがありました。Geminiが突然どこからともなく応答するまで、それがまだアクティブであることに気付かなかったのです。
今はもう違います。新しいデザインでは、Geminiがまだ会話に参加していることを示す明確で一定のリマインダーが画面上にあります。そして最も良い点は、ユーザーがそれを完全にコントロールできることです。これは、チャットが終了したら単に電話を切って、セッションを終了できることを意味します。しかし、休憩して後で戻ってくることを望むだけなら、Geminiを保留にするオプションもあります。これは小さな変更ですが、プライバシーを確保するのに大きな違いを生みます。
AI搭載の画面インタラクションを支配するには、Googleがユーザーにより直感的で即時的な方法でAIアシスタントと対話できるようにするリアルタイム画面分析の最新導入が競合他社を持っているように見えます。なぜなら、この種のテクノロジーに取り組んでいるのはGoogleだけではないからです。他のいくつかのテクノロジー大手もリアルタイム画面インタラクションの境界を押し広げる同様のAI駆動機能を開発しています。
まず、Samsungは特にGalaxy AIテクノロジーでAI統合において注目すべき進歩を遂げています。One UI 7のリリースにより、同社はGalaxy S24シリーズとそれ以降のAI機能を拡大しました。このアップデートはGeminiをデフォルトのAIアシスタントにすることでGoogleとの協力関係を強化するだけでなく、独自のAI機能も導入しています。ユーザーは現在、設定メニュー内の自然言語検索やNow Barを通じたインタラクティブなウィジェットにアクセスできます。
Honorもまた独自のAI駆動ソリューションで競争に参入しています。同社は最近、スマートフォン画面上のグラフィカル要素を理解して対話できるAIであるHonor UI Agentを紹介しました。クラウドベースの処理に依存する従来のAIモデルと異なり、Honorのエージェントはデバイス上で直接操作するため、より速くコスト効率が高くなります。Mobile World Congress 2025でのデモンストレーションでは、画面の内容を分析するだけで、Open Tableを通じてレストランのテーブルを予約するなどの実用的なタスクを実行するエージェントの能力が強調されました。
これらの進歩は、GoogleがAI駆動の画面認識を開始する唯一の企業ではないことを示しています。
ここまで見てくれた方は、下のコメント欄であなたの考えを教えてください。さらに興味深いトピックについては、画面に表示されているおすすめ動画をご覧ください。ご視聴ありがとうございました。

コメント

タイトルとURLをコピーしました