GoogleのAIエージェントの初公開が来た…（Google Jarvis AIエージェント）

7,178 文字

https://www.youtube.com/watch?v=b_fyVr0ZqP0

ほな、このビデオでは、Googleのエージェントの詳細について深く掘り下げていきますわ。皆さんもご存知の通り、2025年は完全にAIエージェントの年になりそうです。Googleは最近、様々な製品開発で本当に調子ええんですわ。でも、多くの人がGoogleの実力を忘れてしもてるみたいですね。
このビデオでは、Googleのエージェントが具体的に何をするのか、そして今年の初めにGoogleが実際に披露したデモと、GoogleのGeminiエージェントがどんな感じになりそうかをお見せしますわ。
今日、こんな記事が出ましたわ。Googleが、人のウェブブラウザを制御して、情報収集や商品の購入、航空券の予約などのタスクを実行する人工知能を開発してるらしいんです。これは製品を直接知る関係者の情報によるもんです。
面白いことに、この製品はProject Jarvisというコードネームで、先週アンソロピックが発表したものと似てるらしいです。
基本的に、GoogleがAIエージェントの開発に取り組んでるという確認が取れたわけですわ。これは非常に興味深いですね。というのも、昨年の初めに、残念ながらGoogleの社員の何人かが独自のAIエージェントスタートアップを立ち上げるために退社したという情報があったからです。
このAIエージェントの主な特徴は、ブラウザでの検索、商品の購入、航空券の予約など、GoogleのGeminiと連携してGoogleのエコシステムに直接組み込まれることになりそうです。
もちろん、Googleはこの製品を、次期フラッグシップモデルのGemini大規模言語モデルと共に12月にもプレビュー公開する予定とのことです。このGeminiは製品の動力源となるものですが、これはまだ暫定的な計画で変更される可能性もあるとのことです。
確かにこれはリークされた情報なので、内容が変更される可能性はありますが、Googleは既にエージェントがどんなものになるかを示す多くの異なるビデオを公開してますわ。それは後ほどお見せしますが、多くの人が見逃してしまったと思います。
12月という時期は十分あり得ると思いますが、他の企業が何をリリースするかにも左右されるでしょうね。現在のAI業界では、AIエージェントの決定的なリーダーは存在しません。アンソロピックは最近、エージェントの未来がどんなものになるかを示す素晴らしいものをリリースしましたが、現時点でAIエージェントの分野で圧倒的な製品はありません。
現在のAIエージェントは、モデルがほとんど何もできなかったGPT-2の時代に似てます。これは企業の功績を否定するものではなく、むしろ開発サイクルの本当の始まりにいることを示してるんです。
もちろん、次期Gemini大規模言語モデルと同時にリリースされるとも述べられてますので、Geminiと同時に発表するのか、それとも後に延期するのか、興味深いところですね。個人的には、Googleがこれを遅らせても早めても構いません。ただ、Googleにとって良いPRとなる状態でリリースしてほしいですね。
というのも、これまで何度も見てきましたが、ニュースメディアはGoogleのAIの問題を誇張した見出しを付けがちなんです。また、Googleは2022年にGoogleで推論手法を発明した研究者を雇用した後、OpenAIが9月に発表した推論機能を持つAIの開発も進めているとのことです。
これが何を指してるか分からない方のために説明しますと、最近のパラダイムシフトは、テストタイム計算に関するものです。このパラダイムは非常に有望に見えるので、Googleもこれに賭けてるんじゃないかと思います。
OpenAIのA1モデルを使ったことがある方なら分かると思いますが、応答は少し時間がかかりますが、その分、より深い洞察と多くの知識が含まれています。ほとんどの人にとってはこれらのモデルの使用例が限られているかもしれませんが、高度な研究やブレインストーミングには本当に素晴らしい能力を発揮します。
Googleはこれまでに多くのブレークスルーを達成してきました。もしGoogleがこの問題に取り組み、本当に優れたAI推論モデルを開発できれば、OpenAIのレベルに追いつき、あるいは追い越すことも可能でしょう。
ここで興味深いのは、Googleのエージェントがアンソロピックが発表したものと似ていて、コンピュータ画面のスクリーンショットを頻繁に撮影し、ボタンのクリックやテキストフィールドへの入力など、スクリーンショットを解釈して命令に応答するとのことです。
アンソロピックの最近のデモをご覧になってない方のために説明しますと、基本的にコンピュータ上の何かをスクリーンショットで撮影し、次のステップを決定するシステムです。スクリーンショットを撮って、「ここをクリックする必要がある」と判断し、そのスクリーンショットから次のステップを実行する、そういう仕組みです。
時には手動で特定の部分を変更する必要があるかもしれません。もちろん、これらのモデルはまだミスを起こすこともありますが、将来的には改善されると思います。
これは、このエージェントがどのように動作するかを示すものですが、私が特に興味深いと感じるのは、これがGoogleが既に持っている他のエージェントとどのように組み合わさるかということです。
前述したように、今年初めのGoogle I/Oで披露されたデモをお見せしますが、従来のブラウザとより滑らかに統合されているように見えます。
ここで、両社のエージェントの主な違いが示されています。アンソロピックの製品はコンピュータにインストールされた様々なアプリケーションを操作できるのに対し、Jarvisはウェブブラウザのみを操作でき、特にGoogleのChromeブラウザ向けに調整されているとのことです。
これは、個々のエージェントがブラウザで作業できるようになることで、インターネットを根本的に変えることになると思います。最終的にはコンピュータ全体に拡張されることは非常に凄いことですが、まずはブラウザ内での活動に限定することで、より制御しやすい環境が作れるでしょう。
変数をある程度制御できる閉じた環境でなら、うまくいく可能性が高いと思います。この重要な違いは、JarvisAIエージェントをコンピュータで使用したいと考えている方々にとって注目すべき点ですね。
また、Jarvisについてさらなる詳細も示されています。現時点では主に、日常的なウェブベースのタスクを自動化したい消費者をターゲットとしているとのことです。
これは、今年初めにSundar Pichaiが示唆した例を指しています。将来版のGeminiが靴の返品を手伝うために複数のアクションを自動的に実行できるというデモを、これから皆さんにお見せしますわ。
個人的に、もし12月にこれが実現すれば、本当の変化が起こると思います。Geminiがメールから領収書を探し、注文番号を見つけ、返品フォームに記入し、集荷のスケジュールまで設定してくれる…すごく便利ですよね？
もう一つ、もっと複雑な例を見てみましょう。シカゴに引っ越したとして、GeminiとChromeが協力して、多くのことを手伝ってくれることが想像できます。街の探索やクリーニング店からドッグウォーカーまで、近くのサービスを見つけたり、数十のウェブサイトで新しい住所を更新したり…Geminiはこれらのタスクを横断的に処理し、必要な時には追加情報を求めてくるので、常に制御は利用者側にあります。
これは非常に重要な点です。これらの体験をプロトタイプ化する際、私たちはプライバシーと安全性を確保し、誰もが使えるようにするための方法を慎重に検討しています。
これらは単純な使用例ですが、知的なシステムを構築することで、皆さんに代わって先を考え、推論し、計画を立てるという、私たちが解決したい問題のタイプをよく示しています。マルチモーダル性、長文脈、エージェントを備えたGeminiの力は、AIを誰にとっても役立つものにするという私たちの究極の目標に近づけてくれます。
Googleがこういったことを実現できそうなのを見ると、正直なところ、Googleはこれを即座に実行できそうな気がしますわ。人々は忘れがちですが、GoogleにはGmail、様々な企業との連携、Chromeブラウザなど、完全なエコシステムがあります。
ほとんどの人が使用しているので、もしGoogleが既存のプラットフォームを活用し、ここで見たように完璧に動作するAIエージェントを組み込むことができれば、多くの既存顧客にとって素晴らしく機能するはずです。
私の知る限り、ほとんどの人がGoogle Chromeを使用していて、これを全エコシステムに実装するのは本当に簡単でしょう。そのため、Googleがこの分野で優位性を確保できても驚きません。
もちろん、これも本当にクールだと思える例があります。これも今年初めにGoogleがデモンストレーションしたものですが、AIチームメイトについてです。これは素晴らしいと思います。
なぜなら、OpenAIが異なるタスクを特定のサイクルで実行できる自律型エージェントを持っていたように、プラグアンドプレイできるAIチームメイトだからです。前述したように、GoogleはこのAIエコシステムを持っているため、チャットができ、異なることができるチームメンバーを追加するのが本当に簡単になるでしょう。
ここでは、仮想的なGemini搭載チームメイトをプロトタイプ化する方法の一つをお見せします。このチームメイトには、アイデンティティ、ワークスペースアカウント、そして特定の役割と目的があります。
Tonyを呼んで、どういうことか見せてもらいましょう。ご覧の通り、チームメイトは独自のアカウントを持っており、名前を付けることができます。楽しく「Chip」とでもしましょうか。
Chipには、チームにとって役立つ方法についての説明とともに、特定の職務が与えられています。ここに示されているように、プロジェクトの監視と追跡、情報の整理とコンテキストの提供など、いくつかの仕事があります。
仮想チームメイトを設定したので、Chipの活動を見てみましょう。Google Chatに切り替えてみます。IOのようなイベントを計画する際、様々な目的のためのチャットルームがたくさんあります。
幸運なことに、Chipはそれらすべてに参加しています。素早くキャッチアップするために、「IOのストーリーボードは承認されたか知ってる？」というような質問ができます。
Chipはこのプロジェクトを追跡するように指示されているので、すべての会話を検索し、答えを見つけることができます。シンプルですが、とても役立ちますね。
チームがChipをより多くのグループチャット、ファイル、メールスレッドに追加するにつれて、Chipは私たちの作業の集合的な記憶を構築していきます。例を見てみましょう。
別の部屋に切り替えてみましょう。プロジェクトサファイアはどうでしょう。ここでは、近づいている製品リリースについて議論していて、いつものように細かい部分がまだ進行中です。
「ローンチは順調に進んでる？」と尋ねることができます。Chipはアクセスできるすべての情報を検索するだけでなく、見つけた情報を統合し、最新の応答を返してきます。
明確なタイムライン、よくまとめられた要約があり、最初のメッセージでChipがチームが注意すべき潜在的な問題を指摘していることに注目してください。
グループスペースにいるので、誰もが状況を把握でき、いつでも参加できます。誰かが問題に対処するためのドキュメント作成をChipに依頼したところです。
このようなタスクは私なら何時間もかかるかもしれませんが、Chipは数分で全てを完了し、準備ができ次第ドキュメントを送信できます。この実用的な有用性の多くは、Chipをチームのニーズに合わせてカスタマイズし、AIを既に働いている場所に直接シームレスに統合していることから生まれています。
さて、ほとんどの人が既にChromeを使って様々な旅行を計画したり、異なる旅行を計画したりしているのですが、Googleが「旅行を計画したい場合は、GoogleのGeminiエージェントを試してみてください」と言うのはどれほど難しいと思いますか？
例えば、誰かが「レイバーデーにマイアミへの旅行を予約したい」と検索すると、Googleはそのアカウントのユーザー詳細に基づいて自動的な提案を提供することができます。
「私はヴィーガン食のみ」「日光浴が好き」「このようなレストランが好き」といった情報を既に組み込んでおけば、エージェントはあなたに特化したレスポンスを提供できます。これにより、多くの時間を節約できます。
あなたのAIエージェントは、すべての詳細、食事制限、あなたの人生に関するすべての情報を持っているので、完璧にパーソナライズされた旅程を選ぶことができます。これは価値測定できないほど素晴らしいものになると個人的に思います。
チャットボットが次の休暇のアイデアを提供できることは皆知っていますが、素晴らしい旅行の計画にはもっと多くのことが必要です。空間、時間、物流を考慮し、優先順位付けや決定を行う知性が必要です。この推論と知性がGemini Advancedの新しい旅行計画体験に組み込まれています。
全ては質問から始まります。「マイアミに行きます。息子はアートが大好きで、夫はシーフードが大好きです。フライトとホテルの詳細は既にGmailの受信トレイにあります。」
このプロンプトには多くの要素が含まれています。誰もが自分のやりたいことを持っています。これらの変数を理解するために、Geminiは検索やマップ、Gmailなどの便利な拡張機能から様々な情報を収集します。
そのデータを使用して、私の優先事項と制約を考慮に入れた、可能な旅行オプションの動的なグラフを作成します。最終的には、Geminiの新しい動的UIで提示されるパーソナライズされた休暇プランとなります。
フライト情報に基づいて、Geminiは2日半の旅程が必要だと理解し、空間データを使用して決定を下しているのがわかります。私たちのフライトは午後遅くに到着するので、Geminiはその日の大きなアクティビティをスキップし、ホテルの近くの評価の高いシーフードレストランを見つけます。
日曜日は盛りだくさんの一日です。これらの推奨は気に入りましたが、家族は寝坊が好きなので、開始時間を変更するためにタップします。すると、Geminiは旅程の残りの部分を調整し、ウォーキングツアーを翌日に移動し、ストリートアートミュージアムの近くのランチオプションを追加して、日曜の午後を最大限活用します。
これは素晴らしいですね。複数のソースをチェックし、スケジュールを考えるのに何時間もかかったはずですが、Geminiはほんの一瞬でこれを行いました。
このAIエージェントについてもう少し情報があります。モデルが各アクションを実行する前に数秒間考える必要があるため、エージェントは現在比較的ゆっくりと動作すると、製品を直接知る2人が述べています。
基本的に、これを2回目に読んで初めて気付いたことですが、エージェントは各アクションを実行する前に数秒間考える必要があるため比較的ゆっくりと動作すると述べています。
もしこれが真実なら（これはリークであり推測に過ぎないことを覚えておいてください。事実かどうかは分かりません）、しかしOpenAIが行ったことや他の企業が行うであろうことを考えると、これはかなり真実味があると思います。
つまり、Googleはブラウザで実行するためのカスタムモデル、このタスク用に構築された推論モデルを開発したということになります。このタスクにGeminiをそのまま使用することはできないと思いますが、おそらくこのために特別なバージョンのGeminiを持っているのでしょう。
モデルが考えていて比較的ゆっくりと動作しているということは、そのようなモデルであることを示唆しています。つまり、Googleはこのモデルを様々なユースケースに使用できる可能性がありますが、多くの人が信じているほどGoogleが遅れをとっているわけではないことを示しています。
最後に、この記事では、GoogleはこのAIエージェントが個人データを安全に処理できることを人々に納得させる必要があると述べています。これには、タスクを完了したり顧客の要求に基づいて購入を行ったりするためにサイトにアクセスする際に必要なログインパスワードやクレジットカード情報などが含まれます。
もちろん、LLMが回答で誤りを起こしていることにも言及しています。Googleの検索エンジンでは、Redditのコメントなどが原因で、残念ながらいくつかの悪い回答がありましたが、これは時間とともにこのような小さな問題を解決できると思います。
Googleのエージェントについてどう思いますか？私は個人的に非常にワクワクしています。GoogleのUIの選択を考えると、非常に軽量で、本当によく機能するものになると思います。
というわけで、もしこの動画を楽しんでいただけたなら、これについてどう思うか教えてください。また次回お会いしましょう。