Googleの年次イベントで発表された大規模なAIアップデートを解説する動画。新しい動画生成AIモデルであるGemini Omniや、エージェント機能とコーディングに特化した高速モデルのGemini 3.5 Flash、さらに進化した開発プラットフォームであるanti-gravity 2.0、日常業務を自動化するGemini Sparkなど、多岐にわたる最新技術の概要とその特徴をわかりやすくまとめた内容である。

新しい動画生成AIモデルのGemini Omni
Googleは、大規模なAI関連の発表を行う彼らの年間最大のイベントを開催しました。しかし、ここで問題なのは、それが信じられないほど混乱しやすいということです。Gemini Omni、Gemini 3.5 Flash、Gemini Spark、anti-gravity 2.0、Google Pix、Google Flowなど、非常に多くの用語が登場します。とても圧倒されてしまいますよね。そこで、この動画ではこれらをシンプルな言葉に分解し、皆さんが知っておくべき主要な発表のすべてについてお話ししていきます。さあ、早速始めましょう。この動画をスポンサーしてくれたHubSpotに感謝します。
さて、彼らの最もクールな発表の一つが、Gemini Omniと呼ばれるこの新しいモデルです。これはGoogleの動画向け新しいAIモデルで、非常に柔軟です。Gemini Omniはマルチモーダルです。つまり、テキストのプロンプト、画像、動画、音声、あるいはそれらの任意の組み合わせを入力として受け取り、そこから動画を作成できるということです。例えば、この元の動画をアップロードして、プロンプトに、人が鏡に触れたとき、鏡が液体のように美しく波打ち、その人の腕が反射する鏡の素材に変わるようにしてください、と書くことができます。あるいは代わりに、こちらのようにこの人をモノクロのラインアートの絵に変えることもできます。他にも、この動画をアップロードして、Gemini Omniに編集させ、その人の手の穴がズームインして地面を拡大しているように見せることも可能です。
これはマルチモーダルなので、音声を含むあらゆる種類のメディアを理解できます。例えば、このアパートの明かりを音楽と同期して点灯させることができます。
さらに、異なるメディアを一度に掛け合わせることもできます。例えば、この動画とこちらの参考画像を入力し、彼の手のひらの上にこの建築物を出現させることができます。また、別の例もあります。背景を編集したり、オブジェクトを置き換えたり削除したり、カメラのアングルを変更したりすることさえ可能です。例えば、これが入力動画であれば、背景を公園に置き換えることができます。そして、バイオリンを削除することで、これをさらに洗練させることができます。さらに、カメラの位置を変更することで、これをもう一度調整できます。すべての生成において、詳細が矛盾なく一貫して保たれていることに注目してください。こちらは宇宙船の動画を取り込み、宇宙船を種や時計、あるいは赤いフリスビーといった別のオブジェクトに変更する例です。
私が特に感銘を受けているのは、特定の概念に関する教育的な解説動画を生成するのがどれほど得意かという点です。例えば、これはタンパク質の折りたたみのクレイアニメによる解説ですが、詳細のほとんどが正確です。こちらはもう一つの非常にトリッキーなプロンプトで、アルファベットの各文字の横にその文字で始まるアイテムが配置されていますが、これを非常にうまく生成できています。あるいは、このシダの動画に加えて、ホタルの参考画像、そしてハープの音の入力音声を掛け合わせるクールな例もあります。まずハープの音を再生してみますね。
そしてプロンプトで、私がシダの葉に触れた瞬間に同期してハープの音が鳴るように指示します。そして、こちらがその結果です。
こちらに、いくつかの追加の例があります。このように、既存の動画に写っている人を新しいキャラクターに簡単に置き換えることができます。他にも例があります。ただ、これは私にとってそれほど印象的なものではありません。私たちはすでに、cling freeやseed dance 2.0のように、同様のことができる他のオムニモーダル動画モデルを手にしています。そして、少なくとも私の初期のテストでは、Gemini Omniは解剖学的な正確さや激しいアクションシーンの観点において、seed dance 2.0ほど優れているようには見えません。少なくともそれが私の第一印象です。これについてはテストを続けますので、もし価値があるものであれば、完全なレビュー動画を作成します。今のところ、Gemini Omniはプロ以上のユーザー向けにGeminiアプリやGoogle Flowで利用できるようになるはずです。
エージェントとコーディングに特化したGemini 3.5 Flash
Gemini Omniに加えて、彼らは最高かつ最新のモデルであるGemini 3.5 Flashも発表しました。これは、知能においてはほぼプロレベルに感じられながらも、フラッシュモデルのスピードとスケールを維持することを目指したモデルです。これは特にエージェントとしての利用を狙っています。そのため、単に質問に答えるだけでなく、AIが計画を立て、ツールを使い、コードを書き、自分の作業をチェックし、多くのステップにわたって実行し続けなければならない、より長く複雑なワークフローのために構築されています。Googleによると、Gemini 3.5 Flashは、テキスト、画像、動画、音声、ドキュメントのマルチモーダルサポートを備え、エージェントやコーディングにおける最先端のパフォーマンスに最適であるとのことです。
これまでのGeminiモデルと同様に、1秒あたりの出力トークン数で見ると、他の最先端モデルよりも4倍高速です。これは重要なことです。なぜなら、モデルが思考し、ツールを呼び出し、修正し、大量の出力を生成しなければならない場合、エージェントのタスクは非常にコストがかかり、すぐに速度が低下してしまうからです。複数のサブエージェントを配置することができます。これは基本的に、大きなプロジェクトを小さな仕事に分割し、異なるAIワーカーを派遣してそれぞれの部分を担当させるようなものです。
いくつかの実践的なデモがあります。例えば、複数のエージェントを使って、乱雑で構造化されていない画像の名前を変更して整理させることができます。そして、これはマルチモーダルであるため、実際に各画像を分析して理解することができます。画像内の実際のコンテンツとアスペクト比に基づいて、それぞれの名前を変更することができるのです。しかも、これを非常に素早く行うことができます。
あるいは、こちらの一層印象的なデモでは、これが目標を達成するまで何時間も働き続けることができる様子を示しています。ここでは、エージェントのチームを使用して元のAlphazeroの調査論文を再現し、わずか2つのプロンプトからプレイ可能なバージョンを構築しました。生の強化学習パイプラインをコーディングしました。また、セルフプレイを通じてAIモデルをゼロからトレーニングし、最終的に対戦できるフルスタックのWebアプリを作成したのです。これらすべてをわずか数時間で完了することができました。
他にも、複数のエージェントが協力して新しい都市の景観を構築する、かわいい例があります。それぞれのエージェントが都市の一つのセクションに取り組んでいるのがわかります。
際立っている主な点は、これが単に高速になったチャットボットではないということです。Googleは、Gemini 3.5 Flashがこれまでで最強のエージェントおよびコーディングモデルであると述べています。MCP AtlasやSwathlon、さらにはCharive Reasoning MMU Proといったいくつかの厳しいコーディングおよびエージェントのベンチマークにおいて、Gemini 3.1 Proをも上回っています。そして、これがプロバージョンよりも小さいはずのフラッシュモデルにすぎないということを覚えておいてください。
そうは言ったものの、artificial analysisによるこの独立したリーダーボードでのパフォーマンスを見ると、Gemini 3.5 FlashはGPT-5.5やOpus 4.7を含む最先端モデルにまだ後れをとっていることがわかります。しかし、これはフラッシュバージョンにすぎず、プロバージョンが間もなく登場することを忘れないでください。実際、噂によると彼らは来月プロバージョンを展開することを計画しているようです。
いずれにせよ、この新しい3.5 Flashバージョンについては、現在Google anti-gravityを介して利用可能です。これについてはこのすぐ後に説明します。さらにGoogleのAI Studio(ai-studio.google.com)でも利用できます。こちらのトップにある場所で、最新のGemini 3.5 Flashを選択できます。また、Geminiアプリや検索のAIモードのすべての人にも提供されています。そのため、例えばGoogleでAIモードをクリックしてこれをクリックすると、すでに3.5 Flashが使用されているはずです。そして、これが信じられないほど高速であることに注目してください。
進化したコーディングプラットフォーム anti-gravity 2.0
次に、Googleはanti-gravity 2.0も導入しました。これはGoogleの新しいエージェント型コーディングプラットフォームです。彼らは昨年最初にバージョン1をリリースしましたが、それは基本的にWindsurfやCursorのクローンでした。これはコードベースでエージェントに作業を指示できるIDEですが、このIDEのインターフェースはもう時代遅れです。そしてここ数ヶ月で、CursorやWindsurfはある種、影が薄くなりつつあります。代わりに、現在最も人気のあるエージェント型インターフェースはOpenAIのCodexとclaude codeです。IDEの代わりに、これらはよりシンプルに見え、基本的には複数のエージェントを同時にオーケストレートできるチャットインターフェースです。
この新しいanti-gravityバージョン2も、同じことを行うことを目指しています。コードの行を一度も見ることなく、複数のエージェントとただ作業を進めることができる、エージェントチャットインターフェースのように見えます。並行作業のために動的なサブエージェントを立ち上げたり、自動化のためのタスクをスケジュールしたり、複数のアプリ間でワークフローを接続したりできます。
これはanti-gravityにおけるGemini 3.5 Flashのデモで、エージェントの軍隊を使用して、完全にゼロからオペレーティングシステムを作成しています。それ自体で反復処理を続けることができ、約12時間で完全に機能するオペレーティングシステムを作り上げました。そして、Doomをプレイすることができました。
最新のGemini 3.5 Flashは、すでにanti-gravity 2.0で利用可能です。これはエージェントのワークフローに最適です。なぜなら、新しいフラッシュモデルは4倍高速だからです。特に、ファイルの読み込み、コードの生成、ツールの呼び出し、結果のチェック、エラーの修正、そしてそれを何度も繰り返すことが頻繁に含まれるこれらのエージェントツールを操作しているときはなおさらです。私がCodexやclaude codeを使用する場合、タスクが完了するまでに通常数分かかりますが、Gemini 3.5 Flashを搭載したanti-gravityは、これをはるかに速く処理することができます。
毎日をサポートするGeminiアプリのアップデート
anti-gravityに加えて、GoogleはGeminiアプリへの巨大なアップデートも発表しました。単に会話をするチャットボットであるだけでなく、一日を通じてあなたをサポートしてくれる、よりプロアクティブなアシスタントへと移行しつつあります。
例えば、新しいデイリーブリーフ機能があります。これは、接続されたアプリ間で機能する、パーソナライズされた朝のダイジェストです。オプトインすると、GeminiはGmailのアップデート、今後のカレンダーの予定、関連するフォローアップの詳細などを確認し、すべてを要約して1日を始めるためのブリーフィングとしてパッケージ化してくれます。しかし重要な部分は、すべてをランダムに要約しているわけではないということです。Googleによると、あなたの目標に基づいて整理し、優先順位を付け、次のステップを提案し、あなたのフィードバックから時間をかけて学習していくことができるとのことです。ここには、デイリーブリーフは本日よりGoogle+のサブスクライバー以降に向けて、米国から順次展開されると書かれています。
皆さんはSEOについて多くのことを耳にしてきたと思いますが、ほとんどのブランドがまだ追跡していない、SEOと並ぶ新しいチャネルが開かれつつあります。買い手はもはやGoogleだけで検索しているわけではありません。彼らはChatGPT、Gemini、Perplexityといったツールにおすすめを尋ねています。そして、それらの回答エンジンは、人々がどの企業を発見し、信頼し、選択するのかを形成し始めています。
そこで大きな疑問があります。誰かが回答エンジンにあなたのカテゴリーでの最適なソリューションを尋ねたとき、あなたのブランドは表示されるでしょうか。そして、もし表示されるとしたら、それは実際にあなたについて何を語っているでしょうか。それを見つけるのに役立つのが、HubSpotのAEOグレーダーです。AEOとは、回答エンジン最適化を意味します。そして、この無料ツールは、ChatGPT、Gemini、Perplexityが、彼らのトレーニングデータに基づいてあなたのブランドをどのように特徴付けているかを示してくれます。
会社の名前、業界、そして販売しているものを入力すると、グレーダーが質問を処理します。3つすべての回答エンジンを照会し、5つの次元にわたってあなたのブランドを100点満点でスコアリングします。センチメント、存在感、品質、ブランド認知度、シェア・オブ・ボイス、そして市場競争です。そのため、単に表示されているかどうかを確認するだけでなく、回答エンジンがあなたについてどのように語っているか、その認識がポジティブなのかネガティブなのか、競合他社と比べてどうなのか、そしてどこにギャップがあるのかを確認しているのです。
私のお気に入りの部分はセンチメントの内訳です。全体的なトーンを教えてくれるだけではありません。回答エンジンがあなたの製品を称賛している一方で、カスタマーサポートにフラグを立てているかどうか、あるいはその逆など、異なる文脈によってセンチメントがどのように変化するかを示してくれます。これがどのようなものかお見せしましょう。AEOグレーダーを立ち上げて、私のブランドをこれにかけてレポートを確認してみます。
ここで重要なことがあります。もし競合他社があなたよりも高いスコアを獲得しているなら、それは買い手があなたのサイトを訪れる前に、回答エンジンがあなたよりも彼らを推奨していることを意味します。ですから、このAEOグレーダーは非常に洞察力に富んでおり、完全に無料です。リンクは下の概要欄にあります。この動画をスポンサーしてくれたHubSpotに感謝します。
24時間稼働する個人エージェント Gemini Spark
もう一つの大きな発表は、Googleの新しい24時間365日稼働する個人エージェント、Gemini Sparkです。これはGoogle版のOpenCawのようなものです。SparkはGemini 3.5で動作し、Gmail、Docs、SlidesなどのWorkspaceツールと深く接続されています。主な違いは、Sparkがクラウドベースであるため、ノートパソコンを閉じたりスマートフォンをロックしたりした後でも働き続けることができる点です。
タスクを監視し、情報を追跡し、時間をかけてワークフローを完了するのを支援できるAIアシスタントだと考えてください。学校のアップデートがないかインボックスをチェックさせたり、重要な締め切りを抽出させたり、あなたとパートナーに毎日のサマリーを送信させたりするように教えることができます。あるいは、メールやチャットから生の会議メモを取り込み、それらを洗練されたGoogleドキュメントに合成したり、プロジェクトを開始するためのメールの下書きを作成したりするよう依頼することもできます。アプリ間に散らばった情報を取り込み、整理されたアクションへと変えてくれるのです。ここには、Gemini Sparkは今週信頼できるテスターに展開され、来週には米国のUltraサブスクライバー向けのベータ版として展開される予定であると書かれています。
検索体験を刷新する新しいGoogle検索
Googleはまた、Google検索の大幅な再設計も発表しました。主なアイデアは、検索がもはや検索語を入力して大量のリンクを表示する場所ではなくなるということです。何でも質問して即座に回答を得たり、ミニアプリを構築したり、進行中のタスクのサポートを受けたりできる場所へと変わりつつあります。
この新しいAIを搭載した検索ボックスは動的に拡張されるため、実際に何が必要なのかを説明することができます。昔ながらのオートコンプリートをはるかに超えたAIの提案により、質問の形を整えるのを手助けしてくれます。そして、テキストだけでなく、画像、ファイル、動画、あるいはChromeのタブを入力として使用して検索することができます。これにより、写真などの手元にあるコンテキストが何であれ、検索が理解できる質問へと変換されます。
体験はより会話的なものにもなります。ここにおいて、Google検索は検索エンジンというよりも、質問した後に働き続けてくれるAIヘルパーの集まりのように感じられます。Googleは、背景で24時間365日動作し、あなたが気になることなら何でもウェブを監視するインフォメーションエージェントから始めています。基本的には、エージェントに非常に具体的な質問や目標を与えると、ブログやニュースサイト、ソーシャルメディア、そして金融のような新鮮なリアルタイムデータを監視し続けます。そして何かが変化すると、有用な次のステップを含んだ合成されたアップデートを送信してくれます。
そのため、飛行機を予約したりアパートを探したりしている場合、場所、価格、広さなどの正確な要件をブレインダンプすれば、エージェントが一致するリスティングをスキャンし続けることができます。これにより、通常なら毎日行うことになる繰り返しの検索が、代わりにチェックし続けてくれるバックグラウンドアシスタントへと変わります。そして、この機能は今夏、AI ProおよびUltraのサブスクライバー向けにローンチされます。
Googleは検索の内部にエージェント型の予約機能も追加しています。そのため、検索は情報を探すだけでなく、それに基づいて行動するのを手助けしてくれます。金曜日の夜に6人用のプライベートカラオケルームといった具体的なものを依頼すると、検索が実際に最新の価格と空き状況をまとめ、選択したプロバイダーを通じて予約を完了するためのダイレクトリンクを提供してくれます。
そして、私のような内向的な人間にとって最も有用な機能だと思うのは、検索が私の代わりにビジネスに電話をかけてくれる機能です。そのため、住宅修理、美容、ペットケアといったカテゴリーにおいて、誰が対応可能でいくらかかるのか、あるいは彼らがあなたの要望を扱えるかどうかをあちこちに電話して尋ねる代わりに、Googleにその作業の一部を依頼することができます。現在、これらの予約および通話機能は、今夏に米国を皮切りにすべての人に展開される予定です。
次に、Google検索のエージェント型コーディングの側面がありますが、これは非常に興味深いです。Googleはanti-gravityと彼らの新しい3.5 Flashのコーディング能力を検索に直接持ち込んでいます。そのため、検索は臨機応変にカスタムインターフェースを生成することができます。このように考えてみてください。質問をして段落のテキストを受け取る代わりに、その質問のために特別に作られたカスタムの視覚的ツール、グラフ、あるいはシミュレーションを受け取ることができるかもしれません。そのため、例えば天体物理学を理解しようとしたり、何かがどのように機能するかを視覚化しようとしたりしている場合、Google検索がリアルタイムでインタラクティブな説明を組み立てることができます。一部のトピックは、単にテキストを読むだけでなく、視覚化されたものを見たり、それとインタラクションしたりできる方が理解しやすいため、これは重要なことです。Googleによると、この機能は夏に検索のすべての人に利用可能になるとのことです。
単発の視覚的な回答にとどまりません。Googleによると、検索は進行中のタスクのためのカスタムダッシュボードやトラッカーを構築することもできるようになるとのことです。これらは、検索の内部に作成された小さなカスタムアプリのようなものだと考えてください。例えば、新しい健康や運動のルーティンを始める場合、検索にフィットネストラッカーを構築するよう依頼することができます。検索がそれをコーディングし、新鮮なリアルタイムのソースと接続し、毎週何度も戻ってくることができるものを提供してくれます。
最後に、GoogleはAIモードにおけるパーソナルインテリジェンスを拡張しています。これは、Gmail、Googleフォト、カレンダーなどのアプリを接続することを選択した場合にのみ、検索があなたの個人的なコンテキストを理解することによって、より有用になることを意味します。アイデアとしては、検索がウェブを知っているだけでなく、メール、写真、今後の予定など、あなたの生活のコンテキストも理解すべきだということです。Googleは、これが透明性と選択性を持って設計されていると述べています。そのため、望むのであればオプトアウトすることを選択できます。したがって、今後数ヶ月の間に、Googleの検索ははるかにパーソナライズされ、自動化されることが期待できます。単にリンクのリストを提供するだけでなく、あなたの個人的なコンテキストをより多く理解し、検索作業の大部分をあなたの代わりに行ったり、インターフェース内にインタラクティブなツールやミニアプリを直接生成したりできるようになります。
生産性を革新するGoogle Workspaceの進化
Google検索へのこれらのエキサイティングな発表に加えて、GoogleはGoogle Workspace向けのいくつかの巨大なアップデートも発表しました。これには、Google Docs、Sheets、Slides、Calendarなどが含まれます。ここでのアイデアは非常に明確です。Workspaceは、手動で操作するアプリから、あなたと一緒に行動を起こすAI駆動のアプリへと移行しています。Gmail、Docs、Drive、Slidesを別々のツールとして開き、すべての作業を自分で行う代わりに、自然に話し、雑多なアイデアを投げ出すだけで、エージェントが自律的に作業を行ってくれる、より接続されたAIワークスペースへと変えようとしています。
最初の大きなアップデートは音声です。GoogleはGmail、Docs、Keepに新しい会話機能を提供しているため、タイピングする代わりに話す速度で物事を完了させることができます。Gmail Liveでは、フライトがどのゲートにあるか、あるいは今週子供の学校で何が起きているかなど、インボックスに向かって大声で質問することができ、メールを検索して回答を合成してくれます。これにより、乱雑なインボックスから、メールを掘り起こすことなく必要な正確な情報を出力してくれます。
彼らは、音声駆動の執筆パートナーであるDocs Liveも導入しました。基本的には、アイデアをとりとめもなく話したり、ラフな下書きを語りかけたり、声に出してブレインストーミングしたりすることができ、Docsがあなたの思考を整理して書き出すのを手伝ってくれます。洗練されたプロンプトを必要とする代わりに、ただ声に出して考えるだけで、Docsがそれをインプットとして使いやすいものに変えるのを手助けしてくれます。よし、これを試してみましょう。
明日、母校のキャリアデーで同窓生としてスピーチをすることをちょうど思い出しました。ソフトウェアエンジニアとして生活のために何をしているかを説明するためのトークポイントをいくつか考える必要がありますが、どこから始めればよいのかよくわかりません。ああ、実は、Driveから私の履歴書を引っ張ってきてもらえますか、ただそれだと退屈かもしれませんね。学生たちにとってより魅力的なトークになるように、何か面白い比喩を考えてもらえますか。あ、それから、学校がメールを送ってきたと思います。件名はキャリアデーのロジスティクスのようなものだったはずです。そこから詳細を掴んで、ドキュメントのトップに放り込んでおいてください。そうすれば、どこに何時に行けばいいのかわかりますから。それらの要件を更新して、これをそのまま下書きに変えてみましょう。
これはクールですが、少し密集していますね。もう少しスキャンしやすくなるように、比喩をテーブル形式にしてください。それから、私の兄がソフトウェアエンジニアになるインスピレーションをくれたという話を、ドキュメントのトップあたりに追加して、見逃さないように太字にしてください。ええ、素晴らしいですね。
そして、もしGoogle Keepに馴染みがない場合、これはGoogleのメモ作成アプリのようなものです。これも同様のアップグレードを受けています。Keepにブレインダンプするだけで、背景でAIが散らばった思考を整理されたメモに変えてくれます。これらの音声機能は、この夏にまずプロおよびウルトラのサブスクライバーと、ワークスペースビジネスの顧客に展開されます。
もう一つの大きなアップデートはGoogle Picsです。これはGoogleフォトとは異なるので、その2つを混同しないでください。これは、彼らのnano bananaモデル上に構築された、新しい画像作成および編集ツールです。AI画像モデルを使用していると、ほぼ正しい画像が得られたものの、1つの小さな変更を行うために最初からやり直さなければならないという、非常に一般的な問題によく直面します。Google Pixは、この画像編集をよりスムーズにするように設計されています。より高い精度でビジュアルを生成、編集、調整できます。特定のオブジェクトを選択し、画像の他の部分を変更することなく、それらを移動、サイズ変更、または変形させることができます。
これ単体では、Google Pixはそれほど印象的なものではありません。つまり、同様の画像編集ツールはすでに世の中に存在しています。しかし、これのクールな点は、Docs、Slides、DriveといったGoogle Workspaceに直接統合されていることです。そのため、タブ間を行き来する代わりに、すでに作業している場所でビジュアルを編集できます。現在、Google Pixはまず信頼できるテスターの限られたグループに向けてローンチされます。その後、今夏にプロおよびウルトラのサブスクライバーに向けてグローバルに展開される予定です。
そしてAI Inboxがあります。これは基本的には、Gmailを圧倒されにくくするためのGoogleの試みです。インボックスを一つの巨大なメッセージの山として扱う代わりに、AI Inboxは実際に重要なものを探します。重要なアップデート、時間に追われるタスク、返信する必要があるもの、そして確認する必要があるファイルです。新しいバージョンはパーソナライズされた返信を生成できます。そのため、メールに迅速な返信が必要な場合、確認して送信を押すだけでよい返信をすでに用意してくれます。また、正確なGoogleドキュメント、スプレッドシート、スライド、または添付ファイルの場所を特定して表面化させることもできます。そのため、適切なファイルや添付ファイルを探してメールをスクロールし続ける必要はありません。
最後に、WorkspaceもGemini Sparkを搭載します。これがOpen Clauseのようなものであることを思い出してください。つまり、24時間365日稼働する個人エージェントです。Sparkは単に質問に答えるためにそこにいるわけではありません。Workspaceアプリに接続されながら、あなたの代わりにアクションを起こすように設計されています。Gmail、Docs、Calendarなどにわたって、物事を監視、整理、準備するのを手伝ってくれるアシスタントがいるようなものです。
そのため全体として、これらのWorkspaceのアップデートは、一つの派手な機能というよりも、より広範な方向性に関するものです。Googleは、日々の生産性をより自然で、手動の作業を減らしたものにしようとしています。タイピングする代わりに話し、慎重にフォーマットを整える代わりにブレインダンプし、AIエージェントに話しかけるだけで、作業の大部分を自律的に行う手助けをしてくれます。
現実世界に溶け込むAndroid XRスマートグラス
次に、これは私が最も興奮している機能です。Googleは彼らの新しいAndroid XRスマートグラスも披露しました。私たちはついに、単なるSFのデモから、実際に毎日身につけるかもしれないものへと移行しつつあると思います。これらはサムスンおよびクアルコムと共に構築され、Geminiによって動力を与えられているメガネであり、スマートフォンを取り出すことなく現実世界であなたを助けるように設計されています。周囲の世界に目を向けたままで、メガネを通じてGeminiに質問することができます。
ここで彼らは、2つのタイプのスマートグラスが登場すると述べています。1つ目はオーディオメガネで、プライベートなオーバーイヤースピーカーを通じて音声によるサポートを提供します。2つ目はディスプレイメガネで、必要なときに視界の中に情報を直接表示してくれます。そしてここでの重要な点は、Geminiが単に音声アシスタントとしてメガネの中に座っているだけではないということです。あなたが何を見ているかを理解し、質問に答え、物事を完了するのを手助けしてくれます。
そのため、レストランの前を通りかかったときにレビューを求めることができます。紛らわしい駐車禁止の標識を見つめている場合、Geminiがそれを解読してくれます。基本的には、現実世界の周囲の環境を入力として受け取り、必要なときにまさに有用な文脈を出力してくれるのです。それが、メガネをAIにとって非常に興味深いフォームファクタにしている理由です。
ナビゲーションもここでの大きなユースケースです。メガネはあなたがどこに立っていて、どの方向を向いているかを知っているため、より自然なターンバイターン方式の道案内を提供できます。Geminiはルートに立ち寄り先を追加したり、あなたの好みに基づいて近くのレストランを見つけたりすることもできます。メガネは通信やメディアも処理するため、ポケットに手を伸ばすことなく、通話を管理し、テキストを送信し、見逃したメッセージのサマリーを聞き、音楽を聴くことができます。
翻訳も、メガネにおいて特に有用であることが明らかにわかる、もう一つの役立つ機能です。Geminiは、元の話し手のトーンやピッチに合わせた音声で、リアルタイムに発話を翻訳できます。あるいは、メニューや標識のテキストを見るだけで、その翻訳を聞くことができます。旅行の際にも、スマートフォンを不器用に掲げたり、テキストをアプリにコピーしたりする必要はありません。ただ見て、尋ねるだけで、リアルタイムに翻訳を得ることができます。ここには、このメガネがAndroidとiOSの両方のスマートフォンとペアリングされると書かれています。そのためGoogleは、これを一つのスマートフォンのエコシステムに閉じ込めるのではなく、より広く有用なものにしようとしています。全体として、これらの新しいAndroid XRスマートグラスは、AIを画面の中に閉じ込められたものとしてではなく、現実世界を通じてあなたと一緒に移動するもののように感じさせるためのGoogleの試みです。
スケールを支える第8世代TPUインフラストラクチャ
さて、私がGoogleに対して非常に強気である最大の理由の一つは、彼らのGeminiモデルのためではなく、彼らのインフラストラクチャのためです。おわかりのように、彼らはこれまでずっとAIと機械学習のためのチップを構築してきました。そして、ビデオゲームなどに使用できるGPUを製造しているNvidiaとは異なり、Googleのテンソル・プロセッシング・ユニット、すなわちTPUsはAIに特化しています。彼らはどの企業よりも、スケールにおいて最も効率的なAIインフラストラクチャを備えていると言えますが、彼らは第8世代のTPUを導入したばかりです。
実際、AIパイプラインの異なる部分向けに2つの新しいチップがあります。1つのチップはTPU8Tと呼ばれ、これは大規模なモデルのトレーニング用に構築されています。もう1つはTPU8Iと呼ばれ、これはインファレンス、つまりすでに展開されたAIモデルを実行するために構築されています。これにより、AIにおける2つの最大の仕事である、モデルの作成とそのモデルのユーザーへの提供を、それぞれの仕事向けに設計された特殊なハードウェアに分割します。
まずトレーニングチップについて説明しましょう。この8Tは、モデルの開発サイクルを数ヶ月からわずか数週間に短縮するように設計されています。さらに、単一のTPU8Tスーパーポッドは、2ペタバイトの共有高帯域幅メモリ、121エキサフロップスの計算能力、および前世代の2倍のチップ間帯域幅を備え、9,600個のチップまでスケールアップできます。基本的に、このスーパーポッド全体が、大規模な共有メモリプールを備えた1つの巨大なAIトレーニングエンジンのように動作します。そのため、極めて複雑なモデルを非常に効率的にトレーニングできます。Googleはまた、8Tが前世代と比較してポッドあたり3倍の計算パフォーマンスを提供し、97%以上のグッドプットを目標としているとも述べています。これは基本的に、待機や再起動からの回復ではなく、クラスターの時間の大半が実際の作業に費やされることを意味します。このスケールでは、わずかな割合の改善であっても、数日間のトレーニング時間を節約することができます。
次に、インファレンス用に構築されたTPU8Iがあります。これは、人々がGeminiにプロンプトを入力したときに使用されるモデルに電力を供給することを意味します。そのため、何百万人ものユーザーがGeminiに質問するとき、このTPU8Iがこれらの応答を迅速に提供するために設計されたチップです。そして、それが解決しようとしている大きな問題はレイテンシです。あるAIエージェントが別のエージェントに助けを求め、次にツールを呼び出し、結果をチェックし、さらに別のモデルに何かを修正するよう依頼する場合、小さな遅延が急速に積み重なる可能性があります。
現在、TPU8Iは288GBの高帯域幅メモリと、前世代の3倍にあたる約400MBのオンチップSRAMでこの問題に立ち向かっています。彼らはインターコネクトの帯域幅も2倍にし、最大ネットワーク直径を半分以下に削減する新しいボードフライアーキテクチャも導入しました。そのため全体として、これらの変更により前世代と比較して80%優れたパフォーマンスが提供されます。
ここでのもう一つの主要なテーマは効率性です。Googleは、現代のデータセンターにおいて、電力はチップの供給と同じくらい制限要因になり得ると指摘しています。それらを効率的に実行し、効率的に冷却し、膨大な量のエネルギーを無駄にすることなくそれらの間でデータを移動させる必要があります。新しい第8世代のTPUは、前世代と比較してワットあたり最大2倍優れたパフォーマンスを提供します。要約すると、Googleのデータセンターは現在、5年前と比較して電気単位あたり6倍の計算能力を提供しており、これは非常に注目に値することです。
ともあれ、これがGoogle IOからのすべてのハイライトと発表のまとめになります。これについてどう思うか、コメント欄で教えてください。いつものように、私は皆さんと共有するためのトップのAIニュースやツールを警戒し続けます。ですから、この動画を楽しんでいただけたなら、高評価、共有、チャンネル登録を忘れずに、さらなるコンテンツを楽しみにしていてください。また、AIの世界では毎週非常に多くのことが起きており、私のYouTubeチャンネルですべてを網羅することは到底不可能です。そのため、AIで起きているすべての最新情報を本当に維持するために、私の無料の週刊ニュースレターをぜひ購読してください。それへのリンクは下の概要欄にあります。


コメント