Google I/O 2025で発表されたすべてを徹底解説

8,168 文字

Google DELIVERED - Everything you missed from I/O 2025

Can anyone keep up with Google?Join My Newsletter for Regular AI Updates 👇🏼 The Best AI Tools👇🏼

私はGoogle I/Oから戻ったばかりですが、Googleは本当に信じられないほど多くの新製品を発表しました。そのすべてを皆さんに詳しく解説していきます。しかし始める前に、私はGoogleのCEOであるサンダーにインタビューする機会を得ました。そこで彼とワールドモデル、知能爆発、検索の未来などについて話し合いました。
まだチャンネル登録をしていない方は、そのビデオが公開される際の通知を受け取るために、ぜひチャンネル登録をお願いします。
さて、まず最初にお話ししたいのは、GoogleのAIイニシアチブを取り巻く状況がいかに急速に変化したかということです。忘れてしまいがちですが、つい1年ほど前、多くの人々がGoogleのAI戦略を疑問視していました。
そしてその後、前回のGoogle I/Oの際には、あまりにも評判が悪かったように見えました。しかし1年後の今、私たちはここにいます。そして見てください、彼らは猛烈なペースで製品を出荷しています。AlphaFold 3、Imagine 3、Gemma 2がありました。これらはすべて2024年の出来事です。これらすべての発表を見てください。Project Mariner、Gemini 2.0 Flash Thinking、Gemini 2.5、2.5 Pro、Gemma 3 Robotics、Alpha Evolveなど。
このイベント全体のテーマは、彼らが過去10年以上にわたって行ってきた研究を製品に落とし込むことです。彼らはついに、長い間取り組んできたすべての研究作業を製品化しているのです。こちらが各主要モデルリリースにおけるELOスコアの改善です。
しかし、それが最も興味深いことではありません。Googleについてだけでなく、人工知能全般について物語っていることをお見せしましょう。これをご覧ください。2024年を通じて、こちらが月次で処理されたトークン数です。9.7兆です。これはGoogleの数字です。かなり多く聞こえますが、これを見てください。現在、私たちは月間480兆トークンを処理しています。
これは1年でおよそ50倍の増加です。彼がこの数値を発表した時、会場からは聞こえるほどのどよめきが起こりました。1年で10兆から500兆近いトークン処理への増加は異常です。これは人工知能のユーザー単位での採用を物語るだけでなく、人々がAIを使用する際の使用深度も示しています。
それだけでなく、もちろん今では多くのトークンを使用する思考モデルもあります。これらの要因がすべて組み合わさって、1年で50倍という数字が本当に驚異的に見えるのです。そして覚えておいてください、このビデオを見ている皆さん、私たちは皆まだ非常に早い段階にいます。その変曲点のまさに始まりにいるのです。ですから、この世界にいることは本当にエキサイティングな時代です。
次にお話ししたいのは、現在Google Beamと名前が変更されたProject Starlineについてです。覚えていない方のために、イベントからこのクリップを再生してみましょう。数年前のI/OでのProject Starline、私たちの画期的な3Dビデオ技術です。目標は、遠く離れていても同じ部屋にいるような感覚を作り出すことでした。
私たちは技術的な進歩を続けており、今日、次のチャプターを発表する準備が整いました。AI第一のビデオコミュニケーションプラットフォーム、Google Beamをご紹介します。
私はこれを試してみましたが、本当に素晴らしいものでした。ニンテンドー3DSを使ったことがあれば、それに似た感覚が目に来ます。完全に3次元のスクリーンを見ているという意味で、3次元に見えるのです。彼らがやっていることは、複数のカメラを使ってあなたのビデオを撮影し、それを人工知能を使って再現して、他の人に3D空間で見せることです。実際に見ると本当に異次元的です。
最初は目が慣れるのに少し時間がかかり、頭痛が始まりそうだと思いましたが、リラックスして向こう側の人と会話することを許可すると、素晴らしかったです。ある時点で、彼がリンゴを取り出して私の前に差し出したとき、まるでスクリーンからそのリンゴに手を伸ばして掴めるような感覚でした。本当にクールでした。
これは実際には企業向けです。誰かと同じ部屋にいるような感覚でミーティングを行うためのものです。おそらく、消費者向けデバイスでこれをすぐに見ることはないでしょう。
次はProject Astraです。その一部が携帯電話のGeminiアプリに組み込まれています。基本的に、カメラを使って現実世界とやり取りできるようになります。何かにカメラを向けることができます。物事を覚えてくれます。それが何かを教えてくれます。あれは何の木ですか、あれは何の動物ですか、眼鏡をどこに置いたでしょうかなど、たくさんのクールな使用例があります。以前に見たことがあり、私は日常的にビジュアル人工知能をより多く使い始めています。
彼らはAstraの実際の動作について本当に面白いビデオを再生しましたので、それをお見せしましょう。
「それはかなり素敵なコンバーチブルですね。」「ゴミ収集車をコンバーチブルと間違えたようですね。他に何かお手伝いできることはありますか？」「この細い建物は私の近所で何をしているのですか？」「それは建物ではなく街灯です。」
「なぜこれらのヤシの木はこんなに短いのですか？心配です。」「短くありません。実際にはかなり背が高いです。」「すごいコンバーチブルですね。」「またゴミ収集車です。他に何か？」「なぜ人々は私の芝生に荷物を配達し続けるのですか？」「荷物ではありません。それはユーティリティボックスです。」「なぜこの人は私が歩くところどこでもついてくるのですか？」「誰もついてきていません。それはただのあなたの影です。」
Geminiは、あなたが間違っている時にそれを教えるのがかなり得意です。これはすべてGemini Liveと呼ばれ、今日からロールアウトが始まります。
次はProject Marinerです。これはウェブとやり取りできるエージェントです。もちろん、これの多くの反復を見てきました。OpenAIのOperatorを見てきました。Browser Baseがあります。Runner H、類似のことを行っている多くの素晴らしいプロジェクトや企業があります。しかし、これはGoogleのバージョンです。
今日発表していることの一つはマルチタスキングです。それについてはすぐにお見せします。しかし、それが本当にこれらの非同期エージェントの力です。一つのエージェントを開始して、長期的なタスクを実行させ、次のエージェントの設定と開始を始めることができる時です。そして、数分から数時間まで、非常に長期的なタスクで動作する数十のこれらのエージェントを持つことが可能です。
これはコンピューター使用エージェント、ツール、メモリです。これらはすべて異なる部分がプロジェクトで一緒になってきています。まだ非常に初期段階であり、まだかなり頻繁に壊れることは確実ですが、これは始まりに過ぎません。彼らはまた、Chrome、検索、Geminiアプリという3つの主要プラットフォームにGentic機能が登場することを発表しました。
そしてもちろん、彼らはそれをエージェントモードと呼んでいます。AIモードがあり、エージェントモードがあります。イベントでサンダーが行ったデモをお見せしましょう。
あなたと2人のルームメイトのためにオースティンでアパートを見つけたいとしましょう。それぞれの予算は月1,200ドルです。洗濯機乾燥機、または少なくとも近くにコインランドリーが欲しいとします。通常なら、無限のリストをスクロールして多くの時間を費やさなければなりません。
エージェントモードを使用すると、Geminiアプリが舞台裏で働きます。Zillowなどのサイトからあなたの基準に一致するリストを見つけ、必要に応じてProject Marinerを使用して非常に具体的なフィルターを調整します。チェックアウトしたいアパートがあれば、GeminiはMCPを使用してリストにアクセスし、あなたの代わりにツアーのスケジュールまで組んでくれます。
そして必要な限り新しいリストを閲覧し続けます。
私が最も興奮していることがあります。私はYouTube、Gmail、カレンダーなど、非常に多くの異なるGoogleサービスを使用しています。私のビジネスはGoogle Appsで運営されています。ですから、彼らが行おうとしていることは、この非常にパーソナルなAIアシスタントが、Googleエコシステム内で使用するすべての異なるサービスからコンテキストを取得できるようにすることです。
これは本当に、私の考えでは、AIパーソナライゼーションの聖杯です。すべてのコンテキストを持つだけでなく、AIとのやり取りについての長期記憶を追加する時、それが真に素晴らしい、高機能なパーソナルアシスタントを持つ時なのです。彼らが提供したデモの一つは、Gmailでのパーソナライズされたスマート返信です。
私にとって究極のAIメールプロジェクトは、メールを開いて返信のドラフトが準備されていて、送信を押すだけの状態になっていることです。そしてそれらのドラフトは、その連絡先との過去のやり取りの履歴、すべての連絡先との過去のやり取りの履歴、私が提供する他の情報から得られる他のコンテキストに基づいています。
それは非常に多くの時間を節約してくれるでしょう。そして今、パーソナライズされたスマート返信でその方向に少し進んでいます。Gmailを開いて、すべてのメールに私がレビューして送信を押すだけのドラフトが準備されている状態にはまだ完全に到達していません。しかし、これはその方向への良いステップです。そして、このGoogleイベントでまた言及していただけたことは非常に光栄でした。
これをご覧ください。あなたはこの広大な推論能力を、科学論文の解読からYouTubeビデオの理解まで、あらゆることに使用してきました。そしてGeminiを使用することが協力的で洞察力があり、本当に役に立つと感じていることを私たちに教えてくれました。彼らはまたルービックキューブのデモにも再び言及しました。私たちの作品の一部がGoogleイベントで紹介されるのを見るのは本当に素晴らしいことでした。
彼らはまた、思考の調整可能な予算、より高速なパフォーマンス、思考サマリーなどを含む、Geminiシリーズモデルへの多くのアップデートを発表しました。次に、Googleは拡散ベースのテキスト生成モデルを発表しました。拡散モデルに馴染みがない場合、通常は画像生成に使用されますが、テキスト生成のアーキテクチャとして拡散を使用するいくつかのモデルを見てきました。それらはトランスフォーマーベースのアーキテクチャよりもはるかに高速である傾向があります。ここで見ているとおりです。
文字通り見えるほど速かったのですが、実際に何が起こっているかを見ることができるように、ここでスローダウンします。何かを出力してから、それを継続的に反復し、時間をかけてノイズを除去し、最終的に最終出力を得ることがわかります。
ただし、一つ問題があります。これらの拡散ベースのテキストモデルは、従来のトランスフォーマーベースのアーキテクチャほど品質の面で良くない傾向がありますが、はるかに高速で、大きな進歩を遂げています。私のインタビューで、サンダーに将来の拡散モデルに対する彼のビジョンについて具体的に尋ねましたので、ご期待ください。
そして彼らはまた、Gemini 2.5 Proの一部としてDeep Thinkを導入しています。デイスにそれが何かを説明してもらいましょう。
今日、私たちはDeep Thinkと呼んでいる新しいモードを導入することで、2.5 Proをさらに良くしています。これはモデルのパフォーマンスを限界まで押し上げ、画期的な結果をもたらします。Deep Thinkは、並列技術を含む、思考と推論における私たちの最新の最先端研究を使用しています。
これまでのところ、信じられないパフォーマンスを見てきました。現在最も困難な数学ベンチマークの一つであるUSAMO 2025で印象的なスコアを獲得しています。困難なLive CodeBenchでリードしており、これらのベンチマークをご覧ください。USAMO 2025ベンチマークで50%近く、これは本質的に数学オリンピックです。Live CodeBenchで80%、MMLUで84%を獲得し、o3、o4 miniを全面的に上回っています。
次に、彼らはGeminiシリーズのモデルがワールドモデルに変化していくことを示唆し始めました。私たちの周りの世界を理解し、宇宙の物理学に基づいて応答できるモデルです。彼らはまだ多くの情報を提供していませんが、その方向を示唆しているのを見るのは興味深いことです。
デイスが今後のことを説明するクリップがこちらです。Geminiが自然界の事物を表現するために世界知識と推論を使用する方法に、これらの能力がすでに現れているのを見ることができます。そして、重力、光、材料がどのように動作するかなど、直感的な物理学を深く理解している私たちの最先端ビデオモデルVOでも見ることができます。
救命ボートで作られたこの人のような、プロンプトが少しクリエイティブになっても何をすべきかを知っています。物理環境の理解はロボティクスにとっても重要になるでしょう。AIシステムは現実世界で効果的に動作するためにワールドモデルが必要になります。私たちは、ロボットに把握、指示に従う、新しいタスクに即座に適応するなどの有用なことを教える専用モデル、Gemini Roboticsを微調整しました。
Geminiを完全なワールドモデルにすることは、新しい種類のAIを解き放つ重要なステップです。
彼らはまた、新しい画像生成モデルImagine 4を発表しました。これは非常に良く見えます。デモで見せた例がこちらです。緑のドレスを着た女性です。本当にハイパーディテールです。ペーパースタイルの鳥のようなものです。小さな水滴がついた美しい花です。本当に見栄えが良いです。
しかし、正直に言って、これは今では標準になっていると思います。素晴らしい画像生成モデルを持たなければなりません。しかし、この猫のディテールの一部を見てください。本当に良いです。そして前のモデルより10倍高速です。GPT-4oの画像に対する多くの人の不満は、時間がかかりすぎることです。
ですから今、はるかに高速なスピードがあり、アイデアをより迅速に反復できます。そしておそらく最もクールなデモはV3です。これは彼らのテキストからビデオ生成モデルで、ビデオだけでなく音声も含まれています。ですから、本当にマルチモーダルメディア生成モデルになっています。デモを再生してみましょう。
彼らは今日、ボールを残していきました。私がジャンプできるより高く跳ねました。それはどんな魔法なのでしょうか？この海、それは力です、野生の、手なずけられない力、そして彼女は破る光のすべてであなたの畏敬を命じます。
私はすでにTwitterでV3について多くの良い例を見つけており、テストしようとしています。しかし、ここで問題があります。本当に高価なのです。
Googleはまた、月額250ドルの新しいサブスクリプション階層を発表しました。これを発表した時には聞こえるほどのうめき声がありましたが、多くの製品でより高いレート制限を得ることができます。他の誰よりも先に最先端のリリースにアクセスできます。ですから、もちろん私はそれを支払うつもりで、皆さんに報告して、それがどうかをお知らせします。
彼らは音楽生成モデルであるLyra 2を発表しました。本当にクールに見えます。個人的には、毎日使うものではありませんが、音楽生成や音楽制作に興味がある場合は、新しい製品があります。
次に、彼らはSoraのようなFlowも発表しました。V3のビデオ生成の側面を取り、はるかに多くのクリエイティブコントロールを可能にします。シーンを設定できます。異なるクリップを異なる順序で配置できます。Soraがすでに行っていることですが、V3はビデオ生成がはるかに優れています。
動作方法はこうです。鶏の頭の形をしたカスタムゴールドギアシフト。オーケー。それで、ここで行きます。得られました。それが画像生成です。そしてそれを取ることができます。この画像を使用してください、そして低角度8mmワイドレンズショット、ギアシフト、シェイキー、速い車。これら3つの異なる画像を取り、それらをまとめると、それらからビデオを得ます。
Flowにまとめられたこれらすべての製品を使用して、ビデオ作成を本当にハイパーカスタマイズできます。ここで、異なるクリップを配置でき、クリップを拡張できることがわかります。これはすべてSoraで見たことのあるものですが、現在Google製品で利用可能です。
フルクリップを再生してみましょう。音響効果を含むすべての異なる要素がすべてこれらの生成モデルで行われていることを覚えておいてください。見てみましょう。
本当にクールです。テストしてみるつもりです。おそらく広範なV3テストのビデオを公開するので、お楽しみに。
次に、もう一つの信じられないほどクールなデモ、Android XRメガネです。彼らはライブデモを行い、もちろん時々不安定でしたが、うまくいき、本当によく機能しました。これらはMeta Ray-Banバンドに非常に似たメガネですが、実際にレンズに投影があるので、透明なレンズを通して物を見ることができます。
本当にクールに見えます。この男性がここで着用しています。すぐにそれらに興味深い反射があることがわかります。彼が出てきたとき、これが何についてなのかを知る前に、そのメガネがユニークであることがわかりました。
これがライブデモでした。この人はメガネをかけて舞台裏にいました。これが彼女の視点であることがわかります。そこを見てください。温度が見えます。テキストメッセージが入ってくるのが見えます。これが実際に彼女が見ているものです。そして再び、これはライブデモです。ある時点で少し不安定になりましたが、それを編集していないことを願いますが、それはライブデモを行うことの一部です。
ここで少し不安定になり始めるのがわかります。それはメガネとは関係なく、その時インターネット上にあったデバイスの数と関係があります。より多くの不安定さ、より多くの途切れが見えます。早送りすると、ここが本当にクールな部分です。
彼女が群衆を見下ろしているのが見えます。私はここのどこかにいます。これはメガネに投影されています。ここでマップの推奨が見えます。右に曲がって500フィート、と言っています。彼女が下を見ると、実際にそのライブマップビューを見ることができます。それは信じられません。
私はメガネが人工知能の究極のフォームファクタであることについて少し悲観的でしたが、屋外にいるなら、私は間違いなくこれらを着用するでしょう。それで結構です。ただ屋内では、メガネをかけたくありません。これらの大手テクノロジー企業の多くは、人々が常にメガネをかけると考えていますが、私はそうしません。私が少数派かもしれません。コメントで皆さんの考えをお聞かせください。
これらがイベントからの主要な発表すべてです。サンダーのインタビューがまもなく公開されることを覚えておいてください。このビデオを楽しんでいただけたなら、ぜひいいねとチャンネル登録を検討してください。