Google I/O 2025 – 19分で分かるGemini AIの全て!

AGIに仕事を奪われたい
この記事は約17分で読めます。

9,711 文字

Gemini AI - Google I/O 2025 in 19 mins!
Here is everything Google announced in Google IO 2025 just condensed in 19 mins!All about Gemini AI and Future of Gemini...

皆さんにお会いできて嬉しいです。前回のI/O以降、私たちは12以上のモデルと研究のブレークスルーを発表し、20以上の主要なAI製品と機能をリリースしました。この飛躍的な変化がここに見られます。進歩の指標の一つであるELOスコアは、初代Gemini Proから300ポイント以上上昇しています。
この全ての進歩を可能にしているのは、私たちの世界をリードするインフラストラクチャであり、AIへの完全なスタックアプローチの基盤です。第7世代TPUのIronwoodは、大規模な思考と推論を可能にする初めての設計です。前世代の10倍のパフォーマンスを実現し、1部品あたり驚異の42.5エクサフロップスの計算能力を備えています。驚くべきことです。
そして今年後半にはGoogle Cloudのお客様にも提供される予定です。Google Beamを紹介します。これは新しいAIファーストのビデオコミュニケーションプラットフォームです。Beamは最先端のビデオモデルを使用して、2Dビデオストリームをリアルな3D体験に変換します。舞台裏では6台のカメラアレイが様々な角度からあなたを捉えます。
AIを使って、これらのビデオストリームを統合し、3Dライトフィールドディスプレイ上でミリメートル単位の精度の頭部追跡を実現し、60フレーム/秒でリアルタイムにレンダリングします。その結果、より自然で没入感のある会話体験が生まれます。私たちはこの技術を皆さんに提供できることをとても楽しみにしています。
HPとの共同により、最初のGoogle Beamデバイスは今年後半に早期顧客向けに利用可能になります。これが南米の休暇用レンタル物件を予約する際に、言語が話せない場合にどのように役立つか例を見てみましょう。こんにちは、カミラ。音声翻訳をオンにします。
あなたとようやくお話しできて嬉しいです。その家は素晴らしい地域にあり、山々を見渡せますよ。素晴らしいですね。家は。
翻訳がどれほど話者のトーンパターンや表情までマッチしているかがわかりますね。言語の壁を越えた自然でスムーズな会話にさらに近づいています。
そして今日、このリアルタイム音声翻訳をGoogle Meetに直接導入します。英語とスペイン語の翻訳が現在サブスクライバーに利用可能で、数週間以内により多くの言語が展開される予定です。コンピュータの使用は、エージェントエコシステムが繁栄するために必要な広範なツールセットの一部です。例えば、エージェント同士が会話できるオープンなエージェント間プロトコルなどです。
これを60以上のテクノロジーパートナーのサポートとともにCloud Nextで立ち上げ、その数がさらに増えることを期待しています。それから、Anthropicが導入したモデルコンテキストプロトコルがあり、エージェントが他のサービスにアクセスできるようになります。そして今日、GeminiのSDKがMCPツールと互換性を持つようになったことを発表できることを嬉しく思います。
私たちはこれを「パーソナルコンテキスト」と呼ぶものとして実現しようとしています。許可を得た上で、GeminiモデルはあなたのGoogle Apps全体の関連コンテキストを使用できます。昨年、私は彼をサー・デミスとして紹介しました。今年は、ノエル・ローリエを彼の称号リストに加えることができます。デミス、どうぞ。
皆さん、私たちは皆さんが作成したものに本当に感銘を受けています。スケッチからインタラクティブなアプリへの変換から、完全な3D都市のシミュレーションまで。また、テキスト読み上げのための新しいプレビューを導入しています。これらは、ネイティブオーディオ出力に基づいた2つの音声をサポートする初めてのマルチ対応を実現しています。これはモデルがより表現力豊かな方法で会話できることを意味します。話し方の微妙なニュアンスを捉えることができます。
このように囁くように切り替えることさえできます。これは24以上の言語で機能し、言語間を簡単に切り替えることもできます。今日、私たちは最新の研究モデルにより、テキストに拡散の力をもたらします。これは数学やコードのコンテキストを含む編集などのタスクで優れた性能を発揮します。左から右に生成するだけでなく、解決策を非常に素早く繰り返し、生成プロセス中にエラーを修正できるからです。
Gemini拡散は、この並列生成を活用して極めて低いレイテンシーを実現する最先端の実験的テキスト拡散モデルです。例えば、今日リリースするGemini拡散のバージョンは、これまでで最速のモデルである2.0フラッシュライトよりも5倍速く生成し、そのコーディングパフォーマンスに匹敵します。
この数学の例を見てみましょう。準備はいいですか?始めましょう。私たちはGemini 2.5での思考能力の最前線を探求してきました。AlphaGoでの経験から分かるように、これらのモデルにより多くの考える時間を与えると応答が向上します。今日、2.5 Proをさらに良くするために「Deep Think」と呼ばれる新しいモードを導入します。
これまでのところ、信じられないほどのパフォーマンスを見てきました。現在最も難しい数学ベンチマークの一つであるUSA Mode 2025で印象的なスコアを獲得しています。競争レベルのコーディングのための難しいベンチマークであるLive Codebenchでリードしています。そして、Geminiは最初からネイティブにマルチモーダルであったため、これを測定する主要なベンチマークMMUでも優れた成績を収めていることは驚くべきことではありません。
過去10年間、私たちは現代のAI時代の基盤の多くを築いてきました。今日のすべての大規模言語モデルの基盤となるTransformersアーキテクチャの先駆的な発明から、AlphaGoやAlpha Zeroのようなエージェントシステムまで、私たちは人工一般知能に必要な次の大きなブレークスルーを発明するために、基礎研究の幅と深さへの投資を倍増し続けています。
Geminiは既に最高のマルチモーダル基盤モデルですが、私たちはこれをワールドモデルと呼ばれるものに拡張するために懸命に取り組んでいます。これは、脳がそうするように、世界の側面をシミュレートすることで計画を立て、新しい経験を想像できるモデルです。これは私が常に情熱を持っていたテーマであり、テーマパークのようなシミュレーションゲームのためのAIを開発していた初期の頃から仮想世界について考えてきました。
私たちはしばらくの間、この方向に向けて歩みを進めてきました。GoやStarcraftのような複雑なゲームをマスターするエージェントのトレーニングに関する先駆的な取り組みから、最近では単一の画像プロンプトから対話可能な3Dシミュレーション環境を生成できるGenie2モデルまで。これらの能力は、Geminiが自然界の物事を表現するために世界知識と推論を使用する方法にすでに現れています。
そして、VOは直感的な物理学(重力、光、材料の振る舞いなど)を深く理解している最先端のビデオモデルです。VOがフレーム間で精度と一貫性を維持する方法は本当に信じられないほどです。この救命いかだで作られた人のような少し創造的なプロンプトでさえ、何をすべきか知っています。
物理的環境の理解はロボット工学にも不可欠です。AIシステムは実世界で効果的に動作するためにワールドモデルを必要とします。私たちは、ロボットに把握、指示の遵守、新しいタスクへの即時適応などの有用なことを教えるための特殊なモデル、Gemini Roboticsを微調整しました。今日ここにいる皆さんは、AIサンドボックスでロボットを試すことができます。
キングGemini、完全なワールドモデルは、新しい種類のAIのロックを解除するための重要なステップです。それは日常生活で役立ち、インテリジェントであり、あなたがいるコンテキストを理解し、どのデバイスでもあなたの代わりに計画を立て行動できるAIです。これがGeminiアプリの究極のビジョンであり、ユニバーサルAIアシスタントに変えることです。
個人的で、積極的で、強力なAI、そしてAGIへの道のりにおける私たちの重要なマイルストーンの一つです。これは、昨年Project Astraで最初に探求したビデオ理解、画面共有、メモリーなどの機能から始まります。過去1年間、私たちはこのような機能をGemini Liveに統合し、より多くの人々が今日体験できるようにしてきました。
もちろん、私たちは絶え間なく改善し、最前線での新しいイノベーションを探求し続けています。例えば、ネイティブオーディオでより自然な音声出力にアップグレードしました。メモリーを改善し、コンピュータを追加しました。Project Astraの最新研究プロトタイプと一緒にいて、これが私の自転車の修理にどのように役立つかを見てみましょう。
ねえ、オンラインでHuffy山岳自転車のユーザーマニュアルを探してくれる?ユーザーマニュアルを見つけました。何を知りたいですか?いいね。ブレーキに関するセクションが見つかるまでスクロールしてください。かしこまりました。そのページを探しています。このネジを潰してしまったと思います。YouTubeで修理方法の動画を探してくれませんか?もちろんです。今YouTubeを開いています。
これはいい動画ですね。ネジの頭にゴムバンドを置きます。しっかりと押し下げてください。自転車屋さんとのメールをチェックして、どのサイズの六角ナットが必要か探してくれませんか?もちろんです。Bicycle Habitatからのメールによると、スプロケット用に3/8インチの六角ナットが必要です。正しい箱をハイライトしました。
テンションスクリューの予備が必要なようです。最寄りの自転車屋に電話して在庫があるか確認してくれませんか?はい。今電話しています。在庫についてお知らせします。ブレーキパッドが摩耗しているようです。もう一度マニュアルをチェックして、それについて書かれている場所を探してくれませんか?マニュアルによると、24ページを見ると、ランチ食べる?うん、5分くれる?
言っていたことを続けてくれる?先ほど言っていたように、24ページのセクション2を見ると、ブレーキパッドの交換方法が書かれています。あの、電話の進捗はどう?はい。自転車屋から戻ってきました。テンションスクリューが在庫にあることを確認しました。受け取り注文を入れましょうか?自転車に取り付けられる犬用バスケットの例を見せてくれますか?もちろんお手伝いします。
少しお待ちください。いくつか選択肢があります。ズーカはこれらの中でとても素敵に見えると思います。ユニバーサルAIアシスタントは私たちの日常的なタスクを実行します。退屈な管理業務を処理し、新しい楽しい推奨事項を提供し、私たちの生産性を向上させ、生活を豊かにします。現在、これらの新機能についてのフィードバックを信頼できるテスターから収集し、それらをGemini Live、検索における新しい体験、開発者向けのLive API、さらにはAndroid XRメガネのような新しいフォームファクターにもたらすよう取り組んでいます。これについては後ほど詳しくお伝えします。
私のキャリア全体は、その核心において、知識を進め、科学的発見を加速するためにAIを使用することについてでした。Google DeepMindでは、長い間ほぼすべての科学分野でAIを応用してきました。この1年間だけでも、数学から生命科学まで幅広い分野で大きなブレークスルーを達成しました。
数学オリンピアの問題を銀メダルレベルで解くことができるAlpha Proofを構築しました。研究者と協力して新しい仮説の開発とテストを支援するCo-scientistを開発しました。そして、新しい科学的知識を発見し、AI訓練自体を加速できるAlpha Evolveをリリースしたばかりです。
生命科学では、臨床医の医療診断を支援できる研究システムであるAmyを構築しました。生命のすべての分子の構造と相互作用を予測できるAlphaFold 3、そしてIsomomorphic Labsは、AlphaFoldの研究に基づいて、AIを使って医薬品発見プロセスに革命をもたらし、いつか多くの世界的な病気の解決に役立つでしょう。
わずか数年の間に、AlphaFoldは科学コミュニティにすでに大きな影響を与えています。世界中で250万人以上の研究者が重要な研究に使用する標準ツールになっています。AGIに向けて前進し続けるにつれて、安全かつ責任を持って行われれば、科学的発見を加速し、これまでに発明された最も有益な技術になる可能性があると常に信じてきました。
これとすべての画期的な取り組みにより、私たちはより個人的で、積極的で、強力なAIを構築し、私たちの生活を豊かにし、科学の進歩のペースを速め、発見と驚きの新しい黄金時代を導きます。AIモードでは、心に浮かんだことを何でも質問できます。ご覧のように、検索が作動します。
応答を生成し、コンテンツやクリエイターへのリンク、評価などの有用な情報を持つ商店やビジネスなど、すべてをまとめます。検索はAIを使って、テキスト、画像、リンク、さらにはこの地図など、UIを質問に合わせて動的に適応させます。そして会話形式でフォローアップできます。
AIモードは単に情報を提供するだけではありません。検索に全く新しいレベルのインテリジェンスをもたらしています。これを可能にしているのは、「クエリファンアウト」と呼ばれる技術です。舞台裏では、検索は質問が高度な推論を必要とするときを認識し、カスタムバージョンのGeminiを呼び出して質問をさまざまなサブトピックに分解し、あなたに代わって複数のクエリを同時に発行します。
ウェブ全体を検索し、従来の検索よりもはるかに深く掘り下げます。そしてナレッジグラフ、ショッピンググラフ、そしてこの場合、500万人以上の貢献者からなる地図コミュニティからの洞察を含むローカルデータなど、すべてのリアルタイム情報データセットを活用します。
今日Geminiを使用する別の新しい方法もあります。Chromeに組み込まれたGeminiを紹介します。これはデスクトップでウェブを閲覧する際に常に利用できるAIアシスタントです。素晴らしい点は、これを使用するとあなたがいるページのコンテキストを自動的に理解することです。
質問があれば、答えることができます。それはImagine 4と呼ばれています。画像はより豊かで、より微妙な色合いと細かいディテールがあります。さまざまなショットの影、写真に現れる水滴。これらのモデルの周りで多くの時間を過ごし、このモデルとその進化が良いから素晴らしい、そして驚異的なものへと進んだと言うことができます。
前のモデルより10倍速いので、多くのアイデアをすばやく試すことができます。私たちの新しい最先端モデル、VO3を発表できることを嬉しく思います。そして、今日ステージから聞いた他の多くのことと同様に、今日から利用可能です。視覚的品質はさらに向上しています。
物理学の理解もより強力になりました。しかし、ここが飛躍的進歩です。V3はネイティブオーディオ生成機能を備えています。つまり、V3は効果音、背景音、そして会話を生成できます。プロンプトを与えると、キャラクターが話すことができます。森の中の賢い老いたフクロウと神経質な若いアナグマを聞いてみましょう。彼らは今日ボールを置き忘れました。
それは私がジャンプできるよりも高くバウンドしました。それはどんな魔法なのでしょうか?この海は力、野生で馴染みのない力であり、彼女は壊れる光のたびにあなたの畏敬の念を命じます。先ほど聞いたような複数ステップのアクションのための新しいエージェントモードが登場します。最近、高音質の音楽とプロフェッショナルグレードのオーディオを生成できるLIA 2をリリースしました。
音楽はソロや合唱団のボーカルと共に旋律的です。聞こえるように、表現力豊かで豊かな音楽を作ります。クリエイティブのための新しいAI映画制作ツールを構築してきました。これをFlowと呼び、今日リリースします。私が取り組んでいるプロジェクトに入りましょう。私たちの主人公である祖父は、羽のある友達の助けを借りて飛行車を作っています。
これが私の材料、老人と彼の車です。ツールに自分の画像を簡単にアップロードすることができますし、組み込まれているImagineを使ってその場で生成することもできます。それを説明するだけで、カスタムゴールドギアシフトを作成できます。できました。かなりクールです。次に、それらのクリップをすべて組み立て始めることができます。
単一のプロンプトで、非常に正確なカメラコントロールを含め、希望するものを記述できます。Flowがすべてを配置します。シーンビルダーで繰り返し作業を続けることができます。これがとても興奮する部分です。シーンの次のショットをキャプチャしたい場合は、プラスアイコンをクリックして次のショットを作成します。
後部座席に3メートルの鶏を追加するなど、次に起こってほしいことを説明すると、Flowが残りを処理します。キャラクターの一貫性が、そのまま機能します。Google AI Proとまったく新しいGoogle AI Ultraがあります。グローバルに利用可能になるProプランでは、無料版と比較して高いレート制限と特別な機能を備えたAI製品の完全なスイートを利用できます。
これには、以前Gemini Advancedとして知られていたGeminiアプリのプロバージョンが含まれます。そしてUltraプランがあります。これは開拓者、先駆者、Googleの最先端AIを望む方々のためのものです。このプランは最高のレート制限、Google全体からの新機能や製品への最も早いアクセスを提供します。
今日アメリカで利用可能であり、近くグローバルに展開される予定です。このUltraプランはGoogle AIのためのVIPパスと考えることができます。つまり、Ultraサブスクライバーであれば、大きなレート制限と2.5 Pro Deep Thinkへのアクセスが得られます。またYouTube Premiumと大量のストレージも付属します。ヘッドセット上のGeminiから始めましょう。
これはSamsungのProject Muhan、最初のAndroid XRデバイスです。Google MapsとXRを使えば、Geminiに頼むだけで世界中どこにでもテレポートできます。見ているものについてAIアシスタントと会話し、探索しているものに関するビデオやウェブサイトを表示させることができます。
それらが現在考えられる最も混沌とした環境でどのように機能するか見てみましょう。皆さん、こんにちは。今、私がAndroid XRメガネのレンズを通して見ているものがそのまま見えているはずです。こちらのおいしいコーヒーや、シャマからのテキストメッセージが届いたばかりです。彼が何を言ったか見てみましょう。
よし、まさにショータイムだ。それではGeminiを起動して始めましょう。シェアに始めたことをテキストで送って、通知をサイレントにしてください。かしこまりました、彼にメッセージを送り、すべての通知をミュートしました。完璧です。あら、ニーシャ。やあ、ディア。メガネのライトがついているので、今ライブ中だと思います。
はい、公式にIO crew とライブ中です。皆さん、こんにちは。この角度からIOを見るのは素晴らしいですね。ニーシャ、バックステージで手伝ったら自分用のAndroid XRメガネがもらえると約束してくれたよね。どうかな?もちろん。この後コーヒーを飲みに行って、そのメガネを持っていきます。素晴らしい。それでは後で。頑張ってね。
ありがとう。今日、Gentle MonsterとWarby Parkerが、Android XRを搭載したメガネを製造する最初のアイウェアパートナーになることを発表できることを嬉しく思います。今日、ELOスコア、ベンチマーク、最先端のパフォーマンスについて多くのことを聞きました。しかし、皆さんが待ち望んでいた指標が一つあることを知っています。私たちのAIカウンターです。
最後のリーダーボードを見てみましょう。新しい参入者がいるようですね。Geminiがリードを取っています。これが今日発表したすべてです。新しい立ち上げと製品拡張から、これから来るものの予兆まで。AIの機会は本当に大きなものです。そしてそのメリットをできるだけ多くの人々に届けることを確実にするのは、この波の開発者やテクノロジービルダーの役割です。
いくつかの私にとってインスピレーションとなる例で締めくくりたいと思います。最初のものは、カリフォルニアに住む人々や世界中の多くの場所で最も気になることです。多くの人が山火事の影響を受けた人を知っています。それらは突然始まり、数分のうちに制御不能に広がる可能性があります。
速度と精度が大きな違いを生み出します。素晴らしいパートナーグループと共に、Firesatと呼ばれるものを構築しています。これはマルチスペクトル衛星画像とAIを使用して、ほぼリアルタイムの洞察を提供することを目指す衛星の集合体です。この解像度を見てください。270フィート(約82m)、一台車のガレージほどの大きさの火災でも検出できます。
最初の衛星は現在軌道上にあります。完全に運用されると、画像は現在の12時間ごとから20分ごとという高い頻度で更新されます。速度は他の種類の緊急事態でも重要です。ハリケーンヘレン中、Wingはウォルマートとレッドクロスとのパートナーシップにより、ドローン配送による救援活動を提供しました。
AIのサポートにより、ノースカロライナ州のYMCAシェルターにリアルタイムのニーズに基づいて食料や医薬品などの重要なアイテムを配達することができました。これが他のコミュニティでの災害救援においてどのように役立つか想像できますし、私たちは積極的に拡大に取り組んでいます。これらはAIが今社会を支援している方法の例です。
今日の研究が数年後に現実になることを考えると、特にインスピレーションを受けます。次世代の有用なロボットの構築、世界で最も致命的な病気の治療法の発見、エラー修正された量子コンピュータの進歩、または行きたい場所にどこへでも安全に連れて行ってくれる完全自律型の車の提供など。
これらすべては数十年ではなく、数年以内に実現可能です。驚くべきことです。生活を改善するこの機会は、私が当然と思っていることではありません。そして最近の経験がそれを実感させてくれました。サンフランシスコで両親と一緒にいました。彼らが最初にやりたかったことは、他の多くの観光客のようにWhimoに乗ることでした。
私は以前Vimosに乗ったことがありましたが、80代の父が助手席で完全に驚いているのを見て、進歩を全く新しい視点で見ました。それはテクノロジーの力がいかに素晴らしく、インスピレーションを与え、畏敬の念を抱かせ、私たちを前進させるかを思い出させてくれました。そして、次に私たちが一緒に構築する素晴らしいものを見るのが待ちきれません。
ありがとうございました。

コメント

タイトルとURLをコピーしました