Google、Gemini Ultra、Veo 3、Imagen 4などでAIシーンを完全に支配

6,877 文字

Google Just NUKED the AI Scene with Gemini Ultra, Veo 3, Imagen 4 & More!

Google just unveiled Gemini Ultra, Veo 3, and Imagen 4 at I/O 2025, marking a major leap in AI video, image generation, ...

GoogleがIO 2025で完全にビーストモードに突入しました。大規模なAIアップグレード、話す前に考える月額250ドルのUltraプラン、AIによって音声と動画が組み合わされた本格的な映画制作ツール、チケットを予約してくれる検索タブ、そして現実をライブのGeminiデモに変える眼鏡が登場です。
コーディングするロボット、数秒でアプリを生成するモデル、テレポーテーションのような感覚の3Dビデオ通話、そして背景ノイズ、音楽、実際の対話でAI映画を作る新しいV3モデルがあります。これはアップデートではありません。Google全体のエコシステムの完全なリセットです。それでは、詳しく見ていきましょう。
まずGoogleは、ほとんど漫画のような数字でステージを設定しました。1年前、彼らは月に9.7兆トークンを処理していました。現在は480兆以上を処理しており、50倍の増加です。700万人の開発者がすでにGeminiで構築しており、コンシューマーアプリは月間アクティブユーザー数4億人を突破しています。ダンダー・ピチャイの表現は「容赦ないペースでの出荷」であり、グラフがそれを証明しています。
彼らのモデル全体の平均Lスコアは、オリジナルのGemini Proから300ポイント上昇し、2.5 ProはLMアリーナリーダーボードのすべてのカテゴリーで首位を独占しています。これらすべてが新しいIronwood TPUポッドで動作しており、前世代の10倍の性能で、ポッドあたり最大42.5エクサフロップスを誇ります。つまり、ハードウェアがもはやボトルネックではないと自慢しているのです。
コンシューマー側では、見出しはGemini Ultra定期購読の月額249.99ドルで、現在は米国限定です。ただし、初回購読者にはGoogleが最初の3か月間50%割引を提供します。つまり、正規価格に跳ね上がる前に月額約125ドルから始まります。このUltraバッジを持つと、ネイティブな効果音と対話を含むVO3ビデオ生成が解放されます。
Flow映画制作ワークスペース、Gemini 2.5 Pro内の新しいディープシンク推論モード、Notebook LMでのより大きな制限、Whisk画像リミックスツール、さらにYouTube Premium、そして30テラバイトのGoogleストレージが含まれます。古いGemini Advancedティアの20ドルが高額に感じられたなら、249ドルは狂気に聞こえるでしょう。しかしUltraは彼らの食べ放題コンピュートビュッフェだと理解すれば納得です。
空間音響を含む単一のVOレンダリングは、ほとんどのインディー開発者が週に使うよりも多くのGPU分を消費する可能性があります。だからGoogleは基本的に「参加するか否か」を問いかけているのです。
ディープシンク自体について詳しく見る価値があります。通常のGemini 2.5 Proはすでに強力でしたが、GPT3モデルのように一度のパスで答えていました。ディープシンクをオンにすると、話す前に複数の解決パスを評価する並列思考連鎖が実行されます。
この追加の反射時間により、OpenAIのo1 ProとO3 Proが誇っていた数学とコーディングのベンチマークを圧倒します。現在、ディープシンクはGemini APIを通じて信頼できるテスターに限定されており、Googleは水門を開く前に拡張安全チェックを実行していますが、スタジオにそのトグルが表示された瞬間にベンチマークを実行する予定です。
誰もが新しいメディアモデルを見たがっており、Googleは2つを提供しました。V3は見出しを飾るもので、物理法則の改善と初めて同期音声をその場で生成して、30秒のフルHDクリップを生成することができます。つまり、足音、環境音、さらには対話の断片まで組み込まれています。「彼らは今日ボールを置いていきました。私が跳べるよりも高く弾みました。それは何という魔法でしょうか」シネマティック品質のAI動画への大きな飛躍です。
次にImagen 4があり、静止画像に焦点を当て、精度がすべてです。布、水滴、動物の毛皮などのテクスチャを印象的な鮮明さで捉えます。GoogleはImagen 3より最大10倍高速になる可能性がある新しいバリアントが予定されていることも言及しました。
これら両方のモデルは、ユーザーがシーンを繋げ、クリップを拡張し、参照画像をブレンドできるGoogleの新しい映画制作インターフェースであるFlowに直接接続されます。特に異なるモデルの要素を混合する際にはまだ完全に洗練されていませんが、ついにマルチモーダル作成に推測ではなく編集のような感覚のワークスペースを提供しています。
実際に構築できるAIアップグレードについて話すと、ここに大きなものがあります。Deep Agentは巨大なことを可能にしました。独自バージョンのChatGPTを作成し、それを直接ウェブサイトやアプリに埋め込むことができるようになりました。このアップデートにより、Deep Agentは個人的で有用、そして完全にあなたの管理下にあると感じられるカスタムAIチャットボットを構築するための完全なプラットフォームに変わります。
GPT、Gemini、または他のトップティアLLMなど、モデルを選択できます。そして、テーマや性格から、チャットボットが引き出す正確なデータまで、すべてをカスタマイズできます。Google Drive、SharePoint、ウェブサイトドキュメント、さらにはライブのインターネットソースに接続したい場合も問題ありません。新しいモデルコンテキストプロトコル統合により、Deep Agentはボットをすでに使用しているツールやコンテンツに簡単に接続できます。
これは、セラピスト、カスタマーサポート担当者、金融アドバイザー、さらには楽しいデジタルペルソナとして機能するAIチャットボットを作成できることを意味します。基本的なプラグインとは異なり、これはあなたのブランドであなたのデザインでサイトに存在します。独自のドメインで実行されるミニChatGPTを持つようなものです。
Deep Agentはダッシュボードの構築、ドキュメントの生成、ワークフローの自動化、さらにはGoogle Tasks、Slack、Jira、GitHubなどのプラットフォームとの対話も可能です。これらすべてが、ボットとアプリを即座にデプロイし、すべてを一箇所で管理できるクリーンなインターフェースにパッケージされています。あなたのビジネスやプロジェクトを実際に知っている独自のスマートアシスタントやAIエージェントを構築したいと思ったことがあるなら、これがそれです。Deep Agentは、すべてのウェブサイトを潜在的なAI駆動体験に変えました。
さて、Google IOに戻りましょう。ライブアシスタントのストーリーも大きくなりました。Gemini Liveは今週、すべてのiOSとAndroidユーザーにカメラと画面共有を展開します。低遅延のProject Astraスタックを搭載し、自然にチャットし、カメラを回転させることができ、モデルはほぼリアルタイムで追従します。
Googleは地図から道案内を取得し、イベントをカレンダーに追加し、通話を離れることなくタスクにto-doを記入するデモを見せました。許可を与えれば個人的なコンテキストに結びつき、GeminiはGmailスレッド、Driveドキュメント、さらには過去の旅程を採掘して、あなたのように聞こえる返信を下書きできます。デモでは、友人のロードトリップの質問に答え、送信者のカジュアルな挨拶に合わせ、古いスプレッドシートから正確なキャンプサイトリンクを引き出し、さらにはお気に入りの単語選択を反映しながら、全フローがプライベートでありあなたの管理下にあることを約束していました。プライバシー監視団体が意見を述べた時にこれがどのように機能するかは見ものです。
検索は二重のアップグレードを受けました。AIオーバービューはすでに15億ユーザーにサービスを提供していますが、Googleは今日から米国のすべての人に専用のAIモードタブを切り替えました。通常のクエリは依然として従来のリンクを表示しますが、一つ飛び越えると、ソース、フォローアップ、そして数か月後にはスポーツと金融のライブデータ視覚化を含む会話的回答が得られます。
デモ中、密度の高いNBA統計質問を入力すると、その場で独自のチャートが作成されました。サードパーティプラグインは不要です。Project Marinerのウェブアクション機能もそのタブに滑り込んでいます。野球チケットを求めると、AIモードはチームサイトをナビゲートし、席を選び、サイドパネルから見ながらすでに記入されたチェックアウトボタンを提供できます。
Googleはエージェントがあなたの管理下に留まることを誓っていますが、夢は明らかです。青いリンクをスキップして、Geminiに物を買わせるのです。Marinerについて言えば、開発者はそれらのコンピューター使用機能へのSDKフックを得て、UIP pathのような初期テスターは反復的なバックオフィスタスクを教えています。
巧妙なトリックは「教えて繰り返す」です。エージェントに1つの完全なワークフローを見せると、後で似たようなジョブの計画を一般化します。Ultra上の通常のユーザーは、Geminiアプリ内でエージェントモードとして同じ機能を見ることになります。アパート探しを考えてみてください。願望リストを与えます。オースティンの3ベッドルーム、洗濯機・乾燥機付き、各1,200ドル。そしてそれがZillowにピングし、フィルターを調整し、ツアーをスケジュールし、あなたがくつろいでいる間に報告します。
コラボレーションの面では、Google MeetがProject Starlineとして以前知られていたBeamを吸収しました。ハードウェアは依然として素晴らしく、6台のカメラアレイと3Dテレプレゼンス用のカスタムライトフィールドディスプレイを搭載しています。しかし今ではAI駆動のほぼ完璧なミリメーター単位のヘッドトラッキングと60フレーム動画があります。
さらに衝撃的なのは、元の話者の声のトーンと表情を保持するライブ音声翻訳です。英語-スペイン語がAI ProとUltra購読者向けに最初にベータ版に入り、エンタープライズWorkspace顧客は今年後半に早期テストを要求できます。
開発者も手ぶらで帰ることはありませんでした。StitchがAIフロントエンドデザイナーとしてデビューしました。レイアウトを説明するか、モックアップをアップロードするだけで、調整可能なHTMLとCSSを吐き出します。Android Studioは複雑なビルドステップを案内するジャーニーとエージェントモード、さらにGeminiを搭載したクラッシュインサイト分析を追加しました。コーディングエージェントのJulesは、GitHubプルリクエストとバックログチケットの処理に卒業し、OpenAIのコードインタープリタースタイルワークフローに対する直接のライバルとして自らを位置づけています。
一方、Google AI Studioは超高速のGemini Flashモデルを公開し、サーバーが溶けるのを止めた後に新しいImagenエンドポイントを追加する予定です。小さいながらも注目に値するローンチの簡単な概要です。Wear OS 6はタイルの統一フォントとPixelハードウェアと時計フェイスの色を同期する動的テーマを導入します。Google Playは映画とショーのトピック閲覧ページを取得します。現在は米国限定です。
アプリ内コンテンツをプレビューできるオーディオサンプルと、マルチプロダクト定期購読バンドルを含む新しいチェックアウトフローがあります。定期購読アドオンがついに1つの支払い傘下に収まり、開発者は致命的なバグが最初の1時間で現れた場合にライブリリースを停止できます。ハードウェアにとって大きな生活の質の向上です。
Gemma 3N、電話、ラップトップ、タブレット用に最適化された40億パラメータモデルが、完全なマルチモーダルサポート付きでプレビューに到着します。そして、Synth ID検出器は今やパブリックポータルです。画像、音声ファイル、テキスト、または動画をアップロードすると、Googleの見えない透かしが埋め込まれているかどうかをフラグします。VOコンテンツがソーシャルフィードに氾濫し始めると、これは不可欠になるでしょう。
インフラファンにはもう一つのオタク向けの情報があります。Gemini Diffusion、並列生成を使用して機能的なプロトタイプを基本的に瞬時に吐き出す実験的なテキストからアプリケーションへのモデルです。彼らはプロンプトをナレーションする時間で完全なフロントエンドアプリを生成するデモを見せました。
同じ並列技術が新しいFlashモデルを支えており、これは能力では2.5 Proに次ぐものの、速度とコストで勝利し、6月初旬に一般提供される予定です。ハードウェアにはさくらんぼのトッピングがあります。
Project Astra眼鏡がAndroid XRに変形します。ライブデモ中、プレゼンテーターはレンズを通してGeminiに、カップに印刷されたコーヒーショップの名前を思い出させるよう頼みました。それから完全な3Dで歩行ルートをオーバーレイしました。Samsung、Warby Parker、Gentle Monsterが公式パートナーであり、Metaの次のRay-Banコラボレーションが出荷される頃には、Androidは独自のXRエコシステムを待機させているでしょう。
これらすべては必然的に価格の問題を提起します。Googleの階層化は非常に明確です。日常的な層は無料でAIオーバービュー、Gemini Live音声、ベースライン画像生成を取得します。20ドルのAI Proプラン（旧Gemini Advance）では2.5 Pro、標準VO、イメージング、より大きなコンテキストウィンドウが得られます。
249.99ドルのUltraは、最先端のおもちゃが存在する場所です。音声付きVo3、30TBストレージ、ディープシンクフロー、エージェントモード、大規模な30,000ページコンテキストバケット、さらにMariner、教えて繰り返すなどの実験的な開発者ノブ。ヨーロッパの皆さん、現在は頭痛の種です。VPNと請求先住所がアップグレードフローで躓かせますが、Googleはより広い展開を間もなく約束しています。様子を見ましょう。
これらすべてのローンチを通しての下の文脈は、Googleが自身の従来製品を共食いしていることです。ChromeはページをまとめるGeminiサイドバーを取得します。検索のAIモードは青いリンク経済を脅かします。Play Storeのトピックページはユーザーをサードパーティ推奨ブログから優しく遠ざけます。そしてBeamとLive Meet翻訳により、独立したバーチャルイベントプラットフォームは主要なセールスポイントを失います。
GoogleはTPUシリコンからコンシューマーUIまでの完全な垂直統合を所有することで、OpenAI、Anthropic、そして派手なデモを持って現れる他の誰からの競争を防げると賭けています。いつものように、実際のユーザーがこれらのツールを大規模に叩きつけた時に証明が来るでしょう。V3は10秒のカメラパンで一貫性を保つでしょうか。ディープシンクは幻覚を減らすのか、それともより自信を持って幻覚するのでしょうか。Synth IDは重いInstagramフィルターに耐えられるでしょうか。
今後数週間にわたって、Ultraをストレステストし、50の学術PDFでディープリサーチを推進し、経費報告書の提出方法をMarinerに教え、個人化されたGmail返信が実際に私のように聞こえるのか、それとも企業コピーのように聞こえるのかを確認します。
これが旋風のようなツアーです。兆スケールのトークン数、並列思考言語モデル、3Dテレプレゼンス、瞬きでAIが構築するアプリ、そして一部の人の家賃より高い定期購読階層。Googleは今年ただ反復しただけではありません。生成AIで全製品ラインを絨毯爆撃しました。ボールは完全にOpenAIのコートにあります。視聴ありがとうございました。次回またお会いしましょう。