Google Cloud Next – Gemini 2.5 Pro 至るところに

6,771 文字

Google Cloud Next - Gemini 2.5 Pro EVERYWHERE

Learn more about Box AI: to Box for sponsoring this video!Join My Newsletter for Regular AI Updates 👇🏼

この立方体を見てください。開発者のマット・バーマンがコーディングしたルービックキューブです。おもちゃのように思えるかもしれませんが、実際には非常に複雑な推論チャレンジです。調整可能な次元、スクランブルされた四角形、キーボードコントロールなど、Gemini 2.5 Proはこれらすべてをシミュレートできます。これは大きな飛躍であり、堅牢なインタラクティブコードを生成する能力を示しています。
Googleの最高経営責任者が先ほどGoogle Cloud Nextの基調講演で、Gemini 2.5 Proで行われた私たちのルービックキューブシミュレーションについて話しました。それはかなり素晴らしいことです。そのイベントは今終わったばかりで、すべて人工知能に関するものでした。彼らはいくつかの素晴らしい発表をしました。新しいエージェント機能、テキストから動画への変換、テキストから画像への変換、音声モデル、さらには私たちのこのビデオのパートナーであるBoxと提携したエージェント間の相互運用性も含まれています。これらすべてについて今から説明します。もし疑問に思っているなら、これはAIの背景ではありません。私は休暇中ですが、AIは休暇を取らないので、私も休まないようです。
まず最初に話すのは、新しいテンソル処理ユニット（TPU）についてです。これは彼らのAIインフラを実行するために特別に設計されたチップです。見てみましょう。
「今日、私は第7世代TPUの発表を誇りに思います。Ironwoodが今年後半に登場します。私たちが最初に公開したTPUと比較して、Ironwoodは3600倍のパフォーマンスを実現します。これは驚異的な向上です。これは私たちが今まで構築した中で最もパワフルなチップであり、AIモデルの次のフロンティアを可能にするでしょう。」
これは信じられないほど高速なチップです。明らかに、これは前世代のチップと比較した相対的なものですが、Y軸に示されているように、これはフロップス単位のパフォーマンスなので、膨大な改善です。
「同じ期間で、私たちはエネルギー効率も29倍向上させました。これについては後ほどさらに詳しく説明します。」
電力効率はパフォーマンスと同じくらい重要です。なぜなら、特にアメリカでAIの制限要因の一つはエネルギーだからです。私たちは次世代のAIアプリケーションに電力を供給するのに十分なエネルギーを単純に持っていません。ハードウェアとソフトウェアの両方でより効率的になればなるほど、より良くなるでしょう。
次に、彼はGemini 2.5 Proの資格について紹介します。ご存知のように、これは絶対に信じられないほどのコーディングと推論モデルです。彼はエラ・マリーナのようなことや、このビデオの冒頭で言及したテストについて話します。それは私たちの小さなコミュニティに正当性を与えるもので、エリック・ハートフォードが言ったように「数週間前に私たちは新しいモデルGemini 2.5をリリースしました。これは応答する前に考えを推論することができる思考モデルです。これは私たちの今までで最も知的なAIモデルであり、チャットボットアリーナリーダーによると世界最高のモデルです。高度な推論を必要とするさまざまなベンチマークで最先端の性能を発揮し、人類の最終試験で過去最高のスコアを獲得しました。これは業界で最も難しいベンチマークの一つで、知識と推論の人間の最前線を捉えるように設計されています。」
これは多くの印象的な言葉ですが、それが何ができるのかをお見せしましょう。この立方体を見てください。開発者のマット・バーマンがコーディングしたルービックキューブです。おもちゃのように思えるかもしれませんが、実際には非常に複雑な推論チャレンジです。調整可能な次元、スクランブルされた四角形、キーボードコントロールなど、Gemini 2.5 Proはこれらすべてをシミュレートできます。これは大きな飛躍であり、堅牢なインタラクティブコードを生成する能力を示しています。
彼が言及しなかったこと（私は本当に驚いています）は、Gemini 2.5 Proがこれを一度で行ったということです。反復は全くありませんでした。それはゼロショットでした。私は例を全く示さず、単にプロンプトを与えただけで、それを得ました。私はそれをコードエディタにロードし、そこにありました。彼はその部分をスキップしてしまいましたが、私の意見ではそのデモの最も印象的な部分でした。
次に、彼らはそのより高速なバージョンであるGemini 2.5 Flashを発表します。ちなみに、2.5であれば、3がどのように見えるか想像してみてください。しかし、とにかく2.5 Flashを見てみましょう。
「さて、Gemini 2.5 Flashです。これは低レイテンシーで最もコスト効率の良いモデルであり、思考が内蔵されています。2.5 Flashでは、モデルがどれだけ推論するかをコントロールし、パフォーマンスと予算のバランスを取ることができます。2.5 FlashはAI Studio、Vertex AI、Geminiアプリでまもなく提供開始予定です。モデルとそのパフォーマンスに関する詳細情報はすぐに共有します。私はとても興奮していて、皆さんに見ていただくのが待ちきれません。」
次に、私が個人的に最も興奮していることについて話します。ご存知のように、私はエージェントに強気です。彼らは現在、新しいエージェント作成プラットフォームとエージェント間の相互運用性を持っています。つまり、将来的にはあなたは自分のエージェントを持ち、そのエージェントは他のプラットフォームや他のソフトウェアの他のエージェントと話すことができ、簡単にコミュニケーションを取り、協力することができるようになります。これは、私たち全員が来ることを知っているこのエージェント的な未来に必要な基盤となるアーキテクチャです。
「本日、新しいエージェント開発キットを発表します。これは新しいオープンソースフレームワークです。」
これは私が見るのが大好きなキーワードです。オープンソースです。これはオープンソースフレームワークです。彼はGeminiモデルの使用について話していますが、オープンソースであれば技術的にはどのモデルでも使用できるはずです。見続けましょう。
「これは洗練された複数エージェントシステムを構築するプロセスを簡素化します。今、あなたは洗練されたGeminiパワーのエージェントを構築し、ツールの使用や推論や思考を含む複雑な複数ステップのタスクを実行するのを助けることができます。また、他のエージェントを発見し、彼らのスキルを学び、エージェントが一緒に働くことを可能にしながら、正確なコントロールを維持することもできます。エージェント開発キットはModel Context Protocol（MCP）をサポートしています。」
これは大きいです。Model Context Protocolはどこにでもあります。GoogleのCEOは約1週間前に「サポートすべきか？」と尋ね、明らかに彼は既にそうすることを知っていたと思いますが、皆はイエスと言いました。現在、Google、Microsoft、OpenAI、Anthropicなど、ほぼすべての企業がMCPをサポートしています。私はそれが大好きです。標準は私たちにとって良いことです。
「これはAIモデルが様々なデータソースやツールにアクセスし、相互作用するための統一された方法を提供します。それぞれに対してカスタム統合を必要とするのではなく。」
次に、素晴らしく聞こえるエージェント間プロトコルについて学びます。
「また、新しいエージェント間プロトコルを導入しています。これにより、エージェントは開発された基盤となるモデルやフレームワークに関係なく、互いにコミュニケーションを取ることができます。このプロトコルは、マルチエージェントエコシステム全体で、そして他のエージェントフレームワーク（LangraphやCrew AIを含む）で構築されたエージェントと連携するためのビジョンを共有する多くの主要パートナーによってサポートされています。」
LangraphそしてとりわけCrew AIに言及してくれて嬉しいです。ご存知のように、私は大のCrew AIファンであり、これらの製品がすべて一緒にうまく機能していることを本当に嬉しく思います。なぜなら、同じシステム上に構築されていないエージェント同士が話すことは非常に重要になるからです。彼らの立ち上げパートナーの一つはBoxで、このビデオで私たちと提携しています。
では、彼らが発表したばかりのGoogle Agent Spaceのデモをお見せしましょう。これはある種のUI、このエージェント間相互運用性プラットフォームのUIで、これはBoxを紹介しています。どれだけクールか見てください。
「お見せしましょう。」彼は「Boxの私のコンテンツとGoogle Cloudの価格データベースを使って、クレームレポートとコスト概要を作成するのを手伝ってくれますか？」と入力します。二つの異なるプラットフォームが一つの場所にあります。
右側のデータソースの一つはBoxで、もう一つはBig Queryです。Agent Spaceでは、これらの二つの異なるプラットフォームからのエージェントが互いに話し合い、一緒にこの問題を解決することができます。
Boxに問い合わせ、Big Queryに問い合わせ、それらを一緒にまとめているのが見えます。「クレームIDを提供してください。」そしてクレームIDが提供され、思考を続け、再びこれらの両方のプラットフォームにタップするツールを使用しています。関連するドキュメントはすべてあり、一部はBoxから、一部はGoogleからのものです。今、それらをすべて一緒にまとめています。
「Box AIエージェントがレポートを生成しました。」見てください、写真があり、それからインシデントレポートを生成します。終了しました。そこでBoxに送信することができ、明らかに今起こった思考の連鎖を見ることができます。
これは超クールです。私は本当に興奮しており、自分でこれをテストするのが待ちきれません。また、Box AIをチェックすることをお勧めします。なぜなら、BoxはAIを使用して、すでにBox上に保存しているすべてのドキュメントから有用な情報を抽出することを可能にします。彼らはGemini 2.5 Proを含む主要なモデルと互換性があり、今すぐ上に構築できる非常に使いやすいAPIを持っています。彼らは完全なRAGパイプラインを処理してくれるので、非常に簡単です。彼らは115,000の企業組織から信頼されており、エンタープライズグレードのセキュリティ、コンプライアンス、ガバナンスを提供しています。Box、チェックしてみてください。説明の下にリンクを落としておきます。
次に、彼らはImagine 3について話します。これは彼らの最新のテキストから画像へのモデルで、本当に素晴らしい品質を持っています。そして彼らはまた、Chirp 3を紹介しました。これは彼らの音声生成モデルで、わずか10秒のサンプル音声があれば生成できます。明らかにこれは11 Labsの競合製品です。彼らはまた、テキストから音楽へ変換するLIAについても話しています。本当にGoogleはあらゆる種類のメディアに全力を尽くしています。見てみましょう。
「昨年、私たちはImagine 3に大きな改良を加えました。これは私たちの最高品質のテキストから画像へのモデルで、より良い詳細、より豊かな照明、そして前のモデルよりも気を散らすアーティファクトの少ない画像を生成します。Imagineは正確なプロンプト遵守を提供し、あなたの創造的なビジョンを信じられないほどの精度で実現します。
また、Chirp 3を導入し、わずか10秒の入力で独自の声を作成し、AIパワーのナレーションを既存の録音に織り込むのを助けます。
今日、私たちはLIAをGoogle Cloudで利用可能にして、テキストプロンプトを30秒の音楽クリップに変換します。そして、この機能を提供する最初のハイパースケーラーです。LIAからのクリップを聞いてみましょう。」
しかし、私の意見では、V2が最も印象的です。画像を与えると、その画像からビデオを生成しますが、それだけではありません。方向を与えることができ、画面を横切ってパンするか、ズームインすると言うことができ、それは信じられないほど見えます。そして、その一つの画像から3Dビデオを取得できます。これを見てください。
「V2は業界をリードするビデオ生成モデルです。Synth IDでウォーターマークされた多くの分の4Kビデオを生成し、AIによって生成されたものであることを確認できます。新しい編集ツールを使用して、クリエイターに前例のない創造的なコントロールを提供します。複雑なプロンプトなしでショット構成とカメラアングルを指示するカメラプリセット、ビデオシーケンスの始まりと終わりを定義する最初と最後のショットコントロール（VOがそのギャップをシームレスに埋めます）、そしてビデオ編集とスケーリングのための動的なインペインティングとアウトペインティングを含みます。
Gemini、Imagine、Chirp、LIA、そしてVOを使って、Googleはすべてのモダリティにわたって生成メディアモデルを提供する唯一の企業であり、これらすべてが今日、Vertex AI上であなたに利用可能です。」
今、彼らがV2を使って行おうとしているこのライブデモをチェックしてください。とてもクールです。
「ビデオを生成しますが、これが新しい目玉です。見てください。カメラプリセットがVOに直接組み込まれています。左へのパン、右へのパン、タイムラプス、追跡ショット、そしてドローンショットもあります。では、街のスカイラインのドローンショットを提出しましょう。はい、これを提出します。
通常、これは数秒かかりますが、今日早くこれを実行したのでキャッシュされています。通常よりも少し速くなります。」
ビデオ1を見てみましょう。絶対に素晴らしいです。噴水、エッフェル塔を見ることができます。では、ビデオ2を見てみましょう。VOが作成する別の角度です。再び素晴らしい映像で、背景に雲が見え、ラスベガスブールバードを上下に運転する車を見ることができます。絶対に素晴らしいです。
コンサートプロモーションには一つのビデオでは足りないので、作成した他のビデオも見せたいと思います。ここにVOの力を通じてステージが設置されているものがあります。さらに、これから見ることに拍手を送る観客のビデオもあります。これは皆さんへの良い思い出になるでしょう。
非常に興味深いことが起こりました。VOは私の12歳の子供ができることができることがわかりました。それはフォトボムビングの専門家であることです。このすばらしいビデオにはクルーメンバーがいるとわかりました。私たちはクルーメンバーを愛していますが、この場合はギターを特集したいと思います。なぜならギターはバンドの最も重要な部分だからです。
VOの新しいインペインティング機能を使用しましょう。申し訳ありませんが、あなたはあなたの仕事で非常に優れていることを知っていますが、この画像からあなたを削除しなければなりません。あなたとあなたの家族に花を送りますが。新しいインペインティング機能を使用しましょう。数秒待って、何が見えるか見てみましょう。
これが私が思うことをするなら、それは私たちのステージハンドなしで、前に見たものの全ての側面を保存するはずです。見てください。」
Googleは多くの主要な発表をしています。Gemini 2.5 Proを発表して以来、絶対に絶好調です。彼らはそれを見て「なんてこった、私たちはリードに躍り出たと思う」と言ったと思います。そして今、彼らはあらゆる方面で全力を尽くしています。6ヶ月前にそれが当てはまるかどうか尋ねられたら、多分違うと言ったでしょうが、ここにいて、Googleは現在地球上で最高のモデルを持っています。
今日はこれで終わりです。このビデオが気に入ったら、いいねと購読を検討してください。