Gemini 2.5の発表

10,427 文字

https://www.youtube.com/watch?v=KXiLPnZdcZI

私たちはマウンテンビューにいます。トゥルシーが戻ってきました。今日、Gemini 2.5 Proをリリースしました。推論能力が非常に高く、素晴らしいコーディングモデルで、私たちが今まで構築した中で最高のモデルです。私の頭は少し混乱しています。数か月前にGemini 2.0を最初にリリースしたばかりなのに、もう2.5になりました。「このモデルを早く出さなければならない、開発者の手に渡して、人々が何をするか見なければならない」と思いました。リリースはチームスポーツです。長いコンテキスト、ツールの使用など、私たちがモデルと一緒に提供する多くのものは、真のエンドツーエンドのイノベーションです。次に来るものは、私たちが最も高性能なモデルを構築しようとしていることだと思います。実際、人々がこれで何をするのか見るのが楽しみです。
みなさん、Release Notesへようこそ。マウンテンビューにいます。トゥルシーが戻ってきました。今日、Gemini 2.5 Proをリリースしました。みんなが最先端の成果を祝って楽しんでいます。今日リリースしたものと、なぜみんながGemini 2.5 Proに興奮しているのか説明してもらえますか？
はい、今日Gemini 2.5 Proをリリースして非常に興奮しています。このモデルの本当に大きなポイントは、私たちが今まで構築した最高のモデルであることです。さらに言えば、現在業界で最高のモデルの一つだと思います。推論能力が非常に高く、実際に一般的な推論ベンチマークのいくつかで最先端の性能を示しています。素晴らしいコーディングモデルで、特に楽しいウェブアプリケーションの作成に優れています。エージェント型のコードアプリケーションも素晴らしく、特にコードの編集や変換にも優れています。本当に優れたコーディングパートナーになると思います。
また、Gemini Proの素晴らしい機能にも基づいています。マルチモーダルなので、ビデオや画像の理解に優れています。100万トークンの長いコンテキストウィンドウがあり、長いビデオやドキュメントを処理できます。全体的に見て、これは非常に強力なモデルであり、開発者や顧客の手に届けて、人々が何を構築するのか見るのが本当に楽しみです。
Proについてもう一つ言いたいのは、非常にバランスの取れたモデルだということです。多くのモデルが推論能力に優れていると、ベンチマークでは賢いのですが、このモデルの素晴らしい点は、スタイルも優れていて、実際に会話するのも楽しいモデルだということです。それが、ユーザー嗜好に役立つリーダーボードでもうまく機能している理由だと思います。LM Arenaの評価とELOで次のモデルと比べて40ポイントもジャンプしましたが、それはモデルが単に賢いだけでなく、バランスが取れているからだと思います。
学術的評価と「バイブテスト」のバランスをとるのは実際に難しいですね。奇妙なことに直感に反するのですが、私たちが見る限り一般的にそうなっているようです。あなたはこれにより近い立場にいますが、ランダムな評価でヒルクライミングしても、ユーザーがモデルに期待することには必ずしも反映されないですよね。奇妙な断絶があるようです。
そうですね、「モデルのバイブス」という言葉を使われたのは適切です。今日リリースしたモデルを週末に試していました。私は訓練した各モデルでそれをしていて、いくつかのことを試してみて様子を見ています。
あなたの個人的なベンチマークは何ですか？
通常、3つの異なることをします。一つ目は、「やあ、元気？」「調子はどう？」といった基本的なことをモデルがどう応答するか見ることです。二つ目は、「浜辺を歩くことについての詩を書いて、太陽が輝いているけど、日没にも言及して、さらに3月についても必ず入れて」というような、様々な種類の指示を与えて、モデルがどう対応するかを見ます。三つ目は、最近のモデルがコーディングに優れるようになったので、モデルにゲームを作らせることです。ワンショットプロンプトを与えて何ができるか見ています。
土曜日に私は、Gemini 2.5 Proを使って作ったウェブアプリでスネークゲームをプレイするのに非常に多くの時間を費やしました。「これは素晴らしい、スネークができる」と思いました。スネーク自体は複雑なゲームではありませんが、素晴らしかったのは、単一のプロンプトで視覚的にも美しいもの、色彩豊かで正しいエフェクトを持ち、ゲームをより魅力的にするJavaScriptを提供できることです。バイブチェックでは、モデルが指示に従うだけでなく、モデルの思考や応答自体がより魅力的に感じられ、それも重要だと思います。
素晴らしいですね。これについて多くのランダムな話題がありますが、これらの例についてはまた後で触れましょう。インターネット上には本当にクールなワンショットの使用例のスレッドがたくさんあります。私たちもいくつか公開し、開発者もすでに多くを公開しています。ショーノートに入れるべきですね。
そうすべきですね。ジャックが今日、モデルのバイブチェックに多くの人が使う素晴らしい例について話していました。ジャックは思考のリードをしていますが、四角の中でボールが跳ね回るという例について話しています。それをバイブチェックのプロンプトとして気に入っています。モデルがグラフィックを生成する能力だけでなく、物理を理解し、その物理を管理できる能力もテストするからです。非常にシンプルなユースケースですが、実際に何ができるかを示す非常に示唆に富んだものです。
私もボールが跳ねるユースケースのツイートを出しました。標準的だと思うプロンプトを使ったところ、「重力がないのでは？」と返信があり、「プロンプトには重力について言及していなかった」と答えました。その後、ジャックが重力付きの例を共有し、あらゆる種類のクレイジーなことができることがわかりました。ショーノートにリンクを入れて、皆さんがこれらの例を見られるようにしましょう。
Gemini 2.0 ProからGemini 2.5 Proへのジャンプについて話しましたが、なぜこれが実質的なのか、なぜ次のバージョンを追加したのか説明していただけますか？数ヶ月前にGemini 2.0をリリースしたばかりなのに、もう2.5になっています。
確かにGemini 2.0を3ヶ月前にリリースしたと考えると、1年前のように感じます。なぜ2.5にシフトしたかというと、これらの.5の増分は2つの主要なことを意味します。一つは、モデルが今後何を表すかへのシフトです。今後すべてのGeminiモデルは思考モデルとなり、問題解決のアプローチの基本的な部分となります。これはモデルの能力とそれが表すものの考え方の大きな変化です。
二つ目は、パフォーマンスの大幅な向上です。2.0シリーズは1.5シリーズからの大きな変化でしたが、ここでは大幅なジャンプが見られます。トゥルシー、私たちは先ほどプリトレーニングを主導するセブ、ポストトレーニングを主導するメルビン、推論の取り組みを主導するジャックとこの会話をしていましたが、あなたが「スタック全体の改善」と表現したものについてです。これは本当にそうだと感じられます。プリトレーニングの利点がより良い推論能力に変換されるという話をしました。
世界が好み、開発者が利用できるモデルを確実に得るようにオーケストレーションする人の観点から見て、この3つの道が自然な形で収束したのでしょうか？それともこのプリトレーニングがこれらの他の改善と同時に実現するよう意図していたのでしょうか？
良いシステムと同様に、中央集権的な組織と個々の野心と実行の両方があると思います。スタックの各部分が独自のイノベーションを行い、研究と技術的ブレークスルーを考えながら進歩を推進しています。プリトレーニング側はプリトレーニングの改善をテストする科学的方法を考え、ポストトレーニング側は特定の能力とモデルの調整方法を考え、思考側は推論の新しいアルゴリズム的イノベーションを推進しています。
素晴らしいのは、これらすべてが構成性について考えていることです。プリトレーニング側は、ダウンストリームのポストトレーニングに最も適合するベースモデルをどのように訓練するかを考えています。すべての部品が一つのパズルとしてどう適合するかを考えています。二つ目は目標設定の意図性です。例えば、コードが進歩させたい領域だとわかっているので、スタックのすべての部分でそれを優先しました。プリトレーニングの観点では、コードに優れるためにどのようなデータが必要かを考えました。ポストトレーニングの観点では、より良いウェブアプリを構築するにはどうするかを考えました。思考の観点では、モデルがコードについて推論するのをどう支援するかを考えました。これら3つが共同で一つの領域を前進させ、それが全体に広がります。共通の力に向かって進むことも非常に重要です。
それは理にかなっています。このカウンター例として、2.0フラッシュシンキングは単なる推論のイノベーションだったのでしょうか？それともポストトレーニングやプリトレーニングの作業も行ったのでしょうか？
それは良い質問です。2.0フラッシュシンキングでは、もちろん2.0フラッシュモデルの恩恵を受けました。2.0フラッシュモデルにもプリトレーニングのイノベーションとポストトレーニングのイノベーションがありました。そこで私たちは、そのモデルを取り、推論を導入し、2.0フラッシュの上に構築する方法を考えました。スタックのすべての部分がありましたが、2.0フラッシュシンキングと今回導入した2.5 Proの違いは、2.0フラッシュシンキングでは、より小さなモデル、つまりよりコスト効率の良いモデルでも、思考の導入により推論と複雑なプロンプトで非常に良いパフォーマンスを発揮できることを証明しました。
2.5 Proで行ったのは、バランスの取れたモデルという点に関して、これらすべてのイノベーションを取り、それ自体を高めただけでなく、「フラッシュとProを素晴らしいモデルにしている他の側面も確保するにはどうすればよいか」というアイデアも導入したことです。強力なマルチモーダルパフォーマンス、長いコンテキストパフォーマンス、スタイル、バイブス、ツールの使用などすべての側面です。
素晴らしいですね。この点で興味深いのは、現在の推論の物語の多くが「テスト時の計算能力だけが重要だ」というものだということです。プリトレーニングやポストトレーニングを止めて、プロセスの最後に計算能力をもっと投入すれば魔法が起こるという考えですが、これは実際にはそうではないという素晴らしい例です。プリトレーニングの難しい作業が実際により良いモデルという形で実を結んでいます。
セブが先ほどプリトレーニングのイノベーションについて例を挙げていたと思います。モデルが推論に優れていても、その推論を構築するための基本的な知識、理論を知らなければ、推論はそれ以上進みません。プリトレーニングは知識の基盤を提供し、その基盤はポストトレーニングでさまざまなユースケースに合わせて調整できます。その上に、あるいはその一部として、推論時間があり、それをさらに発展させることができます。
テスト時間が重要なことは明らかで、2.5 Proだけでなく、モデルが考える方法を拡張することで出力をより良くできることを示した一連のモデルで証明されています。しかし、強固な基盤があれば、もっと多くのことができます。
トゥルシー、このリリースの最も興味深いスレッドの一つは、これらのモデルをどれだけ迅速に作ることができるかというペースについてです。舞台裏では、他のモデル候補もあり、世界に感謝される新しいバージョンのモデルをどのように提供するか考えていました。今日モデルをリリースするに至った経緯を教えてください。
良い質問です。これはもちろん、私たちが目指してきたものです。推論に強く、思考をモデルに導入し、推論能力に基づくGeminiシリーズを持つという2.5 Proの候補を実現することです。それがプリ、ポスト、思考の全チームが取り組んできたことです。
私たちが直面していた課題の一つは、先ほど言及したモデルのバランスについてです。ユーザーや製品に良い「バイブス」を持つモデル、つまり開発者や企業顧客、消費者が使いたいと思うモデルを作りたいと同時に、ベンチマークや思考、推論にも優れたモデルを作りたかったのです。
両方のフロントで押し進めており、両方をうまくこなせるモデルを得るのに苦労していました。エンゲージメントや特定のタスクでは良く感じられるが、コードではあまり進歩を見られなかったり、推論での利益が見られなかったりするモデル候補がありました。あるいは、コードには優れているが、他の場所では必ずしも効果が見られないモデル候補もありました。チームはこれら両方の目標に向かってヒルクライミングし、両方を構築するためのイノベーションを推進していました。
評価結果を受け取り、数字を見て、モデルを試して例を確認し、「これは本当に良いモデルだ」と興奮しました。自分たちでバイブテストを行い、様々なプロンプトでモデルをチェックしました。私は多分50のランダムなウェブアプリを作って、モデルが何をするか試してみました。そして「これは本当に楽しいテストモデルだ、このモデルを早く出さなければならない、開発者の手に渡して、人々が何をするか見なければならない」と思いました。
モデルをこのプロセスに通す際に考慮すべきもう一つの興味深いことは、リリースするものについて意図的であることです。良いモデルがあるとして、どのような部分を検討する必要があるでしょうか。例えば、私が明らかに多く考える領域の一つは安全性です。モデルが良いだけでなく安全であることをどう確保するかです。
開発プロセス自体に安全性が組み込まれるように私たちのプロセスを適応させたことが気に入っています。モデルのチェックポイントを構築するたびに、構築時にそのモデルの安全性を評価しています。モデルのパフォーマンスを見るときに、安全性の数値も見ています。そしてチームにモデルのレッドチームを依頼し、問題を特定しようと試みています。
面白いことに、彼らは安全性の問題だけでなく、他のランダムな問題を発見することもあります。「安全性のレッドチーミングをしていて、この他の奇妙なことを見つけました、どうすべきですか」とチームから連絡がきます。これは実際にモデル全体の問題を修正するのにも役立ち、非常に優れています。
モデル開発プロセスの機能としての安全性は、私たちが迅速に動ける方法の重要なポイントだと思います。安全性をモデル開発プロセスから切り離すと、「素晴らしいモデルができたので出したいが、全プロセスを通すのに5週間待たなければならない」ということになります。
また、関係者全員にとって楽しくありません。安全性がプロセスのブロッカーになり、イノベーションにつながりません。安全性をプロセスの一部にすると、実際に言っているのは「役立つモデルをどのように構築するか」ということです。最終的に、安全性の概念を「壁」から「モデルをより良く、より有用にする方法」に変えます。これも本当に良い変化だと思います。
素晴らしいですね。トゥルシー、このリリースの大きなスレッドの一つは、モデルがマルチモーダル理解、特にビデオ理解に非常に優れているということです。これについて多くの人が話していますが、2.5 Proでビデオ理解がなぜこれほど良くなったのでしょうか？
私は再び全体のスタックの部分に戻ると思います。ビデオ理解は良いマルチモーダル理解の組み合わせです。視覚を理解する必要があります。また、長いコンテキストも必要です。例えば、何時間もの試合を見たい場合、私の両親は大のクリケットファンですが、これらのクリケットの試合は何時間もあります。それを処理するには長いコンテキストが必要です。
また、強い推論も必要です。例えば、クリケットの試合のビデオを取り、「ウィケットが取られたビデオのすべてのポイントを特定してもらえますか？」と言いたい場合、モデルがビデオを分析し、そのビデオの重要なタイムスタンプを抽出し、それらのタイムスタンプについて推論し、説明を提供できるようにしたいのです。
それがGeminiモデルの魔法のような部分を集めたもので、マルチモーダル理解、長いコンテキスト、推論の部分です。このモデルでそれが実現していると思いますので、人々が何をするのか見るのが楽しみです。
さきほどバイブスとアカデミックな評価のトレードオフについて触れていましたが、実際にはどのようなものなのでしょうか？アカデミックな評価に非常に優れたモデルがあるとき、指示に従うのが難しくなるのでしょうか？バイブスがオフになるのはどういうことですか？
指示に従うことは重要です。アカデミックな評価でも重要だと思います。モデルの基礎となる部分があり、それが他のすべてを構築します。指示に従うことと操縦性は、モデルが多くの他のことをするための重要な原則だと思います。
別の見方としては、モデルの振る舞いやペルソナと考えることもできます。モデルを改善しようとするとき、何らかの目標に向かってヒルクライミングしていると考えられます。多くの場合、その目標は評価によって設定されます。メトリクスがあり、それに向かってヒルクライミングできるため、アカデミックベンチマークに向かって進めることがよくあります。
アカデミックベンチマークが重要なのは、普遍的に同意された指標だからでしょうか？
良い質問です。実は、すべてのアカデミックベンチマークを見ているわけではありません。時々、アカデミックベンチマークを見て、「このベンチマークが何をテストしているかに同意しない」と言うことがあります。あるいはそれが既に広く知られているベンチマークであり、それに優れていても多くの価値がないこともあります。そのため、「それは良いですが、注意を払わない」とするアカデミックベンチマークもあります。
しかし、一部のアカデミックベンチマークは実際に意味があります。例えば、「ヒューマニティーズ・ラスト・エグザム」は2.5 proが素晴らしい成績を出しており、ツール使用なしで19％、あるいは18.6％を達成しています。
ヒューマニティーズ・ラスト・エグザムとは何ですか？
ヒューマニティーズ・ラスト・エグザムは、研究者や業界の専門家によってまとめられた、本当に難しい質問を代表する約3,000のプロンプトです。これは上るのに興味深いアカデミックベンチマークの例です。なぜなら、Geminiに優れてほしい種類の質問を表しているからです。そのためこのメトリクスを動かすことは、意味のある目標に向かって進むことでもあります。
もう一つの例としては、SWEBenchがあります。SWEBench Verifiedはエージェント型コードの一例であり、モデルがこれらのタイプのエージェントタスクに優れるように、SWEBenchを押し進めることは進歩の特定の目的地を動機付け、また開発者にモデルが何に優れているか、どこで卓越しているかを伝える方法として役立つと思います。
アカデミックベンチマークを独自の内部評価と組み合わせることも重要です。Gemini内での私たちの取り組みの大きな部分は、正しい評価を構築し、実際に私たちの目標を測定していることを確認することです。
素晴らしいですね。このリリースは非常に楽しく、多くの関心を集めています。最先端のモデルがあることを嬉しく思います。次は何が来るのでしょうか？少なくとも次の数か月のロードマップについて何か感じはありますか？何を期待できるでしょうか？
楽しみにできることはたくさんあります。まず、2.5 Proは今日実験的にリリースされましたが、人々がスケールでモデルを使って構築できるようにアクセスを提供することについて多く話し合ってきました。2.5 Proモデルの価格設定と、本番環境での使用や大規模な使用のためのリリースについて本当に興奮しています。これはすぐに実現することを望んでいます。
これは開発者のフィードバックを聞き、有用な形で行動することだと思います。より大きなスケールでのアクセスを提供できるようになったとき、人々が何をするか見るのが楽しみです。これは短期的なことですが、より長期的には、2.5シリーズをより多くのモデルにもたらすことを考えています。次はもちろんFlashが予定されています。
また、これらのモデルをより使いやすくする方法も考えています。思考モデルの課題の一つは、多くの場合長時間考えることです。それはモデルのパフォーマンスを向上させるのに役立ちますが、よりシンプルなプロンプトでは必ずしもそれほど考える必要はありません。複雑なウェブアプリのバイブチェックではモデルがより長く考える必要があるかもしれませんが、「こんにちは、元気ですか？」には全く考える必要がないでしょう。
モデルがどのように調整するかをより良く学び、また開発者により多くのコントロールを提供する方法、特にコストやレイテンシー、異なるタイプのアプリケーションを考慮した場合にどのようになるかを考えています。それが近い将来に考えていることの多くです。
また、画像生成などについても考えており、それをこれらのモデルに組み込む方法も検討しています。さらに先を見ると、コーディングやエージェントの構築、素晴らしいエージェント型アプリケーションの構築などで支援できる最も高性能なモデルを構築することに取り組んでいます。12月に2.0 Flashについて話したとき、MarinerやUIコントロールについて言及しましたが、これらのモデルがより高性能になるにつれて、エンドツーエンドのエクスペリエンスを構築する本当に面白いことがたくさんあると思います。
一つだけ質問です。今日の2.5 Proモデルは少し動的な思考をしますが、それは私たちが望むエクスペリエンスの完全なバージョンではないかもしれません。もしより単純な質問をすると、モデルはこれらが簡単だと知っているように訓練されていますか？
その通りです。より単純なプロンプトに対しては、モデルはより複雑なプロンプトよりも少ない思考をします。しかし、今日のモデルはおそらくまだかなり考えすぎていると思います。それは実際に私たちが始めるには良い場所だと思います。私たちが本当にやりたかったのは、モデルが推論を使って素晴らしい問題を解決する方法を追求することでしたが、今は「これをどのように開発者や、より費用を意識している顧客にとってより有用にするか」を考えたいと思います。
素晴らしいですね。トゥルシー、この3日間は非常に楽しかったです。私の仕事の中で最も楽しいのは、カオスの中を突き進んで小さな船の絵文字を得て、物事を世に出すときです。これは非常に楽しかったです。これをすべて可能にしてくれたあなたのチームと残りの皆さんに大きな感謝を。
そうですね、リリースはチームスポーツです。それが最近の私のお気に入りの言葉の一つです。これらのリリースを可能にするには本当に多くの人が必要です。モデルのトレーニングの部分について多く話しますが、その後に起こる部分についてはあまり話さないと思います。例えば、Madviとそのチームがデモを構築し、実際にモデルをテストしています。マーケティングやコミュニケーションチーム、デプロイメントチームがモデルを効率的に提供する方法を積極的に考え、バグや不具合をすべて解決してモデルを立ち上げています。それは簡単なことではありません。
エマはこの番組に最初に出演した人でした。彼と提供担当の人々、エバンやジョー、アルビンなど、この混沌としたオーケストレーションの美しさを作り出すために多くの仕事をしている人々がいます。
その通りです。過去3日間だけでなく、より多くのリリースをしてきた中で、デプロイメントやサービングについて、エンド開発者のために安定したエクスペリエンスを設定することがいかに複雑であるかについて多くを学んできました。本当にチームの努力だと感じています。
長いコンテキストはモデルのイノベーションと同じくらいインフラストラクチャのイノベーションだという言葉を商標登録する必要がありますね。長いコンテキストを機能させることには課題があります。なぜならそれはインフラストラクチャのイノベーションであり、実現させるには努力が必要だからです。長いコンテキスト、ツールの使用など、私たちがモデルと一緒に提供する多くのものは、真のエンドツーエンドのイノベーションです。長いコンテキストはその良い例です。それを正しく行うのは難しく、大きなチームの努力が必要です。
トゥルシー、これは非常に楽しかったです。あなたは今やこの番組の常連モデルリリース共同ホストになりつつあります。次回もぜひ一緒にやりましょう。私たちはたくさんリリースする予定なので、これを頻繁に行うことになるでしょう。また、マウンテンビューで直接会えることを楽しみにしています。
了解です、楽しみにしています！