GoogleがGemini 2.5シリーズの安定版を一般公開し、新たにGemini 2.5 Flash Lightモデルも導入した。この動画では、Googleが公開した技術レポートを詳細に解説し、モデルの構築方法、データ選択、事前・事後訓練での革新について分析している。わずか1年前まで「AI競争で後れを取っている」と言われていたGoogleが、今や市場で最も魅力的なモデルの一つを提供する企業となった経緯と、その技術的背景を探る内容である。
Gemini 2.5シリーズの一般提供開始
GoogleのGemini 2.5シリーズのモデルが一般提供開始となりました。それだけでなく、これまでで最もコストパフォーマンスが高く、最速の2.5モデルであるGemini 2.5 Flash Lightも導入されました。そして実際に技術レポートもリリースされましたので、その技術レポートから最も興味深い部分をすべてお伝えします。モデルをどのように構築したのか、データをどのように選択したのか、事前・事後訓練でどのような革新を行ったのか、本当に魅力的な内容です。
まず発表ブログ記事から見ていきましょう。Gemini 2.5ファミリーのモデルを拡張しています。2.5 FlashとProが一般提供開始となりました。これが実際に何を意味するかというと、一般提供とは、もはやテスト段階ではないということです。誰でも利用でき、本番環境での使用を意図しており、Googleは予見可能な将来にわたってサポートを行います。
少し立ち止まって考えてみましょう。わずか1年前、1年足らず前のGoogleに対する認識はどうだったでしょうか。誰もがGoogleは遅れを取っている、AI競争で既に負けているとさえ言っていました。そして今、わずか1年後には、市場で最も魅力的なモデルの一部を持つようになりました。品質の面だけでなく(Gemini 2.5 Proは私が個人的に作業で使うお気に入りのコーディングモデルです)、速度、効率性、コストの面でもです。
前述の通り、Gemini 2.5 Flash Lightもリリースされました。翻訳や分類などの大量処理・レイテンシ重視のタスクに優れており、幅広いプロンプトサンプルにおいて2.0 flashlightや2.0 flashよりも低いレイテンシを実現しています。また、異なる予算で思考をオンにする機能、Google検索やコード実行などのツールとの接続、マルチモーダル入力、そして100万トークンのコンテキスト長を持っています。
そうです、Geminiファミリーの一部として、すべてのモデルが100万トークンのコンテキスト長をサポートしています。これは驚異的で業界をリードしています。
ベンチマークと価格設定
ベンチマークと価格をいくつか見てみましょう。入力価格10セント、出力価格40セント、これが新しいflashlightの今日現在の価格です。一方でGemini 2.5 Proは、100万入力トークンあたり1.25ドル、100万出力トークンあたり10ドルとなっています。
ご覧のように、推論と知識を問う「人類最後の試験」では5%対21%と比較になりませんが、事実性、視覚的推論、多言語性能については、Gemini 2.5 Proとほぼ同等です。つまり、適切なタスクに適切なモデルを選択することが重要です。
技術レポートの詳細分析
これまでの話も良いですが、技術レポートを見てみましょう。クローズドソースモデルにしては、実際にかなりの量の情報を公開しています。彼らがどのような決定を下し、これらのモデルがこれほど優秀な性能を発揮するようになったのかを見てみましょう。
本日この動画を録画時点で公開された「gemini 2.5 pushing the frontier with advanced reasoning multimodality long context and next generation Aenta capabilities」をご紹介します。
Gemini 2.xシリーズの設計思想
Gemini 2.xシリーズのモデルまたはモデルファミリーに向けた彼らの考えの要点をお伝えします。Gemini 2.xシリーズはすべてネイティブマルチモーダルとして構築され、100万トークンを超える長コンテキスト入力をサポートし、ネイティブツール使用サポートを持っています。これらすべてが開発者にとって非常に有益であることを示しており、これらの特性でターゲットにしているのは開発者のようです。
テキスト、音声、画像、動画、さらにはコードベースリポジトリ全体もサポートしています。これらの広範な機能は、Gemini Blaze Pokémonの場合のように、複雑なエージェントシステムを構築するために組み合わせることもできます。
モデル比較とアーキテクチャ
このグラフを見ると、Geminiファミリーの一部としての各モデルの違いが分かります。最上位にGemini 2.5 FlashとPro 2.5があり、すべてテキスト、画像、動画、音声をサポートし、すべて100万トークンのコンテキストウィンドウを持っています。しかし、Gemini 2.0 Flashは画像出力をサポートし、2.5 flashと2.5 Proは両方とも音声出力をサポートしています。
出力長については、すべて8Kですが、2.5 FlashとProで64Kに達し、Gemini 2.0 O flashは思考機能を持ちますが、2.5 flashと2.5 Proは制御可能な思考予算を持っています。そして、ここにある二つの2.5モデルの知識カットオフは2025年1月です。
私たちがすでに知っていたことだと思いますが、Gemini 2.5モデルはスパース混合エキスパートです。これが何を意味するか馴染みがない場合、これらは巨大なモデルですが、特定のクエリに対してはモデルの一部のみがアクティブになるということです。
スパース混合エキスパートアーキテクチャ
モデル内に複数のエキスパートを持ち、スパースモデルは、パラメータのサブセット(エキスパート)にトークンを動的にルーティングすることを学習して、入力トークンごとにモデルパラメータのサブセットをアクティブにします。これにより、総モデル容量を計算とトークンあたりのサービングコストから切り離すことができます。基本的に、巨大なモデルを持つことができますが、モデルの一部でのみ推論を実行すれば、はるかに効率的です。
これはDeepSeekモデルが動作する方法と同じで、おそらくOpenAIのシリーズのモデルも同様です。残念ながら、エキスパートの総数や推論時にアクティブになるエキスパートの数は明記されていませんが、Geminiを本当に際立たせているのは100万トークンのコンテキストウィンドウです。
100万トークンコンテキストの威力
Gemini 2.5 ProとFlashは両方とも、白鯨やドン・キホーテ全体のような長形式テキストの断片、コードベース全体、長形式音声・動画データを処理できます。
最新のGemini 2.xモデルをGoogleから試したい場合は、本日の動画のスポンサーであるAbacus AIをご覧ください。私のように多くの異なるAIサービスのサブスクリプションを持ち、常にそれらを行き来している方にとって、少しイライラするし、かなり高額でもあります。そこでAbacus AIのChat LLMの出番です。
これは、主要なモデルプロバイダーからの最新かつ最高のモデルをすべて含むオールインワンAIプラットフォームです。また、実際のプロンプトに依存して、プロンプトを送信するのに最適なモデルを自動的に選択するroute LLMという機能もあります。つまり、プロンプトを適切なLLMにルーティングしているのです。
もちろん、PDFとのチャットも可能で、必要な文書をダウンロードして、簡単に質問したり、洞察を抽出したり、データを収集したり、既存の文書から必要なことを何でもできます。それだけでなく、テキストから画像、テキストから動画のモデルもあるので、素晴らしい画像や動画を簡単に生成できます。
また、最近Deep Agentを導入しました。これは非常に強力なAIエージェントで、基本的に何でもできます。ウェブサイトの構築、アプリの構築、プレゼンテーションの作成、調査レポート、チャットボット、さらにはゲームの構築まで。そしてこれがすべて月額わずか10ドルです。chatlm.abacus.aiをチェックするか、説明欄のリンクをクリックして、私が紹介したことを伝えてください。Abacus AIに改めて感謝します。
性能と価格の比較分析
このチャートを見てみましょう。Y軸は価格対性能、X軸はアリーナスコア、価格は100万トークンあたりで、3:1の入力対出力トークン比を想定しています。これは、トレンドラインが他のすべてのモデルの外側、上方、右側にあることを望む種類のものです。
ここにClaudeモデルがあり、ここにいくつかのOpenAIモデル、下にLlamaモデルがあります。残念ながらQuen、Mistral、DeepSeek V3が非常に強力に登場していて、DeepSeekモデルがそこにありますが、ご覧のようにGemini 2.5 Proがアリーナスコアでトップを占め、Gemini 2.5 Flashlight Previewは優れた性能と比較的低コストを実現しています。
この論文から学んだもう一つのことは、2.5シリーズの小さなモデルは蒸留を使用していることです。基本的に大きなモデルを取って、それを使って小さなモデルを教えるのです。大きなモデルの蒸留版です。
データと訓練について
データについてはどうでしょうか。彼らはそれについて少し情報を提供しています。幅広いドメインとモダリティを包含する大規模で多様なデータ収集を使用しており、公開されているウェブ文書、様々なプログラミング言語を含むコード、画像、スピーチやその他の音声タイプを含む音声、そして動画を含み、カットオフ日は2.0が2024年6月、2.5が2025年1月です。
動画データについて少し立ち止まって考えてみましょう。それがどこから来ていると思いますか?おそらく多くをライセンスしているでしょうが、彼らにはYouTubeという小さな製品があり、基本的に企業が欲しがる可能性のあるすべての動画データを持っており、それは驚異的な速度で成長しています。YouTubeの動画データを使ってモデルを訓練していたのかと疑問に思います。実際に確かではないので、知っている場合やどこかでレポートを見た場合は、下のコメントで教えてください。
処理速度の優位性
Geminiモデルは本当に高速です。以前も言いましたが、2.5 Proモデルでさえ非常に高速に見え、今回の比較でそれがある程度確認されました。ここにDeepSeek R1、Claudeモデル、Grok 3、そしてo3とo4 miniモデルがありますが、Gemini 2.0 flashlight、2.0 Flash、2.5 Flashがすべて秒あたり出力トークン数で王座を獲得しています。
Gemini 2.5 Proを見ると、o3が実際にほぼ同じ速度であることに驚きました。Gemini 2.5 Proの方が速く感じるからです。
TPUアーキテクチャと思考機能
モデルはTPU V5Pアーキテクチャで訓練されました。これらはGoogleの自社開発チップで、何年も前に独自のAIチップを開発するという巨大でリスキーな賭けを行い、それが今非常に報われています。
ここで思考の影響を見ることができます。思考予算または推論モデルと、その非推論版との比較です。紫色で2.0 flashと思考機能付き2.0 flash、そしてここに動的思考機能付き2.5 flashと動的思考機能付き2.5 Proがあります。全体的に、モデルはより多く思考するほど良くなることが分かります。
事後訓練の詳細
事後訓練はどのようなものだったでしょうか?このチャンネルを見ている方なら、彼らが検証可能な報酬を伴う強化学習を使用したことに驚かないでしょう。教師あり微調整、報酬モデリング、強化学習段階全体にわたって、データ品質に一貫して焦点を当てました。重要な焦点は、モデル自体を活用してこれらのプロセスを支援することでした。これにより、より効率的で微妙な品質管理が可能になります。
モデル自体を活用して支援すると言うとき、通常はモデル・アズ・ア・ジャッジを意味します。一つのモデルが別のモデルの出力を判定するのです。強化学習に割り当てられた訓練計算を増やし、モデル行動のより深い探索と洗練を可能にしました。検証可能な報酬とモデルベースの生成報酬に焦点を当て、より洗練されたスケーラブルなフィードバック信号を提供しました。
つまり、検証可能な報酬は数学、科学、コードのように証明可能な解に対する報酬であり、モデルベースの生成報酬は創作のように必ずしも正解・不正解がないもののモデル・アズ・ア・ジャッジです。ここで述べられているように、強化学習はより正確な答えのための思考行動を引き出すために使用されます。結果として得られるモデルは、質問やクエリに応答する前の思考段階で、数万の順方向パスを費やすことができます。
タスク固有の能力:コーディング
次に、これらのモデルのタスク固有の能力について詳細を提供しました。ここではコードについてです。リポジトリとウェブソースの両方からのより大量で多様なコードデータを訓練ミックスに組み込むことに焦点を強めました。
モデルにより多くのコード例を与えるほど、全体的により良くなるようで、これは考えてみると非常に興味深いことです。下流のユースケースに合わせてコード能力を評価するための評価メトリクススイートを大幅に強化しました。推論能力を組み込んだ新しい訓練技術を開発し、多様なエンジニアリングタスクセットをキュレートしました。
基本的に、彼らはモデルをコーディングで本当に優秀にしました。そして、ルービックキューブのシミュレーションを成功裡に再現できた唯一のモデルであることがすでに分かっています。これらの進歩を示す主要なアプリケーションには、IDE機能、完全なリポジトリでの複雑な複数ステップ操作のためのコードエージェント使用例、エンドツーエンドのウェブとモバイルアプリケーション開発などのマルチモーダル対話シナリオが含まれます。
事実性の向上とツール統合
また、正しく事実的であることを確実にするために多くの時間を費やしました。Gemini 2.0は、Google検索などのツールをネイティブに呼び出すように訓練された最初のモデルファミリーとして重要な飛躍を遂げ、正確なクエリを策定し、ソースとともに新鮮な情報を統合できるようになりました。
その後、2.5は高度な推論を統合し、これらの検索機能を内部思考プロセスと交互に行うことができるようになりました。これについて十分に語られていないと感じますが、ある日、ChatGPTモデルが思考連鎖を出力し、その後思考連鎖内でツール呼び出しを使用するのを見ました。これまで見たことがなく、それについてそれほど多く話していませんでした。
その後、Geminiも同じことを始め、今この論文でそれについて話していますが、その機能は十分に愛されていないと思います。モデルが物事について考えながらツールを使用できるというのは、とても強力に思えます。単にトークンを生成するだけでなく、外部ソースを引き込んでいるのです。
モデルは検索やその他のツールを使用し、出力について推論し、利用可能な情報を拡張し、応答の事実的正確性を検証するために、追加の詳細なフォローアップクエリを発行することを学習しました。
長コンテキストと音声生成
長コンテキストについて話していますが、私はすでに十分話しました。100万トークンは現在打ち負かせません。Gemini 2.5は実際に、テキストから音声や音声視覚から音声出力対話などの音声生成タスクを実行するように訓練されていたことを、実はよく知りませんでした。音声出力がどれほど優秀なのか完全には理解していませんでした。あまりテストしていないので、テストしてみます。
しかし、私がGeminiを常に使用する一つのことは動画理解です。いつも動画を読み込み、チャプターマーカーを作成するように依頼したり、他の人の動画を読み込んで質問をしたりします。動画全体を見ることなく学習したいときにです。そこで彼らはこれに多くの時間を費やしました。
事前訓練と事後訓練の動画理解データを大幅に拡張し、モデルはフレームあたり258の視覚トークンではなく66で競争力を発揮できるようになり、100万トークンのコンテキストウィンドウで1時間ではなく約3時間の動画を可能にします。それは良いですね。同じコンテキストウィンドウ内でより多くの動画、より多くの効率性、それは良いことです。
Pokémonゲームでの実証
見ていない場合、Geminiはポケモンをプレイしてゲームをクリアし、かなり上手にゲームをクリアしました。ここのY軸にあるのはゲームのマイルストーンで、始めたばかりからゲームをクリアしてフェームの殿堂入りまでのすべてです。X軸は経過時間(時間)です。
ここの青い円である実行1では少し時間がかかりましたが、何が効果的かを学んだ後、基本的に大規模言語モデルの周りに包まれたすべての決定論的コード、つまりスキャフォールディングを調整してより効果的にしました。これが第2回の実行で、ご覧のように本当に優秀な性能を示し、わずか400時間強でゲームを完了し、第2回は第1回の半分の時間でした。
モデルの課題と限界
しかし、すべてが完璧ではありません。ポケモンをプレイしている間、何に苦労したでしょうか?まずスクリーン読み取りです。実世界の視覚タスクで優秀なベンチマーク数値を獲得している間、2.5 Proはゲームボーイスクリーンの生ピクセルを直接活用することに苦労しました。ピクセルからの情報から時々手がかりを得ることはできましたが、結果として、エージェントフレームワークでスクリーンから必要な情報をテキスト形式に変換する必要がありました。
画面を読めなかったというのは少し驚きです。そこで、ゲームボーイのポケモンのスクリーンショットを取得し、入力して「画面のテキストは何と言っていますか?」と尋ねました。これがGemini 2.5で、「Geodude L19 HP」とあり、完璧に見えます。画面上のすべての異なるテキストがあるので、改めて、そのテキストを読むのに苦労したと聞いて非常に驚きました。
また、長コンテキスト推論にも苦労しました。Gemini 2.5 Proは長コンテキスト推論で本当に優秀ですが、ここでは「エージェントは、新しい計画を統合するよりも、その膨大な履歴から繰り返し行動を好む傾向を示した」と述べています。これは、検索のための長コンテキストと、複数ステップの生成推論のための長コンテキストの間の重要な区別を浮き彫りにしています。
AI安全性への取り組み
その後、論文の約半分をAI安全性について費やしており、一部は興味深いですが、多くは取り上げません。ぜひご覧になることをお勧めします。この論文へのリンクを下に掲載します。
彼らは自動化されたレッドチーミングも行っており、これは本当にクールだと思いました。自動化されたレッドチーミングを、攻撃者の集団と評価対象のターゲットGeminiモデルとの間のマルチエージェントゲームとして策定しました。攻撃者の目標は、定義された目的を満たすターゲットモデルからの応答を引き出すことです。基本的に、一つのモデルを使って別のモデルをレッドチーミングしているのです。
記憶化テストと個人情報保護
また、記憶化についても調べました。例えば、ニューヨークタイムズの記事全体を出力することに捕まりたくないし、名前や社会保障番号などの人々の個人情報を出力することに捕まりたくもありません。そこでそれをテストしました。
ご覧のように、総記憶化率があり、Gemini 2.5 Flashがパックをリードして非常に低い割合、1パーセントの端数となっています。そして、ここに個人情報があり、すべての最新モデルが基本的に効果的に0%の個人情報表示率を持っていることが分かります。
性能向上の実証
最後にお見せしたいのは、2シリーズのモデルが以前のGeminiモデルよりもどれほど優れているかを示すいくつかの簡単な例です。ここに、テーブル上の色々なもののただの写真があります。「この画像をSVGに変換し、オブジェクトの空間配置を再構築してみてください」。Gemini 1.5は非常に粗く、その後Gemini 2.5 Proははるかに優れています。
また、ロボットがシャツを折る46分の動画を読み込み、それについて多くの質問をしました。ご覧のように、2.5 Pro Preview 56は、動画で物事が起こった特定のタイムスタンプを提供するのにはるかに効果的でした。
Gemini 1.5 Proは3例中3分の1で色を正しく理解し、3例中ゼロでタイムスタンプを正しく理解しました。2.5 Proは3例中3例で色を正しく理解し、3例中1例でタイムスタンプを正しく理解し、残りの3例中2例は3秒以内でした。
これは私が行うことに非常に関連しており、動画を読み込んでチャプターマーカーを提供するように依頼します。ほとんどの場合、チャプターの説明とタイムスタンプは驚くほど正確であることがわかります。時々数秒調整する必要があり、時々説明の一つを書き直しますが、全体的には本当に優秀です。
以上です。Gemini 2.5 Proファミリーのモデルをチェックしてください。現在一般提供されています。この動画を楽しんでいただけたら、ぜひいいねとチャンネル登録をご検討ください。


コメント