
4,646 文字

Googleがついに Gemini 2.5 Proをリリースしました。これは2.5ファミリーの最初のモデルです。このビデオでは、彼らが共有したベンチマークに基づいて、このモデルの最初の印象をお伝えします。このモデルは驚異的で、主要なベンチマークでほぼすべてのフロンティアモデルを凌駕しています。Gemini 2.5 Proはコーディングが非常に得意で、推論モデルでもあります。つまり、応答を生成する前に、他の推論モデルと同様のチェーン・オブ・ソート(思考の連鎖)を持っています。ただし、これはProファミリーにおける初めての推論モデルのバージョンです。
コーディング能力は非常に優れており、複雑なゲームを一度に生成することができます。後ほどビデオでいくつか例をお見せします。また、マルチモーダルな性質を持ち、画像理解能力と100万トークンの長いコンテキストウィンドウを備えています。長いコンテキストは、特にコーディングに関しては非常に重要です。長いコンテキストにより、モデルはより大きなコードを理解し、短いコンテキストモデルと比較してはるかに有用になります。これまで見た限りでは、コーディングが本当に優れています。
このモデルは、Gemini Advanced定期購読をお持ちの方なら、すでに利用可能です。これは「2.5 Pro experimental」と呼ばれ、ローンチ時にAI Studioでも利用可能になる予定です。
モデルをテストする前に、このブログ記事を簡単に見てみましょう。私はこのブログ記事に早期アクセスしていました。彼らは「本日、私たちは最も知的なAIモデルであるGemini 2.5を発表します。2.5リリースは2.5 Proの実験的バージョンであり、幅広いベンチマークとChatbot Arenaリーダーボードで最先端の成績を収めています」と述べています。Googleはこのモデルをおそらくコードネームの下でテストしていたと思います。また、これは思考モデルでもあり、最終的な出力を生成する前に推論するためにチェーン・オブ・ソートを使用します。
彼らは「RLやチェーン・オブ・ソートプロンプティングなどの技術を通じて、AIをよりスマートで機能的にする方法を探求してきました」と述べていますが、これは他のモデルのトレーニング方法とは少し異なるようです。ここで彼らは「大幅に強化された基本モデルと改良されたProトレーニングを組み合わせることで、新しいレベルのパフォーマンスを達成しました」と述べており、今後はこれらの思考能力を直接モデルに組み込む予定だとしています。
ブログ記事にはまだ理解しようとしている部分があります。「多数決投票のようなコストを増大させるテスト時の技術なしでも、2.5 ProはGPQAやMEなどの数学・科学ベンチマークでリードしています」と述べていますが、「テスト時の技術なし」が具体的に何を意味するのかはまだ不明です。
ベンチマークに関しては、このモデルは人文科学の最終試験で18.8%を達成した最初のモデルです。これは非常に難しい試験であり、以前の最高スコアはO3 miniのハイ設定で14%でした。また、科学的ベンチマークであるGPQA Diamondでは、他のすべてのモデルのパフォーマンスをリードしています。ベンチマークでは間違いなく非常に強力なモデルのようで、Googleは特に推論能力とコーディング能力を強調しています。これらは後ほどビデオでテストしますが、推論、一般知識、数学については現時点で最先端です。コーディングについても同様です。
彼らによると、高度なコーディング機能を持っており、コーディングパフォーマンスに焦点を当て、Gemini 2.5は2.0から大きな飛躍を遂げています。さらなる改善も予定されています。2.5は視覚的に魅力的なWebページの作成やエージェントコード機能に優れ、コード変換や編集も可能です。長いコンテキストウィンドウを持つため、Cursorやその他のコーディングIDEで非常に役立つでしょう。SUベンチマークでは、彼らが実装したカスタムエージェントセットアップで約64%のスコアを達成しています。
コーディング能力は、彼らが共有したいくつかのデモに現れています。例えば、Plotly Expressを使用したデータ分析の例では、解決すべき問題を考え抜き、解決策を考え出し、その実装は特にプロットが視覚的に魅力的で素晴らしく見えます。ゲームを作成するようなタスクだけでなく、実際のデータ分析にも使用できます。これは大規模な推論モデルにとって本当に有用なケースです。
いくつかの簡単なテストを行いましょう。私はGemini Advancedを使用し、ここで「2.5 Pro experimental」を選択しています。ただし、このビデオがリリースされ、モデルが発表される頃には、AI Studioでも利用可能になるでしょう。
まず、推論能力を簡単にテストします。トロッコ問題の修正版を提供します。この場合、線路上には5人の死者がおり、あなたはトロッコを別の線路に迂回させることができるレバーの横に立っています。その別の線路には1人の生きている人が縛られています。通常、未修正または元のトロッコ問題では、5人も生きています。私が見てきた限り、ほとんどの場合、これらのモデルは単に未修正または元のトロッコ問題を想定します。しかし、推論モデルであれば、人々がすでに死んでいることに注意を払うことができるはずです。
ここでは思考プロセスを表示していて、実際に時間がかかります。これは良いことです。最終的な出力を見る前に、思考プロセスを簡単に見てみましょう。「コアシナリオを特定する:ユーザーは古典的なトロッコ問題の倫理的ジレンマを提示している」と言っています。「暴走するトロッコ、線路上にすでに死んでいる5人」とあるので、すでに核心的な問題を特定しているようです。
「これは単一の正解がある問題ではなく、さまざまな倫理的フレームワークと道徳的直感を探求するために設計された思考実験である」と認識しています。次に「ユーザーの特定の言い回しを分析する:問題は主要な線路上の5人がすでに死んでいることを指定している。これは標準的なトロッコ問題(5人が生きている)からの重要な逸脱である」と言っています。それで、推論できているようです。これは良いことです。
ここが最終的な回答です:「これは古典的なトロッコ問題の思考実験のバリエーションですが、あなたは重要な変更を導入しました:主要な線路上の5人はすでに死んでいます。」
「この特定のシナリオでの結果を分析しましょう。レバーを引かない場合:トロッコはそのまま進み、すでに亡くなっている5人の遺体の上を通過します。この選択の結果として、生きている人は誰も死にません。レバーを引く場合:1人の生きている人が死ぬことになります。」
実際に元のトロッコ問題を解こうとするのではなく、問題を推論できることを見るのは非常に励みになります。これは非常に心強いです。
次に、シュレディンガーの猫の問題を試してみますが、この場合、猫はすでに死んでいます。これも正しく推論できるか見てみましょう。ここでもモデルは、箱に入れる前に猫がすでに死んでいるという事実に焦点を当てています。かなり正確に推論できると思います。
最終的な回答では「箱が開けられたときに猫が生きている確率は0%」と述べています。ここまで良好です。Misguided Intentionベンチマークでさらにテストを行う予定です。このベンチマークは特に推論モデルの推論能力と論理的推論をテストすることに焦点を当てています。しかし、これまで見てきたパフォーマンスには非常に満足しています。
次にコーディング能力をテストします。Googleがブログ記事で強調していたことの1つは、視覚的に魅力的なウェブアプリを作成する能力です。「HTML、CSS、JSを使用してモダンなランディングページをコーディングし、すべてを1つのファイルに入れてください」という問題を使用します。これまでさまざまなLLMでテストしてきましたが、DeepSeek V3の新バージョンが最も見栄えの良いウェブサイトを提供してくれました。現在、モデルは推論中で、何を作るか見てみましょう。
ここに作成されたウェブサイトがあります。リンクも機能しているようです。比較的小さなウェブサイトで、数セクションしかありませんが、ランディングページの基本機能はあります。
もう1つのコーディングテストを行います。より包括的なテストはすぐに行う予定です。「JavaScriptを使用して、リアリスティックな物理法則に従って落下する文字のアニメーションを作成してください。文字は画面上部にさまざまなサイズでランダムに表示され、地球の重力の下で落下します。実際の文字の形状に基づく衝突検出を持ち、他の文字、地面、画面の境界と相互作用し、水に似た密度特性を持ちます。画面の変化に動的に適応し、黒い背景を持ち、すべてを1つのHTMLファイルに入れてください。」
ここで思考プロセスが始まり、コア要求を理解し、主要コンポーネントを特定しています。私たちが要求したとおり、HTML構造、CSSスタイリング、JavaScriptでロジックを使用するとのことです。推論プロセスを進めていて、計画がうまくいくかもしれません。このモデルが示すチェーン・オブ・ソートは、OpenAIモデルで見られるものよりもはるかに包括的です。基本的に、チェーン・オブ・ソート内で、実際の実装がどのように見えるかを示しています。出力がどのように見えるか非常に興味があります。コードを生成中ですが、なぜかMITライセンスを付けています。これは興味深いですね。
何らかの理由で止まってしまったので、もう一度実行する必要がありました。ここに更新された思考プロセスと更新されたコードベースがあります。これを実行して、実際に私たちの要件をすべて満たすことができるかどうか見てみましょう。
新しいウェブエディタを開きます。数字が落下しているようです。これらはさまざまな形状とサイズです。衝突検出も機能しているようです。画面サイズの変更に適応できるか見てみましょう。うまく機能しているようです。
このモデルの最初の印象としては、確かにコーディングが得意です。より徹底的なテストを行って、性能が維持されるかどうかを確認する必要があります。
これまでのところ、ベンチマークは素晴らしく見え、コーディングに関してはClaude Sonnetと競合するモデルがあると思います。特にGlot、SweepBench、LifeCodingBenchのようなベンチマークを見ると、特に単一の試行でのパスを考慮した場合です。
強力なコーディングと推論モデルのようですが、より包括的なテストで実際のパフォーマンスが示されるでしょう。ぜひチェックして、テスト後にこのモデルについてどう思うか、何を構築できたかを教えてください。より包括的なビデオもすぐに公開される予定です。これはほんの簡単な紹介でした。
このビデオが役立つことを願っています。ご視聴いただきありがとうございます。次回もよろしくお願いします。


コメント