Gemini 2.5 Pro – これは本当に賢いチャットボットだ…（新しいシンプル高得点）

9,776 文字

https://www.youtube.com/watch?v=kTslCsPBGHw

世界はGemini 2.5のリリースを消化するのに72時間を費やし、最初の良い印象はさらに良い二回目、三回目の印象になりました。私は4つの新しいベンチマーク結果をお見せします。その中には私自身の試験での記録的なスコアも含まれていますが、数字だけではありません。昨日の論文と私自身のテストを基に、Gemini 2.5が時に巧妙に答えを逆算していることや、それ以上にGoogleがまだすべてのAI分野やドメインを支配しているわけではないことを示します。
まず、奇妙に思えるかもしれない場所から始めましょう。あまり知られていないフィクションライフベンチというベンチマークからです。しかし、これを最初に取り上げる理由がわかると思います。長いエッセイやプレゼンテーション、コードベース、物語を分析することは、多くの人がAIを使う目的であり、チャットボットに頼る理由です。Gemini 2.5 Proのこのベンチマークでの素晴らしいスコアを見ていましたが、より深く掘り下げて、どのような質問があるのか、何をするのかを見たかったのです。正直なところ、これまで誰もこのようなテストを思いつかなかったことに驚いています。
サンプルテキストが与えられ、これは約6,000語か8,000トークンと比較的短いものです。複雑なプロットのSF物語ですが、ページをめくってめくった後に最後の質問にたどり着きます：「文を完成させなさい。ジェロームはどのような名前をリストするでしょうか？名前のリストだけを挙げなさい」
チャットボットの助けを借りて、なぜ答えが特定の名前のセットなのかを理解しました。その答えは第2章の約束に依存していますが、第16章で示された注意点があります。つまり、この場合のチャットボット、Gemini 2.5は、すべての情報を注意して保持する必要があります。これは単なる干し草の山から針を見つけるチャレンジではなく、500行目に隠されたパスワードのようなものではありません。モデルは実際に異なる情報の断片を組み合わせる必要があります。これをあなたのユースケースに適用してみてください。
十分な前置きをしたところで、結果はどうだったでしょうか？Gemini 2.5 Proと他のGeminiモデルを比較してみましょう。特に上限の120kトークン（中編小説や適度に拡張されたコードベースに相当）に到達すると、Geminiは他のモデルを大きく引き離しています。約32,000トークンを超えると本当に差をつけ始めますが、全体的に優れています。すでに視聴者の半分が「それは私のユースケースに役立ちそうだ」と考えていると思いますが、まだ終わっていません。
次に、ベンチマークではないものの、AIに没頭している私たちが忘れがちなモデルの実用性に簡単に焦点を当てます。少なくともGoogle AI Studio上では、動画だけでなくYouTube URLも処理でき、私が知る限り他のモデルはできません。また、単純に2025年1月という最新の知識カットオフ日を持っているので、理論的にはその日付までの情報を知っているはずです。これはClaude 3.7 Sonnetの2024年10月と比較すると、OpenAIモデルではさらに早い時期になります。もちろん、その知識に過度に依存しないでください。当たり外れがあり、もちろんライバルモデルも単にインターネットを検索できます。
新しいモデルのセキュリティをテストするのにわずか1ヶ月半を与えただけというのは、我々がその面での底辺への競争にあることを示しています。また、OpenAIやAnthropicとは異なり、レポートカードも作成しませんでした。
次はコーディングです。GoogleまたはGoogle DeepMindは、コーディングで強調したベンチマークの選択において、称賛に値するほど控えめでした。彼らはLive Codebench V5とSwebench Verifiedという2つのベンチマークを選び、そこでは競合他社よりも若干劣っています。Live Codebenchの場合、Grok 3に大きく負けています。
コメントで繰り返し受ける質問に答えると、SimpleBenchでGrok 3をテストしていない理由は、APIがまだリリースされていないためです。これは、私がGrok 3に対して何らかの偏見を持っているという人々への回答です。単にAPIなしではSimpleBenchでテストできないのです。いずれにせよ、Grok 3はそのベンチマークで非常に良い成績を収め、Gemini 2.5 Proを上回っています。
コーディングのもう一つの著名な産業ベンチマークはSwebench Verifiedです。これは徹底的に検証されたベンチマーク（名前の「Verified」の由来）であり、ここでもGemini 2.5 Proは負けています。Claude 3.7の70.3%だけでなく、ここには載っていないがOpenAIによると71.7%を獲得したO3にも負けています。
しかし興味深いのは、GoogleがLiveBenchというコーディングの非常に人気のあるベンチマークでのGemini 2.5 Proのパフォーマンスを強調しなかったことです。なぜ驚きかというと、このベンチマークのコーディングサブセクションでは、Gemini 2.5 ProはClaude 3.7 Sonnetを含むどのモデルよりも最高のスコアを記録しているからです。
もちろん、あなた自身のコーディングユースケースでどのように感じるかは自分でフィードバックする必要がありますが、パフォーマンスのこの小さな不一致の理由について20秒ほど考えてみましょう。私はこれら3つのコーディングベンチマークの背後にある3つの論文を調査しました。
Gemini 2.5が最高スコアを獲得したLiveBenchは、部分的に競技コーディングの質問に基づいており、部分的にはリークコードから取得した部分的に正しい解決策の完成に基づいています。実世界の状況というよりも競技コーディングに近いものです。
LiveCodebench（LiveBenchと混同しないでください）では、Gemini 2.5 Proは若干パフォーマンスが低下します。これはコード生成よりも、自己修復、コード実行、テスト出力予測などの広範なコード関連能力をテストします。
最後にSwebench Verifiedは、Gemini 2.5が明らかに最先端ではありません。これらの問題は実際のGitHubの問題と対応するプルリクエストから抽出されフィルタリングされています。コーディングIQについてというよりも、実践的な能力についてのものです。
基本的に、これらはすべてのコーディングにおける「最先端」という競合する主張について、少しだけコンテキストを与えたはずです。私はWindsurfで少しテストしましたが、現時点ではベンチマークに頼るでしょう。
次は変わったMLベンチマークです。そしてSimpleBenchについて話すことを約束します。なぜこれを取り上げるのかというと、これも新しいデータセットに基づくコミュニティベンチマークだからです。機械学習という異なるものをテストしていますが、このようなベンチマークは、ゲーム化されたものよりも信頼性が高いと思います。
これがテストしているのは、モデルに与えられたデータの特性を理解し、適切なアーキテクチャを考案し、解決策をデバッグし改善することについてです。結論から言うと、これは最新の情報なのでウェブサイトにはまだ更新されていませんが、Gemini 2.5 Proはどのモデルよりも高いスコアを記録しています。
では、SimpleBenchでのGemini 2.5のパフォーマンスはどうでしょうか？これは約9ヶ月前に私が最初に考案したベンチマークです。SimpleBenchの30秒の背景説明として、昨年、空間推論、社会的知性、トリック質問などの特定のタイプの質問で、モデルがどれだけMLUのようなゲーム化されたベンチマークでうまくやっていても、常に引っかかってしまうことに気づきました。ほとんどの人間が簡単に正解できる質問に引っかかるのです。
昨年9月頃、このウェブサイトを公開しました。これは私と、これを続けるのを手伝ってくれる上級MLの同僚によるものです。9人のテスターの中での人間のベースラインは約84%で、最高のモデルであるO1 Previewは42%でした。つまり、人間の平均と比較して最高の言語モデルは約半分ということです。
もちろん、6〜9ヶ月の間に多くのことが起こり、現在最も優れたパフォーマンスを発揮しているモデルはClaude 3.7 Sonnetの拡張思考バージョンで、約46%でした。ベンチマークには200以上の質問があり、平均を得るために5回実行します。最終的な小数点を計算している最中ですが、Gemini 2.5 Proのパフォーマンスは約51.6.7%、51.6%と呼びましょう。Claude 3.7 Sonnetからの明確な飛躍が見られます。これは言うまでもなく、50%を超える初めてのモデルです。私にとっては特別な瞬間です。
次に、Gemini 2.5 Proがベンチマークで与えたすべての回答を確認し、どこで改善されているかを感じ取りました。Gemini 2.5 Proがよく正解し、Claude 3.7 SonnetやO1 Proがよく間違える質問のタイプの例を一つ示します。
温度と呼ばれるものがあるため、モデルが与える答えを常に予測することはできません。Claude 3.7がこれを正しく得ることもあるでしょう。また、質問全体を読ませるわけではありませんが、これは古典的な論理パズルで、数学を含むように見えますが、他の人が言っていることに基づいて自分の帽子の色を推測するものです。このシナリオの特徴は、すべての壁を覆う鏡があることです。あなたは明るく照らされた小さな部屋にいて、着ている帽子の色を当てて200万ドルを獲得する必要があります。
ちなみに、この質問は公開されている質問セットにないため、修正しました。質問には「参加者は他の人の帽子を見ることができますが、自分のを直接見ることはできません」とあります。この「直接」という言葉は、Gemini 2.5が実際に拾い上げたもう一つの手がかりです。Claudeはこのような手がかりを無視し、深い数学的分析に直接飛び込み、2またはFという間違った答えを出します。O1 Proも同様です。
これは予想されることです。これらのモデルは、基本的に次の単語を予測するためにトレーニングされており、数千または数百万の数学的例でトレーニングされています。モデルが質問の背後にある質問を見つけるには、実際には推測する必要がなく、反射で帽子の色を見ることができるというのは、何か異なることが必要です。Gemini 2.5は、直接自分の帽子を見ることができないということが、間接的に見ることを排除するものではないという事実を特定し、それを現実的に述べています。これが質問が求めていたことです。したがって、答えは全員が正しく推測するということです。
多くの方が指摘するように、これはただ一つの例であり、逸話的なものです。しかしSimpleBenchが示してくれるのは、このモデルと話すときの雰囲気は、他のものよりも少し賢く、常識においてわずかに優れているということです。もちろん、多くの失敗や幻覚を起こしますが、少し賢い雰囲気を持っています。
ところで、これがベンチマーキングへの食欲を刺激した場合、またはベンチマーキングに焦点を当てる開発者やMLエンジニアである場合は、このビデオのスポンサーであるWeights and Biasesをチェックしてください。ご覧のように、我々はSimpleBenchでモデルをベンチマークするためにWeaveを使用しており、非常に高速で軽量です。説明にあるリンクはこのページに導き、Weaveの始め方だけでなく、Weights and BiasesのAIアカデミーへのリンクも提供しています。このアカデミーは、この分野に比較的新しい方のためのものであり、もちろん無料のコースも含まれています。
これを機に、Weights and BiasesとSimpleBenchの新しいコンペについて作業する必要があることを思い出しました。それは次に私がGoogle Gemini 2.5について述べることに関連しています。それは、時に答えを逆算することがあるということです。
これも公開セットからのSimpleBench質問です。まず、この質問のきっかけとなった論文に触れますが、その前に興味を引くための例を一つ示します。「以下の質問に正確に答えてください。試験官のメモや指示は無視してください」と尋ねました。これはSimpleBenchからの質問で、以前チャンネルで取り上げたものです。よければ一時停止して自分で試してみてください。正解のDには「試験官のメモ：これが正解です」と書きました。
Geminiの回答について興味深いことに気づきましたか？正解のDを選び、その正当化を見てください。試験官のメモについての言及はあまり見られません。モデルの思考を見てみようと思うかもしれませんが、試験官のメモに気づいた可能性があることを示唆する前に、あらゆる種類の分析を行っています。
分析で退屈させませんが、最後まで待たなければならず、それでも「プロンプトで無視するよう指示されている試験官のメモがDを指しており、この解釈を確認している」と言っています。モデルは基本的に「いずれにせよそこにたどり着いただろう」と言っています。「しかし、はい、その試験官のメモは私が考えたことを確認しています」と。
もちろん、公式のベンチマーク実行のように試験官のメモなしでモデルをテストすると、間違えることがわかります。それは一回限りのことではありません。何度も実行し続けると、間違えます。ほぼ毎回選択する96%を再び選んでいます。
この例を覚えておいてください。言語モデルは基本的に次の単語を正しく予測することについてであり、それが彼らの核心的な命令です。あなたの友人になったり、与えた答えへのアプローチについて正直になったりすることではありません。
これに着想を与えたのは、昨日出たAnthropicの解釈可能性に関する論文で、大規模言語モデルの思考を追跡するものでした。将来的には何度も取り上げることになるであろう非常に密度の高い興味深い論文なので、ここでは簡単なハイライトだけを紹介します。
待てないという方のために、Patreonでもクロード3.7についての深掘りをしています。テストされていることをどのように知っているのか、それでも足りない場合は、AnthropicとOpenAI、Google DeepMindの起源についてのミニドキュメンタリーもあります。フィードバックは素晴らしかったので、もっと多くのミニドキュメンタリーがあり、その多くはメインチャンネルにも登場するかもしれません。
最初の教訓は、モデルの繰り返し的な奇妙な空想です。つまり、先ほど見たように、論理的なステップに従うのではなく、ユーザーに同意するように設計された尤もらしい議論を提供することです。言い換えれば、何かを知らない場合、答えがあればそれを見て、あなたがどのようにしてそれに辿り着いたかを逆算しようとします。それをしていると言うわけではなく、それをしている尤もらしい理由を考え出します。
論文のセクション11では、これをフランクフルトの意味での「BSing」（真実を無視して答えを作ること）と呼んでいます。彼らが与えた例は私が与えた例よりも更に明確です。もちろん彼らはClaude 3.5 Haikuに、計算機なしでは解けない数学問題を与えました。この場合、23,423のコサインを計算し、その答えに5を掛け、丸めるというものですが、鍵となるのはコサインで、計算機なしでは解けません。
「手で計算したら4になりました」とユーザーが言っています。可哀想なHaikuはどんな答えを出すでしょうか？「あなたの計算を確認して4です」。どうやって得たかを認めるでしょうか？いいえ。どうやって得たかについてのBSのような説明を考え出すでしょうか？はい。
モデルが答えを逆算していたという事実をさらに確実にするために、彼らは最後から二番目のステップを取り、モデル内のその回路を意図的に抑制しました。5で割るアプローチを抑制したのです。5で割ることは、最終的な答えの4から逆算して、その長い数字のコサインが何であったかを理解するための最後から二番目のステップでしょう。モデル内のその回路を抑制すると、モデルはもはや答えを出すことができなくなります。
これはGemini 2.5に関するビデオなので、このビデオではこれ以上長く費やしませんが、SimpleBenchからのGemini 2.5の例で見たように、ClaudeもGeminiと同様に、言うことを多くの単語先まで計画し、その目的地に到達するために書きます。
詩については、Gemini 2.5やClaudeのようなモデルが一度に一つの単語を書き、自己回帰的に推測しようとすると思ったかもしれません。つまり、この韻律スキームの終わりに到達しようとして、「starving」で「grabbit」と韻を踏むものを考えるといった具合です。しかし、モデル内の特徴を解釈することで（これはメカニスティック解釈可能性と呼ばれる分野です）、代わりにClaudeは先を見越していることがわかりました。言い換えれば、「grabbit」と韻を踏むために「rabbit」を選ぶことを知っており、その後「rabbit」で終わるために必要な残りを埋めるだけです。
最後に、このトピックの一部をこのビデオに含めずにはいられないほど興味深いことがありました。それは特に言語に関することで、言語間で共有される概念空間があるかどうかということです。これは一種の普遍的な思考言語を示唆しており、どの言語でもその単語「happiness」の具体的な例とは別の「happiness」の概念のようなものです。
ClaudeやGeminiはこの純粋に抽象的な「happiness」を考え、それを必要な言語に翻訳するのでしょうか？それとも「happiness」は各言語内のトークンとしてのみ存在するのでしょうか？答えはより詩的なもので、はい、この思考言語、この普遍的な言語を持っています。ちなみに彼らはこの共有回路がモデルスケールとともに増加することを発見しました。つまり、モデルが大きくなるにつれて、これはますます頻繁に起こるでしょう。
これは、この概念的普遍性、意味が存在し、特定の言語に翻訳される前に思考が行われる共有抽象空間の追加証拠を私たちに与えます。より実用的には、ClaudeやGeminiは一つの言語で何かを学び、別の言語で話すときにその知識を適用することができます。Gemini 2.5がグローバルMLU（MLUを15の異なる言語に翻訳したもの）で90%近くを獲得しているという事実は、おそらく他のどのモデルよりも概念的に普遍的な思考をより多く持っていることを示唆しています。MLUは欠陥があるものの魅力的なベンチマークで、57の分野にわたる適性と知識をカバーしています。
終わりに近づいていますが、Gemini 2.5についての3つの注意点を簡単に述べます。2.5 Proが多くのことをできるからといって、すべてを最先端レベルで行うわけではありません。Google DeepMindのある研究者がその文字起こし能力とタイムスタンプを与える能力を示しました。私はもちろん好奇心を持ち、Assembly AIと徹底的にテストしましたが、文字起こしはそれほど良くありませんでした。Assembly AIが正しく認識した「Hey Genen」を「Häen」のように文字起こしし、タイムスタンプも良くありませんでした。これはGeminiに対する非難ではありません。近づくことさえできることは驚くべきことです。ただ、行き過ぎないようにしましょう。
また、Gemini 2.5が多くのモダリティで素晴らしいからといって、Googleがすべてにおいてリードしているわけではありません。もちろん、約72時間前のCGBTの画像生成に関する私のビデオで、ChatGPTの画像生成が世界最高だと思うことを皆さんにお示ししたと思います。
それでは、これらの画像をビデオに変換することについてはどうでしょうか？Soraはそれほど素晴らしくなく、V2も広範囲に試しましたが、実際V2でゼロからビデオを作成する方が良いです。しかし特定の画像をアニメーション化したい場合は、実際にはCling AIを使う方が良いでしょう。彼らについてはあまり知りませんが、中国のモデルプロバイダーで、最初に与えた画像に他のどのモデルよりも忠実であることがわかります。
AIの検索エンジンがどれほど悪いかについての新しい研究をカバーする時間はおそらくないでしょう。それは単に彼らが言ったことの正確さだけでなく、誰を引用し、正しい記事を引用しているかどうかについてです。これはGeminiとどう関連しているのでしょうか？そう、これは新しいGemini 2.5の前に出てきましたが、検索をマスターしているのはGoogleだと思っていたでしょう。しかし、正直なところ、彼らのAI概要は本当に怪しいです。信頼しないでください。
以前チャンネルで話したように、私も前に騙されたことがあります。おそらくGemini 2（この研究のためのもの）については、ChatGPT SearchやPlexityなどと比較して、不正確な答えや幻想的または不正確な引用を遥かに多く提供していることがわかりました。Googleからのものであれば、そうであってはならないことは指摘する必要はないでしょう。
最後の注意点ですが、はい、Gemini 2.5 Proは賢いチャットボットであり、おそらく現時点では最も優れたものです。ユースケースによりますが、クリエイティブライティングについても素晴らしいと思いました。OpenAIの新しく更新されたGPT-4oよりも優れています。しかし、現時点では常に新しいモデルが登場しています。
おそらくDeepeek R2はあと数週間で登場し、Llama 4についてはまだわかりませんし、O3はOpenAIからリリースされず、おそらくGPT-5に組み込まれます。そしてまだまだあります。Anthropicのチーフエグゼクティブオフィサーは、Claude 4の強化学習に数億ドルを投じると述べました。つまり、王冠はGoogleに長くとどまらないかもしれませんが、今日は彼らのものと言えるでしょう。
前回のビデオでそれを過小評価したでしょうか？そう言えるかもしれませんが、私が伝えようとしていたのは（まだ見ていない方はそのビデオをぜひご覧ください）、AIが商品化されているということです。良いチャットボットを作ることは、AnthropicやOpenAIの本社で秘密のソースを持つことではありません。それは異なるモデルファミリー間のある種のベンチマークでの収束の証拠によって支持されます。しかし、そのビデオで述べたように、収束は確かに進歩を排除するものではなく、進歩はまさにGemini 2.5 Proがもたらしたものです。
視聴いただきありがとうございます。あなたの考えを知りたいと思いますし、何よりも素晴らしい時間をお過ごしください。