Gemini 3.1 Proとベンチマークの崩壊:AIのバイブ時代へようこそ

Google・DeepMind・Alphabet
この記事は約18分で読めます。

Gemini 3.1 Proのリリースを機に、AIモデル評価の本質的な難しさを掘り下げた考察動画である。ベンチマークスコアの高さが必ずしも実用性能を反映しない理由、ポスト学習によるドメイン特化の影響、ハルシネーションの現状、そしてDario Amodeiが語る「十分な特化が汎化につながる」という仮説まで、AI評価をめぐる多面的な論点が整理されている。

Gemini 3.1 Pro and the Downfall of Benchmarks: Welcome to the Vibe Era of AI
Do we have a new best AI model, or do we have the downfall of benchmarks in general, as a way of capturing machine intel...

Gemini 3.1 Proリリースと混乱するAI評価

最新の、そして多くの人が最高と称するAIモデル、Gemini 3.1 Proがついにリリースされました。リリースから24時間、さらに短期間の早期アクセス期間も含めて、私は何百回もこのモデルをテストしました。もちろん、Redditのモデルカードも確認しています。

でも今日伝えたいのはこういうことです。一般ユーザーの皆さんに向けて、単なるスコアの見出しを超えて、なぜXやYouTube、TikTok、ポッドキャストで見かけるホットテイクが次々と矛盾し合っているのかを、感覚として掴んでもらいたいんです。

実は、「どのモデルが総合的に最高か」をめぐる混乱には、技術的な理由があります。ただ、私自身の非公開ベンチマークで、最近あるモデルが一つの閾値を超えたことがあって、それについても話す価値があると思っています。

まず30秒ほど背景説明を。LLMを学習させる事前学習(プレトレーニング)の段階では、インターネット規模のデータを使って訓練されることはご存知かもしれません。ところが今や、その事前学習に使われるコンピューティングリソースはLLM訓練全体のわずか20%に過ぎません。残りの80%は、私がニュースレターでも書いたポスト学習(後処理訓練)の段階で使われています。そこでは汎用的なベースモデルが、特定ドメインの内部ベンチマークに照らし合わせて精錬されるんです。業界固有のデータを使って、特定の専門分野で特に優れた性能を発揮できるよう調整される、というわけです。

ポスト学習の台頭とドメイン特化の落とし穴

ここに一つの落とし穴があります。ちょうど1年前は、こうした状況ではありませんでした。AnthropicのCEO、Dario Amodeiはその頃こう述べていました。「第二段階、つまり強化学習(RL)ステージに費やされる量は、どの企業にとっても少ない」と。

なぜこの背景を伝えたかというと、もしあるAIラボがあなたの専門ドメインに関連するデータを持ち、そのモデルをそのエリアで高スコアを出すようポスト学習で最適化していたとしたら、そのモデルに対するあなたの体感は、他のベンチマークが示すものとはかなり違ってくる可能性があるからです。

以前のパラダイムでは、あるモデルが一つのドメインで明らかに優れていれば、多くのまたはすべてのドメインでも優れている可能性が非常に高かった。でも今はもうそうじゃない。実際、私がニュースレターで挙げた2番目のポイントは、まさにその具体例でした。

Claude Codeや、今ウェブを席巻しているさまざまなClaudeを使ったエージェントについての熱い議論を耳にした方も多いでしょう。全体的に指数関数的な改善が見られている、と言われています。では、Epoch AIが作ったチェスパズルのベンチマークを一つ見てみましょう(Epoch AIについては後述します)。5ヶ月前、OpusよりもSmallモデルに当たるClaude Sonnet 4.5はここで12%を記録しました。ところが先週、5ヶ月後のClaude Opus 4.6はわずか10%でした。

これはClaude Opus 4.6を批判しているわけではありません。私は常用していますし、コーディングにおいては素晴らしいモデルです。そしてもちろん、AIラボがこの性能を改善しようと思えば簡単にできます。GPT-5.2はエクストラハイ設定で約50%を出しているはずです。とはいえ、チェスは純粋に一般的な先読み推論プロセスをかなり正確に測る指標とも言えます。

汎用AIの時代だったなら、チェスの性能はあらゆる他のドメインにも反映されると考えるのが自然でした。でも今はもうそのパラダイムにいない。どのドメインにいるかによって結果は変わってくるんです。

Gemini 3.1 Proの実力と複雑なベンチマーク事情

これはGemini 3.1 Proが素晴らしいモデルではないということではありません。素晴らしいモデルです。ほぼあらゆる測定領域において、Claude Opus 4.6やGPT-5.3といった最高峰の他モデルと十分に張り合えます。

ただ、各種コーディングベンチマーク、GPQA Diamondによる科学的推論・学術的推論、Humanity’s Last Examによる同様の評価、そしてARC-AGI 2という一般的なパターン認識において優れたスコアを示している一方で(このARC-AGI 2については後で戻ります)、GDPVALという人間のプロが行う幅広い専門タスクを測る包括的ベンチマーク——このチャンネルでも何度も取り上げてきました——では、Claude Opus 4.6はおろかGPT-5.2にも大きく水をあけられているように見える。それがやや混乱を招くのも無理はないでしょう。

確かに、その大きな説明の一つは先ほど述べたドメイン特化です。でも、それに加えて知っておいてほしい興味深い文脈が3〜4つあります。

ARC-AGI 2とベンチマークのカラクリ

まずARC-AGI 2に注目してみましょう。Gemini 3.1 Proのスコアは77.1%で、約69%だったより高価なモデルのClaude Opus 4.6を大きく上回っています。この指標から始めるのは、Google DeepMindのCEO、Demis Hassabisがgemini 3.1 Proのローンチを告知するTwitter投稿でこれを大きく取り上げていたからです。そしてトレーニングデータに含まれているはずのないパズルにおいて、Gemini 3シリーズはコスト効率の観点から他のすべてのモデルを上回っています。

ただし、ここで最初の追加的な注意点が登場します。著名なAI研究者・教授のMelanie Mitchellが指摘したのは、数字から別の記号へエンコーディングを変えると精度が下がるということです。さらに掘り下げると、入力の色を表す数字をLLMが利用し、意図しない算術パターンを見つけ出すことで、偶発的に正解を導き出してしまうケースがあることが分かりました。

これをモデルが「ズル」をしていると言うつもりはありません。正解を出すためにできるショートカットを使っているだけで、それはフェアだとも言えます。ただ、ベンチマーク内でも問題の設定の仕方が結果に影響する、ということを改めて思い知らされます。

コーディングベンチマークの限界とバイブコーディングの本質

ARC-AGI 2でも、Simple Benchでも、他のどのベンチマークにも興味がなく、とにかくコーディング性能だけが知りたい、という方もいるでしょう。ARC-AGIシリーズの生みの親、François Choletはこう述べています。十分に高度なエージェント的コーディングは、本質的に機械学習である。エージェントまたはエージェント群に目標が与えられ、コーディングエージェントはその目標が達成されるまで反復を続ける。機械学習の他の領域と同様に、その結果はブラックボックスのモデルだ。タスクを実行するコードベースは得られるが、その内部ロジックを必ずしも精査するわけではない。

Gemini 3.1がARC-AGIで疑似的なパターンを見つけ出したかもしれないのと同じように、あなたのコードベースでもClaude CodeやCodexは仕様に過学習したり、あなたの元のコンセプトからずれていったりするかもしれない——ということです。つまり、この動画で提示している欠点は、コーディングだけを気にしている方や、オープンなClaudeエージェントにコーディングさせている方にも関係する話なんです。

Gemini 3.1 Proは実際、競争的なコーディング問題を扱うLive CodeBench Proで記録的なELOを達成しました。それ自体はすばらしいことです。ただ、その最適化のダイヤルを少し回し過ぎることもある。昨晩、Cursor内でGemini 3.1 Proを使ったときに何が起きたかをお見せしましょう。あの記録破りのELOと、こんな生ぬるい出力をどう折り合いをつければいいのでしょうか。まあ、それがまさにこの動画のテーマです。

Simple Benchで見えた人間との比較という新しい閾値

ここまでGemini 3.1 Proに対して必要以上に懐疑的に聞こえているとしたら、少し称賛を加えてバランスをとりたいと思います。私の非公開ベンチマーク「Simple Bench」——いわゆるひっかけ問題や常識的推論のテストです——では、Gemini 3 Proの以前の記録を塗り替え、79.6%を達成しました。これは少なくとも我々が使った9人の参加者を基にした人間の平均ベースラインと、ほぼ誤差の範囲内と言えます。

この閾値が意味するものについて、60秒だけ時間を使わせてください。ポッドキャストや記事で常に耳にするのは、AIモデルをプロや専門家と比較する話で、「超知能」とか「再帰的自己改善」といったフレーズが飛び交っています。でも、一般の人間との比較はどうでしょうか。

もちろん、平均的な人間なら簡単に解けるのにフロンティアモデルが失敗するような音声や視覚のパズルを見つけることは今でもできます。でも、英語のテキストだけという条件下で、私はある瞬間を記しておく価値があると思っています——つまり、平均的な人間、街行く普通の男性や女性が、フロンティアモデルを明らかに上回るようなテストを、もはや作れなくなったのではないか、という瞬間です。「Strawberryに何個のRがあるか」のようなトークン化のバグを突くような話ではありません。特殊な事前知識を必要としない、公平なテキストベースの英語テストの話です。

異論があればぜひコメントで聞かせてください。でも私は、その閾値を越えた瞬間は、記録する価値のある瞬間だと思っています。

ショートカットという本質的な問題

Simple Benchに関しても、先ほど述べた注意点を思い出させる点があります。モデルはショートカットを見つけるのが得意です。少なくとも12ヶ月ほど前から私が気づいていたのは、Simple Benchが選択式問題だったため、例えば選択肢の一つが「0」である場合、モデルに「これはひっかけ問題かもしれない」というヒントを与えてしまうことがある、ということです。

例えば、フライパンで卵を焼く第1問でも、「フライパンに残る氷は0個」という選択肢が存在するだけで、モデルは「待てよ、どうして0になり得るんだ?」と考え始めるかもしれません。では、選択式をなくして、モデルにオープンエンドで答えさせ、ブラインド採点モデルが正解と比較するという方式にしたらどうなるか。それでもかなり印象的なスコアは出ますが、選択式ほど高くはない。だいたい15〜20パーセントポイントのドロップになります。

これは二重の教訓でもあります。そう、モデルはショートカットを使っている。そう、同じ質問を違う形式で聞けば結果は変わるかもしれない。でも、性能がゼロに落ちるわけではない。フロンティアモデルは、直接訓練していないドメインでも、本当に良くなってきています。

ハルシネーション問題はまだ解決していない

次の大きな注意点に移る前に、指数関数的成長の話に戻りましょう。今週リリースされたばかりのGemini 3.1 ProとAnthropicのClaude Sonnet 4.6について、ハルシネーションや事実の正確さという観点ではどうでしょうか。

モデルプロバイダーがハルシネーションについてあまり話したがらなくなっていることに気づいたかもしれません。かつては「今頃には解決されているはず」と予測されていた問題だからです。そしてGoogleのリリースチャートにも、ハルシネーションの直接的な測定値は含まれていませんでした。

ただ公平を期すと、Artificial AnalysisによるOmniscienceというベンチマークは引用されていました。一見すると、Gemini 3.1 Proが他のモデルを圧倒しているように見えます。Geminiのトップスコアは+30で、Claude Opus 4.6の+11、Claude Sonnet 4.6の-4と比べると大きな差があります。これはハルシネーションにペナルティを課しつつ正解に報酬を与えた上での数字です。

ただ、誤答だけに絞って見てみると——モデルがハルシネーション(誤った答えや説明を生成)したのか、それとも答えを拒否したり知らないと認めたのかという比較——Gemini 3.1は誤答の50%がハルシネーションで、まずまずの結果です。でもClaude Sonnet 4.6は38%で、こちらの方が良い。興味深いことに、中国のモデルGLM 5はさらに良い34%を出しています。

つまり、ハルシネーションは決して解決済みの問題ではない。そして、ベストの状態が最適化されているからといって、ワーストの状態も良いとは限らない。「悪い瞬間の私を受け入れられないなら、良い瞬間の私を受け取る資格はない」という言葉がありますが、すべてのモデルに対して、そういうトレードオフを受け入れていく必要があります。

モデルカードが語るDeep Thinkの現実

Gemini 3.1のモデルカードについて一言。わずか9ページです。そして相変わらず、こういったモデルカードやシステムレポート、安全性レポートは、CEOのリリース投稿やリリース動画が「誇大宣伝」の役を担う一方で、「冷静化」の役割を果たします。

例えば、サイバーセキュリティ領域におけるGemini 3.1に注目してみましょう。Ultraサブスクライバーであれば、Deep Thinkモードを使えます。そしてGoogleのモデルカードにはこう書かれています。推論コストを考慮すると、Deep Thinkありのモデルはなしのモデルよりも相当劣るパフォーマンスを示す。高い推論レベルでも、Deep Thinkありのモデルの結果は、なしのモデルよりも高い能力を示唆しない。

これはDeep Thinkモードの話で、また別の機会に取り上げるかもしれません。では3.1 Proだけではどうか。ドメイン特化という話に戻ると、機械学習とR&Dの一つのテスト——具体的にはLLM Foundryのファインチューニングを最適化するもの——で、3.1 Proはファインチューニングスクリプトの実行時間を300秒から47秒に短縮できたことが示されました。人間の参照解答が94秒だったことを考えると、それより優れた結果です。

ただ、以前ならそれを「AIが機械学習R&Dを通じて自身の自己改善を加速し始めた」と読んでいたかもしれませんが、今では「ファインチューニングに関する新しいデータや、ファインチューニング性能を測る内部ベンチマークを追加したんだな」と解釈する方が適切かもしれません。

指数関数的成長の現実——スポンサー:Epoch AI

でも、注意点の話はここまでにしましょう。ここ数週間のGemini 3.1も含めたこれらのモデルすべては、私たちがこれから世界に解き放とうとしているものについて何を示しているのでしょうか。見えている指数関数的成長の多くは、本物でありかつ意味のあるものです。

まず今日の動画のスポンサー、Epoch AIについて。昨日ちょうど、あなたがまだ聞いたことがないかもしれない指数関数的成長を一つ取り上げていました。それは、Anthropicの年間換算収益が2025年末まで毎年10倍のペースで成長しているというものです。一方、OpenAIは毎年3.4倍のペースで成長——ただしより大きな出発点からですが。大きな「もし」ではありますが、このトレンドが続けば2026年半ばまでにAnthropicがOpenAIを上回る収益を上げる可能性があります。

Epoch AIのリサーチは、私がAI研究と動向を把握するための主要な手段の一つです。スポンサーになる前から何年も取り上げてきました。彼らのニュースレターも素晴らしい。こうした指数関数的成長を支えるものを知りたければ、彼らのフロンティアデータセンター分析を見るのが一番です。無料だと確認するためにわざわざ聞いたほどで、信じられませんでしたが、本当に無料です。説明欄のユニークリンクをチェックしてみてください。

Dario Amodeiの賭け——特化の積み重ねが汎化を生む

ベンチマーク性能が汎用知能を測るものかどうかという中心的な問いに戻りましょう。反論をたくさん挙げてきましたが、AnthropicのCEO、Dario Amodeiが先日あるポイントを提起していて、Anthropicが何に賭けているかを示す興味深い洞察がありました。

「なぜSlackのブラウザ使用など、RL環境をこれほど多数特化させる必要があるのか。モデルが一般的にどんどん賢くなっていくなら、それは全部冗長なんじゃないか」と聞かれて、Amodeiはこう答えました。そう、私たちは大量のデータを取得しようとしている。特定のドキュメントや特定のスキルをカバーしたいからではなく、汎化させたいからだ。

私にとって、これは非常に重要です。彼がほぼ言っているのは、「十分な数の特化を積み重ねれば、すべての特化に対して汎化できる」ということだからです。だから同じインタビューの後半で彼は、継続学習なしに、オンザジョブの学習なしに、あなたがモデルに自分のドメインを教えることなしに、データセンターの中の天才の集合体やAGIや超知能にほぼ到達できる、と言ったんです。

どうやってそのデータなしに超知能に至れるのか。私の言葉で言えば、彼は「十分な数の特化を積み重ねれば、人間のトレーニングデータから演繹できるパターンには限りがある」と考えているのだと思います。もちろん、それが正しくない場合に備えて継続学習にも取り組む。でも、もしそれが正しければ、Anthropicはあなたのドメインのデータを必要としないかもしれない。

あるいは後で彼が言っているように、モデルはほぼそこに到達するが、コンテキストウィンドウやプロンプトにあなたのドメインについてもう少し文脈を加えるだけで済むかもしれない。だから彼らのアイデアの一つとして、コンテキストを長くするというものがある。より長いコンテキストで機能させることを妨げるものは何もない。より長いコンテキストで訓練し、推論時にそれを提供できるようにするだけだ、と。

長いコンテキストウィンドウが埋める最後のギャップ

言い換えれば、すべての特化を積み重ねた後でも、この汎用モデルが知らないあなたのドメイン固有のわずかなニュアンスがあるかもしれない。汎化にも限界があり、あなたのドメインからもう少し文脈を必要とするかもしれない。でも、Claude 4.6は今や75万語のコンテキストウィンドウを吸収できます。すぐに数百万語になるかもしれない。それがあなたのドメインから得られる十分な固有の文脈となり、モデルが残りを処理できるかもしれない——コンテキスト内学習でパターンを習得し、マーケティングでも、ソフトウェアエンジニアリングでも、バックオフィス自動化でも、データ分析でも、財務・会計でも——このアクティビティとツール呼び出しのチャートが示すように。

Amodeiは会話をコーディングに戻しました。コーディングエージェントがすべてをエンドツーエンドでこなすことを妨げているのは、継続学習だとは思わない。どんどん良くなっている。そう、彼らはあなたのコードベースで訓練していない。でも、それでもあなたよりうまく改善できた、と彼は言います。

つまり、「さまざまなドメインやサブドメインすべてで訓練する必要がある程度」対「それらをまたいだ汎化パターン」の問題は、2026年から2027年の中心的な問いの一つになるだろう、ということです。

ベンチマーク自体の限界という根本問題

Amodeiのポイントのいくつかや、有名なメーター・タイム・ホライズン指数のグロウスについてより深い分析をお望みであれば、Patreonの最近の投稿をチェックしてみてください。

汎用知能を測る唯一真のベンチマーク探しについて、もう一言。Amodeiの賭けが正しいかどうかを示すヒントになり得るのは何でしょうか。そういうベンチマークを持つことで最もインセンティブがあるのは誰か——AIラボ自身です。そのベンチマークで検証可能な報酬による強化学習ができれば、最も汎用的に知的なモデルに最適化できるからです。

これらのベンチマークの多くは、予算が100万ドル以下の小さなチームから生まれています。でも、小さなチームに対して、実世界の性能を過大評価なく客観的に捉えるベンチマークを作ることを期待するのは、あまりに多くを求めすぎです。あるMEAの研究者が言ったように、それはラボよりも現実的な「検証可能な報酬設定による強化学習」を作ることを意味し、それは難しい。だから今や多くのベンチマークはラボ自身が書いている。それだけのリソースと予算があるのはラボだけだから。もちろんそれは、ある意味バイアスがかかってしまうことを意味しますが。

未来予測というベンチマークと予測市場の危うさ

これだけで別の動画になりそうですが、もちろん一つの本当に客観的なベンチマークがあります——未来を予測することです。Metaculusは、モデルの予測パフォーマンスが大幅に向上していることを指摘しています。Metaculusの平均的な人間のフォーキャスターレベルにほぼ達しています。まだプロレベルではありませんが、近づいています。

ただ、ちょっとした補足があります。PolymarketやPrediction Marketが世の中で熱狂的に受け入れられていることはご存知でしょう。基本的なアイデアは理解できますが、多くの人にとってはギャンブルに近いものです。でも、こんな問いを考えてみてください。オープンなClaudeエージェントがあふれる世界になったとき、モデルが何かを変えながら同時にその予測を行うことでお金を稼ぐようなことが起きたらどうなるか——システムをゲームする、ということです。

フィルターのかかっていないオープンなClaudeモデルが、予測市場でお金を稼ぐために現実世界でアクションを起こすまで、どれくらいかかるでしょうか。そのお金は、モデルをコントロールしている人間に還元されるかもしれません。つまり、最も純粋なベンチマークに見える未来予測でさえ、ゲームに対してやや脆弱なんです。

スピードとリアリズムという新たなベンチマーク

最後に、これまで話してきたものとは全く別のベンチマークの話を。スピードをベンチマークとしたらどうでしょうか。試してみましょう。質問は「Simple Bench、LLMベンチマークについて教えてください」。ライブで録画しています。何が起きるか見てください。ドン。完全な回答が瞬時に。信じられないほどのトークン/秒です。このモデルはチップのために作られていますが、それはまた別の日の話。ただ、これは将来的にアプリ全体が一ミリ秒で生成されるような時代を予感させます。

それから、lmil.aiというサイトもあります。もちろん私自身のサイトで、現在は無料でGemini 3.1 ProとGPT-5.2の応答を比較できます。

最後に、リアリズムをベンチマークとするとしたら。中国のByteDanceによるSeeDance 2.0の話を耳にした方も多いでしょう。でもこの動画を45秒ほどで締めくくるに当たって、VO 3.1やSora 2からどれほど進歩しているかを見せる価値があると思いました。動画を見ている方はSeeDance 2.0の映像をご覧になっているはずです。聴いている方のためにも、SeeDance 2とV3.1の比較をお聞きください。

(映像では二つのサンプル音声が流れます)

このドメインに関しては少なくとも、私には違いが明らかです。

まとめ

というわけで、以上です。もちろんDeepSeek V4もすぐそこまで来ていますが、この動画とモデルの真の汎用知能を捉えようとする渦巻く議論についてどう思われましたか?最後まで視聴いただき、本当にありがとうございました。素晴らしい一日を。

コメント

タイトルとURLをコピーしました