本当に重要なAIベンチマークはこの4つだけ

AIベンチマーク
この記事は約25分で読めます。

新しいAIモデルが登場するたびに大量のベンチマーク指標が提示されるが、その多くは一般利用者にとってもAI業界の人間にとっても実際には大した意味を持たない、というのがこの動画の主張である。本動画では、その中でも本当に見る価値が高い4つの指標だけを厳選し、モデルの推論力、使い心地、専門知識への対応力、実務的なコーディング能力をどう見極めるべきかを整理している。さらに、ベンチマークが飽和しているかどうかを見分ける視点も提示し、数字に振り回されずにAIモデルを比較するための実践的な見方を解説している。

The Only 4 AI Benchmarks That Actually Matter
Every time a new AI model drops, it comes with a wall of benchmark numbers. But what do they actually mean? And which on...

本当に見るべきAIベンチマークとは何か

新しいモデルが公開されるたびに、それに合わせて大量の指標が出てきます。各社は、自分たちのモデルが他のすべてのモデルと比べて最良だと示したいので、そうした数字を並べるわけです。
そこで今日は、そうしたモデルについてくる数字を見ていきます。

その理由は、私自身、多くのベンチマークは実際のところそれほど優れていないと思っているからです。

そこで私は、ネット上で見つけたさまざまなベンチマークを片っ端から調べ始めました。すると、とんでもない数がありました。何十個も何十個もあったんです。よく知られているものもありましたが、その一方で、かなり面白いものもありました。少しニッチというか、少し難解というか、そういうタイプの興味深いものもありました。

なので、この動画の目標は、もしこのモデルが前のバージョンや競合と比べてどれだけ優れているのか知りたいなら、この4つだけ見ておけばいい、というベンチマークを残すことです。というのも、こうした数字の大半は、AI分野の人間にとってさえ、実際のところあまり意味がないからです。

これがこの動画の目標です。見るべきベンチマークを4つに絞ること。少なくとも、このうち1つは、今後公開される新しいモデルのほぼすべてに含まれるはずです。多くのモデルではそのうち複数が含まれるでしょう。なぜなら、他の多くのベンチマークはそこまで有用ではないからです。

最近のモデルに並ぶ数字は何を意味しているのか

いくつか例を用意しました。こちらは最近公開されたモデルの指標です。これは GPT-5.4 のものです。
GDP val、STB Bench Pro、OS World Verified などが並んでいます。そして、それぞれに数値があります。名前から何となく意味がありそうに見えますよね。ソフトウェアエンジニアリング、OSの利用、ツールやブラウザの利用など、そういうことに関するものだろうと想像できます。

つまり、そうした名前を見ることで、そのベンチマークが何を試しているかは何となく分かります。
ただ、たとえばこちらは Gemini 3.1 Pro のものですが、いろいろなベンチマークがあります。中には何を試したいのかがもっと分かりやすくラベル付けされているものもあります。たとえば GPQA diamond は scientific knowledge となっていますし、さらにそのテストがどのように実施されたかという追加情報まで書かれています。

各ラボは、それぞれ自分たちの好みのやり方でやっていますし、おそらく自分たちのモデルが最もよく見えるやり方でやっているのでしょう。
そこで今回は、平均的な人にとって最も重要で、最も関連性が高いと思うベンチマークを取り上げていきます。たとえばこれは Claude Opus 4.6 のものです。

これもまた、いろいろ並んでいます。今こうして並べて見てみると、かなり似ていますね。Gemini 3.1 と Opus 4.6 は、こういうものがだんだん収束してきています。
というわけで、これがいくつかの例です。

では、4つしか見ないとしたら、実際にどのベンチマークを見るべきか、私の4つのおすすめをお話しします。先ほども言ったように、この動画を作る中で本当にたくさんのベンチマークがありました。

4つだけ見るならこのベンチマーク

最初におすすめするのは Arc AGI 2 です。
次が Chatbot Arena、LM Arena と呼ばれることもあります。
その次が Humanity’s Last Exam。
そして SWB Pro です。

では、1つずつ見ていきましょう。まずは Arc AGI 2 からです。

Arc AGI 2 は本当に推論しているかを測る

Arc AGI 2 は、抽象的な視覚パターン認識と推論を試すベンチマークです。
本当に答えようとしている問いは、このモデルは本当に推論しているのか、それとも学習データに含まれていた情報を思い出しているだけなのか、ということです。

そのため、視覚的なパターン認識に焦点を当て、そこから何かを導き出すことを求めています。
Arc AGI 全般でもう1つ重要なのは、いわゆる fluid intelligence、流動性知能を測ろうとしている点です。つまり、モデルの学習データの中に入っていた知識そのものではなく、その情報を使って何か有用なことができるのか、本当に推論できるのか、ということです。

Arc AGI の狙いは、人間には簡単で、AIには難しいテストを作ることでした。
人間が得意で、現在の世代の大規模言語モデルが苦手としていることをやらせるのです。つまり、視覚パターン認識をして、その視覚情報をもとに推論することです。

そして、今私たちが見ているのが AGI1 ではなく Arc AGI 2 である理由は、AGI1 がすぐに飽和してしまったからです。
飽和が速かったというのは、時間がたちモデルがどんどん良くなるにつれて、これらのベンチマークから出てくるスコアが非常によく似てきてしまう、という意味です。

差が数パーセントしかなくなってくるんです。2%、5%といったごく小さな改善しか見えず、それもたいてい最上位帯での差です。つまり、80点以上のスコア同士の比較になっているわけです。
そうなると、そのベンチマークから新しい情報はもはや得られないと思います。それは次世代の大規模言語モデルにとっての新しい最低ラインになってしまうだけです。

Arc AGI1 で起きたのはまさにそれです。あまりにも早く飽和してしまいました。モデルがうますぎるようになってしまったのです。
だから、新しいモデルを AGI1 でテストしても意味がありません。みんな非常に高い点を取ってしまうからです。そこから分かるのは、基本的な視覚パターン認識について、とりあえず最低限の感触はクリアしているらしい、という程度です。

なので、もっとずっと難しいテストが必要になります。それが Arc AGI 2 の役割です。

Arc AGI 3 はなぜ必要なのか

そして、飽和の話ついでに言うと、Arc AGI 3 も実は今年のうちに出る予定です。Arc AGI 2 も少しずつ飽和し始めているからです。モデルがだんだん得意になってきて、もうあまり有用な情報を与えてくれなくなりつつあります。

AGI 3 の違いは、interactive reasoning、対話的推論を加える点です。
基本的にはビデオゲーム、あるいはゲーム的なパズルのようなもので、パズルを解くには複数の行動を取らなければいけません。単に例の画像を見て答えを入れるだけではなくなるのです。

このあと、AGI 2 と AGI 3 の問題がどんなものかお見せします。
ARC Prize のウェブサイトに行くと、これは各種 Arc AGI ベンチマークを主催している団体ですが、少し下にスクロールするだけで、どんな問題かの雰囲気がつかめます。

Arc AGI 2 の問題はどんなものか

ここに example input があります。これがモデルに見せられるものです。
そして、その expected output、つまり正解が与えられます。
次に、別の問題が出されて、前の例をもとに答えなさい、という課題が与えられます。

上には色のついた図形があり、下には灰色の図形があります。
そして解答では、下の図形が上の色を使ったものになっています。では、どうやってどの色を使うと分かるのでしょうか。

何が起きているのか、この入力からこの期待される出力へどう変換されているのかを見抜くのがモデルの仕事です。
人間にとってはかなり簡単です。異なる色が、空白の数と対応していることに気づくからです。

図形が完全に埋まっていれば黄色。
空白ピクセルが1つなら緑。
空白ピクセルが2つなら青。
こうやって色を決めればいいと分かるわけです。

このパズルも同じようなものです。そういう具合に続いていきます。
これが Arc AGI 2 でモデルに課されるタイプのパズル、あるいは問題です。

他のパズルには、たとえばこんなものもあります。さまざまな形があり、やはりモデルはここで何が起きているのかを解釈しなければなりません。
図形があって、その上にオレンジ色の点のようなものが付いています。それが入力です。出力では、それらがつながっています。どうやらこのオレンジのピクセルを手掛かりに、どこをつなぐか判断しているようです。

つまり、すべての図形がつながっていて、不要な空の接続はありません。
正解を出すには、そうしたことを見抜かなければいけません。

別の例では、図形が少しランダムに散らばっています。
出力を見ると、それらが整理されているようです。青いもの、あるいは青い輪郭のものは左に押し出され、右の輪郭を持つものは右に押し出されています。

このように、視覚情報に関するさまざまな面白い論理パズルがあって、モデルはそこからパターンを見つけ出し、その情報を使って正しい答えを出さなければなりません。
それが Arc AGI 2 です。

Arc AGI 3 はゲームのような対話型パズルになる

そういうわけで、Arc AGI 3 につながります。先ほど言ったように、前のバージョンが飽和しつつあるので出てくるわけです。確かであれば、実際には明日、2026年3月25日に公開されます。
公開されたら何が起きるのか見られることになります。

本質的には、そのパズルは対話型のビデオゲームになります。キャラクターや要素をコントロールを使って動かす必要があります。
ですから、AGI 3 の問題は、キャラクターを動かしたり、環境のさまざまな箇所をクリックして変化を起こしたりするような、ゲームのパズルに近いものになります。

たとえばこの問題では、ステージ内の灰色のピクセルのレベルを動かしていて、それらを何らかの形で揃えなければならないようです。
さらに、こうしたパズルには resource、つまり資源の要素も導入されています。

たとえば、モデルが1回動くたびに資源を消費します。そして、パズルを解くために使えるライフや試行回数にも限りがあります。無限の時間や無限の資源があるわけではありません。
パズルを進めるにつれて、このゲージが減っているのが見えます。

つまり、モデルは一定の制約の中で動かなければならず、複数の手順を連携させて、実際にそれぞれの問題を解こうとしなければいけないわけです。
想像できると思いますが、これははるかに複雑な課題です。大量の視覚情報を受け取り、このパズルのルールは何なのかを見抜かなければなりません。

しかも、そのルールは人間にもモデルにも与えられません。ただステージが提示され、いくつかの操作があり、解いてくださいと言われるだけです。人間もAIも同じです。
つまり、自力で理解しなければならないのです。実際に何が起きているのか。このステージの目的は何なのか。どうやって解くのか。この資源のようなものは何なのか。人間が手探りで理解していくのと同じです。それがAIに課される仕事です。

だからこそ、ベンチマークとして見るべきものの1つに Arc AGI 2 を入れました。

Chatbot Arena は人間がどのモデルを好むかを見る

次は Chatbot Arena、あるいは LM Arena と呼ばれるものです。これはかなり毛色が違います。
ユーザーが実際にプロンプトを投稿し、匿名化された2つの出力を横並びで見て、どちらが良いかを選ぶ仕組みです。

もし ChatGPT を使っているなら、似たようなものを見たことがあるかもしれません。Claude でもやっていると思いますし、Google も Gemini でやっているはずです。
LLM に何か質問すると、2つの出力が表示されて、どちらのほうが良いですかと聞かれることがありますよね。

もちろん各社はそれによって自社モデルを鍛えようとしているのですが、Chatbot Arena はそれに似た仕組みを使っています。違うのは、ここでは別々の会社の異なる2つのモデルを比較していることです。
ここで良いのは、大量の投票が集められ、それがチェスのような競争的 ELO ランキングに集約される点です。

しかも、これは他のベンチマークと違って、かなり操作しづらい仕組みです。
他のベンチマークでは、決まった一連の問題があり、それがたまに更新されて、モデルに提示され、答えさせるという形ですよね。

問題は、そういう場合、その問題と答えが学習データから除外されていることを保証する責任はモデルを作る研究所側にあります。
ところが、そうしたデータセットは汚染されることがあります。するとモデルは答えを学んでしまい、当然そのベンチマークでは非常に高得点を出します。

Chatbot Arena がユニークなのは、すべての質問が新品であることです。
ユニークで、予測不可能です。人間がモデルに何かをやらせていて、ときには本当に実作業をさせています。

つまり、企業側が大量の質問を集めてモデルに学習させ、高得点を取らせることはできません。モデルは、実際のユーザーから、常に新しいことを聞かれているからです。

要するに、企業はどんな質問が来るか予測できないわけです。したがって、このベンチマークで非常に良い点数を取るようにモデルを訓練するのはとても難しいのです。
Chatbot Arena とそこから出てくるスコアを別の見方で言えば、モデルの使い心地の良さを数値化しようとしているとも言えます。これは非常に主観的です。

数学の問題のように、質問があって、その出力が正しいかどうかを検証するというものではありません。
これは完全に雰囲気や感覚の話です。人間はどちらの答えを好むのか。それはさまざまな要素を含みます。

ですから、そこから得られるスコアが本当に示しているのは、人々がどのモデルを好んで使うのか、どのモデルがより気持ちよくやり取りできると感じられるのか、ということです。

Chatbot Arena の仕組み

実際の Arena はこんな感じです。
ごく標準的なチャット体験です。ファイルを追加したり、ウェブ検索をさせたり、画像生成をさせたり、そういったこともできます。

ただ、本質的にはここに質問を入力するだけです。もちろん、その質問が分析に使われることには同意しなければなりません。
そして質問を送ると、2つの異なるモデルからの答えが表示されます。

もちろん、どのモデルが答えているかは分かりません。
あなたの仕事は、どちらがより良い答えだと感じるかを選ぶことだけです。完全にあなた次第です。

こちらのほうが良い、A のほうが良い、両方同じくらい良い、両方同じくらい悪い、あるいは B のほうが良い、といった選択ができます。
こうして ELO スコアが作られていきます。

これが現在のリーダーボードです。ご覧のとおり、さまざまなモデルが並んでいて、こちらが ELO スコア、その結果に至った投票数がこちらです。
さらに、カテゴリーも分かれています。これはテキスト。こちらはコード。さらに下にスクロールすると、ビジョン、ドキュメント処理、text-to-image、画像編集もあります。

こうしたタスクごとに、それぞれ独自のリーダーボードとスコアがあり、その結果を生み出した投票数も見られます。
ですから、自分が特に興味のある分野に応じて、arena.ai の投票者たちによる評価で今最も性能が高いモデルを見つけることができます。

このベンチマークが提示されるときは、どのリーダーボードを指しているのかも必ず確認することになります。テキストなのか、コードなのか、ドキュメント処理なのか。
これだけ種類が多いので、1つの単独ベンチマークではないのです。

それでも、とても面白いアプローチです。だから私はこれを選び、このリストに入れました。

Humanity’s Last Exam は超広範な専門試験

次は Humanity’s Last Exam、略して HLE です。
これは 50か国、500機関以上、1000人超の専門家から集めた 2500問超で構成されたベンチマークです。とてつもなく大きな試験です。

しかも、その分野の専門家たちによって、できるだけ Google で答えが出ないように設計されています。
ですから想像できるように、この試験に含まれる問いの幅は途方もなく広いです。

これがそのベンチマークの実際の姿です。Humanity’s Last Exam を運営している組織のサイトには、あまり見やすいリーダーボードがありません。たしかグラフはあって、すぐにお見せします。
ただ、私はここに表へのリンクを貼ってあります。Humanity’s Last Exam の結果だけでなく Arc AGI 2 の結果も見たいなら、そちらのほうが少し見やすいと思います。

こちらが Humanity’s Last Exam の公式サイトです。論文やデータセットをダウンロードしたり、問題を投稿したり、実際にどんな問題があるのかを見たりできます。
そして、表の代わりに彼らが用意しているのがこの見やすいグラフです。

2004年から2006年にかけて、モデルが時間とともにどのように進歩してきたかの感覚がつかめます。着実に進歩しています。
ですが見てのとおり、今日の高度なモデルでさえ、まだ50%前後をうろついているだけで、50%にも届いていません。

そこがこの試験の優れているところです。これに向けて対策学習することは実質できません。そんなデータは存在しないからです。
これは、古典学、生態学、数学、コンピューターサイエンスといった各分野の最前線にいる専門家たちが出した問題です。

こうしたものは簡単には Google で引けません。
だからこそ、これらの問題は大規模言語モデルにとって非常に良いのです。モデルは、自分が持っているあらゆる推論能力を総動員して、何らかのもっともらしい答えにたどり着こうとしなければなりません。

SWE Bench Pro は本当にコードを書けるかを見る

最後は SWE Bench Pro です。
Software Engineering Bench Pro。つまり、今見ているAIが本当にコードを書けるのかを教えてくれるベンチマークです。

Bench Pro には、41のリポジトリ、4つの異なるプログラミング言語にまたがる 1800超のタスクがあります。平均すると、変更が必要なコードは約107行、関与するファイル数は平均約4.1です。
つまり、良いスコアを出すためにモデルが解かなければならない課題は、かなり複雑です。

なぜ私が元の単なる SWB や、その派生である sbench verified ではなく、Pro バージョンをおすすめするのかというと、元の SWB は、GitHub の issue を修正することを題材にしていて、対象はたった12個の Python リポジトリです。しかも、その4分の1は1〜2行直せば終わるようなタスクです。
それが試験全体です。

それでは、現実のエンジニアリングを測る良い試験にはなりません。
ソフトウェアエンジニアが日々やっているのはそんな仕事ではありません。1〜2行直して終わりならどれだけ楽か、という話です。

Pro 版のベンチマークは、現実のエンジニアリングタスクにもう少し近いです。複数の言語を使い、通常は複数ファイルにまたがって何行も変更し、1つの問題を解決します。
そのため、元の SWB bench よりも、現実のソフトウェアエンジニアリングをずっとよく再現しています。

公開データと非公開データの違いが重要

今見ているのは Scaleabs のウェブサイトで、ここが SWE Bench の各種バリアントを管理している組織です。
少し下にスクロールすると、2つのサブバリアントがあります。

1つは SWEBench Pro の public data set。
もう1つは S swbench pro の private data set です。
両方開いてみます。

名前から想像できるとおり、違いは、問題や課題が private repository 由来かどうかです。つまり、企業が共有してくれる問題で、GitHub や他の場所で公開されていないコードに関するものか。
それに対して、誰でも GitHub に行って問題を集め、解こうと試みることのできる公開版のテストか、という違いです。

どちらもそれなりに良いのですが、private data set 版のほうがはるかに難しく、現実のソフトウェアエンジニアリングに対してモデルがどれだけ優れているかを測るうえで、ずっと有効です。
なぜなら、企業はその問題を事前に手に入れることができず、意図せずであれ悪意を持ってであれ、そのデータセットを使ってモデルを訓練し、システムを有利に操作することができないからです。

モデルが事前にその情報を持っていれば、当然その種の問題で良いスコアを出しやすくなります。
それに対して private data set では、どんな問題が来るのか誰にも分かりません。さまざまな企業から来るソフトウェアエンジニアリングの問題だということしか分かりません。

だから、企業側はモデルを事前にそれ用に準備することができず、モデルの本当の実力が見えやすくなります。
実際、それは結果にも表れています。

private data set の結果を見ると、最新モデルでまだ更新されていないと思いますが、ここでは Claude Opus 4.5 が載っていて、最上位には 4.6 があるにもかかわらず古いままです。GPT 5.2 もあります。5.3 も 5.4 も出ていますし、4 系も使えます。
でもスコアを見てください。23%、23%、17%、14%。すごく良い点数ではありません。

ひどいわけではないですが、これを SWB Pro の public data set 版や、通常の SWB と比べると、かなりはっきりした差が見えてきます。

こちらは Pro 版の public data set です。
するとスコアはまったく違ってきます。しかも上位に出てくるモデルもまったく違います。今度は Anthropic のモデルが上位に来ていて、45%、43%とかなり高くなっています。
これも最新モデルではありませんが、タスクの種類やデータが公開か非公開かによって、どのモデルが優れて見えるかが変わる、という感覚はつかめると思います。

考えるべき点はここです。公開データだと、偶然にせよ意図的にせよ、システムを有利にしやすいのです。公開データである以上、誰でもアクセスできてしまいます。
もちろん、本来はそうしたデータでモデルを訓練すべきではありません。そうすると本当の性能が分からなくなるからです。モデルを正しくテストしたいなら、その情報は学習データから除外しなければいけません。

でも、データが公に出ていると、それは非常に難しくなります。
これらの企業が使うデータ量は膨大ですから、問題やその種の問題を学習データから安全に完全除外するのは事実上不可能です。

だから、ここにはおそらく何らかのデータ漏れ込みがあるのでしょう。
そしてそのため、どの版を見るかによってモデルの順位が変わるのです。

省いてよいベンチマークもある

では次に、世の中で見かけるかもしれないベンチマークのうち、今回は取り上げないものと、その理由を手短に説明します。
理由はだいたい2つです。飽和していて、モデルが完全に解いてしまっているか。あるいは、そのモデル自体があまり良くないかです。どちらかです。

中には、見てみるのは面白いけれど、深掘りする価値まではないものもあります。もっと良いベンチマークが別にあって、そのベンチマークがやろうとしていることをよりうまくやってくれているからです。

飽和の問題を抱えているものとしては、MMLU、MMLU Pro があります。
こうしたものは今でもかなり頻繁に参照されますし、それもこのあと少し見ます。

たしか、これは専門家たちが作った科学系の問題集だったと思います。
問題は、今ではモデルのほうが、その問題を作った大学院生より高得点を取ってしまっていることです。モデルがスコア表の最上位に来ていて、モデルがどれほど賢いかについて追加の情報を何も与えてくれません。

GPQA diamond も非常によく似ています。PhD レベルの科学問題です。
ここでも、問題を作った博士レベルの専門家たちより高得点を取るモデルが出てきていて、新しいことは何も教えてくれません。

GSM 8K も、ときどき見かけます。特に mini や nano 版のモデルでよく出てきます。
これは小学校レベルの算数を測るためのものでした。AI モデルがまだそこまで得意でなく、机の上の基本的な電卓よりも成績が悪かった時代に出てきた、初期の数学ベンチマークの1つです。

当時は役に立ちましたが、今では、非常に小さな量子化モデルに対して、基本的な算数ができるかの簡易チェックとして使える程度です。
そして SWB、つまり元のバージョンもありますが、正直もう見る価値はありません。モデルがうますぎます。

面白いが深掘り不要なベンチマーク

いくつか面白いものはありますが、そこまで深く見る必要はありません。
まず AIME。これは数学コンテストのベンチマークです。毎年新しい大会があり、たしか小学校レベルから高校レベルまで続いていたと思います。非常に複雑な数学問題が出ます。

面白いのは、毎年問題が変わるので、簡単には攻略できないことです。
しかも数学は今でも、大規模言語モデルが苦手とする分野の1つです。ただし、ツールの使用を許すと、一気に良くなります。電卓を使ったり、コードを書いたりして解答できるからです。

なので、その意味では面白いのですが、数学にかなり関心があるか、AIモデルで多くの数学作業をしているのでない限り、そこまで見る価値はないと思います。
それ以外なら飛ばして構いません。

次に Frontier Math です。これも同じく数学系ですが、さらにずっと高いレベルです。
研究レベルの数学です。なので、モデルは今でもこの分野ではかなり苦戦します。やはり数学に興味がある人や、数学のためにAIを使っている人には見る価値がありますが、平均的な人にとってはそこまで面白くも関連性が高くもありません。

それから Live Code Bench があります。これは Arena に少し似ています。
継続的に更新されるタイプで、ただしコードだけに特化しています。問題は競技プログラミングの組織やサイトから来ています。

良い点は、新しい問題群が継続的に追加されていくこと、そしてコードに完全特化していることです。
なので、コーディング分野で何もしていないなら、おそらく見る価値はありません。

各社が新モデルで見せてくるベンチマークの見方

さて、最初に見せた例に戻りましょう。
GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6。いずれもかなり新しいモデルで、今年、この1か月ほどの間に公開されたものです。

それらを各社がどう見せているかを見ると、なるほど、OpenAI はうまくやっています。
SWBench Pro の public data set 版を使っています。もちろん、private 版よりずっと良いスコアが出るので、そうしたくなるのは分かります。

それから、他にもいくつか載せていますが、私が見ていないものもあります。そうしたものは、今はそこまで重要ではないかもしれませんが、AI にコンピューターを操作させるようになると重要性が上がっていくタイプです。
たとえば OS World Verified、Toolathon。こうしたモデルはツールを使うのがどれほど得意なのか。ツールコールをどれほど上手にできるのか。ブラウザを使う能力はどうか。そういうことです。

でも、私が本当に見てほしいのはこのあたりです。
ご覧のとおり、まだ50点台、上のほうでも50点台です。ですから、他のいくつかほど飽和していません。ここは見ておいたほうがいいです。

こちらは、正直何なのかすらよく分かりません。GDP val wins or ties。どういうベンチマークなのか私はよく知りません。
でも見てのとおり、こうした数値が本当に新バージョンの違いを教えてくれているでしょうか。たぶんそうではありません。80点台後半です。これはすでに飽和している感じがしますし、私はそもそもあまり聞いたこともなければ、特に注意して見てきたわけでもありません。

なので、こういうものは気にしなくていいと思います。

ベンチマークを見るときの判断基準

ここで、この動画の最後に残したいポイントにつながります。
私が挙げたベンチマーク名自体を忘れてしまったとしても、新しくてすごいモデルに関する情報を見せられたときには、まず、今見ているバージョンが前のバージョンや競合と比べてどれだけ良くなっているかを見てください。

スコアがだいたい同じような帯域に集まっているなら、そのベンチマークはおそらく過飽和です。
たとえば、Gemini 3.1 の指標を見ると、一番上に Humanity’s Last Exam があり、そのテスト条件についての追加情報もあります。ツールなし、検索ブロックリストあり、コード使用可、といった具合です。

そして、スコアは40点台や30点台です。Humanity’s Last Exam のように難しい試験としては、まさにそういうスコアになるはずです。
ここで私が言いたいのは、これは飽和していないということです。80点台やそれ以上にはなっていません。

スコア同士の差が小さく見えても、なお見る価値のあるベンチマークです。
モデルはまだ満点近くに達しておらず、このタイプの試験にまだ苦戦しています。だから私はこれをリストに入れ、おすすめしているのです。

その下には Arc AGI 2 があります。これも私がすすめたものです。
こちらでは差がもう少しはっきりしています。最新バージョンは 77.1%。前のバージョンはわずか 31%です。77 と比べれば、本当に低いと言っていいでしょう。

なので、これは definitely 注目すべきものです。モデルは今もなお、視覚空間的な推論問題でどんどん良くなっています。だから、まもなくもっと良い指標が必要になるでしょう。
一方、これは見なくていいと私が言った GPQA diamond です。各社がこれを載せるのは、自社モデルが当然最上位に来て、見栄えがよくなるからです。

でも、他のスコアや他社モデルも並べてみると、これは Gemini の表ですが、別の Gemini もあり、かなり似ています。91%、89%。
それで、そのモデルについて何が分かるのでしょうか。これはもう新しい基準点になりつつあります。ここで高得点を取れないモデルがいたら、それは学習か post-training のどこかで問題が起きたか、何かがおかしいというだけです。

同じ見方で、他も見ていけます。
スコアがどれだけ密集しているか。そして、どのあたりに密集しているかです。下のほうなのか、中ほどなのか、それとも上限近くなのか。

モデルが最上位付近に密集しているベンチマークを見たら、たとえばここにある S SWBench verify のようなものですが、これは通常版で Pro ではありません。80、76、80、79、80 といったスコアが並んでいます。
これは本当に何も有用なことを教えてくれません。安心して無視していいです。

その下には、はるかに良いものがあります。SWB Pro の public data set です。私としては private data set を使ってほしいですが、そこまで自信がなかったのかもしれません。
それでも高得点ですが、競合ほどには高くありません。こちらのほうが、この場合はコーディング能力を測るテストとしてずっと良いです。

ですから、新しいモデルを見て、そのベンチマークを試してみる価値があるかどうかを判断するなら、各社が出してくるベンチマークを見て、スコアが50点台前後かそれ以下に集まっているなら、それは十分ありです。見る価値のある良いベンチマークである可能性が高いです。
逆に、高い80点台や90点台に集まり始めているなら、そのベンチマークは完全に無視して構いません。何も教えてくれません。

高得点だらけの指標はただの飾りになりがち

たとえば、これはかなり分かりやすい例です。T2Bench agentic tool use。しかも小売や通信など、いくつかの分野別に分かれています。
スコアは 99.3、98、97、91、98。こんなものをわざわざ載せる必要は本来ありません。もうこの時点では、単なる水増しです。

ただ、他のベンチマークの中にはかなり有用なものもあります。
そのうち、一部のベンチマークは、最先端のモデル同士を比較する指標というより、単に合格か不合格かを示すものになっていくのだと思います。

あるモデルが最低基準に達していなければ、使う価値がない、あるいは乗り換える価値がない、ということです。
そして、別のベンチマークは今後も本物のベンチマークとして機能し続けるでしょう。どのモデルが最先端にいて、エージェント的な能力のフロンティアを押し広げているかを示す指標としてです。

ですから、この下のほうにある一部のものは、私は外すか、別の意味に作り替えるべきだと思います。
つまり、合格か不合格かの指標にするのです。それ以外の目的でこの数字を比較しても意味がありません。何も分からないからです。

高得点がたくさん並ぶことでモデルがすごく見えるだけで、実際には何の役にも立っていません。

この動画の結論

以上がこの動画です。
これで、こうした数字をどう見ればいいのか、少しは分かりやすくなっていたらうれしいです。

私自身、最初にこうした数字を見たときはすごく混乱しました。それぞれのベンチマークがどう動くのか、どんなパラメータがあるのか、実際に何を測っているのかを全部学ばなければいけないのかと思ったんです。
でも、見るべきベンチマークがほんの数個に絞れれば、ずっと簡単になります。

見るのは Arc AGI 2、Chatbot Arena、もし含まれていれば Humanity’s Last Exam。
そして、何らかのソフトウェアエンジニアリングをするなら、bench pro の public data set 版か private data set 版。どちらでも構いません。

それ以外は、ブラウザやOSと連携するエージェントを動かしたいとか、数学に深く関わっているなど、非常に特定の目的がない限り、この4つでほとんどの人には十分です。
そして、これらの数字が何を意味しているのか、そのベンチマークにそもそも見る価値があるのか気になるなら、私が示した見方、つまりスコアの密集具合を見ること、そして今見ているモデルと前バージョン、さらに競合全体との違いがどれくらい近いかを見ることです。

それを見れば、そのベンチマークが、そのモデルが競合や前バージョンよりも本当に大きく優れていることを示すためにあるのか、それとも単にカードを盛って、実際以上にすごく見せるために載せているだけなのか、かなり判断しやすくなるはずです。

以上です。では、次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました