多くのLLMがこの単純なベンチマークテストを解けない！

3,096 文字

Most LLMs are Bad at this Simple Benchmark Test!

SOLO Bench is a benchmark that tasks LLMs to create 250 unique sentences, each exactly four words long in a specific gra...

この種のベンチマークは完全にばかげているように聞こえるかもしれませんが、ほとんどのAIモデルはこれを解決できませんでした。実際、これを解決できる最高のモデルでさえ、イージーモードで75%、ミディアムモードで57%の正答率に留まり、まだハードモードは存在しません。これは私が最近出会った新しいベンチマークで、「ソロベンチ」と呼ばれています。
ここでの「ソロ」は「単一出現言語出力」（Single Occurrence Linguistic Output）を意味します。言語モデルのどのような能力をこの特定のベンチマークが測定しているかは、実に驚くべきものです。基本的に、このベンチマークは単語のリストを提供し、AIエージェントに特定のタスクや指示を与えます。この場合、外部ツールを使用せず、プログラミング言語も使用しないことが条件です。
純粋に言語モデルの能力を測定するもので、特定の文法形式に従った4語からなる250の固有の文を作成する能力をテストします。文法形式は単純に「動詞+形容詞+名詞+名詞」というパターンです。これらがルールであり、この単語リストとともに提供すると、約10,000トークンほどの長さになります。
彼らは入力の理解度を測定しています。いわば「干し草の山の中の針」のようなものです。しかし最も重要なのは、モデルが与えられたリストからのみ単語を使用し、250の文を作成する際に単一の単語を繰り返してはならないということです。つまり、すべての単語が一意であり、単語リストからのものであり、ルールに従う必要があります。
このベンチマークは、長文脈の入力と出力のパフォーマンス、記憶力、コンテキスト内の指示に対する理解度（特定のパターンを作るよう依頼しているため）、推論能力、そして新しい単語を導入することによる幻覚（ハルシネーション）が発生しているかどうかを、一つのベンチマークで評価することを目的としています。
このベンチマークの最も優れた点は、完全にオープンソースであることです。誰でもここにアクセスして使い始めることができ、MITライセンスで提供されています。また、このベンチマークには単一の正解がないという特徴があります。そのため、LLM企業が簡単にベンチマークを最大化することができません。また、判断者としてLLMや人間を使用しないため、LM ArenaのようなLMで見られたようなバイアスも生じません。
これは非常に客観的に評価されます。評価用のシンプルなPythonコードがあり、異なるモデル間の明確な区別も示します。ベンチマークを設計する際の重要な点は、そのベンチマークによってモデル間の差が明確に表れることで、それによってベンチマークを信頼できるようになります。そして何よりも、このベンチマークは財布を傷めません。各モデルの評価を実行するのに5セント未満のコストで済み、評価ハーネスやスーツも必要ありません。必要なのは、モデルを選択し、実行するためのコードが提供されていることだけです。コードの仕組みを理解すれば、非常にシンプルです。
外部コンポーネントがあり、Open Router APIを使用して大規模言語モデルにアクセスしています。入力テキストがあり、これをすぐにお見せします。入力テキストはOpen Router.pyファイルに渡され、Open Router APIに行き、すべてのLLMを調べてからこのベンチマークを実行し、ベンチマークが評価されて最終的にスコアが与えられます。ベンチマークの評価には、ewell.textや、nouns.text、adjectives.text、verbs.text、words.textなどを使用し、特定のモデルに対する最終スコアを提供します。
Gemini 2.5 Proの場合、75%のスコアを獲得しました。O3は56%でした。他のモデルを見ると、例えばDeepseek R1は28%しかスコアを獲得していません。これは非常に興味深いベンチマークです。プログラミングでもなく、創造的な文章でもなく、文字通りLLMに指示に従うように伝え、それを実行しなければならず、また与えられたコンテキスト内からのみ選択しなければなりません。
これが創造的なタスクやコーディングタスクにどう変換されるかはわかりません。しかし、LLMがこれにとても弱いことは非常に興味深いと思いました。例えば、私たちが好きなLLMのLlama 4 Maverickはわずか4%、Quen 32 billionパラメータモデルはわずか5%、Deep Seek v3は20%、Deepseek R1は28%です。
そのような単純でばかげた…5年生に単語のリストを与えて同じことをやってもらえば、彼らは膨大な知識を持っている必要はなく、基本的な文法さえ知っていれば良いのに、LLMがこれをできないという事実は本当に不思議です。このベンチマークには2つの異なるバージョンがあります。一つはイージーモード、もう一つはミディアムモードです。イージーモードではLLMに250の出力文を作成するよう求め、ミディアムモードでは500の文を作成するよう求めます。
イージーモードではこれらのモデルをすでに見ていますが、ミディアムモードを見ると、GoogleのGemini 2.5 Proだけが50%を超えており、他のすべてのモデルは20%未満です。
このベンチマークを使用したい場合は、GitHubリポジトリで利用可能です。YouTubeの説明欄にGitHubリポジトリへのリンクを載せます。リポジトリにスターを付けてください。開発者にとって大きな意味があります。開発者はこれをオープンソース化しました。指示があり、自分で評価を行いたい場合はsolbench.pyがあります。
Pythonコードを読むことができます。評価方法が明確に説明されており、客観的な評価です。LMS Arenaのようなものではありません。私はGoogle Studioに行き、Gemini 2.5 Proを選択して同じ質問をしました。「以下のルールに従う250の文を作成してください。下記の単語リストにある単語のみを、正確に表示されているとおりに使用する必要があります。各単語は一度だけ使用できます。一度使用した単語は、他の文で再使用できません。各文は「動詞+形容詞+名詞+名詞」の構造に従う必要があります。各文はちょうど4つの単語を含む必要があります。タスクを達成するためにツールやコードを使用しないでください。思考段階で単語リスト全体を出力しないでください。長すぎるとトークンが不足します。各行に1つの文がある番号付きリストのみを書いてください。」そして、ここにたくさんの単語があります。おそらく約4,000語ほどだと思います。
これらの単語がGemini 2.5 Proに与えられ、約3分間考えた後、最終的な回答を出してきました。評価を通していませんが、Gemini 2.5 Proの評価では75%のスコアを獲得しています。最新のGemini 2.5 Proアップデートでモデルが更新されれば、以前よりもさらに良い結果が出るかもしれないと強く信じています。確信はありませんが、これは非常に興味深いベンチマークで、ばかげているように聞こえるかもしれませんが、何らかの理由でLLMはこれに苦戦しています。このベンチマークについてどう思うか教えてください。
また別の動画でお会いしましょう。お誕生日おめでとう。