公式発表:リークされたGemini 3 Proのベンチマークが圧倒的性能を実証!

Google・DeepMind・Alphabet
この記事は約5分で読めます。

Googleの新モデルGemini 3 Proのリーク情報によると、このモデルは多数のベンチマークで圧倒的な性能を示している。ソフトウェア工学ベンチマークであるSWE-benchではClaude Sonnet 4.5に及ばないものの、その他のほぼすべてのベンチマークで最高水準の結果を記録している。特にARC-AGI 2では31.1%を達成し、GPT 5.1の17.6%を大きく上回った。実用的なベンディングベンチ2では5,400ドルを獲得し、初めて5,000ドルの壁を突破したLLMとなった。OCR性能、スクリーン理解、数学競技など幅広い分野で優れた結果を示し、長文コンテキスト処理でも77%を記録している。100万トークンの入力に対応するマルチモーダルモデルとして、テキスト、音声、画像、動画の理解が可能で、Googleの独自ハードウェアであるTPUを使用してゼロから訓練された。出力が64,000トークンに制限されている点が唯一の懸念材料だが、2025年11月時点での最先端モデルとして他社が追随すべき基準を打ち立てたと言える。

It's OFFICIAL: Leaked Gemini 3 Pro Benchmarks Kills it!
Gemini 3 Pro is the next generation in the Gemini series of models, a suite ofhighly-capable, natively multimodal, reaso...

Gemini 3 Proの驚異的なベンチマーク結果

新たにリークされたGemini 3 Proモデルのコードによると、Google Gemini 3 Proは多くの異なるベンチマークで圧倒的な性能を発揮しています。あと数時間で正式にローンチされる予定のこのモデルは、複数のベンチマークで最高記録を叩き出すモデルになりそうです。このモデルが良い成績を出していない唯一のベンチマークは、bench verifiedのSWEソフトウェア工学bench verifiedだと思います。

このベンチマークではClaude Sonnet 4.5が依然として王者であり、Gemini 3.0 Proは76.22というスコアを記録しました。これはGPT 5.1とそれほど離れていない数値です。このベンチマークでは多数のGitHubイシューを解決する必要があります。しかしこのベンチマーク以外では、他のどのベンチマークを見てもこのモデルは圧倒的な成績を収めています。

その中には本当に本当に難しいベンチマークもいくつかあります。例えばAMME 2025を見てみると、このベンチマークはそれほど難しくはなく、ツールなしで95%、ツールありで100%のスコアを記録しています。つまりこのベンチマークは飽和点に達していると理解できます。

困難なベンチマークでの優位性

しかし他には、難しいとされるベンチマークであるHumanity’s Last Examのようなものがあり、このモデルはツールなしで37.5%のスコアを記録しました。そしてARC-AGI 2という本当に難しい競技では、このモデルは31.1%を記録しました。一方、GPT 5.1はわずか17.6%しか記録していません。

また、非常に高く評価されており実用的でもあるベンチマークとして、Vending Bench 2と呼ばれるものがあります。これはLLMが自動販売機を運営し、時間の経過とともにLLMがどのようなパフォーマンスを発揮するかを見るベンチマークです。このベンチマークでは、GPT 5.1が1,400ドルを稼ぎました。つまり1,400ドルを生み出したということです。

Claude 4.5 Sonnetは、この特定の時点での最高の最先端モデルであり、3,800ドルを稼ぎ出しました。一方、Gemini 3.0 Proは5,400ドルを獲得しています。このベンチマークで5,000ドルを突破した最初のLLMだと思います。

マルチモーダル機能とOCR性能

そしてこれはマルチモーダルモデルです。OCR、つまり光学文字認識を見ると、このモデルは0.1というスコアを記録しています。低いほど良いのですが、これはGPT 5.1よりもはるかに低く、Claude Sonnet 4.5よりもはるかに低い数値です。実際、前のモデルであるGemini 2.5 Pro自体がすでにはるかに優れたモデルでした。

別のビジョンランゲージのベンチマークであるScreenShot Proc ScreenSpot Proでは、画面を理解する能力が測定されます。GPT 5.1はわずか3%でしたが、Gemini 3 Proは72%を記録しました。これは本当に大幅な、大幅な増加です。

数学競技での圧倒的成績

数学競技のベンチマークであるMath Arena Apexでは、GPT 5.1はわずか1%、Claude Sonnet 4.5も1%しか記録していませんが、Gemini 3 Proは23%を記録しました。これがベンチマークハッキングだとは思いません。数学であろうと、コーディングであろうと、一般的な推論であろうと、異なる領域を横断するモデルの真の能力だと思います。

ビジョン理解のような全てのベンチマークを見ても、このモデルはより良いスコアを記録しています。長文コンテキスト処理のパフォーマンスでは、このモデルは77%を記録しています。GPT 5.1はわずか61%、Claude 4.5は47%しか記録していません。

唯一の懸念点と今後の期待

このモデルについて人々が持つ唯一の不満は、モデルが最大100万の入力トークンをサポートしているにもかかわらず、出力が64,000トークンしかないという点だと思います。2025年、2025年の終わり、2025年11月の時点で、64,000トークンの出力はあまり評価される数字ではないと言えます。

おそらく発表の際には、大量の出力トークンを必要としないような何らかの最適化を行ったということが分かるかもしれません。それは発表を待ってから見る必要があるものです。

ゼロから訓練された最先端モデル

しかし、非常に高性能でネイティブにマルチモーダルなモデルとして、テキストを理解でき、音声を理解でき、画像を理解でき、動画を理解でき、コードリポジトリ全体を文字通り読むことができます。100万の入力トークンを送ることができ、これは改造ではないと言っています。これはファインチューニングではありません。

これはGoogleが持っているTPUのような独自のハードウェアを使用してゼロから訓練されたモデルです。これは素晴らしいモデルだと思いますし、彼らが得たベンチマークの種類から見ても、このモデルは他のモデルプロバイダーが打ち負かすべき最先端モデルになることが再び示されています。

実際のリリースがどうなるかは待って見る必要がありますが、これは超期待されています。あと数時間でモデルがどのようなパフォーマンスを発揮するか見てみましょう。また別の動画でお会いしましょう。ハッピープロンプティング。

コメント

タイトルとURLをコピーしました