新たなテストが明かす中国のAIの進歩の真実…

中国
この記事は約12分で読めます。

本動画は、中国のAI開発の進歩に関する実態を様々な最新ベンチマークを用いて検証・解説するものである。ARC AGI 2やPencil Puzzle Benchmark、Frontier Mathといった真の推論能力を問うテストにおいて、中国の主要なAIモデルが欧米の最先端モデルに対して大きく遅れをとっているデータを示す。また、SWE benchのようなコーディングテストにおけるベンチマーク特化の最適化問題にも触れ、ジェンスン・フアンやサム・アルトマンの言葉を交えながら、過大評価されがちな中国AIの実力に疑問を投げかけている。

New Tests Reveal The Truth About China’s AI Progress...
🌐Subscribe To My Newsletter - your Free AGI Preparedness Guide - 🎓 Learn AI In 10 Minu...

中国のAIの進歩は本物か?

これは私がしばらく前から作りたいと思っていた動画です。中国のAIの進歩の真実とは何なのでしょうか。そして、それは実際のところ世間の盛り上がりに見合っているのでしょうか。最近の結果は実はそうではないと示しています。では、詳しく見ていきましょう。Ark Prizeから出されたツイートを見たのですが、そこにはArk AGI 2のセミプライベートテストにおける各国のモデルの成績が書かれていました。

Ark AGI 2が何かご存知ない方のために説明しますと、これは誤魔化しがきかないことを専門にテストするものです。つまり、より多くのデータを使って力技で突破したり、他のモデルから抽出したりすることはできないということです。ARC AGI 2を受けるなら、全く新しい一般的な問題解決能力が必要になります。

だからこそ、ここのスコアが非常に興味深いのです。中国の研究所は、もしあなたが注目していなかったとしたら、実は欧米の研究所に追いついてきているように見えていました。しかし、ARK AGI 2のベンチマークを見たときに何が起こるか見てみてください。これは純粋に新しい推論だけをテストするベンチマークだそうで、どんな方法でもテストの準備をすることはできません。

ただそのモデルの根本的な推論力をテストするだけです。そしてここで見てわかるように、Kim K2、Minmax M2.5、GLM5、そしてDeepSeek 3.2は、2025年7月のフロンティアモデルを下回るスコアを出しています。つまり、現在のフロンティアとなる最先端の中国のモデルは、実際には8ヶ月前にリリースされた欧米の研究所のモデルと同等だということです。2025年7月のフロンティアラボの基準線は本当に残酷なまでに衝撃的です。

Ark Prizeが言っているのは、今日の最高の中国モデルでさえ、欧米の研究所が8ヶ月前にやっていたことにすら本当に勝てないということです。そしてそれは単なるギャップではありません。1世代遅れているということです。さて、ああ、これはただのクリックベイトだ、たった1つの悪いベンチマークの結果に過ぎないと思っている皆さん。信じてください、この動画を深く見れば見るほど、もっと多くのことが分かってきます。

皆さん覚えておいてください、Arc AGI 2は誤魔化すことのできない推論を特別にテストするものです。より多くのデータで力技を使うことはできません。抽出することもできません。純粋に斬新な問題解決が求められます。そして覚えておいてほしいのですが、現在AI分野では本当に様々な発言や出来事があり、中国のAI企業は私たちの後ろにいる、すぐ後ろに迫っていると言う人々がいます。

新たな試練:Pencil Puzzle Benchmark

ですから、これは本当に非常に興味深いことになります。私はこのツイートも見ました。これは全く新しいベンチマークで、この論文は2026年3月2日に発表されました。文字通りこのツイートと同じ日です。そしてこのパズルベンチマーク、ペンシルパズルベンチマークは、ペンシルパズルを通じてLLMの推論を評価します。これは、決定論的なステップレベルの検証を伴うNP完全問題に密接に関連する制約充足問題の一種です。基本的に、これはゲームのように攻略することはできません。そして、彼らが得た最初のパフォーマンスは、2025年初頭のo3で3パーセントでした。

それに続いて、GPT5ファミリーで能力の爆発的な向上が見られました。つまり基本的には、彼らは以前に存在したものとは異なる、新しい能力の最前線をテストしているのです。そして2024年以前にリリースされたモデルは、文字通り0パーセントのスコアを出しています。これは、これらの特定のパズルの組み合わせに関するトレーニングデータが存在しないことを意味します。

制約のステップを通じて推論できるか、できないかのどちらかです。さて、チャートを見ると、データを見ると、これ以上ないほど明確です。米国のクローズドモデルが完全に支配しています。GPT 5.2は56パーセント、Claude Opus 4.6は36.7パーセント、そしてGemini 3.1 Proは33パーセントを獲得しています。現在これが最高の品質ではないことは承知していますが、とにかく私の言うことを聞いてください。

そして中国のモデルに目を向けると、完全に崖から落ちるように急落しています。Kim K2は6パーセント、Minmaxは3.3パーセント、そしてDeepSeekは2パーセント、Qwen 3.5は0.7パーセント、GLM 5は0.7パーセントです。これは向こう側からすればかなりクレイジーなことです。考えてみてください。LLMを見たとき、これは最も決定的なチャートの1つです。なぜならこれは全く新しく、独立して実行され、HLEやFrontier Mathのような他の全てのベンチマークとは全く異なるものをテストするからです。知識の幅をテストするHumanities Last Examや数学の深さをテストするFrontier Mathに対して、ペンシルパズルベンチです。

これは実際には純粋なマルチステップの論理的制約推論をテストし、知識は全く必要ありません。ただ複数のルールを頭の中に同時に保持し、一歩一歩前に向かって推論する能力だけが必要です。そして重要な発見は、GPT 5.2が推論なしの状態から最大限の努力をした状態へと81倍も向上していることです。これは、米国のフロンティアモデルがこれらの問題で純粋に推論に取り組んでいることを意味します。

そしておそらく、もしかすると、中国のオープンソースモデルはどれだけ努力してもその差を縮められていないのかもしれません。全く異なる3つのベンチマーク、3つの異なる手法で、同じような格差が生じています。Arc AGI 2の完全な落ち込みはご覧の通りです。そして覚えておいてください、これは最近テストされたものであり、今私たちはペンシルパズルベンチを見ていて、ここでもまた、それらのモデルを見たときに大規模な落ち込みを確認しています。

ここで誰かがRedditで、このテストはベンチマークの弱点を暴くために設計されていると言っているのが見えます。皆さん、もし私たちがFrontier Mathを見ることにしたとしても、同じ物語が存在します。それはHLEと同じ物語です。GSM 8Kや数学、そしてその他の標準的なベンチマークでは、現在の全てのモデルが90パーセント以上のスコアを出しますが、これは特にデータ汚染によるものです。モデルはこれらの問題で訓練されていますが、彼らはすでにテストに酷似したデータを内部に持っているのです。そのため、それらのベンチマークは実際に現実の何かを測定することをやめてしまいました。

Frontier MathとHumanities Last Examでの苦戦

そこでFrontier Mathは、計算集約的な整数論や実解析の問題から、代数幾何学や圏論の抽象的な問題まで、現代数学の主要な分野のほとんどを網羅する、極めて難解な数学的課題を導入するために設計された一連の質問となりました。では、何が本当に難しいのでしょうか。典型的なFrontier Mathの問題を解くには、関連する数学分野の研究者が数時間の努力を要し、上位レベルの質問になると数日かかります。これはオリンピックレベルの話ではありません。これらの質問を見ると、これらは未解決の研究問題なのです。

皆さん覚えておいてください、これらは不正に攻略することはできません。Frontier Mathは、未発表の全く新しい問題だけを独占的に取り上げることで、データ汚染の問題に対処しています。すべての質問はこのベンチマークのために特別に作成されました。

それらはオンラインや教科書、あるいはその他の訓練コーパスに登場したことは一度もありません。これらの問題は当て推量も防がれており、実際の数学的な作業を行わずに解くことはほぼ不可能です。そしてモデルにはPythonへの完全なアクセスが与えられます。彼らはコードを実行し、仮説をテストし、反復することができますが、それでも解くことはできません。

そして皆さん、ここにあるデータを見てください。Kim K2がどこにあるか見てください。文字通りGemini 2.5の後に現れ、DeepSeekはo4 mini highの後ずっと後ろに、そしてGemini 3の後ずっと後ろにあります。Kim、GLM、そしてDeepSeekは基本的にすべて一番下に固まっています。これらを実際に確認できる唯一の方法は、私が次のスライドに切り替えた時だけで、そこではGLM 5やKimなどが実際にどの位置にいるかがわかります。

そしてこれらのモデルは2パーセントから3パーセント程度のスコアを出しますが、もちろんそれは大したことはありません。そしてもちろん、Humanities Last Examを見たとき、これは各科目のドメインにわたる知識の深さと広さをテストする、この種の最後の学術試験となるように設計された、最も難しい2500の科目横断的なマルチモーダルな質問のもう一つのベンチマークです。

そして皆さん覚えておいてください、これもまた不正攻略が不可能なベンチマークです。彼らはさらにHumanities Last Examの非公開の保留セットを持っており、検索可能な質問は特定の手順によって削除されました。そしてここで非常に懸念されることがありました。Kim K2は実際にHLEベンチマークで50パーセントを報告していましたが、Artificial Analysisの調査によると実際には29.4パーセントであり、21ポイントも水増しされていたのです。ツールを使用することによるスコアの上昇は著しいものでした。

ジェンスン・フアンとサム・アルトマンの視点

ジェンスン・フアンが最近、中国の遅れについて語ったことを見てみましょう。だからこそ私は、これらの発言が非常に興味深いと言うのです。一方で中国は遅れていない、中国は我々のすぐ後ろにいると言う人々がいますが、他方でLLMだけを見てみると、これはLLMに限った話ですが、不正攻略されていないベンチマークを見ると、実際には彼らが遅れていることがわかります。

中国はどれくらい遅れていると思いますか。

中国は遅れてなんかいませんよ。誰かが私たちの前にいるわけではなく、中国は私たちのすぐ後ろにいます。つまり、私たちは非常に、非常に近いところにいます。しかし覚えておいてほしいのは、これは長期戦であり、終わりのない競争だということです。人生の世界には、2分間で四半期が終わるようなことはありません。

そんなものは存在しないのです。だから私たちは長い間競争することになります。そして、彼らが強い意志を持った国であり、優れた技術力を持っていることを忘れないでください。世界のAI研究者の50パーセントは中国人であり、だからこそこれは私たちが競争していかなければならない産業なのです。

NVIDIAのジェンスン・フアンが、中国が米国とのAI競争に勝つだろうと言うとき、そこにはおそらくもっと深い事情があるのかもしれません。つまり、2025年に彼はFinancial Timesに対して、中国はAI競争に勝つだろうと語り、その後、中国はアメリカからナノ秒遅れているという声明を出しました。

そして本質的にここでの本当の議論は、米国の各州が新たなAI規制の波を検討している一方で、中国は地元企業に中国製チップの使用を促すためにエネルギーコストを補助しているということです。

そしてもちろん彼は、世界のAI研究者の約50パーセントが中国におり、主要なオープンソースモデルの過半数がそこで作られていると述べました。そしてどうやら長期的な議論としては、チップの輸出禁止は基本的に逆効果だということです。もし彼らがNVIDIAのGPUへのアクセスを失えば、それは彼らに国産の代替品を作ることを強制し、NVIDIAのエコシステムへの依存度が低くなり、彼らはより革新的になるだけです。

サム・アルトマンが実際に中国について語っているのを聞いてみましょう。その後で皆さんにもっと多くのデータをお見せします。

スタック全体にわたる中国のテクノロジー企業の進歩は、AIに限らず多くの分野で目を見張るものがあります。私が過小評価されているという意見に反論している理由は、私がするあらゆる会話が、ああ中国が私たちを打ち負かそうとしている、どうすればいいんだ、というような感じだからです。だから人々はそこで何が起きているか気づいていると思います。

しかし、はい、中国の進歩は驚くほど速いです。

彼らはフロンティアに近いですか。あなたたちに近いですか。

ある分野でははい、ある分野ではいいえです。そのような一方的なものでは全くありません。

ソフトウェアエンジニアリング評価での真実

さて、皆さんがもしこれが1つのベンチマーク、2つのベンチマークだけの話だと思っていたなら、これを見てください。なぜならこれは非常に驚くべきものだったからです。この動画を録画する前まで、私はこのようなものがあるとは知りませんでした。SWE benchは本質的に、モデルが現実世界のソフトウェアエンジニアリングの問題をどれだけうまく解決できるかをテストするために設計された評価フレームワークです。これまでのすべてのベンチマークがやっていたように、単純で独立した関数を書くよう求めるのではなく、実際のバグを修正できるかどうかを確認するために、複雑なコードベースの中にモデルを投げ込みます。

これは何千もの実際のGitHubのイシューから構築されており、現在、AIソフトウェアエンジニアをテストする上でのゴールドスタンダードとなっています。そして現在人々はこれを使用しています。現在、自己報告のデータを見ることができます。MinmaxはどうやらSWE benchで75前後をスコアしており、Claude 4 Opus、Gemini 3 Flash、Claude Opus 4.6と並んでトップクラスにいるようです。

そしてKim K 2.5の高推論モデルが、それらのGPT5モデルやClaude 4.5 Sonicのあたりにいることがわかります。しかし、ここから私は、もしかすると中国のオープンソースモデルのベンチマークについては何かが明らかにおかしいのではないかと言い始めました。なぜならSWE rebenchを見てみると、これは2025年5月にNBUS AIの研究開発チームによって導入された、新しく継続的に進化するベンチマークだからです。

これは、人気のあるコーディングベンチマークであるSWE benchにおける汚染問題に対処するもので、モデルがトレーニング中見たことのない、新しく汚染されていないGitHubのタスクを使用しています。これにより、過剰適合やデータ漏洩を通じた不正攻略がより困難になります。そしてオリジナルのSWEでは、私たちがちょうど見たように、中国のモデルは明らかに欧米の最先端モデルに匹敵していました。

しかし皆さん覚えておいてください、SWE rebenchでは彼らのスコアは実際に急落し、一般的な知能ではなくベンチマーク特化の最適化に依存していることを示しています。そしてSWE rebenchを見ると、中国のオープンソースモデルはどこにいるでしょうか。彼らは11位と17位に見えますが、一方で欧米の研究所からの他のモデルはリストのはるかに上位に位置しています。

ですから、これは皆さんが自分自身に問いかけなければならないことです。もし特定のオープンソースモデルを使用しているなら、おそらくそれらはOpus 4.5やGPT 5.4、あるいはGPT 5.3 codecsと同じパフォーマンスを発揮しないかもしれません。そしてそれを考慮に入れるべきです。なぜなら、中国のオープンソース企業だけでなく、全ての企業がベンチマークを水増しする動機を持っているからです。そうすればより多くの注目、より多くのダウンロード、より多くの宣伝を得ることができるからです。

ですから、どうかそのことを心に留めておいてください。常に自分自身でベンチマークを実行し、独自のテストを行い、あなた自身の目で確認し、あなたの特定の用途においてどれだけうまく機能するかを見てください。

コメント

タイトルとURLをコピーしました