2025年末、AI業界の勢力図が劇的に変化した。年初にはOpenAIのChatGPTが64%の支持率で圧倒的首位に立っていたが、年末にはGoogleのGemini 3が66%の支持を獲得して第1位に躍進。AnthropicのClaude Opus 4.5が19%で第2位を維持する一方、ChatGPT 5.2は11%まで落ち込み第3位に転落した。この逆転劇は、LM ArenaやDesign Arenaなどの複数のベンチマーク結果、OpenRouterのAPI使用統計、そして市場シェアの推移データによって裏付けられている。興味深いのは、タスクの種類によって最適なモデルが異なる点である。プログラミングではGrokのCode Fast 1が意外な強さを見せ、画像生成ではFlux 2が優位に立ち、動画生成ではVeo 3.1がリードしている。一方、ChatGPT 5.2はARC-AGIベンチマークで52-54%という驚異的なスコアを記録したものの、実用面での評価は伸び悩んでいる。この論理的推論能力の向上が実際の使用場面でどう活きるのかは今後の課題である。市場シェアの動向を見ると、Anthropicは年初の優位性を失い、Googleは中盤で勢いを増したものの年末は横ばい、OpenAIのAPI利用は緩やかに回復傾向にある。2025年のAI競争は、単一の勝者ではなく、用途に応じた使い分けの時代に入ったと言える。

2025年AI業界の大逆転劇
皆さん、2025年が終わろうとしていますが、どうやらGemini 3が今年の人工知能界の大チャンピオンになったようです。これから詳しく見ていきたい点がいくつかあります。特に、Claudeのようなモデル、ChatGPT、中国のモデル、その他多くのモデルについて理解を深めていく必要があります。
2025年にこれらすべてがどう意味を持ち、今のGemini 3という結果にたどり着いたのか。では、何が起きているのか理解していきましょう。一緒に見ていきましょう。それでは始めます。
皆さん、いつもいいねを押してくれた全ての方、チャンネル登録してくれた全ての方に感謝しています。この人工知能チャンネルをスポンサーしてくれているチャンネルメンバーの皆さんには特別な感謝を捧げます。
メンバーの方々は、WhatsApp、MCP、PDF読み取り、ドキュメント、スプレッドシートとの統合を行うインテリジェントエージェントに関する限定動画にアクセスでき、さらに先行公開動画も視聴できることを覚えておいてください。もしあなたの会社に顧客対応や何らかの製品、人工知能プロジェクトのためのインテリジェントエージェントを導入したい場合は、Maximisa IAの担当者に連絡してください。彼らがあなたのためにプロジェクトを開発できます。リンクは説明欄にあります。
Gemini 3の圧倒的勝利とベンチマーク分析
さて皆さん、今日のトピックはこれです。Gemini 3 Proが単独でトップに立っているという話と、2025年に起きたこの結果に至るまでの一連の出来事についてです。まず最初に、いくつかのベンチマーク結果を見ていきます。特に今最も更新されているものを見ていきます。
これらのベンチマークについては常に慎重でなければなりません。例えばLM Arenaには、結果を操作しているという批判があります。結果を改ざんしているという意味ではなく、その背後にある方法論に欠陥があるということです。これについては過去の別の動画で既にコメントしました。今ここで見つけられるかどうか分かりませんが。
だから常に注意が必要です。しかし私が言えることは、私のチャンネルを視聴している視聴者の選択では、年はこのような形で終わったということです。数日前にGPT 5.2が発表される前に行った調査ですが、5.2がそこまで大きな衝撃を与えなかったので、この結果はそれほど変わっていないと思います。
とにかく、ここの視聴者の選択では、66%の人がGemini 3を好み、19%がClaude Opus 4.5を気に入り、ChatGPTが11%で3位、そしてGrokが4%で単独最下位を独走しています。
年初に私がこの調査の最初のバージョンを実施したとき、見てください、11か月前です、2024年のベストAIは何かと尋ねていました。当時は1月頃で、DeepSeekについても話していましたよね。DeepSeekはまだあの爆発的な成長を見せていませんでした。その直後、この8%は大きく上昇することになりますが、OpenAIがここで64%で単独トップでした。
そしてGeminiは単独で最下位にいて、DeepSeekと最下位を争っていました。Claudeは20%でした。つまり、1年でClaudeは実質的に動いていません。1%下がっただけです。しかしOpenAIは1位から3位に落ち、Geminiは最下位から1位に躍進しました。
そして最も興味深いのは、先月11月の調査では、皆さん見てください、Geminiはそれほど強いリードを持っていませんでした。状況はわずか1か月で急速に変わったのです。
人工知能の世界でのこれらの変化は、それほど固定的なものではないことが分かります。わずか1か月の違いが、2月初めにDeepSeekが爆発的に成長するのに十分だったように、今回もGemini 3がこのレースで前に出るのに十分でした。
Design ArenaとLM Arenaの詳細な比較
さて、これは私の視聴者の結果ですが、他の場所では何が起きているでしょうか。例えば、Design Arenaでは。Design Arenaは多くのベンチマークを実施していますが、これは総合カテゴリーです。ご覧の通り、Gemini Pro previewがあります。そしてここ、Claude 4.5が2位です。そして3位が5.2 extra highです。これは総合カテゴリーでの話です。
他のカテゴリーも見てみましょう。興味深いのは、このトップの部分はChatGPTとClaudeが圧倒的だということです。次にリストに現れる最初のものはGLM 4.6で、その後は最後までChatGPTとClaudeです。
無料モデルでフィルタリングすると、GLM 4.6が1位、DeepSeek 3.2が2位になります。そして4位にMR Lardがあります。非常に興味深いです。
他の基準を見ると、例えばウェブサイトアリーナでは、トップ3は同じままです。Gemini、Claude、GPT 5.2です。一方、エージェントアリーナに移ると、この場合GPT5 Codexが1位で、3位がDevin AIです。
このエージェント作成能力は少し異なることを覚えておいてください。そしてここ、4位にClaude Sonnet 4.5がCloud Codeを使用して入っています。エージェントに関するこのベンチマークは非常に興味深いです。
このbuilder arenaも非常に興味深いです。ビルダーを評価しているからです。例えば、ここLovableが3位に入っています。ビルダーが何か知りたい場合、Lovable bowがその一つです。そして2位がAnythingです。1位がFlames Blueです。
このFlames Blueはまだテストしていません。使っている方がいたら下にコメントしてください。そうしたらすぐに動画を作って、何が起きているのか理解します。しかしここには、例えばRapit、Figma、Firebase、Google AI Studioなど、他にも多くのビルダーが見つかります。
モバイルに関しては、1位がBolt Newです。ご覧のように、各項目を見ていく際に各基準によって物事が変わるので、注意深く見る必要があります。
コンポーネントではGemini、Claude、ChatGPTですが、違いはここがGPT 5.1 Codexだということです。よく注意してください皆さん。これらの詳細が違いを生むのです。GPT 5.2はここ後方にいて、5.1を上回ることができませんでした。
画像生成では、興味深いことにFlux 2が1位で、その後にGemini 3 Pro image previewが来ます。これは基本的にImage Banana Nanoですよね。FluxとGeminiがここで1位にいるのは理にかなっていると思います。
Fluxでしかできない特定の生成がいくつかあります。これは非常に興味深いです。Geminiにはできないことがあり、Fluxに行くことで解決します。Geminiができることでも、Fluxができないこともあります。
用途別の最適モデル選択
スライド生成について考えると、Gamaがここで1位です。多くの人が高く評価していますが、例えば今日私はNotebook LMを使ってスライドを生成しています。ここに動画も作りました。私がどのようにスライドを生成しているか知りたい方はアクセスしてください。
そして私はさらに高度な進化に到達しました。今では、作成してほしいスライドを1枚ずつプロンプトに記述しています。そしてそれがとてもうまく機能しています。
昨日公開したAGIの歴史についての動画では、私が作成してほしいスライドを1枚ずつ記述し、プレゼンテーションを生成してもらいました。Notebook LMでスライドを作るのを非常に気に入っています。
ゲーム開発に移ると、誰が1位にいるか見てください皆さん。だからこそこれらの詳細に十分注意を払う必要があるのです。Claude Opus 4.5で、2位がGPT 5.2です。そしてGeminiは4位にようやく現れます。つまり、Geminiがすべてをリードしているわけではないということです。
私のカーゲームのテストでは、Geminiで作ることを好みましたが、ここでゲーム開発アリーナと言っているので、おそらくGodot、Unreal、Unityなどの他のプラットフォーム向けにゲームを開発している人がいるのだと思います。
ですから、もし人々が何らかのプラットフォームで開発しているなら、Claudeが実際に勝つかもしれません。なぜなら、グラフィック部分、エンジン全体の部分は既に準備ができていて、本当にプログラミングだけだからです。
動画生成部分では、Veo 3がVeo 3.1の前で勝っていて、5位以降になってようやくSora 2、Kling、Minimax、Haiper、その他が現れ始めます。
これだけで、何が起きているのかをかなり明確に理解できます。そしてLM Arenaでも、物事はそれほど異なっているわけではありませんが、とはいえ確かに異なっています。
例えば、テキストのリーダーボードでは、Geminiが1位ですが、2位はGrok 4.1 thinkingです。その後にようやくCloud Opusが現れます。見てください、興味深いですね。
Grokをテキスト生成に使用する人を多く見かけます。これはもしかすると注目すべき点かもしれません。Grokをテキスト作成に使っている方は下にコメントしてください。
ウェブ開発では、Claude 4.5が勝っていて、GPT 5.2 Highが2位です。Gemini 3 Proはここで4位に現れ、Claudeがこのプログラミング部分で引き続き注目を集めていることを示しています。
視覚能力、つまり画像を見てその説明をし、画像について会話する能力では、LM ArenaでGeminiがリードしており、すぐ次にGPT 5.1 Highが続いています。ですから、画像の説明をさせるAIが必要な場合、もしかするとGeminiとGPT 5.1、つまり前のバージョンが、LM Arenaで最高得点のモデルです。
一方、テキストから画像への生成では、Geminiが単独でImage Banana Nanoでリードし続けています。この場合、Fluxは4位に現れています。Design Arenaとは異なり、そちらではFluxが前に出ていました。
ですから、ベンチマークでさえ必ずしも同じ結果にならないことが分かります。画像編集では、Geminiが引き続き1位ですが、Seaart Dream 4.5もここで非常に良い成績を収めています。プレビュー版です。
一般的に、Seaart Dreamの画像生成は非常に気に入っています。LM Arenaでテストを実行して、Seaart Dreamの画像が出てくると、非常に美しい画像です。とても気に入っています。
検索の観点、つまりAIで検索を行う場合、Geminiがリードしていて、2位が5.1 search、3位がGrok 4 Fast Searchです。これは非常に興味深い注目点です。なぜなら、これらの検索エンジンは非常に異なっているからです。
GeminiはGoogleの顔を持ち、GPTはOpenAIの顔を持ち、GrokはGrokの顔を持っています。例えば、Grokの検索には、人々の意見を知るための特定の機能があります。
バイラルになっている投稿でトピックを知りたい場合、質問することができます。ですから、検索を行う際、Grokは非常に興味深いです。特に人々の意見を知るためには。
これらの小さな詳細に注意を払う必要があります。Geminiがすべてを解決すると考えて興奮しすぎないように。なぜなら、する質問のタイプ、行う検索のタイプによって、Grokの方がより興味深い場合があるからです。
テキストから動画への項目では、Veo 3.1が1位でリードしており、Sora 2は4位です。皆さん、私は正直に言います。このSoraが公開されるのが遅れていると思います。VPN経由で使用できますが、このSoraを公開するのが遅すぎると思います。
私は既に日常的に使いたいと思っていますが、今のところできていません。そして画像から動画の場合、Veo 3.1がここでリードしています。しかし興味深いことに、Kling 1 2.5がここで3位に入っています。ですから常に注意を払う必要があります。最近出たKling 2.6もあります。
ですから非常に注意が必要です。なぜなら、動画生成、画像生成、検索を行う仕事をしているなら、これらのベンチマークで何が起きているか見ておくことが良いからです。もしかすると、あるツールに慣れてしまい、その後何か他のものの新しいバージョンが登場するかもしれません。
そしてベンチマークを通じて、もしかすると新しい可能性を探求できるかもしれません。
ARC-AGIベンチマークの重要性と疑問
参照となっているベンチマークの一つで、誰もが心配し、より注意深く見ているのが、ARC-AGIです。彼らにはバージョン1と2があります。このARCについて興味深いのは、これらが論理テストであり、私たち人間にとっては非常に簡単で、やりやすいテストだということです。
ここの表を見ると、人間レベル、つまり人間が解いたこれらのテストのhuman payがあります。ARC-AGI 1では98%の正解率、ARC-AGI 2では人間は100%の正解率を出します。
ですから、これらのテストについて話すときは、バージョン1であれバージョン2であれ、ここのこれらの高得点、例えばGPT 5.2が90%を出していても、これは人間が大した努力なしに98%の正解率を出すものに対してまだ苦労しているということを認識することが重要です。
このテストについての2番目の重要な点は、解答を暗記することができないということです。これらはリアルタイムで生成される問題であり、見ているものから何をすべきか推論し始める論理問題です。
ですから、私が気づいていることの一つは、モデルたちがここでの能力を向上させているということです。例えば、バージョン2では、GPT 5.2が52%という非常に良い位置にいて、ここでは54.2%です。これはARC-AGI 2の最良の結果です。
そして彼がここでこの例外的な結果を出しているにもかかわらず、ベンチマークでは良い結果を出せていません。これは興味深い点です。結局のところ、このARC-AGIベンチマークは助けになっているのか、それとも妨げになっているのか。
なぜなら、ある意味では、GPT 5.2が実行している瞬間に行っていることに非常に注意を払っていることを示しているからです。彼の回答はあまり暗記されたものではありません。しかし一方で、もしかするとそこで生まれている創造性が邪魔をしているのかもしれません。
なぜこれらのモデルがここで改善しているのか、そしてなぜここでの上位が他のベンチマークと一致していないのかを理解するために、しっかりと研究する必要があります。もしかすると、そこで訓練されているスキルが有用ではないのか、それとも非常に高いレベルに達したときに実際に有用性を示すのか。
これがなぜ起きているのかについていくつかの仮説を立て、説明しようとする良い機会です。なぜなら、一つのことは事実だからです。LM ArenaでもDesign Arenaでも、このチャンネルのアンケートでも、どれも5.2を1位に指し示していません。
ですから、これに注目する必要があります。一部の人々はこう言うでしょう。「でも、内部関係者がいるのでは?これらの情報を操作している人がいるのでは?」私はそうではないと考えています。これは非常に可能性が低いです。特に、公式テストはここARC-AGIの特定のチームによって実施されているからです。
そして、ここARC-AGIの最も重要な研究者の一人はGoogleで働いているFrançois Cholletです。ですから、Françoisが GPT 5.2に良い結果を出させることにあまり興味を持たないだろうと言えます。
私は今のところ、ここのこのARCの結果を非常に信じています。このテストのアイデアを生み出した研究者の一人であるFrançoisは、非常に厳格で、基準が厳しく、徹底した人物です。そして、もしここで何らかの不正が検出されたら、彼が持つ優れた評判は水の泡になるだろうと言えます。
私は彼がそんなことを起こさせないと信じています。しかし陰謀論は陰謀論ですよね皆さん。それらは私たちが最も好きなもので、ほとんど真実ではありませんが、最高のストーリーです。
さて、あなたが何を使っているか、今最高だと考える人工知能は何か、下にコメントしてください。そして私が最も好きなタイプのコメントがあります。それはこういうものです。いつも誰かがこう言います。「ねえBob、私はRPGを作るのにGLM 4.5を使っているよ」と。
そして別の人が「ああ、私は何かをするのにCommencoder 480Bを使っているよ」と言います。なぜなら常に非常に特定のユースケースがあり、その人が多くのテストを行ってその解決策にたどり着き、最終的に「よし、これが私にとって最良のコストパフォーマンスだ」と言うからです。
これが私がコメント欄で読むのが好きな貴重な宝石のようなものです。理解する瞬間です。分かりますか。これらの大きなモデルがあるけれど、高価で、いくつかの利点と欠点があります。実際にこのタイプの結果を理解する際に、まさにここOpenRouterで見ることができます。
OpenRouterのAPI使用統計から見る実態
なぜOpenRouterが良いかというと、OpenAIはこれらすべての企業のAPIの使用を提供しているからです。ですから、人々が各APIをどれだけ使用しているか分かります。例えば、真ん中にあるこの青い斑点を見てください。
真ん中にあるこの大きな青い斑点が見えますか。この大きな青い斑点はGrok Code Fast 1です。これが典型的なケーキの上のチェリーで、私たちは疑問に思います。「え、でもGrokについては誰も話していないよね?」
さて皆さん、真実はこれです。Grok Code Fast 1に価値を見出している人々がいて、それがここのリーダーボードに現れているのです。そしてここでは、何も無料ではありません。ここでは人々はお金を払っています。
これは少し違います。なぜなら、これはChatGPTのサブスクリプションでもなく、Grokのサブスクリプションでもなく、Geminiのサブスクリプションでもないからです。ここでは使用量に対して支払います。
そして使用量に対して支払う場合、それは作成した製品かもしれませんし、仕事のための何かかもしれません。そしてここで人々は、使いすぎていないか、あるいは使わなさすぎていないかを確認するために、もう少し注意深く見ます。
年末にここに現れ始めた別のモデル、GPT OS 120Bがあります。これはOpenAIのモデルで、無料でオープンソースです。人々はここでそれを使用しています。誰かが使用し始め、かなり使用しています。
ここの薄い青はClaude Sonnet 4.5です。ピンク色はGemini 2.5 Flashです。そして後ろのこの巨大なバーは「その他」で、そこに集まっている多くの小さなモデルがあり、最後に見えるこの巨大なバーを示しているという意味です。
市場シェアに関しては、状況は少し異なります。ここでは質問が少し変わります。企業が獲得している市場シェアにおいてどれほど重要かということです。
ですから、この太い青い帯を見てください。この太い青い帯はAnthropicです皆さん。年初のAnthropicの様子を見てください。多くの人々がAnthropicのAPIを使用していましたが、年が進むにつれて、年末に近づくと、かなり市場を失いました。
この薄い緑を見てください。薄い緑はGoogleです皆さん。Googleは年の中頃に非常に強い市場参加があり、年初と比べて獲得しましたが、年末に近づくと、ほぼ安定を維持しました。
そしていつもどこからともなく現れる誰かがいます。ここでうまくやり始めるのですが、この場合はxAIです。年末に非常に顕著な瞬間がありましたが、最後の最後、本当の年末には少し下落しました。
ここでもう一つ注目を集めるのはDeepSeekです。見てください、興味深いですね。DeepSeekは着実にスペースを獲得していき、年の半ばまでかなりスペースを獲得していましたが、年末には大幅にスペースを失いました。
彼のバーは乾いた細い糸になり、どうにかこうにか持ちこたえています。そしてOpenAIのAPI、具体的には、年の半ばに非常に強い瞬間がありましたが、年初は乾いた細い糸から始まり、下半期には少し太めの細い糸になり、今年末にAPIが少し多く使用され始めました。
ですから、ご覧の通り、ここには多くの情報があります。QwenのAPIも同じです。乾いた細い糸だったのが、少し太めの細い糸になりました。彼らは年の半ばから前進してスペースを獲得しました。
ですから、この世界では多くの動きが起きています。今年末時点でAnthropic、Google、OpenAI、xAIがこの大きな市場の最大のシェアを持つ主要なプレーヤーであると言えます。
カテゴリー別のモデルについて考えると、見てください、Grok Code Fastはプログラミング部分で非常に使用されています。そして私が言ったように、GPT OSは年末に勢いを増し始めました。
Sonnet 4.5は引き続きうまくやっていて、年末に登場したOpus 4.5も非常にうまくやっています。ただし、ご覧の通り、それはより高価です。ですから分かることは、人々はプログラミングの際、より基本的な小さなプログラムを作るためにGrok Codeを使用することを好んでいるということです。おそらくAPIが少し安く、誰もが手の届く価格なのでしょう。
カテゴリーによって変わることに気づくのは興味深いです。例えば、マーケティングではGemini 2.5 Flashがリードしています。状況は完全に変わります。そして3位にGPT OSがあります。
科学のような他の分野では、GPT OSがここでトップをリードし、2位がGemini 2.5 Flashです。ですから、ここをよく見ることをお勧めします。なぜなら多くの情報があるからです。金融、法律、健康、学術的なこと、翻訳、SEO、ここには見てみる価値のある多くの情報があります。
例えば、ポルトガル語では、1位にGemini 2.0 Flashがあります。しかし英語に変えると、Grok Code Fast 1に変わります。ですから、人々が話している言語によっても物事は大きく変わります。
これは非常に興味深いことです。あなたがAPIをどのように使用しているか、コメントを残してコストパフォーマンス、何が使う価値があるかを知らせてください。
ああ、そして質問があります。視聴している皆さんで、自分のコンピューターや自宅で無料のオープンモデルを使用している方、PCでどのモデルを使用することを好んでいますか。ローカルLLMです。ローカルLLMを使用している人はいますか。
なぜなら、ローカルLLMには問題があるからです。大きすぎると動作しません。だから人々はより小さなモデルを選ばなければなりません。しかし小さすぎると、パフォーマンスが出ません。
だから私は、自宅のPC、家庭用サーバーでローカルLLMを使用している人の最良のコストパフォーマンスが何か知りたいのです。そして、どのくらいのメモリとどのGPUを使用しているか教えてください。私たちは知りたいのです。
年末、人々はグラフィックカードを買いたいと思っているのにどれを買えばいいか分からない。もしかするとコメント欄に非常に良いヒントが現れ、来年にはグラフィックカードを交換できるかもしれません。
まとめ:2025年AI業界の勝者たち
さて皆さん、このクリスマスはGoogleのクリスマス、Gemini 3のクリスマスになりそうで、Anthropicの人々、Claudeの人々にとっても良いクリスマスになりそうです。そしてリーダーシップを失ったOpenAIの人々にとっては。
今回は狂ったように働くクリスマスになるでしょう。GeminiとClaudeがビーチに行く間、今回はChatGPTがオフィスに残ることになります。あなたが何を考えているかコメントしてください。
そして、このような動画を見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーはインテリジェントエージェントに関する限定動画や先行公開動画にアクセスできます。それでは、いいねを押してください。ありがとうございました。


コメント