
11,233 文字

現時点ではGemini 2.5 Proがリーダーボードでトップに立っていることをおそらく目にしていると思いますが、私たちが見ているのは氷山の一角に過ぎません。水面下ではいくつもの大きな動きが起こっています。
まず一つ目は、DeepSeekが間もなく新しいモデルをリリースするという噂があります。これには推論モデルの次のイテレーションであるR2も含まれ、コーディングにおいて非常に優れているとされています。
また、Sam Altmanはステルスモデルの存在をほのめかしました。誰が作ったのか、誰がリリースするのかはわかりませんが、Sam AltmanはOpenAIのものであることを示唆しているようです。Samは「クエーサーは非常に明るいものです。LM Arenaにはクエーサーと呼ばれるステルスモデルがあり、それは非常に優れています」と言っています。これはO3やO4 Mini、あるいはO4 Mini Highかもしれません。詳細はまだわかりません。繰り返しになりますが、これらの多くは噂や推測に過ぎません。これらのモデルはまだステルスモードにあり、何と呼ばれることになるのかはわかりません。
そして、バックグラウンドで開発されているもう一連のモデルがあり、これらはおそらくGoogleのものです。特に今日お伝えしたいのはDragon Tailです。Googleには、Gemini 2.5 Proをも凌ぐ未発表のモデル「Dragon Tail」があり、Web開発の分野で他の全てを凌駕しています。
まず、聞いたことはすべて少し慎重に受け止めてください。これらは噂であり逸話です。しかし、オンラインで多くの人々が同じようなことを言っています。このモデルは特にコーディングに非常に優れているようで、特にフロントエンドデザインやウェブデザインに高い評価が与えられています。非常に迅速に見栄えが良く機能的なランディングページを生成する能力が称賛されています。
繰り返しますが、まだすべてについて100%確信があるわけではないので、それを念頭に置いてください。しかし、そう言いつつも、GoogleはGemini 2.5 Proと少なくとも同等、そして一部の人々の評価によれば潜在的にはるかに優れた何かを開発しているようです。
Googleの進む方向性について、私が重要だと思う洞察はこちらです。まず、浮上している、おそらくGoogleのものと思われるモデルをいくつか紹介します。Night Whisper、Dream Tides、Moon Howler、Dragon Tail(今述べたもの)、Stargazer、Shade Brook、River Hollowがあります。
これらの例の一部を提供してくれたAI for Successに感謝します。ここでの画像は粒子が荒いですが、多くの人々がこれらのモデルの一部は潜在的に2.5 Proより優れている可能性があると言っています。Night Whisperの方が優れていると言う人もいれば、Dragon Tailの方が優れていると言う人もいます。
最近のGoogle Cloudのクエンリー氏のインタビューから、何が起こっているのかについてのヒントが得られるかもしれません。すぐに詳しく説明します。
ここでは、左側がNight Whisper、右側がGemini 2.5 Proです。カラースキームを絶対的に嫌わないと仮定すると、少し洗練された感じがします。より現代的です。これは少し時代遅れに感じます。繰り返しになりますが、これらの多くは美的な個人の好みですが、全体的に私はこちらの方が好きです。ただし、カラースキームは少し気になります。
ここでは右側がNight Whisper、左側がGemini 2.5 Proです。2.5 Proだと思いますが、2.0と書かれているようにも見えます。見づらいですが、ウェブデザインに関しては、こちらの方がはるかに良いです。実際のウェブページのように見えます。非常にクリーンで見やすく、よく整理されています。
こちらは音楽ビジュアライザーです。再び、Gemini 2.0と比較していますが、それは一旦忘れてください。重要なのは、Night Whisperモデルの能力、特にウェブ開発のための能力を紹介していることです。多くはArenaのウェブ開発のためのものです。正直に言って、見栄えが良いです。非常にクリーンです。これは良いウェブデザインだと言えるでしょう、少なくとも一見するとそう思います。
こちらは「ボールとカップを使った物理ベースの水のシミュレーションを生成する」というプロンプトです。両方とも物理エンジンが機能し、ドラッグ可能なボールがあります。Night Whisperはマークアップとスタイリングで明らかに優位に立ちました。Night Whisperは左側のものです。再び、非常にクリーンで鮮明に見えます。
Night Whisperは、今日の日付がハイライトされた3次元カレンダーの作成でClaude 3.7を上回っています。日付は間違えたようですが、それ以外はとても良く見えます。Claude 3.7はレンダリングできませんでした。
Chatbot Arenaを試したことがない場合、基本的には横並びの対決があり、一つのプロンプトを入力すると、2つの異なるモデルがそのプロンプトに答えようとします。どちらがどのモデルかはわからず、出力を見て、どちらが優れているかを判断します。モデルA、モデルBのどちらを好むか、引き分けか、またはどちらも悪いかを選びます。
「派手なグラフィックが特徴のマインスイーパーをプレイするウェブサイトが欲しい」とリクエストしたところ、モデルAはこれを提供してくれました。とても気に入っています。すごいですね。これは素晴らしいです。フィードバックが良いです。本当に良いですね。モデルAは非常に優秀です。背景にそれを少し変に説明するテキストがありますが、グラフィックスは素晴らしいです。グラフィックスに非常に感銘を受けました。
そしてモデルBはこれを作成しました。では見てみましょう。機能しませんね。この場合、もちろんAの方が優れていると言えます。DeepSeek R1が優れたモデルだったようです。非常に興味深いですね。
また、多くのモデルと直接チャットすることもできます。すべての秘密のモデルが常にそこで利用可能かどうかはわかりませんが、これらのモデルがテストされるときにランダムに表示されます。非常に頻繁に、GoogleやAnthropic、Grok、OpenAIがモデルをローテーションに入れてテストします。これにより、早期のフィードバックを得たり、他のモデルと比較してテストしたりできます。潜在的に修正されたり、何らかの方法で微調整されたりする可能性があります。
例えば、Dragon TailはGoogleのコーディング全般に向けたモデルで、Night Whisperと呼ばれる他のモデルはフロントエンド開発、ウェブサイト開発などに微調整されているということが可能でしょうか。
こちらではモデルBは失敗しましたが、モデルAはこれを生成しました。一目見て、本当に見栄えが良いです。当初思っていたよりも間違いなくはるかに優れています。すべてが良く見えます。カラースキームも素晴らしいです。
もし気になっていたら、はい、このゲームの遊び方は知っています。実際には挑戦しているわけではなく、ただテストしているだけです。だからコメントで「このゲームの遊び方を理解していない」と叱らないでください。ここに座ってプレイしているのではなく、ただ機能するかテストしているだけです。小さな疑問符を置くことはできず、赤い旗だけです。でも全体的には非常に良いです。これまでで最高のものです。Aが良いと言います。
ここで見てわかるように、Aはうまくいきました。ここで私のすべての反応を見ています。これは私が試した2つ目です。これはRiver Hollowです。River Hollowはモデルの一つです。ですから、すべてのモデルがローテーションに入っているようです。
私の理解が正しければ、これらの隠されたモデルを直接チャットや直接並列比較で選択する方法はないようです。実際のArenaバトルで、あなたが知らないうちに割り当てられるのをランダムに偶然に得る必要があります。
しかし、少なくともこの小さな例では、River Hollowは優れています。ちなみに、これらのモデルを公開している開発者たちは、テスト中の場合、早期フィードバックを得たいでしょう。その情報が汚染されたり、ゲーム化されたりするのを避けたいでしょう。もし人々がモデルの仕組みを理解できたり、何らかの特徴的な兆候を見つけたりできれば、結果を一方向または他方向に歪める可能性があります。ですから、私の理解が正しければ、テスト中の新しいモデルに関しては、直接アクセスする方法はないと思います。
ここで、なぜこれほど多くの異なるモデルが一度にChatbot Arenaに登場しているように見えるのか、その理由を簡単に見てみましょう。コーディングが今、より大きな焦点を当てられている理由の一つは、単に私たちが始めた頃のモデルはあまり優れたコーダーではなかったからです。簡単なコーディング問題、例えば小さなスクリプトを書かせると、コイントスのようなものでした。正解するかもしれないし、しないかもしれません。
そのため、私たちは主に様々な単語問題や推論問題、複雑なことを考える必要があるような問題に取り組んでいました。しかし今、コーディングの面が向上し、これらのモデルがコードの作成においてより優れるようになってきたため、純粋にテキストベースの難しい問題、例えば謎解きのような「犯人は誰か」のような問題でテストするのは少し難しくなっています。特定の名前を使うと正解するかもしれませんが、登場人物の名前を入れ替えると間違えるかもしれません。それは単にその特定の問題がトレーニングデータに含まれていなかったからかもしれません。
実際、私自身も単純な言葉の問題からコンプレックスなコーディングタスクへ、これらのモデルをテストする方法をシフトし始めています。例えば、複雑なゲームを一発で作らせたり、そのゲーム内の小さなキャラクターがゲームのプレイ方法を学ぶための小さな強化学習とトレーニングパイプラインを作成したりしています。もしそのようなことができるなら、それはかなり印象的です。それは、あなたの要望を理解し、それをプロジェクトの構築方法にコードで翻訳できる能力を示しています。そして私の側では、それが機能したかどうかを簡単に確認できます。プログラムは実行できたのか、そしてもしできたなら、私が望んだことを実現できたのか、プロンプトの要件を満たしたのかを確認できます。
また、多くのテキストプロンプトは、私がここに座ってこれらの大規模言語モデルによる大量の出力を読む「ウェスのお話の時間」のようになり、視覚的には最も刺激的なものではありませんでした。コードがあれば、少し刺激的で面白いです。画面上でより多くのことが起こっています。
あらゆる面で、これはより興味深い問題です。コーディングを自動化することは、経済的な観点からも非常に有益な可能性があります。そのため、OpenAIやAnthropic、Googleなどの多くの企業がこれらのコーディングツールをターゲットにしていると思います。彼らはそれを目標の第一位として掲げています。
これはAlberto Romeroです。彼はAlgorithmic Bridgeを運営しており、これは最近の投稿で「Googleはあらゆるフロントでのアルゼンチンが勝利している」と書いています。最初の数段落は、私がこの状況全体について感じていたこと、また市場全体がこれについて感じていたことを本当に捉えていると思います。
最初、GoogleはAIゲームに勝つお気に入りでした。彼らはDemis Hasabisを擁し、AlphaGoやAlphaZeroを持っていました。Move 37について学ぶことは魅力的で、AIについて考える新しいパラダイムを開きました。人間が思いつかなかった、あるいは思いつけなかったこれらの新しい動きや戦略を考え出すことができるという考えです。これは新しい異質な知性でした。
そしてAlbertoが言うように、彼はGoogleの継続的な失敗に陰ながら悲しんでいました。彼らは技術、才能、資金、インフラを持っていました。そしてその理由は、これはある種の推測ですが、おそらく大多数の人々が信じていることだと思いますが、AIは検索広告というGoogleの主要な収入源に大きな課題を投げかける可能性があったからです。確かに、今ではPerplexityやDeep Researchなど様々なツールがあり、それらは全てGoogleが行っていることの核心を狙っています。なぜGoogleで何かを検索し、そのウェブページを見つけ、そしてそのウェブページで必要なものを探す必要があるでしょうか?その間に広告やポップアップなどのあらゆる種類の面倒なものに bombardedされます。多くのこれらのページは今では操作しにくくなっています。あまりユーザーフレンドリーではなく、できるだけ多くの広告をあなたの前に押し出すためのものです。
AIはそれを回避する方法を提供します。Deep Researchでは、Chat GPTにいる場合以外のウェブサイトとはほとんど対話しません。情報をリクエストすると、Deep Researchプロセスが完了した後に戻ってきます。それはすべての検索を行い、終了したら通知します。明らかにこれはGoogleを完全に迂回します。
これがGoogleが持っていたAI開発における巨大なリードを完全に失った最も合理的な説明だと思います。彼らは自分たちの収益モデルの大部分を殺してしまうのではないかと心配していました。
Albertoが言うように、彼らは足を撃つことはしませんでした。全く撃たなかったのです。そして今、チャットGPTの瞬間から2年半後、Google DeepMindは勝利しています。そして彼らはかなり力強く勝利しています。
Albertoが言うように、おそらく他の全ての企業はもう勝つチャンスさえないかもしれません。Sam Altmanはもちろん、Googleが新しいリリースをするたびに彼らをからかうことを楽しんでいました。彼らに先んじたり、同時に、あるいはすぐ前にリリースして彼らの勢いをそぐことを試みていました。しかし最近では、GoogleはAIに全力を注ぎ、構築しスピード感を持って出荷し、このような雪だるま式に成長しているように見えます。
現在の状況を見てみましょう。
Gemini 2.5 Pro experimentalは世界最高のモデルです。ほとんどの人がこれに同意すると思います。一部の人々は特定のコーディングタスクにはClaude 3.5や3.7を好むかもしれません。もちろん、これらの一部は主観的なものであるか、特定のユースケースに関連していますが、大部分において一般的には2.5 Proが現在の王者だと思います。
LM Arenaを見てみると、言語では第1位です。実際、すべてを対すべてのモデルと比較した全体的なランキングを見ると、Gemini 2.5 Proがあらゆる面で1位です。同じようなランキングを持つ他のモデルもありますが、ご覧のとおり、Gemini 2.5 Proほどあらゆる面で支配的なモデルは他にありません。
また、高速で安価です。無料アクセスを提供しています。100万トークンのウィンドウがあります。Meta Llama 4の小さいモデルは1000万トークンのコンテキストウィンドウ長を持っていますが、それには問題があり、その良さに関する疑問があり、2.5 Proの直接的な競合相手ではないと思います。
Gemini 2.5 Flashは非常に高速で非常に安価です。これはDeepSeekよりも優れており、DeepSeekはその全体的なコンセプトが最も安価で高速なモデル、トレーニングコストが最も低く、推論コストも最も低いというものでした。Gemini 2.5 Flashはそれを上回っています。これは様々なエッジアプリケーションやエッジデバイス、電話や車、サーモスタットなどで使用されるでしょう。
電話との統合について考えると、GoogleはAndroidを持っています。世界中に多くのAndroidユーザーがいます。私も含めて。私はAppleの大ファンではありません。少なくとも言うべきなのは、私はiPhoneのエコシステムよりもAndroidのエコシステムと電話と他のすべてを好むということです。それぞれ好みがありますが、Androidのエコシステムはかなり大きいです。
興味深いことに、Googleは「あらゆるカテゴリーにモデルを持つ唯一の会社」です。具体的な言い方は忘れましたが、テキストモデル、音楽(LIAモデルは音楽を生成します。ソウノのレベルではありませんが、おそらく彼らはより制限されており、著作権やその全体の認識についてより慎重になっています。そして再び、最終的には彼らが追いつき、より良くなる可能性が非常に高いです、特に音楽業界との取引を成立させることができれば)、Imagen 3(みんなはImagenと言いますが、GoogleはImagineと言うようです。Imagen 3と呼びましょう)、VOとChirp(音声用)を持っています。
彼らがすべてのカテゴリーで勝っているわけではないかもしれませんが、重要なカテゴリーではトップにいるか、トップに近いです。ビデオに関しては、多くの人々がAIビデオ生成においてSoraよりも優れていると同意しています。Imagenは堅実で、おそらく1位ではないかもしれませんが、堅実です。
そして最も重要なカテゴリー、大規模言語モデルでは、彼らは1位に座っています。Deep Researchモードはオープンエーアイのディープリサーチの2倍優れていると考えられています。そして、昨年このチャンネルで話し合ったように、プロジェクトAstraとプロジェクトMarinerもあります。プロジェクトMarinerはコンピュータとの対話です。オペレーターやアンソロピックのコンピュータ使用のようなものです。プロジェクトAstraはアシスタントです。実際にGoogleのAIスタジオに行き、左側のストリームでウェブカメラを使用し、それと対話することができます。また、電話でも使用でき、カメラにアクセスを与えて、AIアシスタントとリアルタイムで対話することができます。それはかなり良いです、非常に良いです。それは電話やその他のAndroidデバイス、Chromebookなどのような様々なデバイスに組み込まれる可能性が高いです。
そして、数日前に取り上げたように、彼らは今エージェントに関する大きなものを発表しました。彼らはエージェント間プロトコルをAnthropicのMCPに似た形で作成しました。異なるエージェントがどのように互いに対話するかについてのオープンプロトコルです。彼らはまた、Agent Spaceを立ち上げています。これは世界中の人々や、エージェントを構築している異なる企業がマーケットプレイスのようなものを持つことを可能にします。それはウェブサイトのためのGoogleのようなものです。あなたが望むものを入力すると、すべてのウェブサイトを検索し、それをあなたに与えます。それはエージェントのためのそのようなものであるように思えます。さまざまな人々がそれを異なる方法で説明するでしょうが、彼らは基本的にこの新しいAIの波の上に構築されたGoogle 2.0を構築しているように見えます。
彼らは多くの論文を発表しています。DemisとチームはAlphaFoldの研究でノーベル賞を受賞し、彼らはAIの安全性研究や、何を期待すべきか、どのように準備すべきかなどについての論文を多数発表しています。
そしてもちろん、GoogleはTPU(テンソル処理ユニット)を持つハードウェア企業でもあり、最近そのアリーナで大きなブレークスルーを発表しました。これはGoogle CloudのCEOがDemis Hasabisとの仕事や、Googleのクラウドインフラストラクチャでのすべてのモデルの制作方法、TPUがそれにどう接続しているかについて話す良い機会だと思います。
例えば、YouTubeチャンネルのAlex Contraitzでは、AI競争、エージェント、関税についてGoogle CloudのCEOであるThomas Kuranにインタビューしています。約11~12分の時点で、彼らはGoogleの社内の優位性について話しています。覚えておいてください、GoogleまたはAlphabetという会社名には、そのAlphabetの傘下にすべてのものが含まれています。Google、YouTube、ハードウェア会社、Android、クラウド、そしてGoogle DeepMindもあります。これがこれらの事を行う能力にどのような影響を与えるのか、どのような優位性を与えるのでしょうか。これは素晴らしいインタビューですが、ほんの数分間聞いてみましょう。
「デジンドは何をあなたに与えているのですか?それがインハウスであることが優位性となりますか?」
「私たちはDemisと彼のチームと非常に密接に協力しています。非常に密接にというと、私たちの人々は同じ建物に座っています。私たちは非常に密接に協力し、私のチームはモデルがトレーニングと推論を行うインフラストラクチャを構築しています。Demisとチームから毎日モデルを受け取っています。実際、彼らが最終的に構築した後数時間以内に、開発者エコシステムにモデルを展開しています。また、ユーザーからのフィードバックを取得し、事前トレーニングにそれを適用してモデルを最適化します。Googleの利点の一つは、検索や私たちやYouTubeなど、すべてのサービスが同じスタックと同じモデルシリーズの推論を使用していることです。そのため、モデルはすべての強化学習フィードバックから非常に迅速に学習し、より良くなります。」
「非常に密接な協力があります。率直に言えば、私たちが新しいドメインに入る場合が多くあります。例を挙げるなら、Geminiを使用してサイバーインテリジェンスのソリューションを構築しました。世界では多くの脅威が発生しています。すべての脅威フィードを収集したいと思います。Mandantと呼ばれるチームを使用して行います。また、どのような脅威が出現しているかについての他のインテリジェンス信号からも収集します。次に、自分の環境と比較して、リスクがあるかどうかを確認し、最も重要なことは、自分の構成のどの部分が誰かによって侵入するために使用されるかを比較することです。そこで、優先順位付けを支援し、人々がより速く脅威を狩るのに役立つようにGeminiシステムを使用しました。それを脅威狩猟と呼んでいます。」
「その環境では、モデルは人々が取り込んでいる大量のログファイルのパターンを見つける方法を学ぶ必要があり、そのためにはモデルの特定の調整が必要でした。」
つまり、Googleではクラウドの人々がDemis Hasabis、DeepMind、AIの人々の隣に座っています。彼らは独自のチップを持ち、大量のデータを持ち、そして今では完全にAIでナンバーワンになることに集中しています。
以前にそれができなかったわけではなく、既存のビジネスにどのように影響するかについて躊躇していたのでしょう。今では、彼らは「真剣に取り組もう、先頭に立ち、リードを確保しよう」と言っているように見えます。
彼らはまた最近、Firebase Studioをリリースしました。私はそれをテストしました。これは非常に興味深く、彼らが開発を継続し追加し、いくつかの問題を解決すれば、これは大きな可能性を持っています。現在は少し扱いづらいです。まだプレビュー版なので、テストする場合は期待値を少し下げてください。しかし、カーソルのようなアイデアを取り入れているようです。AIの支援を受けてコードを開発するためのIDEです。すべてが組み込まれており、オープンソースの開発環境であるVS Codeの上に構築されています。そして、わずかなクリックで非常に迅速にそれらのアプリケーションをオンラインでホストすることができます。
アプリケーションのアイデアがあれば、非常に迅速に基本的なプロトタイプを構築し、簡単にオンラインでホストし、すべての分析データにアクセスし、ユーザーがどのようにアプリと対話しているかを確認できます。数万ドルの費用がかかる可能性があるものや、開発者であれば自分で取り組むのに何時間もかかるものから、子供でも潜在的に行うことができ、しかも非常に迅速にできるものになりました。
アイデアを持ってから、プロトタイプを開発し、オンラインでホストするまで、最初のユーザーがアイデアを練り上げてからわずか数時間後にいる可能性があります。まだβ版のようなものと考えてください。しかし、彼らがそれを改善し続け、Googleが本気で取り組めば、これは大きな存在感を示す可能性があります。同様のアイデアであるCursorは、史上最も急速に成長したアプリの一つでした。年間収益が1000万ドルから1億ドルに、他のどのアプリよりも速く成長したと思います。
つまり、Googleは町に戻ってきて、トップに立っており、今や彼らが打ち負かすべき相手となっています。このスペースを見ていて、OpenAI、Anthropic、DeepSeekなどの次世代のモデルを見る際、Googleはおそらくより多くのリソースと、推論を実行し、これらのモデルをトレーニングするための独自のハードウェアを含む、必要なすべての側面へのより広範囲なリーチを持っているという考えを念頭に置いておいてください。
それだけでなく、GoogleがコントロールしているWeb検索広告やオンライン広告が機能し続ける限り、他の分野での収益を生み出す必要性に依存する程度が低くなります。
あなたはどう思いますか?Googleは現時点で克服できないほどのリードを持っていると感じますか?あなたはGoogleのモデルが今後LM Arenaで1位になると思いますか?ほとんどの時間、圧倒的な大部分の時間、おそらく他のモデルが追い越す時に数回のブリップがあるかもしれませんが。
または、OpenAIやAnthropic、DeepSeek、そしてもちろんGrok(イーロン・マスクとチームが巨大なAIデータセンターを構築し、追いつこうとしている)からも大きなものを見ることになると思いますか?
あなたの考えを教えてください。そして、これらのモデルすべて、私たちが話しているすべてのステルスモデルは、今後数週間以内に登場し始め、そして急速に登場し始めるでしょう。
生きている時代はなんと素晴らしいのでしょう。


コメント