中国の勝利:2025年版AI業界レポート

中国
この記事は約43分で読めます。

2025年のAI業界は激動の年となった。OpenRouterが公開した大規模なデータ分析レポートは、100兆トークンを超える実際のLLM推論データに基づき、AIモデルの利用実態を明らかにしている。最も注目すべき発見は、オープンウェイトモデルの利用が全体の30%を超えたこと、そしてプログラミングを抑えてロールプレイが最大の利用カテゴリーとなっている事実である。中国製オープンウェイトモデルの台頭、エージェント的推論の主流化、地域ごとの利用パターンの違いなど、AI業界の構造的変化が数字で裏付けられている。特に興味深いのは、DeepSeekやKimmy K2といった中国製モデルが市場シェアを急拡大させる一方で、クローズドウェイトモデルが依然として70%以上の利用を維持している点である。このレポートは、AI開発者、インフラプロバイダー、そしてエンドユーザーにとって、今後の戦略を考える上で貴重な洞察を提供するものとなっている。

How China Won (2025 State of AI report)
With GPT-5, Claude 4.5 Opus, Gemini 3.0 Pro and so many more, it's been a wild year.Thank you WorkOS for sponsoring! Che...

2025年を振り返る

2025年はAIにとってクレイジーな年でした。2024年の終わりに、OpenAIはo1を導入し、推論モデルを全世界にもたらしました。そして2025年が始まった直後、DeepSeekがDeepSeek R1で台頭し、誰もが推論を利用できるオープンウェイトモデルを提供しました。これらの変化は業界全体をシフトさせ、それ以来、私たちはクレイジーなことが起こるのを目撃してきました。

あまりにもクレイジーだったので、OpenRouterの友人たちがすべてを分析する時間を取りました。彼らはすべてのモデルをホストし、使用させているため、起こっているすべてのことについて独自の洞察を持っています。彼らはOpenRouterを通じて実行されているすべてのもののラフなトップレベル分析を行っており、トレンドを分解するのに役立つ大量の興味深いデータを得ています。

LLMの奇妙な使用例から、スポイラーですがプログラミングは実際には2番目です。1番目が何かを知ったら非常に驚くでしょう。オープンウェイトモデルとクローズドウェイトモデルの分割も見られ、これは本当にクールです。今では全体の30%以上がオープンウェイトモデルになっています。これは驚異的です。そして私たちをここに導いた異なるリリースは本当にクールです。

トークン使用量全体の驚異的な成長も見られます。クレイジーです。真面目な話、このペーパーには非常に多くのクールなものがあります。すべてを分解するのが待ちきれません。しかし、2025年にトークンに多額のお金を費やした人間として、私たちには支払うべき請求書があります。では、今日のスポンサーのために短い休憩を取りましょう。

この話を聞いたことがあるか確認してください。私は独自の認証を構築しましたが、後悔しています。T3 Chatのために、オープンソースパッケージを使用して独自の認証プラットフォームを構築しました。ほとんどの場合、ある程度機能しました。しかし、わずかでも複雑なことをやろうとすると、すぐに崩壊しました。T3 chatを採用したいと考えていた企業と複数の潜在的な取引を失いました。なぜなら、彼らのビジネスユーザーを認証する方法がなかったからです。

それはすべてWorkOSに移行したことで修正されました。私たちは移行して本当に感謝しています。これにより、以前は私たちにとって不可能だった統合が可能になりました。実際、他のサブプロダクトの多くも気に入っています。Vaultのような機能は、ユーザーデータを暗号化するのに非常にクールです。

ユーザーがあなたのサービスに独自のAPIキーを持ち込みたい場合、APIキーのようなものです。Vaultはそれを安全に、データを公開しない方法で簡単に行えるようにします。しかし、管理ポータルがキラー機能です。これにより、どの企業の誰もがあなたのプラットフォームをセットアップするのが非常に簡単になります。MicrosoftのITチームがあなたの製品のためにオンボードしなければならない場合、幸運を祈ります。

WorkOSを使用していなければ、すべての電話で楽しい時間を過ごしてください。そして使用していれば、リンクを送り、彼らが使いたい認証方法を何でもクリックすれば、準備完了です。以前にADP、SAML、Octaを扱ったことがない場合、私はあなたを羨ましく思います。そして今、WorkOSについて知っているので、扱う必要はありません。

悲惨な認証の話といえば、彼らはMCPサーバーを認証する方法も一生懸命に考えています。これは、このトピックに関する私のビデオを見たことがあるなら、簡単ではないタスクです。WorkOSがこれらすべてを解決してくれるので、私は本当に感謝しています。私は自分でやることにとても疲れていたからです。まだチェックしていない場合は、soy.ooで強くお勧めします。

OpenRouterとAI業界の変化

このタイプの研究に時間をかけたOpenRouterとA16Zに感謝します。OpenRouterはすべての異なるモデルへのルーティングを可能にするため、このタイプのデータを取得するのに適した位置にある数少ない企業の1つです。彼らはすべての異なる使用例についての洞察を得ており、全体を通して非常に非常に興味深い匿名化されたデータを収集してきました。

2024年12月5日に最初に広く採用された推論モデルo1がリリースされたことで、フィールドはシングルパスのパターン生成からマルチステップの deliberation推論へとシフトし、デプロイメント、実験、そして新しいクラスのアプリの加速をもたらしました。このシフトが急速なペースで展開される中、これらのモデルが実際にどのように使用されているかについての経験的理解は遅れをとっています。

この研究では、OpenRouterプラットフォームを活用しました。これはAI推論です。あなたがここにいるなら、OpenRouterが何であるか知っていますよね。彼らはタスク、地域、時間にわたって100兆トークン以上の実世界のLLM推論を行ってきました。私たちの経験的研究では、オープンウェイトモデルの大幅な採用、多くの人が想定するような生産性タスクを超えた創造的なロールプレイの圧倒的な人気、コーディング支援カテゴリー、そしてエージェント的推論の台頭を観察しています。

彼らはまた、より長く留まる異なるコホートとユーザーグループを特定しています。早期に現れた人々が後から現れる人々よりもはるかに長く留まるというガラスの靴効果です。だからLLMの早期ユーザーは留まるのです。発見は、開発者とエンドユーザーが野生でLMに関与する方法が複雑で多面的であることを強調しています。

モデルビルダー、AI開発者、インフラプロバイダーへの影響について議論し、使用状況のデータ駆動型理解がLMシステムのより良い設計と展開にどのように役立つかを概説します。楽しみですね。いつものように、読みたい場合は説明欄にすべてリンクされています。有用な部分をスキミングして見つけていきます。

いずれにせよ素晴らしい研究です。彼らが時間を遡って話しているのがわかります。Sonnet 3.5とAnthropicのRAGの改善について話しているときですね。良き古きRAG、良き古き時代です。異なるセクションは、オープンソース対クローズドソースモデル、エージェント的推論、カテゴリー分類法、地理、実効コスト対使用量のダイナミクス、そして定着パターンです。楽しみですね。

これらすべてはメタデータなので、ユーザーコンテンツデータは一切公開されていません。彼らはコンテンツ分類にGoogleタグ分類器を使用しました。ユーザープロンプトやモデル出力への直接アクセスは研究のために利用できませんでした。代わりに、OpenRouterは非独占的なモジュールであるGoogleタグ分類器を通じて、すべてのプロンプトとレスポンスのおよそ0.25%からなるランダムサンプルに対して内部分類を実行します。総活動のほんの一部しか表していませんが、OpenRouterによって提示される全体的なクエリボリュームを考えると、基礎となるデータセットは依然として相当なものです。

Googleタグ分類器は、Google Cloud Natural Languageのテキストコンテンツ分類APIとインターフェースします。APIはテキスト入力に階層的な言語に依存しない分類法を適用し、コンピュータ、電子機器、プログラミング、アート、エンターテインメント、ロールプレイングゲームなどの1つ以上のカテゴリーパスを、0から1の範囲の対応する信頼度スコアとともに返します。分類器はプロンプトデータの最初の1000文字に直接作用します。

分類器はOpenRouterのインフラ内に展開されており、分類が匿名のままで個々の顧客にリンクされないことを保証します。デフォルトの閾値である0.5未満の信頼度スコアを持つ巨大なカテゴリーは、さらなる分析から除外されます。だから、あるものに十分高くスコアされない場合、それは無視されます。クールですね。

彼らはこれらのカテゴリーのバケツを作成し、各タグがどれにリンクするかを示しています。これが以前公開されていたかどうかわかりませんが、私はそのデータをよく見るので、これは本当にクールです。プログラミング、ロールプレイ、翻訳、一般的なQ&A、知識、生産性、ライティング、教育、文学、創作、アダルト、その他です。

彼らはまた、オープンソースと独自バリアント、起源、中国対その他の地域に分けています。なぜなら、中国は特にオープンウェイトの世界でそれほど圧倒的だからです。プロンプトトークン対コンプリーショントークン、これは興味深いです。プロンプトトークンは送信するもの、コンプリーショントークンは受信するものです。

そして地理的セグメンテーションがあります。楽しみですね。彼らは請求場所を使用します。データを見てみましょう。ここに最も楽しいチャートの1つがあります。これはソースタイプと起源別のトークンシェアです。薄い青は中国製オープンウェイトモデル、中程度の青は世界の他の地域のオープンウェイトモデル、そして濃い青はクローズドウェイトモデルです。

OpenRouterのメインバリュープロポジションはすべてのモデルに簡単にアクセスできることであるにもかかわらず、メインの使用例はオープンウェイトモデルだと想像するでしょう。私たちにとっては、T3 chatでのOpenRouterの使用例の大部分は、中国のラボがホストしているモデルで、中国のインフラを使用したくない場合です。

より良いデータ保持ポリシーを持つアメリカのプロバイダーや他のプロバイダーを使用したいのです。たとえばKimmy K2のようなモデルを使用したい場合、OpenRouterはほぼ必須に感じられます。だから彼らがまだトラフィックの大部分がクローズドウェイトであることを見ているのは驚きです。Qwen 3とGPT-4o OSSがドロップされた頃、彼らが見ていた推論の30%以上がオープンウェイトだった短い瞬間がありましたが、今は20%台に戻っています。

非常に興味深い。繰り返しますが、彼らのデータはオープンウェイトオプションに偏っています。なぜなら、それらを使用し、テストし、統合する簡単な方法だからです。しかしそれでも、彼らはクローズドウェイトモデルを使用している70%以上を見ています。だから、オープンウェイトモデルがどれほどクールであっても、OpenRouterのような場所でさえ、AI使用の少数派として見ているのです。

非常に興味深い。私は彼らにとってはもっと大きいと予想していました。2025年の初めには中国製オープンウェイトモデルの使用がほとんどなく、それがすぐに変わり、年末までにオープンウェイトモデルの大部分が中国製になったのも驚きです。少なくともオープンウェイト使用においてはそうです。

独自モデル、特に北米の主要プロバイダーからのものは、依然としてトークンの大部分を提供していますが、オープンウェイトモデルは着実に成長し、2025年後半までに使用量の約3分の1に達しています。この拡大は偶発的ではありません。使用量のスパイクは、DeepSeek V3やKimmy K2のような主要なオープンモデルのリリースと一致しています。V3がどれほど大きな出来事だったかを過小評価するのは難しいです。皆がDeepSeek R1に興奮していたのは知っていますが、V3はここで何か特別なことが起こっているという瞬間でした。

そしてKimmy K2も正直この点で似ています。それがT3 chatでデフォルトになっている理由です。T3 Chatの匿名タブに行くと、Kimmy K2が今デフォルトです。なぜなら、私が個人的に使用した中で最も快適に会話できるモデルだからです。私は本当に本当にKimmy K2が好きで、会話するのに良いモデルを探しているなら強くお勧めします。

だからそれを私たちのデフォルトにしました。彼らは非常に競争力があります。V3のさらなる版やGPT-4o OSSモデルのような他の競争力のあるローンチもあり、これらは急速に採用され、その利益を維持しました。GPT-4o OSSも様々なことで犯罪的に過小評価されています。私は皆さんが想像するよりもはるかに多く使用しています。

GPT-4o OSSモデルがo4と同じ頃に出てきたので、私の記憶が正しければ、それはo4とGPT-5の間でした。そのため、ある意味見逃され、誰もそれが得意なことを本当には受け入れなかったように感じます。ここで見るように、OpenRouterの法律カテゴリーで法的質問のナンバーワンモデルです。テクノロジーでナンバーワンです。

ファイナンスでナンバーワンです。サイエンスでナンバーワンです。くそ、プログラミングでナンバーツーです。他のすべてはかなり遅れています。私はデータ関連でいつもこれを使用します。なぜなら、高速プロバイダーでは、少しスクロールすると、Base10やGrock、Grockのような一部が見られます。Grockは511トークン毎秒を引き出しています。

これはGPT-5のようなもので得られる速度の10倍です。狂気です。1000以上引き出せる場所もあります。Cerebrasは2000トークン毎秒を引き出しています。これは信じられないほど速いです。そしてその速度の価値は、ただ本当に速いということだけではありません。速度とプラス価格、そしてオブジェクトの形状によく従う能力が、膨大な量のデータを解析するのに最適にします。

私たちは私のビデオのコメントの感情分析を行うためにこれを使用します。SnitchBenchからの結果を分析するためにこれを使用します。多くのことに使用します。素晴らしいモデルです。また、私のコンピューターで妥当な速度で実行することもできます。LM Studioを開くと、MacBookには大量のメモリがあるので、これらの大きなモデルをかなり速く実行できます。

GPT-4o OSS 20ビリオンバージョンを約90 TPSで実行できますが、120ビリオンバージョンは、それが巨大なモデルなので何もできないだろうと思っていました。それは60ギガのモデルです。RTX 5090では18 TPS以上では実行できませんでしたが、ここのM4 Max MacBookではかなり速く実行されます。

メモリに読み込むのを待つ必要がありますが、それが鍵です。60ギガで、私のラップトップには128ギガあるので、全体をメモリに読み込むことができます。いいえ、これはM5ではありません。M5にはこれほどのRAMを持つモデルはありません。私はM4を使っています。M5 Proがまだないので買ったばかりです。

そしてこれが今M5でこの速度を得られない理由です。RustがC++より優れている理由についてエッセイを書くとして。そしてそれは読む速度よりも速いです。飛んでいます。これがこんなに速く進んでいるのは、プロセッサーが速いからだけではありません。主にRAMが狂っていて、GPUと連携するメモリがあるからです。

5090を実行している場合、デスクトップにどれだけRAMを載せても問題ではありません。なぜなら5090には拡張できない一定量のVRAMがあるからです。だからモデルがVRAMに収まらない場合、クソのように実行されます。MacBook上にいるのでVRAMに収まることができます。つまり、RAMはVRAMと同じです。だから私はここで5090を搭載した巨大でたくましいゲーミングデスクトップよりも速い速度を引き出すことができます。

ええ、それは71トークン毎秒でした。それはAPI経由のGPT-5よりも速いです。素晴らしいです。それはとてもクールです。RAMの半分を使う必要がありましたが、これを排出した今、ビーチボールが終わった後は完全に問題ないはずです。だからすべてのメモリを使いました。そしてそれはすべてローカルです。完全にオフラインです。だからええ、GPT-4o OSSは犯罪的に過小評価されていますが、知っている人は知っています。

そしてそれは確実にオープンウェイトモデルの使用量のスパイクを引き起こしました。ここで見るように、Kimmy K2、Qwen 3、GPT-4o OSSはすべて、オープンウェイトモデルが使用量の30%以上になったスパイクを引き起こしました。そしてパーセンテージだけでなく全体的なトークン使用量を見ると、OpenRouterにとって非常に良い年だったことがわかります。

あの人たちには良かったですね。2024年末、中国製オープンウェイトモデルの週次シェアはわずか1.2%でした。今では一部の週ではすべてのモデル間の総使用量の30%近くになっています。1年間の期間で、彼らは週次トークンボリュームの平均約13%を占めています。それが中国製モデルは13%です。

2025年後半に集中した強い成長があります。これは非常に興味深いです。皆がこれらの中国製モデルを使い始めたのはDeepSeekではなかったことがわかります。KimmyとMini MaxとQwenが良くなり、他のすべてのドロップが非中国向けに起こった年の半ば頃でした。

オープンソースモデルは平均13.7%で、独自モデルはおよそ70%のシェアを維持しました。このパターンはオープンソースセグメントを物質的に再形成し、LM景観全体でグローバル競争を進展させました。絶対に。オープンウェイトモデルにとってクレイジーな年でした。T3 chatのデフォルトモデルがオープンウェイトモデルであり、私の個人的な推論の約半分がオープンウェイトモデルを通過しているという事実は、ちょっと狂っています。

オープンソースの主要プレイヤー

これはトークン数別です。DeepSeekがこのバンプを得た主要プレイヤーではなかったと私が言ったばかりですが、彼らは依然として最大のものであり、2024年11月から2025年11月までOpenRouter経由で14.37兆トークンを引き出しています。それはクレイジーです。Qwenは5.66兆で、これもナッツです。特に私が個人的にこれらのモデルを特に素晴らしいとは思わないことを考えると。

MetaとMistralもここではまあまあでした。OpenAI、特に年の半ばに最初のオープンウェイトモデルを出したことを考えると。彼らがこれほど高いのは印象的です。Minimaxも年の半ばに最初の関連モデルで来て、これほど高いのはクレイジーです。

ZAIも非常にうまくやっています。彼らはGLMモデルです。そしてMoonshot、私の過小評価されているゴートは0.92兆です。彼らが1兆に達しなかったのは悲しいです。Kimmyをデフォルトにした今、それに向かって努力しています。皆さんがこれを本当に速く上れることを願っています。また、Minimaxはしばらく無料でもありました。それもOpenRouterで考慮すべきもう1つのことです。

無料で提供されるモデルは、OpenRouterのようなヘビーユーザーの多くがコストに敏感なので、本当に本当に強くブーストされる傾向があります。それはまた、ロールプレイングコミュニティがDeepSeekを本当に好きに見える大きな理由でもあります。彼らがモデルを好きだからではありません。主に彼らに無料で提供され、そのターゲットとその層が非常にコストに敏感だからです。

彼らは無料モデルを使うのが大好きです。これはまた、XAIがOpenRouterで非常に人気があると常に自慢する理由でもあります。彼らが高速バージョンを出したとき、非常に長い間Grockを無料で提供したからです。明らかに、何かを無料で使用しているとき、そこには何らかの価値交換があります。彼らはほぼ確実にあなたが送信するすべてのものを追跡し、それをポストトレーニングに使用しています。

だから、無料モデルを使用するとき、彼らが単に心の優しさからそれを無料で提供しているわけではないことを知ってください。そして今、DeepSeekの支配の衰退があります。おお、これは楽しいチャートになります。ええ、ここで見るように、DeepSeekはしばらくの間これらのオープンウェイトモデルの王でしたが、Llamaの以前のような拠点にすぐに食い込んでいましたが、夏が来て、Kimmy K2を持つMoonshotやMini MaxやZAIのような中国製オープンウェイトモデルがもっと手に入ると、彼らのシェアが速く食われるのが見えます。しかし、その後、彼らはDeepseekのV3.1をドロップし、大きな塊を取り戻しました。そして彼らはこの地点に到達しました。ここは実際にはDeepSeekの所有権のピークのようです。

ええ、いや、それはDeepSeekの所有権のピークは間違いなくここでした。彼らは大量に失いました。9月にV3.1をドロップし、しばらくの間戻ってきて、今は減少しています。

今はおそらく3.2がナッツなので再び上がっていますが、彼らはしばらくの間それをホストするのが下手だったので、誰が知っていますか。彼らのオープンウェイトのほぼ独占は夏の変曲点によって打ち砕かれました。それ以来、市場は広くかつ深くなり、使用が大幅に多様化しています。Qwenのモデル、MinimaxのM2、MoonshotのKimmy K2、OpenAIのGPT-4o OSSのような新しい入場者。

なぜ彼らがここでZAIとGLMをスキップしているのかわかりません。なぜなら、これらのモデルも非常にうまくやったからです。実際、彼らはMoonshotよりも高いパフォーマンスを示しました。なぜスキップしたのか不思議です。興味深い。とにかく、彼らは皆非常に非常にうまくやりました。25年後半までに、競争のバランスはほぼ独占から多元的なミックスにシフトしました。単一のモデルがオープンソーストークンの25%を超えることはなく、トークンシェアは現在5から7のモデルにわたってより均等に分散されています。

実用的な意味は、ユーザーが1つの最良の選択にデフォルトするのではなく、より広い範囲のオプションに価値を見出しているということです。そうです。そしてこれは、ああ、私はこのモデルを好むとか、このモデルを好むというだけではありません。これはまた、このモデルは安くてより多くのトークンを処理できる、このモデルは画像で推論できる、このモデルはツール呼び出しが本当に得意だがこれは得意ではない、このモデルは推論をうまく処理しこれはしない、このモデルはうまく書く、ということでもあります。異なるモデルを好む多くの理由があります。私は明らかにKimmy K2と話すのが好きですが、GPT-4o OSSでデータ分析をするのが好きです。これらすべてに良い使用例と悪い使用例があります。

知るためには遊ぶ必要があります。全体として、オープンソースモデルのエコシステムは今や非常にダイナミックです。いくつかの重要な洞察には、トップティアの多様性が含まれます。今では多くの異なるファミリーのオープンウェイトモデルがあります。新しい入場者の急速なスケーリング、人々が現れて突然爆発します。そして反復的な進歩、DeepSeekのトップでの存在の長寿は、継続的な改善が重要であることを強調しています。

彼らのchat v3、R1、そして今ではv3.1と3.2のような連続したリリースは、挑戦者が現れてもそれを競争力のあるものに保っています。開発が停滞するOSSモデルは、フロンティアまたはドメイン特化の微調整で頻繁に更新されるモデルにシェアを失う傾向があります。オープンソースアリーナは、イノベーションサイクルが急速で、リーダーシップが保証されない競争的エコシステムに似ています。

それはオープンウェイトの世界でのクローズドウェイトモデルの初期の頃のように感じられ、見るのは素晴らしいです。モデルサイズ対市場適合性、中規模は新しい小規模です。非常に興味深い。私は確実に自分自身でこれを感じました。たとえば、私のラップトップで実行できるので中規模モデルであるGPT-4o OSSの場合です。大規模オープンウェイトモデルは、特殊なハードウェアを必要とする消費者ハードウェアで実行できないものです。

そして小規模モデルは、MacBookの代わりに5090のようなより安価なハードウェアで実行できるものです。それは馬鹿げているように聞こえますが、使用されるRAMの量がここでの違いの重要な鍵です。そして、非常に多くの小規模オープンウェイトモデルが有用になったのを見るのはクールです。良い大規模オープンウェイトモデルが非常に多くあるのは依然としてクレイジーです。なぜなら、大規模オープンウェイトモデルから利益を得る人々は、十分なH100を持っているので使用できるホストだけだからです。

だから大規模オープンウェイトモデルが年の初めにはるかにうまくやっているのを見るのは理にかなっています。DeepSeek R1のようなものは非常に大規模なモデルです。その蒸留なしでローカルで実行することはまったくありません。しかし今では、実行するのに合理的な120ビリオンモデルのようなものがもっと手に入っていますが、小規模モデルでもいくつかの成長が見られます。

とはいえ、私たちはいくつかのクレイジーな大きなオープンウェイトモデルを手に入れています。たとえばKimmyは1兆パラメータのようなものだと知っています。それをローカルで実行するのは頑張ってください。彼らの定義、ああ、興味深い。彼らの定義では、GPT-4o OSSは120ビリオンで大規模です。それは公平だと思いますが、見るのはちょうど興味深いです。小規模は15ビリオン未満のパー、中規模は15から70、大規模は70以上です。

私はこれを異なる方法で切ったでしょう。私は小規模を30未満のものとし、大規模を150以上のものとしたでしょう。しかし、わかります。特に今のRAM価格では、これらを下げるのは理にかなっています。しかし、開発者とユーザーの行動に関するデータは、ニュアンスのある物語を教えてくれます。図は、すべてのカテゴリーのモデル数が増加している一方で、使用が顕著にシフトしたことを示しています。

小規模モデルは人気を失っていますが、中規模と大規模のものがより多くの価値を獲得し始めています。これは非常に興味深いです。モデルのサイズは多くの異なることを決定するのに役立ちます。明らかに、それに組み込まれた知識の量、それのサイズはそれに大きく影響しますが、価格にも大きく影響します。

これらの大規模モデルは小規模のものよりもはるかに高価です。なぜなら、より速くより安価なハードウェアで実行できるからです。だから小規模オープンウェイトモデルへの関心は維持されており、中規模は意味深く成長しています。なぜなら中規模のものは本当に良い価格対パフォーマンスの価値だからです。小規模市場は全体的に衰退しています。

8月にリリースされたGemma 3 12ビリオンのようなものは、急速な採用を見ましたが、今ではユーザーが継続的に最良の代替案を探している混雑したフィールドで競争しています。Gemma 4をまだ待っています。今週のどこかで起こると思います。Googleは一週間中Twitterでそれをからかっていますが、見てみましょう。中規模市場、モデル市場適合性を見つける。

中規模モデルカテゴリーは、市場創造の明確な物語を語っています。セグメント自体は、昨年11月にQwen 2.5 coder 32ビリオンがドロップするまで無視できるものでした。これは実質的にカテゴリー全体を確立しました。その後、セグメントは、1月のMestral Smallや8月のGPT-4o OSS 20ビリオンのような他の競争相手の到着により、競争的エコシステムに成熟しました。

繰り返しますが、私はGPT-4o OSS 20ビリオンを小規模モデルとして入れるでしょうが、彼らがこの区別をしている理由は理解できます。大規模モデルセグメントは、Qwen 3 235ビリオンやZAIのモデル、そしてGPT-4o OSS 120ビリオンがすべて意味のある持続的な使用を獲得しており、非常に興味深いものでした。多元主義は、ユーザーが単一の標準に収束するのではなく、複数のオープン大規模モデル間で積極的にベンチマークを行っていることを示唆しています。

そうです、絶対に。私はそれらすべてで遊び、それらすべてに良い使用例があります。だから、このクロップをしました。皆さんに見てもらい、何の使用例が黄色であるかを見ずに推測してもらいたいからです。この使用例は、OpenRouterでのオープンウェイトモデルの使用の40から80%の間です。

コードや多分チャットや知識のようなものを考えているでしょうが、あなたの推測はコードですよね。それが私のものでしょう。現実は常により興味深いです。なぜなら、それはロールプレイングカテゴリーだからです。ええ、ウィーブは止められません。ロールプレイングは、OpenRouterでのオープンウェイトモデルの使用の約52%です。

これがなぜなのかについて多くの理論がありました。私が最も信じるようになったのは、このカテゴリーが価格に敏感だということです。そしてDeepSeek V3.2 freeのような無料モデルは、これらのコミュニティで非常に高く評価されており、十分なロールプレイを得るために彼らにすべてのデータを持たせることを喜んでいます。興味深い。

上の図は、すべてのオープンウェイトモデルの半分以上が、ロールプレイに分類される使用を持っていることを強調していますが、プログラミングは2番目に大きいカテゴリーです。これは、ユーザーが主にストーリーテリング、キャラクターロールプレイ、ゲームシナリオのような創造的なインタラクティブな対話と、コーディング関連のタスクのためにもオープンモデルに頼ることを示しています。

ロールプレイングの支配は、すべてのオープンウェイトトークンの50%以上で推移しており、オープンモデルが優位性を持つ使用例を強調しています。彼らは創造性のために利用でき、コンテンツフィルターによってあまり制約されないことが多く、ファンタジーやエンターテインメントアプリケーションにとって魅力的です。彼らがモデルの無料バージョンを使用しているのがどのくらいの割合かを示してくれればと思います。

それは依然として私の仮説ですが、ホストによって制約される可能性が低いという事実も多くの意味をなします。モデル自体にどれだけのセキュリティを焼き付けることができるかには限界があります。ほとんどのラボは、クエリが悪いことを検出してブロックするモデルの前にレイヤーを置きます。なぜなら、時間とともに調整できないので、安全性をモデル自体に焼き付けるだけではないからです。

しかし、それはまた、オープンウェイトモデルに奇妙な振る舞いがあったり、適切にチューニングされていない場合、それは永遠にそこにあることを意味します。ウェイトは公開されています。ロールプレイタスクには、柔軟な応答、コンテキスト保持、感情的なニュアンスが必要です。これらは、商業的な安全性やモデレーションレイヤーによって大きく制限されることなく、オープンモデルが効果的に提供できる属性です。

これにより、キャラクター駆動の体験、ファンフィクション、インタラクティブゲーム、シミュレーション環境を実験しているコミュニティにとって特に魅力的になります。理にかなっています。中国製オープンウェイトモデルだけの内訳を見てみましょう。かなりシフトしました。プログラミングがロールプレイを追い越した時点がありましたが、今は少し近づいています。

ロールプレイは中国製トークンの約33%まで下がりました。これは興味深いです。そして私の記憶が正しければ、その大部分はDeepSeek無料ティアにあります。このシフトは、QwenやDeepseekのようなモデルがコード生成とインフラ関連のワークロードにますます使用されていることを示唆しています。ハイボリュームのエンタープライズユーザーが特定のセグメントに影響を与える可能性がありますが、全体的な傾向は、中国製オープンソースモデルが技術的および生産性ドメインで直接競争していることを示しています。

そして年間を通して全体的に、テクノロジーとプログラミングは39%で、ロールプレイは約33でした。だからプログラミングが今スペースで勝っているようです。しかし、プログラミングにおけるモデルの使用をオープンソース対クローズド対非中国で分解したらどうでしょうか。Minimax M2、GLM 4.5、Kimmyなどとの夏のその急増で再び非常に興味深くなります。

コードタスクに使用されているOpenRouter経由のトークンの割合に大きなバンプが見られました。大規模なバンプ。少し平坦化しました。10月に再びバンプしました。他の場所から出されたどのオープンウェイトモデルがそこでバンプしたのか気になります。Mistralのものだったかもしれません。すぐにわかります。

そして今、非中国製オープンウェイトモデルはほとんど使用されておらず、クローズドモデルは依然として圧倒的に勝っています。彼らがこれをどのように分解するか見てみましょう。青の中国製オープンソースモデルは、Qwen 3 coderのような初期の成功に牽引されて、オープンソースコーディングヘルプの大部分を提供しました。第4四半期までに、Llama 2コードやGPT-4o OSSのような西洋のOSSモデルが急増しましたが、最近の週では全体的なシェアが減少しました。

振動は非常に競争的な環境を示唆しています。そうです。開発者は、現在最高のコーディングサポートを提供するオープンソースモデルに対してオープンです。制限として、図は絶対量を示していません。オープンソースコーディング使用量は全体的に成長しました。また、青いバンドの縮小は、中国製オープンソースがユーザーを失ったことを意味するのではなく、相対的なシェアのみです。良かったです。

オープンソースモデルのロールプレイの内訳。興味深い。非中国製オープンウェイトモデルはロールプレイ使用例の43%です。非常に興味深い。最新の数字では、Deepseek V3は依然として最も人気があります。R1 T2とV3.2も近いです。次にFlashです。次にDeepseek 3.1です。次にGeminiです。

次にMistral Nemoです。何?何だって?それは私がここで読んでいることとまったく一致しません。これはロールプレイカテゴリーで、非中国製オープンソースがはるかにうまくやっているように見えましたが、それはこれとまったく一致しません。その他は42.6%のようです。でもそうではありません。ええ。興味深い。非常に興味深い。そしてここで、Grok 4.1 Fastが最初に出て無料だったときを見ることができます。それはただ虐殺しました。そして無料でなくなるとすぐに、それは消えました。再び、このコミュニティが安いものを望んでいるという私の理論を証明しています。

どうぞ。4.1 Fastは無料だったときは圧倒的にナンバーワンでした。そして12月中旬に無料でなくなるとすぐに、それはチャートからほぼ完全に消えました。

ええ、彼らがこれをもう少し分解しなかったのは驚きです。ここで使用されている非中国製オープンウェイトモデルについてもっと情報が欲しいです。なぜなら、彼らはそれについて十分に共有していないからです。非常に興味深い。もっと情報があればと思います。オープンウェイトと中国については十分です。エージェント的推論の台頭について話しましょう。これは推論トークンであるトークンの量です。

そして最近、OpenRouterが監視しているトークンの半分以上が推論トークンであるポイントを越えました。平均的なトークンは人間によって読まれないとしばらく言っていました。これは本当にそれを強調します。あなたが行うすべてのトレースのすべての推論ポイントを読んでいない限り、多くのこれらのモデルではできません。彼らは推論データさえ共有しません。

生成されているすべてのトークンを読むことは不可能です。推論のためのこれらのトークンは、実際の答えがより良くなる可能性を高めています。そして生成されているトークンは、そもそも人間に表示されないことさえよくあります。それらはツールを指揮して物事を行わせるために使用されています。だからええ、このチャートの最も興味深い部分の1つは、テキスト生成モデルとLLMが人間が読むためのものではないものを生成するために使用されている多くの角度の1つを示していることです。

上の図に示されているように、推論最適化モデルを通じてルーティングされるトークンの総数のシェアは、2025年に急激に上昇しました。初期のQ1の日々で実質的に無視できるスライスだったものが、今では50%以上です。シフトは市場の両側を反映しています。ああ、これは私が思っていたものではありません。これは推論モデルを通じてルーティングされたすべてのトークンのシェア対非推論モデルを通じてルーティングされたものです。

だからこれは出力トークンのうち何パーセントが推論であったかなかったかではありません。それはおそらくはるかに残酷でしょう。これは何パーセントのリクエスト、リクエストでさえなく、OpenRouterに入力として送信されたトークンのことです。それらの何パーセントが推論モデルに送信されたか対非推論モデルに送信されたか?それはより理にかなっています。

推論を持つ最も使用されるモデルのトップ。Grok code fast oneがナンバーワンです。なぜなら、彼らがそれを無料で提供したからです。XAIのAPIは使用してサインアップするのが下手だと言っています。ほとんどの人はOpenRouterを通じてそれを使用することを選びました。それがそれほど高い理由として理にかなっていますが、繰り返しますが、それは無料だからそこにあります。XAのGraco Fest oneは今、無料のローンチアクセスを除外して、推論トラフィックの最大のシェアを駆動しています。興味深い。

どうやら、無料のローンチアクセスを除外しても、それは依然としてナンバーワンです。それは何かクソな感じがします。これは、2.5 Proがカテゴリーをリードし、R1とQwen 3もトップティアにあったほんの数週間前からの注目すべき変化です。これは、Gemini 2.5 ProがOpenRouterで非常に先を行っているのが非常に興味深いです。繰り返しますが、私の陰謀論は、GoogleのモデルをGoogleのAPIを通じて使用することは、あなたができる最も愚かで最も悲惨なクソなことだということです。

私はそれを多くやる人として言います。それは地獄です。ひどいです。OpenRouterのような何かを使用できるときに、GoogleのSDKやAPIを直接扱うことを誰にも勧めません。トラフィックをOpenRouter経由でルーティングし、Googleのクソを扱わないために彼らに3から5%の手数料を喜んで支払います。OpenAIとAnthropicの両方には、コードを実行している場合にモデルを使用するための有能なAPIと有能なCLI、そしてcursor、windsurfなどのエディターでの有能な統合があります。

だから、それらにヒットするためにOpenRouterのようなものを使用する必要性ははるかにはるかに低いです。Googleモデルでは、OpenRouter以外にそれらにヒットする有能な方法は基本的にありません。だから私たちはここに一種の閉じ込められています。しかし、これらは私たちがこのレポートで考慮しなければならないバイアスです。なぜなら、このレポートは本質的に異なるトラフィックパターンを見るソースによって生成されているからです。

Clayがチャットで言ったように、OpenRouterはGoogle Cloudのクソとは対照的にただ機能します。完全に同意します。誰かがこのグラフをチェックアウトするように言いました。ああ、Grockが無料だからトラフィックを得ることに戻ると。どうぞ。突然消えたすべての紫のトラフィックを見てください。これは彼らがそれを無料モデルにしたときです。

そして無料でなくなるとすぐに、それはチャートから消えました。アイデアはわかりますね。このデータの多くは、本質的にユーザーの性質と、彼らがOpenRouterを通じてモデルを使用している理由の性質によってバイアスがかかっています。それでも本当に良い情報ですが、バイアスがかかっています。また、このバイアスがいかにかかっているかを本当に強調するためにもう一度言います。

誰もが実際にGPT-5がGPT-4o OSSよりも人気がないと考える世界はありません。明らかに、だよね。なぜGPT-4o OSS 120BはここでGPT-5よりも高いのか?聞いていれば明らかです。GPT-5はOpenAIのAPI経由で完全に問題なくヒットできるからです。しかしGPT-4o OSSはOpenAIによってホストされてさえいません。OpenAIインフラをヒットしてGPT-4o OSSモデルを使用することはできません。

他の場所で使用する必要があります。つまり、他のプロバイダーを扱うか、OpenRouterを使用する必要があり、それが最良のプロバイダーにルーティングします。それは素晴らしい素晴らしいオプションです。だからGPT-4o OSSはGeminiと同じように、OpenRouterで使用するのが最適です。だからこれら5つのモデルすべてがOpenRouter以外で使用するのが下手で、OpenRouterで使用するのが素晴らしいのは非常に理にかなっています。

それは、これらのモデルのいずれかが、Anthropicが何をしているのかやOpenAIがクローズドウェイトモデルで何をしているのかよりもうまくやっているということを意味するわけではありません。それはただ、OpenRouterでのこのチャートで、OpenRouterはOpenRouter以外で使用するのが下手なモデルのためにはるかに多くのトラフィックを得るということを意味します。それは理にかなっています。

それを言うのはちょっと面白いですが、OpenRouterのエッジは、XAIとGoogleが良い開発者体験を作るのが本当に下手であり、彼らは下手ではないレイヤーを通じてトラフィックをルーティングすることによってより良いものを提供できるということです。ラッパーであることは良いビジネス上の決定であることがわかります。そして今、ツール呼び出しの採用の増加があります。

これは興味深いです。もっと高いと予想していましたが、繰り返しますが、使用例は興味深いです。たとえば、ロールプレイでは、プログラミングではおそらくはるかに多くのツール呼び出しを行わないでしょうが、OpenRouter経由のトラフィックの約15%だけがツールを呼び出しています。非常に興味深いです。上の図の5月の顕著なスパイクは、活動が全体的なボリュームを一時的に持ち上げた1つの大規模なアカウントに主に起因していました。興味深い。思い出そうとしています。OpenRouterをデフォルトプロバイダーとして使用していて、それから離れてスパイクを引き起こした人でした。それはオープンソースコードツールの1つでした。

どれだったか覚えていません。とにかく、アイデアはわかります。ツール呼び出しが終了した推論で最も使用されるトップ10モデル。だからこれは、彼らが応答を生成し、待っているツール呼び出しがあるために終了するモデルです。それがツール呼び出しの仕組みです。

だからこれは最高割合のツール呼び出しです。Claude 4 Sonnetは依然としてツール呼び出しの王様です。予想できたように。3.5と3.7もそれが得意でした。Anthropicから新しいモデルがドロップすると、古いモデルのトラフィックがいかに速く崩壊するかを見ることができます。ここのピンク、これは3.7でした。グレーは4o miniです。

だから5月に何らかの形で4o miniのトラフィックが大量に成長したようです。記憶が正しければ、Sonnet 4をちょうど手に入れたばかりでした。ええ。だからSonnet 4は月の終わり近くにドロップし、Sonnet 3.7のトラフィックのほとんどはすでに死に始めていました。6月には、さらに崩壊しました。そして7月までに、Sonnet 3.7はほとんど触られていません。そしてClaude 4が押しつぶしました。

そして、2.5 Flashのような新しいモデルがドロップし、実際にツール呼び出しができるようになるにつれて、ゆっくりと他のものの余白を食い始めました。そして4.5がドロップし、すべてを押しつぶしました。それはすべて予想通りに並びます。しかし、2.5 Proがツール呼び出しのためにこのチャートの所有権でどれほど少ないかにも注目してください。

これの一部は、Gemini 2.5 Proが本当に高価だからです。一部はツール呼び出しで最高ではないからです。そして一部は、とにかくそれらの価格を支払う意思がある場合、Claudeを使用するだけでもいいからです。私は2.5 Proの大ファンではありませんでした。それが行ったことすべては、私たちに多額のお金と多くのサポートチケットがかかることです。それがゆっくりと死ぬのを見るのは感謝しています。

また、Gemini 3 Proがここにまったく現れないことにも注目してください。それは後期版なので、特に深く潜り込んだとは思いませんが、それが今後もそうなることは決してないと思います。なぜなら、本当に速くトランプされたと思うからです。また、GLMもこれで大成功しています。GLMモデルはツール呼び出しが本当に得意で、ここでいくらかの地盤を保持している唯一のオープンウェイトモデルです。

それは見るのがクールです。私は最初にそれをどういうわけか見逃しました。ZAIには良かったです。そして今、プロンプトの解剖学があります。プロンプトトークンは大量に成長しました。だからリクエストを送信するとき、リクエストの平均トークン数は年の初めの4倍高いです。それはナッツです。それがそれほど成長するとは予想していませんでした。

コンプリーショントークンが上がることはより理にかなっています。なぜなら、繰り返しますが、推論モデルははるかに多くのトークン、はるかに多くのトークンを生成するからです。だからこれははるかに高いのは理にかなっていますが、入力のために4倍を得たときは3倍だけです。興味深いです。そしてプログラミングはプロンプトトークン成長の主な推進力です。

だからコードのために提出されているトークンの数は時間とともに大量に上がっており、それがリクエストあたりのトークン数が非常に増加した理由です。それは非常に理にかなっています。より長いシーケンスとより複雑な相互作用。平均的なシーケンス長は時間とともに成長しました。だからこれは生成あたりのトークン数です。だからプロンプトとコンプリーションを一緒にして、プログラミングははるかに速く上がっています。全体的に意味深く大きいです。他のすべてよりも。

T3 chatでコーディング関連のことをしない理由を尋ねる皆のために、コードベースをリンクさせたりなどさせない理由は、月8ドルしか請求しないのにコストを4から6倍に増やすことになるからです。黙れ。何かを構築するか、私たちにはるかに多く支払う気がない限り。

私たちがやろうとしていること、つまり妥当な価格で本当に良いチャット体験のためには理にかなっていません。コードベースを持ち込ませたら、コストを4から6倍に増やすだけです。Cursorを使ってください。それは良いツールです。エージェント的推論は新しいデフォルトです。これらのトレンド、推論シェアの上昇、拡大されたツール使用、より長いシーケンス、そしてプログラマーの特大の複雑さを一緒にすると、LM使用の重心がシフトしたことを示唆しています。

中央値のLMリクエストはもはや単純な質問や孤立した指示ではありません。代わりに、それは構造化されたエージェントのようなループの一部であり、外部ツールを呼び出し、状態について推論し、より長いコンテキストにわたって持続します。モデルプロバイダーにとって、これはデフォルト機能のバーを上げます。レイテンシ、ツール処理、コンダクトサポート、および不正な形式または敵対的なツールチェーンに対する堅牢性は、情報オペレーターにとってますます重要です。

推論プラットフォームは今や単にステートレスリクエストを管理するだけでなく、長時間実行される会話、実行トレース、許可に敏感なツール統合を管理しなければなりません。すぐに、もしまだでなければ、エージェント的推論が推論の大部分を引き継ぐでしょう。はい。そして、これらのGPUレンタルサービスの多くがこのようなことをまったく理解しておらず、Moonshotのような会社にどのホストがツール呼び出しプロトコルに適切に従っているか従っていないかを示すベンチマークを出すことを強いているのはクレイジーです。

LLMの使用方法

人々はLMSをどのように使用していますか?これは楽しいでしょう。繰り返しますが、ロールプレイが大きな塊であることを見ましたが、特にOpenRouter経由のプログラミング、OpenRouter経由のプログラミングが大規模に成長しているのを見ました。これは、LLMプログラミング使用が成長しているだけではありません。それは大きな部分ですが。私は、このうちの大きな塊は、OpenRouterを通じて最もよく使用されるオープンウェイトモデルが、特に年の半ば頃から、はるかにはるかに良くなったことだと思います。それが、この巨大なスパイクが年の半ば頃に始まった理由です。

彼らが私の分析にここで同意するかどうか興味があります。オープンウェイトモデルはコードが得意になり、OpenRouterはオープンウェイトモデルを使用する最良の方法です。だから彼らはここで独自の成長を見ましたが、これを業界全体で一般化しようとするかもしれません。それには私はおそらく同意しません。もちろん、LLMが開発者のワークフローに組み込まれるようになると、プログラミングツールとしての役割が正常化されています。

進化は、コード中心のトレーニングデータへの重点の増加、マルチステッププログラミングタスクのための改善された推論深度、およびモデルと統合開発環境間のよりタイトなフィードバックループを含むモデル開発への影響があります。彼らは、この成長がほぼ確実に彼らに固有であるという事実を認めていません。

業界の他の場所では、コードLM使用が11%から50%になることはありません。彼らはそうなりました。なぜなら、彼らが最も得意なモデルが今年コードではるかに良くなったからです。彼らに非常に特有です。とはいえ、Anthropicモデルは、OpenRouterでのプログラミングベースの支出のシェアの60%を占めています。だから私はこの声明をそれほど確定的に行うことができないかもしれませんが、同時に、ここには彼らを通じて最もよく使用される多くのプロバイダーがいます。

そして、Googleもそこでそれほど大きな拠点を持つことを期待しています。これらの他のオプションが実際の足場に成長してきたのを見るのがいかに速いかを見るのは非常に興味深かったですが、私が口を閉じるべきオープンウェイトのことについては十分小さい割合のようです。私はそれについて間違っているかもしれません。非常に興味深い。

そしてMinimaxも良いスライスを取っています。カテゴリー内で見ると、ロールプレイのみ、彼らによるとロールプレイの15%だけがアダルトですが、半分以上がゲームです。ダンジョンズアンドドラゴンズのようなものがAI生成のロールプレイテキストを持つことを愛していることを知っているので、それは理にかなっています。プログラミングは、それがスクリプト言語対開発ツール対その他でどのように分割されるかが興味深いです。これらの分割は役に立たないと思うので、このセクションのほとんどをスキップします。カテゴリー別の著者レベルの洞察。

異なるモデル著者は異なる使用パターンで利用されます。下の図は、主要なモデルファミリーのコンテンツカテゴリーの分布を示しています。だからAnthropicは明らかに主にプログラミングです。少しのテクノロジー、あまりロールプレイはなく、多くのコードですが。Googleの最も人気のあるカテゴリーはもう少し多様です。

はるかに多くのロールプレイ、はるかに少ないコード、まともなテクノロジー、良いサイエンス、あまり分析はありません。人々がドキュメントや物事を分析するためにもっと使用し、法律や金融のようなものを示すことでここでより明確になると思っていました。XAIは、無料にしてからロールプレイとテクノロジーになるまではコードでした。そして今はもう無料ではありません。

ただコードに戻るでしょう。これがどのように機能するかは知っています。OpenAIは非常に奇妙な分布を持っており、それは6月まで主にサイエンスでしたが、コーディングが得意になってからは、テクノロジーが依然として高いまま、主にコードになりました。これらのケースでテクノロジーが何を意味するかさえ興味があります。上に戻ってテクノロジーが何かを見てみましょう。

彼らはここでテクノロジーを分解してさえいません。ああ、しています。個人支援、ビジネスおよび生産性ソフトウェア、ウェブデザインと開発。それはコードのクソです。だから、一部のコードもそこに入れられているようです。奇妙なカテゴリー分割。そしてDeepseekはロールプレイマシンです。彼らはこの時点でDeepseek and Dragonsに改名すべきです。くそ。

そしてQwenは主にコードで、他のランダムなクソの奇妙な variety です。魅力的です。そして地域全体の使用があります。北米対アジア対ヨーロッパ対その他は依然として主に北米ですが、少なくともOpenRouterではアジアはますます大きな塊を持っています。言語分布は80%以上が依然として英語です。納得です。

そしてガラスの靴現象。これは、誰かが本当に早く新しいモデルを試すとき、後から来る場合よりもそれに固執する可能性がはるかに高いことを以前に話していることです。だから5月にClaude 4を試した人々は、それがドロップした直後に、それを試した次の月の人々よりもまだ使用している可能性がはるかに高いです。6月にドロップした直後にGemini 2.5 Proを試した人々は、後でそれを試した人々よりもまだ使用している可能性が滑稽に高いです。非常に興味深い。リテンションチャートのコレクションは、主要なモデル全体でのLLMユーザー市場のダイナミクスを捉えています。一見すると、データは高いチャーンと急速なコホート崩壊によって支配されています。

しかし、ボラティリティの下には、より微妙でより重大なシグナルがあります。早期ユーザーコホートの小さなセットは、時間の経過とともに持続的なリテンションを示します。私たちはこれらを基礎的なコホートと呼びます。彼らは単なる早期採用者ではありません。ああ、これは非常にLLMで書かれています。そのパターンはLLMを叫んでいます。これらのコホートは単なる早期採用者ではありません。彼らは、ワークロードが深く持続的なワークロードモデル適合を達成したユーザーを表しています。

私たちはすべてをプロダクトマーケットフィットできません。いったん確立されると、この適合は、より新しいモデルが出現しても置換に抵抗する経済的および認知的慣性の両方を作成します。私たちは、現象を説明するフレームワークとしてシンデレラのガラスの靴効果を導入しました。仮説は、急速に進化するAIエコシステムでは、連続したモデル世代にわたって未解決のままである高価値ワークロードの潜在的な分布が存在することを主張します。

各新しいフロンティアモデルは、これらのオープンな問題に対して効果的に試されます。そして新しいリリースモデルが以前に満たされていない技術的および経済的制約に一致するとき、それは正確な適合、比喩的なガラスの靴を達成します。わかりました、だからどのモデルも解決していない問題があり、それがドロップした直後に新しいモデルを試してそれがそれを解決すれば、あなたはただそれに固執します。

それが仮説です。興味深い。ある程度見ることができます。確実に知るのは難しいです。数字も小さすぎて気にするのは難しいです。Llamaは、Claude 4 Sonnetと比較してまったく実際のリテンションがありませんでした。しかしそれでも、これの多くは、彼らが何か新しいものを出荷するのにどのくらいかかったかによって測定される可能性があります。

Claude 4 Sonnetのように、彼らはその後かなり速く4.1と4.5を出荷しました。Gemini 2.5 Pro、彼らは6か月以上後まで何も出荷しませんでした。だから明らかにそれはより平らにとどまるでしょう。私はこの部分を買いません。私はこれは少し無理があると思います。どうやら彼らは4o Miniをここで黄金の例として使用しています。

くそ、16か月後に人々がまだ4o Miniを使用していることが嫌いです。それは私たちが1月にT3 chatで出荷したモデルでした。また、これはクソです。2.0 Flashは決して適合がありませんでした。2.0 Flashは私のお気に入りのモデルの1つです。多くのクソに使用します。私は本当にこの部分を買いません。そしてブーメラン効果。彼らがこれを説明しようとしている到達の量。

いや、私はこれをまったく信じません。コスト対使用量を見てみましょう。これははるかに興味深いでしょう。コストはX軸です。総トークンはY軸です。翻訳がより安いものに焦点を当てているのを見るのは興味深いです。法律も全体的により安いものに焦点を当てています。テクノロジーとマーケティングはより高価に傾き、プログラミングは真ん中に傾いています。

非常に興味深い。ロールプレイが法律よりも高価なモデルに傾いているのを見るのは本当に興味深いです。皆さんの弁護士は、ダンジョンズアンドドラゴンズのDMよりも安いです。ここで最初に聞きました。モデルの実効コスト対使用量。これも楽しいです。高価で使用量がはるかに少ないモデルや、安くてはるかに多いモデルを見ることができます。しかし全体的には、かなり均等化されています。使用量がコストが上がると下がる非常にわずかな傾向があります。

弱い全体的な相関です。興味深い。コストが全体的に使用の大きな推進力ではないことを知るのはクールです。品質と機能はしばしばコストに勝ります。納得です。安いだけでは十分ではありません。モデルは差別化可能で十分に有能でもなければなりません。そうです。クール。何というペーパーでしょう。ここに議論の終わりがあります。エコシステムは現在マルチモデルです。

生産性を超えた使用の多様性。私たちは他の多くの使用例を見ています。エージェント的な使用例は大量に上がっています。地理的な分割は広がっていますが、依然として主に北米ベースです。コスト対使用量。コストは、あなたが期待するような方法で使用を大幅に推進しません。そしてガラスの靴効果、私はそれに同意しません。

これは本当に興味深い研究でした。彼らがこれを公開し、このすべてのデータを共有してくれたことに興奮しています。これは楽しかったです。OpenRouterチームとA16Zがこれを手伝ってくれたことに感謝します。私は多くを学び、何が起こっているかの全体的なエコシステムとより大きな絵についてはるかに良いアイデアを持っていると感じます。

しかし、皆さんがどう感じるか気になります。このような読解は役に立ちますか?より大きな市場のものに興味がありますか、それともこれはただ本当に長い退屈なビデオでしたか?多分あなたはこの部分にさえ到達しませんでした。皆さんが何を考えているか教えてください。次回まで。平和を。

コメント

タイトルとURLをコピーしました