中国の美団という配送・グローサリーサービス企業が、560億パラメータのMoE(混合専門家)モデル「LongCat Flash Chat」をMITライセンスで公開した。注目すべきは、全560億パラメータのうち文脈に応じて平均27億パラメータのみを動的に活性化する「ゼロ計算専門家機構」により、計算効率を大幅に向上させている点である。20兆トークンのプリトレーニングをわずか30日で完了し、エージェントタスクやコーディングに特化した多段階学習パイプラインを採用している。技術系企業ではない配送会社からの予想外のブレークスルーとして、中国のオープンソースAI開発力の高さを改めて示している。

中国の新モデル LongCat Flash Chat の登場
中国の新しいモデル、LongCat Flash Chatが登場しました。でも、これがただの中国製モデルだと思って軽視する前に、これを聞いてください。このモデルの最も重要な部分がこれです。
すべてのトークンが等しいわけではないので、我々はゼロ計算専門家機構をブロック内に導入しています。MoEは混合専門家の略で、重要度に基づいて重要なトークンに動的な計算予算を割り当てます。これは、文脈的な要求に基づいて、全560億パラメータのうち186億から313億パラメータを活性化することを意味しています。
一貫した計算ワークロードを確保するため、我々はP制御器によって調整された専門家バイアスを採用し、トークンあたり平均わずか27億の活性化パラメータを維持しています。
つまり、これは混合専門家モデルで、すべてのトークンに対してわずか27億パラメータの活性化で効率性を実現するという新しい効果的計算利用戦略を備えています。現在の大規模言語モデルの領域において、27億パラメータモデルはそれほど大きくありませんが、彼らはこの効率的計算利用戦略と呼んでいるものを使って、特定の時間における特定のトークンに対してわずか27億の活性パラメータのみを使用するという新しい戦略を達成しています。
美団という意外な企業からのリリース
では、モデルに戻りましょう。これは美団という会社から来たモデルです。この会社について読むと、これは世界のアリババのような、MicrosoftやGoogle、百度のような適切な技術会社とは異なります。これは配送サービスを提供する会社です。
彼らはグローサリー技術を持っています。技術系ではないと言っているわけではありませんが、このような会社から基盤モデルを期待するような根本的な基盤モデル会社ではありません。Uberが他のすべての会社を打ち負かす基盤モデルを発表することを想像してみてください。
非常に驚くべきことで、中国は毎日我々を驚かせています。そして、この美団という会社、正しく発音しているかわかりませんが、文字通り「美しいグループレビュー」という意味です。それが会社名です。
そしてその会社が、LongCat Flash ChatというMITライセンスのモデルをリリースしました。LongCat Flash Chat、ほぼFlash Chatと言うのは非常に言いにくいですが、560億パラメータモデルです。
驚異的な学習速度
もう一つ興味深いことは、彼らが560億パラメータモデルの20兆トークン学習を、プリトレーニングのみでわずか30日で完了したことです。これも非常に魅力的な側面です。なぜなら、我々はOpenAIのような大企業から、ベースモデルのプリトレーニングには数ヶ月かかると聞いていたからですが、この会社はそれを30日で成し遂げました。
つまり、多くのモデルのより速い反復を見ることができるかもしれません。モデルとチャットしたい場合は、vchatに行ってチャットできます。私はVChatを持っていませんが、この新しいモデルは多くの異なる用途に適したモデルとされているのがわかります。
計算効率とスケーリング戦略
しかし、先ほど述べたように、主要な特徴はモデルが持つ計算効率です。彼らはモデルスケーリング戦略を設計しており、これは技術的に彼らがモデルをさらにスケールできることを意味します。つまり、スケーリング法則で上に行けるのです。
スケーリング法則が何かわからない人のために説明すると、スケーリング法則は基本的に、モデルに関して引くことができる一連のレバーがあることを教えてくれます。一つはデータ、一つは計算、一つはモデルのサイズです。
つまり、モデルのデータを増やせば、モデルは理想的により良いパフォーマンスを発揮するはずです。モデルのサイズを大きくすれば、モデルは理想的により良いパフォーマンスを発揮するはずです。より多くの計算でより長い期間モデルを訓練すれば、モデルは理想的により良くなるはずです。
これが簡潔に言うとスケーリング法則であり、このモデルはスケーリング法則を念頭に置いて設計されています。効率的にモデルサイズをスケーリングすることは依然として課題であり、これを終わらせるために、我々は堅牢な大規模訓練のための包括的な安定性とスケーリングフレームワークを開発しました。
そして彼らはこれをこのモデルにも適用しています。
エージェント能力のための多段階学習パイプライン
そして最後に、最も興味深いことは、エージェント能力のための多段階学習パイプラインです。このモデルはエージェントやコーディング関連のタスクに適しているとされています。中間学習中に、我々は推論とコーディング能力を強化します。
学習プロセスを知っている人なら、プリトレーニングとポストトレーニングがあることがわかるでしょう。プリトレーニングはモデルが知識を蓄積する段階です。ポストトレーニングはモデルが知識の使い方を学ぶ段階で、アライメントやそれが何をすべきかといったことです。
しかし彼らは中間学習中と言っています。つまり、彼らはここに中間学習というものを持っており、推論とコーディング能力を強化しながら、エージェントのポストトレーニング要件を満たすためにコンテキスト長を128,000トークンに拡張しています。
我々は、情報処理ツールセットの複雑さとユーザーインタラクションの3つの軸でタスクの難易度を定義する多エージェント合成フレームワークを設計し、特殊なコントローラーを使用して反復的推論と環境インタラクションを必要とする複雑なタスクを生成します。
彼らは、モデルがポストトレーニング段階で学習し、解決し、改善する問題を定義するシステム、フレームワークを持っています。
これは現時点で非常にホットなRL環境のようなもので、彼らは技術レポート、技術レポートもリリースしており、そこで多くの興味深い情報を読むことができます。
ベンチマーク結果の詳細分析
しかし最も重要なのは、モデルが特にコーディング関連のタスクで良好であることがわかることです。ターミナルベンチで、モデルは39.5%のスコアを記録しており、これはDeepSeek v3.1よりもかなり高く、Claude 4 Sonnetにほぼ近いです。Claude 4 Sonnetは40.7%で、これは39.5%です。
このベンチマークは、モデルがターミナル、コンピュータシェル、bashなど、何でも扱える能力を評価します。SWE-Bench検証済みで、モデルは60.4のスコアを記録しました。
正直、この特定のものは私を驚かせました。なぜなら、モデルがターミナルベンチで非常に良い成績を収めている場合、自然にモデルがSWE-Bench検証済みでも良い成績を収めることを期待するからですが、この場合、モデルはGemini 2よりもはるかに下です。
コーディングとエージェントタスクに大きく最適化されたモデルの場合、PI2ベンチやVAベンチのようなエージェントベンチマークがあり、モデルはその特定の層で利用可能な他のすべてのモデルよりも優れています:Gemini 2.5 Flash、Claude 4 Sonnet、GPT-4o mini、Gemini 2、Qwen 3、そしてDeepSeek V3.1です。
フラッグシップモデルとの比較について
私が彼らがあまりやっていないのを見たことの一つは、Claude 4 OpusやGPT-4oのようなフラッグシップモデルとの比較です。彼らはフラッグシップモデルとは比較していません。彼らはフラッグシップより一つ下のレベルにいると言うことに決めたと思います。フラッシュモデルがあります。ソネットモデルがあります。
しかし、いずれにしても、これは素晴らしいリリースだと思います。我々が通り抜けて学習プロセスやその他多くの情報について学ぶことができる技術論文があります。
アクセス性とオープンソース化
しかし、これは単純にMITライセンスで提供されるモデルであり、人々がこのモデルから多くの学習を得て、このモデルの使用を開始する可能性があることがわかります。
モデルにアクセスしたい場合、彼らはあなたがアクセスできるウェブサイトを作成しました。longcat.chatと呼ばれており、longcat.chatに行って、モデルがどれほど良いかを理解するためにモデルとチャットを始めることができます。
しかし全体的に、これはあまり知られていない会社からの優れたリリースだと思います。そして再び、また別の中国のオープンソースモデルであり、この時点で頭字語になるべきです。
このモデルについてどう思うか教えてください。別の動画でお会いしましょう。ハッピープロンプティング!


コメント