Kimi K2.5 – 単なるLLMを超えた存在 | ASIに仕事を奪われたい

中国のKimiチームが初のマルチモーダルモデルK2.5をリリースした。同社は「最強のオープンソースモデル」と謳っており、ベンチマークではGPT-4o、Gemini 3、Claude Opusといった主要モデルを複数の指標で上回る性能を示している。特筆すべきは、最大100の並列サブエージェントを活用する「Agent Swarm」という新システムであり、複雑なタスクを効率的に処理できる点である。フロントエンド開発に特化したチューニングが施されており、コストパフォーマンスにも優れている。同時期にはQwen 3 MaxやDeepSeek OCR2など、中国企業による旧正月前の怒涛のリリースラッシュが続いている。実際のテストでは、3D アニメーションやウェブデザインにおいて印象的な結果を示し、オープンソースモデルとしては予想を上回る完成度を実現している。

Kimi K2.5 - Its more than an LLM

Kimi K2.5 is here. Its a multimodal model specifically trained for agentic use.

Kimi K2.5の登場とその衝撃
革新的なAgent Swarmシステム
中国AI企業のリリースラッシュ
驚異的なベンチマーク結果
フロントエンド開発への特化
Agent Swarmの重要性
並列処理による効率化
モデルアーキテクチャの詳細
実際のテスト – 3Dアニメーションチャレンジ
その他のテスト結果

Kimi K2.5の登場とその衝撃

さて、Kimiチームが先日K2.5をリリースしました。これは彼らにとって初のマルチモーダルモデルとなります。彼ら自身、これを「現時点で最もパワフルなオープンソースモデル」と呼んでいるんですね。ベンチマークを見てみると、確かにある程度の真実味があります。GPT-4o、Gemini 3、そしてさらにはClaude Opusといった巨人たちを、数々の重要なベンチマークで打ち負かしているんです。

彼らの主なセールスポイントは、フロンティアモデルのいくつかと同等かそれ以上のパフォーマンスを、はるかに低いコストで提供できるという点です。彼らが共有している情報から判断すると、これはかなり強力なコーディングモデルのようですね。特にフロントエンド設計に特化したファインチューニングが施されています。

革新的なAgent Swarmシステム

ただ、これは単一モデルの話にとどまりません。実際には、Agent Swarmと呼ばれる全く新しいシステムをリリースしたんです。最大100の異なるサブエージェントが並列でタスクを実行できるようになっています。

これはKimiがこの種のマルチエージェントシステムを発表するのは初めてではありません。以前、OK Computerというシステムを発表していて、基本的にユーザーに代わってタスクを実行できるものでした。しかし今回、このシステムはK2.5によって駆動されることになります。

中国AI企業のリリースラッシュ

Kimiだけの話ではありません。今月末は中国企業にとって多忙な時期になりそうです。QwenがQwen 3 Max Thinkingをリリースしました。これはオープンソースモデルではありませんが、このカテゴリーでは最先端のものです。DeepSeekからはDeepSeek OCR2という新しいモデルがちょうど登場したばかりです。これらの企業は旧正月前に様々なリリースを急いで出そうとしているように思えます。

驚異的なベンチマーク結果

さて、後ほど動画内でいくつかのテストを行ってモデルの実際の能力を見ていきますが、まずはベンチマークを簡単に見てみましょう。これは人文科学の完全な最終試験で50点を超える最初のオープンウェイトモデルなんです。これは驚異的なことです。なぜなら、同じベンチマークで、GPT Gemini 3 Proが高い思考レベルで45.8点を獲得しているからです。

エージェント的な使用例、例えばBrowser Compでは、他のすべてのモデルを上回っています。プロプライエタリな最先端モデルでさえもです。もちろん、ベンチマーキングのための過剰最適化が行われている可能性もあります。それは今後分かるでしょう。ただ、特にKimiはエージェント的な使用例に焦点を当てているようですね。繰り返しになりますが、これは非常に強力なモデルです。

SWE-bench Verifiedでは約76%から77%程度を獲得していて、現在の最先端に非常に近い数値です。このモデルにはマルチモーダル機能があり、これは画像理解と動画理解の両方の形で実現されています。両方においてGemini 3 Proに非常に近い性能を示しています。もしこれが本当なら、これは信じられない偉業です。なぜなら、このモデルの価格設定は驚くべきものだからです。

フロントエンド開発への特化

彼らの主な焦点の一つはフロントエンド機能です。Gemini 3 Proはおそらく、すぐに使えるフロントエンド開発ができる最高のモデルの一つで、彼らは特にフロントエンドデザインに焦点を当てています。ここで示されている例のいくつかは、実際かなり素晴らしいものです。これまで見てきたような単純なAIによる粗悪な出力とは違って見えます。こちらも別の出力例です。

これもまた、その能力という点でかなりクリエイティブです。一つ私が実際に驚いたのは、彼らが独自の内部ベンチマークのいくつかを共有していることです。これらのフロンティア研究所はすべて独自の内部ベンチマークを持っていて、通常はこれらの独自ベンチマークの結果を実際には報告しないものなんですが、Kimiチームはモデルと一緒にそれらを報告しているんです。これはかなり良いことだと思います。

Agent Swarmの重要性

今回のリリースで最も重要なのはAgent Swarmだと思います。そしてこれは、スケールアウトが重要であることを示しています。単にスケールアップするだけではダメなんです。彼らはKimiモデルに、タスクを達成するために複数の異なる並列サブエージェントをオーケストレーションする能力を与えています。

これは単なるエージェントオーケストレーターを通じてではなく、実際に並列エージェント強化学習によってトレーニングされています。そこでは、最大1,500の協調ステップにわたって並列作業を実行する最大100の異なるサブエージェントを立ち上げることを学習するんです。

これによって、Agent Swarmを使用することで、ベースのKimi K2バージョンと比較してはるかに良い結果が得られることを示しています。Claude CodeやKimi Codeのようなツールは、エージェント自体がこれらの並列エージェントの使用について強化学習を通じてトレーニングされるこのアーキテクチャを潜在的に使用できるでしょう。

一般的に、エージェントやモデルの作成者からのエージェント周りのハーネスの方がより重要です。なぜなら、彼らは実際に、エージェントが使用することになっている特定のツールについて強化学習を行っているからです。

並列処理による効率化

ここで非常に興味深い結果を示しています。並列サブエージェントを使用することで、複雑なタスクを解決できるだけでなく、実行時間も短縮できるということです。ここを見ると、単一のエージェントが複雑なタスクを解決するのにかかる時間は、タスクの複雑さが増すにつれて増加します。しかし、並列サブエージェントを使用している場合、タスクの複雑さに対する実行時間の増加はかなり最小限に抑えられています。

これは特に、これらの並列エージェントの非常によく定義され、よく設計されたコンテキスト管理がある場合には理にかなっています。各エージェントが独自のコンテキストウィンドウを持つ場合です。これにより、複雑なタスクを解決できるだけでなく、システム全体で使用されるトークン数も大幅に削減できるでしょう。

モデルアーキテクチャの詳細

デモを見る前に、モデルアーキテクチャについていくつか詳細を説明します。依然として1兆パラメータのモデルです。MoE、つまりMixture of Expertsです。384のエキスパートがあり、一度に使用されるのは320億パラメータのみです。このモデルのコンテキスト長は256,000トークンです。一般的なプログラミングタスクには十分すぎるほどだと思います。

これらのモデルはどんどん大きくなっています。ですから、私たちのような人々が自分のガレージで実行するためのものではありません。これらは潜在的に、オープンウェイトモデルを使用したい企業向けのものです。残念ながら、Kimiはおそらく、より小さなオープンウェイトモデルをまだリリースしていない唯一の企業です。ただ、現時点では彼らもそうすべきでしょう。

実際のテスト – 3Dアニメーションチャレンジ

このモデルをテストしたい場合は、彼らのウェブサイトで利用可能です。無料で使用できます。現在、モデルリストにはKimi 2.5が表示されています。インスタント版、シンキング版、エージェント、そしてAgent Swarmがあります。これは有料顧客のみが利用できるようですね。ですから、いくつかのプロンプトで2.5を簡単にテストしてみます。

さて、この最初のテストはおそらく最も難しいものです。Gemini 3 Pro以外でこれを作成できたモデルは見たことがありません。プロンプトは「群衆が歩いて『Hello World I’m Kimi』という文字を形成するアニメーションを作成し、カメラが鳥瞰図に変わる様子を作って」というもので、特にThree.jsを使うように指定しています。

思考プロセス自体が非常によく構造化されています。生の思考の連鎖を示していると思います。「ユーザーはThree.jsのアニメーションを望んでいる」と言っています。要件が何であるかについて話しています。作成すべきものが正確に何かを考えています。今、計画を立てています。これは非常によく構造化されています。技術的な詳細について考えています。コード自体の構造について考えているのはかなり良いことです。そして今、コードを書き始めました。

これは印象的ですね。実際、全く期待していませんでした。このシーンを作成しました。回転できないのは悪い点です。でも、実際に興味深いことが起きました。最後を見ると、うまくいったようです。ただ、主な問題は、これらの単語が逆さまになっているように見えることです。ただKimiは正しく表示されているようですね。

正直なところ、全く期待していませんでした。でも、これはマルチモーダルモデルなんです。だからこれをコピーできます。いくつかの単語が逆さまになっているようです。画像を添付しました。また、前景と背景の間に高いコントラストを使用して、人々と単語の形成が見えるようにしてください。また、画像を回転したり視点を変えたりするコントロールがありません。それらも追加してください。

これは信じられないことです。思考の連鎖を経ています。インターリーブされたツール使用機能があるようです。何が間違っているのかを考えながら、私たちが提供した画像も活用しています。画像を理解できるんですね。

これは本当に嬉しい驚きです。今回は回転する機能を追加し、実際に単語を読み取ることができます。ミラーリングの問題を修正したようです。人々を正しい順序に配置しました。これはかなり素晴らしいことです。オープンウェイトモデルからこんなに早くこれが実現するとは期待していませんでした。

その他のテスト結果

こちらは別のプロンプトです。これはFox Pod Gardenです。完全に機能しています。UIデザインは確かに改善の余地がありますが、プロンプトに従うという点では本当に良い仕事をしました。

フロントエンドデザインに焦点を当てているということで、ウェブサイトを作成するように依頼しました。ニューブルータリストデザインが欲しいと伝えたところ、数千行のコードを書きました。実際に作成されたものがこちらです。

ダークテーマが機能しているのはかなり素晴らしいですね。また、これらの小さなアニメーションも追加されていて、本当に素晴らしいです。すべてが機能しているようです。コードを実行する機能を追加しましたが、これは動作していないようです。全体的に、デザインに関しては、オープンウェイトモデルから見た中でおそらく最高の出力の一つだと思いますが、Gemini 3のようなものには全く及びません。

Gemini 3 Flashあたりにランク付けするでしょう。それでも本当に素晴らしいことです。全体として、非常に堅実なリリースだと思いますし、2026年の残りの期間、オープンウェイトモデルとプロプライエタリなクローズドソースモデルの両方にとってのテンポを設定するものです。ぜひ試してみてください。このモデルの雰囲気が気に入ると思います。

とにかく、この動画が役に立ったことを願っています。視聴ありがとうございました。いつものように、次の動画でお会いしましょう。