Kimi K2.5のエージェントスウォームは本物なのか オープンソースAIの新時代を検証する

AIエージェント
この記事は約17分で読めます。

中国のムーンショットAIが発表したKimi K2.5は、オープンソースモデルとして初めてClaude Opus 4.5やGemini 3.0といった西側の主要AIモデルに肩を並べる性能を示している。最大100のサブエージェントを並列実行する「エージェントスウォーム」機能を搭載し、従来の単一エージェント構成と比較して4.5倍の高速化を実現した。特筆すべきは、動画からウェブサイトを再現するビジョンベースのコーディング能力であり、実際のテスト結果は予想以上の精度を示した。中国製AIモデルは従来ベンチマーク偏重で実用性に欠けるという評価が一般的だったが、Nathan Lambsをはじめとする業界専門家も今回のKimi K2.5については実際の性能がベンチマーク結果に見合うものだと認めている。クリエイティブライティングではEQ Benchで1位、感情的知性においてもGPT-4やGemini 3.0を上回る評価を獲得しており、オープンソースAI開発における新たな転換点となる可能性がある。

KIMI K2.5 AGENT SWARM is INSANE
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

Kimi K2.5の衝撃的なデビュー

Kimi K2.5がリリースされました。まずこちらのウェブサイトをご覧ください。かなりクールな仕上がりだと思います。マウスを動かすとスモークエフェクトが発生します。素晴らしいですね。それでは体験を始めましょう。「体験を開始」をクリックします。おお、見てください。ブランドストーリーテリングの未来をリードする、と表示されています。

ズームアウトしてみると、本当に見栄えが良いですね。「長押しでインタラクト」とあります。実際にインタラクトしてみましょう。あらゆる種類のクレイジーな飛行エフェクトが見られます。これがウェブサイトなんです。

さて、ここで疑問が浮かびます。オープンソースモデルのKimi K2.5は、これらすべてを再現できるのでしょうか。それでは、確かめてみましょう。

これは単なる誇大宣伝なのか、それとも本物なのか。検証していきます。この動画では、このオープンソースモデルが動画からウェブサイトを作成できるのか見ていきます。コーディング能力もテストします。恐れていない方は高評価ボタンを押してください。それでは始めましょう。

リリース24時間後の慎重な評価

Kimi K2.5がリリースされました。リリースから約24時間が経過しています。リリースから1時間目に飛びついて報告したくありませんでした。なぜなら、これらのオープンソースモデルでは、ベンチマークに関してよくある策略が存在するからです。

彼らはベンチマークマキシング(ベンチマーク最適化)を行います。そのため、リリース時には「わあ、オープンソース、中国のモデルが西側のモデルに追いついた。業界全体を打ち破った」と思わされるのです。最初は印象的に見えますが、数週間、数ヶ月経つと、結局はあまり使っていないことに気づきます。結局はお馴染みのClaudeやChatGPT、Grok、Geminiなどに戻ってしまうのです。

それはOpen Router AIで確認できます。こちらをご覧ください。これは様々なモデルプロバイダーで使用されているトークンによる総市場シェアのようなものです。Googleがトップで約1兆トークン、総トークン使用量の約4分の1を占めています。次にAnthropic、OpenAI、xAI、そして5位に初めて中国のオープンソース企業であるDeepSeekが登場します。

しかしご覧のとおり、これは人々が「今回は違う」と言っている最初のモデルの一つなのです。主張通りのものにかなり近いようです。また、エージェントスウォームと呼ばれる新しいモードがあります。まだベータ版ですが、大規模に並列で動作する自律型エージェントです。このモデルは最大100のサブエージェントを起動でき、それらが並列で実行されて代理でタスクを遂行します。

理論的にはこれが来ることはわかっていましたし、このエージェントスウォームを作成するための様々なアプローチを見てきました。そして今、かなり大規模にそれを目にしているのです。最大100のサブエージェント、1500のツールコール、単一エージェント構成と比較して4.5倍の高速化です。

ベンチマーク結果の詳細分析

これらのベンチマークにあまり時間を費やすつもりはありませんが、一見すると非常に、非常に堅実に見えることに注目してください。SWE-benchで非常に高いスコアです。「人類最後の試験」で50.2を獲得しました。その他すべてにおいても、非常に良好で、OpenAI、Anthropic、Geminiといった業界リーダーに匹敵する高さです。

そして「人類最後の試験」については、これが現在単一モデルとしてはトップスコアだと思います。Zoom Federated AIがあります。あのストーリーを覚えているでしょうか。Zoom、そうです、あのテレビ会議ソフトウェアのZoomです。彼らが53%で最高スコアを持っています。しかしそれは連合スコアです。つまり、多数の異なるモデルが協働して得たスコアです。それがあのスコアを獲得した方法です。すべてがかなり奇妙です。そこまでにしておきましょう。

しかしこれは単一モデルとしてのトップスコアです。またKimi K2.5は、コーディング、特にビジョンを使ったコーディングにおいて、これまでで最強のオープンソースモデルだと主張しています。例えば、ウェブサイトの画像を与えると、そのスタイルを再現できるのです。このアプローチでテストしてみました。後ほど何が起こったかお見せします。

こちらは別の例です。ご覧のとおり、非常に優れた視覚的スタイルを再現できています。確かにフロントエンドのコーディング体験は印象的です。さらに2つの例があります。間違いなく見栄えが良いですね。非常に興味深いことの一つは、動画を与えることができ、動画からコーディングできるということです。

こちらはK2.5が動画からウェブサイトを再構築している例です。左側が動画、ウェブサイトの録画です。そして右側がその動画だけに基づいたKimiの出力です。かなり良いと思います。オリジナルほど詳細ではありませんが、近いです。非常に近いです。

なぜKimi K2.5が特別なのか

Kimi K2.5が特別な理由を理解するために、Nathan Lambsの見解を紹介します。彼は、ベンチマーク上では中国のモデルは非常に良く見え、西側のモデルに非常に近いと言っています。しかし実際に使い始めると、日常的なタスク、私たちが皆持っている奇妙で変わったユースケース、カスタムなものに対しては、うまくいかない傾向があります。これが問題でした。

彼はこの短いクリップを投稿して、これらのベンチマーク、特にいくつかの企業によるもの、特に中国の企業や、もちろんMetaとLlama 4を名指しして、なぜ本当に信頼できないのかについて語っています。簡単に聞いてみましょう。

次です。人々はベンチマキシングによって誤解されているのでしょうか。ベンチマキシングはおそらく少なくともある程度は誤解を招いていると思います。そして私は中国のモデルに話を戻したいのですが、前回話したように、非常にランダムなマルチモーダルタスクにおいて、主要な西側のモデルすべてと比較して著しく劣っていました。これはベンチマキシングがより一般的にどれだけ私たちを誤解させているかの先行指標のようなものです。

しかし注目してください。彼が最近これらすべてを言ったにもかかわらず、ここで言っているのは「Kimi K2.5はそれを変える。他の中国モデルがひどく失敗した同じタスクで、Gemini 3.0に匹敵し、Claude Opus 4.5にわずかに及ばない程度だ」ということです。

これが、これらのベンチマークにもう少し注意を払うべき理由です。なぜなら以前は、現実の歪んだ見方だったからです。少なくともベンチマキシングに従事する一部の企業は、いわば現実を歪めていました。しかし今、Kimi K2.5によって、その差さえも縮まっているのを見ています。これは中国発のオープンソースモデルで、あらゆる点で本当に西側のモデルに非常に近く、同時にオープンソースでもあるのです。

Kimi K2.5はEQ Benchでもトップの座に着きました。これはLLM(大規模言語モデル)の感情的知性ベンチマークです。つまりクリエイティブライティング、様々な感情的または抽象的なものを扱う必要があるものです。1600のELOスコアを獲得し、GPT-4o、Gemini 3.0 Pro Preview、その他ほぼすべてを打ち負かしました。

クリエイティブライティングでは2位で、Claude Opus 4.5に次ぐものです。1ポイント差なので、非常に非常に接近しています。そして全体的にかなり堅実です。大きな弱点はありません。クリエイティブライティングに使用する素晴らしいオープンソースモデルになるでしょう。

Kimi K2.5の実践テスト

Kimi K2.5を試す最も簡単な方法は、kimi.comにアクセスすることです。ログインする必要があり、ここで使用できるいくつかのクレジットが提供されます。インスタント、シンキング、エージェントを使用できます。エージェントスウォームは、クレジットがないと使用できません。

さて、エージェントモードを使用して、このウェブサイトのいくつかのスクリーンショットだけに基づいてウェブサイトを構築できるか試してみました。こちらは、見つけたeコマースストアのスクリーンショットです。レイアウトと全体的なテーマが気に入りました。かなりクールです。猫用アクセサリーのウェブサイトをこのように作ってくださいと依頼しました。それを実行してくれました。

プレビューバージョン1と、実際にそのウェブサイトを起動するために必要なすべてのファイルがあります。見てみましょう。こんな感じです。かなり良いですね。ホバーエフェクトのようなものがあります。「Meow Studios Premium Cat Accessories」と名付けられました。確かにかなり良く見えます。私たちが望んでいた通りです。

新商品がビューにポップアップして表示されます。モバイルビューを想定しています。少し幅を狭めてみましょう。はい、こうです。レザーカラー、ドーナツベッドなどがあります。一時停止と再生もできます。つまり、確かに私たちが目指していた同じ雰囲気を捉えています。画像もかなりかなり良いです。多くのリンクは完全には作り込まれていませんが、素晴らしい素晴らしいスタート地点です。

Kilo Codeでの実装方法

Kilo CodeがKimi K2.5を1週間無料で提供しています。最も簡単な方法は、VS Codeの拡張機能に行き、Kilo Codeを検索することです。Kilo Codeをインストールすれば準備完了です。ちなみに「この発行者を信頼しますか?」と表示されます。はいをクリックします。しかし良い質問が浮かびます。誰を信頼すべきかどうやって知るのでしょうか。

多くの人が信頼している素晴らしい場所の一つがopenrouter.aiです。これは開発者やユーザーがすべてのLLMや他のAIアシスタントコーディングツールに関する集約情報にアクセスできるウェブサイトです。ご覧のとおり、トークン使用量によるLLMリーダーボードを表示しています。

注目してください。Claude Sonnet 4.5が最高で、次にGemini 3.0 Flash Preview、Grok Code Fast Oneと続きます。ここでは安価なものが優遇されることになります。つまり、優れていて安いもののバランスです。おそらくこの特定のリーダーボードの上位近くに位置するでしょう。

これらのいずれかに投資している場合、公開市場であろうとなかろうと、これは興味深い見どころです。これは市場シェアです。基本的にOpen Routerでのモデル作成者によるトークンシェアです。Googleが約25%でトップ、次にAnthropicが2位で17%、OpenAIが約14%、そしてxAIが約13%です。繰り返しますが、これはまだトークンベースです。

Grok Code Fast Oneがプログラミングでナンバーワンです。これはカテゴリー別に分けた場合ですが、関連する部分がこちらです。これがトップアプリです。最大の公開アプリです。Open Routerで使用状況の追跡にオプトインしています。繰り返しますが、これはもちろんすべてのモデルではありませんが、今日とオプトインしたモデルについては、Kilo Codeがナンバーワンです。Cloud Codeは6位です。

そして今月を見ると、再びKilo Codeがナンバーワンです。Kilo Code拡張機能を入手したら、モデルを選択できます。ここに注目してください。moonshot.ai Kimi K2.5は無料です。そしてkilo.aiに向かいます。

この動画はKilo Codeのスポンサーではありませんが、スポンサーしてくれても構いません。良いツールですから。今日のProduct Huntでナンバーワンであることに注目してください。VS Code内でインストールできます。このようにVS Codeにインストールできます。または画面からGoogle、GitHub、GitLab、LinkedIn、メールなどでサインインまたはサインアップできます。Googleでサインインします。

API構成の選択と表示されてモデルを選択できない場合は、上部のこちらに行き、設定の歯車アイコンをクリックして、Kilo Codeでログインをクリックしてください。リンクまたはQRコードが提供されます。ウェブサイトのKilo Codeアカウントにログインしている必要があります。認証コードが提供されます。そのVS Codeインスタンス、そのマシンでKilo Codeを実行できるように認証するために、「認証する」をクリックしてください。

Kilo Codeが正常に構成されたと表示されるはずです。そうすれば、Moonshot Kimi K2.5を実行できるはずです。ここを下にスクロールすると、実際にモデルの推論の様子を見ることができます。Melvor Idleのようなゲームを作成し、2.0バージョンがどのように見えるか再想像してもらうように依頼しました。HTMLでそのようなものを作成できるか見てみましょう。

ゲーム開発テストの結果

こちらが作成されたものです。インベントリ、ヘルスシステム、プレイヤーステータスがあります。これはかなり良いです。見てみましょう。マイニング(採掘)です。石の採掘を開始できます。素晴らしいです。これまでのところ順調です。石を採掘しています。XPが上がっていることに注目してください。これはワンショットでした。つまり、1つのプロンプトでこれを返してきました。これまでのところ、素晴らしいです。

これをクリックできます。これは停止します。これは続行します。取得している正確なXPが表示されます。インベントリに入っているか確認しましょう。入っています。見てください。インベントリに様々な鉱石があります。それらの鉱石を使って鍛冶ができます。ブロンズバー。銅1つと錫1つが必要なようです。これはかなり印象的です。

木こり。木を切り倒すことができます。様々なアップグレードを購入するショップがあります。素晴らしいです。そしてもちろん、戦闘。攻撃して何が起こるか見てみましょう。攻撃するには、どうやら自動クリックする必要があるようです。自動戦闘はありませんが、悪くないです。戦闘システムは改善が必要ですが、すべてがここにあります。基本はここにあります。

装備品があるので、装備できます。最初の試み、初回の試みで、このゲームの基礎レイヤー全体を構築したと言わざるを得ません。その上に構築を始めることができます。このクイックテスト1つだけで、コーディングはかなり堅実に見えます。

ウェブサイト再現の高度なテスト

さて、こちらは見つけたウェブサイトで、かなりクールだと思います。マウスを動かすと、このスモークエフェクトなどがあります。かなり素晴らしいです。さあ、体験を始めることができます。「体験を開始」をクリックします。わあ、見てください。ブランドストーリーテリングの未来をリードする。

ズームアウトすると、本当に良く見えます。長押しでインタラクト。インタラクトできます。あらゆる種類のクレイジーな飛行の無茶苦茶なものが見られます。つまり、これがウェブサイトなのです。さて、疑問は、オープンソースモデルのKimi K2.5が、これらすべてを再現できるかということです。それでは、確かめてみましょう。

さて、その動画をアップロードしました。約20メガバイトで、解析が終わった後、この動画からウェブサイトを再作成してくださいと言います。やってみましょう。

さて、どれだけうまくいったか見てみましょう。まず第一に、カーソルからのスモークエフェクトはありません。これは以前のウェブサイトとはまったく同じではありませんが、見てみましょう。「体験を開始」をクリックすると、目が現れます。それほどリアルではありませんが、10分から15分程度作業した割にはかなり良いです。

こちらが私たちの小さなライオンで、クリックすると完全にクレイジーになります。近いです。私たちが見たもののローレゾ版のようなものです。完璧に捉えることは期待していませんでした。なぜならこれはかなりハイレベルで高度なウェブサイトだったからです。しかし、その本質、ローレゾの本質を捉えたと言わざるを得ません。

動画からウェブサイトへというこのタイプのテストはあまり多くやっていませんが、この最初の試みでは、かなり良く見えます。かなり興味深いです。これは以前見たことがないので、確実にもっと多くのテストに値します。かなり興味深いです。

デザイン性能とベンチマーク評価

Kimi K2.5はまた、デザインアリーナでもかなり良いパフォーマンスを示しているようで、Gemini 3.0 Pro Preview、Claude Opus 4.5などを打ち負かしています。確かに全体的にかなり強力なパフォーマンスです。繰り返しますが、これはオープンソースモデルであり、見た感じでは、この時点でリリースされてから24時間未満だと思います。

あらゆる尺度で、これは強力で有能なオープンソースモデルです。もちろん、時間が経てばわかるでしょう。どれだけうまく機能するか。コーディングタスク、私たちが皆使用する他の多くのタスク、クリエイティブライティングなどに人々が使い始めるでしょうか。

これまでのところ、Kimiは市場シェアのリーダーボードのどこにも見当たりません。企業としてはMoonshotになると思いますが、ここには見られません。中国のモデルでは、DeepSeek、Qwenが見られます。そして7位にXiaomiがあります。8位はMistral AIで、これはフランスの企業です。9位はZAI。そして10位はすべての他のモデルで、10%弱の総市場シェアを保持しています。

誰かがどこからともなく現れて特定のタスクで素晴らしい成果を上げると、xAIで起こったようなことが見られます。彼らはCode Fast Oneモデルを発表し、以前のある時点では市場シェアのほんのわずかなスライバーしか持っていなかったのに、そしてブーム、爆発して、今では約13%弱を保持しています。ピーク時には、おそらくピークの40%、総市場シェアの40%を保持していたと思います。

もしKimi K2.5が誇大宣伝に見合うもの、特にコーディングカテゴリーで見合うものであれば、おそらくそのような大きな爆発が見られるでしょう。市場シェアを奪い始め、もっと多く使用されるようになるでしょう。Claude Opus 4.5のように比較されているものと比較して、非常に競争力のある価格設定です。

このチャートに注目してください。西側のモデルにおそらくトップ5の座の1つを奪う新しいオープンソースの競争相手がいるのでしょうか。つまり、DeepSeekは現在5位にいます。MoonshotがDeepSeekを影に追いやり、おそらく1位にさらに近づくのを見ることになるのでしょうか。まあ、見てみましょう。その決定を下すにはまだ少し早すぎます。

今後の展開と業界の動向

また、DeepSeekの新しいリリースがどこからともなく現れて、これらのモデルの多くを飛び越える可能性があることを期待しています。また、Snow Bunnyと呼ばれるGemini 3.5についてのいくつかのチャット、噂も見られます。これは必ずしも信じないでください。これは、塩一粒程度に受け止めるべきものです。

これらのモデルがリリースされる前には、多くの誤情報があることが多いです。しかしGoogle DeepMindがいくつかの新しいモデルをテストしているようです。そしてSnow Bunnyは、おそらく正当なGeminiモデルのコードネームの1つだと思います。これらの主張のいずれかが本物かどうかは判断が難しいですが、おそらくGeminiが最新モデルを発表する時期なのかもしれません。

明らかに彼らはバックグラウンドで何かを準備しているようです。OpenAI、DeepSeek、Google DeepMindから多くの新しいものが登場するでしょう。もちろん、Grokについては多くの人が話しています。Grok 4.2は特定の金融関連や特定の数学関連で信じられないほど良い成果を上げていますが、Claude Opus 4.5を搭載したClaude Codeのようなすでに利用可能なものほど優れているとは期待されていません。

これはイーロン・マスクによるものです。彼は、Anthropicがあのモデルで本当に特別なものを作り上げたと言っています。しかしそうです、引き続き注目してください。競争は激化しています。特にClawdBotのようなもので、Moltbotに改名されましたが、これはClaude Codeに多少基づいた完全にオープンソースのエージェントですが、メモリなどの新機能も備えており、本当に本当に良いものです。

つまり、近い将来、Mac Miniやバーチャルプライベートサーバー上で動作し、ローカルで実行される、つまりKimi K2.5や最新のDeepSeekのようなオンデバイスのオープンソースモデルを実行する、そのようなオープンソースハーネスを見ることができる時点に到達するとしたらどうでしょうか。

物事は興味深くなると思います。ですから引き続き注目してください。ご視聴ありがとうございました。次回お会いしましょう。そしてKimiモデルをテストした方は、ぜひ下のコメント欄でお知らせください。

コメント

タイトルとURLをコピーしました