中国発のAIモデルKimi K2.5が驚異的な性能を示し、特にマルチエージェント技術とインタラクティブなウェブサイト生成において革新的な進化を遂げている。従来の中国製AIモデルとは異なり、ベンチマークにおいて自らの弱点も率直に示しながら、エージェント機能では最大100のサブエージェントを自律管理し1500ステップもの協調作業を実行する能力を実証した。特筆すべきは、スクロールに応じて動的に変化するウェブサイトの生成、画像からのサイト変換、ゲーム開発における詳細な表現力である。米国によるNvidia H200チップの中国への輸出許可という政策転換も相まって、2025年は中国のAI技術が米国に追いつく可能性を示唆する展開となっている。

Kimi K2.5の衝撃的な登場
皆さん、Kimi K2.5が本当に凄いことになっています。もう中国のモデルが話題に上らないだろうと思っていた方、それは間違いでした。Kimi K2.5は本当に素晴らしい性能を持っているんです。これは単なる噂話ではありません。これから私が実際に行ったテストをお見せしますが、きっと驚かれると思います。そして正直に言うと、今年中国が米国を追い越すのではないかという疑問さえ浮かんでくるんです。その答えは今後明らかになっていくでしょう。
それでは早速見ていきましょう。いつも動画に「いいね」を押してくださる皆さん、チャンネル登録してくださる皆さん、本当にありがとうございます。特にチャンネルメンバーとしてこの人工知能チャンネルをスポンサーしてくださっている全ての方々に感謝申し上げます。メンバーの方々には、WhatsApp統合、MCP、PDF読み込み、スプレッドシート処理など様々な機能を持つインテリジェントエージェントに関する限定動画へのアクセス権があり、さらに動画の先行視聴も可能です。
ベンチマーク結果の率直な開示
さて、今日のニュースはこちらです。Kimi K2.5という小型モデルが登場し、すでに多くの人々が高く評価しています。興味深いのは、通常こういったケースではベンチマークで常に他のすべてのモデルより優れていると主張されることが多いんですが、このケースは違うんです。例えばHLE完全版では、Kimiは他のモデルより50%優れた性能を示しています。Browser Compでも74%という優れたスコアを記録しています。
しかし、コーディング性能を見てみると、SWE-benchではClaudeより劣る結果を認めており、必ずしも全ての分野で最高というわけではない結果も示しています。私にとってこれはとても誠実な姿勢に見えます。というのも、「私たちのモデルはあらゆる面で他より10倍優れている、これが現実だから受け入れるしかない」といった主張ばかり聞かされてきたからです。でもここでは違うんです。
彼らはエージェント機能において非常に優れています。実際、このエージェント部分で私は本当に驚かされました。これからその内容をお見せしたいと思います。このベンチマークは非常に現実的だと思います。彼らが実際に秀でている分野を正確に反映しているようです。
コーディング性能は良好ですが、突出しているわけではありません。動画処理では他のモデルとほぼ同等です。画像生成では良好ですが、いくつかのモデルには及びません。彼らが強調している主な強みは、ビジョン機能を持ったプログラミングが非常に得意だということです。特にフロントエンドインターフェース、つまりウェブページの作成が得意だと述べています。
会話から、インタラクティブなレイアウトやスクロールで発動する高度なエフェクト付きアニメーションを作成できるそうです。非常に興味深いですね。実際に作成されたものをお見せします。いくつか例を挙げていますが、スクロールに応じて画面が反応し、ウェブサイトがインタラクティブに動作する様子がわかります。
このようなインタラクション例が複数あり、とても素晴らしいと思います。また、画像や動画を送信すると、それを見て分析し、ウェブサイトに変換する機能についても言及しています。これについても後でテストしてみます。巨大な迷路を解く例まで示されていて、この迷路の通路は非常に細かいので、皆さんには灰色の画面にしか見えないかもしれませんが、ズームすると迷路が見えてきます。これを送信すると、Pythonでプログラムを書いて迷路の解答を見つけ出し、複雑な経路の中を進む能力を示しています。
ただし、白黒画面にPythonを使ったのなら、ある意味ズルをしているとも言えます。そうすれば簡単ですからね。
エージェントスウォーム技術の革新
そして彼らが力を入れて強調している2つ目のポイントが、このSwarm、つまりエージェントの群れです。強化学習で並列エージェントをトレーニングしていると説明しています。K2は最大100のサブエージェントの群れを自己管理し、事前定義された関数や手動で作成されたワークフローなしに、最大1500ステップの協調作業を並列で実行することを学習します。
このエージェントスウォームというのは本当に凄いことになりそうです。私の修士研究はマルチエージェントシステムで、この群れの概念も含まれていました。群れが機能する様子を考えると、まさに分散型プロセスなんです。多数のエージェントにタスクを与えると、何千もの微細な協調作業が行われ、最終的にはすべてが意味を成すのですが、プロセスの実行中は混沌としているように見えます。でも全てが理にかなっているんです。
ここで彼らは何が起こっているかを示しています。オーケストレーターがいて、物理学研究者、生命科学研究者、人類学研究者、ファクトチェッカー、プログラマーなど様々な専門家エージェントと対話します。このオーケストレーターがこれらのエージェントを調整して、様々なタスクを実行させます。タスク1、タスク2、タスク3、タスク4という具合に進んでいきます。これらのタスクとサブタスク、エージェントとサブエージェントが、最終結果に向かって群れとして改善を重ねていくんです。
例えばBrowser Compを見てみると、エージェントスウォームはClaude Opus 4.5より10倍優れた性能を示しており、約80%のスコアに対してClaudeは37%です。これは本当に興味深いですよね。そして青い点で示されたエージェントスウォームの比較を見ると、右に行くほどタスクが複雑になり、赤で示された単一エージェントと比較すると、エージェントスウォームでの実行時間は常に低く保たれています。なぜなら全てを並列化しているからです。
この違いがわかりますか。これがエージェントスウォームの主な考え方です。多数のエージェントが並列でタスクを実行するんです。並列タスクが増えるほど、完了時間は短くなります。ただしこれは必ずしもコストが安くなるわけではありません。わかりますか。単一エージェントが一つずつステップを実行していくと、非常に時間がかかります。エージェントスウォームなら並列化できるので、はるかに高速になります。
オフィスタスク、特にスプレッドシート作業でも大幅に改善されたと述べています。例えばオフィスタスクでは71%という優秀なスコアを記録し、K2 Thinkingと比較しています。一般的なタスクでも39%のスコアで、K2 Thinkingの14%を上回り、46%のケースで同点でした。
実践テストの開始
それでは実際のテストを行って、どのような結果が出るか見ていきましょう。まず気づくのは「エージェント」と書かれたボックスがあり、現在全てのモデルがバージョン2.5になっていることです。高速応答2.5、Thinking 2.5、2.5 Agent、そしてベータ版の2.5 Agent Swarmがあります。通常はInstantとThinkingの2つだけで、AgentやAgent Swarmはありませんから、合計4つのオプションがあることになります。
例えばウェブサイトをクリックすると、Agent Websiteが表示されます。他も同様で、ドキュメントはAgent Document、スライドはAdaptiveまたはVisualのAgent Slide、スプレッドシートもAgent Spreadsheetとなっています。ですから注意が必要です。単にエージェントをクリックするのと、こちらをクリックするのでは結果が異なります。
マトリックス風ペットショップサイトの生成
最初のテストはマトリックススタイルのサイトでした。まずK2 Thinkingを使ってみました。この場合、通常のサイトが生成されます。「マトリックススタイルの標準的なペットショップサイトを作って」と指示すると、エージェントを使わずに通常のコードが生成されます。
結果はこちらです。マトリックスのシンプルなサイトで、通常のThinkingを使ったのでよくあるような内容になりました。「ペットを目覚めさせよう」といった常套句があり、これまで何度も見たような感じです。「ショップにアクセス」「予約開始」などのボタンがあります。サイトは興味深く、見栄えも良いですね。これだけでも十分興味深く、使える内容です。ただしかなりシンプルではあります。
コードを見ると、全てが1つのファイルにまとめられています。それだけです。2つ目のテストでは「マトリックススタイルの標準的なペットショップサイトを作って」というプロンプトを使いましたが、今回はエージェントを使いました。ただしウェブエージェントではなく、一般的なエージェントです。ThinkingとAgent、そしてWeb Agentの違いを確認したかったんです。
一般的なエージェントの結果はこちらです。非常に興味深く、かなりシンプルで、ホーム、概要などのページがあります。犬の画像があり、レーザーがスキャンしているような効果も見えます。猫の画像も登場しています。通常サイトには画像を含めないことが多いんですが、ここには含まれていて興味深いですね。かなりシンプルで扱いやすい内容です。「当社のサービス」として獣医相談、入浴やグルーミングなどが紹介されています。これもなかなか良い出来で、非常に興味深いです。
Web Agentによるインタラクティブサイト生成
では、ウェブエージェントを使うとどうなるでしょうか。これです、皆さん。あのインターフェースの魔法が起こるんです。スクロールしていくと、スクロールに応じて画面が変化していきます。犬が表示され始めます。画像も生成されています。
これは私がマウスでスクロールを操作している様子です。生成された犬の画像が表示され、「治療モジュール」などが出てきます。スクロールを続けると、サングラスをかけたマトリックス風の猫が登場します。「私の猫がこんなにシステムに同調したことはない」「完璧なサービス」といったテキストが現れます。
さらにスクロールすると、サングラスをかけた犬も登場します。わかりますよね。このようなインタラクティブな体験を作り出せるんです。パッケージを選択し、価格を確認し、予約を入れ、サブスクリプションを選択できます。スクロールしていくと犬が登場し、グリッドに入り込み、商品を選択して購入することができます。全てマウスのスクロールで操作できるんです。とても興味深いですね。
このタイプのインタラクティブサイトが万人に必要かどうかはわかりませんが、とにかくこういったことができるということをお伝えしておきます。画像がインタラクティブに動くウェブサイトを作りたい場合、彼自身が生成した画像が表示されます。「未来的な緑色のネオングラスをかけた穏やかなゴールデンレトリバーの肖像」といった感じです。これらの犬の画像は全て彼が考え出したものです。私がアップロードしたわけではなく、全て彼が独自に考案したんです。サングラスをかけた犬もそうです。彼が自分の頭から生み出したアイデアなんです。この犬なんか本当にかわいらしいですね。
どうですか。それから私はチャンネルのロゴや自分の写真、チャンネルへのリンク、いつもイントロで話しているエージェントコースへのリンク、機械意識に関するページへのリンクなどを使ってテストを始めました。
チャンネル情報を活用したサイト生成
彼はこのような非常に興味深いサイトを生成してくれました。実際には改善の余地がありますが、Claude Bot、Gemini、Llama 3.1など、チャンネルの最近の動画を掲載しています。非常に興味深いですね。このロゴはおそらく変更したいと思います。画面中央で巨大すぎて、全ての注意を引いてしまっていますから。実際にはロゴにそこまで注意を引く必要はないんです。でも動画は正確に配置され、リンクも正しく設定されています。
クリックすると動画に飛びます。ご覧のとおり、これは昨日の動画で、本当に最新の情報が反映されています。そしてコース情報を追加すると、エージェントコースと機械意識の完全コースを分けて表示してくれました。コースにアクセスすると、オンラインAIエージェント、AIエージェントの連鎖、分類器などのモジュールとレッスンが適切に分類された専用ページが作成されます。機械意識についても同様に、動画を正確に取得し、専用ページに配置しています。正直に言って、これは素晴らしいと思います。
画像からのサイト変換テスト
彼らは画像からサイトを生成するのが得意だと言っていたので、Geminiで画像を生成してサイトに変換してみました。これはNano Bananaで作成されたもので、私のサイトをベースにしています。そしてKimiはこのようなサイトに変換しました。
興味深いですね。「IMG二乗でAIをマスターしよう」というタイトルです。写真は新しく作成され、背景画像も新しく作成されました。しかし非常にインスパイアされた内容になっています。完全に同じではありませんが、かなり影響を受けています。Twitter、Facebookなどのリンクもあります。全て正確です。
正直に言うと、もっと正確で精密な変換を期待していました。例えば、Geminiバージョンでは「IMG二乗」のロゴが美しく作られていました。輝いていて、まさにこのようにしたかったんです。でもここでは単純なテキスト変換になってしまいました。かなり地味で平凡な感じです。
とはいえ、この写真にあるものはここにもあります。人物がいて、同じテキスト、ロゴ、同じメニュー、同じ動画と同じリンクがあります。
ペリカンの自転車とゲーム生成テスト
ペリカンのテストでは、かなり良い結果だったと思います。このペリカンはベンチに座っていないという点だけが大きく間違っていますが、それ以外では、ペリカンはかわいらしく、シーンには芝生があり、自転車の風、自転車自体もしっかり描かれ、雲もあり、帽子までかぶっています。アニメーション風でかなり丸みを帯びた興味深い仕上がりになっています。
このペリカンバージョンは非常に良い出来だと思います。少し傾いていて、バランスが悪いだけです。ペリカンは自転車をもっとしっかり握って、足をペダルにもっと適切に置く必要があります。でも背景があり、ペリカンがしっかり描かれ、自転車も正確で、これは現在見られるペリカンバージョンの中で最高のものの一つでしょう。
カーレースゲームについて、興味深いことに、同じテストをThinkingで行いました。このバージョンはThinkingを使ったもので、エージェントバージョンではありません。ゲームには音がついています。特殊効果を追加したからです。正直言うと少し耳障りな音ですね。でもオフにできます。
音を無効にして、動作を確認しましょう。車は動いています。シーン中央でドリフトしている電車があります。木があり、全て正常に機能しています。木に衝突するか見てみましょう。衝突判定はありませんでした。コインを集めることはできます。速度計が75km/hを示しています。正確です。電車にぶつかってみましょう。よし、電車は爆発しました。AIにもぶつかってみましょう。AIも爆発しました。
このバージョンはThinkingで作られたもので、エージェントではありません。これは明確にしておく必要があります。これは既にかなり高度なカーレースゲームバージョンだと思います。特に一発で作られたことを考えると。修正は一切行わず、ただ指示を送っただけです。爆発があり、音があり、全て揃っています。この音に関する行は昨年のプロンプトにはなかったんですが、今はあります。
Agent生成による進化したゲーム
ではエージェントに作らせるとどうなるでしょうか。エージェントで作られたバージョンがこちらです、皆さん。注目してください。
音楽が流れています。BGMですよ。わかりますよね。既に音楽がついているんです。車を見てください。後ろから煙が出ています。音は消しておきます。そうしないと集中できませんから。
道路を走ると、見てください。車がドーナツターンを始めます。カーブを曲がるとドリフトします、皆さん。興味深いですね。これはドリフト機能を持つ初めてのバージョンです。走行中の車から煙が出る初めてのバージョンです。何も要求していないのに、彼が喜んで追加してくれたんです。
Shiftキーを押すとターボがあります。ターボ発動です。Shiftを押している間、ターボを消費していきます。これは今まででダントツに最高のバージョンの一つだと思います。木にぶつかると正しく爆発します。電車にもぶつかると爆発します。全て正確に機能していますね。
爆発、煙、車でドーナツターンができます。そしてドーナツターンの跡が地面に残ります。興味深いですね。今回Kimiは本当に素晴らしい結果を出しました。非常に興味深い仕上がりです。地面の跡を見てください。時間とともに消えていくようです。とてもクールです。
このバージョンは正直言って非常に優れています。繰り返しますが、プロンプトを1つだけ送信し、彼が最初のバージョンを作成しました。バージョンを見てください。バージョン1しかありません。バージョン2も何もありません。ただ送信して、これを作ってくれて、それだけです。
かなり時間がかかったことは認めます。速くはありませんでした。でも音楽もあり、全て揃っています。正直に言って、とても気に入っています。これがヘッドライトだと思います。この赤いライト、車輪付きの車、窓、全てがあります。これは素晴らしいです。あとはAIに勝つ方法を学ぶだけですね。AIはとても上手にプレイしています。私は下手ですが。
リオデジャネイロのVoxel Art生成
エージェントで作成したリオデジャネイロのテストもあります。Voxel Artの風景で何が起こるか見てみましょう。プロンプトは少し違いますが、これは今まで作成した中で最高のバージョンの一つだと思います。
キリスト像は少し変ですが、キリスト像があります。ここにケーブルカーを配置しました。実際の正しい名称はゴンドラですね。ゴンドラがあります。見てください。ゴンドラがシュガーローフマウンテンを上下しています。これはすごいことです。
昨年の生成では、これがシュガーローフマウンテンなのかどうか分からなかったので、2026年のプロンプトにゴンドラを追加する必要がありました。今では確実にわかります。これがシュガーローフマウンテンです。そして要求もしていないことまでやってくれました。この部分はグアナバラ湾だと言っています。全て正確です。とても創造的です。建物があり、街があります。
確かに街と建物が海の上にあるのは、建物を水の上に配置することは推奨しないかもしれませんが、彼がそうしたんです。とにかく、これは最高の生成だと思います。最も美しいわけではないかもしれませんが、最も完全です。そしてシュガーローフマウンテンでゴンドラが上下するアニメーションがある初めてのバージョンです。
これについてどう思うか、コメントしてください。
3D仮想都市の生成
最後に、44のタスクを含む仮想都市のプロンプトも一発で生成してくれましたが、正直これは既に非常に良い出来だと思います。2回目、3回目の調整プロンプトは行っていません。まだやるべきことはたくさんあります。この3D都市のプロンプトは巨大で、多くの要素があります。キャラクターを探す必要があり、車に乗ることができ、信号機があり、全て機能しています。
Fキーを押すと車に乗り込みます。全て正しく機能しています。Vキーを押すと内部視点に切り替わります。もう一度Vキーを押すと外部視点に戻ります。そして時間が無くなりそうです。おそらくキャラクターを見つけてミッションをこなし、オブジェクトを受け取って統合することはできないでしょう。
良くないのは、夜になるとほとんど見えなくなることです。そこに、箱を頭に乗せたキャラクターが見えるでしょうか。彼が配達するオブジェクトを受け取る人物です。そしてパッケージを持った四角い頭のキャラクターを見つける必要があります。オブジェクトを受け取って彼に届けるんです。でもこのマップはとても広大で、一人を見つけてからオブジェクトを別の人に届けるまでに多くの時間がかかります。
エージェント機能の制約と今後の展望
言及する価値があるのは、変更を依頼すると非常に時間がかかることです。エージェントで作業すると、エージェントはかなり遅いんです。ですから小さな変更を繰り返し行うのはあまり魅力的ではありません。そしてエージェントには次の詳細があります。使用するにつれて消費されていきます。無限のエージェントがあるわけではないんです。
興味深いと思ったのは、エージェントで作業して、その後Thinkingで変更を続けられるのではないかということです。でもThinkingを選択すると、新しいチャットで行うよう求められます。ですから、まだ改善が必要な部分があります。エージェントで始めてThinkingで簡単な作業を続けられるのが理想的でしょう。エージェントに難しく複雑な作業を最初にやらせて、その後Thinkingで全てを解決するんです。でもこのケースでは方法がありません。エージェントで始めたらエージェントで終わるしかなく、選択肢はありません。
ただし、ここの外でこれを使いたい場合は、例えばOpen Routerを使用してAPIを通じてこのモデルを使用し、外部エージェントを使うことができます。このモデルを取得して外部で使用できるんです。
どうですか。私は正直に言って、このドーナツターンとドリフト機能のバージョンが素晴らしいと思います。大好きです。価値があります。とても興奮していますし、中国が2026年バージョンでこのようなことを始めるとは想像していませんでした。でも彼らはやり遂げたし、事態は加速しています。
2026年の中国AI競争の展望
もしこの年がClaudeの加速で始まり、Kimi K2.5の加速で始まり、さらに中国がNvidia H200チップ40万枚の輸入を承認したことで始まっているなら(昨年は禁止されていたものが今年は許可された)、今年中国がAIでより強力な地位を築き、より競争的な年になる可能性が高いです。実際、Dario Amodeiがこの米国の承認を激しく非難しており、今では中国が購入を始めて効果が出始めています。
覚えているかもしれませんが、当初中国は承認されていましたが、疑念を抱いていたため購入していませんでした。しかし今では疑念が晴れたようで、ByteDance、Alibaba、Tencentが交渉を開始しています。
これについてどう思うか、下のコメント欄で教えてください。そしてこのような動画を見続けるためにチャンネルをサポートしたい方は、メンバーになってください。メンバーはインテリジェントエージェントに関する限定動画と先行公開動画にアクセスできます。それでは、「いいね」をお願いします。ありがとうございました。


コメント