この動画は、中国のMoonshotが開発したKimi K2について詳しく解説している。Kimi K2は優秀なコーディングモデルであると同時に、約1ヶ月前にリリースされた最高水準のディープリサーチャー機能を備えている。単一の自律エージェントとして、リアルタイム検索、Webブラウジング、コード実行の3つのツールを並列で動作させることができ、最大23の推論ステップと200のURL探索が可能である。強化学習によるエンドツーエンド訓練により、コンテキスト管理や自己修正などの新たな能力を獲得している。他社のディープリサーチツールとの比較テストも実施され、その性能と特徴が詳細に分析されている。

Kimi K2の革新的なディープリサーチャー機能
Kimi K2は優秀なコーディングモデルですが、約1ヶ月前にリリースされた最高水準のディープリサーチャー機能も備えています。私は他社のディープリサーチャーと比較テストを行い、これまで見たことのない非常に興味深い機能を発見しました。
詳細は動画の後半でご紹介しますが、これは多段階検索と推論に優れた単一の自律エージェントです。このシングルエージェントシステムには3つの異なるツールがあります。1つ目はリアルタイム内部検索ツール、2つ目はインタラクティブなWeb作業用のテキストベースブラウザツール、そして3つ目は自動コード実行のためのコーディングツールです。これら3つのツールをすべて並列で実行できるのです。
また、このエージェントシステムのコンテキスト管理についても言及されており、これは現在非常にホットな話題となっています。
エージェントシステムをめぐる議論
エージェントシステムについて非常に興味深い議論が起こっています。例えば、Devinの開発者であるCognitionは「マルチエージェントシステムを構築するな」と主張しています。一方、Anthropicは特に検索関連タスクにマルチエージェントシステムの使用を推奨しており、Anthropicは彼らのUIで最高の検索ベースツールの一つを持っていると思います。
Cognitionは主にコーディングに焦点を当てているため、シングルエージェントの使用が理にかなっているかもしれませんが、Moonshotがkimi researcherで検索関連タスクにシングルエージェントシステムを使用することを決定したのは非常に興味深いことです。
長期タスク処理能力と性能
このシステムは長期的なタスクを実行できます。最大23の推論ステップを実行し、タスクあたり最大200のURLを探索できるとされています。しかし最も興味深いのは、このリサーチャーが約1ヶ月前に最先端だったことです。
Humanity’s Last Examにおいて、新しいGrok 4を除く他のすべてのディープリサーチツールを上回る性能を示しました。他のベンチマークでも最先端の性能を発揮しています。
私は個人的に、彼らがどのようにしてこれを実現したのかに興味を持っています。彼らは研究目的に特化して強化学習を使用し、このエンドツーエンドエージェントシステムを訓練しました。彼らのアプローチは、ディープリサーチのために見てきた他のマルチエージェントワークフローとは大きく異なります。
強化学習による革新的訓練手法
彼らは「エンドツーエンドエージェント強化学習は、問題を総合的に解決する単一モデルを訓練する」と説明しています。クエリが与えられると、エージェントは多数の可能な戦略を探索し、正しい解決策に対して報酬を受け、これらの完全な軌跡から学習します。訓練中、エージェントが改良により多くのステップを踏むにつれて、その性能が向上していることが実際に確認できます。
強化学習を通じて、彼らは新しいエージェント能力がいくつか出現したと主張しています。1つ目は、複数のソースからの矛盾する情報に直面した際、Kimmy researcherは反復的な仮説改善と自己修正を通じて不整合を解決することです。
彼らはこれらを新興能力と呼んでいます。これについてはまだ議論の余地がありますが、コンテキスト劣化から容易に回復できるようです。2つ目は、Kimmy researcherが一見簡単な質問に対しても慎重さと厳密さを示すことです。回答前に意図的に追加検索を実行し、情報をクロスバリデーションします。
これは非常に興味深い観察です。通常、これらのLLMシステムは応答生成時に非常に自信を持っていますが、このエージェントは検索のために強化学習で特別に訓練されているため、非常に慎重であり、これはディープリサーチャータイプのエージェントに求められる能力や行動です。
コンテキスト管理の革新
私が見た他のシステムと比較していくつかの非常に興味深い行動を示す自分のテストを見る前に、このコンテキスト管理部分を見てみましょう。彼らは「長期的な研究軌跡には大量の観測コンテキストが含まれる可能性があり、メモリ管理のないナイーブなエージェントは10回の反復以内で制限を容易に超える可能性がある」と説明しています。
これは最大の問題の一つです。エージェントがマルチターン会話や検索を行う場合、多くの無用な情報でコンテキストウィンドウが埋まってしまいます。彼らはエージェントを訓練して、重要な情報を保持しながら不要な文書を破棄できるコンテキスト管理を可能にしました。
モデルまたはエージェントがどの情報が関連性があるかを決定し、関連性のない情報を破棄し続ける、ある種のコンテキストプルーニングアプローチを導入しています。その結果、最大50回の反復まで実行でき、30%多くの信頼性のある反復を使用し、これによりはるかに長期的なタスクを実行できるようになったと思います。実際に私がKimmy researcherを使用した際、使用した他のディープリサーチャーと比較してはるかに長い時間がかかり、本当に興味深い結果を生み出すことを個人的に観察しました。
API プロバイダー比較テスト
今度の動画の一つで、Kimi K2をホストしているさまざまなAPIプロバイダーを調査したいと思いました。私の仮説は、異なるAPIプロバイダーが異なる量子化レベルでこれをホストしており、量子化レベルが得られる推論精度に影響があるかどうかを確認したいということです。
そのビデオにご注目ください。ここで、私はこのタスク説明を提供しました。これはデータ収集を含みます。さまざまなAPIプロバイダーを調査し、量子化に関連する利用可能な情報があるかどうかを把握してください。システムが1秒間に生成するトークン数やサポートするコンテキストウィンドウに関する情報、および価格関連情報、そしてこれらの異なるAPIプロバイダーの使用方法を教えてくれるコードベースもあります。
同じタスクをディープリサーチ機能を有効にしたGemini Open I3に与えました。これはディープサーチ機能付きのGrokです。それからKimmy、Perplexity、そして検索機能を有効にしたClaudeを使用しました。また、Manisも含めました。
私のリクエストでは、実際に結果を表形式にするよう求めました。Geminiはかなり良い仕事をしています。公式Moonshot、Grok、Deep Infra、Fireworks、Together AI、Open Router、Hugging Faceをリストアップしました。引き出した情報も正確です。ただし、1秒間あたりのトークンについては確信が持てません。それから多くの他の情報も追加しました。例えば、これはコード生成のための仮想的な結果表Aです。
これらの異なるAPIに対してテストしていないコードを書きましたが、非常に包括的なレポートを提供しています。これがOpen AI O3によって生成されたレポートです。再び、非常に似たモデルまたは推論プロバイダーがリストされています。今回は、他のものが見つけることができなかったSilicon FlowまたはSilicon Cloudも含まれていました。そして再び、見つけた情報は一般的に正確であるようですが、この場合、1秒間あたりのトークンに関しては、例えば公式APIでは1秒間に1から2.5から1から5トークンと言っています。
Open Routerでは約200トークン/秒と言っており、現在Grokによって動作していると思うので、これは正確であるようです。また、量子化レベルもリストしています。Geminiは実際にその情報を提供しませんでしたが、異なるプロバイダーが異なる量子化でホストしているようです。
これらの異なるプロバイダーを実際にテストするのは興味深いでしょう。言ったように、おそらくその後続ビデオを作成するつもりです。Grokディープサーチは表を提供しませんでしたが、すべての情報をここにリストしました。見つけた追加のAPIプロバイダーはNovaでした。Open Routerはこれを使用していますが、興味深い観察でした。一般的に量子化情報を見つけることはできません。
これがPerplexityからの結果です。非常に似た価格情報で、これらの異なるディープリサーチャー間で一貫しているようです。量子化情報はまったく提供していませんが、見つけたプロバイダーはOpenAIが言っていることと本当に一貫していました。
Claude Sonnetはgrokルートを行きます。すべてをここにリストしました。実際にテーブルを作成することを気にしませんでしたが、GPUをレンタルしてホストできるrunpodのようなものもリストしていますが、彼らはAPIプロバイダーではありません。
これがMenusからの出力です。Grok Together AI Fireworks Moonshot Parasail、Deep Infraと他のいくつかが欠けていると思います。
Kimmy リサーチャーのユニークな特徴
これがKimmyからの結果で、KimmyやDeepSeekの任意のモデルについて実際に気に入っていることの一つは、研究を行う際に英語のウェブサイトと共に中国のWebリンクも使用していることです。これは非常に優れた機能です。なぜなら、私たちが触れることのない多くの情報が中国のウェブサイトに含まれているからです。
全体的に、他のAPIプロバイダーやディープリサーチャーで見たものと非常に似ています。ここを見ると、すべてをリストし、これらのそれぞれが能力の面で正確に何を持っているかの非常に詳細な情報を提供しています。
これは非常に詳細なリストです。他のディープリサーチャーで見たほぼすべての異なるAPIプロバイダーがあります。URLがあり、価格情報があります。一部については価格情報を見つけることができず、他のいくつかは実際にその情報を把握できたので少し奇妙です。また、ほとんどについて1秒間あたりのトークンは不明です。
Grokのようなものについては、約200トークン/秒であることはすでに知っているので、それを実行できたはずです。また、量子化レベルに関する情報もありませんが、これは少し奇妙です。しかし、それは生成するすべてのディープリサーチの最後に何かを行い、これはこのインタラクティブウェブサイトです。ManisまたはGensparkのように、実際に実行した研究に基づいてウェブサイトの形でレポートを作成し、これは他のディープリサーチプロバイダーから得られる一部の出力と比較して適切にフォーマットされており、実際にかなり優れています。
ここに要約があります。それから私たちが何を求めたかについて話します。Kimi K2に関する小さなセクションがあります。訓練に使用されたトークン数、コンテキストウィンドウ、使用されたオプティマイザーについて話し、どこかからの引用があります。「モデルのアーキテクチャはネイティブ推論のための重要なハードウェア要件を示唆しており、ほとんどのユーザーにとってホストされたソリューションが特に価値があることを意味している」と書かれています。
それから見つけたプロバイダーのそれぞれ、または実際にはその一部についてこれを作成しました。上位5つのみを選んだ理由はわかりませんが、公式プラットフォームを上位に置き、その後にサードパーティプロバイダーを置いているのがわかります。フォーマットはかなり優れています。
この表は、ウェブサイトで利用可能なレポートの一部として実際に生成するものと比較してはるかに詳細ではありませんが、実行するテストの種類に関する他の情報があります。
彼らは確実に作成するUIに対してRLしており、特に価格とさまざまなAPIプロバイダーの生成速度の面で、その発見により多くの詳細があることを実際に期待していました。OpenAIはその1秒間あたりのトークンを持っていますが、大幅にずれているように思えます。これらのウェブサイトの一部について、量子化レベルに言及しているかどうかを実際に調べましたが、一部の情報を見つけることができませんでした。
この場合、O3が幻覚を起こしている可能性があります。
利用制限と推奨事項
Kimmy researcherについて具体的に言うと、無料アカウントでは月に5回の検索を利用できると思います。これは、Geminiがおそらく最良のソリューションであることを意味します。なぜなら、他の何よりもはるかに多くのディープサーチを提供していると思うからです。ぜひテストしてみることを強くお勧めします。
また、K2は話すのがはるかに快適だということがわかりました。過度に従順なモデルではなく、これは非常に心地よい変化です。ぜひチェックしてみてください。この動画が役に立ったことを願っています。ご視聴ありがとうございました。いつものように、次回もお楽しみに。


コメント