新登場 Kimi K2 Thinking – 最高のオープンモデルか?

LLM・言語モデル
この記事は約10分で読めます。

中国のMoonshot AIが開発したKimi K2 Thinkingモデルは、オープンソースの推論モデルとして、OpenAI、Anthropic、Googleといったプロプライエタリモデルに匹敵、あるいはそれを凌駕する性能を示している。1兆パラメータのMoE(混合エキスパート)アーキテクチャを採用し、320億パラメータが実際に稼働する本モデルは、長時間の思考チェーンとツール呼び出しをインターリーブして実行できる点が特徴である。200~300回の連続的なツール呼び出しを実行でき、検索ツール、Pythonコード実行、MCP(Model Context Protocol)サーバーとの統合など、エージェント機能に重点を置いた設計となっている。量子化認識学習により4ビットでも高性能を維持し、100万トークンあたり2.5ドルという極めて低価格で提供される点も注目に値する。数学オリンピック問題の解答や複雑なリサーチタスクの実行など、長期的な計画と適応的推論を必要とするタスクにおいて優れた能力を発揮する。

NEW Kimi K2 Thinking - Best Open Model?
In this video, I look at Kimi K2 Thinking from Moonshot AI, the most recent fully open reasoning model that scores highe...

Kimi K2 Thinkingの登場と中国AI企業の躍進

今月で、私が中国企業のLLMを初めて取り上げてから2年が経ちました。当時、人々はこんなことを言っていました。中国のモデルがLlamaモデルほど優れることは決してないだろう、サンフランシスコから出てくるモデルに匹敵することはないだろう、などといった具合です。

それから2年が経った今日、Kimi K2 Thinkingの登場を目にしています。このモデルは、すべてのLlamaモデルや世界中の他の場所から出ているオープンモデルを打ち負かしているだけでなく、Anthropic、OpenAI、Googleのプロプライエタリモデルに対して大きな競争を挑んでおり、しばしばそれらを上回っています。

Kimi K2モデル自体は新しいものではありません。オリジナルは今年7月に登場しました。私は9月にそのアップデート版を取り上げました。これは、通常の指示チューニングや教師あり微調整で訓練された基本モデルから、拡張された思考チェーンを実行するように訓練されたこれらの思考型モデルを作るまでに、どれだけの努力が必要か、そしておそらくどれだけの計算量が必要かを本当に示しています。このケースでは、ツール呼び出しとインターリーブされた思考チェーンを実行するように訓練されています。

テスト時スケーリングとツール統合の革新

このモデルを見てみると、テスト時スケーリングに明確に努力が払われていることがわかります。興味深いことに、それは長い思考チェーンだけでなく、ツール呼び出しステップにも焦点を当てています。私にとって最も魅力的なことの一つは、このモデルが多くのベンチマークでAnthropicとOpenAIを一貫して打ち負かしているというだけでなく、このモデルが実際にインターリーブされた思考チェーンを実行するように訓練されているということです。

これを見て、それが実際に何であるかを確認してみましょう。ここにある数学の問題の入力例を見ると、基本的に23の異なるインターリーブされた推論とツール呼び出しを使用して正しい答えを導き出すプロセスを説明していることがわかります。

下にスクロールしてこれを見ると、長い思考チェーンがあり、その後に検索ツールのようなツールが続き、その応答に基づくさらなる推論が続き、複数の検索呼び出しが行われ、最終的にPythonを使用してこれを実際に実行していることがわかります。

Moonshot AIプラットフォームとMCPサーバー統合

これはMoonshot AIプラットフォームに入ると本当に裏付けられます。MoonshotはKimi K2を実際に作っている会社です。ここでは、モデルを実行できるだけでなく、実際にツール呼び出しやMCPサーバーさえも追加できることがわかります。モデルがサーバーサイドでそれらを使用して、望む応答を得ることができるようにするためです。

これは本当に、多くの基盤モデル企業で見られている全体的な概念を強調しています。私たちはLLMから応答を受け取るだけの呼び出しから、検索ツール、コードサンドボックスを実行するところへと移行しており、さらには独自のMCPサーバーをサイドに配置してプロセスをよりエージェント的にすることができます。

Moonshotは明らかに、これがKimi K2モデル、特にこのKimi K2 Thinkingモデルの大きな特徴の一つであることに焦点を当ててきました。彼らは、humanity’s last examのテキスト版において、実際にOpenAIとAnthropicを打ち負かしていることを示しています。

私たちは明らかにこれを見ています。実際に彼らのサイトに行くと、典型的な思考モード、非思考モードなどだけでなく、たくさんのツールがあることがわかります。典型的なディープリサーチャーのものやコンピューター使用オプションがあり、データ可視化、スライドなどの特別なモードもあります。

さらに、KimiはAnthropic形式のClaude APIをサポートしており、Claude Codeをこのモデルに接続できます。これは、バックエンドでコードサンドボックス統合やその他のエージェントツールが必要な場合の重要な要素になってきています。

コーディング能力とエージェント機能

エージェントコーディングを見ると、このモデルが明らかに怠け者ではないことがわかります。ただし、最速のモデルではないようです。したがって、GLM 4.6 airモデルを待っているのと同じように、将来的にこれの高速化バージョンが登場するかもしれません。しかし明らかに、これらのコーディングとエージェントスキルは、トッププロプライエタリモデルだけでなく、トップオープンモデルの標準にもなりつつあります。

ここで興味深いと思うことの一つは、Kimi Thinkingが200~300の連続的なツール呼び出しを実行できると述べていることです。これは、長期的な計画と適応的推論によって駆動されています。これは彼らがモデルへの訓練に高度に焦点を当てているように見えるものです。モデルがそのようなツールを使用できるだけでなく、推論をインターリーブして、曖昧でオープンエンドな問題を明確で実行可能なサブタスクに分解できるようにするためです。

これは間違いなく興味深いもので、これがどれだけうまく機能するかを見るのが楽しみです。このモデルがmeterベンチマークでどれだけうまく機能するかを見ることができればよかったと思います。それは長期的なタスクを測定するものです。

実践例:Kimi リリース日程の調査タスク

例を示すために、基本的にあまり複雑ではないタスクを与えました。MoonshotからのKimiリリースのすべての日付を見つけてください、というものです。

基本的にToDoリストを書いているのがわかります。計画を書くことから始めました。それをチェックしていくのがわかります。それから検索を開始し、徐々に各項目を検索していく中で、それらをPythonに追加し、これらを書き留め始め、再び計画に戻っています。

最終的に、実際にウェブサイトをまとめ始め、画像を作成し、そのウェブサイトをデプロイして実際に見られるようにする段階にまで至っています。サイト上に情報の書かれた例がありますが、Kimi Okay Computerから作成されたこのウェブサイトもあります。

これを下にスクロールすると、Moonshotが設立されたのはわずか2年半前ですが、そこから初期のKimiチャットボットのリリース、さまざまな異なるアップデート、Kimi 1.5を含むものまで、素敵なタイムラインがあることがわかります。Kimi 1.5は、DeepSeek R1が出たのとほぼ同時期に登場したため、おそらくそれに値する評価を得られなかったかもしれません。

Kimi K2の発売、Kimi K2のアップデートまで続いています。Kimi K2 Thinkingが欠けているように見えますが、今日出たばかりであることを考えると、それは大目に見てあげられると思います。しかし、これはすべて、MoonshotからのKimiリリースのすべての日付を見つけてほしいという最初のプロンプトから数分で作成されました。そして、Kimi Okay Computerを使ってほしいと伝えました。下に見えるように。

数学オリンピック問題への挑戦

まだ実行が終わっていないもう一つは、国際数学オリンピックの問題の一つを与えたもので、20分以上考え続けています。タスクを続けるために2回「続ける」を押さなければなりませんでした。この特定の問題に対して実際に正しい答えにたどり着くのか興味があります。Gemini Deep Thinkモデルはこれができましたが、実行して結果を返すのに約20分かかりました。

モデルの詳細仕様とアーキテクチャ

Hugging Faceのモデルカードに入ると、これに関する詳細を見ることができます。これはオープンモデルであることを強調しています。誰でもこれをダウンロードできます。誰でもこれを提供できます。これはプロプライエタリモデルのようにロックダウンされていません。

ここにあるいくつかの主要な統計を見ると、これがディープシンキングタスクとツールオーケストレーションタスクを行うために作られていることを強調しているのが再びわかります。ここでもう一つ興味深いのは、このバージョンが量子化認識学習で訓練されているということです。これにより、4ビットでこれを実行しても非常に良い結果を得ることができます。

この全体のサイズは、1兆パラメータの混合エキスパートモデルです。実際に稼働しているのは320億パラメータのみで、間違いなく、アクティブパラメータと総パラメータの比率が20対1、30対1の範囲にあるという私たちが見ている比率に適合しています。

創作能力とRLVRの進化

最後に締めくくりとして、このモデルが創作やフィクションなどのことができることを強調しているのは興味深いと思います。これまで、RLVR(検証可能な報酬による強化学習)で訓練されたモデルは、数学やコードのようなことには非常に優れていますが、創作のようなことにはそれほど優れていない傾向がありました。これは、プロプライエタリモデルを多くのオープン思考型/RLVRモデルから区別してきたことの一つでした。

利用方法と価格設定

このモデルを自分で試したい場合は、現時点でいくつかのオプションがあります。Moonshot AIから直接試すことができます。彼らのAPIは、100万トークンあたり60セントの入力と2ドル50セントの出力を請求しています。ターボバージョンを使用している場合は、入力が1ドル15セント、出力が8ドルに上がります。Moonshot AIから直接使用したくない場合は、Open Routerを介して使用できます。

次の数日間で、これに対するかなりの数のプロバイダーが登場すると予想されます。しかし、Open Routerを介して、または彼らから直接ではなく、Moonshotから直接取得していない場合は、実際に支払っているものを取得していることを確認してください。Moonshotが行ったことの一つで、非常に興味深いと思うのは、このK2ベンダー検証者という全体的なアイデアです。基本的に異なるプロバイダーを比較し、Moonshot自身からの制御バージョンと比較して、どれだけうまくモデルを提供しているかを評価しました。

これは2つ目だと思います。これは数週間前に出ましたが、最初のものは、多くのプロバイダーがMoonshotが実際に提供しているモデルの基準に近いところを提供していないことを本当に示しました。おそらく過度に量子化しているか、セットアップに他のエラーがあったためです。他のプロバイダーがKimi K2 Thinkingへのアクセスを提供し始めるにつれて、これがどのように展開するか興味深いところです。

長期的エージェントの可能性と今後の展望

私たちは今、トークンのコストが、そこから得られるインテリジェンスの量に対して非常に安くなっている地点に本当にいると思います。私たちは本当に長期的エージェントと、それらで実際に何を構築できるかに焦点を当てるべきです。

これは私が過去数ヶ月間焦点を当ててきた分野であり、このようなモデルで、人々がこれまでできなかったことをただたくさんできるエージェントを作成するのを見ることになると思います。

とにかく、モデルを試した場合は、それについてのあなたの考えをコメントで教えてください。100万トークンあたりわずか2ドル50セントで最先端レベルのインテリジェンスを持つことについてどう感じますか?そして、あなた自身はそれで何をする予定ですか?いつものように、この動画が役に立ったら、いいねとチャンネル登録をクリックしてください。次の動画でお話しします。それではまた。

コメント

タイトルとURLをコピーしました