中国のAI企業が発表したオープンソースの大規模言語モデル「Kimi K2」について紹介する動画である。1兆パラメータという巨大なモデルでありながら、トレーニング過程で従来見られるような不安定性が一切なく、非常に滑らかな学習曲線を描いたことが業界に衝撃を与えている。特にコーディング、エージェント機能、ツール使用において優秀な性能を示し、各種ベンチマークでClaude 4 OpusやGemini 2.5 Flashといった最先端のクローズドモデルに匹敵する結果を出している。完全オープンソースで提供されており、推論バージョンの開発も期待されている注目のモデルである。

Kimi K2の登場とその衝撃
これは次のDeepSeekモーメントになるかもしれません。中国のある企業がKimi K2という新しいオープンソースモデルを発表し、業界に衝撃を与えています。
この理由がここにあるグラフです。これはトレーニングロスカーブですが、人々はその滑らかさに大変驚いています。通常は、修正が必要な問題を引き起こすスパイクがたくさん発生するものです。
しかしKimiの場合、ほぼ完璧でした。そして特に素晴らしいのは、1兆トークンに基づいていることです。これは巨大なモデルです。彼らは新しいアプローチを思いつき、それを実装して成功しました。これまで見たことがないほど効率的だったDeepSeekと非常に似ています。しかし、それは素晴らしいことです。
非常によくトレーニングされました。しかし、それは実際に何を意味するのでしょうか?
Kimi K2の技術仕様と特徴
まず第一に、これは驚くほど優れた性能を発揮する大規模なオープンソースモデルです。Kimi K2は、320億のアクティブパラメータと1兆の総パラメータを持つ最先端のMixture of Expertsの言語モデルです。
そして、ここが重要なポイントです。これはMuonオプティマイザーで訓練されており、エージェント機能に細心に最適化されながら、フロンティア知識推論とコーディングタスクにおいて例外的な性能を達成しています。
つまり、コーディングにおいて信じられないほど優秀で、マルチエージェントにおいて信じられないほど優秀で、ツール呼び出しにおいても信じられないほど優秀なのです。15.5兆トークンで1兆トークンを事前訓練し、訓練の不安定性はゼロでした。彼らは前例のない規模でこのMuon Clipオプティマイザーを使用し、スケールアップしながら不安定性を解決する新しい最適化技術を開発しました。
このモデルは特にツール使用、推論、自律的な問題解決のために設計されています。KimiムーンショットチームのCrystalによると、Kimiはコンテキストウィンドウで最大200万トークンをサポートしています。そして彼女は、AIラボ全体でわずか200人だと述べました。
Kimiのウェブサイトはまだ直接それをサポートしていませんが、彼らはテストしています。品質の損失は少しありましたが、十分可能です。
ベースとインストラクトの2つのバージョンがあります。しかし、私たちが持っていないのは推論バージョンです。そして、今やオープンソースになったので、誰もがそれに手を出すことができます。Kimi K2の推論バージョンがたくさん近々登場する予定です。
驚異的なベンチマーク結果
ベンチマークを見てみましょう。なぜなら、それらは驚くべきものだからです。これはフロンティアレベルのモデルです。
ここにSWEBench verifiedがあります。Kimi K2 InstructがDeepSeekを打ち負かし、Qwenを打ち負かし、GPT-4oを打ち負かし、地球上で最高のコーディングモデルとして知られているClaude 4 Opusのすぐ後ろにつけています。
SWEBench Multilingualでは、再びそれらの他のモデルをすべて打ち負かし、Claude 4 Sonnetのすぐ後ろにつけています。
Live CodeBenchでは、実際にClaude 4 Opusを打ち負かしています。Gemini 2.5 Flashが53.7で続いています。
AIME 2025では数学で第1位になり、Claude 4 OpusとGemini 2.5 Flashを上回っています。これも推論バージョンなしでです。
GPQA Diamondでは第1位の75.1でClaude 4 OpusとGemini 2.5 Flashを上回っています。
このモデルをテストすることをとても楽しみにしており、それは完全にオープンソースのオープンウェイトです。トレーニングプロセスはオープンソースでした。彼らは近々それに関する研究論文を発表する予定です。素晴らしいです。
ベンチマークの完全なセットが必要な場合は、彼らのHugging Faceカードをご覧ください。すべてがここにあります。Ader polyglot、AceBench、AIME 2024、25、Math 500、Polymath、GPQA Diamond、Humanity’s Last Exam、MMLU Proなど、さらに多くがあります。
利用可能性と価格設定
すでにこれを読み込んで提供している推論プロバイダーがたくさんあります。そして、Kimi K2や他のモデルを最大限に活用したい場合は、プロンプトエンジニアリングを最適化する必要があります。私と私のチームが作成したHumanity’s Last Prompt Engineering Guideでそれを行うことができます。完全に無料で、すべての最高のプロンプトエンジニアリングのコツやトリックを教えてくれます。下の説明にリンクがあります。
Kimi経由で直接推論を得ることもできます。キャッシュありで100万入力トークンあたり15セント、キャッシュなしで60セント、出力トークンあたり2.50ドルです。ウェイト、技術ブログ、GitHubページはすべてオープンで、今すぐ利用できます。APIなしで試したい場合は、kimi.aiで今すぐ試すことができます。
業界専門家とAIリーダーからの言葉
業界専門家とAIリーダーからの言葉をいくつか紹介します。
Sebastian Rashkaは「Kimi K2は基本的にDeepSeek V3ですが、ヘッドが少なくエキスパートが多いです。そして、彼らが実際に思考連鎖と推論能力を与えるまで待ちきれません」と述べています。
Eugene Jenは「すごい。Kimi K2は15.5兆トークンでMuon Clipを使用して事前訓練され、訓練スパイクはゼロでした。彼らは正式に1兆パラメータLLMレベルにスケールしました。多くの人がスケールできるかどうか疑っていましたが、ここにあります」と言っています。
Deeは「中国がコーディングとエージェンティックツール使用のための最高のオープンソースモデルを発表しました。Kimi K2はSWEBench verifiedで驚異的な65.8を記録しています。100万入力あたり60セント、100万出力あたり2.5ドルとGemini Flashと同じくらい安いです」と述べています。
彼は例を示しています。Pythonでこのデータ分析タスクをワンショットで実行し、数セントでウェブサイトを作成します。見てください。信じられません。
Hard Maruは「すべてのMLエンジニアの夢のロスカーブがそこにあります。ただ下がるだけです。スパイクなし、中断なし」と言っています。
ここに別のプロンプトがあります。ここにその例があります。最大のモデルであるGrok 4をリリースする直前のxAI本社、忙しいエリア、大きなオフィスで働く多くの人々。これがGrok 3です。これがGrok 4です。そして、これがKimi K2です。素晴らしく見えます。
Kimi K2はOpen Routerで利用可能になりました。そのAPIで試してみたい場合は、どうぞ。準備ができています。
ウォートンのEthan Mollick教授は「Kimi K2は非常に優秀で巨大で奇妙なオープンウェイトモデルのようで、オープンLLMの新しいリーダーかもしれません。私の奇妙なテストではフロンティアクローズドモデルを打ち負かしていませんが、まだ推論機能がありません」と述べています。
これを見てください。Ani Hunanは1兆モデルのKimi K2 4ビット量子化をMLX LMで2つの512GB H3 Ultraで実行させました。そこで実行され、非常に速いと言わなければなりません。
Cedricは「Kimi K2がウェブ用Minecraftをワンショットしました。Gemini 2.5 Proで4日間と6回の試行がかかったものを」と言っています。すごいです。
そしてもちろん、Ply the Liberatorが再びジェイルブレイクしました。Plyから安全なものはありません。
まとめ
今日は以上です。このモデルを徹底的にテストする様子を見たい場合は、コメントでお知らせください。この動画を楽しんでいただけたら、いいねとチャンネル登録をご検討ください。


コメント