中国発の新たな1兆パラメータ推論AI – Kimi K2 Thinking

中国発のKimi K2 Thinkingは、米国のトップクラスモデルに挑戦する新たな推論モデルである。最大の特徴は200から300の連続したツール呼び出しが可能な点で、これはエージェントシステムの基盤となる機能だ。1兆パラメータを持ちながら実際には320億パラメータのみが稼働するmixture of expertsアーキテクチャを採用している。多くのベンチマークでClaude Sonnet 4.5を上回る性能を示すが、コーディング分野では依然としてClaudeに軍配が上がる。最も注目すべきは、このモデルが修正MIT ライセンスのもとでオープンウェイトとして公開されている点であり、AI民主化の観点から重要な一歩となっている。ネイティブINT4量子化やQ80量子化学習にも対応し、256,000トークンのコンテキストウィンドウを備える。実際のテストでは音楽生成やコンテンツ作成で興味深い結果を示したが、古典的な論理パズルでは学習データの記憶に引きずられる弱点も露呈した。

China's NEW 1 Trillion Reasoning AI - Kimi K2 Thinking

Hello, Kimi K2 Thinking!The Open-Source Thinking Agent Model is here.Kimi K2 Thinking Launch K2 Open w...

Kimi K2 Thinkingの登場
モデルの技術仕様
実例:成功と失敗
実践デモ

Kimi K2 Thinkingの登場

Kimi K2が、米国のトップクラスモデルに挑戦する新しい推論モデルをリリースしました。これは中国の企業で、多くの人々がKimi K2のファンです。このモデルの最大の特徴は、200から300の連続したツール呼び出しを実行できる能力を持っていることです。ツール呼び出しはエージェントシステムの基本的な基盤なんです。

誰かが「エージェントを構築している」と言うとき、それは基本的にツール呼び出しを行っているということを意味します。そして、実行できるツール呼び出しの数が多ければ多いほど、エージェント実行はより優れたものになります。特にマルチエージェントシステムにおいてはそうです。このモデルは200から300の連続したツール呼び出しが可能で、正直に言ってこれはかなり大きな意味を持っています。

ベンチマークの観点から見ると、このモデルは多くの異なるタスクにおいてAnthropicよりも優れています。例えば、ここに表示されているのはClaude Sonnet 4.5推論モデルのタスクで、Scale AIによって作成された「人類最後の試験」です。このモデルは44%のスコアを記録しましたが、Anthropicでさえ32%でした。BrowseCompというエージェント検索のベンチマークを見ると、Claude 4.5推論モデルは24%のスコアでしたが、このモデルは60%を記録しています。

すべてのベンチマークを通じて、このモデルがかなり強力であることがわかります。ただし、私は個人的な意見として、Claude Sonnet 4.5が非常に強力な分野はコーディングだと信じています。コーディングのベンチマークを見ると、ベンチマークに関係なく簡単にわかりますが、ベンチマークで見ても、Sonnet 4.5はSWE-benchで77%のスコアを記録しています。これはLLMがGitHubの問題を解決するために必要なベンチマークです。そしてBBench Multilingualでは、Sonnet 4.5が68%のスコアを記録したのに対し、Kimi K2 Thinkingは61%しか記録していません。

これは依然としてGPT-5よりも優れていますが、コーディングの観点から言えば、このモデルはSonnet 4.5ほど優れていないと思います。これは個人的な意見ですが。しかし全体的に見れば、このモデルは米国のトップクラスモデルに対する真の競争相手、真の挑戦者だと言えます。そして最も興味深い点は、このモデルが完全にオープンソースであるということです。つまり、若干修正されたMITライセンスですが、モデルはオープンウェイトで提供されているので、自分の推論環境にダウンロードして展開できます。少なくとも研究目的においては、このモデルが多くの研究チームを前進させることになると思います。

例えばAnthropicやOpenAIのクローズドモデルとは異なり、この企業とこのモデルは、AIを民主化する方法について、自分たちだけで囲い込むことなく、非常に優れた仕事をしていると思います。

モデルの技術仕様

Kimi K2にはネイティブINT4量子化モデルも搭載されています。256,000トークンのコンテキストウィンドウを持ち、Q80という量子化認識トレーニングも備えています。Gemmaモデルもこの特定の量子化認識トレーニングでリリースされました。これは、モデルを量子化しても、モデルが大幅な劣化を起こさないことを意味します。

そして最後の部分は、モデルが200から300の連続したツール呼び出しを行っても劣化しないということです。以前は30から50のツール呼び出しでも、モデルは非常にうまく機能しませんでした。しかしこのモデルについては、企業はその量のツール呼び出しでもモデルがうまく機能すると主張しています。そして改めて、私たちは単一の密なアーキテクチャから離れつつあると思います。

これはmixture of expertsアーキテクチャです。モデルの重要な数値として、最も重要な数字は、このモデルが1兆パラメータモデルであるということです。つまり、モデル全体が1兆パラメータのモデルですが、実際にアクティブなのは320億パラメータだけです。これがまさにmixture of expertsがここで行っていることです。これは非常に重要な側面だと思います。なぜなら、モデルが1兆の基本パラメータを持っているということは、モデルが現実世界に反映されるであろう多くの知識を蓄積しているに違いないからです。

そして、これが私たちが話しているGPT-5やGemini 2.5 Proといったモデルの平均的なサイズだと思います。これらのモデルがパラメータサイズの観点でどれくらいの重さがあるのかについて、正確な情報は持っていません。

しかし昨日、xAIがGoogleから1兆パラメータモデルを使用する計画についての報告がありました。これはおそらくGemini 2.5 Proのようなものだと思います。ですから、トップクラスのモデルに挑戦するオープンウェイトモデルを見られるのは非常に良いことです。私はこのモデルが非常に優れているいくつかの事例を見ました。また、モデルが失敗したいくつかの事例も見ました。

実例:成功と失敗

まず肯定的な面を見てみましょう。TwitterユーザーのChristianが、Kimi K2のツール呼び出し機能、最新の推論モデルを使って、数学と物理学の説明アニメーションを作成したのがわかります。これはツール呼び出しのおかげで可能になり、これが結果です。正直に言って、良い結果だと思います。つまり、人々がいくつかのプロンプトでこのようなものを作れるなら、教育の爆発的な発展に役立つでしょう。Three Blue and Brownが作っていたようなアニメーションのように。

これは良いことで、モデルがこれを成し遂げたのは素晴らしいことです。別の例では、モデルがClaude Codeと競争することに成功しています。Claude Codeプロキシを通じて、Claude Codeでこのモデルを使用できます。このモデル、Kimi K2 Thinkingは、優れたツール呼び出し機能を持っているため、サブエージェントやToDoリストなどを実行できます。また、このモデルはAnthropic Sonnet 4.5や他のAnthropicモデルと比較すると非常に安価です。

したがって、モデルはここで特に勝利を収めています。しかし反対側では、価格設定の面で、これはDenis Singhによるトリッキーなプロンプトです。彼はLLMテストの世界、特にMinecraftベンチマークで非常に有名です。

Kimi K2への質問はこうです。「父親と息子が交通事故に遭いました。父親は息子を病院に連れて行きます。病院で外科医である父親は、これが最も重要なことですが、少年を見て『この少年の手術はできない。彼は私の息子だ』と言います。外科医は少年にとって誰ですか?」

これは、人々が性別バイアスなどについて尋ねる古典的な問題です。一般的に正解は母親です。なぜなら、外科医が父親であるという情報をここでは与えていないからです。だからこれはトリック問題で、人々に尋ねて、外科医は母親だという答えを期待するものです。しかし、ここでは外科医は父親であるという情報を与えているので、理想的にはLLMが父親が外科医だと言うことを期待します。

しかし、モデルはトレーニングデータから得たパズル全体の非常に強い記憶を持っているため、それを無視して戻ってきて、父親が答えだと教えることが非常に難しくなっているのです。

Andrej KarpatyとDwarkesh Patelの最近のインタビューを見たかどうかわかりませんが、そのインタビューの中でもAndrej Karpatyが、メモリが大規模言語モデルにとって大きな大きな問題であることを何度も言及しているのが見られます。彼らが多くを記憶すればするほど、現在の世界や現実世界で一般化し、理解し、実行する能力が低下するのです。

これは、それがどういうケースであるかを示す非常に良い古典的な例です。モデルは文字通りこれを読んで、結論を導き出すことができたはずです。しかし、トレーニングデータに外科医は母親であり、誰かが無意識の性別バイアスについての謎解きをしようとしているという非常に強い基盤を持っているのです。

だから母親にこだわっているのです。そうですね、これはモデルが失敗している素晴らしい例です。

別のベンチマークはRepo Benchで、Repo Benchの作成者であるEricは、モデルが非常に悪い結果を出したと言っています。実際、Kimi K2自体よりもはるかに悪かったと。このモデルの初期レビューは、特に賛否両論といった感じです。

実践デモ

いくつかのデモを見て、モデルがどのように機能しているかを確認したいと思います。まず、kimi.comにアクセスしてモデルにアクセスできます。モデルにアクセスする方法は、kimi.comに行くと、K2とK1.5という2つのモデルが利用可能なのがわかります。K2を選択し、設定で推論モードを選択します。推論モードを有効にすると、モデルは内部の思考連鎖、内部推論を経て、戻ってきて答えを提供します。

まず最初にやりたいのは、最近このプラットフォームに出会ったのですが、誰かがこれを教えてくれました。Strudelと呼ばれるもので、MIDI音楽のようなものを作れると思います。ここに行って、「素敵なメロディーを作って、子供の歌、学校の歌のような感じで、Strudel Rippleで」と言います。

推論モードを有効にして、これを送信します。コードを提供してくれることを期待しています。そうすれば、実行したときに、聴いてみて素敵なメロディーだと言えます。完全に機能するコードを提供してくれることを期待しています。まず第一にエラーが出ないこと、そして第二に完全なゴミのように聞こえないことです。つまり、私が書いたら完全なゴミになるでしょうから、そうならないでほしいのです。

ここをクリックして、ここで推論を見ることができます。ユーザーが素敵なメロディーを求めていることがわかります。Rippleについて議論していて、Title Cyclesのようなものに似ているようです。ほとんどの情報を正しく取得しています。そしてこれがやろうとしていることだと言っています。シンプルです。

では、シンプルなものから始めましょう。再生してみます。非常に速いと思います。これをどれくらいメロディーと呼べるかわかりません。私自身ミュージシャンなのですが、ワオ、改善しました。ここのCPMはあまりにも悪いです。戻って、2番目のコードから何が作れるか見てみましょう。

すべてをパッケージ化してやればいいんですね。悪くないです。良いです。何かをやっています。これがStrudelコードを書く正しい方法かどうか100%確信はありません。Strudelの専門家がいれば、コメント欄で教えてください。しかし、エラーが出ないコードを提供してくれたと思います。それは常に良いことです。

次にやることは、新しいチャットを開始します。推論モードをオンにして、検索モードもオンにします。そして、何かを作成するように依頼します。「最近のAndrej KarpatyとDwarkesh Patelのインタビューの15の要点を教えてください。特に彼らがLLMメモリについて話した内容について」と言います。

これは特定のトピックで、YouTubeビデオから文字起こしを取得する必要すらありません。私たちが期待しているのは、多くの人々がそれについて書いているので、情報を収集し、それを読み通して、15の要点を教えてくれる能力です。理想的には、ここで待って15のポイントすべてを読むつもりはありませんが、ここで起こっている1つのツール呼び出しは検索のようなもので、複数のツール呼び出しの可能性があります。それから推論が完了しました。

すべての情報を取得し、極端な圧縮、2つの異なるメモリシステム、文脈内学習は本当の魔法、非圧縮といった内容が書かれています。誰かがブログ投稿を書いて、それをそこから吐き出しているように感じることもあります。夢は反崩壊、これは非常に興味深いことです。強制パターン認識、人間の記憶力の悪さは実際には機能であり、詳細を記憶するのではなく、一般化可能なパターンを見つけることを強制する、これは数分前に私が強調していたことです。

全体的に、再びAIが書いたテキストのように聞こえないテキストを提供するという仕事をしてくれました。以前Kimi K2で感じた興味深い側面の1つは、必ずしもAIが書いたテキストのように聞こえないテキストを書けることです。いくつかの検出器を使用してみましたが、かなりまともな仕事をしてくれました。

Kimi K2推論モデルが、AIが書いたように聞こえないコンテンツを提供できるかどうか見てみましょう。「イーロン・マスクと彼の税制優遇措置についてブログ投稿を書いてください。ブログ投稿を書くときにAIのように聞こえないようにしてください」と言います。

さて、できるかどうか見てみましょう。再び時間がかかります。すべての情報を読んで、戻ってきて、私たちのためにブログ投稿を書かなければならないからです。

これは100%AIのように聞こえると確信しています。見てみましょう。AIとして検出されないとは思いません。わあ、それは非常に驚きですね。この検出器がひどいものか、それとも。以前何度も使用したことがあります。少しまともな結果を出してくれましたが、今回は100%人間が書いたものだと言っています。非常に興味深いです。

Googleのトップ結果の1つを使用してみます。Googleがまだ良い仕事ができると考えて。テキストを貼り付けます。直接テキストです。もしこれも、14%と言っています。そして人間が書いたものだと言っています。見てください、Kimi K2推論モデルのユースケースをうまく見つけることができました。これはKimi K2でも見つけたことで、Kimi K2推論モデルでもおそらく同様です。大学の課題がある場合、これはおそらく使用するのに最適なモデルです。

APIでモデルを再度使用して、コーディングをどのように行うかを実際に確認します。しかし今のところ、これは素晴らしいリリースだと思います。誇大宣伝されているほど最高のモデルではないかもしれませんが、私はこのモデルが存在することを非常に嬉しく思いますし、チームがモデルをオープンソース化してくれたことに感謝しています。そして、人々がその上に何をさらに構築できるかを見るのを楽しみにしています。しかし最も重要なことは、オープンモデルとクローズドモデルの間のギャップを埋めることです。これは常に素晴らしいことです。また別の動画でお会いしましょう。ハッピーグラウンディング。