Kimi K2 Thinkingが異次元レベル…(大型アップデート)

LLM・言語モデル
この記事は約14分で読めます。

中国のフロンティアAI企業Moonshot Labsが、完全オープンソース・オープンウェイトのKimi K2 Thinkingモデルをリリースした。本モデルは一部の最難関ベンチマークにおいてGPT-5やClaude 4.5を上回る性能を発揮し、最大200〜300回の連続ツール呼び出しが可能で、複雑な問題解決に長時間の推論を適用できる。Humanity’s Last Examでは44.9%のスコアでGPT-5の41.7%を凌駕し、Browse CompではGPT-5を大きく引き離す60.2%を記録している。本モデルは博士レベルの数学問題の解決、複雑なウェブアプリケーションの作成、エージェント的な検索と推論の統合など、多様なタスクで卓越した能力を示しており、2025年初頭のDeepSeek R1に続く「もう一つのDeepSeek的瞬間」として、オープンソースAIがクローズドソースのフロンティアモデルに追いつき、場合によっては追い越しつつある現状を象徴している。

Kimi K2 Thinking is CRAZY... (HUGE UPDATE)
Try Vultr yourself when you visit and use promo code "BERMAN300" for 0 off your first 30 days.Enter the giveaway! htt...

Kimi K2 Thinking:新たなDeepSeek的瞬間の到来

私たちは今、もう一つのDeepSeek的瞬間を目撃しているのかもしれません。中国のフロンティアAI企業であるMoonshot Labsが、完全オープンソース、完全オープンウェイトのフロンティアレベルモデルをリリースしました。このモデルは最も困難なベンチマークのいくつかにおいて、GPT-5よりも優れており、Claude 4.5よりも優れています。詳細を全て解説していきましょう。

この動画はVultureの提供でお届けします。詳細は後ほど。これがKimi K2 Thinkingです。これは長時間思考が可能で、思考プロセス内でツールを使用できる思考モデルです。すでに人々はこれが素晴らしいモデルだと言っています。私たちは初期テストをいくつか実施しました。それについては動画の最後の方でお見せします。

それでは詳細に入っていきましょう。思考エージェントとして構築されたこのモデルは、ツールを使用しながら段階的に推論し、Humanity’s Last Exam、Browse Comp、その他のベンチマークで最先端のパフォーマンスを達成しています。人間の介入なしに最大200から300回の連続ツール呼び出しを実行でき、最も複雑な問題を解決するために数百ステップにわたって首尾一貫した推論を行うことができます。

これはMoonshotがKimiシリーズのモデルのためにテストタイム推論をスケールアップする試みであり、彼らは驚くべきモデルを作り上げました。それではベンチマークのいくつかを見ていきましょう。こちらがHumanity’s Last Examです。これは地球上で最も困難なベンチマークの一つです。そしてこれを見てください。

ベンチマーク性能:GPT-5を超える実力

Kimi K2 Thinkingが44.9というスコアを記録しているのに対し、GPT-5は41.7です。Humanity’s Last ExamでGPT-5を打ち負かしています。完全にオープンソースで完全にオープンウェイトのモデルが、今やアメリカのクローズドソースラボのフロンティアモデルよりも優れているのです。そしてClaude Sonnet 4.5 Thinkingは32というスコアです。このモデルはエージェント的なブラウジングと検索においても驚くほど優秀です。

実際、彼らはKimiにエージェントモードさえ組み込んでいますが、まだリリースされていません。間もなくリリースされる予定です。しかしこれを見てください。Browse Compのエージェント検索で60.2というスコアを記録しているのに対し、GPT-5は54.9、Claude Sonnet 4.5 Thinkingはわずか24.1です。SWE-bench Verifiedもあります。GPT-5とClaude Sonnet 4.5 Thinkingの中では最下位ではありますが、それでも71という非常に良いスコアです。GPT-5は74、Claudeは77です。そしてLiveCodeBench v6があります。これは競技プログラミングのベンチマークで、Kimi K2が83.1、GPT-5が87、Sonnet 4.5 Thinkingが64です。

それではこの例をお見せしましょう。これは博士レベルの数学問題を解いているところで、思考の連鎖の中で23回のツール呼び出しを行っています。これをご覧ください。ここで何が起こっているのか説明することはできませんが、実際に問題を解決していくプロセスをお見せしたいと思います。これが質問です。推論が完了しました。実際に入っていって、各段階で起こっている全ての複雑な推論を見ることができます。下にスクロールしてください。

ウェブ検索も行ったことがわかります。双曲正規分布のPDFですね。つまり、問題の解き方を知らせるための参考資料やソースを実際に探しているのです。また行ったり来たりしています。そして基本的に、より多くの情報を検索し、推論し、さらに情報を検索するという間で、本当に印象的です。

その能力には圧倒されます。そして最後に、正しい答えを得ました。繰り返しますが、どのようにしてか、なぜかを説明することはできませんが、ここにあります。このモデルはもちろんコーディングにおいても驚くほど優れています。Kimiチームから提供された複数の例があります。これをご覧ください。コンポーネント重視のウェブサイトです。基本的にはWordのクローンです。

実践的なコーディング能力

ここで物を削除できます。異なるフォントがあります。異なるフォントサイズ、イタリック、太字、下線、取り消し線があります。これら全てが機能します。保存をクリックすると、ドキュメントをローカルコンピューターに保存してくれます。次に、この例を見てください。勾配降下法の数学的説明の視覚化があります。

そして繰り返しますが、これは全て単一のプロンプトを使用して作成されています。実際に勾配降下法の完全な視覚化を見ることができます。これは多くのBロールと多くの説明用ビジュアルを使用する私にとって素晴らしいものになるでしょう。ですから、絶対にこれをチェックするつもりです。これは私が過去に使用したモデルテストです。彼らが私のビデオの一つを見たかどうかはわかりませんが、これは基本的に私が以前のモデルで実行した正確なテストです。さあどうぞ。

血流中の細胞を攻撃するウイルスのシミュレーションです。ここで見ることができるように、ウイルスの数に関する異なるスライダーがあります。複製率があります。ウイルスのタイプ、攻撃的、ステルス、高速複製があります。白血球の数、白血球の速度、検出範囲などがあります。

とてもクールです。そしてKimi K2 Thinkingのような素晴らしいオープンソースのオープンウェイトモデルを実行したい場合は、今日のビデオのスポンサーであるVultureをチェックしてください。Vultureは世界最大の独立クラウドプロバイダーであり、私たちにとって素晴らしいパートナーです。ですから、今日も彼らについてお話しできることを本当に嬉しく思います。

スポンサー紹介:Vulture

ですから、GPUをプロビジョニングする必要がある場合、自分のAIプロジェクトでいじっているだけでも、本番環境にスケールアップしている場合でも、Vultureが行くべき場所です。彼らは6大陸32拠点にわたって最新のAMDとNvidiaのGPUを提供しているので、最低のレイテンシを得ることができます。また、真剣なアクセシビリティと信頼性を備えた業界をリードする価格対性能を提供しています。

Vultureのグローバルな完全に構成可能なクラウドインフラストラクチャにより、アプリケーションをユーザーに近づけ、ベンダーロックインから解放されます。これについては私がこのチャンネルでかなり話してきたことをご存知でしょう。彼らはVulture Kubernetes Engineも持っており、単一のコンテナを超えてスケールすることができます。ですから、他のGPUプロバイダーで待つことに疲れたら、今日Vultureをチェックしてください。

彼らは私の視聴者に、getvulture.com/bmanを訪問すると最初の30日間で300ドルのクレジットを提供しています。そしてコードbur300を使用することを忘れないでください。Vultureに改めて感謝します。それでは動画に戻りましょう。また、このビニールシミュレーションもあります。針を落として再生します。ですから、円形の単語のセットのようなものがあります。それから針を落とすと再生が始まります。ただし音は出ません。これはちょっと変です。

追加の実装例とデモンストレーション

音があると思っていたのですが、ありません。しかし、それでも非常にクールに見えます。そして最後に、Strudelを使用してライブ音楽を作成できます。これは聞いたことがありませんでしたが、非常にクールに見えます。Strudelは、音楽を作成できるコーディング言語だと思います。とてもクールな例です。そして最後まで見てください。私のチームがKimi K2で実行したテストの例をもう一つお見せします。それには圧倒されました。

Kimi K2 Thinkingは検索においても非常に優れており、検索からの情報を思考プロセスに統合し、これまでに学んだすべてに基づいて後続の検索を実行します。Browse Compという困難なベンチマークでは、見つけにくい現実世界のウェブ情報を継続的にブラウズし、検索し、推論するモデルの能力を評価するように設計されています。

K2 Thinkingは60.2%のスコアを達成し、人間のベースラインである29.2%を大幅に上回りました。K2 Thinkingは、長期的な計画と適応学習によって駆動される200から300回の連続ツール呼び出しを実行できます。さて、Kimi K2に与えられたこの複雑な論理問題を見てください。下記の情報は、1860年以降1890年以前に設立された大学の卒業生である個人に関するもので、大学のアスリートであり、後にプロのアメリカンフットボールチームで短期間プレーし、2010年以降2020年以前にリリースされたエイリアン侵略に関するSF映画に出演した人物などについてです。

これはティーザー問題のようなものです。そして、その思考を見てください。推論しています。推論しています。検索を実行しています。推論をもう少ししています。別の検索を実行しています。そして行ったり来たりして、最終的にジミー・ガラピー・ジュニアという答えにたどり着きます。

彼らはまた、Kimi K2がクリエイティブライティングに本当に優れていると言っていますが、私は通常、AIがそれに優れているとはかなり疑っています。ですから、完全なベンチマークをチェックしたい場合は、ちょうどここにあります。また、以下の説明欄にこれへのリンクも入れておきます。さて、それでは、Kimi K2 Thinkingのリリースに関するウェブ上のAIリーダーたちからの反応をいくつかご紹介しましょう。

AI業界リーダーたちの反応

まず、Emad Mostaque、ライブショーの友人であり、Stability AIの創設者は次のように述べています。「多くのベンチマークで最先端を達成し、モデルをオープンソース化したKimi Moonshotにお祝いを申し上げます。クローズドとオープンの間のギャップは、ますます経済的に価値のあるトークンのコストが崩壊する中でも、縮小し続けています。

K2には試してみる価値のあるユニークな雰囲気があります。」さて、彼は新しいモデルのトレーニングコストについて話し続けます。これを聞いてください。ベースのKimi K2モデルは280万H800時間を使用し、14.8兆トークンで、約560万ドルから600万ドルです。ちなみに、これらのフロンティアモデルのトレーニングがこれほど安くなっていることを考えるのは驚きです。それから彼は、推論バージョンのポストトレーニングの詳細は示されていないが、おそらく最大20%多く、データ準備を除外すれば、Blackwellチップへのアクセスがあれば最先端で300万ドル未満だろうと述べています。非常に興味深いことです。

フロンティアモデルのトレーニングコストが非常に速く下がっています。さて、もちろん、誰もが考えているのは、これはDeepSeekとどう比較されるのかということです。2025年の最初に、DeepSeek R1でDeepSeekの瞬間があったことを信じられますか。そして今、2025年の終わりに、Kimi K2の瞬間があります。どちらも驚くべきオープンソースのオープンウェイトモデルです。

左側にはDeepSeek R1の6710億パラメータがあり、Kimi K2 Thinkingは1兆パラメータです。語彙サイズは大きいほど良く、129,000対160,000で、Kimi K2 Thinkingの語彙サイズの方が大きいです。両方ともMixture of Expertsで、DeepSeekは256、Kimi K2 Thinkingは384のエキスパートを持っています。ですから、そちらにはより多くのエキスパートがあります。

DeepSeekとの比較分析

そして興味深いことに、これはより大きなモデルであるにもかかわらず、DeepSeekでは推論中に370億パラメータがアクティブであり、この新しいKimi K2 Thinkingモデルでは推論中に320億パラメータがアクティブです。つまり、さらに少なく、より効率的であり、コンテキスト長は128,000で同じです。これをまとめてくれたSebastian Raskaに感謝します。

ちなみに、Kimi K2 Thinkingや他のモデルの使い方を学びたい場合は、「The Subtle Art of Not Getting Replaced」の電子書籍をダウンロードするべきです。この電子書籍には、今日AIに使用できる100種類の異なるユースケースが含まれています。実世界のユースケースです。ですから、チェックして、ダウンロードして、どう思うか教えてください。interconnects.aiのNathan Lambert、トレーニングに関するすべての専門家は、Kimi K2 Thinkingについて次のように述べています。

彼は、初期の報告では執筆に独特のスタイルがあり、非常に歓迎されると言っています。そして興味深いことに、彼は256kのコンテキスト長だと言っています。私は128kだけだと思っていましたが、実際には256kかもしれないようです。総パラメータは1兆、アクティブは320億です。これについてはちょうど話したところです。そして、彼の執筆の核心であり、私が多くのことを考えているのは、まさにこのセクションだと思います。中国の台頭。

年初には、AIを大まかにフォローしているほとんどの人がゼロAIラボのことを知っていたでしょう。そして2025年を締めくくるに向けて、DeepSeek、Qwen、Kimiのすべてが家庭的な名前になりつつあると言えます。彼らは皆、最高のリリースの季節があり、異なる強みがあります。中国企業の多くは、オープンフロンティアとパフォーマンスの大まかな範囲に追いつくのにわずか6ヶ月しかかかりませんでした。

今、問題は、ユーザーにとって本当の需要があるフロンティアのニッチで何かを提供できるかどうかです。ですから、オープンソースのオープンウェイトがフロンティアモデルに追いついただけでなく、それらが中国から出てきているようです。OpenAIからオープンウェイトモデルが出ましたが、GPT-5というフロンティアモデルではありません。

Metaからの別のバージョンのLlamaはありません。ですから、そうです、中国は本当にオープンソースのオープンウェイトフロンティアを推進しています。さて、それでは私のチームがKimi K2 Thinkingで作成したものをお見せしましょう。これはkimmy.comでアクセスできます。ガーナにおける人口密度と医療施設へのアクセシビリティの関係を分析してください。

実践的なテストケース:ガーナの医療施設分析

最新のWorld Pop人口ラスターと医療施設座標のオープンデータセットをダウンロードしてください。各施設の周囲10km半径内の平均人口密度を計算してください。一人当たりの施設カバレッジが最も低い上位10地区をランク付けし、結果を比較する地図と棒グラフを生成してください。

さて、これをご覧ください。To-Doを書いており、これはOkay Computerであり、これはKimi特有のものです。ですから、これはスクラッチパッドのようなもので、実行できる環境です。これは本当に印象的です。ですから、完全なTo-Doリストを作成しました。ご覧のとおり、To-Doをマークオフし始めました。いくつかの検索ブラウジングを行いました。さあどうぞ。

実際にブラウズが起こるのを見ることができます。ですから、ここでWorld Popに行きました。クリックしました。これらすべてが起こりました。私たちは1つのフィードバックしか与えませんでした。この部分は混乱しているので、デバッグして修正してくださいと。そしてこれを見てください。最終結果をお見せしましょう。さあどうぞ。覚えておいてください、これは完全にKimi K2 Thinkingと1つのフィードバックによって作成されたものです。ですから、医療アクセシビリティです。

エグゼクティブサマリーがあります。ページは素敵に見えます。ここにインタラクティブな地図があり、実際にオーバーレイがあります。医療施設に関する詳細情報が表示されます。そして覚えておいてください、これはすべての情報をダウンロードしました。ただ見つけただけです。地区レベルの格差です。ここにはさらにインタラクティブなチャートがあります。

これを見てください。これは本当に信じられません。これらすべての異なるタイプのチャートとグラフ。とても、とても印象的です。下部には、さらにあります。色については申し訳ありません。私はダークモードですべてを使用しているだけです。それをオフにすればもっと良く見えるでしょう。制限事項と次のステップ、データソース、方法論があります。

施設分析、地区カバレッジ、サービスが不足している地域のCSVをダウンロードできます。そして繰り返しますが、これらすべてが本当に1つのプロンプトでわずか数分で作成されました。とても印象的です。そして改めて、このビデオをスポンサーしてくれたVultureに感謝します。以下の説明欄のリンクをクリックしてください。私が送ったことを彼らに知らせてください。

素晴らしいオープンソースモデルを試してみてください。Vultureに改めて感謝します。以上です。私のチームはKimi K2 Thinkingモデルを完全にテストしています。おそらく完全なテストビデオをまとめるつもりです。ですから、それまでお待ちください。このビデオを楽しんでいただけたら、いいねとチャンネル登録をご検討ください。

コメント

タイトルとURLをコピーしました