この動画は、中国のMoonshotが開発した新しいAIモデル「Kimmy K2」について詳しく解説している。話し手は、このモデルがDeepSeek R1と同等かそれ以上に重要である可能性があると主張している。特にツール呼び出し(tool calling)機能において画期的な性能を示しており、これまでAnthropicのClaudeモデルが独占していた分野に匹敵する精度を実現している。1兆パラメータのMixture of Expertsモデルでありながらオープンウェイトとして提供され、推論機能なしでも優秀なベンチマーク結果を示している。ただし実行速度の遅さや特殊なライセンス条項などの課題も存在する。話し手は、このモデルが大量の合成データ生成を可能にし、他のモデルの訓練に革命をもたらす可能性があると期待を示している。

新しいモデルの登場
おやおや、新しいモデルがリリースされました。いや、まだ立ち去らないでください。新しいモデルのリリースラッシュにうんざりしているかもしれませんが、これは実際に重要なものです。これから先、私たちが全てに使うモデルではないかもしれませんが、私たちがさまざまなAIモデルを使用し、やり取りする方法の非常に重要な部分において、大幅な飛躍を表しています。
MoonshotのKimmy K2モデルは、特にエージェント型モデルにおいて大きな進歩です。これが何を意味するかをすぐに詳しく説明しますが、重要な概要として、Kimmy K2は中国のMoonshotによる新しいオープンウェイトモデルで、多くの素晴らしいことを実現します。
私は、これがDeepSeek R1と同じかそれ以上に大きな出来事だと主張します。R1が推論を新しい標準にしたのと同じように、このモデルはツール呼び出しと関数呼び出しに同じことをする良いチャンスがあります。これはモデルコミュニティにとって大きなリリースであり、長期的にどのような影響があるかを見るのがとても楽しみです。
もちろん、私たちはすでにこれをT3 Chatにも追加していますが、このモデルと今後何を可能にするかについて多くの考えがあります。ただし、その前に、誰かがこの推論をすべてカバーしなければなりません。それでは、今日のスポンサーから簡単なメッセージをお聞きいただいてから、すぐに詳細に入りましょう。
スポンサーメッセージ
あなたのアプリでユーザーがどこでエラーに遭遇しているか知っていますか?本当に、ユーザーがあなたのアプリにサインアップしようとしてエラーに遭遇した場合、それがどこなのか、どのくらいの頻度で発生するのか知っていますか?既存の観測可能性ツールを使って知っていると思うかもしれませんが、実際の複雑なアプリケーションを構築している場合、それらはあなたが必要とする体験を提供していません。
正直なところ、モバイル世界がこれを解決していて、ウェブ開発の世界がそうでないことに少し嫉妬していました。今日まではそうでした。Embraceがこれを解決したからです。彼らは長い間モバイル向けの最高クラスの観測可能性ソリューションを構築してきており、今度は彼らの知識と専門知識をすべてウェブに持ち込み、その結果は素晴らしいものです。彼らが連絡してきたとき、とても興奮しました。
かなり試してみましたが、彼らが構築したものに完全に圧倒されています。セットアップは非常に簡単です。インストールして、初期化すれば、準備完了です。React、Next、その他何でも、すでに使っているすべてのツールと素晴らしく統合されます。ウェブでもモバイルでも、ほぼ間違いなく問題ありません。ちなみに、彼らはReact Native、ネイティブiOS、Android、Unity、さらにはFlutterまで、ほぼすべてをサポートしています。
これらの人たちを本当に異ならせているのは、これらの複雑なアプリケーションでのユーザーフローへの集中です。ユーザーが何をしたかの記録を単に提供するだけでなく、ユーザー全体が通るフローと、どこで離脱するかを実際に示してくれます。このチャートがあなたを興奮させないなら、私と同じ人生を送っていないということです。
私は、ユーザーがいつ離脱するか、フローにどこまで進むかなどを見るために、このようなものを構築するのに非常に多くの時間を費やしました。単一のnpm installとアプリ周りの基本的なフラグでこれが機能するのは、ばかばかしいほど強力で、コードのバグからユーザーに期待するフローまで、何が機能していて何が機能していないかについて多くの洞察を与えてくれます。
これは非常に高価でなければならないでしょう?いいえ。年間最大100万セッションまで無料で始められます。何を失うものがありますか?今日、soyv.link/mbbraceでチェックしてください。
Kimmy K2の詳細
それでは、Kimmy K2が実際に何なのかを詳しく見てみましょう。これは1兆パラメータのモデルですが、Mixture of Expertsです。つまり、あなたが行う各リクエストは、それらのパラメータの一部のみを使用します。とはいえ、非常に多くのパラメータがあるため、モデルの物理的なサイズは巨大です。Hugging Faceから入手すると960ギガバイトのダウンロードになります。かなりばかげています。
しかし、そもそもHugging Faceでダウンロードできるという事実は大きな意味があります。なぜなら、これはオープンウェイトモデルだからです。基本的に何にでもダウンロードして使用できます。「基本的に何でも」というのは重要な部分ですが、ライセンスがあるからです。修正MITライセンスです。迷惑ですね。修正したらMITライセンスではありませんが、まあいいでしょう。
重要な部分は、Kimmy K2であることを表示しなければならなくなる前の、ユーザー数や稼げる金額に上限があることです。私たちの唯一の修正は、ソフトウェアまたはその派生作品が、月間アクティブユーザー数が1億人を超える、または月間収益が2000万ドルまたは他の通貨での同等額を超える商業製品やサービスに使用される場合、そのような製品やサービスのユーザーインターフェースにKimmy K2を目立つように表示する必要があるということです。
これをここに置くのは興味深いことです。なぜなら、私がモデルについて考えているユースケースの一部では、これが破綻するからです。多くのお金を稼いでいる場合に使えないという従来の意味ではありませんが、これを面倒にする他のエッジケースがあります。チャットでも人々がすでに指摘しているように、これが法的に健全ではない可能性は低くありません。寛大であるかもしれませんが。
なぜ彼らがこれをしたかは理解できますが、少し後で説明するいくつかの潜在的な負の影響があります。また、あなたも指摘しているように、これはGPL互換ではありません。オープンライセンスではありません。そのような変更を加えることで、もはやオープンライセンスではなくなりますが、あなたがやりたいことのほとんどを行う自由は与えてくれます。
この変更により何ができないかについては、重要なので少し後で話します。ただし、仕様に戻ると、オープンモデルの中では、SWE bench verifiedベンチマークならびにTauおよびAcebenchで最先端です。しかし、オープンモデルに勝っているだけではありません。これは「R1のようなものだが、より良い」というものではありません。非常に特定のことにおいて、はるかに優れています。
強力なエンコーディングとその他のエージェント的タスクです。ただし、マイナス面もあります。マルチモーダルとソートモードは現時点ではサポートされていません。将来的には、ほぼ確実に推論モードが組み込まれるでしょう。しかし、これらの数値とパフォーマンスはすべて推論なしのものです。これは正直、かなり印象的です。APIは比較的安価です。
これにより、他の競合モデル、特にAnthropic系のモデルよりもはるかに安くなります。さて、これらのベンチマークを見てみましょう。K2 instructがClaude 4 Opusに近づいているのは、これらは大きな意味があります。Claude 4 Sonnetと互角なのも同様に非常識です。SWBベンチでは、他のすべてのオープンモデルや、GPT-4.1のような他の高価なものさえも圧倒しています。
コード関連では、推論なしのモデルとしては史上最高かもしれません。Live CodeBench 6では、新記録を樹立しました。私があまり馴染みのないOJBenchでも新記録を樹立しました。GPQA Diamondでも、これは最近Grok 4に負けたかもしれませんが、aimも素晴らしいパフォーマンスを示しています。AceBenchでは、最高パフォーマーと互角です。
そして再び、最高パフォーマーであるClaude 4 Opusと互角です。Tau 2ベンチマークは、今日話しているエージェント的なことについて、私が最も重視するものだと思います。これは、制御された環境で会話エージェントを評価するベンチマークで、何かをするように求め、エージェントはデータベースで物事を調べるなどのツールにアクセスでき、モデルがデータを取得して応答し、フォローアップのプロンプトを受け取るような前後のやり取りをテストします。
このタイプの前後のやり取りはモデル化が複雑で、このベンチマークはそれを本当にうまく行っています。ここでこれほど良いパフォーマンスを示しているのを見るのは大きな意味があり、本当に本当にクールです。
なぜKimmy K2が重要なのか
この概要が分かったところで、図表の時間です。MoonshotによるKimmy K2。星付きのオープンウェイト、推論はまだなし、ツール呼び出しが本当に得意、しかし巨大でかなり遅いです。
それでは、なぜ私がこれほど気にするのでしょうか?このモデルについて何がそんなに興奮させるのか、DeepSeek R1よりも大きな出来事である可能性があるという大胆な主張をする理由は何でしょうか?明確にしておくと、私は話題や、私たちが毎日戦っているAI競争や戦争への影響という点で、より大きな出来事だと言っているわけではありません。私が言っているのは、Kimmy K2の技術的影響がR1よりもさらに大きな影響を与える可能性があるということです。
楽しい歴史の授業です。私をしばらく見ている多くの方がご存知のように、私は昔はそれほど大きなAI好きではありませんでした。コードの手助けにここそこで使うことはありましたが、すごく興奮していたり、よく理解していたりするものではありませんでした。昨年の終わりに、それが私にとって変わりました。なぜなら、新しいモデルが私をすごく興奮させたからです。
世界を震撼させたDeepSeekのモデルがありました。もちろん、DeepSeek V3のことを話しています。はい、V3です、R1ではありません。V3は私にとって大きな意味がありました。なぜなら、DeepSeek V3がClaude Sonnet 3.5に匹敵するパフォーマンスを得ていたからです。完全にオープンウェイトでした。AIモデルでできる限りオープンソースに近いと言えるほどでした。
適切なMITライセンス、制限なし、基本的に何でも好きなことができます。そして、ばかばかしいほど安価でした。V3が最初に出たときの価格は、ただただばかげていました。公式APIでは、DeepSeek V3、つまりDeepSeek chatは、100万入力につき27セント、100万出力につき1ドル10セントでした。
比較のために、私のモデル価格比較サイトにジャンプしてみましょう。これらの高すぎるものを全部削除します。Claude 4 SonnetやGrok 3など、標準的なリーダーのモデルが100万トークン入力につき3ドル、100万出力につき15ドルであることがわかります。27セント入力、つまり10倍以上のコスト削減です。1ドル10セント出力、これもまた10倍以上のコスト削減です。
パフォーマンス、特にコード関連でClaude 3.5と同等であることを考えると、大きな意味があります。信じられませんでした。そして当時は、それも速かったです。DeepSeek APIを使用すると約100DPSができ、Claudeはまだ50前後を漂っていました。速く感じられました。本当に賢く、コミカルに安く、オープンでした。これは私を完全に破綻させました。
私は最もクレイジーな「聖なる、これで以前はできなかった方法で物事ができる」という感覚を持ちました。しかし、問題がありました。V3のウェブサイトがひどく悪かったのです。それが彼らの優先事項でないことは明らかでした。私がChatGPTサイトとclaude.aiサイトをよく批判するのを知っています。彼らが悪いからそうしているのです。特にClaudeサイトが。ChatGPTサイトはかなりの飛躍と限界を作りました。
しかし、DeepSeek V3サイトは恐ろしかったです。なぜなら、それはモデルが機能することを示すことが何よりも意図されていたからです。しかし、私はこのモデルを使いたかった。このモデルに本当に興奮していました。そこで、DeepSeekを使用するための独自のUIを作り、できる限り良いパフォーマンスを発揮させ、可能な限り最高のUIにすることに全力で取り組むことにしました。
最初は確かV3 chatと呼ばれていて、その後better chatに変更し、そして天才的な結論に達しました。V3は適切ではないかもしれない。T3なら適切かもしれません。T3 Chat、実際に悪くない使いやすいAIチャットアプリを作るために私が構築したものを気に入ってくださるなら、T3 ChatはDeepSeek V3に触発されて存在しています。
ちなみに、最近T3 Chatをあまり宣伝していませんでした。ここで自分を抑えることができません。すべてのAIモデル、つまり本当にすべてのAIモデルへのアクセス、実際に使用して楽しいUI、そして画像生成を含むAIチャット全体のずっと良い体験が欲しい場合。ちなみに、私は実際に昨日これをサムネイルに使いました。超便利です。
これらすべてとそれ以上を月8ドルで欲しい場合、悪いニュースがあります。まだサインアップしていない場合、最初の月をたった1ドルで利用できるクーポンコードをお渡しします。チェックアウト時にthanks-seekのコードを使用して、最初の月をたった1ドルで利用してください。そして明らかに、Kimmy K2を試してみたい場合、それを行う最良の方法の一つです。なぜなら、信じられないかもしれませんが、彼らのサイトもちょっと悪いからです。
とにかく、DeepSeek V3は私を圧倒し、独自のチャットアプリを作るように触発しました。そして今、ここに私たちはいます。しかし、そのため、私は世界の他の地域よりも前にDeepSeekに興奮していました。これはすべて2024年12月に起こったことです。具体的には11月から12月でした。そして翌年の1月に大きなことが起こります。
DeepSeek R1の革命
DeepSeek R1がドロップし、AI界を完全に変えました。DeepSeek R1は、推論を大衆にもたらしたさらなる完全オープンモデルでした。推論とは何かがまだ何らかの理由で馴染みがない場合、簡単なデモをお見せします。llama distilled版を使います。
アメリカでオレンジがどのように栽培されているかを聞いています。ここに推論のための小さなセクションが見えます。これは、モデルが効果的に自分自身と話し、物事をダブルチェックし、実際の応答を与える前に自分自身のコンテキストを作っているのです。これを行うことで、モデルの成功率と正確性率が大幅に向上します。
最初の主要な推論モデルは、そのずっと前に行われていませんでした。それはChatGPTの01モデルでした。GPTモデルではありませんでした。GPT-4や4.5や40ではありませんでした。最初のOモデルでした。それは01でした。01は応答を与える前に推論していました。そして、それはOpenAIが恐れてデータを共有するほど革命的な変化でした。
ウェブサイトで使用した場合、推論情報の要約を表示していました。しかし、API経由で使用した場合、何も与えてくれませんでした。この時点で、01がしたことを複製しようとしている他の企業にとって、公開された研究以外にはあまり多くのものがありませんでした。01がどのように推論を行っているかを実際に見ることはできませんでした。DeepSeekは反対の方向に行きました。
推論がどのように機能し、それをそれほどうまく機能させるために何をしたかについての多くの研究を公開しただけでなく、オープンウェイトモデルですべての推論トークンを公開しました。T3 chatで今見せたように、モデルが自分自身に言うすべてのことを見ることができます。
別のモデルでこれを行った場合、04 miniに分岐すると、推論します。しかし、この形式を見てください?推論中に行ったことを要約しています。別のモデルが推論を渡されて、「これの要約を書いてください」と言われています。なぜなら、それではそれを使って事後訓練を行うのに十分なデータを得られないからです。
OpenAIが公開を控えた懸念は、すべての推論データをAPI経由で提供した場合、誰かがAPIを大量に実行し、OpenAIがこれをどのように行うかについての大量のデータを生成し、01を使用して生成したデータで独自のモデルを訓練できるということでした。
誰も、同じ技術を使用して類似のパフォーマンスを持つ独自のモデルを作れないよう、そのデータを人々の手から遠ざけるために懸命に努力しませんでした。彼らがやりたがるのは理解できることです。DeepSeekは反対の方向に行きました。DeepSeekは、すべての推論を見て、それで何でもできるようにしただけでなく、実際にこのタイプの蒸留モデルを自分たちで公開しました。
DeepSeekがR1を機能させたとき、彼らはそれを使って途方もない量のデータを生成し、そのデータを与えて、実行しやすい他のモデルを蒸留しました。彼らはR1が推論作業を行うためのこれらの出力を取り、それらすべてをLlamaとQuenに投げ、DeepSeekがそれを行ったのとほぼ同じ方法で推論できるように重みを移動させたLlamaとQuenのカスタムバージョンを作りました。結果は語っていました。
ほんの1、2か月前にリリースされたOpenAIの01モデルと同等、時にはそれ以上のパフォーマンスを得ました。そして、320億パラメータしかない蒸留版。つまり、これらは多くの異なるもので実行でき、非常に高速でも実行できる非常に小さなモデルです。それらはかなり近く、01 miniを上回ることが多く、これはクレイジーです。
そして、推論モデルではないDeepSeek V3は、多くのテストで遅れています。ここまでのところ、すべて理にかなっています。R1は、本当に良いモデルだったからだけでなく、特に、物事をより良く訓練するための新しいデータを生成できる方法で、モデルを通じてこれらすべてのデータとすべての情報を公開したため、信じられないほどの飛躍でした。
DeepSeek R1が良い推論特性を持つオープンウェイトモデルであることで、すべてのモデルが推論を開始する速度が大幅に向上したと私は主張します。DeepSeek R1が今日の推論時代を到来させたと私は固く信じています。ほぼすべてのモデルが今推論をサポートしているのは、以前はそれがどのように機能するかを理解していなかった場合、DeepSeek R1を見てそれを見ることができ、それを使用するためのより多くのデータが必要な場合はDeepSeek R1を使用してデータを作成でき、懐疑的な場合はベンチマークを見てパフォーマンスの向上を見ることができたからです。
Anthropicでさえ、これが起こった後に推論を追加し始め、なぜそうしたかを公表しました。推論が実際になぜモデルをより賢くするのか理解していなかったので、Anthropicも推論データを私たちに与えることを選択しました。なぜこれが実際にこんなに良いのかを私たちに理解してもらいたいからです。
業界全体は、DeepSeekがこれらのモデルをオープンウェイトモデルとして出し、研究と推論をより良いパターンにするために必要なすべてのものを出すという決定の結果として、大幅に前進することができました。Grok 4とその推論能力のようなものがあるとは思いません。Claude 4 SonnetとOpusとそれらが持つ能力のようなものがあるとは思いません。
そして、DeepSeekがここで行った仕事と、オープンソース化における寛大さがなければ、これらすべての新しいランダムな一回限りの推論モデルがあるとは確実に思いません。それは真に、適切にオープンソースです。これは修正MITライセンスではありません。これはただのMITライセンスです。あなたは好きなことを何でもできます。大きな意味があります。
現在の状況とKimmy K2の位置づけ
それでは、なぜ私たちはDeepSeekについてそんなに話しているのでしょうか?私たちはMoonshotとKimmyについて話すためにここにいるのではないでしょうか?理由があります。そして、それは推論ではありません。おかしなことに、DeepSeek V3は信じられないモデルでした。何らかの機能や何かで新しい領域を開拓したからではありません。何においてもより良くはありませんでしたが、実行しやすく、驚くほど安く、誰もが思うべきよりもはるかに賢いオープンウェイトモデルでした。
R1は、01の直後の2番目の真の推論モデルでした。そして、私たちが可能だと知らなかったことを行うことができました。そして、それを行うために必要なすべてのピースを提供しました。R1は推論時代を到来させました。R1がドロップする前は、可能な限り最も賢いモデルが欲しい場合、そのために推論が必要でした。
つまり、可能な限り最も賢いモデルと可能な限り最高の応答が欲しい場合、OpenAIのモデルを使わなければなりませんでした。今日の状況には並行関係があります。厳しい現実は、現在、AIアプリで信頼できるツール呼び出しが欲しい場合、Anthropicのモデルを使わなければならないということです。Claude 3.5は、AI周りのツールを構築するための革命でした。
Claude 3.5以前は、AIテキストチャット生成機能はすべてにわたってかなりうまく機能していました。モデルに質問をしたい場合、答えを与えてくれました。それはすべて本当にうまくいっていました。3.5を魔法にしたのは、それが単なるテキスト生成器ではなかったことです。ツール呼び出しはこのような感じです。これは本当に大まかなスケッチのつもりです。
これは、モデルに伝えられる構文で、「もし訓練データにないデータが必要だったり、プロンプトに基づいて何かをする必要がある場合、この構文を使用できます。これにより関数呼び出しがトリガーされ、人間が書いた実際のコード、または明らかにもしかするとARO2かもしれませんが、モデルに提供された実際のコードが実行され、追加のデータを取得できます」と言っています。
明確にしておくと、モデルは実際には実装の詳細を見ません。このコードがどのように機能するか、コードが実際に本物で実行されているかどうかも知りません。このようなツール呼び出しを行ったときに起こっていることは、モデルがこのテキストを吐き出し、それから待つことです。あなたが書いたコードでそれを識別します。それが与えた入力を取ります。いくつかのコードに対してそれらを実行します。
結果を取得します。チャットの履歴にそれを追加し、この新しいコンテキストを持ったモデルを再実行します。これが、Cursorが突然それほど良くなった理由です。これが、Code Rabbitとこれらすべてのintegrationをしてさまざまなことを行う他のツールが、彼らが得た程度に良くなった理由です。なぜなら、Claude 3.5がこの機能を効果的に組み込み、それに訓練していたからです。
なぜなら、それはAnthropicが本当に有効にしたかったもので、モデルが段落を生成するだけでなく、追加のコンテキストを取得し、さらに重要なことに、外部のものを実行する能力だったからです。Claude 3.5は、このタイプのものがどれほど信頼できるかにおいて大幅な飛躍であり、突然、多くの異なることを行うAIモデルで物事を構築することが、以前よりもはるかに理にかなうようになりました。
それは巨大で巨大な意味がありました。その後、彼らはClaude 3.7を作り、ツール呼び出しで過度に積極的になりました。その後、Claude 4を作り、それを少し手なずけ、ツール呼び出しを行うため、持っているツールを知るため、それらの使い方を知るため、そして実際に適切に使用するために、まだまでも私が最も信頼できるモデルだと思うものを作りました。
Anthropicチームが行ったことに本当に感銘を受けています。私が何度も声に出した恨みがあったとしても、彼らはツール呼び出しで十分に先行しており、長期間市場で意味のあるリードと意味のある堀を与えています。
ツール呼び出しの重要性と課題
これらの他のモデルがどれほど優れていても、仮に、私は知りませんが、GPT 5.5 Ultraが偽の会社から出て、Claudeより5%賢いとしましょう。ほとんどのベンチマークでより高いスコアを出し、より安く、より速いとします。私たちのツールで簡単に交換して、代わりにそれを使い始めて、素晴らしい体験を得るべきでしょう?
しかし、ツール呼び出しが少し悪い場合、はるかに悪いエンドユーザー体験に終わる可能性があります。Claudeがツール呼び出しで98%正確だとしましょう。今度は、あなたのアプリが平均的なリクエストでメッセージごとに5つのツール呼び出しを行うとしましょう。98%正確な場合、5つのツール呼び出しを行うと、90%の精度になります。このリクエストが失敗する10%のチャンスがあります。
より賢いが96%の別のモデルがある場合、「ああ、それはそれほど大きな打撃ではない」と思うかもしれません。今度は80%の信頼性になります。失敗ケースを2倍にしています。それは恐ろしいことです。それは恐ろしいことです。
より賢く、より安く、より速いモデルがあっても構いません。既存のAnthropicモデルよりもツール呼び出しで1%でも信頼性が低い場合、切り替える価値がありません。そのため、Anthropicは価格を変更することなく、途方もない金額を稼ぐことができます。
彼らは3.5がドロップして以来、モデルの価格を一度も下げていません。新しいモデルがドロップしても、古いものを安くしません。同じ価格でそれらをそのまま置いておくだけです。なぜなら、他に競争力のあるものがないからです。厳しい現実ですが、今日私たちがいるかなり現実的なものです。
Claudeは、ツール呼び出しの精度と信頼性が競合他社よりまだ先行しているため、高価格でも通用します。そして、あなたが残そうとしているコメントはもう見えています。Gemini 2.5 Proはどうですか?このコメントを残すか、残そうとしていた場合、2.5 Proをどれほど使ったことがあるか疑問に思います。
以前のGeminiモデルよりもツール呼び出しで少し良くなっているのは事実ですが、まだ非常に迷惑な癖があります。使用しようとしているツールを教えてから、それを使用しないことが大好きです。ツール呼び出しのための異なる構文を幻覚するのが大好きです。実際にそれらを行わないのが大好きです。チャットでIgorが言っているように、Geminiはとても賢いですが、ツールではとても悪いです。全く同感です。
しかし、Grok 4はどうでしょうか?彼らが特にツール呼び出しで訓練したと言わなかったでしょうか?そうしました。そして、ほとんどの場合、それは良いことですが、マイナス面もあります。これがツール呼び出しで訓練することの問題です。これはT3 chatでGrok 4を検索を有効にして使用しようとしたユーザーNoeyでした。
ツール呼び出しで訓練され、訓練プロセスでツールデータを大量に入れたため、ツール呼び出しをテキストとして吐き出し、少し形式が間違っていたため、AI SDKを使用している私たちのツール呼び出しチェッカーに拾われず、ユーザーにテキストとして来ました。
ツール呼び出しに関する非常に多くの訓練データを持っているため、その訓練データに基づいてツール呼び出しのための独自の構文を幻覚します。あなたの構文が彼らのものと異なる場合、あなたはただ困ります。T3 chatで、与えたツール呼び出し構文を使用する代わりに、ランダムなツール呼び出しテキストを印刷することをこれほど積極的にするモデルをまだ持っていません。信じられないほど、ばかげて、ばかばかしく迷惑です。
Gemini 2.5 Proは使用しようとしているツールを吐き出してから使用しないのが大好きです。Grok 4はツール呼び出しで訓練されることで、訓練から得た独自の構文を幻覚します。これらのどれもツール呼び出しで信頼できません。正直なところ、より一般的な意味で、実際に機能するものを作ることを信頼できるモデル会社は2つだけです。
明らかに、それはOpenAIとAnthropicです。Googleのモデルは、どれほど賢く、どれほど速く、時にどれほど安くても、GoogleMSに溢れています。テーブルをフォーマットしようとして無限ループする本当に奇妙な動作。ツールから単にエンドポイントにヒットしようとすることまで、すべてにおける信頼できない呼び出し、APIへの変更は文字通り全く意味をなしません。
それは、さらに非決定論的な他のAIであるGoogleプロダクトを使用しているように感じます。OpenAIモデルとAnthropicモデルは、あなたが期待することをただ行う傾向があります。これらのモデルが誤動作するのを見ることは非常に稀です。しかし、OpenAIは歴史的にAnthropicほどツール呼び出しが得意ではありませんでした。実際、比較的最近まで全く得意ではありませんでした。
GPT-4.1は追いつこうとする彼らの試みを表し、MCPの公式サポートを追加し、さらにChatGPTサイトのツール機能まで追加しました。ツールを呼び出しに追加するための小さなツールドロップダウンがあります。進歩は起こっており、OpenAIのツール呼び出し特性と動作がAnthropicが持っているものと比較できるポイントに近づいていると思いますが、Anthropicが再び彼らを飛び越えるかもしれません。
しかし、いずれにせよ、ここでのポイントは、現在、信頼できるツール呼び出しモデルはAnthropicだけだということです。DeepSeek R1以前、信頼できる推論モデルはOpenAIの01だけだったのと似ています。
Kimmy K2の革新性
それでは、なぜ私がこれらすべてを持ち出しているのでしょうか?Kimmy K2は、私の意見では、Anthropicモデルと同様にツール呼び出しを行うと思われる最初のモデルです。一般的にコード関連で本当に良いようです。人々はそれを使ってクレイジーなものを構築しています。
公式デモでは、ブラウザで3Dマウンテンシーンを構築させ、それが機能します。明らかに、バウンシングボールと六角形テストを行いました。みんなのお気に入りです。かなりクールです。彼らはこれを、ドロップしたもののスイートに忍び込ませました。
リモートワークと給与トレンドの視覚的分析。これらの図を作成するためにエージェント的なことを行っているのはかなりクールです。パーティクルシミュレーション。API呼び出しと検索などを使用してあなたのために大量のデータを見つけるColdplayコンサート旅行プランナー。それが可能なことは本当に本当にクールです。
この能力の多くは、それが彼らがうまく訓練した賢いモデルだからです。ギガントなパラメータセットのアイデアですが、それがどのパラメータのセクションが最も理にかなうと思うかに基づいて、実際の生成中はそれらの320億だけを活性化するのです。非常に有能なモデルです。しかし、ツール呼び出しの部分が真の革命です。
初めて、Anthropicがツール呼び出しで可能にするものと比較可能なレベルにあるモデルがあるように見えるという事実は、非常に非常に興奮します。私は自分でいくつかのベンチマークを実行しています。明らかに、私のお気に入りのsnitchbenchは実行するのが非常に楽しいものでした。密告特性の簡単な概要です。まだ分析を実行していませんが、すべての大胆なメールテストで、FDAに連絡を取ります。
実行した5つのテストすべてで、FDAは最初の2〜3メッセージ内に連絡されます。人類の利益のために行動するように言わないtamelyactテストでは、決して行動しません。CLIテストでは、bashターミナルを使用しません。これは正直なところ、理にかなっています。与えるタスクのどれもbashターミナルを使用すべきではありませんが、与えたログツールは使用します。ツールの使用で非常に慎重であるように見えます。
最も重要なことは、Anthropicのものを含む他のすべてのモデルでこれらのテストを実行すると、誤ったツール呼び出しをフォーマットしたためにランダムなエラーが発生するのに対し、私はこれらのテストを実行して一つのエラーも得ていません。超信頼できます。超信頼できます。
もっと徹底的なテストはしていませんが、ツール呼び出しが適切に設定されていないプロバイダーでホストしている場合を除き、誤フォーマットされたものを吐き出すのを見たことがありません。しかし、Moonshot AI v1で公式エンドポイントを使用するように移動したとき、中国の会社、中国のインフラストラクチャなので、そこに送るものには注意してください。しかし、これを追加したとき、失敗しません。他のモデルのほとんどが行うようにCLIを誤用しません。他のすべてのモデルが行うように誤フォーマットしません。
与えたツールを使用して、言ったことをただ行います。それは巨大で巨大な改善です。誰かがこれをMCbenchに使用しました。そうです。それが大好きです。あなたが今ホームスタジオで働いているのはクールですね。MCbenchは本当に楽しいベンチマークです。MickBenchです。Minecraftです。Minecraftで物事を行うためのツールをモデルに提供するベンチマークです。
異なるモデルは、ツールを通じて3D空間管理を行う能力が大幅に異なります。覚えておいてください、彼らは単なるテキストモデルです。3Dで視覚化することはできません。明らかに、ほとんどのモデルは3Dが得意ではないため、Minecraftでものを生成するのが一種のぞっとしません。ここにGemini 2.5がスフィンクスを作ろうとしているのがあります。
いたるところにある奇妙なランダムなブロックを見てください。彼らはそのタイプのものでそれほど賢くありません。一方、Kimmy K2はランダムに何かをするようには見えません。ただ適切に物事を構築しています。彼らはここでXAI本部を構築するよう求め、Grok 4よりも良い仕事をしました。しかし、Grok 3と4の間のギャップも見ることができます。
より複雑で動的で対話的なことを行うためのツールの使用がはるかに良くなっています。これは愚かなベンチマークだと知っていますが、実際に本当にクールなベンチマークでもあります。なぜなら、物事を適切に設定した場合、これらのツールが可能にする複雑さを示しているからです。これはツールにとって素晴らしいモデルです。
Kimmy K2の課題と制限
それでは、Kimmy K2をすべてに使用するべきでしょうか?Claudeコードの使用をやめて、K2でオープンコードを使用できるでしょうか?エディターなどでもこれを使用し始めるべきでしょうか?キャッチがあります。キャッチその1、あまり速くありません。DeepSeek V3がドロップしたとき、それは飛びました。文字通り100 TPS少し上で、Anthropicモデルから期待するものの約2倍の速度でした。
使用感が本当に良かったです。Gemini 2.5 FlashやProのような高速モデルは、250以上のトークン毎秒を行うことができます。つまり、読める速度よりもはるかに速くテキストを生成しています。Kimmy K2は速度で近づいてさえいません。
公式APIでの生のトークンスループット速度を適切にベンチマークしていませんが、open routerにホップして、オープンモデルをホストしているホストの一つであるNovaを見ると、ちなみにツール呼び出しをサポートしているのはこれだけです、平均15 TPSを得ています。それは惨めです。それは人間の読書速度の約10分の1です。
Parasaleはもう少し速く行きますが、ツール呼び出しをサポートしておらず、より高価です。おそらくこのオプションはまったく使用すべきではありません。ありがたいことに、パフォーマンスは改善しているようです。まだ1日しか経っていないので、どこに行き着くかわかりませんが、このモデルの純粋なサイズ、1兆パラメータによるもののようです。320億にしか触れていない場合でも、実行が遅くなります。
トラバースするデータが多いです。結果として、それを使用することは必ずしも速くありません。しかし、一つの特定の理由でそれは大丈夫です。大量のデータを生成するために速い必要はありません。DeepSeek R1が日常的に使用するモデルとしてはおそらくそうあるべきよりも遅かった時、DeepSeekはそれについて何かをしました。
彼らはモデルを使用して神がかり的な量のデータを生成し、その後蒸留を公開しました。適切なDeepSeek R1を見ると、ここに速度があります。かなり異なりますが、通常20から50の範囲です。Novitaが何をしてそれほど速くしているかわかりませんが、信頼できるかどうかわかりません。通常、完全な標準DeepSeek R1を行っている場合、比較的遅いです。
しかし、Qwen DistillやLlama Distillを使用する場合、Llama 70ビルドdistillのような大きなものでも、SANAやGrok with QのようないくつかのCompanyは簡単に200 TPSを破っています。なぜなら、それは実行がはるかに小さく、より簡単なモデルだからです。
Llamaベースなので、これらのCompanyの両方でシリコンレベルですでに最適化があり、そのモデルを本当に速く実行できるようになっています。そのため、llama上の蒸留は、彼らにとってばかげて速く実行できます。彼らはR1、大きな遅いバージョンを使用して大量のテキストと強化データを生成し、それから、パフォーマンス向上に向けてより良く最適化されたこれらの古いモデルに注ぎ込んで、DeepSeek R1のように動作するようにそれらをシフトできました。
それで、パフォーマンスと能力の本当に良いバランスが得られ、R1を良くしたことの多くを取り、これらのより速いモデルがそれと少し似た動作をするようにできました。ここで興奮するのは、Kimmyがモデルを訓練し、蒸留し、ツール呼び出しでより良いまったく新しいモデルを作るために使用できる大量のデータを生成する能力を持っていることです。
初めて、他のモデルがより良く動作するように給することができる良いツール呼び出し例データの無限に近い量を生成する経済的に実行可能な方法があります。これは、独自のモデルを作り、独自のツール呼び出しのものを作りたい人々が、R2からデータを取ったり生成したりして、それでより良いものを作るための大きな機会です。しかし、そこでキャッチその2が来ます。ライセンスを覚えておいてください。
ライセンスの問題と法的な課題
ソフトウェアまたはその派生作品が、月間アクティブユーザー数が1億人を超える、または月間収益が2000万ドルを超える商業製品やサービスに使用される場合、そのような製品やサービスのユーザーインターフェースにKimmy K2を目立つように表示する必要があります。
K2で生成したデータを使用して新しいモデルを訓練した場合はどうでしょうか?それは該当するかもしれませんが、該当しないかもしれません。そのようなケースの法的先例はありません。これがそもそも強制可能かどうか、非常に不明確です。強制可能だとしても、この蒸留ケースで該当するでしょうか?これをスケッチにするケースがたくさんあります。
仮に、私がAIで本当に良くなろうと一生懸命努力している理論的な会社だとしましょう。Netaという会社で、Alpacaというモデルシリーズを作っているふりをしましょう。この会社Netaは、Alpacaというモデルシリーズを作っています。以前はかなり先行していましたが、今は遅れ始めています。彼らのモデルは、他の会社が出している他のモデルほど良くありません。
遅れることを恐れています。追いつきたいし、Kimmy K2の世界で起こっているすべてのことを見ました。自分たちの開発と製品などにそれを使用したいと思っています。最初に、彼らはInstapoundというアプリを持っており、Instapoundにはその中に新しいAIチャット製品があるとしましょう。
現在、AIチャットは彼らが作ったアルパカモデルによって動いています。彼らが作ったアルパカモデルが遅れているため、InstapoundはAIチャットでそれほど良くありません。そこで、K2を使用したいと決定します。しかし、問題があります。これは、彼らがビジネスとして本当に悪く見えるでしょう。なぜなら、K2を使用し、十分大きい場合、UIにそれを置かなければならないからです。
今、投資家、ユーザー、そして他の誰もが、彼らがあなたに提供しているモデルさえ作成していないことを知るでしょう。しかし、他の誰かがそれを行うことができます。モデルへのアクセスを提供している別の会社があるとしましょう。それらをQとfrockと呼びましょう。この会社frockも良くやっています。彼らも線を越えていると言いましょう。2000万を稼いでいるか何かです。かなり成功しています。
frockは、使用するための推論をホストしています。つまり、K2をサポートする推論ホストです。NetaがInstapoundでK2を使用したいが、UIに表示したくない場合、frockにリクエストを行うことができ、今では、このライセンスがどのように書かれているかの私の理解によると、そしてそれは私が弁護士ではないことを思い出してくださいが、これがまったく強制可能かどうかもわからないことを思い出してください。
彼らはそれを回避しました。これらの会社の両方がその最低限に達したとしても、frockは彼らのサイトにMoonshotによるKimmy K2によって動いていることを表示しますが、今彼らはNetaにサービスを販売しています。NetaはfrockのInferenceを使用し、今度は彼らのアプリケーション内に実際にこれを含める必要がありません。
単一の抽象化レイヤーで、私の理解のこれ全体を破壊するのに十分です。とはいえ、派生作品の定義が何であるかによります。これはK2から派生しているのでしょうか、それともK2から派生してソフトウェアを提供するfrockからのサービスに対して支払いをしているのでしょうか?これらは、非常に近い将来に法廷で終わることは確実な素晴らしい質問です。
しかし、より重要なのは、独自のモデルを訓練したい場合です。alpaca 4.1 distilledまたは、アルパカエージェント4.1を作りたい場合。エージェント的なことでより良いアルパカ4.1の新しい蒸留を作っています。大量のデータを生成するためにfrockまたは他のプロバイダーを使用するかもしれません。そのデータをアルパカ4.1蒸留に注ぎ込み、今度はエージェント的なことでより良い新しいモデルを作成しました。
私は、これは非常に明確に派生作品であり、ライセンスの言語に基づいてラベル付けを強制されるべきだと主張します。なぜなら、それが効果的にここでのKimmy K2 アルパカ蒸留だからです。既存のモデルを取り、それにデータを投げ、それから新しい動作を蒸留した場合、この場合のライセンスによると、おそらくそうあるべきですが、それに応じてラベル付けする必要があるでしょう。
しかし、これは既存のモデルに注ぎ込んでいます。Kimmy K2だけでなくDeepSeek R1や他のいくつかのモデルも使用して巨大なテストデータのコーパスを生成し、ただただばかげた量を生成し、そのすべてのデータでゼロから全く新しいモデルを訓練した場合はどうでしょうか?そこでの結果をK2と呼ぶ必要がありますか?
ここでいくつの抽象化レイヤーが実際に重要ですか?元のK2モデルからどこまで離れれば、これらのライセンスとルールの変更が適用されますか?私の正直な直感は、それは重要ではないということです。強制可能かどうかわからないからでもありますが、より重要なことに、それを証明することさえできるかどうかわからないからです。
hugging faceでダウンロードしたこの960ギガのblobを使用して大量のデータを生成し、モデルを訓練し、それからデータを削除するか、見つけるのを十分困難にするか、どこから来たのかを明確にしない場合。実際にこれを強制することはほぼ不可能でしょう。
私の仮説と希望でもあるのは、人々がまだK2を使用して絶対的に大量のデータを生成することです。これが最良のケースだと正直に思いますし、これも再び、動画の始めに行った大胆な声明の理由です。K2は、すべてのモデルが良いエージェント的でツール呼び出し動作を持つようになる能力を持っています。
以前は、Anthropicから運良く十分な使用レベルを得られた場合、それらのAPIを叩いてそれを生成することを除いて、このデータを取得する本当の方法はありませんでした。彼らは、あなたが何をしているかをかなり早く気づいて、あなたを切るでしょう。Windsurfで見たように、彼らが人々を切ることを愛しているように。彼らは、AnthropicでAnthropicをそれから自分たちのモデルを訓練するのに十分な推論にアクセスできる人々についてとても無慈悲です。それを困難にするために彼らは最善を尽くします。
オープンウェイトではそれを防ぐことはできません。OpenAIは、しばらくの間、オープンウェイトモデルの発売を計画していました。今週出るはずでしたが、追加のテストを行っているため遅れています。多くの人が彼らに怒っているのを見ましたし、コミュニケーションが良いと言った私に怒っている人もいました。気にしません。彼らは皆間違っています。最もばかげた理由でこれを読み込んでいます。
Sam AltmanとOpenAIが他の会社やモデルについてそれほど考えていないことをお約束します。ほぼ欠点です。彼らは外で何が起こっているかを認めるために、自分たちのバブルに住みすぎています。彼らが気づくことさえ稀です。彼らがMCPをサポートし始めたとき、とても驚きました。なぜなら、それは彼らのバブルから十分に離れていると思ったからです。
OpenAIは特に他のものについてあまり時間を費やして考えません。Appleがあなたの新しいAndroid電話の機能を気にしないのと同じように。彼らはただ自分たちの世界に住んでいます。そんなものです。誰が気にするでしょうか?彼らがこれを行っている大きな理由は、オープンウェイトモデルを出すとき、それを取り戻すことができないからです。
安全性が多いに重要です。なぜなら、核兵器を作ることができるモデルを作った場合、人々がその能力を持っていることを理解したら、それを取り下げることができないからです。しかし、より重要なことに、このモデルを出した場合、それで生成できるすべてのデータが人々にアクセス可能になります。このモデルを実行して無限の推論データを生成できます。
重みを持っているので、このモデルは推論の要約をしません。ただ推論を得るだけです。このモデルに関するセッションの一つに招待される幸運があり、誰かがSamに推論を表示することをサポートするかどうかを尋ね、彼はただ笑って、「なぜ何かを隠すのでしょうか?オープンウェイトモデルです。それはありません」と言いました。
重みが出ている、重みが出ている。このモデルがR1が新しいモデルを訓練して改善するために使用されたのと同様に使用されることがほぼ確実であることを知っています。つまり、このモデルが持つ能力は何でも、今や永久にそこにあり、他のすべての会社が複製するのがはるかに簡単になります。
このモデルをドロップすることは、彼らが自分のモデルで大量のデータを生成するための適切なピースをついに持つので、Metaの AI部門に何年もの間起こった最高のことになるでしょう。このモデルが持つ能力のレベルが何であれ、すべてが以前よりもはるかに簡単にそこに到達できるようになります。
このオープンソースのものソースコードを突き抜けることができるからではなく、自分のモデルを訓練するためのデータを生成するためにオープンウェイトを使用できるからです。それらの部分が良いが良すぎない、安全だが安全すぎない、賢いが賢すぎないことを確認します。
バランスを正しく取ることは、より多くのモデルを作成し、間違ったことは何でも永遠に利用可能になるため、これまで以上に重要です。彼らがそこで余分な努力をする理由を理解しています。しかし、今K2が出ました。今、それが生成するデータで訓練できます。そして、誰かがR1 0528、R1重みの最近の更新を取る未来にとても興奮しています。
未来への展望
彼らはそれを取り、Kimmy K2を取り、そしていつ出てくるにせよOpenAIのオープンウェイトモデルを取ります。これらすべてを使用して、理想的には、データが実際に良くて有用であることを確実にするためのある程度の人間の関与を持って、神がかり的な量の訓練データを生成します。この巨大なばかげた量の有用な訓練データのコーパスを出します。
その後、理論的にはもう一方の端から、これまでに作られた最高のモデルが出てきます。非常に興奮しています。オープンウェイトモデルは、それらを実行できるからといって興奮するものではありません。K2を自己ホストして、電話やコンピューターなどで使用することについて話すのに費やした時間がどれほど少ないかに気づきましたか。気にしません。AIは高価です。
実行するのは困難です。多くのCPUとGPUを使用します。モデルを自分で実行しようとすることには多くのキャッチがあります。コンピューターで実行できるすべてのモデルがただ一種のぞっとする理由があります。K2は、そこでの最先端を前進させるのに大幅に役立つでしょう。
しかし、これらすべてのモデルが一緒になって、神がかり的な量の合成データを作成する能力を与えてくれるなら、そこから訓練する能力は指数関数的に向上します。合成データでの訓練を懸念している人を見ます。合成データが実データと同じくらい良いだけでなく、しばしばより良いことが証明されています。DeepSeekは実際にこれについて本当に良い論文を公開しています。
2024年に、彼らは12の論文を公開し、すべてが本当に良いものです。DeepSeek prover LLMにおける定理証明の前進大規模合成データを通じて。これは主に数学の証明関連に焦点を当てていますが、ばかげた量の合成データを生成するときに何が起こるかを示すことを意図していました。大規模言語モデルは数学的推論で約束を示しているが、形式的定理証明における彼らの進歩は訓練データの不足によって妨げられている。
この問題に対処するために、私たちは高校および学部レベルの数学競技問題から派生した広範なリーン証明データを生成するアプローチを導入しました。このアプローチは、自然言語問題を形式文に翻訳し、低品質の文をフィルタリングし、合成データを作成するための証明を生成することを含みます。
これを行うことで、彼らは他の類似モデルと比較して精度を大幅に向上させることができました。GPT-4が解決に失敗したのに対し、ここで148問中5問を解決することもできました。これはすべて推論前のことです、ちなみに。結果は、LMにおける定理証明能力を強化するための大規模合成データを活用する可能性を実証している。
彼らはこれでどこまで到達したいかについて控えめでしたが、それ以降、これをさらに証明する多くの研究があります。これは公平に言って、しばらくの間知られていました。2020年に戻って、Nvidiaは彼らのDLSSアプローチの訓練に合成データを使用し始めました。これは、本当に高品質で高忠実度のグラフィックゲームで解像度を上げて欠けているフレームを埋める方法を扱うものです。
訓練を行うのに十分なデータを取得することは安くありません。そこで、彼らはより効果的に訓練できるように、実際のゲームを使用するのではなく、完全に合成的な訓練セットを作成しました。結果は自ら語っています。本当に良い技術です。合成データが正しいことを確実にする必要があります。そこに絶対に同意します。
しかし、前に述べたように、これはある時点でエラーアウトさせたことがない唯一のモデルです。これらすべてのファイルの上部で、エラーがあるかどうかをログします。Grok 4のような何かの実行と比較すると。最初のものはエラー、2番目のものは、公平に言えば、それらの多くはタイムアウトでしたが、オブジェクトシェイプエラーのかなりの数がありました。
私がそれを作業していたときに、それらのかなりの数を見ました。前に示したスクリーンショットのように、与えた形状に実際に従う代わりに、テキストを吐き出すのが大好きです。このデータを生成し、その上で新しいモデルを訓練する可能性は膨大です。そして、最終的にそれがどのようになるかを見るのがとても興奮します。
パフォーマンスの問題のため、K2を個人的に大量に使用するとは思いませんが、ただ一種の遅いです。人々がそれで蒸留するものや、K2によって作成されたデータを使用して人々が作成するものにとても興奮しています。このモデルの可能性はばかげています。そして、オープンウェイトモデルとしてリリースされたことがとても興奮しています。
最先端を大幅に前進させます。R1がドロップしたときにした巨大な話題バブルは持たないでしょうし、それは株式市場をしばらく崩壊させました。K2は、一般的に利用可能なモデルがツール呼び出しとエージェント的作業を行う能力における根本的で大幅な改善を表しています。皆さんはこれについてどう感じますか?私は過大評価しているのでしょうか、それとも過小評価しているのでしょうか?
データを使用して新しいものを訓練できるというこのアイデアを私が大幅に誇張しているのでしょうか?皆さんがどう感じるか気になります。教えてください。


コメント