中国の新型K2エージェントがGPT-5を全ベンチマークで上回る(Kimi K2 Thinking)

LLM・言語モデル
この記事は約23分で読めます。

中国発のKimi K2 thinkingは、従来の大規模言語モデルとは一線を画す思考型エージェントモデルとして登場し、AI業界に衝撃を与えている。このモデルは200~300回の連続的なツール呼び出しを人間の介入なしに実行可能で、複雑な問題解決において最先端のベンチマーク性能を達成している。特筆すべきは、GPT-5 codex highやClaude 4.5 Sonnetなどの主要モデルを大幅に上回る性能を示し、「人類最後の試験」と呼ばれる最難関ベンチマークでも1位を獲得した点である。1兆パラメータを持ちながら、トークンあたり320億パラメータのみを活用する効率的な設計により、GPT-4の10分の1のコストで訓練されたとされる。エージェント型検索、長期タスク処理、コーディング能力において顕著な優位性を示し、特にAnthropicが優位性を保つコーディング分野を除き、多くの領域で競合を凌駕している。このモデルの登場は、主要AI企業の製品発表戦略に影響を与える可能性があり、効率性と性能の両立という新たな競争軸を提示している。

Chinas New K2 Agent Beats GPT-5 Across Benchmarks (Kimi K2 Thinking)
Want to stay up to date with ai news - 🐤 Follow Me on Twitter 🌐 Checkout My website - http...

Kimi K2 thinkingの衝撃的な登場

中国から新たな最先端モデルが登場しましたが、これは本当に驚異的なものです。それでは詳しく見ていきましょう。

KimyがKimi K2 thinkingをリリースしましたが、これは本当に信じられないことだと思います。というのも、これは従来とは異なる種類のモデルだからです。多くの人々はこれを単なる標準的なLLMのリリースだと考えていましたが、そうではありません。標準的なLLMリリースではないのです。

これは全く別次元のものです。なぜなら、ここでハイライトした部分を見ていただければわかります。これは思考エージェントなのです。つまり、これは単純に会話するだけの典型的なLLMではないということです。これは最初から思考エージェントとして構築されました。つまり、ツールを使用しながら段階的に、現存する最も困難なベンチマークのいくつかで最先端のパフォーマンスを達成するということです。

これは業界を揺るがす驚異的な出来事です。なぜなら、多くのフロンティアラボが、Kimi K2 thinkingが先手を打ったことで、AIリリースを遅らせることさえも検討しているかもしれないことがわかったからです。覚えておいてください、これはもはやLLMではありません。これはモデルなのです。そしてこの部分をお見せしましょう。

Kimi K2 thinkingは、人間の介入なしに200から300の連続的なツール呼び出しを実行でき、何百ものステップにわたって一貫して推論し、複雑な問題を解決することができます。

そしてこれが彼らの最新のテスト時スケーリングです。彼らは思考トークンとツール呼び出しステップの両方をスケーリングすることで、モデルを異なる方法でスケーリングしました。つまり、以前のモデルが行っていたような思考だけをスケーリングしたのではありません。ツール呼び出しステップをスケーリングしたのです。

つまり、ここにあるのは長期的に考えるエージェントなのです。ツールを使用する思考エージェントであり、彼らはこれをスケーリングすることに成功しました。そして皆さん、これは最先端であり、小さな進歩ではありません。これは狂気じみた、狂気じみた飛躍なのです。

驚異的なベンチマーク性能

それでは見ていきましょう。これはTowl benchです。このベンチマークは、エージェントとユーザーの両方が主体性を持つシナリオ、つまり両者が行動できるシナリオにおいて、会話型AIエージェントを評価するために使用されます。これは、単一制御を持っていた以前のTowベンチマークに基づいて構築されており、これはデュアル制御環境です。

これを見て皆さんは何に気づきますか。現在の第1位のモデルがKimi K2 thinkingで93%であることがわかります。皆さん、これはGPT-5 codex highを上回っています。このレベルのモデルを考えると、それは驚異的なことです。

覚えておいてください、このモデルはオープンソースであり、基本的に誰でも無料で使用できます。これは本当に大きな、大きな出来事です。

このベンチマークの仕組みを知りたい場合、各タスクには会話とツールの使用が含まれており、エージェントはツール、APIコール、データベースクエリを使用し、シミュレートされたユーザーもツールを使用できます。例えば機内モードの切り替えなどです。そして世界の状態が追跡され、ベンチマークは基本的にエージェントがユーザーを導き、ツールを使用して目標を達成することに成功したかどうかをチェックします。

これはエージェントの推論とエージェントのガイドを区別し、このベンチマークははるかに難しいことがわかります。そしてKimi K2 thinkingがこれらの他のモデルを大きく飛び越えていることがわかります。

これは驚異的です。なぜなら、Kimi K2がリリースされたときに優れたモデルであることはみんな知っていましたから。DeepSeekがいる場所よりもかなり先を行っていることは知っていました。DeepSeekの人々が何をしているのかはわかりませんが、うまくいけば別のモデルで復帰できることを願っています。

しかしKimi K2は本当に注目を集めています。なぜならGPT-5 highを飛び越え、Claude 4.5 Sonetを飛び越え、そしてもちろんGrok 4も飛び越えているからです。これは最先端のシステムであり、本当に本当に驚異的です。

正直言って、このような飛躍があるとは予想していませんでした。そしてたとえこのような大きな飛躍があったとしても、少なくとも以前のように他のLLMの中に収まる程度の飛躍だと予想していました。6%も飛び越えるとは思っていませんでした。6%は大したことないと思うかもしれませんが、皆さん、これらのフロンティアラボは、せいぜい5%から10%を追い求めています。これらのモデルがパーセンテージの向上を絞り出すことがますます困難になっていることを考えると。

ChatLMの紹介

さて、AI関連ニュースの他のセクションに入る前に、もしあなたがAIツールを使っているけれど、常にタブを切り替えたり、モデルをやりくりしたり、ペイウォールに引っかかったりしているなら、実はもっと良い方法があります。それはChatLMと呼ばれるもので、私がこれまで使った中で最も強力なオールインワンAIプラットフォームです。

すべてのトップティアAIモデルにアクセスできます。GPT-4.1、Claude 4、Gemini 2.5、Grok 4、すべてが一つの屋根の下にあります。もうプラットフォーム間を行き来する必要はありません。

しかしそれだけではありません。Deep Agentを使えば、すべてができます。単一のプロンプトでアプリを構築できます。完全なドキュメントやピッチデッキを生成し、Deep Agent MCPを使ってウェブを閲覧してサービスに接続するエージェントを起動することもできます。

ビジュアルが必要なら、最先端の画像・動画生成ツールにアクセスできます。コードが必要なら、ChatLMにはCode LMが含まれています。これは複数のモデルによって駆動されるプロレベルのコーディング環境です。そして整理整頓したいなら、プロジェクトが組み込まれています。ワークフローに直接統合されるタスクファイル管理システムです。

そして最も驚くべきことは、これらすべての機能がたった月額10ドルだということです。Deep Agent、Code LM、App LM、Groアクセス、すべてがランチ1回分以下です。私のリンクを使ってサインアップすれば、今日からChatLMを始められます。本当に、必要以上に難しくする必要はありません。

人類最後の試験での圧勝

さて、これがベンチマークです。これがもしあなたがまだ見ていないなら、この動画から持ち帰るべきポイントです。最も困難なベンチマークの一つは「人類最後の試験」と呼ばれています。

人類最後の試験が何かを知らない場合、まさにその名前が示す通りです。これはAIのための文字通りのベンチマークテストであり、AIが専門家レベルの人間の能力に近づくにつれて人類が直面する実存的な課題に対する挑発的なメタファーでもあります。

人類最後の試験は、Center for AI Safety、Control、そしてScale AIによって開発されたマルチモーダルベンチマークです。このベンチマークは、100以上の学術分野にわたる約2,500から3,000の極めて難しい質問で構成されており、AIシステムの推論知識の深さと広さの両方を明示的にテストするように設計されています。

難易度は非常に高く、ほとんどの大学生がこの質問に答えるのに苦労するでしょう。これらの質問はしばしば専門知識を必要とします。このベンチマークが作成されたのは、MMLUのような以前のベンチマークがもはや最先端の言語モデルにとって挑戦的でなくなり、それらのテストで人間の専門家を上回り始めたからです。

覚えておいてください皆さん、これは意図的に最後の種類のものとして作成されたベンチマークであり、現在のフロンティアモデルが人間の専門知識の観点から不足している部分を明らかにするようキュレーションされました。

そしてここで見ることができるのは、Kimi K2が他のフロンティアモデルを飛び越えているということです。かなり驚異的です。44.9%です。そして正直、本当に本当に驚いています。

うまくいけば他の企業がこれらの主張を独自に検証できるようになることを願っています。というのも、もしかしたらこの信じられない結果が単なる幸運ではなく、誇張があるかもしれないからです。しかしこれも見てください。

モデルの技術的詳細

モデルが舞台裏でどのように機能するかの詳細に入りたい方のために、もちろん望むならこの部分をスキップしても構いませんが、あまり時間をかけるつもりはありません。しかし驚くべきことは、Kimi K2が全体像としてどのようにこれを実現したかということです。

DeepSeekは6,710億のパラメータを持っているのに対し、Kimi K2は1兆のパラメータを持っています。しかし、両者ともMixture of Expertsと呼ばれるものを使用しています。つまり、すべてのタスクにすべてを使用するのではなく、必要なタスクに対して特定の専門家だけを呼び出すということです。

DeepSeekには約128の専門チームがあり、トークンあたり370億のパラメータを使用していましたが、Kimi K2には約64の専門チームがあります。DeepSeekよりもチームは少ないですが、各専門チームはより大きく、より賢く、8人の専門家と単語あたり1つの共有を活性化します。

つまり、トークンあたり320億のパラメータを持っているということです。これは本質的に、長い話を短くすると、Kimi K2ははるかに効率的なモデルだということです。合計1兆のパラメータですが、一度に働いているのは320億のパラメータだけです。

Kimi K2は効率性のチャンピオンです。より大きなモデルかもしれませんが、単語あたりの活性パラメータは少ないのです。だからこれがこんなに驚くべきことなのです。

これらすべてを見てみると、もちろん細部に入り込みすぎたくはありませんが、品質の飛躍を提供する観点から彼らがどのように変更を実現したかを見るのは非常に興味深いです。

エージェント型ツール使用

覚えておいてください皆さん、これはエージェント型モデルとして設計されたモデルです。ここにあるのはエージェント型ツール使用です。そして再び、人類最後の試験を含むこれらすべてを見ると、エージェント型検索がAnthropicを飛び越え、ChatGPTを飛び越え、リアルワールドのデータセットと情報収集を含むCoリーダーボードで最新の状態になっており、ただ飛び越えています。

このエージェント型検索について最も驚くべきことは、私はこれをテストしました。今日早くに動画を作っていて、トップ3のLLMに尋ねました。GPTに、Claudeに、そしてKimi K2に、ちょうど起きたばかりの何かについてインターネット上の特定の情報を尋ねました。

すべての情報を正確に入手できたモデルはKimi K2でした。詳細な情報を提供してくれました。皆さん、これは驚きでした。ジェンスン・フアンについて何かを尋ねました。実際、今そのタブを開いてお見せします。

これが例です。「ジェンスン・フアンがアメリカと中国のAI競争について話したすべての機会を教えてください」と言いました。そして、話されたすべての時間の詳細なタイムラインを提供してくれました。Claudeに尋ねましたし、ChatGPTにも尋ねましたが、それほど多くの詳細はありませんでした。

そしてこれは私が尋ねた唯一のものではありません。これはおそらくお見せするのに最良の例ではないかもしれませんが、私が個人的に小規模に使用している何かのために使っているいくつかの異なる内部ベンチマークでテストしました。推論能力には本当に驚かされました。

推論能力とエージェント型検索は正直言って私を衝撃させました。というのも、これらのフロンティアモデルを使用してベンチマークを見ると、「なるほど、このベンチマークではすべて良く見える」と言うのですが、実際にテストにかけると、単純にすべてで失敗するのです。

だから個人的には、「なるほど、これは明らかに何か革新的なことをしている。何か革新的なことをしたのは明らかだ」という感じでした。なぜなら、このような飛躍はしないからです。少なくともフロンティアラボを何らかの革新なしに競合を飛び越えることはできないからです。かなり驚異的です。

コーディング能力

さて、一部の人々はコーディング、コーディング、コーディングについて疑問に思っています。コーディングに関して言えば、幸いなことに彼らはAnthropicの市場シェアを侵食していないようです。Kimi K2は実際にはまだかなり優秀なコーダーのようですが、唯一の問題は、Anthropicが他では真似できない方法でコーディングを支配しているように見えることです。

そして私は、それがAnthropicからのかなり賢明な動きだったと思います。なぜなら、競争は時間とともにますます激しくなり続けているからです。ここでコーディングベンチマークを見ると、これがどれほど印象的かを文字通り見ることができます。

SWベンチマークでは、ChatGPTを上回っていますが、他の2つのベンチマークではかなり良い成績を収めています。正直に言うと、これは自分でテストしなければならないベンチマークです。コーディングに関しては、ほとんどの人は最良のモデルを選ぶだけです。忠誠心はないでしょうし、最も安いモデルを選ぶでしょう。だから一部の人々がGrok code fastを使用できるのだと思います。

だから、明らかに何か興味深いことが起こっています。私はすべてのコーディング能力をテストしたわけではありませんが、Twitterやオンラインで見た限りでは、かなり良好なようです。

人々が最良のモデルを使うだけだと言う理由は、バグやコーディングの課題に対処することは単純に価値がないからです。たとえそれが劇的に劇的に安価であったとしてもです。多くの場合、人々は最良のモデルにお金を払う意思があるのです。

長期タスク処理能力

長期タスクに移ると、これは別の驚くべき、驚くべき領域です。ここで見ることができるのは、Kimi K2がこれらの長期タスクに関して本当に遠くまで行くということです。

モデルが本当に極端な長さでどのように機能するかを実際に見たい場合、モデルが連続して複数のタスクを一緒に実行しなければならない長期タスクを行うことができます。これが指数関数的に難しいことを理解する必要があります。なぜなら、追加のステップを踏むたびに、そのステップが間違っている可能性があるからです。

この領域は私を非常に驚かせます。私が使うのが好きな例、そして最初にこの例を見つけたとき、これらのモデルが特定のケースでどれほど優れているかを実感させてくれました。

ケーキを焼いていて120の異なるステップがあったとしましょう。ステップを踏むたびに、ステップ30で間違ったステップを踏んだ場合、ステップ120に到達するまでに、間違った出力があれば、正しい出力を得ることが指数関数的に難しくなります。なぜなら、正しいものを得るためには120のステップを正しく踏まなければならないからです。

しかしこれを見てください。多様なツールのセットを積極的に使用しながら推論することで、K2 thinkingは最も困難な学術的および分析的問題のいくつかに取り組むために、何百ものステップにわたって計画、推論、実行、適応することができます。

これが彼らが使用する例です。ある例では、23の絡み合った推論とツール呼び出しを通じてPhD数学の問題を成功裏に解決しました。これは深い構造化された推論と長期問題解決の能力を例示しています。

だからこれが私が驚異的だと言った理由です。モデルの訓練方法は、本質的に推論者として、本質的にエージェントとして訓練されているからです。

そしてこれが私がモデルが向かっている方向だと思うところです。多くのモデルでこれに気づいていませんでしたが、モデルに本当に良いパフォーマンスをさせたい場合、もちろん訓練したい方法で訓練しなければなりません。

LLMだけだった初期を思い出してください。しかし、タスクを順次実行するようには実際には訓練されていませんでした。しかし、明らかにそれを行うように訓練されたモデルがある場合、もちろん順次考え、ツールを使用することで、これが得られる結果の種類なのです。

推論完了、推論完了と続き、延々と続きます。だからこの種のエージェントがそれらの長距離タスクを実行するのに非常に優れているのです。Kimi K2、それは素晴らしいです。

Manimでのコーディングデモンストレーション

さて、コーディングのデモンストレーションがManim でした。Manimが何かを知らない場合、人々はManimを評価していないと思いますが、Manimは数学的アニメーションエンジンです。

これが何をするものかをお見せします。そしてこれがコーディングの良いデモンストレーションである理由です。しかし本質的には、3Blue1Brownの動画で見るような精密で滑らかな教育的アニメーションを作成できるPythonライブラリだと言えます。

ドラッグアンドドロップするのではありません。実際にはコンピュータに何をすべきか、どのように動き、どのように描くかを指示するコードを書かなければなりません。そしてAIがこれを成功裏に実行できる場合、それは本質的に一度に多くの高レベルの概念を正しく理解できるということです。

数学や概念的理解が必要です。また、クリーンで滑らかに見えるようにするデザインセンスも必要です。そしてコードロジックも必要で、これらのアニメーションを正しく構造化できる必要があります。それだけでなく、タイミングとストーリーテリングも必要で、ビジュアルを実際に何かを説明するものにします。

AIが第一に「ニューラルネットワークを視覚的に説明して」と言われた概念を理解し、それを段階的にアニメーション化するManim Pythonコードを書き、それを明確で見やすく教育的な方法で行うことができる場合。

これはAIが単にコードを吐き出しているだけではないという強力なサインです。視覚的にも物語的にも考えているということです。そしてこれが重要なのは、テキストを書くAIから、コードを書くAI、そしてモーション、ビジュアル、タイミングを作成できるAIへと移行していることを意味するからです。これはAIに空間推論と映画的な指示のセンスを与えるようなもので、たまたまコーディングもできるジュニア映画製作者のようなものです。

これらのモデルが正しいツールを与えられたときに何ができるかを理解すると、「ちょっと待って、これらは私が思っていたよりも少し能力が高いな」と気づき始めるのです。

Strudelでの音楽制作

Strudelで音楽を作ることもありました。それがどのようなものかを正確にお見せしますが、Strudelは残念ながらペストリーではありません。たとえ今お腹が空いているかもしれませんが。

これは音楽のためのプログラミング言語です。具体的には、Strudelはライブコーディング環境であり、今は音声がオンになっていないと思いますが、これが彼らが使用したデモです。しかし本質的には、リアルタイムで音楽を生成するコードを書くことができる場所です。

Manimと同じように、楽器を演奏するのではなく、コードを書くだけで、コードのすべての行が即座に音楽を変えます。これがクールなのは、ジャンルを選んで再生するだけではないからです。リズムを理解する必要があります。ループのタイミングを効果的に取る必要があります。実行されたときに良い音になるコードを書くことができる必要があります。

そしてこれは異なります。これは異なる種類の知性です。そしてこれらは私が個人的に好きなベンチマークです。おそらく実際にどのような音か、Strudelのデモンストレーションを短く含めるでしょう。良い音かどうかはあなた自身で判断してください。つまり、みんな音楽の好みが違いますから。

[音楽]

クリエイティブ能力

クリエイティブ能力を見てみましょう。K2 thinkingのクリエイティブ能力は、実際には完全性と豊かさの向上をもたらします。明らかに、スタイルと指示処理のより強力なコマンドを示し、自然な流暢さで多様なトーンとフォーマットを扱います。

正直に言うと皆さん、私は実際にこのユースケースに同意します。私が非常に同意する理由は、このモデルを個人的に何度もテストしたからであり、このモデルが応答を提供するたびに、実際には思考能力を通じて改善されているのです。

信じられないなら、自分で試してみてください。あなたが持っているかもしれない定性的なタスク、つまりメールを書く、一般的な検索を行う、または複数レベルの抽象化を必要としない本当に基本的なことをするなどのタスクについて、GPT-5 thinkingとGPT-5標準を試してみてください。

終わったら、thinkingと非thinkingを比較してください。そうすればGPT-5がすべてのステップを完全に考えすぎる傾向があることに気づくでしょう。そのように訓練されたからです。

しかしKimi K2 thinkingの場合、エージェント的に訓練されたため、少なくとも私の個人的な経験では、それをまったく異なる側面で使用しているようです。これが実際に使われている明確な例をお見せしましょう。

彼らはここでこのプロンプトを言いました。これは文化的レビューです。プロンプトは「2025年10月のシンガポールからあまり報道されていない風変わりな地元イベントを見つけて、ニューヨーカーのトーク・オブ・ザ・タウンのスタイルで、それについて300語の文化的観察を書いてください」というものでした。

LLMにこのようなタスクを依頼すると、多くの場合、1つか2つのことに盲目的に焦点を当てる傾向があることを理解する必要があります。しかし思考エージェントがある場合、以前のモデルができなかった方法で、その要求のすべての層を把握することができます。そしてそれができる層の1つが検索を通じてです。

ここで検索できることがわかります。そして最も有望な候補を最初に把握していることがわかります。しかし思考と推論を使うと、ページを通じてエージェント的に検索し、スクロールし、ページをナビゲートし、何かを見つけることができ、それから「わかった、実際にもっと具体的なものを検索しよう。あまり報道されていないものを見つけよう。これを探すべきだ」と言うことができます。

それから更新された目標で再び検索します。それから再び推論し、「本当にあまり報道されていない、風変わりな、地元のものを見つける必要がある。検索結果は主に大きなイベントを示している」と言います。これは同じタスクを完了する際に人間が経ることになるプロセスの種類です。

しかしもちろん、それはAIなので、より速く行います。そして複数の異なる推論ステップ、複数の複数の複数の異なる推論ステップがあることがわかり、AIはその後最終的な出力を提供できます。それははるかに豊かで、比較すると単に多くの深さがあります。

退屈させたくないのでそれらを読み上げるつもりはありませんが、この思考エージェントが異なるパラダイムであることを示しています。

個人的・感情的なものもここで見ることができます。「32歳、未婚、子供なし、ニューヨークに住んでいて、現在失業中。人生で何がより重要か?自分の感情に忠実でいることか、社会の期待に応えることか?」

最初に与えられる質問は「自分の感情に忠実でいることが常に勝つ」などです。それからあなたの人生を改善するためにできるいくつかのことを提供します。これは実際にかなり良いです。そしてここでこれが実際に進んで研究し、単なる伝統的な記事ではなく研究論文を調べ、それから生成する完全な詳細なフレームワークを提供することがわかります。

これは非常に非常に興味深いです。これは定性的であることを覚えておいてください。だから、実際にこのモデルが気に入らないかもしれないことを理解してください。Geminiの方が良いと感じる人もいます。Claudeの方が良いと感じる人もいます。それはあなたがどのような人かによります。

定性的ベンチマークは本当に最も主観的なものです。なぜなら本質的に正解も不正解もないからで、現実的にはどのような方法でも進むことができます。だから、もちろんこれがあなたが好きではないモデルになる可能性があることを理解してください。

しかしもしそうだとしても、このモデルを完全に却下するとは言いません。なぜならそのエージェント能力は見逃せないからです。

訓練コストの驚き

さて、私にとって少なくとも最も驚くべきことの1つは、Kimi K2の訓練コストでした。ほとんどの人々は、実際にはこのモデルを二度と見ないかもしれません。単にDeepSeekと書かれていないからです。

しかし、ビデオの前のセクションで議論したように、これはDeepSeekよりもさらに効率的なモデルであり、ほぼすべてのベンチマークで完全に圧倒しています。コストに関して言えば、これは重要です。なぜなら、モデルを訓練するのに10億ドル近くかかり、数百万、ほぼ数十億ドルを費やしながら、パフォーマンスのわずかな向上しか達成できない場合、それは私には費用対効果が高いとは思えないからです。

もちろん今はAI企業がどこでも資金を得ているのは素晴らしいことだと理解する必要があります。彼らはデータセンターの構築に数十億ドルを費やしているだけです。しかし最終的には、このAIというものを効率的な方法で行う方法を見つけ出さなければならなくなります。そして会社が利益を上げる方法を確保する必要があります。

そしてできる必要があることの1つは、それらの商品やサービスを適正な価格で提供できることです。そしてまた、なぜこう言い続けるのかわかりませんが、理解する必要があるのは、OpenAIにとって最大のコストの1つがフロンティアモデルの訓練だということです。

いくつかのググり検索をしましたが、このAIの概要が正しいことを願いますが、GPT-5の訓練実行には5億ドルかかった可能性があり、一部の見積もりでは10億ドルに達すると言っています。そしてGPT-4については、そのモデルを訓練するのに推定8,000万ドルから1億ドルを費やしました。

Kimi K2はGPT-4の10分の1の安さです。覚えておいてください、これは事情に詳しい情報源によるものです。これは完全に間違っている可能性があります。彼らがこれについて嘘をつくのは理にかなっているでしょう。人々に彼らの技術がはるかに印象的だと思わせるために。正確な数字は決して得られないでしょうが、それらの見積もりに基づくと、これらの西側フロンティアラボにとってあまり良くないように見えます。なぜなら彼らは新しいモデルが欲しいたびに数百万、数百万ドルを費やしているからです。

だからもし私に聞かれたら、それはかなり驚異的です。

K2 Heavyモード

さて、ほとんどの人々が気づかなかったことも他にあります。K2のヘビーモードもあります。これはGrok 4 heavyのようなものです。そしてかなりシンプルです。K2 heavyは効率的な並列戦略を採用しています。8つの軌道を同時に展開し、反射的にすべての出力を集約して最終結果を生成します。

本質的に彼らが言っているのは、基本的に陪審員や裁判官グループのようなモデルの8つのバージョンを持っているということです。それから本質的には全員に同じ質問をします。それらの8つのものを持ったら、それらをすべて1つのコンセンサススコアにまとめます。スコアではなく、1つの実際の出力にまとめます。それからもちろん、その出力が最終値として与えられ、その出力が何であれ、結果として結果が出されます。

これを追加した理由は、K2 heavyを実際に見ると、かなり印象的だからです。K2 heavyはいくつかの領域でフロンティアモデルをさらに飛び越えています。人類最後の試験では、さらに約6パーセントポイント獲得しており、これはかなり印象的です。

正直言って、フロンティアモデルが来シーズンにどのようにアプローチするのかわかりません。なぜならこれは11月だからです。もしあなたがフロンティアラボで、MVP、つまり新しい大規模言語モデルを出荷しようとしていて、「さて、このベンチマークやあのベンチマークで良い成績を収めた」と言おうとしているところで、Kimi K2が競合を飛び越える新しいモデルを出し、しかも前世代のモデルの10分の1の安さで出てきた場合、このモデルを世界に提示する方法について、発表戦略を再考しなければならないかもしれません。

この時点で数百万ドル、いや数十億ドルがかかっていることを理解する必要があります。なぜならフロンティアラボからの1つの間違った発表で、その会社の評価額は急落するか急上昇するからです。

だから、これがどれほど驚異的かを見るのは非常に興味深いです。つまり、K2 Heavyは多くの異なるベンチマークで支配的であるように見えます。そして再び、私はこれに完全に驚いています。

コメント

タイトルとURLをコピーしました