新登場のKimi K2が驚きの性能を発揮し、次世代DeepSeekの可能性を示す | 中国がついに追い越すのか?

LLM・言語モデル
この記事は約13分で読めます。

本動画は、中国発のAI言語モデル「Kimi K2」の性能テストを実施したレビュー動画である。Kimi K2は1兆パラメータを持つが、そのうち320億パラメータがアクティブなMixture of Expertsモデルとして設計されている。動画では実際にゲーム制作やウェブサイト構築、SVG画像生成などの様々なタスクでテストを行い、その結果を他の主要AIモデルと比較検証している。特にカーゲーム生成テストでは印象的な結果を示し、中国のAI技術が想像以上に進歩していることを実証している。

NOVO Kimi K2 Surpreende e Promete Ser o Novo DeepSeek da Vez | Será que a China Agora Passa?
Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

Kimi K2の驚異的な性能テスト

皆さん、リクエストにお応えして、今回はKimiの実機テストをお届けします。これから見ていただく内容に、きっと驚かれることでしょう。

このAIモデルは過去にも注目を集めていた小さなモデルの一つです。中国製のモデルについて皆が何と言えばいいか分からない状況だったため、それほど大きなニュースにはなりませんでした。

しかし今、ニュースが落ち着いて新しいモデルがほとんどリリースされていない状況で、ついにこのモデルが輝く時が来ました。それでは、この中国製AIモデルで何が起こっているのかを理解していきましょう。

いつものように、「いいね」をしてくださった皆さん、チャンネル登録してくださった皆さんに感謝いたします。特に、このAIチャンネルをスポンサードしてくださっているチャンネルメンバーの皆さんには特別な感謝を申し上げます。

メンバーの方々は、WhatsApp統合、MCP、ドキュメントやPDFの読み取りなど、ゼロから教えるインテリジェントエージェントの限定動画にアクセスでき、さらに先行公開動画もご覧いただけることをお忘れなく。

実際のテスト結果と驚きの発見

さて、こちらをご覧ください。これはKimi、つまり最近アップデートされた中国のAIモデルで生成されたものです。実際にシミュレーションを行ったところ、非常に似た結果が得られたため、実際に動作しているのを見るまでは冗談だと思っていました。

これはKimiの公式チームの投稿です。ここで彼らはデモンストレーションを行い、例えばHexagonのシミュレーションを紹介しています。とても美しい仕上がりですね。銀河系内の3Dパーティクルシミュレーションなど、多くの驚くべき機能を実装しており、皆が何が起こっているのか正確には理解できない状況でした。

もちろん、実際に何が起こっているかを理解するために、私たち自身でテストを行う必要があります。エージェント経由でのスケジューリングなど、とても興味深い機能があります。2025年のCodeplayショーのスケジュール計画を立てる機能もあります。エージェントを設定すれば、エージェントがスケジューリングを行ってくれます。これは非常に興味深いです。

これらの機能はすべて現実のものとなりました。リモートワークの分析や給与トレンドの分析も可能です。リクエストを送信すると、分析を実行して美しいレポートを生成してくれます。このようなことが実現するとは誰が想像したでしょうか?

ベンチマークスコアと競合比較

こちらは例のベンチマークです。青色がKimiで、競合他社にはDeepSeek、Qwen、OpenAI、GPT-4oなどがあります。4oと表示されている場合、それはコードベンチマークであることが分かります。

技術的には、Kimiに勝っているのはClaude 4 Opusだけです。その他はすべて負けています。ツール使用と数学においても、Kimiは非常に良いポジションにあり、ほぼ全員と互角か勝利しています。

彼らが言及している唯一優れている競合は、実際にClaude 4 Opusです。ここではGPT-4oがツール使用において少し良いスコアを出し、2位になっています。

モデルの詳細仕様

モデルの説明では何と言っているでしょうか?Kimi K2はオープンソースのエージェンティックモデルで、1兆パラメータを持ち、そのうち320億がアクティブです。このモデルはMixture of Expertsです。これは32億を32回、32回…と1兆まで足し合わせることを意味し、多くのエキスパートが働いていることを示しています。

彼らは自分たちがAIの最先端であり、コーディングとエージェンティックタスクに強いと述べています。マルチモーダルモードと思考モードはまだサポートされていないため、テキストのみの対応です。推論機能もありません。

高度なエージェンティックインテリジェンスがこれまで以上にオープンで利用しやすくなったことで、皆さんが何を創造するか楽しみです。

API料金と利用方法

APIについては、プログラマーの方や何らかの統合を行っている方、マーケティングや関連分野で製品開発をしている方の場合、入力は100万トークンあたり15セント、出力は100万トークンあたり2.50ドルかかります。キャッシュトークンは100万あたり60セントです。

利用したい場合は、彼らのウェブサイトにアクセスすれば利用可能です。彼らにはKimi K2 baseという基本モデルがあり、これは完全な制御のファインチューニングとカスタムソリューションを求める研究者や開発者にとって強力なスタートポイントです。

また、Kimi K2 Instructという事後訓練モデルもあります。これは興味深いポイントです。Instructがある場合、それは彼らが会話や何かを実行するために何らかの調整を行ったモデルを意味します。実際に彼らも述べています:迅速なチャット、一般的なチャット、エージェント体験に理想的です。これは反射レベルのモデルで、長い思考はありません。

実際のテスト:カーゲーム

予想通り、皆さんもご存じのように、最初に行ったのはカーゲームのテストでした。何が起こるかを見て、彼らの無料のインターフェースもテストしました。

最初に言えることは、かなり遅いということです。皆さんもご存じのように、アメリカが中国への高技術チップの輸出を禁止する制裁を課しています。そのため、彼らは手持ちのもので何とかやりくりしており、現在使用している処理速度は最高ではなく、最先端の処理ではないため、DeepSeekや中国から来る他のすべての技術と同様に、実際に遅くなっています。

しかし、ゲームの品質は非常に興味深いものでした。私の最初の生成がこちらです。これが最初のプレイでした。車を作り、すべて正しく動作し、爆発、衝突がありました。すべて正しく機能し、爆発のエフェクトまで動作していました。カラフルなエフェクトまで機能していることが分かります。

電車が通過し、AIが私たちと対戦しています。車は、皆さんが気づくように、常に90度で回転し、回転していません。そこで修正を試み、いくつかの修正と改善を求めました。しかし、それは非常に奇妙になりました。

継続的な改善とテスト

回転しようとしても混乱し、適切にプレイできず、どんどん悪くなりました。修正のためにさらなる変更を求め続けました。最終的に、この美しいバージョンに到達しましたが、車は動きませんでした。機能しませんでしたが、私は粘り強く、継続して主張し続けたところ、ついに本当にゼロから、動作し、電車があり、すべてが動作するより興味深いバージョンを生成し始めました。

興味深いことの一つは、中央に常に道路があり、この道路から出ることができないことです。草地に行こうとしても行けません。この道路内でしか移動できず、AIが私に勝ちました。

非常に遅く、修正を求めることが困難だったため、HuggingFaceに行きました。HuggingFaceには、Kimi K2のバージョンがあり、無料バージョンもあります。テストした時点では、まだ無料版は機能していませんでした。テストしたい場合は、無料バージョンがあるKimi K2をご利用ください。

HuggingFaceでも非常に遅いことをお伝えします。ここには複数の人がアクセスを提供しています。KimiのオーナーであるMoonshotも提供しています。

HuggingFaceでの驚きの結果

HuggingFaceバージョンで実行したところ、驚くべきことが起こりました。HuggingFaceにはプレビューがないため、HuggingFaceで直接見ることができませんでしたが、単一のプロンプトを作成し、その時点でサービスを提供していたNovita AIからKimi K2のコードを取得しました。

実行してみると、皆さん、何が起こったかご覧ください。どこからこれが来たのか分かりません。なぜこれほど品質が変化したのか分かりませんが、これは別次元のものです。ゲームプレイは絶対的に優れています。

車は美しく仕上がっていますが、車輪が少し曲がっています。敵がいて、ライトがあり、美しい電車が走っています。画面に浮かぶ絵文字まであり、とても興味深く仕上がっています。

ゲームの詳細機能

いくつかの重要な詳細があります。このスコアボードの美しさをご覧ください。テキスト部分の美しさをご覧ください。走行時に表示される速度計があります。時速54キロと表示されています。加速を止めると、減速して速度を表示し続けます。

スコアボードには、より多くのコインを集めている人のためのエネルギーバーもあります。コインを集めるにつれて、バーが増加します。電車は逆走していますが、とても美しく仕上がっています。

プロンプトを何も変更していないのに、非常に異なる出力を得たことが興味深いです。この最後の出力は、この例に少し似ています。右側のメニューとコントロールをご覧ください。特別なことは何も書いていません。同じプロンプトを何度も送信しただけで、ある時により美しいバージョンを作成するのに十分でした。

ウェブサイト作成テスト

続いて、いつものペットショップテストを行いました。標準的なペットショップサイトを作成してください。このプロンプトは簡単で、多くの人が常にウェブサイトを作成する必要があります。

生成されたウェブサイトのバージョンは、シンプルですが同時に適切だと考えました。大きな貢献はありませんが、同時に誠実な小さなサイトです。ウェブサイトの作り方を知らない人にとっては、かなり美しく仕上がりました。

一般的に、このサイトよりもはるかに悪いサイトの作成に料金を請求している人が多くいます。より美しくするようにプロンプトを送信しました。より美しくするよう求めたところ、このバージョンを作成しました。いくつかの点では少し良くなりましたが、他の点では少し悪くなりました。

例えば、「私たちのプレミアムサービス」というテキストが読めません。フォントのコントラストがあまり良くありませんが、ある意味でサイトはより美しく、よりインタラクティブになりました。基本的には同じバージョンで、少し異なります。

色と美学の観点では、こちらの方が読みやすく、使用により魅力的だと思います。しかし、こちらには浮かぶ足跡があります。より興味深いグラフィック要素があります。

宇宙シミュレーションテスト

宇宙関連のシミュレーションを示していたので、HTMLでブラジルのアルカンタラから月まで行って戻る宇宙船のシミュレーションを作成するよう求めました。AIは「分かりました、作成します」と言いました。

このシミュレーションを作成しましたが、少し奇妙でした。理論的にはこれが地球で、アルカンタラにあり、月に近づいています。月がここにあり、宇宙船が何らかの理由で途中で戻り、すでに地球に戻っており、突然見ると地球に到着してすべて完璧です。

このシミュレーションに満足せず、より現実的なもの、物理学、重力、惑星の回転を考慮するよう求め始めました。すると多くのコード、多くの計算、定数、データを含む大量のコードを作成し始めました。実行を試みるといくつかのエラーが発生し、すべてのエラーを修正するまでエラーを2、3回送信しました。

最終バージョンがこちらです。地球がここにあり、見えないかもしれませんが理論的には月である小さなボールがここで回転しています。AIに「宇宙船はどこですか?」と尋ねると、「ロケットは小さな赤い星です」と言います。

長時間探してリスタートを何度も行った後、リスタートすると非常に高速で飛行するロケットが飛び出し、月を通過して去っていきます。注意深く見てください。とても速いため、見ることすらできません。しかし、赤いものが出てきていることを誓います。

少し距離を置いてみました。画面には表示されないと思います。これは赤い光線です。小さなものが現れているのが見えますか?それは向こうに向かう赤い光線です。見ることができません。それが現実です。見ることができません。どうしようもありません。奇妙になりました。

とにかく、月が地球の周りを回転しています。ビデオには表示されないかもしれませんが、非常に小さなボールなので、ここから見えています。

コミュニティの反応とSVGテスト

コミュニティからの興味深いコメントがあります。例えば、Simon Willsonは自転車に乗るペリカンのSVGを作成することで有名です。SVGはベクター描画なので、理論的にはAIに何か創造的なことをさせるアイデアです。

例えば、Claude 3.5 Sonnetは2020年に、2022年にこの自転車のペリカンを作成し、その後この自転車バージョンを作成しました。Gemini 1.5 flashはこれらのバージョンA1とA2を作成しました。GPT-4o miniとGPT-4oはこれらのバージョンを作成しました。o1 miniとo1 previewはこれらのバージョンの自転車ペリカンを作成しました。Cerebras Llama 3.1と70Bはこれらのバージョンを作成しました。Gemini 1.5 flashはこのバージョンを作成しました。

皆さんはどう思いますか?Kimiがこれらのバージョンよりも良いか悪い小さな絵を作成したと思いますか?ドラムロール、3、2、1。

これがKimiのバージョンです。皆さん、これは非常に良いと思います。車輪があり、ペダルがあり、後輪があり、シートがあり、アヒルには両翼があり、両足があり、くちばしには小さな舌まであり、目もあります。とても良く仕上がっています。

SVGで描かれた自転車ペリカンのテストでは、非常に良い結果を示しているようです。

総合評価と今後の展望

皆さんはどう思いましたか?私たちが抱いていた期待、つまり非常に驚くべき、美しい、魔法のような、3D、キャニオン、パノラマビューなど、テストで見たものはそれほど良くはありませんでした。少し期待外れでしたが、明らかに良いモデルのようです。

本当に驚いたのは、これまでに見た中で最高のカーゲームバージョンでした。これについては何も言うことがありません。常に求めている要件に従って、美しいプロンプトで仕上がっています。コイン、電車、山、雲、車、線路など、表示されるべきすべてのものが非常に良い形で表示されました。

明らかに、1兆パラメータを持ち、そのうち300億パラメータのみがアクティブであることを思い出してください。これは内部に多くのエキスパートがあり、特に私のプロンプトがポルトガル語であるため、このような良いソリューションを提供する正しいエキスパートを選択することが少し困難である可能性があることを意味します。

突然英語でテストを行えば、物事はより良く機能するかもしれません。なぜなら、物事が正しく機能するために正しいエージェントを呼び出す必要があるからです。

速度の問題もあります。公式サイトを使用すると、非常に遅くなります。ご覧ください。車は動きません。「矢印キーで加速と回転をさせてください」と送信すると、このものがどれくらいの速度で動作し始めるかをご覧ください。

文字を一つずつ置いていく古いプリンターのように、タイピングしているように見えます。このゲームは974行あることが分かります。974行すべてを完成させるまで、かなり時間がかかります。

しかし、これはアメリカの制裁措置でチップの購入を阻止していることと関係があります。そのため、これについては多少の余裕を見る必要があります。このモデルはオープンウェイトであるため、他のインフラストラクチャーで実行することができます。

速度の問題がない他のGPUや他のサーバーで実行したい場合、この問題で困ることはありません。何を思ったかコメントしてください。非常にうまくいった他のタイプのテストを行ったか、ここで話すことが重要で不足していることがあるかコメントしてください。これは非常に興味深く仕上がりました。

このモデルを気に入りました。現在のモデルは非常に進歩しているため、このタイプのモデルはもうそれほど注目を集めないだろうと思います。しかし同時に、中国がそれほど遅れていないことが分かります。彼らが持っている少ない計算資源で、多くのことを成し遂げています。

どのような新しいことが出てくるか見てみましょう。このKimiを使用しているか、GeminiやOthersを使い続けているかを知るために、コメントを残してください。

現在私が考えていることは次のとおりです:Geminiは無料で非常に優れたコーディングサービスを提供しています。現在、無料でこれほど高品質なものをリリースしているという事実により、人々が何かを始めて、非常に優れたGeminiと競争力を持つことは困難になっています。

さて、皆さん、作業が完了しました。今度は機能するでしょうか?明らかにより短いコードを作成しました。プレビューしてみましょう。スペースキーでスタートします。見てみましょう。動きません。どうしようもありません。今回はダメです。何をしても動きません。

何を考えているかコメントしてください。このようなビデオを見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーはインテリジェントエージェントの限定ビデオと先行公開ビデオにアクセスできます。「いいね」をお忘れなく。

コメント

タイトルとURLをコピーしました