Deepseek V3のアップグレードが全てを変えた… (DeepSeek-V3-0324)

AGIに仕事を奪われたい
この記事は約10分で読めます。

5,621 文字

https://www.youtube.com/watch?v=xk9Tsbr5ZDg

中国が再び革新を起こしました。彼らは新しいモデル、というよりDeepseekの新しいアップデートをリリースし、それがゲームを完全に変えました。私が言及しているのはDeep Seek V3のマイナーアップグレードについてです。Twitterで見かけたメッセージによれば、これはDeep SeekのWeChatから来たもので、WeChatは中国でコミュニケーションに使われているアプリです。驚くべきことに、通常であればDeep Seekチームは全てのアップデートをTwitterで発表するのですが、今回のDeep Seek V3のアップデートについては何も投稿していません。そのため、これが実際にDeepseekからのものではないと推測する人もいますが、そのアップデートが本当に素晴らしく、改善点が比類なきものであることから、おそらく間違いなく本物でしょう。
実際にベンチマークを見てみると、AIが急速に価格の低下と同時にモデルのパフォーマンス向上の方向に進んでいることがわかります。これは消費者にとっては素晴らしいことですが、巨大AIテック企業にとってはそうではありません。
多くの人がベンチマークを確認したいと思うでしょう。一目見れば、Deepseek V3と更新版のDeepseek V3 0324の間には明らかな違いがあることが分かります。彼らは実際に、どの分野が更新されたかについて言及しています。例えばMMLUでは5ポイントも追加されています。MMLU Proでは75から81に上昇しており、これは非常に良い結果です。GPQAでも59.1から68.4への素晴らしいジャンプがあり、GPT-4.5と同等のレベルになっています。MMOUにおいても、GPT-4.5に非常に近く、Claude 3.7 Sonnetを上回っているか同等です。
数学のベンチマークについては特に驚異的で、DeepseekのモデルがこれまでIであらゆる市場の他のモデルを絶対的に上回ったのは初めてのことです。ここでは94点を獲得しており、他のモデルはそれに近づくことさえできていません。AMEベンチマークでは19%の向上があり、これは絶対的に巨大な進歩です。
ここで重要なのは、これらが推論型ではないモデルのベンチマークであることです。したがって、R1やClaude 3.7 Thinking、OpenAIのO3などのモデルは見られません。固定モデル同士の比較になっています。なぜなら、追加の思考時間を持つモデルと固定モデルを比較するのは非現実的だからです。
AME Runにおいても、中国、特にDeepseekが数学分野に重点を置いていることがわかります。興味深いことに、Life Code Benchでは49.2まで上昇していますが、コーディングベンチマークについては注意が必要かもしれません。長い間、コーディング能力ではどのAIモデルもClaudeを超えられていないように見えるからです。このモデルが実際にどう重ね合わせられるか、人々が本当にこのモデルに切り替えるかどうかを見るのは興味深いでしょう。Claude 3.7 SonnetやClaude 3.5 Sonnetがコーディングに関してAIコミュニティを強く掌握しているからです。
AIコミュニティの良い点の一つは、モデルの性能を自分自身で確認するために独自のベンチマークをよく実行することです。個人的にはこれが最も役立つことだと思います。なぜなら、自分の使用ケースに合わせてモデルの位置づけを正確に把握できるからです。ある人がこれを実際に行いました。その結果については後ほど触れますが、他の組織によって公開された他のベンチマークを見てみると、ADA Polyglotベンチマークでは、Deepseek V3がコストに対する高スコアという点で実質的に2位にランクされています。
これは非常に重要なことです。なぜなら、この小さなアップデートが再びモデルをさらに少し前進させ、人々が他のモデルよりもこのモデルを使用するようになる可能性があるからです。O3 mediumや以前のV3バージョンを上回っていることがわかります。このベンチマークで前にあるのは、思考モデルであるDeepseek R1と、思考なしのClaude 3.7 Sonnet、そして思考ありのClaude 3.7 Sonnetだけです。このベンチマークにおいて、このモデルの前にあるのは1つのモデルだけです。
ADA Polyglotベンチマークについて説明すると、これはExercismからの225の最も難しいコーディング練習問題で構成されたベンチマークで、LLMに強力なコーディングチャレンジを提供するために特別に選ばれています。C++、Go、Java、JavaScript、Python、Rustなど6つの人気のあるプログラミング言語をカバーしています。これは実世界のプログラミングシナリオをより代表するようにデザインされており、このモデルがかなり良いパフォーマンスを発揮していることがわかります。
前述したように、一部のユーザーはハイプを超えて、モデルが実際に自分の個人的な使用ケースに適しているかどうかを確認することを選びました。あるユーザーは「全てのメトリクスですべてのテストで大幅なジャンプがあり、現在は推論なしモデルとしては最高で、Claude 3.5を凌駕している」と述べています。このテストでは、Deepseek V3 0324が以前のモデルよりも高いスコアを獲得したことがわかりますが、Quen 32Bも高いスコアを獲得しています。これがどのようなモデルだったのか、モデルの微調整版だったのか、あるいはDeepseek V3が特に優れていたベンチマークの特定の側面があったのかは興味深いところです。いずれにせよ、このモデルはすべてのテストで非常に良いパフォーマンスを示していることがわかります。
彼らはコーディングテストも行い、このモデルが他のモデルと比較してもかなり良いパフォーマンスを発揮していることがわかります。このモデルの性能の高さは驚くべきものです。Kors LLM Arenaの実世界コーディングベンチマークでも、再びClaude 3.7 ThinkingとClaude 3.5 Sonnetに次いで2位にランクされており、Claude 3.7 Sonnetを上回っています。このモデルに関する最も驚くべきことの一つは、コーディングにかなり優れていることです。すでに述べたように、これがCursorでClaudeの王座を奪うかどうかはまだわかりませんが、人々が何を作成したかを見るのは興味深いでしょう。
Artificial Analysisも独自のベンチマークを実行し、彼らのインテリジェンスインデックスがあります。これは推論、知識、数学、コーディングにまたがる7つの評価を含んでおり、このモデルが推論なしモデルとしてはほぼトップに躍り出たことがわかります。これは、すでに述べたように、GPT-4.5のようなモデルのサイズを考えると非常に大きな驚きです。GPT-4.5は、モデル内のデータ量と潜在的に使用するパラメータの量を考慮すると、「重量級」モデルと呼ばれていました。それよりもはるかに小さいモデルがそれを超えることができるというのは、ベンチマークに基づいてトレーニングされた可能性を示唆していますが、単により効果的なモデルである可能性もあります。いずれにせよ、実世界のユースケースを見る上で最も有用なベンチマークの一つであるLM Arenaでこれが実際にどのようなパフォーマンスを示すかを見るのは非常に興味深いでしょう。
Artificial Analysisは、これが最も驚くべき発表であり、R1よりも印象的であり、R2が大きな飛躍になる可能性を示していると述べています。彼らは「Deepseekは単に最高のオープンソースモデルをリリースしているだけでなく、現在は推論なしのオープンウェイトモデルのフロンティアを推進し、Gemini 2.0 Pro、Claude 3.7 Sonnet、Llama 3.370Bを含むすべての独自の推論なしモデルを凌駕している」と述べています。
このインデックスをモデルタイプ別に見ると、推論なしモデルの中で、複数のベンチマークによると最高のモデルはおそらくClaude 3.7とDeepseek V3であることがわかります。これは非常に興味深く、印象的なことです。以前のモデルの反復には数ヶ月、場合によっては数年かかっていたことを考えると、この会社がこのような成果を出したのは本当に素晴らしいことです。また、現在入手できるモデルははるかに安価です。実際、多くの推論プロバイダーがこのモデルへのアクセスを無料で提供しており、「インテリジェンスは測定するには安すぎる」という古くからの言葉が非常に当てはまっています。
推論モデルに関しては、R1が複数の分野でClaude Sonnet Thinkingを上回っていることがわかります。もちろん、Claudeはコーディングに特化していることは知られていますが、それでもこれがV3であるなら、多くの人々はV2がさらに印象的になり、次の思考モデルが西洋全体としてのAI産業を飛躍させる可能性があると推測しています。もしそうなった場合、AI産業がどう考えるか本当に気になります。
彼らはまた、コードの実行可能性を向上させ、よりエステティックなWebページやゲームフロントエンドなど、フロントエンドWeb開発を導入したとも言及しています。いくつかのツイートを見ると、ある人は「これが世界を変えた」と言っています。Webページを見ると、本当に滑らかで効果的に見えます。もちろん、このモデルはより良いコードを生成できました。AIの論文について多くツイートしているこのユーザーは、Deepseek V3に「クールな3.jsゲームを作って」と言いました。動画を再生すると、あなたに向かって来るオブジェクトを撃つ、本当にクールで興味深い3Dゲームを作っていることがわかります。
全体として、モデルのコーディング能力が、特定のシナリオでうまく実行されるような方法でコーディングできることがわかります。コードは単なる見せかけではありません。これは確かにゲームを変えるものです。なぜなら、以前は最先端モデルを購入できなかった多くの個人が、わずかな費用で最先端モデルにアクセスできるようになることを意味するからです。前述したように、主な問題は、人々がこれらのモデルに切り替え始めたとき、他の企業がどうなるか、そして彼らがこれをさらなる計画にどう統合するかでしょう。
あるユーザーはHugging Faceコードジェネレーターを生成することにも成功しました。Paul Pandandyというユーザーは「DeepSeek V30324を使って水分子シミュレーションを作成し、水分子が水素結合を形成し破壊する様子を示すインタラクティブなシミュレーションを作成し、温度スライダーも表示してください」と言いました。それはかなり効果的にこれを行うことができたようです。いくつかの小さな注意点はありますが、全体的には非常にうまくいっているようです。
別の人は「もう終わりだ。Deep Seek V3が登場し、このウェブサイトを一発で作成した。800行以上のコードを一度も壊すことなく書いた」と言っています。正直に言って、このウェブサイトを誰が作ったかと聞かれたら、AIが一発のシナリオで作成したとは思わなかったでしょう。これは再び、かなり驚くべきことだと思います。
全体として、これは前述したように、非常に広範囲に影響を及ぼすでしょう。次のOpenAIに関する動画では、DeepseekモデルのおかげでOpenAIが会社に変更を加えることを密かに明らかにしたことについて話す予定です。それは、特に私たち顧客にとって、人々がまだ見ていない方法でAI産業全体を変えるでしょう。
また、モデルがフロントエンドコーディングにおいて大幅に改善されているのも見られます。以前の単純なゲームを作成しようとした領域では以前の単純なゲームを作成しようとしたエリアでは、HTMLの観点からは画像があまり良く見えませんでしたが、こちらの側ではずっと良く見えることがわかります。全体的に、もちろんこのモデルを使用したい方はPoのようなウェブサイトを使用できます。これは私がモデルを使い始めるのにお気に入りのウェブサイトの一つになりつつあります。なぜなら、彼らには制限がなく、唯一の制限は簡単にチャージできるクレジットだけであり、通常は最先端のモデルを数時間以内にデプロイするからです。
このウェブサイトを使用することに実際に本当にワクワクしていますが、これはスポンサー付きの動画などではなく、単に簡単なチャットユーザーインターフェースでこれらのモデルを使用する簡単な方法です。
そういうわけで、もしこの動画をお楽しみいただけたなら、Deep Seekについてどう思うか教えてください。OpenAIはパニックに陥っていると思いますか?実際、彼らはパニックに陥っているわけではなく、次の動画で話すように賢いピボットを行っています。しかし、このモデルについてはどう思いますか?このモデルを使用したことはありますか?
最後に言っておきたいのは、LMSYS Chat Arenaのリーダーボードを見るのが本当に待ち遠しいということです。これは、実際の日常的な使いやすさという観点から、モデルのランク付けを最も明確に示すものになるでしょう。

コメント

タイトルとURLをコピーしました