
DeepSeekが新たにリリースしたR1の大幅アップデート版は、OpenAIのo3やGemini 2.5 Proに匹敵する性能を実現し、オープンソースモデルとしてはクローズドソースの最先端モデルに肩を並べる画期的な進歩を見せている。特に数学、プログラミング、論理的推論の分野で顕著な向上を示し、中国発のAI技術が米国の主要テック企業と真正面から競合する時代に突入したことを象徴する重要な発表である。
4,881 文字
DeepSeekが新しいバージョンのDeepSeek R1をリリースしました。突然、Hugging Faceにウェイトが公開されたのですが、それ以外に情報がありませんでした。そして今日、ついにその情報が得られました。彼らはマイナーアップグレードと呼んでいますが、実際にはかなり大幅な更新です。ちょっと待ってください、水を一口飲ませてください。私はエージェントに強気です。
このマグカップが欲しいですか?Shop.Future.aiで購入できます。最新のアップデートにおいて、DeepSeek R1は推論と推定能力の深さを大幅に向上させました。これは計算リソースの増加とポストトレーニング中のアルゴリズム最適化メカニズムの導入によるものです。数学、プログラミング、一般的な論理を含む様々なベンチマーク評価で優秀な性能を示しています。
ここで重要なのは、その総合的な性能が現在、o3やGemini 2.5などの主要モデルのレベルに近づいているということです。これはDeepSeekによる完全に無料で完全にオープンソースのモデルであり、米国の主要テック企業によるクローズドソースの最先端モデルと直接競合しています。いくつかのベンチマークをお見せしましょう。
ライトブルーが以前のDeepSeekで、この濃いストライプのブルーが新しいDeepSeekです。AMY 2024では79.8から91.4に向上しました。AMY 2025では70から87に、GPQA diamondでは71から81に、live codebenchでは63から73に、ADERでは57から71に、そしてhumanity’s last examでは8.5から17.7に向上しています。
OpenAIのo3と比較すると、実際にはかなり近い性能です。AMY 2024ではほぼ同じ、AMY 2025では少し後れを取り、GPQA diamondとlive codebenchでも数ポイント差ですが、ADERでは71対79とかなりの差が見られます。驚くことに、私が最高のコーディングモデルだと考えているGemini 2.5 Proが、ほぼ全てのベンチマークでo3に負けています。
artificial analysisが新しいDeepSeekの独立分析を行いました。そして彼らが発見したのは次の通りです。DeepSeekのR1は、xAI、Meta、Anthropicを飛び越えて、世界第2位のAIラボとして同率に位置し、議論の余地のないオープンウェイトのリーダーとなりました。
artificial analysis intelligence indexでは60から68に跳躍しました。これは7つの主要ベンチマークのインデックスで、OpenAIのo1からo3への向上と同じタイプの増加です。アーキテクチャに変更はありません。だからR2ではなく、これはR1 V2なのです。6710億パラメータの大規模モデルで、370億のアクティブパラメータを持っています。
そしてコーディングスキルに大幅な飛躍がありました。R1は現在、artificial analysis coding indexでGemini 2.5 Proに匹敵し、o4 mini highとo3の後に続いています。私も同じことを発見しました。いくつかのテストを実行してみたところ、ルービックキューブテストやスネークゲームなど、単一の機能に対して出力しようとするコードの量がGemini 2.5 Proと同等でかなり充実していることがわかりました。
興味深いのは、新しいバージョンのR1は、以前のバージョンのR1よりもはるかに多くのトークンを使って思考しているということです。これを見てください。R1 528は、artificial analysis intelligence indexの評価を完了するために9900万トークンを使用し、これは元の40%多い数字です。新しいR1は元のバージョンよりも長時間思考します。基本的にはそういうことです。しかし、Gemini 2.5 Proは依然として最も多くのトークンを使用しており、R10528より30%多くなっています。
なぜこのすべてが重要なのでしょうか。オープンソースとクローズドソースの差は縮まり続けています。数ヶ月前に最初に登場したDeepSeek R1は、オープンソースにおける大きな飛躍でした。極めて有能で極めて効率的な思考型オープンソースモデルを初めて見た瞬間でした。
しかし、今回のアップグレードにより、これらの主要な最先端モデルに匹敵するものとなりました。また、心に留めておくべきもう一つのことがあります。artificial analysisによると、中国は米国と互角の状況を維持しています。中国を拠点とするAIラボのモデルは、米国の対応するモデルにほぼ完全に追いついています。このリリースは新たなトレンドを継続しています。
今日現在、DeepSeekはAnthropic、Metaを含む米国を拠点とするAIラボをartificial analysis intelligence indexでリードしています。では、同じベースモデルからこれらすべての追加的知能をどのように絞り出したのでしょうか?ポストトレーニングにおいて、彼らは強化学習技術の改良を続け、元の事前トレーニングの実行からより多くを絞り出すことができました。
この跳躍がどのようなものか見てみましょう。2025年1月のDeepSeekが60で、ちょうど発表されたClaude 4 Sonnetの下にあり、OpenAIのクローズドモデルの直後まで大幅にジャンプし、Gemini 2.5 Pro preview 2025年5月と同等レベルに達しています。
まだ見ていないモデルがたくさんあります。xAIによると本当に良いものになるというGrok 3.5など、ちょっと違ったものになるでしょう。どうなるか見てみましょう。私が最も失望しているのは、ここまで下にあるLlama 4です。Llama 4に大きな期待を抱いていましたが、それが打ち砕かれました。
もちろん、DeepSeekの新しいバージョンにDeepthinkをオンにして、つまりR1バージョンで、ルービックキューブテストを行いました。私が他のすべてのモデルでテストした際に使用したのと同じプロンプトを使用しています。
「3JSを使用した完全なHTML JavaScriptプログラムを書いてください。20x20x20までの任意のサイズの完全にインタラクティブなルービックキューブシミュレーションをレンダリングします。ユーザーは立方体のサイズを動的に指定できるようにしてください。立方体は適切な色分けされた面で構築されるべきです。ビューを回転させるためのカメラコントロールを含めてください。マウスやUIボタンを使った立方体の層の回転などの基本的なユーザーインタラクションを可能にしてください。」
Gemini 2.5 Pro、元のバージョンは、一発で成功しました。問題なく。本当に見ていて驚異的でした。そして新しいバージョンのGemini 2.5 Proも再び成功しました。本当に良く、わずかに改善されてさえいました。
328秒間思考しました。それは数分間の思考で、まだ出力していますが、思考プロセスは終了しています。これらの思考の連鎖を見てみましょう。基本的に何をするかを再述しています。性能について質問をしています。しかし、層を回転させる際にこれらのステッカーの位置を更新する必要があることに注意してください。そしてここでは異なるメッシュと層について質問しています。重すぎるでしょう。つまり、この問題を解決するための異なるアプローチを本当に反復しているのです。
そして終了したと思います。はい、できました。素晴らしいのは、ここから直接実行できることです。さて、これらの設定はすべて見えますが、実際の立方体が見えません。残念です。コピーしてローカルで実行してみましょう。はい、立方体がないようです。
これを修正してもらえるか見てみましょう。まず、エラーを確認します。3JSが初期化されていませんでした。最近、さまざまな3JSの使用で同じ問題が発生しています。これを修正してみましょう。3JSを修正しましたが、それだけで済みました。これは実際にかなり良く見えます。
スクランブルをクリックしてみましょう。惜しい。とても惜しい。しかし、このテストを行う上でGemini 2.5 Proに匹敵するものはありません。スクランブルしたように見えます。適切にスクランブルされませんでした。そして自分で解いてしまいました。解くをクリックしてみましょう。そしてまたしても、物理、回転が機能しませんでした。
次に試すのは高度なスネークゲームです。普通のスネークゲームではなく、異なる種類の食べ物、異なる種類のパワーアップ、テレポーテーション、これらすべてのクールな機能を持つより高度なバージョンをやってみましょう。開始し、すでに動いています。それが動いている間に、他のいくつかの興味深いグラフをお見せしましょう。
これは時間の経過に伴う最先端言語モデルの知能です。これはartificial analysisによるもので、intelligence indexスコアです。黒いのがOpenAIです。ここがGPT3.5からGPT4への変化でした。それからいくつかの小さな飛躍がありました。ここ、この大きな飛躍は思考モデルが登場した時です。それからいくつかの小さな飛躍がありました。つまり、これらの大きな飛躍があった主要な例がいくつかあり、そしていくつかの小さな飛躍があったのがわかります。
ここが濃い青のDeepSeekです。そこにいくつかの小さな飛躍があり、そして突然、DeepSeek R1が登場した今年の初めに巨大な、巨大な飛躍がありました。そして新しいバージョンのR1でさらに非常に良い飛躍がそこにあります。
最速の推論速度でどのプロバイダーを使用するか迷っている場合、ここにあります。Fireworksが第1位です。この新しいDeepSeek R1バリアントで、1秒あたり253の出力トークンです。DeepSeekのコンテキストウィンドウはまだ比較的低いです。DeepSeek本体では64,000トークンを取得しています。Fireworksやその他の推論プロバイダーでは164,000を取得します。Fireworksが上位にあり、DeepSeekが下位にある価格オプションがここにあります。
興味深いことに、高度なスネークゲームは思考にわずか22秒しかかかりませんでした。Pythonを使用してクラシックゲームSnakeの視覚的に強化されたバージョンを作成し、クラスを定義します。実際にゲームを構築する方法を設定しているだけです。コードの出力には長時間かかりました。どれだけのコードがあるか見てください。
かなりあります。1,117行のコードになりました。動作するか見てみましょう。動作しません。名前エラー。名前player snakeが定義されていません。これが簡単な修正かどうか見てみましょう。DCに戻します。会話を続けます。うまくいけば、これは長時間かからないでしょう。完了しました。もう一度試してみましょう。
瞬時に終了してしまいます。しかし確実にそこにあります。残念です。残念。さて、私が行ったいくつかのテストに基づいて、この新しいリリースには少し感銘を受けていないと言えるでしょう。ベンチマークによると、これは大きな飛躍です。それは素晴らしいですが、私は通常、私のテストでもう少し多くのことを達成するのを見たいと思っています。
今日はここまでです。この動画を楽しんでいただけましたら、いいねとチャンネル登録をご検討ください。


コメント