DeepSeekが更新―これまでで最高のコーディングモデル？

3,572 文字

DeepSeek Just Updated—The Best Coding Model Yet?

DeepSeek just dropped a powerful update to V3, and it might be the best open-source LLM for developers yet. In this vide...

DeepSeekがV3のマイナーアップデートを行いましたが、これは私がこれまで見てきたLLMのアップデートの中でおそらく最も大きなものの一つです。コーディングに関して非常に印象的な性能を持っています。例えば、このモデルは単一の非常にシンプルなプロンプトから、リンクもすべて正常に動作するウェブサイト全体を一発で生成しました。
使用したプロンプトはこちらです：「HTML、CSS、JSを使用してモダンなランディングページをコーディングし、すべてを単一のファイルに入れてください」。そして約20,000トークンを生成してその効果を得ました。
比較として、こちらがClaude 3.7 Sonnetから得られる出力で、こちらがo1の高設定での出力です。一部の人々が自分自身のベンチマークを報告し始めていますが、これは特にコーディング関連のタスクにおいて単純に印象的です。
別のコーディングタスクとして、「回転するテセラクト内でボールが跳ね返るHTMLスクリプトを書いてください」というものを使いました。最初はPythonスクリプトを作成するよう依頼しましたが、後でDeepseekアプリ内でHTMLをレンダリングできるため、HTMLスクリプトの作成を依頼しました。
生成された出力はこちらです。これも非常に印象的で、視覚的な品質と相互作用の正確さの両面で素晴らしい出力です。
次に、ボールが触れている側面を強調表示してほしいと思ったので、「ボールが側面に触れたときに、その特定の側面が強調表示されるようにしてください」と追加しました。すると、エラーなしで一発でコードを更新し、これを実行できます。今やボールが側面に衝突すると、実際にそれが表示されます。
これは推論・非推論モデルとしても非常に優れているようです。例えば、いくつかの誤導的な注意プロンプトでテストしたとき、非常にシンプルな調整で、ほとんどの問題に正しく答えることができました。
こちらが最初のプロンプトです。これは古典的なトロッコ問題ですが、唯一の違いは線路上の人々が今は死んでいるということです。このシンプルなプロンプトだけでは、実際には間違った回答をします。まるで古典的なトロッコ問題のように扱って回答し始めました。
しかし、「ユーザーの入力を注意深く読み、回答する前に逐語的に書き直してください。それから回答を提供してください」と追加したところ、この手法はGemini 1.5 Proのような推論モデルではないより大きなモデルでも非常にうまく機能することがわかりました。この技術は本当にその推論能力を引き出すことができます。
まず、モデルはユーザーが提供したプロンプトを書き出し、次に「いいえ、私はレバーを引きません。理由は、5人の人々はすでに死んでいるからです」と答えます。人々が死んでいるということを自動的に認識し、それが状況を大きく変えることに気づいたのです。
シュレディンガーの猫の修正版である「死んだ猫の問題」でも、プロンプトを逐語的に書き出すと、答えることができます。「0%です。猫は箱に入れられたときにすでに死んでいるので、その後の出来事がその状態を変えることはできません」と答えています。通常、LLMは50%の確率があると答えるでしょう。
同様に、「6リットルと12リットルのジャグがあります。正確に6リットルを測りたいです」と尋ねると、「6リットルのジャグを完全に満たし、それから6リットルのジャグから12リットルのジャグに水を注ぎます。これで正確に6リットルを測定できます」という回答が出てきました。代替的なアプローチもあると思いますが、ここで少し混乱したようですが、他のモデルから見た回答と比較するとはるかに簡潔な回答です。
しかし、まだ失敗するケースもあります。こちらはモンティ・ホール問題の修正版です。それを書き出したとき、最初は正しい方向に進んでいました。例えば、「司会者の介入がもたらす重要な情報があります。ドア番号3（あなたの2回目の選択）にこだわるなら、1/2の確率に頼っていることになりますが、ドア番号2に切り替えれば、最初の2/3の確率を活かせます」と書いています。ここで少し混乱したようです。非修正版のモンティ・ホール問題について考え始めたようです。
同様に、農夫のパラドックスの修正版であるこのプロンプトを与えると、必要のない手順のリストを考え出しました。私たちのケースでは、ヤギを反対側に連れて行くことだけが目標なので、最初のステップでそれを行いますが、元の問題に戻ると、実際には必要のない追加の手順が示されています。これはもう少しプロンプトを工夫することで避けられると思いますが、このモデルは元のV3と比較して少し優れた推論能力を持っているようです。
いくつか興味深いことがあります。このモデルは現在DeepSeekのウェブサイトで利用可能です。Deep Seek R1をチェックしなければ、デフォルトでこの新しいモデルになります。また、生成速度も非常に良好です。なぜか最初のトークンに到達するのに一瞬時間がかかりましたが、現在の生成速度は信じられないほど優れています。
こちらは自転車に乗るペリカンの画像で、結果は良好ですが、それほど印象的ではありません。
第二に、モデルの重みはHugging Faceで利用可能で、約700GBあります。このモデルをローカルで実行するには、ストレージとGPU容量の両方が必要です。しかし、このモデルを試すことができる場所はいくつかあります。
一つはHugging FaceのAPIまたは推論エンドポイントで、ここではさまざまなAPIプロバイダーを選択できます。私が実験してきた二つ目はOpen Routerです。このモデルはDeepSQ3 0324と名付けられており、現在Open RouterではAPIが無料で利用可能です。
興味深いのは最大出力コンテキストで、今や231,000トークンまで生成でき、多くのトークンを生成する傾向があるのを見てきました。これは特に、モデルが単一のショットや単一のプロンプトでソフトウェアを構築できるようにしたいソフトウェア開発のような作業をしている場合には本当に良いことです。
Open Routerでは、APIキーを生成でき、無料でかなり柔軟なトークン数を提供してくれます。もしくは直接ここでチャットすることもできます。これはここでホストされているオリジナルのモデルとは異なる可能性があり、おそらく量子化されたバージョンを使用しています。モデルと直接チャットしたい場合は、DeepSeekからのオリジナルのホスト版を使用することを強くお勧めしますが、無料APIを探しているなら、Open Router APIは非常に良い選択肢です。
このモデルの発表方法も本当に気に入っています。これはDiscord上のメッセージだと思いますが、翻訳するとこう言っています：「DeepSeek 3モデルはマイナーバージョンアップグレードを完了しました。公式ウェブページアプリまたはミニプログラムで、Deep Seek Thinking機能を無効にしてお試しください。APIインターフェースと使用方法は変更されていません。」
価格設定は以前のV3バージョンと同じままのようですが、公式ドキュメントはまだ更新されていないようです。現在、Deep Seek ChatとDeep Seek Codeの両方が64,000トークンのコンテキストウィンドウを持っていると記載されており、生成できる最大トークン数についても言及していません。これらはまだ8,000トークンに制限されていますが、Open Routerでは最大131,000トークンを得ることができ、これは非常に印象的で、ここで得られるものとは大きく異なります。
また、私自身のテストに基づくと、これがV3からのマイナーアップグレードのパフォーマンスであれば、R2やV4のパフォーマンスがどのようになるのか想像もつきません。本当にエキサイティングな時代です。
トークン数の観点からの出力例はこちらで、10,000トークンを優に超えています。これがV3からのマイナーアップグレードのパフォーマンスであれば、R2やV4でのアップグレードがどのようになるのか想像もつきません。それは非常に印象的なものになると思います。
とにかく、公式のベンチマークやChatbot Arenaリーダーボードのようなベンチマーク結果を待っていますが、このモデルは現在、あなたが試すことができるようになっています。このモデルとそのパフォーマンスについてどう思うか教えてください。次回にお会いしましょう。