DeepSeek R1は本当にOpenAI o1より優れているのか? 検証してみよう

5,679 文字

Is DeepSeek R1 really better than OpenAI o1? Let's find out

If you listen to AI twitter DeepSeek r1 is somehow both the OpenAI and Nvidia killer. Could this be true? How good reall...

みなさんこんにちは、Feature Crewへようこそ。今日はDeepSeek R1について見ていきます。この世界を驚かせ、テクノロジー株を15%も下落させた新しいモデルです。o1と同等の効率性を持つと言われていますが、本当にそうなのか検証してみましょう。o1と直接比較して、いくつかのテストを行い、結果を確認していきます。
左側にChatGPT o1、右側に新しいDeepSeekモデルを用意しました。R1のディープシンクモードをオンにして、プロンプトを送信します。これは3D惑星を生成するための長いプロンプトで、バイオームや色彩、照明などの多くの機能を要求しています。
DeepSeekの方が素早く考えているようです。小さいモデルなので推論が早いため、予想通りDeepSeekが最初にチャレンジを完了しました。
問題が発生しました。画面が真っ白です。エラーがないか確認してみましょう。「three.orbit controls」というエラーが出ています。これは以前にも見たことがある問題です。ライブラリに変更があったようですね。o1の一回目の結果を確認してみましょう。この「three orbit controls」エラーは、OpenAIのモデルでしか見たことがありません。DeepSeekがOpenAIと合成データを多く使って学習したという説に信憑性を与えますね。
o1の応答に時間がかかっていたので、DeepSeekで問題を起こしていたorbit controlsの部分を取り除いて、具体的なフィードバックを与えてみました。しかし「create atmosphere is not defined」という似たような問題が発生しています。少し機能が崩れ始めているようです。
o1の結果を見てみましょう。以前の動画でも確認できますが、o1が一回で何ができるか見せたいと思います。ほら、惑星ができましたね。一回で作れたというのは、かなり優れています。これまでで最高の出来栄えかもしれません。バイオームが見えますし、半分コヘレントな雲の試み、水面の面白い視覚効果、大気の表現の試みなどが見られます。
ズームは機能しますか？おお、すごい！拡大縮小ができますね。長いプロンプトを与えただけで、モデルがこのようなクールなものを一発で作れるようになったのは素晴らしいですね。
DeepSeekに戻って、どのようなものを作ろうとしたのか見てみましょう。コーディングで少し詰まっているようです。私が誤って大気を削除してしまったようですね。思った通りです。
ここには興味深い設計上の問題がありますね。人間のような思考の連鎖を出力することで、実際の結果以上にモデルが賢く見えてしまいます。
おお、これは悪くないですね。状況が変わりましたね。とても尖った惑星ですが、雲の表現は試みていません。それでも大丈夫です。DeepSeekにもう一度チャンスを与えて、もっと滑らかな惑星を作ってもらいましょう。
両方のモデルに基本的に同じプロンプトを与えました。要求した機能をしっかりと実装するようにと。
DeepSeekが完了しましたが、ChatGPTはまだ考えています。o1がまだ考えているというのは良いことです。難しい問題に本当に取り組んでいるということですから。
また同じ問題が発生しましたね。何かを落としているようです。完全なバージョンを出力できるか確認してみましょう。
DeepSeekは基本的に2ターンで動作し、o1の約2倍の速さで動作しているようです。両方が同時にここで手を振っています。
おお、見てください。山頂が暗い色になっているのは少し変ですね。円の端に明確な大気層が見えますね。水面のすぐ上に大気を作っているようです。なかなか印象的です。
o1の結果を見てみましょう。おお、素晴らしい！これは本当に惑星らしく見えますね。水面にまだバグがありますが…いや、それは水ではなく雲ですね。雲を表現しようとしていますが、DeepSeekは試みすらしていません。
少し細かいところで差が出てきていますね。どちらも本当に印象的な出力です。右側にはバイオームが見えません。要求した機能の多くを落としているようです。プロンプトに従い、機能を正確に実装する能力という点では、明らかにo1の方が優れています。ただしDeepSeekは2倍の速さで動作したという事実を考えると、完全なファイルを要求したり、プロンプトやコンテキストから外れないように注意を促したりする必要があるかもしれません。
次に、ビジネスにおける推論能力を見てみましょう。これらのモデルが実際にどのように使用され、経済的価値を提供するのかを検証します。以前にも様々な成功度で試みてきましたが、今日は新しいテストを用意しました。
モデルをコンサルタントとして扱い、ビジネスに関する提案をしてもらいます。架空のAI企業「Turing Labs」のサンプルデータを作成し、新しいGPUへの投資時期や購入すべきものについてAIコンサルタントに解決してもらう問題を設定しました。会社の状況、支出、保有するGPU数に関する模擬内容データと、業界のトレンド、市場での新GPUの予想時期、性能差などに関する外部データを提供しています。
モデルがこれらの情報をどのように処理し、提案を行うかを見てみましょう。また、グラフを作成するPythonコードの生成も依頼しているので、視覚的な判断材料も得られるはずです。
表がChatGPTに不気味なほど似ていますね。結論を比較してみましょう。
これらの特定の推奨事項は、「これらを購入してアップグレードすべき」という以上のものには至っていません。両方ともハイブリッドを含んでいます。
これはo1の方が優れていますね。実際の分析になっています。データセットの制約を考慮に入れ、電力についても言及しています。こちらではそれらについてあまり触れていません。
グラフを見せられたらいいのですが…彼らが生成したグラフを取り出し、結論を抽出したので、推論の種類の違いをより視覚的に理解できるかもしれません。
左側は予測ですね。何が起こるかについての予測です。一方、R1は文脈から情報を再述しているだけです。o1は文脈から情報を取り出して推論を行い、値の計算が必要なより詳細なコスト比較を行うか、物事がどれだけのコストになるかの予測を実際に行っています。この場合、オンプレミスとクラウドを比較しています。
一方、R1は本質的に文脈から情報を再現しているだけです。これはモデルが学習するように訓練されていることで、特に40シリーズのモデルでは、ChatGPTの初期の追加モデル機能の1つは分析モードで、主にデータに基づくグラフやその他のグラフィックスの生成を意図していました。
このビデオで何度か言及していますが、R1はベンチマークチューニングされたモデルで、主に40の出力の多くで学習されているという考えが、本当らしく見え始めています。
テキストの壁を見ているときのクリスの発言、つまりo1の方がビジネスを任せられるという意見、特に結論に関して、推奨事項の理由付けを提供していることは、たとえ望んだほど具体的でなくても、文脈を再現して時系列を出力するよりもはるかに印象的だということですね。非常に曖昧な時系列ですよね。基本的に同じことを述べているだけです。
エージェント推論に移って、決定的な結論を出すための最後のピースを見てみましょう。すでにある程度の方向性は見えていますが、最後のチャンスを与えてみましょう。
次のテストの準備ができました。ディランが前に言及したように、エージェント推論をテストします。基本的に、これらのモデルが特定の目標に対してどのように対処し、世界のルールが与えられた中で目標を達成するために複数のステップを実行できるかを検証します。
画面に表示されている例は非常にシンプルなテストで、「ロンドンの塔」と呼ばれ、子供の計画能力と実行機能能力をテストするために与えられます。ルールは簡単です。画面のような初期配置から始まり、目標の配置があります。例えば、緑と赤を逆にするという目標があります。一度に1つしか動かせず、当然ながら上にビーズがある場合は、そのスペースが空くまで下のビーズは動かせません。
学習データにはテストのルールが含まれているはずですが、最善のチャンスを与えるためにプロンプトでもルールを提供しています。このテストの特定のインスタンスは学習データには含まれていない可能性があり、モデルがうまく対処できた場合は、より多くのペグとビーズを使用してテストを進めます。それらのインスタンスは確実に学習データには含まれていないので、新しい問題を推論する能力をテストすることになります。
他の動画でもこれを何度か行っていますが、推論機能のないモデルではまったく解決できず、推論機能を持つモデルが登場し始めると、実際にかなりうまく解決できるようになりました。
DeepSeekの推論を見てみると、約1分ほど経過していますが、継続的に出力を行い、この問題は不可能だと言い続けています。様々な構成を試しているようです。最終的な答えを見てみましょう。
目標の状態に到達しようとしています。これが初期配置です。最初の動きは、赤をBからCへ…BからC、そして緑をBからAへ…青…すでに間違えてしまいました。
これはとても一般的な問題で、Claudeでも全く同じことが起きました。問題を理解しているように見えましたが、世界のルールを破ってしまいました。これだけ考えて様々な方法を試しても、赤い物が動かされるまで青い物は動かせないという事実に気付けませんでした。
では、o1が何を出力したか見てみましょう。
ステップバイステップの解決策は、赤をBからCへ移動し、次に緑をBからAへ、それから赤をCからBへ、そして青をCから緑の上に移動させ、青を一番上に配置します。
少し拡大して見ると、目標の状態と一致していることが分かります。
R1はこの問題で2手目で行き詰まりました。これは学習データに含まれている可能性がある非常に単純な事例です。o1はロンドンの塔のテストでより優れた性能を示しています。
ここで失敗するということは、次のレベルには全く対応できないということを意味します。3本のペグは非常に簡単で、子供向けのテストなので、知的なモデルならできるはずです。DeepSeekがここで失敗するということは、私たちが見てきたことを裏付けています。つまり、o1ほど実際の推論能力を持っていないということです。
明確にしておきたいのですが、以前の動画に戻ると、o1のプレビューリリースにとても失望していました。少なくとも私にとっては、このロンドンの塔テストが重要でした。新しい問題を推論し、ルールを守ることができるかどうかということです。
これは推論モデルの約束でした。そのため、本当に単純で馬鹿げているように見えるテストケースでさえできなかったとき、o1の実際の推論能力について、ベンチマークでうまくいって推論しているように見えるだけではないかと本当に心配でした。
しかし、o1フルでロンドンの塔がほぼ解けて、o1 Proでさらに解けたのを見たとき、それは非常に励みになりました。推論モデルの約束と、新しいOpenAIの推論モデルが実際にその約束を果たし、人々に役立つ製品を構築するエンジニアとして私たちができることに実際に変化をもたらしているということに対して。
DeepSeekではそれが見られません。推論が注目を集めているから、おそらくいくつかのベンチマークで役立ったかもしれませんが、本当に新しい問題、本当に推論が必要な時には、同じクラスにはいないように見えます。
40より上のステップかもしれませんが、本物の推論モデルであるo1 3クラスと同じレベルには見えません。
あなたが言ったように、時間が教えてくれるでしょう。これは彼らの最初のリリースかもしれません。R2でこれらの問題の多くを修正するかもしれません。しかし今のところ、多くのコンテキストを落とし、正しく推論できない、あるいは推論に不可欠な多くのコンテキストを保持する能力がないように見えます。そして全般的に、それほど革新的でなく、汎用性も低いように見えます。
この点を証明するために、DeepSeekは推論していないとか、o1に勝てていないけれど、より小さいモデルだからだと言う人がいるかもしれません。o1ミニの実際のサイズは分かりませんが、推論時間から判断すると、o1ミニとDeepSeekは少なくともパラメータ数のオーダーは同じくらいでしょう。
同じプロンプトをo1ミニで実行してみました。素早く確認してみましょう。赤をBからCへ、緑をBからAへ、赤をCからBへ、そして最後に青をCからAへ。o1ミニは問題なくこれを行いました。とても速く、約10秒で感じ取って全てを理解しました。
DeepSeekは本当に長い時間、約2分ほど考えようとしていて、より網羅的な探索をしているように見えました。とにかく結論は変わりません。DeepSeekは印象的ですが、まだそこまでではありません。誰かを倒すようなレベルではありませんが、オープンソースであり、人々が互いに学び合えて、これらのモデルをオフラインで使用できるのは素晴らしいことです。
DeepSeekとOpenAIが境界を押し広げ続けているので、これらのモデルをさらにテストしていきます。もちろん、彼らの競合他社もテストしていきます。
いつものように、チャンネルでテストしてほしいものがあれば教えてください。コメントと購読をお願いします。動画が良かったと思ったらいいねをお願いします。チャンネルの成長に本当に役立ちます。
それでは、また次回お会いしましょう。さようなら。