
5,949 文字

ついにオープンソースの o1 モデルが登場しました。DeepSeek R1 はオープンAI の o1 思考モデルと同等の性能を持ち、重みを含めて完全にオープンソースで、MITライセンスの下で公開されています。ホステッド版を使用する場合でも、o1 の価格のほんの一部で利用できます。未来が到来したのです。
私はずっと、オープンソースはクローズドソースの3〜6ヶ月後を追随していると言ってきましたが、o1 のリリースから約3ヶ月後に、その完全オープンソース版が登場したのです。それでは、詳しく説明していきましょう。
まず最初に、詳細に入る前にベンチマークを見てみましょう。濃い青色の棒がDeepSeek R1、濃いグレーがオープンAI o1、薄い青がDeepSeek R 132b、薄いグレーがオープンAI o1 mini、そして最も薄い青が非思考モデルのDeepSeek V3です。
これらの結果を見てください。AIM 2024ベンチマークでは、DeepSeek R1 がオープンAI o1 を上回っています。Code Forcesではほぼ同等で、わずか3ポイントの差です。GP QA Diamondではオープンai o1 ほど良くはありませんが、近い性能です。Math 500では o1 を上回り、MMLUでは若干劣るものの、わずかな差です。そしてSWE Benchでは o1 をわずかに上回っています。
完全オープンソースモデルとしては、これらは驚くべき結果です。DeepSeek社はこれを構築し、完全に無料でオープンソース化し、重みも公開しました。これは十分強調しておきたい点です。とてもエキサイティングな時代です。
オープンソースについて興味深いのは、これは4分間マイルのようなものだということです。他のオープンソース企業がこれが可能だと知り、しかも達成方法のロードマップまで公開されたことで、このようなオープンソースの思考モデルが大量に登場することでしょう。DeepSeekチームの取り組みは素晴らしいものですが、それだけではありません。
Claude対する性能や、GPT 4o との比較を見てください。Claudeのモデルに対しては、興味深いことにコーディングベンチマークであるSWE Verifiedを除いて、ほぼ全面的に勝利しています。そしてGPT 4o に対しても、全体的にかなりの差をつけて上回っています。
DeepSeekのブログ投稿を見て、詳しく分析してみましょう。まず、オープンAI o1 と同等の性能を持つということは、オープンソースがクローズドソースモデルの3〜6ヶ月後を追随するという予測が続くとすれば、今後3ヶ月以内に o3 レベルのモデルが登場する可能性があります。
完全オープンソースで、ホワイトペーパーも提供され、MITライセンスの下で自由に蒸留や商用利用が可能です。chat.deepseek.comで無料で使用できます。私も既にテストを実行しましたが、その結果については後ほどお話しします。
既に蒸留バージョンもリリースされています。DeepSeek R1から蒸留された6つの小規模モデルが完全オープンソース化されています。クリックして詳細を見ると、DeepSeek R1から蒸留されたQwen 1.5B、7B、14B、32Bモデルと、R1蒸留LLaMA 7B、70Bモデルがあります。
これらの性能は驚くべきものです。GPT 4o と蒸留版LLaMA 70Bを比較すると、AIMベンチマークで70対9.3です。Live Codebenchスコアを見ると、他の非思考モデルをほぼ圧倒しています。明らかに o1 Miniモデルでさえも素晴らしい性能を示していますが、Code Forces競技では1600点とまだまだ良好な成績を収めています。
先ほど言及したように、ライセンスアップデートでMITライセンスとなり、コミュニティが明確にアクセスできるようになりました。モデルの重みと出力を活用でき、モデルの重みは今すぐダウンロード可能です。リンクは説明欄に記載します。
APIの出力はファインチューニングや蒸留に使用可能で、先ほど述べたように価格は大幅に抑えられています。価格については後ほど説明します。技術論文も公開されており、おそらく別の動画で詳しく掘り下げる予定です。
価格についてですが、o1モデルと比較して、はるかに安価であることが分かります。入力APIの価格を見てみましょう。ここにあるのが、100万トークンあたり0.14ドルです。一方、o1 Miniが1.5ドル、o1が7.5ドル、o1プレビューも7.5ドルです。
キャッシュミスを含む入力APIの価格でも、約3倍高いものの、o1モデルと比べればはるかに安価です。さらに驚くべきは出力価格で、100万トークンあたり2.19ドルに対し、o1プレビューと o1は60ドルです。o1ミニはかなり安価ですが、それでもDeepSeek R1バージョンよりはるかに高価です。これがオープンソースの力で、価格を下げ、競争を促進するのです。
もちろん、私は「strawberry」という単語に「r」が何個あるかというテストを行いました。結果を見てみましょう。このモデルは思考し、思考の連鎖を見ることができ、とても興味深いです。
読んでいくと、非常に人間らしい内部思考を持っていることに気づきます。「okay」「hmm」「let’s think」といった表現を多用し、非常に人間らしい思考を示します。
「ユーザーは『strawberry』という単語に文字『r』が何回出現するか尋ねている」と考え始めます。「まず、単語のスペルが正しいか確認しよう」と進めていきます。「もう一度確認しよう。時々人々は文字を見落とすことがある」と続けます。
分解して、「待って、10文字しかないけど、strawberryはもっと文字があるはずでは?」というのは、モデルにとっては奇妙な発言ですよね?非常に人間らしく興味深いです。「もう一度確認しよう。何か見落としているかもしれない」と言って、適切に書き出していきます。
最終的に「r」の文字を数え始めます。「いいえ、いいえ、はい、いいえ、いいえ、いいえ、いいえ、いいえ、はい、はい」と進めて、「3つある」と結論付けます。「でも、strawberryの正しいスペルは実は2つの『r』しかないと思う」と興味深いことに、誤って自分を訂正しています。
「待って、もしかしてstrawberryと別のスペルを混同しているのかな?確認してみよう」と続けます。もう一度やり直して、最終的に「strawberryという単語のスペルを分解すると、文字『r』は3回出現します。位置は3、8、そしてnの位置です。『strawberry』という単語には3つの『r』があります」と結論付けます。内部の思考プロセスの一部は正確ではなかったかもしれませんが、正しい答えにたどり着きました。
別のテストをしてみましょう。みんなが好きなビー玉の問題です。「ビー玉がガラスのコップに入れられます。次にそのガラスが上下逆さまにされ、テーブルの上に置かれます。その後、ガラスが持ち上げられて電子レンジに入れられます。ビー玉はどこにありますか?」
おそらく「理由を段階的に説明してください」という部分は必要ないでしょう。実際にその部分を削除します。なぜなら、これは非思考モデル用の指示で、思考モデルはデフォルトで段階的に考えるからです。
どう答えるか見てみましょう。「考えてみましょう。これらの段階を経た後でビー玉がどこにあるか理解しようとしています」と始めます。問題では「ビー玉がガラスのコップに入れられ、その後コップが逆さまにされる」と述べています。「ビー玉はどこにあるでしょうか」と問いかけます。
興味深いことに、「考えてみましょう」という表現を含んでいます。o1モデルと o3モデルはそうした表現をしないと思います。実際にこれは愛らしく、興味深い特徴です。また、出力量の多さと思考の深さにも注目です。
「まず、ビー玉をガラスコップに入れると、通常はビー玉は底に置かれます。次にガラスを逆さまにすると、何かが保持していない限り、ビー玉は落ちるはずです。ガラスを逆さまにしたときにビー玉が中にあるかもしれない」と考えています。
全文は読み上げませんが、様々な可能性を検討し、行ったり来たりしながら考えを進めています。「待って、これを視覚化してみましょう」と言って、本当にあらゆる可能性を検討します。「しかし、標準的なビー玉は通常、典型的なグラスの口よりも小さい」という良い指摘をしています。本当に素晴らしい思考です。
「少し混乱していますが、もう一度確認してみましょう」と続け、最後に結論を見てみましょう。「ビー玉をグラスに入れ、グラスを逆さまにすると、重力によってビー玉は下向きに引っ張られます。グラスの口がビー玉よりも小さくない限り、ビー玉は落ちてテーブルの上に着地します。標準的なビー玉は通常、標準的なグラスの口よりも小さいため、ビー玉はテーブルの上に落ちます。
逆さまのグラスをテーブルの上に置くと、グラスは上下逆さまでビー玉の上にありますが、ビー玉はもはや中にはなく、グラスの下のテーブルの上にあります」。これは興味深い点で、実際にはビー玉がグラスの中にあるのか外にあるのかを知る方法はありません。なぜなら、逆さまにした瞬間に落ちてしまうからです。
「グラスを電子レンジに移動させても、ビー玉は落ちた場所であるテーブルの上に残ります」。これは完璧な答えです。
注意すべき点として、検索機能とDeepSeekを同時に使用することはできません。オープンAIの思考モデルと同様に、まだウェブ検索を組み込むことはできません。
もう一つテストをしてみましょう。これは o1モデルを含めほとんどのモデルがまだ苦手とするテストです。「『apple』という単語で終わる10個の文を作ってください」
「この要求に取り組んでみましょう。ユーザーは全て『apple』で終わる10個の文を求めています。まず、各文が『apple』で終わることを確認する必要があります。異なる文脈を考えてブレインストーミングを始めましょう」と考え始めます。
結果に飛びましょう。1、2、3、4、5、6、7、8、9、10と完璧に作成し、各文をハイライトしています。これは素晴らしいモデルです。
しばらく完全なベンチマークテストを行っていませんが、DeepSeekで行ってほしい場合は、コメント欄で教えてください。
さて、論文を見てみましょう。オープンソースモデルで o1レベルの推論を達成した方法について、必要な情報がすべて詳述されています。
「私たちは第一世代の推論モデル、DeepSeek R1.0とDeepSeek R1を紹介します。DeepSeek R1.0は、教師あり微調整なしで大規模な強化学習を通じて訓練されたモデルで、予備段階として顕著な推論能力を示しています」
これは実際には何を意味するのでしょうか。DeepSeekは実際にコールドスタート問題を解決しました。人間のフィードバックを必要とせず、純粋に強化学習を使用するAlphaZeroテクニックを採用し、基本的に多くのことを試してみました。私が以前から言っているように、人間のフィードバックは常に帯域幅の制限要因となります。
DeepSeek R1.0は自然に多くの強力で興味深い推論行動を示しますが、可読性の低さや言語の混合といった課題に直面します。これらの問題に対処し、さらに推論性能を向上させるため、私たちはDeepSeek R1を導入しました。強化学習の前に多段階訓練とコールドスタートデータを組み込んでいます。
その結果、非常に良い性能を達成したと述べています。また、QwenとLLaMaをベースにしたDeepSeek R1から蒸留された6つの密なモデルも持っています。
彼らがどのように実現したかについて興味深い点は、批評モデルを持つのではなく、グループ相対方策最適化戦略を使用したことです。通常は別のモデルがあり、多くの潜在的な候補回答を出して、批評モデルが「これは良い」「これは悪い」と判断します。しかし、基本的に彼らは候補結果を取り、ベースラインを見つけて正解を推測する方法を採用し、批評モデルを完全に取り除きました。
これがそのプロンプトです。DeepSeek R1.0のテンプレートは次の通りです:ユーザーとアシスタントの会話で、ユーザーが質問し、アシスタントが解決します。アシスタントはまず頭の中で推論プロセスについて考え、その後ユーザーに回答を提供します。推論プロセスと回答はそれぞれ「think」と「answer」タグで囲まれています。
「think」タグの中に推論プロセス、「answer」タグの中に回答が入り、「user」の後にプロンプトが来て、そしてアシスタントが回答するという形式です。
DeepSeekによると、これが「アハ体験」の瞬間だそうです。DeepSeek R1.0は、初期のアプローチを再評価することで、問題により多くの思考時間を割り当てることを学びます。この行動は、モデルの成長する推論能力を示すだけでなく、強化学習がいかに予期せぬ洗練された結果をもたらすかという魅力的な例でもあります。
問題の解き方を明示的に教えるのではなく、単に適切なインセンティブを提供するだけで、モデルが自律的に高度な問題解決戦略を開発することができる、強化学習の力と美しさを強調しています。これはまさにAlphaGoチームが発見したことです。
囲碁の勝利例を大量に与えるのではなく、代わりに「勝ったときはこうなる」「負けたときはこうなる」という報酬モデルを設定し、ただ自己対戦を繰り返させただけです。そして私たちが知っているように、勝利能力の面で人間のプレイヤーをはるかに超え、人間が考えもしなかった技術や戦略を発見しました。有名な「第37手」がその例です。
論文全体は説明しませんが、この論文の詳細な分析を見たい場合は、コメント欄でお知らせください。
以上です。オープンソースにとって、そしてAIにとって重要な一日となりました。私はこのモデルをダウンロードして試してみる予定です。みなさんもぜひチェックしてみてください。全てのリンクは説明欄に記載します。
この動画が気に入った方は、ぜひいいねとチャンネル登録をお願いします。次回の動画でお会いしましょう。


コメント