DEEPSEEK、AIの爆弾発言: AIが超知能へと自己進化（o1を凌駕）

9,889 文字

DEEPSEEK DROPS AI BOMBSHELL: A.I Improves ITSELF Towards Superintelligence (BEATS o1)

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

中国のDeepSeek R1モデルがリリースされ、完全にオープンソース化されました。OpenAIの最高モデルであるo1と同等かそれ以上の性能を持ち、蒸留を通じて他のモデルを作成する能力があります。これが何を意味するかは後ほど説明しますが、例えばGPT-4oモデルと同等の性能を持つ非常に強力な小型モデルを作成できるのです。これらすべてが地球を揺るがすような出来事です。これがオープンソースであることを覚えておいてください。自宅のコンピュータで実行でき、ビジネスに使用でき、独自のモデルを作成するのに使用できます。
このモデルが野に放たれたわけですが、人々が見落としている重要な点があります。それは研究者たちが「アハモーメント」と呼んでいるものです。これは研究者たちのアハモーメントではなく、モデル自身のアハモーメントでした。初期バージョンのモデルが、ある時点で顕著な自己進化プロセスを示したのです。「DeepSeek R1oの自己進化プロセスは、強化学習が自律的にモデルの推論能力を向上させることができることを示す魅力的な実証例です。」
今日リリースされましたが、これを見る必要があります。これまでわかっていることを整理していきましょう。ジャガーノートは加速しています。購読してライクを押して、シートベルトを締めてください。
今日我々はR1を手にしています。DeepSeekはこれら全ての背後にある企業で、DeepSeek R1が実際のモデルです。以前も話題にしましたが、今日それが解き放たれたのです。オープンソース化されました。この投稿は数時間前のもので、200万以上の視聴回数を記録しています。そして述べられているように、DeepSeek R1はOpenAI o1、つまり我々がアクセスできる大規模な推論モデルと同等の性能を持っています。
完全にオープンソース化されたモデルで、技術レポートはMITライセンスの下で自由に蒸留や商用利用が可能です。特定の具体的なタスクを非常に上手くこなす小型の「ドローンモデル」を作るための「女王蜂」として使用できます。その驚くべき性能については後ほどお見せします。また、APIを通じて利用可能で、このURLでチャットを試すこともできます。リンクは説明欄に記載します。
一般的なタスクのほとんどでo1モデルと同等の性能を持ち、AIME 2024のような高度な数学問題でも同様です。これは推論モデルの優れたベンチマークとなっています。なぜなら、答えがデータセットのどこかにある可能性が低く、実際に一行一行考えて、いわゆる「作業を示す」推論を行って結論に到達する必要があるからです。
さらにボーナスとして、オープンソースの蒸留モデルも公開されています。これについて少し説明しましょう。これは多くの人にとって新しい概念かもしれないからです。これらの非常に大規模で高価で扱いにくいモデルは、非常に優れていますが、実行が難しく、できるだけ高速というわけではありません。しかし非常に賢く効果的です。
これらは教師モデルとして使用でき、より小規模な生徒モデルを作成できます。これらは特定の問題セットや用途に特化して訓練されます。例えば、感情分析や特定の数学問題、コーディングなどに特化したモデルを作成できます。
この考え方は少し混乱するかもしれません。なぜなら、現在これを様々な方法で呼んでいるからです。蒸留モデルと呼んだり、以前は知識蒸留と呼んでいました。大規模モデルを使用して合成データ、つまりその出力や思考、推論のステップを作成し、それを使用して小規模モデルを作成するのです。
教師生徒モデルや知識蒸留、この場合は単に蒸留モデルと呼んでいますが、基本的に同じことを指しています。大規模モデルが推論を生成し、その推論やデータを使用して他のモデルを訓練します。そしてその小規模モデルは特定のタスクに非常に優れるようになり、元の教師モデルほど大規模で高価である必要はありません。
例えば、この列を見てみましょう。2024年のAIMEの高度な数学問題を例に取ります。これが問題で、解答に必要なステップがあり、もう1つの例もあります。簡単な問題ではありません。
ご覧の通り、GPT-4oは3.5を獲得し、Claude Sonnetは16を、o1 miniは推論モデルとして非常に優れた63を獲得しています。これらはAnthropicやOpenAIの一般的なモデルで、ほとんどの人が聞いたことがあるものです。
そして蒸留モデルがあります。このR1が作成したものです。一般的に、70億パラメータのモデルは小規模な範囲にあり、700億パラメータが中規模、より大規模なモデルは4,050億パラメータのLlamaモデルなどです。GPT-4は1.7兆パラメータと言われています。また、1つの大規模な密なモデルか、専門家の混合かによっても異なります。
しかし重要なのは、最初のモデルが15億パラメータということです。小規模というレベルではなく、ナノサイズです。小規模モデルの一部に過ぎません。それでも28、つまり約30を獲得し、GPT-4oの3倍近い性能を示しています。70億パラメータまで拡大すると、小規模の範囲ですが、ここに挙げられている他の非推論モデルよりも優れた性能を示します。
唯一上回るのはow and miniで、これは思考の連鎖を持つ推論モデルで、この進歩の多くを担っている大きなブレークスルーです。140億パラメータに拡大すると、それを圧倒し、320億パラメータでは72.6を獲得し、Codeforcesで1691を記録しています。つまり、これらの非常に小規模なモデルが選択したタスクで非常に優れた性能を発揮し、オープンソースなのです。
さらに、R1を使用して自分自身のこのようなモデルを作成でき、それらもオープンソースになります。オープンソースコミュニティに力を与えています。そして、彼らが次に言っていることは、行間を読む必要があります。「OpenAIの境界を押し広げている」と述べ、多くのアスタリスクと感嘆符を付けています。彼らは何を言おうとしているのでしょうか？誰に向けられているのでしょうか？
技術的な内容に戻る前に、この論文の深部に埋もれていた、私が目を見開くような驚きを感じた何かをお見せしたいと思います。彼らはこれをDeepSeek R1oの「アハモーメント」と呼んでいます。ここで話題になっているモデルは2つあります。1つはDeepSeek R1で、これは我々が入手できる現在のモデルです。そしてDeepSeek R1oは、興味深く少し変わったものです。
これについて話しましょう。DeepSeek R1oは大規模な強化学習（RL）を通じて訓練されたモデルです。多くのモデルがこのように訓練されています。人間からのフィードバックによる強化学習についてよく耳にしますね。良いことをしたら「いいね」を、悪いことをしたら「よくない」というように。
このモデルは予備段階として教師あり微調整なしでRLで訓練されました。教師あり微調整とは、人間がデータ、ラベル付きデータを提供することを意味します。例えば翻訳の場合、文章とその正しい翻訳のペアをモデルに与え、「これが正解だから、これから学んでください」と言うのです。
このゼロモデルはそれなしで訓練され、顕著な推論能力を示しました。その中で、多くの強力で興味深い推論行動が自然に現れました。しかし、いくつかの問題があり、それらに対処するためにDeepSeek R1が導入されました。
基本的に、DeepSeek R1は公開準備ができているもので、一般に公開できるものです。DeepSeek R1oは、奇妙な研究プロジェクトで、興味深いものの、まだ日の目を見る準備ができていないかもしれません。このゼロモデルで何が起きたのか見てみましょう。
彼らはここでDeepSeek R1oの自己進化プロセスについて語っています。「DeepSeek R1oの自己進化プロセスは、強化学習がモデルの推論能力を自律的に向上させることができることを示す魅力的な実証例です。」
大規模言語モデルにおいて、人間のデータから学習する訓練から、自己改善、自律的な学習へとますます移行しているようです。例えばGoogle DeepMindのモデル、AlphaGoなどで見られたように、人間のデータで訓練すると相当良くなりますが、自己訓練の方法を見つけ出すと、例えばチェスや囲碁のように、自分自身とプレイを繰り返し、数十億のゲームを生成します。
ただ勝つように指示するだけで、どうやって勝つか、各駒の価値や我々が発見した戦略などは教えません。すべてを一からゼロから学ばせ、最終的にそのゲームで超人的な能力を持つようになります。
注目すべきは、ある手が「悪手」と思われる例があることです。それらは奇妱で、異質で、エキスパートプレイヤーが打たないような手です。後になって、そのモデルが世界チャンピオンたちを打ち負かした時に初めて、「あれは良い手だった」と気づきます。人間の心ではその手の良さを理解できていなかったのです。
同じような自己学習、自己進化のプロセスを大規模言語モデルでも引き起こす方法を理解し始めているようです。図3に示されているように、モデルは訓練プロセスを通じて一貫した改善を示しています。
重要なのは、この改善が外部からの調整の結果ではなく、むしろモデル内部の本質的な発展だということです。「やってみて、そう、それがいい」というような指示はしていません。ただ実行させ、それは改善していくのです。
このゼロモデルは、思考や処理、思考を出力する前の時間を増やすほど、より複雑な推論タスクを解決する能力を自然に獲得します。この自己進化の最も注目すべき点の1つは、テスト時の計算時間が増加するにつれて、洗練された行動が現れることです。
この「出現」という概念については、それが存在するのか、それが正しい言葉なのかについて、多くの議論があります。アイデアとしては、モデルの訓練を続け、より多くのリソースやデータを与えると、時には突然の能力向上や新しいスキルが現れるように見えるということです。
例えば、画像モデルを訓練する場合、最初は単なるノイズを出力しますが、データやコンピュータリソースを増やすにつれて、突然実際のオブジェクトのように見え始め、最終的には影や光源を理解し、3D空間や反射の仕組みを理解するようになります。
NVIDIAのJim Fan博士は、これを例えば物理学の仕組みをモデルが学習する例として言及しています。物理方程式や物理の仕組みを教えるのではなく、例えば動画モデルの場合、単に大量の映像を与えるだけです。時間とともにそれが拡大するにつれて、物理の仕組みをより良く理解するようになることに気づきます。
完璧ではありませんが、現実世界の物理がどのように機能するかについての一種の精神モデルを持つようになります。ここで「精神モデル」という言葉を使うのが適切かどうかを示すいくつかの研究があります。
しかし、この論文の研究者たちが洗練された行動の出現について語る時、これは必ずしも我々が意図的に導いているものではないということを理解することが重要です。これは言わば自然に現れてくるものなのです。
反省や以前のステップを見直し、再評価する、問題解決への代替的なアプローチを探るといった継続的な行動は、自然に出現します。再び強調しますが、これらの行動は明示的にプログラムされたものではなく、強化学習環境との相互作用の結果として出現したものです。この自然な発展は、DeepSeek R1oの推論能力を大幅に向上させ、より困難なタスクをより効率的かつ正確に取り組むことを可能にしました。
訓練中に観察された興味深い現象の1つは、「アハモーメント」の発生です。この段階で、このゼロモデルは、初期のアプローチを再評価することで、問題により多くの思考時間を割り当てることを学習します。これは予期せぬ洗練された結果でした。
ところで、この考えに強く反対する人々が多くいます。知能がこのような出現的な特性であるという考えに反対なのです。しかし、私は興味深いことに思います。SFの本や映画をたくさん読んだり見たりした人に聞きたいのですが、私の知る限り、人工知能が存在するロボットなどを描いたSFのほとんどは、それを人間が綿密に設計したものとして描いています。
スタートレックのデータやアシモフのロボット工学三原則など、すべて人工知能は人間によって設計され、コード化されたものとして描かれています。私の知る限り、人工知能を、すでに存在するものの、我々はそれを育て、培養する必要があるものとして描いたものはありません。
Ilya SutskeverがTransformerは「学びたがっている」と言ったとき、それを指していたのだと思います。Sam Altmanが「知能は物理学の出現的な法則かもしれない」と言ったとき…正確に引用したいので言いますが、「知能は物理学の出現的な特性である」と。
質問ですが、これが真実であることを指摘した、予見したSFの本や映画はありますか？コメント欄で教えてください。
彼らは続けて、研究者たちにとってのアハモーメントは次のようなものだったと言います。それは、強化学習の力と美しさを強調するものでした。モデルに問題の解き方を明示的に教えるのではなく、単に適切なインセンティブを与えるだけで、自律的に高度な問題解決戦略を開発するのです。
これは、人工システムに新しいレベルの知能を引き出す強化学習の可能性を示す強力な例であり、将来のよりオートノマスで適応的なモデルへの道を開くものです。
これが非常に大きな出来事である理由は、今や我々がこの考え、このアイデアが、ベイエリアのAI企業だけでなく、中国の企業からもエコーされているのを見ているからです。場所が異なり、文化が異なり、統治機関が異なり、インセンティブが異なるにもかかわらず、彼らは同じことを言っています。
これらは学びたがっている、暗黙の学習が行われている、適切な環境を設定すれば、知能や技能、能力が出現するということです。
先ほど話していたゼロモデル、人間の訓練を受けていないモデルは、人間が訓練したものほど一貫性がなかったかもしれません。より多くのノイズがあり、読みにくく、言語が混ざり、突然異言を話し始めたりしました。最高のモデルにも起こることですが、人間のフレンドリーなコールドスタートデータで強化学習プロセスを開始すると、そういったことは起こりません。
それが通常のモデル、人間のデータを使用したDeepSeek R1が通常のプロセスである理由です。DeepSeek R1oは、おそらく研究者にとって非常に興味深い奇妙なモデルですが、近いうちに製品としてリリースされることはないでしょう。
このゼロモデルについてもう1つ目立つことは、推論において人間らしい面があることです。彼らが述べているように、モデルは人間的な口調を使って再考することを学習します。つまり、人間のような言語で推論のステップを進め、「待って、待って、待って、ここでアハモーメントを指摘できる」というようなことをします。
これは興奮させますか、それとも恐怖を感じさせますか？人々は様々なプロンプトでこのモデルを使用している様子を投稿していて、これまでのところ結果は非常に良好のようです。全体的に非常にポジティブです。
ここに、671億パラメータのモデルを2台のM2 Ultraで実行している人がいます。読書速度より速く、つまり読めるよりも速くテキストを出力できます。家庭用の一般的なハードウェアでo1に近づいています。はい、これは非常に速いですね。読んでいる間に追いつくのを待つ必要がない、それほど速いです。
NVIDIAのシニアAI研究者であるJim Fan博士は、非米国企業がOpenAIの元々のミッション、真にオープンなフロンティア研究を全ての人に提供するというミッションを生かし続けている時代に我々は生きていると述べています。「最も面白い結果が最も可能性が高い」と。
DeepSeek R1は、一連のモデルをオープンソース化するだけでなく、すべての訓練の秘密も公開しています。おそらく彼らは、強化学習のフライホイールの大きな持続的な成長を示す最初のオープンソースプロジェクトです。
先ほど読んだアハモーメントについて考えてください。彼らはすべてを公開しました。あの1つの論文に基づいて、それらのアイデアが世界中で再現されるでしょう。彼らの結果と、明らかにすべてのコードとウェイト、そして彼らが公開したすべての蒸留モデルに基づいて。これは非常に大きな出来事です。
なぜなら、これはフライホイールを押し進めるからです。誰もがオープンソースや研究に貢献し、誰もがそれから学ぶことができるとき、それは一種の複利効果を生みます。フライホイールは、一滴一滴がホイールをより速く、より速く、より速く回転させるのです。
ASIによって内部的に達成されるインパクト、あるいはプロジェクト・ストロベリーのような神話的な名前によるインパクトは、単に生のアルゴリズムとmatplotlibの学習曲線をダンプすることでも達成できます。
先ほど、OpenAIの境界を押し広げているという発言に気づいたと思いますが、これはOpenAI社への一撃です。当初、OpenAIは閉鎖的なAIの取り組みへのカウンターバランスとして設立されました。彼らはオープンソースのAGI企業であるはずでした。彼らは選ばれし者で、力のバランスをもたらすはずでした。それを破壊するのではなく…いや、それは別の話です。
しかし、これがJim Fan博士が言っていることだと思います。私はそれを正しく理解していると確信しています。プロジェクト・ストロベリーのような名前を挙げて、「はい、OpenAIがやっているようなインパクトを与えることもできますが、DeepSeekや他のオープンソースの取り組みがやっているようなインパクトを与えることもできます」と言っているのです。
彼らは研究を行い、他の人々が学び、それを基に構築できるように、すべてを公開しているのです。彼は論文を読んで言います。「純粋に強化学習によって駆動され、SFT（教師あり微調整）なし」、つまり先ほど話したように、人間のデータなし、人間のデータのコールドスタートなし、「AlphaZeroが人間のグランドマスターの手を真似することなく、ゼロからGoと将棋とチェスをマスターしたことを思い起こさせる」と。
これが論文から得られる最も重要な知見です。そして、最近の数本の動画をご覧になった方なら、申し訳ありませんが、この点を強調しすぎているかもしれませんが、2023年11月頃から、大規模言語モデルの技術分野とGoogle DeepMindのAlphaGoやAlphaZeroなどのすべての技術分野が出会うとき、クレイジーなことが起こり始めるという方向に向かっている可能性について話していました。
モデルの思考時間は訓練が進むにつれて着実に増加します。これはプログラムされたものではなく、出現的な特性です。自己反省と探索行動の出現を見ています。
また、彼はPOの代わりにGRPOというアイデアについても言及しています。私の理解が正しければ、報酬政策を最適化する際に、通常は政策モデルと同じサイズの批評モデルを使用する代わりに、グループスコアからベースラインを推定するグループ相対政策最適化を採用しているということです。メモリ使用量を減らすためのシンプルな方法です。
もし何か間違ったことを言っていたら申し訳ありません。これを完全に理解するにはまだ深く掘り下げる必要がありますが、このGRPOは2024年2月にDeepSeekによって発明されたばかりのようです。
Nak J Fanは続けて、「なんて優れたチームだ」と述べています。確かに、DeepSeekチームで働いていた人々を含む様々な人々から、信じられないほどの人々とエンジニアと研究者のグループであると素晴らしいことを聞いています。
ところで、興味があれば、ChinaTalkのSubstackにDeepSeekのCEOへのインタビューを含む大きな記事があります。これは非常に大きな記事で、チームがどのように始まったかなどについて話しています。
私たちが利用できるインターネット上では、これらの人々についての情報をあまり見つけることができません。中国のインターネットは大部分が分離されているからです。そのため、もっと知りたい場合は、単に翻訳するだけでなく、これらのことが何を意味するのかを説明する素晴らしい仕事をしています。
例えば、インタビューは「DeepSeek V2のリリース後、すぐに大規模モデル市場で激しい価格戦が引き起こされました。あなたは業界のナマズになったと言われています」で始まり、CEOは偶然にもナマズになってしまったことに同意しています。これは市場の破壊者を意味するようです。アメリカでは、catfishingは完全に異なる意味を持ちます。
興味深いことに、これは唯一の大きな論文ではありません。強化学習のフライホイールの秘密とマルチモーダルo1スタイルの推論を含む2つ目の論文もあります。KiMiというスタートアップとDeepSeekの論文、彼らの発見は驚くべきことに同様の知見に収束しています。
その論文も、我々がすでに取り上げたことと同様のことについて話しています。いくつかの違いがあります。DeepSeekは人間の入力がないゼロモデルを1つテストしています。KiMiは、プロンプトエンジニアリングされた思考の連鎖のトレースを通じて、人間のデータで教師あり微調整を行っているようです。
DeepSeekはオープンソースですが、KiMiはまだモデルを持っていません。KiMiは強力なマルチモーダルの性能を示し、KiMiの論文にはシステム設計、RL基盤、ハイブリッドクラスター、コードサンドボックスなどについてより多くの詳細が記載されています。
重要なのは、2023年のある時点で、私の記憶が正しければ、Sam AltmanとIlya Sutskeverがステージ上でAIの未来について議論し、オープンソースの進歩と閉鎖的なモデルについてどう考えるかという質問を受けたときの答えと、当時のアイデアは、フロンティアモデル、閉鎖的なモデルが常に先行し、オープンソースは数年遅れて追随するものの、決して追いつかないだろうというものでした。
多くの人々は、これらのオープンソースモデルのいくつかのリリースについて、非常に慎重で警戒的でした。部分的には、中国がそれを手に入れて再現できるようになることを望まなかったからです。
しかし今は2025年の初めです。状況は変わったように見えますか？オープンソースモデルは最も先進的なAI企業の最高のモデルと同等の性能を持ち、中国がそれを公開し、オープンソース化したのです。正直に言って、私はこれを予想していませんでした。
しかし、あなたはどう思いますか？アハモーメントについて、自己進化について、一般的なオープンソースAIについて、そして特に中国の企業がそれを世界的に公開しているという事実について、どう思いますか？
覚えておいてください。例えばOpenAIの経済的な青写真の大きな焦点、大きな部分、大きな目標は、すべてのAI技術とインフラストラクチャなどを可能な限り世界中に広げ、米国の技術、米国と同じ方向性を持つものにユーザーを取り込むことです。
しかし、中国企業や他の企業によって公開されるオープンソースであれ、モデルやインフラストラクチャ、研究などがすべて世界中で利用可能であれば、それをコントロールし、その方向性に影響力を持つことはより難しくなります。
以上です。ご視聴ありがとうございました。ここまで見ていただき感謝します。私はWes rthです。また次回お会いしましょう。