DeepSeek R1が30ドルで再現可能に | バークレーの衝撃的なブレークスルーが革命を引き起こす

AGIに仕事を奪われたい
この記事は約19分で読めます。

10,807 文字

DeepSeek R1 Replicated for | Berkley's STUNNING Breakthrough Sparks a Revolution.
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

DeepSeekのニュースが出た時、1兆ドル以上の株式市場の暴落を引き起こしました。そして今、バークレーの研究者たちがDeepSeek R1のコア技術をわずか30ドルで再現したというニュースです。これは前例のないような世界的な金融崩壊を引き起こすのでしょうか?おそらくそうではありませんが、それでも非常に非常に素晴らしいことです。彼らが言うように、これは小規模モデルの強化学習革命なのです。
バークレーのAI研究チームは、J pan博士候補生をリーダーとして、多くの人々が不可能だと考えていたことを成し遂げました。2人分のディナー代以下のコストでDeepSeek R1のゼロキーテクノロジーを再現したのです。
TwitterでのJ panの投稿を見てみましょう。下にリンクを貼っておきますが、GitHubがあり、全ての実験データがあり、誰でもそれをコピーしてダウンロードし、彼らの発見を再現してテストすることができます。30ドル以下で「アハ・モーメント」を体験できると彼は述べています。
「アハ・モーメント」とは、数ビデオ前に取り上げたR10の論文で触れたように、非常に興味深く、衝撃的なものです。強化学習を使って、これらのモデルが自ら学習できるようになるということです。研究論文の著者たちが述べているように、それは自己進化です。最終的に、このモデルは明示的に教えられていない、かなり高度な推論能力や戦略といった創発的な能力を発見するのです。
もちろん、それは大規模なモデルで、大規模な研究室によって作られ、何百万ドルもかかっています。しかし、これは何を意味するのでしょうか?30ドル以下でその信じられないような自己改善学習能力を再現できるということなのでしょうか?
これは表面上に見えるよりもはるかに大きな意味を持つかもしれません。まだ判断するには早すぎますが、詳しく見ていきましょう。これは私のスパイディセンスを少しくすぐります。
続いて、これはXYZ Labsのものです。基本的にはTwitter(X)に投稿されたものをまとめたsubstackの記事です。オリジナルの著者のGitHubとx.comの投稿を掲載していないことで批判を受けているので、私はそれら全てをリンクするようにします。
明確にしておくと、全ての作業を行ったのはこの人物で、この人物は単にまとめと解説を書いただけです。そして今、私がある意味でそれを劇的に読み上げているわけです。深く考えすぎないでください。私たちは皆、非常に近い将来にロボットに置き換えられることになるでしょう。
続けましょう。小規模言語モデルに洗練された推論能力を実装することに成功したことは、AI研究の重要な民主化を示しています。そして、ここでの意味するところによっては、それ以上に大きな意味を持つ可能性があります。
主な成果を見ていきましょう。まず第一に、成功した再現です。R1のゼロについて話していますが、彼らはその能力の一部を再現しました。モデル全体を再現したわけではありませんが、後で見るように、それは必要ないかもしれません。30ドル以下で実現されました。ここで話しているのは、おそらく計算コストについてです。
これは急速に低下していることを覚えておいてください。1年後、2年後、3年後には、同じ量の計算に対して、はるかに少ないコストになるでしょう。さまざまなアルゴリズムの改善を考慮すると、さらに低コストになります。
昨日、私たちはDario amadayの投稿を取り上げましたが、その中で興味深かったのは、これらを実行するコストがいかに急速に低下しているかということです。このコスト低下は、単にハードウェアが良くなっているだけでなく、アルゴリズムの改善によるものでもあります。つまり、より効率的にコンピュータを使用して、より多くのことができるようになっているのです。
アルゴリズムの改善だけについて話すと、Nvidiaチップの改善などは考慮せず、ソフトウェアやアーキテクチャ、実行方法についてだけ考えると、2020年に彼のチームは年間約1.68倍のペースだと論文で提案していました。今日では、その数字は年間4倍かもしれないと彼は言っています。
これを覚えておいてください。なぜなら、30ドルは大金ではありませんが、同じことに対して、年々コストは下がっていくからです。最終的には、これは無視できるほどの金額になり、数セントになるでしょう。
そして、彼らは小規模モデルで複雑な推論を実現できました。15億パラメータは非常に小さいです。通常、小規模モデルと言えば70億パラメータくらいで、中規模モデルは700億パラメータ、大規模なものではMeta Llamaの4,500億パラメータか4,050億パラメータ、GPT-4は1.7兆パラメータだと考えられています。
これは15億パラメータで、通常私たちが小規模と呼ぶものよりもさらに小さい、いわば極小モデルですが、複雑な推論を開発し、より大規模なシステムに匹敵する性能を発揮します。
彼らはR10を再現しようとしているので、カウントダウンゲームをテストの場として使用しました。例として、「1936、55、7という数字を使って、65になる方程式を作成せよ」というものです。これら4つの数字を使用して、基本的な算術演算で65を作る必要があります。
ここで思考の連鎖を見ることができます。思考の部分があり、そして答えがあります。論文の著者が述べているように、もちろん一つの注意点は、これはカウントダウンタスクでのみ検証されており、一般的な推論領域ではないということです。現在、私たちはコンピュータによって制限されています。
誰か助けが必要な方は、どうぞ連絡してください。この人に必要なものは何でも提供してください。なぜなら、これは結局のところ、これらの発見がどれだけ一般化できるのか、どのような異なる問題に適用できるのかということに関わってくると思うからです。すぐにそれを詳しく見ていきますが、重要なのは、この実装が、ランダムな推測から洗練された探索と自己検証のテクニックへと進化することを示したということです。
彼らが与えた別の認知タスクとして、例えば数の掛け算では、モデルは分配法則を使って問題を分解し、段階的に解決することを学びました。繰り返しになりますが、R10の大きな特徴は、問題解決の方法を明示的に教えるのではなく、適切な強化学習環境を作り出し、それが自ら解決方法を見つけ出したということです。
少し衝撃的ですよね?論文はまだ発表されていませんが(近日公開予定)、これが示唆しているのは、同じような自己進化、つまり「アハ・モーメント」が、大規模で高価なモデルだけでなく、30ドルのモデルでも起こり得るということです。そして、これらのモデルは来年には8ドル、その翌年には2ドルになるでしょう。実際には、Nvidiaがさらに優れたチップを作り続けることを考えると、もっと安くなるでしょう。
ここで興味深いのは、彼らが最小の5億モデル(5億パラメータ)から始めて、徐々にスケールアップしていったことです。それらの小さなモデルは基本的な推測しかできず、ほとんど役に立ちませんでした。しかし、15億以上のモデルでは、顕著な問題解決能力を示しました。
15億のモデルから、このような創発的な能力が見え始めます。これは、多くの人々が予想していたよりもはるかに小さなモデルサイズです。彼らは、強化学習アルゴリズム、つまりどのようなアプローチを使用するかは、予想よりも重要度が低いと述べています。
ここで問題の核心に迫ってきます。最も興味深い発見の一つは、モデルが異なるタスクに対して異なる問題解決戦略を開発したことです。カウントダウンゲームでは探索と自己検証を習得し、掛け算の問題では分配法則を適用することを学びました。これは、AIシステムが一般的な問題解決アプローチではなく、専門化された問題解決アプローチを開発することを示唆しています。
DeepSeek R10を見逃した人のために説明すると、これはDeepSeekの論文です。彼らはR1を導入しました。これは最近私たちが耳にしている大きなものの一つで、V3は別のモデルです。この論文では、R10についても言及しています。
20秒でまとめると、基本的に彼らがしたことは、強化学習を使用して、このモデルが一種の自己進化を通じて学習し、自己改善を試みるようにしたということです。前回の動画で、それが具体的に何を意味するのかを詳しく説明しましたが、今回は繰り返しません。重要なのは、人間への依存度が低く、人間の指導に頼るのではなく、「モデルよ、問題の解決方法を自分で見つけ出せ」というようなアプローチをとったということです。
そして、彼らは、このモデルが顕著な推論能力を示し、自然に多くの強力で興味深い推論行動を生み出すことに気付きました。R10の自己進化プロセス、つまり自己改善と問題解決方法の自主的な学習について、彼らは強化学習がモデルを自律的に推論能力を向上させることができることが魅力的だと述べています。
このモデルは、より長い計算時間を活用することで、徐々に複雑な推論タスクを解決する能力を自然に獲得します。基本的に、ここでモデルは、より長く考え、より長い出力を生成することで、何が真実で何が真実でないかを理解し、より良い精度と問題解決能力を得られることを認識します。
また、振り返りのような洗練された行動の出現も観察されました。以前のステップを見直し、再評価して、別のアプローチを見つけるのです。これらの自発的な発展が、その推論能力を大きく向上させます。これが「アハ・モーメント」と呼ばれるものです。
興味深いことに、これらの論文には特定のフレーズがあり、それらはキャッチフレーズやミームになります。「Attention is all you need」の論文は、今では多くの人々が「これがすべて」や「あれがすべて」と言うようになるような、一つの流れを作り出しました。
「アハ・モーメント」については、私の知る限り、これが初めて耳にする概念だと思います。おそらくこの論文から始まり、人々が特定の何かを「アハ・モーメント」と呼ぶようになる傾向が出てくると思います。「アハ・モーメント」とは、基本的にモデルが自力で何かを理解することです。
この場合、自己反省を通じて問題により多くの思考時間を割り当てる必要があることを理解しただけかもしれません。何を理解したかは必ずしも重要ではありませんが、重要なのは、私たちが明示的に教えることなく、自力で理解したということです。これは、強化学習が予期せぬ洗練された結果をもたらす可能性を示しています。これらのモデルが自律的に高度な問題解決戦略を開発できることを示しています。
このチャンネルの長年の視聴者の方々、ありがとうございます。Leopold Ashenbrenerの状況認識について話すのを聞いたことがあると思います。彼は多くのことを予測しており、その中のいくつかは文字通り今、現実になっています。特に、国家(例えば米国)とこれらのAIラボの間の相互作用については、彼は多くの予測を的中させました。
もう一つの予測は、インテリジェンスの爆発的な進化についてでした。彼は2026年か2027年頃にそれが起こると予測しています。これは、Dario amadeが予測している時期と似ています。Darioは、それがモデルが多くのタスクで人間より優れた性能を発揮するようになる時期だと言っています。もちろん、人間が行うタスクの一つはAI研究ですよね。では、AIが人間よりもAIの改善に長けるようになったらどうなるのでしょうか?
当時、この論文が出た時、多くの人々がこれを批判し、なぜこれが馬鹿げているのか、なぜこれがSFであり、起こり得ないのかを説明しました。Sabine Hossenfelderは素晴らしい人で、彼女の多くの仕事を尊敬していますが、彼女もこのことについて動画を出しました。背景に論文のスクリーンショットが見えます。
これが彼女の結論で、当時の皆の考えを見事にまとめています。「私が降りるのは、彼が科学技術と社会全体の急速な進歩を伴うインテリジェンスの爆発につながるという結論を出した時点です」。バスから降りてボートを逃すのか、ボートから降りてバスを逃すのか、これらの英語の慣用句は常に私を混乱させます。
これについて二点あります。一つ目は、サビーネが英語の慣用句に苦労しているというのは非常に親しみやすく、彼女も私たち同様、一度に一つの靴を履いて目覚めるということを知るのは心温まります。
私がAshenbrenerの予測を信じない理由は、彼が2つの主要な制限要因、つまりエネルギーとデータを完全に過小評価しているからです。より大きなモデルのトレーニングには膨大なエネルギーが必要です。正直なところ、私はこれらの人々が完全に道を見失っていると思います。彼らは集団思考が大文字で書かれたようなテクノユートピアのバブルの中で生きています。
次にデータの問題があります。オンラインで利用可能な全てのデータでAIを訓練したとして、その先はどうするのでしょう?どこからより多くのデータを得るのでしょうか?
多くの人々が指摘していた2つの大きなボトルネックは、第一にエネルギー、第二にデータでした。データについては、もちろん現在では多くの合成データが生成されています。モデルの推論、つまりその思考過程のアウトプットは、次世代のモデルを改善するために使用できます。これはOpenAIが行っていると考えられています。
彼らは01を持っていて、それが03につながりました(02は他社の商標でした)。最近インタビューを受けた上級幹部の一人によると、彼らはすでに次のステージ、次のモデル(V4または04と呼ぶかもしれません)を構築中だと言っています。
もちろん、エネルギーはもう一つの制限要因ですが、これはDeepSeekが登場する前のことで、これらのモデルを作成するために必要な計算量が50%近く削減されました。
私たちはAshenbrenerの世界に生きることになるのか、それともHossenfelderの世界に生きることになるのか?私にはわかりません。それは彼らが解決すべき問題ですが、自動化されたAI研究というこのアイデアは、私には全く狂気とは思えません。
なぜなら、DeepSeekは中国の企業だということを覚えておいてください。非常に異なる文化で、シリコンバレーの一部ではなく、ベンチャーキャピタリストから資金を調達しようとしているわけではありません。非常に異なる社会力学、非常に異なる政府と国家の力学がありますが、彼らもまた何か創発的なものを見ているようです。それは米国側の考え方と似ています。
彼らは、強化学習とこの「アハ・モーメント」、自己進化のアイデアが、人工システムにおける新しいレベルの知性を解き放ち、より自律的で適応力のあるモデルへの道を開く可能性があると述べています。これはIlya Sutskeverが数年前に言ったことで、これらのトランスフォーマー、これらのニューラルネットは学習したがっているということです。
現在のAIの進歩は、各ステップが前より困難になっていくような上り坂の戦いに感じますか?私はそうは思いません。むしろ正反対だと思います。スノーボール効果があり、米国側からであれ、世界の他の地域からであれ、各開発は積み重なっていきます。確かに、この中国企業が導入したものは大きなブレークスルーです。
人々は「彼らは米国企業からコピーしたんだ、米国企業からの蒸留を行ったんだ」と言っています。もし賭けるなら、実際に彼らがそうしたと賭けるでしょう。しかし、米国の全ての企業も互いにそうしていた、おそらくGPT-4から始まって、このAIの波の多くはGoogleが「Attention is all you need」論文、つまりトランスフォーマーアーキテクチャを発表した時に大きく引き起こされたと100%確信しています。
つまり、それは科学があるべき姿なのです。みんなが何かを発表し、それを互いにコピーし、その上に構築していきます。DeepSeekが提案したこれらの新しいブレークスルー、つまりより効率的にニューラルネットを作る方法は、間違いなくOpenAIやMetaなど、他の全ての企業もすぐに使用するでしょう。それが進歩の仕方であり、科学の仕方なのです。
しかし、この論文(まだ論文ではありませんが)、この研究が示していること、そして再度、これがどれほどの影響を持つかは見ていく必要があります。これは大きな影響を持つかもしれません。
第一に、その自己進化、「アハ・モーメント」について、彼が「30ドル以下で自分自身でアハ・モーメントを体験できる」と言っているのに注目してください。彼はR1の論文を参照しているだけですが、間違いなくこれは一つの現象になっています。
しかし、ここでの驚くべき発見は、モデルがいかに小さいかということです。ニューラルネットの「脳」のサイズの閾値、つまりこれらの洗練された推論能力を開発し始めるための閾値が、私たちが予想していたよりもはるかに小さいということです。
その自己進化、つまり私たちが明示的に教えることなく、自力で問題を解決する方法を見つけ出す能力が、はるかに早い段階で始まり、私たちが予想していたよりもはるかに小さなモデルで創発するということは、非常に公平に言えることだと思います。
非常に速く説明しますが、GoogleのDeepMindには「アルファ」システムがありました。「アルファ」という接頭辞を持つ多くの注目すべきプロジェクトがあります。AlphaGoは、プロの囲碁プレイヤーを打ち負かしました。
AlphaGo Zeroは聞き覚えがありますか?AlphaGoの進化版で、人間のデータなしで、完全に自己対戦だけで囲碁をプレイすることを学び、超人的な性能を達成しました。次にAlphaZeroがあり、同じ原理を囲碁、チェス、将棋など、何にでも適用しました。
AlphaFoldは、非常に複雑な3Dタンパク質構造を解明します。アミノ酸を与えられると、アミノ酸の鎖が折りたたまれて形成する3D構造を数秒で解明します。一度折りたたまれると、タンパク質は生命を可能にする特定の能力を持ちます。アミノ酸が折りたたまれる可能性のある異なるバリエーションの数は、既知の宇宙の原子の数よりも多いと言われています。天文学的な数字を超えて、そのような途方もない数の可能な構成があります。AlphaFoldはそれらを予測します。
コーディングのためのAlphaCode、AlphaTensor、AlphaGeometry、AlphaProofがあります。これらの2つを組み合わせると、国際数学オリンピード(IMO)でほぼ金メダルを獲得しました。金メダリストと同等の性能を示し、金メダルまであと1ポイントだったと言われています。
なぜこれらは全て「アルファ」と呼ばれているのでしょうか?彼らはこれらのモデルを構築するために、多くの同じような「レシピ」を使用しており、その多くは強化学習です。強化学習とは、私たちが望む行動に報酬を与え、望まない行動にはペナルティを与えたり、否定的なフィードバックを与えたりすることです。
重要なのは、彼らがこれらのアイデアを特定のことに適用したということです。例えば、そのアイデアをコードを書くことに適用できるか、タンパク質のフォールディングを理解することに適用できるか、チェスやスタークラフト2、囲碁などをプレイすることに適用できるか、などです。
現在、私たちは同じアイデア、つまり強化学習を通じてAIを自己改善させる方法を、大規模言語モデルに関する私たちの知識の上に積み重ねる時期に入っています。そしてここで魔法が起きているようです。
昨日もこれについて取り上げましたが、手短に説明すると、彼は、オープンソースで、機械学習やAIでより良いことをしようとしているなら、最も効果的なことは、LMの認知戦略を引き出すのに役立つ多様な強化学習環境を構築することだと言っています。一種のジムのようなものを作ることです。
これは、自分の世界の特定の部分、自分が大規模言語モデルに実行させたい特定のタスクに対して、強化学習戦略を理解する全ての人にとって大きな影響を与える可能性があります。世界中の多くの人々がこれを行い、オープンソースコミュニティに貢献することは、大きな意味を持つでしょう。
私は知りませんでしたが、実はAndreもこれを、つまり30ドルのR1の再現についてリツイートしました。そして最近、これを投稿しました。これは実際に、私たちが話していることを理解するための素晴らしい方法です。
彼は言います。例えば、新しく学ぼうとしていることについて教科書を開くとき、その本の中には3つの主要なタイプの情報、データがあります。一つは背景情報、説明、レッスンのようなものです。これはAIモデルの事前学習に似ています。モデルがインターネットを読んで背景知識を蓄積するのと同じように、教科書を読むとあなたの脳は何かを学ぶための事前学習を行います。
次に、解答付きの演習問題があります。これは教師あり微調整で、モデルは人間が書いた理想的な応答で微調整されます。教科書では「ここに問題があり、これが解き方です」というような形で示されます。ちなみに、R10はこの部分をスキップし、代わりにニューラルネット、R10モデルに全てを自力で学ばせようとしました。
ここにその論文、DeepSeek R10があります。教師あり微調整なしでトレーニングされました。そして、練習問題もあります。これらは通常、解答は示されませんが、最終的な答えは常に示される、各章の最後にある多くの問題です。これは強化学習に相当します。
これは全て何を意味するのでしょうか?まず第一に、大規模言語モデルと、Andreが言うようなモデルのための「ジム」としての強化学習トレーニングのアプローチは、非常に非常に強力であるように思えます。
超知能について話している多くの人々が、おそらくそれに至る道筋としてこのアプローチを考えているのが、その理由の一つかもしれません。オープンソースエコシステムへの驚くべき貢献があり、Andreはさらに一歩進んで、ニューラルネットのための強化学習ジムを構築することで、人々がどのように前進できるかを提案しています。
繰り返しになりますが、これらは大きな出来事であり、今まさに起きています。これが、私たちがこのような大きなブレークスルーを見ている理由の一つです。しかし、次にこの論文、30ドルでR1を再現したという研究が登場します。
理解することが重要なのは、まず第一に、これはR1の全てを再現したわけではなく、特定の専門的なタスクだけを再現したということです。AlphaGo Zeroのようなものです。囲碁というゲームをプレイするだけで、他の全てのことはできませんが、囲碁においては超人的な性能を発揮します。
もしこれが実証されれば、私たちは非常に特定のタスクにおいて、超人的な性能を持つこれらの小さな、極小のモデルを訓練することができるということになります。そして大規模モデルのトレーニングとは異なり、これは極めて安価に実現できます。
モデルは、ポイントとして、ある特定のプロジェクトのために20ドル程度で超人的なAIモデルを立ち上げることができるほど小さくなるかもしれません。これは私の推測に過ぎず、実現しない可能性もあります。実際、これがどの程度適用可能かに大きく依存しており、これについては今後数ヶ月でもっと多くの研究が出てくるはずです。
したがって、これの現実と本質が明らかになっていくのを見ることになりますが、一つの特定のユースケースだけを持っている場合、そのユースケースのために非常に安価で非常に強力なモデルを作ることができるということを意味します。
例えば、医療トリアージのように、人々が「これが起きている場合、救急室に行く必要があるのか」などを知る必要がある場合、正確で迅速な低コストのスクリーニングツールは非常に安価になり、病院のスタッフが全てを自分たちで行う必要がなくなります。また、より高度な、より危険なケースを医師に知らせることにも役立ちます。
非常に精度の高い法的文書のレビューを特定のユースケースに対して行うことができます。あるいは、ハリウッドの俳優のように、非常に特定のものをレビューする必要がある場合、それだけを行う非常にシンプルで安価なモデルを作ることができ、おそらくそのことだけを、しかし極めて高い精度で行うことができます。
特定の製品やサービスだけを対象とした、ターゲットを絞ったカスタマーサポートチャットボットを作ることができます。その特定の分野で信じられないほどの知識を持つものを作ることができます。
例えば、サプリメント会社の場合を考えてみましょう。DNAや突然変異についてより多くのことを学ぶにつれて、あるサプリメントや特定の状態が、ある人には全く問題なく、別の人には問題を引き起こす可能性があります。どのサプリメントを摂取すべきかについて、人間よりもはるかに優れたアドバイスができるチャットボットを持つことができます。
これらは全て、非常に高速で、非常に安価で、継続的に学習し改善することができます。繰り返しになりますが、この背後にいる人々に大きな感謝を捧げます。これは非常に興味深いことです。これがどこまで適用できるのか、見るのが待ちきれません。
もし私たちが、任意の認知タスクに対してこれらの極小で安価なモデルを構築できるなら、LMsに対する強化学習のカンブリア爆発が始まります。カンブリア爆発とは、もちろん数億年前の急速な進化の爆発的な時期を指します。
そして確かに、オープンソースコミュニティと、Andre Karpathyが提案するように、誰もが自分の強化学習ジムに貢献し、これらのニューラルネットの力を考えると、私たちは何か非常に特別なものの閾値にいるように思えます。
ここまで見てくれてありがとうございます。私の名前はWes Ralで、また次回お会いしましょう。

コメント

タイトルとURLをコピーしました