DeepSeek R1が30ドルで複製される | バークレーの驚異的な進歩が革命を引き起こす

AGIに仕事を奪われたい
この記事は約17分で読めます。

9,691 文字

DeepSeek R1 ha sido REPLICADO por | El IMPRESIONANTE Avance de Berkley Desata una REVOLUCIÓN
Únete a mi newsletter aquí! este informe especial, exploramos el sorprendente avance de la Universidad de Berkeley, que ...

DeepSeekのニュースは株式市場に激震を与え、わずか一日で1兆ドル以上の損失を出しました。そして今、バークレーの研究者たちはDeepSeek R1の中核技術をわずか30ドルで複製することに成功しました。これは前例のない世界的な金融危機を引き起こすのでしょうか?おそらくそうではありませんが、依然として信じられないほど興味深い展開です。よく言われるように、これは強化学習における小さな革命なのです。
バークレーの人工知能研究チームは、J・パン博士率いるチームが、多くの人々が不可能だと考えていたことを成し遂げました。DeepSeek R1の主要技術を、2人分のディナー代よりも安価に再現したのです。彼らのTwitterの投稿には、GitHubへのリンクが含まれており、全ての実験が認められ、誰もがそれをコピーし、ダウンロードし、発見を再現し、自分で試すことができます。
指摘されているように、あの「アハ・モーメント」を30ドル未満で体験できます。このアハ・モーメントとは、以前のビデオで分析したR10の記事で言及されていたものです。
これは本当に興味深く驚くべきことです。なぜなら、強化学習を使用してこれらのモデルがほぼ自力で学習できることを示しているからです。研究で説明されているように、これは自己主導型の進化であり、モデルは時間とともに新たなスキルを発見し、それには高度な推論能力や明示的に教えられていない戦略が含まれます。
確かに、これは名高い研究所が何百万ドルもの投資を投じて組み立てた大規模なモデルですが、これは何を意味するのでしょうか?30ドル未満で学習における驚くべき自己改善能力を再現できるということでしょうか?これは一見して思われるよりもはるかに大きな影響を持つかもしれません。
まだ確実なことは言えませんが、この話題について掘り下げていきましょう。というのも、私にはある予感があるからです。AIがあなたの仕事を奪うことはありませんが、AIを使いこなせる人はそうかもしれません。だからこそ私は「La Señal」というニュースレターを作りました。そこではAIの使い方、新しいニュース、新しいツール、そしてもっと多くのことを説明しています。さらに、プライベートコミュニティに参加すると、数十の文書、本、チュートリアル、そして本当に役立つ多くのものにアクセスできます。
競合他社に先んじて、La Señal Proに参加しましょう。
さて、続けましょう。この抜粋はXYZ Labsからのものです。これはSubstack、より正確には現在Xと呼ばれているTwitterで公開された内容をまとめた記事です。著者たちのオリジナルのGitHubやX.comでの投稿へのリンクを含めていないという批判を受けているので、全てを明確にリンクするようにします。実際の作業を行ったのはそこに表示されている人物で、この記事は単なる要約です。
そして今度は私が少し演劇的に読み上げる番です。深く考えすぎないでください。私たちはすぐにロボットに置き換えられるでしょう。小規模な言語モデルにおける洗練された推論能力の実装の成功は、AI研究の重要な民主化を示しています。その影響は、含意次第では潜在的にはるかに大きなものとなる可能性があります。
ここで主要な成果を見ていきましょう。まず第一に、成功的な複製が達成されました。R1の一部の機能を再現することができました。ただし、注目すべきは完全なモデルは複製していないということです。後で分かるように、それは必要ないかもしれません。そして、それを30ドル未満で実現しました。これはおそらく計算コストを指しています。
このコストは急速に低下しており、1年、2年、3年後には同じ処理量でもはるかに低くなるでしょう。さらに、アルゴリズムの改良も考慮に入れると、より一層のコスト削減が見込まれます。
Dario Ameiの投稿で特に興味深い点の1つは、このようなシステムを実行するコストがいかに急速に低下しているかを強調していることです。この削減はハードウェアの改善だけでなく、アルゴリズムの進歩によるものでもあり、同じ計算能力からより多くの成果を引き出すことができるようになっています。
アルゴリズムの改善のみに焦点を当て、NVIDIAチップやその他のコンポーネントの革新を考慮に入れず、ソフトウェア、そのアーキテクチャ、実行方法のみを考えた場合、2020年に彼のチームは論文で年間約1.68倍の改善を示唆していました。現在では、彼によると、その数字は年間約4倍になっています。
30ドルは大きな金額ではありませんが、このコストは時間とともに減少し、最終的にはほんの数セントという些細な額になるでしょう。これにより、小規模なものではなく、複雑な推論を生成することが可能になります。
100億パラメータのモデルは実際には非常に小さいものです。通常、小規模モデルと言えば約70億パラメータを指し、中規模モデルは700億パラメータ、大規模モデルでは4,500億や4,050億パラメータ(Metaのllamaの場合)があり、GPT-4は約1.7兆パラメータとされています。したがって、100億パラメータのモデルは私たちが通常「小規模」と考えるものよりも小さく、実質的には極小モデルです。それにもかかわらず、複雑な推論を展開し、はるかに堅牢なシステムに匹敵する性能を提供しています。
要するに、彼らの目標はR10を複製することです。そこで、Countdownゲームをテストフィールドとして使用しています。例えば、1、936、55、7という数字を使用して、65という結果を得る方程式を作成することが提案されています。これらの数字を基本的な算術演算で組み合わせて、目的の結果を得るというアイデアです。以下に、ステップバイステップの推論と最終的な解決策を示します。
研究著者が指摘するように、重要な制限の一つは、検証がCountdownタスクのみで行われ、一般的な推論領域には拡張されていないということです。現在、私たちは計算能力によって制限されています。この研究者に必要なリソースを提供することが重要です。なぜなら、主要な問題は、これらの発見がどの程度一般化可能で、他のどのような問題に適用できるかを判断することだからです。
この進歩は、モデルがランダムな推測から洗練された検索技術と自己検証に進化できることを示しており、小規模なモデルでも複雑な推論能力を発達させることができることを示唆しています。主な問題は、これらの発見がより広い推論領域や他の問題にどの程度適用できるかを判断することです。
モデルに提示された追加の認知タスクの例として、数値の乗算があります。この場合、モデルは分配法則を使用して問題を分解し、ステップバイステップで解決することを学びました。R10の注目すべき点は、問題解決を明示的に教えられたわけではないということです。適切な強化学習環境が作成され、モデルは自らそれを発見しました。
論文はまだ公開されていませんが、この自己進化は大規模で高価なモデルだけでなく、より小規模で経済的なモデルでも発生する可能性があることを示唆しています。特にNVIDIAなどの企業がチップの改良を続ければ、そのコストは時間とともにさらに低下するでしょう。
5億パラメータの基本的な推測しかできなかったモデルから100億パラメータのモデルまでスケールアップすると、注目すべき問題解決能力が明らかになることは興味深い観察です。これは、想定されていたよりも小規模なモデルで創発的能力が現れる可能性があることを示しています。
また、使用される強化学習アルゴリズムが予想よりも重要ではないことが発見されています。最近の研究は、特定の創発的特性がモデルのサイズに厳密に結びついているわけではなく、単純化されたデータで訓練された小規模なモデルでも実証できることを示唆しています。
最も魅力的な発見の1つは、モデルが異なるタスクに対して特定の問題解決戦略を開発する方法です。例えば、Countdownゲームでは、検索技術と問題の自己検証を習得します。最近の研究は、言語モデルが複雑なタスクを扱いやすいサブタスクに分解するなど、人間に似た推論を採用できることを示しています。これは問題解決に対する専門的なアプローチを反映しています。
DeepSeek R10に馴染みのない人のために説明すると、これは強化学習を使用して推論能力を向上させるために開発されたモデルです。このアプローチを通じて、モデルは人間の介入にあまり依存せずに、自己評価のプロセスを通じて自身で学習し、改善することができます。この方法により、モデルは注目すべき創発的な推論行動を発達させることができました。
この自己進化のプロセスは、強化学習がモデルの推論能力を自律的に向上させる方法の魅力的な実証です。ベースモデルから直接強化学習を適用することで、監督付き微調整段階の影響を受けることなく、モデルの進化を綿密にモニタリングすることができます。このアプローチにより、特に複雑な推論タスクを扱う能力に関して、モデルが時間とともにどのように進化するかについて明確な洞察が得られます。
このモデルは自然に、より複雑な推論タスクを解決する能力を獲得し、長時間の試行期間中に計算を活用します。基本的に、より長く考え、より長い出力を生成して何が真実で何が真実でないかを見出すことができることに気付き、これにより精度と問題解決能力が向上します。
さらに、モデルが以前のステップを見直し、代替のアプローチを見つけるために再評価する反省など、洗練された行動の出現が観察されます。これらの自発的な発展は、自身の推論能力を大幅に向上させます。
これが「アハ・モーメント」と呼ばれるものです。興味深いことに、これらの研究にはある種の、いわば定型句になるフレーズがあります。それらはミームになり、何か広く伝播するものになります。「Attention Is All You Need(注意機構が全て)」という論文は、その道を切り開き、今では多くの人が「これが全て」とか「それが全て」というような言い方をするようになり、それが一般的になりました。
「アハ・モーメント」は、私の知る限り、この概念を初めて耳にしたのはこの論文からだと思います。そして、これは人々が特定の何かを指すために使い始めるものになりそうです。この「アハ・モーメント」は、基本的にモデルが自力で何かを解決する時のことです。この場合、自己反省を通じてある問題により多くの思考時間を割り当てる必要があることに気付いただけです。
何を発見したかは、それほど重要ではないと思います。重要なのは、私たちがどうすべきかを指示しようとせずに、モデルが自力でそれを行ったということです。これは、強化学習が予期しない洗練された結果をもたらす可能性があることを示しており、これらのモデルが問題を解決するための高度な戦略を自律的に開発できることを示しています。
このチャンネルの長年の視聴者の方々、ありがとうございます。レオポルド・アッシェンブレンナーの状況認識について話したことがあると思います。彼の研究では多くのことを予測しており、そのいくつかは今まさに現実となっています。特に、アメリカ合衆国などの国家とこれらのAI研究所との関係について、彼は本当に多くの予測を的中させたと思います。
彼のもう一つの予測は、インテリジェンスの爆発についてでした。2026年か2027年頃に起こると予測していますが、これはダリオ・アマデイの言うことと似ています。ダリオは、その時期までにこれらのモデルがほとんどのタスクで人間を上回るようになると主張しています。そして当然、人間が行うタスクの1つにAI研究があります。では、AIが人間よりもAIを改善することが得意になった時、何が起こるのでしょうか?
当時これが公開された時、多くの人々がこれを批判し、ナンセンスだ、SFだ、起こりえないと言いました。「では、オンラインで利用可能な全てのデータでAIを訓練した後はどうするの?どこからデータを得るの?」多くの人が指摘する2つの大きなボトルネックは、第一にエネルギー、第二にデータです。
データに関しては、もちろん大量の合成データが生成されているのを目にしています。モデルが推論や思考を生成する過程で、次世代のモデルを改善するために使用できます。これはOpenAIが行っていると考えられることです。彼らはO1を持ち、それがO3につながりました(O2は他社の登録商標でした)。最近インタビューに応じた上級リーダーの一人によると、彼らは次の段階を構築中で、次のモデル、V4あるいは何と呼ぶにせよ、O4などはすでに訓練中とのことです。
もちろん、エネルギーは全てを制限するもう一つの要因ですが、DeepSeekの前に起こったことは、これらのモデルを作成するために必要な計算コストをほぼ50%削減したことです。
では、私たちはアッシェンブレンナーの世界に住むことになるのか、それともヘルダーの世界に住むことになるのか?私にはわかりません。それは皆さんの判断に委ねましょう。しかし、自動化されたAI研究というアイデアは私には馬鹿げたものには思えません。なぜなら、DeepSeekは中国企業であることを忘れないでください。それは非常に異なる文化です。シリコンバレーの一部ではなく、ベンチャーキャピタリストから資金を調達しようとしているわけでもありません。彼らは非常に異なる社会的ダイナミクスを持ち、また非常に異なる政府および国家のダイナミクスを持っています。
しかし、彼らもまたここで何かが現れつつあることを目にしているようです。アメリカ側で私たちが持っている考え方に似た何かです。彼らは強化学習について、そしてこの「アハ・モーメント」の考え、自己進化について語っています。これらは人工システムに新しいレベルのインテリジェンスを解き放つ可能性があり、将来的により自律的で適応的なモデルへの道を開くものです。
これは、イーライアス・エヴァーが数年前に言及したことです。これらのトランスフォーマー、これらのニューラルネットワークは、ただ学習したいだけだと述べています。
現時点でのAIの進歩は、収益逓減の上り坂の戦いのように感じますか?つまり、前進する各ステップがますます困難になっているように?実際には、そうは思いません。むしろ全く逆だと思います。アメリカ側からであれ、世界の他の場所からであれ、各開発にはこの雪だるま効果があります。確かにこの中国企業が提案した進歩は巨大なものです。
人々は彼らがアメリカ企業をコピーした、アメリカ企業の進歩を蒸留したと言います。もし賭けるとすれば、私も彼らはそうしたと賭けるでしょう。しかし、アメリカの全ての企業も互いに同じことをしたと100%確信しています。おそらくGPT-4から始まり、このAIの波の多くは、GoogleがTransformerアーキテクチャに関する論文「Attention Is All You Need」を公開した時に引き起こされました。
これが科学のあるべき姿ですよね?私たち全員が何かを外に出し、それらをコピーし、その上に構築していくのです。DeepSeekが提案したこれらの新しい進歩、これらのニューラルネットワークをより効率的に構築する方法は、OpenAI、Meta、その他全ての企業がすぐに使用するだろうと確信しています。これが進歩の仕方です。これが科学の仕方です。
しかし、この研究が示していること、そしてまだその影響を見ることになるでしょうが、それは巨大なものになる可能性があります。第一に、その自己進化、その「アハ・モーメント」、そして注目すべきは、ここで「30ドル未満で自分でアハ・モーメントを体験できる」と言っているのは、単にR10の記事を参照しているだけです。私はそれが今や現実のものになっていると保証できます。
しかし、ここでの驚くべき発見は、モデルがいかに小さいかということです。つまり、これらの洗練された推論能力の開発を始めるために必要なニューラルネットワークの「脳」のサイズの閾値が、私たちが予想していたよりもはるかに小さいのです。この自己進化、私たちが明示的に方法を指示することなく自力で問題を解決する能力、この暗黙的な学習、暗黙的な理解が、大多数の人々が予想していたよりもはるかに早く、そしてはるかに小さなモデルで始まるということです。
それを言うのは公平だと思います。非常に素早く、GoogleのDeepMindは彼らのアルファシステムを持っていたことを理解することが重要です。彼らはアルファという接頭辞を持つ注目すべきプロジェクトのシリーズを持っています。例えば、プロのGOプレイヤーを打ち負かしたAlphaGoです。
次にAlphaGo Zeroがありますが、聞いたことがありますか?これはAlphaGoの進化版です。AlphaGo Zeroは人間のデータなしでGoを学習し、自律的なプレイだけで人間を超える性能を達成しました。
次にAlphaZeroがあり、これは同じ原則に従いますが、チェス、将棋、Go、何でも対応します。次にAlphaFoldがあり、これは高度に複雑な3Dタンパク質構造を解決します。アミノ酸を取得し、アミノ酸鎖がタンパク質にどのように折りたたまれるかを数秒で予測します。
タンパク質が折りたたまれると、生命が可能になるために必要なスキルを獲得します。折りたたみ可能な変異の数は既知の宇宙の原子の数よりも大きく、つまり天文学的な数字を超えています。AlphaFoldはそれらの構成を予測します。
次にプログラミングのためのAlphaCode、AlphaTensor、AlphaGeometry、AlphaProofがあります。この最後の2つはほぼ国際数学オリンピード(IMO)で金メダルを獲得しました。その性能は金メダリストに匹敵し、実際に金メダルに近づきました。
なぜ全てアルファと呼ばれているのでしょうか?彼らはこれらのモデルを構築するために似たようなレシピを使用しており、その多くは強化学習です。強化学習とは、私たちが見たい行動、良い行動に報酬を与え、また望ましくない行動にペナルティを与えることができるものです。
これらのアイデアの多くは、特定のことに適用されています。例えば、その考えをコードに適用できるかどうかを見たり、チェス、スタークラフト2、Goなどでプレイするために使用したのと同じアイデアを使用してタンパク質の折りたたみを行うようにAIに発見させることができるかどうかを見たりしています。
今、私たちは新しい段階に入っています。同じアイデア、つまり強化学習を通じてAIが自己改善する方法を訓練し、それを大規模言語モデルについて私たちがすでに知っていることに追加しているのです。そしてここで魔法が起きているように見えます。
彼が言っているのは、機械学習とAIでより良いことを行うことが目標であるオープンソースにとって最も重要なことは、言語モデル(LM)の認知戦略を生成するのに役立つ、多様な強化学習環境を構築することだということです。これらのモデルのための「ジム」のようなものを作るのです。
これは、自分の世界の特定の領域に適した強化学習戦略を発見する全ての人々にとって、巨大な影響を持つ可能性があります。これらの大規模言語モデルに実行してほしい特定のタスクのために。世界中の多くの人々がこれを行い、オープンソースコミュニティに貢献しています。これは本当に大規模なものになる可能性があります。
彼はまた最近、私たちが議論していることを理解するための素晴らしい方法を公開しました。例えば、新しいことを学び始めるために本や教科書を開くと、その本の中には3つの主要な種類の情報があると言います。
1つは背景情報、説明、レッスンです。これはこれらのニューラルネットワーク、これらのAIモデルの事前訓練に似ています。モデルがインターネットを読み、背景知識を蓄積する時です。あなたが本を読む時、あなたの脳がこのトピックについて学ぶための事前訓練を行っているのと同じように。
次に、解答付きの問題があります。これは監督付き微調整で、モデルが人間によって書かれた理想的な助手の応答に調整される時です。あなたの本では、例えば問題があり、その解き方があるかもしれません。
ちなみに、R10モデルの場合、これは彼らがスキップした部分で、代わりにニューラルネットワーク、R10モデルが全てを自力で学習することを試みました。
そして、練習問題があります。これは通常、解答は付いていないが最終的な答えは付いている、学生のための問題のようなものです。通常、各章の最後には、あなたが練習できるように多くのこれらがあります。これは強化学習に相当します。
では、これら全ては何を意味するのでしょうか?まず何よりも、大規模言語モデルとこの強化学習(RL)アプローチ、Andreが表現したようにモデルのための「ジム」としてのアプローチは、極めて強力であるように見えます。超知能について話している多くの人々は、おそらくこのアプローチが私たちをそこに導くと信じているからそうしているのです。
オープンソースエコシステムへの信じられないような貢献があり、Andre Karpathyはさらにニューラルネットワークのためのこれらの強化学習ジムを構築することで、人々がそれをさらに一歩前進させる方法さえ提案しています。これは全て今まさに起こっていることであり、私たちが大きな進歩を目にしている理由の一部です。
しかし、次に30ドルでのR1の複製に関する記事が登場します。まず、R1モデル全体を複製しているわけではなく、専門化されたタスクのみであることを理解することが重要です。それはむしろAlphaGo Zeroに似ています。Goをプレイしますが、全てを行うわけではありません。しかし、Goゲームでは超人的です。
これが確認されれば、非常に特定のタスクで優れた、さらには超人的な小規模なモデルを訓練できることがわかります。そして、大規模モデルの訓練とは異なり、これは極めて経済的に行うことができます。
モデルは非常に小さいため、そしてこれは私の推測ですが、特定のタスクのために極めて安価で強力なモデルを訓練することが可能かもしれません。具体的なプロジェクトやビジネス自動化のために、わずか数ドルで超人的なAIモデルを作成できることを想像してください。
これが意味するのは、非常に特定の使用事例がある場合、その事例のためだけに信じられないほど安価で非常に強力なモデルを作成できる可能性があるということです。例えば、医療トリアージが必要な場合、安価なモデルが誰かが救急治療を必要とするかどうかを判断する手助けをし、迅速で正確なスクリーニングツールとして機能し、医師の負担を軽減し、より深刻なケースを医師が確認できるよう支援することができます。
また、非常に正確に法的文書のレビューを支援したり、高度に特化したカスタマーサービスチャットボットを含めたりすることもできます。例えば、あなたがサプリメント会社で、DNAと突然変異に基づいてどのサプリメントを摂取すべきかについてアドバイスを提供できる、非常に特化したチャットボットが必要な場合を想像してください。人間よりもはるかに優れたアドバイスを提供し、全てが極めて迅速で、非常に安価で、継続的に学習し改善し続けることができます。

コメント

タイトルとURLをコピーしました