Deepseekの自己学習「ブレークスルー」は驚異的(Deepseek R2ニュース)

AGIに仕事を奪われたい
この記事は約7分で読めます。

3,914 文字

Deepseeks Self Learning "Breakthrough" Is Incredible (Deepseek R2 News)
Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

Deepseekは自己改善するAIを作っているのでしょうか?これが最近ある新聞で出てきた最新の主張です。先週の金曜日、Deepseekが自己改善AIモデルに関する論文を発表したという話をしています。これには少し注意点があります。確かに真実の部分もありますが、これがどのように機能するのか、そしてこの主張の真相について掘り下げていきます。
この記事は「中国のDeepseekがAIの質問回答能力を向上させる方法を発見しました」と書き始めているのがわかります。これは、Twitterの世界を混乱させました。なぜなら多くの人がこれが一体何なのか、そしてDeepseekがAIの自己改善に関してどのようにゲームを変えているのかを疑問に思ったからです。
私たちはDeepseekがオープンリサーチ企業、つまりオープンソース企業であることを知っています。それは彼らが研究を公開することを意味します。ここに発表された研究がありますが、これは「汎用報酬モデリングのための推論時スケーリング」について述べています。
皆さん、詳細について退屈な話はしません。理解できるように説明しますが、私たちが見ている結果は、確かに推論時スケーリングによって時間の経過とともにモデルが改善されるということです。ここで見えるもの(実際それほど理解が難しくないのですが)は、モデルをサンプリングするたびに、その評価がどれだけ正確になるかを示しています。例えば、AIアシスタント(この場合は報酬モデル)にAIの応答がどれだけ良いかを評価させた場合、このグラフは時間とともにこれらの結果がどれだけ正確になるかを示しています。ここの数値はAIのパフォーマンスを示し、こちらの数値は試行回数を示しています。
これがいかに素晴らしいかを示す唯一のグラフではありません。他のモデルも示していて、GPT-4も表示されているのは興味深いですね。ただし、これがGPT-4のどのバージョンなのかはわかりません。GPT-4には現在複数の異なるバージョンが存在するからです。このモデルが推論時間でGPT-4を上回っているというのは少し注意が必要です。なぜなら、GPT-4は実際には推論時間モデルではないからです。おそらく彼らは単に全体的なパフォーマンスの面でモデルがどれだけ良くなるかを示しているのだと思います。
実際、これがどのように機能するのか説明しましょう。これはおそらく次のモデルであるDeepseek R2のベースとして使用されるでしょう。Deepseek R2は、AIの次のレベルを凌駕する可能性がある次のフロンティアモデルになると思われます。
これがどのように機能するかを簡単に説明すると、目標はAIを改善することです。例としてChatGPTを挙げましょう。AIを改善するためには、別のAIに回答の良さを判断させるように訓練します。この判断者は基本的に「報酬モデル」と呼ばれます。この論文は、非常に優れた多目的な判断者を作ることを目指しています。
現在のAI判断者には問題がいくつかあります。まず、十分に汎用的ではありません。数学の答えを判断するのは得意かもしれませんが、創造的な答えを判断する場合、またはその逆の場合、十分にうまく機能しません。また、これらのAI判断者はその場であまり改善されません。推論時間でより多くのコンピューターパワーを与えても、必ずしも判断が大幅に良くなるわけではありません。実際には、訓練後に最も改善されます。判断者にこれらの根本的な問題があるため、報酬モデルでモデルの応答を改善しようとする場合、より良い解決策を見つける必要があります。
そこでDeepseekのソリューションが登場します。これがGRM判断者です。この論文のソリューションはDeepseek GRMと呼ばれています。これは別の種類の判断者です。単に「10点中7点」のようなスコアを出力するのではなく、この判断者は推論を書き出し、特定の原則に基づいて回答が良いか悪いかを説明します。そしてその推論からスコアが抽出されます。
彼らがこの方法を選んだ理由は、これがより柔軟で詳細だからです。そして重要なことに、同じことを複数回判断するように依頼すると、わずかに異なる理由や原則を複数書き、わずかに異なるスコアにつながる可能性があります。彼らが実際に使用しているのは、SPCTでこの判断者を訓練することです。これは強化学習を使用するところです。ゲームをプレイするAIを訓練するようなものです。判断AIは原則や批評を生成する練習をし、その最終的な判断は正しい判断と一致するかどうかに基づいています。そして当然、報酬を得て、それをより多く行うことを学びます。
時間とともに、彼らはこのモデルからの良い行動を強化しています。彼らがこれを行っている理由は、これが判断AIに正確な判断につながる良い原則と批評を生成することを教え、時間の経過とともにより賢くなるからです。もちろん、その場でより良くするのは、推論スケーリングがある場所です。誰もが話している有名なパラダイムが再び台頭しています。
ここで彼らが行うのは、サンプリングと呼ばれる複数回の質問です。判断者から回答を得たい場合、彼らは訓練された判断者に複数回(8回または32回)質問します。次に投票を行い、複数の試行からすべてのスコアを収集し、それらを平均のようなものに組み合わせます。これはすべて推論時に行われます。
次に「スマートな組み合わせ」があります。ここでは、メタRMと呼ばれる別の小さなAIを訓練しました。その唯一の仕事は、主な判断者から書かれた各批評がどれだけ良いかを素早く評価することです。そして、メタRMが良いと思った批評からのスコアだけを組み合わせます。これは、複数回質問して結果を組み合わせることは、特にメタRMヘルパーを使用すると、一度だけ質問するよりも最終的な判断がはるかに信頼性が高くなるためです。これははるかに計算集約的ですが、より良い結果を得られます。
全体として、これはかなり興味深いですが、結果はどうでしょうか?結果は、このAI判断者が多くの異なるタスクにわたって非常にうまく機能するということです。複数回質問する戦略は、AIの精度を劇的に向上させます。そして、質問する回数や使用するコンピュートが多いほど、より良くなります。彼らの中サイズの判断AIは、判断者として使用された場合、一度だけ質問された場合、GPT-4のようなはるかに大きなAIよりも優れたパフォーマンスを発揮できました。
全体的に見て、最高の批評を選び出すためにその小さなAI、つまり小さなヘルパーであるメタRMを使用することは、単純な投票よりもさらに優れています。彼らは基本的に推論を説明する非常に賢いAI判断者を構築しました。非常に賢い方法で訓練し、決定的に重要なのは、この判断者は複数回考えさせると(より多くのコンピュートを使用することと同じ)より良くなるということです。これにより、中程度のサイズのAI判断者は、必要な場合にトップのパフォーマンスを達成できます。
全体として、これは再び非常に興味深いものです。なぜなら、Deepseekがイノベーションの最前線を押し進め続けていることを知っているからです。本当に興味深いのは、潮流が変わっていることです。もはや中国が西洋をコピーしているわけではなく、彼ら自身の前線で革新しているのです。
私が話したいのは、R2が来ているという事実です。Deepseekの新しいフロンティアモデルがまもなく登場することを私たちは知っています。そして、この最近の研究論文が、次のAIリリースの一部になるのか疑問に思っています。彼らが非常に懸命に働いているのを知っていますし、最近のフロンティアラボよりも前進していると主張する人もいます。
多くの人はMeta社のLlama 4とそのモデルのパフォーマンスに関して多くの問題があったことを知っています。Deepseekは新しいAIモデルの発表を急いでおり、全力を注いでいます。この記事は2025年2月のものなので、このモデルがいつリリースされるのか疑問に思っています。QuenのようなオープンソースAIや、潜在的にはGPT-5や03 Miniなど、まだ多くの他のAIが近々登場する予定です。AIの分野で関連性を維持することは非常に難しいので、Deepseekが勢いを維持することは非常に重要です。
彼らは、モデルのリリースは5月になる可能性があると述べています。これは彼らの計画だったからですが、今ではできるだけ早くリリースしたいと考えています。個人的には、今月末にDeepseek R2が登場しても驚かないでしょう。OpenAIをさらに引き離し、再び注目を集めるチャンスは一生に一度のチャンスです。これは潜在的に起こり得ると思いますが、もちろん様子を見守る必要があります。
業界の人々は、DeepseekのR2モデルの発表がAI業界の重要な転換点になる可能性があると言っています。Deepseekのさらなる進歩に関するこのニュースが、Metaやそのオープンソースの取り組みにどのような影響を与えるのか疑問に思います。昨日の動画を見た方なら知っているように、Llama 4のリリースには多くの論争がありました。多くの批評家がベンチマークを操作したと主張し、モデルは単に良くないと主張しています。R2がリリースされたとき、その発表がAI業界にどのような影響を与えるのか見てみると興味深いでしょう。

コメント

タイトルとURLをコピーしました