DeepSeekが自己学習AIを開発し、OpenAIを再び打ち負かす…そして実際に機能する!

AGIに仕事を奪われたい
この記事は約10分で読めます。

5,870 文字

DeepSeek Created a Self Teaching AI Beating OpenAI (AGAIN)... and It Actually Works!
Join our free AI content course here 👉 has introduced a powerful new AI system called DeepSeek-GRM that...

現在、AI業界では驚くべきことが起きています。それは単なる誇大宣伝ではありません。DeepSeekが、AIモデルが自ら考え方を改善するための新しい方法を発表し、それがGPT-4oのような巨人を凌駕し始めています。一方、OpenAIは新しいモデルを開発中で、ChatGPTにメモリアップグレードを施しました。今ではあなたがこれまで伝えたことをすべて記憶できるようになりました。事態は急速に進展しており、日々成長するAIと会話しているようです。
始める前に、簡単なお知らせです。私たちはAIアバターに関する無料コースを公開しました。AIアバターとは何か、コンテンツ制作を加速するための使い方、適切なツールの選び方、さらには収益化の方法までカバーしています。枠に限りがありますので、説明欄のリンクからご登録ください。
さて、DeepSeekの新しいAIシステムについて話しましょう。彼らはこれをDeepSeek GRMと呼んでいます。彼らによれば、AIモデルがSPCT(自己原則批評調整)で訓練されると、単一の回答、ペアになった回答、または複数の回答を容易に処理できるようになります。例えば、モデルにいくつかの可能な回答を与えると、モデルは自らの原則を示す短いテキストを生成します。これは基本的に、良い回答がどのようなものかを判断するために学習したルールです。そして各回答を詳細に批評した後、1から10までのスコアを割り当てます。
回答が正確さ、明瞭さ、安全性、またはモデルが重要だと判断したその他の基準を満たしていれば、高いスコアが与えられます。回答に疑わしい点があれば、低いスコアになります。しかし、このシステムの特徴は「推論時の反復サンプリング」と呼ばれることができる点です。モデルの内部判断プロセスを複数回サンプリングし、結果を平均化するか投票することができます。これは少し時間がかかるかもしれませんが、可能な批評の広い分布を得ることができるため、より正確な最終判断につながります。
さらなるステップとして、彼らはメタ報酬モデル(MetaRM)と呼ばれる一種のゲートキーパーを導入しました。これはシステムが生成する可能性のある質の低い批評をフィルタリングします。つまり、一つの批評だけを信頼する必要はなく、複数の批評を集め、ナンセンスなものをフィルタリングして、より良い最終決定に至ることができるのです。
ここで一歩下がって、DeepSeek GRMの訓練方法について探ってみましょう。このプロセスは自己原則批評調整(SPCT)と呼ばれ、2つのフェーズで行われます。最初は拒否的微調整(RFT)で、モデルに良い批評がどのようなものかという基本的な感覚を与えることを目的としています。
このフェーズでは、107万件の一般的な指示データと18万6千件の拒否的にサンプリングされたデータを使用します。拒否的サンプリングの背後にある考え方は、モデルの予測スコアが既知の最良の回答と一致しない場合、それらの生成されたサンプルは破棄されるというものです。すべてが何らかの形で最初から正しい場合は、挑戦的な例に焦点を当てたいので、それも破棄します。
また、正しい回答に1、間違った回答に0とラベル付けした単一回答データもいくつか投入します。これがベースラインのトレーニングセットです。彼らによれば、Gemma 2 27Bと呼ばれる270億パラメータのモデルには、バッチサイズ1,024、学習率5e-6を使用し、128台のA100 GPUで約900ステップのトレーニングを行いました。これに約19.2時間かかりました。
RFTの後、彼らはGRPOと呼ばれるものを使用したルールベースのオンライン強化学習という第二フェーズを行います。POと同様に、モデルの予測した最良の回答を実際の最良の回答と比較し、一致すれば+1の報酬を、一致しなければ-1の報酬を与えます。また、モデルが軌道から大きく外れないようにするために、0.08のKLペナルティも組み込んでいます。
このフェーズでは、23.7万のデータポイントを使用し、バッチサイズ512で900ステップ実行します。これも128台のA100で約15.6時間かかります。DeepSeekはこの生成的報酬モデルのさまざまなサイズもテストしています。専門家の混合基盤に構築された160億バージョンから、Gemma 2 27Bに構築された270億バージョン、さらには専門家のアーキテクチャの混合を採用した巨大な2360億および6710億バージョンまであります。
彼らは、結果を示すデフォルトのサイズが270億であると繰り返し指摘しています。おそらくパフォーマンスとコストの最適なバランスを提供するからです。ただし、推論時に十分な反復サンプリングを試みれば、270億モデルのパフォーマンスを6710億の巨大モデルの単一パスパフォーマンスにかなり近づけることができると言っています。
これは大きな進展です。なぜなら、6710億モデルへのスケールアップは明らかにより高価でハードウェア集約的ですが、270億モデルを32回サンプリングする方が特定のユースケースでは実現可能かもしれないからです。これは基本的に、実世界のパイプラインでこれを行いたい場合、トップレベルの結果を得るために必ずしも最大のモデルにジャンプする必要はないという声明です。
本当のハイライトは、このアプローチがベンチマークでどのようなパフォーマンスを発揮するかです。彼らは、チャットの安全性や推論を調査するReward Benchのような複数のセットでテストしました。また、好みと正確さのパートを持つPPE、役立ちと無害さのタスク用のRMBBなどもあります。さらに、単一回答のエラー検出用のRM Mistakeもあります。
Reward Benchでは、DeepSeek GRMの270億バージョンは単一のgreedy passで約86.0%を獲得します。これは既にかなり高いです。そして、8サンプル投票のようなことをすれば、それは約88.5%にジャンプします。MetaRMフィルタリングと組み合わせると、その特定のドメインで90.4%にまで達することができます。
他のテストでも小さいながらも注目すべき向上が見られます。PPE Preferenceは64.7%から65.3%または67.2%に、PPE Correctnessは59.8%から63.2%に向上するなどです。彼らによれば、全体的に1回のパスだけを行うと平均で約69.12%になりますが、32サンプル投票とMetaRMを行うと72.8%に押し上げられるそうです。
注目すべきは、これらの結果がNeatron 4340B Reward(70.5%)などの他の大規模な公開報酬モデルを上回り、特定の比較ではGPT-4o(71.3%)に近づくか超えることさえあるということです。
もちろん、このシステムは完璧ではありません。特に参照が提供されていない場合、数学やコーディングのような正しい答えが一つしか存在しないタスクでつまずくことがあります。しかし、正解を提供すれば、数学で90%以上を獲得し、専門モデルにほぼ匹敵します。
単一のスコアではなく詳細な批評を生成することは、特に精度を高めるために複数回サンプリングする場合、より遅く、より多くの計算コストがかかる可能性があります。また、KLペナルティとのデリケートなバランスもあります。低すぎると、モデルは誤動作する可能性があります。アブレーション研究は、原則生成と拒否的サンプリングが重要であることを確認しています。それらを取り除くとパフォーマンスが損なわれます。
それでも、生成的アプローチはチャットのヘルプから安全性チェックまで柔軟です。より高い精度が必要な場合は、繰り返しサンプリングを行い、MetaRMにダメなものをフィルタリングさせることができます。すべて、より大きなモデルを再トレーニングすることなく。
また、DeepSeekの次のチャットボットについて噂が飛び交っています。おそらくR2と呼ばれるそうです。最初のR1は今年の初めに既に大きな話題となりましたので、R2がDeepSeek GRMをすぐに活用するのか、あるいはさらに高度なことを行うのかについて、皆が興味を持っています。
同社はR2のリリース日や新しい論文で説明されているすべての機能を組み込むかどうかについて公式声明を出していませんが、コミュニティではさまざまな憶測があります。それに加えて、DeepSeekはこれらの高度なAIモデルをオープンソース化することについて話していますが、やはり具体的なタイムラインは発表されていません。しかし、より多くのオープンな大規模AIソリューションを求めている世界では、これは大きなニュースです。
これらがどのように組み合わさっているのかというと、SPCTは基本的にDeepSeekの自己改善モデルのバックボーンです。モデルを単にスケールアップするのではなく、自らのルールを作成し、回答を批評し、自己フィードバックを与えるように教えます。モデルの回答が良い回答だと考えるものと一致すれば、その行動を強化します。それは、学生が自分の答えを説明し、フィードバックを通じてより良く学ぶようなものです。ただし、はるかに速く、自動化されています。
このアプローチを非常に柔軟にしているのは、全体を再構築することなく、異なるタスクにわたって機能することです。目標が正確さであれば、参照を与えます。安全性や礼儀正しさについてであれば、それらの価値観でトレーニングします。いくつかの回答から最良のものを選ぶか、単一の回答を判断するかに関わらず、同じアーキテクチャですべてを処理します。
本当に驚くべきことは、DeepSeek GRMの270億バージョンが、十分なサンプリングとMetaRMフィルタリングを行えば、一部のベンチマークではGPT-4oやNeatron 4340Bのような巨人に匹敵するか、あるいは上回ることさえあるということです。これは特に、清華大学によってバックアップされている新しいプレーヤーから来ているということで、彼らの仕事に多くの信頼性を加えています。また、中国が競争力のあるAIをローカルで構築するための成長する推進力にも言及しています。
結局のところ、このセットアップ全体はより賢く、より適応力のあるモデルに関するものです。単に大きくするのではなく、DeepSeekはモデルがその場で自分自身を批評し、改善するようにトレーニングします。結果は強く、批評は開発者にとって実際に有用であり、柔軟性は大きな勝利です。特にサンプリングを行う場合、それは常に最速の方法ではありませんが、より深いレベルの洞察と制御を提供します。
そして、DeepSeekが自己改善モデルで波を起こしている一方で、OpenAIも独自の大きな動きを準備しています。彼らはまもなく多くの新しいAIモデルをリリースする準備をしており、そのリストのトップにはGPT-4.1があります。これはGPT-4oの洗練されたバージョンで、テキスト、画像、音声をリアルタイムで一緒に処理するフラッグシップのマルチモーダルモデルです。
GPT-4.1はそのコアを取り、さらに洗練して、全体的により良いパフォーマンスを提供することが期待されています。また、OpenAIはGPT-4.1のミニとナノバージョンを発売する計画もあるという話を耳にしています。これらはおそらく速度と軽量デバイス向けに最適化されているでしょう。さらに、O3モデルとO4 Miniも準備しており、O4 Miniは早ければ来週にも登場するかもしれません。AIエンジニアは実際にChatGPTのWebコードにこれらの参照を発見したので、これはおそらく単なる噂ではなく、まもなく実現するでしょう。
そして、本当の目玉は、サム・アルトマンがChatGPTのメモリ機能が大幅に改善されたと発表したことです。今では過去のチャットをすべて記憶できるようになりました。単なるコンテキストではなく、すべてです。これは、ChatGPTとの会話が過去の会話に基づいて構築できることを意味し、応答がより個人的で有用で、正直なところ、よりヒューマンライクに感じられるようになります。
以前、このメモリ機能は少し制限されており、すでに昨年9月に無料、プラス、チーム、エンタープライズプランのユーザーに展開されていましたが、今はレベルアップしました。ChatGPTは過去のチャットを参照して、アドバイスを提供し、文章を書き、学習を手助けすることができます。すべて、実際にあなたに合わせた方法で。
サムは「これは驚くほど素晴らしい機能だ」と述べ、これは時間の経過とともに成長し、使えば使うほどあなたをより良く知るような個人アシスタントになるAIシステムへの一歩だとほのめかしました。
現在、これはChatGPT Proユーザーに展開されており、まもなくPlusユーザーにも提供される予定です。エンタープライズ、教育、チームユーザーは今後数週間で利用できるようになります。ただし、イギリス、スイス、ノルウェー、アイスランド、リヒテンシュタインにいる場合は、少なくとも今のところ利用できません。無料ユーザーについてはまだ更新情報がありません。
ただし、これは完全にあなたのコントロール下にあります。ChatGPTが何かを記憶することに納得できない場合は、いつでも設定でオプトアウトできます。会話からメモリを使用または保存しない一時的なチャットモードもあります。また、いつでも記憶しているものを表示、管理、クリアすることができます。つまり、あなたに何も強制していません。何を記憶するかはあなたが決めます。
これは素晴らしい進歩でしょうか、それともAIが私たちの言うことをすべて記憶することに少し慣れすぎているのでしょうか?また、AIが自ら判断し、批評し、進化できるようになれば、まだ私たちが制御しているのでしょうか?
AIアバターに関する無料コースが開始されています。リンクは説明欄にあります。まだであれば、いいねとチャンネル登録をお願いします。視聴いただきありがとうございます。次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました