強化学習の初心者ガイド

3,649 文字

Introduction to Reinforcement Learning (non technical)

Join My Newsletter for Regular AI Updates 👇🏼 Links 🔗👉🏻 Subscribe: 👉🏻 Twitter: https:/...

強化学習について話しましょう。これはOpenAIのO1やO3、Deep SeekのR1、Anthropicのそしてとりわけ「考える」Claude 3.7など、最先端のモデルから思考行動を引き出すために使用されているテクニックです。これらのモデルが実行する素晴らしい「考える」能力は、強化学習によって獲得されたものです。強化学習について知っておくべきことを全て説明しましょう。
まず基本的なことから。強化学習とは何でしょうか？これはAIエージェントが環境と相互作用し、その環境からフィードバックを受け取り、そのフィードバックが学習のメカニズムとなるものです。このフィードバックは「報酬」とも呼ばれます。報酬はエージェントが取った行動が良いか悪いかを伝えるもので、それはすべてエージェントの目標に関連しています。時間の経過とともに、このAIエージェントは自分の行動を通じて得られる報酬を最大化することを学習します。彼らは自分が取っている行動を本当に理解しているわけではなく、単にこの行動が最大の報酬をもたらすということだけを知っているのです。
では、報酬が間違っていたらどうなるでしょうか？この状況では、私たちが間違った報酬を選んでしまったり、正しいと思っていても実際には私たちが望むものと一致していなかったりする可能性があります。そうなると、エージェントは文字通り望ましくない行動を学習してしまいます。つまり、私たちが望むものと一致しない行動です。これは「誤特定された報酬」と呼ばれ、エージェントは単に私たちが設定した報酬を最適化しようとしているだけなので、それ以上のことは知りません。
その例を紹介しましょう。OpenAIの研究者たちがボートレースのゲームを設定しました。彼らはAIに最高のボートレーサーになることを教えようとしていました。本来の目標はレースをできるだけ早く終えることでした。しかし、ゲームのポイントシステムはレースを終えるまでの間、トラック上のボーナスターゲットに当たるとプレイヤーに報酬を与えていました。
しかしAIは興味深いことを発見しました。もし単に円を描くように走り回り、ボーナスオブジェクトに当たり続け、実際にレースを終えなければ、より多くのポイントを獲得できるということです。そうすることでより多くの報酬を得られましたが、それは私たちが望んでいたことではありませんでした。私たちはレースを終えることを望んでいたのです。
これは意図しない行動であり、「報酬ハッキング」としても知られています。基本的にAIは抜け穴や不正行為の方法を見つけたのですが、AIは何が不正かどうかを知りません。ただ報酬を得る方法を見つけようとして、ゲームの抜け穴を発見しただけなのです。
ここで報酬検証が重要になります。鍵となる質問は、「報酬が本当に望ましい結果を表しているかをどう確保するか」です。報酬検証により、私たちが与える報酬が成功の信頼できる指標であることを確認できます。
次に、思考モデルの世界で非常に重要な「検証可能な報酬」というトピックに進みます。これは思考モデルが「考える」能力にスケールできるようにする重要な側面です。検証可能な報酬とは、検証できる目標から来る報酬信号です。
簡単な例を挙げましょう。2+2=4です。AIが2+2=4と予測すれば、それが正しいとわかるので、検証できます。これが検証可能な報酬です。しかし、検証できない知識の領域は多くあります。創造的なもの、詩を書くこと、物語を書くこと、曲を作ることなどを考えてみてください。これらはすべて検証できません。もし「詩を書いて」と言ったら、AIがそれを正しくやったかどうかをどうやって伝えればいいのでしょうか。
もちろん人間の好みを持つことはできます。「はい、これはいいですね」「いいえ、これはダメですね」と言うことができますが、それはスケーラブルではなく、必ずしも検証可能でもありません。検証可能な報酬には、自動化や何らかの真実の基準を使用して正しいことを検証できるという要件があります。
もう一度ボートゲームに戻りましょう。それは技術的には検証可能な報酬ではなく、「代理報酬」と呼ばれるものです。代理はゲームのスコアです。非常に高いスコアを獲得すれば、ゲームでうまくいっていると仮定しなければなりません。検証可能な報酬では代理は必要ありません。質問や問題と回答や解決策の間に直接的なつながりがあります。
そして二項報酬または段階的報酬という概念があります。二項では、答えは正しいか間違っているか、成功か失敗かのどちらかです。しかし時には段階的にすることもでき、部分的に正しい場合もあります。部分的な評価が客観的に決定される限り、それでもうまく機能します。
実際、モデル作成者が決定しなければならないことの一つは、プロセス報酬を使用するか、結果報酬を使用するかです。結果報酬モデルでは、最終的な解決策に到達するために複数のステップがあるかもしれません。例えば、複数のステップが必要な非常に難しい数学の問題を与え、6段階のうち5段階は正しいが最後のステップで間違えたとします。結果報酬モデルでは、全体が間違っていることになり、途中で正しくできたことについては何も学べません。プロセス報酬モデルでは、6段階中5段階は正解で最終的な答えは間違っていても、最初の5段階が正しかったことを実際に学ぶことができ、ステップ6で別のことを試すかもしれません。
なぜ検証可能な報酬がそんなに重要なのでしょうか？検証可能な報酬は望ましい行動との整合性を確保します。非常にクリーンでスケーラブルな方法です。まず、真の目標に整合しています。代理報酬を使用するボートゲームとは異なり、検証可能な報酬を使用する場合、モデルが当然受けるべき場合にのみ評価を与えていることがわかります。この場合、エージェントは抜け穴を見つけることができません。目標を達成するかしないかのどちらかです。
検証可能な報酬は報酬ハッキングにも非常に耐性があります。結果が実際の真実と完全に一致する必要があるものを定義しているため、そのような報酬をハックするのは非常に困難です。
この種の検証可能な報酬はまた、人間の好みのような他の報酬スキームとは異なり、バイアスがなく客観的である傾向があります。モデルが何かを正しく理解したかどうかはプログラム的に決定されるため、人間のバイアスはまったくありません。このため、モデルは予測可能で信頼性のある行動を学習します。検証可能な報酬は解釈の余地を残さないため、エージェントの行動はより安全で信頼できる傾向があります。奇妙または意図しない行動や有害な戦略を生み出す可能性が低くなります。なぜならそれらは検証チェックに単に失敗するからです。
では実世界の例について話しましょう。実世界ではどこで強化学習を見るでしょうか？前述したように、検証可能な報酬は答えが何であるかの明確な定義がある場合に最もよく機能し、多くの実世界のタスクがこの特性を持っています。基本的にSTEM（科学、技術、工学、数学）の分野のことを考えてください。これらは一般的に1つの入力と1つの出力を持つ4つのカテゴリーです。数学の問題を解く場合、2+2は常に4であり、8+8は常に16です。あるいはコンピュータプログラムを書いている場合、探しているのは単一の出力であり、実際にプログラムを実行してこの出力と一致するかどうかを確認できます。
検証可能な報酬を伴う強化学習が活躍している主な場所は大規模言語モデルです。これらのGPTベースのモデルは元々膨大なデータでトレーニングされ、さらに微調整することができますが、今では検証可能な報酬を伴う強化学習を追加して、この「考える」行動を引き出しています。
良いベースモデルがあるとします。「掛け算表を解くのがとても上手になるよ。検証可能な報酬を伴う強化学習を与えるよ。掛け算表は常に検証可能な報酬があることを知っているからね」と言うことができます。しばらくすると、掛け算表の回答がどんどん良くなり、特に高度な論理的推論、ハードコアな数学、コーディングの課題などのより難しい質問があるときには、より長く考え始めるかもしれません。
この技術により、これらのモデルが思考し始めることが可能になっています。Deep Seek R1はOpenAIのO1およびO3モデルとは独立して、検証可能な報酬を伴う強化学習がこれらのモデルにどのように恩恵をもたらし、思考行動を引き出し始めることができるかを示しました。
以上が、検証可能な報酬を伴う強化学習の概要です。これは今日の人工知能において最も興味深いことの一つであり、このビデオを楽しんでいただければ幸いです。もしこのビデオが気に入ったなら、ぜひいいねとチャンネル登録をよろしくお願いします。次回のビデオでお会いしましょう。