FlowRL

新しい強化学習手法：FlowRL（GFlowNets）

この動画では、従来の強化学習手法であるPPOやGRPOが抱えるモード崩壊の問題を解決する新しいアプローチ「Flow強化学習」について詳しく解説している。FlowRLは生成フローネットワーク（GFlowNets）の数学的枠組みを借用し、単一の...