トレーニング崩壊

GRPOからSAMPOへ:エージェントRLにおけるトレーニング崩壊の解決

本動画は、AIエージェントの強化学習における新たなポリシー最適化手法「SAMPO」を紹介する技術解説である。従来のGRPOなどの手法では、マルチターン環境での学習が不安定になり、勾配爆発やトレーニング崩壊が発生する問題があった。カリフォルニ...

2026.03.03

AI研究