AI研究 GRPOからSAMPOへ:エージェントRLにおけるトレーニング崩壊の解決
本動画は、AIエージェントの強化学習における新たなポリシー最適化手法「SAMPO」を紹介する技術解説である。従来のGRPOなどの手法では、マルチターン環境での学習が不安定になり、勾配爆発やトレーニング崩壊が発生する問題があった。カリフォルニ...
AI研究
AI研究
脳科学・意識・知性
Google・DeepMind・Alphabet
LLM・言語モデル
LLM・言語モデル
AI研究
RAG