ポリシー最適化

AIエージェント

ハードコーディングされたAIエージェントからの脱却 DataBricksのKARLが切り拓く強化学習による知識エージェントの未来

本動画は、現代のAIエージェントが依存する「スキルファイル(skill.md)」の限界と、DataBricksが開発した強化学習ベースの知識エージェント「KARL」の革新性を解説するものである。AnthropicのClaudeエージェントが...
AI研究

GRPOからSAMPOへ:エージェントRLにおけるトレーニング崩壊の解決

本動画は、AIエージェントの強化学習における新たなポリシー最適化手法「SAMPO」を紹介する技術解説である。従来のGRPOなどの手法では、マルチターン環境での学習が不安定になり、勾配爆発やトレーニング崩壊が発生する問題があった。カリフォルニ...
AI研究

より賢いAI勾配 エージェントが思考を学ぶ仕組み

本動画は、AIエージェントがより賢く学習するための新しい勾配最適化手法について解説している。従来の強化学習では、エージェントは勾配を盲目的に追従するだけであったが、新たに提案されたIRPO(Intrinsic Reward Policy O...