検証可能な報酬

AI研究

Googleが開発した自己学習AIの新手法「RL2F」

GoogleDeepMindが提案するRL2F(Reinforcement Learning with Language Feedback)は、文脈内学習と強化学習を融合した全く新しいAI訓練手法である。従来のLLMが静的知識の処理には長け...