検証可能な報酬

Googleが開発した自己学習AIの新手法「RL2F」

GoogleDeepMindが提案するRL2F（Reinforcement Learning with Language Feedback）は、文脈内学習と強化学習を融合した全く新しいAI訓練手法である。従来のLLMが静的知識の処理には長け...

2026.02.23

AI研究