AI研究 AIが推論の複雑性を自己修正する 本動画は、AI推論の精度向上を目指す新手法「セルフエボリューション・ルーブリック」を解説する。従来の強化学習では最終回答の正誤のみで報酬を与えるため、AIが思考プロセスを理解せずショートカットを学ぶ「報酬ハッキング」が生じる問題があった。シ... 2026.02.17 AI研究