AI研究 AIが推論の複雑性を自己修正する
本動画は、AI推論の精度向上を目指す新手法「セルフエボリューション・ルーブリック」を解説する。従来の強化学習では最終回答の正誤のみで報酬を与えるため、AIが思考プロセスを理解せずショートカットを学ぶ「報酬ハッキング」が生じる問題があった。シ...
AI研究
Anthropic・Claude・ダリオアモデイ
AI研究