AI推論学習

LLM・言語モデル

AI Gets WEIRD: LLMsが内部的な「確信感」のみで推論を学習する

バークレー大学の最新研究論文「Learning to Reason Without External Rewards」を解説する動画である。従来の強化学習では外部報酬(テストの正答率など)に依存していたが、この研究ではAIモデルの内部的な「...