RLVR

AI研究

14BモデルがGPT-5.2を超える性能を実現 ファジーグラフ報酬による推論革命

Princeton大学の研究チームが、知識グラフを暗黙的な報酬モデルとして活用する新しいAIシステムを発表した。この手法は、従来のLLMが抱える「真の組み合わせ的推論」の限界を克服するものである。研究の核心は、3ホップの推論で訓練されたモデ...
AI研究

強化学習チュートリアル – NVIDIAとUnslothを使ったRLVR

本動画は、かつてチェス、囲碁、League of Legends、さらには自動運転の習得に至るまで、AIを世界最高水準へと押し上げた技術である強化学習を、家庭用コンピューターで実際に動作させる方法を解説する実践的なチュートリアルである。NV...
AI研究

AIは低曲率部分空間で学習する(RLVR)

本動画は、強化学習が大規模言語モデルにおいてどのように機能するかについての最新の幾何学的理解を解説している。テキサス大学オースティン校とMetaの研究チームによる2025年11月の研究論文を基に、強化学習がモデルの全パラメータのわずか5~3...
LLM・言語モデル

私たちが見逃していたLLMの強化学習における啓示

この動画は、大規模言語モデルにおける強化学習の最新研究動向を解説したものである。従来、強化学習は新しい推論パスの発見に有効とされていたが、最近の研究により、実際には既存の知識を増幅するだけで新しい推論プロセスを創造していない可能性が明らかに...