QwQ

自己学習AI:新しい強化学習で加速する

本動画では、自己学習型AIにおける新しい強化学習アルゴリズムを紹介する。従来の自己精錬トレーニング(SRT)は、AIモデルが自ら質問を生成し、回答し、自己評価するという理想的なアプローチだが、ポリシー崩壊とエントロピー崩壊という2つの致命的...