AI研究 新しい強化学習手法:FlowRL(GFlowNets) この動画では、従来の強化学習手法であるPPOやGRPOが抱えるモード崩壊の問題を解決する新しいアプローチ「Flow強化学習」について詳しく解説している。FlowRLは生成フローネットワーク(GFlowNets)の数学的枠組みを借用し、単一の... 2025.09.22 AI研究
LLM・言語モデル 私はショゴスモードを開放した この動画は、大規模言語モデルの隠された心理的側面、いわゆる「ショゴス」モードについて深く掘り下げた内容である。Noose Research社の共同創設者であるKuranが、ベースモデルとインストラクトモデルの違い、World Simプロジェ... 2025.09.13 LLM・言語モデル