GRPO

NVIDIA・ジェンスンフアン

NVIDIA最新論文「MASTERS」蒸留手法:ローカル環境で動く3億パラメータのビジョンAI

NVIDIAが2025年12月30日に発表した最新の研究論文「MASTERS」は、72億パラメータのビジョン言語モデルを2~3億パラメータの小型モデルに効率的に蒸留する革新的な手法である。従来の蒸留手法では教師モデルの複雑な表現を小型の生徒...
AIエージェント

7Bエージェントが200B LLMを上回る:スタンフォードのAgentFlow

本動画は、スタンフォード大学が開発した革新的なマルチエージェントシステム「AgentFlow」について解説するものである。AgentFlowは、複雑な問題を4つの連続したステップに分解し、各ステップに専門エージェントを配置する訓練可能なツー...
AI研究

新しい強化学習手法:FlowRL(GFlowNets)

この動画では、従来の強化学習手法であるPPOやGRPOが抱えるモード崩壊の問題を解決する新しいアプローチ「Flow強化学習」について詳しく解説している。FlowRLは生成フローネットワーク(GFlowNets)の数学的枠組みを借用し、単一の...
RAG

エージェント型ハイパーグラフRAG with RL: Graph-R1

この動画では、北京大学が開発したハイパーグラフRAGシステムと強化学習を組み合わせた革新的な「Graph-R1」について解説している。従来のグラフRAGシステムを超えて、より高次元で複雑な知識構造を扱えるハイパーグラフを採用し、完全に人間を...
世界モデル・マルチモーダル

VLM RL(視覚言語モデル強化学習)

この動画は、視覚言語モデル(VLM)における強化学習の最新動向を解説したライブストリーム配信である。特にGLM 4.1V ThinkingとNvidiaの長編動画推論に関する2つの研究論文を詳細に分析し、DeepSeekのGRPO(Grou...