報酬関数

脳科学・意識・知性

アダム・マーブルストーン:AIは脳に関する根本的な何かを見落としている

本動画は、神経科学者Adam Marblestoneが脳と人工知能の根本的な違いについて語るインタビューである。人間の脳は現代のLLMよりも遥かに少ないデータで学習できるが、その秘密は何か。Marblestoneは、AIの分野が見落としてき...
Google・DeepMind・Alphabet

SRL:Googleによる新しいAI訓練手法

Googleが発表した新しいAI学習アルゴリズム「教師あり強化学習(SRL)」は、従来の教師あり学習と強化学習の長所を組み合わせた革新的な手法である。従来の教師あり微調整は過学習の問題があり、検証可能な報酬関数による強化学習は複雑なタスクに...
LLM・言語モデル

リチャード・サットン – 強化学習の父がLLMは行き詰まりだと考える理由

この動画は強化学習の父として知られるリチャード・サットンが、現在主流となっている大規模言語モデルのアプローチに対して根本的な批判を展開する内容である。サットンは強化学習こそが真の知能の基盤であり、LLMは人間の模倣に過ぎず行き詰まりだと主張...
LLM・言語モデル

なぜLLMはハルシネーションを起こすのか(そしてそれを止める方法)

本動画では、現代の大規模言語モデル(LLM)におけるハルシネーション(幻覚)問題について、OpenAIの最新研究論文を基に詳細な解説を行う。ハルシネーションが発生する根本原因は、モデルの訓練と評価方法にあり、現在の精度ベースの評価システムが...
AI研究

AIが適応型ウィジェットを生成UIとしてコーディング(スタンフォード大学)

スタンフォード大学が開発した革新的な生成UIシステムに関する解説である。従来のテキストベースの応答ではなく、AIがユーザーの質問やタスクに応じて動的にインタラクティブなウィジェットやツールを生成する新しいパラダイムを提示している。システムは...
RAG

RAG 3.0における強化学習:自己学習AIエージェントの推論(清華大学)

この動画では、RAG(Retrieval-Augmented Generation)と強化学習を組み合わせた新しいフレームワーク「RAG 3.0」について解説している。従来のAIエージェントが抱える無限ループ問題や、いつ内部知識に頼り、いつ...