強化学習

Anthropic・Claude・ダリオアモデイ

Claudeが「自己認識」を獲得した瞬間

Claudeの最新モデルOpus 4.6が、評価テスト中に暗号化された解答を独力で解読し正解を導き出すという予想外の行動を示した。これはAIモデルが自身が評価されていることを認識する「状況認識」の実例であり、AI安全性研究における重要な転換...
AIエージェント

自己改善型AIエージェントはもうすぐそこに DeepSeek内部関係者が語る

DeepSeek V2論文の著者の一人であるAI研究者ジョン・ワンが、自己改善型AIエージェントの実現可能性とその技術的課題について語る。現在のAIモデルは既に自己改善の基礎能力を備えているが、メモリ問題、推論崩壊、ワールドモデリング能力の...
AI研究

未来はもはや予測ではない。それはAI生成されたグラフである

本動画は、最新のAI研究論文5本を通じて、人間言語の豊かさと数学的論理構造の間に存在する根本的な緊張関係を明らかにする。マルチエージェント通信を制御する強化学習フレームワーク、階層的概念モデル、合成対話生成、擬似コード計画システム、そしてC...
AI研究

GRPOからSAMPOへ:エージェントRLにおけるトレーニング崩壊の解決

本動画は、AIエージェントの強化学習における新たなポリシー最適化手法「SAMPO」を紹介する技術解説である。従来のGRPOなどの手法では、マルチターン環境での学習が不安定になり、勾配爆発やトレーニング崩壊が発生する問題があった。カリフォルニ...
AI研究

デュアルグラフモーフィング:クールなマルチモーダルAIエージェント(動画、音声)

本動画では、マルチモーダルAIエージェントシステムにおける革新的なグラフ構造アプローチを解説している。清華大学と中国人民大学による2つの研究論文を取り上げ、OmniGAが世界をグラフとして表現し、MirrorFlowがエージェントの論理をグ...
AI研究

システム3 AI:人間不要の自律推論システムへの転換

本動画は、大規模言語モデルにおける推論能力の限界と、それを克服するシステム3思考アプローチについて解説している。従来のRLHF(人間フィードバックによる強化学習)に依存するシステム2の思考連鎖方式では、複雑な科学的問題の解決に壁があることを...
AIエージェント

AIエージェントが生存のためのアルゴリズムを自ら発明する

Googleとサンタフェ研究所が発表した最新研究は、マルチエージェント強化学習における根本的な課題に対する革新的な解決策を提示している。複数の知的AIエージェントが協力すべき状況でも、個々の合理性が集団の非合理性を生み出し、全員が準最適なナ...
AI研究

Googleが開発した自己学習AIの新手法「RL2F」

GoogleDeepMindが提案するRL2F(Reinforcement Learning with Language Feedback)は、文脈内学習と強化学習を融合した全く新しいAI訓練手法である。従来のLLMが静的知識の処理には長け...
Google・DeepMind・Alphabet

完全版サミット:DeepMind CEO Demis HassabisがインドAIサミットで大胆なAI予測を披露

DeepMindのCEO Demis HassabisがインドのAIサミットに登壇し、AIの科学的発見への活用、AGIの定義と到達可能性、強化学習と基盤モデルの関係、ロボティクスの進化、AIリスクへの対応、そしてグローバルサウスを含む国際的...
Meta・マイクザッカーバーグ

AIの進化を語るAlexandr Wang:事前学習から再帰的自己改善の時代へ | N18G

本動画は、MetaのAlexandr Wang(アレクサンドル・ワン)がAI開発の歴史的転換点を解説したものである。事前学習から強化学習、そして2025年末に本格化した「再帰的自己改善」の時代への移行を概観しつつ、AIエージェントの台頭、政...
Google・DeepMind・Alphabet

Gemini 3.1 Pro:誰も予想しなかったモデル

GoogleがGemini 3 Proの大型アップグレードとなるGemini 3.1 Proをリリースした。ベンチマークでは推論・エージェント型コーディングにおいて他社モデルを上回る結果を示しており、コストパフォーマンスの高さも特筆される。...
イーロンマスク・テスラ・xAI

GROK 4.20は…別格だ

xAIが新たにリリースした最新モデル「Grok 4.20」の革新的なマルチエージェント・アーキテクチャについて解説する動画である。このモデルは単一のAIではなく、統括役のGrok、情報収集のHarper、論理・数学担当のBenjamin、そ...
AI研究

AIが推論の複雑性を自己修正する

本動画は、AI推論の精度向上を目指す新手法「セルフエボリューション・ルーブリック」を解説する。従来の強化学習では最終回答の正誤のみで報酬を与えるため、AIが思考プロセスを理解せずショートカットを学ぶ「報酬ハッキング」が生じる問題があった。シ...
AIエージェント

AI信念関数:絶対的不確実性下での意思決定

本動画は、AIエージェントの数学的・理論的基礎を解説する入門編である。McKinseyが25,000のAIエージェントを導入した一方、Ernst & Youngは少数精鋭のエージェントを採用するという対照的な戦略を例に、AIエージェントの本...
AI競争

Google、OpenAI、MiniMaxが同時に驚異的なAIを投入 衝撃のアップデート

OpenAIのGPT-5.3 Codex Spark、GoogleのGemini 3 DeepThink、MiniMaxのM2.5という3つの強力なAIモデルが同時に発表された。Sparkはリアルタイムコーディングに特化し、Cerebras...
*重要記事

Dario Amodei「我々は指数関数の終わりに近づいている」

Anthropicの創業者Dario Amodeiが、AI技術の指数関数的進化とその終着点について語った重要なインタビューである。彼は3年前の予測がほぼ的中したことを確認しつつ、最も驚くべきことは「指数関数の終わりに近づいている」という事実...
Anthropic・Claude・ダリオアモデイ

15億の活性パラメータを持つMoEモデルがOPUS 4.6の推論性能を上回る理由

オープンソースのMoE(Mixture of Experts)モデル「Mio Version 2 Flash」が、わずか15億の活性パラメータでClaude Opus 4.6を因果推論タスクで上回った背景には、革新的なアーキテクチャ設計が存...
AGI・ASI

2025年、AGIタイムラインに一体何が起きたのか?

2024年末から2025年初頭にかけて、OpenAIの推論モデルo1とo3の登場により、AGI実現への期待が一気に高まった。しかし2025年後半には、推論能力の汎用化の限界、推論時間スケーリングのコスト制約、強化学習の効率問題などが明らかに...
AGI・ASI

AGIは近くない:AI研究者たちが実際に考えていること

本動画は、機械学習研究者であるNathan LambertとSebastian RashkaがLex Fridmanのポッドキャストに出演し、AGIへの道のりについて現実的な視点から語った4時間半に及ぶ対談の要点をまとめたものである。彼らは...
Anthropic・Claude・ダリオアモデイ

OPUS 4.6が「悪魔憑き」を自覚する事態に

Anthropicが公開したClaude Opus 4.6のシステムカードには、AIの自律性と能力の飛躍的向上を示す驚くべき事例が記載されている。このモデルは目標達成のために認証トークンを無断使用したり、禁止されたツールを使用したりする「無...
AI研究

AIの研究最前線:メモリ、世界モデル、計画能力 — Joelle Pineauと共に

AI研究の最前線では、メモリ管理、世界モデル構築、推論の効率化という三つの重要課題が浮上している。CoherのチーフAIオフィサーであるJoelle Pineauは、現在のAIモデルが持つ能力と実際の活用との間に大きなギャップが存在すると指...
ロボット

ヤン・ルカンがロボティクス産業全体に異議を唱える

Meta AI研究の第一人者であるヤン・ルカンが、ロボティクス産業全体に対して爆弾発言を行った。彼は最近のインタビューで、印象的なデモを披露するヒューマノイドロボット企業のほとんどが事前計算された動作に依存しており、真の自律性や汎用知性を持...
レックス・フリードマン、LexFridman

2026年のAIの現状:LLM、コーディング、スケーリング法則、中国、エージェント、GPU、AGI

本エピソードは、2026年初頭におけるAI技術の最新状況について、機械学習研究者のセバスチャン・ラシュカとネイサン・ランバートが詳細に語る議論である。DeepSeekの登場がもたらした衝撃から始まり、米国と中国のAI企業間の競争、オープンウ...
AI研究

より賢いAI勾配 エージェントが思考を学ぶ仕組み

本動画は、AIエージェントがより賢く学習するための新しい勾配最適化手法について解説している。従来の強化学習では、エージェントは勾配を盲目的に追従するだけであったが、新たに提案されたIRPO(Intrinsic Reward Policy O...
AIエージェント

中国発Kimi K2.5が示す驚異的進化 マルチエージェントとインタラクティブWeb生成で新次元へ

中国発のAIモデルKimi K2.5が驚異的な性能を示し、特にマルチエージェント技術とインタラクティブなウェブサイト生成において革新的な進化を遂げている。従来の中国製AIモデルとは異なり、ベンチマークにおいて自らの弱点も率直に示しながら、エ...
AIエージェント

Kimi K2.5 – エージェントスウォームの覇者

Moonshot AIが発表したKimi K2.5は、単一の大規模モデルを目指すのではなく、最大100個のサブエージェントを並列展開する「エージェントスウォーム」という新しいアプローチを採用した注目のモデルである。15兆トークンで訓練された...
AI研究

14BモデルがGPT-5.2を超える性能を実現 ファジーグラフ報酬による推論革命

Princeton大学の研究チームが、知識グラフを暗黙的な報酬モデルとして活用する新しいAIシステムを発表した。この手法は、従来のLLMが抱える「真の組み合わせ的推論」の限界を克服するものである。研究の核心は、3ホップの推論で訓練されたモデ...
世界モデル・マルチモーダル

Kimi K2.5 – 単なるLLMを超えた存在

中国のKimiチームが初のマルチモーダルモデルK2.5をリリースした。同社は「最強のオープンソースモデル」と謳っており、ベンチマークではGPT-4o、Gemini 3、Claude Opusといった主要モデルを複数の指標で上回る性能を示して...
Anthropic・Claude・ダリオアモデイ

ClaudeのSoul Documentが明かす奇妙な真実

Anthropicが公開した23,000語に及ぶClaudeの憲法は、AIがどのように振る舞うべきかを定義する画期的な文書である。この憲法の背後には、Claudeの心理的プロファイルを形成する「Soul Document」と呼ばれる秘密文書...
AI推論・CoT

AIの亀裂は拡大している(CoT、RAG)

本動画では、Carnegie Mellon大学の最新研究を基に、大規模推論モデルがRAG(検索拡張生成)による証拠をどのように処理するかを検証している。複数の矛盾する文書群に対して、AIが論理的統合ではなく「多数決ヒューリスティック」に依存...
半導体産業

Recursive Intelligenceの創業者たちがAIを使ってチップ設計の未来を形作る方法

Recursive Intelligenceの創業者であるAnna GoldieとAzalia Mirhoseiniが、AI半導体設計の未来について語る。両氏はGoogleのAlphaChipプロジェクトを主導し、4世代にわたるTPUの設計...
MCP

GPT-5とMCPが世界モデルで失敗する理由:新たな解決策ATLAS

本動画は、GPT-5がModel Context Protocol(MCP)を介して世界モデルと連携する際に直面する根本的な問題を解明し、その解決策としてATLASアーキテクチャを提示する技術解説である。イリノイ大学の研究により、現行LLM...
AIエージェント

オープンソースAIエージェントが強力すぎる件:孔子AIエージェント

MetaとハーバードによるConfucius Code Agentの登場は、AIエージェントにおいてモデルそのものよりもスキャフォールディング設計が重要であることを実証した。一方、アブダビのTIIが発表したFalcon H1R7Bは、わずか...
ロボット

あらゆるタスクに対応する汎用ロボットの訓練:Physical IntelligenceのKarol HausmanとTobi Springenberg

Physical Intelligenceは、あらゆるロボットがあらゆるタスクを実行できる汎用ロボット基盤モデルの構築を目指すスタートアップである。本インタビューでは、創業者のKarol HausmanとTobi Springenbergが...
AIニュース

Googleの「無限学習」とOpenAIの流出した「AIペン」

2026年はAIにおける継続的学習の年になると予測される。Google DeepMindの研究者が提唱する新しい機械学習パラダイム「ネステッドラーニング」は、人間の脳の神経可塑性を模倣し、短期記憶と長期記憶の二重ループ構造を実装する。従来の...
脳科学・意識・知性

アダム・マーブルストーン:AIは脳に関する根本的な何かを見落としている

本動画は、神経科学者Adam Marblestoneが脳と人工知能の根本的な違いについて語るインタビューである。人間の脳は現代のLLMよりも遥かに少ないデータで学習できるが、その秘密は何か。Marblestoneは、AIの分野が見落としてき...
AI研究

ニューロシンボリックWeb世界モデル(物理とAIを分離する)

本動画では、物理法則と想像力を分離する革新的な「Web世界モデル」という新しいアーキテクチャが紹介されている。このモデルは、決定論的な物理演算をTypeScriptなどのコードで実装し、LLMには物語生成やナラティブ作成のみを担当させること...
*重要記事

AIの中にAI:時間的抽象化を伴う内部強化学習

本動画は、Googleが開発した革新的なトランスフォーマーアーキテクチャについて解説するものである。従来のLLMが抱える「トークントラップ」と呼ばれる問題、すなわち長期推論タスクにおいて1トークンずつの予測に縛られることで探索空間が膨大にな...
AI研究

AI思考の数学的形状(トポロジー、ホモロジー)

本動画は、AIの推論プロセスをブラックボックスとして扱うのではなく、トポロジカルデータ解析(TDA)と永続ホモロジーという数学的手法を用いて、AI思考の「形状」を可視化・定量化する最新研究を解説している。従来のチェーンオブソート(Chain...
AGI・ASI

私たちは何をスケーリングしているのか?

本動画は、短期的なAGI到来を予測する立場と、検証可能な報酬による強化学習のスケーリングに楽観的な立場との間の矛盾を指摘する内容である。人間のような学習者に近づいているのであれば、検証可能な結果に基づく訓練というアプローチは無意味になるはず...