信頼性

RAG

Googleによる無料RAG(ファイル検索)とアプリ開発:実証テスト

Googleが提供する無料のRAGサービス「ファイル検索」の実演と、科学研究におけるRAGシステムの重要性を検証した最新研究を紹介する動画である。ダークマターに関する複数のPDFをアップロードし、Googleが自動構築するベクトル空間での意...
OpenAI・サムアルトマン

モデルの振る舞い:AIスタイルの科学

OpenAIのローレンシアが、AIモデルの「スタイル」がユーザー体験に与える影響について詳しく解説する。スタイルとは、モデルの価値観、特性、細かな表現要素の総体であり、それらが組み合わさってAIの振る舞いを形成する。元司書としての視点から情...
Anthropic・Claude・ダリオアモデイ

君だけじゃない(Claudeは実際にバカになった)

この動画では、AnthropicのClaudeモデルの品質が実際に劣化していたという問題について詳しく分析している。作者は長期間にわたってClaudeの性能低下を感じていたが、それが単なる主観ではなく実際にAnthropicが認めた技術的な...
GPT-5、5.1、5.2

OpenAIがGPT-5の嘘を暴露:あなたが思う以上に多いが、修正可能

この動画は、OpenAIの最新研究論文をもとに、AI言語モデルにおける「幻覚(ハルシネーション)」問題の根本的な原因と解決策について詳しく解説している。研究では、現在の評価システムが「わからない」と答えることよりも推測を奨励する構造になって...
AIハルシネーション・幻覚

OpenAIはハルシネーション問題を解決したのか?

OpenAIが発表した新しい論文により、AI言語モデルがなぜハルシネーション(幻覚現象)を起こすのかという根本原因が明らかになった。この問題は単なるバグではなく、現在のモデル構築方法に組み込まれた構造的な特徴である。論文では、正しい回答を生...
AIハルシネーション・幻覚

なぜ言語モデルは幻覚を起こすのか(2025年9月)

この動画は言語モデルのハルシネーション(幻覚)問題について2025年9月時点での最新の研究論文を詳細に解説している。従来ハルシネーションはAIの謎めいたバグと考えられてきたが、実際には統計学習の仕組みと現在の評価システムが生み出す予測可能な...
AI研究

Deep Researchは信頼できるのか?新データ(ByteDance)

ByteDanceの研究チームが開発したReportBenchを用いて、OpenAIのDeep ResearchとGoogleのDeep Researchの性能を検証した研究である。arXivの査読済み論文678本を基準として、逆プロンプト...