AI評価ベンチマーク

GPT-5.1は本当にアップグレードなのか?しかしモデルは政府機関を自動ハッキングできるので…まあそういうことだ

OpenAI、Google、Anthropicが24時間以内に相次いで発表を行い、数億人に影響を与える可能性のある技術が公開された。GPT-5.1はより長時間の思考プロセスを実装したものの、ベンチマークでは一部で退行も見られる混合的な結果と...

2025.11.15

GPT-5

長文文脈推論：RAGとICLが失敗する理由

この動画は「Needle in a Haystack」テストの根本的な問題点を暴露し、現在の大規模言語モデルが長文文脈での真の推論能力を持たないことを明らかにする新研究「Needle Chain」について解説している。従来のテストは単一の事...

2025.07.31

RAG