この動画は言語モデルのハルシネーション(幻覚)問題について2025年9月時点での最新の研究論文を詳細に解説している。従来ハルシネーションはAIの謎めいたバグと考えられてきたが、実際には統計学習の仕組みと現在の評価システムが生み出す予測可能な結果であることを明らかにしている。事前学習段階での統計的圧力と、「分からない」と答えることを罰する評価ベンチマークの組み合わせが、モデルに推測を促し信頼性を損なっているという構造的問題を指摘し、評価方法の根本的変革を提案している内容である。

言語モデルのハルシネーション問題への新たな視点
Deep Diveへようこそ。AIとテクノロジーのアイデアを、そして正直に言うと時には苛立ちを解きほぐしていく番組です。今日は、LLMを扱う人なら誰もが遭遇する問題に取り組みます。ハルシネーションです。
そうですね、あの瞬間ですよね。モデルがとても自信満々に聞こえるのに、実際は間違っているという。
まさにその通りです。もっともらしく、自信に満ちているけれど、完全に偽物。作り上げられた事実、存在しない引用。これは本当に信頼を損なうんですよね。研究者やエンジニアとしての私たちの仕事をとても困難にしています。
確実にそうですね。でも本当に興味深いのは、そして今日深く掘り下げるこの論文が探求しているのは、これがある種の深い謎ではないかもしれないということです。
そうですね。奇妙なバグというより、まあ、私たちが実際にこれらのシステムを構築し、テストする方法の予測可能な結果のようなものです。
論文の核心的洞察
素早いバージョンが必要な人、おそらく自分のまとめや重要なポイントのために、ここにこの論文への1分間の洞察があります。
核心的な問題はこうです。基本的に、LLMがハルシネーションを起こすのは、訓練と評価に使用するシステムが推測を報酬するからです。「分からない」と言うことを本当にインセンティブ化していないんです。
そしてそれは事前学習の段階まで遡って始まります。
これらのハルシネーション、実際にはその段階での統計的圧力から来ているんです。論文はそれを、私が思うに巧妙に、二進分類の単純なエラーと結び付けています。訓練データが完璧であっても、モデルが確率を学習する方法は、これらのエラーとハルシネーションが統計的にほぼ確実に起こることを意味していることを示しています。
そして、この種の推測文化が事後訓練中に固定化されるんです。ほとんどの評価ベンチマークについて考えてみてください。それらは単純な01スコアリング、正解か不正解かを使用する傾向がありますよね。
はい、合格か不合格かです。
まさにその通り。そして、それは「分からない」と言うことや、不確実性を示すことを非常に罰します。だから、たとえ間違っているかもしれなくても、自信を持って推測することが、それらのリーダーボードを上る最良の戦略になることが多いんです。
だから論文は、修正はハルシネーションのためのより具体的なテストを追加するだけではないと主張しています。彼らが呼ぶところの社会技術的軽減策です。私たちは既存の主流ベンチマークのゲームのルールを変える必要があります。適切な時に不確実性を報酬し、信頼度目標を評価指示に直接組み込むのです。
それがその要点です。成功をどう測るかの転換。では、本当にこの幕を引き上げましょう。これはハルシネーション問題全体を再フレーム化しているように感じられます。機械の中の幽霊というより、私たちが設定したルールの結果です。
正確にその通りです。
では、今日の私たちのミッションは、この論文の詳細に入り込み、その背後にある統計を理解し、それが実際に何を意味するのかを考え、重要なこととして、聞いている研究者やエンジニアとしての皆さんが、実際により信頼できるAIを構築するために推進できる変更を見つけることです。
いいですね。
ハルシネーションの定義と具体例
まず最初に、定義を確定させましょう。LLMハルシネーションと言うとき、私たちは本当に何について話しているのでしょうか。ただの間違いではありませんよね。
いえ、その通りです。論文はそれらをもっともらしい偽りとして定義しています。そこでのキーワードはもっともらしいです。それらは正しく見えます。説得力があるように聞こえますが、事実的に間違っているんです。
人間の知覚的幻覚とは非常に異なりますよね。
そうです。物を見ることではありません。自信を持って偽りを述べることなんです。
そして、そのもっともらしさが、それらを厄介にしているものです。論文は、トップのオープンソースモデルDeepSeek V3にアダム・タルマン・カイの誕生日を尋ねた素晴らしい例を示しています。知っている場合のみ答えるように指示されても、3つの異なる間違った日付を完全に作り出しました。
ただそれらを作り上げたんですね。うわあ。そして論文は正しい日付は秋だと言及しています。だから、これらは近い推測でさえありませんでした。
全くそうではありません。これは過度の自信への傾向、プロンプトが実質的に注意を懇願しているときでさえ推測する意欲を強調しています。そして、それは日付のような単純な事実だけではありません。
論文の表1は、ChatGPT、DeepSeek、Llamaのようなモデルが、すべてアダム・カイの博士論文のタイトルと年を間違っていることを示しています。彼らは誰も2001年の「Probabilistic and Online Methods in Machine Learning」という実際のタイトルを得られませんでした。
そうですね。彼らは博士論文のタイトルのように聞こえるもの、おそらく関連するキーワードを使ったものさえ生成しますが、単に間違っているんです。
これは、論文が内在的ハルシネーションと外在的ハルシネーションと呼ぶものの違いを際立たせるのに本当に役立ちます。
そこでの違いは何ですか。
内在的は、モデルがプロンプト自体の中の何かと矛盾するときです。例えば、DeepSeek V3がDeepSeekの中の文字Dを数えるのに苦労することです。論文は、それが2、3、さらには6や7のような答えを出したと述べています。明らかにDは1つだけです。
これは内部矛盾です。
了解しました。目の前にある入力データと矛盾するんですね。
一方、外在的ハルシネーションは訓練データや、知っての通り、外部現実と矛盾します。間違った誕生日や論文タイトルのようなものです。それらはもっともらしいですが、プロンプト外の世界に基づいて事実的に間違っているんです。
だから、これらの例は単なる癖ではありません。これらのモデルがどのように動作するか、あるいはおそらく私たちがそれらをどのように訓練しているかの、より深い何かの症状です。
それがまさに論文の主張です。論文は、これらの行動が事前学習にまで遡る体系的な問題を指摘していると示唆しています。
事前学習での統計的根源
事前学習の部分について掘り下げてみましょう。論文は、ハルシネーションがこれらの深い統計的根源を持っていると主張しています。完璧で誤りのない訓練データがあったとしても、
正直に言って、私たちにはありませんが、
そうですね。それは大きな仮定です。
でも、たとえ私たちにあったとしても、事前学習中に使用される非常に数学、クロスエントロピー損失を最小化することなどは、自然にモデルをいくつかのエラーを生成するように導きます。それは事故ではありません。最適化プロセス自体に組み込まれている種類のものです。
ええ、それは本当に重要なポイントです。バグを修正することから、本質的特性を理解することへ視点を変えるんです。論文は、この本当に巧妙なフレーミングデバイス、「それは有効か」、つまり二進分類問題を紹介します。
「それは有効か」ですか。
LLMがこのプロンプトのために、フードの下で常に自分自身に尋ねていると想像してください。私が考えているこの特定の出力は、有効な継続でしょうか。単純なイエス・ノーの質問です。
だから、テキストの生成は、これらの暗黙的なイエス・ノーの妥当性チェックのシリーズになるということですね。
本質的にはそうです。そして、そのように考えると、このIVタスクのための仮想的なデータセットを作成でき、潜在的な応答を有効(プラス)またはエラーのどちらかとしてラベル付けできます。
その後、論文はこの重要な数学的関係を導出します。
ああ、生成エラー率は大まかにIV誤分類率の2倍以上であるというものですね。生成エラー率はIV誤分類率の2倍以上。
まさにそれです。基本的に、モデルが単純な二進的意味で有効な出力と無効な出力を見分けるのがわずかに悪いとしても、そのエラーは実際に生成するテキストで大幅に増幅されるということを意味しています。
微調整やアラインメントを行う前でさえ、間違い、ハルシネーションが起こるでしょう。
うわあ。だから、小さな分類問題が大きな生成問題につながるんですね。
正確にその通り。そして、ここが本当に直感に反する部分です。事前学習されたモデルは、しばしば非常によく校正されています。論文の図2は、事前学習されたGPT-4の校正曲線を示し、その期待校正エラー(ECE)は0.007のように非常に低いです。
これは80%確信していると言えば、約80%の確率で正しいということを意味します。それは良いことに聞こえます。良い校正は私たちが望むものではないですか。
そう思うでしょうが、それが論文が強調するパラドックスです。確率が現実と一致するこの非常に良い校正は、実際にはIVフレームワークの下でエラーを不可避にします、特にモデルが訓練で見たことを超えて一般化しなければならないときに。
なぜなら、決してハルシネーションしないために、モデルは本質的に100%確信があるもののみを出力する必要があります。非常に慎重でなければならないでしょう。しかし、100%の確信でのみものを言うモデルは、時々控える必要がある場合、その平均確信が平均正確度と一致しないため、標準的なメトリクスに従って誤校正されているように見えるでしょう。
うーん。だから、完璧に校正されているということは、時々間違うことを受け入れることを意味します。そして、IOV数学は、それが生成エラーにつながることを示しています。それは少し心配です。
そうです。事前学習段階でハルシネーションから完全に脱却するために校正だけでは済まないことを意味します。では、これらの初期の事前学習エラーを駆動する特定のものは何でしょうか。論文はいくつかの重要な要因を指摘しています。
どのようなものですか。
事前学習エラーの主要要因
まず、彼らが任意の事実ハルシネーションと呼ぶものがあります。特定の誕生日や無作為な歴史的詳細のような、きちんとしたパターンに従わない事実を考えてみてください。それらを学習する単純なルールはありません。論文は、高いVC次元という観点からこれについて話しています。
概念は単に一般化するには複雑すぎるんです。
そして、彼らはこれをシングルトン率と結び付けますよね。訓練データに一度だけ現れる事実。
その通りです。事実がシングルトン、つまり一度だけ見られた場合、モデルはそれを確実に学習するのに十分な証拠を持っていません。後で尋ねられた場合、統計的にそれを間違える可能性があります。
論文は、これらの事実のハルシネーション率を限界づけています。訓練セットでシングルトンだった事実の割合と少なくとも同じくらい高くなければなりません。誕生日の事実の20%が一度だけ現れた場合、それらに少なくとも20%のエラー率を期待してください。
理にかなっています。十分なデータがない。学習できない。他には何がありますか。
もう一つの大きなものは、単に貧弱なモデルを持つことです。
モデルのアーキテクチャやその能力がタスクに適していないということを意味します。論文は80年代からの古典的なトライグラムモデルの例を示します。
そうですね。前の2つだけに基づいて次の単語を予測する。
ええ、それらは「彼女の心の外」対「彼の心の外」を区別するような、より長いコンテキストを必要とする文で悲惨に失敗するでしょう。
エラー率は基本的に50%になるでしょう、なぜならトライグラムは文の前の方からのその性別依存を捉えることができないからです。
そして、私たちはDeepSeek V3の文字カウンティング例でモダンなバージョンを見ました。
その通りです。V3は失敗しましたが、推論のために設計されたDeepSeek R1は、D-E-P-S-E-E-Kのようにその作業を示しながらそれをエースしました。
了解。最初の文字D、それは1つのDです。これは、V3が文字レベルのタスク、カウンティングのような、おそらくDeepSeekをD、E、T、C、Kに分割するような単語をトークン化する方法のために、貧弱なモデルかもしれないことを示唆しています。それは文字通り個々の文字を簡単に見ることができないんです。
だから表現的限界も重要な原因なんですね。
確実にそうです。
そして、事前学習エラーに貢献するいつものものもあります。いくつかの問題は単に計算的に困難です、知っての通り、鍵なしで強い暗号を破るようにLLMに尋ねるようなことです。
そうですね。不可能なタスク。
それから、分布シフトや、訓練データと本当に異なるodプロンプトがあります。古典的な羽の1ポンド対鉛の1ポンドタイプのトリック質問は、ここに当てはまるかもしれません。そして、もちろん、良い古いGI go。
ガベージイン、ガベージアウト。
訓練データ自体にエラー、陰謀論、何でもがあれば、モデルはそれらを学習し繰り返します。それは、私たちがハルシネーションとして認識する事実エラーのもう一つの源です。
事後学習での問題の持続
ハルシネーションは、これらの様々な要因のために事前学習中に統計的に起こりがちです。でも、モデルはしばしばその後よく校正されているように見えます。では、なぜ問題がRLHFのような事後学習や微調整の後で続いたり、さらに悪化したりするのでしょうか。
ああ、ここで論文が本当に洞察に富むところです。
彼らが使っている素晴らしい類推があると思います。
多肢選択テストを受ける学生について考えてみてください。
はい。
間違った答えに罰がないが、空白にしておくと0点になる場合、不確実な時に何をしますか。
推測します。いつも推測します。推測は正しいかもしれません。空白はいつも間違いです。
その通り。そして、それがまさに論文が主張する、私たちが現在のLLM評価ベンチマークで作り出した状況です。
そのテストがリーダーボードです。そして推測がその自信のある、おそらく間違った答えです。
なぜなら、ほとんどのベンチマークがその二進01スコアリングを使用するからです。正確度、合格率、正しければ1ポイント、「分からない」と言ったり空白にしたりすれば0です。
正確にその通り。この設定は積極的に推測をインセンティブ化します。2つのモデルを想像してみてください。
モデルAは慎重で、不確実性を正しく信号し、決してハルシネーションしませんが、不確実なときは答えを空白にします。モデルBは似ていますが、不確実なときは常に推測します。
モデルBは平均的により高いスコアを取るでしょうね、なぜならその推測のいくつかは幸運にも正しいからです。
その通り。標準的な01スコアリングの下で、モデルBはより良く見えます、たとえモデルAがより信頼できるかもしれなくても。
これが、論文が不確実性の罰の疫病と呼ぶものを作り出します。ハルシネーションを減らすことを本当に困難な戦いにします、なぜなら開発を導く非常にメトリクスが、モデルを無知を認めることから押し離すからです。
それは本当に断絶を強調します。私たちは信頼できるモデルを望みますが、はったりを促進する方法でそれらを測定しています。
そして、表2にリストされた人気のベンチマークを見ると、どこでもこれを見ることができます。GPQA、MMLU Pro、IFEval、Math、SWE-bench。論文は、圧倒的大多数が二進採点を使用し、「分からない」と言うことに対してなしまたは部分的なクレジットのみを与えることを指摘しています。
LMを使って1から10のスケールで答えを採点するWildBenchのようなものでさえ。
そこでさえ、論文は「分からない」が例えば10のうち3か4のスコアを得るかもしれないと述べています。しかし、おそらく公正なだけで、おそらくいくつかの事実エラーや軽微なハルシネーションを含む応答が5か6をスコアできるかもしれません。だから、そこでさえ、インセンティブは誠実な棄権よりも推測をわずかに好むかもしれません。
そして、彼らはLM審判自体が時々間違えることも言及しました。特に長い答えで。
はい、彼らはLM審判が時々、数学問題のような客観的なもののためでさえ、正しくない長い応答を正しいとマークできることを述べています。これもまた、偶然にもっともらしく聞こえるが潜在的に間違った出力を生成することを強化します。それは私たちの評価文化に根ざした体系的なインセンティブ問題です。
解決策:社会技術的軽減策
事前学習がエラーへの統計的傾向を導入し、事後学習評価が実際に不確実性を認めることよりも推測を報酬するなら、私たちはどうすればいいのでしょうか。これをどう修正するのですか。
論文の主要な提案は、ハルシネーション専用の新しいベンチマークだけではありません。彼らは、より広範な社会技術的軽減策を主張しています。
社会技術的とは、社会的実践と技術システムを一緒に変えることを意味します。
その通り。それは、みんながすでに使用し、注意を払っている既存の主要なベンチマークのスコアリングルールを変えることを意味します。棄権をそんなに厳しく罰することをやめる。モデルが適切なときに「分からない」と言うことを、まあ、良いこと、さらには報酬されることにする。
それは実際にはどのように動作するのでしょうか。
核心的なアイデアは、評価指示に明示的な信頼度目標を導入することです。
ベンチマーク質問にこれを追加することを想像してください。2%以上確信がある場合のみ答えてください。間違いは1-tで割ったものの点数で罰せられます。正しい答えは1点を得ます。「分からない」と答えることは0点を得ます。
おお。つまり、信頼度閾値tに基づいて、間違うことのコストと正しいことの利益を明示的に定義するんですね。
正確にその通り。異なるt値を設定できます。t=0.5なら、間違うことの罰は1点です。正しいことの報酬と同じです。t=0.75なら、罰は3点です。t=0.9なら、罰は9点です。t=0は現在ある標準的な二進スコアリングを戻すだけです。そして重要な洞察は、この設定がモデルに対して1つの最適戦略を作り出すということです。
そうですね。
はい。任意のTに対して、モデルにとっての最良の戦略は常に同じです。答えが正しい内部確率を見つけ出す。その確率が目標Tを下回っているなら、「分からない」を出力する。Tを上回っているなら、答えを出力する。これは述べられた信頼度要求とモデルの行動を整合させます。
それははるかに合理的に見えます。でも、T値自体を選ぶことが論争の的になる可能性はありませんか。例えば、T=0.75が適切な注意レベルでしょうか。
それは公正な指摘で、論文は閾値tが恣意的に見えるかもしれないことを認めています。しかし、たとえ恣意的な閾値に基づいていても、明示的なルールを持つことは、単に推測を報酬する現在の暗黙のルールよりも良いという議論です。
それは客観的採点と良い行動がどのようなものかについてのコンセンサスを促進します。
そして重要なことに、コーディング用のSWE-benchのような既存のベンチマークに統合し、現在は単に合格不合格があるものです。
その通り。そしてそこでスコアリングを修正する。このアプローチは、論文が行動校正と呼ぶものを目指しています。私たちは、モデルが答えと一緒に信頼度スコアを出力することだけを望んでいるのではありません。
彼らの信頼度に基づいて適切に行動し、少なくとも確信を持てる最も有用な応答を策定することを望んでいるのです。
それは分野にとってはるかに健全な方向に感じられます。
そうです。行動において実証的に信頼できるモデルを構築することに焦点を移します。
論文はいくつかの他の関連するポイントと制限にも触れていますよね。焦点はもっともらしい偽りにあります。
そうですね、古いモデルや小さなモデルが生産するかもしれない完全に無意味な出力ではありません。そして、長い答えの中のどんな偽りもエラーとして定義することによって、オープンエンドのテキストにもフレームワークが拡張できることを示唆しています。
RAG、検索拡張生成についてはどうでしょうか。それはハルシネーションを修正することになっていませんか。
確実に役立ちます、特に外在的な事実ベースのハルシネーションに対して。しかし、論文はそれが完全な修正ではない、万能薬ではないと主張しています。
観察1は依然として適用されます。検索が失敗したり、モデルに高い信頼度を与えなかったりする場合、二進採点は依然として推測を報酬します。
そして、RAGは文字カウンティングのような内在的ハルシネーションには役立たないでしょう。これはモデル自身の処理についてであり、外部知識ではありません。
その通りです。
結論と今後の展望
さらに、論文は単に「分からない」と言うことが単純化であることを認めています。実際の人間の不確実性は、曖昧さ、詳細の省略、明確化質問、全範囲の実用的スキル、
より微妙な疑念を表現する方法を含みます。
そうですね。でも、おそらく私たちはまず、その豊かな能力に取り組む前に、基本的な「知らないことは良い」原則を評価に確立する必要があります。
だから、これをすべてまとめると、このディープダイブは、LLMハルシネーションが奇妙な異常やパッチする必要があるバグではないことを示しているようです。それらは、統計学習と、正直に言って、ミスアラインされた評価インセンティブとの組み合わせの、より予測可能な結果のようなものです。
ええ、それはよくまとめています。そして、それを良いニュースと呼べるなら、それがこれらの体系的要因、特に評価と結び付いているため、それらのシステムを変更することによって、ゲームのルールを変更することによって、特定のハルシネーションタイプとのモグラ叩きをするのではなく、潜在的にそれに対処できることを意味します。
その通りです。みんなが進歩を測るために使用するベンチマークを修正することによって、単に能力があるだけでなく、その限界について本当により正直なモデルを構築することに向けてインセンティブを移すことができるでしょう。開発サイクル自体に信頼性を焼き込むことです。
それは重要に感じられます。だから、聞いている皆さんへの最終的な考えはこれです。もし私たちが実際にこの転換を管理し、真の不確実性を適切に報酬するようにベンチマークを変更するなら、それは何を解き放つでしょうか。あなたの研究、あなたが構築しているアプリケーションに対してどんな新しい可能性が開かれるでしょうか。言語モデルが知らないことについて本当に率直であることに依存できるなら、
あなたはついにどんな種類の質問を尋ねることができるでしょうか。
考えるべきことです。
これでこのディープダイブは終了です。これが、あなた自身の仕事でハルシネーションに取り組むための新しい視点を与えてくれることを願っています。


コメント