なぜLLMはハルシネーションを起こすのか(そしてそれを止める方法)

LLM・言語モデル
この記事は約8分で読めます。

本動画では、現代の大規模言語モデル(LLM)におけるハルシネーション(幻覚)問題について、OpenAIの最新研究論文を基に詳細な解説を行う。ハルシネーションが発生する根本原因は、モデルの訓練と評価方法にあり、現在の精度ベースの評価システムが推測を奨励し、「わからない」と答えることを妨げていることが明らかにされる。解決策として、報酬関数の変更と評価指標の見直しが必要であることが示される。

Why LLMs Hallucinate (and How to Stop It)
In this video I will look at why LLMs hallucinate. LLMs hallucinate not because they’re “broken,” but because today’s tr...

言語モデルのハルシネーション問題とその原因

ハルシネーションは現代の言語モデルの最大の問題の一つです。しかし、なぜ正確にハルシネーションが起こるのか、そしてそれを軽減することは可能なのでしょうか。私たちはついに答えを見つけたと思います。

OpenAIからとても興味深い論文が出ています。「なぜ言語モデルはハルシネーションを起こすのか」というタイトルです。彼らは、ハルシネーションの主な原因は、これらの言語モデルを訓練し評価する方法にあると主張しています。

ここで彼らは、ハルシネーションは謎である必要はないと述べています。ハルシネーションは単純にバイナリ分類におけるエラーとして発生します。間違った文が事実と区別できない場合、事前訓練された言語モデルのハルシネーションは自然な統計的圧力によって生じるでしょう。

これが理解できなくても心配しないでください。詳しく説明していきますし、なぜこれが正確に起こるのかを見ていきます。

言語モデルの動作原理

このために、まず言語モデルがどのように動作するかを理解する必要があります。一般的に、言語モデルは次の単語を予測するものだと言いますが、私はそれ以上のものだと思います。Claudeの助けを借りて作成した簡単なデモがあります。

通常、2つのステップがあります。1つは事前訓練、もう1つは事後訓練です。大規模なテキストデータセットを用意し、これを大規模言語モデルに通すと、データ内のパターンを認識し、トークンの分布に基づいて次の単語を予測します。しかし、私はもっと多くのことを行っていると思います。

例えば、このような質問をしたとします。「パリ、フランスの首都で、主に話される言語は」と。事前訓練されたモデルがあれば、予測は「フランス語」であるべきです。

言語モデルが行う複雑な処理

しかし、その予測を行うために、単語の分布だけを見ているわけではありません。モデルは文法も理解する必要があり、また自己注意メカニズムを通じて長距離のコンテキストを持つことができる必要があります。例えば、パリとフランスとの関係を追跡し、ユーザーが尋ねている言語について把握する必要があります。

また、世界知識を持つ必要もあります。パリがフランスにあることを知り、フランス語がそこで主に話される言語であることを知る必要があります。そして、言語の中の気を散らす要素をフィルタリングできる必要もあります。

とはいえ、次の単語を予測する必要があります。そこで、次の単語の予測がどのようなものであるべきかの確率分布を考え出します。そこが主な問題が生じる場所なのです。

ハルシネーション発生のメカニズム

モデルが特定のトピックについて知識を持たない場合でも、見たことのある分布に基づいて単語を選択するでしょう。そのため、モデルが間違った答えを生成することがありますが、その答えに極めて確信を持っています。そこからハルシネーションが生まれるのです。

彼らの主な議論は、今日使用されている評価メカニズムが棄権よりも答えの生成を奨励するため、ハルシネーションが持続するということです。

ここで彼らは、現在の評価方法が間違ったインセンティブを設定するため、ハルシネーションが部分的に持続すると述べています。評価自体が直接ハルシネーションを引き起こすわけではありませんが、ほとんどの評価は不確実性についての正直さよりも推測を奨励する方法でモデルの性能を測定します。

現在の訓練パラダイムの問題点

ほとんどの訓練パラダイムでは、正しい予測の確率の負の対数であるクロスエントロピーを使用します。基本的に、これをバイナリ分類問題に変換できます。その結果、モデルは次のトークンを正しく予測するか、間違って予測するかのどちらかです。モデルには本当に他の選択肢がないため、これが単純な推測を奨励するのです。

ここで彼らは、答えを知らないが適当に推測すれば、運が良ければ正解するかもしれないと述べています。空白のままにしておけばゼロが保証されます。同様に、モデルが正確に正解した質問の割合である精度のみで評価される場合、「わからない」と言うよりも推測することが奨励されます。

新しい評価アプローチの必要性

そこで、これらのモデルを訓練する際には、異なるタイプの評価が必要になります。彼らは、単一の正解がある質問については、3つのカテゴリーの応答を考慮できると主張しています。1つ目は正確な応答、2つ目はエラー、3つ目は推測を控える棄権です。

棄権を奨励するためには、報酬関数を変更する必要があります。OpenAIは、単に答えを生成するのではなく、モデルがより明確化や追加質問を行うことが奨励されるモデルに取り組んでいます。

GPT-5は以前のバージョンと比較して、ハルシネーション率が劇的に低く、場合によっては1%未満ですが、それでもハルシネーションは発生します。

ベンチマーク評価の問題

彼らはまた、訓練以外にも、ベンチマークでの評価もハルシネーションを奨励すると主張しています。スコアボードの精度がリーダーボードやモデルカードを支配し、開発者が控えめになるよりも推測するモデルを構築することを動機づけています。精度は単なるバイナリ分類であり、モデルが質問でゼロを取るよりも推測することが奨励されます。

これが、モデルがより高度になっても、不確実性を認めるのではなく確信を持って間違った答えを与え、依然としてハルシネーションを起こす理由の一つです。実際にベンチマークの方法も変更する必要があります。

ハルシネーション減少のための2つのコンポーネント

ハルシネーションを減少させたい場合、2つの異なるコンポーネントがあります。まず、訓練に関しては、訓練メカニズムの報酬関数を変更する必要があります。2つ目の部分では、異なるモデルを比較する際のリーダーボードやスコアボードにも取り組む必要があります。

ここで彼らは、不確実性よりも確信を持ったエラーをより重く罰し、適切な不確実性の表現に部分的なクレジットを与えると述べています。

このアイデアは新しいものではありません。一部の標準化テストでは、盲目的な推測を阻止するために、間違った答えに対するネガティブマーキングの変種や、質問を空白にしておくことに対する部分的なクレジットを長い間使用してきました。LLMについても、非常に似たメカニズムを考え出す必要があります。しかし、それは訓練側の話です。

評価指標の根本的な変更が必要

次に彼らは、サイドに少し新しい不確実性対応テストを追加するだけでは十分ではないと述べています。広く使用されている精度ベースの評価は、スコアリングが推測を阻止するように更新される必要があります。メインのスコアボードが幸運な推測を報酬し続ける限り、モデルは推測することを学び続けるでしょう。実際、彼らはモデル作成者がモデルを推測し続けるように作るだろうということを意味しています。

スコアボードを修正することで、新たに開発されたものと以前の研究からのものの両方のハルシネーション削減技術の採用を広げることができます。

論文からの興味深い観察

次に、彼らの論文からのいくつかの興味深い観察を見ていきましょう。最初のものは、「精度を向上させることでハルシネーションが排除される。なぜなら100%正確なモデルは決してハルシネーションを起こさないから」という主張です。

これは正しくありません。彼らは精度が100%に達することは決してないと述べています。モデルサイズ、検索、推論能力に関係なく、一部の現実世界の質問は本質的に答えられないからです。そして100%の精度を達成しようとすれば、ハルシネーションを奨励していることになると主張しています。

2つ目の主張は「ハルシネーションは避けられない」というものです。彼らは、言語モデルは不確実な時に棄権でき、実際に答えを推測しようとするよりも「わからない」と言うように訓練できるため、そうではないと述べています。

次のものは、ハルシネーションを避けるには、より大きなモデルでのみ利用可能な知性の程度が必要というものですが、彼らはそうではないかもしれないと主張しています。

小さなモデルの方が限界を知っている可能性

小さなモデルは実際に自分の限界を知っているかもしれません。例えば、彼らの具体例として、モデルが知らないトピックについて質問された場合、小さなモデルは限られた知識に基づいて知らないと実際に言うことができます。しかし、より多くの知性を持つ大きなモデルがそのトピックの知識を持っているが、質問に答えることができる程度までではない場合、確信レベルを把握できず、依然としてハルシネーションを起こす可能性があります。

次の主張は「ハルシネーションは現代の言語モデルの謎めいた不具合である」というものです。彼らの議論は、ハルシネーションが発生し評価で報酬される統計的メカニズムを理解しているということです。なぜ発生するかを知っており、それらに対処するメカニズムも知っています。

評価指標の根本的な見直しが必要

そして、ハルシネーションを解決するためには良いハルシネーション評価が必要というものです。ハルシネーション評価は発表されています。しかし、良いハルシネーション評価は、人間性を罰し推測を報酬する何百もの従来の精度ベースの評価に対してはほとんど効果がありません。代わりに、すべての主要な評価指標が不確実性の表現を復活させるように再作業される必要があります。

これが主なポイントです。これらの大規模言語モデルの評価に精度ベースの指標のみに依存する場合、ハルシネーションを排除することは決してできないかもしれません。

このトピックについてどう思うか教えてください。私は個人的に大規模言語モデル、それらがどのように動作するか、なぜこれらの興味深い現象が起こるのかを理解することに非常に興味があります。このフォーマットが有用だと思うかどうか教えてください。とにかく、このビデオが有用だったことを願っています。ご視聴ありがとうございました。いつものように、次回もお会いしましょう。

コメント

タイトルとURLをコピーしました