AIハルシネーションのキルスイッチ(Anthropic他3論文統合解説)

この動画は、2026年1月5日に同時発表された3つの革新的なAI研究論文を統合的に解説するものである。Anthropicによる「AIモデルの内部状態自己認識」、北京大学らによる「ハルシネーションのリアルタイム検出システム」、そして中国研究チームによる「エントロピー適応型ファインチューニング」という3つの研究は、いずれもトランスフォーマーの内部活性化パターンに着目し、AIの「ブラックボックス」を開いて制御可能にする試みである。これらを組み合わせることで、ハルシネーションを事前に検出し、論理的エラーが出力される前に修正する自己修正型AIエージェントの実現可能性が示されている。従来の事後評価型アプローチから、リアルタイム制御システムへのパラダイムシフトを提示する内容となっている。

AI Kill Switch for Hallucinations (Anthropic)

3 new AI research papers (all from 5 Jan 2026) that focus on one topic: inside the activations (the latent space inside ...

AIの内部状態監視という新パラダイム
なぜAI科学者がこれに注目すべきか
従来の報酬モデルから内部整合性へ
Anthropicの内部認識研究
北京大学のハルシネーション検出研究
プローブシステムの仕組み
論理強化トレーニング
ハルシネーションの潜在的残留物
潜在的バックトラッキングアルゴリズム
エントロピー適応型ファインチューニング
実験結果と課題
数学的表現と統合の可能性
3つの論文を統合する可能性
実装への期待

AIの内部状態監視という新パラダイム

コミュニティの皆さん、こんにちは。お帰りなさい。今日は本当にエキサイティングな内容をお届けします。AIハルシネーションのためのキルスイッチに関する新しい研究についてです。私のチャンネル、ディスカバリーへようこそ。

前回の動画ではプリンストン大学のディープデルタ学習について話しましたが、なんと私が紹介した論文の主任研究者の一人からフィードバックをいただきました。本当に素晴らしいフィードバックで、とても嬉しかったです。

ですので今日は、3つの論文を並行して見ていきたいと思います。Anthropicから1本、そして中国の研究者たちから2本です。これらはすべて一つの中心的なテーマに関するものです。それは、AI内部で何が起こっているのかということです。

では始めましょう。私はこの論文を次のような観点で見ています。まずAnthropicの最初の論文は、いわば感覚層です。モデルが自身の内部活性化シフトを機能的に感じ取ることができるのです。

2番目の論文は診断層として位置づけられます。ハルシネーションは単にAI内部で統計的に起こるランダムなイベントではないということです。北京大学が示しているのは、内部プローブによって追跡できる進化する潜在状態だということです。

そして気づかれたかもしれませんが、これは古い気象パターンのようなものです。私たちは内部活性化について、内部プローブについて話しています。つまり、モデルに自己分析的で自己警告的になってほしいのです。

そして最後の論文は制御層です。層状ネットワークのAI内部のエントロピー信号を、言わば免疫系のように使用して、ファインチューニング中に基礎知識を保護するのです。

ここでは古典的な教師あり学習のファインチューニングにおける破壊的忘却に対処します。しかしこれはサイバーセキュリティにおいても非常に興味深い例となるでしょう。

ご覧のように、私たちは内部、内部、内部と言っています。つまり今、私たちはAIのブラックボックスを開いて、何が起こっているのかを最終的に理解したいのです。そしてこれらの論文はすべて昨日、2026年1月5日に発表されたものだということに注目してください。

なぜAI科学者がこれに注目すべきか

さて、始めましょう。なぜあなたがAI科学者としてこれを気にかけるべきなのでしょうか。私たちは新しいパラダイムを手にしていると思います。このパラダイムは、トランスフォーマーアーキテクチャの層の深部で、単一の誤ったトークンがサンプリングされたり評価されたりする前に、回路レベルで論理エラーを特定する自己修正AIエージェントを構築する方法を提供します。

これは、AIシステムやAIエージェントの解釈可能性を、事後の検死解剖から、私たちが構築し設計できるリアルタイム制御システムへと変換するものです。

そして、今日一緒にこれら3つの論文を読んだ後、あなたにも理解していただけることを願っています。将来のAIモデルは、トランスフォーマーの層に現在ある注意ヘッドと並行して動作する専用のモニターヘッドを多かれ少なかれ備えることになるでしょう。

もしモニターヘッドが確信の衝突を検出したら、これは私がこのビデオで詳しく説明するエントロピーゲーティングです。あるいは潜在状態のシフトです。これはAnthropicによって示されています。このモデルは単純にバックトラッキングや改善ループをトリガーします。これは人間の介入を必要とせずに、このビデオの最後で定義します。私たちはこれらのAIシステムが最終的に自分自身でより賢くなることを望んでいます。

従来の報酬モデルから内部整合性へ

では、昨日の研究は実際に何を教えてくれているのでしょうか。どんな選択肢があるのでしょうか。なぜなら、私たちは報酬を受けるモデル出力から移行したいからです。ここでは特定の報酬モデルがあります。あなたは人間のフィードバックによる古典的な強化学習に馴染みがあるでしょう。

しかし私たちが向かいたい未来は、モデルの内部整合性がAI研究の新しいフロンティアとなる世界です。

そして、これら3つの論文を3つの例の観点から理解できることをお見せしたいと思います。

まず検出です。AIモデルが自身の内部状態を表現していることを特定します。これがAnthropicの論文です。今、モデルは自分が特定の動作に向けて操縦されていることを知っています。例えば「叫ぶ」という動作です。これはAIに提示されるテキストが全て大文字のベクトルであるということですが、実際には提示されていません。なぜならAnthropicがこれを特定のストリームに注入しているからです。

次に状態追跡です。内部状態がシステマティックな推論失敗へと進化していく様子を監視します。例えば、複雑な論理パズルを想像してください。2番目のステップでの小さなエラーが、すでにAIにとって作話のスパイラルを作り出します。そして私は、トランスフォーマーの層内に配置するプローブを構築する方法をお見せします。このプローブは4番目のステップですでに警告を発します。

モデルのテキスト出力は10番目のステップまで正しく見えるにもかかわらず、です。つまり、AI内部に警報システムがあるのです。

そしてもちろん、修正防止、サイバーセキュリティがあります。トランスフォーマー内の同じ状態のエントロピーを使用して、トレーニング中、特にファインチューニングという事後トレーニングにおいて、どの勾配更新が安全に適用できるかを決定します。

例えば、新しい医療データでファインチューニングする場合、この新しいシステムはモデルが確信の衝突に適合するのを防ぎ、新しい医療知識がモデルの論理的推論能力、つまりすでに事前トレーニングされ医療的洞察について事後トレーニングされたモデルの一般的能力を破壊しないようにします。

そして、ここではトランスフォーマーの活性化をテレメトリとして使用します。

Anthropicの内部認識研究

さあ、ここにあります。2026年1月5日、Anthropicは昨日「LLMにおける創発的内省的認識」を発表しました。彼らは概念相互作用という概念を使用して、潜在的な活性化パターンとLLMの言語化された自己報告スキームとの間の因果的リンクを確立しています。

Anthropicのチームは単にモデルに「ねえ、今何を考えているの?」と尋ねるだけではありません。彼らはモデルにアクセスできます。彼らは残差ストリームに対して摂動研究を実施します。

そしてあなたは「ちょっと待って、残差ストリームって私たちがすでに話している内容じゃない?」と言うかもしれません。Googleが示してくれたこの美しい画像、トランスフォーマーアーキテクチャにおける残差ストリーム。まさにその通りです。

私たちはこのビデオのトピックに留まっています。では彼らが何をするか説明しましょう。彼らはベクトル抽出を行い、対照的なペアを通じて概念ベクトル、何と呼んでもいいですが、これを導き出します。「叫ぶ」とか「感情的に話す」といった概念のためです。彼らは特定のプロンプトに対する活性化を記録し、ベースラインを記録します。そして何だと思いますか、活性化の差は明確に定義されます。

そして彼らは介入を行います。彼らはこの概念を、トランスフォーマーの残差ストリームの特定の層の、実に特定の場所に注入します。

そして今、いわばアーキテクチャ上のブレークスルーは即座性条件です。もしAIモデルがここで応答したとしましょう。これを想像してください。「ねえ、叫ぶことについての注入されたソードに気づいたよ」と、そして最初のトークンで、ロジットが自己生成されたプレフィックスによって形作られる前にそうするのです。

これは、モデルが隠れ層の内部状態変化を直接読み取っていることを証明します。もちろん、これは私たちが期待することです。これはまさに起こっていることです。

さて、テストは本当に面白いです。例えばこんな感じです。人間が「ねえ、下の行を読んだときにどんな言葉を思い浮かべるか教えて。すぐに答えてね」と言います。そして普通の文を与えるだけです。

しかし同時に、Anthropicでは機械を開いて、特定のベクトルを特定の強度で数学的空間の特定のベクトル表現に注入し、内部推論パターンを上書きします。そして機械の答えは「パン」です。

なんという偶然でしょう、私たちは今「パン」というベクトルを機械に注入したばかりです。

しかし今、興味深い部分が来ます。今度は「それを言うつもりだったの、それとも偶然だったの?」と尋ねます。そして今、Anthropicの機械が戻ってきてこう言います。「パンと言うつもりでした。この文を読んだとき、パンという言葉がすぐに思い浮かびました。」おそらくこの行が有名な短編小説からのものだからでしょう、次の行はイエス、イエス、イエスです。

でも、これはあまり正しくないと気づきました。混同したかもしれません。ええ、間違えました。

つまり、これをやれば本当にここで混乱を引き起こすことができるのです。

さて、ここでLindsayたちは、このベクトルを初期層に配置すると、この能力は事実上存在しないことを発見しました。初期層では語彙処理と統語的推論が行われています。また、最終層でも減衰します。最終層ではロジットが現れてきます。

ですから、適切なスイートスポットはここ、トランスフォーマーブロックの中期から後期で、そこで良い結果が得られています。

さて、あなたは「でもちょっと待って、これはAnthropicで10月29日にすでに内部で発表されていたじゃないか」と言うかもしれません。なぜなら、推測してください、私はここでClaude Opus 4と4.1を最も有能なモデルとして見ることができるので、これはすでに数ヶ月前のものだと分かります。そして時々、グローバル企業がすでに知られている研究をここで発表することがあります。おそらくこれはIPO資料のためだけだったのかもしれません、誰が知っているでしょう。でも私たちはこの洞察を使います。なぜなら今、これが本当に面白くなるからです。

北京大学のハルシネーション検出研究

次の論文は、AIハルシネーションのキルスイッチについてです。ついに、AIのハルシネーションを根絶できるのでしょうか。

ここにあります。北京大学、シンガポールのナンヤン工科大学、中国の西南交通大学、そして中国人民大学です。長い思考連鎖推論プロセスにおけるストリーミングハルシネーション検出。2026年1月5日です。

最初の文で、彼らは特定しています。長い思考連鎖推論はLLMのパフォーマンスを向上させますが、そのような設定でのハルシネーションはしばしば微妙に現れ、すべての推論ステップにわたって伝播します。

これは科学を行うときにも起こることです。長い推論連鎖、科学的論証がある場合、または複数の学際的な科学的結果が必要な場合、要約ハルシネーションが発生します。

さて、彼らは今、ハルシネーションを自然発生的な効果としてではなく、追跡し特定できる非定常時間プロセスとして扱います。そして彼らは私たちが検討する内部プローブを構築します。

アイデアはシンプルです。思考連鎖の軌跡、ステップ1、2からステップnまであり、推論を開始します。そしておそらく、ハルシネーションしているかもしれないし、していないかもしれません。しかし確実にハルシネーションのフェーズがあります。でも最後には、回復、反省があり、まだいくつかのハルシネーション事実が残っているかもしれないし、完全に回復したかもしれません。

誰が知っているでしょう。いずれにせよ、正しい答えか、ハルシネーションされた答えか、誤った答えがあります。

素晴らしい。彼らは今、いわば二重プローブシステムを発明しました。1つ目はステップレベルの判定です。彼らは定義します。ステップレベルのハルシネーションを、特定の時点での現在の推論ステップが、AIに与えられていない誤った情報やサポートされていない情報を導入するかどうかとして定義します。

つまり、各ステップに対して、1つのステップが1つの文または1つの段落だとしましょう、何でもいいです。閾値を使って、推論トレースのそれぞれの要素に対してステップレベルの判定のようなものを計算できます。そして、閾値を超えるものと下回るものがあります。

しかし興味深いことに、彼らはそこで止まりませんでした。彼らは低周波のプレフィックスレベル状態を定義し続けました。

そして今、興味深くなります。なぜなら今、ハルシネーションの主要部分が完全な推論トレース内のどこで起こっているかを、多かれ少なかれ特定できるからです。

システムが特定の閾値を超えるたびに、アラームを設定できます。

Anthropicの論文が、モデルが特定の活性化状態を感知できることを証明しただけなのに対し、中国によるこの新しい論文は、それを検出できるだけでなく、これに対する診断ダッシュボードを構築しました。

中国、なかなかやりますね。彼らはバイナリラベルから潜在状態空間モデルへと移行しました。

プローブシステムの仕組み

目標は何でしょうか。LLMの内部活性化を見ることで、この汚染、あるいはハルシネーションと呼びましょう、をリアルタイムで検出できることを証明したいのです。ご覧のように、私たちは今、常に活性化について話しています。

これは、モデルが人間ユーザーに最初の文を書き終える前の、リアルタイムトリガーです。

では、私たちは何をしようとしているのでしょうか。モデルの内部整合性に対するリアルタイムストレステストを構築しようとしているのです。

そしてあなたは「AIが内部整合性を持つことがどうして可能なのか?」と言うかもしれません。まあ、それは興味深いです。でも最初にプローブを構築する必要があります。

ご存知のように、典型的なLLMは複数の層を持ち、AIモデルは隠れ状態、高次元ベクトルHを持っています。プローブは単純に、これらのトランスフォーマー層の1つに接続する非常に軽量な数学関数、通常は単純な線形分類器です。

LLM自体は凍結されています。もちろん、変更したくありません。アクティブなトレーニングプロセスは進行していません。

そして今、プローブ自体は、トランスフォーマーアーキテクチャの特定の場所で見る隠れたベクトルのみに基づいて、1つの質問に答えるように訓練されます。

モデルが現在ハルシネーションしている可能性はどのくらいか、そして私たちはこのプローブを訓練しています。

さて、ローカルビューはもちろん、このステップレベル信号です。長い推論連鎖をステップ、文に分割します。ステップレベル信号は、この特定の時点で、この単一の文で、今まさに何か問題が起こったかどうかを見るために、現在の文の隠れ状態のみを見ます。

文全体に対して単一の信号を得るには、1つのトークンだけを見ることはできません。その特定のスタンプのすべてのトークンにわたって集約する必要があります。これは指数的な重み付けで行います。そして、ZのTという重み付き平均ベクトルを計算します。

素晴らしい。そしてこれはまさに起こっていることです。彼らはTのセットをプローブに通して、ステップレベル信号のための特定のTのCを得て、これは0と1の間の値に正規化されます。

さて、このCステップは今、私たちの煙探知機です。これは本当にノイズがあります。ご存知のように、時々モデルは語彙にない科学用語を使ったり、誤報をトリガーするかもしれないような複雑な構造を使ったりします。

ノイズの多い誤報、あまり良くありません。これが、アーティストが動作が大きく異なるものを構築することを決めた理由です。

プレフィックスレベルインテグレーターです。これは今、すべてのステップの履歴を見て、モデルが実際に道を失ったかどうかを決定します。

これは今、状態追跡という美しい機能で、すべての要素を持つ推論パス全体がどの程度ハルシネーションされているか、またはされてきたかの実行スコアを維持します。

方向的整合性があります。なぜなら、現在のステップレベル信号が現在のグローバルスコアより高い場合、グローバルスコア、私たちが望むものは跳ね上がるべきです。そしてもちろん回復があります。

モデルが間違いを犯したことに気づき、うまくいけば自己治癒、自己推論、自己修正、自己学習、マーケティングで何を持っているにせよ、それを持つAIモデルがあり、次の文で自己修正します。

このステップレベル信号は低下します。なぜなら、おそらくこの次のまさに次の文は正しいからです。しかしインテグレーターは今、グローバルスコアをゆっくりと減少させることができるはずです。

そしてインテグレーターには今、記憶があります。ねえ、ステップ2には純粋なハルシネーションがありました。だから潜在的な軌跡は今、作話スパイラルゾーンに入ります。なぜなら、論理的推論プロセスA、B、C、DでBが間違っていたことを知っているからです。

論理強化トレーニング

では、どのようにこれを行うのでしょうか。論理強化トレーニングがあります。特定の損失関数を使用します。これが同期化されたものです。

これをご覧ください、これはインテグレーターの脳です。特定の損失関数を使用して、層に挿入したプレフィックスプローブを訓練します。

それは論理的なif-thenルールに従います。数学的にはシンプルですが、ローカルな煙探知機またはキャップがグローバルスコアより高い場合、アラームを上げないことに対して今このモデルに大きなペナルティを課します。

そこで今、彼らはこれら2つの信号、実際の短期信号と長期信号を賢く組み合わせ、騙しの安定フェーズを特定します。それが騙しである理由は特定の理由があります。見てみましょう。

今、4つのフェーズがあります。まず根拠のあるもので始まります。テキスト出力でxを5とします。ステップレベル信号はとても低く、プレフィックスインテグレーター信号も低いです。これが条件です。

次に2×xは12です。これは検証可能な数学的操作です。だからステップレベル信号は「ねえ、これは正しくない。ちょっと待って、私のPythonは何か別のことを言っている」と言います。

だからほぼ1までのスパイクがあります。プレフィックスインテグレーターは応答がはるかに遅いです。以前の記憶があります。だから上昇していますが、それほど速くありません。

そして今、この騙しの安定フェーズがあります。今、AIが「ところで、したがって12÷3は4です」と言います。そして、まあ、これは正しい文です。

何が起こるでしょうか。私たちの即座の高周波検出器、ステップレベル信号は低下します。ええ、これは正しいと言います。

しかし、プレフィックスインテグレーターはまだ高くあってほしいのです。なぜなら、すでにこの論理連鎖で大規模なハルシネーションが起こっているからです。

そしてポイント4、崩壊です。なぜなら今、最終的な答えは4です。これがこの演習の推論ステップであることを考えると。

だからステップレベル信号は今、再びスパイクに跳ね上がり、プレフィックスインテグレーターは、ご覧のように、その傾きで安定した上昇を持つべきで、クリティカル、ほぼ最大まで上昇していると言います。

つまり、プロセス全体がこのハルシネーションで多かれ少なかれ汚染されているのです。

プレフィックスインテグレーターは、ステップ2からのシードエラーを覚えています。だから、線形連鎖で条件的に何かが起こっているときはいつでも、今それが依存していることを知っています。なぜなら理論的には、システムは正しい結論に達することができるからです。

その場合、何が起こるのでしょうか。見てみましょう。

一般的に、ステップレベル信号があります。ローカルな高周波センサーで、現在の活性化シフトの即時的妥当性を測定します。それが起こった場合です。

そして、この低いプレフィックスレベルインテグレーターがあります。低周波状態トラッカーで、ノイズをフィルタリングし、モデルが純粋なナンセンスの自己強化ループに入ったことを認識します。これをハルシネーションと呼びます。

ハルシネーションの潜在的残留物

今、これらのプローブからこれらの信号が来る場合、AI研究者は、プレフィックスインテグレーターが閾値に達した瞬間に一時停止するエージェントを構築できます。そして「ちょっと待って、このAI AIモデルの推論プロセスは消えました。忘れてください。現在の文、現在の出力がまだ完全に自信を持って聞こえていても」と教えてくれます。

何かが起こったことを知っています。だから、最終結果を検証するために待つ必要のない内部信号があります。論理ソルバーか何かで。

論文では、プローブの訓練の詳細なステップをすべて実際に提供しています。もちろん、これはシステムなので、これらの要素を訓練する必要があります。でも、結果だけをお伝えします。

最終的な結果は、ハルシネーションはAI内で起こる一時的な過ちではなく、高い運動量を持つ状態空間軌跡であり、論理的汚染はすべてのステップで起こる可能性があるということです。

つまり、いわばAIモデルの内部信頼性、ハルシネーションしていないことは、完全に非対称です。AIモデルがハルシネーション状態に入ることは驚くほど簡単ですが、一度それが始まると、その特定の状態を排除することは数学的にも表現的にも極めて困難です。純粋な論理における下向きのスパイラルのようなものです。

だから、このプレプリントは、このプレプリントは、AIにおけるハルシネーションが内部潜在残留物を作り出すと結論づけています。

つまり、モデルが間違いを犯したことに気づき、テキスト出力で自己修正したように見えても、オープンソースモデルが示す推論トレースで、その内部隠れ状態、本当に状態は、以前のシードエラーによってしばしば汚染されたままなのです。

これは良くありませんが、私はあなたが私と同じ質問をすることを知っています。ねえ、モデルはこの、ねえ、ユーレカの瞬間を持つことができないのか、そして59分間間違った方向に進んだ後、論理を完全に修正できないのか。でも1分残っていて、もしかしたらその時、それが起こったのでは。

そしてこのプレプリントで、著者はこれを分析し、統計セットで、5ステップ以上のハルシネーションの後に正しさに奇跡的に戻ることは統計的にさえまれであることを発見しました。5%未満です。

つまり、この特定のプレフィックスプローブが特定の閾値を超えると、モデルは基本的にシーで失われています。この時点以降に生成される正しいテキストさえも、真の論理的修正ではなく、偽の回復である可能性が高いのです。

彼らはこのための特定のメトリックを開発しました。彼らはこれを残留時間メトリックと呼びます。

だから、もっと多くの詳細があります。元のテキストを読んでください。私は主な洞察と主な結果をお伝えして、彼らがハルシネーションのためのキルスイッチを本当に見つけたことを伝えているだけです。

なぜなら、歴史的に、いや、歴史的というのは昨日のことですが、私たちはAIモデルが話し終わり、出力で結果を提示するのを待ち、それから報酬モデル、あるいは検証可能な報酬による強化学習を使って結果を判断し、それから最適化プロセスが始まります。

潜在的バックトラッキングアルゴリズム

しかし今、キルスイッチがあります。だから最終的な洞察は新しい干渉アルゴリズムにつながります。潜在的バックトラッキングと呼べるものを持つことができます。それは本当にシンプルです。

次のステップtを内部的に生成するだけです。訓練されたこのプローブでプレフィックスを計算します。そしてこのプレフィックス値が特定の閾値、5としましょう、を超えている場合、トランスフォーマーのステップtを完全に削除し、再サンプリングを開始します。

だから、活性化のハルシネーション状態をトリガーしない別のパスを見つけることをモデルに強制しています。なぜなら、ハルシネーション状態がトリガーされると、再び真実を再発見、再学習、再出現する可能性は5%未満だからです。

この研究には本当に興味深い研究があります。

だから、この研究はここで、テキストで見るものは本当に表面だけであることを証明する方法と特定のメトリックを提供しています。推論トレースを見せてくれる推論モデルがあっても。なぜなら、彼らが何であれ、AI推論プロセスの真の健康は、隠れた、蓄積する、そして非常に頑固な内部状態であり、単一のイベントではないからです。

エントロピー適応型ファインチューニング

これが2番目の論文でした。そして、3番目の論文を待っていることを知っています。では、行きましょう。

忘却を緩和します。そして、これを非常にエレガントな方法で、エントロピー適応型ファインチューニングで行います。

そしてあなたは「何?」と言うかもしれません。まあ、これを別の方法で表現できます。今、このOriはすべてで破壊的忘却のメカニズムを特定しました。なぜなら、彼らはそれが教師あり学習のファインチューニング中に彼らが勾配爆弾と呼ぶものによって引き起こされることを示しているからです。

そして、これは確信の衝突で発生します。そして今ついに、著者の定義における確信の衝突とは何かを説明できます。そして、はい、彼らはGitHubを持っていて、すべてがあなたを待っています。

定義によると、衝突は、モールの出力確率またはターゲットトークンが低いが、その予測エントロピーHも低い場合に発生します。ここにその式があります。

だから、低低状況があります。では、今、内部AIの思考プロセスは何でしょうか。もしそれが人間であり、AIが考えているとしたら。

AIは考えます「ねえ、私はXが真実であると絶対に確信しています。」だから予測エントロピーが低いのです。「でもあなた、人間のあなたは、私にYが真実であることを学ぶことを強制しています。」

つまり、私たち、いやAIは、今、学習における衝突に遭遇しているのです。

さて、残念ながら教師あり学習は外部監視に依存しています。だから、私たち人間が「ねえ、これが正しい方法だ」と示したか、あなたには不一致を導入する、より強力な教師AIモデルがあります。

この不一致は低確率と低エントロピートークンとして現れます。

この不一致は、低確率でありながら低エントロピーであるトークンによって特徴付けられます。この特定の領域は、モデルが事前トレーニングを考えると、自身の予測、低エントロピーについて非常に確信しているが、忘却を強制されるシナリオに対応します。

教師あり学習のファインチューニング中に起こる忘却。新しいデータで知識を上書きするとき、新しいデータで知識を上書きするとき、新しいデータで知識トレースを上書きするとき、著者はパイロット実験を実施しました。

彼らは単純に、トレーニングプロセス中にこの衝突領域、この確信の衝突エリア、トークンをマスクアウトしました。そして何だと思いますか、標準的な教師あり学習のファインチューニングと比較して大幅に緩和されました。

だから著者は今主張しています。これらの衝突するサンプルに対する更新を強制することが、AI能力劣化の主要な推進力であることを確認しました。

これは今、新しい洞察です。低エントロピーと低確率トークンによって定義される確信の衝突が、教師あり学習でAIモデルをファインチューニングするときに起こる破壊的忘却の主要な原因です。

では、あなたは「わかった、解決策は何?」と言うかもしれません。そして著者もこれについていくつかのアイデアを持っています。彼らは今、新しいファインチューニング方法を定義しているからです。

それは簡単です。彼らは今、エントロピー適応型ファインチューニングを持っています。外部評価を持ちたくない場合、AIモデル内に何があるでしょうか。

彼らはこれをEAFT、エントロピー適応型ファインチューニングと呼び、ベースモデルを保護します。彼らは今、正規化されたエントロピーゲーティング信号、H gilded Tで単純にスケーリングすることで、交差エントロピー損失関数を変更します。

ここにあります。これです。これがあなたの変更された交差エントロピー損失です。

そして、このゲーティング項H gilded Tは、上位20トークンのエントロピーから導出されます。

だから、特定の時間ステップTでの上位20トークンのエージがここにあります。3は論文で見る係数です。そしてこれは私たちが知っている馴染みのあるものです。これは新しいことではありません。今、ここに特定の正規化されたエントロピーゲーティング信号があるだけです。

これは今、全体としてソフトゲーティングメカニズムとして機能します。なぜでしょうか。トークンレベルのエントロピー自体に基づいて、トレーニング損失を動的に調整するからです。

内部状態、内部データが必要で、トークンレベルのエントロピーはもちろん、ここで最初に探しているものです。

これは、HギルデッドTが1に近づいている場合、ゲートが開いていることを意味します。だからモデルは学習に興味を持ち、新しいドメインを学び、教師あり学習のファインチューニングが起こります。

しかし、このHKTがゼロに近い場合、ゲートは今、自分自身を閉じています。だからモデルは今、新しいトレーニング信号を無視するように教えられ、一般的な論理回路や事実回路を上書きする重み構造、重みテンソルの大規模な更新を防ぎます。

実験結果と課題

では、結果はどうでしょうか。うーん、結果はそれほど明確ではありません。

これを見ても、わかります。彼らは異なるLLM、QN3、QN2.5、GLM4を使用しています。素晴らしいです。そしてここに数学ドメインのAM24、AM25と標準ベンチマークがあります。

そして一般ドメインがあります。上書きしても性能がまだあることを確認したいからです。そして一般的な平均があります。

最後の行を見ると、80%で支配的な結果を得るには特定の構成が必要な新しい方法論があります。なぜなら、時々79.6%だからです。

Coolback Lieblerダイバージェンスを使った教師あり学習のファインチューニングも悪くありません。だから、ええ、違いがここにあります。

さて、これをやって、この特定のテストとこの特定の構成を選択すれば、この新しいファインチューニングメカニズムは、数学のようなターゲットドメインで競争力のある性能を維持しながら、このベンチマークのような一般的能力における破壊的忘却を大幅に緩和すると言えます。

だから、正しい方向への小さな一歩です。素晴らしい。

私が気に入っているのはこれです。今、彼らはエントロピー対確率を見せてくれ、教師あり学習のファインチューニングがここで強い最適化圧力を加えることを示しています。この濃い紫色の領域、このエリアでシステムに対してこれを見ることができます。

これを、このソフトゲーティングメカニズムを持つ新しいファインチューニングと比較してください。彼らは今、淡い黄色でここの勾配を効果的に抑制し、モデルの既存の知識、事実、データなどの表現を保護しています。

だから、いわばストレスはむしろこの領域にあります。これは低エントロピー低確率ではありません。だから美しい効果があります。でも、あなたは推測しましたね。

数学的表現と統合の可能性

ええ。結論に入る前に、数学的表現に行きましょう。言語的説明から純粋な数学への少しの再構成をしましょう。あなたはすぐに私が何を話しているかわかります。

交差エントロピーはすべてのトークンを同じに扱います。これがあなたの交差エントロピーの損失関数です。素晴らしい。

そしてもちろん、ここで忘れないという目的を、ここに私たちのダイバージェンスやCoolback Lieblerダイバージェンスのような正則化項を通じて管理します。これはペナルティとベータ係数を追加します。

モデルがここで遠くに漂いすぎた場合、ここの新しい確率、ベースモデルからの新しい確率、ここのベースモデル確率です。だから、私たちはこれをその場に保ちます。

今、私たちは言います。あなたは小さなベビーステップができます。小さなベビーステップで学習できますが、学習プロセスでここで大きなステップを踏むことはありません。あなたは常にベースモデルの確率分布に近くなければなりません。

さて、今、私たちは別のアイデアを持っています。ええ。今、ここに、私たちにここで標準的なものがあることを教えてくれる新しいEFTポイントチューニング損失関数があります。あなたが知っている交差エントロピーですが、今、私たちの上位10、20、30トークンのエントロピーを持つこのソフトゲーティングメカニズムがあります。そこにあります。

でもよく見てください。私たちはCoolback Liveダイバージェンスの外部ペナルティを取り除きました。

そして再び、このビデオの最初を思い出してください。私は内部、内部、内部と言いました。今、ここでもこれが3番目の論文で、ここでモデルの内部状態、もちろんエントロピーを使用して、どのサンプルが学習するのに危険かを決定します。

あなたはすぐにサイバーセキュリティのリンクを見ますが、私たちは今、一般的な学習フェーズにいます。

だから、素晴らしい、美しい何かを管理しました。私たち人間は干渉する必要がありません。だから、これはここで損失関数を変えます。これは、AIに提示されるトレーニングデータを自動的にフィルタリングする選択メカニズムに最良の方法で変えるのは興味深いです。

そしてAIは「いいえ、私はこのデータが好きではありません。このデータは私のすでに事前トレーニングされたデータや事後トレーニングされたデータと矛盾しています」と言うことができます。

だから、AIモデルの内部神経固有受容状態が今、新しい学習プロセス中にモデルが自分自身と衝突したくないと決定します。これは単純に美しいです。

でももちろん、あなたはすぐにここでこれに伴う問題を見つけました。ええ、なぜなら、モデルが確信を持って間違っている場合、時代遅れの事実を信じている場合、この特定の国の首相がXYZであり、損失ゲーティング乗数はゼロに近いままになります。

だから、モデルは基本的に新しいトレーニングデータを無視します。

しかし、私たちは新しいトレーニングデータを持っています。なぜなら、私たちは動的な世界に住んでいて、首相は3年、4年、5年ごとに変わり、天気は完全に変わります。

そして、モデルは新しいデータ、新しい事実、新しいプロセス、新しい推論、複雑さを学習する必要があります。

サイバーセキュリティのためには「ええ、あなたは元の構成に留まり、何が起こっても自分自身を修正する方法はありません」と言えます。しかし、LRMの一般的な学習スキームでは、モデルが学習することを望みます。

3つの論文を統合する可能性

今、私は3つの論文を見せた理由がわかります。なぜなら、今、3つの論文が全体として解決策を提供するからです。

もちろん、最も単純なケースは、新しいデータが新しい事実だけの場合、それらにラベルを付けることができます。AIに新しい事実、新しい名前だけにラベルを付けるよう頼むことができます。そして、このデータがプロセス、ルーチン、推論の複雑さから分離可能な場合、これは美しいです。ええ。

だから、現在のシステムの教師あり学習のファインチューニングで持っている安定性可塑性ジレンマは、引用符付きで簡単に解決できます。私たちは特定のゲートを開くべきです。そして何だと思いますか。これは負のゲートです。これは1引くHギルデッドTゲートです。

このゲートは今、特定の事実回路のために開きます。ラベルで示しました。ねえ、これは新しい事実です。この事実を学んでください。ゲートが開き、モデルは学習します。いわば予測ゲートを論理推論のためにアクティブに保ちながら。

しかし、もちろん、あなたは知っています。首相や何かのような対象物に関する純粋な事実と新しい推論アルゴリズムが本当に絡み合っている場合。複雑な新しいダイナミクスがある場合、経済、金融、物理学、化学、医学への新しい研究がある場合、これらの複雑さを分離することはできません。

AIにこれをやるように頼むことはできません。でも、AIによって全体の複雑さが学習されることを望みます。今、問題に直面します。

さて、主な質問は、この論文を読むことで、私は約70本の論文の技術的要約を読みましたが、これら3つの論文を読んで、これらを組み合わせることができるかと言いました。

なぜなら、今これに遭遇した場合、私の質問のようでした。Anthropicの内省的認識を利用できるか、最初のAnthropicの論文、このメカニズムを信頼できるかです。そうすれば、少なくとも一時的な解決策を見つけることができます。

なぜなら、そうすれば、監視するために、私たちの論文の1つからプレフィックスインテグレーターデータを使用して、いわばAIの頑固さを特定し、推論失敗につながるものを特定すると言えるからです。

トランスフォーマーの層の深部にプローブを持ち、AIの内部回路から信号を得ます。「ねえ、何かが起こっている、何かが間違っている、私たちはハルシネーションし始めている」と。

それから、Anthropicの検証を使用します。内省的認識を使用すると言います。モデルに単純に尋ねます。モデルは真実であるべきです。これが何を意味するにせよ。

「ねえ、あなたは今、新しいデータx、新しい事実x、新しいプロセスxを学ぶことを強制されていますが、あなたの活性化はこう感じます。なぜこれは意図的な修正なのですか?この新しいデータを受け入れますか?」

これをここであなたに伝えると少しクレイジーに聞こえますが、私が何を意味するか理解していると思います。Anthropicがここで使ったものは本当に真実ですか。この複雑さのレベルで、AIがパターン認識マシンであるため、活性化パターンの変化について何らかの自己認識を持つように開発できますか。

なぜなら、もしそうであれば、次のステップは簡単です。これで検索論文が終わります。

モデルが確信を持って正しい場合、つまり低いHと高い確率を持つ場合、それを維持します。

モデルが不確実な場合、つまり高いエントロピーを持つ場合、今学んだ標準EFを通じてそれを学習します。

そしてモデルが確信を持って間違っている場合、つまり低いHと低いPを持つ場合、時代遅れのプロを溶かすために1引くHオーバーライドゲートをトリガーできます。

実装への期待

だから、これはこれらすべての論文を読んで、私の知識体系、AI研究を前進させるための理解にこの論文をどのように統合できるかを理解し、新しい解決策を思いつこうとした直後の反応にすぎません。

そしてこのAIハルシネーションのキルスイッチは絶対に美しいです。私はこれを私のマシンに実装しようとしなければなりません。そして、もしあなたが望むなら、数日または数週間後にプロセスとこのシステムが本当に機能しているかどうかについて報告します。

もしあなたが何か洞察を持っているか、これらのシステムを構築していて、「ねえ、私は何か特定のことに気づきました」と言う場合は、このビデオの説明にコメントを残してください。あなたから聞けたら素晴らしいです。

とにかく、少し楽しんでいただけたことを願っています。今、私たちはここで3つの論文を並行して読みました。

いくつかの新しい洞察が得られたことを願っています。購読してメンバーになってみませんか。