プリンストン大学発:自己修正AIデルタトランスフォーマーの新アーキテクチャ

AI研究
この記事は約24分で読めます。

プリンストン大学とUCLAが発表した2つの革新的な論文が、現在のAI推論モデルが抱える根本的な欠陥を明らかにした。従来、AI推論における「aha moment(ひらめきの瞬間)」は知性の証とされてきたが、実際にはモデルの内部不安定性を示すシグナルであり、精度が最大40%低下することが判明した。この問題の原因は、トランスフォーマーアーキテクチャが信号の保存と蓄積には優れているものの、誤った情報を削除する機能を持たないことにある。プリンストンが提案する「Deep Delta Learning」は、一般化されたHouseholder行列を用いた幾何学的演算子により、誤った推論トレースを直交部分空間に投影して完全に削除することを可能にする。この2つの論文を統合することで、ペンシルの消しゴムのように誤りを完全に消去できる「自己修正デルタトランスフォーマー」という全く新しいAIアーキテクチャの青写真が浮かび上がる。

Princeton: NEW Self Correcting AI Transformer
Based on two new AI research pre-prints by Princeton University (see below) I design a new transformer architecture, by ...

プリンストン大学の革新的AI研究

コミュニティの皆さん、こんにちは。戻ってきていただけて本当に嬉しいです。まったく新しい研究があります。素晴らしい内容です。これから人工知能のための自己修正デルタトランスフォーマーアーキテクチャを一緒に開発していきます。それでは見ていきましょう。私のチャンネル「Discovery」へようこそ。最新のAI研究論文、複数形ですよ、そう、もちろんです、を見ていきます。

さて、研究者の皆さんがここで目にするAI推論トレースにおける自発的なaha moment(ひらめきの瞬間)について。今、新しい洞察があります。これは天才のひらめきではなく、混乱の兆候として解釈できるのです。私は学び直さなければなりませんでした。なぜなら、これは実は「私はAIとして確信を失った」というシグナルだからです。

今、私は高いエントロピーを持っており、残差ストリームにノイズが乗っていて、崩壊寸前の状態にあります。これはAI内部で、この初めての出来事をごまかすための幻覚的な正当化を生み出すことになります。ですから、もしあなたが自発的なaha momentを見て、これは「自己反省するAI」だと称賛していたとしたら、今日それが死のスパイラルだと判明したのです。新しい研究によって、この自発的な変化は最大マイナス40%という大幅に低い精度と相関していることがわかりました。

AIの推論トレースにおける根本的問題

なぜかとおっしゃいますか。シンプルです。これが最も簡単な説明です。LLMは汚染された状態を通して推論することを強いられているのです。これは車を運転しているのに、1マイル後ろで落としたアンカーを引きずっているようなものです。推論トレースの中にまだすべてが残っているのです。「ちょっと待って、これについて考え直してみよう」といった言葉と、すべての誤った記述が一緒に。

さて、ここにあります。プリンストン大学とUCLA、2026年1月1日発表の論文です。Deep Delta Learningについてです。彼らが行っているのは美しいことです。彼らは適応的幾何学的残差接続を再解釈しています。「残差接続?」とおっしゃるかもしれません。はい、その通りです。私の以前の動画で、先週Googleが新しいトランスフォーマーを開発する際に、残差ストリームを取り上げてメタコントローラーを統合したことをお見せしました。

そして今、まさにこの残差ストリームをプリンストンと一緒に使用していきます。ここを見てください。これはプリンストンからのスクリーンショットです。彼らはまさにここで残差関数f(x)を扱っています。「ちょっと待って、これ知ってる」と思われるでしょう。いいえ、そうです、もちろんです。これはまさに私たちがDeepSeekの動画で一緒に始めた地点です。そこで私は、DeepSeekがほんの数日前に新しいトポロジカルトランスフォーマーを発表したことをお見せしました。

そして今、プリンストンは同じ要素に基づいて構築しています。偶然なのかと疑問に思われるかもしれません。それとも、世界中の研究コミュニティが、より良いAIアーキテクチャを構築しなければならないと気づき始めているだけなのでしょうか。もしトポロジカルトランスフォーマーとは何かが明確でない場合は、DeepSeekの動画をご覧ください。3分34秒あたりから始められます。

プリンストンのDeep Delta Learningの成果

さて、プリンストンの最終結果をお見せします。これが最終結果です。プリンストンは非常に特定の恒等式を持つトランスフォーマー用の新しい演算子を開発しました。ベータ値がゼロの場合、残差ストリームにスキップ接続を持つ恒等式があります。「ああ、これは知ってる。もちろん」と思うでしょう。次に射影があります。射影は忘却ゲートです。これは特定の直交超平面への直交射影です。

そして単純な反射があります。そして、今何が来るか正確にわかりますよね。いいえ。はい。今、2つ目の論文があります。なぜなら、私たちはここで新しいトランスフォーマーアーキテクチャを構築したいからです。プリンストンは新しいトランスフォーマーに関する新しい論文を発表しただけでなく、2つ目の論文も発表しました。プリンストン大学です。

こんにちは、ようこそ。「推論モデルにおける洞察の幻想」についてです。これから私たちがすることは、あなたと私で今この2つの論文を並行して読み、それらが完璧にフィットするパズルのピースであることを発見します。この動画の最後には、あなたと私でプリンストン大学の洞察に基づいた新しいトランスフォーマーアーキテクチャを発表することになります。

楽しみましょう。さて、プリンストンはこの出版物で、2026年1月2日付のものですが、いくつかの逸話的証拠があると教えてくれています。強化学習でファインチューニングされた言語モデルがこれらのaha momentを示唆しているようだと。人間の問題解決を彷彿とさせる明白な洞察のエピソードです。そしてプリンストンは、このaha momentの存在が、推論モデルが本質的に自己修正できるかどうかに関連していると述べています。

自己修正の幻想と構造的限界

「ちょっと待って、自己修正? これ見たことある」と思われるでしょう。はい、もちろんです。私の最近の動画の1つで、Googleがコンテキストシンボロジーで極端なことをしている話をしました。いや、違う。これは明日見る動画かもしれません。すみません。いや、忘れてください。これは明日公開予定の動画です。では続けましょう。

私たちは、ハードウェアとソフトウェアによって引き起こされるAI内部の対立があることを目にします。DDL(Deep Delta Learning)でハードウェア部分を持つことができ、プリンストンの2つ目の論文がソフトウェア部分を解決してくれます。私たちは当然、推論できるAIエージェントを望んでいます。これには本質的にバックトラッキング、仮説の修正、そして明日見る動画の自己修正が含まれます。

私たちは現在、コミュニティ全体として、プレトレーニングとその後の人間のフィードバックによる強化学習のポストトレーニングを通じてこれを実装しようとしています。GRPO最適化があり、「ちょっと待って、再評価してみよう」といったテキストを出力するようモデルを教えています。ここでプリンストンの定式化の中にすでに見えていますが、これはLLMから創発的で知的なものではなく、私たちがこれらのLLMに「ちょっと待って、再評価してみよう」といったテキストを出力するよう教えているだけなのです。

そして、私はこの瞬間に「これは本当に本質的なAIの思考プロセスだ、何らかの反省や自己修正の創発だ」と整理していました。しかしプリンストンは私に「忘れてください。これは単なるAIマシンです。パターンをコピーするパターンマシンです」と言いました。

プリンストンによるこの新しいプレプリント論文は、残念ながら言わなければなりませんが、これが主に幻想であることを証明しています。これらすべての「ちょっと待って、もっと良いアイデアがある」といった発言は、忘れてください。それは単に形式的に正しく見せているだけです。モデルは実際には自己修正していません、実際には自己修正していないのです。修正の美学的なパターンをシミュレートしているだけです。私はこれが好きです。根底にある推論の不安定性に苦しみながら。

私が知性の兆候だと見ていたもの、「ちょっと待って、これについて考え直してみよう」とか「もっと良い解決策が見つかるかもしれない」というのは、AIの根底にある推論の不安定性に苦しんでいるだけだったのです。素晴らしい。しかし根本原因は何でしょうか。科学者として、あなたは「わかった、症状は教えてもらった。でも説明は何?」と言うでしょう。

さて、考えてみると、トランスフォーマーは、特にDeepSeekで行ったように残差ストリームのトポロジーを見た場合、信号の保存と信号の蓄積のために設計されていますが、信号の修正のためには設計されていません。古い状態にリセットして戻ることもできません。いいえ、ResNetレイヤーは前のレイヤーによって追加された誤った情報を削除するのに苦労します。それは、追加の新しい情報をより大きな声で叫ばせることで希釈しようとすることしかできませんが、削除することはできません。

トランスフォーマーの構造的制約

この構造的硬直性が、これらのaha momentが実際にはなぜこれほど効果がないのかを説明しています。なぜなら、起こることは、AIモデルが突然エラーを認識し、次のトークン予測で高いエントロピーを持つようになりますが、加算的アーキテクチャがエラー特徴を前方に運ぶことを強制するからです。いいえ、それは単に修正を追加しているだけで、このエラー文を推論トレースに連結しているのです。一部のオープンソースモデルでそれを見ることができます。

しかし、これは干渉を生み出すだけでなく、本当に悪いもの、つまり誤った推論トレース、不正確な推論トレースの残差蓄積を生み出します。「ちょっと待って」という言葉を10回見たら、UIの最終的な長い推論トレースの中に10個の誤った推論トレースがあることになります。では、何が出てくるか推測してください。

そして今、あなたはここにいて「もし私たちに新しい方法論があれば、トランスフォーマーアーキテクチャのレイヤー間の残差ストリーム内の情報を本当に削除できるなら、大声で上書きしようとするのではなく、削除できるなら」と言います。

さて、何だと思いますか。これはまさに、プリンストン大学の最初の論文が新しい演算子で達成したことです。なぜなら、このベータ値を1に設定すると、超平面への直交射影がまさに得られるからです。これは、特定の情報ストリームに対して特定の部分空間を構築することを意味します。そして、この誤った不正確な推論をすべてこの特定の部分空間に入れ、そしてこの部分空間を削除するだけです。AIはこのアンカー、この誤った推論というバラストを運び続ける必要がなくなります。なんとエレガントな解決策でしょう。それのための空間を作り、その空間を削除すれば、消えるのです。

美しくないですか。さて、興味深いことに、私は今プリンストンによるこれらの洞察を組み合わせた論文を見ていません。なぜなら、私の動画で今行ったことは、両方の論文を並行して読んだからです。最初の論文だけを読んでも、2番目の論文だけを読んでも、これは得られません。本当に並行して読む必要があります。そしてこれは人間にできることです。そしてこれが、このチャンネルがAI生成のYouTube動画よりもはるかに美しい理由です。

Deep Delta Learningの数学的基礎

このDDL、このDeep Delta Learningは、そしてこれについて2分後に動画の最後で数学的な深掘りをします。これは最初のイノベーションであり、まず最初にすべてを説明して、感覚をつかんでいただいてから、数学に飛び込みます。このDeep Delta Learningは、この幻想を現実にするために必要な数学的プリミティブを提供します。

ネットワークがここで特定のテンソル構造、特定の項を適用できるようにすることで、AIモデルは今、私がお話しした直交射影を実行できます。すでにそこにある新しい数学的部分空間を作成し、すべての無駄をこの部分空間に押し込み、そして新しい仮説をさらに注入する前に、すべてのエラーを含む部分空間を数学的に削除します。

アイデアは単純です。美しいゴミ箱があって、誤った推論トレースをすべて取り除くだけで、それを連結して、連結して、連結して、そして最後に10万、20万、50万トークンに対してお金を払うことはないのです。

研究者への最終的な要点は、科学と数学の領域に入る前に。現在のLLM、オープンソースのLLMでさえも、推論トレースが真の認知的修正を反映していると仮定しないでください。そうではありません。ノイズです。加えて、本当に真のシステム2のAI推論を構築したいのであれば、このスロー推論システムは、単純なプロンプティングを超えて、特にポストトレーニングではOpenAIの人間のフィードバックによる強化学習を超えて移動する必要があるかもしれません。

バックボーンのトランスフォーマーアーキテクチャと、レイヤーアーキテクチャへの残差ストリーム統合を、破壊的状態更新をサポートする異なる方法で修正する必要があります。AIに誤った推論トレースを忘れることを教え、これをハードウェア側とソフトウェア側の第一級操作として実装する必要があります。

これが完全に新しいAIアーキテクチャの展望です。将来の推論モデルがこのDDLのような演算子をアテンションブロックに統合することを願っています。つまり、誤った推論トレースを忘れるための特定の演算子が追加された新しいアテンションブロックを持つ、第3の形態の新しいトランスフォーマーアーキテクチャが見られることになります。

これにより、AIモデルは高いエントロピーを検出したときに、コンテキストウィンドウに「私が間違っていました」と単に追加するのではなく、残差ストリームから幻覚的な分岐を物理的に消去できるようになります。

ですから、私たちは毎日学んでいるのです。毎日新しいことを学びます。そして毎日、私が正しいと思っていたことが、この美しい惑星のどこかのチームが「ねえ、私たちはAIの結果の解釈で間違いを犯していました」と示してくれます。

エントロピー制御による記憶管理メカニズム

今私たちが持っているのは、新しいメカニズム、トランスフォーマーアーキテクチャにおけるエントロピー制御されたデルタレイヤーです。ここでベータゲート、これは忘却率を制御するものですが、前のトークン生成の確信度、エントロピー計算によって制御されます。

非常にシンプルな数学的操作ですが、これを構築しなければなりません。さて、一般視聴者の皆さんにはここで視聴のお礼を言います。一部の方は科学パートを見たくないことを知っています。しかし今、なぜこれが機能するのか、より深い理由を説明できます。今まではプリンストンか私を信じるしかありませんでした。

しかし今、私たちはアーキテクチャシステムへのエントロピー制御された介入を構築します。私のDeepSeekの動画で始めたことを思い出してください。新しいトポロジカルトランスフォーマーのために、この数式が何であるか、ポリトープの平面への射影について深い説明をしました。今、これを基に構築します。なぜなら、プリンストンのこのDeep Delta Learning論文でも、まったく同じ出発点があるからです。

再びX_L+1、システムの隠れ状態があります。そして今、トランスフォーマーレイヤーの内部ネットワーキングにおける新しいハイパーコネクションの学習が表現される新しい残差成分があります。ここでMHC、多様体制約ハイパーコネクションがあったことを思い出してください。これはAIが学習すべきものだと言いました。

AIを訓練し、これがAIシステムのトレーニングの結果です。つまり、トレーニングデータに基づいて、トランスフォーマーアーキテクチャ内部の接続がどのように学習されるかです。しかし今、さらに進みます。これが残差部分です。今、ほぼ同じものがあります。X_L、私たちのX_Lがありますが、今ここに特定の因子A(X_L)があります。

これは幾何学的変調であることがわかります。ベルコフポリトープでも、1967年からの特定の射影を持つ特定の空間での幾何学的解釈を扱ったことを思い出してください。この動画でポリトープの表面への射影をお見せしました。そして2番目の項があり、2番目の項は今ランク1の注入であり、これが残差ストリームを表していることがわかります。

これは非常に特定の形式であり、この特定の形式がなければシステムは失敗します。なぜでしょうか。デルタ演算子A(X_L)は非常に特定の数学的形式を持っており、数学には常に解決策があることを知っています。これを一般化されたハウスホルダー行列と呼びます。

ハウスホルダー行列とは何でしょうか。単純に、これが主要な数学的定義です。恒等行列マイナス2倍、そしてこの2は反射のために本当に重要です、なぜならこれは反射特性だからです、そして外積があります。この方向への射影を表すランク1行列があります。

しかし今、古典的な形式には進みません。これを適応させます。同じです、同じです、いいえ、恒等マイナス、恒等マイナスですが、今はベータが2ではありません。これは負の値を持つ反射ですが、一般的なベータを使用します。最初の論文でベータが0、ベータが1、ベータが2の場合をお見せしました。

美しい数学的計算で違いを見ることができます。しかし、私たちが今興味を持っているのはこの項です。この項は一般化されたハウスホルダー行列からのまさにこの反射項です。反射項と呼びましょう。このデルタ演算子が、この論文の中核的な新規性です。

幾何学的記憶管理の実装

これは、ハウスホルダー行列の硬直した幾何学的公理である反射を、靴下をしっかり履いてください、AIレイヤーにおける記憶管理のための微分可能なスイッチに変えます。素晴らしい。この数学的にシンプルなことをNano Banana Proでお見せしたかったのですが、Nano Banana Proは高次元空間があって、インターフェースがあって、この特定の空間に反射空間があって、この特定の空間に残差蓄積があると伝えたときに問題が発生しました。

そして直交部分空間や異なる大きさの複数の部分空間を生成したところ、Nano Banana Proは私を理解するのにいくらか問題を抱えたようです。しかし、この画像を見ているあなたは私が伝えたかったことを即座に理解すると知っています。なぜなら、それは次のようなものだからです。パラメータを説明すべきかもしれません。

X_Lは非常に特定の空間に存在します。これらは隠れ状態です。いいえ、標準的なResNetのように状態がしばしばベクトルであるのとは異なり、このDDLでは、これを特徴次元Dを持つ行列として扱っています。これが最初の値で、値次元D_Vがあります。隠れ状態はここで、特徴次元と値次元の外積である非常に複雑な数学的空間に存在します。

特徴次元は、ネットワークの標準的な隠れサイズが例えば4,000であることを忘れないでください。これは幾何学的反射Kが存在する空間次元を表します。値次元は、事前に選択する独立した情報ストリームの値チャネルの数です。

そしてもちろん因子Kがあります。K(X_L)は異なる数学的空間に存在し、トランスフォーマーの古典的なセルフアテンションメカニズムから、Kはキーを表すことを知っています。ここでは、この特定の数学的構造における反射方向です。これは単位ベクトルであり、変更が行われる特徴空間における空間方向を定義します。

エラーを入れる直交空間を構築し、その空間を削除するだけだということを思い出してください。ですから、まず直交方向を持つ必要があります。もちろん、これは単純な2次元空間ではなく、高次元空間です。美しいです。

ベータについてはすでに説明しました。これはゲーティングスカラーと呼ばれます。操作のタイプを制御します。ベータが0と言えば、これは恒等式です。これは残差ストリームです。これはDeepSeekでお見せした主要部分です。これは単なる恒等式です。次にベータが1の場合、何かを消去できます。そしてベータが2の場合、ハウスホルダー行列からの反射です。

このX_Lの定義に戻りましょう。Deep Delta Learningは、達成したいことの美しく天才的な数学的表現を見つけました。しかし、最初にアイデアがあり、次にこのアイデアの数学的定式化があって計算できるようになり、そしてコーディングを始めたのです。ちなみに彼らはGitHubを持っています。

では見てみましょう。幾何学的変調があることをお話ししましたね。それでは、このランク1注入を見てみましょう。kパラメータと値、またはキー値の転置があり、これはもちろん外積です。これは特定のサイズのランク1行列を作成し、この行列は方向Kに沿って新しい情報Vをブロードキャストします。すぐに理解できるでしょう。「私たちは仮想メモリ構造を構築している」と。はい、もちろんです。

そしてもちろんVがあります。これは値ベクトルです。注意してください、異なる次元に存在します。そしてこれは、レイヤーが状態に書き込みたい新しいコンテンツまたは新しい情報、状態自体への情報を表します。

ランク1更新による効率的なメモリ操作

Deep Learningで、いえDeep Delta Learningで、申し訳ありません、著者たちは今、残差ブランチに構造的制約を課して、記憶書き込み操作のように振る舞うことを強制します。エラーを取り除きたいだけだということを思い出してください。数学的空間に特定の記憶構造を構築し、すべてをそこに書き込み、それを取り除く必要があります。

この行列記憶システムを効率的に更新するために、完全な行列を更新することはほとんどありません。ランク1更新を実行します。ランク1行列を構築するには、ご存知のように2つのベクトルが必要です。そして偶然にも、それがキーと値です。

キーは単純に「どこに書き込むか」です。どの特徴部分空間をターゲットにしているのか。そしてV、値は単純に「新しい信号は何か」です。どんな新しい情報をこの、または他の直交部分空間に書き込みたいのか。ご覧のように、これは数学に大きく基づいており、これはすでに数学からの簡略化です。なぜなら、ここで途中のすべてのステップをお伝えしていないからです。

今のところ私を信じていただければと思いますし、数学的な詳細はすべて論文自体にあります。デルタ則は、高速重みや平均二乗誤差に対する勾配降下法に相当する線形トランスフォーマーから知られているものです。そして今、彼らはここで、レイヤーに学習させています。

何でも学習するのではなく、エラー追跡を含む暗黙的に学習された蓄積ではなく、明示的に構造化された更新を学習します。今、すべての演算子を挿入すると、これが最終的な項です。途中の詳細、ステップは元の論文にあります。

では、持っている項を特定しましょう。すみません、最初の項は単純に読み取り射影で、この項を計算します。これは、現在の状態が方向Kとどれだけ整列しているかを測定します。これは現在の状態射影です。

そしてもちろん、デルタ則から、新しい値、新しい情報があります。この新しい情報から現在の状態射影を引いて、デルタ則に従って比較します。この比較は、現在の状態内容と提案された新しい内容を比較します。V転置マイナス射影です。これが私たちが知っているものです。美しいです。

そしてベータ演算子があります。これは更新であり、その差分を方向kに沿って、スカラーベータによってスケーリングして注入します。因子ベータの幾何学的解釈を詳しく見てみましょう。この項に遭遇した場合、これは単純にX_LのKへの射影です。

したがって、これはKと平行です。内積はここで、Kに沿って位置するX_Lの大きさを計算します。注意してください、これはスカラー係数です。そしてKと平行であるため、特徴ベクトルの特定の部分空間を厳密に分離しています。素晴らしい。

ベータ値による操作の制御

再び、ベータです。ベータが0の場合、式でご覧いただけます。これは単に同一です。信号パルスは変更されません。これはまさに残差接続における恒等行列です。これは古くから必要とされているものです。これは深い信号伝播にとって重要です。「深い信号伝播についてもっと情報はどこで得られますか」とおっしゃるなら、DeepSeekの動画に、トランスフォーマーにおける信号伝播理論だけに関する特定の段落があります。

情報はそこにあります。さて、ベータが1の場合の直交射影という最も重要なケースについて。今、AIに誤った情報を忘れる方法を教える可能性があります。今、見ていた項は、この単純な項になります。X_Lマイナス特定の項プラス特定の項があります。

今、このマイナス項は、演算子がKと平行なすべての情報を削除するため、非常に特定の方法で数学的に構築されています。XをKの直交補空間に射影し、ここでの加算により、私たちが望む値、この仮想メモリに書き込みたい値で完璧に置き換えます。

ここで誤った項を取り除き、新しい項だけを数学的空間に書き込むことで、残差蓄積、誤った推論トレースも含む問題を解決します。これらの誤った推論トレースは今や消えました。直交部分空間に入れました。そこに射影しました。消えました。そして推論プロセスのステップ17では、明確な新しい値だけがあります。

これは記憶構造のクリーンな上書きであり、「ちょっと待って、新しいアイデアがある」といったすべてのaha momentと、推論プロセスにおけるすべての袋小路が解決されました。標準的なディープラーニングとプリンストンとUCLAによるこの新しいDeep Delta Learningの決定的な違いを見たい場合、再び戻りましょう。

古典的な、トランスフォーマーではなくResNetに行きましょう。この式があります。これは何を意味するのでしょうか。Kに何が保存されているのか。古い値プラス新しい値です。これは問題です。古典的なトランスフォーマー形式では、新しい信号は古い信号の幽霊によって汚染されています。

ネットワークは、Vを巨大にして古い値を圧倒するように、より大きな声で叫ぶことを学ばなければなりません。これは長期的には不安定を引き起こし、トレーニングから知っている勾配の爆発が発生します。

この新しいDeep Delta Learningにはクリーンな上書きがあります。すでにその部分をお見せしました。Kに保存されているのは、まさに私たちが望む新しい値です。利点は、ネットワークが完全に考えを変えることができることです。推論における袋小路であれば、概念Aから概念Bに切り替えることができ、この概念AプラスBが連結された混乱を残しません。

なんとエレガントな解決策でしょう。数学的アイデアが美しく実行されただけです。デルタ則は単純に、更新がターゲットマイナス現在であることを意味します。キー値転置項を直交成分に追加することで、トピックKに関連しないすべてを保存し、トピックKに関連するが誤っているすべてを、まさに新しい値で置き換えることに成功しました。

2つの論文の統合による新アーキテクチャの提案

これが私たちが望んでいたことです。ですから、ご覧のように、何かを達成しました。プリンストン大学とUCLAからの2つの論文を見て、何かを発見しました。3番目の論文があるかどうかわかりません。まだ発表されていません。プリンストンで確認しましたが、人々が「ねえ、つながりがある。3番目の論文を書こう」と見るような論文はまだありません。

3番目の論文は今、この動画です。あなたと私が両方の論文の完全な理解と、それらがいかに美しく相乗的な利益にあるかを開発したのです。ここでDeep Delta Learningは効果的に、ハードウェアメカニズム、トランスフォーマーアーキテクチャ上の消しゴム演算子を提供し、推論モデルにおけるこの洞察の幻想というソフトウェア問題を解決するためにも特定されました。

今、ハードウェアと組み合わせて使用できるソフトウェアもあり、AIモデルでより良い推論を行い、すべての誤った推論トレースを取り除くことができます。これはまさに、これら2つの論文を私のチャンネルで一緒に読むとき、アーキテクチャにおける美しいブレークスルーを示唆する理由です。新しい研究を行うのがいかに簡単かがわかりますね。

時には、適切な論文を見つけて、論文の洞察を組み合わせるだけでいいのです。時には、これは同じ機関からのものであることも偶然です。要約しましょう。最後です。これを見てみましょう。

今、AIが間違いを犯すことを考えましょう。AIモデルが推論を始めます。もちろん、どこかで始まります。誤った道を進みます。悪い道としましょう。私がタイプするには短いです。今、特徴は特定の方向K_badと整列します。認識、モデルが突然高いエントロピー、高い不確実性を検出し、「あれ、間違った道を進んでしまった」と言います。

プリンストンの幻想プレプリントで示唆されているように、これは進むべき道ではありません。さて、トリガーが来ます。現在のモデルにあるような「ちょっと待って、再計算してみよう」とか「もう一度見てみよう」とか「ちょっと待って、戻らないと」といったテキストを出力する代わりに、今ネットワークはその特定の方向K_bad、悪い推論トレースに対してゲーティングスカラーベータを1に向けて駆動します。

そして、お見せしたように、この特定の項、恒等マイナスこれが、間違った推論に関連する特徴を数学的に消滅させます。なぜなら、それを直交数学空間に入れて、この数学空間に「さようなら」と言うだけだからです。

間違った答えの幽霊、つまりこのツリーへの間違った分岐は、隠れ状態から削除されます。モデルはクリーンで、正しい軌道にいることを理解します。モデルは今、新しい仮説、新しい値をクリーンな状態、記憶に書き込みます。美しくないですか。

完璧ですか。いいえ、もちろん違います。プリンストンのこれら2つの論文を最適化する方法について、私にはさらに3つのアイデアがあります。あなたにはもっとあるかもしれません。しかし、今日はここまでにして、「あなたと私の少しの助けで、あなたと私が、これら2つの論文を組み合わせると、効果的に自己修正デルタトランスフォーマーという新しいアーキテクチャを提案しているのです」と言いましょう。

プリンストンの論文によってソフトウェア部分があり、ソフトウェア部分を理解し、プリンストンの論文によってハードウェア部分があり、ハードウェア部分を理解しています。現在のAIモデルを再構成したい場合、彼らはペンで書きます、いいえ、間違いを犯した場合、その上に殴り書きします。いいえ、ページが乱雑になります。上書きして、消して、また上書きします。

ですから、ページ上に残差蓄積があり、これは幻覚につながる可能性があります。なぜなら、100回の修正の後は何も読めなくなるからです。しかし、この新しいAI、この新しいAIは自己修正デルタトランスフォーマーです。

鉛筆だけで書き、高いエントロピーで間違いを検出すると、鉛筆を裏返すだけで、反対側の消しゴムを使います。この消しゴムはもちろん、ベータが1のデルタ演算子です。クリーンなページに正しい答えを書きます。幻覚なし、運び続けなければならないエラー追跡なし、半マイル前に既に捨てたアンカーもありません。スマートで、小さくて、美しいだけです。

まとめと今後の展望

さあ、お分かりいただけました。プリンストン大学とUCLAによって2026年1月1日と1月2日に発表された2つの美しい論文です。現在のトランスフォーマーアーキテクチャから、この美しい新しい演算子を持つこの減算的幾何学的Deep Delta Learningへとアーキテクチャを変更するまで、現在単一の生成後に見られるこの自己修正は、AIモデルが自分自身の残差廃棄物に溺れることによって引き起こされる幻想のままであると思います。

では、新しいトランスフォーマーを構築しましょう。この動画を見ている企業、OpenAI、Google、その他どこでも。ねえ、今3番目の新しいトランスフォーマーアーキテクチャがあります。2026年1月のまだ最初の3、4日ですが、すでにトランスフォーマーアーキテクチャ、人工知能をどのように最適化するかについて3つの新しいアイデアがあります。

少し楽しんでいただけたことを願っています。素晴らしかったです。ご覧のように、複数の論文を並行して読んでください。アイデアに刺激を受けて、組み合わせるだけです。これが人工知能の美しさです。たくさんの新しいアイデアがあります。それを理解し、すべてをまとめ、数学的操作に深い洞察を持つだけで、突然論文を組み合わせることができ、うまくいけば、誰もが購読し、誰もがメンバーになる美しい動画ができます。

とにかく、次の動画でお会いできることを願っています。

コメント

タイトルとURLをコピーしました