新しいAI思考マシン – 人工的時間（トランスフォーマーなし）

6,703 文字

NEW AI Thought Machine - Artificial Time (No Transformer)

A brand new neuronal alternative to transformer architecture: A Continuous Thought Machine (CTM). With an added artifici...

こんにちは、コミュニティの皆さん。今日は全く新しいものをご紹介します。連続ソートマシンについてです。何かと思われるでしょうが、簡単です。CNN、グラヴァルネットワーク、トランスフォーマー、T5、JBD、Geminiなど、全て忘れてください。私たちには全く新しいシステムがあるのです。こちらです。2025年5月12日。
これは私にとって今日のことです。Sakiによる新しい論文、「連続ソートマシン」です。これは本当に特別なものです。全く異なるものです。皆さんはこれまでこのようなものを見たことがないでしょう。しかし、それが違うからこそ、お見せしたいと思います。これはAIを構築するための全く新しいアイデアを持っています。約60ページあります。本当に興味深いです。ここには彼らが何について話しているかの完全なリストがあります。
そして重要なポイントは、ここで分離された内部次元を導入することです。新しい数学的空間を学習し、ニューラルネットワーク活動の時間的進化をモデル化する新しいアプローチです。著者たちはこの新次元を、人工ニューラルネットワークでソートが展開される次元として捉えています。つまり、生物学的システムと同様に、この思考が起こるための新しい数学的空間、新しい次元が必要だと考えているのです。そして時間的進化があります。興味深いアプローチです。
これが何をもたらすのか見てみましょう。この新しい内部次元により、この連続思考マシンは複雑な時間依存のニューラル・ダイナミクスを構築できます。なぜこれが本当に次元なのでしょうか？いいえ、これは単なる数学的構成物であり、「この次元を追加すれば、その中に動的な振る舞いを取り入れることができる」と言っているだけです。
著者たちはこれが生物学的原理に直接対応していると言っています。素晴らしいですが、私たちが興味を持っているのは計算実装の方です。彼らはこれが人間のニューロンの一種の抽象化であると語り、突然「ニューロンレベルモデル」と呼んでいます。つまり、各ニューロンが独自の内部重みを持ち、入力信号の履歴（彼らが「事前活性化」と呼ぶもの）を処理して次の活性化を計算するニューロンレベルモデルがあるのです。
そう、私たちは活性化空間にいるのです。今や静的な関数ではなく、モデルがあります。シンプルな実装で、うまくスケールし、既存のディープラーニングアーキテクチャとうまく連携します。興味深いアイデアですね。パフォーマンスがどれくらい良いか見てみましょう。
ちょっと待ってくださいと言われるかもしれませんね。またここで新しい方法を学習し、自己学習マシンですか？はい、そして再び活性化空間にいます。はい、前回の2つのビデオでも活性化空間に焦点を当てていました。そして今回も、新しい活性化に注目し、新しい数学的空間を構築し、新しいニューロンレベルモデルを構築しています。なんという偶然でしょう。3つの動画が連続して同じテーマです。
著者たちは、達成したい表現として直接ニューロン同期を使用していると言います。つまり、このモデルが注意クエリを通じて観察し、ロジットへの投影によって予測する新しい種類の表現があるのです。
なぜこれが必要なのかと疑問に思うかもしれません。著者たちは、人工知能のフロンティアは、単純な入出力マッパーを超えて、より本物の推論能力に向かう重要な節目に直面していると言います。つまり、推論能力を向上させたいのであり、この研究チームは新しい解決策を見つけたと言っています。
この新しいアイデアは、既存のアプローチとは3つの主な点で異なります。まず、著者たちが「ソート次元」と呼ぶ内部次元がありますが、実際にはただの特徴次元です。これがパターンのデータなのかさえわかりません。これにより、あらゆるデータモダリティで連続的なソートが可能になります。
第二に、私的なニューロンレベルモデルがあり、これによって正確なニューロンのタイミングの考慮が可能になります。私たちは次元を導入しただけで、そして同期化がタスク解決のために探している表現として直接使われます。前回の2つのビデオでも異なる表現を見てきたことを覚えておいてください。
著者たちは、ソートのようなものが展開できる時間次元を導入し、同期行列とテンソル構造を定義すると言います。これを思い出すために6番を示しておきます。これは事後活性化履歴間の内積のようなものです。素晴らしいですね。この新しい次元、「ティック」と呼びましょう。これは各内部ティックtで出力を生成します。
時間のTのように、なんという偶然でしょう。そして重要な疑問が生じます。どうやってモデルを最適化するのか？この内部時間次元全体にわたるAIモデル最適化を1から100まで覚えていますね。彼らは基本的に同じアイデアで進むと言います。これを内部ティックtでのクラスの確率予測ベクトルとしましょう。
内部時間tと読むこともできるかもしれません。cはクラスの数です。真の目標があり、古典的なトランスフォーマーアーキテクチャから標準的な損失関数、例えばクロスエントロピーを使用して、各内部ティックでの損失を計算できます。同じ最適化アイデアをここで使用できるなんて、なんという偶然でしょう。
彼らが動的時間次元として解釈するこの新しい次元に注意するだけです。そうですね、ニューロンモデルを見てみましょう。各ニューロンは内部履歴を使用して自身の活性化関数を計算できます。はい、追加の時間次元があります。
各ニューロンは、特定の長さ（5、10、15など）までの事前活性化の履歴を処理するための独自の多層パーセプトロンを持ち、このMLPが各ティックtでの事後活性化を生成します。しかし、ニューロンを接続するための上位モデル、シナプスモデルも必要です。シナプスモデルはラテント空間におけるニューロン間の相互作用のモデルです。
UNETスタイルのMLPシナプスモデルがあります。これは共有D次元空間のニューロンを相互接続し、内部ティックtでの事前活性化を計算します。ここでdは単にモデル幅です。これは歴史的な事前活性化を使用して現在の状態を更新します。これはモデルの興味深い組み合わせです。
あまり馴染みがなければ気にしないでください。例を示します。まずは、この新しいシナプスモデルを適用すると、内部ティックtでの事前活性化が生成されます。これは私たちが導入した人工的な新次元です。つまり、クロスアテンションとZの連結があります。ここにアテンションが入ってきます。
シナプスモデルがあれば、これは事前活性化を計算できるものです。UNETに馴染みがなければ、このビデオがおすすめです。ここで潜在拡散モデル（LDM）、変分オートエンコーダー、UNET、CLIPの生成AIについて説明しています。ここでわかるように、スキップ接続を持つデノイジングUNETとボトルネック関数を持つQキーオン値計算があります。
または、論文からの詳細を見たい場合はこちらです。これは著者たちが見つけた最も優れたシナプス回帰モデルであるUNETスタイルのシナプス回帰モデルです。テストされたすべてのモデルの後で最もうまく機能するモデルです。つまり、UNETのようなMLPです。
元の論文に戻りましょう。これはCTMアーキテクチャの概要です。皆さんはどうか分かりませんが、私はこれを見て理解できるというよりは、見れば見るほど疑問が増える感じです。これらは数字です。1、2、3、4、5、6、10。素晴らしい。
では見てみましょう。青色で描かれた最初のシナプスモデルは、事前活性化を生成するためのニューロン間相互作用をモデル化します。すでに式を見ました。各ニューロンに対して、事前活性化の履歴が保持され、最新のものがニューロンレベルモデルによって使用されて事後活性化が生成されます。事後活性化の履歴も保持されます。
この追加の人工次元があり、同期行列の計算に使用されます。この同期行列は主要な新要素の一つです。これがここでのダイナミクスです。これが重要です。そして、この同期行列からニューロンペアが選択され、CTMが出力を生成しクロスアテンションを通じてデータを調整する特定の表現をもたらします。
すでに見てきたことですが、そして全てが再び始まります。これは今日公開されたばかりです。初めてこの論文を読んで、このモデルを理解しているとはあまり自信が持てません。しかし、ここで最初の印象をお伝えします。60ページの数学的な部分をもう少し詳しく見たい場合は、使用する変数のまとめがこちらにあります。
内部ティックtでの事後活性化があります。回帰シナプスモデルの重みがあります。特定の内部ティックtでの事前活性化があります。最も重要な事前活性化の履歴があります。単一ニューロンレベルモデルの重みがあります。全ての事後活性化の履歴があります。同期行列があります。
これは本当に重要です。そしてSとSのアクションからアテンションクエリと予測への投影のための線形重み行列があります。そしてクロスアテンション出力Oがあります。素晴らしい。すべてを組み合わせた式がいくつかあります。これらはおなじみのものです。パフォーマンスを見てみましょう。
著者たちは素晴らしいと言います。新しいモデルがあり、左側に39×39の迷路があります。CTMは39×39のサイズの迷路を、ルートの長さが100までのものを解くよう訓練されました。このシステムのトレーニングデータがこれであり、著者たちは、このシステムが分布外容量と創発性を持ち、突然99サイズの迷路構造にも一般化できるようになったことに驚いています。彼らの興奮は理解できますが、正直に言って、このパターンを見ると、私たちがここで引用符付きの「インテリジェンス」で全く新しい複雑性レベルを開いたとは主張しません。むしろ、これは単により大きなサブセットのサブセットに過ぎないと言うでしょう。
特定の迷路の解き方を知っていれば、非常に似たパターン、非常に似た迷路構造も解けるようになるでしょう。この結果に私は本当に驚いているでしょうか？わかりません、もしかしたら論文をもう一度読む必要があるかもしれません。彼らは素晴らしいページを持っています。これはsakani.comです。そこにアクセスしてみてください。
インタラクティブなデモンストレーションがあります。しかし、これもかなり一般的な視覚化です。でも彼らが人間の自律性から新しいアイデアを得て、これを実装して全く新しいモデルを構築できるかどうかを考えていることがわかります。本当に注目すべき主なアイデアは同期行列です。
今、私たちは特定の時間に他のニューロンと連携して発火するニューロンに注目しています。この同期行列について考えると、システム内のすべてのニューロンを調べ、異なる発火パターンを見つける非常に抽象的な数学的空間のようなものです。この種の同期行列が確立され、この種の新しいAIシステムの表現が確立されます。
この特定の空間で数学的計算を行っています。今日公開されたこれについての私の現在の知識レベルでは、自分のためにもこれを共有します。これは古典的なトランスフォーマーが自己回帰モードでどのように動作するかを示し、それが連続ソートマシンにどのようにマッピングされるかを考えています。
トランスフォーマーは、以前のトークンが与えられた次の要素、次のトークンを予測します。つまり、順次生成があり、内部ニューラルダイナミクスとこの人工的な時間を一般的な問題解決に活用しています。素晴らしい入力は一度に1つのトークンずつ順次行われます。時間は外部的で、入力シーケンスの位置に結びついており、生成された出力を入力として戻すことで再帰性があります。
静的またはシーケンシャルデータを複数の内部ステップで同期できます。時間は内部構成物です。素晴らしい。ここからより興味深くなります。古典的なトランスフォーマーでは、フィードフォワードネットワークを持つニューロンは通常、静的な活性化関数、低いゲロ関数を使用し、状態は主にトークンごとの埋め込みです。ここで、これは異なります。
今、私たちは新しいニューロンレベルモデルを持っています。各ニューロンは、入力の事前活性化の履歴を処理して次の事後活性化を生成するための、独自のパラメータ化されたモデルを持っています。非常に動的なシステムであり、新しい同期要素、すべてのニューロンの事後活性化の履歴から計算される新しい行列構造があります。
この行列は、前述のように、行動と出力のための非常に特別な表現を直接形成します。マルチヘッドセルフアテンションと入力トークン埋め込みに対するセルフアテンション、そしてT5モデル間のクロスアテンションがあります。エンコーダの出力やデコーダの入力を使用する場合、これは明確です。
しかし、新しい連続ソートマシンでは、時間信号履歴を処理するNLMがあり、同期計算があります。ここでは、内部人工時間にわたるニューロンペアの共活動、同一の発火を測定します。潜在的に学習可能な時間的減衰を伴い、セルフアテンションについては、入力データとのクロスアテンションがあります。このアテンションのためのクエリは、ニューロン同期行列、アクション行列から導出されることを覚えておいてください。
面白いですね。線形層は最終的な隠れ状態を最後の関連トークンから語彙サイズのロジック分布に投影します。これが古典的なものです。ここでは、線形層がニューロン同期行列のサブサンプル部分を出力空間に投影します。出力は各内部ティックで生成できます。
シナプスモデルを示したように、並列NLMがあり、各ニューロンが独立して事前活性化履歴を処理します。つまり、より複雑であり、より多くの次元があり、より動的な進化があります。しかし正直なところ、新しい行列計算と新しい次元、そして古典的なクロスアテンション計算事前活性化との相互依存関係をすべて本当に理解しているかどうかはわかりません。
シナプスモデル、事後活性化、同期行列、アテンションクエリ、出力投影、シナプスモデルの重み、プライベートな重み、同期のための投影の重み、そして同期のためのDKパラメータがありました。素晴らしい。私の現在の理解では、今日公開されたこのものは、新しい人工次元に時間的ダイナミクスを再導入することによって本当に新しいニューラルアーキテクチャを導入しており、タスクを解決する方法でのニューロンの同期が今や中核的な計算原始です。
つまり、単一のイベントではなく、複数の要素の完全な同期に注目しています。これは分離された、これは興味深い部分ですが、これについては後でもっと詳しく説明します。内部時間次元または「ソートティック」にわたって動作し、入力データのシーケンスに関係なく、表現とアクションの洗練を可能にします。
そして、これが私の現在の3つの主要なイノベーションの理解です。これが私のチートシートです。数日後に戻って来て「今日何を学んだか」と言った時のためのものです。共有シナプスモデル、すでに示したUNETのようなMLPがあり、これが事前の事後活性化とアテンションで調整された入力を処理して事前活性化を生成します。これらは私たちが扱うパラメータです。そして単一ニューロンのレベルでは、各単一ニューロンのためのニューロンレベルのプライベートモデルがあり、これが個々の事前活性化の先入れ先出し履歴に基づいて事後活性化を計算し、複雑な時間的特徴抽出を可能にします。前回の2つのビデオでもまさにこれについて話しました。そして、システムの表現として新しい同期行列の直接的な活用があります。積で導出できることは知っています。これを見てきました。興味深いですね。
これが新しい研究論文の最初の見解です。メインラインを理解しようとする必要はないことを示すスタートアップを提供したかったのですが、このモデルの主な内容、主な洞察が何であるかについていくつかのアイデアを提供できていれば幸いです。もしこのモデルが本当に役立ち、成功し、現在のトランスフォーマーモデルよりも優れたパフォーマンスを持つことが判明したら、このモデルに戻ってくるでしょう。このような動画が好きなら購読して、次回の動画でお会いしましょう。