この新しいAIは初の本物の「人工脳」かもしれない!

AGIに仕事を奪われたい
この記事は約9分で読めます。

4,993 文字

This New AI Could Be the First Real ARTIFICIAL BRAIN!
A new brain-inspired AI model called TopoLM learns language by organizing neurons into clusters, just like the human bra...

新しいAI モデルが登場しました。これは単に言語を学習するだけでなく、脳のように学習します。動詞や名詞、意味のための小さなクラスターを構築するのですが、これはまさに科学者が脳スキャンで見るものと同じです。そして最も驚くべき点は、これがたった一つのシンプルなルールで実現されていることです。詳しく見ていきましょう。
この主役となるのは、Topo LMと呼ばれる全く新しいシステムです。スイスのEPFLのNeuroAI研究所から生まれました。機械学習の分野に詳しい方なら、EPFLが優秀な人材を輩出していることをご存知でしょう。主任研究者のMartin Kramp助教授は、大規模言語モデルが実際の脳信号にどれだけ近づいているかを調査してきた実績があります。彼とNeill Rothy、Johannes Meyer、Bad Al Kamissiらの優秀なチームは、この研究でICLR 2025で口頭発表の機会を得ました。この学会で口頭発表に選ばれるのは論文の約2%だけなので、この分野のコミュニティがこの研究を重要視していることがわかります。
数字の詳細に入る前に、人間の脳に関する背景をお話しします。神経科学者が人をfMRIスキャナーに入れ、文章を読ませると、特定の言語処理のために活性化する皮質の領域、文字通り小さなパッチが常に観察されます。あるブロブは動詞に、次は名詞に、別のは構文全体に最も強く反応するかもしれません。これらのブロブはランダムではなく、都市の地区のように互いに近接して位置しています。視覚研究は数年前にこの現象が起こる理由を解明しました。彼らはディープネットに「近接するニューロンを類似させる」というルールを導入したところ、見事に人工的な方位選択性のピンホイールや顔パッチが生成され、これがV1や側頭皮質と一致しました。大きな疑問は、同じ配線コストのトリックが言語にも適用できるかどうかでした。言語は、ネコの写真よりもはるかに抽象的ですからね。
さて、ドラムロールをお願いします。Topo LMはそれが機能すると言っています。ここからは、次のミーティングで天井を見つめずに自慢できるように、平易な英語で説明します。
まず、通常のGPT-2 smallの骨格を想像してください。12個のトランスフォーマーブロック、各ブロックには16の注意ヘッド、そして各隠れ層には784ユニットがあります。EPFLチームは、これらの784ユニットを数学空間に浮遊させておくのではなく、それぞれを28×28のグリッドに配置しました。つまり、各人工ニューロンが小さなX-Y座標を持つようにしたのです。
しかし、このトリックだけでは秩序は生まれません。そこで、従来の次トークン予測に加えて、トレーニング中に第二の目標を追加しました。彼らはこれを「空間的平滑性損失」と呼んでいます。概念的にはシンプルです。二つのユニットがグリッド上で隣接している場合、モデルはそれらの活性化が相関していないときに小さなペナルティを受けます。離れている場合は、活性の違いは気にしません。
そのペナルティの計算は、文字通り「1/2 * (1 – 近接するユニット間のピアソン相関)」ですが、正直なところ「近いユニットほど類似している」と覚えておけば十分です。この追加インセンティブはどれほど重要なのでしょうか?彼らは重み付け2.5を適用しました(これは痛みを伴うハイパーパラメータ探索の末に調整されたものです)。そのため、モデルは言語スキルを損なうことなく地理的な配置を気にするようになりました。
次に、彼らはFine-web-educコーパスから100億トークンをモデルに供給しました。これは基本的にインターネットの教育的なスライスです。トレーニングは4台のNVIDIA A100 GPU(80GB版、小型ではありません)で丸5日間実行され、検証損失が改善しなくなった時点で早期停止しました。
結果:トポグラフィックモデルは、交差エントロピー3.075、空間損失0.108で終了しました。比較のために、地理的配置をオフにしたコントロールバージョンは、より低い交差エントロピー2.966を達成しました。これは、二つの仕事の間で脳のパワーを分割していないので理にかなっています。
では、Topo LMは実際に調べると皮質のように見えるのでしょうか?チームはFederankoの言語ローカライザーという黄金標準を使用しました。これは160の文法的な文と160の発音可能な無意味な文字列からなります。実際の脳では、このタスクは左半球全体のネットワークを活性化させます。Topo LMでは、同じ検査によってグリッドの複数の層にわたって言語選択的なユニットの塊が形成されました。
さらに彼らは、4つの古典的なテストセットを用いて検証を進めました:通常の文、スクランブルされた単語リスト、内容語が偽の語に置き換えられた「ジャバウォッキー文」、そしてスクランブルされたジャバウォッキーです。Topo LMの各領域は実際の皮質の反応階層を示しました。通常の文が最も強く反応し、スクランブルされた単語とジャバウォッキーが2番目で同点、純粋な無意味な文字列は最下位でした。非トポグラフィックなGPTクローンでは、散らばったユニットは確かに反応しますが、パターンがあちこちに飛び交い、一貫したストーリーはありません。
真のハイライトは動詞対名詞の対比です。人間のfMRIでは、この対比でマンテル統計量が0.96となり、隣接するボクセルがどのクラスを好むかについてほぼ完全に一致していることを意味します。Topo LMは生のユニット解像度で0.48を記録しました。これだけでも十分優れていますが、ボクセル平均をシミュレートするために2ミリメートルのガウシアンでグリッドをぼかすと、0.81にまで上昇します。これはほぼ脳レベルです。一方、バニラのコントロールはぼかした後も0.11と、基本的にランダムな値に留まっています。
また、Mosley & Pulvermüller 2014の結果を覚えていますか?動詞-名詞の選択性は「ハンマー」や「蹴る」のような具体的な単語でのみ現れ、「正義」のような抽象的な単語では現れません。Topo LMはこの特性も再現し、具体的なペアに対しては0.83のクラスタリングを示しましたが、抽象的なペアでは0.23に低下しました。ベースラインは具体性を完全に無視して平坦なままでした。これは意味論だけでなく構文のモデリングにとっても大きな成果です。
「素晴らしいけど、実際のNLPベンチマークではどうなの?」と思われるかもしれません。良い質問です。彼らは3つのスイートを実行しました。まず、最小対で構成された厳格な構文クイズであるBLimpでは、Topo LMは0.71を獲得し、コントロールの0.76より5ポイント低いでした。つまり、確かにコストはありますが、感情分析や含意関係、パラフレーズなど、あなたのスマートフォンのアシスタントが実際に使用するようなGLUEタスクでは、Topo LMが0.68対0.65でわずかにリードしています。この向上は空間的な項が正則化として機能しているためでしょう。モデルの活性化が実際の神経記録をどれだけ正確に予測するかを明示的にチェックするBrain Scoreでは、Topo LMは0.78、コントロールは0.80で引き分けでした。
つまり、教科書的な文法精度はわずかに失うものの、下流タスクでは維持または向上し、脳との整合性はほぼ同一のまま、さらにこの美しい皮質マップを無料で獲得できるのです。解釈可能性の観点からも素晴らしいです。通常のトランスフォーマーはすべてを巨大な抽象ベクトル空間に隠します。動詞の意味がどこにあるかを知りたければ、何千ものユニットを調べるしかありません。しかしTopo LMでは、ヒートマップを開いて指し示すことができます。「あの赤いブロブは動詞、あの青いブロブは名詞」というように。モデルが「run」を動詞と名詞で混同する理由をデバッグする必要がある場合は、ブロブの境界にズームインするだけです。このような可視性は安全性監査やモデル編集、さらには将来的にはニューラルネットワークIDEにとってもゲームチェンジャーとなる可能性があります。
ここにはハードウェアの夢もあります。脳は軸索の長さを節約するために類似した機能をクラスター化します。長い配線はエネルギーコストがかかるためです。Topo LMスタイルのレイアウトが標準になれば、動詞と名詞の計算ユニットが物理的に近接するニューロモーフィックチップを設計でき、レイテンシーと電力消費を削減できるでしょう。これを「言語シリコン皮質」と呼ぶこともできるでしょう。
医療分野では、これらの予測された皮質座標が臨床医の指針となる可能性があります。例えば、脳卒中患者が動詞の産出能力を失った場合、Topo LMはTMS(経頭蓋磁気刺激)で回復を促すために刺激すべき正確なサブセンチメートルのパッチを示唆できます。Krampのグループはすでに米国のイメージング研究所と提携し、Topo LMが予測したがまだ誰もスキャンしていないクラスターを探しています。もしそれらが見つかれば、AIと認知神経科学の間に全く新しい相乗効果が生まれるでしょう。
もちろん、完璧ではありません。各トランスフォーマー層が独自のグリッドを持つため、すべての深さにまたがる単一のシートはありません。そのため、実際の皮質コラムのように、ある層での刺激が次の層にどのように伝わるかをシミュレートすることはまだできません。また、Topoはまだフィードフォワードです。実際の皮質は信号をループさせ、繰り返す波と律動を生成します。しかし、視覚マップを統一したのと同じ配線コストの原理を実証したものとしては、記念碑的な一歩です。
TopoformerBERTという競合コンセプトについて聞いたことがあるかもしれません。このモデルは各単一ヘッド注意ブロック内のローカル接続を強制し、マスク言語モデリングでトレーニングします。EPFLチームはこれもベンチマークしました。生の活性化はいくつかのクラスタリングを示しましたが、適切な統計処理の後、名詞-動詞選択性を示すユニットはわずか10%で、Topo LMの強固な島には及びませんでした。結論は、ローカルな配線制約だけでは不十分だということです。TDN視覚モデルが使用し、Topo LMが言語に移植したグローバルな平滑性損失が必要なのです。
数学を一息で説明すると、こうなります:層kでの空間損失は「1/2 * (1 – 相関係数)」です。相関係数は、まずそのバッチ内でのすべてのユニットペアの発火の類似性のベクトルと、次にそれらのユニットがグリッド上でどれだけ離れているかの逆数との間で計算されます。これを各層につき5つのランダムな近傍で行い、アルファ(2.5)を掛け、古き良き交差エントロピーに加えます。これを100億トークンで繰り返すだけです。これが文字通りのレシピです。シンプルなルールから巨大な創発的秩序が生まれます。
これで、「近接するニューロンを類似させる」という一つのシンプルな原則が視覚と言語の両方を扱えるという確かな証拠が得られました。これは、脳が嗅覚から運動制御に至るまで、あらゆる場所で同じトリックを適用している可能性を示唆しています。AIにとって、パフォーマンスと生物学的リアリズムの間で選択する必要はないことを意味します。両方を手に入れることができるのです。
EPFLの次のfMRI結果に注目していてください。もし彼らがTopoLMが言うとおりの場所に、これまで見つかっていなかった言語ブロブを発見したら、それは計算言語学にとってマイクドロップの瞬間となるでしょう。
以上が、この脳にインスパイアされた言語モデルについての解説でした。技術的な詳細と平易な説明のブレンドが役立てば幸いです。質問があったり、さらに詳しく知りたいことがあれば、コメントをどうぞ。視聴いただきありがとうございました。次回もお楽しみに。

コメント

タイトルとURLをコピーしました