OpenAIを去ったイリヤ・サツケヴァーが率いるSafe Super Intelligenceは、評価額320億ドルに達する新興企業である。現在のAI学習の根幹にある深刻な問題、それは生物学的学習とは根本的に異なるバックプロパゲーションの限界だ。人間は数枚の画像で猫を認識できるが、現代のAIは数百万回の学習を必要とする。この効率性の差、時間的不連続性、そしてグローバルな誤差信号という三つの生物学的矛盾が、真の汎用知能への障壁となっている。予測符号化とprospective configurationという新たな理論が注目を集めており、これは脳が感覚入力を予測し、予測と現実のギャップから学習するという原理に基づいている。実験では人間の学習パターンを完璧に再現し、破滅的干渉を回避することに成功した。ただし計算コストは現行の5倍であり、専用ハードウェアの開発が課題となる。イリヤはすでに解決策を見出したと確信しているようだ。

イリヤの新たな挑戦と320億ドルの企業価値
約2年前、イリヤ・サツケヴァーはOpenAIを去りました。そして最新の投資ラウンドに基づくと、彼の会社Safe Super Intelligenceの評価額は少なくとも320億ドルに達しています。この間ずっと、彼はその技術について秘密主義を貫いてきました。しかし今、ついに手がかりが見えてきたのです。
AIの中心には、企業がめったに語らない巨大な問題が存在しており、イリヤはその解決策を持っていると信じているようです。
このようなことを可能にするためには、モデルの訓練方法をどう再概念化する必要があるのでしょうか。おそらくそれを実現する方法があると思います。実現可能だと考えています。残念ながら、状況的に詳細を議論するのは難しいのですが。
技術の詳細は秘密のままですが、その頃から、学術論文の波が斬新な理論を概説し始めました。それは次に何が来るのかを垣間見せてくれるものです。
人工ニューラルネットワークと生物学的学習の違い
人工ニューラルネットワークは実際のニューロンから着想を得ていますが、その学習方法は生物学的に根拠のあるものではありません。実際、私たちが今日使用している訓練アルゴリズムは、生物学が最適解を表していると仮定した場合、正しいものではあり得ないことが分かっています。
デジタルニューロンは実際のニューロンの十分な近似です。大きな違いはありますが、ほとんどの場合、十分に大きなネットワークが生物学的ネットワークが達成することをシミュレートできると考えるのは不合理ではありません。
本当の問題は、どのようにネットワークを初期化し、訓練するかということです。私たちが夢見るあらゆる機能は、ニューロン間のエッジのパターンにエンコードされています。
学習のダイナミクス、ドーパミンのような神経伝達物質の影響、さらには記憶そのものまで、すべてがこれらの接続に存在しています。脳ではこれをシナプスと呼びます。人工知能ではこれをパラメータと呼びます。
ネットワークの構造を再現することにおいては大きく前進してきましたが、これらのパラメータを設定し更新するアルゴリズム、簡単に言えば学習アルゴリズムは、AIモデルを訓練する上で些細な詳細ではありません。
バックプロパゲーションの仕組みと課題
今日、誰もが勾配降下法を伴うバックプロパゲーションと呼ばれる特定のアルゴリズムを使用しています。ここでの学習には2つの中核要素があります。モデルの出力が正解と比較してどれだけ間違っているかを測定する損失関数と、その誤差信号を使用して各パラメータがどのように変化すべきかを決定するバックプロパゲーションです。
分かりやすくするために事前訓練を使ってこれらの要素を見ていきますが、検証可能な結果を伴う強化学習、つまり事前訓練の後に来る段階も同じ原理で機能します。ただし学習信号は明示的なラベルではなく遅延報酬から来ます。
最初の中核的な課題は、損失関数は何であるべきかということです。脳は本当に単一の基準を最適化しているのでしょうか。今日のAIモデルでは、損失関数は有名なことに、単語の並びにおける次の単語を予測するだけです。これはひどく単純なアプローチで、脳がどのように機能するかとはほぼ確実に異なります。
イリヤ・サツケヴァーとアダム・マーブルストーンが、単純な損失関数と脳が実際に行っている可能性のあることを比較しているのを聞いてみましょう。彼らは異なる抽象レベルで同じ根本的なアイデアを説明しています。
皮質は本来、任意の入力のサブセットにおける任意のパターンを、他の欠けているサブセットが与えられた状態で予測できるように作られているんです。ちなみに私が言っていることの多くは、ヤン・ルカンが言うことと非常に似ていると思います。
そうですね。
彼はこれらのエネルギーベースモデルに非常に興味を持っています。そのようなものは、すべての変数の結合分布のようなものです。変数の任意の組み合わせの尤度または非尤度は何でしょうか。そして、もし私がそれらのいくつかを固定して、これらの変数は確実にこれらの状態にあると言えば、確率的サンプリングなどで計算できます。これらがこの状態に設定されていることを条件として、他の任意のサブセットが何をするかを予測し、このサブセットを固定した状態で他の任意のサブセットからサンプリングできます。つまり全方向的な推論です。
皮質の一部、たとえば連合領域のようなものは、聴覚から視覚を予測するかもしれません。機械学習は数学的に単純な損失関数に傾く傾向があります。次のトークンを予測する、そういった単純なコンピュータサイエンティストの損失関数です。
進化は損失関数に多くの複雑性を組み込んできたと思います。実際、多くの異なる損失関数があり、発達の異なる段階で異なる領域がオンになります。基本的に多くのPythonコードが、脳のさまざまな部分が学習する必要があることの特定のカリキュラムを生成しているのです。
人間の学習の驚異的な効率性
10代の運転手が外部の教師なしに自己修正し、経験から学ぶにはどうすればいいのでしょうか。運転を始めると、すでに自分がどのように運転しているか、どれだけ不慣れであるかをすぐに感じ取ります。そしてもちろん、10代の若者の学習スピードは非常に速く、10時間後には十分運転できるようになります。
そうですね。
AIはソフトウェア工学のより多くの部分を自動化していますが、それは誰でも質の高い有用なソフトウェアを構築できるということを意味するわけではありません。熟練したエンジニアが最も恩恵を受ける立場にあります。なぜなら彼らはこれらのツールを効果的に使用する方法を知っているからです。
そしてそれこそが私がBrilliantを愛する理由です。Brilliantは単にコーディング方法だけでなく、AIが実際にどのように機能するかを学ぶのに役立ちます。ステップバイステップのインタラクティブなレッスンとパーソナライズされた演習により、実際に行うことで学びます。コースはMIT、ハーバード、スタンフォードなどのトップ機関の専門家によって設計されています。
情報ビデオを作る者として言えることは、ビデオを見るだけではただの娯楽だということです。あなたの年齢や学習の旅のどの段階にいても、Brilliantは受動的にビデオを見るだけでなく、問題を解決することで学ぶのを助けます。
ここでは、コードで考える方法を学び、AIが内部でどのように機能するかを理解し、優位性を獲得し、今後のAIエージェントの波を書くための位置を確保できます。Brilliantで30日間無料で学ぶには、画面上のQRコードをスキャンするか、説明欄のリンクをクリックしてください。Brilliantは視聴者に年間プレミアムサブスクリプションの20%割引も提供しており、Brilliantのすべてへの無制限の毎日アクセスをアンロックします。
ビデオのこの部分をスポンサーしてくれたBrilliantに感謝します。
連続的で動的な学習の重要性
運転を学ぶために、何度も何度も衝突してから何が間違っていたかを理解する必要はありません。学習は連続的で、インタラクティブで、動的です。そしてその極度の細かさがなければ、滑らかで堅牢な結果を達成することは決してできません。それは直線だけを使って完璧な円を描こうとするようなものです。
計算システムが解決しなければならない2番目の基本的な課題は、信用割当と呼ばれるものです。どのパラメータに責任があるかをどのように決定し、いわゆる学習が起こるようにそれらをどのように変更するのでしょうか。
バックプロパゲーションは、この問題を解決するために誰もが使用するアルゴリズムです。入力はネットワークの層を通って移動し、結果とその正解からの逸脱を計算します。
次にバックプロパゲーションが作用し、比較的小さな損失に向かって移動するために各パラメータをどれだけ調整すべきかを計算します。計算は実際にはかなり単純です。ネットワーク全体を1つの大きな関数と考えてください。高校の数学のように、各パラメータに関して微分を取ると傾きが得られ、損失を減らすためにそのパラメータをどのように調整すればよいかが分かります。
したがって、最も近い値に向かって小さなステップを踏むだけです。これを何十億回も行うと、ネットワークは最終的にほとんどの入力に対して機能する解に落ち着きます。
バックプロパゲーションの生物学的矛盾
機械学習におけるバックプロパゲーションの驚くべき成功にもかかわらず、そのパフォーマンスは脳に遠く及びません。このアルゴリズムは本質的な生物学的原理にも矛盾しており、最も重要な3つに焦点を当てます。
第一に、バックプロパゲーションは極めて非効率的です。人間は猫が何であるかを学習し、わずか数枚の画像を見るだけで、異なる環境、スタイル、角度でそれを識別し続けることができます。対照的に、バックプロパゲーションを使用してネットワークの重みを更新するには、数千、さらには数百万回の実行が必要であり、それでも以前に見たことのないバリエーションに汎化するのに苦労します。
第二に、不連続な時間です。人工ニューラルネットワークは2つの別々のフェーズを交互に繰り返します。情報が前方に流れ、次に誤差信号が後方に移動します。これは、ニューロンが値を凍結し、誤差信号が戻ってくるのを待たなければならないことを意味します。それは、何か新しいことを学ぶたびに1秒以下のブラックアウトがあるのと同等であり、これは脳では起こりません。
学習と情報処理は同時に起こるべきです。
第三に、グローバル信号です。脳にはグローバルな損失を計算する中心的な場所はありません。ネットワーク全体を移動してニューロンを個別に調整するのです。脳はニューロンそのものであり、それらには局所的な自律性があります。ドーパミンのような神経調節物質やアルファやガンマのような脳波は、ニューロンの集団に影響を与える協調メカニズムです。
しかし、これらは局所的に起こるのであって、単一の司令センターから脳全体を制御するのではありません。これはまた、継続的学習がなぜそれほど厄介な問題であるかを説明しています。そしてそれがネイティブに解決されるためには、継続的に進化するネットワーク状態において、情報処理と学習という2つの異なるフェーズを統合するパラダイム全体の改革が必要です。
予測符号化という新たな理論
さて、ここで新しいことについて話しましょう。これから話すアルゴリズムは、その起源という点では正確には新しいものではありませんが、現在のパラダイムの欠点により、新たな関心の波を受けています。
イリヤ・サツケヴァーがこの正確な理論から取り組んでいるかどうかは確実には分かりませんが、予測符号化が最も有力な代替案です。
誰かが一夜にして全く新しい理論を発明し、すぐにそれを工学的問題に変えられるわけではありません。今日私たちが持っているほぼすべてのAIシステムは、何十年にもわたる蓄積された研究に基づいています。
この理論がどのように機能し、研究所がおそらく何に取り組んでいるかを理解するために、Nature Neuroscienceからのこの新しい素晴らしい論文を見てみましょう。理論はシンプルです。
脳の基本的な目的は、入力される感覚情報を予測することだと言っています。これに基づいて、予測が実際の感覚入力と一致しないときに学習が起こります。すぐに配線を変更する代わりに、システムはまず理想的な状態を想像することを可能にします。それは予測と実際の感覚入力との間のギャップを調和させる状態です。
ここで、アダムが言及した固定という概念が登場します。重みを新しい入力に即座に適合させるよう強制するのではなく、prospective configurationは予測と感覚信号の両方を固定します。そして、隠れた重みのどの構成が最小の誤差を持つかを尋ねます。
つまり、バックプロパゲーションはまず配線を変更し、prospective configurationはまずニューラル活動を変更するのです。
クマの事例から見る学習の違い
論文には、prospective configurationがバックプロパゲーションとどのように異なるかを示す非常に重要な例があります。
毎日まったく同じ川に行くクマを想像してください。クマは川を見て、その視覚的な手がかりが2つのことを予測します。流れる水の音とサケの匂いです。そして当然、毎日その視覚は音と匂いと一致します。
しかしある日、クマは怪我をして一時的に聴覚を失いました。それでクマは川に行きます。水を見ます。サケの匂いを嗅ぎます。しかし何も聞こえません。
標準的なバックプロパゲーションでは、クマには巨大な誤差信号があります。音を期待していますが、沈黙しかありません。そのため誤差はネットワークを逆方向に移動し、音の水と視覚的な水との接続を弱めます。
しかしニューロンは共有されています。したがって、サケと水との接続も弱まります。クマは水とサケの間の接続をわずかに忘れ、餓死する可能性があります。これは破滅的干渉と呼ばれます。1つの新しいことを学ぼうとする不器用な試みが、完全に有効な別のものの記憶を破壊するのです。
prospective configurationでは、アルゴリズムはすぐに配線に触れません。ネットワークは現実を見ます。それは交渉のようなものです。視覚は川と言います。鼻はサケと言いますが、耳は静かです。だから書き留める前に話を整理しましょう。
彼らはまた、実際にはバックプロパゲーションがバッチで動作することを指摘しています。
もしベリーを食べて吐いたら、これが悪いと気づくのにさらに32個のベリーは必要ありません。すぐに学習する必要があります。クマがこれを信頼できる学習信号として登録するには、この正確なシナリオを約32回経験する必要があります。損失はバッチ全体で平均化され、混沌を滑らかにするからです。
この理論は興味深く、バッチサイズが1でも機能します。しかし研究者たちは実際にネットワークを設計してシミュレートし、バックプロパゲーションと比較しました。結果は実際に非常に良好です。
突然赤が進めを意味する信号機を想像してください。論文は、prospective configurationが世界観全体を台無しにすることなく、これらのルールの反転にはるかに速く適応することを示しています。
スティック実験が示す人間的な学習
彼らの最も影響力のある実験はスティック実験でした。人間の参加者はロボットハンドルを持ち、画面上のターゲットに向かって移動させました。しかし目に見えない力がスティックをコースから押し出しました。強い横風の中を歩くようなものです。
研究者たちは2つの強いコンテキストを確立しました。赤い背景と青い背景で、赤は通常あなたを左に押し、青はあなたを右に押します。
そしてある時点で、彼らは意表を突きました。コンテキストを切り替えたので、赤は今や右に押すべきであり、以前の関連とは逆です。
人間は即座に矛盾を調和させ、視覚的な手がかりよりも目に見えない力を信頼し、青が今や左を意味することを学習しました。同じタスクがバックプロパゲーションとprospective configurationでモデル化されたとき、バックプロパゲーションは失敗し、浅い赤は左を意味するという関連に固執しましたが、prospective configurationは人間の行動を完璧に反映しました。
実装における課題と将来性
では、これで解決したのでしょうか。学習アルゴリズムを解決したのでしょうか。そうではありません。現実世界に存在することで無料の物理シミュレーションを得る脳とは異なり、このアプローチには明示的なシミュレーションが必要です。
ネットワークをエネルギーベースのシステムとして扱います。螺旋を転がり落ちるビー玉のようなものです。それがどこで止まるかを事前に知りません。単に最低エネルギーの構成に落ち着くだけです。
同じように、ネットワークは、その理想的な状態がどのようなものであるべきかを明示的に指示されることなく、低エネルギーまたは低エラー状態にリラックスすることが許されます。
現在、バックプロパゲーションの最大5倍のコストがかかります。方法が本質的に非効率だからではなく、今日のGPUが物理ダイナミクスをシミュレートするためではなく、高速な数学的演算のために最適化されているからです。
研究者たちははるかに効率的に動作するアナログ回路を提案しています。
しかし、根本的に新しいハードウェアアーキテクチャの経済性は、まだそこにありません。そしてここから競争が始まります。すべてのアプローチがアナログハードウェアを必要とするわけではありませんが、この有望な理論は現実に工学化される必要があります。
既存のパイプラインと統合し、現在のハードウェアで実行し、膨大なデータセット全体にスケーリングする必要があります。そのすべてを、競合他社が通常のLLMで先を急ぐ中で行わなければなりません。これらの制約の下でそれを解決した者が未来を勝ち取ります。
SSIは、製品の制約がない珍しい研究重視の企業ですが、多額の投資に支えられており、ダークホースです。これらのアイデアは主要なAI研究所で真剣に探求されていますが、イリヤはすでに解決策を持っていると確信している唯一の人物のようです。
そしてそこから何が出てくるのか待ちきれません。それまで、ご視聴ありがとうございました。次回またお会いしましょう。


コメント