生物学的ネットワークの学習アルゴリズム

10,013 文字

Learning Algorithm Of Biological Networks

To try everything Brilliant has to offer—free—for a full 30 days, visit . You’ll also get 20% off an annual premium subs...

人間の脳が提示する謎の中で、おそらく最大のものは、脳がどうしてそれほど効果的に学習できるのかという点です。人工知能の世界では、科学者とエンジニアたちは脳の学習メカニズムを複製するために何十年もの時間を費やしてきました。彼らの努力により、今日の機械学習分野をほぼ完全に支える基本的アルゴリズムである「勾配降下法によるバックプロパゲーション（誤差逆伝播法）」が生まれました。
その顕著な成功により、研究者たちは脳もおそらく同様のことを行っているのではないかと推測し始めました。しかし、根本的な問題があります。バックプロパゲーションアルゴリズムは脳機能の本質的な生物学的原理と矛盾しており、神経組織内での正確な実装はほぼ不可能なのです。
しかし近年、予測符号化（predictive coding）と呼ばれる別のアルゴリズムが登場しました。これは脳の生物学的ハードウェアとより調和するだけでなく、時にはバックプロパゲーション自体よりも優れた結果をもたらすことがあります。このビデオでは、予測符号化を基本原理から構築し、それが生物学的妥当性の問題にどう対処するのか、そしてどのように次世代の機械学習革命に影響を与える可能性があるのかを探ります。
計算システムが解決すべき根本的な課題は「信用割り当て（credit assignment）」と呼ばれます。画像内のオブジェクトを認識したり適切なアクションを実行したりするような望ましい出力を達成するために調整できるニューロン間の結合重みなど、多数のパラメータを持つシステムにおいて、どのパラメータをどれだけ調整すべきかをどのように決定するのでしょうか？
人工ニューラルネットワークはこれを自動微分によって上手く解決します。計算全体を数学的関数として表現できるため、コンピュータは微積分、特に連鎖律を使って、パフォーマンス向上を保証するために各パラメータをどれだけ調整すべきかを正確に計算します。
バックプロパゲーションの詳細なステップバイステップの導出に興味があれば、以前の私の動画で取り上げています。しかし、機械学習における顕著な成功にもかかわらず、証拠によれば脳はほぼ確実に異なるアプローチを使用しています。バックプロパゲーションが神経ハードウェアに直接マッピングできない理由はさまざまありますが、幸いにもそのほとんどには生物学的に妥当な回避策があります。
今日の議論の重要点であり、私が予測符号化に非常に興奮している理由は、それが神経生理学と絶対に互換性がなく、脳がバックプロパゲーションを実行できない最大の理由である「局所的自律性の欠如」と「不連続な処理」という二つの根本的な制約に対処しているからです。
混乱するかもしれませんので、これが何を意味するのか詳しく見ていきましょう。人工ニューラルネットワークは順序通りに交互に入れ替わる厳密に分離されたフェーズで動作します。まず、情報が前方に流れます。入力が層を通って出力に伝播し、予測を生成します。次に、この予測が望ましい結果と比較され、誤差が計算されます。
それから重要な後方への伝播が行われます。この誤差はネットワークを層ごとに後方に伝わり、将来の誤差を減らすために各重みがどのように変化すべきかを正確に決定します。最後に、すべての重みが同時に更新され、新しいトレーニング例でサイクルが繰り返されます。このプロセスが機能するためには、ニューロンは本質的にフィードフォワード活動値を凍結し、活動のスナップショットを撮って保持し、誤差信号が後方に流れるのを待つ必要があります。
しかし私たちの脳はこのようには機能しません。思考と学習の間に一時停止することはありません。生物学的組織内の通信はシリコンプロセッサと比較して比較的遅いです。脳がバックプロパゲーションのアプローチに従うなら、後方への伝播を実行して接続を更新する前に、何百ミリ秒もの間、情報処理を完全に停止しなければなりません。
新しいことを学ぶたびに一時的なブラックアウトを経験すると想像してみてください。代わりに、生物学的脳は情報処理と学習を同時に連続的なストリームで行います。前方と後方のフェーズが分かれているという証拠はありません。ニューロンは学習に対応するために計算を一時停止することなく、並行して情報を受け取り、処理し、適応します。
バックプロパゲーションの二番目の大きな問題は、グローバルな連携への依存です。前方モードと後方モードの間でネットワーク全体を切り替えるための中央コントローラーが存在するだけでなく、この情報は正確な時間順序で伝播する必要があります。ニューロンが何らかの方法で活動を凍結できたとしても、厳密な順序で解凍する必要があるでしょう。下流のパートナーが自分のエラーの計算を終えるまで、特定のニューロンのエラーを計算することはできません。
脳生理学について知られていることすべてが、そのようなグローバルな連携が存在する可能性は極めて低いことを示唆しています。シータ波やガンマリズムなどの振動、注意システム、ドーパミンのような広い集団に影響を与える神経調節物質などの調整メカニズムはありますが、これらのメカニズムはバックプロパゲーションに必要な細胞ごとの精度よりもはるかに粗い時間的・空間的スケールで動作します。
代わりに、個々のニューロンとシナプスは主に自律的なエージェントとして機能し、特定の場所で物理的に利用可能な情報のみに基づいて状態を変更します。脳は、中央集権的な制御なしに、ネットワーク全体で計算と学習が同時に分散的に行われる、大規模に並列で局所的に自律したシステムとして動作しています。
バックプロパゲーションの生物学的システムにおける限界を理解したところで、有望な代替手段である予測符号化アルゴリズムを探ってみましょう。このフレームワークは20世紀半ばの研究に起源を持ち、脳の基本的な目的は入ってくる感覚情報を予測することだと提案しています。
進化的観点から見ると、予測は脅威を予見し、ノイズの多い観察を解釈することで生物の生存を高めます。また効率性の議論もあります。神経活動は相当な代謝エネルギーを必要とし、入ってくる信号を予測できる脳は予期せぬ情報だけを処理すればよいため、予測可能で冗長なデータを伝達する代謝負担を減らすことができます。
この見方では、脳の主な仕事は単に入ってくる刺激を処理することではなく、感覚入力を説明する内部モデルを構築することです。このモデルが正確に予測する場合、最小限の追加処理しか必要ありません。予測が失敗した場合、結果として生じる予測誤差は、内部モデルを更新する必要があることを示します。
予測符号化はこの概念を、各神経層が下の層の活動を予測しようとする階層的システムとして形式化します。最下層は画像のピクセルのような生の感覚入力に対応し、より高い層は下位層の視覚的特徴を効果的に予測できるように、ますます抽象的な特徴とカテゴリをエンコードします。
実際の脳はさまざまなモダリティ間の連合的な接続を含むより複雑な接続性を持っていますが、単純化された階層モデルは核心的な原理を捉えています。情報はこの階層を双方向に流れます。トップダウン接続は予測を高い層から低い層へと運び、ボトムアップ接続は予測誤差、つまり予測と実際の活動との差を運びます。
この情報の流れの抽象的な説明が、個々のニューロンがどのように相互接続する必要があるかの導出のガイドとなります。私たちはネットワークを「エネルギーベースモデル」として扱います。本質的に、これは各ネットワーク状態に抽象的エネルギーの形を表す単一の数値を関連付けることを意味します。
そして、このエネルギーを減少させるためにシステムがどのように発展すべきかのルールを導き出すことができます。このフレームワークは、重力ポテンシャルエネルギーを最小化するために丘を転がり落ちる球や、原子間相互作用エネルギーを最小化するために折りたたまれるタンパク質のように、自然に最小エネルギー状態に向かって進む物理系と類似しています。脳も物理系なので、これもある形のエネルギーを最小化する状態へと進化します。
予測符号化ネットワークでは、このエネルギーは予測と現実の間の誤差の総量に関連しています。これを視覚化するために、次のアナロジーを考えてみましょう。ネットワークを、各ニューロンが柱上をスライドするノードである、動かせる部品、バネ、接続ロッドの集合体と考えます。その高さはその活動レベルを表します。
同じ柱上には、予測される活動に対応するプラットフォームがスライドし、その値は上の層からのニューロンによって決定されます。バネがニューロンノードとプラットフォームを接続し、その二乗の長さに比例するバネの張力が全体のエネルギーに寄与します。ニューロンの活動がその予測値から大きく逸脱すると、どちらの方向でもエネルギーが増加します。
ニューロンの活動は自由に調整できますが、その予測活動は他のニューロンによって決定されます。私たちはこれを、上の層のニューロンノードを現在のレベルにあるプラットフォームに接続するロッドとして視覚化できます。シナプス重みに対応する可変角度に位置し、他のニューロンの活動が予測にどのように影響するかを決定します。
上の層のすべてのニューロンからの活動の合計に、それらを接続するシナプス重みを掛けたものが予測値となります。通常、活動はシグモイドやReLUなどの非線形活性化関数を通過しますが、単純化のためにここでは省略しています。各ニューロンの予測誤差は、その実際の活動と予測された活動の差です。
すべてのバネの全体的な張力を表す総エネルギーは、各層のすべてのニューロンにわたる二乗誤差の合計です。ネットワークの基本的な目的は、ニューラルの活動と接続の重みの最適な構成を見つけることで、総予測誤差を最小化することです。後で見るように、トレーニング例に直面すると、ネットワークはこれらの要素のバランスを取り、入力と出力の関係を可能な限り正確に表現する状態に落ち着きます。
それでは、このエネルギーを減少させるために、ニューラルの活動と接続の重みをどのように調整すべきかを正確に決定しましょう。結果として得られるメカニズムは、驚くほど既知の神経生理学と一致します。システムの進化の間、それは効果的にニューラルの活動やシナプス重みなどのパラメータを座標とする高次元空間で定義されたエネルギー表面を下り坂に転がります。
数学的には、この下り坂への移動は、最も急な降下の方向、つまり関数の勾配の反対方向に移動することに対応します。勾配ベクトルは最も急な上昇の方向を指し、各パラメータに関する導関数で構成されています。
層Lにある特定のニューロンを分離し、エネルギーを下げるためにその活動をどのように調整すべきかを決定しましょう。この導関数を見つけるために、すべての柱にわたって合計し、すべてのバネの二乗長さを加算するエネルギーの定義に戻りましょう。和の導関数は導関数の和に等しいので、各柱を個別に調べ、層Lにあるx_iの高さを少し調整すると、任意の柱での張力がどのように変化するかを尋ねることができます。そして、これらすべての効果を合計します。
まず、このニューロンはL層より上流の層のどのバネの張力にも影響を与えないことに注目してください。したがって、それらすべての項の導関数はゼロです。L層自体の中でも、直接影響を受けるバネはニューロンiをその予測値に接続するものだけです。予測誤差の二乗を微分することで、このニューロンの活動の変化率がその予測誤差の負であることがわかります。
これは直感的に理解できます。誤差εが正であるとき、つまりニューロンの活動がその予測を超えるとき、バネは収縮して値を予測に向かって引き下げようとし、負の変化率が生じます。逆に、値が予測よりも低い場合、バネの張力はニューロンの活動を上向きに押し上げます。
しかし、考慮すべき追加の複雑さがあります。L層のノードの高さを調整すると、自身のバネに影響を与えるだけでなく、その下の層の予測活動にも影響します。完全な導関数を計算するには、x_iの変化がこれらの下流の誤差にどのように影響するかを考慮しなければなりません。ニューロンの予測活動は上流のニューロンの活動の重み付き和で与えられることを思い出してください。
そのため、層Lでx_iを変更すると、下の層の各ニューロンに対して、それらを接続する重みに比例して予測値に影響します。総導関数を計算するには、接続重みでスケーリングされた下の層からの予測誤差を合計し、先ほどの結果と組み合わせる必要があります。下流のあるニューロンでは、その活動がその予測値より大きい場合、バネの張力を減らすためには、プラットフォームを上に動かして予測を増やす必要があります。これは、結合する重みが正であれば、上の層のニューロンも上に動かすことで実現できます。
逆に、予測誤差が負の場合、上流のニューロンの活動を減少させることで予測値を下げ、張力を減らすことができます。この優雅な方程式は、ニューラルダイナミクスについて深遠なことを教えてくれます。
活動は、二つの競合する影響の間のバランスを見つけるように調整されます。最初の項はニューロンをそのトップダウン予測に合わせるよう促し、二番目の項はそれが下の層をより良く予測することを促します。これらの力がバランスに落ち着くと、ニューロンは最適な活動レベルを見つけたことになり、それは自身の層と予測する層の両方で予測誤差を最小化します。
しかし重みの調整に移る前に、これらの更新ルールを抽象的なバネとプラットフォームから実際のニューロンに翻訳しましょう。各ニューロンは負の符号を持つ自身の予測誤差を入力として受け取る必要があることに注目してください。以前、この誤差を一種の抽象的な減算として扱いましたが、この比較は物理的にどこかで発生する必要があります。
予測誤差を保存して活動変化を駆動できるメカニズムが必要です。これが予測符号化の基本的な洞察です。予測誤差を明示的にエンコードする別の集団のニューロンが必要なのです。実際、これが「予測符号化」という用語の起源です。信号そのものではなく、予測誤差を表すコードを形成するニューロンというわけです。
私たちのフレームワークでは、各層内で、下の層に渡される予測をエンコードする表現ニューロンx_iの隣に、x_iがその予測値からの偏差をエンコードする専用の誤差ニューロン、生物学的対応物が存在すると想像できます。この構造を念頭に置くと、更新ルールから必要なニューラル接続を直接読み取ることができます。
表現ニューロンx_iは、対応する誤差ニューロンによって抑制され、下の層からフィードバック信号を送る誤差ニューロンによって興奮される必要があります。これにより、私たちの数学的定式化を生物学的回路に優雅にマッピングすることができます。次に、誤差ニューロン自体を駆動するものを決定する必要があります。定義により、誤差ニューロンは比較器として機能します。
x_iの活動とその予測値（上の層からの活動の重み付き組み合わせで与えられる）の差を計算します。この方程式は、別の一連の必要な接続を明らかにします。誤差ニューロンは同じ層内のパートナー表現ニューロンから興奮性入力を受け取り、予測を伝達する上の層のニューロンから抑制性入力を受けます。完璧です。
これで、特定の興奮性および抑制性接続を持つ二つの異なるニューロン集団ができました。独自の内在的なダイナミクスに従って展開することを許可されると、このネットワークはすべての層にわたる予測誤差を最小化する平衡状態に落ち着きます。しかし、これまで議論してきたすべては固定された接続重みを前提としています。
モデルを完成させるためには、学習能力を備える必要があります。ニューラルの活動と同様に、シナプス重みもシステム内の可動部品であり、総エネルギーを最小化する構成に向かって進化します。層LのニューロンiをL-1層のニューロンkに接続する重みに対して、勾配方向と反対の方向にステップを取ることで総エネルギーを減少させる更新ルールを導き出すことができます。
私たちのエネルギー関数はネットワーク全体にわたるすべての二乗予測誤差の合計であるため、これら二つのニューロンを結合する重みを変更すると、影響を受けるのはシナプス後ニューロンでの予測誤差だけです。導関数は、この予測誤差の負にシナプス前ニューロンの活動を掛けたものに等しくなります。
これにより、重みの変化が二つの活動の積に比例するという優雅な更新ルールが生まれます。このルールは神経科学におけるヘブ可塑性と驚くほど似ています。「ともに発火するニューロンは結合する」というわけです。しかし、このルールを生物学的ニューラル接続に変換すると課題が明らかになります。予測は表現ニューロンiが下の層のニューロンkに接続することで上から下へと流れます。
予測誤差がこの誤差ニューロンから上へとニューロンiに流れ戻るとき、私たちの導出では同じシナプス重みを使用する必要があります。しかし生物学的ネットワークでは、これらは物理的に異なるシナプスであり、完全な対称性を維持するには瞬時の通信が必要となりますが、これは脳内では観察されていません。
この「重み転送問題」はバックプロパゲーションと予測符号化の両方に影響します。しかし、重みの動的特性をより詳細に調べると、可能な解決策が浮かび上がります。二つの対向するシナプスでは、更新ルールは本質的に同一であり、シナプス前とシナプス後のどちらのニューロンであるかだけが異なります。
したがって、理論的に一致するはずのフィードバックとフィードフォワードのシナプスは、同様の更新プロセスを通じて独立して類似した値に収束する可能性があります。このように、更新の生理学自体が自然に重み転送問題を緩和する可能性があります。ただし、実際のモデルでは非線形活性化関数があることに注意すべきです。これまで私たちは簡略化のためにこれを無視してきました。
これらの非線形性が含まれると、二つのシナプスの更新は数学的に同一ではありません。幸いなことに、研究によれば、完全な対称性は本質的ではないかもしれません。フィードフォワードとフィードバックのシナプスが若干異なる更新ルールで独立して学習する場合でも、生じるおおよその対称性がネットワークが効果的に機能するのに十分であることが示唆されています。
この学習ルールは、先に導出した活動のダイナミクスとシームレスに統合されます。ニューラルの活動が特定の入力に対する予測誤差を最小化するように落ち着くと同時に、重みは多くの経験にわたる統計的パターンをエンコードするために適応します。これらのプロセスが一緒になって、ネットワークは内部モデルを継続的に洗練し、生物学的神経回路が経験から学ぶ方法に密接に似ています。
それでは、すべてをまとめて、このフレームワークが完全なシステムとしてどのように機能するかを見てみましょう。ネットワークがすべてのパラメータ、ニューラルの活動と重みの両方を自由に調整することを許可すると、それは自然にゼロエネルギー状態に落ち着きます。しかし、この解決策は些細なものであり、意味のある計算を実行しません。
予測符号化の実際の実装、そしておそらく脳自体においても、特定のニューロンはある種の固定された値に「クランプ」されています。例えば、最下層は感覚入力によって直接駆動されるため、自由に変化することができません。この制約によりネットワークは最適な妥協点を見つける必要があります。トレーニング例に直面すると、ネットワークは反復的なリラクゼーションプロセスを経験します。
ニューラルの活動と重みは、局所的な更新ルールに従って調整され、平衡構成、つまりネットワーク構造内のトレーニング例に関する情報をエンコードするエネルギー最小に達します。多様な例にわたってこのプロセスを繰り返すことで、ネットワークの世界の内部モデルが徐々に洗練されていきます。
このプロセスを通じて、ネットワークはデータの圧縮された表現を発展させます。これは、出力層のクランプを解除し、重みを凍結し、ネットワークが学習したモデルと一致する新しい画像を合成するために平衡状態に到達させるような生成タスクに活用できます。分類などの教師あり学習タスクでは、最上層を望ましいラベルにクランプすることで、ネットワークは接続重みにエンコードされた最適な入力から出力へのマッピングを発見することができます。
新しい入力を分類する際には、単に重みを凍結し、システムを平衡状態に落ち着かせ、最上層のニューロンの平衡活動からラベルを読み取るだけです。予測符号化の主な利点はその局所性にあります。バックプロパゲーションでは、全体の出力誤差を最小化するという単一の目標にすべての調整が役立ち、それがネットワーク全体に伝達される必要がありますが、予測符号化では、各ニューロンとシナプスは局所的な予測誤差にのみ反応します。ある層がその予測からどれだけ逸脱しているか、そしてそれがどれだけ良く隣人を予測するかという点です。この生物学的妥当性と観察されたヘブ可塑性ルールなどの神経生理学的データとの一致は、予測符号化が私たち自身の脳がいかに効果的に学習するかを理解するための鍵かもしれないことを示唆しています。
これらの洞察を人工知能にも取り入れることができます。局所的自律性によりアルゴリズムは非常に並列化可能であり、特定の設定ではバックプロパゲーションよりも効率的です。理論的考察によれば、結果として生じる更新はバックプロパゲーションよりも優れた解決策につながる可能性があります。
バックプロパゲーションは全体的な出力損失のみに焦点を当て、以前に学習した情報を上書きする可能性があります。これは「破滅的忘却」として知られる現象ですが、予測符号化の局所的更新ルールは既存の知識構造をよりよく保存します。まとめると、今日探索したことを要約しましょう。
各層が下の層の活動を予測するエネルギー最小化問題として推論と学習をフレーム化することで、完全な局所自律性で動作するアルゴリズムを導き出しました。計算と学習のための別々のフェーズとグローバルな調整を必要とするバックプロパゲーションとは異なり、予測符号化はニューロンが同時に予測、比較、適応する連続的な並列プロセスとして登場します。
このアプローチは神経組織の生物学的制約と調和するだけでなく、人工モデルに対する計算上の利点を提供する可能性もあります。神経科学と人工知能が互いに情報を提供し続ける中で、予測符号化は生物学的脳の驚くべき学習能力と次世代のニューラルネットワークアーキテクチャの間の説得力あるブリッジとして立っています。
効率的な学習について言えば、今日のアイデアの背後にある基礎的な概念をより深く理解したいなら、今日のスポンサーであるBrilliant.orgを気に入っていただけるでしょう。Brilliantはインタラクティブな視覚化と実践的な問題解決を組み合わせてSTEMトピックをマスターするのを助けます。彼らの魅力的なコースでは、難解な概念を小さなレッスンに分解し、実践を通じて学び、直感を築くことができます。
このビデオに特に関連性が高いのは「ニューラルネットワーク入門」と題されたコースで、人工ニューロンの定義から隠れ層や活性化関数まで構築し、私たちが議論した構成要素について実践的な経験を提供します。Brilliantは数学、物理学、コンピュータサイエンスなど様々な分野にわたるコースのコレクションを提供しています。
基礎知識を構築する初心者であれ、新しい領域を探索する専門家であれ、Brilliantにはすべての人のための何かがあります。学習を次のレベルに引き上げる準備ができたら、brilliant.org/ardamcursenovにアクセスして、Brilliantが提供するすべてを30日間無料で試せるほか、年間サブスクリプションが20％割引になります。
ビデオが気に入ったら、友達と共有し、まだであればチャンネル登録をして、いいねボタンを押してください。神経科学と機械学習のトピックスについての続報をお楽しみに。