強化学習=物理学?AIの未来はすでに決まっている?!

AGIに仕事を奪われたい
この記事は約21分で読めます。

12,346 文字

RL Explained & Future Algorithms of AI (Nerds only)
Reinforcement Learning = Physics? A Mind-Bending ExplanationMy thoughts on the dense interplay of theoretical physics an...

コミュニティの皆さん、こんにちは。戻ってきていただき、とても嬉しいです。私の視聴者の多くから強化学習について説明してほしいという依頼をいただきました。全体像を説明できるかということですが、それは素晴らしいアイデアだと思いました。さらに、将来的な強化学習システムを見据えた次のAI開発についてもお見せします。
そして、理論物理学、特に私たちのAIにおける強化学習との間には非常に密接な関係があるため、今日すでに近い将来に何が起こるかを私たちが知っている理由をお見せします。非常に個人的な紹介をいたします。これらは私の考えに過ぎません。完全に間違っている可能性もあります。ですから、皆さんに助けていただく必要があります。
一緒に考えていただく必要があります。しかし、私の考えを皆さんと共有したいのです。そして、私の視点から紹介したいと思います。ご存知のように、人工知能は素晴らしく、今日のすべては強化学習です。そして物理学、特に統計力学で構築した数学的構造との美しい数学的関係があります。
アイデアは単純です。強化学習の文脈ですべてを知っていれば、私たちはすでに量子力学における物理学の知識を持っているのです。つまり、より多くの同じもの、より多くのNvidiaの同じGPUカードでAIをさらに発展させるのではなく、私が皆さんに提示したいアイデアは、AIの物理学を理解し、AI物理学が現在どこにあるかを理解すれば、それは統計力学であり、量子力学を定式化するための完全な理論物理学と数学的装置を持っており、今度は量子力学を量子AIと量子強化学習にマッピングできるということです。
なぜ未来を見てみないのでしょうか?見ることについて言えば、すべては視点の問題です。ルービックキューブについて考えてみてください。解けてしまえば、とても簡単です。AI理解、AI理論、AI応用と呼ぶ次元があります。
しかし、ルービックキューブの解けた面が他にもあり、それは数学と呼ばれています。なぜなら、私たちが持っているアイデアはすべて数学で符号化する必要があるからです。しかし、AIを符号化する際に持っているアイデアは、物理学における私たちの理解と非常に密接に関連しています。なぜなら、それが自然の法則、規則だからです。物理学は自然を記述し、AIは私たちの自然の一部なのです。そう考えれば、過去何千年にもわたって物理学で発見されたすべては、私たちの知識の一部でもあります。
この配置やルービックキューブのこの表現があれば、それは簡単です。しかし、現実世界にいる場合、私たちが持っているルービックキューブの表現はどうでしょうか。青を強化学習からのAI理論とし、緑をAIの背景である私たちが理解している物理学とします。ピンクは純粋な数学的形式的コード実装であり、黄色はコード自体です。
これは興味深い構造です。これを探求してみましょう。強化学習について話すとき、その基礎は何でしょうか。非常に短く、機械学習の一分野で、環境との相互作用によって逐次決定を行うエージェントの訓練に焦点を当てています。定義されたタプルを持つマルコフ決定過程の基本的なアイデアがあります。
これは環境の可能な構成を表す状態の集合です。次に、AIエージェントが利用できるAIシステムが実行できる行動の集合があります。そして、AIが取る行動が状態Sから別の状態S’へとどのように導くかを記述する遷移確率関数を扱います。初期状態の分布があります。
エージェントの特定の状態sで行動aを実行した後に得られる報酬、つまり即座の報酬があり、ガンマがあります。ガンマは有名な割引係数で、即座の報酬と将来の期待報酬または計算された報酬のバランスを取ります。そして強化学習の目標は、システムの特定の状態sと取られた行動aが与えられた最適な方策πを見つけることで、エージェントの長期報酬を最大化することです。全体は数学的最適化定理に過ぎません。
正式に、古典的なものを扱う場合、長期報酬があります。これは方策πでの状態価値関数V πによって定義されます。もちろん、状態行動関数から行動価値関数へと進みます。これは特定の方策πでのQ学習であり、違いは単純で、方策πのアドバンテージ関数aがここで定義されます。
強化学習で行うことは、状態価値関数V πがあり、これはここの状態sから開始するエージェントの期待総報酬を表します。しかし、これとは異なるのが行動価値関数Qです。これは特定の状態Sにいる間に行動Aを選択するエージェントからの期待総報酬です。
アドバンテージ関数は、特定の時刻tで特定の行動aを選択することの期待追加報酬を、方策の期待報酬と方策πの期待総報酬を超えて測定するメトリックです。これは単純な方程式で定義されます。期待総報酬を最大化することで、最適な方策π*と表記できるものが導出でき、見つけることができます。
これは最適化問題の解であり、AIエージェントが環境で最大の報酬を受け取ることを可能にし、エージェントは素晴らしいことを学習します。これが強化学習です。これが私たちの現在の状態です。これについてさらに読みたい場合は、ノースウェスタン大学のこの論文をお勧めします。
私たちが今見るのは、強化学習と統計学が多くのことを共有しているということです。しかし、なぜさらに一歩進まないのでしょうか?なぜここでルービックキューブの異なる視点を使って、これをシュレディンガーの猫と組み合わせないのでしょうか?この有名な猫のことです。生きているのか死んでいるのか?思考実験があり、これらを組み合わせたらどうなるでしょうか?
そして、Googleに量子検証を見せてもらいたいと思います。私たちが取る次のステップは何でしょうか?または、次のAIシステムに対して量子場理論的アプローチを取る場合はどうでしょうか。簡単ではありません。それでは、強化学習の基本的理解から始めましょう。そうです、皆さんの中には非常に進んだ専門家もいることは承知しています。
しかし、このビデオを見るすべての人のために、基本的な紹介から始めて、皆さんを同じレベルに引き上げたいと思います。すべてを持っています。すべてを一緒に知っています。強化学習の核心的アイデアは、エージェントが環境と相互作用して方策を学習することです。方策とは、時間の経過とともに累積報酬を最大化するために特定の行動を選択する方法に他なりません。
これは最適化問題です。特定の状態、行動、フィードバックとして戻ってくる報酬関数があり、新しい状態s’に遷移します。私たちには3つの主要な方法論があります。システムの状態に依存し、特定の行動が与えられたQ値関数を学習する典型的なQ学習があります。これは単純に行動Aを取り、その後最良の方策に従うことの期待累積報酬であり、私たちの重要な方程式は単純な方程式です。
次に方策勾配方法論があります。逆伝播について考えてみてください。Q値を学習する代わりに、特定の状態と特定の行動に対する方策π θを直接パラメータ化し、期待報酬を最大化するために勾配降下法を通じてこれを最適化するアイデアです。
異なる方法論、異なる数学的記法での最適化も見ることができます。そして3つ目または4つ目では、これらを組み合わせます。両方の世界の最良のものを手に入れます。これが私たちの知るアクター・クリティック法です。価値ベースと方策ベースの方法を組み合わせます。
アクターは方策p θを更新し、クリティックはアクターを導くためのVまたはQ、行動状態関数である価値関数を推定します。クリティックは価値関数を学習し、アクターはクリティックのフィードバックを使用して勾配降下法による方策を更新します。クリティック付きの方策勾配または高度なアクター・クリティックには、アドバンテージも定義された単純な数学的表現があります。
これが私たちの非常に単純な紹介です。Q学習、方策勾配、アクター・クリティックを比較して見たい場合、学習されるものを見ると、Qwell、方策、そしてアクター・クリティックの両世界のベストがあります。素晴らしい、紹介終了です。始めましょう。
強化学習では、特定の因子、つまり報酬を非常に特定の温度、探索温度で割った指数因子によって軌跡に重みを付けることを覚えています。統計物理学では、エネルギーを実際の温度で割った指数関数によってマクロ状態にも重みを付けます。
これらの偶然が偶然ではなく、氷山の一角のようなもので、AIと物理学について私たちが知っていることとの間により深い双対性とより深い関係があることを示しているとしたらどうでしょうか。それはかなり簡単です。迷路をナビゲートするロボットについて考えてみてください。可能な道は物理システムのミクロ状態のようなものです。迷路を探索するロボットには多くの可能な道があります。
つまり、多くのミクロ状態があり、道をサンプリングする方法を調整することで、自由パラメータとしての温度を持ち、探索対活用の繊細な平衡を制御できます。強化学習では常にこの繊細な平衡があります。これは物理学者が材料を冷却して実際の物理システムに相変化を誘発することとほぼ同じです。
物理学の非常に言語、数学的記法を使用して、より賢い大規模言語モデルを理解し、設計することさえできます。これから始めましょう。私の単純な世界での主要なアイデアは何でしょうか?物理学と強化学習の両方で使用します。最適性、最適化問題自体とランダム性のバランスを取る最良の確率分布を探しています。これは重要です。
決定論的になってしまう完璧なシステムは望んでいません。なぜなら、量子力学とシュレディンガーの猫について考えると、非常に特定の理由でこのランダム性が必要だからです。古典力学、統計力学に行くだけなら、ここに分布があります。システムが特定の状態にある確率があり、この表現があれば、これに慣れ親しんでいるはずです。完全な分布を正規化する分割関数があり、迷路のロボットであるミクロ状態に確率を単純に割り当てます。より低いエネルギー状態がより可能性が高く、より好まれますが、熱的揺らぎは可能なままです。エントロピー項があります。
ちょっと待ったと言うなら、もちろんこれはボルツマン分布でもあります。お好みなら、これは確率分布または確率測度で、システムが状態のエネルギーとシステムの温度の関数として特定の状態にある確率を与えます。素晴らしい。
ここに私たちが知る指数関数があります。素晴らしい。ボルツマン定数k。私たちのアイデアではボルツマン定数を1に設定します。しかし始めましょう。
そして、AI強化学習では、ソフトマックス関数があります。ソフトマックス関数は状態Sでの行動Aに確率を割り当てます。より高い報酬の行動がより可能性が高いものの、探索もある程度の余裕があります。状態Sで行動Aを取る確率は何で、数学的公式を見てください。ボルツマン定数を1と言えば、これは興味深く見えるかもしれません。なぜなら、アルゴリズムのバックボーンが同一だからです。
これは偶然でしょうか?私の若い視聴者の皆さんには、このソフトマックス変換は単純です。特定の行動値を確率分布に変換します。つまり、確率的な行動選択を可能にします。したがって、美しいバランスがあります。τという温度パラメータがあります。どちらでも構いません。
これは決定論的バージョンでの選択がどれだけ貪欲かを制御し、方策定義で使用します。強化学習では、エージェントは推定Q値に基づいて行動を選択する必要があります。これらは私たちが計算できる期待将来報酬に他なりません。常に最良の利用可能な行動、最高のQ値を選択する代わりに、私たちが貪欲と呼ぶもの、ソフトマックスには非常に特定の機能があり、私たちが設計した方法で、ソフトマックスはQ値に依存する確率で時々最適でない行動を選択することで探索を可能にします。
公式が欲しければ、Q1からQNまでの行動値のベクトルに対して、特定の行動Iを選択するソフトマックス確率(IはNの要素)はこの確率であり、これがボルツマン方程式からすでに知っている確率と同じであることは偶然だと思うかもしれません。
強化学習では、高報酬行動を選択することと他の行動を探索することのバランスを取るためにソフトマックス方策を使用します。Q関数は特定の状態Sでの特定の行動Aの期待報酬であり、温度はどれだけのランダム性を許可するかを制御します。
高温度はすべての行動をほぼ等しく可能にします。低温度は常に最高のQ行動を選択するようにします。この原理、温度制御は、実際の物理世界で物理システムを冷却または加熱することと同じです。熱すぎればランダムに徘徊し、ガスを持ちます。冷たすぎれば氷のブロックに凍り、これは超平面での勾配学習について考える場合、準最適な選択かもしれません。
偶然が見えるでしょうし、私は意図的にこの公式を選びました。これが統計力学のアナロジーをここで紹介する優雅な方法だと思うからです。ギブス分布は特定のエネルギー超平面を持つミクロ状態に対してまったく同じことを行い、Q関数に対するソフトマックス方策を持つ強化学習です。
これが偶然ではないことが判明します。なぜなら、Q関数、特定の状態での行動、ボルツマン分布での負のエネルギー、方策π、確率分布、温度tまたはτの類似性を見ることができ、4次元アイデアの定数を等しく設定できるからです。
これは、強化学習での報酬関数または報酬複雑性が理論物理学での負のエネルギーと同じ役割を果たし、非常に特定の温度パラメータまたはτが両方の世界で最良の選択とランダム探索のトレードオフを統制することを意味します。
強化学習で使用する報酬関数は、AIまたはAI用に、またはOpenAIによって発明されたものではないことが判明します。報酬は別の視点から見ると非常に単純です。ルービックキューブを取り、ルービックキューブの次の面の別の表現を見ると、それは物理学の負のエネルギーです。
同じ法則を見つけたか、この特定のAIコードをコーディングした人は理論物理学者であり、理論物理学でこの最適化問題を解く方法を知っていると言いました。そこで、知っている方程式を使い、強化学習に挿入し、エネルギーの代わりに報酬と呼んだのです。なんという偶然でしょう。
しかし、それが非常に密接に関連していることがわかります。強化学習のアイデアと方法論と公式を理解し、物理学をここで理解する瞬間、物理学の最も単純な形である統計力学で、アイデアと公式と私たちが適用するコードとの間に強い代数的関係があることがわかります。
物理学を理解すればAIを理解します。両方の公式は、エネルギーまたは報酬をエントロピーまたはランダム性に対してトレードオフするために、まったく同じ数学的メカニズムを使用します。それは絶対に興味深いと言うでしょう。なぜなら、物理学では、この平衡を持つ確率分布があり、ギブス分布またはマクスウェル分布は単なる任意の選択ではないことが判明するからです。
なぜなら、それは物理学の基本的な熱力学原理から生じるからです。そうです、このボルツマン分布は、特定の温度での熱平衡にあるシステムのヘルムホルツ自由エネルギーを最小化するシステムのミクロ状態xに対する正確な確率分布です。これは偶然ではありません。これは最小化最適化問題の結果です。
これは物理システムの正確な確率分布です。次のステップに進む必要があることがわかります。物理学を知っているなら、原子について考えてみてください。自然の一般的なシステムは常にエントロピーを最大化するわけではないことを知っています。それは間違いです。そうであれば、すべてが飛び散ってしまいます。
均一な高無秩序形態のガスを持つことになります。しかし、システムには対抗力があります。原子構造のようなシステムは内部エネルギーを最小化する傾向があります。たとえば、原子は分子を形成するために結合し、原子自体の構造もそうです。美しいものがあるからです。結合状態はより低いエネルギーを持ち、したがって安定です。
最適化と対称性、そして要するにハイゼンベルク集合が見えます。しかし、競争を見てみましょう。これは素晴らしいです。2つの力があります。特定の原子、電子のエネルギーを最小化する傾向があります。特定の元素の特定の構成を計算する場合、元素が安定であるような安定性を達成したく、無秩序や拡散、または何らかの動的な状態を達成するためにエントロピーを最大化する傾向があります。これは量子システムに行く場合に特に興味深いです。
基本物理学では、システムが一定温度と一定体積の熱バッファと接触している場合、システムが自然に最小化しようとする量は、私たちが最小化する実際のパラメータではありません。古典物理学、理論物理学でヘルムホルツ自由エネルギーと呼ばれるものです。素晴らしい。
これは低温度で、小さな温度がある場合、E項が支配的になることを意味します。システムは低いエントロピーを意味してもエネルギーの最小化を優先します。水が氷に凍り、ある種の結晶構造を形成します。高温度で、Tが大きくなるとマイナスTS項が支配的になり、システムは高いエネルギーを意味してもエントロピーの最大化を優先します。これはガスへの相転移を意味します。
この種の温度が、エネルギー最小化対エントロピー最大化の相対的重要性をここで決定します。AIでは、この超パラメータについて考える必要があり、特に水が氷か水蒸気かで、この超パラメータに対して非常に敏感です。同じ代数的状況があります。
強化学習目的にエントロピーボーナスを追加すると、物理的自由エネルギーの実際の類似物を効果的に最小化していることになります。なんという偶然でしょう。最大エントロピー強化学習について話しています。ソフトRLとも呼ばれます。しかし、用語を正確に見るために最大エントロピーRLにとどまります。
標準的な強化学習目的を修正して、エントロピーボーナスを含めます。何があるでしょうか?環境からの古典的な通常の報酬があり、特定の状態sでの時刻t+での方策のエントロピーhとαパラメータがあります。
αは再び非常に特定のものです。報酬対エントロピーボーナスの相対的重要性を制御するτまたは何と呼びたいものでも構わない温度パラメータです。最大エントロピー強化学習システムの最適化問題の数学的公式を構築するために理論物理学からのアイデアを使用していることがわかります。なんという偶然でしょう。
強化学習にこのアイデアを持った人が物理学を始めたか、物理学を学んだ人で、これを達成する公式を知っていると言ったのか、それとも独立に発見されたのかを知りたいです。接続されていることを理解しています。エントロピー公式hに慣れ親しんでいます。
αが低いまたはゼロの場合、エージェントは報酬の最大化に完全に焦点を当てます。これは標準的な強化学習です。最適方策は決定論的になる可能性があります。エントロピーはゼロまたはゼロに近いです。つまり、不確実性はほとんどありません。
しかし、αが高い場合、エージェントは良い報酬関数を犠牲にしてでも、高エントロピー方策でランダムに行動することを重視します。最適方策ははるかに確率的になります。温度α、τがここで活用、つまりより高い報酬関数、より高い報酬を得ることと、新しいことを発見し、ここで確率性を維持するためにランダムに行動する探索のバランスを正確に取っていることがわかります。
これは本当に興味深いことです。さらに学びたい場合は、数十の論文があります。台湾とNvidiaからのエネルギーベース正規化フローによる最大エントロピー強化学習に関するこの論文をお勧めします。これは2024年10月からの古い論文ですが、この論文が気に入っています。
彼らは最大エントロピー強化学習から始めます。最初の17の参考文献があります。最大エントロピー強化学習について知っていることを説明する14を見せ、さらに最初の参考論文があります。
とても美しいです。経路積分と対称性の破れから始まり、すぐに急進的物理学について考えます。この論文では、私が行ったような単純化ではなく、美しいステップバイステップの演繹を提供します。何が起こっているかを明確にしたかったので、非常に簡単にしました。一段階深く行けば、美しく、これが私がこの論文を気に入る理由です。
報酬に対するエントロピーの相対的重要性について知る必要があるすべてがここにあります。ソフト価値関数で定義されたソフトQ関数があります。さらに進むと、SQLでのソフト価値推定があります。しかし、SQLはデータベースを使用することではありません。単純にソフトQ学習とソフトウェア価値推定、そしてSACです。
SACはソフトアクター・クリティックモデルを表します。ビデオの最初にアクター・クリティックモデルを説明したことを覚えています。ここでソフト価値推定があり、見ることができるように、ソフト価値関数をこの特定の近似で推定できます。素晴らしい。
論文を読むときに数学について本当に確信が持てない場合は気にしないでください。AIマスを簡単な方法で説明したと呼ぶ特定のビデオがあり、これらの表現を見るときはいつでも、AI数学の基本を52分で説明する特定のビデオがあります。しかし、今日のトピックに戻りましょう。
物理学では、特定の温度Tでのシステムがヘルムホルツ自由エネルギーを最小化しようとし、負のエネルギーを最大化しようとします。最大エントロピー強化学習では、特定の温度αまたはτを持つエージェントがエントロピー調整期待報酬関数を最大化しようとします。これは素晴らしく、これを行いたい場合はより深く行くことができます。
なぜなら、Q学習と負のエネルギーとの初期マッピングを思い出すからです。これは、高報酬または報酬またはQが低エネルギーマイナスEに類似していることを意味します。これは、ステップごとの最大エントロピーRL目的がこの表現を最大化することであることを意味しますが、これは物理学でシステムエントロピー×温度マイナスエネルギーを最大化することに直接類似しています。
この公式を知っていますね。これは、強化学習での報酬と温度依存方策エントロピーの最大化が、物理的自由エネルギー関数を最小化しているかのように振る舞う方策を見つけることと数学的に等価であることを意味します。なんて美しいのでしょう。なんという偶然でしょう。いえ、これは偶然ではありません。これは物理学です。
AIは物理学です。物理学の視点を使ってAIを理解することもできます。または、抽象的な数学世界に絶対にいる場合は、純粋数学の視点を使ってAIを理解してください。両方の節が必要だと思います。
つまり、私の単純化では、みんなが私と一緒にいるか、このソートが好きだと言うか、私をだますなと言って純粋数学に行かなければならないと言います。何でも好きなものを選んでください。この最大エントロピー強化学習でのエージェントが、低エネルギー、つまり高報酬構成を見つけようとする単純な物理システムのように振る舞うことを伝えたかっただけです。
バランス、つまり平衡を知りながら、特定の温度α、t、またはτによって統制されるトレードオフで、ある程度の熱的無秩序またはAIで方策エントロピーと呼ぶものを維持しようともします。これは優雅ではありませんか?
最大エントロピー強化学習シナリオでのエージェントの行動を定義し、このエージェントは物理システムとまったく同じように振る舞います。なんという偶然でしょう。
複雑さを増やしましょう。「あまり単純にするな。少し挑戦を与えてくれ」と言うことを知っているからです。この目的にエントロピー項を追加すると、古典的ベルマン方程式、これは古典的ベルマン方程式です。行動価値関数または演算子は後で変化し、エントロピー正則化なしの標準強化学習です。
ベルマン最適性方程式はこれです。特定の状態で特定の行動を取る価値は、特定の状態sでの行動aが与えられた即座の報酬と、次の状態s’での最良の次の行動a’からの割引将来報酬の項に等しいです。素晴らしい。
エントロピー正則化強化学習のソフトバージョンでは、ソフトベルマン最適性方程式は何でしょうか?これです。なんて美しいのでしょう。別の洞察の時間です。報酬とエントロピー項を最大化するこの目的を満たす方策は、私たちが始めたソフトマックスまたはギブスまたはボルツマン方策とまったく同じであることが判明します。
ビデオの始まりに戻って、なんて美しい結果を見せました。これは、強化学習でのソフトマックス方策が、AIの一部の人々が発見し、探索を得るために適用すると言った単なるアドホックな方法ではないことを意味します。このソフトマックス方策項は、エントロピー正則化目的の下での最適方策です。
AIには偶然のようなものはありません。これを物理システムで説明できます。ここで非常に単純な物理学があります。エネルギーシステムエントロピー温度ヘルムホルツ自由エネルギー、自由エネルギー平衡分布の最小化はボルツマン分割関数と最小自由エネルギー原理です。
SACモデル、最大エントロピー強化学習メカニズムを持つソフトアクター・クリティック用の強化学習の対応するアイデアをここで示します。システムエントロピーの代わりに、方策エントロピーがあります。温度があります。これは本当に物理的温度ではありません。これはこの分布の特定の温度です。
強化学習自由エネルギー、最適方策、もちろんソフトマックス分割関数、そして方策の最大エントロピー原理があります。しかし、すべての公式とすべてのアイデアとすべての項、代数的構造は絶対に類似しています。
AIは新しいものではありません。AIは特定のニューラルネットワーク用にコーディングされた理論物理学に過ぎませんが、それは物理学です。物理システムです。新しいアイデアや新しい強化学習は以前に存在しなかったものはありません。物理学では異なる名前で呼ばれていましたが、この新しい表現にあります。
ルービックキューブの表面について考えると、それはAIへの別の面表現に過ぎません。しかし、すべての面が一緒になるルービックキューブの内部では、それは物理学です。
次です。次は別のビデオを作ると思います。次です。経路積分です。次のステップに行きたければ、経路積分に行かなければなりません。ここで、私たちのAI対応は軌跡でしょう。
量子力学ですべての経路を合計することと類似があります。代数的バックボーンに注意してください。しかし、特に量子力学では異なる数学空間で動作します。実空間だけでなく、複素数があり、完全に異なる数学的構造に行きます。
しかし、どの構造を選び、これらの新しい数学空間での数学的操作にどのような可能性があっても、システムを相互作用または記述または最適化する基本形式は、常に同じ代数的解決に戻ってきます。
同じではありません。量子力学とyはまったく同じではありません。なぜなら、私たちのアイデアを操作するために構築する数学空間が数学的に異なり、異ならなければならないからです。しかし、規則と公式と洞察と理解はほぼ同一です。
量子力学では言ったように完全に異なるシステムと強化学習での行動シーケンスの合計があり、ハミルトニアン・ヤコビからシュレディンガーへの類似したものを見せるつもりです。連続時間ベルマン方程式はシュレディンガーのような形になります。
私たちが持つ確率を確率振幅ブーツに昇格させ、方策を量子チャネルの種類に変更することで量子アイデアで本当にステップを踏むなら、これは量子強化強化学習方法論への扉を本当に開きます。
完全に異なるアプローチがあることがわかります。AI自体が物理学であるが標準的な古典物理学であることから、物理学がどのように進化するかを知っていると言えるのは私のアイデアです。量子力学に進化するでしょう。量子力学から次のステップに移動します。
これをAI空間にマッピングし直せば、実装すべき公式とアイデアを正確に知っています。次のビデオの1つ、今後10年のAIが欲しければ。これを書くのは絶対にクレイジーです。しかし、量子力学から量子AIシステムと古典的量子力学的方法での量子強化学習に本当に行けば、量子力学から量子場理論への物理学軌跡でここで再び行けば。
量子力学から量子AIへのマッピングと量子場理論から量子場理論AI応用へのマッピングをどのように修正するかを知っています。10年でこれを達成することを望みます。分かりません。これは個人的な推定に過ぎません。
しかし、AIを試行錯誤だけではなく、もう少し深く見たいと思います。誰かが次世代のNvidia GPU100万個を購入し、ここに置いて、何と呼ばれるかわからないスーパーコンピューターを作るとしても、より多くの同じものが量子AIへの道を解決する方法かどうかわかりません。
何百年も前に力学について既に発見した物理学と統計力学公式と原理のより深い理解があれば、はるかに優雅だと思います。今、ファインマン積分と量子に行き、量子力学から持っている知識を適用し、量子場理論の展望さえ持っています。
非常に特定の数学空間でのストリングAIアイデアについて既に話している人もいます。しかし、アイデアが見えます。AIの未来は、息をのむようなものになるでしょう。驚くべきものになるでしょう。
現在AIを行っている人々が100万または200万のNvidia GPUを持ち、実装方法がわからないからではなく、中国から米国まで、AIの進むべき道を理解する優秀な若い学生たちがいたるところにいるからです。
このビデオを楽しんでいただけたでしょうか。少しクレイジーだったことは絶対に承知しています。しかし、AIの発展と将来期待できることについての個人的な考えを共有したかっただけです。このようなクレイジーなビデオが好きなら、なぜ購読しないのですか。次回お会いしましょう。

コメント

タイトルとURLをコピーしました