パトリック・ピラルスキー強化学習とアルバータプラン

16,492 文字

Patrick Pilarski on Reinforcement Learning and the Alberta Plan

This episode is sponsored by Netsuite by Oracle, the number one cloud financial system, streamlining accounting, financi...

アルバータプランは、本当に強力な人工知能を追求するためのアプローチです。これは深いルーツを持っています。アルバータ大学やアルバータ機械知能研究所、そしてその前身であるAICLに所属する多くの研究者たちが長年にわたって追求してきたものです。これは、自分自身の経験から学ぶことができる知的エージェントの構築方法についての構造であり、また私たちが信じている研究アプローチに私たちを結びつける一連の約束事でもあります。これにより、このような新しい未来のテクノロジーを生み出すことができると考えています。
私はパトリック・ポキーです。お招きいただきありがとうございます。私はカナダのAI研究者で、アルバータ大学医学部の教授であり、また、カナダのエドモントンにあるアルバータ機械知能研究所（Amy）のフェローおよび理事会のメンバーでもあります。
私の研究分野については、私は電気・コンピュータ工学の訓練を受けました。進化的計算から群知能、教師あり機械学習、コンピュータビジョン、そして強化学習まで、さまざまな形態の機械学習に取り組んできました。
現在、私は主に生体医工学および人工知能が人間と機械の相互作用にどのように適用されるかに焦点を当てています。特に、私たちの研究室では非常に野心的な研究プロジェクトに取り組んでいます。文字通り人間の骨にロボットを固定する方法を研究しているのです。人工知能と変革的な手術、そして人々と義肢との相互作用を測定する方法に取り組んでいます。例えば、切断や他の形態の肢の違いを持つ人々に対して、義肢回復の新しい科学と技術をどのように構築できるか、特に義手や人工腕を使用する人々のための神経義肢などを研究しています。
私たちは骨への固定手術、神経系の再配線によって人工手や義肢との相互作用を向上させる方法、そして人間と機械を情報的に結びつける新世代の人工知能技術の構築に取り組んでいます。これは人間が望むことと人工肢が実際に提供できることとの間を仲介する技術です。
今日の会話に関連する点としては、これは実際に低計算環境で展開される機械学習技術、強化学習技術の一例です。人工手を開閉するたびに宇宙のスーパーコンピュータと通信する義肢を想像しているわけではありません。人々が体に装着したり取り付けたりできるデバイスを望んでいます。高速道路の橋の下やトンネルを運転中にインターネット通信が途切れても動作が止まらないものです。私たちが考えているのは、人々が体に装着するデバイスに組み込むことができる非常に強力な技術です。
そう、アルバータプランですね。前回リッチ・サットンとお話したときにも触れましたが、深く掘り下げることはしませんでした。最近になって強化学習が大規模モデルのトレーニングに使用されていることもあり、より一般的な注目を集めています。リスナーと私自身のために、アルバータプランとは正確に何か、そしてそれをどのように実行しているのか、また強化学習研究との関連性について聞かせてください。
アルバータプランは、真に強力な人工知能を追求するアプローチであり、深いルーツを持っています。これはアルバータ大学やアルバータ機械知能研究所、その前身であるAICLに所属する多くの人々が長年追求してきたものです。これは、自分自身の経験から学ぶことができる知的エージェントの構築方法についての構造であり、また私たちが信じている研究アプローチに私たちを結びつける一連の約束事でもあります。
アルバータプラン自体は、長年にわたって議論されてきたものです。最近、実際にそれを文書化しました。数年前にマイケル・ボウリング、リッチ・サットン、そして私が発表したアルバータプラン文書のことだと思います。そこで私たちはアルバータプランの約束事を体系化し、また自分自身の世界との相互作用から学ぶことができる本当に強力な思考機械を構築するための、合理的な12ステップ計画を提示しました。
これには、大規模言語モデルのチューニングから産業プロセスの制御に至るまで、RLがどのように適用されているかという現状との直接的な関連があると思います。
アルバータプランは、私たちが知能、知能の研究を追求するための計画です。これは非常に包括的なものです。これは「マイク、リッチ、そして私がアルバータに座ってアルバータプランに取り組んでいる」というものではなく、世界中の多くの同僚を含むものです。私たちが会ったことのない人々もアルバータプランに沿った研究を行っています。アルバータ大学とエイミーにいる私たちの学生やチームは、世界に出てその一部を追求しています。
アルバータプランには4つの主要な約束事があり、それらは強化学習システム、つまり自分自身の経験から強化学習問題を解決するシステムの構築方法を考える助けになります。
1つ目は、それが非常に経験ベースであるということです。私たちは、時間の流れの中で生きているエージェントを信じています。
2つ目の約束事は、時間的均一性に関するものです。特別なトレーニングとテスト期間はありません。何十億ドルもかけてRedditやインターネット全体を蒸留してモデルにするのではなく、アルバープランの考え方では、システムに流れ込むすべてのデータ、その経験の流れ、自分の経験の流れの中で生きるエージェントの経験は、常に既に知っていることに少しずつ追加されていくものです。
また、時間をトレーニングのバッチと行動のバッチに分けようとしているのではなく、行動と学習が不可分に組み合わさっているという考え方です。これは3つ目の約束事の一部でもあり、計算を尊重するということです。使用する計算のフロップ一つ一つが価値あるものであるべきで、学習プロセスについて可能な限り計算効率が良くなるようにすれば、より多くの学習が可能になります。
アルバータプランの最後の約束事で、私が最も情熱を持っているのは、マルチエージェントの相互作用についてです。世界には他のエージェントが存在し、それらは複雑さを生み出し、学習可能なパターンを作り出し、環境の豊かさを作り出します。また、意思決定エージェントの能力を拡張する可能性も持っています。これは、知能増幅という長年のアイデアに関連しています。1950年代のアシュビーまで遡る考え方で、知能は物理的能力と同様にツールによって増幅される可能性があるというものです。一つの知能が別の知能の能力を乗算することができ、人工知能と計算は最も強力な増幅器の一つです。
最終的な目標は人工知能ですよね。現在最も注目されているのは、事前学習されたトランスフォーマーモデルにコンピューティングとデータを追加し、ベンチマークに対して測定するというアプローチです。これが最終的に人工知能につながるという考え方です。しかし、ヤン・ラオンやフェイ・フェイ・リーのような人々は、直接体験が必要だと主張しています。人間の知識を体現した記録された（特にテキスト）データを通じては一般的な知能に到達しないという考え方です。
あなたのアプローチは純粋に強化学習なのか、それとも強化学習と記号学習の組み合わせなのか、あるいはトランスフォーマーを使用しているのか、そしてそれはヤンとフェイが話していることとどのように関連しているのでしょうか？
エージェントが自分自身と環境の間の相互作用を考慮に入れる必要があるという考え方があります。エージェントと環境を分ける境界線についてはコミュニティでよく議論されますが、それは非常に柔軟なものです。産業プロセス設計者であれば、そのインターフェースがどこにあるかを非常に慎重に選びます。時間の流れの中で生きようとする思考機械であれば、その境界線は時間とともに変化するかもしれません。
エージェントと環境の分離で興味深いのは、それらの間に関係性が必要になるということです。エージェントの学習は、エージェントと世界の間の「開口部」に関連して行われると仮定する必要があります。
インターネット全体を蒸留するという考え方を単純化しすぎるつもりはありません。インターネットの合計とそれに接続されたプライベートデータアイランドをデジタルマインドに保持できる機械を作れることは奇跡的なことです。しかし、エージェントとその環境との関係は特別なものです。私たちが本当に自分の経験の流れの中で生きることができる思考機械を構築したいのであれば、データセンター間を流れるプロトコルバッファの世界であれ、机やテーブル、椅子、ドアの人間の世界であれ、エージェントと環境の間のその相互作用を深く考慮する必要があります。
また、物理的な知能という側面もあります。システム自体の中に物理的な知能があります。ロドニー・ブルックスはこれについて素晴らしい議論をし、雄弁に書いています。身体自体は、心の知能を単に変換するだけでなく、実際に知能自体の側面を含んでいるというものです。これは環境を考慮する必要があることを意味します。
世界と相互作用できるだけでなく、遭遇する新しい世界に適応し続けることができるエージェントが欲しいなら、環境について考えることが非常に重要です。そのため、エージェント学習に統合する表現やデータストリームの選択は絶対に重要です。
アルバータプランの視点では、学習されるものはエージェントと環境の間のその開口部に関するものです。面白いのは、学習されるものが多くの形を取ることができるということです。私たちはしばしば価値関数について考えます。興味のある信号または多くの異なる興味のある信号に関する将来についての期待について考えます。
それらは行動を形作るために使用することができます。エージェントが行う予測、エージェントが将来の経験について構築し始める期待は、報酬と呼ばれるクールな信号についてかもしれません。報酬は素晴らしく、貴重な信号です。しかし、学ぶべき他のことがたくさんあります。
モデルについて私が考えるとき、本当に考えるのは、動物や機械のエージェントが形成したもので、何らかの方法でその環境、環境との相互作用の類似性を運ぶことができるものです。これはモデルへの非常に包括的なアプローチですが、エージェントが世界についての経験を活用して行動を選択し作成する能力を向上させるための計算を表現、操作、改善することを可能にする内部構造として考えています。
そのモデルを持っている良いところは、事前学習された大規模なモデル、基盤モデルと呼ばれるものを入れることができるということです。私の研究、そしておそらくマイクやリッチも含めて、世界についての期待や世界を表現する方法、その世界での経験の流れがどのように展開するかについて、あらゆる種類の期待を考慮に入れる許容的なモデルを想像できると思います。
エージェントによって直接学習されていないものを取り入れることができると言っています。そして、モデルの定義にも、その生の経験から直接学習されたモデルを取り入れることができると思います。私自身を含め、同僚たちも同様だと思いますが、その生の経験から学び、真の可能性を引き出すという領域は、比較的探索されていない領域であり、それは大きな力を持っています。
強化学習は、エージェントと世界の相互作用の理解を構築することができます。強化学習エージェントは、その生の感覚運動経験から将来の予測を構築します。これは非常に重要ですが、他の種類の学習されたモデルとも互換性があります。YouTubeを見ているエージェントが、「私はたくさんのロボットを見ました、彼らはビデオにいました、私はすべてのビデオゲームのスピードランを見ました、そして今それを使って私の運動制御に情報を与えるつもりです」というのは全く問題ありません。
これらの巨大なシステムのトレーニングに多くの時間とお金を費やしているなら、それを責任を持って使用すべきです。ロボットに歩くことを学ばせたり、エージェントにグリッドワールドで自分自身を制御させたりするたびに、その計算をやり直すべきではありません。過去の計算をできるだけ柔軟に活用すべきです。それは単に資源の責任ある使用です。
それはディープシークの直接強化学習を使用したモデルのトレーニングと関連していますか？基盤モデルが基本モデルになり得るという話でしたが、これは皆が話している強化学習トレーニングと関連していますか？
私の個人的な視点から始めますと、世界の予測モデルを持つエージェントを考えるのが好きです。これは、デジタルマインドにワイヤを通じて流れ込む経験の生のビットについてのモデルを形成するかもしれないということです。何年もの間、私は通常のエンジニアが完全に合理的だと言うような信号、指の関節角度、サーボモータに流れる電流、圧力などを取り、それらをビットに変換してエージェントのマインドに詰め込み、それらのビットがどのように変化するかを予測できるようにしました。
私のデフォルトの視点は、ワイヤの点滅するライトのようなもので、エージェントはその経験がタグ付けされたり、ラベル付けされたり、浮動小数点数や8ビット整数のようなビンに分けられたりすることなく、その生の経験を予測しています。
予測モデルが好きで、予測モデルを活用するエージェントは、私たち自身のデザイナーのような人間的な方法で世界を分割することによって構造的に偏っているエージェントが制限されるかもしれない方法で、多様な環境と相互作用する素晴らしい可能性を持っていると思います。
強化学習を使用して、トークンを生成したり、運動軌跡を生成したりする能力を取り、その行動を彫刻し最適化するために強化学習を配置することができるという考え方は、絶対に正しい勝利だと感じています。
デイビッド・シルバー、S・ヒンダース、シン・デュリング、プレ・カップ、リッチ・サットンからの「報酬は十分」という論文について昨日議論していました。その論文で同僚が言ったことを簡単に言い換えると、単一の報酬信号があり、エージェントが時間をかけてその信号を集める量を最大化しようとしている場合、そしてタスクがチェーン・オブ・ソート推論や社会的相互作用、ビジョンなどを学ぶことを必要とする場合、タスクを解決するためにエージェントがこの高度な能力を構築する必要があれば、報酬信号は、エージェントがそれを作成するのに十分です。
ディープシークの論文の場合、これは推論のチェーンを作成し始め、その小さな「think」括弧の中で実際に解決策に至るまでの手順を展開するかもしれないという考えです。そして報酬信号自体が、他の種類の入力情報と互換性がありながら、推論のチェーンの作成を駆動しています。
「報酬は十分」という考えは非常に強力だと思います。なぜなら、私たちが作成した思考機械と、私たちの生活の周りのテクノロジーに対して持つかもしれない完全な目標の集合との間のギャップを埋める方法について考えることができるからです。もし、チェーン・オブ・ソート推論や社会的知能のような欠けている部分があれば、強化学習を考えることで、それらの成果と以前のテクノロジーの基盤を結びつけることができると思います。
これは、教師あり学習が最高だった頃の初期について思い出させます。誰もが母親が子供に「牛」を教える例を使います。母親は「これは牛です」と言い、子供はそれがラベルであることを学びます。しかし、実際には強化学習だという議論があります。子供が牛を認識すると母親から褒められるのです。
そうですね、強化学習は学習における根本的なアルゴリズムと見なすことができますが、それをどのように実装するのでしょうか？純粋に強化学習だけで知的モデルを最初から構築できますか、それとも前述のように基本モデルが必要ですか？
実際に、2009年頃にリッチと椅子について会話したことを思い出します。椅子についてどう考えるか、機械が椅子についてどう考えるかについてです。通常の方法では、椅子についてどれだけ広いか、高さはどれくらいか、座席はどこか、座席は硬いか柔らかいか、椅子はドアからどれくらい離れているかといった客観的な世界観で考えます。これは世界の視点や参照枠から考えるものです。
リッチが会話中に提唱していたのは別の見方でした。「今座ろうとしたら、実際に座れる確率はどれくらいか、それとも転倒するか」という見方です。あるいは「もし3歩歩いたら、すねで何かにぶつかるか」といった非常に主観的な、エージェントの参照枠からの見方です。エージェントがアクセス可能なデータストリームに関して、周囲の世界との相互作用について予測が何を言っているかという視点です。
初期の感覚運動学習、赤ちゃんのモーターバブリングを見ると、頭を動かしたり、眼球を動かしたりすることを学び始め、「もし頭をこの方向やあの方向に動かしたら、私の感覚経験に顕著な変化がある」ということを理解し始めます。「これをすれば、視界の外にあるボールを見ることができると予測する」というようなことです。
エージェントは科学者のように、「頭をこちらに動かすたびに、この別のものが見え始める」とか「自分の一部をすべて動かすと、顔の前に何かが現れる、それは自分の手だ、すごい」というような優雅な科学的テストを始めます。
赤ちゃんの動物や人間などに見られるこの基本的な学習プロセスが展開され、これらの予測に根ざしています。神経科学の文献にも、「腕を動かしていると感じるのは、実際にセンサーが腕の動きを報告しているからではなく、腕の動きについての予測からであり、手や何かが邪魔になれば予測に修正が加えられる」という考えがあります。ダニエル・ウォルペルトと同僚たちによれば、「予測が制御に先行する」のです。
その観点から、「報酬は十分」に戻ると、報酬の信号と生の感覚運動行動の予測から、世界について知る必要があるすべてを学ぶことができるはずだというプロセスをつなげることができます。これは予測の観点、主観的なエージェントフレームの予測です。
では、ロボットバトラーや自動運転車を構築するのに最速の方法でしょうか？おそらくそうではありません。自動運転車を作るとしたら、「車をいくつか与えてもらって、それを衝突させ始めましょう」と言ったことがあります。相手は実際に「多分」と答えてくれました。構成主義的な見方をすれば、自動運転や数学オリンピックでの問題解決のような難しいタスクを学ぶためには、より簡単な方法とより難しい方法があるかもしれません。
AlphaGoを考えてみましょう。人間の例を見て学び、心の中に特定の錯覚や隙間があったAlphaGoから、自己対戦を通じて学んだAlphaZeroへ進化すると、データの偏りを取り除き、他の方法では見つからなかった解決策を見つけることができました。
エージェントが設計者である私が作るかもしれない仮定のいくつかを取り除くことができるため、生の感覚運動信号ストリームからできるだけ学習することは、おそらく他の方法よりも遥かに良い解決策を見つけることができるかもしれません。
人間の言語を構築するのに、人間が試行錯誤とモーターバブリングを通じて言語を学ぶのには時間がかかります。インターネットをジュースにして素晴らしいレモネードを作り、それを基盤モデルとして使う方が良いのではないでしょうか？素晴らしい大規模言語モデルです。もちろん、それは理にかなっています。
しかし、アルバータプランに戻ると、別の道があり、それが公共の心の中に残っていることを確認したいのは、代替的かつ互換性のある見方があり、それによっていくつかのギャップを埋めたり、非常に異なる基盤点から始めたりして、現在の曲線が上がってから少し減少し始めるのではなく、この生の感覚運動学習を追求して、より高い最終的なピークを持つアプローチになる可能性があるからです。
単一文化にならないように、心の中の多様性を維持し、独断的にならないようにすることが重要です。Deep Seekで見たように、生の強化学習を投入して、モデルが推論のチェーンの次のステップに到達するのを助けるような機会がどこにあるのかを考えることが重要です。
生の感覚運動学習から始めるプロジェクトはありますか？その学習はニューラルネットワークの重みに符号化されると思いますが、YouTubeビデオやロボットアームなどから始めて、どれだけの学習が蓄積できるか、それがスケールするかどうかを見るプロジェクトはありますか？
世界中で今やかなり素晴らしい例のライブラリがあると思います。それらは最も専門的な特定のドメインで見られます。DeepMindによるトカマク原子炉でのプラズマ安定化に関する研究では、非常に多様なデータストリームに対して、文字通り太陽の中心よりも熱いプラズマのローブを制御するために、1秒間に何千回も作用する意思決定システムがあります。これは報酬から学習する強化学習です。
そして、エリートコーディングタスクを実行できるシステムもあり、これも直接報酬によって駆動されています。これらの異なるドメインを見始めると、トカマク核融合原子炉のプラズマを安定化させることは、実際に非常に感覚運動的な経験の一種だと思います。データセンターの冷却やYouTubeでのビット圧縮なども同様です。脊髄を通って発射される神経が私の腕にさまざまなクールなことをさせるようなものです。
一方、エリートコーディングタスクやプログラミングコンペティションでうまくやることは、報酬がそれを駆動することで、両方のドメインで洞察を生み出すことができるようなものです。
例えば、ソニーの同僚たちは、人間をはるかに上回る高性能運転をしながら、人々を切らない、サイドスワイプしないなど、ドライブやレースの暗黙のルールを学ぶことができるレーシングシステムを構築しました。これも報酬ベースの学習を通じたものでした。
「報酬は十分」に戻ると、社会的相互作用スキルが必要な場合、タスクがそれを必要とすれば、報酬を通じてそれを得ることができます。プログラミングタスクを解決したいなら、データ構造や方法、さまざまな計算成果物をどのようにつなげるかを考える能力が必要な場合、報酬でそれを駆動することができます。
ジョセフ・メイルのような人々は、ワイヤー上の生のビット、リッチも同様ですが、エージェントの経験を単なる生の1と0として、それにラベルを付けずに考えることを楽しんでいます。設計バイアスに関する私の議論を信じるなら回避すべきかもしれませんが、「浮動小数点数や整数を使いましょう」というショートカットがあります。
より高度なデータ構造を表現要素、機械が使い始める基本要素として使用するというもう一つのショートカットもあります。そして、「教師あり学習などのプロセスを通じて既に学習されたものを使用したほうが速いのではないか」と言うかもしれません。
教師あり学習は、ラベル付きの例を通じて学ぶものだと考えています。私たちは試行錯誤から学ぶのか、データの構造から学ぶのか、それぞれの場合で、エージェントが操作している経験の基本単位を構築する優れた方法かもしれません。
2011年に、リッチ・サットンらは一般化された価値関数に関する論文を発表しました。報酬に関する価値関数を学習するという考え方を一般化することに興奮したのは、将来どれだけの報酬を蓄積するかという期待値を、興味のある任意の信号に拡張したからです。これについて10年以上情熱を持って追求してきた理由は、それらの予測、予報、将来の信号に対する期待が、エージェントのより高度な行動を構築するための基礎的な要素であると考えたからです。これは経験の流れの基本単位の選択に関わることです。
しかし、あなたが挙げた例は狭いドメインのものですね。それはどのように一般的な知能に一般化されるのでしょうか？
「注意がすべて」というトランスフォーマーについて考えるとき、これらのシステムから何を得ているのかを考えます。言語トークンを予測するだけのストリームではなく、マルチモーダルバージョンについて考えてみましょう。ビジョントランスフォーマーや、本当にマルチモーダルなシステムについてはどうでしょうか。
これらのシステムで起こっている操作をさらに一歩進めて考えると、これらは空間と時間を超えた関連付けを作成しています。データの特定の部分に対する一種のステージ型畳み込み折り畳みのようなものなしに、これらのシステムは時間の流れ、ますます広大になる時間の範囲を考慮し、その大きな時間の範囲にわたって関連付けを作成することができます。
また、時間の流れの中でも、文中のトークンの流れから、入ってくる音声データ、ビジョンピクセルの時系列、以前に提案した配線上のランダムビットに至るまで、異なるチャネルの情報にわたる関連付けを作成できます。時空間を超えた関連付けは非常に強力です。
デール・シャーマンと同僚たちは、「トランスフォーマーに適切な操作を与えればチューリング完全になる」という素晴らしい論文を持っています。これは計算を行うもう一つの方法であり、根本的に異なる方法です。
クロスアテンションがあり、エージェントの過去の経験の美しい宝石の中の情報の側面を連鎖させて、未来についての予測を作成する能力があります。それらの予測は行動され、関節を動かすか、より可能性が高いのは新しい単語トークンを吐き出すか、生成ビデオ内の新しいピクセルを吐き出すために使用されます。
一般化された価値関数を学習する基本プロセスでも同じことが起こります。空間と時間の両方にわたる関連付けを形成できると期待される一種の表現に基づいて、システムは未来について予測を生成することができます。例えば、一般化された価値関数の予測は時間的に拡張されており、何らかの政策に条件付けられた信号の期待和を考えているかもしれません。
いずれにせよ、望むならトークン予測をそれで行うこともできますし、ロボットアームの将来の電流を予測して早めに動かし始め、空中でボールをキャッチすることもできます。
異なるモダリティやチャネルにわたる情報の関連付け、時間にわたる関連付け、それを使用して予測を作成すること、これらは同じことを達成するための異なる方法です。それらを柔軟に一緒に使用することも、一つに強くコミットして取り組むこともできます。
この可能性は、「先週コーヒーを飲んだことと牛乳を買いに行くという事実を組み合わせて、今日コーヒーを作る可能性が高い」というような、非常に高レベルな人間的なことを考えるシステムとして見ることです。これらのシステムは、将来に関する予測を行うために情報のピースを組み合わせることができるでしょう。
そして、それらの形式についての考え方は、人々が意見を異にし始めるところかもしれませんが、少し引いて見れば、クロスアテンション的な考え方と、生の感覚経験に関するトークン予測としての考え方を結びつけることには、私たちが十分に祝福していない多くの統一性があると思います。
報酬は必要なものすべて、つまり強化学習はこの世界知識を構築したり、エージェントが予測し世界で行動できる現実の表現を構築したりすることができるという考えですね。しかし、あなたが言ったように、ベースラインに到達するためのより速い方法があり、おそらく強化学習はそのベースラインから始めて、そこから進むということでしょうか？
ペドロ・ドミンゴス氏と話していますが、彼は「マスターアルゴリズム」という本を書いていて、これらの考え方の学派の一つではなく、ブレンドになるだろうと言っています。だからこそ、Deep Seekの強化学習訓練に興味を持ちました。
最近、ボストン・ダイナミクス出身のマーク・レイバートに会いましたが、彼はエンドツーエンドのニューラルネットワークでロボットが操作できるとは信じていません。伝統的な制御理論、必要な精度のための非常に正確な方程式が必要だと言います。ボストン・ダイナミクスが行うことはすべて、機械学習ではありません。
あなたは義手や足に取り組んでいるとのことですが、どのようにアプローチしていますか？制御理論を使用し、制御理論から始まる強化学習を通じて知識を構築していますか？それとも純粋な強化学習でしょうか？最終的に必要な精度に到達できるでしょうか？
私たちは長年にわたってさまざまなアプローチを試してきました。臨床環境で本当にうまく機能し、技術を構築する人々と臨床分野の専門家である臨床実践者を結びつけようとする環境でうまく機能するアプローチがあります。それは、システムがゴールドスタンダード（何であれ）から始めるアプローチです。
特に人間に接するテクノロジー（私が主に取り組んでいる分野）では、ゴールドスタンダードから始めて経験から向上するシステムが非常に好きです。生の経験の流れとの相互作用を通じて学習し、他の側面の経験をその学習に統合し、ゴールドスタンダードから行動を改善または最適化することができますが、もし間違いを犯した場合はゴールドスタンダードに戻るというものです。
これは実際、特に人間に接するケースでは、制御理論に訴えたいかどうかという問いには「もちろんです」と答えることを意味します。制御理論は現在、柔らかいロボット工学、変形可能なシステム、液体金属ロボットなどの形態を完全に変える能力を持つ、非常に奇妙な力学を持つものについて考えることを可能にしていますか？制御理論の分野はこれらの問題に取り組んでいますが、これらは難しい問題です。
制御理論によって確実に解決される部分があるでしょうか？周囲の世界に適応するためにより頑強で、より俊敏で、より適応能力があるようにするために、経験の流れについて学ぶことでそれを改善できるでしょうか？私はその答えは絶対にイエスだと思います。
私たちの同僚の一部はRL Core Technologiesというエドモントンの会社を率いており、彼らは水処理用の強化学習技術を提供しています。水処理システムを取り、RLを使用してコミュニティが水を処理し、飲料水が安全で信頼性があることを確認する能力を向上させる方法を考えることができます。
アダム・ホワイトやマーサ・ホワイトにインタビューすれば、彼らがどのようにこれを追求しているかについて、素晴らしいゲストになるでしょう。彼らの仕事を言い換えると、水処理プラントのいくつかの部分は非常に堅固なゴールドスタンダードの制御エンジニアリングになりますが、そのゴールドスタンダードの上に改善できる部分については、経験を通じた学習、試行錯誤を通じた学習プロセスを使用して、新しい状況に適応したり、長期間にわたって常に人間の介入なしに操作できるようにしたりしています。
別の例として宇宙探査があります。プラズマスラスターを制御するある種の制御システムが欲しいですか？確かにそうです。しかし、宇宙船が自分自身を操縦したり、新しい環境で避ける方法を学んだりするのを望みますか？それは素晴らしいことでしょう。
私たち自身の体内の生物学的プロセスのように、細胞のタンパク質機械は仕事をしていて、そこにはある程度の適応が起こっていますが、私たちが知能と考えるものの多くは、それらの小さなタンパク質機械をすべて動かしているものなのです。
強化学習は学習です。試行錯誤です。その学習は、ニューラルネットワークとバックプロパゲーション、ネットワークがどのように学習するかを理解していますが、大規模言語モデルでは、モデルが事前学習されると、その学習は一種の固定されます。微調整することはできますが、もし長く実行すると、破滅的忘却の問題が発生し、以前の知識を符号化したネットワークの重みが変わり始めます。
強化学習ではどのように対処していますか？学習はネットワークの重みに符号化されているのでしょうか？そのネットワークを拡張し続けて、その学習を失わないようにすることはできますか？
これは素晴らしい質問です。私はこの質問を継続的学習の領域に持っていきたいと思います。これは非常に興奮することであり、コミュニティの多くの人々が継続的学習に情熱を持っています。継続的に学習、適応、変化することができるシステムは、非常に構成主義的な性質を持っています。システムが新しい情報を継続的に統合し、古い情報を上書きするのではなく、過去に学んだスキルや行動を新しい方法で柔軟に組み合わせ、文字通り永遠にそれを続けることを望みます。これが継続的学習です。
継続的学習の分野には、キム・エム・カーとジョインナ・プレアップの素晴らしいレビュー論文があり、非常に価値があります。継続的学習の新しい会議であるCoLLAsもあり、そのコミュニティではさまざまなアプローチが見られます。
一つのアプローチは、巨大な大規模言語モデルを持っているとします。それはあらゆる種類の事実をベイクしています。「おばあさんニューロン」であろうと、おばあさんの概念を持つための活性化の集合であろうと、そのシステムを最初からすべてを再訓練するために何十億ドル、あるいは今は何百万ドルも費やすことなく、段階的に改善できることを望みます。
おそらく、新しい情報を取り、それをシステムに統合できるようにしたいと考えるでしょう。私の脳は、論文を読んだり、今日あなたと話したりして新しいことを学ぶたびに、脳全体を再トレーニングしたくありません。新しい情報を取り、それを使用して既に配置されているシステムをアップグレードする方法を探している全コミュニティがあり、そこでは本当に良い進歩がありました。
もう一つのアプローチは、大規模言語モデルのような何かを修正するのではなく、生の経験から非常に段階的な方法で重みを常に更新することを考えています。これは新しい事実を取り込んで詰め込むのではなく、相互作用の瞬間ごとにシステムが変化していることを意味します。
どちらのコミュニティも、重みを修正したり、機械のデジタルマインドに格納された数値を修正したりしていますが、上書きされるべきではないものが上書きされないこと、文脈を尊重することを望んでいます。
継続的学習が長期間にわたって起こる可能性があることを見たいと思います。アルバータ大学の同僚による最近の素晴らしい論文では、安定した継続的学習を考える方法が示されています。この論文では、何億もの学習エポックや時間ステップの後に破滅的な忘却や破滅的な失敗なしに、システムが継続的にその重みを変更することを可能にする新しい方法が提案されています。
宇宙船に継続的学習システムを送り出し、それがアルファ・ケンタウリに向かっているとしたら、1億の時間ステップの後に私たちの学習アプローチがすべてをフラットラインにし、すべての結果について0を予測するということがないことを望みます。
長い経験の期間にわたって学習し行動する機械を想像するとき、既存のシステムに新しい情報を戦略的に外科的に追加する方法と、常に柔軟な方法ですべてを更新できるシステム、両方のスタイルを考慮したいと思います。幸いにも、コミュニティは両方に取り組んでいます。
直感的に言って、ネットワークを拡張し続け、学習とともに層を追加したり、層ごとのノードを追加したりすることはできますか？
これは非常に楽しい会話のトピックです。リッチをもう一度番組に招いて、彼の現在の考えについて話してもらうべきです。
私が今提案した2つの例は、ネットワークアーキテクチャ自体が変わらないと仮定しています。学習の過程を通じて、ネットワークの部分の形状とサイズがほぼ同じであり、それらをどのように修正するかを考えています。
しかし、システムのアーキテクチャをどのように持つかという非常に合理的で自然なアプローチもあります。これは継続的学習の別の部分です。一つは、骨格が設定されていて、骨格の異なる部分の筋肉がどれだけ強壮かを考えるというものです。もう一つは、骨格に骨を追加して筋肉を成長させるというもので、重みが筋肉で、骨格が接続アーキテクチャです。
これは非常に興味深いトピックであり、これに関する深い思考の系譜があります。これは「今年になってやっと気づいたので考えるべきだ」というものではありません。ゼロから成長するネットワークについての考え方、単一の重みと単一の入力と出力、単一の重みから始めるというのは非常に構成主義的です。明らかにそれでXOR問題を解決することはできません。でも、入力をたくさん追加しても、XOR問題は解決できません。でも、これを追加して交差させれば、違う種類の問題を解決できるようになります。パーセプトロンが多層パーセプトロンになるのです。
システムが自身の学習経験を使用して、継続的な意味でその重みだけでなく、アーキテクチャを成長させ変更する方法を考えることは、非常に興味深く、非常に興奮する未解決の問題です。幸いにも、人々はそれについて考えています。いつかリッチと話して、彼が何をしているか見てみるとよいでしょう。
義肢に強化学習を適用する仕事について少し話してもらえますか？おそらく別のエピソードでより詳しく取り上げることになるかもしれませんが、どのようにアプローチしていますか？
私たちが本当に考えているのは、人間と人工肢の間の相互作用、そして人工知能と機械学習技術がどのように人々が日常生活で人工肢を使用して、彼らがやりたいことをすべてできるようにするかということです。技術によって制限されるのではなく、自分自身を表現し、コミュニティに参加したいと思ったときにそれができるようにすることです。
私たちが取るアプローチと、私が自分の研究路線の基礎としてきたアプローチは、実際には非常に論争の的となるものです。それは、人とその人工肢の関係をマルチエージェントの関係として考えるというものです。
これは実際には非常に現代的なことです。なぜなら、以前はセンサー、アクチュエーター、利用可能な計算能力が制限されていたため、その関係の機械部分をエージェントとして考えることができませんでした。人間についてのモデルを構築したり、環境要因を考慮したりすることはできませんでした。
今、私たちが見ているのは、計算能力の急増と、義肢がよりエージェントのようになる能力により、人間とその生体工学的な義肢が共同で世界で行動し、空間と時間の両方で共有環境に変化をもたらそうとする場合、それはどういう意味を持つかについて考えることができるようになったということです。これは本当にユニークな視点であり、私たちはそれを積極的に検討してきました。
あなたの時間を取りすぎたくありません。見てのとおり、私は自分の知識の外側で操作していますが、それがこれらの会話について好きなところです。自分のネットワークを拡張しているようなものです。
その点について、それは脳がすることですよね？脳は新しいニューロンを成長させます。あなたの言う通りです。脳は時間とともにゆっくりと衰えていく結晶のような実体だという考えは捨て去られました。新しいニューロンが作られていることを私たちは知っています。脳が実際に継続的に自分自身を更新しているシステムであることを知っています。これは過去50年間の神経科学コミュニティの大きな変化であり、私たちのデジタルシステムについてどのように考えるかについても良い方法です。
アルバータプランは、強化学習を知能構築の鍵と見なすアプローチ、視点です。アルバータプランの下にはドメイン固有のものからより理論的なものまで様々な研究プロジェクトがありますが、アルバータプランの最終目標は何ですか？
アルバータプランには12のステップがあり、それらの約束に加えて、予測、制御行動、学習したモデルによる計画について考えています。それらをすべて組み合わせると、そのエンドゲームは、その生の感覚運動経験から真に学ぶことができ、その寿命が何であれ、どんな環境でも（人間の環境でなくても）継続的にそれを行うことができるシステムを得ることです。
これは目指すべき本当に美しいことであり、知能という現象自体をより根本的に理解するのに役立つものです。