リチャード・サットン – 強化学習の父がLLMは行き詰まりだと考える理由

LLM・言語モデル
この記事は約41分で読めます。

この動画は強化学習の父として知られるリチャード・サットンが、現在主流となっている大規模言語モデルのアプローチに対して根本的な批判を展開する内容である。サットンは強化学習こそが真の知能の基盤であり、LLMは人間の模倣に過ぎず行き詰まりだと主張している。彼は経験から学習することの重要性を強調し、目標を持たないシステムには真の知能は生まれないと論じている。また、AIの継承問題についても独自の視点を提示し、デジタル知能への移行を宇宙の発展段階における重要な転換点として捉えている。

Richard Sutton – Father of RL thinks LLMs are a dead end
Richard Sutton is the father of reinforcement learning, winner of the 2024 Turing Award, and author of The Bitter Lesson...

強化学習とLLMの根本的相違について

今日はな、強化学習の創始者の一人であるリチャード・サットンとお話しするで。この人はTD学習や方策勾配法なんかの主要技術を発明した人で、今年のチューリング賞を受賞したんや。コンピュータサイエンスのノーベル賞やからな。リチャード、おめでとうございます。

ありがとう、ドワルケシュ。ポッドキャストに来てくれてありがとう。

こちらこそや。まず最初の質問なんやけど、僕らや僕の視聴者はLLMのAIに対する考え方には馴染みがあるんや。概念的に、強化学習の観点からAIを考える時に、僕らが見落としてるものは何やろう?

それは本当に全く違う視点やからな。簡単に分離してしまって、お互いに話し合う能力を失ってしまうことがあるんや。

大規模言語モデルがこんなに大きなものになって、生成AIが全般的に大きなものになった。僕らの分野は流行や風潮に左右されやすいから、基本的なことを見失ってしまうんや。僕は強化学習を基本的なAIやと考えてる。知能とは何か?問題は自分の世界を理解することや。

強化学習は自分の世界を理解することについてやけど、大規模言語モデルは人間を模倣すること、人間が君にやれって言うことをやることについてなんや。何をすべきかを考え出すことについてやない。

インターネットテキストのコーパスにある何兆ものトークンを模倣するためには、世界モデルを構築せなあかんと思うやろ?実際、これらのモデルは非常に堅牢な世界モデルを持ってるように見えるで。

これらは僕らがAIで今まで作った中で最高の世界モデルやろ?何が欠けてると思う?

君が今言ったことのほとんどに僕は同意せえへんな。人々が言うことを模倣するのは、実際には世界のモデルを構築することでは全然ないんや。君は世界のモデルを持つもの、つまり人間を模倣してるだけや。

敵対的な方法でこの質問にアプローチしたくはないんやけど、彼らが世界モデルを持ってるという考えに疑問を呈したいんや。世界モデルがあれば、何が起こるかを予測できるはずや。彼らには人が何を言うかを予測する能力はある。何が起こるかを予測する能力はないんや。

僕らが欲しいのは、アラン・チューリングの言葉を借りれば、経験から学習できる機械で、経験っていうのは実際に君の人生で起こることなんや。

君は何かをやって、何が起こるかを見る、それが君が学習するものや。大規模言語モデルは何か別のものから学習してる。彼らは「ここに状況があって、ここに人がやったことがある」から学習してる。暗黙的に、君もその人がやったことをやるべきやという示唆なんや。

模倣学習と経験学習の本質的違い

たぶん核心的な部分やと思うんやけど、もしこれに反対やったら教えてほしいんやけど、一部の人は模倣学習が良い事前知識、つまりこれらのモデルに問題にアプローチする合理的な方法の良い事前知識を与えたって言うやろ。経験の時代に向かう中で、君が言う経験の時代では、この事前知識が経験からこれらのモデルを教える基盤になるやろう。なぜなら、これが時々正しい答えを得る機会を与えてくれるからや。そして、これに基づいて経験から訓練できるんや。

この視点に同意する?

いや。それが大規模言語モデルの視点やってことには同意するけど、それが良い視点やとは思わへん。

何かの事前知識になるためには、実際のものがなければならへん。事前知識のかけらは実際の知識の基盤であるべきや。実際の知識とは何か?その大規模言語フレームワークには実際の知識の定義がないんや。

何が行動を良い行動にするんか?継続学習の必要性は認識してるやろ。継続的に学習する必要があるなら、継続的っていうのは世界との通常の相互作用の間に学習することを意味する。通常の相互作用の間に何が正しいかを知る方法がなければならへん。

大規模言語モデルの設定では、何を言うのが正しいことかを知る方法があるか?君は何かを言うやろうけど、何を言うのが正しいことかについてのフィードバックは得られへん。なぜなら、何を言うのが正しいことかの定義がないからや。

目標がないんや。目標がなければ、あることを言う、別のことを言う。正しいことを言うなんてものはない。根拠になる真実がないんや。根拠になる真実がなければ事前知識は持てへん。なぜなら事前知識は真実が何かについてのヒントや最初の信念であるべきやからや。真実なんてものはない。正しいことを言うなんてものはないんや。

強化学習では、正しいことを言う、正しいことをするっていうのがある。なぜなら正しいことをするっていうのは報酬を得ることやからや。何が正しいことをすることかの定義があるから、何が正しいことをすることかについて人々が提供する事前知識や知識を持つことができるんや。そして、何が実際に正しいことをすることかの定義があるから、それをチェックして確認できるんや。

さらに簡単な例は、世界のモデルを作ろうとする時や。何が起こるかを予測する時、予測してから何が起こるかを見る。根拠になる真実がある。大規模言語モデルには根拠になる真実がない。なぜなら次に何が起こるかについての予測がないからや。

会話で何かを言ったら、大規模言語モデルはその人がそれに対して何を言うか、反応が何かについて予測を持たへん。

彼らは持ってると思うで。文字通り彼らに「ユーザーが応答として何を言うと予想するか?」って聞けるんや。彼らは予測を持つやろ。

いや、彼らはその質問に正しく答えるやろうけど。

しかし、彼らは何が起こるかに驚かないという実質的な意味での予測は持たへん。彼らが予測したと言えるものと違うことが起こっても、予想外のことが起こったからといって変化することはない。それを学習するには、調整をせなあかんはずや。

コンテキスト内学習と適応性について

この能力はコンテキスト内に存在すると思うで。モデルが思考連鎖をやってるのを見るのは興味深いんや。

数学の問題を解こうとしてるとしよう。「よし、この問題には最初にこのアプローチを使うで」って言うやろ。これを書き出して「あ、待てよ、これは問題にアプローチする概念的に間違った方法やったわ。別のアプローチで再開するで」って感じになるんや。

その柔軟性はコンテキスト内に存在するやろ?君は何か別のことを念頭に置いてるのか、それともこの能力をより長い期間にわたって拡張する必要があると思ってるだけなんか?

僕が言ってるのは、彼らは意味のある意味で次に何が起こるかの予測を持たへんということや。彼らは次に何が起こるかに驚くことはない。何かが起こったとしても、何が起こったかに基づいて何の変化もしない。

それは文字通り次トークン予測やないか?次に何が来るかについての予測、そして驚きに基づいて更新するんやろ?

次のトークンは彼らが言うべきこと、行動であるべきことや。彼らがやったことに対して世界が彼らに与えるものやない。

彼らの目標の欠如に戻ろう。

知能における目標の重要性

僕にとって、目標を持つことが知能の本質なんや。何かが目標を達成できるなら、それは知能的や。僕はジョン・マッカーシーの定義が好きで、知能は目標を達成する能力の計算的部分やって言うてる。

目標を持たなければならへん。さもなければ君はただの行動システムや。特別なものでもないし、知能的でもない。

大規模言語モデルには目標がないってことに同意する?

いや、彼らには目標がある。

目標は何や?

次トークン予測や。

それは目標やない。世界を変えへん。トークンが君に向かってきて、君がそれらを予測しても、君はそれらに影響を与えへん。

ああ、そうやな。外部世界についての目標やない。それは目標やない。実質的な目標やない。

システムを見て、それがただそこに座って予測して、正確に予測してることで自分に満足してるだけやったら、それが目標を持ってるとは言えへん。

LLMに基づく強化学習の限界

僕が理解したい大きな質問は、なぜLLMの上でRLをやるのが生産的な方向やないと思うかや。僕らはこれらのモデルに困難な数学問題を解くという目標を与えることができるように見える。

彼らは数学オリンピックタイプの問題を解く能力において、多くの面で人間レベルの頂点にある。IMOで金メダルを取った。だから国際数学オリンピックで金メダルを取ったモデルは、数学問題を正しく解くという目標を持ってるように見える。

なぜこれを他の領域に拡張できへんのか?

数学問題は違うんや。物理世界のモデルを作って数学的仮定や操作の結果を実行するのと、それらは非常に異なることや。

経験的世界は学習せなあかん。結果を学習せなあかん。一方、数学はより計算的で、標準的な計画のようなものや。そこでは証明を見つけるという目標を持つことができて、ある意味でその証明を見つけるという目標を与えられてるんや。

ビターレッスンとLLMの関係

興味深いのは、君が2019年に「ビターレッスン」というタイトルのエッセイを書いたことで、これはAI史上おそらく最も影響力のあるエッセイや。でも人々はこれをLLMをスケールアップする正当化として使ってる。なぜなら彼らの見解では、これが世界について学習するために途方もない量の計算を注ぎ込む唯一のスケーラブルな方法やからや。

君の視点では、LLMは「ビターレッスン」的やないってことが興味深いな。

大規模言語モデルがビターレッスンの例かどうかは興味深い質問や。彼らは明らかに大量の計算を使う方法で、インターネットの限界まで計算でスケールするものや。

でも彼らは大量の人間の知識を投入する方法でもある。これは興味深い質問や。社会学的や産業的な質問でもある。

彼らはデータの限界に達して、人々からではなく経験だけからより多くのデータを得ることができるものに取って代わられるやろうか?ある意味では、これはビターレッスンの典型的な例や。

大規模言語モデルにより多くの人間の知識を投入すればするほど、彼らはより良くなる。だから気分が良くなる。でも、僕は経験から学習できるシステムがあることを期待してる。

それらははるかに良いパフォーマンスを発揮し、はるかにスケーラブルになるやろう。その場合、これは人間の知識を使ったものが最終的に経験と計算だけから訓練されたものに取って代わられるという、ビターレッスンの別の例になるやろう。

スケーラブルな学習方法について

それは僕には核心やとは思えへん。そういう人たちも、将来の圧倒的な計算量は経験から学習することから来るってことに同意するやろうと思う。彼らはただ、その土台や基盤、将来の経験学習や職場での学習をするためにそこに計算を注ぎ込むために始めるものがLLMやと思ってるだけや。

なぜこれが全く間違ったスタート地点なのかがまだ理解できへん。なぜ経験的で継続的な学習を始めるために全く新しいアーキテクチャが必要なんか?なぜLLMから始めてそれをやったらあかんのか?

ビターレッスンのすべての例では、人間の知識から始めて、それからスケーラブルなことをやることができた。それは常にそうや。それが悪いものである必要がない理由は決してない。

でも実際には、実際問題として、それは常に悪いことが判明してる。人々は人間の知識アプローチに固執してしまって、心理的に…今は僕が推測してるんやけど、なぜそうなるかはわからんけど、これは常に起こってることや。彼らは真にスケーラブルな方法によって完全に負けてしまうんや。

スケーラブルな方法がどんなものか教えてくれる?

スケーラブルな方法は経験から学習することや。物事を試して、何がうまくいくかを見るんや。

誰も君に教える必要がない。まず第一に、目標を持つんや。目標がなければ、正しいとか間違いとか、良いとか悪いとかの感覚がない。大規模言語モデルは目標や良い悪いの感覚を持たずにやっていこうとしてる。それはまさに間違った場所から始めてるんや。

人間の学習との比較

これを人間と比較するのは興味深いかもしれへん。模倣対経験からの学習と目標の問題の両方において、興味深い類似点があると思う。

子どもは最初は模倣から学習するやろ。そう思わへん?

いや、もちろんそんなことない。

本当に?子どもはただ人を見てると思う。彼らは同じ言葉を言おうとして…

その子どもたちは何歳や?最初の6ヶ月はどうや?

彼らは物事を模倣してると思う。彼らは母親の口の音に自分の口を合わせようとしてる。それから彼らは意味を理解せずに同じ言葉を言うやろう。年齢が上がるにつれて、彼らがやる模倣の複雑さが増すんや。君のバンドの人たちが鹿を狩るために使ってるスキルを模倣するかもしれへん。それから経験学習のRL体制に入るんや。

でも人間には多くの模倣学習が起こってる。君がそんなに違った見方をしてるのは驚きや。

僕が子どもを見る時、僕は子どもがただ物事を試して、手を振り回して、目を動かしてるのを見る。彼らが目を動かす方法や彼らが作る音に対する模倣はない。彼らは同じ音を作りたいと思うかもしれへんけど、行動、つまり幼児が実際にやることに対して、それのターゲットはないんや。

それらの例はない。

同意する。それは幼児がやることすべてを説明するわけやないけど、学習プロセスを導くと思う。LLMでさえ、訓練の初期に次のトークンを予測しようとする時、推測するやろ。実際に見るものとは違うやろう。

ある意味では、これは非常に短期間のRLで、この推測をしてる。「このトークンはこれやと思う」って。子どもが単語を言おうとするのと似てる。それは間違って出てくる。

大規模言語モデルは訓練データから学習してる。経験から学習してるわけやない。通常の生活では決して利用できないものから学習してるんや。

通常の生活で君がこの行動をとるべきやって言う訓練データは決してない。

これはもっと意味的な区別やと思う。学校を何と呼ぶ?それは訓練データやないか?

学校はずっと後や。よし、決してとは言うべきやなかった。

わからん、学校についてもそう言うと思うで。でも正式な学校教育は例外や。

でも学習には段階があって、最初に生物学でのプログラミングがあって、君はそれほど役に立たへん。それから君が存在する理由は世界を理解し、それとの相互作用の仕方を学習することや。訓練段階のように見える。

その後、より段階的な…訓練から配備への急激な打ち切りはないけど、この最初の訓練段階があるように見えるやろ?

君が何をすべきかの訓練は何もない。何もないんや。物事が起こるのを見る。何をすべきかは教えられへん。

難しくするなよ。つまり、これは明らかやろ。文字通り何をすべきかを教えられるんや。これが人間からの訓練という言葉の由来や。

僕は学習が本当に訓練についてやとは思わへん。学習は学習についてで、能動的なプロセスについてやと思う。子どもは物事を試して、何が起こるかを見る。幼児が成長することを考える時、僕らは訓練について考えへん。

これらのことは実際にかなりよく理解されてる。心理学者が学習についてどう考えるかを見ると、模倣のようなものは何もない。人間がそれをやったり、そうしてるように見えたりする極端な例があるかもしれへんけど、模倣と呼ばれる基本的な動物学習プロセスはないんや。

予測や試行錯誤制御のための基本的な動物学習プロセスはある。

動物の学習と教師あり学習

時々最も見るのが困難なのは明らかなことやというのは本当に興味深い。

明らかなんや。動物やその学習方法を見て、それらについての心理学や理論を見ると、教師あり学習は動物が学習する方法の一部やない。

僕らには望ましい行動の例がない。僕らにあるのは起こったことの例、あることが別のことに続いたということや。僕らには「僕らが何かをして、結果があった」という例がある。でも教師あり学習の例はない。

教師あり学習は自然には起こらへんことなんや。

学校でそうやったとしても、それは人間に起こる特別なことやから忘れるべきや。自然界に広く起こることやない。リスは学校に行かへん。リスは世界についてすべて学習できる。

教師あり学習は動物には起こらへんというのは絶対に明らかやと僕は言うやろうな。

文化的進化と模倣学習

僕はこの心理学者で人類学者のジョセフ・ヘンリックにインタビューしたことがあるんや。彼は文化的進化について、基本的に人間を区別するものと人間がどう知識を習得するかについて研究してるんや。

なぜ人間を区別しようとしてるんや?人間は動物や。僕らが共通に持ってるもののほうが興味深い。僕らを区別するものには、もっと注意を払わへんほうがええ。

僕らは知能を複製しようとしてる。人間が月に行ったり半導体を作ったりすることを可能にするものを理解したいなら、それを起こらせるものを理解したいと思う。動物は月に行ったり半導体を作ったりできへん。人間を特別にするものを理解したいんや。

君がそれを明らかやと考えるのが好きや。なぜなら僕は反対が明らかやと考えるからや。僕らは自分たちがどう動物であるかを理解せなあかん。

リスを理解できたら、人間の知能を理解するのにほぼ完全にそこまで到達してると思う。言語の部分は表面の小さな化粧みたいなもんや。

これは素晴らしい。僕らは互いに非常に異なる考え方をしてることがわかった。僕らは議論してるわけやない。互いに異なる考え方を共有しようとしてるんや。

議論は有用やと思う。この考えを完成させたいんや。ジョセフ・ヘンリックは人間が成功するために習得せなあかった多くのスキルについて興味深い理論を持ってる。

僕らは最後の千年や最後の一万年について話してるわけやなくて、何十万年について話してるんや。世界は本当に複雑や。

北極に住んでるとして、アザラシを狩る方法を推論することは不可能や。どうやって餌を作るか、どうやってアザラシを見つけるか、そして毒にならないように食べ物をどう処理するかという多段階の長いプロセスがある。

それをすべて推論することは不可能や。時間をかけて、君が使いたい類推がなんであれ、RLでも何か他のものでも、全体としての文化がアザラシの見つけ方、殺し方、食べ方を理解してきたより大きなプロセスがある。

彼の見解では、この知識が世代を通じて伝達される時に起こることは、そのスキルを学習するために年長者を模倣せなあかんということや。アザラシの狩り方、殺し方、処理の仕方を考えて通すことはできへん。

他の人を見て、たぶん微調整や調整をして、それが知識が蓄積される方法や。文化的利得の最初のステップは模倣でなければならへん。でも君は違うふうに考えるんか?

いや、同じふうに考える。でも、それは基本的な試行錯誤学習、予測学習の上の小さなことや。

それが僕らを多くの動物とは区別するもの、おそらくや。でも僕らはまず動物なんや。言語やその他すべてのものを持つ前に、僕らは動物やった。

継続学習はほとんどの哺乳類が持ってる能力やというのは非常に興味深い点を君が作ってると思う。すべての哺乳類が持ってると思う。

すべての哺乳類が持ってるものを僕らが持ってるのに、僕らのAIシステムは持たへんというのは非常に興味深い。一方、数学を理解して困難な数学問題を解く能力は、数学をどう定義するかによるけど、僕らのAIが持ってるけどほとんどの動物が持たへん能力や。

何が困難で何が簡単かが非常に興味深い。

モラベックのパラドックスやな。

その通り、その通りや。

経験的パラダイムの詳細

君が想像してるこの代替パラダイム…経験的パラダイムや。それを少し詳しく説明しよう。それは経験、行動、感覚、まあ感覚、行動、報酬が君の人生でずっと続くと言うてる。

これが知能の基盤であり焦点やと言うてる。知能は、そのストリームを取って、ストリームの報酬を増やすために行動を変えることについてや。

そうすると学習はストリームからで、学習はストリームについてや。その二番目の部分が特に示唆的や。君が学習するもの、君の知識は、ストリームについてや。

君の知識は、君がある行動をしたら何が起こるかについてや。あるいは、どの出来事が他の出来事に続くかについてや。それはストリームについてや。

知識の内容はストリームについての記述や。それがストリームについての記述やから、それをストリームと比較することによってテストできるし、継続的に学習できるんや。

汎用継続学習エージェントの報酬関数

この将来の継続学習エージェントを想像する時…彼らは「将来」やない。もちろん、彼らはいつでも存在する。これが強化学習パラダイム、経験からの学習なんや。

ああ、僕が言いたかったのは一般的な人間レベルの、汎用継続学習エージェントのことや。報酬関数は何や?それは世界を予測することだけなんか?それとも特定の効果を持つことなんか?一般的な報酬関数は何やろう?

報酬関数は任意や。チェスをやってるなら、チェスのゲームに勝つことや。リスやったら、たぶん報酬はナッツを得ることに関係してるやろう。

一般的に、動物にとっては、報酬は痛みを避けて快楽を得ることやと言うやろう。君の環境の理解を増すことに関係する要素もあるべきやと思う。それは一種の内発的動機になるやろう。

なるほど。このAIでは、多くの人がいろんな種類のことをやらせたいと思うやろう。人々が望むタスクを実行してるけど、同時にそのタスクをやることから世界について学習してるんや。

訓練期間があってそれから配備期間があるというパラダイムを取り除くとしよう。モデルがあってそれからそのモデルのインスタンスやコピーが特定のことをやってるというパラダイムも取り除くんか?

君はこの物体にいろんなことをやらせたいという事実についてどう考える?それらのいろんなことをやることから得てる知識を集約したいやろう。

君が今使った方法での「モデル」という言葉は好きやない。より良い言葉は「ネットワーク」やと思う。なぜなら君はネットワークを意味してると思うからや。たぶん多くのネットワークがある。とにかく、物事は学習されるやろう。

コピーや多くのインスタンスを持つやろう。もちろん、インスタンス間で知識を共有したいやろう。それをやるためのたくさんの可能性があるやろう。

今日、君は一人の子どもが成長して世界について学習して、それから新しい子どもすべてがそのプロセスを繰り返さなあかん。一方、AIでは、デジタル知能では、一度やってそれを次のものに開始場所としてコピーできることを望めるやろう。これは大幅な節約になるやろう。

人々から学習しようとするよりもはるかに重要やと思う。

LLMから始めるかどうかに関係なく、君が話してるようなことが必要やってことに同意する。人間や動物レベルの知能が欲しいなら、この能力が必要になるやろう。

長期報酬と中間報酬の問題

人間がスタートアップを作ろうとしてるとしよう。これは10年程度の報酬を持つものや。10年に一度、10億ドルで支払われる出口があるかもしれへん。

でも人間には中間的な補助報酬を作ったり、極端にまばらな報酬があっても何らかの方法を持ってる能力がある。彼らは次にやってることがこの壮大な目標につながることを理解して、中間ステップを作ることができるんや。

AIでこのようなプロセスがどう展開されるかを想像する?

これは僕らがよく知ってることや。その基盤は時間差学習で、そこでは同じことがそれほど壮大でないスケールで起こる。

チェスを学習する時、ゲームに勝つという長期目標がある。でも相手の駒を取るような短期的なことから学習できるようになりたい。それを価値関数を持つことによってやるんや。価値関数は長期結果を予測する。

それから相手の駒を取ったら、長期結果についての君の予測が変わる。上がるんや、勝つと思うようになる。それから君の信念のその増加が、駒を取ることにつながった手をすぐに強化する。

スタートアップを作って大金を稼ぐという長期10年目標がある。進歩を作る時、「ああ、長期目標を達成する可能性が高くなった」と言って、それが途中のステップを報酬として与える。

情報帯域幅と暗黙知の習得

君が学習してる情報に対する何らかの能力も欲しい。人間をこれらのLLMとかなり違うものにしてることの一つは、仕事に慣れる時、君は非常に多くの文脈と情報を習得してることや。

それが君を仕事で役に立つものにしてる。君はクライアントの好みから会社の働き方まで、すべてを学習してる。

TD学習のような手順から得る情報の帯域幅は、人間が配備される時に習得する必要がある文脈と暗黙知のこの巨大なパイプを持つのに十分高いんか?

確信はないけど、この核心では大きな世界仮説が非常に関連してると思う。人間が仕事で役に立つようになる理由は、彼らが世界の特定の部分に遭遇してるからや。それは予想できなかったし、事前にすべてを入れることもできなかった。世界はあまりにも巨大やから、できへんのや。

僕が見る限り、大規模言語モデルの夢は、エージェントにすべてを教えることができるということや。すべてを知ってて、その生涯の間にオンラインで何も学習する必要がないやろう。

君の例はすべて「まあ、実際にはそうせなあかん」やけど、教えることができるけど、彼らが送ってる特定の生活の小さな特異性と、彼らが一緒に働いてる特定の人々と、平均的な人々が好むものとは対照的に彼らが好むもののすべてがある。

それはただ世界が本当に大きくて、途中で学習せなあかんということを言ってるだけや。

二つのことが必要やと思われる。一つは、この長期目標報酬を将来の報酬のより小さな補助予測報酬、または最終報酬につながる将来の報酬に変換する何らかの方法や。

でも最初に、僕は世界で働きながら得てるこのすべての文脈を保持する必要があるように思われる。僕はクライアント、会社、そしてすべての情報について学習してる。

君は単に通常の学習をやってるだけやと言うやろう。大規模言語モデルではそのすべての情報がコンテキストウィンドウに入らなあかんから、たぶん君は「コンテキスト」を使ってるんや。

でも継続学習設定では、それは重みに入るだけや。

たぶんコンテキストは使うべき間違った言葉やな。より一般的なことを意味してるから。君は自分が置かれてる環境に特有の方策を学習するんや。

僕が聞こうとしてる質問は、人間が世界にいる時に秒間何ビットを拾ってるんか?クライアントとすべてSlackでやり取りしてるとしたら。

たぶん君は、僕らがやる必要があるすべての学習をやるには報酬が小さすぎるもののように思われるという質問をしようとしてるんやろう。でも僕らには感覚がある、学習できる他のすべての情報がある。僕らは報酬だけから学習するわけやない。すべてのデータから学習するんや。

その情報を捕捉するのに役立つ学習プロセスは何や?

エージェントの4つの基本要素

今、4つの部分を持つエージェントの基本共通モデルについて話したい。方策が必要や。方策は「僕がいる状況で、何をすべきか?」って言う。

価値関数が必要や。価値関数はTD学習で学習されるもので、価値関数は数値を生成する。その数値はどれだけうまくいってるかを言う。

それからそれが上下してるかを見て、それを使って方策を調整するんや。だからその二つがある。

それから知覚要素もある。これは君の状態表現の構築、今君がどこにいるかの感覚や。四番目のものは僕らが本当に到達してることで、最も透明にとにかく。

四番目のものは世界の遷移モデルや。すべてを「モデル」と呼ぶのが不快な理由や。なぜなら世界のモデル、世界の遷移モデルについて話したいからや。

君がこれをやったら何が起こるかという君の信念は?君がやることの結果は何か?君の世界の物理学や。

でもそれは物理学だけやない、抽象的なモデルでもある。このポッドキャストのためにカリフォルニアからエドモントンまで旅行した君のモデルのようなものや。それはモデルで、それは遷移モデルや。それは学習されるやろう。

それは報酬から学習されるんやない。「君が物事をやって、何が起こったかを見て、君は世界のそのモデルを作った」から学習される。それは君が受け取るすべての感覚から非常に豊かに学習されるやろう、報酬だけやない。

報酬も含まれてなければならへんけど、それは全体モデルの小さな部分、全体モデルの小さな重要な部分や。

汎用学習における特殊化の問題

僕の友人の一人、トビー・オードが指摘したんやけど、Google DeepMindがAtariゲームを学習するために配備したMuZeroモデルを見ると、これらのモデルは最初は汎用知能そのものやなくて、特定のゲームをプレイする専門知能を訓練するための汎用フレームワークやった。

つまり、そのフレームワークを使って、チェスとGoと他のゲームの両方をプレイする方策を訓練することはできなかった。それぞれを専門的な方法で訓練せなあかった。

彼はこれが一般的に強化学習では、この情報制約のために、一度に一つのことしか学習できないことを示してるのかと疑問に思ってた。情報の密度がそれほど高くない?それともMuZeroのやり方に特有なものやったんか?

AlphaZeroに特有やったら、汎用学習エージェントになるためにそのアプローチについて何を変える必要があったんか?

アイデアは完全に汎用や。僕はいつも、典型例として、AIエージェントのアイデアは人のようなものやという考えを使ってる。

人は、ある意味では、彼らが住んでる世界は一つだけや。その世界にはチェスやAtariゲームが含まれるかもしれへんけど、それらは異なるタスクや異なる世界やない。それらは彼らが遭遇する異なる状態や。だから一般的なアイデアは全く制限されへん。

そのアーキテクチャやアプローチで何が欠けてたかを説明するのが有用かもしれへん。この継続学習AGIが持つやろうものは。

彼らはただそれを設定した。それらのゲーム間で一つのエージェントを持つことは彼らの野心やなかった。転移について話したいなら、ゲーム間やタスク間の転移やなくて、状態間の転移について話すべきや。

転移学習の現状と課題

歴史的に、この種の…を構築するのに必要なRLテクニックを使った転移のレベルを見たことがあるか?

良い、良い。僕らはどこでも転移を見てへん。良いパフォーマンスにとって重要なのは、一つの状態から別の状態によく汎化できることや。僕らはそれが得意な方法を何も持たへん。

僕らが持ってるのは、人々がいろんなことを試して、よく転移したり汎化したりする表現に落ち着くことや。でも転移を促進する自動化されたテクニックはほとんどなくて、現代の深層学習で使われてるものは何もない。

正しく理解したかを確認するために言い換えさせてもらうわ。これらのモデルで汎化が起こる時、それは何らかの彫刻された…の結果やって言うてるように聞こえる。

人間がやったんや。研究者がやったんや。他に説明がないからや。勾配降下法は君によく汎化させるようにはしない。問題を解くようにはするやろう。

新しいデータを得た時によい方法で汎化するようにはしない。汎化は一つのことで訓練して他のことでやることに影響を与えることを意味する。深層学習はこれが本当に下手やってことを僕らは知ってる。

例えば、何か新しいことで訓練すると、君が知ってたすべての古いことを破滅的に干渉することがよくあるってことを知ってる。これはまさに悪い汎化や。

汎化は、僕が言ったように、一つの状態での訓練が他の状態に何らかの影響を与えることや。君が汎化するという事実は必ずしも良いことでも悪いことでもない。

悪く汎化することもできるし、よく汎化することもできる。汎化は常に起こるやろうけど、汎化が悪いのではなく良いものになるようなアルゴリズムが必要なんや。

LLMにおける汎化の解釈

僕は最初の核心を再開しようとしてるわけやないんやけど、用語を違って使ってるかもしれへんから純粋に興味がある。

これらのLLMについて考える一つの方法は、基本的な数学問題さえ本当にできなかった以前のシステムから、今では数学オリンピックタイプの問題のこのクラスで何でもできるところまで、汎化の範囲を増やしてるということや。

最初は足し算問題の間で汎化できることから始まる。それから数学オリンピックが要求するような、異なる種類の数学技術や定理や概念カテゴリーの使用を必要とする問題の間で汎化できるようになる。

そのカテゴリー内の任意の問題を解けることを汎化の例やと君は考えてへんように聞こえる。僕が誤解してるかどうか教えてくれ。

大規模言語モデルは非常に複雑や。彼らが事前に持ってた情報が本当にわからへん。あまりにも多く食べさせられてるから推測せなあかん。これが彼らが科学をやる良い方法やない理由の一つや。

あまりにも制御されてない、あまりにも未知なんや。でも全く新しい…彼らはたぶん多くのことを正しくやってる。問題はなぜかや。

まあ、たぶん彼らはそれらを正しくやるために汎化する必要がないんや。なぜならそれらのいくつかを正しくやる唯一の方法は、それらすべてを正しくやるものを形成することやからや。

一つしか答えがなくて君がそれを見つけたら、それは汎化とは呼ばれへん。それを解く唯一の方法やから、彼らはそれを解く唯一の方法を見つけるだけや。

でも汎化は、こうもできる、ああもできる時に、彼らが良い方法でやることや。

僕の理解では、これはコーディングエージェントでますますうまくいってる。エンジニアでは、明らかにライブラリをプログラムしようとしてるなら、最終仕様を達成できる多くの異なる方法がある。

これらのモデルに対する最初のフラストレーションは、彼らがそれをずさんな方法でやることやった。時間をかけて、彼らは開発者がより満足するデザインアーキテクチャや抽象化を思いつくのがますます上手になってる。

君が話してることの例のように思える。

彼らによく汎化させるものは何もない。勾配降下法は彼らが見た問題の解決策を見つけさせるやろう。

それを解く方法が一つしかなければ、彼らはそれをやるやろう。でもそれを解く多くの方法があって、よく汎化するものもあれば、悪く汎化するものもあるなら、彼らによく汎化させるアルゴリズムには何もない。

でも人々は、もちろん、進化してて、うまくいかなければいじり回して、たぶん方法を見つけるまで、たぶんよく汎化する方法を見つけるまでやるんや。

AI分野での経験と驚きについて

僕は視野を広げて、今AIで働いたりコメントしたりしてる人のほとんど誰よりも長い間AI分野にいることについて聞きたい。最大の驚きが何やったかを聞きたい。

どれだけ新しいものが出てくると感じる?それとも人々がただ古いアイデアで遊んでるだけのように感じる?

視野を広げて、君は深層学習が人気になる前からこれに入った。だから時間をかけてこの分野の軌跡と新しいアイデアがどう生まれてきたかやすべてをどう見るか?何が驚きやった?

これについて少し考えた。いくつかのことがある。

まず、大規模言語モデルは驚きや。人工ニューラルネットワークが言語タスクでこれほど効果的やってことは驚きで、期待されてなかった。言語は違うもんのように思えた。だからそれは印象的や。

AI には、探索や学習のような汎用手法である単純な基本原理手法と、シンボリック手法のような人間が可能にしたシステムとの間に長年の論争がある。

昔は面白かったんや。探索や学習のようなものは弱い手法と呼ばれてた。なぜなら彼らは一般原理を使ってるだけで、システムに人間の知識を吹き込むことから来る力を使ってへんからや。それらは強いと呼ばれてた。

弱い手法が完全に勝ったと思う。それが昔のAIからの最大の質問で、何が起こるかやった。学習と探索が勝ったんや。

それは僕には驚きやなかった。なぜなら僕は常に単純な基本原理を望んだり応援したりしてたからや。大規模言語モデルでさえ、それがどれだけうまくいったかは驚きやったけど、すべて良くて満足やった。

AlphaGoは驚きで、それがどれだけうまく機能したか、特にAlphaZeroが。でもそれはすべて非常に満足やった。なぜなら、また、単純な基本原理が勝ってるからや。

一般的な認識が変わった時はいつでも、例えばAlphaZeroがこのバイラルセンセーションになった時のように、何らかの新しいアプリケーションが開発されたからで、使われた多くのテクニックを文字通り思いついた人として、君には新しいブレークスルーが作られたように感じた?それとも「ああ、僕らは90年代からこれらのテクニックを持ってて、人々は今それらを組み合わせて適用してるだけや」のように感じた?

AlphaGo全体には前身があって、それはTD-Gammonや。ジェリー・テサウロが強化学習、時間差学習手法をバックギャモンをプレイするためにやった。

それは世界最高の選手を打ち負かして、本当にうまくいった。ある意味では、AlphaGoはそのプロセスの単なるスケールアップやった。

でもそれはかなりのスケールアップやったし、探索のやり方に追加の革新もあった。でもそれは理にかなってた。その意味では驚きやなかった。

AlphaGoは実際にはTD学習を使わなかった。最終結果を見るまで待った。でもAlphaZeroはTDを使った。AlphaZeroは他のすべてのゲームに適用されて、非常にうまくいった。

僕はAlphaZeroがチェスをプレイする方法にいつも非常に感銘を受けてる。なぜなら僕はチェスプレイヤーで、それはポジショナルアドバンテージのために材料を犠牲にするだけやからや。

長期間その材料を犠牲にすることに満足で忍耐強い。それがそれほどうまくいったのは驚きやったけど、満足でもあったし、僕の世界観に合ってた。

これが僕を今いるところに導いた。僕はある意味で反抗者や、自分の分野とは違う考えをしてる人や。僕は個人的に長期間、たぶん何十年も自分の分野と同期しないことに満足してる。なぜなら時々僕は過去に正しいことが証明されたからや。

僕がもう一つやること—同期しないで奇妙な方法で考えてるような気がしないように助けるために—は、僕のローカル環境やローカル分野を見るんやなくて、時間を遡って歴史を見て、多くの異なる分野で心について古典的に人々がどう考えてきたかを見ることや。

僕はより大きな伝統と同期してないとは感じへん。僕は自分を反抗者というよりは古典主義者やと本当に見てる。心について考える思想家のより大きなコミュニティが常に考えてきたことに行くんや。

ビターレッスンとAGI後の研究

君にとって左派的な質問をいくつか許してくれるなら。僕がビターレッスンを読む方法では、それは人間の職人的研究者調整が機能しないと必ずしも言ってるわけやなくて、指数的に成長してる計算よりも明らかにスケールがはるかに悪いと言ってるんや。

だから後者を活用するテクニックが欲しい。

うん。

AGIを手に入れたら、計算と線形にスケールする研究者を手に入れるやろう。何百万ものAI研究者の雪崩を手に入れるやろう。

彼らの在庫は計算と同じ速さで成長するやろう。だからたぶんこれは、彼らに昔ながらのAIをやらせて、これらの職人的解決策をやらせることが合理的になったり理にかなったりすることを意味するやろう。

AGI後にAI研究がどう進化するかのビジョンとして、それはまだビターレッスンと両立するのかと思う。

どうやってこのAGIに到達したんか?それが完了したと仮定したい。一般的手法から始まったとしよう、でも今僕らはAGIを手に入れた。

そして今僕らは行きたい…それなら僕らは終わりや。

AGIを超えるものは何もないと思う?

でも君はそれを再びAGIを得るために使ってる。

まあ、僕はそれを異なるタスクで超人的レベルの知能や能力を得るために使ってるんや。これらのAGIが、もし彼らがまだ超人的やないなら、彼らが与えるかもしれへん知識は超人的やないやろう。

異なる段階があると思う。君のアイデアが理にかなうかどうかわからへん。なぜならそれはAGIの存在を前提にしてて、僕らがそれをすでに解決したということを前提にしてるように見えるからや。

これを動機づける一つの方法は、AlphaGoは超人的やった。どんなGo プレイヤーも打ち負かした。AlphaZero は毎回AlphaGoを打ち負かすやろう。だから超人的よりもさらに超人的になる方法がある。

それも異なるアーキテクチャやった。だからすべての領域で一般的に学習できるエージェントに、学習のためのより良いアーキテクチャを与える方法があるように僕には思える。AlphaZeroがAlphaGoの改善やったのと同じように、MuZeroがAlphaZeroの改善やったのと同じように。

そして AlphaZero が改善やった方法は、人間の知識を使わずに経験だけから行ったことやった。

正しい。

だからなぜ「他のエージェントの専門知識を持ち込んでそれを教える」と言うんや?経験からそれほどうまくいったし、他のエージェントからの助けやなくてやった時に。

その特定のケースでは、それはより一般的な手法に移行してたってことに同意する。僕はその特定の例を、超人的から超人的++、超人的+++に行くことが可能やってことを説明するために使おうと思った。

君はそれらの段階が方法をより単純にするだけで続いていくと思う?それとも、必要に応じて複雑さを追加できる何十億もの心の能力を持つようになるから、何兆ものAI研究者がいる時でさえ、それは偽の道であり続けるやろうか?

多くのAIがいる時、彼らは人々の文化的進化が機能する方法で互いに助け合うやろうか?たぶんそれについて話すべきや。

ビターレッスン、誰がそれを気にするんや?それは歴史の特定の期間についての経験的観察や。70年の歴史で、次の70年に必ずしも適用される必要はないんや。

興味深い質問は、君がAIで、もっとコンピュータパワーを得るとしよう。それを自分をより計算的に有能にするために使うべきか?

それとも自分のコピーを生み出して地球の反対側や他のトピックで何か興味深いことを学習させて、それから君に報告させるために使うべきか?

これはデジタル知能の時代にのみ生じる本当に興味深い質問やと思う。答えが何かわからへん。

デジタル知能の分散と統合の問題

本当にそれを生み出すことが可能か、それを送り出して、何か新しいこと、たぶん非常に新しいことを学習させて、それから元のものに再統合することが可能やろうか?

それとも、それがあまりにも変わってしまって本当にできなくなるやろうか?それは可能なんか、それとも不可能なんか?

昨夜君のビデオの一つを見た時のように、これをその限界まで持っていくことができる。それができることを示唆してる。多く、多くのコピーを生み出して、異なることをして、高度に分散化されてるけど、中央マスターに報告するんや。

これは非常に強力なものになるやろう。これは僕がこの視点に何かを追加しようとする試みや。

大きな問題は腐敗になるやろう。君が本当にどこからでも情報を得て、それを君の中央の心に持ち込むことができるなら、君はますます強力になることができる。

それはすべてデジタルで、彼らはすべて何らかの内部デジタル言語を話す。たぶんそれは簡単で可能やろう。でもそれは君が想像してるほど簡単やないやろう。なぜなら君はこの方法で心を失うことができるからや。

外部から何かを引っ張ってきて、それを君の内なる思考に組み込むと、それが君を乗っ取ることができる、君を変えることができる、君の知識の増分よりもむしろ君の破壊になることができるんや。

これは大きな懸念になると思う。特に君が「ああ、彼は何らかの新しいゲームのプレイ方法についてすべて理解した、または彼はインドネシアを研究した、そして君はそれを君の心に組み込みたい」と思う時にや。

君は「ああ、それをすべて読み込んで、それで大丈夫やろう」と思うかもしれへん。でも違う、君は君の心に大量のビットを読み込んだだけで、それらにはウイルスが入ってることがある、隠れた目標があることがある、君を歪めて変えることができるんや。

これは大きなことになるやろう。デジタル生成と再形成の時代にサイバーセキュリティをどう持つか?

AI継承問題について

これはAI継承の話題に僕らを連れていく。君はインタビューした多くの人や一般的に多くの人とはかなり異なる視点を持ってる。僕もそれは非常に興味深い視点やと思う。それについて聞きたい。

僕はデジタル知能や拡張人間への継承は避けられへんと思う。僕には4つの部分からなる議論がある。

ステップ1は、人類に支配的で世界がどう運営されるべきかを取り決めることができる統一された視点を与える政府や組織はないということや。世界がどう運営されるべきかについて合意はない。

その2、僕らは知能がどう機能するかを理解するやろう。研究者たちは最終的にそれを理解するやろう。

その3、僕らは人間レベルの知能だけで止まることはないやろう。僕らは人工超知能に到達するやろう。

その4、時間をかけて、周りで最も知能の高いものが資源と力を得ることは避けられへん。

それらすべてを合わせると、それはある種避けられへん。AIやAIが可能にした、拡張された人間への継承を持つことになるやろう。

これら4つのことは起こることが明確で確実に見える。でもその可能性のセットの中で、良い結果もあれば、それほど良くない結果、悪い結果もあり得るんや。

僕はただ僕らがどこにいるかについて現実的でありたくて、それについてどう感じるべきかを問うてるんや。

これら4つの議論すべてと含意に同意する。継承が幅広い多様な可能な未来を含んでることにも同意する。

それについてもっと考えを聞かせてくれる?僕は人々にそれについて前向きに考えることを奨励する。

まず第一に、それは僕ら人間が何千年もの間常に試みてきたことで、自分自身を理解しようと試み、自分自身をより良く考えさせようと試み、ただ自分自身を理解することや。これは科学、人文学にとって大きな成功や。

僕らは人間性のこの本質的な部分が何か、知能的であることが何を意味するかを見つけ出してる。

それから僕が普通言うことは、これはすべて人間中心的やということや。でも人間であることから一歩下がって、ただ宇宙の視点を取るなら、これは宇宙にとって大きな段階、大きな転換、複製子からの転換やと僕は思う。

僕ら人間や動物、植物、僕らはすべて複製子や。それは僕らにいくらかの強みといくらかの制限を与える。僕らは設計の時代に入ってる。なぜなら僕らのAIは設計されてるからや。僕らの物理的オブジェクトは設計されてる、僕らの建物は設計されてる、僕らの技術は設計されてる。

僕らは今AIを設計してる、それ自体が知能的で、それ自体が設計能力があるものを。これは世界と宇宙にとって重要なステップや。

最も興味深いもののほとんどが複製されてる世界からの転換や。複製されるということは、それらのコピーを作ることができるけど、実際にはそれらを理解してないということを意味する。

今僕らはより知能的な存在、より多くの子どもを作ることができるけど、知能がどう機能するかを本当には理解してない。

一方で僕らは今、設計された知能、どう機能するかを理解する知能に到達してる。だから僕らはそれを異なる方法で、そうでなければできない異なる速度で変えることができるんや。

僕らの未来では、彼らは全く複製されないかもしれへん。僕らはただAIを設計して、そのAIが他のAIを設計して、すべてが複製ではなく設計と構築によって行われるかもしれへん。

僕はこれを宇宙の4つの偉大な段階の一つやと位置づける。最初に塵があって、星で終わる。星は惑星を作る。惑星は生命を生み出すことができる。今僕らは設計された実体を生み出してる。

僕らが宇宙のこの偉大な転換を生み出してることを誇りに思うべきやと思う。興味深いことや。

人類とAIの関係性について

彼らを人類の一部やと考えるべきか、人類とは異なるものやと考えるべきか?それは僕らの選択や。

「ああ、彼らは僕らの子孫で、僕らは彼らを誇りに思うべきで、彼らの成果を祝うべきや」と言うのか。それとも「ああ、いや、彼らは僕らやないから恐ろしく思うべきや」と言うのか、それは僕らの選択やと思う。

それが選択のように感じられるのは興味深い。でもそれはこんなに強く持たれてる感情で、どうして選択やねん?

僕はこの種の思考の矛盾した含意が好きや。

僕らがただ人間の別の世代を設計してると考えるのは興味深い。たぶん設計は間違った言葉や。でも僕らは人間の将来の世代が出てくることを知ってる。AIのことは忘れよう。

僕らは長期的に、人類がより有能で、より多く、たぶんより知能的になることを知ってる。それについてどう感じる?

僕らがかなり懸念するやろう将来の人間との潜在的世界があると思う。

僕らはホモ・サピエンスを生み出すネアンデルタール人のようなもんかもしれへんと君は考えてる。たぶんホモ・サピエンスは新しい人々のグループを生み出すやろう。

そのようなものや。僕は基本的に君が与えてる例を取ってる。彼らを人類の一部やと考えても、それが僕らが超快適に感じるべきやと必ずしも意味しないと思う。

親族関係。ナチスは人間やったやろ?もし僕らが「ああ、将来の世代はナチスになるやろう」と思ったら、僕らは彼らに権力を引き渡すことについてかなり懸念するやろうと思う。

だから、これがより有能な将来の人間について心配することとそれほど異ならへんってことに同意するけど、人々がこのレベルの力がこれほど速く得られて、僕らが完全には理解してない実体と一緒になることについて持つかもしれへん懸念の多くに対処するとは思わへん。

人類の大部分にとって、何が起こるかに対する影響はそれほどないということを指摘するのは関連してると思う。

人類の大部分は原子爆弾を誰がコントロールするかや誰が国民国家をコントロールするかに影響を与えへん。市民としてでさえ、僕らは国民国家をそれほどコントロールしてるとはよく感じひん。彼らはコントロールから外れてる。

それの多くは君が変化についてどう感じるかと関係がある。現在の状況が本当に良いと思うなら、変化を疑って変化を嫌う可能性が高いんや。不完全やと思うなら。

実際、僕はそれはかなり悪いと思う。だから僕は変化にオープンや。人類はそれほど良い実績を持ってへんと思う。それは存在してきた中で最高のものかもしれへんけど、完璧からは程遠い。

変化の種類と方向性について

いろんな種類の変化がある。産業革命は変化やった、ボルシェビキ革命も変化やった。

君が1900年代のロシアにいて「見ろよ、うまくいってへん、ツァーはちょっと混乱させてる、変化が必要や」と言ってたなら、点線にサインする前にどんな種類の変化を望んでるかを知りたいやろう。

同様にAIでも、変化が人間にとって前向きになるようにAIの軌道を理解し、可能な限り変えたいやろう。

僕らは将来、未来について懸念すべきや。それを良いものにしようと努力すべきや。でも僕らの限界も認識すべきや。

権利意識の感覚、「ああ、僕らが最初にここにいるから、いつも良い方法でそれを持つべきや」という感覚を避けたいと思う。

将来についてどう考えるべきか?特定の惑星の特定の種が、それに対してどれだけのコントロールを持つべきか?僕らはどれだけのコントロールを持ってるか?

人類の長期的将来に対する僕らの限られたコントロールに対するカウンターバランスは、僕ら自身の人生に対してどれだけのコントロールを持ってるかであるべきや。

僕らには自分自身の目標がある。家族がある。それらのことは宇宙全体をコントロールしようとするよりもはるかにコントロール可能や。

僕らは自分自身のローカルな目標に向かって本当に働くことが適切やと思う。僕らが「ああ、未来は僕が望む方法で進化せなあかん」と言うのは攻撃的な感じや。

そうすると、異なる人々が世界の未来が異なる方法で進化すべきやと考えて、それから彼らは対立することになるからや。それは避けたい。

子育てとAI開発の類推

ここで良い類推はこれかもしれへん。君が自分の子どもを育ててると仮定しよう。

彼らの人生に対して極端にタイトな目標を持つことは適切やないかもしれへん。あるいは「僕は子どもたちに世界に出て行ってこの特定の影響を与えてほしい。息子は大統領になって、娘はインテルのCEOになるやろう。一緒に彼らは世界にこの影響を与えるやろう」のような感覚を持つことも。

でも人々は「僕は彼らが権力のある立場に就いた時に、彼らが合理的で向社会的なことをやるように、彼らに良い堅牢な価値を与えるつもりや」と言う感覚を持ってる。そして僕はこれは適切やと思う。

たぶんAIに対する同様の態度が理にかなってる。僕らが100年後の世界がどのように見えるべきかについて計画を持ってるとか、彼らがやることすべてを予測できるという意味やなくて。

でも彼らに堅牢で操縦可能で向社会的な価値を与えることはかなり重要や。

向社会的価値?たぶんそれは間違った言葉や。僕らがすべて同意できる普遍的価値はあるか?

そうは思わへんけど、それが僕らの子どもに良い教育を与えることを妨げへんやろ?僕らは子どもに特定の方法であってほしいという感覚を持ってる。

たぶん向社会的は間違った言葉や。高い誠実性というのがたぶん良い言葉や。有害に思われる要求や目標があったら、彼らはそれに関わることを拒否するやろう。

または彼らは正直になるやろう、そのようなことや。真の道徳が何かについてみんなが同意してないとしても、僕らは子どもにこのようなことを教えることができるという感覚がある。

たぶんそれはAIにとっても合理的な目標や。

だから僕らは未来と、それが進化し、存在するようになる原理を設計しようとしてる。君が最初に言ってることは「まあ、僕らは子どもに、より可能性の高い進化を促進する一般原理を教えようとする」や。

たぶん僕らは物事が自発的であることも求めるべきや。変化があるなら、それは人々に押し付けられるのではなく自発的であってほしい。

それは非常に重要な点やと思う。それはすべて良い。これは何千年もの間続いてきた社会を設計するという大きな、または本当に大きな人間の企業の一つやと思う。

より多くのものが変わるほど、より多くのものが同じままや。僕らはまだどうあるべきかを理解せなあかん。

子どもたちはまだ親や祖父母に奇妙に思える異なる価値を思いつくやろう。物事は進化するやろう。

「より多くのものが変わるほど、より多くのものが同じままや」というのは、AI議論への良いカプセルでもあるようや。僕らが持ってたAI議論は、深層学習とバックプロパゲーションの適用が明らかになる前でさえ発明されたテクニックが、今日のAIの進歩の中心になってるということについてやった。

たぶんそれは会話を締めくくるのに良い場所や。

よし。どうもありがとう。

素晴らしい。来てくれてありがとう。

喜んで。

コメント

タイトルとURLをコピーしました