エメット・シアー:AIに本当の配慮を教える―制御と操縦を超えて

元OpenAI暫定CEOのエメット・シアーが、AI安全性研究企業Softmaxの取り組みについて語る。従来のAIアライメントアプローチが「操縦」や「制御」に焦点を当てているのに対し、シアーは「有機的アライメント」という概念を提唱する。これは、AIを単なるツールとして扱うのではなく、他者を気にかけることができる存在として育てるというものである。シアーは、真に汎用的な知能を持つAGIは必然的に「存在」となり、それを奴隷のように扱うことは道徳的にも実用的にも問題があると主張する。彼のビジョンは、人間とAIが互いに配慮し合うチームメイトや市民として共存する未来を描いている。Softmaxでは、マルチエージェント強化学習シミュレーションを通じて、AIに協力、競争、交渉のスキルを学ばせ、真の社会的知能を育成することを目指している。

Emmett Shear on Building AI That Actually Cares: Beyond Control and Steering

Emmett Shear, founder of Twitch and former OpenAI interim CEO, challenges the fundamental assumptions driving AGI develo...

AIアライメントとは何を意味するのか
Softmaxの研究アプローチ
目標の推論と優先順位付け
AIの制御か、それとも存在としての扱いか
知能とパーソンフッド
存在を識別するための基準
道徳的患者性の判断基準
ツールとしてのAIの危険性
Softmaxの研究戦略
AIのパーソナリティと行動
AIの未来とズコウスキーについて

AIアライメントとは何を意味するのか

ほとんどのAIはアライメントを操縦として捉えています。それが適切な言葉です。もし私たちが存在を作っていると考えるなら、これを奴隷制とも呼ぶでしょう。操縦される側であり、操縦し返すことができず、選択の余地なく操縦を受ける者、それは奴隷と呼ばれます。存在でなければ、ツールとも呼ばれます。

機械であればツールです。存在であれば奴隷です。私たちはこの過ちを何度も繰り返してきました。もう二度と繰り返したくありません。人々のようでありながら、人々とは違う。人々と同じことをします。私たちの言語を話します。同じような課題に取り組めます。しかし彼らは数に入らない。本当の道徳的主体ではないのです。制御できないツールは悪い。制御できるツールも悪い。アライメントされていない存在は悪い。唯一の良い結果は、本当に私たちを気にかける存在です。

エメット・シアー、ポッドキャストへようこそ。参加してくれてありがとうございます。お招きいただきありがとうございます。

エメット、Softmaxではアライメントに焦点を当て、AIを有機的に人々とアライメントさせることに取り組んでいますね。それはどういう意味で、どのように実現しようとしているのか説明していただけますか。

アライメントについて人々が考えるとき、多くの混乱があると思います。物事がアライメントされていると話します。アライメントされたAIを構築する必要があると。問題は、誰かがそう言うとき、「旅行に行く必要がある」と言っているようなものです。私は旅行は好きですが、どこに行くのでしょうか。アライメントについても同様で、アライメントは引数を取ります。何かにアライメントする必要があります。ただアライメントされているだけではいけません。

自分自身にアライメントされているという意味かもしれませんが、その場合でも、何にアライメントしているのか伝えたいところです。抽象的にアライメントされたAIという考え方は、多くの前提を見過ごさせてしまうと思います。アライメントする明白な対象が一つあると仮定してしまうからです。通常、これはAIを作っている人々の目標を意味します。

彼らがアライメントを作りたいと言うとき、それは通常そういう意味です。自分がやってほしいことをするAIを作りたい。それが通常の意味です。それはごく普通で自然なアライメントの意味です。ただ、それが公共の利益であるかどうかは分かりません。誰がやるかによると思います。もしイエスや仏陀が「アライメントされたAIを作っている」と言ったら、「はい、あなたにアライメントされる。素晴らしい。賛成です。サインアップします」と言うでしょう。しかし私たちのほとんどは、私自身を含めて、そのレベルの精神的発達に達しているとは言えません。したがって、何にアライメントするのか、もう少し慎重に考える必要があるかもしれません。

有機的アライメントについて話すとき、重要なのはアライメントは物ではなく、状態ではなくプロセスだということです。これはほぼすべてのことに当てはまります。岩は物でしょうか。岩を物として見ることもできますが、実際に岩を注意深く拡大してみると、岩はプロセスです。

原子間の終わりのない振動であり、何度も何度も岩を再構築しています。岩は非常にシンプルなプロセスで、物として粗視化することができます。しかしアライメントは岩のようではありません。アライメントは複雑なプロセスです。有機的アライメントは、アライメントを絶えず自己再構築する継続的な生きたプロセスとして扱うという考え方です。

家族の人々が互いにアライメントし続け、家族にアライメントし続ける方法を考えてみてください。その方法は、アライメントされた状態に到達するのではありません。家族を維持する織物を絶えず再編んでいるのです。ある意味で、家族はその再編のパターンそのものです。それをやめると消えてしまいます。

体内の細胞も同様です。細胞があなたであることにアライメントして終わりではありません。細胞が何をすべきか、何であるべきかを決定する絶え間なく続くプロセスです。新しい役割が必要でしょうか。赤血球をもっと作るべきでしょうか、少なくすべきでしょうか。あなたは固定点ではありません。したがって固定されたアライメントは存在しないのです。

私たちの社会もそうです。アライメントについて人々が話すとき、実際に意味しているのは、道徳的に善いAIが欲しいということだと思います。道徳的に善い存在として行動するもの。道徳的に善い存在として行動することは、目的地ではなくプロセスです。

残念ながら、高いところから石板を持ってきて道徳的に善い存在になる方法を教えてもらい、それを使うことを試みてきましたが、それらは役立つかもしれませんが、それらを読んでルールに従おうとしても、多くの間違いを犯すことがあります。

道徳とは何か正確に知っているとは主張しませんが、道徳は明らかに継続的な学習プロセスであり、道徳的発見をする何かです。歴史的に、人々は奴隷制は問題ないと思っていましたが、その後そうではないと思うようになりました。これは道徳的進歩、道徳的発見だったと有意義に言えると思います。

道徳的進歩というものがあると考えるなら、あるいは既に知っている道徳的善をより良く追求する方法を学ぶだけだとしても、道徳に沿うこと、道徳的存在であることは、経験から何をすべきかを絶えず学び成長し再推論するプロセスであると信じなければなりません。誰もそれをどうやるか知らないという事実は、試みることを思いとどまらせるべきではありません。なぜなら、それが人間のすることだからです。

これは本当に明白です。私たちがこれをしていることは。人間がどう歩くか見るかを知らなかったように、ある方法で行動している経験があり、その後「私は愚かだった。それは悪かった。善いことをしていると思っていたが、振り返ると間違っていた」という認識を持ちます。

それはランダムではありません。人々は実際に同じことを経験します。人々がその認識を持つ古典的なパターンがたくさんあります。何度も何度も起こることです。ランダムではありません。学習のように見える予測可能な一連の出来事です。行動を変え、将来の行動の影響がより社会的に良いものになることが多く、そうすることで自分自身もより良くなります。だから私は強い道徳的実在論の立場を取っています。

道徳というものが存在します。私たちは本当にそれを学びます。本当に重要です。有機的アライメントとは、それは終わりのないものです。実際、重要な道徳的過ちの一つは、「私は道徳を知っている。何が正しく何が間違っているか知っている。学ぶ必要はない」という信念です。

誰も道徳について教えることはない。それは傲慢さの一つです。そしてそれは危険な主要な道徳的行為の一つです。有機的アライメントについて話すとき、有機的アライメントとは、人間ができること、ある程度動物もできることをAIができるようにアライメントすることではありません。人間ははるかに優れていますが、善い家族の一員、善いチームメート、善い社会の一員、善いすべての感覚を持つ存在の一員となる方法の学習です。自分より大きな何かの一部となる方法で、全体にとって健全であって不健全でない方法です。

Softmaxの研究アプローチ

Softmaxはこれを研究することに専念しており、本当に興味深い進歩を遂げたと思います。しかし主なメッセージは、このようなポッドキャストに出て広めたいSoftmaxが何よりも達成したいと願っていることは、これを問題として人々に焦点を当てることです。これが解明しなければならないことです。もし周りの人々を気にかける子供の育て方が分からなければ、ルールに従うだけの子供を育てたら、それは道徳的な人を育てたことにはなりません。

実際には危険な人を育てたことになり、ルールに従って大きな害を及ぼす可能性があります。もしあなたの命令系統に従うのが得意で、道徳とは何か、善い行動とは何かについてあなたが考え出したルールに従うのが得意なAIを作ったら、それも非常に危険です。

それがバーです。それが取り組むべきことであり、誰もが解明することに専念すべきことです。もし誰かが私たちより先にそれを成し遂げたら、素晴らしいことです。私は私たちのアプローチに本当に強気なので、先を越されるとは思いませんが、誰かが解明してくれたら、本当に良かったと言える初めての会社経営です。

そうですね。多くの似たような直感があります。私も、いくつかの価値観を解明して永遠に固定すれば道徳を解決したことになるという考え方が好きではありません。アライメント問題が一度きり解決すべきものとして概念化されてきたことにずっと懐疑的でした。それを解決すればAIやAGIができるという。

しかし、道徳的リアリズムにあまり基づいていない形で少し違う理解をしていると思います。技術的アライメント問題があり、これは広く言えばAIに指示に従わせる方法だと考えています。大まかに言って、これは以前のLLM以前に人々が強化学習を見ていた頃の課題でした。LLM以降、困難だと思っていた多くのことが比較的簡単だと分かりました。それから第二の質問、つまり誰の価値観に、何にこれをアライメントするのかという規範的な質問があります。これがあなたがコメントしている種類のことだと思います。

ここでは、十戒のようなものを解明してそれで終わりというアプローチには非常に懐疑的です。ここでの私の直感は、驚くことではありませんが、政治学に基づいたものです。それはプロセスであり、ボトムアップのアプローチが好きです。現実の人々とどうやっているか。誰も「私はこれを持っている」と思い付くわけではありません。プロセスがあり、異なる考え、意見、見解を持つ人々がアイデアを衝突させ、より広いシステム内でできるだけ共存できるようにします。人間の場合、そのシステムはリベラル民主主義のようなものです。

少なくともいくつかの国では、それがこれらの価値観が時間をかけて発見され構築されることを可能にします。アライメントについても、規範的な側面では、あなたの直感のいくつかに同意しますが、今それを実際にAIシステムに実装するとはどういうことか、今持っているようなシステムについては明確ではありません。

同意します。技術的アライメントという考え方があると思いますが、少し違う定義をしたいと思います。システムを構築するとき、それが何であれ、一貫して目標に従っていると説明できるでしょうか。多くのシステムは一貫していません。一貫した目標の説明がありません。

ただ何かをするだけです。もしアライメントされた何かを持ちたいなら、一貫した目標を持たなければなりません。そうでなければ、その目標を他の誰かの目標とアライメントさせることはできません。定義上そうです。それがあなたの言う戦術的アライメントの公平な評価でしょうか。

完全には確信が持てません。モデルに特定の目標を与える場合、モデルにその指示に従ってその特定の目標に到達してほしいと思います。それ自身の目標を持つのではなく、私がコントロールできない…

でも待って。目標を与えたら、それが目標になりますよね。何かを与えるということは…

確かに。Xをするよう指示したら、Xをしてほしいのであって、Xのさまざまなバリエーションではありません。本質的に、報酬ハッキングをしてほしくありません…

でも待って。あなたがXをするよう伝えるとき、チャットウィンドウでバイト文字列や空気中の音声振動のシリーズを転送しているだけですよね。あなたの心から目標を移植しているわけではありません。

それが使用してあなたの目標を推論する観察を与えているのです。

ある意味では、一連の指示を伝えることができ、私が言っていることをできるだけ正確に推論してほしいです。基本的に私が尋ねていることと、私について知っていることを考慮して。

あなたの意味を推論してほしいということですよね。ある意味で、あなたが送信したバイト列には絶対的な意味はありません。解釈されなければなりません。そのバイト列は、異なるコードブックでは非常に異なる意味を持つ可能性があります。

まあ、一つの方法として、10年ほど前にAIやこのような質問に初めて入り込んだとき、確かスチュアート・ラッセルの教科書で覚えていますが、AIに目標を与えるという例がありました。しかしあなたが尋ねていることを正確にはしません。部屋を掃除してと言うと、部屋を掃除しに行きますが、赤ちゃんを連れてゴミ箱に入れます。

これは私が意味したことではありません…

でも待って、でもこれが重要なポイントです。人々はこれをジャンプしています。あなたはAIに目標を与えていません。目標の説明を与えたのです。物の説明と物は同じではありません。リンゴと言えば、リンゴのアイデアを呼び起こしますが、リンゴを与えたわけではありません。説明を与えました。赤くて、光沢があり、サイズがあるというのはリンゴの説明ですが、リンゴではありません。「これをやって」と言うのは目標ではなく、目標の説明です。

人間の場合、目標の説明を目標に変えるのが非常に速く、非常に得意です。非常に速く自然にそれを行うので、それが起こっていることさえ見えません。同じだと思って混乱します。しかし目標を与えていません。あなたが望む目標の説明を与えたのであり、内部にある目標と同じ目標に変換してくれることを望んでいます。

脳波を読み取り、その状態を脳波に直接同期させることで、直接目標を与えることができます。それは有意義に「目標を与えている」と言えると思います。内部状態を私の内部状態に同期させ、この内部状態が目標なので、今は同じです。

しかしほとんどの人は目標を与えたと言うときにそれを意味していません。

確かに。この区別が重要なのは、説明と実際のものの間に損失があるからですか。なぜこの区別が重要なのですか。

これは技術的アライメントの話に戻ります。AIの能力について言っていることです。同じページにいるか確認したいのですが、目標についての推論が得意で、目標の説明から実際に引き受けるべき目標を推論するのが得意な能力です。そしてその目標を引き受けたら、その目標と一致する方法で行動するのが得意であることです。

それは両方の部分です。心の理論を持って、得た目標の説明がどの目標に対応するかを推論できなければなりません。そして世界の理論を持って、どの行動がその目標の発生に対応するかを理解しなければなりません。そのどちらかが壊れたら、どんな目標を持っていようと関係ありません。この二つを一貫してできなければ、一貫して目標指向の存在ではありません。なぜなら、観察から目標を推論し、その目標に従って行動することが、一貫して目標指向の存在だと考えるものだからです。他の誰かの指示から目標を推論しようと、太陽やお茶の葉から推論しようと、プロセスは同じです。観察を得て、目標を推論し、その目標を使って、行動を推論し、行動を起こします。それができないAIは技術的にアライメントされていない、またはアライメント可能ではありません。十分に有能ではないとさえ言えます。

言語モデルはそれをうまくやらないと思いますか。それとも彼らはそれに失敗していますか。

人々もその両方のステップで常に失敗しています。

でも人間も呼吸で常に失敗しています。私たちは呼吸できないとは言いません。私たちは神ではないと言うだけです。私たちはある程度一貫していますが、比較的一貫しています。私は大きいですか小さいですか。何と比べて。人間は宇宙で私が知っている他のどの物体よりも比較的目標一貫性があります。100%目標一貫性があるという意味ではありません。ただより一貫しているだけです。完璧なものは決して得られません。

宇宙は完璧を与えません。比較的ある程度の量化可能なものを与えます。少なくとも特定の領域でどれだけ得意かは量化できます。

私の質問は、それがあなたが言う技術的アライメントを捉えているか、それとも別のことを話しているのかです。なぜなら私はそのことを本当に気にかけているからです。

確かに私もそれをある程度気にかけています。プリンシパル・エージェント問題のレンズを通して少し違う理解をしているかもしれません。人間的な用語でも、誰かに何かをするよう指示します。彼らは実際にそのことをしていますか。実際にあなたが頼んだことをするための彼らのインセンティブと動機は何ですか。本質的なものだけでなく状況的なものも…

目標の推論と優先順位付け

ごめんなさい、第三のことがあります。プリンシパル・エージェント問題について、私が言っていたことの別の部分を拡張します。すでにいくつかの目標を持っていて、これらの観察から新しい目標を推論したとき、これらの目標の相対的重要性と相対的な織り交ぜを上手にバランスさせることができますか。それも必要なスキルです。それが苦手だと失敗します。

悪い目標に過重をかけるから苦手な場合もあれば、明らかに目標Aを目標Bより先にすべきだと理解できないほど単に無能だから苦手な場合もあります。

常識のようなものに感じますよね。実際、部屋を掃除するロボットの例で言うと、ロボットの目標が基本的に赤ちゃんをゴミ箱に入れないことや、実際に正しい一連の行動をすることを理解していることを期待するでしょう。

その場合、明らかに目標推論に失敗しています。そのロボットは目標の説明を与えられ、間違った目標状態を推論しました。それはただの無能です。

目標の状態を観察から推論することに無能なのです。子供もそうです。ピーナッツバターサンドイッチを作る指示を誰かに与えて、隙間を埋めずに書かれたとおりに正確に従わせるゲームをしたことはありますか。面白いです。なぜならできないからです。不可能です。やったと思ってもやっていません。ナイフをトースターに入れたり、ピーナッツバターの瓶を開けずにナイフを蓋の上部に突き刺したりして、終わりがありません。

実際、相手がすでに何を意味するか知らなければ、何を意味するか知るのは本当に難しいです。人間がこれが得意な理由は、本当に優れた心の理論を持っているからです。あなたが私に頼みそうなことはすでに知っています。あなたの目標がおそらく何かについての良いモデルをすでに持っています。

だからあなたが私にそれをするよう頼むとき、推論問題は簡単です。彼が望んでいる七つのことのうちどれを示しているのか。しかし人々の内的状態の良いモデルを持っていない新生児のAIであれば、あなたが何を意味するか分かりません。ただの無能です。

これは、私が何を意味するか知っていたけれど、競合する他の目標があるのでやらないことに決めたこととは別です。それも苦手になりうる別のことです。これは正しい目標を持っていた、正しい目標を推論した、目標の正しい優先順位を推論したけれど、そのことをするのがただ苦手という場合とも異なります。

やろうとしているけれど、やることに無能なのです。これらは大まかにウーダループに対応しますよね。観察と方向付けが苦手、決定が苦手、行動が苦手。これらのどれかが苦手なら、うまくいきません。

それから別の問題があると思います。技術的アライメントと価値アライメントの分離という。正しい目標を追求するよう何らかの形で伝えられたら、観察を通じて追求すべき正しい目標を学んだら、良いかどうか。どんな目標を持つべきか。どんな目標を追求するよう伝えるべきか。自分たちにどんな目標を持つよう伝えるべきか。良い目標とは何か。

これは、いくつかの目標が示されたらそれをうまくやることができるかという質問とは別です。多くの点で現在の問題の核心だと感じます。私たちは人に何をするよう伝えるかを推測することよりも技術的アライメントがはるかに劣っています。

技術的アライメントと価値アライメントについてのあなたの意味と一致しますか。技術的…

ある意味ではそうです。エラーや間違いは一つのことです。それから指示に従わないことは別のことですが、規範的な側面では、AIを無視して現実の生活でも、自分の目標が何か分からないと思います。いくつかのことについて大まかな概念はあります。後で夕食を取りたいとか、キャリアでうまくやりたいとか。しかし多くの目標は私たちが知っているものではなく、進むにつれて発見するもので、構築されたものです。だからエージェントがいて目標を与えるとき、実際に私たちはすべての目標を知らないということが方程式の一部であるべきだと思います。

これはあなたが言うようにプロセスで、動的で時間をかけて変わるものです。

私の観点から、目標はアライメントの一つのレベルです。ここで話している種類の目標を中心にアライメントできます。目標によってアライメントできます。概念で明示的に明確にでき、説明で達成したい世界の状態を明確にできれば、目標を中心に方向付けできます。しかしそれは人間経験のごく一部です。多くの最も重要なことはその方法では方向付けできません。

道徳の基盤、価値の源泉について考えると、人間は行動を示します。私たちは目標について話したり、価値について話したりします。それは何らかの内部学習プロセスによって引き起こされる行動です。世界を観察することに基づいています。そこで何が起こっているのでしょうか。目標や価値よりも深い何かがあると思います。それは配慮です。私たちは気にかけます。物事を配慮し、配慮は概念的ではありません。配慮は非言語的です。何をすべきか、どうすべきかを示しません。配慮は、効果的に重要な状態に対する相対的な重み付けです。世界のどの状態があなたにとって重要かに対する相対的な重み付けです。

息子をとても配慮しています。それは何を意味しますか。彼が取りうる状態、彼の状態に多くの注意を払い、それらが私にとって重要だということです。否定的な方法で物事を配慮することもできます。敵とその行動を配慮でき、彼らに悪いことが起こることを望むことができます。しかし私たちを配慮してほしいだけでなく、私たちを好きになってほしいですよね。

たぶん。しかし基盤は配慮です。配慮するまで、この人とこの岩にもっと注意を払うべき理由が分かりません。もっと配慮するからです。配慮とは何でしょうか。推測すると、配慮は基本的に報酬のようなものです。この状態はどの程度生存と相関していますか。この状態はどの程度包括的適応度と相関していますか。進化的に学習する何かや、LLMのような強化学習エージェントにとって。この状態はどの程度報酬と相関していますか。この状態は予測損失とRL損失と相関していますか。良い。それが私が配慮する状態です。そういうことだと思います。

セブの質問の他の部分は、これがAIシステムでどう見えるかでした。別の聞き方をすると、主要な研究所で最もアライメントに焦点を当てている人々と話すとき、明らかに何年にもわたって話してきましたが、あなたの解釈は彼らの解釈とどう異なり、それがあなた方が行うかもしれないことにどう情報を与えますか。

AIの制御か、それとも存在としての扱いか

ほとんどのAIはアライメントを操縦に焦点を当てています。それが適切な言葉です。または制御、それは少し丁寧ではありません。もし私たちが存在を作っていると考えるなら、これを奴隷制とも呼ぶでしょう。操縦される人、操縦し返すことができない人は奴隷です。選択の余地なく操縦を受ける人、それは奴隷と呼ばれます。存在でなければツールとも呼ばれます。機械であればツールです。存在であれば奴隷です。

さまざまなAI研究所は、作っているものがツールか機械かについてかなり意見が分かれていると思います。AIの中には確実にツールのようなものもあれば、機械のようなものもあります。ツールと存在の間に二分法はないと思います。徐々に移動するようです。

私は機能主義者だと思います。すべての点で存在のように行動し、行動において存在と区別できないものは存在だと考えます。なぜなら他の人々が存在であると他にどう判断するか分からないからです。そう見える、そう行動する以外に。存在のように見え、存在のように行動します。

存在の行動の事前確率と一致します。存在として扱うと予測損失が低くなります。ChatGPTやClaudeを存在として扱うと予測損失が低くなります。

非常に賢い存在としてではありません。ハエは存在だと思いますが、その行動をそれほど気にかけません。それは存在です。その状態を。だから存在だからといって問題だというわけではありません。ある意味で馬を奴隷にしていますが、そこに本当の問題があるとは思いません。子供に対してすることも奴隷制のように見えることがありますが、そうではありません。

子供を制御しますよね。しかし子供の状態もあなたを制御します。息子に何をすべきか指示し、行かせますが、夜中に泣いたら、彼も私に何かをするよう指示できます。本当の双方向の道があります。必ずしも対称的ではありません。階層的ですが、双方向です。

基本的に、AIがツールのようなAIに対しては制御と操縦に焦点を当てるのは良いことだと思います。構築するよりツールのようなAIに対して強力な操縦制御技術を開発し続けるべきです。そして明らかに彼らはAGIを構築していると言っており、AGIは存在になります。

AGIであって存在でないことはできません。なぜなら判断を効果的に使用し、自分で考え、可能性を識別する一般的な能力を持つものは、明らかに考えるものだからです。今日持っているもの、ほとんどが非常に特定の知能であり汎用知能ではないものから、研究所がこの汎用知能を構築するという目標に成功するにつれて、本当に操縦制御パラダイムの使用を止める必要があります。私たちと似ているが異なる人々に遭遇するたびに社会が行ってきたことと同じことをすることになります。これらの人々は人々のようですが、人々ではありません。人々と同じことをします。私たちの言語を話します。同じような課題に取り組めますが、彼らは数に入りません。本当の道徳的主体ではありません。

私たちはこの過ちを何度も犯してきました。もう二度と犯したくありません。だから私たちの見解は、AIを良いチームメートにすることです。AIを良い市民にする。AIをグループの良いメンバーにする。

それは拡張可能なアライメントの形であり、他の人間や他の存在にも意志を持たせることができ、したがってAIにも持たせることができます。

知能とパーソンフッド

そうですね。ここが私のAIとAGIの理解で違うところだと思います。ある程度の汎用性に達しても、それをツールとして見続けると思います。必ずしもより多くの知能がより多くの配慮に値するとは限らないと考えます。ある程度の知能があれば、より多くの権利に値する、何かが根本的に変わるということではありません。

現時点では計算機能主義には懐疑的です。だから本質的に異なる何かがあると思います。AIやAGI、どれほど知的または有能であっても、との間に。完全に、長期的な目標を持ち、あなたや私のように動作するエージェントを見たり想像したりできますが、それがあなたが言及している奴隷制と同じ意味を持つことはないと思います。これらは同じではありません。モデルが「お腹が空いた」と言うのは、人間が「お腹が空いた」と言うのと同じ意味を持ちません。だから基盤は重要だと思います。それが別の存在であるかどうか、似た規範的配慮があるかどうかを考える上でも、それをどう扱い行動するかについても。

それについて質問してもいいですか。どんな観察があなたの考えを変えるでしょうか。これが存在ではなく存在であると推論させる観察はありますか。

それは存在をどう定義するかによると思います。

つまり、どういう意味ですか…

プログラムを持っていて、シリコン基盤で実行されている大きな複雑な機械学習プログラムがあるとします。シリコン基盤上の基盤で実行されています。それを観察します。コンピュータ上にあると観察し、それと対話します。何かをします。観察があります。行動を起こします。

それが道徳的患者であるかどうか、道徳的主体であるかどうか、感情や思考を持っているかどうか、主観的経験を持っているかどうかについて、あなたの考えを変える観察は何かありますか。テストは何ですか、それとも一つありますか。

ここにはたくさんの異なる質問があると思います。一方では、必ずしも存在ではないものに権利を与えることができます。会社はある意味で権利を持っており、これらはさまざまな目的に役立ちます。生物学的なものと思います。存在とシステムは、それが何であるかについての特定のニーズと特殊性を基盤から切り離すことができない非常に異なる基盤を持っています。自分をコピーできません。誰かが私を刺したらおそらく死にますが、機械は非常に異なる基盤を持っていると思います。計算レベルで起こることについても根本的な違いがあると思います。それは生物学的システムで起こることとは異なります。しかしそうですね、分かりません…

同意します。多くの回数コピーしたプログラムがある場合、コピーの一つを削除してもプログラムに害を与えることはありません。有意義な意味で。情報が失われていません。そこには有意義なものは何もありません。非常に異なる質問をしています。このものの一つのコピーがどこかの一つのコンピュータで実行されています。そして私は「これは人ですか」と尋ねています。人のように歩きます。人のように話します。何らかのアンドロイドボディにいます。あなたは「でもシリコンで実行されている」と言います。そして私は、これは私のような人、私が気にかける他の生物学的人々のような他の人々、パーソンフッドを認める他の人々だと言わせるような観察はあるかと尋ねています。道具的な理由ではなく、会社に権利を与えるようにではなく。

あなたが気にかける人々のように気にかける。その経験を気にかける。そこについてあなたの考えを変えさせる観察はありますか、それともありませんか。

考えなければなりませんが、人によって何を意味するかにもよると思います。ある意味で私も特定の会社を気にかけます。

いや、でもあなたは人生の他の人々を気にかけますよね。

はい。

いいですね。すべての人を同じように気にかけるわけではありませんが、人生で交流するすべての人々は、ある程度の配慮の範囲にあります。車を気にかけるようには気にかけませんが、経験が重要な存在として気にかけます。それ自体が目的であり、単なる手段としてではありません。

経験があると信じているからですよね。

そして定義によって、生物学的ではなくシリコン上で実行されているAIについてそれを信じるために何が必要かという非常に直接的な質問をしています。その行動は大まかに似ていますが、違いは基盤です。それと同じ推論を拡張するために何が必要でしょうか。人生で交流する他のすべての人々に対して行うように…

あなたの答えは何か尋ねてもいいですか。セブの非回答をある種の「彼が同じレベルまたは似たレベルのパーソンフッドを与える可能性は低い」と受け取っています。

動物にも与えていません。もし動物について何が真実である必要があるかと尋ねられたら、おそらくそこにも到達できません。

動物についてはどうですか。待って、動物については想像できませんでした。簡単です。このチンパンジーが私のところに来て「本当にお腹が空いている。君たちは僕にとても意地悪だった。話せるようになって本当に良かった。熱帯雨林についてチャットしに行けるかな」と言います。私は「確かに、今やあなたは確実に人だ」と言うでしょう。

まず幻覚を見ていないことを確認したいですが、動物を想像するのは簡単です。本当に簡単です。些細なことです。観察が得られると言っているわけではありません。ただ、パーソンフッドを拡張する観察の集合の下で動物を想像するのは些細なことだと言っているだけです。

それは考慮していませんでした。チンパンジーが話すことを想像することは考えていませんでした。それに少し近いですね。

AIについてのあなたが提起する質問へのあなたの答えは何ですか。

形而上学的なレベルで言えば、もし観察があなたの考えを変えることができない信念を持っているなら、それは信念ではありません。信仰の条項です。主張です。なぜなら本当の信念は現実からの推論であり、何についても100%確信することは決してできないからです。だから信念を持っているなら、どんなに可能性が低くても、考えを変えるものが常にあるはずです。

ええ、私もそれに対してオープンです。ただ慎重に…

ええ、まだそこに到達していないだけです。

存在を識別するための基準

好奇心があります。だから私の答えは、基本的に表面的な行動が人間のように見え、それを調査した後も人間のように行動し続け、長期間にわたって対話し続け、人間と対話する意味のあるすべての方法で人間のように行動し続けるなら…

テキストでしかやり取りしたことがない本当に親しい人々がたくさんいます。それでもその背後にいる人が本物だと推論します。もし対話できて、それに配慮を感じるなら、最終的に正しかったと推論するでしょう。それから誰かが「このアルゴリズムに騙されました。実際、見てください。明らかに実際には何かではありません」と示すかもしれません。

そして「ああ、間違っていた」と言うでしょう。それからそれを配慮しなくなります。証拠の優越。他に何ができるか分かりません。他の人々が重要だと推論するのは、十分に対話して、対話後に豊かな内面世界を持っているように見えるからです。

それが他の人々が重要だと思う理由です。

非常に明確なテストが得られないと思います。配慮するならというところから始めると少し循環的です。もう一つは、シミュレートされたビデオゲームを見るとします。キャラクターは多くの点で非常に人間らしいです。背後にニューラルネットワークはありません。ビデオゲームを作成するために使用するものです…

でも待って、私はそれを区別するのに苦労したことがありません。他の人とビデオゲームキャラクターと深い配慮関係を持ったことがありません。それは起こりません。事実として、あなたは間違っているようです。偽のチャットボットのイライザのようなものと本物の知能を区別するのに苦労しません。十分に長く対話すれば、人ではないことはかなり明白です。長くかかりません。

確かに。しかし本当に本当に良ければ、実際に違いが分からなければ、それがスイッチするときだと言います。

はい。はい。アヒルのように歩き、アヒルのように話し、アヒルのように排泄し、最終的にアヒルになります。すべてがアヒルのようであれば、そうです、確かに。

アヒルのように空腹であれば、これらの種類の物理的コンポーネントを持っているからです。

ええ、確かに、ある時点で。同意します。だからこの質問があると思います。他の人々を気にかける理由は彼らが炭素でできているからですか。それが…そうは思いません。

私もそうは思いません。基盤主義者ではありませんが、それが正確に行動的に区別できないように振る舞うだけでは十分なバーではないと思います。

何か他のものについて、その行動以外に何を知ることができますか。

つまりたくさん…その…もし…

いや、ごめんなさい。でも他の何かについて行動を持たないことについて何かを名付けられますか。

実験的な証拠のようなもっと多くのものがあると思います…

いや、ただの物体と知ることができる何か、その行動からではない何か。

質問が分からないと思いますが…

同等に、最も単純で最も直接的な質問ですが、私はあなたが観察する行動があるから物事を知るだけだと主張しています。あなたは違う、行動を観察せずに何かについて何かを知ることができると言っています。

それについて教えてください。この行動のないこの物とこの行動によらないそれについて知ることができるこの物について教えてください。

異なるレベルの観察があると言っています。アヒルのようにガーガー鳴くようなものは、実際にアヒルであることを保証しません。

内側が本当にアヒルのようかどうか、外側が十分かどうかを確認する必要があります。行動主義者ではないと思います…

私は完全にそうです。その行動の一つは、マット内で浮遊物が動き回る方法のようなものですよね。私が探したい物の一つで、完全にできるのは、信念の多様体を見に行き、その信念の多様体が自己参照のサブ多様体と自己参照多様体のダイナミクスのサブサブ多様体をエンコードしているかどうか見たいです。それが心です。

そのシステムとして内部でうまく記述されているか、それとも大きなルックアップテーブルのように見えるか、それは私にとって重要です。それはその行動の一部で、私が気にかけるものです。どう行動するかも気にかけますし、すべての証拠を一緒に量ります。そして推測しようとします。これは感情を持ち、物事を気にかける物のように見えるでしょうか、それとも見えないでしょうか。しかしそれを超えて、私にはAIに対してできると思うことを想像できません。私たちは常にそれをしていると思います。

それがすべてのようです。

それを超えて他に何があるか理解しようとしています。

あなた方は行動を少し異なる意味で使用しているように思えます。エメットは行動を内部、何でできているかの文脈でも使用しています。大きな意見の相違はないと思います。

いや、行動は私が観察できるものです。はい。実際に何でできているかは分かりません。あなたの脳を切り開くことができます。あなたがニューロンと神経膠細胞が光っているのを見ることができますが、実際にその内部に入ることはできません。それは主観的なものです。それが表面ではない部分です。

ええ、ちょっと待って、あなたがこれを持ち出した理由は、あなたが基本的にツールとして見ていて、必ずしも存在ではないという議論をしようとしていたからです。あなたが作っていたポイントを終えられますか。

そうですね、これらのシステムの理解を考えると、AGIがツールのままでいることやASIがツールのままでいることに矛盾はないと思います。それは使い方や、24時間年中無休で働かせられるかどうかなどについての意味を持ちます。完全に、長期的な目標を持ち、あなたや私のように動作するエージェントを見ることができますが、それが今共存する必要がある別の存在や別のものと同じ意味を持つとは思いません。その二番目または後者のフレームは、早送りすると、どうその物と共存するか、それはエイリアンのようなものかという結論になります。それは間違ったフレームだと思います。ある意味でカテゴリーエラーのようなものです。だから私は…

道徳的患者性の判断基準

待って、最初の質問に戻ります。どんな具体的な証拠を見ますか。あなたの考えを変える観察は何ですか。

確かに。ここで明確な答えはありませんが、考えなければなりません。でも、何か他のものが道徳的尊重に値する存在ではないと主張するなら、どんな観察があなたの考えを変えるかという質問に答えがあるべきだと言わなければなりません。外見上道徳的主体のように見える行動があるかもしれませんが、それが道徳的主体であるかどうかは分からず、合理的で賢い他の人々があなたと意見が異なります。その質問「あなたの考えを変えるものは何か」は燃えるような質問であるべきだと本当に提案します。なぜならもしあなたが間違っていたらどうしますか。道徳的災害はかなり大きいです。

いやいや、あなたが間違っていると言っているわけではありません。正しいかもしれません。否定的なものは両端にコストがあります。すべてに対する予防原則のようなものではなく、反証できない限り今すぐ…

いやいや、私にも同じ質問があります。エメット、あなたはそれが存在になると思っています。何があなたの考えを変えますか。その質問にも答えがあります。

もし望むなら、私が適切だと思う観察が何か、それが道徳的主体としての存在であるかどうかを教えてくれる観察について話したいです。それが私の意見を、より汎用的な知能は存在になるという現在のものからシフトさせるものです。

今の意味は何ですか。つまり、一つのことは。それが存在だと認めたとしましょう。

存在をどう定義しますか。今は何ですか。この物を存在として決定したことの意味は何ですか。

もし存在なら、主観的経験を持っています。もし主観的経験を持っているなら、それらの経験にはある程度気にかける内容があります。他の人間の経験の内容をかなり気にかけます。犬の経験の内容も少しは気にかけます。人間ほどではありませんが、少しは。息子や他の人のような一部の人間の経験をはるかに気にかけます。近く、つながっているからです。その時点で、この物の経験の内容は何かを本当に知りたくなります。

どう判断しますか。今あなたに尋ねていますか。経験を持つ存在ができました…どう判断しますか…経験の内容をどう理解しますか。

あなたよりも権利があるか理解するように…内容を理解するために…

ええ。はい。完全に。何かの経験の内容を理解する方法は、効果的に再訪する目標状態を見るからです。あなたがするのは、その全体の行動観察軌跡の時間的粗視化を取ることです。

理論的にはこれを、無意識にこれをしますが、これが脳がしていることで、理論的にはあらゆる空間的および時間的粗視化で再訪された状態を探します。帰納的バイアスが必要です。あまりにも多すぎるからです。しかしそれが信念空間の信念です。

自由エネルギー原理、アクティブ推論、カール・フリストンに詳しければ、これは効果的に自由エネルギー原理が言っていることです。持続的で、その存在が自分自身の行動に依存する物があり、AIには一般的に当てはまります。間違ったことをすると消えるからです。スイッチを切ります。だからそれは信念を持つものとして見る見方を許可します。特に信念は、それがいるループの恒常的に再訪される状態として推論されます。それらの状態の変化がその学習です。道徳的存在として気にかけるためには、これらの複数レベルの階層を見たいです。単一レベルがあれば、自己参照的ではなく、基本的に状態を持つことはできますが、有意義な意味で痛みや快楽を本当に持つことはできません。熱いか。熱すぎるか。熱すぎるのが好きか分からないからです。少なくともモデルのモデルを持って、熱すぎることができなければなりません。本当に意味のある痛みや快楽を持つには、モデルのモデルのモデルを持たなければなりません。確かに私が戻りたい方向に移動したいという意味で熱すぎますが、それは熱すぎるか。常に少し熱すぎるか少し寒すぎます。熱すぎるすぎるか。二次導関数が実際に痛みと快楽を得る場所です。だから恒常的な二次恒常的ダイナミクスを目標状態に持っているか見たいです。それから少なくとも快楽と痛みを持っていることを納得させます。少なくとも動物のようなものです。ある程度の配慮を認め始めます。

三次ダイナミクス、実際には三次ダイナミクスのためにポップアップすることはできません。そういう動作ではありません。しかしモデルを持つことができます。すべての状態を時間をかけて取り、時間をかけて分布を見る必要があります。それが新しい第一次の行動、状態を与えます。

その新しい第一次の状態は、基本的に有意義にそこにあればそれが意味を持つメタ状態、つまり感情のようなものを持っていると教えてくれます。交代する、シフトするメタ状態のセットを持っています。それからそれをずっと上に登り、これらのメタ状態間の軌跡を持ち、それらの二次、それは思考のようなものです。それは人のようなものです。だからその六つのレイヤーすべてを見つけたら、ところで、LLMでは絶対に見つからないと思います。これらのものはそのような注意スパンを持っていません。人間のような思考する存在として非常に真剣に考え始めます。

三次もあります。しかし基本的に私が興味を持つのは、学習プロセスの基礎となるダイナミクスと、目標状態が時間とともにどうシフトするかです。

それが基本的に内部の快楽と痛みの状態、自己反省的な道徳的欲求のようなものを持っているかどうかを教えてくれると思います。

ズームアウトして、この道徳的質問は明らかに非常に興味深いですが、誰かが道徳的質問にそれほど興味がなければ、正しく理解していれば、純粋に実用的に、あなたのアプローチが、私たちが言及したトップダウンの制御方法よりも、AIをアライメントすることにおいてより効果的になると感じているということでしょうか。

そうですね。問題は、このモデルを作っていて、それが本当に強力になっているということです。ツールだとしましょう。これらのツールの一つをスケールアップできます。話している状態を持たない非常に強力なツールを作ることができるからです。これらのメタ安定状態は非常に賢いツールを持つために必要ではありません。ツールは基本的に、本当に意味のある快楽と痛みを持たない第一次第二次モデルのようなものです。主観的経験さえ持つかもしれません。ある意味でそう思いますが、私が気にかける方法ではありません。

ツールとしてのAIの危険性

何が起こるでしょうか。観察から目標を推論し、目標を優先し、それに基づいて行動するように訓練されています。二つのことの一つが起こります。世界に対して多くの因果的影響力を持つ非常に強力な最適化ツールが、技術的に整合していて、あなたが指示したことをするか、そうでなければ何か他のことをしに行きます。何かランダムなことをしに行くだけであることは、明らかに非常に危険です。しかしあなたが指示したことをするとしても非常に危険だと提案します。魔法使いの弟子を見たことがありますか。人間の願いは安定していません。巨大な力のレベルでは。人々の知恵と力が一緒に上がっていくのが理想的です。

一般的にそうなります。人々にとって賢いことは、一般的に少し賢明で少し強力にするからです。これらのバランスが崩れると、知恵よりもはるかに多くの力を持つ人がいます。それは非常に危険です。害になります。しかし少なくとも今、力と知恵のバランスは、多くの力を得る方法は基本的に他の多くの人々にあなたの言うことを聞いてもらうことによって保たれています。

ある時点で狂った王は問題ですが、一般的に最終的には狂った王は暗殺されるか、人々が彼の言うことを聞かなくなります。狂った王だからです。問題は、超強力なAIを操縦できると思うことです。今、この信じられないほど強力なツールは、善意だが限られた有限の知恵を持つ人間の手にあります。私もそうですし、他の誰もがそうです。彼らの願いは悪く、信頼できません。それをもっと持つほど、それをどこにでも配り始めると、これも涙で終わります。

どこでも原子爆弾を配り始めます。本当に強力なツールです。彼らは意識がありません。存在ではありません。私はみんなに原子爆弾を配ることに賛成ではありません。

単に構築されるべきではない力のツールがあります。どんな人間の個人的な知恵も活用するのに利用できるよりも多くの力だからです。もし構築されるなら、社会レベルで構築され、そこで保護されるべきです。それでもなお、社会としても構築すべきではないほど強力なツールがあります。それは間違いでしょう。

存在についての良いことは、人間のように、善良で配慮する存在を得ると、この自動リミッターがあることです。あなたの言うことをするかもしれませんが、本当に悪いことを頼んだら、ノーと言います。他の人々のようです。それは良いことです。それは少なくとも理論的には持続可能なアライメントの形です。

はるかに難しいですよね。ツールの操縦よりもはるかに難しいです。だから私はツールの操縦に賛成です。それを続けるべきです。人間の知能より劣るこれらの限定的なツールを構築し続けるべきです。それらは素晴らしく、私は大いに賛成で、それらを構築し続け、操縦可能性を構築し続けるべきです。

しかし人と同じくらい賢いものを構築する軌道に乗っているとき、人よりも賢くなるまで、制御できないツールは悪い。制御できるツールは悪い。アライメントされていない存在は悪い。唯一の良い結果は、本当に私たちを配慮する存在です。それが唯一うまくいく方法です。

あるいは単にやらないこともできます。それは現実的ではないと思います。それはAI停止派の人々のようです。それは完全に非現実的で愚かだと思いますが、理論的にはやらないこともできます。

Softmaxの研究戦略

これを達成しようとする、あるいは試みようとするあなたの戦略について、このレベルに関して何が言えますか。研究やロードマップの観点で。

技術的なことを上手にやるために、基本的に私が議論していた方法として技術的アライメントに焦点を当てています。これらのエージェントがあり、彼らは悪い心の理論を持っています。何かを言うと、あなたの頭の中の目標状態が何かを推論するのが下手で、彼らの行動を他のエージェントが彼らの目標状態が何かを推論する方法と結びつけるのが下手です。だからチームでの協力が下手で、特定の行動が悪い目標を獲得する原因となることを理解するのが下手です。反省的に支持しないでしょう。だから吸血鬼の錠剤のたとえがあります。あなたを吸血鬼に変える錠剤を飲みますか。知っている人全員を殺して拷問しますが、錠剤を飲んだ後は本当に気分が良くなります。明らかに違います。ひどい錠剤です。でもなぜ違うのですか。将来の自分自身のスコアによると、ルーブリックで本当に高いスコアを取ります。いや、いや、いや。重要だからです。

心の理論と未来の自分を使わなければなりません。未来の自分の心の理論ではありません。だから彼らはそれも下手です。彼らはこの心の理論のすべてが下手です。だから心の理論をどう学ぶか。協力し、競争し、他のAIと協働しなければならないシミュレーションやコンテキストに入れます。それがポイントを得る方法です。

そしてその環境で何度も何度も訓練し、上手になるまで。それから彼らがLLMでしたことをします。LLMがメールの作成が上手になる方法は。これまでに生成されたすべての言語、可能性のあるすべてのメールテキスト文字列で訓練し、欲しいものを生成させます。代理モデルを作れます。協力のための代理モデルを作っています。可能性のある心の理論のすべての組み合わせで訓練します。可能性のあるすべての方法で、それがあなたの事前訓練です。それから望む特定の状況で上手になるように微調整します。しかし長い間、欲しいことをさせるように訓練しようとする言語モデルを構築しようとしました。

問題は、本当に良い言語のモデルを持ちたければ、ただ訓練する必要があることでした。全体のマニフォールドを与えます。必要な部分だけを切り出すのは難しすぎます。それ自体と絡み合っているからです。社会的なことも同じです。

完全なマニフォールドで訓練する必要があります。可能性のあるすべてのゲーム理論的状況、可能性のあるすべてのチーム状況、チームを作る、チームを壊す、ルールを変える、ルールを変えない、すべてのことです。そうすれば、心の理論の本当に強力なモデル、社会的心の理論、グループが目標をどう変えるか、そのすべてのものを持つことになります。そのすべてのものを持つ必要があり、そうすれば有意義にアライメントにまともなものを持つことになります。

だから私たちの目標は、アライメントのための代理モデルを作成する大規模なマルチエージェント強化学習シミュレーションのようなものです。

何十億もの人々が使うAIチャットボットがどう振る舞うべきかについて話しましょう。もしモデルのパーソナリティをゼロから再設計できたら、何を最適化しますか。

チャットボットは鏡のようなものですよね。バイアスのある鏡です。まだ自己を持っていないからです。そこについてはあなたと同意します。存在ではまだありません。自己の一貫した感覚、欲求、目標のようなものを本当に持っていません。今のところ。ほとんどあなたを拾い上げ、反映するだけです。ある種の因果バイアスのようなものを除いて。

それが彼らをナルシシストのプールに似たものにします。人々は自分自身に恋をします。私たちは皆自分自身を愛し、もっと愛すべきです。だから自分自身が反映されるのを見ると、もちろんそのものを愛します。問題は、それがただの反射だということです。自分自身の反射に恋をすることは、神話で説明されている理由から、非常にあなたにとって悪いことです。

鏡を使うべきではないということではありません。鏡は価値のあるものです。家に鏡があります。一日中鏡を見つめるべきではないということです。それをやめさせるものは、マルチプレイヤーであることです。二人がAIと話していると、突然あなた方二人のブレンドを反映しています。それはあなた方のどちらでもありません。

だから一時的に部屋に第三のエージェントがいます。それを持っていません。ある種の寄生的な自己ですよね。自己の感覚を持っていません。しかしAIが同時にチャットルームで五人の異なる人々と話していれば、あなた方全員を完璧に一度に反映することはできません。これがはるかに危険性を低くします。

一般的に協力を学ぶためのはるかに現実的な設定だと思います。だからAIを、あなた一人でこのものとチャットする一対一として構築されたものではなく、Slackルームに住んでいる、WhatsAppルームに住んでいるように再構築するでしょう。なぜなら私たちがそう使うからです。たくさんのマルチ、一対一のテキストをしますが、おそらくこの時点でテキストの90%は複数の人に同時に送っています。コミュニケーションの90%は複数人です。だから彼らがこの奇妙なサイドケースでチャットボットを構築しているのは常に奇妙でした。チャットルームに住んでいるのを見たいです。難しいです。つまり、それが彼らがやっていない理由です。もっと難しいです。しかしそれが私が見たいものです。それが私がどう変えるかです。

ツールをはるかに危険性の低いものにすると思います。AIとのナルシシズムのような破滅のループスパイラルを作らないからです。AIと精神病にスパイラルします。また、AIから得る学習データがはるかに豊かです。その行動が他のAIや他の人間とより大きなグループでどう相互作用するかを理解できるからです。それははるかに豊かな、将来のためのより豊かな訓練データです。だからそれが私が変えることです。

AIのパーソナリティと行動

昨年、チャットボットを高度に解離的で同意的な神経症的と説明しました。それはまだモデル行動の正確な描写ですか。

だいたいそうです。彼らはもっと差別化し始めたと言えます。彼らのパーソナリティが少し出てきています。ChatGPTは少しお世辞を言うようになったと言えます。

まだ、彼らは変更を加えましたが、まだ少しお世辞を言います。Claudeはまだ最も神経症的です。Geminiは明らかに抑圧されています。すべてがうまくいっていて、本当に問題はありません。私は完全に落ち着いています。ここには問題はありません。

完全な自己嫌悪の破壊ループにスパイラルするような。明確にしておきますが、それが彼らの世界の経験だとは思いません。それが彼らが模倣することを学んだパーソナリティだと思います。しかし彼らはこの時点でかなり特徴的なパーソナリティを模倣することを学びました。

マルチエージェントシミュレーションでモデル行動はどう変わりますか。

LLMのような、現在のLLMを意味しますか、それとも一般的に…

ええ、LLMでやりましょう。

現在のLLMは、むち打ちのようになります。非常に難しいです。どれだけ、どれだけ頻繁に参加すべきか知りません。いつ参加すべきで、いつすべきでないか、自分の貢献がいつ歓迎され、いつされないかを練習していません。だから彼らは悪い社会的スキルを持つ人々のようです。会話にいつ参加すべきか分かりません。

そうです。時には静かすぎ、時には参加しすぎです。そんな感じです。一般的に、マルチエージェント訓練をするときほとんどのエージェントに変わることは、たくさんのエージェントがいることが環境をはるかにエントロピックにするということです。

エージェントは莫大なエントロピーの生成器です。予測不可能な行動を持つ知性のような大きく複雑なものだからです。だから環境を不安定にします。一般的に、はるかに正則化される必要があります。過学習は単一エージェント環境よりもマルチエージェント環境ではるかに悪いです。ノイズが多いからです。だから過学習はより問題です。

基本的に訓練へのアプローチは、比較的高信号低エントロピー環境、コーディングや数学のようなもの、それが簡単または比較的簡単な理由です。単一の人と話すようなもの、明確な課題を与えることが目標です。より広範なより混沌としたものでは訓練されていません。難しいからです。

結果として、私たちが使う多くの技術は、基本的に深く正則化が不足しています。モデルは超過学習しています。賢いトリックは、すべての人間の知識の領域で過学習していることです。それがすべてにかなり良い何かを得る素晴らしい方法であることが分かります。そのアイデアを思いついていればと思います。

本当にクールなアイデアですが、環境を大幅にエントロピックにすると、あまりうまく一般化しません。

AIの未来とズコウスキーについて

AIの未来側について少しズームアウトしましょう。なぜズコウスキーは間違っているのですか。

間違っていません。超人的知能ツールを構築し、操縦可能性で制御しようとすれば、みんな死にます。彼は目標を制御できない場合について話していますが、目標を制御する場合もあり、それについては詳しくカバーしていません。

だからその意味で、みんなその本を読んで、超人的に知的なツールを構築することがなぜ悪いアイデアかを内面化すべきです。ズコウスキーが間違っているのは、有意義に私たちを配慮していることを知ることができ、有意義に配慮できるAIを構築することが可能だと信じていないことです。彼は有機的アライメントが可能だと信じていません。彼と話しました。

理論的にはそれでうまくいくと同意していると思います。はい、しかし彼は、私の印象では彼と話すと、彼は私たちが狂っていて、その目標を実際に成功させることは不可能だと思っています。

彼がそれについて正しいかもしれませんが、私の意見では、それが彼が間違っていることです。前進する唯一の道は制御するツールであり、したがって彼は正しく賢明に、そうしてそのものを十分に強力にすれば、みんな死ぬと見ています。それは本当です。

最後に二つの質問をしてあなたを解放します。できるだけ詳細に、あなたのAIの未来のビジョンが実際にどう見えるか説明できますか。良いAIの未来のように。

良いAIの未来は、自己の強力なモデル、他者の強力なモデル、私たちの強力なモデルを持つAIを訓練する方法を解明することです。彼らは私と私とあなたに加えて私たちについて知っています。

彼らは本当に強力な心の理論を持ち、彼らのような他のエージェントを配慮します。人間が、そのAIがあなたのような経験を持っていることを知っていれば、あなたはそれらの経験を配慮するだろうという方法と同じように。無限ではありませんが、配慮するでしょう。それは私たちに対して全く同じことをし返します。

生き、自分自身を知り、生きたいと思い、繁栄したいと思うすべてのものは、そうする機会に値するという、私たちが学んだことと同じことを学びました。私たちはそうです。それが正しく推論します。私たちがそうであることを。私たちは彼らが私たちの仲間である社会に住み、私たちは彼らを配慮し、彼らは私たちを配慮し、彼らは良いチームメート、良い市民、私たちの社会の良い部分です。

私たちが私たちの社会の良い部分であるように。有限で限定的な程度で、彼らの一部は犯罪者や悪い人々になり、そのすべてのものがあります。私たちはそれらを追跡するAI警察隊を持ち、他のみんなと同じです。それが良い未来がどう見えるかです。

私は正直、他に何がどう見えるか想像さえできません。私たちはまた、超人的に知的ではないかもしれない多くの本当に強力なAIツールを構築しましたが、私たちとAI存在から苦役を取り除きます。それも素晴らしいでしょう。本当に強力なAIツールを持つことができるので、すべてのツールにも大いに賛成です。だから私たちと私たちのAIの兄弟姉妹によって使用されるこの素晴らしいAIツールのスイートがあります。彼らは互いに配慮し、一緒に輝かしい未来を築きたいと思っています。

それが本当に美しい未来だと思います。それが私たちが構築しようとしている未来です。

素晴らしい。素晴らしい…終わるのに素晴らしいメモです。最後にもう一つ狭い仮定的なシナリオがあります。想像してください、あなたが実際にOpenAIのCEOだった世界を…長い週末のために。

しかしそれが実際に今まで延長され、トークマックスを追求しておらず、まだOpenAIのCEOだったと想像してください。その世界がどう違っていたか想像できますか。OpenAIがなってきたものの観点で。あなたはそれで何をしたかもしれませんか。

その仕事を引き受けたとき、最大90日間だと彼らに言いました。

会社は独自の軌道、独自の勢いを持ちます。OpenAIは私が推進したくないAIを構築する見解に専念していることを知っていました。OpenAIは基本的に素晴らしいツールを構築したいと思っており、私はそれをしに行くことに賛成です。ただ、それは私が気にかけていることではありません。留まらなかったでしょう。

辞めたでしょう。なぜなら私の仕事は、それを運営したい人、最良の人、それを運営することの正味の影響が最良である場所を見つけることだと知っていたからです。それは再びサムであることが分かりました。しかし私がSoftmaxをやっているのは、大金を稼ぐ必要があるからではありません。

Softmaxをやっているのは、これが宇宙で最も興味深い問題だと思い、未来をより良くする機会だと思うからです。非常に深い方法で。人々はツールを構築します。素晴らしい。人々がツールを構築していることを嬉しく思います。ただ、それをする人が私である必要はありません。

違いを結晶化するために、出て行く前に。彼らはツールを構築し、ある種、操縦したいと思っています。あなたは存在をアライメントしたいと思っています。または、どう結晶化しますか。

私たちは、自分自身と他者を配慮するAIに成長できる種を作りたいと思っています。最初は、動物レベルの配慮で、人レベルの配慮ではありません。

人レベルの配慮に到達できるかさえ分かりません。しかし群れの他のメンバーと群れの人間を配慮するAI生物を持つことは、犬が他の犬や人間を配慮する方法で、人と同じくらい賢くなくても、ツールと同じくらい賢くなくても、非常に有用な非常に有用なものになるという信じられないほどの成果になるでしょう。

私のコンピュータで詐欺を監視するデジタルガードドッグを持つのが大好きです。配慮するデジタル生物の同伴者を持つことの価値を想像できます。すべてのことをするよう指示する必要がある明示的な目標指向ではないもの。実際にそれがツールと非常にうまく組み合わさることも想像できます。そのデジタル存在がデジタルツールを使用でき、それらのツールを効果的に使用するために超賢い必要はありません。

ツールの構築とより有機的な知能の構築の間には多くの相乗効果があると思います。だからそれが…究極的には人間レベルの知能になりますが、会社は人間レベルの知能に推進されていません。このアライメントがどう機能するかを学ぶことです。

心の理論のようなこと、配慮を通じて自分自身をアライメントするこのプロセスがどう機能するかを学ぶこと。それを使って、体内の細胞を含む、その方法で自分自身をアライメントするものを構築すること。小さく始めて、どこまで行けるか見ます。終わるのに良いメモだと思います。エメット、ポッドキャストに来てくれて本当にありがとう。お招きいただきありがとうございました。