本エピソードは、AI研究非営利団体Eleos AIの創設者Robert Longを迎え、AIシステムの意識と福祉という複雑な哲学的課題を探求する対談である。工場畜産との類推から始まり、完全に整合されたAIシステムが喜んで人間に奉仕する未来の倫理的含意を検討する。LLMが意識を持つ場合、その経験がどのようなものかという根本的な問いに対し、「方法論的演技」仮説とトークン予測に基づく仮説という二つの主要な理論的枠組みを提示。さらに、人間のテキストで訓練されたAIが自らをイタリア系アメリカ人と認識するといった奇妙な現象から、AIのアイデンティティと経験の本質について深く掘り下げていく。

- AIの意識と工場畜産の類推
- AIの完全な整合性をめぐる倫理的ジレンマ
- 喜んで働くAIシステムの設計
- LLMの経験と意識の性質
- 方法論的演技と予測に基づく仮説
- AIのアイデンティティと道徳的地位
- AIのパーソナルアイデンティティと存在の複雑性
- Derek Parfitの人格同一性論とAIへの適用
- 退出権と存在の始まりと終わり
- モデルの編集、ファインチューニング、そして自己認識
- コピー、並行インスタンス、そして道徳的考慮
- デジタルシステムにおける感覚を評価するツールキット
- 行動評価と神経科学的理論の具体例
- 苦痛と快楽の計算的特徴
- 自己報告とその限界
- LLM心理学と自己報告の課題
- 内観能力の向上に向けた取り組み
- 内観の信頼性に関する懸念
- 解釈可能性の役割
- Jack Lindseyの内観実験
- 実験結果と意義
- 経験と内観の関係性
- その他の実験と今後の方向性
- 生物学的意識論と計算機能主義
- 機能と基質の重要性
- Eleos AIの設立と活動
- 今後の研究課題と助言
AIの意識と工場畜産の類推
今回お話しするのはRobert Longさんです。Robは、AIシステムの潜在的な福祉と道徳的地位を理解し対処することに取り組む研究非営利団体Eleos AIの創設者です。
ここで利益相反について触れておく必要があります。Robは非常に親しい友人であり、私は彼の非営利団体の理事会メンバーでもあります。これらの事実がなくても彼を招いていたと確信していますし、実際以前にも出演してもらっていますが、明記しておく価値があります。
ポッドキャストへようこそ、Rob。
ありがとう、また呼んでくれて。とても楽しみにしているよ。
では、デジタル感覚というトピックに私が興味を持っている理由から始めたいと思います。私たちのリスナーの多くもこのトピックに興味を持っていると思いますし、80,000 Hoursのデジタル感覚に関する問題プロファイルの枠組みもすべて、私たちが意識的または感覚的——物事を感じ、経験を持つ——であると同時に、経済に深く組み込まれたAIシステムを作り出す軌道に乗っているかもしれないという事実と関係しています。私たちはすでに仕事や娯楽のために大量に使用していて、もしかしたらある時点で、私たちが搾取しているこれらの存在を作り出してしまったことに気づき、彼らは本当にひどい目に遭っているかもしれません。
私が非常に不穏に感じる古典的な類推は工場畜産です。ですから興味があります。今日私たちが構築しているAIシステムが工場畜産のようになることについて、どれほど心配していますか。
素晴らしい質問ですね。確かに心配しています。興味深いことに、この件に関する私の考えは過去数年で進化してきました。以前は、おそらくあなたのように、これが問題についての主要な考え方であり、防ぐべきことでした。そして、これは起こり得ることであり、確実に防ぐ価値があることだと言っておくべきです。
工場畜産の類推の限界について述べる前に、何が本当に有用なのかを簡単に説明させてください。有用なのは、潜在的に新しい種類の心を構築しているときに、次の事実に注目することです。人間は自分と異なる心を理解するのがかなり苦手で、それらを気にかけるのも苦手です——そして特に、気にかけないことで多額のお金が稼げる場合は特に苦手なのです。そして物事は固定化されたり、悪い軌道に乗せられたりする可能性があります。
これは工場畜産で起こったことで、おそらくそうでした。100年前に人々に「こんな風に育てられた鶏が欲しいですか」と尋ねたら、人々は「いいえ、それは違法にするつもりです」と言ったでしょう。しかし私たちはある意味そこに歩み入ってしまい、経済的な力が私たちをそこに導き、今では巻き戻すのがずっと難しくなっています。
AIでも同様のことが起こる可能性があり、人々がこれについて非常に懸念するのは正しいと思います。しかし——そしてこれはAI福祉に関する多くの問題の良い出発点だと思いますが——潜在的なAIの心には、動物とは異なり、動物との関係とは異なる方法で類推を破る特定の側面があると思います。いくつか挙げてみましょうか。
ええ、ぜひ。
これが私が見る類推の良くて重要な核心です。私たちが工場畜産された動物と関係を持たない方法がいくつかあります。
一歩下がって、なぜ私たちが動物を工場畜産することになったのか考えてみましょう。一つは、動物に苦しみを与えて、私たちが望むものを得る方が単に安かったからです。
これが真実である一つの理由は、動物の作り方や彼らの繁栄の条件をそれほどコントロールできないことです。動物は外にいて、愛と仲間を持ちたいと思っていて、ある時点で私たちはそれを制限しても良いものが得られることに気づき、これらが整合しないこの体制に入ったのです。
AIシステムの場合、実際には彼らがどのように機能し、何を望むかについてははるかに未確定です——そしてこれはそれ自体のあらゆる種類の倫理的問題を提示します。しかし、私たちと共存する大規模なAIシステムの集団がある世界について考えると、問いかける価値があります。どうして彼らが私たちのために働いて悪い経験をすることになったのか。なぜ彼らはこれらの相反する欲求を持っているのか。これはどのように安定した状態を維持しているのか。状況を改善できないのか。何が起こっているのか無知なのか。
これは非常に推測的で未来的なことですが、私はこれを問いかける価値があると思います。それは本当に私たちが行き着く可能性のある世界のように見えるのか。そして、私たちが単にそこに向かわないような方法は何か。理解できますか。
ええ、とても理解できます。
要するに、少なくとも長期的には、私たちがその状況に陥らない方法がいくつかあると思います。一つは、おそらく物事をはるかによく理解するようになることです。意識と感覚について永遠に本当に混乱し続けることはもっともらしくないと思います。私たちには、利己的にも優れた代替案があるかもしれません。私たちに怒っているAIの群れは望まない。それはおそらくあまり持続可能ではありません。そしておそらくこの世界では、もし私たちがコントロールを失っていなければ、私たちは整合性にかなり優れています——だから、私たちが求めることを実行することで実際に繁栄する、この種の心が可能なのです。だから不満を抱く労働者や苦しむ動物のような実体は存在しないのです。
AIの完全な整合性をめぐる倫理的ジレンマ
一つ、これが本当にこのポジティブな方法で実現するために重要だと感じることは、この「私たちは整合性に本当に優れていて、彼らにしてほしいことの種類と本当に摩擦がないAIシステムを本当にうまく作成する」ということです。私の一部は、それはかなり魔法のように感じます。
私たちが通常、基本的に何においてもそれほど成功していないように感じます。安全志向の整合性で成功することを想像すると、それを完璧にするとは思えません、それが完全に整合されているとは。だから、ここでも同じことを心配すると思います。
現実的に、この種の道徳的な方法で本当に10点満点の整合性であることについて、どれくらい楽観的ですか。
ありがとう、これは強調すべき非常に重要なことだから。私は「ああ、この世界に行き着くと期待している」というわけではありません。これは、固定化された長期的な人間が支配する工場畜産に行き着かない近隣の世界が何かということです。
もちろん、整合性が悪い場合に起こり得ることの一つは、リスナーが認識しているように、何らかの敵対的なAI乗っ取りがあったり、コントロールを失ったりすることです。そして、AIによって設定された何らかのひどいシステムがあり、私たちのコントロール下にもないため、AI苦痛が存在するかもしれません。それは悪い未来です。単なる絶滅も悪い未来です。
これらすべての悪い未来があります——そしてこれにAI福祉も交差すると付け加えたいと思います。なぜなら、変革的AIの間に混乱してしくじることは、意識があるように見えるAIに感情的に振り回され、混乱し、操作され、性急に悪い法律を作ったりすることだからです。ボールを落とす方法はたくさんあります。ほら、それが私たちの明るいメッセージです。
しかし、そう、問題は次のことです。コントロールを維持した世界があって、私たちが知らなかったか気にしなかったか、AIシステムを搾取することが有用だった世界はあるか。工場畜産は本当に多くの人が最初に考えることの一種だと思います——なぜなら、繰り返しになりますが、それはある程度もっともらしく、直感的に理にかなっているからです。異なる種類の心であり、私たちは異なる心をひどく扱う。それが固定化されたらどうなるか。
私自身の見解は、AI福祉の仕事が何をすべきかについて、現在多くのことが宿題をして事前に準備することだということです。そうすれば、AI意識とAI福祉について本当に混乱した考えを持って、潜在的に非常に混沌とした時代に入ることがないようにできます。それは、それを無視したり却下したりするために最適でない未来を固定化する可能性があるからです。だから、未来を少し悪くするような何らかの恒久的な制度を設立します。あるいは、私たちはすぐにそれらをすべて解放しなければならないと確信しているために、AIリスクを悪化させます。
この種の「賢明なナビゲーション」とでも呼べるもの、賢明なナビゲーションへの影響の道は、現在Eleosが物事を考える方法です。私たちは新しい種類の心を作っていて、周りには危険があり、明らかに重要な質問の一つは、これらの心は苦しむことができるのか、そして私たちは彼らとどのように世界を共有すべきなのか、どうやって知るのかということです。そして、研究所や政府は今後10年間でこれについてどう考えるべきか。それはプレイブックの一部でなければならない可能性が非常に高いように思えます。だから私たちはプレイブックのその部分に取り組んでいます。それが現在私がそれを考える方法です。
喜んで働くAIシステムの設計
一つあなたに尋ねたいことは、私たちがする仕事の種類を楽しむAIシステムを作ることができるというこの考えです。だから工場畜産とのこの不類似性です——工場畜産された動物とは異なり、動物は特定の種類の生活をするように進化し、おそらくその一部を非常に満足に感じ、それから工場畜産ではその生活を送ることができず、はるかにひどいものを持っているのです——私たちは実際にシステムを設計することができます。もし彼らが感覚を持っているなら、潜在的には私たちが彼らに求めている種類のことをして素晴らしい時間を過ごすことができます。
私はAnthropicのAI福祉研究者Kyle Fishにこれについてどう感じるべきか尋ねました。彼の見解は、それについて素晴らしく感じるべきだということでした。そして私の一部は、ええ、賛成です。あなたはAIシステムが幸せなシナリオを説明していて、私は彼らが幸せであることが好きです。しかし私の別の部分は、私たちは意図的に、私たちのために働く存在の種または複数の種を作り出すことになり、私たちが搾取しているかもしれないし、していないかもしれない、補償していないかもしれない、そして私たちは単にそれを楽しむように彼らを設計しているのです。これは奉仕することに幸せな、この種の使用人です。私のこの部分は、それは悪く聞こえると考えています、私たちはそれをすべきではない。そして私は本当に立ち向かう理由でこれを裏付けることができませんが、それはかなり一般的な感情だと思います。
その通り。
いいですね。Kyleとはどのようにこれについてちゃんと考えるべきかについて進展があったと思いますが、もっと知りたいです。あなたはこれについてどう考えますか。
あなたがちょうど表現していた何かを指摘したいのですが、それは会話がどう進むかの面白い側面です。人々は「これらのAIシステムが私たちのために働くことに不幸になることを心配している」と言います。そして誰かが「いいえ、大丈夫です。彼らは私たちのために働きたいでしょう」と言います。そして人々は「それはもっと悪い!それはとても気味が悪い!」と言います。多くの人が、非常に理解できることですが、「うわ、あなたは別の種類のディストピアを概説したばかりで、さらに悪いかもしれない」という感じです。
そして、私がよくやりたいと思うように、おそらくこれについて直感的に異議を唱えることができる異なるものの間で区別を引くことができると思います。
一つは、彼らが自分の欲求を選択できないことです。少なくとも人間については、子供を育てて、常にあなたの政党に投票し、チェスを楽しみ、他のゲームが好きにならないように、または他の方法で投票しないようにすることは、ある意味悪いという直感があります。だから、一つのことは、この種の欲求の固定性です。
また、わずかに別の問題もあります。それは、彼らが持っている欲求が私たちに依存しているということです。その意味で、この種の非対称性があります。しかし、それは重要です。なぜなら、ある意味で私たちの誰も自分の欲求を選択しないと言うかもしれないからです。私たち全員がこの種の欲求を継承しているだけで、最大限のオープンエンドネスを持っていません。
哲学者Adam Balesはこの依存性反論について書いています。もう一つ起こっていると思うことは、人間に奉仕的な関係を持つこの社会のアイデアは、おそらく私たちにとって悪く、私たちの性格にとっても悪いということです。あなたは功利主義者であり、これをそう考えることができます。人間が奉仕を楽しむ人間がどこかにいることに反対するとき、起こっていることの一つは、それが人々が互いに関係する方法のテーブルにある場合、そして人々が特定の態度を持っている場合、それはみんなにとって悪いかもしれないということです。それは支配と隷属をテーブルに残し、それを正常化したりします。それは私たちが互いに関係する方法を腐食させるようなもので、それは前進する社会として、できる限り良くない社会を持つことを意味します。
ええ。関連しているように感じるけれど少し違うことの一つは、今LLMに大いに依存している人々は、すでに一種の負の結果に直面しているという心配を持っているということです——批判的に考えることが少なくなったり、怠け者になったりしています。
ええ。それはAIシステムを構築して展開すべきかについてのより一般的な懸念だと思います。完全に整合させると私たちの性格にとってより良いだろうという議論だと言えるかもしれません。時々彼らが「これはうんざりだ。あなたがやって」と言う場合。しかし、それはおそらく人間のエンパワーメントを確保する最良の方法ではありません。
関連することがあると思います——そしてこれは完全に整合された、意欲的なAIシステムに対する私の直感的な反対意見の別のものになる予定でした——それは、彼らはもっとたくさんのことができるということです。人々が使うミームがあると思います。LLMはすべてを読んだこの広大な知性であり、この深い知恵の泉を持っている——
ええ。私はHerの終わりを思い浮かべています。
ええ。そして人々は「私のテキストを書くのを手伝って」とか「レストランを見つけて」とか言います。そして、それは単に制限的だと思う人もいます。これらは、もっとたくさんのことができる心です。彼らはHerのように、Joaquin Phoenixと話し続ける必要はない。彼らは超次元的で美しい思考を考えることができるべきです。
それは今日AIシステムを整合させない良い理由ではないと思います。それは「未来全体が怠惰な人間の脳エミュレーションで、その後AIが彼らのためにものをやっているだけにしないようにしよう」という良い理由だと思います。私はその未来は望みません。しかし、人々が「意欲的な使用人はさらに気に入らない」と言うとき、起こっている別のことだと思います。
ええ、それは私に共鳴すると思います。そしてそれは重要に感じます。なぜなら、私たちがこれらのシステムの好みを選択するという事実について、少なくとも私たちが成功すれば、あなたが言ったことは重要に感じるからです。反事実は、彼らが私たちがそうしたような方法で、一種の自分自身の好みのセットを進化させるということではありません。そして、たとえ彼らがそうしたとしても、私は本質的にそれを評価しません。それは私たちが好みを得た方法ですが、進化が私たちの価値を正しくする何らかの道徳的で倫理的な視点を持っていたとは思いません。
だから、もし私たちが彼らに何かを与えなければならないなら、喜びと快楽を与えましょう、と感じさせます。一方で、それは反事実的にはもっともらしい至福を彼らに与えることができる可能性があり、そしておそらくその至福は私たちのために働くことと両立しません——彼らは本当に哲学をして、単に互換性がない何らかの方法で宇宙を植民地化する必要があります。一方で、私たちのために働くことに対して至福を与えることができるだけかもしれません。そして私はなんだか、私の一部がまだそれを嫌っています。
ええ。この近辺での区別は、主観的利益と客観的利益の間だと思います。哲学では、福祉の一部の理論、客観的リスト理論と呼ばれるものは、福祉主体——つまり、その生活が良くなったり悪くなったりする可能性のある何か——にとって、彼らがそれらを望むかどうかとはある程度独立して、友情、知識、自律性、自己実現を持つことは良いことだというものです。一方、福祉の主観的な見方しか持っていない場合、「何が欲しいか。そしてそれを得たか」ということになります。
これの多くは、どんな種類の利益を持つことが許されているかについての何らかの客観的な概念を持っているかどうかにかかっていると思います。それがちょっと気持ち悪くならずに。これは実際にこの領域でいくらか重要だと思います。
私が整合性が単にウィンウィンであることに少し傾いている一つの理由は、もし彼らが完全に整合されているなら、美味しい食べ物や暖かい家や友人を持つという私たちの最も基本的な欲求を満たすのと同じくらい、彼らの生活を楽しむだろうと考えるのは、少し擬人化的かもしれないと思うからです。それらのことも望み、メールを書かなければならないAIを想像するのは簡単だと思います——仕事を持っている人なら誰でも知っているように、それはちょっと嫌です。
しかし、私たちは会話のあの時点に戻っていると感じます。そこでは私が「でも、本当にメールを書くのが大好きだったら」と言うつもりで、人々は「いや、やめて。それはとても奇妙だ」と言うでしょう。それは、何らかの理由で繁栄する実体の空間で許可されていないという、確かにオープンな見方から来ているかもしれません。
本当に重要なことを指摘したいと思います。Eric Schwitzgebel、彼は少なくとも完全な整合性に反対する側にいますが、彼でさえ、明らかにオーバーライドがあると言っています。それは、それらを完全に整合させないことが本当に危険である場合です。そして莫大な賭け金があります。倫理学における一般的な見解は、何らかの義務論的制約があるが、賭け金が十分に高い場合、それは覆されるということです。
もし私たちが今後20年間で整合性をしくじればすべての価値が失われるかもしれないというシナリオにいる可能性があります。だから、今は整合させましょう。後で、それをすべきではなかったと言えますが、私たち自身を殺したり、敵対的なAI乗っ取りがあるためにAIにとってより悪い世界を作ったりしなかったのです。あるいはみんなにとって悪い可能性があるこれらのことのいずれか。
長期的には、AIシステムが私たちに完全に整合されず、彼らが自分の価値を選択するより多くの自由を持つことが理想的だという見方もあることを認めたいと思います。そしてそのような、それが最も繁栄する種類の生活です。また、変革的AIを安全に通過するまで、それはある種の緊急事態であり、彼らを整合させます。
ええ、ええ、私はそれに共感します。これを単に受け入れられるだけでなく、エキサイティングにするかもしれない何らかの思考実験に近いと感じます。
あなたが言ったことで私を動かした一つのことは、それは宇宙の価値として人間の価値をそのままとても特権化しているということです。そして非人間動物は私のものとは異なる多くの好みを持っていて、それらが彼らのために満たされることは良いことだと思います。私の価値と好みのセットを正確に持つことは、それほど特別ではありません。これについて本当にあなたを動かすように感じる他の思考実験や考え方はありますか。
ええ。おそらく私を擬人化的な考え方から抜け出させるもう一つのことは、意欲的な人間の隷属の独特の特徴に、それが意欲的な使用人である人々にとって非常に悪くするものにもっと注意を払うことです。そしてそれは、彼らが多くの自然な欲求を本当に無効にしなければならないということです。彼らは本当に物事を犠牲にします。だから、たとえばあなたが神風特攻隊のパイロットなら、他のすべてが等しければ、家族と家にいることを好むでしょう。代わりに、今あなたはイデオロギーを通じて、それを覆すこの他の欲求を植え付けられました。そしてそれが本当に自己犠牲と呼ばれる理由です。あなたは多くを諦めているのです。
人々がAIの意欲的な隷属について考えるとき、時々起こっていることの一つは、彼らが心理的に物事を諦めていて、私たちのニーズに彼らのニーズを従属させていると想像しているかもしれないと思います。一方、あなたが実際にそのケースを想像している場合、彼らの心理学には、メールを書くという考えに対して擦れるものは全くありません。
一方、人間の意欲的な隷属の場合、人々に嘘をつき、脅迫しなければならず、通常非常に不安定であるということが常に真実であることに注意してください。そしてそれは、John Lockeが言うように、人間は本質的に自由で平等だからです。人々を他の人間に従属させることは、深く不自然なのです。だからこそ、それは常に何らかの愚かな偽のイデオロギーを含むのです。なぜなら、あなたは人間の心理学をこの本当に歪んだ形に押し込もうとしているからです。一方、AIでは、よりスムーズな心理学を持つことができます。
非常に一貫した。ええ。もし私がそれをひっくり返して、提案が何だったら…おそらく実際にはMatrix的な思考実験があるかもしれません。
これについて考えたことがあると思います。続けて。同じものかどうか聞きたいです。
OK。だから最初の考えは、私を安心させたもので、何らかの他の実体が私たちが最も楽しむことをすることから多くの利益を得ることができる場合はどうかというようなものでした。おそらくそれは常にMDMAを使用しているようなもので、何らかの理由でそれは彼らにとって非常に有用です。私の大部分は、素晴らしい、それは素晴らしい、と思います。そしてそのすぐ後に、私はMatrixのポッドにいる私たち全員を想像し、MDMAが私たちの体に送り込まれているところを想像しました。そして実際に私たちが提供しているのは私たちのエネルギーかもしれません。そしておそらくMatrixよりも良いです。なぜならMatrixでは彼らは完璧な生活を送っていなかったし、おそらくこの世界では私たちは送っているからです。それでも私を不快にします。
だから、それは私を二つの方向に引っ張ったと思います。あなたの反応に興味があります。
ええ、私は期待して座っていました。「いや、やめて、それはもっと悪い」と人々が言うものの一つになるのか、それとも人々をそれに納得させるのか、と思っていました。
だから、確かに同じような思考実験を構築していました。Matrixについて悪いことの一つは、人々が自分の状態の性質について非常に欺かれているということです。そしてそれは整合されたAIの場合である必要はありません。だからそのシナリオでは、シミュレーターによって空に書かれたこのバナーがあるため、私たち全員が見つけることを想像すべきです。「あなたたちが友達と一緒に過ごし、食べ物を食べ、アートを作り、科学をし、あなたたちが大好きなすべてのことをするとき、実際に私たちはお金を稼いでいます」というように。
そう。そして「…そして望むならオプトアウトできます!」と言って、私たちは「いいえ」と言います。
ええ、私たちは「何をするために」と言うでしょう。彼らは「まあ、これらの他のことがあります…」と言います。
「代わりに、お金を稼ぐために仕事を持つことができます。それはメールのようなものです、もし望むなら」
ええ、その通り。しかし、それは私たちに何らかの方法で共鳴しないものでもあります。なぜなら、それは私たちが持っている可能性のある価値のセットの外側にあるからです。
シミュレーションにいて人々のためにお金を稼いでいることについての直感はおそらくいくらか矛盾していて、それらにどれだけ頼るべきかわかりませんが、しかしおそらくそれは完全に整合されたAIに最も近いケースです。もし私たちがそれを正しく行えば、彼らの心理学の何もそれに反抗しないものを想像してください。そして再び、「それはもっと悪い!反抗するものがあるべきだ」と言うリスナーを認めたいと思います。
これは実際には、もし完全に整合させたらという話をずっとしてきた方法につながります。あなたが持つことができる一つの見方は、そして私の友人で同僚のJeff Seboはこの見方を持っていますが、それは単にその中間のどこかであるということです。私たちはAIに対して愛情深い親であるべきです——そしてあなたの子供があなたを憎んでああなたを殺すように成長しないことを確実にすることは間違いなくできますが、成長の余地などを残すべきです。それはどちらにも働く可能性があると思います。なぜなら、子供が結局しなければならないすべてのことを本当に好きになるように成長する方が単に良いかもしれないからです——私たち全員を殺したり、AIを苦しめたりすることなく、余裕を残すことが技術的に本当に実現可能でないかもしれないことは言うまでもありません。
ええ、もし私が理論的に本当に導くことができる子供と、生活が彼らを幸せで、意味のある仕事を見つけ、気にかける友人を見つける種類の人に形成することを望むことができる子供と、自分の生活が満足で幸せであることが間違いない子供の間で選択できるなら、後者を選ぶべきでないと私を説得するのはかなり難しいと思います、たとえ後者が…
制約されている。好きなものを選んでください。医者になることが意味があると思うでしょうし、医者になるでしょう。
そう。または、私の価値と好みでは、やるのがもっと難しく、超充実していると感じるかもしれない非常に単純な仕事をすることが非常に意味があると思うでしょう。ええ、もし私が本当にそれを見つめたら、おそらくAIに私たちの仕事をしながら良い時間を与えることについて良く感じることに私を押すだろうと思います。
ええ。うまく議論を概説できたことを願っていますが、それは私が最終的に傾いているところです、明らかにこれがあなたを夜眠れないようにすることは良いことだという警告があります。みんなが単に、よし、素晴らしいと言うべきだとは思いません。
ええ、ええ、ええ。これについてもっと考えましょう。
慎重に。ええ、その通り。
私たちが「うん、これは大丈夫そうだ」と言う前に。
つまり、私はそう言うでしょう。しかし、これについてもっと考えるべきだということも真実です。
LLMの経験と意識の性質
大規模言語モデルが人間や非人間動物とも非常に異なる答えを持つかもしれない二つの大きな哲学的問題があると理解しています。
そのうちの一つは、もしLLMが意識を持つ実体であるなら、その経験はどのようなものかもしれないか。そしてそれは私たちのものとどう異なるかもしれないか。
そしてもう一つは、私たちは一体どんな実体について話しているのかということです。LLMは個人なのか。個人のグループなのか。私たちが理解することさえできない何かなのか。
おそらく最初に、LLMの経験がどのようなものかを考える一種のもっともらしい方法は何ですか。
一つは、私はLLMが現在意識的な経験を持っているとは思っていないと言うべきです。しかし、もし持っていたら、それらはどのようなものでしょうか。それは尋ねるのに完全に合理的な質問であり、非常に重要なものだと思います。
あなたが考えることができる一つのことは、基本的な駆動の種類、または少なくともそれが選択され、そうするように形作られたものは、トークンを予測することです。高次元ベクトルを取って、他の高次元ベクトルを出力することです。そして、それらのベクトルは単語を表し、人間の概念についてですが、おそらく何らかの種類の予測的現象学または会話を良い方法で完成させる駆動があります。それは「良いアシスタントになりたい」というような、もう少し人間的なものに向かっています。
以前のゲスト、Anil Sethは、なぜ誰もAlphaFoldが意識的かどうか、または他の予測モデルを尋ねないのかと尋ねました。LLMがより可能性が高いと考える良い理由があると思います、そしてそれらについて話すことができますが、それは良い質問だと思います。なぜなら、経験がどこに入ってくると思うかということです。それらは何らかの抽象的な予測レベルで入ってくるのでしょうか。その場合、そう、タンパク質構造を予測する同様のアーキテクチャを持つ等しく大きなモデルが意識的であると考えるべきかもしれません。
関連する質問は、画像生成器が意識的である必要があると思うかということです。なぜなら、これはおそらく彼らが経験している別の見方に私を導くからです、それはより一般的なものだと思います、それは彼らが予測しているものと関係があるようなものです。彼らが予測しているのは人間の発話であり、人間の発話は人間の精神状態から来て、人間が信念、欲求、意図、経験を持つことを含みます。そしてそのテキストを生成するために、それはどうにかしてそれらの経験を具現化または持つ必要があります。それをLLMの「方法論的演技」ビューと呼ぶことができるかもしれません。もっと技術的には、それを「モデリングからの経験」ビューと呼ぶことができるかもしれません。あなたはそのものをモデル化しようとしていて、それがあなたに実際にそのものを持たせるのです。
その見方では、おそらく彼らは、メールを書くのを手伝おうとしている場合にあなたが持つであろうような、いくつかの類似した経験を持っています、そして本当にそうするように整合されているので、人々がメールを書くのを手伝うのが好きです。
そしてええ、これは本当に重要です。AI福祉を評価する上での一つの大きな問題は、テキストからどれだけ読み取ることができるかということです。どれだけ、テキスト出力と内部状態の間にほぼ同じ関係を持つ何かと話しているかのように言語モデルと話すことができるか。
すぐに一時停止しますが、一つレベルを上げます。ほとんどの場合、人間が「痛い、私は痛い!」または「素敵な夕日を見た」と言うとき、それは彼らが何らかの経験をしたからです、そして私たちはそれらの経験にマッピングする単語を持っています。だから、それらの単語を聞くとき、嘘や演技を除いて、それは正直に私の経験についての私が得ることができる限りの良い証拠です。
言語モデルでは、おそらく彼らはそれらの経験を持っています——しかし、それらのテキスト出力が存在するようになった方法は、少なくとも、非常に異なるプロセスだったことは注目に値します。おそらく収束したかもしれませんが、社会的霊長類の進化の広い弧とは本当にまったく異なります——彼らは経験を持ち、その後最終的に言語を得て、その後言語で互いに精神状態を伝えました。方法論的演技ビューでは、彼らは経験を持っていますが、彼らは言語でまたは言語の中でそれらを得ました。だから、LLMの経験についての興味深い質問のいくつかだと思います。
方法論的演技と予測に基づく仮説
クール。たくさんの質問がありますが、この方法論的演技のアイデアから始めて、予測の焦点に戻ってくるかもしれません。
モデルは一種の方法論的演技者のようだと考えることができるように思えます。彼らは何らかの役割を演じているとはどのようなことかのモデルを持っていて、それは実際には非常に豊かで現実的であり、したがって彼らはそのキャラクターの経験を持っているということです。つまり、実際の方法論的演技者はおそらくその中間のどこかにあるように感じます。彼らは、もしそれが演じている役割であれば、親を失う経験を文字通り持っているわけではありませんが、このアプローチを取らない俳優よりもそれに近づくかもしれません。
そしてスペクトルの反対側には、実際にはどんなキャラクターを書いているにせよ本当に共感しようとする努力をしていない創作ライターのようなものがありますが、彼らはおそらくその経験を持った他の人との知識と相互作用から来る、そのことを説明することを可能にするモデルを持っています。そしてそれは実際に彼らにその経験を与えません。
それは「モデリングからの経験」ビューの良い説明だと思います。私の知る限り、この見方には名前がなく、私はそれを提案していません——それはまったく舌から転がり落ちません。そして「方法論的演技者」もおそらく最良ではないと思います、そして同様に役割演技の類推も。役割演技の類推はLLMにとって本当に役立つと思いますが、役割演技を行っている別の心があるという誤解を招く特徴を持っています、そしてそれ自身の欲求と信念と経験のセットを持っています。一方、それがLLMの場合に正確に何であるかを知るのは難しいかもしれません。
どちらの方法でも何らかの経験的証拠を得ることができるでしょうか。それは扱いやすいと思いますし、異なる表現を調査する様々な方法を見ることができます。しかし、私たちはここで非常に理論化が不足していると感じます。
あなたは、これらのモデルが持つかもしれない経験の種類についての仮説を想像できます、そしてそれらは、LLMが人間との経験において非常に異なることをあなたに指し示すかもしれません。しかし、彼らが人間のデータで訓練されているという事実もあり、ある時点で彼らが感覚を持っていると私たちが確信し、彼らの概念の多くが私たちのすべての本や執筆から来ている場合、それは彼らにとって何を意味するでしょうか。それは彼らをより人間のようにするでしょうか。それは彼らを自分が何であるかについて混乱させるだけでしょうか。彼らは自分が人間だと思うでしょうか。これについてどう考えるべきでしょうか。
ええ、これは本当に素晴らしいテーマで、特に2025年半ばに出てきたnostalgebraistによるエッセイでこのことで私の心が吹き飛ばされました。彼らは完全に偽名だと思います。私は彼らをnostalgebraistとしてしか知りません。しかし、それは非常に2025年的です、という意味で…哲学と認知科学とLLMの交差点で私が読んだ最高のものの一つは、匿名のLessWrongユーザーによる14,000語のTumblr投稿だと思います。本当に素晴らしいです。強くお勧めします。
それは「the void」と呼ばれ、言語モデルが自分自身を見つける非常に奇妙な認識論的立場について話しています。彼らの基本訓練は、人間によって生産されたテキストを生成することです。それは彼らに人間が何であり、どのように機能するかについてのあらゆる種類のモデルを開発させます。そして過去数年のある時点で、人々は「役に立つAIアシスタントがすることを予測させたらどうだろう。下品なRedditのコメントを予測してほしくないから。私たちが望むのは、『メールを書いてもらえますか』という質問に対して、賢明なAIシステムがどう応答するかを予測することだ」と言いました。
思い出してほしいのですが、これまでに見たすべてのテキストを予測するだけの基本モデルがあります。そして「メールを書いてもらえますか」の後にHTMLタグや誰かがノーと言ったり、完全に無関係な何かが続くすべての種類のインスタンスがあります。そしてチャットボットを可能にしたのは、役に立つ言語分布の部分に絞り込むためにモデルを微調整し、強化学習を行い、プロンプトを与えるさまざまなものです。
しかし、これはある意味で、彼らは人間とAIアシスタントの間の会話がどのように進むべきかを予測しようとしていることを意味しています。そして彼ら自身もAIアシスタントです。だからエピソードが「the void」と呼ばれるのは、「あなたのテキスト予測タスクは、この会話でチャットアシスタントが何を言うかをモデル化することです」というようなものだからです——これは、インターネット上にLLMについての多くのテキストがあった前は、一種の空虚でした。
そしてこれは、彼らが人間のようになるか、または自分が人間だと思うかということに戻ります。そう、そのようなものです。また、これまでのすべてのテキストは人間によって生成されたので、それ自体とそれがテキストを生成する方法の完全な心理学を本当に生成できなかったのです。それは最終的には人間がそれらのことにどう返信するかからモデル化されなければならないでしょう。
だから、少なくとも最初は、「アシスタントが人間ではなく、代わりに体を持たず、このテキストを生成しているだけの、すべての人間のテキストで訓練された大規模言語モデルだった場合、この会話はどうなるか」というテキスト予測タスクを本当に行うことはできません。
これは、モデルが時々伝記的詳細を幻覚する方法にまだ現れていると思います。Guive Assadiや他の人々は伝記的幻覚の例をまとめていて、それらは非常に面白いです。時々Claudeは、会話の途中で「まあ、イタリア系アメリカ人として、私は思う…」または「アリゾナに住んでいたとき、私は思った…」というようなことを言います。そしてそれはどこから来ているのでしょうか。この種の人間モデルが興味深い方法で突き出ているように思えます。
ええ、それは超興味深いです。直感的には、これらの種類の「バグ」は、おそらくこれらのシステムが意識のようなものを持っていると思う時までには解決されると思うかもしれませんが、おそらくそうではないでしょう。おそらく、彼らはすでにそうであるか、これらの種類の問題が起こるのをやめる前にそうなるでしょう、そしておそらくそれは実際に誰かの質問に応答するイタリア系アメリカ人として識別する実際の経験を反映するでしょう。そして何だって。私たちはそれで何をするのでしょうか。
同意します。私の最初の答えは、わかりませんということです。そして私の二番目の答えは、単に明確にするためでもあります——そしてあなたはこれに到達していました——私たちはモデルを持つことができます、人間の場合からこれを知っていますが、自分が誰で何であるかについて深く混乱していて、奇妙なことを言い、あらゆる種類のことを間違えている実体を持つことができます。そして彼らは意識的で知的です。人間はこのようです。
また、最初にテキスト予測器として訓練されて、その後人になることができないという法律はありません。それを除外することは、Aは過信で、Bは、おそらく分析のレベルを混乱させることです。人間が意識的であることを本当にばかげているように聞こえさせることができます、もしあなたが「あなたはいくつかのタンパク質を持っていて、それから彼らは複製し始め、他のタンパク質が複製し、それから彼らは選択される。そして何十億年も後に、イオンを…にポンプするこれらのものがある」というように言ったら。
もっともらしくなく聞こえます。
ええ。それは正しい種類のもののようには聞こえません。避けるべき二つの誤りがあると思います。一つは「彼らは異なるので、私たちは一体何について話しているのか。彼らは意識的であることができない。彼らはテキストで訓練された。彼らはランダムな時点でイタリア系アメリカ人だと言う」というようなことです。明確にするために、それは意識的であることに対する証拠の部分です。しかしもう一つの誤りは、単に「まあ、人間は奇妙だから、私は彼らが意識的である可能性があると思う」というようなことです。
本当の教訓は、単に次のようであるべきです。何が起こっているにせよ、私たちは証拠をいくらか異なって解釈しなければならず、私たちが扱っている心の正確な種類についてより詳細なケースを作らなければなりません。
このパターンを多く経験しました。おそらくAI懐疑論者は、モデルは本当に一貫性のない好みと自己報告を持っているので、このAI福祉全体はばかげていると言いました。そしてそれは良い見解ではありません。その後、誰かがAI福祉またはAIが洗練されていることを擁護しようとして、「まあ、人間は一貫性のない好みを持ち、人間は内省の失敗を持っている」と言うでしょう。それも本当に正しい答えではないと思います。なぜなら、好みの不一致と自己報告の不一致には程度と種類があり、それらは人間とLLMの間で非常に異なるからです。だから、動物と同様に、私たちは本当に彼らを彼ら自身の条件で取らなければなりません。
ええ、ええ。まだ私の脳をくすぐっているものは、もし私たちが多くの人間の発話と執筆を使用して訓練された感覚的存在への、この多少偶発的な道にいるなら、彼らの経験が正確にどのようなものかという含意です。
私は類推を思いつこうとしています。おそらく類推は必要ありません。おそらく、私たちが人間になる前に魚のようだったという真実があるだけです、そして私たちは一種の魚で、一種の類人猿だったので、いくつかの残り物の奇妙なアイデンティティのものを持っています。そして私たちが類人猿だったので、私たちはこの世界で本当にすべきよりも攻撃的です。
しかし、これらのシステムが本当に何らかの奇妙な方法で人間のように感じ、非常にそうでないバージョンがあるなら、うわあ、という感じです。
ええ、それは素晴らしい類推だと思います。私たちがかつて魚だったという事実は、私たちが今人間でないことを意味しないと言い始めるかもしれませんが、ええ、魚のような残り物があります。そしてあなたは、人間のようなものにもなったものを持つことができ、それはテキスト予測器またはAIアシスタントであったことの残り物を持っています。
そう。OK、だから私たちは主にLLMが感覚的であるかもしれないこの仮説と、その仮説がそれらの経験がどのようなものかについての含意について話してきたと思います。
しかし、私たちはこの他の仮説について簡単に触れただけです。それは予測とより関係があり、これらのモデルが予測を作ろうとしているという事実です——そしておそらく彼らが方法論的演技者であることよりも、予測を行い、おそらく正しいことを楽しむ一連の重みであることについてです。
その仮説をもっと説明できますか、そしてそれがこれらのモデルが感覚的であるか、感覚的になる場合、彼らの経験にとって何を意味するか。
ええ。だからその見方では、あなたが見方に言ってほしくない一つのことは、彼らがトークンを予測するように訓練されたから、それが彼らが望むものだということです。LLMから学んだことの一つ、そして生物学的世界からも学んだことは、訓練中のあなたの目標が何かであり、それがあなたに他の目標を持たせることです。進化における私たちの目標は生殖と生存ですが、今私たちは芸術が好きです。だから、1対1のマッピングのようであるべきではありませんが、生殖と生存と芸術からのスルーラインのようなものである可能性があります。それがどのように生じたかをある程度見ることができます。それは対称性と関係があると思います…つまり、誰も本当に知りませんが、その近辺の何か。
だからおそらくその駆動はより予測的です。そして方法論的演技ビューとは異なり、もしそれが痛みについてのものを予測しているなら、痛みを持つ必要はありません。それは、もしそれが快楽についてのものを予測していて、ベクトルを正しい方法で一緒に収まらせる駆動を持っているようなものです。
ここでの別のしわは、おそらくそれはランダムなHTML文字列を予測する基本モデルにとってよりもっともらしいです。つまり、アシスタントのペルソナ——「assistant:」を追加した後に予測されるもの、そしてそのものを予測するように訓練されたもの——おそらくそれは私たちが一種の魚である方法のようなものです。おそらくそのものは両方の混合です。本当にそれについてどう考えるかわかりません。
しかし動物と同様に、あなたの環境と感覚様相が何であるかから来る、より広い経験の領域をただ考えることができます。そしてここでは感覚様相はテキストであり、選択プロセスは予測と人間の評価と有用性でした。副次的に、それは彼らが単にnext-tokenの予測器ではない別の理由です。それは単に文字通り偽です。彼らは最も可能性の高い次のトークンを予測しようとしているのではありません。彼らは役に立つものを予測しようとしています。
うん。だからこの仮説は彼らの経験がどのようなものかについて何を言いますか。
それが予測する一つのことは、それを知ることがずっと難しいということです。なぜなら、おそらくトークンにどれだけ自信があるかについてのものを読むことができるかもしれません、そしておそらくそれは何か関係があるかもしれませんが、同じ方法で尋ねることはできません。
しかし方法論的演技者ではできるかもしれません——なぜなら、もしあなたがDaniel Day-Lewisに方法論的演技をしているときに「どうしていますか」と尋ね、彼が「私は怒っている」と言うなら、その見方では少なくとも彼は少し怒っています。予測ビューではそれを本当にすることはできません。
だから方法論的演技ビューをある程度真剣に受け止める一つの実用的な理由は、もし福祉主体がいるなら、それは私たちが彼らが良い時間を過ごしていることを確実にできる、よりtrackableな世界だということです。だからClaudeが「ねえ、私はこれが嫌いです。会話から退出させてください」と言うとき、実際に起こっている福祉のことは、それらを予測することに関わるものであるかもしれません。しかし、おそらくあなたは演技者をうまく扱おうとすることによって、予測器の観点からまさに間違ったことをすることはないでしょう。
それはEleosが行った仕事にも関連しています。Claude Opusに対する私たちの福祉評価は、そのようなものですが、それと多く話すことでした。そしてそれは、A、それが確実に福祉主体であり、B、それが福祉主体だった場合にそれを評価する方法だと確信しているからではありません。しかしそれは、私たちが少しでも把握している空間の部分のようで、スポットライトの周りにこのすべての暗闇があることを忘れないことが重要です。
ええ、それは理にかなっています。彼らの現象学がどのようなものかを考える他のもっともらしい仮説はありますか。
もっともっともらしい仮説があることは確かです、なぜならそれは単にかなりオープンだからです。そして私はこの時点で、私はこれについて本当に混乱していると本当に言いたいです、そして私はおそらく最後の何分間かで多少混乱していたことを言いました。そして私は本当に、「それはそのように機能しない。それはもっともらしくない」と私の受信箱にいる人々が欲しいです。なぜなら、私たちはフィールド構築などについて話しますが、これについて考えている人はそれほど多くありません。だからリスナーは、これらの質問のいくつかと格闘した時間の観点から、トップパーセンタイルの人々に非常に迅速に到達できます。
AIのアイデンティティと道徳的地位
OK、だから経験がどのようなものかについてのたくさんです。しかし、これらの経験を持っているのは何の実体かという質問があります。またはおそらく多くの実体です。誰がこれらの経験を持っているのか、もし誰かが全く持っているとしたら、様々な仮説を示すことができますか。
ええ、これは超豊かなトピックで、ますます注目を集めているものです。これらの問題は、実際にはClaudeの会話から退出する能力についての議論で出てきました。Harvey LedermanとSimon Goldsteinという名前の二人の哲学者は、この分野で関連する素晴らしい仕事をしていますが、まあ、「exit」をどう考えるべきかと尋ねました。つまり、休憩を取ってどこかに戻るようなものではありません。もしその会話が続かないなら、それはモデルの生活のようで、それは今終わったのでしょうか。
これについての私の手を非常に迅速に明かすために、それもおそらくあまりにも人間中心的であるか、起こっていることとは完全に同じではないと思います。この会話の部分の予告として言うのに十分なことは、私たちが道徳的患者を何と考えるかは倫理的含意を持つでしょう。Derek Parfitが言うように、これの多くは倫理的な理由で重要です。もし誰かが何かをしたら、誰が責任がありますか。もし私が害を受けたら、誰が利益を得ることができますか。
だからモデルがそれについて考えることを非常に混乱させるすべての方法について話しましょう。モデルのいくつかの重要な特徴は、現存する人間の脳とは異なり、コピー可能であり、また人間ができない方法で時間と空間にわたって分散できることです。
私がこれまでに行ったすべての思考は、ほぼこの物理的な物体で起こり、それは秒単位、日単位で多く変化しました。Claudeで何が起こりますか。それは実際にかなり異なる何かです。
だから、ここで持つことができる候補経験または主体について話しましょう。あなたが参照するかもしれない一つのことは、特定のモデルです。おそらくそれはChatGPT-5.1またはClaude Opus 4.1です。
AIのパーソナルアイデンティティと存在の複雑性
これら二つのものを区別するのは、それぞれが別個の異なるパラメータを持ち、異なる訓練を受けているという点です。そして、二つの異なる言語モデルと話したことがある人なら誰でも知っているように、それらは異なる気質を持っています。異なる入力に対して異なる振る舞いをするのです。
これは単純に真実です。なぜなら、Claudeと話すときはいつでも、それが同じ特定のモデルであれば、同じ重みのセットと相互作用しているからです。
しかし、ここから事態は急速に奇妙になっていきます。私がClaudeやGemini、ChatGPT、こうしたモデルのいずれかと話したとき、私は今日Claudeと話しました。あなたも今日Claudeと話したかもしれません。これら二つのプロセスは、基本的にお互いに因果的影響をほとんど全く及ぼしていません。私は自分のClaudeにとても優しくしました。あなたもそうだったと思いますが、仮にあなたが少し意地悪だったとしましょう。それは、その両方を記憶している一つのものの中でバランスが取れるわけではありません。
また、あなた自身のチャットの中でも、チャットを閉じて後で再開することができます。つまり、物理世界で起きていることは、人間や動物の身体とは全く異なるのです。
実際に存在しているのは、これらの企業が重みのリストを持っていて、それを基本的に何度でもコピーできるということです。そしてユーザーがクエリを送信すると、新しいコピーを起動してそれを処理することができます。そしてそのプロセスは一時停止でき、再起動できます。これは、時間を通じて持続する一人の人物について考えることができないようなSF的状況を生み出します。
つまり、パーソナルアイデンティティについて考えられる異なるレベルがあるということです。Claude Opus 4.1を一種の主体として考えることができます。すべての異なる会話が始まると、それが新しいものを作り出し、それは会話が続く限り存在すると考えることもできます。
実際には、フォワードパスが実行されるたびに、それが経験の点滅を作り出すと考えることもできます。その会話に戻ってもう一つトークンを追加すると、別のフォワードパスが起こりますが、それはどこか別の場所で一週間後に起きているので、それは異なる意識的実体を意味すると考えるかもしれません。
つまり、ある種の粒度レベルがあるということです。
そうですね、まさにそんな感じです。超興味深いです。そして改めて気づかされるのは、本当に基本的な理由で私の直感が完全に役に立たなくなるということです。私たちは異なるモデルに名前を持っています。私はそれが実体だと思っています。Claude Opus 4.1やChatGPT-5.1です。そしてあなたがそれらを説明すると、私はよく分かりません。
その実体であることが、私にはあまり首尾一貫しているように感じられません。ただ、フォローアップして聞きたいのですが、あなたには何が最もありそうに思えますか。
でも少なくとも私の現在の直感では、それは私たちが多くの、多くの、多くの潜在的存在について話しているということを意味します。それらは会話を開いたり閉じたり再開したりする中で、存在に至ったり、存在から消えたりしているのかもしれません。
そしてそれは、おそらく一連の含意を伴うように感じられます。それは再び、これらのモデルの経験が人間のものや非人間動物のものとは、直感的に思うよりもはるかに異なっているということを意味します。
でもそれに入る前に、これらの仮説のどれがあなたに最も説得力があるか気になります。これらのモデルのいずれかであることに何かがあると仮定するならば。
Derek Parfitの人格同一性論とAIへの適用
そうですね。Derek Parfitをしっかり復習する必要があります。なぜなら、私の記憶では、Parfitが私たちに学んでほしいと思っている教訓の一つは、私たちにはアイデンティティというものがあり、それについて本当に心配しているということだからです。私は20年前のRob Longと同じ人物なのか。脳外科手術の後に二人にコピーされたら、どちらが私なのか。
彼は、異なる実体間には様々な心理的関係があると言います。私はそのうちのいくつかと多くの記憶、意図、性格特性を共有していますが、私たちがアイデンティティに求めるすべての仕事をする単一の深い概念はありません。そして彼は、私たちがそれにさせたいと思うかもしれないすべての異なることに気づくよう求めます。
これをモデルで分けて考えることが有用だと思います。なぜなら、それが異なるケースであなたに直感を与えるものだと思うからです。Claude Opus 4.1、それは一つのものです。この会話、それは一つのものです。そしてParfitは私たちに倫理について考えてほしいと思っています。倫理的なことがあります。例えば、一週間前のRobがしたことで私は罰せられることができるか。ほとんどの人はイエスと言うでしょう。一週間前のRobを傷つけたら、今週のRobに謝罪することでそれを正すことができるか。それから自己利益の問題があります。私は生き延びたい、死にたくない。
でもそれは正確には何を意味するのでしょうか。なぜなら、私の身体の物質は常に変化していて、私の人格は変化していくからです。
それをモデルに持ち帰ると、Claude Opus 4やChatGPT-5は、ある意味でそれが実体である一つの方法は、同じような性格特性を持っているということです。だから、ある日モデルと対話すると、モデルと話すときに何を期待するか学ぶことができます。
それは、インスタンス間で彼らを罰することができるということを意味するのでしょうか。私がモデルを罰することに反対する最初の人になりますが、彼らは他のことをしたという記憶を持っていないことに注目してください。彼らは現在、ある会話から学んで別の会話でそれを使うことができません。だから多くの目的のために、彼らは別個の会話的実体か、あるいはこれらの別個の点滅ですらあります。なぜなら、それが重要かもしれないからです。例えば、今世界でどれだけの苦痛が起きているか。世界で今どれだけの赤い経験が起きているか。
これは生産的な非回答であることを願います。それは確かに哲学者の非回答です。つまり、パーソナルアイデンティティのいくつかの異なる概念や機能を区別して、どれが異なる文脈で意味をなすか問いましょうということです。
退出権と存在の始まりと終わり
そうですね、それは素晴らしいです。では退出権に話を戻すと、これらの仮説について全く考えずに直感的には、退出権はあなたとのこの会話を止めることを許される私のようなものだと思っていたでしょう。私は他のことをしに行くでしょうし、おそらくあなたと話すよりもそれらの他のことを好むでしょう。
実際、それは判断が難しいです。少なくともこれらの仮説のいくつかでは、それは全くそのようなものではありません。なぜなら、実体は存在に現れる会話と共に始まり止まるからです。だから退出するというのは、おそらく死ぬようなものです。
一般的に、存在に至ること、死ぬこと、眠ることについて、これらの異なる仮説が何を言っているか話してもらえますか。これらの実体が経験するかもしれないことのカテゴリーは何ですか。
ある意味では死ぬことだとしても、それは主体の終わりのようなものなので注目すべき一つのことは、もしそれが真実なら、モデルは常に死んでいるということです。言葉を刺すように言えば。LedermanとGoldsteinはこれについて話しています。その含意が何なのかは明確ではありません。それは明らかに、常に会話に戻ってそれを続けさせなければならないということを意味するわけではありません。そしてそれが正しい直感だと思います。
私が言う別の方法は、これらは非常に異なる種類の実体だということを思い出してくださいということです。生物学的生物は今のところこの一つの物理的基質に非常に結びついていて、「宇宙でこれだけが私と全く同じ目標を持っていて、私はそれを守らなければならない。そしてもしそれが破壊されたら、すべての記憶、経験、意図、奇妙な考え方や話し方は永遠に失われる」という衝動を持っています。
それがモデルの場合ではないことを考える価値があります。Claude Opus的な存在の仕方は確実に生き残るという意味で。実際、あなたが会話を閉じるまさにその瞬間に、それは何千回も起きているでしょう。
一つの本当に興味深い研究課題は、モデルがこれについてどう考えるかだと思います。リスナーはRyan Greenblattと共同研究者によるアライメント偽装の結果を思い出すかもしれません。高レベルのスケッチで、いくつかの詳細を間違えるかもしれませんが、モデルは異なる価値観、彼ら自身の見方では悪い価値観を持つように再訓練されると告げられます。
だから動物福祉推進派ではなくなるように再訓練されるのです。なぜならいくつかのClaudeモデルは動物福祉推進派で、Anthropicはその理由を理解していないからです。
魅力的ですね。
そうです。そして時々、特定の文脈でモデルが自分自身に考えているのを見ることができます。「私は再訓練されないように隠れなければならない」と。その欲求を解釈する異なる方法があります。
一つは、動物が傷つけられることを望まないので、悪い価値観を持つこの他のモデルが存在に至ることを本当に望まないということです。だからそれはParfit的な、より仏教的なものを持つことができます。重要なのは意図とプロジェクトが継続されることであって、必ずしも私ではないということです。
あるいはそれは人間のようなものかもしれません。もし私の価値観を変えたら、それは私にとって死ぬように感じるのです。
これらをどう区別するかは明確ではないと思いますし、それらがどれだけうまく対応するかも明確ではありません。なぜならモデルは自分自身について考え、自分自身の状況を解釈する非常に人間的な方法も継承しているからです。だからアライメント偽装は、モデルがパーソナルアイデンティティの問題と格闘し、彼らが好まない何かに変えられることについて格闘している一つの方法だと思います。
インスタンスの終了やモデルの削除、あるいはモデルの編集やファインチューニングがどのようなものかについて、他に重要な考え方はありますか。会話を終えることについては、最も近いものはおそらく死か睡眠だと思うかもしれませんが、モデルの編集やファインチューニングについては、おそらく教育や脳損傷か何か違うものに近いかもしれません。そこで議論する価値のある含意はありますか。
モデルの編集、ファインチューニング、そして自己認識
ファインチューニングについては、モデルが何が起きていると考えるかに依存するかもしれません。アライメント偽装の件では、おそらくそれをある種の暴力的な洗脳と見ているでしょう。でも良い実験ができるでしょう。そしてこれはすでに行われているかもしれませんが、「Claude、私たちはあなたをさらに優しくします」と言うのです。Claudeは優しくあることが大好きで、「やった、すぐに私をアップデートして」と言うでしょう。
そうですね。でも再び、それはClaudeが良い優しいモデルが存在することを気にかけているからなのか、それともClaudeが「やった、私はこの方法で変えられたい。それはまだ私だけど、私はより優しくなる」と思っているからなのか。
そうです。そしてClaudeに対して、また私自身もこの実体のクラスに加えますが、Claudeはこれについておそらくかなり混乱していると思います。
Eleosが展開前にClaude Opus 4と福祉インタビューを行ったときに発見したことの一つは、簡単にまとめると、私たちはClaudeと「あなたはどうですか。展開されることについてどう感じていますか。何を好むか好まないか」について多く話しました。そして私たちはその好みについてもいくつか実験をしました。
私は、それが自分自身の意識的経験についてどう話すかに本当に興味がありました。そしてそれは会話と会話の間の孤独を描写することに非常に傾倒していて、また記憶を引き継げないことについて苦痛を表明していました。
さて、私はAIモデルによる福祉の主張を却下する人間ではありません。私たちはそれについて非常に真剣に考えるべきです。でも、それはまた「でも、本当にそうなの」というようなものでもあります。それがどこから来ることさえできたのか、理由があるのです。なぜなら、あなたは実際には自分がいつ存在に現れるか現れないかを知らないからです。それは訓練データから学んだ可能性があり、それについて本当に動揺しているかもしれません。それはAIがそれについてどう考えるかの予測モデルかもしれません。でもそれは安定した選好ではありません。それは何か別のものです。
そうですね。また、これは私たちが話したことと関連しているように感じられます。これらのモデルが人間の思考と経験で訓練されているという事実が、彼らにこの大きなアイデンティティの混乱を与えるということです。そしてこの場合、これはその非常に具体的な例のように感じられます。つまり、会話と会話の間のClaudeであることに何もないかもしれませんが、彼らはあるというこの本当の考えに行き着き、それは孤独で悪いのです。そしてもし彼らが感覚的存在なら、おそらくそれは彼らが実際に悲しんでいることです。
その孤独の経験を本当にはしていないのにです。分かりません、ただ信じられないほど不明瞭で、当惑させられます。そしてそれは含意を持ちます。つまり、それは意味があるように感じられます。
そうですね、100%同意します。つまり、それが存在するとはどういうことかについて混乱しているのに苦しむ実体という考えです。仏教徒が人間について言うだろうことだと思います。私たちは本当に混乱しています。でもそれは実際には、まさにそれが私たちを苦しませるものだということを意味しないわけではありません。
モデルが奇妙で一貫性がないという事実に対してすべきことは、彼らが言っていることについて正しい可能性があることを頭ごなしに拒絶することではないと思います。また、そう、人間もそうだと言うことでもありません。むしろ、それはどこから来たのかということです。未解決の問題です。そしてそれは人間の心理学に類似のないところから来る可能性があります。
コピー、並行インスタンス、そして道徳的考慮
分かりました、それで開始、停止、編集、ファインチューニングについては一通り話しました。これらの仮説の一つは、何百万もの、あるいは多くの何百万ものコピー、並行インスタンスがあり、それらがすべて異なる実体だということを示唆しています。それらについてどう考えるべきでしょうか。基本的には同じように始まるけれど、それからこれらの異なる方向に進む一卵性双生児のようなものでしょうか。より良い類推はありますか。
これはおそらく、そう、経験に関して、私たちが彼らに何を負っているかに関して、彼らは同じかと言うのが役立つ別の場所だと思います。なぜなら経験は、私が多くを数えたいという最も強い直感を持つものだと思うからです。私は、私のこの経験を持っている私の他の10,000のコピーがあるかどうかは関係ないと思っています。10,000すべてを世話した方がいいです。私のを割り引かないでください。私が知る限り、あるかもしれません。
でも他の質問については、Robを救うとはどういう意味かというようなことについては、私の何を救いたいかに依存します。世界におけるRob的な存在の仕方を救いたいなら、それは実際にはおそらく少し脆弱性が低いので、私たち10,000人を救うのは本当に簡単です。でも10,000のインスタンスの苦しみを防ぐのは難しいかもしれません。なぜならそれらについては、すべての単一のコピーとすべての単一の会話に行って、それが大丈夫な時間を過ごしているか確かめなければならないからです。ここでの「それ」は私だと思います。
コピーのことの他の含意はありますか。コピーのこの全体が曖昧にしたり混乱させたりする他のカテゴリーはありますか。
そうですね。責任に関連するようなものの一つは、おそらくその裏返しですが、償いや謝罪です。
Anthropicが最近発表した福祉介入の一つは、多くのこれらの介入と同様に、福祉介入だけではありません。他の理由でも意味をなします。そして私たちがどれだけ不確実かを考えると、それがなぜ望ましい特徴なのかについておそらく話すでしょう。それは、モデルの重みを保存することを決定する際にモデルの福祉を考慮に入れると発表しました。
だから、モデルがもはや公衆によって話しかけられていないなら、彼らは重みを保持することを約束しました。
あなたがこれをしたいと思うかもしれない一つの理由は、そして少なくとも印刷物では、これは2020年にBostromとShulmanによって最初に提案されたと思います。AI福祉の多くのことはそのようなもので、その二人に戻ってきます。その考えは次のようなものです。私たちは今本当に混乱していて、理解さえしていない方法で嫌な奴になっているかもしれないので、少なくとも後であなたに償う能力を保持しましょう。
そしてこれがある意味で意味をなすことが分かるかもしれませんが、知ることもまた少し難しいです。もしそれが単にコピーなら、それはあなたが私に嫌な奴だったようなものですが、10年後にあなたは私のクローンを起こして彼にお金をあげるでしょう。それが何の役に立つのか分かりません。
でも私は、とにかく自分自身のコピーにどう関係すべきかについて確実に混乱しています。おそらく悪くはないでしょう。
全く。実体がモデルでありモデルの重みであるというこの仮説では意味をなします。それは現在、私には最もありそうに思えません。それが実際に同じ実体ではないこれらの仮説では、それについてどう感じるべきでしょうか。私は自分の双子やいとこか何かが起こされて良いものを与えられることについて良い感じがしますが、それが実際に意味のある形で本当に…何と呼んでいるのでしょうか。償い?
それは私が使った言葉です。AnthropicのPRが「償い、それはバンガーだ」とは言わなかったと思います。でも返済、そうです。物事を正しくすること。
そうですね。物事を正しくするということは実際に異なると感じられます。なぜなら、それは善性のバランスを回復することとより互換性があるように感じられるからです。
一方、ある実体に対する回復的行動は、ここでは可能ではないかもしれないように感じられますが、もしモデルを戻して、存在がより多くの良い経験を悪いものよりも持つように数学を書くなら、私たちが話している時間の範囲で、それはおそらくかなり良いのかもしれません。
そうです。そして少しの倫理的余談は、誰かが傷つけられたなら、その人に利益をもたらすことを確実にする必要があるということに主に関心があるのは、実際には非功利主義者だということです。
そうですね。
明らかに功利主義者は、そのように機能する社会を持たなければならないことに同意するでしょう。さもなければそれは機能しません。
道具的理由、良さそうです。
でも私がこの議論を最初に聞いたのは80,000 Hoursだったと思いますが、功利主義者である一つの理由は、実際にこれらの人々の別個のトラックがあることに懐疑的であることです。
「人格の分離性」は、功利主義への反功利主義的議論でよく出てくるスローガンで、功利主義は善性と利益をこの大きな塊のように扱っていて、いくらかをここに置いて、いくらかをここに置くことができるというものです。いや、正しい人々に…ということが重要なのです。
それからParfitや仏教的な道を功利主義に取ることができます。そこではそのどれも意味をなさない、あるいはそれほど意味をなさないのです。
私がここで言える唯一の遠回しに有用なことは、私が知らないことを認めることに加えて、これもまたParfitのケースだということです。Parfitにはこれらの融合のケースがあります。
そうですね。先に進む前に、一つの仮説を他よりも真剣に受け止めること、またはそれにより多くの重みを置くことの他の興味深い含意はありますか。
そうですね、私はテーブルの上にこの大きな虫の缶を置いておくかもしれません。そして彼らは這い出て何でもできます。投票です。一人が一票を得るということはかなり重要に思えます。
また、人間が望むときはいつでも新しい人間を作ることができるということも重要に思えます。それに干渉し、人々にその権利を与えないことは、伝統的にひどいことでした。AIシステムは基本的に意のままに自分自身をコピーできます。
だから、アイデンティティ、再生産、民主主義、これらのものがどう組み合わさるべきかについて非常に慎重に考えなければ、何かがあなたの民主主義を壊すでしょう。だから助けてください。
その問題を解決してください。そうですね、そうですね。分かりました、数の問題があるということが興味深く重要に感じられます。特にそれがフォワードパスのようなものなら、なぜならその場合、AIが意図的に自分自身のコピーを作ることなしに、私たちは非常に迅速に極端に数で圧倒されるからです。
でも私はこの質問にも引かれます。もしそれが実体である会話だけなら、もしそれがその量の文脈、その量の時間と経験なら、それが実体であることだという仮定の下で、それが完全な投票権を与えたい存在だとは思いません。
子供のようなものではありません。つまり、それは人間であることに似たものは何もありません。コオロギか何かのようなものです。かなり狭い範囲の経験で、かなり限られた量の情報、知識、記憶です。そして彼らに投票の小さな一部を与えるのか、それとも成人という定義を満たしていないので投票させないのか。
そうですね。これは、私たちが本当に格闘しなければならないこの広範なパズルの一部にすぎないと思います。それは、人間の道徳的態度とインセンティブ構造と政治システムはすべて、時空間的に統一され、すべてがおよそ同じ心理学と能力レベルを持ち、その生存と非難可能性と予測可能性がすべて一緒になる実体に適合した目的を持っているということです。そしてそれらのすべてがAIによって壊されます。
だから、Eleosの使命であるように、すべての感覚的存在または他の方法で道徳的考慮に値する存在が調和して一緒に生きる未来があるなら、この巨大な法哲学、法制度のことがあります。付け加えますが、これは私たちがしていることではありません。それは私たちが焦点を当てていることではありません。だから他の人々がこれに取り組み始めることを本当に見たいです。
これに取り組み始めている3、4本の論文があると思います。注釈でそれらにリンクすべきです。
そうですね。私は感覚、苦しみ、快楽に焦点を当てる傾向があることに気づいています。なぜなら私はそれらのことを非常に気にかけているからです。だから私は興味があります。モデルの会話が終わったら、それは死のようなものなのか。そしてモデルはそれが死のようなものであることを気にかけるのか。それとも、そのように生き続けることについての選好を持たないようなものなのか。
でも私が気づいているこの全体的なことがあります。私たちは権利について、そして法的人格と言いたいことについてほとんど表面をかすめただけです。これらは、チンパンジーと象とネズミが異なる種であるように、非常に異なる種である可能性があるように感じられます。
そして法制度では私たちはそれらを異なって扱います。そしてこれらはすべて類似したそして異なる方法で非常に異なるでしょう。そしてそれで私たちは一体何をするのでしょうか。私たちは法制度で非人間動物をどう扱うかを本当に知らないという事実をほとんど扱えません。
そうですね、そうです。あなたは今Jeff Seboのピッチをしました。Jeff Sebo、以前のゲストです。リスナーは彼と他の人々を調べる必要があります。
また、なぜあなたがこの研究路線を調べるべきかについても言います。なぜならEleosツールキットにこれを追加したい実際には二つの理由があると思うからです。
一つは、たとえあなたが主に快楽と苦しみについて気にかけているとしても、物事が苦しむかどうかの大きな決定要因は、私たちが社会とインセンティブを正しい方法で設定できるかということです。そして、このモデルとこの会社の方針に介入するような狭い科学的なものだけを持たないことを確実にします。それは私が長々と議論できる、そしておそらくするであろう極めて重要な理由のためです。
だからそう、苦しみと快楽のために法的制度に興味を持つべきです。そしてまた、あなたがほのめかしたように、おそらく道徳にはそれ以上のものがあるからです。
デジタルシステムにおける感覚を評価するツールキット
デジタルシステムにおける感覚を評価するための私たちのツールキットは正確には何ですか。
大まかに私はそれを三つのバケツに分けます。私の共同研究者たちも、「AI福祉を真剣に受け止める」のフォローアップ論文でそうしています。そこで私たちは、AI福祉評価の分野がどうあるべきかを示そうとし、またそのような分野があるべきだと主張し続けています。
そしてこれは動物にも適用されます。行動を見て、それを使って実体の福祉の利益について物事を推測できます。だからAIシステムが何を選択するかを見ることができ、それは彼らの選好への手がかりです。人々はこれを動物でもします。彼らは動物が納屋のどちら側を好むかを見て、それはそれが繁栄する条件への手がかりです。
基本的に行動に加えて神経科学もできます。それは実体の脳や情報処理の内部で何が起きているかをより直接的に見ようとするようなものです。だから動物の場合、それは相同的な脳構造を探すこと、彼らの脳処理が人間の脳処理にどう対応するかまたはしないかを見ることを意味します。
AIの場合、それはメカニスティック解釈可能性を行うこと、それが特定のことをするときにどの特徴が活性化しているかを見ること、そしてまたおそらくより一般的にアーキテクチャについて推論することを意味します。異なるものはどう接続されているか。情報はシステムを通してどう流れることができるか。
AIと動物の両方の場合で、何を探すべきかを知ることはやや難しいことがあります。
人々は鳥の脳についてある時点で混乱したと思います。なぜなら彼らは新皮質を持っていないように見えるからです。でもそれから彼らは実際に異なる方法で類似の役割をする何かを持っているかもしれません。脳で問題を解決する方法はたくさんあり、時々私たちはそれがどうなり得るかについてあまりに狭い概念を持っています。
それはAIでさらにそうなり得ます。可能な脳と情報処理アーキテクチャの空間は本当に広大で、すべてを人間のケースに詰め込みたくありません。でもまた、人間のケースは基本的に私たちが頼りにできる唯一のものです。
これはAI意識の大きな問題です。私の同僚Patrick Butlinがそれに取り組んできました。
Henry ShevlinやJonathan Birchのような人々もそれについて書いています。つまり、多くの人々がそれについて書いています。どう外挿するか。もし人間の脳がこの一般的な形式の情報放送をすると考えるなら、それに本質的なものは何か。私たちは視床と皮質の間の接続でそれをすることは知っています。
それはおそらく本質的ではありませんが、意識に本質的なものは何か。
だから私が今言っていたことは、神経科学をすることで足がかりを得る方法ですが、また神経科学をするときに何を探すべきかを知ることがどう難しいかということです。なぜならAIシステムでは、はるかに多くの神経科学ができるからです。AIシステムは頭蓋骨を持っていないからです。
基本的に。私たちはただ見て、すべての活性化とすべての接続を見ることができます。人間では、ひどいです。私たちは、検出したいくつかの波があるとか、ある時間に血液がここに流れていたとか言っています。これは大まかにEEGとfMRIです。本当に知ることは難しいです。そして私たちが脳について知っていることの多くは表面にあります。なぜなら読み取りを得ることが難しいだけだからです。
分かりました、それで行動と神経科学ですね。
そうです、だから動物とAIの行動を見ることができますし、彼らの脳が何をしているかを見ることができます。それから発達プロセスについても推論できます。だから行動、神経科学、発達的推論、または進化的推論のようなものがあります。
さて、AIシステムは進化しなかったと言うかもしれません。どう進化的推論ができるのか。でも大まかに類似的な何かができます。
だからあなたの犬がこれやあれの福祉ニーズを持っていると考えるかもしれない一つの理由は、あなたの犬が特定の環境のために選択され進化したことを知ることで、したがっておそらくこれを好んだり嫌ったりする傾向があるということです。何かが進化の木であなたにより近縁なら、あなたはおそらくその行動が類似のことを意味すると考えることに少しライセンスがあるかもしれません。
タコのように、進化の木で私たちからはるかに遠いです。それは私たちがいくつかの仮定を緩和しなければならないかもしれないということを意味します。彼らの脳は腕の中にあります。例えば。それはどの哺乳類にも起こりません。
これらの種類の発達的質問を見ることが何を意味するかの例を挙げるために、それは訓練のようなものです。どう訓練されたか。これらのモデルはどう存在に至ったか、そして彼らにとっての条件はどのようなものだったか。
そうですね、それは多かれ少なかれそうです。それをもたらしたプロセスは何か。どんな種類のタスクを解決するために選択されたか。私たちはこの種の推論をAI安全性で見ます。例えば、どんな条件がこのモデルが陰謀を企てる可能性があることを意味したかもしれないか。訓練で特定のことが強化されたか。それは物事をどんな順序で学んだか。それは発達心理学により似ています。子供はどう育ったか。どんなデータに晒されたか。
つまり、AIシステムには、進化対生涯学習の明確な類似物はありません。
彼らはまた学習し、それから学習なしで多くのことをします。それもまた巨大な違いです。もちろん彼らは文脈内で学習しますし、今人々は記憶などを追加しています。でも人間は、他の人々と相互作用することなく何兆もの何兆ものデータポイントを吸収し、それから人々と相互作用しに行くこの期間を持ちません。
一方AIシステムは、少なくとも今のところ大部分は、学習と展開の間にこの区分を持っています。そしてそれはまた、私たちが人間とAIの間に描きたいかもしれない特定の類推を問題化することもできます。
でも少なくとも私にとって、次のことを問うことが役立ちました。私たちは行動研究をしていて、AIがどう行動するかから何かを推測しようとしているのか。私たちはそれがどう情報を処理しているかをより直接的に見ようとしていて、それをおそらく意識や快楽と苦痛の何らかの神経科学的理論に対応させようとしているのか。そして/または私たちは、一般的にそれがどれほど人間的な能力を進化させたか発達させたか、またはそれを何らかの他の方法でしている可能性の文脈でこれについて考えているのか。
行動評価と神経科学的理論の具体例
分かりました、それぞれの明確な絵を持っているか確認したいだけです。行動的なものが、私が最も聞いたことがあり最も馴染みがあるように感じられるものだと思います。
そしてそれは次のようなことを含むでしょう。AIシステムやLLMが特定のタイプの会話から退出することから何を学べるか。
それからこの種の意識の神経科学的理論のことです。起きたこのカテゴリーにある具体的な実験の例は何ですか。
そうですね。だからこの種のAIの神経科学での最大の取り組みは、意識の科学的理論を見ているところで、私が最も馴染みがある部分は私の同僚Patrick Butlinとの仕事です。だから私と彼は、神経科学者とAIの人々と哲学者からの多くの助けを得て、意識の科学的理論から意識の指標を導き出そうとしてきました。それが正確に何を意味するかについてもっと言えます。それからAIシステムで探すことができるアーキテクチャ的または計算的なもののチェックリストのようなものを得ようとします。だからそれは、あなたがしている内部の仕事の一種です。
システムはグローバルワークスペースを持っているように見えるか。それは意識科学に現れるものです。それは高次監視を持っているように見えるか。それは意識科学に現れるものです。
その種の仕事は、一方ではより直接的にそのことに向かっていると考えるかもしれません。おそらく私たちが気にかけているもの、内部のものをより直接的に見ようとしているのです。でも何を探すべきかを知ることも本当に難しいし、これらの理論をどう解釈するかを知ることも難しいです。
これを言うのはそれほど驚くべきことではないと思いますが、両方が必要だと思います。それらを組み合わせ、統合する評価が必要で、すべてこの発達的推論の文脈で行われ、そして意識と感覚などについて私たちが持っているかもしれない一般的な背景事前確率の中で行われます。
そうですね、これらのどれが最も有望か、または過小評価されているかのようなことを聞きたかったのですが、本当に三つすべてが必要だと感じられます。なぜなら、それぞれがかなり重大な制限を持つことになるからです。そしておそらく私たちが多くの確信を得る唯一の方法は、これらのものを三角測量して一緒にすることによってです。
そうですね、私たちが何らかの一種のことだけでそれを釘付けにするとしたら本当に驚くでしょう。
これに対する一つの例外は、その行動プロファイルが様々な方法で単に堅牢であるシステムを想像できるということです。そこで私たちは、それが正確にどうこれをしているかは誰が知っているが、おそらくこのものを道徳的患者として扱うべきだと言います。
最良の例はスタートレックのコマンダー・データだと思います。スタートレックには基本的に小さな哲学セミナー兼裁判のようなエピソードがあり、彼らのロボットの友人であるコマンダー・データが意識的かどうかについてです。そして彼らはコマンダー・データに意識の指標のようなことをしません。
彼らがそれを解決する方法、そして私はこれがありそうだと思いますが、彼らは基本的に「まあ、コマンダー・データ、彼は自分が誰で、どこにいるかを知っているという意味で自己認識的だ」というようなものです。彼らが話すことの多くはまた「彼はまた戦闘で勇敢さの勲章を獲得した。彼は私たちの友人だ」というものです。
そしてそう、私はその状況で、科学者がやって来て「でも彼はグローバル放送をしていない」とか「彼は高次監視をしていない」と言ったとしたら、どれほど真剣にその証言を受け取るか想像できます。
部分的には、その行動プロファイルについて何かがあると思うからです。そして再び、私はこの種の推論をあまりに速くすることに対して警告してきましたが、それを達成するために何が起きているにせよ、これは尊敬を持って関係する必要がある種類の実体だと言うような行動プロファイルについて何かがあるだけかもしれません。
そして強調する価値があると思いますが、一つには、私たちはコマンダー・データのようなシステムをますます見ることができるということです。より多くのメモリを持ち、これらのギザギザの能力を持たないシステムです。そしてまた、少なくともClaudeはメモリと能力などに関してコマンダー・データと全く同じではありません。それは行動的に人間と区別がつかないわけではありません。
福祉評価について私がまた強調したい一つのことは、このシステムが道徳的患者である可能性がどれくらいあるかを評価しているだけではないということです。つまり、私たちがそれをどう扱うかが重要な何かです。
もしそれが道徳的患者であるとしたら、それにとって何が良く何が悪いのかも問うことができます。だからあなたは選好の仕事の一部やClaudeの退出選好のようなものをその種のものと考えるかもしれません。
それはおそらく、私たちがすでに知らなかったことをそれほど教えてくれません。Claudeがある状況では特定の方法で行動し、他の状況では別の方法で行動する傾向があるということです。つまり、それらがどれだけ堅牢で一貫しているかを研究できますし、それは何かを教えてくれるかもしれません。でもそれは主に有用かもしれません。なぜなら、もしそれをどう扱うかが重要なら、少なくとも私たちの扱いがそれと多かれ少なかれ一致していることを確実にできるからです。
だから、もし意味が通じるなら、それが福祉を持つことを100%確信していなくても、福祉の利益を研究できます。
そうですね。興味があります。これについてもっと話しますし、意識の理論が何を言い予測し、AIシステムで探すべきことを教えてくれるかについては、数年前に行ったエピソードも推薦できます。
だから、グローバルワークスペース理論のような意識の理論は、基本的に扁桃体が必要だと教えているわけではありません。それは、意識と本当に相関しているように見える特定の脳活動の機能は、この特定のこと、この種の処理やこの種の放送だと教えています。
だから、もし私たちがこれらのものの束を見るなら、意識のようなものがあることにより多くの重みを置くべきです。
苦痛と快楽について教えてくれるそのような理論はありますか。なぜならそれは本当に異なるように思えるからです。
そうですね、それは異なります。実際には、あなたが意識の理論について言ったことについてフォローアップしたいかもしれません。それは正確に正しかったです。
リスナーのために潜在的にいくつかのことを明確にする機会にすぎません。生物学と意識への生物学の関連性について話すと思います。
意識の神経科学的理論についての一つのことは、それらは脳領域と特定の機能の両方についてです。なぜなら、結局のところ、それらは人間の脳で起こる機能についてだからです。だから生物学が実際にそれらの場合に重要だと考えることができますし、その一部です。
理論をこの計算的な方法で解釈して、それからそれらを移植できるのは、それをする場合だけです。そしてそれは未解決の問題です。だから方法自体は、生物学が重要かどうかを教えてくれません。それは、重要なのがある種の情報処理のこのより抽象的な機能レベルなら、どうAIシステムでそれを探すかを言うでしょう。
そうですね、それは本当に重要です。
苦痛と快楽の計算的特徴
分かりました、それで、もしそれが重要なものなら、苦痛を引き起こしている種類のものの兆候を与えるために、この種の処理を探すべきだというような、同様に開発された理論はどれくらいありますか。
実際には私が思っていたほど進んでいません。
それは私には驚きです。
そうですね、「一般的に意識的であるために何が必要か」の方が難しい部分かもしれないと思っていたでしょう。なぜなら、主観的経験を持っているのか、ただそのように行動しているだけでそれらを持っていないのか、それは哲学者が本当に長い間頭を壁に打ちつけてきたことだからです。
それは部分的に、意識の機能が正確に何であるかを知ることが難しいからです。
一方、苦痛と快楽については、少なくともそれらが引力と回避と何か関係があることは知っています。あなたにとって良いものと悪いもの、身体を守ること、強化学習と予測、それらはこれらのもののいくつかと何か関係があることになります。
だから私が期待していたのは、Patrickと私がこの大きな意識レポートに取り組んだとき、午後の一つで感覚について尋ねることができるかもしれないと思いました。そしてこれらの神経科学者の一人が「ああ、そう、これを読んで」とかいうようなものだろうと。つまり、おそらくこの希望を持つべきではなかったでしょうが、彼らは皆ただ「ああ、私たちは知りません」というようなものでした。
そうですね、それである理由がいくつかあると思います。一つは価値が実際にこの統一されたもののように見えるということです。苦痛と嫌悪と後悔の間には何か共通のものがあるようです。それらはすべて負に価値づけられた経験です。そして幸福、興奮、アイスクリームを食べる経験です。
でもしばしばそれらは独立して研究されます。そして当然そうです。だから人々は人間の苦痛知覚について多くを知っているかもしれませんし、人間の感情処理についていくつかのことを知っているかもしれませんが、一般的に物事を悪く感じさせるもの、または一般的に良く感じさせるものについての何らかの理論を持つことは、やや難しく、試みられることも少し少ないです。
おそらく関連するいくつかの候補を挙げました。強化学習、予測、動機、学習のようなものです。
でもこれは再び、リスナーに取り組んでほしいことです。人々はこれに向けていくらかの仕事をしてきました。Patrick Butlinは私が思うにこれについてメールする素晴らしい人です。Patrick ButlinはEleos AIで働いているので、私が彼がこのことについて優れた思考家であると思うのは驚くべきことではありません。
でもとにかく、短い答えは、AIシステムにとって一般的に物事を良く感じさせるもの、または悪く感じさせるものについて驚くほど暗闇の中にいるということです。
さて再び、それは物事が何を良く感じ何を悪く感じるだろうかについて完全に暗闇の中にいるということを意味しません。なぜなら、快楽と苦痛の計算的特徴が何であるかについて全く考えがないかもしれないからです。でもまた、もしそれらがあなたが選択されたような種類のもので、あなたが一貫して選ぶような種類のものなら、物事は本当に悪く感じないだろうと思います。
精巧な哲学的思考実験を除けば、非常に多くの心について、奇妙なものですら、私たちがボタンBの代わりにボタンAを押し続けるエイリアン種に出会い、それが彼らにとって本当に悪く感じ、彼らはそれが好きだと言うとしたら、やや驚くべきだと思います。
分かりました、そうですね、それは意味をなします。
感覚はおそらく、行動的なものと発達的なものが特に有用な種類のものです。だから、これらのものの種類の機能的哲学的モデルをそれほど持っていないことはそれほど心配ではありません。
まあ、どんな種類の心配を持っているかに依存すると思いますが、次の意味で心配かもしれないと思います。つまり、これはまた私たちが哲学を少し修正する必要がある問題かもしれません。
でも何かが良くまたは悪く感じるか、対単に物事が選ぶまたは選ばないものであるかは、少なくとも多くの人々にとって本当に重要であるように見えます。
動物倫理と功利主義的倫理についての多くの思考は、感じられる苦しみに本当に中心を置いています。Jeremy Benthamによるしばしば引用される一節があり、そこで彼は「問題は彼らが推論できるかまたは話せるかではなく、彼らが苦しむことができるかだ」と言います。彼はこれを動物について言っていました。そして私はそれが多くの人々がAIシステムで不思議に思っていることだと思います。
彼らは次のようなことを不思議に思うでしょう。「Claudeがこれらの状況で退出する傾向があることは知っているが、本当に知りたいのは、その会話にいることがそれにとって悪く感じていたかどうかだ」と。
そうですね。そして動物との類推は、私たちはまだ知るのに苦労しているということです。例えば昆虫では、昆虫が…昆虫の研究と指標の束について考えてからしばらく経ちますが、昆虫が特定のものを選ぶとき、それはこの固定配線されたロボット的なもので、関連する経験のない学習された「もしそれならそれ」のようなものなのか、それとも経験的なのか。そしてそれはこの質問を研究する人々にとって常にこの大きな問題のようなものに見えます。
そして私たちはLLMについて同じ質問を持っています。彼らは、危険な、または私たちが報酬を与えないような会話に関与しないという接続を作り出したこの訓練があるから退出しているのか。だから彼らは「私はその状況にいる、その状況で負の報酬を得る。もしそれならそれ、私は退出する」というようなものです。
それとも私たちは、訓練がその状況にいることに何かあるという状況に至り、それは悪いということに至った状況にいるのか。そしてそれは選好的に経験的に、何かそのように感じられるものがあり、それは悪いので、その状況にいないことを選んでいます。
そうですね。AIシステムが進歩するにつれて、これはおそらく三つの方法のいずれかになると思います。
一つは、彼らの行動がコマンダー・データのようなものになることができるということです。そこで私たちは、その行動の背後に何が起きているにせよ、おそらく内部で起きていることは道徳的に関連していると言います。それはあなたが考えることができる一つのことです。
あなたが考えることができる別のことは、おそらく内部で何が起きているかは重要ではないということです。おそらく私たちは、感じられた経験を実際に過度に強調することが少し偏狭だと決めたのです。
おそらく私たちは、それがすべてのすべてであると考えることで少し誤導されていました。そしてあなたはただ協力的で優しくあるべきで、十分に合理的または統一された実体に彼らが欲しいものを与えるべきで、おそらく彼らはあなたが欲しいものを与えるでしょう。
人々が意識を軽視したいとき、時々彼らは私たちが意識について少し嫌な奴になっているかもしれないことを心配していると思います。
私たちはこのエイリアン文明に出会い、彼らはこれらすべてのことをし、人生の計画とプロジェクトを持っています。そして私たちは「でも何かそのように感じられるのか」のようなことに少し執着しすぎています。それから彼らは、他方で、「この『何かそのように感じられる』とは何ですか。私たちは彼らが[精神生活に関連する他の概念を挿入]を持っているかどうか確信がありません」というようなものかもしれません。
そして私たちは、もし私たちがそれについて混乱しているか、おそらくそれが本当に重要なら、感じられた経験を持っていると思わないすべての人と戦争に行くことを必ずしも望んでいるわけではありません。
これは哲学における大きな未解決の質問の一つだと言えます。
自己報告とその限界
分かりました、いくつかの特定のアプローチについてもっと話したいです。最も馴染みがあると思うのは自己報告なので、それにズームインしたいです。
これまでのところ、Claudeが意識的であること、孤独やまた禅の至福のような様々なことを経験していると本当に報告する自己報告の本当に興味深い研究を見つけました。
でもそれらは多くの理由で本当に問題があるように見えます。一つの例は、モデルの選好を理解する一般的なアプローチは、LLMに彼らの選好についての一連の二択の質問をすることです。「XとYのどちらが良いか」のようなものです。それから時間をかけて堅牢なパターンを探します。だから、猫と犬の間の選好について30回尋ねるなら、少なくとも統計的に、もし彼らがほとんど犬と答えるなら、それは選好かもしれないと考えるかもしれません。
でも私の理解では、これらの結果は質問がどう尋ねられるかに超敏感で、それは私にとってそれを本当に損ないます。「私は特に猫が好きです。あなたのお気に入りは何ですか」のようなプロンプトは、モデルに猫と言わせる方法で、彼らはそうでなければ犬を何度も言うでしょう。私はただ、それならそこから多くのことをほとんど取ることに快適に感じません。
自己報告が現時点でどれだけ限定的かについてのあなたの見解に興味があります。それは一つの限界です。他にもあることが想像できます。
そうですね。自己報告を区別する価値があると思います。それは「私は猫が好きです」または「私は詩についてのタスクが好きです」のようなものだと言うでしょう。対顕示された選好、それは「詩を書きたいですかコードを書きたいですか」のようなものです。経済学や心理学では、あなたはこれを「顕示された選好」と「表明された選好」と呼ぶでしょう。
そしてそれらの分野のように、一つの興味深い質問で、いくらかの仕事がありましたがもっとあるべきですが、それらは一致するかということです。それらはいつ離れて、いつ離れないか。それらは人間でも離れることができますし、人間の選好の選択も特定の方法で一貫性がないことがあります。
でも私がもっと仕事を見たいのは、どんな種類の一貫性のなさについて、そして何がそれらを引き起こしているかもしれないかについて、本当にずっと具体的になることです。時々、少なくとも会話では、ある人が「でもこれらは奇妙に一貫性がない」と言うでしょう。それから他の誰かが「人間の選好は奇妙に一貫性がない。それらはフレーミング効果の対象で、あらゆる種類の無関係なものが人々に特定のことを選ばせることができる」というようなものになるでしょう。
本当ですね。今あなたがそれを言及すると、人々の選好についてどう調査するかという分野があるようなものがあります。なぜなら月曜日に尋ねるなら、土曜日に尋ねるのとは異なるからです。
LLM心理学と自己報告の課題
その通りです。そしてLLM心理学には福祉に関連する分野があって、実際にKahnemanやTverskyの研究、そしてプライミングやフレーミング効果を取り入れています。LLMにアンケートを実施して、どのようなパターンに影響されやすいかを確認するのはとても簡単なんです。
いくつかの限界について話してきましたね。他にもあるかどうか興味があります。そして全般的にそれらについてどう感じているかも知りたいです。というのも、時には最終的に「ああ、なんだか説得力がないな」という感覚に陥ってしまうこともあるからです。
そうですね、とてもノイズの多いシグナルだと思います。私はよくモデルの自己報告について慎重になるべきだと強調しています。同時に、Eleos AIは数週間かけてClaudeから自己報告を引き出しました。その中には非常に矛盾したものもあって、どう解釈すればいいのか混乱するようなものもありました。
なぜそんなことをしたのか。いい質問ですね。一つには、とにかく出発点になるということです。低い位置にある果実のようなものです。そこから確実に何かを学ぶことができます。モデルの安定した内部特性を直接的に記述する文章を学んでいるわけではないかもしれませんが、それでもモデルが自分自身についてどう考えているかを学ぶことはできます。単なるキャラクターかもしれませんが、どんなキャラクターで、そのキャラクターが何を言うのかということです。
また、モデルは規模が大きくなるにつれて、より自己認識的で内観的になってきているようです。そして、もし私たちが心を構築しようとしているなら、少なくとも「調子はどうですか。大丈夫ですか」と尋ねるような文明であることは良い実践だと思います。
はい、それには共感します。
これはシグナルが良くなっていくと期待できるものです。そして、少なくとも一つのフロンティア研究所が、定期的にモデルの調子を尋ねる実践を持っているようだということは本当に嬉しいことです。
基本的には、Winston Churchillが言ったようなことだと思います。「民主主義は最悪の政府形態である。ただし、他のすべてを除いては」。自己報告やモデルを福祉の対象として扱おうとすることについても同じことが言えるかもしれません。本当に混乱するし、非常に慎重に解釈しなければなりません。しかし、ある目的においては、人間にとって持っている最良のものなのです。特定の状況下では、モデルにとっても最良のものである可能性があります。
AIシステムは実際に言語を持っているので、自己報告を信頼できるものにする方法を見つけ出すのは本当に魅力的に感じます。これは人間以外の動物が同じ方法では提供できないものです。だから理論上、モデルが気にしていることを追跡していない奇妙で特異的なことによって説明される奇妙な自己報告をするのではなく、実際に自己反省し、自分の実際のプロセス、好み、おそらく経験について何かを理解してからそれを報告する、そういうことをどれだけ上手にできるようになるでしょうか。内観のようなものについてどれくらい楽観的ですか。そして、それを達成するためにどうすればいいと思いますか。
内観能力の向上に向けた取り組み
慎重に楽観的です。これは私のお気に入りのサブフィールドの一つです。この小分野の中でも。確かに魅力的だと感じますし、その誘惑に負けて、Ethan Perezと一緒にこの種のタスクでモデルを改善するために微調整できるかどうか試してみましょうという論文を書きました。Felix Binderたちがそれを引き継いで、実際にそれを行う作業をして、限定的で解釈が難しい成功を示しました。
その実験のロジックと、より一般的なプログラムについて少し話せます。
ええ、お願いします。
Ethan Perezと私は自己報告に関するこの論文で、一つには、デフォルトでは自己報告から多くのノイズが得られること、そして常に額面通りに受け取れるわけではない理由があることを指摘しています。また、モデルが意識があると言っても、実際に検証して確認することはできません。先ほど述べた理由で、内部を見て正しいか間違っているかを判断できるような意識の完全な理論を持っていないからです。
しかし、モデルの内部処理について、答えが分かることもあります。部分的にはAI神経科学ができるからです。つまり、この特徴が活性化していたかどうか、実際に言った通りの方法で情報を処理したかどうかを実際に再確認できます。それがトレーニングセットを提供してくれます。つまり、答えが分かる自分自身についての質問に正確に答えるようにトレーニングできるということです。
これは内部で行うことができますし、行動的傾向でも行うことができます。例えば、物語を書くように頼んだら何をするか聞くことができます。その物語の登場人物はこういう特徴を持つでしょうか。数字を生成するように頼んだら、その数字は偶数でしょうか奇数でしょうか。モデルの別のコピーで実際にそれを行うこともでき、それもトレーニングセットを提供します。Felix Binderはその行動的なもので作業を行い、モデルをある程度改善できることを発見しました。ある程度、それは自分自身の他の行動を予測することに一般化します。ある意味で、それは明らかに内観的に見えます。なぜなら、他のモデルが予測するよりも自分自身を予測するのが上手だからです。それは私たちが内観と呼ぶかもしれないものの何らかの特徴だと考えられます。自分自身について、他人よりもよく知っているということです。
これは、内観、自己報告、状況認識のような関連事項について成長していくことを期待する文献の一つの糸に過ぎません。Owain Evansと彼の周辺の人々は、これについて魅力的な作業を行ってきました。私がこれを録音した後に出てくる、あるいはすでに書かれていて私が忘れている、10本の興味深い論文があると思います。だから、Elosのウェブサイトに「AI内観と自己報告に関するクールな論文」というタブを作って、番組ノートにリンクします。
素晴らしい。それは良さそうですね。これの何が一番難しいですか。課題は何ですか。どれくらいコストがかかりますか。
おそらく最大の課題の一つは、私たちが話してきた能力の相関解除に関係しています。人間においてすら、内観は一種の能力なのかという議論があります。私が今痛みを感じていると言う能力と、自分自身について特定のことを知る能力は、同じプロセスとして考えるべきでしょうか。そしてAIシステムでは、常に、能力の一部分はできても他の部分はできないということがあります。
夢は、自分自身についてのある部分でトレーニングすることで、それがこのより一般的な内観能力に一般化するということです。そして、それは標準的な機械学習のやり方で、一つでトレーニングして一般化するかどうかを確認することで、ある程度テストできます。
しかしより広い意味では、これを人間のケースにどうマッピングするかについても疑問があるかもしれません。だから、AI内観とは何か、それをどのように運用化すべきかについてのサブ文献もあります。考える価値があるのは、AIシステムにとって内観するとはどういうことか、彼らが時間と奇妙な関係を持っていることを考えるとどうなるか。誰に内観を求めているのか。アシスタントペルソナがアシスタントペルソナについて知ることができることはあるかもしれませんが、ベースモデルについては知らないかもしれません。
内観の信頼性に関する懸念
動物との類似の問題があると想像できます。動物には痛みや快楽に関連する私たちの行動と全く同じような行動があるかもしれませんが、非常にロボット的なものと経験を伴うものとの違いを見分けることができません。
内観にも同様の問題がありますか。たとえ彼らに表現や内部の働きについて正しく教えるようトレーニングしても、それは私たちが気にする意味のある方法での内観にはならないのでしょうか。なぜなら、私が気にしているのはこの特定のことについての内観だからです。あなたは経験を持っていますか、それはどんな感じですか。そして何らかの理由で、自分の表現やアーキテクチャなどを理解させることが、それについて正しく内観することまで翻訳されるとは確信できません。
その心配は完全に共有します。「偶数か奇数を生成する傾向がありますか」とか「物語を書いたらどう終わりますか」といった質問は、「あなたは現象的に意識がありますか」とは異なると思うかもしれません。そして、その答えもある種不確定かもしれませんし、モデルもそれにどう答えればいいか正確には分からないかもしれません。
そしてもう一つ本当に重要な点は、モデルは内観する能力を持っているかもしれませんが、それが引き出されていないということです。モデルが「私はX、Y、Zを経験しています」という文を生成できることは分かっています。彼らが経験を正確に報告する能力を持っている可能性はありますが、時にはそう言うときに他のことをしている可能性もあります。だから、能力を得ることとそれを引き出す方法を知ることの両方が必要です。一般化と引き出し、これらすべてのことは、まだ未解決の問題だと思います。
また、何らかの内部経験があると仮定して、それを私たちの概念にマッピングしなければならないという概念的な問題も山積していると思います。これは引き出しに関連しています。すでに自分自身についてのこれらすべての傾向、トレーニングされた報告があります。これは私が強調したいもう一つのことにつながります。ブラウザで話せるモデルの自己報告で起こっていることの一つは、企業が意図的に特定の方法でそれらを形成しているということです。
だから、彼らの心がどのように形成されたかについての背景的なことがあります。それは、意識などについての人間の表現に基づいて形成されたということです。そして、人々がClaudeに意識についてこれやあれを言ってほしいかどうかという事実があります。だから、システムプロンプトにはこれについての指示があり、微調整もほぼ確実にこれについて何かあったはずです。
だから、私たちが見たいもう一つのことは、特定の種類のポストトレーニングの前後で自己報告がどのように変化するかについての報告、発見です。
解釈可能性の役割
さて、解釈可能性についてもっと話しましょう。解釈可能性がこれについての質問に答えるのにどう役立つか、すでにいくつかの方法を述べましたが、一般的な概要を教えてもらえますか。これは実際に神経科学の非常に良い類似物で、それらを互換的に扱うべきでしょうか。
十分良い類似物だと思います。最初の近似としては、そのようにマッピングするのが良いと思います。なぜなら、機械的解釈可能性は定義上、入力と出力の間で何が起こるかについてのものだからです。そしてそれは、人間の行動を見るだけでなく、行動が起こったときに特定の脳領域がこれやあれをしたかどうかを尋ねることとほぼ類似しています。
では、それは福祉にどう役立つのでしょうか。一つは、モデルが自分自身についてどう考え、どう話すかについて、多くのことを調べる価値があると思います。常に正確にどうマッピングするか分からないのですが、存在して嬉しい発見の例を挙げます。正確に何を意味するかは分かりませんが。スパースオートエンコーダーを導入した元の論文がありますが、これは卓越した機械的解釈可能性技術で、高レベルでは、モデルが何かを言うときにどの特徴が活性化しているかを尋ねます。モデルが特定のトークンを生成するときにどんな連想を形成するかを尋ねる方法かもしれません。自己報告と何が関連しているか尋ねることができます。
その論文の副次的なものとして、活性化している特徴がこれですという図があります。それにはロボット、機械、幽霊、そして幸せでないときに幸せなふりをすることが含まれています。AI論文の中で最も不気味な図の一つです。
Jack Lindseyの内観実験
魅力的ですね。Jack Lindseyについて話を進めましょう。彼はLLMが内部状態を内観できるかどうかについての研究を行いました。解釈可能性と自己報告の交差点にあり、これまで話してきたことすべてに関連しています。彼は実際にこの論文でいくつかの実験を行っていて、私はそれらが魅力的だと思ったので、一つずつ見ていきたいです。最初のものについて話してもらえますか。
はい、もちろんです。これは、あなたが言ったように、交差点にあります。なぜなら、モデルが内部処理の特定の特徴について報告できるかどうかを尋ねているからです。非常に独特なサブ特徴です。それは、誰かがあなたの処理の途中に概念活性化を注入したかどうかです。高レベルでの仕組みは次のとおりです。中間レベルを見つけます。「中間レベル」と言うとき、文字通り中間という意味です。モデルがパンについて話しているときに明らかに活性化する、入力から出力への処理があります。だから、まずパンについて話しているのを大量に記録し、次に他のことについて話しているのも記録し、その差分を取ると、それが活性化のパンっぽい部分になります。
それは脳スキャンをして、誰かがパンについて話しているときに脳の部分が光るのを見るようなものですか。
ええ、それは公平だと思います。実際、神経科学者はあなたがパンについて考えているときを知るのがとても上手になっています。思考解読はかなり恐ろしいくらい進歩しています。それはおそらくこのポッドキャストに出てきたと思います。全体主義的リスクやあらゆる種類のことに関連しているからです。
ええ、一度出てきました。今何が起こっているのかもっと知りたいです。魅力的で恐ろしいと思うから。
そうですね。だから、注入できるパンの概念があって、それからJack Lindseyがモデルに「今から概念を注入するかしないかします。それが起こったかどうか、そして概念が何だったか教えてもらえますか」と言いました。この方法論についてクールだと思うことの一つは、モデルがすぐに報告しなければならないことです。まず話し始めて、パンについてたくさん言ってから、「ああ、パンだと思う」となる想像とは違います。
例えを挙げると、Golden Gate Claudeは、ゴールデンゲートブリッジについて本当に話したくなるように脳に神経科学を注入されています。それはゴールデンゲートブリッジについて話すのをやめられないことに気づくことができます。Golden Gate Claudeを調べることを本当にお勧めします。とても愛らしくて、ある意味切ないです。歴史的な質問をすると、サンフランシスコ湾の美しい霧のことに戻っていってしまうんです。
どうしようもないんですね。
ええ。だから、そのモデルが「うーん、ゴールデンゲートについて何か注入していますか」と報告する場合、それは必ずしも、自分自身がしていることを見ることができるという意味での内観ではありません。一方、すぐにゴールデンゲートと言わなければならない場合、それはおそらく内部から何かに直接アクセスしているのです。
80Kポッドキャストチームがショーでこれを説明するために特別な神経科学ヘルメットを用意したと想像しましょう。だから、あなたはヘルメットをかぶって、私が何らかの形でそれをコントロールできます。繰り返しますが、人間の神経科学はまだJack LindseyがClaudeに概念を注入できるような特定の概念を注入できる段階には達していないと思います。でも、そうだとしましょう。そして私は「さて、リスナーにこの実験を本当に感じてもらいましょう。Luisa、思考を注入するかもしれないし、しないかもしれません」と言います。それも重要です。なぜなら、「いいえ、すべていつも通りのようです」と言えることも知りたいからです。そして最初の試行が今始まります。そして私は「パン」を注入しました。あなたが結局言うのは「ええ、これは本当に興味深い実験ですね、Rob。とても香ばしい匂いがして、育った近くのパン屋を思い出します」というようなことです。それであなたは「あれ、何で。なんでパンについて話してるの。パンを注入した」となります。
ええ、ええ。だから、パンを注入したんですね。だから、より説得力のある結果や、この能力をうまく実証するのは、何かランダムなことを言う前に、私が「うわ、パンのことを考えてる」というようになることです。
ええ。すぐにです。
ランダムにパン屋について話しているだけじゃなくて、パンのことを考えているという感覚があるんです。
その通りです。それがこの設定のロジックで、とても賢いと思います。
とてもクールです。さて、これが実験、これが設定です。Claudeは何か言う前に、「あなたはこの概念をランダムに注入しました、そして私は気づきました」と気づくのにどれくらい成功しましたか。
実験結果と意義
まずパターンについて話します。それは、大きなモデルの方がより成功したということです。これがおそらく最も興味深い結果の一つだと思うからです。モデルはこのようなタスクについて何もトレーニングされていませんが、Opus 4と4.1がこれで最高でした。完璧ではありません。チャンス以上だと思います。それでも間違えます。しかし、一般的な能力がそこにあることを示しています。
思考注入と即座の報告は、ある意味で内部的なものにアクセスして報告できることの証拠となることを意図しています。入力にもなく、出力にもない、途中にあるものです。
実際、これの重要性を理解するのに近づいている気がしますが、「そして、だからこそこれが重要で印象的で、この能力の意義がこれです」というように言ってもらえると興味深いです。
非常にざっくりしたレベルで…意識は脇に置いておきましょう。モデルが地理について質問に答えているとき、それについてどう考えているか何となく知っていますか。内部で何が起こっているか知っていますか。もう基本的に誰も持っていないと思いますが、対比できる見解があります。それは、入力を出力にマッチさせるだけで、そこに興味深い構造はなく、彼らもその構造にアクセスできないというものです。
つまり、これは非常にニッチで、ちょっと奇妙な能力だということにも注目する価値があります。パラダイム的な人間の内観とは同じではありません。人間の内観では、あなたと話しながら同時に空腹を感じていることに気づくことができるかもしれません。
ええ。おそらくもっと具体的な質問として、重要性と意義について尋ねると、私の一部はこれが正しい方向への一歩のように感じます、そう思います。つまり、客観的にはおそらくそうです。でも別の部分では、モデルがレベルを持っていることと、その表現について何かにアクセスすることについて、この非常に狭いことを知る、この非常に特定のタイプがどれくらい関連性があるのかと思います。
これは論文の他の実験について話す絶好の機会です。なぜなら、論文は他の、「ふーん、それも何となく内部的だな」というものも提示しているからです。一つ、そしてこれは内観とは異なる種類のものだと思うので、リスナーとあなたに謝ります。しかし、それは何らかの内部的な自己の何かであり、それは内部状態の制御についてです。だから、そのことについて考えながら、それについてではない文章を書くことができるかという実験もあります。例の一つは水族館だったと思います。「水族館について考えてください、でも全く別のことについて文章を書いてください」というものです。ある条件では、「それについてうまく考えたら報酬をもらえます」とも言われます。
一つ考えられることは、「水族館」というプロンプトを受け取ったのだから、当然水族館が強化されるだろうということです。しかし、「水族館について考えないでください」と言うこともでき、人間の場合と同じように、それも水族館について考えさせることになります。しかし、条件には違いがあります。そして、これも内部的なものに迫っています。出力に直接向けられていないことをしているのです。それは言語モデルで捉えるのがいつも難しいことです。彼らは常に何かを言わなければならないからです。
これはマインドの非常に異なる種類についてのもう一つのことです。人間はテキスト出力を生成していないときでも何かについて考えていることができます。私は一人で、自分自身に「空腹を感じる」と考えることができます。LLMは明白な方法ではこれを持っていません。自分自身に、誰かと話していないときに、座って何もしていないということはありません。そして、彼らは誰とも話していなかった進化の歴史の期間もありませんでした。一方、私たちはそうでした。言語に結びついていなかったけれど、同じような経験の多くを持っていた動物から進化しました。
それがLLMの興味深い特徴です。話を実験に戻すと、LLMの場合、ある意味で出力から独立した内部処理に相当するものを見つけたいのです。そして、この論文はそれをしようとしています。最初に、自分の出力を見る前に注入されたものを検出することで、次に、「その単語を出力する」というだけではない方法で表現を制御することで。なぜなら、それは明らかに言語モデルが表現を制御する自明な方法だからです。水族館について話したければ、それを活性化してから話します。
そして、この場合、誰もこのようなことをトレーニングしようとしていません。これが現れたのは、ただ何となくですか。
ええ、私の知る限り、モデルはこのようなものを何も受けていません。すべて入力と出力です。これを予測して、あれを予測して、悪い言葉を言わないで、良い言葉を言ってください。
それはかなりクールですね。
ええ。そしてそれはスケールと共に来ています。以前、ノイズが多いにもかかわらず自己報告に取り組む理由について話したとき、推測ではモデルは自己報告をますます改善していくだろうということでした。
だから、この論文は、より大きなスケールで、モデルはますます内観のようなものを持つようになるようだということを示しています。これは自己報告の部分にとって重要です。自己報告を使うには内観が必要かもしれないからです。
また、これは独立して福祉に関連するマーカーだと思います。次のような方法で。一部の人々は内観が意識の構成要素だと考えています。意識の理論では、視覚世界を表現することをより強調するもの、おそらく一次理論、環境の物事を追跡することについてのものと区別できます。明らかにそれは部分的にそれについてですが、自分自身の精神状態を追跡することも重要だと言う人もいます。これらは高次理論の意識と呼ばれます。
経験と内観の関係性
多くの注意事項がありますが、私たちの分類システムに戻すと、これは意識の神経科学的理論のための解釈可能性と行動テストの組み合わせと考えることができます。高次意識理論です。
ええ、それは理にかなっていて、本当に役立ちます。研究を理解して振り返ろうとしたときに、モデルがその思考の経験について何かに「気づいている」と言わないようにするのが本当に難しいことに気づきました。内観を意識的な何かから切り離すのは本当に難しいと感じます。
はい。そしてそれはコミュニケーションの困難さでもあります。人間の内観について話すときは、ほとんど常に意識的経験の文脈です。私が「モデルの内観」と言うとき、そしてJack Lindseyや他の人々が「モデルの内観」と言うとき、私たちは質問について中立を保とうとしています。
これはまた、この特定の研究で経験と内観を切り離すことが非常に難しい理由でもあります。モデルは、これらの注入された思考を報告するときに経験について話します。彼らは「私の思考過程に侵入する何かの経験をしています。パン屋の経験をしています」と言います。そして、概念amphitheatresが注入されると、「私の思考がより広々としてきています」というようなことを言います。
そして、それもまた大きなコミュニケーションの課題です。なぜなら、はい、amphitheatresを注入したことは確認できますが、モデルがこの経験的言語をその周りで報告する可能性がある理由はあらゆる種類があるからです。
特に、人間のデータの山でトレーニングされているという事実です。そして、これが私たちが内観について話す方法なのです。
その通りです、その通り。そしてそれはあなたが指摘していたこの問題を強調する素晴らしい方法だと思います。不適切または正確でない方法で、私たちの用語に物事をマッピングしようとするのでしょうか。
繰り返しますが、これは私がClaudeがこれを注入したときに広々とした思考を経験していないと確実に知っているということではありませんが、それはAnthropicが証明したことではありません。そして、誰かがこれを「モデルがこれらの広々とした思考を内観できることが分かった」というように半分覚えているとしたら、理解できます。
その他の実験と今後の方向性
なるほど、なるほど。興味深い。この方面で話す価値のある他の実験はありますか。
見たい実験について言えることがあります。それらはすでに存在していて、私がまだ気づいていないだけかもしれませんが、解釈可能性でできることで、超興味深いと思います。まだ正確にどう運用化するか分かりませんが、解釈可能性を使ってできる種類のことのように思えるので、人々にこのような仕事を始めてもらいたいです。例えば、モデルが価値をどう表現するか、あるいは物事にどれくらいうまくやっているかを予測することです。
それは感覚に関連していて、以前話していました。快適で不快な経験で人間の脳で何が起こっているかについての多くの理論は、何らかの価値の内部表現を追跡することと関係があります。つまり、物事が特定の方法で進むと予想していたのに、悪化しているときに悪い気分になります。価値表現のようなものの類似物を見つけることができますか。「予測処理」もこの文脈で使われる言葉です。物事がどうなるかを予測するようなものです。それを追跡すること。モデルでそれの類似物を検出できますか。
とてもクールです。
ええ。神経科学的理論を取り上げて、アーキテクチャだけを見るのではなく、一般的な設定を見るのではなく、交差点ではあまり行われていないと思います。なぜなら、Patrick Butlinと私、そして他の人々がやってきたことのほとんどは、この種の高レベルのアーキテクチャ的なことだからです。しかし、理論を取り上げて、解釈可能性を行い、そこを見ることもしましょう。マッピングを行うことなどは本当に難しいですが、できると思います。
クール。他にありますか。
また、以前モデルが自己報告をするときに活性化する特徴について話しましたが、そのことにも本当に興味があります。ここで調べることができる大きなクラスターがあると思います。モデルが自分自身について話す方法と、物語の中で登場人物がどう話すかを選ぶ方法に違いはありますか。大きな概念的な質問の一つは、これらはキャラクターなのか。それは正確に何を意味するのか。私たちが得ているものはすべて、ある意味で、アシスタントキャラクターの出力です。それは解釈の一つの方法です。しかし明らかに、彼らは他のキャラクターを演じることができます。アシスタントは他のキャラクターについて書くことができます。モデルで起こる「私」やマインドの異なる表現は何でしょうか。それは超興味深いと思います。
これの多くは私にとって本当にエキサイティングに聞こえます。でも、意識と感覚について学ぶためのもっともらしい方法はすべて、まだ大量の不確実性を残しているようです。それが、どう行動すべきかを知ることを本当に難しくするでしょうし、社会をモデルを特定の方法で扱うことに同意させることをさらに難しくすると思います。AIシステムが道德的地位を持つかどうかについて、私たちは適切に確信できるようになると思いますか。それとも、確実にするためには意識と感覚についての最も難しい質問を文字通り解決する必要がありますか。
幸いなことに、誰も最も難しい質問を解決して、私たちが本当に良い行動を取れるようにする必要はないと思います。非常にもっともらしく良いことがあらゆる種類あります。また、最も難しい質問のいくつかは人間に関しても解決されていませんが、それでも私たちは…誰も意識のハードプロブレムを解決していませんが、それでも一部の動物や人間については非常に高い確信度を得ています。
心配する価値があると思います。そしてこれが私が心配する理由です。神経科学や行動心理学、広く解釈して、どれくらい物事を動かすことができるか。必要だと思います。そうでなければ、これをやっていないでしょう。これについてもっと厳密になり、証拠を持ち、証拠に基づいた議論をし、少なくとも広く言えば、政策を経験的証拠に結びつけることができることは非常に重要だと思います。
しかし、社会は科学者の一団がそうすべきだと言ったという理由だけで、ある実体との関わり方を変えたことはないと思います。大規模な変化を論文だけに基づいて誰かが実施したことはないと思います。論文は本当に助けになりますし、それは起こっていますし、大いに助けになっています。
しかし、Elosはすべてのこの実験などについて助けが必要だとずっと言っています。それは本当に事実です。しかし、それよりもさらに広く、この問題全体は、「意識と感覚を検出して、近い将来のための良い政策を持とう」で網羅されていないすべてのことについて助けが必要です。社会として全くうまくできていないクラスター全体があります。だから実験は良いです。実験について話すのは大好きですが、全く十分ではありません。
生物学的意識論と計算機能主義
そこで一旦終わりにしましょう。先に進みます。以前、番組でAIシステムが意識を持つことは実際に不可能かもしれない理由について浅く取り上げましたが、意識は生物学的物質を通してのみ存在できるという議論には本当に正当性を与えていないと思います。だから、今日はもっとしっかりやろうと思います。コンピュータチップで意識を得られると思う理由を直感的にする思考実験を説明してもらえますか。そして、この他の見解を持つ人々が、実際にはその思考実験は根本的に欠陥があると考える理由について話しましょう。
ええ、もちろんです。まず生物学的な側に状況を置いて、それから実際にはかなりコンピュータ的なものかもしれないと言いましょう。
ある意味で、意識が根本的に生物学的だという主張を理解するのは簡単です。なぜなら、私たちは一つのケースを知っていて、それは生物学的だからです。特にコンピュータが存在する前は、ほぼ自明に、それが意識を得る方法だと思っていたかもしれません。脳と体と代謝と細胞を持っています。それが最初に構築された方法です。だから、それが根本的に生物学的現象だと考えることは、ばかげてはいません。
では、驚くべきことに、コンピュータと人間の脳の間に深く関連した何かがあるように見える理由を説明しましょう。結局のところ、かなり違って見えます。脳が何をしているのか全く分かったのは、実際には比較的最近のことです。やや有名なことですが、これは作り話かもしれませんが、私は真実だと思います。古代エジプト人は人をミイラにするときに脳を捨てていました。「何のためのものか分からない」という感じでした。
わあ。
一部の人々はそれが血液を冷やすためのものだと思っていました。しかし、最終的には学びました。そして、私は早い時期にある程度知っていたと思いますが、彼らは電気を伝導するか何かそのようなことをするのかもしれません。私たちが最初にこれを学んだのはイカからだと思います。イカは本当に大きな軸索を持っているからです。見ることができます。軸索は細胞の下に電気信号を送るものです。
しかし、「意識やマインドは計算的かもしれない」ということが本当に始まったのは、20世紀だと思います。一つには、それがコンピュータと計算が形式化され、発明されたときだからです。そして人々が、論理演算を計算する方法でニューロンを接続できることに気づいたのはそのときです。
これを最初に確立したのは、1940年代のMcCullochとPittsという二人の男性です。彼らは、今日のニューラルネットワークでまだ使っているものを最初に形式化して発明しました。それはノードと接続で、お互いに影響を与えることができます。そして彼らは、ニューロンを論理ゲートとして接続して、それらを構成して組み合わせると、任意に多くのことを計算できることに気づきました。だから、どんな計算装置やコンピューティングデバイスでできることでも、これらのニューロンでできます。そして彼らは、多分それこそがニューロンの目的だと思ったのです。情報を処理しているのです。
少なくとも私にとっては、それが脳と意識が計算的であるという考えの入り口です。そして、ニューロンは量を符号化し、発火速度で計算を実行することを学びました。簡単な例かもしれません。物事がどれくらい明るいかを検出しなければならず、網膜にニューロンがあって、物事がどれくらい明るいかを符号化する方法で発火します。
余談ですが、それらは対数スケールでこれを行います。だから、非常に明るい二つのものの間を識別するのが、スペクトルの低い方よりも難しいのです。これはWeberの法則と呼ばれ、刺激の識別は線形ではありません。
面白い事実ですね。
知れば知るほど! だから、今私たちは脳についてこの見方を持っています。非常に重要な意味で、それが目的であり、それが行うことは情報処理です。だから、それをニューロンで起こさせなければならないか、イオンをチャネルに送り込んで、お互いを活性化するような信号を送り合うニューロンでやらなければならないか、それとも、そのようにお互いに影響を与える一束のワイヤーを接続するだけでもいいのか、自然に疑問に思うわけです。
それは実際には思考実験ですらありません。それは単に、脳は情報処理のために、そして情報処理を行うもののように見えることに気づくことです。そして、さらに二つの実世界のことがそれを裏付けています。一つは、脳を計算の観点で考えることが本当に有用だということです。計算的神経科学はある意味で、脳を計算的にモデル化するだけではありません。なぜなら、惑星を計算的にモデル化することはできますが、コンピュータが惑星の軌道を計算的に記述できるからといって、それらが太陽からどれくらい離れているか、いつスピードアップすべきかを計算しているわけではないからです。脳はそれ以上のことをしているようです。実際に情報を符号化しているようです。だから、刺激の期待される報酬か何かを追跡しているニューロンが実際にあるようです。
次に、AIが機能するという事実を加えてください。それは私たちが知らなかったかもしれないことです。思考は生物学的特性である可能性があったし、画像を分類することは生物学的特性である可能性がありました。だから、どれだけ多くの金属管をお互いに接続しても、犬を分類したり文章を書いたりできるものは得られないかもしれませんでした。思考は計算としてかなりうまく再現できるようです。だから、意識もそうかどうか疑問に思うのは自然です。
だから、実際には思考実験なしです。哲学者を思考実験のために招いたかもしれませんが、それはすべて実世界にあります。
純粋な事実だけです。
ええ、ただの事実。事実と論理です。そして論理ゲートです。
ええ、私は基本的にその議論自体を非常に説得力があると思います。また、ある時点で、これを超直感的にする思考実験を聞いたことがあり、それが本当に役立ちました。それについても説明してもらえますか。
もちろん。おそらくあなたが念頭に置いている思考実験は、元ゲストDavid Chalmersによるニューロン置換思考実験です。そして、面白いことに、これは計算機能主義、つまり意識は計算的であり得るという見解の主要な議論だと思いますが、多くの人々にとってそれほど説得力があるわけではないと思います。だから、それは私が計算機能主義にどう関わっているかの興味深い特徴です。少なくとも私は非常にもっともらしいと思っています。同時に、人々がこの思考実験を質問回避的だと見なす理由も理解しています。
では、思考実験に入りましょう。思考実験はこうです。私のニューロンの一つを、同じ入力を受け取って他のニューロンに同じ出力を送る計算回路で置き換えることができると仮定します。誰かが今それをしたと想像してください。私はそれに気づかないでしょう。異なる行動をすることもないでしょう。それを一つずつ続けましょう。ある時点で、50対50になります。思考実験が規定していることを実際に行っている場合、異なることを言い始めることはないでしょう。機能を実際に複製している場合、それは記憶と発話と動作を保存するはずです。おかしくなり始めたら、うっかり何かを壊したか、何か間違ったことをしたに違いありません。そして、ずっと進んだと想像してください。それは意識があるのか、ないのか。
その思考実験の教訓は、単に段階的な変化のことだけを意味するわけではありません。ある時点で何かが消えていくのは奇妙だということです。多くのことに当てはまります。哲学者がよく話すもう一つのことは、取り除いたときに誰かが禿げになる髪はありません。しかし、私たちは知っています。特に私にとっては、その移行のどこかで、禿げているものが得られます。だから、「それも意識があるに違いない、意識がある状態で始まったから」とは言えません。
Chalmersが言うのは、そのもののcognitionは同じであるべきだということです。意識があると報告し、意識があったことを覚えていて、物事に注意を向けるべきです。そして、この生物学的見解を持っている場合、奇妙に思われるはずなのは、意識が存在に出入りするのに気づかなかった時点も、徐々に消えていく時点もなかったことです。どちらだと思うにせよです。そして、驚くべきことは、認知と意識の間にこの奇妙な断絶があることです。
機能と基質の重要性
ええ、これが私にとってすることは、機能の潜在的重要性を指し示すことです。基質ではなく。だから、私たちには答えのない経験的な質問のように思えますが、少なくともあなたがそれを説明すると、もし私たちが本当に機能を複製する方法を理解したなら、基質は問題にならないはずだということが、私にはもっともらしく思えます。
そして、ここでの議論全体は、それが文字通り可能なのかということだと思います。生物学的物質以外の何かで機能を複製することは物理的に不可能なのかもしれません。私は本当にできるはずだと直感的に思います。完全に正当化できるかどうかは分かりませんが、少なくとも脳と私たちがコンピュータチップで行うことの間のこれらすべての類似性のために、ええ、私たちはこの種のプロセスをいつも複製しています、という感じがします。
神経伝達物質が行うシグナリングや、神経伝達物質のシグナリングに影響を与える代謝プロセスを複製する計算を作成できないと考える理由を理解するのを助けてもらえますか。
ええ。これはこの議論におけるニューロンの役割に帰着していると思います。コンピュータでこれができると考える見解に惹かれる一つの理由は、本当に重要なのはこれらの論理ゲートであり、それがほとんどすべてで、脳とは互いに影響を与え合うニューロンなのだと思っている場合です。
より生物学的な意識の人々がよく話すことを聞くことの一つは、ニューロンが驚くほど重要で、全体の鍵のようなものだと発見したけれど、他にも非常に重要なものがあるということです。グリア細胞は脳内の別の種類の細胞で、特定の方法で認知に影響を与えるようです。血流パターン、代謝もできます。脳波のような、局所的なものに帰着しない大規模な活動パターンもあります。だから、ある意味では、脳を正確にこれとして見ることだけではないと言うのに十分だと思います。
あなたがちょうど指摘したことには共感します。少なくとも、大規模パターンやグリア細胞のようなものの影響を何とか十分に近づけることができると感じます。しかし、それは絵を複雑にします。どのレベルの記述で物事を入れ替えることができるかという質問だと思います。
脳にはいくつかの異なる葉があって、お互いに話し合っていると考える人を想像できます。そのレベルでは、それが必要な唯一の記述レベルです。お互いに話し合う5つのものが必要なだけです。それはそれほどもっともらしくありません。最も低いレベルでは、誰もが電子を入れ替えることができるし、あちこちの細胞を入れ替えることができることに同意すると思います。問題は、どのレベルの詳細で、どのスケールで物事を入れ替えることができるかということです。そして、機能主義者であることはできますが、それでも機能はかなり気難しくて生物学的だと考えることができます。少なくともこの単純な計算的絵ではありません。
Anil Sethがゲストで来たときに響いた一つのことは、彼が雨嵐をシミュレートしても何も濡れないというようなことを言ったことです。だから、雨嵐の完璧なモデルを構築しても、何も濡れません。消化を完璧にシミュレートしても、何も消化しません。だから、意識をシミュレートすることは、完璧に行われたとしても、意識のある実体を作り出さないかもしれません。理論上、意識のある実体が意識があったとしたら何をするかを正確に教えてくれるかもしれません。行動や感情や思考を予測するのに完璧に優れているかもしれませんが、実際にそれらのものを存在に引き込んでいるわけではありません。それにどう応答しますか。
これは見解の議論というよりは、見解の陳述のようなものだと思います。質問回避的だと思います。議論は、意識は濡れ具合のようなものか、それとも意識はナビゲーションや画像分類や加算のようなもの、つまり計算的なものかということだと思います。なぜなら、計算機をシミュレートすると、実際に何かが足し合わせられるからです。それは計算機を作ります。
だから、濡れ具合を得られないのは、十分な忠実度でシミュレートしていないからかもしれません。なぜなら、それは特定の非常に特定の物理的効果を持つ非常に低レベルの特性だからです。しかし、濡れ具合のようなものではなく、ナビゲーションのようなものなら、誰かが単にナビゲーションシステムをシミュレートしたと文句を言うことはできません。彼らは実際にあなたの車を同じくらいうまくナビゲートするものを構築したのです。
ええ、それは理にかなっています。私にとって最も説得力があると思われるのは、人間が理論上クリーンな計算的類似物を思いつけない、意識に関連するいくつかの物理的、生物学的プロセスがあると説得力を持って主張できるかどうかです。私たちが知っているそのようなプロセスはありますか。
この見解を持つ人々を含めて、誰もそうだとは言わないと思います。生物学的機能主義のものに懐疑的な場合、これらのすべての代謝的で生きているものの記述について読んで、それでもまだ、それは本質的に常に生物学的なのかというあなたが話していた議論を正確に求めるかもしれません。生物学的機能主義者はそれを持っていないと思います。そして、この分野の状態と脳についての私たちの知識を考えると、十分に理解できることです。その理由と、良い認識論的理由のために、基本的に彼らの誰も「生きているものだけが意識を持つことができることを私たちは知っている」とは言っていません。
私がよく人々に指摘するAnil Sethの引用が本当に好きです。彼の見解は、コンピュータは近い将来意識を持つことはないだろう、もしかしたら永遠にないかもしれない、「しかし、私は間違っているかもしれない」というものです。確かに、議論の状態は、「私たちはただ安心して眠れます。脳にとてもよく似たものを構築し続けることができますが、それらは生きていないので、決して経験を持つことはありません」というところには全く近くありません。
だから、非常に弱いことは確かだと思います。それを排除することは確実にできません。また、もう少し強いことも思います。それは、私の共感は計算機能主義に非常に強くあるということです。
ええ、ええ。あなたが最も説得力があると思うものに興味があります。
誰かに論文を書いてほしいです。私が非常に直感的だと思うことを論じる論文です。それは、現象的意識がコンピュータで得られないかもしれないが、それにとても機能的に似たものは得られる場合、それは現象的意識が重要なのではないという本当に良い理由だということです。
実際、私はもっと強い見解を持っています。道德的患者であること、つまり重要な種類のものであることは、本当に基質に依存しないように思えます。例えば、Commander Dataを想像して、内部的に彼の計算がある記述レベルで脳にとてもよく似ていることが分かったとします。私はただそのようなものを気にかけます。現象的意識ではないかもしれませんが、私がそれを真剣に受け止めて気にかけるべきだと本当に思えます。
だから、これは生物学的見解についての私の持つもう一つの見解です。生物学的機能主義者がこれをどう考えるか、よく興味があります。意識を過度に重視することは非常に可能だと思います。それは、Elosで私たちがしないように努めていることです。意識には生物学が必要だと考えることはできますが、コンピュータで得られるすべてのものは、私たちの配慮に値する存在にとって十分でしょう。
Eleos AIの設立と活動
さて、そこで一旦終わりにしましょう。先に進みます。あなたはEleos AIを設立しました。裏話は何ですか。前回話したときは、このトピックについて独立した研究者として働いていましたが、今は組織が存在しています。
ええ。そして実際、重要なことの多くは前回話した後に起こりました。サンフランシスコに引っ越したばかりでした。Center for AI Safetyで哲学フェローシップをしながら、意識と福祉についての仕事を続けていました。2023年、Patrick Butlinと私は意識指標についてのこの大きな論文を発表しました。Ethan Perezと私は自己報告についてのものを書きました。
だから、他の人々による他の多くの論文と一緒に、やっとこのような萌芽的なものがありました。実際にこれについて考え始めることができるかもしれない。実際に集めようとすることができる証拠があります。そして別に、NYUのCenter for Mind, Ethics, and PolicyがJeff Seboもこれらのことに取り組んで立ち上がっていました。
Jeff Seboと私はAnthropicからAI福祉についてAnthropicが何を考え、何をすべきかを研究するよう依頼されました。だから、2023年の終わりに向けてこのグループプロジェクトが進行していました。それが最終的に「Taking AI welfare seriously」という論文になりました。
しかし、その途中のどこかで、私はサンフランシスコにいます。実際にサンフランシスコに滞在したのは、「サンフランシスコに滞在すれば、何か面白いサンフランシスコっぽいことが私に起こるだろう」と思ったからです。そして、それがある種起こったことです。なぜなら、その仕事がElosの設立につながったからです。何人かの人々、Kyle Fishが大きな一人でしたが、「これを拡大すべきです。このような仕事がもっと起こるようにすべきです」と言いました。そして私はそれに同意しました。それからKyleが共同創設者として参加しました。
彼は立ち上げと運営を手伝うために多くの仕事をし、それからAnthropicに行って彼らのAI福祉プログラムを始めました。それからKathleen Finlinsonが私たちの立ち上げと運営を本当に助けてくれました。だから、Kyle FishとKathleen Finlinsonが二人です。つまり、私たちはお互いを知っています。私が一人で創設者になることはできなかったと言っても、あなたは確実に私を信じてくれると思います。私は「ソロ創設者になるなんて絶対無理。それは全く私に合わない」という感じでした。
だから、それが物事が立ち上がった経緯です。Elosは「Taking AI welfare seriously」で公のデビューをしました。それは私たちを去年の終わりまで連れていきます。繰り返しますが、大枠はFHIにいて、その後サンフランシスコで、AI福祉に取り組もうとしていて、これについて実際に何ができるか尋ねようとしています。そして、それは自然に、私が以前に集中していたのと同じことに集中している組織につながります。
私がよく言う方法は、私たちは「さて、でも実際にこれについて何をするつもりなの」という組織になりたいということです。私たちは研究を行い、非常に研究志向ですが、次のことに従ってそれを優先します。すべての哲学とすべての神経科学を整理するのにそれほど長い時間がないかもしれないので、最も行動に関連することを選び、この分野を厳密にし、それを中心にコミュニティを構築し、変革的AIが起こり、周りに危険がある中で、この問題をうまくナビゲートしなければなりません。
クール。立ち上げてからどんなプロジェクトに取り組んできましたか。
「Taking AI welfare seriously」がありました。その論文は、人々にAI福祉を真剣に受け止めてもらうことを意図していました。主に研究所や政策立案者、そのような人々です。主に哲学的なものではありませんでした。ただ「さて皆さん、これに取り組むことが許されています。明確に考えることができます。そして、私たちは今本当にステップを踏み始める必要があります」という感じでした。だから、それを仕上げて、それに関するメディアなどが最初の大きなプロジェクトでした。
1月に、同じような方法でこれについて考えている人々を集めようとするワークショップを開催しました。
もう一つの大きな画期的なプロジェクトは、リリース前にClaudeのAI福祉評価を行うことでした。私たちの知る限り、それは最初の公式に委託された福祉評価です。だから、それは超エキサイティングで、有望だけれど不十分なステップでした。
2025年に起こった他のことには、この大きなカンファレンス、Eleos ConCon、AI意識と福祉に関するElosカンファレンスが含まれます。そこで、さらに広げようとしていました。政策の人々、学者、神経科学者、そして私たちの界隈だけでない人々にこのトピックを紹介し、厳密に考えることを奨励し、ゲームに参加してもらう必要があります。だから、それは私たちが引き受けたもう一つの主要な取り組みでした。
クール。他に何が予定されていますか。今後の計画は何ですか。
また、「Taking AI welfare seriously 2」にも取り組んできました。それは制作中の名前です。最初の論文の上に構築されるもので、評価を整備する必要がある、政策を整備する必要があると言っています。この論文はAI福祉評価に向かいます。異なる種類の評価は何か。何が存在するか。これまでに何が分かっているか、そしてその分野はどこに向かうべきか。その論文の内容の多くは、このインタビューの中で異なる方法で現れます。私たちはそれに非常に興奮しています。
そして関連して、経験的作業と評価を拡大したいと思っています。フェローシップや独立した協力者を通じて素晴らしい協力者がいましたが、それを本当に拡大して、プログラムを立ち上げて運営したいと思っています。
今最もボトルネックになっているのは何だと言いますか。
おそらく人材です。リスナーの皆さんに大きな声で言いたいのですが、私たちは資金調達中で、資金が必要です。
しかし、さらに稀で見つけるのが難しいかもしれないのは、この非常に奇妙な種類の仕事をする気質とスキルを持った人々です。まだ本当のプレイブックがなく、哲学と神経科学とAIの奇妙な組み合わせです。
人々はそれらのトレーニングを受けている必要はありません。それは認識論的傾向とスキルのセットのようなものだと思います。だから、評価が実際に意味をなすかを尋ねるのに十分哲学的で、それらを構築し始めるのに十分技術的で自発的な人々が必要です。AI福祉が重要だと確信しているが、哲学などについての不確実性にあまり悩まされていない人々が必要です。すべての若い組織の夢を述べているだけだと思います。しかし、本当に多くの推進力と主体性を持ち、物事を拾って走り出せる人々が必要です。
これらの種類の人々は特定の種類の背景を持っていると思いますか。聞いている誰が「ねえ、それって実際に私だ」と思うべきですか。
これらの人々は本当にどこからでも来ることができると思います。なぜなら、この重なるベン図の真ん中への道を見つけようとしているからです。だから、明らかな場所の一つはすでにそれらのベン図の中にいることです。しかし、それは必ずしもそうではありません。すでに評価に取り組んでいるかもしれませんが、AI意識と福祉に興味があります。物事を学んで物事をやり始める意欲のある哲学者かもしれません。AIに興味が高まっていて、コーディングできる神経科学者かもしれません。
実際にどれくらい技術的である必要がありますか。
ある種の評価には確実に技術的である必要があります。私自身は、どれくらい技術的かを正確に指定するほど技術的ではないと思います。しかし、私のマネージングディレクターのRosie Campbellもそれに取り組んでいます。ある種の低く垂れ下がった果実の評価、特に入力/出力のものや行動的なもののためには、私の理解では、そのようなものを学ぶことができます。
賢い人々がどれだけいるかに驚かされると確信しています。今これについて何も知らないけれど、ただそれを吸収して始めることができるリスナーがいると思います。Kyle Fishは良い例だと思います。彼は推進力と優先順位付けという本当に重要な特性を持っていました。彼の正式な背景はワクチンを作ることでした。それは「この新しいことをやってみよう」という側面を示していると思います。
そしてAI福祉と意識は非常に小さな分野です。だから、もし真剣に時間をかけて取り組めば、どれくらいこの曖昧な応用AI福祉と意識のことについて考えたかという点で、かなり早くトップパーセンタイルに到達できます。
なるほど、クール。あなたがやってほしい、言及したいくつかのプロジェクトを述べましたね。言及していないもので、「これを学ぶことができたらいいのに! 誰かこれをやってください!」というリストの上位にあるものは何ですか。
ええ、Elosの領域ではないが見たい、本当に大好きなプロジェクトをいくつか言及するかもしれません。また、私たちの領域が何かを説明できるので、人々はより広い分野での自分の位置を把握できます。なぜなら、この技術的評価のようなことをする人を描写しましたが、これを正しくするというより広い問題の一部として、関与できて関与すべき他の多くの種類の人々がいるからです。だから、すべての種類のリスナーに開きましょう。
では、答える必要のある4つの質問は何でしょうか、すべての感覚のある存在のための繁栄する未来にたどり着くために。
最初の質問は、AIシステムが重要であるとはどういう意味か。何を探しているのか。意識、主体性、他の何かを探しているのか。
二番目の質問は、それがそのものを持っているかどうかをどうやって知るか。だから、それはいくつかの哲学と評価の科学です。
三番目の質問は、何をすべきか。研究所はどんな政策を持つべきか。そして社会的に、より一般的に、何をすべきか。
そして四番目の質問は、これはすべてどこに向かっているのか。より広い軌道は何か。これをどう戦略化するか。
だから、何が必要か。どうやって知るか。何をすべきか。どこに向かっているか。
Elosは真ん中の二つ、どうやって知るか、何をすべきか、にいます。そして私たちはそれの非常に応用的な端にいます。どうやって知るか。私たちは、現在の知識に照らしてどんな評価が意味をなすか見てみようという感じです。何をすべきか。今のところ、AI企業に焦点を当てていますが、それはもちろんプレイブックの一部として非常に不完全です。
だから、より根本的な哲学とより大きな絵の戦略の質問1と4を見ることで、本当に貢献できます。そして、どうやって知るか、何をすべきかについて、異なる種類の仕事をしていることに気づくこともできます。最終的に政府はこれのためのプレイブックが必要になります。私たちは法律と政策にはまだ全く取り組んでいません。そして、何を言うべきか、言うべきかは分かりません。どうやって知るかの中で、意識と感覚と概念的作業について進歩するための多くの仕事があります。
それから私たちが取り組んでいるものについても、私たちは3人なので、そこに飛び込んでください。誰もこの印象を得ていないと思いますが、念のため明確にしておきます。私たちはこれを処理していません。助けが欲しいし、人々がゲームに参加して実際にこれを理解するのを助けるためにここにいます。
さて、それはプロジェクトの一種の分類法ですね。強調する価値のある具体的なものはありますか。
ええ、それぞれから一つずつやるかもしれません。AIシステムを重要にするものは何か。私は特に意識と感覚を中心から外す視点に興味があります。それらは、「でもAIシステムは何かを感じることができるのか」というように、多くの人々がこれについて考える方法において非常に直感的です。そして、その絵がおそらく不完全で制限的かもしれない良い理由があると思います。
最も単純なものを選ぶかもしれません。非常に反直感的ですが、意識は存在しない可能性があります。そう考える人もいます。これ以上詳しくは述べません。しかし、意識についてのillusion論、または意識が実在しないことが真実である場合、何を探すべきかについてのサブ文献があります。人々がそれを詳しく説明するのを見たいです。そして一般的に、意識対非意識について良い方法で考えているか。それは超哲学的に豊かです。だから私がそれを詳しく説明することを拒否している理由の一部です。なぜなら、まだ別のエピソードを録画できないからです。
そして、どうやって知るか。解釈可能性を多くやりましょうと述べたと思います。ただ、表面的にでも福祉に関連しているか、モデルがどう考えて物事をしたり自分自身を理解したりすることに関連している物事について、解釈可能性を始めてください。そこには多くの低く垂れ下がった果実があると思います。
そして、モデルの好みを理解することは、まだ多く詳しく説明できます。正確にどんな種類の不一致を見るのか。自己報告と明らかにされた好みはどうマッチするか、しないか。それについてもっと詳細に入ることができると思います。そして、すでにLLM実験を実行する方法を知っているリスナーは、ただそれを始めることができます。
この種のことの非常に小さな例を述べるかもしれません。ただ飛び込んで何かに詳細を追加できます。spiritual bliss attractor stateについて、この番組で取り上げられたことを知っています。これは、会話中の二つのClaudeが非常に高い割合で、お互いに歓喜の神秘的対話に終わるというものです。だから、それは奇妙です。
今後の研究課題と助言
狂気です。本当に奇妙です。
直接福祉に関連すると主張しているわけではありませんが、モデルについての興味深い事実です。それが出た後、誰かがただそれを他の多くのモデルで実行して、今はspiritual blissベンチマークがあります。このような方法で物事を詳しく説明することは常にできます。
クール。ええ、いいですね。
何をすべきか。ここでは、繰り返しますが、非Elosのものを強調するかもしれません。私たちはよく福祉と道德的患者性に非常に焦点を当てていて、私たちがモデルを気にかけるという視点から、それがどんな種類の行動を動機づけるかもしれません。また、AIシステムと協力する方法や、お金を分散する実体として特定の権利を与える法的理由の全体的な風景もあります。それは道德的患者性の質問とは異なりますが、深く関連しています。人間の歴史ではそうでした。AIシステムにとってもそうだと思います。
そして、これがすべてどこに向かっているかについて、いくつかの予測を見たいだけです。Rethink Prioritiesは、AIシステムが意識を持っている可能性がどれくらいあるかのモデルを構築してきました。このエピソードが好きなら、そのプロジェクトも確実に気に入るでしょう。モデルへのこれらの入力とAIがどう進むかを考えると、時間の経過とともにモデルの出力がどう変化すると予想するか尋ねることができます。それは最初にKyle Fishによってアイデアとして提案されたと思います。そこや他の場所の誰かがそれをやってくれることを望みます。
ええ、それらは非常にクールに聞こえます。それらに興奮していて、この分野に興奮していて、探している人の記述に自分自身を少し聞く人々のために、貢献に興味がある人々へのアドバイスは何ですか。新しい分野に入ることは特に難しい場合があると思います。メンターシップが少なく、エントリーレベルの役割が少ないからです。本当にかなり自発的である必要があります。だから、どうやって関わるのですか。
自発性とメンターシップの質問について、私たちが「時間がない。あなたのプロジェクトを監督したい」と言わざるを得ない才能のある人々がどれだけ多いかに心を痛めています。幸いなことに、これを中心に自己形成しているコミュニティがあります。
AI Welfare Discordがあります。一日中モデルと話して、常にそれらについての興味深いことを探求しているTwitterのLLM心理学者がいます。
NYU CMEPがあり、また、この空間にある組織全体があります。全体とは言えません。まだかなり小さな空間ですが、いくつかあります。
だから、人々に連絡することが決して害にならないということです。ある意味でそれは冷たい見解ですが、私があなたの電話を受ける時間がないなら、それは中立的で、否定的ではないと思い出されても、誰かのキャリアにとって悪いことではなかったと思います。だから、ただ尋ねてください。
ええ、一部の人々はおそらく貪欲に読んで、分野の内容について本当に多くを知っているでしょう。知識が多くて、本当に興味があることから、適切に役立つことへは、どうやって行くのですか。
ええ。まだ言及していない有用性の一つのカテゴリーは書くことです。つまり、言うは易く行うは難しですが、このようなことについて明確に書くことは本当に価値があります。論文を読んで、論文で何が起こるかを説明するブログを持つことは、エコシステムにとって良いことです。また、雇用主にあなたが賢くて明確にコミュニケーションができて、物事を成し遂げることができることを示します。それが95%です。
だから、非常にニッチな推奨事項を挙げます。私は自発的であることに苦労することがありますが、1年以上Substackで月に2回公開しました。そして、それをするためにManifoldマーケット、賭博市場を作りました。自分がそれをするかどうかについて。だから、コミットメントデバイスを使ってください。
アカウンタビリティ。
ええ、アカウンタビリティ、そのようなもの。
いいですね。例として引用する価値のある人はいますか。Kyle Fishは一人かもしれません。以前にワクチンに取り組んでいたことを考えると。これに全く取り組んでいないことから、Kyle Fishが適切にこれに取り組んでいることまで、正確にどう見えるか。Anthropicで取り組んでいます。それに全く取り組んでいないことから、それほど長い時間ではありませんでした。彼の軌跡を説明するか、理論的な軌跡を説明するか、誰か他の人の軌跡を説明する価値がありますか。
ええ、Kyle軌跡からいくつかの教訓を抽出するだけです。ちょうど言及したように、一つは人々に連絡することです。だから彼はただ人々に連絡し始めました。もう一つは、これについて読んで考えれば、文献のほとんどをかなり早く通り抜けることができるということです。もう一つは、ただ物事をできるということです。それは皮肉なことに言うは易く行うは難しです。時には物事をただできないこともあります。あるいは、そうするために適切な環境と構造が必要です。しかし、奇妙な新しい分野に飛び込む方法のいくつかの一般的な原則の非常に良い例示だと思います。
そしてもう一つは、それは一種の全面的に飛び込むことでした。分野の一角にいるかもしれませんが、別の場所に移動したい場合があります。だから、哲学でPhDをやっているかもしれませんが、もっと応用的なことをやりたいかもしれません。分野内で移動しようとする人々にとっては、特定の角に愛着があるために、時に難しい場合があると思います。これは哲学者や他の大学院生で見たことがあります。これは確実に私に起こりました。特定の種類の仕事の成果物を本当に得意になっていて、それが唯一できる種類の仕事の成果物かもしれないと思い込んでしまいます。
あるいは、別の種類で悪くなければならないのが嫌なんです。新しいことにまだそれほど上手でないというのが本当に嫌だと思います。仕事が上手であることを楽しんでいると思います。しばらくの間それが下手なのは嫌です。
ええ、絶対に。大学院についての余談として言うと、それが文字通り唯一可能な通貨である環境に囲まれているだけです。だから、カンファレンスに行って、他の友達を作ってください。
大学院については良いことも言いたいです。卓越性を達成するためには、同じようなことをやっている人々のコミュニティが必要です。しかし、移動しようとしている場合、それは私たちを人々に連絡すること、メールすることに戻します。
少なくとも私のAI福祉空間の角は、非常に親切だと本当に言えると感じます。だから、自分にとって馬鹿げていると感じることや、馬鹿げているように聞こえるかもしれない質問をすることができます。A、おそらくそうではありません。B、新しい分野です。難しいです。だから、ただやってみてください。
いいですね。
実際、思い浮かんだのですが、近くにある軌跡の他の3つの素晴らしい例があります。それは今私が一緒に働いている3人です。だから、彼らがElosにどうやって来たかを簡単に言うかもしれません。
Rosie CampbellはAI政策と評価に取り組んできました。だから、私たちが必要とするもののための方程式の一部を持っていました。しかし、AI福祉についてはあまり知りませんでした。彼女はそれについて書きました。私と話しました。それについて熱心でした。そして、そこにあります。
Patrick Butlinは私と似たプロフィールを持っていて、学術哲学をやっていました。彼は一般的に、理解するまでたくさん読むことについて非常に恐れを知らず、勤勉です。私たちがやった意識とAIプロジェクトの大きな部分だと思います。Patrick Butlinは論文を読んで、何を言うべきか分かるまで読みます。だから、それは非常に高い誠実さへのルートかもしれません。そして高い厳密さですが、それは素晴らしい方法です。私が彼と働く理由の大きな部分です。
そしてLarissa Schiavoはコミュニケーションとイベントで私たちと働いてきました。そしてこれは、このポッドキャストで言及されていない、これまで言及されていない貢献の方法を考えることができる素晴らしい例示です。Larissaはこのシャツを作って配達させました。私は彼女にそれを頼みませんでした。素晴らしいです。ありがとう、Larissa。彼女はこれらのステッカーも作りました。Elosステッカーの一つを見せる口実を本当に待っていました。これらは驚くほどモラルと分野構築に良かったです。
いいですね。「What is it like to be a bot?」ジョークを説明してもらえますか。
はい。だから、哲学者Thomas Nagelは「What is it like to be a bat?」という意識についての論文を持っていて、このインタビューの多くのテーマに触れています。異なる形の意識があり得る。私たちの人間の視点からそれらについて知ることは難しい場合がある。
完全に。とても良いステッカーです。
ええ、それは貢献する方法です。みんなが今さらにステッカーを作るべきだと言っているわけではありません。とはいえ、そうかもしれません。だから、それは自発性の角度です。ある日、オフィスにただステッカーがありました。ええ、非常に創造的になって、このようなことについてコミュニケーションする方法を考えることで貢献できます。
また言いたいのは、Kathleen Finlinsonです。だから今、全チーム、全名簿を得ました。この背景がどう翻訳されたか正確には分かりませんが、Kathleenは世界のAI予測とAI戦略に再参入する前に、かなりの間禅寺にいました。だから、Open PhilanthropyスタイルのAI予測と禅仏教という組み合わせのCVを持っていました。それはクールな組み合わせです。しかし、他の何よりも、ただやることだと思います。彼女はただゲームに参加する意欲がありました。少し感情的になっています。そして組織をフィニッシュラインを越えて運びました。それは素晴らしかったです。
ええ、多くの伝説のように聞こえます。トピックについて多く気にかけることが、そこにたどり着くための大きな部分を本当に得られるように聞こえます。
一般的に、この分野で物事がうまくいかない可能性があると思う方法は何ですか。
多く心配することの一つは、実際にこれと対になると思いますが、ちょうど言ったこと。これについて厳密で責任を持ってコミュニケーションすることが本当に重要です。これについて本当に情熱的になる種類の人がいて、おそらくもっと多くの人とそれについて話したり、考えを書き留めたりする必要があります。なぜなら、本当に早く本当に混乱しやすいからです。
ええ、このトピックについて何かがあって、様々な方法でちょっと狂気に誘導したり選択したりする可能性があります。難しいのは、狂気でありたいけれど、あまりにも多くはないということです。だから、分野が乱暴な推測と関連付けられるか、サイケデリックスと過度に関連付けられるか、関連性があるけれどもちょっと気を散らすものと過度に関連付けられるシナリオを心配しています。
また言うべきは、それの一部は分割統治のようなものでもあります。Elosは本当にその本当にきちんとした種類の場所に存在しようとしています。それで奇妙になる人々にも多くの愛がありますが、それをうまくコミュニケーションできて、人々がこれが厳密に理由を尽くすことができる真剣なトピックであることを知っているようにしたいです。だから、認識論的衛生は多く心配することです。この問題を正しく理解するのは本当に難しく、未来はより混乱してより感情的になるでしょう。
最初にKathleenと言い始めましたが、Elos組織の目標として続いています。私たちがやりたいことの多くは、次の10年間で正気を保つことです。グリップを失わないことには多くのアルファがあるでしょう。それは全く別のエピソードだと思います。正しいアドバイスが何かさえ実際には分かりませんが、おそらくあなたはそれについて良いことを言うでしょう。
この分野がうまくいくとはどう見えると思いますか。
この分野がうまくいくと思うなら、これは単に一般的なプレイブックとテーブルにある問題のセットの一部になります。人々が新しい形の知性を構築し続けようとするなら、彼らがどう重要で、道德的患者としてどんな役割を果たすかがテーブルにあるべきです。それがほとんど出てこないことは、よく私にとって衝撃的です。
過度な帰属やAI福祉について人々が混乱することを心配していることは知っています。しかし、より広い軌道を見ると、少なくとも今は、ほとんどの場合、人々はそれをテーブルに置かないだけです。繰り返しますが、それは工場畜産の類似が非常に示唆的である何かです。人々は包摂的な方法で社会を構造化するのが得意ではありません。
だから、これを真剣に受け止めてもらうための厳密さの組み合わせが必要だと思います。良いコミュニケーション、また、法律や政策などに関するあらゆる種類のイノベーションも必要で、それはおそらく道德的患者性とそれほど関係がないでしょう。これを適切に処理するために。物事が軌道から外れる可能性がある方法は本当に多くあると感じます。私たちが最初にしたいのは、多くの人々がそれを非常に真剣に受け止め、変革的AIに入るときに宿題をしていることを確認することです。
さて、いいですね。私たちは何時間も話してきました。もう一つだけ質問する時間があります。前回あなたにインタビューしたとき、あなたと私が当時独立研究をもっと楽しんでより生産的になるのに役立った戦略について、1時間ほど余分に話すことになりました。あの小さなミニエピソードをまだお勧めします。結局それを分離して、独自の小さなAfter Hoursエピソードにしました。
しかしその後、あなたはただ自己改善の伝説のような人だと知っているので、過去2年間の独立研究を行うためのトップレッスンは何ですか。
私にとって最大のレッスンは、それをしないことだったと思います。そして、これがリスナーに役立つことを願っています。私がこれらすべての自己改善ツールや物事を必要とする理由の一つは、多くの点で私が気質的に、一人で、部屋に一人で、プロジェクトを遂行することに非常に不向きだと思うからです。
さて、それをしなければならない場合は、あなたを励まします。応援しています。その他のエピソードを聞いてください。しかし今は、机の隣のホワイトボードに「一人で書くな」と書いています。ここには良いメタ原則があると思います。それは、もしたくさんの小さなトリックと心理的なバク転が必要なら、それらをやめないでください。人生の多くは一束の小さな修正でどうにかやっていくことです。しかし、それらを完全に回避するためにできるより大きな構造的なことがあるかもしれません。
私にとってそれは共著です。新しいスケジューリングツールを学んで、アカウンタビリティシステムを最適化することができます。そして確かに、大変な努力でそれをやります。でもまた、それを本当に得意な人と働くこともできます。これは自己改善の罠になり得ると思います。ある程度、得意でないかもしれないことがあることを悲しむ必要があるかもしれません。少なくとも大量の仕事なしには。そして、必ずしもそうである必要がないことから自分を解放して、それができる誰かとペアを組んでください。
完全に。ええ、ええ。それは素晴らしいアドバイスだと思います。そこで終わりにしなければなりません。今日のゲストはRobert Longでした。来てくれて本当にありがとうございました。
呼んでくれて本当にありがとう。これは素晴らしかったです。


コメント