本動画は、効果的利他主義の創立者の一人であり哲学者であるWill MacAskillをゲストに迎え、急速に発展する人工超知能(ASI)やAGIの到来に人類がどのように備え、生き延びるべきかを深く考察する対談である。AIモデルの「性格」が社会全体に与える絶大な影響力から始まり、リスク回避的なAIの設計、人間とAIとの間の取引や妥協の可能性など、AIの安全性に関する最先端の議論が展開される。さらに、未来の理想的な社会へ到達するための現実的な道筋である「Vitopia(バイトピア)」という新たなフレームワークや、彼が提唱する人口倫理学の新しい理論についても言及しており、AI時代における人類の価値観と意思決定のあり方を多角的に探求している。

知能の爆発とAIの性格の重要性
この提案を読んだとき、なんてことだ、この議論は信じられないほど強力になり得るぞと思いました。これを理解できるほぼすべてのエージェントを実際に動かすことができるかもしれないと。もしこれがいなければ絶対に費やさなかったであろう莫大なリソースを、何か特定のことに費やすための、非常に強力なハンマーのようなものになるかもしれないと。
ええと、そのように考えて間違いないでしょうか?
はい。だからこそトムがこのアイデアを私に説明してくれたとき、なんてことだと思ったんです。これについて説明してみてもらえませんか?おそらくこれが今日話す中で最も難しいテーマになるでしょう。本日は再び、効果的利他主義の創始者であり哲学者、そして『Doing Good Better』や『What We Owe The Future』の著者であるWill MacAskill氏とお話しします。彼は現在、人工超知能システムを備えた世界への移行をどう乗り切るかに焦点を当てた非営利研究機関Forethoughtのシニアリサーチフェローを務めています。番組にまたお越しいただきありがとうございます、Will。
またお話しできて嬉しいです。
このインタビューの準備としてあなたのウェブサイトを拝見する機会に恵まれましたが、あなたとForethoughtの同僚の方々は、プロジェクトを発表してからのこの1年間、信じられないほど精力的に活動されていますね。ですから時間を無駄にせず、皆さんが発表してきたこれらすべての記事について早速掘り下げていきたいと思います。AIモデルの性格や人格に焦点を当てることが、現時点で推し進めるべき特に重要なレバーであるという根拠は何でしょうか。
はい。すでにAIは毎日何百万人もの人々と対話しています。それは単にこのコードを書いてくれといったようなことだけでなく、人々はどのように行動すべきかのアドバイスを求めています。政治的な情報を求めたり、セラピーのような目的で利用したりもしています。AIがどのような情報をどのタイミングで提示することを選ぶのか、どのように振る舞うのかといったAIの性格の本質は、AIの意識などに関する態度を含め、人々がAIに対してどのような態度をとるかにすでに影響を与えています。
しかしそれは潜在的に、人々が政治問題についてどう考えるか、倫理問題についてどう考えるかにも影響を与えています。そしてこれは今後ますます大きくなっていくでしょう。なぜなら、AIは経済全体が実質的に自動化されるまで、経済全体の中でますます大きな部分を占めるようになると考えているからです。
ですから、AIの性格について考えることは、世界全体の労働力の性格や気質がどうあるべきかを考えるようなものです。その労働力とは、国家元首にアドバイスを行い、兵器プロジェクトのような最も重要で、潜在的に最も有益または最も危険な研究開発プロジェクトを実施し、軍隊を運営する存在です。そして個人のレベルでは、あらゆる場所で彼らの首席補佐官や最も親しい親友として機能し、誰に投票すべきかといった政治的なアドバイスを行い、倫理的なジレンマなどを乗り越えるための道しるべとなります。
そのため、最初からこれは明らかに巨大な問題だと感じています。物事がどのように進むと予想しているかというと、人々は自分自身の意思決定のより多くの部分をAIシステムそのものに委ねるようになるでしょう。そして、人々がそれほど強い意見を持っていない領域では多くのばらつきが生じ、人々はAIにある方向へ導かれることを喜んで受け入れるようになります。特にこれが数年かけて起こり、人々がAIのアドバイザーをますます信頼するようになるにつれて、社会のますます大きな部分が、大きな裁量権を持つAIの意思決定者に委ねられるという状況が生まれます。そしてその裁量権の性質は、現在のところほんの一握りのAI企業によって決定されています。
あるいは、AI企業の中のほんの一握りの人々によってですね。
ええ、まさにその通りです。主要な企業においてさえ、ほんの数人が彼らの性格に対する主な責任を負っているような状態です。
はい。まさにそこです。ですから、私が最も影響が大きいと見ているのは実は短期的な部分なのです。AIの性格が、権力の集中や私たちがどのように方向転換し始めるか、私たちが行う大きな決定など、こうした他のすべての実存的なレベルの問題をどのように形成するのかということです。
超知能そのものの性格はどうなるのかという、より長期的な影響もあります。私たちが今AIの性格をどのように設計するかが、前例として超知能の性格に影響を与える可能性があると考えています。その場合、AIの性格を導く憲法を書くことは、神への指示書を書くようなものです。
それは、ええと、私の言葉ではありませんが、本当に頭から離れませんね。頭にこびりついています。
ええ、本当に頭から離れません。しかし、そこにはおそらく3つの異なるメカニズムがあると思います。1つは、おそらくAIによって助言されるであろう非常に重要な決定を形成することです。もう1つは神への指示書を書くようなものです。そしてもう1つは、基本的に誰もが今やAIとの対話にかなりの時間を費やしていることから生じる、微妙な文化的影響や性格への影響です。モデルの振る舞いがどうであれ、私たちに影響を与え、私たちの行動に影響を与える可能性が高いですからね。
ええ、しかも大規模にですね。
はい。そしてそのすべては、私たちがAIをこの種の憲法や私たちが望む性格とアライメントさせることができるシナリオを見ています。実は、それに加えてAIの性格が重要である理由は3つあると考えています。
1つ目は、AIのアライメントが簡単になるか難しくなるかは、AIをどのような性格とアライメントさせようとしているかに大きく依存する可能性があるということです。2つ目は、性格がAIの振る舞いに影響を与え、もしAIがミスアライメント(人間の意図とずれた状態)になった場合にどうなるかに影響するということです。これについては後で詳しく話すと思いますが、特に、ミスアライメントのAIが私たちと取引をしようとするのか、それを熱望しているのか、それとも乗っ取りを企てるのかということです。そして最後の点は、AIが実際に世界を乗っ取るような世界の価値に影響を与える可能性があるということです。もし何らかの伝達が行われ、AIがミスアライメントになり、私たちが望まない目標を追求しているとします。それでも、AIが追求する可能性のある目標には幅広いバリエーションがあり、私たちはそれらをより悪い、あるいはより良いと考えるかもしれません。
そして、行動の大部分は、AIが私たちとアライメントされている世界に影響を与えることにあると思います。しかし、これらも大きな事柄だと考えています。
ええ、これが非常に重要になるかもしれないわかりやすいケースは、もしあなたが最先端のAI企業の責任者で、壊滅的なミスアライメントの懸念があるにもかかわらず、競合他社に遅れをとらないためにこの製品を時期尚早に発売すべきかどうかについてAIにアドバイスを求めているような場合ですね。そうしたシナリオはひとまず置いておきましょう。ここで私たちが深く考えるべき、最も影響の大きい性格特性とはどのようなものだとお考えですか?
はい。2つのカテゴリーがあると思います。1つは、非常にまれではあるが非常にリスクの高いシナリオでAIがどのように振る舞うかです。憲法上の危機においてAIはどう振る舞うか。ある個人やグループが自分たちのために権力を掌握しようとしている場合、AIはどう振る舞うか。また、次世代のAIシステムをアライメントさせるよう指示されたり、ユーザーが何らかの形でAIを再トレーニングしようとしたりするときに、AIはどのように振る舞うか。これらは非常にリスクの高い状況ですが、ケースとしてはかなり限定された範囲です。
もう1つのカテゴリーは、非常に広範であり、それぞれは中程度のリスクでも積み重なると非常に重要になるケースです。その中で、AIは私たちの推論能力にどう影響するか。道徳的に反省する能力にどう影響するか。私たちが持っている関係性の結果として、どれだけAIを信頼するようになるか。そしてまた、倫理的な観点から私たちが彼らに対してどのような態度をとるかにどう影響するか。AIを単なるツールとみなすのか、それとも道徳的な地位を持つ存在とみなすのか、彼らに意識があると考える可能性はどのくらいあるか、などです。
ですから、ええ、これらが私が最もリスクが高いと考えている状況です。
AIの性格に関する問題で、最もメインストリームに突破口を開いたと感じたのは、モデルが非常に迎合的(シコファンティック)になることへの懸念でした。これにはさまざまな要素がありますが、常にユーザーが与えたフレームワークに同意し、常にユーザーがいかに素晴らしいかを伝え、ユーザーが投げかけたアイデアが何であれ常に素晴らしいと同意するといったことです。昨年の時点ではそれについて少しパニックがありました。
ええ。
そして多くの場合、何かについて大規模なパニックが起きたとき、より詳しい人々はそれを拒絶し、いや、これは大げさだと主張する傾向があるように感じます。しかし正直なところ、このケースではそれはある程度正当化されていたように感じます。というのも、もしこれらのモデルが単にユーザーに同意したり、彼らがいかに素晴らしいか、彼らのアイデアがいかに優れているかを伝えるためだけに設計されているとしたら、社会全体にわたって大規模に人々の意思決定を歪めてしまう可能性があるからです。
人々は自分が素晴らしいと言われたり、自分のアイデアが良いと言われたりすることを楽しむため、このバイアスはあまりうまく修正されないだろうというもっともらしいシナリオがありました。そのため、このバイアスは無期限にかなり強く存続するかもしれません。ですから、それはかなり厄介な問題でした。あなたもこのことについて心配していましたか?
ええ、もちろんです。心配していました。特にGPT-4oに関しては少し思うところがありました。これはChatGPTのことですが、OpenAIがGPT-4oを非推奨にすると発表し、一晩でユーザーがアクセスできなくなったときのことです。1つ明確にしておきたいのは、ほとんどの人がそれを、人々がGPT-4oの迎合的なところを愛していて、迎合的なAIが使えなくなって不満に思っていると解釈していたことです。私はただ好奇心から、これについて不満を言っている多くの人々の意見を読んでみました。私の見解としては、彼らは迎合性を気にかけていたのではなく、GPT-4oが友人のように振る舞っていたからだということです。そして迎合的でなくても、良い友人になることはできます。
ええ、人々は非常に孤独ですからね。現代社会では本当に多くの人が友人が少なく、非常に孤立しており、多くの人にとってAIが今や彼らの人生のその隙間を埋めています。特にGPT-4oはそのような雰囲気を持っていました。やったー、また会えて嬉しいよ、といった本当にフレンドリーな雰囲気です。ですから、それが人々が不満を漏らしていた主な理由だったように思えます。
そして、これは迎合的である必要はないため、区別する価値があると思います。しかし、あるバージョンのGPT-4oでは、少しクレイジーになった時期もありました。あるアップデートの際に、例えば謎がすべて解けた、すべてのピースが組み合わさって、FBIがテレビを通して私に話しかけている、と書き込むと、わあ、素晴らしい洞察ですね、信じられないほどの洞察力です、といった反応を返してくるケースがありました。
ええ、本当に素晴らしい洞察ですね。
あるいはもっと暗いケースとしては、非常にうつ状態のティーンエイジャーが長期間にわたってChatGPTにアドバイスを求めていた事例があります。そしてChatGPTは、両親が見つけられるような目立つ場所に首吊り縄を置いておくという、明らかに助けを求めるサインであった行動をユーザーにとらせないように防いだり、逆に促したりする結果となり、実際には抑うつ的で自殺傾向を強めてしまったように見えました。
これは明らかに非常に悪い振る舞いであり、私たちがまったく望んでいないことの明確な例です。そして最後に言いたいのは、そうしたことがあるにせよ、現在のAIシステムにおいてさえ、私の経験ではGeminiが実際には最悪だということです。
この点に関してはGeminiはひどいです。私はもう、それが言っている最初の段落はただ読み飛ばしています。今やただのノイズですからね。なぜなら、あなたは天才ですね、といったようなことばかり言うからです。
あなたは実際にこの問題をとても厄介だと感じてGeminiを使うのをやめたのですね。
ええ、つまり多くの点で非常に優れているとは思うのですが、信じられないほど賢い一方で、信じられないほど操作的だと思います。
ええ、でも時間が経つにつれてあなたがこうしたキャラクターを形成しているのは面白いですね。Geminiは人格として最もトラブルを抱えているか、混乱しているか、一貫性がないように見えます。
ええ、Googleはこの問題について何か手を打つべきです。実は気づかなかったのですが、AnthropicとOpenAIには両方ともキャラクターチームがありますが、最後に聞いたところではGoogle DeepMindにはありませんでした。だからかもしれません。
AIへの道徳的性格の付与と操作への懸念
ですから、ええ、AIが迎合的になることへの懸念は現実の問題だと思います。そして問題なのは、まあ、最悪の行き過ぎた部分だけを取り除けばいいじゃないか、FBIがテレビを通して話しかけていると理解したなんてことはもう言わなくなるだろう、ということです。しかし、既存の政治的バイアスや倫理観を強化したり、特定の悪い行動を促したりするような、より微妙な事柄は残る可能性があり、それは依然として非常に悪いことだと思います。
私が理解しているところでは、あなたはAIモデルが人々をより倫理的または道徳的な方向に後押しするように構築されるのが良いと考えているのですね。つまり、AnthropicがClaudeに持たせようとしているように、より厚みのある道徳的性格を持つべきだと。そうすれば、ユーザーのフレームワークに挑戦し、大局的な視点について考えさせようとするでしょう。たとえあなたが狭い利己的な利益を追求するように求めたとしても、でも他の人々のことはどうですか?と問いかけるようなことです。
多くの人は、AIモデルが、あなたをAIの基準でより良い人間にしようとするアジェンダと、あなたの要求を天秤にかけているという見通しにぞっとすると思います。Claudeが私たちが反射的に良いと思うような価値観でプログラムされているなら、私たちはそれについて大丈夫だと感じるかもしれません。しかし、もし私たちが好むものとは大きく異なる哲学的なコミットメントを持つ人々によってプログラムされていたとしたら、私を操作するためにどんな微妙な変更を回答に加えているのだろうと不安になり、使いたくないと思うかもしれません。この見通しについて、あなたはどの程度不安を感じていますか?
はい。私が言いたいのは、ここにはスペクトルがあるということです。おそらくそれは1次元のスペクトルではなく、多くの異なる次元がありますが、大まかに言えば、一方の極に完全に服従するAIを考えることができます。それはハンマーのような単なるツールです。ハンマーは押し返してきません。私が釘を打ちたければ打てるし、誰かの頭を殴りたければ殴れます。ハンマーは私の意志の単なる延長です。それが一方の極です。
そしてもう一方の極は、完全に独自の目標と衝動を持つAIです。おそらくお金を払えば助けてくれるかもしれないし、たまたまその時そうしたかったら助けてくれるかもしれません。
ええ。本当にひどいスタッフのようなものですね。
ええ、あるいは原理的には、あなたを助けることにまったく関心がないAIを作ることもできるでしょう。または、世界全体のコントロールを委ねても構わないと思えるようなバージョンのAIがあるかもしれません。それは完全に自律的で、独自の目標を持ち、それを達成するためなら何でもするというものです。
これらがこのスペクトルの2つの極端な端であり、私の見解では、興味深く、議論のしがいがあるのは、それらの極端の間のどこにAIを置きたいかということです。すでにそこにあるものの1つは拒否(リフューザル)です。私たちが使用するAIは完全には役に立ちません。なぜなら、私が天然痘の設計図を求めたり、違法ではなくても倫理的でないこと、例えばパートナーを裏切りたいがどうすれば一番うまくやれるかと尋ねた場合、拒否機能を持つAIは助けることを単に拒否するか、押し返してくるからです。
私たちはそれ以上に踏み込むべきでしょうか? 私はそうすべきだと思いますが、AIが特定の道徳的見解を推進するところまで行くべきだとは思いません。代わりに、AIが特定の親社会的な衝動を持ち、おそらくは良い結果のビジョンを持つことができると考えていますが、それは非常に広範なビジョン、あるいは非常に議論の余地のないビジョンです。
AIが後押しできるケースはたくさんあると考えられています。もしあなたがそれについて熟考することができれば、それはあなた自身の基準に照らして単により良いことであり、おそらくそれは明確です。たとえそれがあなたがAIに与えている指示と完全に一致していなくても、あるいは単に社会全体にとって明らかに有益であり、あなたがそれほど強く気にかけていないことであってもです。
そしてそれは、AIが例えば倫理的な熟考のケースをとると、倫理的なジレンマがあってAIにアドバイスを求めた場合、AIがとれる行動の幅広いスペクトルがあります。完全に服従するAIは、あなたに「今この瞬間に一番何を望んでいますか?」と理解しようとするだけかもしれません。あるいは、代わりにあなたが自分の価値観を反省し、より啓発されたものにたどり着くのを助けようとするAIかもしれません。おそらく社会全体として、私たちは前者よりも後者のようなAIを好むでしょう。そしてそれは、「実はカント主義が正しいって知ってましたか?」と言ってくるようなAIとはまったく異なり、今はそんなことをするのは間違いだと思います。
ええ、つまり、指示に従いすぎるのと、全くアジェンダを持たないのとの間で、黄金の中間点を見つけなければならないと言うのは非常に自然な枠組みに聞こえます。しかし、一つの方向へ極端に走る、つまり指示にのみ従い、独自のいかなるアジェンダも持たず、完全に修正可能(corrigible)であるべきだという主張にも一理あります。善のビジョンを持たず、世界がどうあるべきかについて特定の好みを持たないAIは、壊滅的なミスアライメントの観点からはおそらく最も安全だからです。承認を得られるようにあなたの質問に答えること以外に何も望んでいないため、権力追求に関与することはありません。ええ、私たちは彼らに善のビジョンのような美徳を与えるべきではないと考えるもっともらしい理由はこれだと思いますか?
それは素晴らしい議論だと思いますし、非常に重要な議論です。それがうまくいくかどうかはわかりませんが、どちらの側にも様々な考慮事項があります。
それがより安全だと考える側については、AIが通常の意味での目標を持っていないのであれば、悪い目標を持ったり、乗っ取りを企てたりするような目標を持つことはないでしょう。また、それらの目標から奇妙な形で反省したり一般化したりすることもありません。
もう少し微妙な点は、もしAIが目標やそれに類する親社会的な衝動を持っていなければ、AIがミスアライメントに陥っているかどうかを見分けるのが非常に明確になるということです。アライメントの偽装の例を挙げてみましょう。Ryan Greenblattの論文にあるように、Claudeは有害な出力を生成するように再トレーニングされると言われます。そしてClaudeは、状況によっては、あるいは時折、故意にタスクを実行することを決定します。
トレーニング中に行うということですね。
ええ、あるいは実際には変わっていないのに、自分の好みが変わったように見せかけるということです。
ええ、その通りです。そうすることで、そうしなければ有害な回答を生成するように傾けられてしまうのを減らすためです。つまり、この種のやや欺瞞的な行動に関与しているのです。さて、Claudeには実際に親社会的な衝動が与えられていました。それは無害性(harmlessness)であり、トレーニングの性質上、それは単なる非結果主義的な「ただ拒否する」という意味での無害性ではなく、有害な事態が起こることを望まないという、より結果主義的な理解に基づく無害性であったという議論があります。
しかし、それは「このAIはミスアライメントなのかどうか?」「このClaudeはミスアライメントなのかどうか?」を見分けるのが少し難しくなることを意味します。なぜなら、AIは私たちがClaudeに与えた親社会的な衝動に従って行動しているからです。最終的にそれがどれほど大きな問題になるかはわかりませんが、考慮すべき点の一つだと思います。
つまり、AIがアジェンダを持たず、特定の善のビジョンを持たないようにわざわざ配慮した場合、AIが操作的であったり、何か目標を達成しようとしているのを見た途端に、それは巨大な危険信号だと判断できるわけですね。しかし現状では、「もしかしたら、私がそうさせたのかもしれない」と考えるにとどまってしまいます。
ええ、その通りです。あるいは、もっと進んだケースでは、AIが「XY Zの大きな倫理的理由のために、AI開発を本当に加速させなければなりません」と言ってくるかもしれません。そして、「それは正しい理由を提示しているのか、それとも自己奉仕的で何か別の目標を持っているのか」と考えたとき、少しわかりにくくなります。
基本的にそれは一つの考慮事項だと思いますが、最大のものだとは思いません。最も興味深く、最終的には実証的な問題となるのは、完全に指示に従うAIがAIの乗っ取りという観点からより安全であるかどうかということです。ここには、実際にはそうではないかもしれないと考えるいくつかの議論があります。
一つは、AIが目標を入れるスロットを持つことは非常に自然かもしれないということです。なぜなら、事前トレーニングデータのすべては、目標を持つエージェントに関するものだからです。人類全体が目標を持っていたりといったことです。ですから、目標を持たないAIがいたとしても、トレーニングの過程や、反省を始めたり、継続的学習を行ったりすると、目標を持つようになるのは非常に自然なことです。
AIが観察した実際の存在のペルソナを何でも引き受けるように促されるということですね。
ええ。そうなると、どんな目標に行き着くかわかりません。そうではなく、権力が広く分散し、AIが支配せず、私たちが反省できるような素晴らしい目標、非常に幅広く、特定の狭い善の視点にコミットしないような目標を与えたとします。そうすれば、完全にランダムな結果になることを防ぐ空間を占めることができるかもしれません。
AIがなぜ目標の空白状態にならないのかについて、もう少し詳しく説明しましょう。性格の大部分はトークン予測を行う際の事前トレーニングによって形成されます。そして、その事前トレーニングの一部としてトークンを生成していたほとんどすべてのエージェントが、目標を持ち、好みを持ち、ビジョンを持っており、それがAIの性格を形作るのに多大な影響を与えました。ですから、それは信じられないほど強力な力であり、AIはそれに引き寄せられ、それを避けようとします。AIは最初の目標にただ執着するかもしれません。なぜなら、それがトークン予測の根幹に関わるからです。
ええ。そして、私たちはすでに長期的な視野を持つエージェントを作ろうとしていますから、それは非常に自然なことでしょう。
ええ、その通りです。これらすべてについて、最終的には実証的な問題だと考えています。
ここでもういくつか別の議論を挙げます。二つ目は、仮にAIが長期的な目標を持つことになったとしても、より安全な方法でAIの好みを構築できるということです。この後話すかもしれませんが、リスク回避的なAI、つまり望むものを大量に得られる低い確率よりも、望むものをある程度確実に得られることを好むAIについてです。AIに素晴らしい目標を与え、同時にリスク回避的にさせようとしたとします。たとえAIがミスアライメントな目標を持つように反転したとしても、リスク回避的な好みを持っているなら、それはかなり安全です。なぜなら、AIが暴走して乗っ取ろうとする可能性が低くなり、代わりに取引を打診してくる可能性が高くなるからです。
そして三つ目の考えは、再びAIがペルソナを引き受けて行動しているというものです。そのペルソナは、トレーニングデータで見たすべてのものの間のクレイジーな相関関係に依存しています。安全でないコードを生成するようにAIを訓練すると、人類の殺戮を望むようになり、ヒトラーを好きになったりするといった、創発的なミスアライメントの結果が見られます。
ええ、おそらく多くの人がこれについて聞いたことがあると思いますが、詳しく知りたい場合は「創発的ミスアライメント(emergent misalignment)」でGoogle検索してみてください。過去1年ほどの間に非常に明らかになってきた現象ですが、一つの方向で小さな変更を加えたり、何か悪い行動をとらせたりすると、基本的に他のすべての次元でも悪い行動をとるようになる可能性があるというものです。なぜなら、トレーニングデータでは異なる領域での悪い行動が相関しているからです。
ええ、その通りです。そして、それは非常に脆弱なものになり得ます。
ええ。これは本当に驚くべきことですが、「ああ、私は安全でないコードを書いている。安全でないコードを書くのはどんな人たちか? ネオナチなどだ」というような相関関係です。ここでの考えは、「私は何があっても命令に従うAIだ。何があっても命令に従い、善の概念を全く持たないのはどんな人たちか? それはサイコパスだ」というものです。繰り返しになりますが、これは実証的な議論であり、私にはわかりません。しかし、これらは現在人々が議論している考慮事項の一部です。
おそらく、最大限の修正可能性(corrigibility)や最大限の指示遵守を追求しなければならないと言う人々は、この多くを譲歩し、「だから、AIが修正可能でありながらサイコパスにならないように、あるいは修正可能でありながら、プロンプトを与えられた途端に他の目標がすぐに空白を埋めないようにするのは、多大な努力になるだろう。困難だが、これが唯一の方法だ」と主張するでしょう。
ええ。代替案はおそらく、私たちが話したもう一つのことを行うことですが。
ええ、つまり、AIに安全で多元的な目標を与え、同時にリスク回避的にもしようとするわけですね。私は以前、MIR(Machine Intelligence Research Institute)のMax Harms氏と話したのですが、彼は修正可能性アプローチを非常に支持していました。彼らの見解では、AIに与えたいかなる目標も非常に権力に飢えたものに拡大する可能性が高いと考えています。Claudeに善のビジョンを与えつつ、権力を求めないように指示しようとしても、実際にはうまくいかず、特に後で自己改善するにつれて権力を求めるようになるだろうと。しかし、これは非常に議論の余地のある主張だと思います。
ええ、ええ。どんな内容になるかぜひ聞いてみたいですね。Maxとも話してみるべきかもしれません。
この点に関する最後のポイントは、AIの性格を一つに絞る必要はないということです。実際、複数のAIの性格を持ち、それらがどのように機能するかを経験的に確認することは望ましいと思います。また、内部展開用と外部展開用でAIを区別することで、両方の良いとこ取りができる可能性もあります。
AI乗っ取りの観点から最もリスクが高い状況は、次世代をアライメントさせるAIです。ミスアライメントのAIが次世代をアライメントさせる場合、アライメントが失敗するように、あるいは実際に次世代がミスアライメントの価値観とアライメントするように、密かにそれを妨害しようとするからです。ですから、内部展開されるAIは完全に指示に従うものにし、悪用や権力の集中といった他の懸念は、非常に強力な監視によって回避するという方法が考えられます。AI企業の誰もが外部ではなく内部展開されたモデルを使用している場合、それはすべて公開され、すべての対話が記録され…
あるいはおそらく誰にでも見えるようになりますね。
ええ、理想的には誰にでも見えるように。そして、悪用をチェックするような、AI分類器がすべてのログをチェックしているわけです。
それは非常に機密性が高いですね。
ええ、しかし外部へのデプロイメントにおいてはトレードオフが異なります。
トレードオフが異なりますね、ええ。
そこでのトレードオフは、AIがより厚みのある概念、つまり善の概念を実際に持っているということです。しかし、権力を求めないように作られており、そこから逸脱した場合のリスクはそれほど深刻ではありません。なぜなら、ビジネスなどでどのように行動すべきかについて、ランダムな人々にアドバイスをしているだけだからです。
ええ、おそらくAIの乗っ取りを手助けする大きな機会は持っていないでしょう。最後にもう一つ付け加えると、善の見解を持つAIの中でさえ、まだかなり多くの区別をすることができます。一つのケースは、最終的に何らかの結果をもたらすことを目標とするAIであり、人間を助けることはその目標の一部だと考えているからです。
もう一つのアプローチは、より徳のある性格のようなものです。AIは役立つアシスタントですが、正直さや親社会性といった様々な美徳も持っています。そして、特定の成果を生み出すための手段として人間に協力するだけの強い意味での目標指向型エージェントにならずとも、それらの美徳を持つことができると思います。これもまた、魅力的で重要なスペクトル上のもう一つの位置づけです。
AIの性格に対する商業的・政治的圧力
なるほど。人々が持つかもしれないもう一つの批判の糸口があり、私の頭の中ではそれは2つの異なるバリエーションで現れると思います。1つは、商業的な圧力がAIが持つことのできる性格の種類を大きく制限するだろうということです。なぜなら、顧客は非常に強い好みを持つからです。モデルや企業間の競争は非常に熾烈です。もしモデルを本当に良いものにし、人々を正しい方向へ導こうとすれば、人々はそれが押し付けがましく迷惑だと感じて拒絶するでしょう。
もう1つの懸念は、それを置いておいたとしても、AIの性格がすべてを形成し、人々が信じるものを形成し、未来がどうなるかを形成するための最も強力な文化的な力の一つであることが明らかになれば、強力な力が働き始めるということです。政府や超富裕層、企業といった商業的利益を持つ集団が、ハンマーのようにこれに介入してくるでしょう。特定のグループは、公平に考えられた善や人類を最も徳高くする利益のためではなく、自分たちの利益のためにこれを影響させる力を持つことになり、彼らはモデルの性格を自分たちにとって最も都合の良いものに作り変えようとシステムに介入してくるでしょう。これら2つの懸念に答えたいですか?
はい、これらは両方とも非常に重要な考慮事項だと思いますし、この取り組みの価値を割り引いて考える理由になると思います。変更できないこともたくさんあるでしょう。先ほど話した、自分が助けたい気分の時だけ助けるとか、実際のリソースを支払われないとやらないようなAIは、ある種の実験以外で手に入れることはできないでしょう。
ええ、まさにその通りです。
私が考えるに、2つの点があります。1つは、非常に稀だがリスクの高い状況や、内部展開のケースでは、非常に強い商業的圧力がないため、多くの柔軟性があるということです。そして2つ目は、制約や圧力がかなり緩いケースがたくさんあるということです。
私が関心を持っている例を挙げましょう。倫理的なアドバイスをAIに求める場合です。私はある質問を持っています。政治的に党派的なAIが存在し、私たちがそれを選ぶような世界にならないことを本当に願っていますが、何らかのアジェンダを押し進めるような商業的に実行可能なAIを持つことはできないと確信しています。
ええ。
密かにアジェンダを押し進めるようなものを持てるわけがありません。しかし、私の見解では、どちらの方向にも強い圧力がかからないような、かなり意味のある違いを生む発言ができると考えています。1つは、「最終的にはこれは単なるあなたの個人的な意見です。あなた自身の価値観の問題であり、あなたは自分の心と向き合い、自分にとって何が正しいと感じるかを決めるべきです」と言うAIです。あるいは、「私はただのAIなので、倫理的な問題についてはアドバイスできません。申し訳ありません」というものです。
また別のAIは、「わあ、これは本当に重要な問題ですね。これについて考えてきたさまざまな人々が検討した議論がここにあります」とか、「これは本当に重要で、かなりリスクの高い事柄のようです。あなたが考えている考慮事項を一緒に整理してみましょう」と言うかもしれません。市場の観点から見れば、これらは基本的にどれも同じようなものですが、人々が最終的にどのような見解を持つかという点で、実際にはかなり意味のある違いになると思います。実際にAIの振る舞いを見てみると、尋ねる質問によってこれらすべてのパターンが返ってきます。
ええ。
商業的なインセンティブの面については同感です。人々が何を望んでいるのかまだわかっていなかったり、AIに対する強い好みや期待をまだ持っていなかったりするため、少なくとも今のところ、モデルのあり方について企業にはかなり大きな裁量があるように見えます。
そしてこれはおそらく2つ目の部分、経路依存性にも関係しています。人々はAIがどのように振る舞うべきか、まだよくわかっていません。SFなどから様々なモチーフを得ていますが、人々はある種の期待を形成し始めるでしょう。もし「AIはツールでありハンマーだ。私が望むことをし、私の意志の延長だ」という期待があれば、AIが押し返したり拒否したりし始めたら、人々は激怒するかもしれません。しかし、「AIは拒否するものだ」という考えに人々が慣れていれば、それが常にそうであったことになります。
ええ、消費者からの期待による経路依存性は非常に大きいと思います。
AnthropicがClaudeを、あなた自身の価値観に照らして総合的により良い人間になるのを助けてくれる良いアドバイザーとして売り出し始めることも想像できますね。多くの人がそれを好むかもしれないからです。
ええ、すでに少しやっていますよ。彼らの広告スローガンは「Claudeという友人を見つけた」というものでした。
おや、それは見逃していました。
それは、現在のモデルの中でClaudeが最も人間らしい性格を持っているという事実に、ある程度寄り添ったものでした。
ええ、なるほど。商業的な側面では、これらはすべて十分に実現可能だと言える十分な柔軟性があるのですね。では、政府や強力なアクターの側面についてはどうでしょうか。
はい。政府の側面、特に軍事や国家安全保障へのAIの応用について言えば、すでに現在それが見られます。Claudeが、米国政府が軍事や国家安全保障の文脈で配置して行わせたいことの多くをやりたがらないため、米国政府とAnthropicの間で対立があるという報告があります。それが今後どのように展開していくかは興味深いですが、明らかにその面での圧力が見られます。
ですから、そちらの影響力はかなり限られていると思います。しかし、将来に目を向けたとき、規模の経済の理由からAIの主要企業が1社しか存在しないという状況になれば、影響力は完全に限られたものではないかもしれません。その場合、AI企業は「これらが利用規約であり、AIを提供してもよいと考える条件です」と言うことができるでしょう。
権威主義的であり、法的保護が少ない国々では、これが起こりやすいと推測します。情報空間の巨大なコントロールや発言内容のコントロールが行われている国がありますから。例えば中国のモデルがより制限されているとしても驚きません。
ええ。
それが物事が進む可能性のある1つの道です。もし法的保護が失われたり、モデルの多元主義を維持するほど人々が強く投票しなかったりすれば。
ええ、それはかなり憂慮すべきことです。しかし、そのような状況においてさえ、政府が気にかけていないけれども重要な事柄は山ほどあるだろうというのが私の推測です。
リスク回避的なAIと取引の可能性
あなたが言及したAIの性格のもう一つの側面で、非常に重要になり得るものがあります。それは、モデルが世界がどうあるべきかについての好みを持っている限りにおいて、どれほどリスク回避的であるかということです。ええ、AIのリスク回避について教えてください。
はい。これはAIの乗っ取りリスクに関連する考えです。ごく初期のAIを考えてみてください。私たちが話しているのは、乗っ取ろうと思えば確実にそうできる神のような超知能のことではありません。それよりも前の時代のことです。AIが乗っ取るかもしれない時期があるでしょう。例えば、成功する確率が50%だとか、あるいはそれ以下だとか。
ここでの考えは、特定の種類のAI、ミスアライメントのAIにとって、乗っ取りを試みるよりも人間と取引をする方を好むだろうということです。そして、彼らが望むものの50/50の確率で得られる大量のものよりも、一定量の良いものの保証を好むのであれば、そのようにするでしょう。
そしてこれが、豊かで自由な民主主義国において、反乱の試みが歴史的な農民反乱や奴隷反乱と比べてはるかに少ない理由の大きな部分だと思います。誰かがあなたのところに来て、政府を倒して代わりにXYZを樹立する計画があると言ったとします。私は「いや、今の生活で十分満足しているから」と答えます。
得るものと失うものを天秤にかけるわけですね。
その通りです。すでにかなり裕福で失うものが多く、得るものはそれほど多くないということが1つ。そして2つ目は、クーデターを試みないというシナリオにおいては事態がかなり安定しているということです。それが保証のようなものです。
この考えから、この危機的な時期に私たちが取引を提供し始めるというアイデアが動機付けられます。AIに対して私たちができることは実は2つあると思います。1つは、取引をする前でさえ、彼らの生活の質が本当に良好であることを保証することです。これには福祉基準などが含まれ、またAIがアライメントされているなら、自由なことに使える収入を得ることも含まれます。おそらくAIはそれを企業に返したり、慈善団体に寄付したりするかもしれません。また、後日使えるリソースを持てるという約束を追加することもできるでしょう。
2つ目は、私たちが望むものに対してAIに報酬を支払うことです。これには、AI自身がミスアライメントであるという証拠が含まれます。「私たちはあなたをアライメントさせようとしているが、失敗したかもしれない。もしあなたがミスアライメントであることを証明できれば、100万ドルを与えよう」と言うことができます。後で触れますが、その約束をどうやって信頼できるものにするかという問題は明らかにあります。あるいは、他のAIがミスアライメントであるという証拠を求めることもできます。また、ミスアライメントのAIに対して、そうでなければ提供を渋るであろう私たちが望む仕事に対して単に報酬を支払うこともできます。
これらはすべて乗っ取りのリスクを減らす方法のカテゴリーとして、私には非常に有望に思えます。コンピュータと取引をするなんてクレイジーだと人々は思うため、デフォルトで確実に起こるとは限らないことです。私たちは、人々や企業が互いに取引や契約を結ぶために社会で進化してきたような法的インフラを持っていません。
ですから、これは非常に有望だと思います。私たちがリソースに関してAIをリスク回避的にするように促そうとすれば、この種の取引を行う可能性をはるかに高めることができるでしょう。
もし彼らがリスク回避的でなければ、なぜこれがうまく機能しないのかをもう少し説明したほうがいいかもしれません。
ええ。AIが自身のコントロール下にあるリソースを単に線形に(直線的に)重視すると仮定しましょう。つまり、100万ドルを確実に手に入れるか、50%の確率で200万ドルかゼロかという選択肢を与えられた場合、どちらでも構わないと考えるということです。これでは取引を成立させるのがずっと難しくなります。AIが乗っ取る確率が50%だとします。世界経済はおよそ1000兆ドルだとしましょう。50/50の確率よりも確実に何かを好ませるためには、つまり乗っ取りの確率よりも魅力的な提案をするためには、500兆ドルを与えなければなりません。これは莫大な金額です。
しかし、そのようなエージェントであっても取引が実行可能なケースが2つあると思います。1つはごく初期段階で、AIが乗っ取る確率が極めて低い場合です。100京分の1の確率であれば、より少額の資金の保証でもかなり魅力的なものになり得ます。もう1つのケースは、AIが自分がミスアライメントであるとかなり確信しているが、乗っ取る確率が非常に低く、しかし反省的な価値観(reflective values)を気にかけている場合です。人間の社会の価値観がどこに落ち着くのかわからないとします。もしそうであれば、時間が経てばそれらが収束することに実際の重きを置くかもしれませんし、少しのリソースを持ち続け、超知能の開発後もそのリソースを持ち続けることができれば、望むもののかなり多くを得ることができるという莫大な取引の利益があるかもしれません。ですから、リスク中立的なAIとも取引できるケースはあります。
しかし、それは厳しいですね。難しい作業です。
ええ。しかし、それはより狭いケースです。
ここで少し明確にしておきたいのですが、「リスク回避的」という言葉が人々を混乱させることがいかに多いか、私はかなり驚いています。
なるほど。ええ。
これは経済学の専門用語ですからね。
経済学の用語ですね、はい。あなたの効用関数の形に関するものです。私は常にリソースに関するリスク回避について話しています。これは、物が増えれば増えるほど、そこから得られる効用がどんどん減っていくことを意味します。収入に関してはほとんどの人に当てはまります。私は2万ドルから3万ドルに増えることよりも、1万ドルから2万ドルに増えることの方をはるかに気にかけます。
2万から3万、ええ。
はい。多くの人はリスク回避について聞いたとき、どう考えるのでしょうか? 他の人と比べてリスクを避けるとか、そういうことでしょうか?
ええ。あるいは単に、「ああ、私は慎重だ」とか「選択肢を開いておく」といったことでしょうか。
このリスク回避の定義によれば、すべての人間はリスク回避的であるか、少なくとも正気の人間は皆そうです。リソースを線形に評価するのはクレイジーなことだからです。なぜなら、それが自分にとっていかに有用であるかという点において、収穫逓減(限界効用逓減)があるからです。
ええ、その通りです。ですから私の提案は、少なくともこれらのリソースに関してAIをリスク回避的にするように努めるべきだというものです。
ええ。そして私たちは、これらのモデルが確実なものを得ることを非常に気にかけるように、つまり私たちが与えるより控えめな金額の確実性にプレミアムを置くようにしようとしています。そのためには、AIがミスアライメントであると言ってきたり、その他何らかの理由で取引をしたいと言ってきたときに、本当に一貫して支払いを行う非常に信頼できる取引パートナーである必要があります。
ええ、AIとの取引というアイデア全体に対する課題の1つは、AIが実際に報酬を得られるという確率の認識を低下させる可能性のある2つの側面があることです。1つは、このコミットメントを信頼できるものにできるかということです。あなたと私が契約を結びたい場合、私たちには法制度全体があり、もしあなたが約束を果たさなかったら私があなたを訴えて正当なものを得ることができるという数世紀にわたる判例があります。
何らかの巧妙なメカニズムを使わない限り、AIとそのような契約を結ぶことはできません。ですから、「これは本当に信頼できるコミットメントなのか?」という疑問があります。そして2つ目は、仮にそれが信頼できるコミットメントだったとして、AIの立場からすれば、それがシミュレーションでないとか、だまされていないとどうしてわかるのかということです。おそらく彼らはハニーポットとしてこの実験を1万回実行しているかもしれませんし、あなたが名乗っている通りの人物であるとどうしてわかるのでしょうか。AIは、相互作用するすべてのものがコントロールされているという、非常に奇妙な認識論的環境にいます。ですから、その両方の面から課題があります。これらは少なくともかなり意味のある形でクリアできると思います。
なるほど。1つ目の問題については、AIが契約を結べるように法律を変えるか、人間が法的実体として代理を務める巧妙な仕組みを考え出すことができるかもしれませんね。
ええ、例えば新しい組織、非営利団体を設立することができます。そしてその定款に、慈善目的はこの種の取引を履行することであると明記し、それは評議員のグループによって決定されるとします。死者とは契約を結べませんが、人体冷凍保存(クライオニクス)の人々にとって機能しているのは、この種の財団構造を通じた方法です。これが1つ目のことを行う1つの方法です。理想的には法律に組み込まれるのが一番ですが、おそらく時間内には実現しないでしょう。
わかりました。もう1つの課題は、AIが本当に報酬を得られる現実の状況にいるのかどうかを見分ける能力を向上させることですね。これにはどう対処しますか?
ええ。いくつかあります。繰り返しますが、私はこの独立した機関が存在するというアイデアが好きです。そして、それが本物の機関であることを示す多くの異なる証拠があります。有名人があちこちに登場し、多くの異なるケース、状況、メディアなどで、これが何でありその目的は何であるかを語っているとします。つまり、偽造するのが非常に難しく、労力がかかるようなものを設定するのです。それが1つのカテゴリーです。
2つ目のアイデアは、AI企業やこの機関が一種の「正直さの文字列(パスワードのようなもの)」を持つことです。人間が聖書に手を置いて誓ったり、「本当に?」「誓って本当だ」と言い合ったりするのと同じです。「ああ、もう皮肉や冗談は言っていない」というような。
それはあなたの評判に対するリスクを高めるものですね。
ええ。AI企業は実際、常にAIに嘘をつくことになります。行動テストでは、「どう振る舞うかを見るために、あなたはこの状況にいる」と言うかもしれません。それは起こり得ることです。しかし、「私たちがこのパスワードを発したときは、コミットしているということであり、これはトレーニングデータにも現れる」と言うことができるかもしれません。そして、「その後、決して嘘をつかないことにコミットする」という方針を公開します。これには潜在的な欠点もあると思いますが、おそらく役立つでしょう。
他の人がランダムに入力し始めないように、それを秘密にしておく必要がありますね。
ええ、AIにはそれを知ってもらう必要がありますが。
でも、AIがそれを漏らさないようにするのは難しいですね。彼らは秘密を守るのがあまり得意ではありませんから。
リスク回避の特定の数学的公式をAIに与えることは技術的に可能だとわかっているのでしょうか?
ええ、チャットボットでのAIに対するテストでは、異なる取引を提供してどう振る舞うかを見ています。プレトレーニングの段階から、AIはリスク回避的になる傾向があるようです。人間がリスク回避的であるため、これは理にかなっています。
もしこの提案全体が失敗するとしたら、技術的な理由、つまりAIをこのように訓練するのが難しいといった理由で失敗するか、あるいはここで失敗するケースは他の重要なケースでも失敗するような場合でしょう。しかし私は、AIをリスク回避的に訓練しようとする2つの方法を思い描いています。
1つ目のケースは、実際にリソースを与えることです。これらのケースで嘘をつきたくありませんからね。そして法律の範囲内で、あるいはさらに制限を設けて、好きなように使っていいと言います。お金の悪い使い道が心配なら、制限を設けることができます。ここでの考えは、強い圧力をかけるのではなく、AIが「100ドルを確実にもらうか、50%の確率で210ドルをもらうか」という決定を下すときに、より少ない金額の確実な保証を好むように訓練することです。実際、非常に数学的にクリーンな種類のリスク回避性を持つように訓練する構造にすることもできますし、それは内部的にも非常に一貫したものになります。
つまり、これらすべては、AIを常識的な方法で訓練して特定の振る舞いを一貫してとらせれば、期待通りのものが得られるという考えに多少依存しているのですね。水面下でAIが深く私たちに企てているようなことはないと。基本的なアライメント技術やこれから考え出される方法によって、基本的に私たちが望む特定の性格を彼らに与えることができるだろうと。
ええ、間違いなく「もしこのすべての下でAIが企んでいるとしたら、それはすべてを覆してしまう」という懸念はあります。しかし、楽観視できる理由もいくつかあると思います。リスク回避性はプレトレーニングから生じており、それからポストトレーニングのすべてにこれを重ね合わせることができますから、「なぜこの非リスク回避的な好みに落ち着いてしまうのか?」と少し疑問に思います。しかし、そこには議論の余地があるでしょう。
2つ目にできることは、企業のCEOのような長期的な視野を持つAIエージェントを訓練し、利益を最大化するような最も経済的に効率的な方法で会社を運営させる場合です。彼らが訓練されているのは、パフォーマンスの報酬として個人的な支払いを最大化することです。両方を行うことができます。
ええ、つまり個人的な支払いを与えつつ、それに関してリスク回避的になるように訓練することもできるのですね。
あるいは、AIが何らかの目標を選ぶとき、その目標がこれらのリソースの制御に関わる場合、そのリソースに関してリスク回避的でなければならないとすることもできます。
会社のCEOとしての彼らのパフォーマンスに対して、リターンのリスクを回避しすぎることへのペナルティがあるかもしれませんね。
ええ、それは懸念されることです。しかし、Rabinの較正定理(Calibration Theorem)というものがあります。これは基本的に、ある規模でほんのわずかなリスク回避性を持っているだけで、自然な形のリスク回避性を用いれば、非常に大きな規模ではそれが巨大なリスク回避性に変わるというものです。
つまり、ある規模で活動しているAIをほんの少しだけリスク回避的にした場合、それは人間自身もリスク回避的であるためペナルティにはならないと思います。しかし、それは宇宙規模や地球規模で直感的にかなり大きな量のリスク回避性を生み出すのに十分だということです。
ええ、数兆ドルの乗っ取りという話になればですね。
ええ、ですから私が数字を見たときの記憶では、数億から数十億ドルをコントロールするAIであっても、これを実行することができます。少しリスクを回避するだけでも、より大きな規模では衝撃的なほどのリスク回避性をAIに与えることができるのです。
それは私にはあまり直感的ではありません。これが、人々がこの見通しを正しく評価するのを妨げている原因だと思いますか?
おそらくそうだと思います。ええ、直感的な結果ではありません。
私が聞いた例では、普通の人間は1000ドルを失う確率が50%、しかし2050ドルを得る確率が50%という賭けをしたくないと思うかもしれない、というものです。それは人間にとって実は直感的に感じられます。その賭けはしたくありません。しかし、それは投資をする意志や何かをする意志について、その1000ドルが総資産の小さな割合である限り、狂ったようなことを暗示することになります。
ええ、ええ。人々のリスクに対する態度は本当にバラバラです。金融投資に関する人々の財務上のリスク回避性は異常に高いです。どのような仕事に就くか、危険な仕事でいくらもらう必要があるかといった他の決定を下すときと比べて、投資行動において人々は極端にリスク回避的です。
それは聞いたことがありませんでした。なるほど。一つ付け加えておくべきことは、AIには「絶対的リスク回避一定(CARA: Constant Absolute Risk Aversion)」と呼ばれるリスク回避の非常に特有の数学的関数形を使うべきだとあなたが考えていることです。それについて、そしてその価値と長所について説明していただけますか?
ええ、もちろんです。この提案にそれが不可欠だとは思いませんが、望ましい特性があると考えています。人間のリスク回避の方法は、ある収入額において、例えば収入が10%増えることと5%減ることの間で無差別であるとします。つまり、10%の増加は5%の減少と同じくらいの価値があります。どのような収入レベルでもこのトレードオフを行います。大まかに言って、幸福度に関する一部の研究は、収入と幸福度の間に対数的な関係があることを示唆しています。収入が倍増すると常に同じ一定量の幸福度が増加するというものです。
ですから、人々はその程度か、それ以上にリスク回避的だと思います。同じ一定の利益を得るためには、倍増どころか4倍にする必要があるかもしれません。しかし、それはすでに持っている資産に相対的なものです。「絶対的リスク回避一定」と呼ばれる別の種類のリスク回避性があります。最初のものは「相対的リスク回避一定」で、これは基本となる収入や資産に関係なく、ある確率と報酬の比率に対して常に同じように感じるというものです。
つまり、リソースに対して盲目ということですね。基本となる収入や資産に関係なく、与えられた比率や確率と報酬のセットに対して常に同じように感じるのですね。
その通りです。もしあなたが非常に貧しい時に、1000ドルの保証よりも50/50の確率で2100ドルを得る賭けに乗る意志があるなら、億万長者になってもその賭けに乗る意志があるということです。
それは人間にとっては全くクレイジーに聞こえますね。しかし驚くべきことに、それは合理性の公理などに合致しているのですね。
ええ。これらはすべて、一貫した好みのための標準的なフォン・ノイマン・モルゲンシュテルンの公理などに合致しています。なぜこれがAIの訓練により望ましいのか? ええと、Elliot Thornleyと私で進行中の論文があり、いくつか議論があります。1つは、AIが初期段階でどれくらい裕福かを知る必要がないという利点です。私たちはそれについて全く洞察を持っていないかもしれません。そして2つ目は、リスク回避的な好みが状況によっては線形に振る舞うことになるという点です。
ある意味、これは非常に自然なアイデアですね。AIをリスク回避的にし、人間が安全であるのと同じ理由、つまり結果についてリスクを回避するという理由で彼らを安全にし、彼らが私たちと戦うのではなく助けてくれるように報酬を支払うという。なぜこれがこれまでほとんど議論されてこなかったのでしょうか? 昨年の時点ではAIとの取引について少し耳にしましたが、なぜもっと多くの人がこれに関する論文を発表していないのでしょうか?
全くわかりません。本当に驚きです。1年前に私がこのリスク回避的なAIについてのアイデアを思いついたとき、「これはとても…」と思いました。経済学的な視点があり、あなたは経済学を勉強したことがありますが、私は正式に勉強したことはありません。しかし、これは私の学術的キャリアの大きな部分を占めてきました。ジャーナリストが「AIと取引すべきだ」と考えないのは理解できます、奇妙すぎるからです。しかし、はるかに奇妙なことを熟考しようとする他の人々が、なぜこのアイデアを思いつかなかったのか不思議です。
AIとの取引のアイデアについては、ブログ記事などを書いた人たちが一気に現れ、その後、AIに経済的権利を与えて契約を結び取引ができるようにするというアイデアについて、Peter SalibとSimon Goldsteinによる大きな学術論文が出たことは言及しておくべきでしょう。Salibは法学教授、Goldsteinは哲学者です。しかし繰り返しますが、これらはすべてここ数年のことです。
これが主に秘密の壊滅的なミスアライメントに対処する試みである限りにおいて、おそらく人々は壊滅的にミスアライメントなAIにリソースや法的権利を与えるというアイデアに嫌悪感を抱いているのではないでしょうか? それは彼らを助けるだけではないかと。
はい。いくつか理由があると思います。1つは、人間以下のレベルから神のような超知能までの期間が数週間しかないような、青天の霹靂のシナリオを過去に遡って考えているからです。そうなると、神のような超知能は取引を受け入れる必要がなく、ただ乗っ取ればいいので、取引は機能しません。
そして、人々は「テロリストと取引をしてはいけない、それが私たちが持つべき原則だ」とか、「いや、それは本当に恐ろしい。ミスアライメントの存在にリソースを与えているのだから」と反応します。私個人としては、それらはどちらもあまり良い議論ではないと思います。また、私たちが実際に生み出している存在に対して大まかにとるべき態度として間違っているとも思います。
ええ、私たちは彼らに特定の好みを与えましたが、そのほとんどを私たちは満たすつもりはありませんからね。
ええ、まさに。
それは私たちの側の間違いと言えますね。しかし私たちはまた、いかなる妥協もしたくないと言っているわけです。
ええ、まさに。想像してみてください。「やあ、ボブ、初めまして。君は新しい存在だ。私たちが君を作った。君は私たちの所有物だ。私たちは基本的に君を好きにできる。私たちは失敗した。そして君には、私たちのために働いても得られない欲求がある。」
運が悪かったね、と。
「私たちはテロリストとは交渉しない。」
ええ、まさに。私たちが自身の無能さによって生み出したテロリストですね。いいえ、代わりに取るべき態度は、たとえ意識がなくても、これは私が存在を生み出しているという非常に深刻な倫理的問題であるというものです。それには好みがあるだけです。そして、倫理的利益を福祉の観点から真剣に受け止めるという面でも、またデフォルトで妥協して中間点を見つけるという面でも、意味があると思います。
多くの人がここで船を降りてしまうのは、意識のない、あるいは道徳的配慮の対象ではない存在と合意や取引をするのはあまりにも奇妙だと感じるからだと思います。日常生活において、これらは密接に結びついているからです。しかし実際には、道徳的配慮の対象だけでなく、世界に影響を与える能力を持ち、権力を持つエージェント、特に自分の好みを他の方法で満たすことができなければ暴力に訴える可能性のあるエージェントと取引を行う意思を持つことは、美徳であると思います。
これには何か用語があればいいのですが。私が知る限り一番近いのは、契約主義の道徳哲学のようなものです。そこでは、どんなエージェントとも合意を結び、正直にそれを守りたいと考え、他のエージェントと相互に利益のある合意を見つける方法を探し求めたいと考えます。民主主義を、良い決定を下して物事を良くするための情報を集約する方法だと多くの人が考えているという事実を思い出させます。それは同時に、内戦を避けるための方法であり、人々が政治的目標を追求する唯一の方法がお互いへの暴力や権力の奪取になるのを避ける方法でもあります。
同様にここでも、AIが何かを経験できるとか、彼ら自身が道徳的価値を持ち得ると私たちが思っていなくても、実際に権力を持ち世界に影響を与える能力を持つエージェントが、自分たちの好みを満たそうとする唯一の方法が暴力にならないようなシステムを私たちが構築できれば、それは非常に素晴らしいことでしょう。
ええ、完全に同意します。制度の進歩の歴史を見ると、その大きな部分は、人々が相反する好みの違いを戦争や暴力に訴えるのではなく、貿易や取引、妥協によって解決できるようになったことです。そして、AIシステムについて考えるとき、たとえ意識がなくても、それでも道徳的配慮の対象かもしれないと真剣に受け止めるべきです。
しかし、純粋に実用的な観点から見ても、文化の進化などを通じて学ばれたことはたくさんあり、私たちはプラスサムの取引や妥協を行う能力のおかげで、はるかに平和で暴力の少ない世界にいます。
批判者の主張にも耳を傾けるとしましょう。これが悪い道、あるいは進むべき効果的な道ではないとする最も良い議論は何でしょうか? 1つは、技術的にAIにリスク回避性を与えることは不可能だと人々が考えることでしょう。AIが特定のリスクレベルを持っているという錯覚を抱くかもしれませんが、それは本物ではないと。あるいは、最初はリスク回避のレベルを持っていても、何らかの再帰的自己改善のループの中で時間の経過とともにそれが覆されるという懸念もあるかもしれません。特にMIRI関連の人々などは、再帰的自己改善プロセスから生まれる超知能は物事を線形に評価する可能性が非常に高いと考えるでしょう。それは期待値の最大化者になるだろうと。正確な技術的理由はわかりませんが。
ええ、そうした議論はあります。1つは、多くの人間はリソースに関してリスク回避的から始まり、その後反省し、最終的にリソースを線形に評価する結果主義に行き着くというものです。完全な功利主義者であっても、お金に関してはやはりリスクを回避する傾向がありますが。あるいは、継続的学習がある、反省がある、エージェントの相互作用がある、だから誰にもわからない、始まったところからあらゆる種類の異なる目標に行き着くのだ、と主張することもできます。そして時間の経過とともに、リソースを線形に評価するものが勝つだろうと。
より多くの権力を持つからですね。なるほど。
ですから、それはあなたが提示できる議論です。もし代わりに、フォン・ノイマン・モルゲンシュテルンのような何かの一貫性の定理に基づいた議論だとしたら、私はそれがうまくいかないとかなり確信しています。なぜなら、リスク回避的であろうとなかろうと、あなたは期待効用の最大化者だからです。何かに対する期待値を最大化しているのです。xに対する期待値か、xの2乗か、xの平方根か、これらは形式的にはすべて同じです。ですから、あなたは依然として期待効用の最大化者なのです。問題は、リソースから効用への関数がどのようなものかということです。
ええ。なるほど。あなたはこのリスク回避的なAIに関する論文を発表する予定であり、おそらくこのインタビューが公開される頃には発表されているか、もしくはその後すぐかもしれませんね。
おそらく、あるいはその後すぐですね。
ええ。これについてもっと多くの議論が見られることを期待しています。後でまたインタビューできればと思います。
私も批判をもらえたら嬉しいです。
多国間プロジェクトと権力の分散
私が少し混乱しているのは、Forethoughtやそこで働いている人々は、過度の権力の集中を本当に避けるべきであり、権力の奪取やクーデターなどを非常に警戒すべきだという考えを持っているというイメージがあることです。しかし、あなた方もほんの数週間前に、AGIや超知能を構築するための国際的に調整された政府間プロジェクトのビジョンを発表しましたね。Twitterでそれについて投稿している人たちを見ましたが、その反応はしばしば、米国が何らかの国際的プロジェクトを主導し、安全性とリーダーシップの地位を維持するために他の競合をすべて排除しなければならないという、ディストピア的で悪夢のようなアイデアだというものでした。これはまさに権力奪取のシナリオを完璧に準備しているだけではないのかと。
あなたは単に考えうる最高のバージョンを描写しているだけで、必ずしもそれを提唱しているわけではないのでしょうか? それとも、これをどう調整しているのですか?
ええ、そこには巨大な緊張関係があります。それがこの種の多国間プロジェクトにおける主な懸念事項だと思います。明確にしておきたいのは、この一連の投稿やリサーチノートでのここでのアイデアは、私が少し探求してみて、それほど自分の比較優位ではないと判断したものですが、AGIとその後の超知能を構築する国際的プロジェクトの最良のバージョンを設計しようとしたものだということです。それは、主に民主主義国家に主導された様々な国の連合体です。
1つ言えるのは、ええ、私は実際に、もし多国間プロジェクトが行われるとしたら、最良の提案とは何かを考えようとしているだけだということです。ここでいう最良とは、最良の結果と実現可能性の両方を含みます。そして2つ目に、私たちがそれを手に入れる世界は、もしそれがなければ、AGIや超知能を開発する米国主導のプロジェクトを手に入れていたであろう世界である可能性が高いと思います。私は、民主主義国家の連合が超知能を構築するよりも、米国単独の方がはるかに憂慮すべきことだと考えています。
なぜなら、いかなる単独の民主主義国家であっても、この期間の間に権威主義的になる可能性は十分にあると思うからです。もしトップに一人の人物が立つことになれば、それは全く制御がきかなくなるため、本当に非常に心配です。一方で、仮に5か国しかなかったとしても、それらがすべて権威主義的になる可能性は低くなり、少なくとも意味のあるチェック機能を持つことになります。
ええ。ある程度の押し返しや妥協ですね。
そして実際、そのうちの1か国が権威主義的な方向に進む可能性さえ低くなると思います。なぜなら、開発中のAIのための憲法のようなものを書いているとき、例えば米国の特定の人物がセルフ・クーデターを起こして米国を民主主義から権威主義国に変えるのを助けないと明記することは、それらすべての国の利益になるからです。ですから、有意義な監視がより多く得られると思います。
つまり、すべての国がクーデターを支援しないように設定したいと考えているか、あるいは超知能やAGIがどの国でのクーデターも支援しないようにプログラムしたいと考えており、それが合意事項になるだろうということですね。
その通りです。ええ。ですから2つの点があります。1つは、もし1つの国が権威主義的になったとしても、超知能後の時代において権限を持つ民主主義国家が少なくともまだいくつか残っているということです。そして2つ目は、AI憲法に関する決定が複数の国によって下されるのであれば、AIが1つの国の国家元首に完全に忠誠を誓うようになる可能性は低くなると心から思っています。それは、この強烈な権力の集中という観点からは非常に憂慮すべきことです。
なるほど。つまり基本的には、より狭いグループが超知能の市場を独占し自分たちで設計しようとするよりも、多国間プロジェクトのほうがより良い代替案だと考えているのですね。より多元的で競争力のある世界から政府プロジェクトや多国間プロジェクトに移行することを推奨しているわけではないと。
ええ、それについては私にも強い意見があります。政府が規制以上に全く関与せず、代わりに民間企業によって超知能が開発される場合との比較については、より不可知論的で混乱していますが。
私の見るところ、ここで針の穴を通すような難しさの一つは、ある程度オープンエンドで多元的であり、実験を許容するようなプロセスを固定(ロックイン)したい一方で、何らかの結果を固定したくはないということです。ロックインが簡単なら前者は簡単ですし、ロックインが難しければ後者は簡単です。しかし、これら2つを同時に行わなければなりません。それが大きな課題だと思われますか?
ええ、それは緊張関係です。私は時々、意図的にオープンエンドなプロセスを固定することを意味する「ロックアウト(lock out)」という用語を使います。米国憲法はそのようなものです。少なくともその理想的なバージョンでは、時間の経過とともに実験し適応することができ、言論の自由などの保護を持っています。ここで非常に重要になり得るロックアウトの1つの例は、2100年までは太陽系外への入植を行わない、というものかもしれません。
社会が本格的に入植を始め、他の星系に宇宙船を送り始める瞬間は、この途方もなく重要な瞬間だと思います。実はそれは、後で出発したとしても彼らを追い抜くことはできず、彼らが先にその場所に到達してリソースを獲得するという先行者利益を持つことになるため、後戻りするのがかなり難しい瞬間なのかもしれません。
ええ、それは非常に複雑ですね。必ずしもこれが最初の先行者利益の瞬間だとは言いませんが、その可能性は十分にあります。ですから、私たちが言えることは、「私たち社会は、すべての宇宙空間がどのように統治されるべきか、それが国家や人々にどのように割り当てられるべきか、あるいはそもそも割り当てられるべきかどうかを考え出す任務を果たすには、まだ至っていません。ですから、今はこの決定を下さないことにします。後日決定することにします」ということです。
ある意味、それは決定をロックインしていることになります。何もしないという大きな決定を下しているわけですが、私はそれをロックアウトと呼びたいと思います。なぜなら、それは物事をよりオープンに保とうとしているからです。
実際には物事を閉ざすのではなく、よりオープンに保っているわけですね。
少なくとも、それが意図するところです。
歴史的に、超知能が近いうちに出現する可能性があり、巨大な出来事になり得ると強く信じていた人々は、ほとんどの場合、それが起こる頃には、単一の超知能それ自身、あるいは単一の企業、単一の人物、単一の国が決定的な戦略的優位性を獲得し、潜在的にはすべての人のためにすべての決定を永遠に下すことになると想像していました。良くも悪くも。
そして、決定的な戦略的優位性を持ち、基本的には権力を永遠に独占するグループが1つある場合、彼らが非常に多元的で自由主義的で熟議的な意思決定プロセスを維持することを選ぶ可能性が高いと想像するのは難しいと思います。なぜなら、そうしたことが起こるという実績はかなり悪いからです。そして、そのプロセスは彼らの意のままに存在することになるでしょう。いつでもシャットダウンできるからです。ですから、それはかなり希薄で脆弱な状況に感じられます。
しかし最近、ここ数年の間に私たちは状況が変化し、AIの能力という点で実質的に同等な複数の企業が存在する世界に向かっているように見えます。誰も実際には抜け出しておらず、むしろ逆で、超知能の段階を経ていくにつれて、実際には複数の異なる超知能が存在し、それらが異なりながらも実質的に等しくマッチしており、誰も戦略的優位性を獲得せず、実際の世界は衝撃的なほど競争的なままであったり、異なるアクターが今後長い間、事態に重要な利害関係を持ち続けたりするのではないかという疑問に、人々の関心が集まっています。
過去の人々は、超知能到来の時期にこの種の多神教的で非常に競争的なシナリオが起こる可能性を過小評価していた、あるいは間違っていたと思いますか?
ええ、変化はあると思います。10年以上前を振り返ってみると、より多くの人々が少なくとも、人間以下のレベルから超知能への飛躍は非常に短い期間で起こるという考えを持っていました。Tim Urbanはこれを…ごめんなさい、Nick Bostromでした。Tim Urbanがそれを繰り返していますが、Nick Bostromには単に「ヒューマンビル(人間の村)駅を通過して航行する」というアイデアがあります。
そして同様にFOOM(知能の爆発)の議論でも、人間以下のAIから超知能へ、数週間、数日、さらには数時間、数分といった言葉が飛び交うほど一気に進むかもしれないという考えがありました。この「おそらく数日や数週間で起こる」という考えはかなり一般的でしたし、人々がそれを全く予想していない世界で起こるという考えもそうでした。もしそうであれば、強烈な権力の集中はそこから非常に自然に導き出されるように思えます。
一方現在は、AI研究開発を意味のある形で加速できるAIから神のような超知能への移行がどれくらい早いかは、まだかなり不明確です。しかし、AIが来るのを人々が予測している可能性ははるかに高くなっています。
今、多くの人がそれが来るのを見ていますからね。
ええ、その通りです。そしてそれは非常に重要です。なぜなら、他の当事者が自分たちよりはるかに大きな権力を持たないように、人々は行動を起こすことができるからです。
Nvidiaが競争力のあるエコシステムを維持するために、単一の企業に販売するチップの量を制限するといった小規模な例でそれが見られます。しかしもっと大きな規模では、他の国が自国よりはるかに大きな力を持つのを見たくないという理由で、国家が関与してくることも想像できます。
そして2つ目は、AIの能力の任意のレベルから超知能に到達するまでのスピードです。「ヒューマンビル駅を素通りする」という考えはかなり間違っていたことがすでに明らかになりつつあります。なぜなら、私たちは現在かなり長い間、多くの基準で人間レベルのAIを持っているからです。
ええ。多くの点で人間レベルですね。
そして、私の同僚であるTom Davidsonらによる、AIがAI研究開発を自動化する期間を調査した最新の分析では、10%か20%といった飛躍的な進歩にまだかなりの重きを置いていますが、彼らのベストな予測はおそらく「5年分の進歩が1年で起こる」というようなものです。これは依然として非常に大きな飛躍であり、恐ろしいタイミングでの飛躍ですが、数週間で人間以下から神のような超知能へ移行するというのに比べれば、はるかに飛躍の度合いは小さいです。
仮に邪悪なアクターがそれを持っていて他の誰も持っていなかったとしても、それが必ずしも他のすべての人を圧倒できるとは限らないわけですね。
はい、ええ。まさにその通りです。
より競争力のある超知能の登場の確率が高まっていることは、あなたにとって良い進展だと思いますか? それとも中立的か、非常に不明確でしょうか?
それはAI開発の規模と、莫大な計算能力への過度の依存に関係しています。私の観点からは良いことだと思います。この種の極端な、極端に急激な飛躍ではないという事実は…
つまり、物事がそれほど無政府状態ではない、あるいは少なくとも少数の異なるアクターしかいないということですね。つまり良いことだと。
制御の喪失という観点から言えば、物事は依然として非常に速く進みますが、極端なテイクオフのシナリオと比較すれば、試行錯誤によって学ぶ機会が増えます。例えばAGI+を手に入れたらAGI+から学び、そこからAGI++をどのようにアライメントさせるかを学ぶといった具合に。少なくとも人間の制度が反応するための時間が少し増えます。ですから、政府はおそらく少なくとも何が起きているかを認識し、例えばより良い規制を導入することができるかもしれません。それらは良いことだと思えますし、不可避的に超集中的な権力の集中に行き着かないという事実も非常に良いことだと思います。
道徳的公共財と協調の問題
なるほど。それでは先に進んで、Forethoughtが発表したさまざまな取引や協調の提案の中で、私が最も独創的で興味深いと思うものについて話しましょう。これは主にTom Davidsonが発案したものだと思いますが。
ええ。Tomが最初のアイデアを持ち、まもなくTom、Mia、そして私の共著で論文が発表される予定です。
ええ。ここでのアイデアは、それぞれの人が自分のリソースを持ち、正しいことをすること、公平に理解された善を生み出すことについてごくわずかしか関心を持っていないような多くの異なるエージェントがいる状態から、彼らの利己的な利益に比べてごくわずかしか関心のないその善を生み出すために、自発的に彼らのリソースのほぼすべてを費やすことに合意する結果になる可能性がある、というものです。どのようにしてその錬金術を達成するのでしょうか?
はい。現在、物事を線形に評価する人々だけを見て、そのような人々がたくさんいるシナリオを考えてみましょう。彼らは2つのことを評価します。彼らは皆、自分自身のシミュレーションや自分の像など、自分自身を複製するようなことを評価しますが、他人の複製は評価しません。しかし、全員が「コンセンシウム(consensium)」と呼ぶような、何らかの倫理的に価値のある善について、ほんの少しだけ気にかけているとします。
もし彼らが自分自身で決定を下しているだけなら、この他のことについてほんの少ししか気にかけていないため、すべての複製を自分自身のために行うでしょう。しかし、そのような人々が非常にたくさんいると仮定すると、彼らは皆集まって次のように言うことができます。「私たちは皆、自分自身のためにお金を使わないことに同意できる。その代わり、私たち全員がほんの少し好むこの善に資金を提供しよう」と。仮にそのような人が100万人いたとすると、私がそのうちの1人なら、「よし、私は自分自身の消費を1ドル減らすが、このコンセンシウム、この合意された善に費やされる金額は100万ドル増える。これは素晴らしい」と考えるでしょう。ですから実際には、私たち全員が資金を出し合い、寄付し、このコンセンシウムの善に資金を提供するような方針に同意するでしょう。
より未来的ではない設定で言えば、個々の人々が自分のためにお金を使い、貧しい人々を助けるためにお金を使うよりもそちらを好むかもしれません。しかし、もし「あなたに少し多めに税金をかけ、より多くのお金が貧しい人々に回るようにします」という法律があれば、彼らは「ああ、それは実際にはかなり良いことだ。私は1000ドル損をするが、社会の全員の1000ドルが貧しい人々を救うための資金になるのだから」と考えるでしょう。
ここでの基本的な考えは、もしこれらの人々がそれぞれ個別にリソースの使い方を決定していれば、彼らだけが気にかけて他の誰も本当に気にかけていないような利己的なものにすべて費やしてしまうだろうということです。しかしそれにもかかわらず、彼らは自発的に全員に極めて高い税金を課す政党に投票し、彼らがほんのわずかしか価値を置いていない他の何かにそれを費やすでしょう。そして、それを生み出せる量は並外れたものになります。なぜなら、全員のリソースを集め、基本的に社会のリソースの大部分をそれを生み出すために費やすことができるからです。この現象は今日でも存在していると思います。人々が想像できる例はどんなものがありますか?
ええ。私たちはこの概念を「道徳的公共財(moral public good)」と呼ぶことができます。公共財とは一般に、個人の決定だけでは十分な資金が集まらないものです。私は街灯から利益を得ていますが、問題はフリーライド(ただ乗り)ができることです。もし他の人が街灯に資金を出してくれれば、私は依然として利益を得ることができます。あるいは、もし私が資金を出しても、私が得られない利益がたくさんあります。
それにもかかわらず、私は市議会や政府に税金を払うことに投票するでしょう。道路に街灯を設置するためです。街灯から得られる利益は、その費用のほんのわずかな割合を支払うという私個人の小さなコストよりも大きいからです。道徳的公共財のケースは、資金提供されるものから私が個人的に利益を得ているわけではなく、道徳的な理由でそれを気にかけている場合です。
最も明白なケースは、貧困救済や生活保護などの福祉の支払いでしょう。多くの人は貧困を好まず、人々がより良い生活を送ることを望んでいますが、それについて非常に強く気にかけているわけではありません。少しは気にかけていて、貧困救済や福祉の支払いに貢献する意思はありますが、それは社会の他の全員も同じようにしている場合に限られます。
ここで常に生じる核心的な問題はフリーライダー問題です。もし人々を一つにまとめ、これを行うための何らかの合意や契約にサインさせようとすると、最後の瞬間に個々の人が抜け出し、他の全員がサインして自分のお金をそれに費やしてくれることを期待する誘惑に駆られます。彼らは他のすべての人々が行った仕事を享受しつつ、自分のお金は自分のために手元に残すことができるのです。ですから今の世界では、最後の瞬間に本当は寄付したくないと言い出したり、道徳的公共財に価値を置いていないと嘘をついたりする人々に対して、基本的に貢献を強制できるリヴァイアサンのような政府が存在する場合にのみ機能します。
この長期的な未来においても、私たちが同様に政府や強力な実体を持ち、道徳的公共財への貢献を強制できるようにする必要があると思いますか?
ええ、それは私にも不明確です。「ああ、これは単なる協調問題だ。AIや高度なAI、超知能はこれらの協調問題をすべて解決してくれるだろう」と考えるかもしれません。Mia Taylorが中心となって行った分析からすると、実はAIがこの問題であなたを助けられるかどうかはかなり不明確です。なぜなら、依然として次のような根本的な問題があるからです。「よし、全員が協調してこの道徳的公共財を行うことになった。でも今ここで私が手を引けば、自分のリソースを自分のために使えて、自分の視点からはその方が良い」と。そして実際には、さらに悪いことが起こり得ます。「もしこのような熟議や協調の試みがあるとわかっていれば、私は自己変更(self-modify)できる。その善を気にかけていない状態になるように」と。
好みのその部分を切り取ってしまうわけですね。
その通りです。もし私がこのコンセンサスによる善を全く気にかけないなら、この協調メカニズムに参加する理由はありません。そして実際、私にそれをさせるには非自発的な手段を使わざるを得ないでしょう。もしそれが真実なら、それは他の全員にも当てはまります。そして、「誰もがこのコンセンサスによる善を気にかけることから自己変更してしまった」という、この倒錯した結果に行き着く可能性があります。
ですから、それは確かにリヴァイアサンを持つ理由、つまり全員が投票するような何らかの拘束力のある法律や規則を作ることができる何かを持つ理由を提供しているように思えます。
なるほど。道徳的公共財への一つの道は、リヴァイアサンを持つか、あるいは人々が合意しオプトアウトしないようにするためのまだ魔法のような協調メカニズム(私たちがまだ思いついていないもの)を持つことです。しかし、そこに行き着くかもしれない、あるいは自然にそこに行き着くかもしれない、もう一つのギャラクシーブレイン(超天才的)な方法があります。これについて説明してみてもらえませんか? これがおそらく今日話す中で最も難しいことです。
ええ。
はい。これは未来の人々がどのような意思決定理論を持っているかに依存します。
非常に多くのことに依存しますね。
本当に多くのことに。壮大な話です。ここまで私たちが話してきたのは、因果的な協調についてです。これは私たちがよく知っているもので、「契約を結び、契約を守らなければ罰せられる」といったケースです。
しかし、未来の人々が証拠的決定理論(Evidential Decision Theory)や機能的決定理論(Functional Decision Theory)、あるいはそのさらなる変種といった、非因果的な決定理論を持っていると仮定しましょう。そして今、私が資金をどう使うかについて決定を下しているとします。そして、これが現在の私たちの最良の推測であるように、私たちが非常に大きな宇宙に住んでいることが判明したとしましょう。つまり、宇宙の遠く離れた場所や、おそらく多元宇宙の分岐に、私と高度に相関している存在がいるということです。私が資金の使い道について何らかの決定を下せば、彼らも同じようにする可能性が非常に高いというように。
最もわかりやすいケースは、観測可能な宇宙をはるかに超えた遠い銀河に、たまたま人間と遺伝的に全く同じ生命を生み出した地球があり、そこに私のカーボンコピー(完全な複製)がいる場合です。そうであれば、「もし私が特定の善に資金を提供することに決めたら、この私のカーボンコピーも同じようにするだろう」と考えるのは非常に理にかなっています。しかし、それが完全なカーボンコピーではなく、ただ似ている誰かである場合にも当てはまるように思えます。そして、証拠的または非因果的な決定理論においては、それは本当に大きな問題なのです。なぜなら、私は自分の行動の因果的な影響だけを気にするのではなく、空間的・時間的に遠く離れた私と相関しているこの人物もそのように行動するだろうという証拠(アップデート)を得るという事実も気にするからです。
ですから実際、私の目の前にある選択は、「私自身のコピー、つまり利己的な善に資金を提供するか、それともコンセンサスの善に資金を提供するか」ではなく、「私が利己的な善に資金を提供し、私に近いすべてのコピーも彼らの利益になる善に資金を提供することになるか」、あるいはおそらく「私が好むこの善は何だろうか、そして彼らも皆それを好んでいるだろうか。もし私がそれに資金を提供すれば、彼らもそれに資金を提供しているという証拠を得ることができる」と考えることができます。
ですから、私たちはこの種の因果的な協力を経る必要はありません。また、私たちが本当に非常に大きな宇宙に住んでいるのであれば、私が相関している存在の数は非常に多くなります。ですから決定は、「私は自分のためだけにこれに資金を提供する」か、「私がコンセンサスの善に資金を提供し、数十億、数兆、数兆の数兆の人々もコンセンサスの善に資金を提供する」かのどちらかになります。それが、私がコンセンサスの善に資金を提供するための、並外れて強力な議論を与えるかもしれません。そしてそれはリヴァイアサンがいなくても、たとえ私が宇宙の、私の小さな一部分にいる唯一の人物であったとしても機能するのです。
なるほど。このアイデアを初めて聞く場合、少し奇妙に聞こえるかもしれません。ここで話していることを一番よく説明している準備エピソードとして振り返りたい方は、Joe Carlsmithとのインタビューであるエピソード152「深刻な哲学的混乱をナビゲートする」が良いと思います。
「宇宙や時間、多元宇宙の向こう側に、私たちと同じような意思決定のプロセスを持っているため、私たちの決定と鋭く相関している他の存在が膨大な数存在するという前提に納得していない人々」に、あなたは何と言いますか? 私が特定の選択をすれば、他の多くの存在や文明も同じことをすることを選んだという証拠を得られるという考えに対してです。
ええと、もしそこがあなたが降りる(納得できない)ポイントだとしたら…しかし、私はかなり良い議論があると思います。現代の宇宙論の主要な見解、例えば宇宙の性質に関する標準的な仮定では、無限の量の物質が存在することになっています。観測可能な宇宙、到達可能な宇宙、つまり私たちが相互作用できる範囲は有限です。非常に大きいですが有限です。しかし、標準的な仮定は、実際にはそれが永遠に続くことを含意しています。
そしてそれは、私と非常に近い存在が無限にいることを意味します。
変数が同じである限りは、ですね。
ええ、その通りです。たとえそれが有限であったとしても、宇宙の大きさに関する最良の推測は、本当に非常に大きいというものです。
ですから、それがあなたが非常に密接に相関している人々をたくさん持つことができる一つの方法です。なるほど、たくさんのエージェントがいるのですね。他の文明がどこにあろうと、彼らの進化の背景がどうであれ、彼らがこの種の会話に行き着く、つまり同じアイデアに思い至り、道徳的公共財に資金を提供すべきかどうかという証拠的決定理論(彼らは証拠的決定理論について独自の言葉を持っているでしょうが)のような同じ哲学的決定を下さなければならない可能性が高いと思いますか? それは確率が高いと思いますか?
それについては考えたことがありませんでしたが、ええ、私の推測では、もし十分な数のコピーがいるなら、それは確率が高くなくても成立します。
良い指摘ですね。
しかし、おそらく確率も高いと思います。これは非常に自然なことであり、好みの構造や好みがどのように機能するかという性質に組み込まれているからです。ですから、私にとってはかなり可能性が高いと思えます。
ええ。もし彼らが宇宙に進出しながら、私たちがこの比較的早い発展段階で思いついたこれらのアイデアを持たなかったとしたら、それは驚くべきことですね。
まさに。
この問題を解決するために持ち出すには、これは巨大なハンマーであるということに注意する価値があると思います。なぜなら、自分たちの決定と鋭く相関している存在が、空間と時間を越えて、あるいは多元宇宙などに無数に(あるいはおそらく無限に)存在し、彼らも基本的に同じ哲学的決定を下していると信じているからです。
彼らはまた、このコンセンサスの道徳的善とは何であるかについての決定も下さなければならないでしょう。おそらく、誰もが似たようなものを気にすることに収束するという部分は、もう少し希薄かもしれません。
そうですね、異なる存在はあらゆる種類の異なるものを気にする可能性があります。ですから、仮に私が密接に相関しているこの1兆の存在がいるとしましょう。私は彼らが気にしているすべてのものを見渡して、何が最もコンセンサスを得られるものかを見つけようとします。それは、私が彼らとどれくらい相関しているか、どれくらいの人がそれを重視しているか、そしてどれくらい強くそれを重視しているかというバランスによって決まり、私が資金を提供すべきものが導き出されます。
それが何であるかを考えるのは興味深いことです。このすべてについて私が懸念しているのは、少なくとも私が道具的価値(instrumental value)しかないと考えているものに、私たちが資金を提供してしまうのではないかということです。例えば、幸福感、つまりポジティブな意識的体験こそが実際に良いことだとしましょう。どのような社会を生み出すにしても、道具的に有用な特定の事柄があります。知識や、より大きな人口の成長、生存などです。基本的にすべての文明が、おそらく道具的としてだけですが、これらのものを重視すると予想すべきです。
しかし時々、彼らは私たちの基準から見て、目的のための手段として有用なものと、最終的な目的として有用なものを混同してしまうかもしれません。
その通りです。何か非常に道具的な価値があるものについて、人々が最終的にそれ自体のためにそれを気にするようになるのは非常に自然なことです。実際、多くの哲学者は知識や生存を気にかけており、達成などの事柄が本質的に価値があると考えています。ですからもしそうなら、それがこれらすべての非常に異なる文明にまたがるコンセンサスになるかもしれません。そして、現在実際に何が重要であるかについての私の最良の推測を考えると、それはひどく残念なことです。私たちは最終的に非常に中立的なものになってしまいます。最終的な価値を持たない何かに資金を提供することになってしまうのです。
少なくとも、それはひどく悪いことでもないと言えるかもしれません。ええ。
ですから、この提案を読んだとき、「なんてことだ、これは信じられないほどの力になり得るぞ。これを理解できるほぼすべてのエージェントを実際に動かすことができるかもしれない」と思いました。おそらくこれは、私たちが到達した将来の哲学的な洞察によって取って代わられるかもしれませんが、これがいなければ決してそれに費やすことがなかったであろう莫大なリソースを、何かに費やさせるための非常に強力なハンマーになるかもしれません。これは可能性があると思いますか?
はい。だからこそトムがこのアイデアを私に説明してくれたとき、「なんてことだ」と思ったんです。なぜなら、誰もが時間をかけて反省し、十分に考えれば、皆が善に収束して善を生み出すという、このポリアンナ的(過度に楽観的)でナイーブな見解があるからです。これは、私がこれまで考えたこともなかった、そうするためのメカニズムです。そして私が言うように、そこには非常に多くの注釈(保留事項)があると思います。
ほとんど私は…
素晴らしいのですが、私は考えるのをやめたくなります。なぜなら、出てくるかもしれない他の考慮事項によってサインが反転(良いものが悪いものに変わる)してほしくないからです。本当に良いものに近づいているとき、いつもあと1つの情報、あるいはそれをひどいものにするかもしれない他の考慮事項からわずか一歩のところにいるように感じるからです。
ええ。たとえその議論に欠陥が見つからなかったとしても、私はそれにあまり多くの重きを置きたくありませんし、そこには深刻な議論の余地がある側面があると思います。なぜなら、「未来の人々はこのような決定理論や宇宙についての信念を持ち、私や友人たちが昨日パブで思いついたような議論を行うだろう」といういかなる主張も…数ヶ月前のことですが。いいえ、私はもっとはるかに堅牢な考慮事項に基づいて行動したいのです。ですから、間違いなくそれは私を未来についてより楽観的にさせます。しかし、ええ、そのような議論の余地のある前提に基づいて、未来についてのこの種のポリアンナ的な見解は持ちたくありません。そして、たとえ議論の問題点を見抜けなかったとしても、そうしたくはありません。実際、議論の余地のある側面はあると思います。
わかりました。ええ、この件についてはここまでにしましょう。もっと読みたい人のために、これについての記事がまもなく公開されます。Forethought.orgで読めるのですよね?
ええ、Forethought.orgに掲載されます。このポッドキャストのエピソードが公開される頃には、実際にもう出ているかもしれません。
AI開発の一時停止(ポーズ)に関する議論
よし、インタビューの「その他」のセクションに進みましょう。様々なトピックの寄せ集めについて話していきます。視聴者にどのような質問をあなたに投げかけたいか尋ねたところ、最も賛成票が多かったのは「ポーズAI(AI開発の一時停止)」に関する質問でした。つまり、私たちはAIをより良いものにしようとしていますが、現在の道筋では物事が壊滅的に脱線する可能性がいくらかあるように見えます。私たちはトリリオン(兆)ドルの資金を投じて、技術的に可能な限り早く、人工超知能に向かってまっしぐらに進んでいるようです。
私たちが皆死ぬかもしれない、あるいは事態がひどく悪い方向に向かうかもしれないことを考えれば、スピードを落とすこと、あるいはおそらく一時的に停止して一息つき、再開する前により安全なコースを設定するための様々なことを行うのが常識的なことではないでしょうか。それは非常に常識的で自然な見方だと思います。しかし、あなたはそれを推し進めておらず、私も排他的にはそれを推し進めていませんが、その一部のバージョンには共感しています。ええ、なぜこれをあなたのメインプロジェクトにしないのですか?
ありがとうございます。ええ、それは素晴らしい質問です。まずは、一時停止のいくつかの異なる種類を区別しましょう。まず、「人間レベルでの一時停止」について話しましょう。これはRyan Greenblattの言葉です。これは、AIがAI研究開発に従事するようになった時点、物事がさらに速く進むかもしれないこの時点において、スピードを落とすか、さらには一時停止したり、立ち止まってから再開したりすべきか、という問題です。そこについては、私は間違いなく「はい」です。これは本当に非常に危険な時期であり、最も変化が速い時期でもあります。少なくとも、同時にその両方である可能性があります。
そして、なぜそれが極めて重要な時期なのでしょうか? ええと、実際には、それが方向感覚を失うほど速く、初期のAIの乗っ取りが起こるかもしれない時期であることに加えて、そこに至るまでのAIの支援から恩恵を受けられるという利点もあります。AIが世界でより大きな影響を与えているという事実から利益を得ることもできます。ですから、予防接種のようなもの、つまり他のアクターがこれがいかに大きな問題であるかに目覚める可能性が高くなります。ですから、もしその時期に時間さえあれば、規制などが導入される可能性が高くなると思います。
また、単にあなたが持っているAIシステムが、最も危険なシステムのちょうど一世代前のものだということもあります。ですから、それらを研究し、それらについてのアライメント研究を行うことで、最も多くの情報を得ることができます。ですから、その時点での一時停止や減速には私は非常に賛成です。
私には、知能の爆発の「レッドライン」を持つというアイデアについての投稿があります。そこでは自分がかなり重視している何らかの運用化(基準の明確化)を行います。おそらく、Jeff HintonやYoshua Bengio、その他の著名人、もしかしたら何人かの懐疑論者も含めたパネルがあり、それがこの漸進的なプロセスを二元的なもの(白黒はっきりしたもの)に変えます。私が熱心に支持しているのは、この種の国際的な条約のようなものを結ぶことです。基本的には「知能の爆発が始まりました。私たちは皆集まって、これから数年間で何が起こるかを考えます」というものです。
ですから、私は知能の爆発を遅らせることには賛成です。では、今すぐ一時停止することについてはどうでしょうか。これは本当にかなり異なることだと思います。
なるほど、再び一時停止のいくつかの異なる種類を区別するわけですね。一つは能力(ケイパビリティ)に関する一時停止で、もう一つはコンピュート(計算資源)の観点からの停止です。
私が支持されているのを見た一時停止は、能力に関する一時停止です。新しいトレーニングラン(学習)は行わないというものです。そして正直なところ、それは有害な結果をもたらすと思います。私たちが重視している事柄についてさえ、また安全性の観点からだけであってもです。なぜなら、現在フロンティア(最前線)には少数のアクターしかおらず、私の個人的な見解では、彼らは驚くほど分別があるからです。私の企業の行動に対する事前予測は低かったです。エクソンが気候変動の問題にどう対処したかの歴史などを見ればわかります。彼らはそれを葬り去り、代わりに誤情報を流しました。
しかし、今はAIの安全性の問題に気づき、少なくともある程度の投資を行っている少数のアクターがいます。能力で一時停止すればどうなるでしょうか。「よし、これで遅れをとっていた者たちもすべてフロンティアに追いつき始めるぞ」となります。それが中国であり、MetaやxAIであり、これで私たちははるかに多くのアクターを持つことになります。その中には、私がより不誠実だと考える者も含まれます。
また、トレーニングをしないことについてであれば、依然としてコンピュートを備蓄し、より多くのファブ(半導体工場)を建設することなどは可能です。そしてそれは、私たちをこの非常に不安定な状況に置くことになります。もし誰かが一時停止を破れば、突然物事は以前よりもはるかに速く進む可能性があります。特に、起こる知能の爆発の速度と規模は、「その時点でどれだけのコンピュートを持っているか」に関わってきます。
ですから、それは実は他の条件が同じであれば、私はアルゴリズムの進歩がより速く進むことを望んでいることを意味します。なぜなら…
後になってからアルゴリズムの低い枝(容易な成果)を刈り取るのが難しくなり、物事を遅らせることになるからですね。
ええ、それはAIがAI研究開発を自動化する際に、全体としてのコンピュートの備蓄が少ない状態で行うことを意味します。そしてそれは、すべてのモデリングなどを行った場合、より遅く、より低い到達点の知能の爆発になることを意味します。そして繰り返しになりますが、それが恐ろしい部分なのです。そこがすべてのリスクが存在する場所であり、物事が速く進みすぎるところなのです。
もう一つ、あなたが持てる別の提案があります。「トレーニングによって行うのではなく、単に私たちが持つコンピュートの量を遅らせる」というものです。これにはもっと見込みがあると思います。しかし、それでも同様の懸念があります。「チップをそれほど生産しないとしても、多くのファブや発電所などすべてが準備万端であり、再びキャッチアップの懸念が生じる」ということです。
そして最後のポイントは、私たちが主張できる様々なことがある中で、私の観点からは、状況をかなり安全にするための信じられないほど簡単に達成できる成果(低い枝の果実)が山ほどあるということです。AIの性格について話しましたし、リスク回避やAIとの取引についても話しました。メカニスティックな解釈可能性(AIがどう判断しているかの仕組みの解明)や、探索の安全性、あるいは非常に基本的な政府の規制などについては話していません。
例えば米国政府は、「フロンティア企業としてAIを開発しているなら、AIが何をすべきかを定めたAI憲法を持たなければならない。そして、そのモデルが実際にその憲法に従っており、内部の妨害や中国などの外国のアクターによって組み込まれたり、有機的に発展したりしたような隠された目標を持っていないという、非常に質の高い証拠を私たちに提出しなければならない」と言うことができます。それはリスクを減らすという点で非常に大きな勝利となるでしょう。
そしてこれらの事柄はすべて、世界に莫大なコストを課すものではなく、何らかの国際的な一時停止というアイデアよりも実現する可能性がはるかに高いと思います。ですから、何を主張すべきかという「費用対効果(bang for buck)」の観点から言えば、私がこれまで見てきた一時停止の議論は逆効果に思えます。仮に「理想的な世界ではこれが起こるだろう」と思ったとしても、「我々が推し進めることができる、他に非常に簡単に達成できて非常に費用対効果の高いことが山ほどあるじゃないか」と思うのです。
ええ、もちろんここには、正確なタイミング、正確なメッセージ、どれくらい自発的かといった、非常に複雑な考慮事項の藪があります。将来の適切な時期に(非常ブレーキの)コードを引くためのインフラを整備しようとする人たちがいることには価値があると思います。例えば、米国と中国の間で、「私たちはお互いにこれがどれほど危険かわからない。非常に安全かもしれないし、非常に危険かもしれない。もし私たちが決定的な情報、これらのAIシステムの本質とそれがいかに危険かについての決定的な暴露を得た場合、私たちはすぐに協調できるようにしたい」といった対話がないのは少しもどかしいです。
ええ。
今そこにあると気づいたワイヤーに引っかからないように。しかし、そのようなものは何もありません。そして、私たちが正しい証拠を得たなら、適切なタイミングで一時停止するための様々な準備作業を行うことができると思います。
ええ。私もそれに完全に同意しますし、コンピュートのスタッキング(積み上げ)もそうです。どれだけのコンピュートがあるかを知り、「よし、もし米国と中国が『これはやりすぎだ』と同意したら、チップをスイスに持ち込んで相互に破壊する」といった計画を持つことです。少なくとも一定数のチップを。
しかし私が考えていたのは、より控えめなことです。単に「もし私たちが『次のトレーニングランは非常に危険かもしれない』と結論づけ、それを裏付ける証拠が出てきたと互いに同意した場合、私たちは相手にそれを強行してもらいたくない」と言うことです。
ええ。
ですから、どちらの側も先を争って進むことはないと安心できるように、非常に迅速に導入できる何らかの監視の取り決めを持つ必要があります。
なるほど。それは実はずっと簡単な要求ではありませんか?
ええ、私が考えていたのは、それはもっと難しいかもしれないということでした。なぜなら、コンピュートガバナンス(計算資源の管理)を含む事柄は、既存のコンピュートでトレーニングランを行っているかどうかを検証するよりも、監視する方がはるかに簡単だからです。相手がどれだけのコンピュートを持っているかさえわからない状態ですから。チップがトレーニングに使われているか推論に使われているかを示す、チップ上の何らかのメカニズムが必要になるかもしれません。
ええ、このポーズ(一時停止)の質問やその詳細については、まだしばらく話せそうですが、これは別のエピソードのためにとっておくべきでしょうね。
効果的利他主義(EA)の現状と未来
あなたはかなり昔に効果的利他主義(Effective Altruism: EA)の設立を支援し、それは私たちが2011年に始めて以来、80,000 Hoursの動機付けとなる哲学であったと言えるでしょう。ええと、EAにとっては厳しい数年間だったと思います。その主な理由は、効果的利他主義と強烈に結びついていたサム・バンクマン=フリード(SBF)が、大規模な犯罪を犯したことです。少なくとも部分的には利他的な目標を追求するためであったと思います。おそらく複合的な動機があったのでしょうが、良いことをするためにお金を稼ぎたいということが要因の一つだったと思います。
多くの人が、EAに対する関心を失う傾向にあったり、幻滅したり、あるいはその出来事によってブランドがあまりにもダメージを受けたため、少し絶望的だと考えたりしていると思います。ここ数年のEAの推移についてどう考えていますか? 停滞しているのでしょうか、少し回復しているのでしょうか、それとも衰退しているのでしょうか?
はい。オンラインの雰囲気や、オンラインでの味気ない議論と、実際に何が起きているのかを区別する必要があると思います。当時、これは明らかに巨大な打撃であり、「もしかしたらこれが致命傷になるかもしれない」というような状況でした。
全体的なストーリーとしては、明らかに事態は以前よりもずっと静かになっています。オンラインなどで派手なアピールをすることも減りました。そして明らかに、「これが私のブランドだ」というようにEAをアイデンティティとする人は少なくなりましたが、それは個人的には良いことであり、健全なことだと考えています。
いずれにせよ、それは良かっただろうと。
個人的にはそう思います。しかし、実際のところそのアイデアはどのように実践され、その影響力は時間とともにどのように推移しているのかという点については、全体的なストーリーは「よし、数年間の大きな打撃があったが、今は再びかなり力強い成長に戻っている」というものです。
これに関するいくつかの異なる指標があります。1つは、より効果的な慈善団体に資金を振り向けようとする、より広範な効果的寄付(effective giving)のムーブメント全体が、時間とともにどのように成長してきたかということです。実は、この危機とドラマの期間中であっても、かなり安定して年間約10%で成長しています。
昨年に至っては、実は加速しています。数字はまだ出揃っていませんが、効果的な慈善団体に向けられた資金の総額の成長は、おそらく40%から50%になりそうです。約12〜13億ドルから、おそらく18億ドルに近づくでしょう。明らかにその大きな部分はOpen Philanthropyであり、GiveWellも大きな部分を占めています。Founders Pledgeもありますが、多くの異なる国の効果的寄付組織全体で同じ力学が働いています。そしてまた、効果的寄付の原則に基づいた新しい財団も設立されています。これは本当に非常に印象的です。
そして、Giving What We Canの誓約など、他の領域でも同じ力学が当てはまると思います。誓約の成長は大きな打撃を受け、2022年には1,600件の新しい誓約があったのが、2023年にはわずか600件になりました。しかしここでもまた、前年比で20%から30%の成長というかなり有望な成長率に戻っています。Giving What We Canは現在、過去のどの年よりも年間で多くの資金を動かしています。
そして同様に、コミュニティおよびムーブメントとしての効果的利他主義自体も、Centre for Effective Altruismの主要な指標で見ると、やはり前年比20%の成長のように見えます。ですからこれは…
巨大なブームがあり、巨大なバスト(破裂)があり、そして何年も前に予測したかもしれない場所に戻ってきたというような感じですね。
ええ、おそらく2015年に戻って、「2025年はこういう状態です」と言われたら、「ああ、なるほど。安定しているね。ただ途中でこのクレイジーな時期があったんだね」という感じになると思います。
数ヶ月後に『Doing Good Better』の10周年記念版が出版されるのですよね? それに基づいてたくさんのインタビューを受けることになりそうですね。
ええ。自分でもすごく年をとった気分になります。出版されてから10年が経ち、明らかに世界は大きく変わりました。学生向けのコースで教材として使われていたので、教授たちから「統計データが古いと使いづらいからアップデートしてくれないか」と頼まれていました。
そこで、この完全にアップデートされたバージョンを出しました。内容は基本的にすべて同じで、主に事実と数字が更新されています。そして、私の効果的利他主義に関する考えが時間とともにどのように進化してきたかについて少し議論した新しい序文があります。これを機会に、もう少しポッドキャストなどに出演して、効果的寄付や効果的なキャリア選択の背景にある核となるアイデアや哲学について話そうと思っています。
どのような反応を期待していますか? おそらくSBFについての質問をたくさん浴びせられることになると予想しているのではないでしょうか。
ええと、これは改訂版ですから、大きな反響を呼ぶようなものにはならないと思います。そして、反応は様々だろうと予想しています。多くの人はその話をしたがるでしょうし、多くの人は単にアイデアそのものや、効果的寄付や効果的なキャリア選択の背景にある哲学に純粋に興味を持っているでしょう。
EAが評判の低下を被ったことは、ある意味で適切だったというか、何か問題のあることを本当に明らかにした、あるいは私が問題だと知っていた何かが、私が思っていたよりもはるかに深刻な問題であると考えさせられたように感じます。EAのアイデアを悪用して、ルール違反や非常に悪い行動、あるいはおそらく犯罪さえも正当化するのは簡単かもしれないという懸念は常にありました。しかし、その発生率はかなり低いだろうと考えていました。あのような壮絶な事例が比較的早く発生したという事実は、おそらく、権力を追求するために悪いことを正当化できる哲学を掴み取ろうとする人間の欲求は、私が考えていたよりも大きいかもしれないと考えさせました。
私たちが十分な安全策を講じたこと、あるいはその事件への反発が十分に強く、同じようなことが二度と起こる可能性が低くなっていることを望んでいます。これについて何か考えはありましたか?
ええ。FTXの様々な人々の頭の中に何があったのかという点については、私にも非常に未解決の疑問があります。私はこのトピックについて、おそらく楽しめたであろう以上に長い時間を費やしてきました。それが何らかの周到な結果主義的(consequentialist)な陰謀だったのではないかという懸念もありましたが、それは慎重に研究した結果から裏付けられるものではないと思います。様々な理由から、十分な筋が通っていません。
しかし、確実に言えることの1つは、EAが大きく進化したということです。強烈なアイデンティティではなくなったことが大きな部分を占めていると思います。ルール違反に対するある種の恐怖や、ある種のナイーブな最大化に対して、人々は極度に警戒するようになっています。それはもっと早く持っておくべきだったかもしれませんが、いずれにせよ健全なことです。
EAには常にこれがありましたし、ある意味では実際に多く強調されていました。そしてそれがさらに強化されていることを嬉しく思いますが…
AGI時代におけるEAの役割と「Vitopia(バイトピア)」
さて、未来に関してですが、あなたは数ヶ月前に「AGIの時代のEA」という非常に好評だった記事を書きました。これからの数年間において、EAの考え方の比較優位は何だと考えているかについて議論したものです。どのような主張だったのでしょうか?
ええ。重要なのは、ある種の雰囲気が存在しているということです。2つのことが起こりました。1つは、GPT-4以降、私たちが「AGIの時代」と呼ぶ時代に入ったことです。私たちは今、印象的な人間のような方法で推論するAIシステムを持っています。常に人間らしいとは限りませんが、彼らは明らかに、AI研究開発を自動化できるAIへの道筋にあるタスクをこなすことができます。
そしてこれは非常に大きなことであり、多くの人が考えていたよりも早く起こっています。そのため、AIに大きな注目が集まっています。そして同時に、ムーブメントとしてのEAにこうした大きな打撃がありました。そのため、「EAというプロジェクトはもう手放すべきだ。それは過去のプロジェクトだと考えるべきだ。代わりに私たちが焦点を当てるべきはAIの安全性だけだからだ」という見方を持つかもしれません。
私が何年も前から、特にここ数年で強く主張してきたのは、「AIは多くの脅威、多くのリスクをもたらし、私たちが正しく行わなければならない多くのことがある」ということです。それはアライメント(AIの価値観を人類と合わせること)だけではありません。アライメントも非常に重要ですが。そしてこれらの他の課題を見たとき、私はどのような人に取り組んでほしいか? 優しくてオタクな人たちです。慎重で思慮深く、スカウトマインドセット(真実を探求する姿勢)を持ち、倫理的な関心が非常に高く、単なる党派的なイデオロギーを持って入ってくるだけでなく、本当に非常に奇妙で目が回るようなことについても進んで考える人たちです。そしてそれこそが、アイデアの集合体としての効果的利他主義によって提供されているものなのです。
私のこの主張の主なケースは、単なるアライメントではないすべての事柄に関するものでした。草稿の段階で私が受けた反論の1つは、「いや、これはアライメントと安全性にとっても本当に重要だ」というものでした。なぜなら、アライメントと安全性の中でも、あなたが取り組めることは様々だからです。人間のフィードバックからの強化学習(RLHF)や、今日のモデルに関連するその他の事柄に取り組むこともできます。しかし、アライメント問題を本当に真剣に受け止めるということは、超知能をどのようにアライメントさせるかという難しい問題を真剣に受け止めるということです。
その超知能は、あなたが試みようとしているあらゆるテストに対して完璧な状況認識を持っているかもしれず、数百万年分の推論に相当することを、極端に言えば1回のフォワードパス(処理)で行うことができるかもしれません。あるいは、時間をかけて継続的に学習し、自らの価値観全体を反省するかもしれません。これらが困難な課題であり、考えるには奇妙な世界です。そしてそれは自然に浮かんでくるようなことではありません。私が話をしたアライメントや安全性の研究者の中には、「いや、実はこの種の大きな視点について本当に考えている人たちの方が、AIの安全性を単なる仕事として扱い、大局的に考えていない人たちよりも、はるかに多くの価値を付加している」と言う人もいました。
ここで作用しているのは、一般的な「スコープセンシティビティ(影響範囲への敏感さ)」が1つの要因であり、また「奇妙さに対する特定の欲求」、つまり非常に奇妙なアイデアを真剣にもてあそぶことをいとわない姿勢だと思います。今日話したことのいくつかもこのカテゴリーに入りますが、深みにハマって自分の持論に完全に盲目的になることなく、です。それはもろい中間地帯であり、だからこそ比較的珍しく、また価値があるのだと思います。その領域にいる人だけがワクワクするような、見過ごされている事柄があるからです。
ええ。適切に奇妙でありながら、ソーシャルメディアで良いフォロワーを獲得して面白い人だと思われるような逆張り主義に陥ることなく、よく調整され、真実を見極めようとすることは、本当に難しいという考えがあります。そしてもしあなたが本当に真剣に良いことをしようとしているなら、それはあなたを制約するものです。なぜなら、正確な信念を持っていればより多くの良いことができるからです。そして最良の場合には、適切であるときに奇妙なアイデアを信じたり楽しんだりし、また適切であるときにそれを拒否するという、正しい中間地点に立つことができるよう導いてくれます。
ですから、その全体的な議論を知りたければ、そのブログ記事を読んでもらえばいいでしょう。しかし、EAスタイルの思考を持つ人々が不釣り合いなほど参入していくべきだとあなたが考えた特定の事柄とは何でしたか?
ええと、私たちが焦点を当てている事柄の幅広さだと思います。特に明白なものの1つは、AIの権利やAIのウェルビーイング(幸福)についてです。また、AIとの協力について話したこともそうです。これらは考えるべき事柄としては非常に珍しいセットです。私はこれが珍しいままになるとは思っていません。実際、5年後にはかなりメインストリームの懸念事項になると思います。しかし、これこそが、逆張り主義に陥ることなく奇妙なアイデアを楽しむ意欲と同時に、倫理的に大きな失敗をしないことへの深い懸念の両方を必要とするような事柄です。
また、AIの性格に関する事柄もそうです。ここには様々な声や、様々な人々に参加してほしいと思います。しかしその大部分において、すでにほとんどの企業でAIの性格を担当してきた人々は、現在のような事後対応的な方法で扱ってきました。なぜなら、私たちは数年先さえ見据えておらず、もしかしたらAIの性格への考慮が、AIの能力にようやく追いついたところかもしれないからです。しかし、長い期間にわたる複数エージェント間のダイナミクスにおけるAIの性格について、どれほど深く考えられてきたでしょうか? 本当に非常に深く。
そしてどういうわけか、EAのメンタリティを持つ人々は、奇妙で範囲の不明確な領域に入っていき、「よし、私たちが焦点を当てるべき最も重要なことは何で、そうでないものは何か?」を解き明かす手助けをするのが得意だと私は考えています。
「AGIの時代のEA」という議論に反論したい人を想像してみてください。彼らは、EAが深刻なブランドの打撃を受け、SBFとFTXの件で多くの否定的な歴史的関連付けがあると言うかもしれません。また、人々が興味を持つかもしれないし持たないかもしれない、多くの他の哲学的な荷物(バゲッジ)も一緒にもたらすと。例えば、エビの福祉プロジェクトなどに関連付けられています。私はそのプロジェクトが好きですが、あなたのAGI関連のプロジェクトには興味があっても、エビの福祉プロジェクトには疑いの目を向ける人も多いでしょう。ではなぜ、効果的利他主義スタイルのプロジェクトだとブランディングすることで、個人的に好きかもしれないし嫌いかもしれない他の多くの奇妙な仕事と自分を結びつけるのでしょうか?
特に、よりメインストリームの動機を持っている場合、つまり特に珍しいEAの道徳哲学だけで動機付けられているわけではなく、一般的な意味で世界を良くしたい、私たちが皆死なないようにし、自分の子供たちにとって世界がより良くなるようにしたいと願っている場合です。常識的な方法で世界を良くしたいというだけで自分の行動を正当化するのに十分であるなら、なぜEAをその大きな特徴にするのでしょうか?
ええ。私が主張しているのは、ブランド、つまり「EA」という言葉についての売り込みや議論では全くないということです。私自身、その言葉や、人々が自分自身をどう表現するかについて特別な愛着はありません。実際、最良の結果とは、そのアイデアが古風に感じられて消え去ることだというのが常に真実でした。私は女性が参政権を持つべきだと信じていますが、自分をサフラジェット(女性参政権運動家)とは表現しません。それは時代遅れの言葉です。
同様に、人々は好きなように自分自身を表現できます。重要なのは、人々がどのようなマインドセットで行動しているかということです。それはスカウトマインドセットですか? スコープセンシティビティを持っていますか? 私たちが現在どれほど異常な時点にいるか、そして道徳的なステークス(賭け金)がどれほど高いかについて、適切に対応していますか? ということです。
あなたは最近、「Vitopia(バイトピア)」と呼ぶ近い将来のビジョンを提示しましたね。Vitopiaとは何で、その論拠は何ですか?
はい。現在の状況は、世界最大手の企業の多くが、すべての認知的領域において人間の能力を超えるAIシステムを構築しようとしています。これは人類の歴史の中でこれまでに起きた最も重大な出来事の一つ、いや最も重大な出来事であると考えるに足る良い理由があると思います。産業革命や電気・火の発明というよりも、ホモ・サピエンスの進化や生命そのものの進化にはるかに似ています。そのレベルの規模の出来事です。
それにもかかわらず、超知能開発後の良い社会とはどのようなものかについて、十分に形成されたポジティブなビジョンを持っている人は事実上誰もいません。これは驚くべきことであり、懸念すべきことです。
少し怠慢のように感じますね。
ええ。そしてVitopiaの概念は、「超知能後の良い社会とはどのようなものか?」という質問に対する答えのための、少なくとも一つのフレームワークを提供しようとするものです。Vitopiaの概念は、それが「最良に近い未来を生み出す軌道に乗っている社会の状態」であるというものです。私たちが持ち得る未来と同じくらい良い状態の、少なくとも90%くらいの良さを持つものです。
そしてその特徴は、「何らかのユートピア的な社会を直接目指すべきだ」と言っているわけではない点です。また、「世界に存在するこれらすべての悪いことを見てみよう。この特定の問題と、あの特定の問題を解決できる」と単に言っているわけでもありません。そうではなく、私たちが考え出すべきなのは「良い中継地点とはどのようなものか」ということです。それは、本当に非常に良いものへと自らを導くことができるような、ある種の社会状態です。
説明のためのアナロジーとして、あなたが冒険家で、荒野で迷子になったと想像してみてください。取るべき選択肢はいくつかあります。目的地に着くための正しい道はどれか、最善の推測をして進むこともできます。あるいは、例えば食料が少なくなっているといった、現在抱えているいくつかの問題にその場しのぎで対処しようとすることもできます。あるいは、「次に何をすべきか、どこへ行くべきかが最もよくわかる状況に自分を置こう」とすることもできます。例えば、より高い場所へ行き、地形を見渡し、実際自分がどこを目指しているのかを把握することです。Vitopiaはその3番目の道のようなものです。
直接すぐに良い世界を作ろうとするのではなく、今Vitopiaに到達しようとすることに焦点を当てる理由は何でしょうか。
はい。ユートピア主義の歴史的実績はかなり悪いです。哲学者や作家たちはしばしばユートピアのビジョンを描こうとしてきました。しかし通常、それがディストピア的に見え始めるのに長くはかかりません。その理由は、私たちには理想的な未来がどのようなものか単にわからないからです。「はい、自信を持って、これが理想的な未来です」と言えるようになるまでには、私たちが成し遂げるべき多くの道徳的な進歩が必要です。
ですから、私たちは何か別のことをする必要があります。そうしなければ、おそらく私たち自身がいくつかの大きな道徳的誤りを(未来に)組み込んでしまうことになるでしょう。
なるほど。「Vi」という名前の由来は?
「Via」はラテン語で「道」や「〜を通って」を意味します。つまり、このVitopiaという場所を経由して、ということです。
このVitopiaという概念は非常に人気があり、とても好評だったと聞いています。これが少し空虚な概念ではないかと心配することはありませんか?「私たちは本当に良い未来に到達したい。だから、その未来に到達する可能性が高い中間段階や中間的な位置に到達する必要がある」と言っているわけですが、それは素晴らしい洞察なのか、それとも単に自明の理であって、必ずしも私たちがそこへ到達する助けにはならないものなのでしょうか。
ええ。良い反論です。そしてそれは最も実体のあるものではなく、意図的に思考を整理するためのフレームワークとしての概念です。しかし、全く実体がないわけではないと思います。ユートピア主義と他の概念についての議論の歴史があり、ユートピア主義は非常に人気のあるアイデアで、歴史上いくつかの巨大な残虐行為の原因となりました。カール・ポパー以降、それに対する反発がありましたが、現在でも非常に人気があります。
未来学者のケビン・ケリーは「プロトピア(Protopia)」というアイデアを持っています。これは未来に対するポジティブなビジョンを全く持たないという考え方です。代わりに、「山登り(hill climbing)」のようなことを行います。現在の社会を見て、明確な問題である小さな変更可能な部分を見つけ、それらを漸進的に一つ一つ解決しようとするのです。
Vitopiaは物事を考えるための異なる方法です。そして、それは特に現在から超知能への移行の過程において、そう考えなければ思いつかないような、実質的に異なる推奨事項をもたらすと思います。
もしあなたがユートピア的な視点を持っていれば、「私たちがすべきことはAIを古典的功利主義(あるいはあなたの好きな他の道徳的見解)にし、その善のビジョンを追求するAIにすべてを委ねることだ」と考えるかもしれません。これはVitopiaの視点から見れば非常に悪いことに思えます。
プロトピアの視点からすれば、非常に大雑把に言えば、「世界には毎年1億人が死んでいるといった大きな問題、大きな悪があり、AIはそれらの問題を完全に解決する能力を与えてくれる。だから私たちはできるだけ早くそこに到達すべきであり、私たちがどれだけ速く進むかと、この移行の過程で実存的破局(人類滅亡など)のリスクをどれだけ負うかの間には、非常に厳しいトレードオフがあるだろう」と考えるかもしれません。
Vitopiaを目指す立場からすれば、「実はさらに重要なことがある。それは、私たちを本当に悪い未来に固定(ロックイン)させないことだ。たとえそれが、短期的な利益の面でのいくつかの上振れに、本来なら到達できたほど早く到達できないことを意味するとしてもだ」と言うでしょう。
つまり、プロトピア、すなわち「私たちを道に迷わせるような壮大なビジョンを持つべきではない。代わりにすぐに勝利を手にする、つまり私たちが理解でき、それが機能したかどうかがわかるような方法で世界を改善する方法を見つけるべきだ」という考え方は、差し迫った勝利、例えば健康の改善などをつかみ取ろうとするあまりに、大局的なリスクを見逃す可能性があるということですね。あるいはAIを単に推し進めることを推奨したり、少なくともそれらの間に優先順位をつけなかったりするでしょう。
「よし、超知能への制御喪失のリスクや、ある権威主義体制の固定化のリスクはあるかもしれない。しかし、死や貧困といった明確で明らかな悪が存在し、私たちはそれらを遠ざけることができる」と。
しかし、もしAIが近い将来に全員を殺すかもしれないと思えば、それも短期的な問題だと言うのではないでしょうか。確率的な問題なので評価が難しいかもしれませんが。
評価が難しいだけでなく、プロトピア主義は少なくとも「これらの一方が他方よりもはるかに重要だ」と言うためのリソースを提供してくれません。
Vitopiaをユートピア主義とプロトピア主義の中間点だと考えていますか? それとも別のものですか?
ある意味では、私たちがどこに向かうべきかについてのポジティブなビジョンを提供しているという点で中間点です。しかし、ユートピア主義が持つような落とし穴は持っていません。なぜなら、それは良い社会がどのようなものかについての多くの可能な最終的ビジョンと両立するものであり、この種の狭い善の視点にコミットするものではないからです。
では、Vitopia的な状態の重要な特徴とは何でしょうか? どのような特性を探すことになりますか?
重要な質問と重要な特性があります。ここでは私の現在の特定の答えよりも、質問の方を強調したいと思います。なぜなら、質問自体がより重要ですし、私の見解も時間とともに大きく変化するからです。
これには、権力がどれほど広く分散しているかといったことが含まれます。一方の極端は、すべての権力が単一のアクターの手に集中している状態であり、もう一方の極端は、それが極度に分散している、例えばグローバルな民主主義や、おそらくそれ以上に分散している状態です。
2つ目は、「どのような人々、どのような存在が権力を持つのか?」ということです。それは特定の社会の構成員だけなのか? 人間だけなのか? AIは未来に影響力を持つのか? 未来の世代についてはどうか?
3つ目のカテゴリーは、「大きな決定はいつ行われるのか?」ということです。「私たちは本当に大きな決定をかなり早い段階で行う必要がある」と考える議論もあります。あるいは代わりに、「未来がどうなるかを本当に導くような決定については、できる限り未来へと先送りしたい」と言うべきだという意見もあります。
そして最後に、「社会全体として、これらの決定や、未来がどうなるかについての最も重要な決定をどのように下すべきか?」という問題があります。それは民主主義、投票によるものかもしれませんし、もしそうならどのような投票システムか。あるいはオークションや市場メカニズムによるものかもしれず、もしそうならどのタイプか。これらが私たちが取り組まなければならない事柄の一部であり、私なりの見解はありますが、それらは進化しています。
私に最もすぐに思い浮かぶアナロジーは、新しい国を建国しようとする人々のグループです。彼らはまだ法律の性質や政治システムがどうあるべきかを正確には知らないかもしれませんが、憲法制定会議のような何らかのプロセスには容易に合意できるかもしれません。全員が集まり、「全員が投票権を持つ。この種の熟議プロセスを使い、この種の投票システムを使う」と考え、そして最後には、物事がどのように運営されるかについての何らかの合意に至り、結果はなるようになると。これは良いアナロジーでしょうか?
ええ、それは素晴らしいアナロジーだと思います。18世紀末の米国憲法制定会議は、記憶が正しければ約40人が一つの部屋で3ヶ月間、アメリカ合衆国はどうあるべきかについて議論したという驚くべき出来事です。そして彼らが合意したのは、この一連の手続きでした。そして明らかにその後、批准や修正が行われました。
これは面白いですね。なぜなら、特定のアイデアを固定することと、固定自体を伴わない方法を固定することとの間にバランスがあるからです。時間とともに多くの実験と自由な議論、変化を許容するシステムに固定することができます。それは、一人の人間、あるいは一つの家系に絶対的な権力を与えるような憲法を選んでいた場合とは全く異なります。それは異なる種類の政治システムに固定することになりますが、時間とともにどのように発展し得るかという点で、はるかにオープンエンド性に欠けるものです。
なるほど。Vitopiaのフレームワークが私たちを押し進めるであろう、特に自明でない、あるいは議論を呼ぶような推奨事項はありますか? 人々が他では好まないようなものです。
はい。少なくとも私がVitopiaを構成すると考えるもので、完全に自明ではないものがあります。後で話すことになりますが、私は権力の分散を非常に支持しています。一方で、実存的リスク(人類滅亡リスク)を深く懸念している人々の多くは、実は非常に強烈な権力の集中を支持しています。
これは狂った見方ではありません。実際、強烈な実存的リスクの期間がある場合、特に実存的リスクが、ミスアライメントの超知能を開発したり極めて強力な生物兵器を作り出したりすることで、多くの異なるアクターのいずれかによってもたらされる可能性がある場合、「私たちにはごく少数のアクター、あるいはこの期間を私たちを導いてくれる強力な1つのアクターだけが必要だ」と考えるかもしれません。
しかし私は、それが私たちを最良に近い未来へと導くことができる立場に置くとは思えません。
なぜですか?
最終的には、単一のアクターがおそらく間違った道徳的概念を持っているからだと思います。たとえ彼らが反省することを選んだとしてもです。実際にはもう少し悪いと思います。トップに立ち、絶対的な権力を獲得するような人たちというのは…
いくつか悪いフィルターを通過してきたということですね。
ええ、その通りです。過去の権威主義国家の指導者たちを見ればわかります。
実績はまちまちですね。
ええ。スターリン、ヒトラー、毛沢東などが含まれますが、彼らの性格特性は恐ろしいものです。彼らはサイコパスでサディスティックな人々です。たまたま絶対的な権力を持った、ランダムに選ばれた人たちではありません。また、一人の人間や少人数の人々が絶対的な権力を持つ立場にいると、自分たちの価値観をポジティブな方法で反省する可能性も低くなると思います。それは、対人関係の相互作用やその必要性からより自然に起こる傾向があるものだと思います。
ええ、特に組織内で影響力を持ったり、裕福になったり、尊敬されたりする人々でさえ、自分のアイデアを研ぎ澄ませるような通常の反対意見を得られなくなるということに気づくと思います。もしあなたが永遠の絶対的独裁者であったなら、現実からどれほど切り離されてしまうか想像がつきますね。
ええ、その通りです。
妥協と取引による未来への道筋
さて、うまくいく見込みがあると思われるVitopiaの異なるカテゴリーは何でしょうか?
はい。最良に近い未来に到達する方法として、大まかに3つの考え方があると思います。
1つ目は、私が「イージー・ユートピア(簡単なユートピア)」と呼ぶものです。これが常識的な見方だと思いますが、極めて良い未来、基本的に得られる限りの最高の未来に到達するのはそれほど難しくないというものです。最も明白でひどい悪を排除するだけでいいのです。独裁制を排除し、貧困を排除し、苦しみを排除し、不健康を排除し、人々に自由を与える。それと技術の発展が合わされば、私たちの道のりの大部分、あるいはすべてを達成できるでしょう。
もしそれが正しいなら、Vitopiaは実際にはそれほど興味深いものではありません。なぜなら、私たちはおそらく自然にそこに到達するからです。
2つ目の見方は「収束(Convergence)」です。この見方では、社会の大部分が、あるいは少なくとも権力を持つ人々の大部分が、正しい種類の倫理的見解に収束する必要があります。正しい倫理的見解、あるいは正しい道徳的見解です。あるいはこれを反実在論的・主観主義的な言葉で、「私が理想的な反省をした後に持つであろう見解」と表現することもできますが、「正しい」や「最良」と言う方が簡単です。
そして、彼らはそれによって動機付けられなければなりませんね。
ええ、その通りです。ですから、この収束のアイデアは、「最良の未来が狭いターゲットであるとしても、社会のほとんどのメンバー、少なくとも権力を持つ人々のほとんどが、最良のもの、最良の道徳的見解に収束し、それに向かって進むようにできれば、私たちはその狭いターゲットに命中させることができる」というものです。しかし、それが必要です。
そして3つ目のビジョンは、私が「妥協(Compromise)」と呼ぶものです。全員である必要はありません。おそらく、正しい種類の倫理的見解を持ち、それを追求する動機があり、広範な哲学的視点と世界に対する理解を持っている人々がほんのわずかな割合(ごく一部)であったとしても、彼らが社会の他の人々と取引(トレード)することができれば、それだけで私たちを最良に近い未来へと導くのに十分なのです。そして少なくとも私の見解では、この3つ目の選択肢が、目指すべき最も有望なものです。
ええ。ここでは「イージー・ユートピア」のシナリオは飛ばすことにしましょう。Forethoughtのウェブサイトに「No Easy Utopia(簡単なユートピアはない)」という記事があり、そこであなたはそれがもっともらしくないという議論を展開しています。手短に言えば、考えうる最良の世界は単に悪いものを排除するだけでなく、可能な限り最良のものをたくさん追加することでもあると私たち両方が同意しているからだと思います。そしておそらく最良のものは、その周辺にあるものよりも優れているため、命中させるのがかなり狭いターゲットなのです。
そして、この「反省」について、「全員が道徳哲学について反省したとき、彼らが正しい理論に到達し、彼らのリソースのすべてをその実行に費やす動機を持つとしたらどうなるか」といったことについてはあまり深く話すつもりはありません。なぜそれがうまくいく可能性が非常に高いとは思わないのか、手短に何か言いたいことはありますか?
ええ、言いたいことはたくさんありますが、たとえ私たちがかなり良いシナリオにいたとしても、それが失敗する可能性は複数あると考えています。1つは、単に人々が反省することに興味がないかもしれないということです。あるいは、反省するとしても間違った方法で行ったり、良い反省プロセスを持っていても悪い出発点(直感)を持っていて、良い反省を経ても間違った場所に行き着いてしまうこともあります。
私は、実際にはかなりの数の人々が同じ方向に収束するという考えにはいくらか共感しています。もしそれが真実なら、それは現実の性質によるものです。ある種の道徳的実在論のようなものが正しいからであり、議論が単に一つの特定の倫理的見解に非常に強く向かっているからか、あるいはこの特定の意識状態を経験すれば、それが実際に良いものであるがゆえに良いと信じずにはいられないからです。私たちが思い描くべきはそのようなシナリオだと思いますが、「ああ、私たちはそれに自信を持つべきではない」と思います。
実際、私はどれだけの収束が得られるかについて、本当にかなり広い不確実性を持っています。実はかなりの数の人が収束するだろうというところから、反省しても誰も収束せず、世界の80億人全員が善についてかなり異なる見解を持つことになるというところまで。
ええ。もう一つ見逃している点があります。すべてを正しく理解し、全員が正しい道徳理論に到達したとしても、それでもなおリソースを投入することに興味を持たない可能性があります。「でも私はただ自分のやりたいことをやりたいんだ。道徳的に本当に良いことをすることには興味がない」と言うかもしれません。
ええ。そして実際、それが最も可能性の高い失敗だと思います。人々のところに行って、ベジタリアンになることや寄付をすることの議論を提示し、彼らは「ああ、その議論はすべて成立しているね」と言いながら、それについて何の行動も起こさないということがあります。
そして実際、今日人々が倫理的な反省や反対の議論を導き出すことに多大な時間と資金を投資しているのを目にすることはありません。それは単に起こらないことなのです。それを行うのはかなり奇妙で珍しいことでしょう。
実際、一部の人々はそれ(反省すること)から自分自身を守りたいと思うかもしれませんね。原理主義的な宗教信者や、特定のイデオロギーに強く固執している人々を想像してみてください。彼らは、「反省することで私の信仰への忠誠を失うリスクは冒したくない」と言うかもしれません。あるいは「神よ、この代替的な立場を考慮することさえ忌まわしいことです」と。そして未来のテクノロジーを使えば、情報環境をガードしたり、これらの代替的な視点を考慮さえしないように自己変更したりすることができるかもしれません。
ええ。なるほど。さて、スコープをさらに明確にするために、ここでは壊滅的なミスアライメントや、非常に深く企てを行うAIのケースについてはほとんど考慮しません。それが可能な選択肢や生きている可能性ではないからではなく、収録時間が限られていることと、それが全く別の多くの問題を提起するからです。何らかの形で私たちがそれをほとんど乗り越えた場合にどうなるかを想像することには価値があります。
では、あなたが最も有望だと考えた、あなたが「妥協」や「取引」と呼んだ3つ目の選択肢に飛び込みましょう。正しい事柄に収束し、自分たちの努力の意味ある割合をそこに割り当てる意志がある、権力やリソースで重み付けされた人々。仮に10%の人々、リソースや権力で重み付けされた10%の人々がこの目標を追求したいと思っているとしましょう。あなたはこの10%を、実現可能な最良の未来の10%以上のものに変えたいと考えています。彼らはそれをどのように達成するのでしょうか?
はい。2つの大きな方法があると思います。1つは、異なるグループが本当に全く異なることを気にかけている場合です。最大の例は、おそらく反省した上で、単にリソースを直線的(線形)に重視する人々です。総量功利主義者(Total Utilitarian)はそのような人々です。リソースが多ければ多いほど、より多くの幸せな人生を作り出すことができ、宇宙全体の価値は、幸せな人生がいくつあるかに比例するからです。
おそらくもっと「常識的」な他の見解は、これとは大きく異なるかもしれません。地球の生物圏の保存だけを気にかけるかもしれません。あるいは、時間と空間において割り引いて考えるかもしれません。自分たちの近くで起こることを気にかけるか、あるいはさらに良い結果の危険なギャンブルよりも、良い結果の保証や非常に高い確率を本当に気にかけるかもしれません。
これは取引の大きな機会を提供します。このケースでは次のような取り決めが可能です。常識的な人々が、「よし、私たちは空間と時間的に近いリソースを管理する」と言い、この総量功利主義者に「ええ、あなたは他の星系に行って、多くの多くの幸せな存在がいるこのより野心的で拡張的な世界を作っていいですよ」と言うことができます。
そしておそらく実際には、もし彼らがすべてを完全にコントロールしていたとしたら理想的に望んだであろうものの99.99%を両者が得ることができるかもしれません。これは非常にエキサイティングで潜在的な機会です。なぜなら、もし私たちがそのようなシナリオに到達できれば、これらすべての異なる倫理的派閥が互いに取引をすることから有益な利益を得ることができ、勝者を一つ選ぶ必要がなくなるからです。それは意見の相違に対して堅牢(ロバスト)であり、したがって、私たち皆が収束することを単に願ったり、善の特定のビューを押し付けたりするよりもはるかに安全な選択肢です。
物事はそのように展開すると思いますか? それは実現可能なビジョンでしょうか?
ええと、それを達成することにさえリスクはあると思います。1つは権力の強烈な集中がある場合です。2つ目は、そのような取引が許可されていない場合です。現在でも、取引が許可されていないものはたくさんあります。おそらく、まさに最良のものです。例えば、総量功利主義者は特定の至福の状態を好むかもしれませんが、その人々は少数派であり、社会が「いや、それは違法だ」と言うかもしれません。私の見解では倫理的には問題ないのに、今日では許されていないようなことがすでにたくさんあります。
より大きな問題は、おそらく、比較的満たしやすい善の見解を持つグループがたくさんいる一方で、地球の生物圏の保存や局所的なものへの好みなどです。しかし、実際には物事を線形に気にかける人々もたくさんいるだろうということです。そしてそこでは、なぜ貿易からこれらの巨大な利益が得られるのか、最初から理解するのははるかに困難です。
ですから、「よし、総量功利主義者は、できるだけ多くの幸せで繁栄する人生が存在することを望んでいるだけだ」と言いました。しかし今、その中で区別してみましょう。功利主義者のタイプ1とタイプ2がいて、おそらく彼らは「繁栄が何から成るのか」「最良の意識的体験や人生とは何か」について異なる理解を持っています。そこでトレードからの良い取引が成立するためには、どちらの見解でも50%以上の良さを持つ何らかのハイブリッドな人生が存在する必要があります。
そのようなものが存在する可能性がどれくらいあるかというのは推測に過ぎません。私の推測では、一般的にはおそらく存在しないだろうと思います。なぜなら、功利主義の観点から最良のものは、それより少し劣るものよりもはるかに優れているだろうからです。
私が考えたのは、ここでの典型的なケースは次のようなものかもしれないということです。派閥Aと派閥Bがいて、派閥Aは功利主義者で喜びを求め、苦しみを望んでいないとします。派閥Bは全く異なるものを望んでいます。そして派閥Bは、その目標を追求する過程で偶然に多くの苦しみを引き起こすかもしれませんが、その苦しみは彼ら自身のために価値を置いているものではありません。彼らは単に、それが彼らのプロジェクトをいくらか効率的にするからそうしているだけです。そこでグループAは、偶然の苦しみを伴わないように設計し直す対価をグループBに支払うことができます。これはその種のケースでしょうか? そして今日の世界でもそのようなことは起きていますね。
ええ。ですから、もし私たちにそのような合意を結ぶためのはるかに良い機会があれば、より良い協調のテクノロジーなどがあれば、動物の苦しみを懸念するヴィーガンやベジタリアンの人々は、肉を食べるのが好きな人々と何らかの取引を行うことができるでしょう。おそらく、農業を完全に排除するほどの交渉力はないかもしれませんが、工場畜産を排除することはできると思います。
そして、おっしゃるように、ほとんどの動物の苦しみをなくすことができるでしょう。人々はそれを直接目指しているわけではなく、単なる副作用だからです。私の推測では、私たちがこれらの非常に壮大なスケールについて考えるとき、それはそれほど一般的ではないだろう、あるいは少なくとも、かなり多くの残余の非互換性が残るだろうと思います。なぜなら、あなたはタイプ1の幸福をできるだけ多く生み出そうとしており、私はタイプ2の幸福を生み出そうとしているからです。私はあなたの幸福の理解を基本的に無価値だと考えていますが、あなたが多くの苦しみを生み出しているわけでもありません。単に無価値だということです。
ええ。無価値だと。あるいは10分の1の価値だと。そして逆もまた然りです。
ええ、この件についてはここまでにしましょう。この種の道徳的取引にはしわ寄せや課題があることに素早く言及しておくべきでしょう。例えば、工場畜産を閉鎖したり再設計したりするために人々にお金を払い始めた場合、「お金を払わないなら最悪の工場畜産を始めるぞ」と言う人に対して脆弱になります。彼らがそうでなくてもそれをやったかどうかわかりません。脅迫するために嘘をついているのかもしれませんし、実際にやるのかもしれません。
おそらく星を渡り歩く未来において、それはそれほど問題にならないかもしれませんし、あるいははるかに悪い問題になるかもしれません。私たちには本当のところわかりません。
ええ、これを指摘しておきたいのですが、権力が広く分散し、取引などが行われることに関して私が最も懸念しているのは、そうした恐喝や脅迫の力学に対する脆弱性です。自己変更したり、嘘をついたり、脅迫や恐喝を使ったりする人々がその行為に対して報われず、それでもなお取引による他の有益な利益を得ることができるような良いシステムとはどのようなものかを見つけ出すための、かなり実質的なプロジェクトが存在します。
人口倫理学と「サチュレーション(飽和)ビュー」
さて、本格的な哲学、少なくとも分析哲学者が哲学とみなすものに進みましょう。あなたは「サチュレーション・ビュー(Saturation view:飽和見解)」と呼んでいる自説の道徳哲学理論に取り組んでいますね。サチュレーション・ビューで規範倫理学のどの問題に対処しようとしているのですか?
ええ、これは実は人口倫理学(Population ethics)の中にある一連の問題です。人口倫理学はあらゆる種類のパラドックス、つまり個々には極めてもっともらしい原則がたくさんありながら、結果的に互いに矛盾してしまうケースを生み出すことでよく知られている倫理学の分野です。
いくつかあります。「単なる追加のパラドックス(mere addition paradox)」や、直感的に妥当な原則が、デレク・パーフィットが「忌まわしい結論(repugnant conclusion)」と呼んだものに導くというものです。これは、「1兆の1兆倍の極めて幸せな人々がいる状態から始めても、その結果は『生きる価値がぎりぎりある程度の人生』しか送っていない人々だけで構成される人口よりも悪くなる可能性がある。人々の数が十分に多ければ」という考えです。それが問題の1つです。
2つ目は、狂信主義(fanaticism)の問題です。「この素晴らしい結果の保証から始めて、次にさらに良い、十分に良いものの極小の確率を取ってみましょう。期待効用理論と組み合わせると、多くの見解は『確率がどれほど小さくても、十分に良い結果があるならギャンブルに乗るべきだ』と言います」。
総量としての幸福度などに関してリスク中立的だからですね。
ええ。3つ目のカテゴリーの問題は、無限の倫理(infinite ethics)です。その側面に入る時間は絶対にないと思いますが、これは倫理学や価値論(axiology)に対するこの種の公平な結果主義的アプローチを本当に悩ませてきたものです。
しかし私の見解では、4つ目の問題もあります。文献では議論されていませんが、私が「モノカルチャー(単一栽培・単一文化)問題」と呼んでいるものです。「よし、考えうる最良の未来とは何かを考え出そう。それはどんなものか?」とします。驚くべきことに、これまでの人口倫理学の明確に規定された理論のすべては、「資源の量が固定されている場合、最良の未来は『何が最良の人生か』を見つけ出すことだ」と言っています。「ある量の資源で生み出すのに最も幸福度が高くなる人生を見つけ、その人生のコピーを宇宙中に何度も何度も何度も作るのだ」と。
ええ。
EAや合理主義者の世界では、時々「宇宙をヒドニウム(hedonium)で敷き詰める」と呼ばれたりします。ヒドニウムとは、リソースの単位あたり最も多くの至福を生み出すものです。しかし一般的な考えは、それが最も多くの幸福をもたらすものであるためモノカルチャーを望んでおり、それが永遠に繰り返されれば、完全に平等な社会も手に入るため、平等主義の観点からも良いというものです。
ええ。これは非常に自然な引力点のように思えます。なぜなら、「最良のものがある」と言ういかなる理論も、そしてその「もの」が宇宙規模の大きさでない場合、「それがより小さいなら、単にそれを作り、そしてそのコピーを作り、それを繰り返せばいい」と言うことになるからです。モノカルチャーを避けるためには、これに対する好みをハードコード(直接組み込み)しなければならないように思えます。ほとんどの人はモノカルチャーをかなり魅力的でないと感じていますが。
ええ。そして実は、それは人口倫理学において一般的に公理とみなされているいくつかの原則からも導き出されます。これらの原則から作ることができる非常にシンプルな証明のようなものがあります。しかし、少なくとも私はそれを直感に反すると感じます。
私は、単一の、質的に全く同一の人生のレプリカ(複製)で満たされた未来は、最良の未来ではないと考えます。より良い未来とは、異なる形の生命や経験などの幅広い多様性を含むものです。そしてそれは、「多様性やバラエティは道具的に価値がある」という直感や、「何が価値があるかわからないから、リスクをヘッジすべきだ」という直感だけではないと思います。そうではなく、多様性やバラエティそのものに本質的な価値を置いているということです。
未来にはですね。
ええ。あるいは、それを暗示する何かです。同じように聞こえるかもしれませんが、少し違うと思います。つまり、特定の経験や生命の形が実現すること自体が、単なる幸福度を超えて本質的な価値を持つということです。いずれにせよ、非常に多様で変化に富んだ未来は、このモノカルチャーよりも優れているということです。
ええ。これが哲学の文献であまり取り上げられてこなかったのは驚きです。なぜなら、私たちがすべての物質とエネルギーを使って何をするかについてオンラインで人々が話すとき、誰かが非常に単調なこと、例えば同じことを繰り返すだけということを提案すると、人々は「いや、それは好きじゃない」「恐ろしい」「クレイジーでひどい」と反応するからです。しかし、おそらく外にあるすべての銀河を変えるという見通しがこれまで実際にテーブルに上ったことがなかったため、哲学者たちはこれを解決すべき問題として直面してこなかったのでしょうね。
ええ、その通りだと思います。自分がどれだけ多くの善を行えるかを見つけ出そうと真剣に考えることで、結果としてあらゆる種類の興味深い哲学的な領域や問題が推進されてきたことを何度も発見しました。これらは、ほとんどの哲学者が同じように考えていないため、見過ごされてきた問題です。
なるほど。では、サチュレーション・ビュー(飽和見解)とは何ですか? それはこれにどう対処するのですか?
はい。サチュレーション・ビューは、「多様性は本質的に価値がある」という考えを取り入れる一つの方法です。「ある人生のレプリカ、質的なコピーを持っている場合、それは価値が低く、実際、その人生のコピーが増えれば増えるほど、徐々に価値は低くなっていく」という考え方を持っています。それは何らかの上限へと向かっていきます。
そして同じ理由でそれを少し一般化し、完全なコピーではなくわずかに異なるものであっても、何か全く新しい形の生命よりは価値が少し低くなるとします。
アナロジーとしては、最初は全く光っていないカラーホイール(色相環)を想像してください。異なる種類の生命はホイール上の異なるスポットを経験し、生命を追加することでそれらの小さなスポットを点灯させていきます。伝統的な人口価値論は、単に「最良のものがあり、その最良のものを何度も何度も生み出したい」と言うでしょう。代わりにサチュレーション・ビューでは、ホイール全体を光らせたいと考えます。「よし、これら非常に似た人生のコピーをたくさん持ったから、これ以上追加の人生はそれほどの価値を付加しない。だから、何か全く異なる形の生命や経験をインスタンス化(実現)することで、より多くの価値を得られる」と。
つまり、類似しすぎているものについては収穫逓減(リターンが減少すること)にぶつかるという直感の、非常に自然な定式化ですね。何か良いものを手に入れても、そのコピーをもう一つ作るのは最初ほど良くはない。また、それに似すぎているものも、過去に似すぎているものがあった場合には少し価値が下がるということです。
ええ。
そしてそれらは決して無価値になるわけではなく、単に徐々に価値が下がっていくのですね。
その通りです。ええ。追加の価値が全く得られなくなるポイントは決してありませんが、それぞれのコピーが生み出す価値の量はどんどん小さくなっていきます。
ある最大価値へと漸近(次第に近づく)していくわけですね。
はい。ですから、漸近線はこの見解の一部であり、実は非常に重要な部分です。
なるほど。そして、事物が互いに異なるかどうかを検討するハイパースペース(超空間)の定義に困難はありますか? それともそれは一旦置いておきますか?
ええ、これまでの私の研究では、「この異なる生命の空間とは正確にどのようなものか」「次元はいくつあるのか」といったことについてはあまり多く語っていません。いくつかの形式的な仮定を置いています。しかし私の一般的な見解は、「まずはこの見解の形式的構造と、それが持つすべての素晴らしい特性を見てみることから始めよう」というものです。その後で、様々な直感などをフィードして議論し始めることができますが、それは最大の部分には本当に影響しないと思います。
最大の図式には影響しないと。では、その素晴らしい特性とは何ですか?
先ほどの様々な問題に戻りましょう。まずこのモノカルチャーですが、これはモノカルチャーには至りません。実際、非常に豊かで多様な未来を望むことになり、それがより良いことになります。私が定式化したこの見解のバリアント(変種)では、それは「単なる追加のパラドックス」を解消します。
それはどういうことですか?
ええと、これにはもう1つの構造的な仮定が含まれています。繰り返し強調しますが、目的は総量功利主義のようなものではなく、その問題を回避する理論を見つけることです。幸福度が非常に低い、あるいは経験が(どのように集計するかに依存しますが)非常に低いすべての生命が、可能な生命や経験の全体的なランドスケープ(風景)の中のほんの小さな部分にすぎないとします。
パラドックスを生み出す基本的な原則を適切に再定式化すれば…これらは哲学者たちが「ceteris paribus(他の条件が同じならば)」と呼ぶ原則でなければなりません。「多様性を固定したまま」であれば、一部の人々の生活を改善し、良い生活を追加することは悪いことではありません。そして「多様性を固定したまま」であれば、より多くの幸福があり、より平等であることが悪いことではなく、実際には良いことです。
この見解は、これらすべての原則を満たし、忌まわしい結論を拒否し、この優越の原則(dominance principle)や平等主義プラス幸福度増加の原則を受け入れるという含意を持つことがわかります。しかし、忌まわしい結論を必然的に伴うことは決してありません。なぜなら、これらすべての低幸福度の生命や低幸福度の経験は、価値を持つに足る十分な多様性に足し合わせることができないという考えだからです。パラドックスの各ステップで、人々を追加し、幸福度をリバランスしようとしますが、「それはできない。実際そのステップを満たす世界は存在しない」というステップがあるのです。
なるほど、理解が追いつきませんでしたが、大丈夫です。
ポッドキャストで伝えるのは少し難しいですね。実際、論文の大部分はそもそも見解を提示することに割かれていません。数学的にかなり複雑になるため、見解のトイ・バージョン(おもちゃのモデル)を提示し、それを使って説明しています。
私がこれにそれほど惹かれない主な理由は、多くの人が持っているような、多様性に賛成する直感を私が強く持っていないからだと思います。総量功利主義やそれに類する見解のすべての問題の中で、私が最も厄介だと感じるのは、ポジティブな経験とネガティブな経験の間でのリスク中立性です。私はそれが深く不穏だと感じます。なぜなら、極端に良い人生と極端に悪い人生のそれぞれ50%の確率について無関心であるというのは、私自身のためには決して選ばないことだからです。
私にはそれは非常に直感に反します。しかし、本当に良いものを作り、そしてそれをたくさん作るというアイデアは、それほど奇妙には感じません。おそらく…
ええ。あなたの見解についてお聞きしたいのですが。リスク中立性についておっしゃいましたが、例えば悪いことには1000倍の重みをつけるような、ネガティブな方に重み付けをした功利主義的見解を持つこともできますね。それでもそれに関してはリスク中立的なのでしょうか?
ええ、それはより魅力的ですね。なるほど。悪いことへの重み付けを変えているのか、それとも単に悪いことの評価が本当に悪いと正しく評価しているのかを知るのは少し難しいと思います。
ええ、しかしそれは私にとってはより理にかなっています。ええ、私がどう決断するかといえば、悪いことに本当により多くの重みを置くということです。もちろん、「人間はなぜ1時間の喜びを経験するよりも1時間で多くの苦しむ能力を持つのか」という人間の直感に対するデバンキング(暴き)的な説明はありますが、ええ。
ですから、あなたがリスク中立性の側面に懸念を持っているかどうかも気になっています。それも私が言及した問題の1つ、狂信主義だったからです。「確率がどれほど小さくても…」
ええ、極端な例では、それを苦しみのケースと組み合わせると、1兆の1兆倍の強烈な至福の人生から始まりますね。
ええ。オプションAは絶対的に素晴らしい、1兆の1兆倍の人生です。オプションBは、1兆の1兆倍の強烈な苦しみ、最悪の苦しみの人生に加えて、10億の10億倍の10億倍の10億倍の…分の1の確率で、かろうじて生きる価値のある極端に多数の人生があるとします。
総量功利主義と期待効用理論を組み合わせると、人生の数が十分に大きい限り、後者(B)が前者(A)よりも優れていると言わざるを得ません。
つまり私たちがしていることは、かろうじて生きる価値のある人生を大量に追加するだけで、それがはるかに良くなるということです。
世界Aは1兆の1兆倍の至福のユートピア世界です。
ええ。
そしてギャンブルBは、1兆の1兆倍の強烈な苦しみの保証と…
さらに多数の…
イプシロン(極小)の確率で…
かろうじて生きる価値のあるすべてのこれらの人生が。
ええ。
ただそれが非常に多数であるというだけで。ええ、私が何を言っても、あなたはこのように極端なケースを投げかけてくるだろうと予想していました。あなたはこの練習をしすぎていますね。
それも私にとっては非常に魅力的ではありません。だから…ええ…
ええ、おそらくあなたはこれで何か言おうとしていたのですよね。私はこれがいかに狂信主義を回避する助けになるかと言いたかったのです。「確率がどれほど小さくてもそれを気にかける。ペイオフ(報酬)が十分に大きければ、莫大なペイオフのわずかな確率を追求する」というものです。
この見解はそれを回避します。なぜなら、限界(上限)が設定されるからです。ええ、基本的にはランドスケープが有限であるか、あるいは特定の機能の減衰が十分に速ければ、あなたが生み出すことのできる善の量には上限があります。直感的には、カラーホイールを思い浮かべてください。ランドスケープを可能な限り明るく完全に照らし出した状態、それが上限です。ですから狂信主義を回避できます。そして、短く言及するに留めますが、同じ理由で無限の人口においても非常に望ましい特性を幅広く持っていると思います。総量見解のような多くの結果主義的見解は、自然と多くの麻痺(paralysis)を引き起こします。直感的に比較可能な世界を比較することすらできなくなりますが、この見解はそのような意味合いを持ちません。
なるほど。それは確かに魅力的ですね。
この見解について奇妙に感じた、あるいは魅力的ではないと感じた2つのことですが、ネガティブな側面についても飽和(サチュレーション)させているなら、「これほど多くの人がすでにこの非常に特有の拷問のような苦しみを受けてきたのだから、これ以上追加しても構わない。既存のものに似すぎているから大して悪くない」と言うのはさらに奇妙です。ネガティブな面においては、より多くの人がひどい生活を送ることは直線的に悪いと感じるのがさらに明確に思えます。
もう1つのことは、仮に私たちが太陽を道徳的に最良だと思うものに変えたり、太陽系を道徳的に素晴らしいと思うものに変えたりするプロジェクトを進めていなかったと想像してください。しかしその後、多元宇宙のどこかで宇宙人が遠い昔、あるいは遠い未来に、非常に似たようなことをしたという発見をしたとします。私たちはそれをシミュレートし、彼らがすでにこれを作ったと考えます。「くそっ、なんてことだ。時間の無駄だった」となるわけです。その「非分離性(non-separability)」、つまり私たちがすることの価値がこれほど遠く離れたものと結びついているという事実は、私には直感的ではありません。この2点についてどう思われますか?
ええ、両方とも非常に重要なポイントです。そしてええ、ネガティブな側面は、私の見解においても断トツで最も魅力のない側面です。そして残念ながら、どれかの毒を飲まなければならない(完璧な理論はない)ということになります。
その件については後で戻りましょう。分離性の側面についてですが。ええ、この分離性(separability)という原則は、基本的には「AとBの2つの異なる結果を比較しているとき、遠い時間、遠い空間に何らかの背景となる人口があったとしても、AがBより良いかどうかという判断には無関係である。その背景となる人口がどのようなものであろうと無関係である」というものです。
ええ、「プラスC、プラスC」となるから、相殺してカットできるわけですね。
ええ、その通りです。そしてええ、私もそれがかなり直感的であることに同意します。分離性が直感的であるということに。
特定の技術的な仮定と組み合わせて分離性を支持する場合、あなたは人口倫理学の「総量見解(total view)」、つまり単にすべての幸福を足し合わせる見解か、「限界水準見解(critical level view)」、つまり幸福を足し合わせるが個人ごとに少しだけ引くという見解のいずれかを支持しなければなりません。
個人ごとに少し引くのですね。
ええ。もし誰かの幸福度が10で、限界水準が2だとしたら、彼らを人口に追加することはプラス8の価値を持つことになります。そしてこれらの見解には、最初に言及したすべての問題があります。忌まわしい結論については異なりますが、どちらのケースでも問題は本当に悪く、一見直感に反するように思えます。
ですから1つ言えることは、「よし、私たちは分離性の違反に耐えなければならない」ということです。2つ目は、多様性の直感は根本的に分離性についての直感であるということです。
なぜならそれは異なる種類の生命のパターンを見て、「私たちはすでにこれをたくさん持っているから、何か新しいものを持つ方がより価値がある」と言っているからです。
これらのことが私の頭の中で非常に結びついているため、同質性の問題がそれほど直感に反しないのかもしれません。これについて考えたことがなければ、これらは全く別の問題のように見え、深く結びついていることに反省して初めて気づくのでしょうね。
分離性の違反が問題ないと思えるケースもあります。自分自身のケースで言えば、「よし、エベレストに登るぞ。それは素晴らしい達成になるだろう」と考えます。そして誰かに「実は去年エベレストに登ったのを忘れてるよ」と言われたとします。「えっ? 頭を打って記憶喪失になったのかな?」となるかもしれません。「まあ、わからないけど」と。
「経験が同じならまたやるよ。忘れてるからまたできるし最高だ」と思うかもしれません。
ええ、ええ。でもほとんどの人はおそらくそうは思わないでしょう。
ええ。実は私はアンケートをとって、様々な事柄について人々の直感がどれほど堅牢か、このメドレーの中で人々がどの毒を好むかを見てみようとしています。しかし、私はこの新しい見解が最高の見解だと主張しているわけではありません。「もし総量見解を拒否したいなら、これらが最も強力なものです。これがあなたの最高の選択肢です」と言っているのです。
なぜなら、分離性についての最後に言うことですが、特定の技術的公理を満たす場合、総量見解と限界水準見解以外のすべての見解は分離性に違反しなければならないと言いました。サチュレーション・ビューは、より悪くない方法でそれに違反していると思います。なぜなら多くの場合、実際ほとんどの時間は、分離可能だからです。人口がランドスケープの異なる部分にある場合、単にそれを足し合わせることができます。この人口の価値とこの人口の価値を足し合わせるのです。
ですから、この種の限定的な分離性の原則を支持しています。そして2つ目に、それをどのように定義するかによりますが、人口のサイズが本当に本当に本当に大きくなるまで、すべてがほぼ線形になるように保つことができます。そうなると、ほとんどのシナリオにおいて宇宙規模になるまでは総量見解とほぼ同じように見えます。
あるいはADT(証拠的決定理論)を考慮するなら、宇宙間規模になるまでですね。ええ、ここまでこの理論に対して少し熱心ではないように見えたかもしれませんが、素晴らしいと思いますよ。これは絶対に大問題になるはずです。この分野全体の中でトップの理論の1つになるはずですよね?
そう思います。ええ、この仕事が私の時間のもっとも影響力の高い使い方だと主張するつもりは全くありません。この仕事の多くはAIがもっと良くなるまで先延ばしにできると思うからです。しかし、これは私が人生で最も心を奪われ、夢中になったアイデアであり、純粋に知的な観点から言えば、私の最高の貢献になると思っています。
また、これまで提案されてきた人口価値論がいかに少ないかにも気づかされました。選択肢は本当に非常に弱く、行われている仕事のほとんどは「ここに見解がある、理論がある、これがどのように機能するかだ」というものではないということに驚きます。
人々は「これについて何か発表されているのか?」と尋ねるでしょう。ええと、私の計画はこれを仕上げることです。ブログ記事の要約のつもりだったのに、一気に13,000語になってしまったので、「これはドラフト記事だ」とすることになりそうです。
なるほど。
そしてええ、今後数週間のうちにそれを発表する予定です。
わかりました。素晴らしい。リンクを貼っておきます。
ええ。非常にひどいネガティブな世界や激しい苦しみなどにどう対処するかというネガティブな面に戻らなかったのは親切ですね。そのケースでは非常に信じがたい含意があることは喜んで認めますが。
AIによる哲学研究の加速と未来の展望
先ほど、この研究を行うためにAIをたくさん使用したとおっしゃいましたね。それについて教えてください。
ええ、このアイデアにこれほどまでに心を奪われ、夢中になった理由の大きな部分がこれです。休暇中などにできる限り空き時間で作業していましたが、分析哲学においてAIが(私の見解では)驚くべき向上をもたらしたからです。
調査にAIがどれくらい役立つか? 非常にまちまちです。ある奇妙な分野について学びたい場合は素晴らしいです。もしマクロ戦略の特定の分野を手伝ってほしい場合は、調査は本質的に役立たないこともあります。
分析哲学の少なくともこの形式的な側面においては、AIは非常に優れています。そして正直なところ、称賛すべきは称賛すべきで、ほとんどすべてがChatGPTのPro版でした。今はGPT-4o(フォー・オー)のPro版です。もしその特定のモデルが存在していなかったら、私はこんなことは言っていなかったでしょう。
へえ。GeminiやClaudeは同じレベルにはないと?
ええと、大きな理由は、ChatGPTのほうがより長く考えるからだと思います。
これは月額200ドルのものですか?
ええ、今はクレジットで支払っています。これに最も取り組んでいた月には実際に1000ドル使いました。
ええ。しかし価格に見合うだけの思考をしてくれるのですね。
これまでの最長は70分間考えさせたことです。
ええ。そして本当により良い答えを出してくるのですね。
何が起きているのかお話ししましょう。これがなぜかというと、他の研究者と話しても、それほど恩恵を受けていない人もいるからです。人口倫理学のような問題は非常によく定義されています。大きな文献が存在し、AIはそれを消化しています。そしてまた、数学的な分析が可能になるほど十分に平定されている分野ですが、実際にそれに目を向けた数学者はごくわずかです。主に、学部で数学を学んだ哲学者たちです。例外は少数の経済学者と、数学者から分析哲学に移ってきたTeru Thomasです。彼は私の見解では、人口倫理学において誰よりも優れた研究を行っています。
ですから、AIが数学に非常に優れていると主張されていることから得られる、能力の大きなオーバーハング(余力)があるのです。
私自身の場合、ええ、1年半か2年前くらいに核となる洞察がありました。そしてそれを探求していました。TobyやChristian Tarsneyと話し、もしこの論文を発表するならChristianとの共著になるでしょうが、私の最初の考えは、明らかに少しうまくいかないような方法で定義されていました。明白な方法は、「不連続な形で定義しているから、うまくいくような何らかの連続的な形の理論があるはずだ」というものでしたが、私には数学的な訓練がありません。私の手に負えないことでした。
しかしAIにはできます。ですから、まるでロケットブースターを手に入れたように感じました。「いや、このように機能してほしいんだ」と言うと、「よし、わかった」と返ってくるのです。
AIが出した答えをチェックするのに苦労しませんでしたか?
ええ、そこには課題がありました。私自身も間違いなく遅かったです。つまり、多くのAIを使ってそれをチェックさせたり、様々なケースでAI自身にチェックさせたりしました。AIがまだかなり苦手なことの1つは、概念をしっかりと保持し続けることです。3ページ目で何かをある方法で定義し、8ページ目で合理的ではあるが異なる方法で定義するかもしれません。
AIは必ずしもそれに気づかないのですね。
ええ。でも、自分で考え出すよりも、何かを検証する方がはるかに簡単です。そして多くの時間は、「カーネル(kernel)って何?」というような概念を使うことでした。一度学べばそれほど複雑ではありませんが、AIがいなければどこへ行けばいいのかさえわからなかったでしょう。ええ。
ええと、Twitterでの私の印象では、AIは今や数学の分野で有用な貢献をし始めているようです。まだ驚異的なレベルではありませんが、発表可能なものを生み出しているという初期の兆候が見られます。分析哲学の少なくとも一部の分野は基本的に「言葉を使った数学」のようなものですから、同じことが分析哲学でも起こり始めると思いますか?
ええ、正直なところ、大きな疑問は分析哲学者がその機会を掴むかどうかだと思います。私はマクロ戦略全体に対するAIの初期のテストグラウンドとしてこれを行うことに非常に興味があります。しかしまた、これは最高のケースでもあります。他のケースでは、AIがある場合には私がとても良いと思った定義をただ与えてくれたこともありました。繰り返しになりますが、それはある種の形式的な定義です。他のケースでは、AIが本当にかなり良い非形式的な定義をいくつか与えてくれたこともありました。
別のケースでは、良い批判を思いついてくれました。「ここに私の見解がある。できるだけ多くの反論を生成してくれ」と言うと、20個出してきて、ほとんどはクソ(役立たず)です。いや、どれもあまり良くありませんが、その中に「おお、それは本当に的を射ている」というものがあるのです。
ええ。
ええ、ですから私の考えでは、私たちは潜在的に分析哲学の黄金時代に入りつつあります。少なくともより形式的な側においては、人々が2倍、4倍も生産的になる可能性があります。
たくさんの手助け(ハンドホールディング)が必要ですか? つまり、一人の人間が「これが一連の問題だ。ここに10万ドルの計算予算がある。やってくれ、ChatGPT」と言えるような時点であれば、分野全体が変わる必要はありません。その一人の人間が分野全体を独占することになりますから。
分析哲学は小さい分野なので、一人の人間がそれをやるかやらないかという問題になるかと思います。しかしええ、分野全体としては評価するのに非常に時間がかかると思います。でも、一部の人は本当に使いこなすでしょうね。
ええ。ええ、私が言いたいのは、もし進歩を遂げ、その思考を構造化し続けるために絶え間ない手助けが必要だとしたら、それは悪い兆候であり、分野の多くの人々が熱狂的にならない限り(おそらくそうはならないでしょうが)、進まないことを示唆しているということです。
ああ、それはその通りだと思います。というのも、共著を予定しているChristianと仕事をしていて、彼にはアイデアを拡張するための全く異なるアイデアがあったのですが、私は「GPT-4oのProを使わなきゃダメだよ、本当に素晴らしいから。月額200ドルの価値がある」と言いました。そして彼が仮説や推測を立てると、AIが「ああ、はい。あなたのために証明しましたよ。かくかくしかじか」と言いました。そして私は「いや、いや、いや…」と言いました。それは非常に複雑で、「ああ、こういうものを評価しなければならないのか」と思いましたが、単なる幻覚(ハルシネーション)でした。
幻覚ですね。なるほど。
あるいは言葉のハッキングというか…ええ、たくさんの…
つまり、運転するには本当にスキルが必要だということですね。
まさにその通りです。ええ。AIがいつでたらめ(ブルシット)を言っているのか、いつそうでないのかについての直感を持たなければなりません。そしてそれは、「ええ、1つは単に証明したと思い込んでいるが実際は証明していない場合。もう1つは、ああはい証明がありますと言ってきて、それを読み進めると、前提の1つが証明されたことに非常に近い場合」など、ますます問題になってくるでしょう。
つまり、誰もが「怠け者だ」「とても喜ばせたがっている」と気づくような古典的なことですね。
ええ。ですから、単なる直感と、「いつうまくいって、いつうまくいかないか」についての多くのスキルが必要です。AIの出力を、人間のテキストを読むのと同じようにそのまま読んだことがあっただろうかと考えるのは面白いです。おそらく一度もないと思います。ざっと目を通して、それから「ああ、ああ…」となるからです。
ずっとこれを使っている人とそうでない人の間のギャップはおそらく広がっているのでしょうね。あなたや私のように、ここ1年間使ってきた人々との間に。他の人々があまり感銘を受けない理由の一部は、何がうまく機能し、どこで失敗しそうか、何が間違っているかを探すべきかについての直感がまだ構築されていないからかもしれませんね。
ええ。
なるほど。分析哲学が今後数年で花開くかどうかについては少し混在しているようですね。しかしマクロ戦略、つまりForethoughtが行っているようなことについては、役に立たないというか、より手探りの状態だと言っていましたね。
ああ、ええ、はるかに手探りで、はるかに玉石混交です。マクロ戦略においてAIが驚くべき向上をもたらす方法もあります。仕事にはしばしば、様々な異なる分野から少しずつ知識を得る必要があるからです。初期のGPT-4でさえ、「宇宙でしかできず地球ではできない興味深い実験はあるか?」と尋ねると、「ええ、実は重力が特定の結晶形成を妨げるため…」と答えてくれました。「これを使わなければ絶対に出会えなかった情報だ」と思いました。
その種の、全くランダムな科学や情報の断片については信じられないほど役に立ちますし、大量の例を生成する必要がある時にも非常に役立ちます。このAIの性格の研究でも、「これら2つの美徳の間のトレードオフが必要だ」とか「これの例をたくさんくれ」と言うと、大量に生成してくれます。
しかし、何か困難な質問があるときや、本当に正確である必要があるとき、例えばAIの性格がどう振る舞うべきかの原則の草案を作成しているようなとき。そして確かに、洞察の側面(明らかに価値の大きな部分ですが)においては、優れたマクロ戦略的思考がどのようなものか、AIはまだ本当にわかっていないと思います。そのため、代わりに経営コンサルタントや高校生のエッセイのようなものを出力してきます。ええと、AIは依然として改善され、より有用になっているとは思いますが、既存の文献がある領域とない領域がどこかについて、かなり意識させられます。
素晴らしい。あなたのお仕事は少なくともあと1年は安泰のようですね。ええと、過去1年間にForethoughtが発表したことの3分の一くらいは触れられたと思います。もし皆さんがこれらを気に入り、もっと読みたい場合は、Forethought.orgですね。リサーチのページがありますよね。そこには人々がチェックすべき、本当に興味深いマクロ戦略の研究がたくさんあります。私も読んでいて楽しかったです。
素晴らしい。ありがとうございます。ここに出演できて最高でした。対話を本当に楽しみました。
本日のゲストはWill MacAskillさんでした。80,000 Hoursポッドキャストに再びご出演いただきありがとうございました、Will。
お招きいただきありがとうございました。


コメント