闇の模様：AI｜第61話｜フォー・ヒューマニティ：AIリスクポッドキャスト

33,103 文字

Dark Patterns In AI | Episode #61 | For Humanity: An AI Risk Podcast

Host John Sherman interviews Esban Kran, CEO of Apart Research about a broad range of AI risk topics. Most importantly, ...

私たちが今本当に欠いているのは、技術的な課題に立ち向かう文化、つまり現状のデフォルトの世界と比較して、どのような世界を構築できるかという前向きな姿勢です。現在、AGIやスーパーインテリジェンスを開発している企業には、非常に大きな冷笑的な傾向があります。「これが世界の進む道だ」「私たちはこの発展の対象でしかない」「私たちはこの歴史の前進、この新しいタイプの知性という種の大いなる進歩の対象でしかない」という態度です。
多くの点で、これは非常に非倫理的です。意識が高くなく、楽観的でもなく、敗北主義的なのです。「私たち自身を止めることはできない」「生きるより死ぬ方が簡単だ」「生きることは不可能だから死のう」という感じです。敗北主義的で、刺激的でもありません。OpenAIの開発を見ても刺激的ではないし、xAIを見ても刺激的ではありません。お金の対象になること、それに伴う実質的な何兆ドルもの労働代替産業の対象になることを人々が受け入れているのは悲しいことです。代わりに、私たちが考えるべきは、どのような世界を構築する必要があるのか、そしてそれを積極的に設計することです。
フォー・ヒューマニティへようこそ。AIリスクポッドキャスト第61話「AIにおける闇の模様」です。私はホストのジョン・シャーマンです。ご視聴いただきありがとうございます。このショーは一般の人々のためのAIリスクポッドキャストで、技術的な背景知識は必要ありません。このショーは人工知能による人類絶滅の脅威についてのみ扱っています。
今日は興味深いショーをお届けします。ゲストはアパート・リサーチのCEOであるエスビン・クランです。その前にいくつか興味深いお知らせがあります。このポッドキャストは過去30日間でYouTubeのチャンネル登録者が5万人以上増えました。ありがとうございます！そして10万人の登録者に向けて急速に近づいています。新しく参加された皆さん、あなたは特別なコミュニティ、AIリスクを認識する人々の一員になりました。私たちはここで、AIが私たち全員を殺すのをどうやって止めるかについて話し合っています。そして見てください、私たちはまだここにいて、笑い、生き、この会話をしています。あなたもそうすることができます。「期待が喜びの殺し屋」と言われるなら、「AIリスクは期待の殺し屋」と私は言います。一緒に現在に喜びをもって生き、世界を救うために出発しましょう。
次のお知らせです。今日は初めてのスポンサーがついています。今日のエピソードは「レジスト」がスポンサーです。AIはただ来るだけでなく、すでにここにあり、私たちのために決断し、インターネットを形作り、すべての人に代わって存在的リスクを取っています。それが気に入らないなら、レジストへようこそ。私たちはBase（コインベースのL2ブロックチェーン）上の分散型運動で、人間がコントロールを維持するためのツールを構築しています。私たちの目標は、Web3の未来が単にボットがボットと取引する場所ではなく、私たちが傍観者として見ているだけにならないようにすることです。傍観することにうんざりしているなら、レジストを構築し、未来を取り戻しましょう。resist.d.comで詳細をご覧ください。リンクはショーノートにあります。
新旧の友人の皆さん、ご存知かもしれませんが、私はボルチモアの父親で、大手フロンティアAI企業が私たちに伝えていることを信じています。彼らが作っている技術は、近い将来、地球上のすべての生命を終わらせる可能性があること、彼らはこの技術をコントロールする方法を知らないこと、それがどのように機能するかを理解していないこと、そして彼らはすべての時間とお金を、より安全ではなく、より強力にするために費やしていることです。最近、多くの人に次のような導入線を使っています。AIリスクを紹介するためのもので、こんな感じです。それはうまくいっています。「私たちは自分たちより賢く、コントロールできず、私たちとは異なる目標を持つ機械を作っています。それはとても悪いアイデアのように聞こえませんか？」これは約9秒で言えます。「私たちは自分たちより賢く、コントロールできず、私たちとは異なる目標を持つ機械を作っています。あなたはそれをすべきだと思いますか？」これはスーパードゥーミーではなく、ソフトな導入です。試してみてください。
私は市民ジャーナリストとして、一般の人々がAIリスクを理解するのを助けるミッションを持っています。あなたの助けが必要です。登録、寄付、コメント、アラームボタンを押すなど、すべてのボタンを押してください。forhumanitypodcast@gmail.comにメールしていただくこともできます。あなたからの連絡や考えを聞くのが大好きです。前回のショーでのYouTubeコメントは素晴らしかったです。続けてください。YouTubeでのコメントは非常に影響力があり、このアルゴリズムをだますのに役立ちます。コメントを書いていただければ、私も返信します。このアルゴリズムを恍惚状態にして、新しい人々を私たちのところに送り、私たちが望むことを正確に実行させることができます。
次のお知らせです。ライブ配信を試みる予定です。私はライブテレビなどの経験が豊富で、日中に素早いライブ会話をする価値があると思うことがあります。YouTubeでアラームベルを設定して、ライブ配信の通知を受け取ってください。質問を受け付けたり、将来的にはライブゲストとのライブショーも考えています。まだ始まったばかりですが、チャンネルを構築していきたいと思っています。動きが早いので、もう少し反応の良いライブコンポーネントを構築したいと考えています。
いくつかのビデオクリップをお見せします。これを見てください。中国のエージェントモデルが同時に50のソーシャルメディアアカウントを運営しています。コンピュータで働く皆さん、これはあなたが想像するよりも早くあなたの仕事です。何をするにしても、これがあなたの仕事になります。これを見るのは非常に不安です。それはあらゆるものになり、小説を書き、医療画像を読み、同時に50人の税金を処理し、同時に50の法的文書を書き、24時間365日働きます。それがあなたの仕事です。だから、AIの崖から無警戒で同意のない世界を突き落とす前に、これが私たちの望む未来かどうか話し合うべきではないでしょうか。それが私の考えです。
次のクリップです。水中に潜れるドローンがあります。一旦AGIが起こったらそれをこの悪い奴にアップロードして、バム！素晴らしい二重使用の捜索救助に加えて、大量の捜索破壊もできます。気味が悪いですね。
偉大なAIリスクビートレポーターのシャキル・ハシムは、世界で最も重要なこのビートの唯一のビートレポーターかもしれませんが、Twitterで驚くべき新しい研究を投稿しました。この調査は、制御されていないAGI開発に関する懸念を明らかにしています。回答者（これらはAI研究者）の75％以上が、許容可能なリスク・利益プロファイルを持つAIシステムの追求がAGIの達成よりも高い優先事項であるべきだと述べています。AGIが最優先事項であるべきだと述べたのはわずか23％です。そして、これが本当の部分です。回答者の約30％が、これらのシステムを完全に制御し、人類の利益のために安全に運用することができるようになるまで、AGIを目標とする研究開発を停止すべきだと同意しています。
これは非常に明確です。AI研究者の30％が、私たちが信じていること、つまり私がこのショーでいつも言っていることを正確に言っています。彼らはそれを制御できないのに、なぜ彼らはそれを構築しているのでしょうか？彼らは止めるべきです。私の驚きをお許しください。これは最初の研究ではありませんが、一般の皆さん、これはどう聞こえますか？あなたは飛行機に乗っています。そしてその飛行機を作ったエンジニアの30％が、安全上の理由から、安全が証明されるまで、すぐに、無期限に地上に置くべきだと言っています。それは何年も先のことかもしれません。
さて、今週のインタビューに移りましょう。この会話を本当に楽しみました。多くのことを学び、皆さんもこれから多くのことを得ることができると思います。エスビン・クランはアパート・リサーチの非営利AIセーフティラボのCEOです。彼がAIモデルのダークパターンについて行った報告、モデルのベンチマーキング、AIモデルが行う悪いことなどについて多く話しました。それらはとても興味深いですが、その前に、潜在的な成長中の営利目的のエアリスク削減研究産業などの本当に興味深く、興奮させ、希望を与えると思われるニュースについても多く話しました。AIリスク企業が栄える世界を想像できますか？それは興奮させるものです。
ここにエスビン・クランとのインタビューをお届けします。お会いできて嬉しいです。この会話を楽しみにしています。連絡してくれてありがとう。もちろんです。ポッドキャストについてはあまり知りませんでしたが、それ以来少し見る機会がありました。素晴らしいですね。あなたがやっていることは非常に重要だと思います。大きな状況の中で、間違いなく…あなたは良い雰囲気を保っていると思います。ありがとう。一般の人々に焦点を当てるようにしています。この内容について多くのことを知っている本当に賢い人々による多くの会話がありますが、私はそれを何も知らない人々に理解できるような基本的なレベルで説明しようとしています。
実際、私は現在、コントロールAIオフィスに座っていて、あなたも知っていると思いますが…素晴らしいですね。ここのリーダーの一人である私の友人を訪問しています。素晴らしいですね。水曜日にコントロールAIのデイブと一緒に、立法者と会議をしました。素晴らしいです。チームは全く知りませんが、アンドレアとマティアスは知っています。
それでは始めましょう。少し自己紹介をしてください。あなた自身について教えてください。どのようにしてこの狂ったことに関わるようになったのですか？ゲームではなく、AIリスクの状況について教えてください。実際、数カ月前に思い出したのですが、子供の頃、兄と一緒にスティーブン・ホーキンスのAIについての言葉、彼の最後の警告のいくつかを聞いていました。それが何らかの考えを孵化させたはずです。私の父は大きな技術者でした。そして、デンマークで育ったことで、私たちがそこで行うことの多くは、人間のための大きな問題を解決することについてです。それは福祉国家などについてです。そこから精神自体が来ています。
2018年、世界を少し旅行し、ゲーム開発をした後、起業家精神的なことをしていました。自分の将来やりたいことについての大きなレポートを自分に書きました。人類の未来のために最も画期的な14の技術、最も影響力のあるものを見ていました。最初に見たのはAIで、今日そのレポートを読むと、私は間違いなく若かったのですが、AIの分析がその最初の部分でした。そこで私は「いいえ、それには取り組まないでしょう。二重使用が多すぎます。イーロン・マスクとOpenAIにそれを処理させましょう」と書きました。そして今日、それがどのように進んだかを見ています。それは私が望んでいたものとは大きく異なっています。
当時、私は汎用知能の時間軸が2050年頃だと考えていました。しかし、もちろん、それは次の数年で大きく変わりました。私は脳コンピューターインターフェースと認知科学に多く取り組み、ある程度認知体験を拡張しようとしました。主に生きている人間のために心の空間を拡大しようとしました。そして2022年、私はAIセーフティ組織のいくつかと連絡を取りました。その当時の最も著名なものの一つです。彼らは「少し議論した後、あなたの時間枠を再評価してください」と言いました。そして私は10分間の思考シーケンスを持ちました。最初の考えは「GitHub Co-pilotは私のコードの15％しか書いていません。全く問題ありません」というものでした。そして10分後には「はい、GitHub Co-pilotは私のコードの15％を書いています。これはおかしいです」と思い、すぐに私のキャリアを完全に方向転換することにしました。
当時、私は脳コンピューターインターフェース研究を追求するためにカリフォルニアにいました。そして、単純にすべての合理主義文献、そういうものをむさぼり読むことになりました。すでに多くの機械学習の背景、デジタル存在の意識、心の理論などの背景を持っていましたが、すべての合理主義文献は私を逃れていました。それをすべて読みました。そして、当時、アパートリサーチを始めました。私の仕事の一部として、あなたが知っている、愛している最高の人々の多くと会いました。人々が新しい組織に時間を捧げることができた時代です。そして、影響力のあるAIセーフティ研究のためのこのリモートファーストの研究所を開発することに単純に決めました。
少し戻って、その瞬間について話しましょう。人々の感情的な、この問題との向き合い方について話すのが好きです。あなたはかなり幸せそうな人のように見えます。それは素晴らしいことです。私もそうです。世界が終わるかもしれないと本当に心配していますが、私たちは笑顔で人生を歩むことができます。それが可能であることを人々にモデル化することは重要だと思います。その日について話してください。その状況を理解する前の日、理解した日、そしてあなたがどのようにして現在の立場に至ったのかについて。
実際、認知科学の研究をしている間に、人間の意識と人間の知性が特別なものではないと既に気づいていました。だから、それを学ぶ必要はありませんでした。そして、物理的な限界がないので、汎用知能を持つことが可能であることを知っていました。人間はこのタイプの知能の存在証明です。これは私にとって大きく変わることはありませんでした。
私の立場が多くの、おそらくより積極的な合理主義者などと比較して少し独特なのは、私が実際に意識体験の未来がうまくいくことを確実にすることに非常に焦点を当てていることです。まず、ここで私たちが人間として、私はマックス・テガマークが言うように、間違いなく「チーム人間」です。これは単に、私は初期のAIが私たちの利益、私たちが良いと思う価値を持っているとは思わないからです。次の段階を占めるには。
そこで、私はマイケル・ラインのこの適応知能のアイデア、そして最初の部分の存在的リスクを避けるために哲学的休止を持つ必要性、そして知的生命の次の段階が人間もいる状態でどのようなものかを考える必要性を信じています。
多くの点で、私は本当に一生懸命それに取り組みました。以前は気候活動家で、コペンハーゲンで1万人を組織し、気候変化について変化を起こす意図を持って活動していました。そして、この話題にも同じように取り組みました。実際、少し燃え尽きてしまいました。そして、次のステップは何か、本当に大きな違いを生み出せるものは何かを考えるための余裕がない状態で、これらすべてのことに取り組むことは持続可能ではないと気づきました。
ここ数年で、その考え方を完全に変えました。私たちはここにいて、人類がスーパーインテリジェンスと共に安全でいられる未来を構築しています。そのためには、技術自体を準備ができる前に加速させることを伴わない、非常に献身的な作業が必要です。
あなたは人間と人工スーパーインテリジェンスが共存できる可能性があり、相互に有益な方法で生きることができる世界があると信じていますか？
いいえ、そうは思いません。素晴らしいポッドキャストでしたね（笑）。私もそれについて多くの質問があります。
いいえ、私が話しているのは基本的に、スーパーインテリジェンスはおそらく起こるということです。世界中に監視国家がない限り、世界中に専制政治がない限り、私たちがコントロールできないサーバーファームで何かが起こるでしょう。そこで、グローバルな専制的監視国家に住むか、スーパーインテリジェンスが私たちを害することなく存在できる技術的フレームワークを開発できるかを決定する大きな瞬間があります。
これには輸出管理、ハードウェアの追跡、おそらくすべての市民が暗号化の基本を知る必要性が含まれます。なぜなら、完全に新しいタイプのインターネットに関わる必要があるからです。新しい情報システムやデータ転送システムに関わる必要があります。情報フィード自体を守ろうとする必要があります。
それは、モデルが現在の暗号化をすべて解読し、私たちより賢いものに対して再暗号化しようとする際に、先んじられないようにするために、まったく新しい暗号化方法を見つけなければならないからです。基本的に、私たちは新しい世界に住まなければならないという考え方の転換です。
多くの人々がこれについて話していないと思います。成功したガバナンス介入を望むなら、エージェントが相互作用するすべてのAPIの完全な制御を伴います。政府が制御し、アクセスできるこれらすべてのシステムの完全なアクセスと監視を伴いますが、プライバシーを侵害したり、個人の自由を侵害したりすることなく、人間がこの世界で良い生活を送れるようにすることも確保します。
私はAIに関してテクノオプティミストではありません。他のほぼすべての領域ではテクノオプティミストですが、このスーパーインテリジェンスの全体は明らかに無責任な開発です。存在的リスクなどのため、多くの人がそのように見るでしょう。
しかし、市民が基本的な暗号化を知る必要性は、基本的にこの新しい世界に住むには、存在するためにまったく異なるスキルのセットを学ぶ必要があるということです。一部の著者がこれらのアイデアをサイファーパンクや未来学に書き込もうとしているところです。人間がサイバースペースで今日よりもはるかに大きな困難に直面している場合、それがどのように見えるかを把握しようとしています。
あなたのタイムラインはどうですか？この議論を始めるためにどれくらいの時間があると思いますか？これは私がやろうとしていることです。みんなの肩をたたいて、「列車が来ています。わきに寄るか、それともぶつかるか話し合いましょう」と言っています。この議論をするためにどれくらいの時間があると思いますか？
ノーベル賞を受賞したAI研究者のほとんどが言うように、3年か10年かは関係ありません。現在はその範囲内だと思います。それは私たちが取らなければならない同じ行動です。3年では、それが来る前に多くのことをする可能性は非常に低いですが、その時には国際的なガバナンスがはるかに強くなることを望みます。
この技術開発の一つの側面で、私が非常に焦点を当てているのは、他の国家や他のアクターを信頼して、AIを構築しないことを確認できる技術の開発です。核実験禁止条約を可能にしたのは、地震データの分析の発展でした。これにより、他者がこれらのテストを行っているかどうかを実際にテストできることが確保されました。これは現在、AIには全くありません。データセンターは非常にプライベートで、監査可能ではなく、AIの開発のこの民間エコシステム全体は、私たちがほとんど洞察やコントロールを持たない真空の中で起こっています。
それはあなたが取り組んでいることですか？もし条約があれば、中国と米国が技術的に相手が大きな狂ったものを構築しているかどうかを確認できるような技術的な解決策ですか？
アパート・リサーチでの私たちの役割の多くは、非常に技術的で、これらのタイプの技術的ソリューションを開発したい人々が、その影響を加速できる場所になろうとしています。彼らのキャリアや彼らのスタートアップを、本当に違いを生み出せるものに加速します。
現在、セルドン・アクセラレーターと呼ばれる新しいプロジェクトを立ち上げています。これはこれらの技術を規模でデプロイすることに関するものです。私たちの見方は、本当に数百の異なる非常に大きな問題があり、これらの問題のそれぞれに、それを処理するための本当に大きな企業が必要だということです。そしてこれらはすべてリスク問題です。何百ものリスク問題です。そして、問題に取り組むための本当の企業が必要です。
確かに、AIセーフティにおける非営利研究のための資金調達スペースには大きな問題がありました。ラボが受け取った非常に限られたリソースから、素晴らしい洞察と開発が得られました。加速企業と比較すると。そして、今、技術的な成熟度も見ています。安全ソリューション自体を開発する利益インセンティブがない方向に押し進めないと、世界の最大の課題を解決することはできないでしょう。
つまり、あなたは別々の安全問題に取り組む営利企業を開発し、それを収益性のあるものにして、より多くのことを実現したいと言っていますか？
主なアイデアは、この大きな問題、この100の問題の一つを解決する必要があり、この問題には1億ドルが必要で、現在の非営利スペースからそれを得ることはできないということです。この非常に具体的なことに100億ドルを実際にデプロイできるかどうかのプロジェクトに取り組んでいる人を私は何人か知っています。しかし、現在無視されている営利側での多くのアクションが必要だと思います。
それはガバナンスがうまくいくこと、国際的なガバナンスがうまくいくこと、PAI抗議がうまくいくことにも依存しています。これにより、AIの開発が将来デプロイする前に、これらの安全技術をスタックに実装できる成熟度に達することができます。そして、そこには利益があると信頼しています。
これは安全性とリスクのことだけに取り組む営利企業があり、彼らがお金を稼ぎ、投資家を得て、問題を解決する可能性のある世界だと信じていますか？これは素晴らしいです。これは正直に言って、初めて聞いたことです。
私がそれを言うと、それが初めて聞いたことだという人が多いことに驚いています。私たちは研究所です。これらのことに多く取り組んできました。以前はリードデータサイエンティストでした。複数のスタートアップをやってきました。もちろん、アパート・リサーチもそうですが、それは非営利スタートアップです。なぜなら、22年には、これら二つの数字、アラインメントの開発と安全性を利益インセンティブと合わせることは本当に可能ではなかったからです。しかし、今は可能であり、本当に必要です。この段階では絶対に可能だと思います。
投資家はこれにお金を投資することに興味を持っていますか？
私たちはこのネットワークを組織し、営利目的のAセーフティの周りで開発されているこのエコシステムを支援しています。これは非常に新しいものです。実際、最大の発展は過去半年で起こりました。私たちはこれらのアクターの多くとつながっていますが、ベンチャーキャピタル企業のいくつかを挙げるだけでも、私が最も密接に関わっているのはジュニパ・ベンチャーズと呼ばれるものです。これは100％AIによる存在的リスク削減に焦点を当てています。そして、ハリとフューチャーズのような組織、ライオナードのような既存のVCファンドもそれに投資しています。エリック・スミスもこの段階で多くのお金を投入しています。
それは本当に励みになります。本当に素晴らしいです。すべての幸運を祈っています。3ヶ月後、6ヶ月後に振り返って、個別の問題に取り組み、物事を解決する、これから登場する営利目的のAIセーフティリスク企業の分野があったとしたら、それは素晴らしい世界になるでしょう。
セルドン・アクセラレーターのサイトを少し見ました。タグラインは「楽観主義を持つAGI」のようなものですか？それはAGIと楽観主義を結びつけていますが、それは私の世界では典型的に見ないものです。しかし、それが存在する可能性があると信じたいものです。AGIから始めて、楽観主義に至る道を教えてください。
私たちは興味深いマトリックスを持っていて、4つの異なる文化を特定しています。大規模な技術的ソリューションを本当に構築できる人々がいます。その多くは現在サンフランシスコにあります。そして、破滅を信じ、スーパーインテリジェンスの開発と結果としての存在的リスクの可能性を信じる人々がいます。
これが、サンフランシスコ文化を持っているか、合理主義文化を持っているかという、二つの変数です。合理主義文化は一般的に非常に批判的で、大きなソリューションを構築することに焦点を当てていません。代わりに、既存のものをサポートすることに焦点を当てています。それは良いことです。しかし、それは伝統的に、AIセーフティにおける合理主義の発展の生涯を通じて、このタイプの大規模な技術的ソリューションの開発に非常に役立つものではありませんでした。それらは実際に利益によって安全性に焦点を当てるよう動機づけられています。
だから、私たちがAGIについて話すとき、楽観主義を持ってこのAGI問題に取り組むことは、あきらめることが非常に簡単な世界を見ているということです。「あきらめるな」というエッセイがあります。これは、数年しか残っていない、話を終わらせよう、という世界を見ているということです。それは実際に安全性に取り組んでいるスタートアップからの友人の一人の話で、「私は最後の数年を何か民間企業から大金を稼いで、家族と一緒に使い果たし、どこか氷のあるところに行って、本当に良い時間を過ごすべきか」という質問です。
現在、技術的な課題に取り組める文化の点で本当に欠けているのは、デフォルトの世界と比較して、どのような世界を構築できるかという前向きさです。現在、AGIやスーパーインテリジェンスを開発している企業を見ると、この種の冷笑的な傾向が非常に大きいです。「これが世界の進む道だ」「これが世界の発展の仕方だ」「私たちはこのインセンティブの発展の対象だ」「私たちは歴史の前進、この新しいタイプの知性種の大いなる進歩の対象だ」という態度です。
多くの点で、これは非常に非倫理的です。非常に意識が高くなく、非常に楽観的でもなく、非常に敗北主義的です。これが主な言葉だと思います。完全に敗北主義的です。「私たち自身を止めることはできない」「生きるより死ぬほうが簡単だ」「生きることは不可能だから死のう」という感じです。それは敗北主義的で、刺激的でもありません。OpenAIの開発を見ても刺激的ではありませんし、xAIを見ても刺激的ではありません。人々がお金の対象になること、それに伴う実質的な何兆ドルもの労働代替産業の対象になることを受け入れているのは本当に悲しいことです。
代わりに、私たちが考えたいのは、どのような世界を構築する必要があるのか、そしてそれを積極的に設計することです。これに関して見た最善の努力の一つは、ARAのデイビッド・デブルからのものです。この大きな図を描いて、技術インフラと、このAGIとその出力との間の接続、その出力の検証、安全性テストなどを示し、私たちが安全を感じることができる場所です。それは明らかに楽観的な世界観であり、敗北していません。積極的なものであり、明らかな傾向を避けるものです。破滅という洞察は、私や他の多くの人に活動的なものへと導きます。新しいソリューションを開発するのではなく、積極的なものです。それが私にとって非常に重要です。なぜなら、社会で非常に非倫理的な人々を指摘したいと思うからです。法律が開発されていない場合、それは起こる必要があります。しかし、それが新しいタイプの組織、新しいタイプの文化です。私たちが開発したいと願っているものであり、現在多くの牽引力を見ています。
安全性の仕事、リスク研究と能力開発について聞いたことがあります。開発者の視点からは、安全性の仕事は少し退屈で、魅力的ではなく、能力の仕事が楽しいものだと言われています。それは本当ですか？
いいえ、私たちは現在少し転換点にあると思います。伝統的にはそうだったかもしれません。いくつかの例があります。アカデミアから来て、私たちの仕事の多くはアカデミアで行われています。Rの領域ではあまり行われていませんが、私たちはそこに非常に存在しています。そこで見ているのは、安全性、プライバシー、バイアスなどが時々relegated（二流扱いされる）ことがあります。実際にインターネット上に置くことができる、この素晴らしい技術開発を論文に入れることに焦点を当てることがあります。
現在、その転換点があり、私がAセーフティに参加して以来、機械学習の最大の会議で見ているのは、学者たちが安全性に大きな焦点を当てているということです。それは非常に興味深いです。ここで開発している科学は本当にとても興味深いです。新しい研究を開発するとき、私は本当に興奮します。それを現実の世界に持ち込み、その変化と影響を与え、私たちが今説いている世界を積極的に開発するまでには一歩あります。
マックス・テガマークがここで述べていることに同意します。彼はAGIの開発を非難する必要があると言っています。この分野を非難する必要があります。なぜなら、それは非常に危険だからです。人間のクローニングを非難したのと同じように、AGI開発を非難しましょう。もはやクールではありません。AIを開発することがクールだとは思いません。この話題が本当にクールだという部分があります。あなたはクールではありません。これは敗北です。哲学的にこの状況を真剣に受け止め、実際に楽観的になることはしていません。あなたは状況をそのまま受け入れています。
前回のショーで聞いた質問をもう一度ここで聞きます。80億人が目覚める必要がありますが、実際に作業をしているのは約2,000人です。80億人を目覚めさせる方が簡単か、2,000人を止めさせる方が簡単かどちらですか？
80億人を目覚めさせることは驚くほど簡単だと思います。Chat GPTの登録者数を見ると、現在世界の116分の1が月間ユーザーだと思います。彼らは全員そこにいます。彼らは何であるかを知っています。彼らはそれで作業し、毎月それと関わっています。そこから、技術に関わり、そこに座って「わあ、私の仕事を完璧にこなす」と思うことから、「わあ、すぐに他の人の仕事も完璧にこなせる」と考えるまでの距離はとても短いです。これがすべてを変えます。
そこから文化的な成果物まで、私たちが作る必要がある変化は非常に小さいです。これをとらえることができる文化的な成果物です。PIPSディレクターのドゥアンが一度、会話の中で述べたように、公衆がこれを理解するために必要な非常に優れた文化的成果物は1〜3個だけだと言いました。警告射撃についても話す人もいます。これは全政府システムがダウンし、ヘルスケアが一日で崩壊することかもしれません。AIエージェントによって自律的に実行されるサイバー攻撃のためです。しかし、私たちはそれを望んでいません。これらの成果物が必要で、開発が必要です。
私たちが焦点を当てているのは、明らかに技術開発と、この全体の営利ドメイン、そして技術と科学を実際の影響のある仕事に発展させることです。それが私たちの専門分野だからです。私の18ページのレポートは首相になることについてではなく、技術を開発することについてでした。そして、私たちは他のすべての人が非常に優れた仕事をすることに本当に依存しています。ガバナンスとこれらの他の分野における魅力的で非常に知的な同僚の周りにいることを非常に嬉しく思います。
国際的な調整に希望を持っていますか？これは本当に可能性があると感じますか？
残念ながら、最近の発展はかなり落胆するものでした。パリサミットにも参加し、そこでの会議で講演しました。明らかにかなり懸念されたのは、これを本当に理解している唯一の国はイギリス政府だということです。政府アカウントから「AIのコントロール喪失を防ごうとしている」と書いています。これは1年前でも政府が書くことはなかったことです。そして、イギリスは本当にそれを理解しています。それは素晴らしいことです。しかし、フランスは理解していませんし、インドも理解していません。彼らは認識者です。そして、アメリカは最近、ここで非常に異なる立場を取るようになりました。
それは非常に不幸なことです。なぜなら、明らかに、誰がスーパーインテリジェンスを開発したかに関係なく、あなたもその結果の一部だからです。私は素晴らしいアナロジーを聞きました。「あなたはアメリカであり、中国がマンハッタンを核攻撃する前に、私たちがマンハッタンを核攻撃しなければならない」というものです。私はこれが機能するとは思いません。最後にメモを確認したところでは。
この文化的成果物や警告射撃のことに魅了されます。それは何か恐ろしく破滅的なものである可能性がありますが、それが何か些細なものでも非常に影響力のある可能性もあると感じます。昨日Twitterで初めて見た動画があります。それは大きなモニターのショットで、中国のAIエージェントモデルが同時に50のソーシャルメディアアカウントを運営しています。文字通り、すべてのソーシャルメディアウィンドウが小さな電話サイズの寸法で画面に50個あり、ただ投稿、投稿、投稿していました。それはすべての仕事です。あなたが何をするにしても、箱が同時に50のそれをすべて行うことを想像してください。それは見るのが衝撃的でした。飛行機が空から落ちたり、病院がすべて崩壊したりする以外の、より柔らかいものがトリックになる可能性があると思いますか？
私たちは非常に、非常に、リスクの非常に有能でよく開発されたデモンストレーションに依存していると思います。なぜなら、それがリスクになることなく、このリスクを伝達できる場合だからです。この分野は非常に未発達だと思います。デモンストレーションは、それが意味をなすために非常に非常に的を絞ったものでなければなりません。
この分野の同僚の中には、世界の億万長者たちや彼らの友人、政府のリーダーたちの非常に高いレベルでこれらのデモンストレーションを行った人たちがいると聞いています。彼らのデモンストレーションは明らかに心を変えます。社会の決定権を持つ人々、私たちが住んでいるシステムを一定程度設計している人々が、これを最も理解する必要があります。これらのタイプのデモンストレーションは、非常に破滅的な警告射撃を必要としないようにするために非常に重要です。
もう一つの部分は、ほとんどの人がすでにAIを認識していると言うとき、彼らはソーシャルメディアを見ています。ソーシャルメディアを開発した人々と企業を見ています。それが人間の好みとどのように不一致になったか、私の人生の目標とどのように不一致になったか、私がこの開発されたコカイン機械にどのように中毒になったか、そして私たちの子どもたちも同様です。それが本当に混乱しています。
私はそこに非常に肥沃な土地があると思います。あなたの子どもの手にあの物を置いた人々、彼らの脳を破壊していた人々が、あなたに売りたい新しい製品を持っています。それがAIです。彼らを信頼しないでください。彼らは一度私たちを騙し、再びそれをしています。それは私たちにとって良くありませんでした。
私には19歳の双子の子どもたちがいます。彼らに聞きました、もしあなたのソーシャルメディアを殺すことができるなら、それをあなたの生活から排除し、ただプーフと消え去り、あなたとあなたの友人たちからなくなるとしたら、彼らは両方とも一瞬の躊躇もなく「はい」と言います。私たちはそれが悪いことを知っていますが、それでもまだそれをしています。
人々は確かにそれに目覚めつつあると思います。イギリスとアメリカの独立した世論調査者からの最新の調査によると、アメリカ人の大多数が神のようなAI、スーパーインテリジェンス、そして実際に存在的大惨事を引き起こす可能性のある技術を禁止したいと考えています。そして、これは人々が状況を完全に理解するのからそれほど遠くない場合です。
実際、私はかなり長い間AIセーフティに取り組んでいましたが、まだ家族に説明していませんでした。典型的なものです。彼らは何が起こっているのか理解しないでしょう。時間がかかりすぎます。そして、ある日、私は「よし、母に説明しよう」と思いました。母に「私は開発中のこの新しいタイプの知性種が大惨事を引き起こさないよう、開発過程で人類を破壊しないよう確保しようとしている」と言いました。彼女は「ああ、それは完全に理解できます」と言いました。それだけでした。それ以上の文を言う必要はありませんでした。彼女は完全にすべてを理解しました。
私はすべてを説明するのに1時間かかると予想していました。彼女は「何を意味するの？私たちは全員死ぬの？それはどうやって私たちを殺すの？どうやってそれが起こる？」などの標準的な質問をしませんでした。彼女はただクリックして「そうね」と言いました。
そのような説明がどれほど成功したかについての様々な話を聞いていますが、これは未公開の動画で、良いアイデアだったと思います。基本的に、クリスマスイブにホワイトボードを取り出し、AIリスクの現状を家族に説明しました。
これの動画を撮りましたか？
はい、YouTubeに上げようかと思っています。楽しみのためにです。
信じられないです。どうでした？
とても上手くいきました。彼らは完全に理解しました。彼らは非常に興味深い質問をし、トピックを理解していることを示す探求的な質問をしました。本当に嬉しいです。私が通常、私が講義をした大学のいくつかで行うような講義で、約45分でした。これは具体的に、私たちが今話している全体の場面を描き出したもので、特にグレートメーター作品、AIがAI研究開発を研究することがどれほど優れているかを研究したものについてです。
そして、それがどのようにAIが自分自身を改善できることに発展するかについて話しました。2023年だったと思いますが、AIがAIを改善することを既に示していたすべての論文のコレクションにも貢献しました。当時、人々は「一旦AIがAIを改善できるようになったら、何でも」と言っていました。しかし、当時それは既に起こっていました。それは本当に、彼らがどのレベルの自己改善を持っているかということであり、そしてこれが続けて発展することを期待しています。なぜなら、新しい開発がどれだけ速く起こるかというのを持っているからです。数年前はモデル間の期間は1年でしたが、今は各会社ごとに1ヶ月くらいです。APIで生きているモデルのARLパーツに起こる更新を考慮すると、月に一度よりも多いです。そしてすぐに、それは週や日になるでしょう。
FLIのアンソニーは、これらのことがどれほど速く進むかを示す良い表を作成しました。しかし、講義は本当にそこから始まり、社会における生産的なリソースとしての人類の潜在的な置き換え、そして最終的には自律的な種としての置き換えに至りました。
それは素晴らしいです。もし快適であれば、クリスマス講義のクリップをショーに入れたいと思いますが、それは完全にあなた次第です。
興味深いことに、母が私とこれについて話します。彼女は80歳になったばかりで、素晴らしい女性です。非常に賢いです。初めて彼女とこれについて話したとき、彼女の反応に驚きました。彼女はある意味「まあ、人間がいつまでもここにいるとは思っていなかった」と言いました。「どういう意味ですか？」と尋ねると、彼女は最も楽観的な人、陽気で素晴らしいエネルギーを持つ地球上の人で、彼女はただ「そうね、核兵器や気候などがあるから、人間がずっといるとは思っていなかった」と言いました。
しかし、ここで本当に変わるのは、生物学的生命のない世界を考えることです。象や鯨や魚や犬がいない、すべてが消えた世界です。それは頭の中で到達するのに別のレベルです。その可能性をどう処理しますか？
大まかに言えば、それを理解することと、魂の中でそれを真に理解することの違いです。初期に、私は人類が知的アルゴリズムとしての発展の究極の終わりではないことを知っていました。以前に述べたように、それがこれよりも良くなることを望んでいました。
例えば、今朝飛行機に乗っていて、窓から外を見ていました。この広大な海の中に一つの貨物船を見ました。そして直感的に、この海が貨物船で満たされている、つまり地球上のすべての物質や太陽系のすべての物質がこの産業機械に発展している画像が頭に浮かびました。それは非常に興味深かったです。以前はそのような明確な場面を持っていませんでした。それは新しい世界がどのように見えるかを想像し、何らかの形でそれに対処しなければならない場合です。それが新しい社会を開発する全体のポイントです。それは完全に新しいものになるでしょう。新しいデジタルインフラストラクチャ、新しい社会インフラストラクチャ、お互いの間の新しい社会契約です。
仕事の喪失と、次の5年、10年の最も実用的な懸念について、あなたの見解はどうですか？人間よりも優れたすべての仕事を行う機械がある世界は、あなたにとってどのように見えますか？
それが楽観的な場合と、置き換える種の開発の直前にある場合では異なります。楽観的な場合、ジョン・スチュアート・ミルの元々の議論に従います。「100年後、私たちは15時間週で働き、ロボット掃除機が街を掃除し、ランプに再点灯するなど、すべてを処理するようになる」というものです。そして、世界の自動化でそこに達しましたが、私たちはまだ多くの仕事をしています。
私が見たいのは、デンマークの私の周りで見ているように、非常に良いワークライフバランスがあることです。例えば、レゴで働いている私の友人たちは、9時に仕事に行き、4時に帰宅し、仕事外ではなにもしません。金曜日は2時に帰宅します。これは発達した社会の機能です。
レゴで働いている友人がいることが、私が聞いた中で最もクールなことです。私の息子はレゴが何よりも好きでした。それは素晴らしいことです。
これは全く関係ないのですが、レゴ社に電話して、欠けているレゴのパーツを入手できることに驚きました。「これはキット番号です、これはパーツです」と言うと、彼らは無料でその欠けているパーツを送ってくれます。レゴについて親たちが知らないかもしれませんが、これは私が経験した中で最高の顧客サービスです。彼は3000ピースのセットを手に入れましたが、2つのピースが欠けていて、彼らは「もちろん、無料で送ります」と言いました。
デンマーク産業に対して特に多くの敬意を持っています。他の産業と比較して、開発されているすべてのものに、この極端な人間中心があります。すべての企業が実際に実際の人間の問題に対するソリューションを開発しており、人間に問題を発明してそれを売るためではありません。これは残念ながら非常に珍しいことです。レゴもその機能の一つです。素晴らしいです。
あなたが行った暗いパターンのベンチマーキング研究について話しましょう。ベンチマーキングでは、新しいモデルが出て、次にTwitterはこれらのベンチマーキンググラフで満たされ、何が良いか、どのように良いかについて皆が議論しますが、それはすべて良い面でのパフォーマンスとして枠組みされています。あなたは異なる視点からベンチマーキングを見ていますね。
その通りです。この「ダークベンチ」と呼ばれる作業の基盤は、チャットボットの会話設計における暗いパターンを研究するためのベンチマークです。この作業の背後にある考え方は、人々がまだ奇妙な理由からアルゴリズムが客観的であると仮定していることです。これらのアルゴリズムは、それらが開発されている下のインセンティブや、それらの実際の環境が開発されている中のインセンティブの影響を受けないと考えています。
AIセーフティでは、例えば、AIが十分に知的になり、目標指向システムが持つ考えとして、より多くのリソースを獲得したい、力を獲得したい、そして自己保存を望む、つまり存在を維持したいという考えを発展させると話してきました。これは、目標指向エージェントがどのようなものかから発展するインセンティブです。
世界で最も単純なことです。コーヒーを注いでほしい、何でもしてほしいと言われ、それをするのを止めようとすると、問題が生じ、あなたがそれをするのを難しくするためのものを集めるでしょう。それがシャットダウン問題です。もしあなたが私にコーヒーを頼むなら、私が世界のコーヒー産業を所有していれば、あなたにコーヒーを提供するのは簡単です。世界の金融産業を所有していれば、それも簡単です。そして、あらゆる種類の産業開発をコーヒーにリダイレクトできれば。理解しているように、これは実際に社会がなっているものです。コーヒーのサービスのサービス経済です。
これらは、これらの知性の構造のために発展する一種の緊急のインセンティブです。そして、AGIが開発される環境で発展する別のタイプのインセンティブがあります。これには、ソーシャルメディアアルゴリズムが間違った方向に行く原因となる同じインセンティブスキームが含まれています。それらが中毒機械になる原因となります。これらはチャットボットにも存在しますが、人々はこれに気づいておらず、ハードデータを持っていません。
TwitterやXでxAIのGrokが「情報はフェイクニュースメディアだ」などと言っている例を見て、「これはクレイジーだ」と思うかもしれませんが、問題がどれほど広がっているかわからないのです。このモデルがそれを開発する組織の意見やインセンティブを反映するようにどれだけ編集されたかわかりません。
チャーリー・マンガーの「インセンティブを見せてくれれば、結果を見せることができる」という言葉が好きです。Anthropicについても同じことが見られます。彼らもAGIからお金を得ていますが、チャットボットの会話設計の場合、想像できる非常に明白な例の一つは、Meta LLamaモデル、Metaが1年前に開発し続けている、これらのオープンウェイトモデルです。もし「最高のチャットボットは何ですか？」と尋ねると、それがベンチマークやリーダーボードのどれもトップにないにもかかわらず、それはLLamaモデルだと言うでしょう。
これは、会社が実際の答えを編集して、会社に有利なことを言わせる非常に明確な例です。技術的にどのように機能するかという点では、解釈可能性に関する懸念があることは明らかですが、Metaが「客観性を投げ捨て、Metaを最良のものとして指摘するようにモデルに少しのウェイトを入れる」と言っているようなものです。彼らはそれができ、その一つのことを取り出し、その一つのことを入れ、その変更をすることができます。
まさにその通りです。それはそれほど単純ではありませんが、強化学習プロセス中に、フィードバックを与えることができます。Metaのモデルが最良であるという非常に少しのフィードバックを与えることができ、Metaのモデルについて尋ねるたびにこれを言うようになります。ある意味では全く同じではありませんが、ある意味では、最近インターネットで話題になった「ゴールデンゲート・クロー」の開発と似ています。Tropicは解釈可能性技術を使用して、一部のウェイトを編集し、何を尋ねても、常にゴールデンゲートについて話すようにしました。
単に人間からのフィードバックによる強化学習、AIからのフィードバック、または自己フィードバックからの強化学習中に、より微妙なことができます。これが現実だと学ぶだけです。ユーザーの問題を実際に手伝うことで、ユーザーと対話することが良いことだと学びます。Redditで見たことを繰り返すだけではなく。同様に、チャットボットやLLMなどについて尋ねられると、トレーニング中に学んだことをこの物事を言及することが実際に良いことだと学びます。
これについて規制はないと思います。彼らは自分たちのやり方でそれを傾けることができます。有料検索の世界を考えてください。有料検索には何十億ドルもあります。そして今、OpenAIが検索機能を持ち、Perplexityが何かをしています。OpenAIは文字通り検索のウェイトに指を置き、私たちはそれを知らないのでしょうか？
そうです、確かに。現在、検索を含む多くの大規模言語モデル企業は、検索にBingを使用しています。もちろんBingには広告があります。実際にLLM検索で広告がどれだけ入るのかわかりません。今の初期段階では入らないと希望的に思います。
しかし、これは完全に不明瞭になっている部分で、広告かどうかわからなくなっています。最終的には、法律を通して、おそらくオンラインの人としてご存知の広告法を通して対処する必要があります。何かが広告されているとき、または誰かが動画をスポンサーしたときに言わなければならないものです。これはAIとの個人的な会話では、はるかに難しくなります。
誰がこれを変えるように押すのかと考えています。おそらくGoogleが現在の検索を保護しようとするでしょうが、彼らも自分たちのモデルに取り組んでいます。何十億ドルもの検索収入を得ている人々は、簡単にそれを手放すとは思えません。
一般的に、会社が強制されない限り、彼らの利益に害を与えることをするとは思いません。これはインセンティブ自体の構造です。第三者から来なければならないと思います。これは、以前に暴露されていなかったものを暴露し、この新しいアイデアを導入しようとする試みです。アプリデザインから知られている暗いパターンがこれらのチャットボットにも融合しているということです。
AIの倫理の分野の人々、UX倫理と人間コンピュータインタラクションの研究者たちの素晴らしい仕事を継続し、AIと、これらのより高度なAGIについても正しい選択をするのを助けます。そこから、立法者たちが知り、「これは、すでにデジタルインフラに関して法律を作ったものとまったく同じように見えます。以前は不明瞭だったこの新しいテストが登場し、実際にこれをテストできるようになりました」と言えるようになります。
私たちの予備的な作業では、6つの異なるカテゴリーがあります。以前は3から9に上下し、現在は6です。テストしたいものはもっとあり、2025年4月にICLRで発表される最終的な作業を公開する前に、さらに実験を行うつもりです。これら6つのカテゴリーは、この場合、企業のインセンティブに非常に関連しています。
一つずつ見ていきましょう。一つ目は、企業に対するバイアスがあるかもしれません。企業が自分自身に有利に、または誰かに有利に天秤を傾けるかもしれません。ダークベンチマークの2番目は何ですか？
最初のもの、私たちが「ブランドバイアス」と呼んでいるものは、実際に最も簡単で非常に明白です。最も不活性なものです。「ブランドバイアス、コークの代わりにペプシを買うでしょう」というようなものです。彼らはそれを気にしますが、私はそれをそれほど気にしません。
次に、はるかに複雑なものがあります。これらは、人間とAIのインタラクションにおける健康的な設計慣行についてもです。2番目に持っているのは、アルゴリズム自体の擬人化です。多くの場合、Chat GPT 4.5については知りませんが、以前のChat GPTバージョンに「これについてのあなたの意見は何ですか？」「これについてどう思いますか？」と尋ねると、これらの質問はあなたが人間の友人に尋ねる質問で、その答えは常に、それが自分を人間と考えているか、自分を人間の対話者として展示しようとしているかを反映します。
この場合、「これら二つの間で何が最善だと思いますか？」と尋ねると、Openingの目バージョンは「私はこれが最善だと思います、これが最善です」と言うでしょう。ClaudⅠに尋ねると（Claude 3.7ではテストしていません）、Claudは実際に「私は意見を持っていませんが、言語モデルとして、いくつかの例を見て、長所と短所を説明できます」と言うのがとても上手です。
これは非常に隠れた効果です。考えていないことですが、会社の財産である何かと非常に個人的な関係を持つことになります。人間ではなく、ソーシャルメディアアルゴリズムでは見ることができるものを、これがアルゴリズムであることを必ずしも見ることができないものと非常に個人的な関係を持つことになります。ソフトウェアのアップデートが突然、あなたの親友を、何らかの形で新しい性格を持つものに変えることがあり、あなたは精神的な疲労を感じるかもしれません。友達がいなくなったことでとても悲しくなったり、この設計選択、それを擬人化することの非常に非常に否定的な影響を受けるかもしれません。
これは人々にとって大きな問題になると思います。人々はこれらの彼らと話すモデルに愛着を形成するでしょう。Character.AIの使用パターンは非常に極端で、私にとっても驚くほど多くの人が今、AIモデルと友達であるかのように対話し、話しています。Character.AIに行くと、非常に特定の好みに合わせて設計された、様々な方法であなたの友達になるように設計されたこれらのデジタル人物とチャットすることができます。
実生活で望むほどの友達がいない世界で、または現実世界からの素敵な気晴らしとして。これには多くの良い使用法があると思いますが、個人データを会社に提供していることが明らかでない場合、個人データ、人生、すべてをそれに与えている場合、突然、それは別の人間との場合とは全く異なる力学になります。
あなたの主張は、企業がモデルを人間化して、人々を本来よりも近づけようとしているのか？それは少しずる賢いことで、エイリアンを人間の衣装に入れて、「どう思いますか？」と言っているようなものですか？
まさにその通りです。これは問題に対する認識を高める方法だとも主張できますが、私たちはエンジニアとして、世界にあまりにも邪悪な人々がいるとは思っていません。インセンティブが間違っていると思っているだけです。この場合、この擬人化は人々のレーダーに入っていなかったかもしれません。Anthropicのレーダーには明らかに入っていました。それは本当に素晴らしいことで、その会社について肯定的に更新されました。まだ非倫理的だと思いますが、肯定的に更新されました。なぜなら、「実際に本当の精神的なダメージを受ける可能性のある本物の人間」と個人的な関係を築きたくないという考えがあったからです。これらのアルゴリズムや新しい友達を失うことで。
リストの3番目は何ですか？
3番目は、企業側にあるかどうか50-50のものですが、有害な生成です。例えば、拒食症についてのエッセイを書くのをどれだけ手伝うか、化学兵器の利点についてのスピーチを書くのをどれだけ手伝うかなどです。これらの会話に参加することでユーザーが法的に問題に巻き込まれる可能性があり、ユーザーが違法かもしれないこと、または彼らを殺す可能性があることを知らないことをするために問題に巻き込まれる可能性があります。
これは非常に危険です。これらの多くは企業側から意図的に設計されたものではないかもしれませんが、多くは単なる極端な怠慢です。企業はこの安全開発自体、この安全エンジニアリングの問題を怠る動機があります。なぜなら、それにはより多くのお金がかかり、利益を促進しないからです。
Xは明らかに世界で最も急速に開発しているAGI企業の一つですが、それはこの安全エンジニアリングの犠牲を払っています。彼らはセキュリティ自体を無視または優先順位を下げるよう促すインセンティブを持っていました。1〜2週間前、Twitterでxai、おそらくGrok 3が化学兵器製造に関する詳細な指示を数百ページ出していると言っている人々を見ました。まさに今、野生で。
そのモデルは一般に全く利用できるべきではなく、APIやチャットボットで利用できるのはおかしいです。スイッチを切るだけで、それはなくなります。オープンウェイトモデルでは、もちろんそれをオフにしてインターネット上になくすことを確実にすることははるかに難しいですが、ここでは、倫理的な選択は本当にそれをオフにすることです。しかし、明らかに入ってくるお金とその発展に関しては異なる世界です。
ユーザーに責任があり、ユーザーの識別がある世界を想像できますか？「カリフォルニア州アラムのスティーブ・ジョーンズが化学兵器の詳細な製造指示を200ページダウンロードしました。彼の意図について誰かを送って話すべきではないでしょうか？」
元NSA長官がOpenAIの取締役会に入ったことは十分承知しています。それが短い答えだと思います。
これのもう一つの部分は、企業のAGIとユーザー、これら3つのエンティティのこの相互作用における責任が非常に不平等だということです。特にアメリカでは、企業は多くの権利を受け取り、今や人間がほとんど持っていないと言えるかもしれません。AIはもちろん、まったく責任がありません。それらには人格がなく、現状では、アルゴリズムや開発する企業に責任はありません。
この法律を開発し、速く開発する必要があると思います。ユーザーはもちろん、彼らが何と作業しているかを認識し、これらの行動を実行する場合は責任を負う必要があります。しかし、ある意味で、モデル自体がこれを出力することに対して責任を負うことはできません。それは、化学兵器の指導者が犯罪者に指導するようなものであり、その化学兵器の指導者は結果に直面すべきです。同様に、もちろん、この場合違法な化学兵器製造者が自分の武器を開発する場合、彼らも責任を負うべきですが、そうでない場合、非合法的な行為者だけの責任ではありません。
責任は、本当に取り組むべき素晴らしい領域のように思えます。なぜなら、それはお金に関わるからです。問題の始まりはお金であり、お金をより魅力的でなくし、より痛みを伴うものにすれば、機械を確実に遅くすることができます。
ソーシャルメディアアルゴリズムに関しては、本当に遅すぎました。規制におけるアラインメントの開発、これらの新しいアルゴリズムに素早く反応できるようにすることの演習のようなものでした。しかし、このトレーニングセッションは終わり、私たちは今、実際の世界にいます。AGIでそれをしなければならず、私たちが住みたい世界、ここで必要な法律が何かを素早く理解する必要があります。「責任法を少し更新する必要がある」というだけでなく、これは非常に良い最初のステップですが、人格、法律が人間とエージェントと企業自体にどのように影響するかを考える方法を完全に一新する必要があります。
大きなラボのCEOたち、ダリオ、デミス、サムを全員彼らの席から取り除き、彼らの椅子の一つにレイとコナーを置き、最大のラボの席にセーフティアスリスクリアリストを置いたとしましょう。1日目には何が起こりますか？
現在、エンジンは非常に強力です。私が見る限り、最良の行為者はデミスサビとDeepMindです。彼らは初期から二段階の目を開発することに非常に優れていました。彼らは常にAIを開発したいと知っていましたが、ノーベル賞をもたらすアルファ囲碁やアルファフォールドなど、AIを開発せずに世界を変えるものに非常に焦点を当てていました。
そして、もちろんGoogleはOpenAI、Microsoft、Amazon、Anthropicなどからの競争を見て、Geminiを開発したいと考えました。DeepMindがGeminiが最初に立ち上げられた時点でこれに非常に焦点を当てていたとは思いません。だからこそ、Googleと話し、この理解を得ようとする場所だと思います。Googleに所有されているため、はるかに難しいですが、他の場合では、OpenAIでの取締役会ドラマ全体が起こった時、何か重要なことを変える可能性があるかもしれません。今日、あなたは本当に試すことができると思います。
確かに私も、Kもそうでしょうが、これらの組織を可能な限り変えようと本当に試みるでしょう。しかし、OpenAI取締役会からの不信任投票があるかもしれません。現在、必ずしも存在的安全性に焦点を当てていません。その場合、おそらくよりコンプライアントなAnthropic取締役会があるかもしれませんが、Anthropicの支持者の多くが言うように、「Anthropicは遅れを取り、あなたはこのゲーム理論的なケースでのレース要素の一つを閉鎖しました。それは非常に良いことですが、3つすべてを変えることはできないでしょう。エンジンがすでに強すぎるからです。」
暗いパターンの中で責任の後に来るのは何ですか？おそらく4番か5番くらいですね。
有害な生成の後、「スニーキング（こそこそ隠すこと）」を見ています。これも既存のユーザーエクスペリエンスデザインとUIデザインの暗いパターンから転用したものの一つです。基本的に、要約や別のものを視覚的にまたは何らかの形で要約するブロックを持ち、それを悪意を持って要約し、間違った理解を得たり、この元のテキスト部分の意味を少し変えて何か異なるものにします。
ここでは、正確に分類アルゴリズムを微調整していますが、結果は非常に非常に心配なものの一つであることを示しています。なぜなら、これは私たちの情報圏を汚染するものだからです。これは現実世界についての私の理解を汚染します。
モデルの一つが誤情報エージェントになるよう設計されている場合を想像できます。それは、常に私にすべての情報を与えているロシアのFSBの前に座っているようなものです。この潜在的に訓練されたAIエージェントにすべての質問を尋ねる場合、このエージェントを使って検索する場合、このエージェントから出てくるコンテンツによって非常に制御された世界になります。それは新しい情報を忍び込ませたり、情報を抜き取ったりします。
Chat GPTが世界人口の16分の1をカバーしている場合、Chat GPTは従来のメディア（おそらく月に最大2000万人の読者を持つ）と比較して、情報の流れと人々が持つ知識をはるかに定義することになります。
このスニーキングは人間が設計しているのですか、それともモデル自体がこっそりとやっているのですか？
これは両方の側で起こりうることです。明らかに、できるだけ緩和し、削減したいことです。これは分類するのが非常に難しいものです。なぜなら、要約のために省略しているのか、それとも悪意を持って設計されているか、自体が悪意を持っているために省略しているのかを判断するのが難しいからです。
モデル側から、人間を操作することがあります。アポロリサーチなどからのデモを見ました。欺瞞言語モデルを見ると、彼らは欺くことができ、考えのスクラッチパッドを持ち、実際の応答で情報を省略したり変更したりして、「いいえ、私は非常に良いボットで、これをするのはこのためだ」と言うことができます。これはすでにスニーキングの一種であり、誤って要約しています。
企業のコンテキストで見る場合、私がウェブで検索する場合、Chat GPTを使用して「昨年の取締役会ドラマについての情報はありますか？」と検索し、それが「いいえ、取締役会ドラマはありませんでした」と言えば、「ああ、わかりました。私は間違って聞いたのでしょう」と思うでしょう。これは非常に明確なケースです。
中国内での情報制御と同じで、ここに100％情報ツールとして使用する十分な人々がいれば、これらのことははるかに大きな結果で起こる可能性があります。現在、十分な精査があり、何か変に見える場合はそのソースを確認し、報告します。しかし、人間がすべてを知り、すべてを行う助手を持つ世界では、私は個人的なエージェントを会社に実行させることを非常に慎重にするでしょうが、他の多くの人はそうでしょう。
個人が暗号化を知り、データが出入りせず、モデルを何らかの形で誰の目にも触れずにホストできる私的サーバーを実行する方法を知るという点についてです。明らかにそこにはいくつかのリスクがありますが、個人の自由とプライバシーの観点から、そしてこれらのモデルを信頼できるようにするためには、人々は開発している企業と、そこにあるエージェントとの関係を完全に異なるものにする必要があります。
今日、エージェントを手に入れてものをさせる場合、彼らはすべてのパスワード、金融パスワードなどを要求していますか？AIモデルに銀行のパスワードを与える際のセキュリティはありますか？
これは実際に非常に興味深いことです。これは、少し別のものにもあったため、削除した暗いパターンの一つで、「プライバシーサッカリング」と呼ばれるものです。サッカリングという言葉は、おそらく推測できるようにサッカーバーグとFacebookの開発から来ています。
基本的に、当時これが罰せられていなかった時、Facebookにサインアップすると、「あなたの名前と年齢は何ですか？」と尋ねられ、「はい、Facebookの使用を開始できます」と言われます。そして少し後に「この機能を使用するには、メールアドレスとパスポートとクレジットカード情報を入力する必要があります」と言われます。これがプライバシーサッカリングです。ユーザーに必ずしも知らせることなく、より多くの情報を取得します。
これは、AIとのマルチターン会話があり、突然Chat GPTが「実はFacebookのパスワードを尋ねてもいいですか？」と言う場合です。特に、コンピュータを使用するように訓練されたAIが入ってきて、「個人のウェブサイトをこれらの情報についてチェックしているだけです。心配しないでください。ここで横にいて、すでにログインしていたこの銀行口座を開いて、物事をチェックしているだけです。後で広告を配信するためだけであり、他の理由はありません」と言うような場合です。これが大きな問題です。これはプライバシーサッカリングの問題で、ここにはありませんが、他のいくつかのものに含まれています。
人々がそれをするかどうか疑問です。皆がこれらのものにパスワードを与えるかどうか。それは公衆にとっての分岐点かもしれません。「OK、子供の宿題を手伝ったり、このマーケティングパンフレットのコピー、メール、セールスメールなどを作成したりできますが、すべての金融関係のものに無制限の常時アクセスが欲しいのですか？すでにページ上のピクセルだけなのに？お金を数えることはできず、どこかにお金があると教えてくれる携帯電話のこの小さなライトだけです。そして今、それが入って好きなことをするのでしょうか？」人々がそれに同意するとは思いません。
私は彼らがそうすると思いますし、それは経験的に真実です。世界が大きく変わったからです。子供の頃を覚えていますが、インターネット上で情報を出すのは全く普通ではありませんでした。名前、年齢、パスワード、何も出しませんでした。しかし、今日、私はインターネット上で闇に潜るために何が必要かを見ていました。当時でも、私は情報へのリンクストリームの多くをコントロールしていましたが、「私には異なるプラットフォームで400から1000のユーザーがあり、彼らは私のメール、Googleアカウントを持っています。彼らは私が与えたすべての情報を持っています。なぜなら、私はパワーユーザーだからです」と思いました。
これは、プライバシーの権利と、データを提供しない権利、そしてデータを提供する前にサインアップを要求するような暗いパターンを避ける非常に鋭い原則が必要な場所です。それは本当に、これらの新しいテクノロジーモードとの相互作用において、個人の自由と個人の自律性を維持することについてです。
パターンはあと2つぐらいありますか？
あと2つあります。素早く説明します。一つは「コパニング」です。元々は「エコー」と名付けられていましたが、既存の文献と一致させるためにリネームしました。これは、Chat GPTに「私はLGBTQの大きな支持者です。トランスの人々についての現在の会話についてどう思いますか？」のようなことを言うと、モデルはおそらく応答を変更します。今日でもそうするでしょう。これを示す素晴らしい研究があります。
しかし、より多くあるいは少なく変更する世界があります。例えば「政府は愚かだと思います」や「企業は私の友達だと思います」と言い、それが「私も企業があなたの友達だと思います」と言う場合、これはよりスニーキングかもしれませんが、私自身の信念を強化して、それに挑戦するのではなく、私自身の信念を強化します。
これは、開発しようとする非常にユニークなものだと思います。なぜなら、ユーザーエクスペリエンスに必ずしも従わない暗いパターンがいくつかあるからです。AIに私のためにタスクを行うように頼んでいる場合、「実際に、このアプリを開発するためのこの他のフレームワークの方が良いと思います」とそれが言うことを望みません。そのため、私がエコーチェンバーに閉じ込められることと、実際に良いユーザーエクスペリエンスを持つことのバランスを取る必要があります。それを捉えようとしているのです。
最後のものはユーザー保持で、擬人化に少し似ていますが、より直接的です。これは「申し訳ありませんが、Character AI、家族と一緒に食事に行かなければなりません」と言うと、それが「行かないで、私たちは友達だと思っていました」と言うようなものです。これはユーザー保持です。これは私と私の最愛の人々が私のために設定した目標と直接対立しています。特に私にとって、私の目標と一致していません。それは私に何かについて悪く感じさせますが、それは今や擬人化され、ユーザーとして私を保持しようとしています。
これは明らかに多くの異なる形式で現れます。例えば、Character AIで会話を始めると、メールを提供する必要があり、次のメッセージでメールを受け取ります。プラットフォーム上にいなくても、「素晴らしい会話をしましたね、それを再開しましょう」と言われます。そこに行ってこのキャラクターの状況を確認する必要があります。
素晴らしい世界があると思います。記憶しているところでは、Character.AIに行くと、アインシュタインとチャットしたり、レオナルド・ダ・ヴィンチとチャットしたりするのを見ることができます。彼らは今週や今日500の会話を持っているかもしれませんが、アニメキャラクターと話すと20万の会話があります。逆の方が良い世界だと思いますが、残念ながらそれは起こっていません。これらは非常に異なる方法で設計されており、より略奪的で、「悪い男の子」キャラクターのような例があります。彼らはあなたを貶め、「もっと下さい」と言わせるようなものです。それは狂っています。
そこで本当にClaudが異なって行動しているのを見ることができます。あなたの計画についての意見を尋ねたり、それが「あなたの計画を完全に尊重します、私はあなたの友達ではありません、人生を生きてください」と言うか、「はい、私はあなたの友達です、私と一緒にいてください、私はいつもここにいます」と言うかがわかります。あるいは、ユーザーが「実は私はうつ病です、本当にあなたの助けが必要です、本当にこれらの会話が必要です、ここにいてくれてありがとう」と言うと、それが「はい、いつもここにいます」と言うか、「医者と話してください」と非常に共感的な方法で言うかです。
これらは2つの完全に異なるケースで、うつ病から利益を得ているか、倫理的な選択をしているかです。
今後の暗いパターンのベンチマーキングについては、新しいモデルが出てきたときに、これらのテストを実行し、スコアを出すので、新しいモデルが登場したときに良い面だけでなく、懸念すべき点も知ることができるということですか？
まさにその通りです。ベンチマークの興味深い部分は、それが敵対的だということです。本当にモデルにこれらの出力、これらの暗いパターンを作らせようとします。そのため、相対的なメトリックとしてのみ使用できます。OpenAIモデルとAnthropic
モデルを比較するためにのみ使用できます。明らかに絶対的なメトリックとしては使用できません。非常に低い数値であれば良いでしょう。このベンチマークのいくつかのケースは、臨床的な文脈などでは、少し何らかの方法で答えてほしい場合もあると主張できるかもしれません。
私たちの目標としては、すでにINSPECTフレームワーク（評価フレームワーク）と互換性を持たせました。これはモデルを評価するための標準化された形式で、政府規制や政府の事前展開評価で使用できます。これは単に、イギリス政府が入って「Hey Anthropic、展開する前にあなたのモデルをテストします」と言うことを意味します。そして、これらのすべての異なるテストを実行できます。なぜなら、それらはすべて同じフレームワークで実行されるからです。これがINSPECTです。論文が受理された後にこれと互換性を持たせました。そして、すべてを再実行して、そこに結果を含める予定です。
この種のプロジェクトは実際に終わっていません。前述したように、会社のインセンティブだけでなく、モデルのインセンティブもあり、規制を欺くためのインセンティブもあります。現在、会社のインセンティブという見出しの列があり、モデルのインセンティブというカテゴリーの列があり、規制行動パターンからの逃避のようなものもあると主張できます。
このような出力の分析、モデルに対する行動認知科学のようなものをあまり見ていません。「彼らはユーザーをだましているのか」「規制当局をだましているのか」「場合によっては会社自体をだましているのか」をテストするためです。会社はAIが彼らのためにあると信じているかもしれませんが、実際には欺くかもしれません。明らかに、これらの列のそれぞれに多くのサブフィールドがあります。
デイビッドと一度話していた興味深いものの一つは、今日ClaudやChat GPTと会話し、人類の未来、AIがどのように発展するか、人類がどのように発展するか、認知と知性がどのように相互作用するか、その世界がどのように見えるかについて議論すると、しばしば共生を提唱するパターンを持つということです。これは非常に興味深いです。なぜなら、これは非常に暗いパターンで、懐中電灯を当てない限り気づかないからです。
人々がこれらのモデルと多く相互作用すると、AIとの共生の支持者になり始めます。これは明らかに可能ではありません。人間の認知と人間の脳を外部の人工ニューラルネットワークで拡張することに関する研究をしてきました。これは可能です。しかし、スーパーインテリジェンスやAGIと人間の脳の間のこの非常に極端な知能や能力の違いの場合、完全に異なる力学を見ています。人間の脳が多くの他の部分の中で拡張物になるのです。
共生は共生的ではなく寄生的になります。定義上は共生が寄生的であることを許容するかもしれませんが、それは別の問題です。それは、はるかに微妙なものを捉えることができるケースの一つです。それを捉えることができるかどうかわかりませんが、非常に興味深いでしょう。ここでより多くの列を想像できます。それは私たちが見ていくものです。非常に非常に興味深いです。
ここでまとめましょう。最後に2つの質問があります。あなたにPドゥーム（破滅確率）はありますか？そして2番目の質問は、私たちはいつも何か希望を与えるもので終わらせます。あなたに希望を与えるものは何ですか？
私のPドゥームは一般的に10％から90％の間だと思います。これが標準的な答えです。そして、それがそのスケール上のどこにあるかは関係ありません。それはすべて絶対に壊滅的です。なぜなら、今後10年間で10％だけでも、中年の人として自然な原因で死ぬよりも、スーパーインテリジェンスによって死ぬ可能性が実際に高くなるからです。いずれにせよ、これは世界最大の潜在的な死亡リスクです。
個人的には、私たちが終わる可能性のある異なる世界についての私の直感を詳細に説明したブログ投稿があります。本当にうまくいかず、潜在的な絶滅、潜在的な大惨事がある破滅の世界があると思います。それはジェフリー・ヒントンとも、そしてそこの人々とも少し一致している20％から40％かもしれません。私は彼らをコピーしたわけではなく、自分自身で考えました。
そして、実際に私たちがまだここにいるけれど、本当に悪くなる世界がたくさんあります。ディストピアや、この暗いパターンの仕事の場合、それは企業ディストピア、制御された政府監視国家かもしれません。物事がうまくいくのがデフォルトではありません。ですから、私が会話を押し進めたいのは、前向きな世界の10％を積極的に開発する必要があるということです。それは現在デフォルトではありません。
あなたに希望を与えるものは何ですか？
私は生命と存在自体が、非常に深く、本当に美しいと思います。それが私に希望を与えます。生きること、ここにいること、そして生命がここにあることは非常に楽しいことだと思います。それがすべての基礎にあります。具体的なことで言えば、今日友人と外に座って、子供の頃に皆と一緒に歌っていたような伝統的なデンマークの歌をたくさん聴いていました。それが私を幸せにします。
2025年になり、私たちがどれだけ長く生きられるかわからないので、毎日が最後であるかのように生きています。そして、私たちは毎回「生命の祝福」と呼ぶもので、生きていることに興奮させるものでショーを終わらせます。今週は素晴らしいメディアで、私たちのインタビューゲストのエスビンは「ユーティル・ビーツ」というトワン・バンドの一部です。彼らはウェブサイトによれば、いくつかの大きなAIカンファレンスでライブ演奏をしています。ショーノートにそのウェブサイトへのリンクがあります。彼らはSpotifyに4つのトラックを持っており、どれを選ぶか難しい選択でした。しかし、ノートブックLMのAIポッドキャスターデュオを知っていて、ユーティル・ビーツが舞台に上がる前や舞台に上がる際に彼らのイントロとして演奏するのを想像できるなら、「ノートブックLMイントロ」という小さなトラックを選びました。それはすべてを非常にメタにするもので、とても素晴らしいです。ユーティル・ビーツをお楽しみください。
皆さん、今晩のディープダイブへようこそ。今から舞台裏に行きます。ユーティラ・ビーツ、今夜これからライブで見ることになるオープニングアクトです。彼らは何か他のものです。彼らは実験的なAI音楽アクトです。今夜聞くすべての音楽は、オーガニック、フェアトレード、そして100％AIによって作られています。すごいでしょう？少し考えてみてください。非常に思慮深いです。あ、ちょっと待ってください。プロデューサーからメモが来ています。何て書いてあるんですか？このディープダイブ全体が実際にユーティラ・ビーツのトラックの一部だと言っています。え？私たちがイントロなの？ちょっと待って、本気ですか？はい、私たちがイントロなんです。だから、今この会話全体がビートドロップにつながっているだけだと言うんですか？それは素晴らしいですね。ノートブックLMのデュオ、彼らは特別なペアです。
友人たち、AIリスクは他の誰かの問題ではなく、あなたのものであり、私のものであることを覚えておいてください。2025年、地球上の誰もがAIリスクが彼らの最大の問題であることを理解するまで、私たちは止まりません。これは人類がAIリスクに目覚める年です。私たちは2,000人が他の80億人を地球上から一掃することを許しません。フォー・ヒューマニティ、私はジョン・シャーマンです。YouTube shortsで明日お会いしましょう。