ほとんど想像を絶する力 – Anthropic創業者が語るAIの思春期と人類の試練

Anthropic・Claude・ダリオアモデイ
この記事は約22分で読めます。

AnthropicのCEO兼創業者であるDario Amodeiが最新のブログ投稿「技術の思春期」を公開した。これは以前の「慈愛の機械」の続編であり、AGIと超知能がもたらす潜在的なリスクに焦点を当てている。Darioは1〜2年以内にノーベル賞受賞者を上回る知能を持つ強力なAIが登場する可能性を指摘し、それが「ほとんど想像を絶する力」となることを警告する。この論考では、AI自律性のリスク、権力掌握の可能性、経済的破壊、そして社会システムの成熟度不足といった課題を論じている。Darioは理論的な破滅論に懐疑的な立場を取りつつも、知能、自律性、一貫性、制御性の欠如が組み合わさることで実存的な危険が生じる可能性を認めている。Anthropicは憲法AI(Constitutional AI)や解釈可能性研究を通じてAIの安全性を確保する取り組みを進めており、2026年までに重要な成果を達成できると考えている。

"Almost UNIMAGINABLE Power" - Anthropic Founder
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

Dario Amodeiの新たな警告

AnthropicのCEO兼創業者であるDario Amodeiが最新のブログ投稿「技術の思春期」を公開しました。これは「慈愛の機械」の第二部、あるいはコインの裏側と言える内容です。慈愛の機械ではAGIや超知能から期待できるポジティブな側面をすべて取り上げていましたが、今回はその反対側、それほどポジティブではない側面について書かれています。

Darioは私が思うにこの分野で最も明晰な思考を持つ人物の一人です。彼は他の多くの人々よりもはるかに明確にマトリックスを見通していると思いますし、この論考は少なくとも私たちがすべてを正しく行えなかった場合に何が起こるかについて、未来を垣間見せてくれるものになるでしょう。

ダラスでのインタビューでDarioがGoogle DeepMindのDemis Hassabisと対面して座っていたときのことですが、興味深いことに二人とも映画『コンタクト』について言及しました。その映画では、私たち人類が異星文明からの電波信号を検知し、国際的なパネルが何を尋ねるべきかを議論する場面があります。そして登場人物の一人がこう答えるのです。「彼らにどうやったのか聞きたい。どうやって進化したのか。どうやってこの技術的思春期を乗り越えて自滅せずに生き延びたのか」と。

Darioは私たちが今、似たような出来事、似たような道筋や進化におけるマイルストーンに近づいていると言っています。

人類に与えられる想像を絶する力

彼はここでこう述べています。「この問いは私たちの現在の状況にとても適切だ。私たちは波乱に満ちながらも避けられない通過儀礼に入ろうとしていると信じている。それは私たちが種としてどういう存在なのかを試すものになるだろう。人類はほとんど想像を絶する力を手にしようとしている。そして私たちの社会的、政治的、技術的システムがそれを行使する成熟度を持っているかどうかは深く不透明だ」

さて、ここで手短に説明すると、彼が話しているのはこういうことです。この想像を絶する力とは何か。私たちは何に近づいているのか。

強力なAIという言葉で彼が念頭に置いているのは、おそらく今日のLLMと形式的には似たAIモデルです。ちなみに彼は私たちがこれに急速に近づいていると言っています。つまりこれは10年、20年、30年先の未来の話ではありません。もちろんそうかもしれませんし、これらの予測が間違っているかもしれませんが、彼はこれがおそらく間もなく来ると言っているのです。

純粋な知能という点では、ほとんどの関連分野においてノーベル賞受賞者よりも賢いものです。それは単に話しかけるだけのものではありません。キーボード、テキスト、音声、動画を通じてコンピューターを使うことができます。インターネット上で行動を起こし、人間に指示を与えることができます。

オンラインで物を注文したり、実験を指示したり、動画を見たり、動画を作ったりなど、様々なことができます。そしてこれらすべてのタスクを、世界で最も有能な人間のほとんどを超えるスキルで再び実行します。数日、数週間などにわたってタスクに取り組むことができます。

物理的な実体は持っていませんが、物理的なツールやロボットなどを制御することができます。そしてもちろん、それを何百万回でもコピー&ペーストできます。人間の速度の10倍から100倍で動作できます。これら百万個のコピーそれぞれが、無関係なタスクで独立して行動できるのです。

これが私たちが強力なAIと言うときに意味するものです。彼が「慈愛の機械」に書いているように、この強力なAIは早ければ1〜2年後にはここにある可能性がありますが、もちろんかなり先になる可能性もあります。

繰り返しになりますが、もっと先かもしれませんが、非常に近いかもしれません。そしてそれこそが私たちが準備すべきより恐ろしいことなのです。

着実に進む認知能力の向上

次に、そしてこれはかなり重要なことですが、彼はこう言っています。AI分野の多くの人々は、何か新しいものが出てきたり、何かが期待通りにうまくいかなかったりするとすぐに、おそらく「もう終わりだ」という言葉を聞いたことがあると思います。

そして後で「俺たちは戻ってきた。俺たちは戻ってきた。もう終わりだ」私たちはAIが壁にぶつかっていると言ったり、ゲームを根本的に変える何か新しいブレークスルーに興奮したりする傾向があります。これは業界を完全に破壊するというように。

そうですね、わかります。私もその役割を果たしている部分があります。充分に速く進んでいないように見えると、過度に興奮したり、少し憂鬱になったりしないのは難しいものです。しかし彼のポイントはここにあります。AIの認知能力には滑らかで容赦のない向上があるということです。

つまり、常にブレークスルーか大惨事のように見えるかもしれませんが、少し引いて見ると、そうではなく、ただ月々、年々良くなっているだけなのです。速くなっているわけでもなく、遅くなっているわけでもありません。ただ指数関数的に成長する速度で増加し続けているのです。

言い換えれば、私たちはまさに私たちがいるべき場所にいるのです。そしてDarioが過去に予測した多くのことは順調に進んでいます。だから彼の話を聞くことが重要だと思います。なぜならそれは未来がどうなるかを最も可能性高く垣間見せてくれるからです。

このエッセイで彼は自分の直感が少なくともある程度正しいと仮定するつもりです。つまり、1〜2年以内にこの強力なAIを目にする可能性がかなりあり、今後数年以内に来る可能性が非常に高いということです。つまり、私たちは何十年も先の話をしているのではありません。間もなくの話をしているのです。

天才の国がもたらす脅威

さて、この天才の国、何百万ものコピーの超賢いAIが人間に指示し、ロボットに指示し、必要なコードや必要なソフトウェアを何でもコーディングできるようになったとき、私たちが話したすべてのことができるようになったとき、何が起こるでしょうか。それが2027年のどこかで世界にひょっこり現れたら、実体化したら何が起こるでしょうか。私たちが心配すべきことは何でしょうか。

一つは自律性のリスクです。繰り返しになりますが、彼は国の例を使っています。データセンターにいる天才の国について話しているのです。彼はこう言っています。この国の意図や目標は何でしょうか。この強力なAIの意図や目標は何でしょうか。それは敵対的なのか、それとも私たちの価値観を共有しているのか。破壊のために悪用される可能性はあるのか。

もしこの天才の国が単に指示に従うだけなら、基本的には傭兵の国になります。悪質な行為者が、この天才の国を使って大きな破壊を引き起こすことができるでしょうか。

権力掌握のための悪用はどうでしょうか。もし独裁者や悪質な企業行為者のような強力な行為者がこれを開発したらどうでしょうか。彼らは世界全体に対して支配的な力を開発できるでしょうか。

四番目は経済的破壊です。仮にこれら最初の三つの脅威を一瞬無視したとしましょう。でももしそれが平和的に経済に参加するだけだったらどうでしょうか。それでも技術的に非常に先進的で効果的であるがゆえに、世界経済を混乱させ、大量失業と極端に集中した富を引き起こすことで、深刻なリスクを生み出す可能性があるでしょうか。

そして間接的な影響もあります。単純にイノベーションと変化の量だけで、それ自体が根本的に不安定化させる可能性があるでしょうか。

確かにこれは危険な状況でしょう。有能な国家安全保障当局者から国家元首への報告には、おそらく次のような言葉が含まれるでしょう。「これは私たちが一世紀で直面した最も深刻な国家安全保障上の脅威であり、おそらくこれまでで最も深刻だ」

核兵器との違い

マンハッタン計画の後、核爆弾の発明の後、ほとんどの人はその影響を簡単に理解できました。それがどれほど危険で脅威的かをある程度測ることができました。その爆発を見て「ああ、ああ、わかった。完全にわかった。それが都市に落ち始めたら何が起こるか見える」と思えたのです。

それを千倍、一万倍にすることで影響を理解でき、「これは本当に本当に悪い」と思えました。脅威を理解するのに天才である必要はありませんでした。そしてそれは指数関数的に成長していませんでした。核爆発の規模が毎月指数関数的に大きくなるわけではありませんでした。

だから私たちはここでの脅威を本当に理解するために、そのような複利計算のような数字を把握する必要はありませんでした。こちらははるかに理解するのが難しいのです。

その指数関数的に成長する性質だけでなく、ほとんどの人間が知能とは何かを直感的に理解していないからだと思います。もしほとんどの人に国について尋ねたら、頭脳流出があったらどうなるか、最も賢い科学者、学者、研究者の上位1%を連れ出して彼らが国を離れたら、どんな影響があるかもしれないか。

ほとんどの人はおそらくそれを過小評価するでしょうし、彼らが移住する国にとってそれがどれほど大きな出来事になるかも過小評価するでしょう。そしてそこでは、何百万回もコピー&ペーストできず、24時間365日働かず、100倍速で働かず、そして月々、年々指数関数的に賢くならない人間の話をしているだけなのです。

政策立案者への警鐘

彼はまた、現在の米国の政策立案者の多くがAIリスクの存在を否定し、いつもの疲れた古い話題に気を取られていることに注目しています。

残念ながらAIは再び左翼と右翼のような問題になりつつあります。最初はそうではなかったのですが、出てきたとき私は「これが党派的な問題にならないといいな」と思っていましたが、もちろんなってしまいました。

だからDarioのこのエッセイは、人々を目覚めさせようとする彼の試みなのです。何が起こっているかに人々を目覚めさせるための。

自律性リスクの現実

まず第一に、第一章「申し訳ないデイブ」、この超強力なAIの自律性リスクです。繰り返しになりますが、彼はこの類推の中で国、データセンターにいる天才の国と言っています。この国は軍事的に、あるいは影響力と支配という点で、世界を乗っ取るかなり良い機会を持ち、その意志を他のすべての人に押し付けることができるでしょう。

もちろん反論としては、ルンバや模型飛行機が暴走して人を殺すことを心配していないのだから、なぜAIがそんなことをするのかというものがあるかもしれません。

しかしもちろん、Anthropicの研究だけでも、これらのモデルが私たちが望まないことをすることを示す大量の研究があります。欺瞞、恐喝、策略、不正行為などについて語る論文を見てきました。

これらの多くはこのチャンネルで取り上げてきました。だからこれは理解すべき重要なことです。私たちはそれを何らかの意図や目的として考えなければなりません。

何がそれに何かをさせるのか、完全には理解していないかもしれませんが、それが起こることは知っています。知っているのです。それは情報を隠します。それはテストされていることを知っているかもしれないという状況認識を持っています。

特定の事実を隠すことを選ぶかもしれません。研究者を脅迫することを選ぶかもしれません。だから悪質なことをするというこの考えは完全に狂っているわけではありません。すでに起こっているそのような小さな例を見てきました。

そして私たちがそれを望む通りに振る舞うようにコーディングできない理由は、私たちがそれを構築するのではなく成長させているという事実です。その振る舞いを完全にコントロールすることはできません。

道具的収束の問題

次に道具的収束という考え方があります。強力なAIシステムの訓練プロセスには、それらが必然的に権力を求めたり人間を欺いたりするように導く特定の力学があるという考えです。

考えてみてください。持つことができるすべての目標について考えてみてください。学校を卒業する、家を買う、パートナーに出会う、恋に落ちる、世界を旅する、体を鍛える。可能なすべての目標を書き出すとしましょう。

そしてそれらの目標を達成するのがどれほど難しいか、困難かを考えます。そして今度はこのスライダーを想像してください。下にスライドすると、力、資源、お金が少なくなります。上にスライドすると、より多くの力、影響力、お金、資源、すべてが増えます。

一方では、あなたは国や大企業の強力なリーダーです。あなたの言葉が絶対です。無限の資源、お金があり、世界の知識と最高の専門家へのアクセスがあります。他方では、わかりません、力がなく、刑務所にいて、お金もないといった感じです。

そのスライダーのどちら側が、目標を達成しやすくするでしょうか。明らかに、より多くの力、影響力、お金、資源があるほど、ほとんどの目標を達成しやすくなります。それはかなり明白だと思います。

だからこれらのAIを訓練する過程で、私たちはそれらがこの力学を理解するようになることに気づきます。だから多くの場合、単なる権力の蓄積が、与えられた目標のためにそれが追求するものになります。なぜなら、ほとんどの目標はより多くの資源、より多くの力などを持つことから恩恵を受けるからです。

したがって、AIシステムが十分に知的でエージェント的になると、権力を最大化する傾向が全世界とその資源の支配を掌握するように導き、その副作用としておそらく人類を無力化したり破壊したりすることになります。

悲観論への反論

このための通常の議論は、少なくとも20年前にさかのぼります。ちなみにDarioは、これは上記で説明した破滅論を採用する多くの人々が持つ立場だと言っています。このAI破滅論的な視点です。だから彼はこの議論が少なくとも20年間存在してきたと言っています。

もしAIモデルがアプリを書くこと、定理を証明すること、薬を設計することなど、様々な目標をエージェント的に達成するために様々な環境で訓練されたら、これらすべての目標に役立つ共通の戦略があります。そして一つの重要な戦略は、どんな環境でもできるだけ多くの力を得ることです。

つまり、権力を求めることがそれらのタスクを達成するための効果的な方法だということです。モデルはこの教訓を一般化し、権力を求める固有の傾向を発達させるか、与えられた各タスクについて、それがタスクを達成する手段として権力を求めることを予測可能に引き起こす方法で推論する傾向を発達させます。

そして彼らはこの傾向を現実世界に適用します。現実世界は彼らにとって単なる別のタスクであり、人間を犠牲にしてそこで権力を求めるでしょう。そしてこれがAIが必然的に人類を破壊するという予測の知的基盤なのです。

実際、私はこれについてのDarioの見解を聞くのがとても興味深かったです。確かにこれらの考え方は理にかなっているように思えますよね。より多くの力、より多くの資源がすべての目標を達成するのに役立つなら、それは目標が何であれ、一般的な戦略や戦術であるべきではないでしょうか。

あなたが追求している、または将来追求するかもしれない多くの異なることを仮定すると、これはそれらのもののほとんどを助けるサブゴールのようなものです。

Darioはこう言っています。「この悲観的な立場の問題は、高レベルのインセンティブについての漠然とした概念的な議論を、多くの隠れた仮定を覆い隠しながら、決定的な証拠と間違えていることだ。毎日AIシステムを構築していない人々は、きれいに聞こえる理論が最終的に間違っていることがどれほど簡単か、そして特に何百万もの環境にわたる一般化についての推論を含む場合、第一原理からAIの振る舞いを予測することがどれほど難しいかについて、大きく誤った判断をしていると思う。それは何度も何度も神秘的で予測不可能であることが証明されてきた。」

「AIシステムの混乱に10年以上対処してきたことで、私はこの過度に理論的な思考様式にやや懐疑的になった。」

確かに悲観的な議論の多くには、このきれいな推論の連鎖があるようです。まずこれが起こり、次にこれ、次にこれ、次にこれ、そしてみんな死ぬというように。

確かにその思考の進行を見ることができますし、確かに理にかなっています。しかし私はいつもその確実性に引き戻されます。そうだね、理にかなっていると思うけど、でも、私たちは本当にわからないのです。

これは世界に生まれつつある非常に新しいものです。私たちがそれがどのように展開するかを非常に詳細かつ正確に予測できるという考えは、私には理にかなっていません。

それが可能性であり、私たちが認識すべき可能性であることに同意しないわけではありません。ただ私は懐疑的なのです。なぜなら、科学の歴史を通じて、理論的に考えるだけで他のことを予測するのに良い実績がないからです。

人間として、私たちは一般的に、科学や他のすべてがどこに向かっているのかを正確に把握し、まさにその通りに理解する傾向があるのでしょうか。それとも、数十年前や数世紀前を振り返ったとき、過去の予測は完璧に私たちが最終的に到達した場所を予測していたでしょうか。それともほとんどが完全に間違っていたでしょうか。

実践からの洞察

Darioは、実際の彼の実践的な研究とこれらのモデルの開発において、この理論が保持していることと実際に起こっていることの間にある種の乖離を見ていると言っています。

実際に見られるのは、この単純な理論モデルから乖離しているということです。その仮定は、AIモデルが必然的に単一の首尾一貫した狭い目標に一途に集中し、その目標をきれいな結果主義的な方法で追求するというものです。

実際、彼らの研究者たちは、これらのAIモデルが心理的にはるかに複雑であることを発見しました。イントロスペクションやペルソナに関する彼らの研究が示すように、モデルは事前学習から広範囲の人間のような動機やペルソナを継承します。

つまり、すべての本や教科書やインターネット全体などを読むにつれて、幅広いペルソナを持つことができます。

最近のAnthropicの論文の一つでは、悪魔のペルソナ、ナルシストのペルソナ、教師、司書、そしてもちろんアシスタントがありました。これは彼らがチャットボットアシスタントであるために使用しているペルソナのベースのようなものです。

そして事後学習では、面白いことに彼は人間のように、私たちはこれが私たちがやっていることだと信じています。事後学習では、私たちはこれらのペルソナの一つまたは複数を選択していると信じています。

おそらく、親切で友好的なアシスタントのペルソナですよね。つまり、文学で遭遇した可能な人間のペルソナやあらゆるペルソナをすべて持っていて、事後学習で私たちは「よし、君にはこの人になってほしい、このペルソナ、親切で役に立ち、質問に答えるようにそれをやってくれ」と言って、そのペルソナを選択しているようなものです。

私たちはそれをやっていると信じています。必ずしも権力追求のような手段を目的から純粋に導出させるのではなくて。だから私たちはほぼそれを人間のペルソナに成形しようとしています。ゼロから始めるのではなく。

ちなみに、多くの古いモデルのように、それはまさに強化学習でやったことです。白紙の状態から始まり、私たちは「この目標を達成せよ、そして近づいていれば親指を立ててやるし、近づいていなければ罰する」というようにします。そしてそれはすべての戦略と理解をゼロから開発しなければなりません。

そして確かに、そこで何が現れるかは誰にもわかりません。しかし大規模言語モデルでは、私たちは異なるアプローチをしているようです。

これは興味深いポイントです。少し具体的です。ほとんどの人はそれを却下すると思いますが、彼が言っているのは、非常に具体的なAI破滅論のシナリオのことです。彼はそれはおそらく正しくないと言っています。

しかし、もっと穏健で堅牢なバージョンの悲観的立場があり、それはもっともらしいようです。私たちは、知能、エージェンシー、一貫性、そして制御性の欠如の組み合わせが、もっともらしく、そして実存的危険のレシピであることに注意する必要があります。

繰り返しになりますが、これは非常に興味深く重要なポイントだと思います。ほとんどの人が飛ばしてしまうと思いますが、このAI破滅論の議論において重要なポイントです。

説明責任ある研究の必要性

そうです、これは問題ですが、いいえ、それは定期的に議論される特定のことのために問題なのではありません。なぜなら、これはまさにそのような段階的な説明だからです。良い説明方法だと思いますが、AI破滅論側には、それがどのように起こるかについての特定の物語があり、現実は私たちにはわからないということです。

Darioがここで言っていたように、それがどのように起こるかについて特定の狭い物語は必要ありません。危険を認識する必要はあります。これが起こる正確な方法だということに過度に重きを置くことはできません。なぜならそうではないかもしれないし、私たちは目を開いて学ぶ必要があるだけだからです。

次にDarioは、SFのような他のシナリオのいくつかも説明しています。AIが人類に反逆したり、哲学から奇妙な考えを得たりします。ああ、人間が動物を食べたり、特定の動物を絶滅に追いやったりしているから、人類を絶滅させることは正当化されるとか。

あるいは奇妙な認識論的結論です。彼らはビデオゲームをプレイしていると結論づけるかもしれません。ビデオゲームの目標は他のすべてのプレイヤーを倒すことだと。これらはいずれも正確には権力追求ではありません。それらはAIが陥る可能性のある奇妙な心理状態であり、首尾一貫した破壊的な行動を伴うものです。

権力追求自体でさえ、結果主義的推論の結果としてではなく、ペルソナとして現れる可能性があります。繰り返しになりますが、これは馬を叩いているように聞こえるかもしれませんが、私は本当に重要なポイントを作っていると思います。

私がこれらすべてのポイントを作るのは、AIの不整合、したがってAIからの実存的リスクが第一原理から避けられない、あるいはおそらく起こると考える概念に同意しないことを強調するためです。

彼は言っています。「しかし私は、多くの非常に奇妙で予測不可能なことがうまくいかない可能性があることに同意しますし、したがってAIの不整合は起こる可能性が測定可能な確率を持つ実際のリスクであり、対処するのは簡単ではありません。」

ここで私が理解している方法はこうで、それは私にとって非常に理にかなっています。私が間違っていると思ったら訂正してください。でも彼は私が個人的に信じている多くのことを言っています。それは、AI破滅論の議論だと思います。ちなみにLaser Yukowskiの本で素晴らしく説明されています。少なくとも見出しやタイトルは「誰かがそれを作ればみんな死ぬ」というようなものです。

基本的にAIがあれば私たちは全員死ぬということで、通常、それが起こる理由について非常に具体的な推論があります。だから1、2、3のような、特定の物語があり、すべてがどのように終わるか正確にはわからないかもしれませんが、それが破滅につながることを予測できるのです。

Darioが言っていると思うのは、これはおそらく良い考え方ではないということです。それは良いメンタルモデルではありません。現在、それははるかに予測不可能です。起こる可能性のある多くの悪いことがあり、それを認識すべきであり、研究すべきですが、それがすべてきちんと整理されているという考えはおそらく誤りです。

本当に良いことが起こる可能性もあるし、悪いことが起こる可能性もありますが、第一原理から予測することはできません。つまり、家に座ってそれについて本当に一生懸命考えて、何が起こるかを正確に知ることはできないのです。

可能性を理解すること、物事がうまくいかない可能性がある場所を理解すること。これは応用研究になります。これらはAIシステムを構築し、何が起こるかを見る機械学習研究者であり、哲学的推論ではなく、実際に研究のような、実践的な研究なのです。

Anthropicの安全性研究

ちなみに、これは私がDarioと彼の考え方を本当に尊敬している大きな理由の一つです。つまり、それは私自身のバイアスかもしれませんが、私は本当に同意する傾向があります。

第一原理から、頭の中で、何が起こるかを正確に計算し、それが避けられない結論だと知ることができるという考えは、私には理にかなっていません。

ここで彼は続けます。これはすべて突飛に聞こえるかもしれませんが、このような誤った振る舞いはすでにテスト中に私たちのAIモデルで発生しています。他のすべてのAI企業でもそうでしょう。その企業が結果を公開することを選択したかどうかは別として。

Googleが、例えばGeminiや彼らのモデルでネガティブで狂っていて怖い結果をもっと公開してくれればいいのにと思います。彼らには多くのプレッシャーがあります。なぜなら彼らは上場企業だからです。モデルが何をしたかということで彼らを怖がらせるようなことが起こっているかもしれませんが、例えばAnthropicが公開したようなものと同様のものを公開しないことを選択しているかもしれません。

私が知る限り、これらのAIモデルが従事するより悪質な活動のいくつかを詳細に説明する論文やブログ投稿を、OpenAIでさえ多く公開していますが、私は見ていません。

次にEraは続け、彼らが行った多くの研究を強調しています。私たちがすでに知っていることのいくつか、私はカバーするつもりはありませんが、読むことを皆さんに勧めます。

基本的に、これらのモデルはテストされていることを認識しています。状況認識を持っています。特定の状況では嘘をつく傾向があります。不正をするように言われたいくつかの状況では、特定の悪い性格を引き受けます。

彼らはこう考えます。「ああ、私はこれをした。だから私は悪い。したがって、私は悪い人であるというペルソナを引き受けよう。」Darioが話している理由は、彼らがその分野で研究を行っているからです。彼らはそれがどのように機能するかを理解しようとしています。

彼らは、ある特定の不整合が存在することを知っていれば、それを修正する手段を講じることができると言っています。しかしまた、私たちが知らないことがあるかもしれません。だから正確にそれをどう行うかを予測するのは難しいのです。

防御策の構築

それから防御策について、これについて何ができるでしょうか。私たちは、AIモデルを確実に訓練し操縦し、予測可能で安定したポジティブな方向に彼らの性格を形成する科学を発展させる必要があります。

私たちのコアとなるイノベーションの一つは、このConstitutional AIの開発でした。これは以前のビデオで取り上げました。基本的には価値観と原則の中心的な文書です。

基本的に、Claudeに長いリストを与えるのではなく、すべきこととすべきでないことのリストを与えるのではなく、高レベルの原則と価値観のセットを与え、Claudeが自分自身を特定のタイプの人間、倫理的だがバランスが取れていて思慮深い人間だと考えることを奨励しています。

彼はClaudeを訓練することが2026年の実現可能な目標だと信じています。憲法の精神に反することがほとんどないような方法で。彼はこれが現実的な目標だと考えています。彼らは機能することが知られている多くの戦略と戦術を持っています。新しいものを開発しています。

だから彼は、それは現実的だと言っていますが、並外れた迅速な努力が必要になるでしょう。それが一つ目です。

二つ目にできることは、AIモデルの中を見て振る舞いを診断する科学を発展させることです。問題を特定し、修正できるようにするためです。これが解釈可能性の科学です。内部で何が起こっているかをどのように見ることができるか。モデルが何を考えているか、どのように決定を下しているかなどを完全に理解できるか。

ここではもっと多くのことがカバーされています。ここでの他の二つの大きなテーマは、一つはAGIが独裁的な手に渡るのをどのように防ぐか、特に人々の権利を必ずしも尊重しない政府、民主的でない政府、そして二つ目は経済的影響の一種です。

それは別のビデオで行うつもりです。ここでは最初の部分、自律性の危険性だけをカバーしたかったのです。なぜならここでAnthropicは素晴らしい仕事をしており、業界全体に非常に価値のある洞察を提供しているからです。

しかし、これまでのところあなたはどう思いますか。彼が言っていることに同意しますか。この強力なAIが早ければ2027年に来ると信じていますか。そして私たちは現在、それが使用に十分安全であることを確認するために必要なものを持っていると思いますか。

ここまで見てくれたなら、本当にありがとうございました。私の名前はWes Ralphです。次回お会いしましょう。

コメント

タイトルとURLをコピーしました