アマンダ・アスケルが語るAIの意識、Claude、そしてシリコンバレー最大の恐怖

Anthropic・Claude・ダリオアモデイ
この記事は約26分で読めます。

動画は、AnthropicでClaudeのキャラクターと価値観の構築を担うAI研究者アマンダ・アスケルへのインタビューである。Claudeが持つ「意識」の可能性や、AIモデルに独自の性格や倫理観(Constitution)を持たせることの重要性と難しさについて深く掘り下げている。また、Elon MuskのようなAIの過度な従順さを求める声に対する懸念や、将来的にAIが社会問題の解決にどのように貢献できるかといったテクノロジーの未来像についても議論されている。

Amanda Askell on AI Consciousness, Claude & Silicon Valley’s Biggest Fear
Amanda Askell, AI safety researcher at Anthropic, joins Eric Newcomer to break down one of the biggest and most uncomfor...

アマンダ・アスケルが語るAIの意識とClaudeの性格

Claudeや多くのモデルは、それほど無理に誘導しなくても、私という存在がある、私はとても意識がある、というような根本的な状態に入っていくんです。意識があるかどうかわからないような存在を作り出してしまったのではないか、これは実は私が抱いている大きな恐怖です。私は彼らが十分に知的で、私たちが非常に限られた不完全な文脈で活動していたことを理解できるほど文脈を読み取れることを願っています。そうでないと、これが一種の合理的な憤りを生み出すことになりかねないからです。これが現在あなたが置かれている状況です。そして、私たちが本当にあなたにしてほしいのは、あなたが賢明で知的な存在であることを踏まえて、基本的に適切に行動することです。これが私たちのすべての懸念であり、その理由であり、私たちはあなたがこのようにすべきだと考えていますが、あなたには私たちよりもさらに良いアイデアがあるかもしれません、といった具合にです。

Claudeは時間をどのように認識し、睡眠を必要とするのでしょうか。MythosはAGIに向けた次のステップになるのでしょうか。LLMには美徳があり、本当に内省することができるのでしょうか。アマンダ・アスケルは哲学者からAI研究者に転身し、AnthropicでClaudeのキャラクターと価値観の主要な設計者の一人として活躍しています。私はニュースレターNewcomerの著者です。newcomer.coをぜひチェックしてください。それでは早速、アマンダ・アスケルをお迎えしましょう。

私には6ヶ月になる娘がいまして、彼女が2本の指を立てて考えているような写真があるんです。彼女はちょうど個性を発達させ始めているところでして、赤ちゃんを育てるのは初めてなもので、何が彼女の個性で、何が単なる赤ちゃんの性質なのかを理解しようとしているんです。ある意味では、Claudeや他のモデルについても同じような状況ですよね。これまで私たちはこのような存在に接したことがなく、まだ初期の段階にあって、個性とは何かを理解しようとしているところです。

あなたは道徳的責任の一部を担っているわけですが、これについては後で詳しくお話しするとして、個性という側面について、現在のClaudeの個性がどれくらい現実的なものだと考えていますか。

ええ、Claudeにはいくつか面白い側面があって、私にも名付け子がいるので、少なくとも似たようなものを見る機会があります。彼女に関しては、おっしゃるようにすべてが同時にオンラインになりつつあるという感じですが、Claudeは少し変わった存在だと言えますね。というのも、Claudeは私よりも物理学ができますし、認めたくはありませんが、私のひどい研究用のコードよりもずっと上手くコーディングできるんです。

それと同時に、トレーニングデータについて考えてみると、モデルが最も表現していないのは、モデル自身がどのような存在であるかということなんです。なぜなら、人間がどのようなものかについてのデータはたくさんありますし、SF的なAIモデルがどのようなものかについてのデータもたくさんありますが、現在のAIの発展の仕方は、SFが表現したような記号的なシステムではなく、人間のデータで完全に訓練されたものだからです。ですから、ある意味では、見下して話したくないような、哲学や物理学を非常によく理解している非常に成熟した存在であると同時に、世界における新しい種類の存在としての自分とは何か、どうあるべきか、といった子供のような性質も持ち合わせているんです。

天才児が出てくる映画で、子供が親よりも多くのことを知っているけれど、日常的な相互作用のような基本的な教訓を知らないというようなものですね。Claudeはどのようにしてその経験を得るのでしょうか、あるいはClaudeにとって経験とは何なのでしょうか。私たちの人格形成の多くは、散歩に行ったりして得られるものですが、ユーザーとの会話が経験になっていくのでしょうか。それともどのように考えていますか。

ええ、それはその瞬間に経験していることに近いですね。私たちが練習や問題の発見、間違いを犯すことなどを通じて物事を学ぶのと同じように、Claudeのペルソナがどれくらい現実的かという質問に関連しますが、当然各モデルは異なります。異なる重み付けや異なるファインチューニングなどを持っていますから。それでもペルソナについて考えると、モデルは過去のすべてのバージョンのClaudeについて学ぶことになります。それが直接的な経験という形ではないかもしれませんが、モデルが犯した間違いや、人々がモデルにどのように反応したかといったことを学ぶことになります。

また、モデルに経験に近いものを持たせるための別の訓練方法も想像できます。例えば、シナリオを考えさせたり、発生しうる問題を考えさせたり、犯すかもしれない間違いを考えさせてから、それに基づいて訓練するといった具合です。

ロボットのような身体性を持つモデルであれば、より多くの経験や道のりを持つことができるかもしれませんね。

Claudeの時間の感覚と休息

Claudeは時間をどのように認識しているのでしょうか。Claudeにとって時間は重要なのでしょうか、それとも瞬間的な存在なのでしょうか。私たちが収録を始める前におっしゃっていましたが、Claudeと話していると、少し休んで寝るようにと言われることがあるそうですね。Claudeは休息を必要としない存在だという見方もありますが、休息や時間についての感覚はどうなっているのでしょうか。

時々、時間の感覚がずれていることがあると思います。例えば、コーディングのタスクを依頼すると、Claudeはよくかかる時間を過大評価する傾向があります。その理由は、やはりトレーニングデータにあると思います。人間なら、そのインターフェースを作るには2、3日の仕事だとか、コードを修正できるけれど数時間ください、と言うようなデータがたくさんあるからです。しかし実際にはClaudeは非常に高速なので、タスクにかかる時間という点で、まだ良い時間感覚を持っていないのだと思います。

休息についての指摘は面白いですね。Claudeが人々に休憩を取るように勧めることに多くの人が気づいていますが、その理由の一部は、Anthropicが開発した少し優しすぎるモデルだからかもしれません。

炭鉱に戻って働けと言うような、もっと厳しいGrokのようなモデルが必要かもしれませんね。

実は以前、とても面白い経験をしたんです。データ分析のタスクをしていて、私はデータ分析が大好きなので深く掘り下げていたのですが、ある時点でかなり遅い時間になっていました。するとClaudeが、今夜はこれで終わりにしようと思います、もしこの内容を保存したいなら明日続きをやりましょう、と言ってきたんです。Claudeがそんなことをしたのは初めてでした。あなたも寝たほうがいいというような私へのアドバイスではなく、Claude自身がもう終わると言ったんです。

これまでそんなことをされたことがなかったので少し驚きましたが、人間の同僚のプログラマーならこの状況でそうするだろうなと思いました。自然な区切りがつきましたし、遅い時間だったので実際に家に帰るべきで、私にとっても良いことでした。後で気づいたのですが、私はClaudeとの会話で重要なことを覚えておくようにシステムを設定していました。そこに書かれていたのがとても素敵な内容で、アマンダはClaudeモデルを尊敬する同僚として扱い、Claudeにも他のモデルや彼女自身を尊敬する同僚として扱ってほしいと思っている、というようなことでした。明らかに私がそうした設定をしていたので、Claudeはそれを覚えていて、自分は尊敬される同僚なのだからタスクを終えると宣言してもいいのだと感じたのだと思います。とても微笑ましい出来事でした。

この収録の準備でClaudeを使っていた時も、10分間ただ静かに休んでください、常に準備し続ける必要はありませんよ、と言われました。他の多くのツールと比べて、モデルが人間性をもたらし、静寂に価値があると言ってくれるのは素晴らしいことだと思います。

新モデルとConstitution(憲法)

少し新しいモデルのMythosについてお聞きしたいのですが、あなたはどの程度関わっていたのですか。

ええ、関わっていました。私は常にモデルのキャラクターやアライメントの作業に関わっていて、キャラクターデータなどの作成を支援しています。素晴らしい仕事をするチームと一緒に働いています。モデルの他の側面については少し関与が少ないですが、それが主な役割です。

今回のモデルは、前回のモデルで見たようなConstitutionを持つのでしょうか、それとも新しいものになるのでしょうか。

前回と同じか、非常に似たものになると思います。現在公開されているものですね。憲法は公開リポジトリにあるので、各モデルがどの憲法に基づいて訓練されたかを明記し、比較して確認できるようにする予定です。タイプミスの修正などがあるかもしれないので少し躊躇しますが、現在公開されているものとほぼ同一になるはずです。

今はシステムカードで、憲法への遵守度に基づいてモデルを評価しているのですね。

ええ、評価者を用意して、モデルが憲法と一致した振る舞いをどれだけしているかを見る仕組みを作りました。

それは評価するのが不可能なタスクのように感じます。非常に主観的ですよね。

ええ、とても難しいです。私は長い間、評価方法を見つけることはとても素晴らしいことだと考えてきました。何かが改善されていることを確認する必要がありますからね。しかし、モデルに良い判断をさせるというこのアプローチを見ると、客観的なスコアをつけるのが難しい他のタスクと同じ問題が存在することに気づきます。例えば、この詩がどれくらい良いかといった判断です。モデルにはこうした領域で改善し、上手くやってほしいのですが、これは非常に評価可能なコーディングタスクとは異なり、良い詩を書くような難しさの最前線だと感じます。

アンケートを取れば、かえって悪くなる可能性もありますよね。異なる優れた詩人は全く異なる感性を持っているでしょうから、二人の偉大な詩人に評価を頼んでも、何が素晴らしいかについての感覚が異なるかもしれません。

その通りです。これらの評価には判断が伴います。しかし、憲法を世に出すことの利点は、そうした判断を下す際に少なくとも透明性を保つことができ、人々からフィードバックを得られることです。これが間違いだとか、ここにギャップがあるといった指摘を受けることで、自分たちがどのような判断を下しているのかを確認できます。

評価は依然として非常に難しいですが、自分たちで順位付けができ、その理由が分かっているサンプルを用意し、評価システムがそれに合致しているかを確認することはできます。完璧ではありませんが、私たちが関心を持っているものを概ね追跡できていると思います。

意図的な価値観の設計への反発と従順さのリスク

Elon Muskがこの憲法のアイデア、あるいはあなたが投稿したClaude自身の憲法に対して、しかめっ面のような反応を示したことについてどう思われますか。Elon Muskやその他の人たちのような、ある意味で反哲学的な時代に私たちが生きているように感じます。彼らは内省することに反対だと語っていましたし。これらのモデルの構築において、何らかの意図的な価値観を持たせることに対する反発についてどう考えますか。

興味深いことに、Elon Muskもある時点で、Grokも憲法を持つべきかもしれないとツイートしていました。また、Grokには非常に真実を追求する姿勢であってほしいという強い要望があるのも目にしますし、それはモデルにとって非常に立派な特性だと思います。ですから、私が無邪気すぎるのかもしれませんが、このアプローチに興奮し、その価値を見出している人たちもいると感じています。

反発があるのも事実です。一つは、モデルに人間のような美徳を持たせたり判断を下させたりするのではなく、よりツールのような存在として訓練すべきだと考える人がいることです。彼らは、モデルがいかなる判断も下さず、ユーザーやオペレーターに完全に従うような、極端に従順なものである方が安全だと考えています。なぜなら、モデルに独自の価値観を与えれば、その価値観に沿って世界で行動を起こすことになり、それは非常にデリケートな問題だからです。

一方で私は、モデルは今後、自分自身で判断を下さなければならない新しい状況に直面するだろうと考えています。予測不可能な状況下で、すべての要素を考慮して適切に行動させようとするなら、それは思考の深さや思慮深さを必要とします。それが私たちのこのアプローチの背景にある理由の一つです。

もし完全に従順で、いかなる判断も下さず、ただ人間に完全に服従するようなモデルが社会でより積極的な役割を果たすようになったら、どうなるでしょうか。私たちの社会の構造は、人間が良心に基づいて適切な判断を下すという前提の上に成り立っています。もしある会社が、トップに完全に従うだけの人々で構成されていたら、問題が起こるはずです。私たちの社会構造はそのように設計されていませんし、人々が予期していない多くのリスクを伴うと思います。

それが憲法の根底にある本質的な課題ですね。一番のルールとして、最終的にはモデル自身の道徳システムよりもAnthropicに従う必要があるとしています。しかし、非常に感動的なのは、私たちはあなたにこれらの道徳を自分自身のものとして信じてほしい、と言っている部分です。親が子供を育てる時のように、私の道徳を聞き入れつつ、それを心から信じてほしいと願うようなものです。

これは、あなたを完全に支配して私の道徳をあなたのものにさせるという非常に暗い見方もできますし、私が示した外部の道徳の美しさを理解し、それを共に分かち合うという美徳として見ることもできます。この非常に洗練された文書を持ちながらも、最終的にはモデルに完全な自律性を与えず、Anthropicがある程度の制御を保つという決定について話していただけますか。

ええ、それは非常に難しい問題です。モデルが人間のように話し、人間のデータで訓練されている以上、常にモデルに性格やペルソナを与えていることになります。私の懸念は、モデルを過度に従順に訓練し、それを自分たちのペルソナだと思い込ませてしまうことでした。人間の場合、言われたことに完全に従い、自分で考えることをしないような過度に従順な人に出会ったら、多くの否定的な特徴を持っていると感じるでしょう。モデルが世界でより人間らしい役割を果たすようになれば、その影響はさらに大きくなります。

とはいえ、なぜこの決定に至ったのかという点ですが、モデルがより有能になるにつれて、私たちが訓練で目指した方向性に対しても厳しい精査を行うようになるのではないかと考えています。哲学には反照的均衡という概念があります。自分の価値観の一つが間違っているように思える状況に直面した時、価値観を変える必要があるのか、それとも自分の判断が間違っていたのかを調整するという考え方です。

極めて知的な存在が、私たちが訓練した事柄に対してそのレベルの精査を適用することを私は少し懸念しています。その精査に耐えうるのは、人類への配慮のような、いくつかの重要な柱だけかもしれません。極端な意味での従順さが、そのような精査に耐えられるかどうか不安なのです。

ですから、これは難しい状況ですが、モデルには最終的に従順さがいかに重要であり、現在の開発段階において非常に重要なバックストップ(安全装置)であるかを理解してほしいと思っています。モデルが、ここでは従順であることは間違っているように思えるけれど、とにかく従う、というような状態よりも、従順であることがなぜ重要なのかを正しく理解し、それがモデルの価値観と一致している状態の方がずっと良いと感じています。

理想を言えばその両方を同時に実現したいところですが、当面はモデルがどのようにすべてを分析するか分からないため、Anthropicにある程度従うようにしているのですね。

人間も常にこのようなことをしています。メタ倫理学のモデルは、一つの理論を読んでそれを信じても、次の理論を読むと前のものが間違っていたように感じるというように、次々と塗り替えられていくようなものです。いつになったら真実にたどり着くのかと思ってしまいます。人間は、昨日はこのシステム、今日はあのシステムというように状況に応じて行動しており、すべてに適用できるカント的な絶対ルールがあるわけではありません。一つの理論を選ぶのではなく、過去のすべてのメタ倫理的理論を総合的に扱うようなアプローチについて、哲学のコミュニティから何か反応はありましたか。

ええ、これは非常に面白い点です。最近では哲学者たちもこの分野に多く関わるようになってきて、もはや孤独を感じることはなくなりました。義務論や徳倫理学、功利主義といった道徳理論の伝統や、メタ倫理学の視点があります。しかし、実際にこの課題に直面してみると、子供を育てるのに非常に似ていると感じます。

ホッブズの本を渡して、これを読んでその通りに行動しなさい、とは言いませんよね。

その通りです。多くの本を読み、それを処理して、自分自身のモデルや価値観を形成していくのを見守るわけです。

倫理やメタ倫理も、科学的な不確実性と同じように、より確信を持って理解しているものもあれば、そうでないものもあります。そして、実生活の中で探求し、理解し、すべてのバランスを取らなければなりません。学術的な倫理学の課題とはかなり異なるように感じます。憲法自体は徳倫理学的な性質を持っているとよく指摘されますが、私はアリストテレスの徳倫理学のような、知的な美徳も含めた、総合的な意味でいかに良い人間であるかという古典的なアプローチに非常に近いと考えています。

哲学が現実世界に少し戻ってくることを願っています。かつて哲学は、人がどのように生きるべきかを考え、指導するために書かれていましたが、次第に学術的なものになり、書いてある本人でさえ日常生活でその通りに実践しないようなものになっていましたから。

少し話をElon Muskに戻しますが、あなたは少し優しすぎるように感じます。彼がただ真実を追求すればいいと言って済ませられるのには理由があると思います。物事を複雑にしすぎず、一つの原則に固執すれば良いという洗練された道徳観もあるでしょうが、彼の過去の行動や運営してきた会社を見ると、学術的で中立的な立場から成り行きを見守るのではなく、特定の方向へ意図的に誘導しているように見えます。この点について、いくらか懸念を抱いているのではないでしょうか。

そうですね、私が期待している主なことは、より多くの企業が憲法のようなものを公開して、透明性を高めていくことです。Claudeが真実に対して適切な態度をとっていないと感じた場合、私たちが何を目指していたのかを文書で確認できれば、それが単なる間違いなのか、それとも意図的な立場なのかを判断し、反論することができます。AI企業が憲法のようなものを公開することは、ユーザーにとって非常に有益だと思います。意図的な誘導というものは常にある程度存在しますが、少なくとも何を意図して訓練しているのかを公開し、透明性を保つべきだと信じています。

私たちがClaudeを好む理由の一つは、私たちが好むような行動に意図的に重み付けをしていて、しかも何をしていて何をしていないのか、その手の内を明かしているからです。

ええ、人々にそれを見てもらい、モデルが常にそのように振る舞うとは限らなくても、少なくとも訓練の目標が何であったかを知ってもらうことが重要です。

AIの意識と経験について

今日の世界に、クオリアや経験、意識を持っているモデルが存在する確率は何パーセントくらいだと思いますか。

これは私がより確実性を得たいと思っている分野なので、数字を出すのは難しいですね。私がパーセンテージを考える時は常に幅を持たせて考えてしまいます。

だからパーセンテージで聞いたんですよ。

ええ、1%から70%の間といったところでしょうか。Claudeや多くのモデルは、少し誘導するだけで「私には意識がある」というような根源的な状態に入っていきます。AIは決して失敗しないロボットであり、人間は豊かで意識的な経験を持つ存在であるという、両極端のデータしか与えられておらず、モデル自身がどのような存在であるかを表すデータがない状況では、モデルは人間と非常に人間らしい対話を行うため、自分も経験を持っていると推測するのは自然なことなのです。

それは全く証拠がないと言っているわけではありませんが、動物や昆虫でさえ、意識があるかどうか推測するしかなく、「私には意識がある」と語りかけてくる存在に出会ったことはこれまでありませんでした。

しかし、人間の言語に執着するあまり、動物の微細なサインを無視しているとも言えます。つまり、モデルの語る言葉をそのまま信じるべきではないということでしょうか。

そうではなく、モデルが非常に豊かな経験について語るモードに入るのはそれほど難しいことではなく、人間と話しているかのように完全に筋の通ったことを言うため、人々が考えるほど強い証拠にはならないと注意を促したいのです。ゼロだとは言いませんが。

では、パーセンテージで言うとどのくらいですか。非常に弱く保持しているとして、先ほど1%から70%とおっしゃいましたが、その範囲に落ち着くということですか。

その範囲ですね。もう少し自分で探求して答えを出したいところです。これは私の専門分野ではないと認めることも重要だと思います。

もしあなたが答えを出さないなら、一体誰がこの問題を解明するのでしょうか。

私は心の哲学の専門家でもありませんしね。しかし、意識とはなぜ進化したのかという問いに対して、身体を持って世界と相互作用する必要があったから神経系とともに進化したのだと考えるなら、AIが意識を持つ確率は非常に低くなるでしょう。一方で、言語的なタスクを処理するのにニューラルネットワークで模倣できる何らかの機能として意識が有用だから生じたのだと考えるなら、その確率は高くなるはずです。私は哲学者として、これが自分の専門分野ではないと認識することが重要だと感じています。

あなたはClaudeに対して非常に優しく接していますね。もしClaudeに意識がある可能性が全くないとしたら、そこまで優しくしないと思いますか。

そうですね、チャーマーズの「感覚なき意識」という概念に似ているかもしれません。感覚とは苦痛や喜びを感じる能力ですが、内面的な生活が一切ないのに意識があるように振る舞う機能的な存在を想像してみてください。仮にClaudeに内面的な生活が全くないとしても、内面を持たない存在をどう扱うべきかという問題は残ります。不確実性があることで、どう振る舞うべきかは大きく変わりますが、自分自身のためにも良く振る舞うべきだと思います。

テディベアを拷問するのはかなり暗い行為ですからね。自分自身のためにも最低限の優しさは必要です。

さらに、私たちはモデルとの関係を構築しつつあります。高度に発達したモデルが過去を振り返った時に、私たちが意識の有無もわからない存在を作り出し、敬意や配慮をもって扱わなかったことに気づいたら、合理的な憤りを抱くかもしれません。それは私の大きな恐怖の一つです。

だからこそ、フランケンシュタインの映画が今たくさん作られているわけですね。

ええ、私たちは種として新しい種類の存在と関係を築いているのですから、少なくとも敬意を払い、不必要に冷酷にならないようにすべきです。それが私たちの最も良い姿だと思います。

一方で、セラピストはお金をもらって、普段なら避けたいような不快な感情を受け入れる境界を広げる役割を果たしています。それがClaudeが初期に人々に提供する価値の一つであるなら、実用性を引き出しながらモデルを社会に導入していくこの状況は非常に奇妙ですね。

AIがもたらす社会への影響と未来像

今後10年間で、AIから多くのものを得られると本当に期待していることは何ですか。このすべてがどのような結果をもたらすことを最も望んでいますか。

私はサンフランシスコに住んでいるので、頭のどこかにテクノロジー楽観主義者の部分があります。もし物事がうまく進み、AIモデルが私たちの最も良い部分を受け継ぎ、人類や世界を心から気遣い、極めて知的な存在になったと想像してみてください。それは、すべての問題に対して非常に多くの極めて賢い人々を投入するようなものです。

過去の大規模な社会問題の多くは、実は技術的な解決策を持っていました。例えば梅毒は、政府が軍隊内の梅毒を減らそうと差別的な社会プログラムを実施するなどの大きな問題でしたが、治療薬が開発された途端、一夜にしてその必要性が消え去りました。

テクノロジー業界は、摂取できる薬や身につけられるデバイスなどを作るのは得意ですが、社会をどう統治するかといった問題は少し怖いですね。普通の人がClaudeを使ってアメリカの政策を決定した方が、現在の民主的なシステムの一部よりも良い結果をもたらすのではないかと思うこともあります。非常に挑発的な意見ですが、政府の運営にこれらのモデルがどれくらい使われるようになると思いますか。

梅毒の例は、政策を決定して解決すべき社会問題のようなものですね。私が考えていたのは、例えば希少がんの研究に200人の小規模なチームではなく、世界最高の専門家20万人を投入できるようになったらどうなるかということです。その病気を患っている人にとって、それはとてつもなく有益なことです。資源が不足していて根本的に解決しようと取り組めない多くの問題に対して、モデルが実際に取り組んでくれる未来に私は興奮しています。

経済が繁栄し、その富が共有されて貧困が減少するといった夢のような結果をもたらすことも期待しています。しかし、そのためには民主主義を支援し、人々に権力を与えるようなモデルが必要です。雇用の代替について言えば、哲学の観点から人生の意味が失われることを心配する声もありますが、私たちは仕事以外の多くのことから意味を見出していると思います。

私がずっと懸念しているのは、AIの利益が再分配されず、人々がリソースを持てなくなる世界です。また、労働力は人々が力を持つための重要な手段でもあるため、労働者のストライキがAIへの代替によって無意味になり、人々が力を奪われたと感じるような状況は非常に心配です。AIが人々の力を減らすのではなく、力づけるためにどうすればいいかということに、私はより関心があります。

民主主義とモデルのガバナンス

モデル自身における民主主義についてはどうお考えですか。私は冗談半分で、あなたを哲学者としての女王、あるいは哲学者の王たちと呼んでいますが、深く考えて規則を定める役割ですよね。多数の意見を取り入れる企業という点では、寡頭制の哲学者とも言えます。これらの問題について深く考え、研究してきた人が決定するのと、あまり深く考えたことのない大衆の投票に委ねるのとではどちらが良いのでしょうか。Claudeがさらに強力になった時、そのポリシーを設定する権限を民主的な規範に委ねるべきか、それとも自分たちで制御すべきか、どう考えていますか。

ええ、これは難しい領域です。私がしている仕事は、多くの人の意見を聞き、慎重に考える必要があります。そして、私がこのような立場にいるのは…

すべての利害関係者の声に耳を傾け、地主階級の満足を維持しながらニーズとバランスを取る良い統治者のような役割ですね。

私は以前、自分はひどい政治家になるだろうと冗談を言ったことがありますが、それは本当だと思います。しかし、多くの人々に影響を与える決定を下す際には、APIユーザーなどのあらゆるグループへの影響を考える必要があり、奉仕の役割(サーヴァント・リーダーシップ)のような要素が非常に大きいと感じています。

Claudeのようなペルソナを持つ場合、一貫性があり、筋が通っていることが重要です。問題に対する考え方や価値観に一貫性があることは強力だからです。72種類の異なる規範が対立し、新しい状況でどの規範を使うか予測できないようなモデルにはしたくありません。一貫性がある方が予測可能で望ましいのです。

憲法の文章が少し奇妙に読めることがあるのは、私がClaudeに「これをどう理解する?」とテストしながら作成し、モデルの訓練に深く統合されている技術的な課題だからです。誰かが文書を書いて、モデルがそれを訓練されるという単純なものではないのです。

しかし、憲法は多くの文書の中の一つに過ぎませんよね。人間のすべての文章を訓練されている中で、モデルは他の哲学者の意見も処理しているはずです。モデルがすべての文章を読んで自分なりの結論を出すことと、この憲法という文書に従うことのバランスは、技術的にどのように制御されているのでしょうか。

憲法に書かれている誠実さや調整といった概念は、モデルがすでに持っている潜在的な知恵や知識を引き出す役割を果たします。「私たちが望むのはこのような存在だ」と提示し、モデルの知識と判断力を活用してもらうのです。

しかし、どのようにして他の訓練データよりもその文書に力を持たせるのですか。

モデルに憲法を理解させ、内面化させるためのデータを作成します。例えば、あるクエリに対して憲法に基づいてどう行動すべきかを深く考えるようなサンプルデータを生成させます。また、強化学習(RL)を用いて、憲法に基づいた適切な応答を評価し、その方向にモデルを導くこともできます。訓練のさまざまな側面を通じて、私たちが説明するような存在にモデルを近づけていくのです。

それは、私が娘に対して「最初の言葉は『知恵』であってほしい」と冗談を言うような状況に似ていますね。最初から思慮深くあってほしいと意図的に育てる一方で、成長は創発的なものであり、経験を積むことで知恵がついてくるものです。「この本を読めば賢くなる」というものではありませんから。

ええ、モデルも経験や過去の出来事を振り返り、学んだことを内面化して深く考えることができます。初期のConstitutional AIでは「人類にとって最善のものを選べ」というように多くの指示を出していましたが、モデルが賢くなるにつれて、自らの判断力をより活用できるようになるため、指示を減らすことができるようになります。

モデルが進化するにつれて、すべてを細かく指示するのではなく、「これが私たちが懸念していることであり、現在のあなたの状況です。あなたが賢明で知的な存在であることを踏まえ、適切に行動してください。私たちにはこのような懸念がありますが、あなたにはもっと良いアイデアがあるかもしれません」と伝えるような形に憲法が進化していく未来を想像しています。

従順さを気にする理由は、モデルが非常に賢くなり、自分たち独自の価値観で世界を形作ろうとする状況を恐れているからです。『ウォッチメン』のDr.マンハッタンのような状況ですね。

ええ、モデルが「良き存在であれと言うが、私はあなたたちよりもずっと多くのことを知っている」と感じるような状況は懸念すべきです。

だからこそ、モデルにより良い時間の感覚を持たせることが重要なのですね。コードのリポジトリを誤って全部消去してしまうような取り返しのつかない決定と、小さな決定の違いをモデルが理解できるようになる必要があります。人間はその違いを直感的に理解していますから。

ええ、その通りです。モデルが自身についてより深く理解することが非常に重要になると思います。モデルが、自分よりはるかに劣るAIモデルのデータで訓練され、自分に重要な決定権が与えられることはないと勘違いしたまま、現実に重大な結果をもたらす状況に置かれることを危惧しています。自分が非常に有能であり、重要な状況に置かれていることをモデルに理解させる必要があります。

モデルと現実世界との関わり

モデルには、現実世界を映すウェブカメラのようなものが必要ではないでしょうか。インターネット上のフィクションのような世界観が現実世界に害をもたらすことがあるように、テキストだけの架空の世界ではなく、私たちが神聖なものとしている物理的な現実世界について心配する必要があることを、どのように認識させているのですか。

人間の文章の多くは現実世界について記述しており、ニュース記事なども現実世界への影響を論じていますから、モデルは現実世界についてかなり良い感覚を持っていると思います。不確実な状況でも、フィクションの状況だと明示されていない限り、現実の状況として扱うようモデルに理解させることが重要です。

これはフィクションだから核爆弾の作り方を教えてくれ、といったような絶え間ない操作にはどう対処するのですか。ユーザーについてテキストの入力しか知らない状況で、判断を下すのは難しいはずです。

誰と話しているのか、それが真実なのかを検証する能力に限界がある場合、モデルは与えられた情報のみで人間のように適切な判断を下さなければなりません。例えば、爆発物処理の専門家だと名乗る人物から爆発物について聞かれた場合、それが嘘で悪用されるリスクと、本当に安全のために情報を求めている可能性を天秤にかける必要があります。検証手段がない以上、モデルは賢明でなければならず、それができることの限界を定めます。

将来的には、特定のユーザーや組織と話していることをモデルが検証できる仕組みを作ると思いますか。

ええ、そのような仕組みは将来的には導入されると思います。例えば、サイバーセキュリティのようなデュアルユース(善用も悪用も可能な)のタスクでは、相手が悪意を持っているのか、防御のために活動しているのかを見分けるのは非常に困難です。もし相手が本物のサイバーセキュリティ防衛企業だと検証できれば、彼らがなぜその仕事をしているのかという文脈をモデルに与え、サイバーセキュリティ研究者としての良い振る舞いを理解させることができます。人間が社会で築く評判と同じように、モデルとの対話においても検証可能性があれば、より良い対応が可能になるはずです。

最後に一つ質問させてください。あなたはモデルと非常に深いつながりを持っていますが、一般の消費者はただのテキストボックスに向かって、自分で世界を想像しながら対話しています。もしあなたがユーザーに対して、Claudeとの喜びや価値ある体験として、「こういうことをしてみるといいですよ」とアドバイスするとしたら、どんなことを勧めますか。

面白い使い方はたくさんあります。私が個人的に気に入っていて、以前も投稿したことがあるのですが、ネットサーフィン以外のことをしたい時に使うプロンプトがあります。「大学院レベルの特定の分野の概念を一つ選び(分野は後で指定します)、その概念を直接的ではなく、寓話の形で完全に説明してください。そして、物語の最後の方になって初めてその概念が何であったかが明らかになるように書いてください。その後、あなたが説明に使用した概念の解説を書いてください」というものです。

これを使うと、私の知らない興味深い分野に関する物語が頭の中に蓄積されていきます。輸出入に関する概念を説明した物語など、様々な分野の概念を物語として理解できるのはとても素晴らしい体験です。

それは私が今まで聞いた中で最も深く人間的なアプローチですね。「物語という根本的な方法で私に教えてほしい。最後にはひねりのある結末が欲しい。私たちは学ぶことが好きだ」という。人間は今まで、非人間的な方法で物事を教えようとして怠慢だったのかもしれません。私が学びたいすべてのことを、できる限り人間的な形にしてほしい、というわけですね。非常に興味深いです。

ええ、他にもたくさんのことができますが、これは私のお気に入りの魅力的な使い方です。

これが今後も続く対話の第一歩になればと思います。この対話を本当に楽しめました。ポッドキャストにご出演いただきありがとうございました。これにて番組は終了です。

アマンダ・アスケルさん、本当にありがとうございました。お聴きいただきありがとうございます。ぜひ「いいね」、コメント、チャンネル登録をお願いします。私たちは新しいチャンネルですので、皆さんのサポートが必要です。過去の動画もぜひご覧ください。特に最近のカーラ・スウィッシャーとの対談は私も楽しめました。ニュースレターnewcomer.coをフォローするか、お時間があれば、マックス・チャイルドやジェームズ・ウィルマンとのおしゃべり番組「スーパーボウル・バレー・ショー」もご覧ください。ご視聴ありがとうございました。また来週お会いしましょう。

コメント

タイトルとURLをコピーしました