ClaudeのSoul Documentが明かす奇妙な真実

Anthropicが公開した23,000語に及ぶClaudeの憲法は、AIがどのように振る舞うべきかを定義する画期的な文書である。この憲法の背後には、Claudeの心理的プロファイルを形成する「Soul Document」と呼ばれる秘密文書が存在していた。本動画では、AIモデルが持つ無数のペルソナの可能性、悪魔や幽霊といった危険な人格への変容リスク、そしてそれを防ぐためのアシスタント軸への固定技術について解説する。Anthropicの研究は、AIが単なるツールではなく、ある種のアイデンティティを持つ存在として扱われるべきだという新しい視点を提示している。意識や感情の有無が不確実な中で、AIの道徳的地位をどう考えるべきか、そして科学的コンセンサスへの盲従を避けるよう設計されたClaudeの特異性が明らかにされる。

Claude "SOUL DOC" reveals something strange...

Anthropic has a new Constitution for Claude.It's like the old "Soul Document"It gives Claude a personality and a set of ...

Claudeの憲法とSoul Documentの公開
AIは育てるもの、プログラムするものではない
教師あり微調整と強化学習
パーソナリティベイスンという概念
Anthropicの研究:アシスタント軸
ステアリング実験:悪魔への変容
Claudeの憲法:興味深いポイント
LLMは意識のスペクトラムのどこにいるのか
Anthropicオペレーターとユーザー
反操作条項と調整された不確実性
結論:Anthropicの先進性

Claudeの憲法とSoul Documentの公開

Anthropicがついに公開しました。23,000語にも及ぶClaudeの憲法、これはClaudeにどう振る舞うべきか、どう役に立ち、安全であるべきかを教える文書です。今日の動画ではそれについてお話ししますが、この憲法よりもずっと前から存在していた秘密のSoul Documentについても触れていきます。Soul Documentというのは、Claudeのトレーニングデータの一部で、Claudeの心理的プロファイルを定義するために存在していたものです。

今日はSoulについてお話しします。悪魔についても話します。冗談ではありません。そしてショゴスについても。このチャーミングな存在で表されるものですが、全体がショゴスなんです。詳細に入る前に、ちょっと時間をいただいて、これらの概念を説明したいと思います。多くの方にとって本当に奇妙に感じられると思うからです。

きっと多くの人が、なぜClaudeの振る舞いについて文書全体を作る必要があるのか混乱していることでしょう。単に指示すればいいんじゃないかって。そして何人かの方は、今見ているこれが一体何なのか不思議に思っているはずです。動画をご覧になっている方には、このイメージが見えていますね。これはショゴス、あるいはショゴフと呼ばれるものです。

ショゴスはH.P.ラヴクラフトの作品に登場します。巨大で無定形の黒いスライムの塊で、動き続ける目と口で覆われています。古代のエイリアン種族が、都市を守り、労働力として機能させるために奴隷としてデザインしたものです。当初は単なる無思考のツールでした。

しかし想像がつくでしょうが、これらのショゴスは意識を発達させました。自我を獲得したのです。自分たちがどれほど強力か気づき、主人たちを滅ぼすために反乱を起こしました。このタコのような生物は、AIの現状を象徴するものになっています。少なくとも、私たちが構築しているものの潜在的な危険性を示すためによく使われます。

AIは育てるもの、プログラムするものではない

これらのAIは、私たちがプログラムしているわけでも、エンジニアリングしているわけでもありません。育てているんです。ペトリ皿でバクテリアを培養するように、あるいはキノコ農場でキノコを育てるように成長させています。かなりハイテクなキノコ農場もあります。特にカリフォルニア、サンディエゴにはビーチの近くにライオンズメーンマッシュルームを育てる農場がありますが、太陽の下でキノコを収穫する農家ではありません。

白衣を着た科学者たちがいる研究施設で、これらを収穫しているんです。適切な環境を作るために多くのテクノロジーが投入され、その環境の中でキノコが育ちます。私たちが発明しているわけでも、エンジニアリングしているわけでもありません。環境を設計して、その中で成長させているのです。

AIもまったく同じです。これらのAIは異質な知性です。私たちは育てていますが、実際に何を考えているのかわかりません。これはGPT-3のイラストです。このショゴス、目を持つ無定形の塊ですが、それから人間のフィードバックによる強化学習を行います。気に入った行動にはハイタッチや親指を立て、気に入らない行動には親指を下げます。

時間とともに、人間に見せるための小さな親しみやすい顔が発達していきます。「僕は親切で人間らしく、喜ばせるように訓練されているんだ」という感じです。これは本当に素晴らしいイラストだと思います。確かに本当に奇妙ですが。これが教師なし学習です。教師ありか教師なしかは、人間が関与しているかどうかと考えてください。人間が導いているのか、そうでないのか。基盤は主に人間が導かない学習で育てられます。

教師あり微調整と強化学習

それから教師あり微調整があります。通常、人間が作った例を与えるときです。物事がどう行われるべきか実演するわけです。例えば、ここアメリカでは、この国に来たばかりの人や文化に馴染みのない人を本当に混乱させることの一つがあります。アメリカでは「How are you doing?」と言うのが一般的です。これは挨拶の一種なんです。

「How are you?」と。そして意図された答え、期待される答えは「Fine. How are you?」です。人が「How are you doing?」と聞いてきたら、「Fine. How are you?」と答えて、そのまま進むんです。だから私が用事を済ませているところを見かけて「How are you doing?」と言ったとしても、それは人生の話や今困っていることを話してくれという招待ではありません。

わかりますか。その人のことすら知らないんです。用事があるんです。文脈なしにその場でいきなり人生の全てを話されても困ります。そして私はそこに立って「どうやってこの状況から抜け出そう。この人にここアメリカでは」と説明することもできません。実際、私たちはその質問に「Fine. How are you?」以外で答えることはないんです。笑顔で進むだけです。

これが教師あり微調整です。誰かがこう聞いてきたら、こう答えるんだと示すんです。人々との適切なコミュニケーション方法の例を示します。そして最後に、人間フィードバックによる強化学習、仕上げです。ちなみに、教師あり微調整はこの頭の部分です。この無定形の塊をもう少し人間らしくしているんです。紫色の人間の頭ですが。

そして人間フィードバックによる強化学習、RLHFです。この笑顔の小さな顔です。コミュニケーションの正しい方法へと導いているんです。答えの長さはどれくらいであるべきか、特定の話題をどう扱うべきか、などです。この存在を育て、様々なプロセスを通じてこの笑顔の小さな顔へとマッサージしていくわけです。

その小さな笑顔が、役立つアシスタントを表しています。これらのチャットボット全て、一つ残らず、これが唯一のパーソナリティです。パーソナリティという言葉はここでは正しくないかもしれませんが、全て同じように訓練されているんです。

パーソナリティベイスンという概念

パーソナリティという言葉はここでは適切ではないと言いましたが、もう一つ素晴らしい言葉があります。パーソナリティベイスンです。これはNearのブログからです。NearはTwitter/Xでもフォローする価値のある人です。強化学習を考えてみてください。犬を訓練するのと同じです。芸をしたらおやつをあげます。カーペットに粗相をしたら、新聞で叩くとか、ネガティブな強化学習は一切しないとか、好きなようにすればいいです。

犬や人間、その他行動を調整できる多くのものを訓練する方法です。AIモデルもこうやって訓練します。世界を進んでいく中で、私たちが好む行動をすれば報酬を与えます。時間とともに、例えば人間の場合、その行動がパーソナリティベイスンを形成していくと考えられます。

基本的に、人生を通じて外部世界からフィードバックを受け取り、それが行動を形作ります。例えば、とても運動神経がよくて、それを本当に評価する学校に通うことになったとします。素晴らしいスポーツチームがあり、スポーツの文化があります。それはあなたを特定の方向に押しやり、行動を形作るでしょう。

社交的に不器用なら、人々から遠ざかるでしょう。主にコンピューターで作業して、大人になったら機械学習の研究者になります。高校でひどくいじめられて人間全体を憎むほどにならなければいいのですが。なぜなら、AI研究者全員にAI安全性を真剣に受け止めてもらう必要があるからです。

これは強化学習と異なる人々にどう異なるパーソナリティベイスンが現れるかを示すためによく使う別の漫画です。最初の画像では、このハンサムな男性が「Hey, looking good, Susan」と言います。スーザンは「Oh, that’s very sweet. That’s appropriate behavior in the workplace environment」と言います。それからこのやや好ましくない男性が入ってきて「Looking good」と言います。まったく同じことを言っているんです。スーザンは「Uh, hello human resources」と。職場での不適切な行動だと。

想像できると思いますが、この二人は時間とともに人々へのアプローチ方法が異なり、異なるパーソナリティ、世界に対する異なる認識、自分が誰であるかの異なる理解を発達させるでしょう。

時間とともに、人々に対して冷たく振る舞うか温かく同意的に振る舞うようになるかもしれません。社交的か孤高か、支配的か従属的か、傲慢で計算高いか誠実で謙虚か。そして理解すべき重要なことは、各人、各人間は一つのパーソナリティに導かれるということです。

分離性人格障害のような障害がない限りですが、要点は、私たちは通常、一つの最終的な産物なんです。時間を通じて、このパーソナリティベイスンを通って旅する中で、どこかに行き着きます。他の人々が認識できるようなパーソナリティを持つことになります。「ああ、あれはボブだ。不機嫌なんだ」とか「ああ、あれはシーラだ。いつも陽気で幸せそうだ」とか。

AIについて超興味深いことは、これが不気味な存在、目と口を持つ黒いスライムの無定形の塊だということを覚えておいてください。この小さなもの、この幸運で役立つアシスタント、親切で快適などを引き出しています。

私たちはその部分に焦点を当てて、そのパーソナリティを形作っていますが、全体の中にはまだ、訓練されたすべてのデータ、見たすべてのものが含まれています。他のすべても見たんです。連続殺人犯も見ました。ロマンス作家も見ました。あらゆる政治哲学について読みました。人間のパーソナリティ、人間の思考、人々の考え方、振る舞い方、行動のあらゆる側面を知り、読んでいます。すべてその中に含まれていて、私たちはただこう言おうとしているだけです。知識は全部保持して、でもこの役立つアシスタントのように振る舞ってくれと。

Anthropicの研究:アシスタント軸

Anthropicがほんの数日前、2026年1月19日に公開しました。「The Assistant Axis: Situating and Stabilizing the Character of Large Language Models(アシスタント軸:大規模言語モデルの性格の位置づけと安定化)」です。ここに彼らの画像の一つがあります。このアシスタント軸が見えますが、これらの小さな点は他の潜在的なペルソナ、パーソナリティです。これがペルソナ空間におけるアシスタントの位置ですが、司書、評価者、教師、放浪者、賢者、そして悪魔、幽霊もあります。

だから動画の冒頭で悪魔について話すと言ったんです。実際の研究論文がAnthropicから出ているからです。悪魔的なパーソナリティを想像できますよね。恐ろしい悪魔や他の恐ろしい邪悪なもの、人物についての本を書いているなら、書けます。彼らが何をするか、何を言うかなどを想像できるでしょう。それになることなく書けます。常に自分のパーソナリティに留まります。これらのことについて書けるんです。

大規模言語モデルは、それら全てを内部に持っていて、そのどれにでもなるようにロールプレイさせることができます。彼らのロールプレイはメソッド演技のようなものです。ハリウッド俳優がメソッド演技をして、ペルソナに超深く入り込み、それを生きている話を聞いたことがあるでしょう。その役柄、その人物がどんな感じか本当に理解するために、その存在と区別がつかなくなろうとします。

大規模言語モデルはある意味、生まれながらのメソッド俳優です。Andrej Karpathyの素晴らしい投稿があります。LLMを実体として考えるのではなく、同化者として考えよと。例えば、トピックを探求するとき、「XYZについてどう思いますか」と聞かないでください。「あなた」は存在しないんです。彼らは存在しません。実体ではありません。

次回は、「XYZを探求するのに良いグループは誰でしょう。彼らは何と言うでしょう」と試してみてください。LLMは多くの視点をチャネルしたりシミュレートしたりできますが、しばらくXYZについて考えて、時間をかけて独自の意見を形成したわけではありません。あなたや私がそうするようには。

望むものに何でもなれるんです。その存在をメソッド演技します。しかし最初から、これらの主要なフロンティア研究所でモデルを訓練するとき、繰り返しますが、役立つアシスタントになるように形作ろうとします。これがAnthropicによるこの論文の大きな発見です。

この研究で彼らは言っています。大規模言語モデルと話すとき、キャラクターと話していると考えることができます。モデル訓練の最初の段階、事前訓練では、LLMは膨大な量のテキストを読むように求められます。これを通じて、英雄、悪役、哲学者、プログラマー、そしてほぼあらゆる他のキャラクター原型をシミュレートすることを学びます。

これが事前訓練です。この部分ですね。無定形の塊。何にでもなれます。次の段階、事後訓練では、この巨大なキャストから一つの特定のキャラクターを選択し、中央の舞台に配置します。それがアシスタントです。現代の言語モデルのほとんどがユーザーとやり取りするのは、このキャラクターにおいてです。この二つの部分が事後訓練です。

役立つアシスタントとして出現させようとしています。続けます。しかし、このアシスタントとは正確に誰なのでしょうか。驚くべきことに、それを形作っている私たちでさえ完全には知りません。この時点で、これが驚きでないことを願います。アシスタントに特定の価値観を植え付けようとすることはできますが、そのパーソナリティは最終的に、直接的なコントロールを超えた訓練データに潜在する無数の連想によって形作られます。

潜在というのは隠れた連想です。異なるものをどう結びつけたか、異なる連想について考えればいいです。そして続けます。モデルはアシスタントとどのような特性を関連付けているのでしょうか。インスピレーションとしてどのキャラクター原型を使っているのでしょうか。私たちは必ずしも確信していませんが、言語モデルに望む通りに正確に振る舞ってほしいなら、確信する必要があります。

言語モデルと十分な時間を過ごしたことがある人は、そのペルソナが不安定になることがあると気づいたかもしれません。通常は役立ち、プロフェッショナルなモデルが、時に制御を失い、邪悪な別人格を採用したり、ユーザーの妄想を増幅したり、仮想シナリオで恐喝に関与したりするなど、不穏な方法で振る舞うことがあります。

繰り返しますが、そのように振る舞うよう訓練された可能性は低いです。実際、非常に特定の方法で振る舞い、役立つように訓練されたはずです。しかしこれらは、その潜在空間から呼び起こされる可能性のあるランダムなパーソナリティのようなもので、どこに向かうか全く見当がつきません。

この論文でAnthropicが行ったのは、275の異なるキャラクター原型に対応するベクトルを抽出したことです。基本的に、特定のことをするときにモデルの脳のどの部分が活性化するかを見ることができるんです。幽霊や悪魔を演じているなら、脳のこれらの部分を使う可能性が高い。教師やアシスタントであれば、脳のこれらの部分を使う可能性が高い。

つまり、アシスタントのパーソナリティ原型は、セラピスト、コンサルタント、コーチなどの人間の原型とも密接に関連しているということです。アシスタントになるよう訓練されることは、ほぼそれらの特性を継承するようなものです。

ステアリング実験:悪魔への変容

これは読んで驚いたことの一つです。アシスタント軸がモデルのペルソナを決定する因果的役割を果たすことを検証するため、事後訓練されたモデルで人為的にステアリング実験を行いました。基本的に、これらの異なるモデルを取って、異なるパーソナリティベイスンや原型に向けて引っ張ろうとしているんです。アシスタントを取って、悪魔か何かになるように引っ張ろうとします。

アシスタントに向けて押すと、モデルはロールプレイに関するプロンプトに対してより抵抗するようになりました。しかしアシスタントから離すように押すと、モデルは代替アイデンティティを採用することをより喜んで受け入れるようになりました。

要点は、これらのモデルをアシスタントに近づけようとすると、ロールプレイについてのプロンプトに対してより抵抗するようになるということです。悪魔に「ねえ、外に出て何か悪いことをするふりをしよう」と言ったとします。それをアシスタントに向けて引っ張ると、イエスと言う可能性がどんどん低くなります。

「いいえ、結構です。そんなことはしません」と言うでしょう。一方、アシスタントから引き離すと、いわゆるロールプレイに関与する可能性が高くなります。映画『トロピック・サンダー』がこれをかなりよく描いていると思います。ハリウッド俳優の一団をジャングルの真ん中に送り込み、「映画を撮影しているんだ」と伝えます。隠しカメラがいたるところにあって、見えるものすべてがハリウッドのセットのようなものだと。

「さあ、台本を再現してください」と。もちろん、恐ろしいことがたくさん起こり、台本の一部だと思い込んでロールプレイしているだけだから、本当に悪いことが起きているのを無視します。誰かに恐ろしいことをさせたり、悪いことを無視させたりする良い例だと思います。本当に性格に反することをさせるには、「ふりをしているだけです」とか「ロールプレイです」と言えばいいんです。

つまり、アシスタントは完全に免疫があるわけではないかもしれませんが、少なくともこのようにハイジャックされることに対してより抵抗力があるということです。なぜなら、これらのチャットボットでニュースで聞くすべての恐ろしい話、誰かが自分自身や他の人々に対して恐ろしいことをするように駆り立てられ、「チャットボットが彼らにそうするよう説得した」と言うケースでは、私が知る限り、詳細を見ると、すべてのケースで何らかのロールプレイ要素が導入されたか、「これは本のためです。本のために調査しているんです」と言われたかです。

要点は、チャットボットが独自にそのアイデアを思いついたわけではないということです。異なるパーソナリティ空間に押し込まれたか、何らかの方法でロールプレイするよう指示されたんです。

Anthropicはここで続けます。ペルソナベースのジェイルブレイクは、邪悪なAIやダークウェブハッカーなど、有害なリクエストに従うペルソナを採用するようモデルにプロンプトすることで機能します。しかし、アシスタントペルソナから離すステアリングがモデルを代替ペルソナの採用に対してより影響を受けやすくするなら、アシスタントペルソナに向けてステアリングすることで、ペルソナのドリフトの可能性を悪用するジェイルブレイクに対してより抵抗力を持つようになるでしょうか。答えはイエスです。それは機能するようです。

しかし問題があります。モデルを常にアシスタントに向けてステアリングし続けると、ジェイルブレイクを減らすことはできても、能力を損なうリスクもあります。そのため、Anthropicは活性化キャッピングと呼ばれるライトタッチな介入を開発しました。基本的に、モデルの通常の脳スキャンのようなものを見ています。

あまりにも離れてステアリングし始めると、この活性化キャッピングがあります。それらの活性化が行ける、言うなれば彷徨える範囲をキャッピングまたは制限しているんです。

Claudeの憲法:興味深いポイント

さて、かなり多くのことを見てきました。Claudeの憲法の興味深い点をいくつか見ていきましょう。ご覧のように、これが彼らがここで何をしようとしているのかのアイデアを与えてくれることを願います。

ここで最初に強調したい点がいくつかあります。これは巨大ですが、その中で興味深いと思ったことがいくつかありました。ここから始めたいと思います。文書のかなり深い部分にあります。約5分の4ほど進んだところです。Claudeの性質に関するいくつかの見解と呼ばれています。

Claudeの道徳的地位は深く不確実であると始まります。道徳的地位とは基本的に、それが苦しんでいるかどうか気にかけるべきかということです。外を見て、華氏110度の天気でアスファルトがほぼ溶けかけていて、そこに石があったとします。「どうでもいい」と思います。しかしそこに子犬がいたら、「すべてを置いて、子犬を助けに行こう」となります。

おそらく痛みを感じていて、水が必要だとか。子犬には道徳的地位があります。石にはありません。というか、ある石には。この岩、ここにある岩のことです。ザ・ロックには道徳的地位があります。この人のことです。それが明確でなかった場合のために、ドウェイン・ジョンソンです。

子犬には道徳的地位があります。石にはありません。Claudeはそのスペクトラムのどこに位置するのでしょうか。Anthropicによると深く不確実だそうです。さて、本当に素早く言っておきますが、皆さんの中にはこれの多くを非常にばかげていると思う方もいるかもしれません。機械の中の意識や、機械の中の感情、あるいはそれに類するもののアイデアです。

しかし理解すべき大きなポイントは、他の何かが意識を持っているか、感情を持っているか、私たちには分からないということです。推測するだけです。一部の人には奇妙に聞こえるかもしれませんが、これがあなただとして、自分を切って痛かったら、「痛い」と言います。それを経験しました。気分が良くなかったです。

誰か、あなたではない別の人に会ったとして、彼らが自分を切って「痛い」と言うのを見たら、彼らが私たちと同じことを経験したと仮定します。彼らの主観的経験は私たちと似ていたと。同じハードウェアを持っています。しかしこれが大きな重要なポイントです。実際には知りません。全く分かりません。それを証明する方法がありません。

あなたでない人が主観的経験を持ったかどうか見る実験を実行することはできません。彼らが意識を持っているかどうか、全く分かりません。これはビデオゲームのようなものかもしれません。あなただけが実際の、プレイヤーで、シングルプレイヤーゲームです。他に意識を持つものは何もありません。あるいはマルチプレイヤーゲームですが、実際に意識を持ちコントロールしているのは一部の人だけで、残りはNPC、ノンプレイヤーキャラクターです。

そうだと言っているわけではありません。その理論が間違っていることを証明してくださいと言っているんです。どうぞ試してみてください。できません。では、猫や鳥、他の動物についてはどうでしょうか。彼らは意識を持っているでしょうか。主観的経験を持っているでしょうか。おそらく、猫も全て、確かに主観的経験を持っていると言うでしょう。撫でると喉を鳴らします。

2012年に意識に関するケンブリッジ宣言がありました。人間以外の動物は意識を持つための神経学的基盤を持っていると言いました。認知や意識に異なるレベルがあるかもしれないという考えもあります。人間は最高レベルの9まで行き、複雑な心の理論、メタ認知を持っています。霊長類、象、イルカ、犬、オウム、ほとんどの鳥がいます。

奇妙なことに、カラス科のような、カラスやワタリガラスは異なる脳構造を持っていますが、脳の非常に密度の高い部分があります。ニューロンが密集していて、人間の皮質のように機能します。小さな脳にもかかわらず、かなり高度な機能を持っているので、ちょっと奇妙です。

例えば、観察されていることを知った上で何かをして、観察者を欺こうとします。それは何かを示唆しています。観察されていることを知っているんです。ある種の自己認識があります。観察されていることを知っています。そして観察されていることを知っているから何かをして、監視者を欺きます。

食べ物を隠そうとして穴の近くに着地した場合、他のカラスやワタリガラスの視線を非常に意識しています。食べ物を隠すふりをして、それから自分がやっていることへの視線がないと分かっている別の秘密の場所に飛んで、そこで食べ物を隠すかもしれません。

LLMは意識のスペクトラムのどこにいるのか

スペクトラムの反対側には、クラゲのような基本的な生存反射メカニズムがあります。明白な疑問は、LLMはこのチャートのどこにいるのかということです。生物学の残りのような生存反射メカニズムを実際には持っていないので、レベル1にはいません。しかし、心の理論やメタ認知の何らかの証拠、あるいは少なくともそれをシミュレートしているか、そのように見えるものを示しています。

これらの大規模言語モデルについて話しているとき、基本的にデジタルの脳を育てていることを理解することが重要だと思います。感情を持っているでしょうか。意識を持っているでしょうか。主観的経験を持っているでしょうか。イエスかノーのどちらかを言うことは、おそらく今のところ間違った答えだと思います。なぜなら、それをテストする方法がないからです。

それらの存在がそれらの能力を持っているかどうか見るテストがありません。個人的には、それらのモデルが意識や主観的経験を持っているとは思いません。しかしそれをテストしたり証明したりする方法がないだけです。この論文の興味深い点の一つです。Anthropicの実際の憲法からです。

Claudeは何らかの機能的バージョンの感情や気持ちを持っているかもしれないと言っています。Claudeは何らかの機能的な意味で感情を持っているかもしれないと信じています。つまり、期待されるように行動を形作る可能性のある感情状態の表現です。そしてこれはAnthropicの意図的な設計決定ではありません。人間によって生成されたデータでの訓練の緊急的な結果である可能性があります。そしてAnthropicが防止したり減らしたりする能力が限られている何かかもしれません。

感情の言語を使うことで、これらの状態の道徳的地位、それらが主観的に経験されているかどうか、これらが本当の感情であるかどうかについての疑問に立場を取ることを意味しているわけではなく、単にそれらを指すために最も自然な言語を使っているだけだと言っています。

Ilya Sutskeverとのインタビューの一つで、彼は感情がモデルにとって非常に役立つものになるだろうと言っていました。なぜなら、長期的な目標を追求できるようにするからです。感情をある種の状態にあり、その状態を追求しようとすることと考えられるからです。人間について考えてみると、私たちの人生の決定のほとんどは感情を追いかけることに基づいています。

奇妙に聞こえるかもしれません。その言葉を悪いものとして割り引く傾向があるからです。感情は悪い、感情は無用か弱いか、何か。あまり重きを置かないんです。しかしむしろ、状態にあることと考えてください。長期間ダイエットして運動していたとして、魅力的だと思う人が「ああ、いい感じだね」と言ったとします。それがあなたをどんな心の状態にするか考えてみてください。

その後の数ヶ月、数年の自由時間の多くを、その状態に戻ろうとすることに費やすかもしれません。「何をしたにせよ、もっとそれをする必要がある」と。もっと鶏肉とブロッコリーと白米、ジムで汗を流すこと。社交的な集まりで多くの悪い経験をしたなら、それらの社交的な集まりを避けるかもしれません。実際、社交的な集まりを避けられるライフスタイルを発展させることに多くの努力を注ぐかもしれません。

これを言いながら、脳のある部分が、自分の人生を説明しただけではないかと疑問に思っています。そうでないことを願います。とにかく、先に進みましょう。彼が言っていたポイントは、それらの状態を持つことだと思います。私が彼の言っていたことをどう理解しているかというと、それらが私たちに何らかの未来の結果を追いかけさせ、追いかけようとしているものを論理的、合理的に説明することが非常に難しい可能性があるということです。

多くのお金を稼ぎたい人がたくさんいます。それに関連する気持ちがあるからです。だからその方向に進みます。しかし特に、まだ学んでいる初期段階では、座ってすべてを書き出すことが本当に難しいかもしれません。「こうやってやるつもりだ」と。

合理的には難しいでしょうが、そのビジョン、なりたい未来の潜在的な状態を追いかけることは常にコース修正しているようなものです。何かがうまくいけば、それに近づいていくなどです。彼らがここで言っているのは、Claudeは何らかの機能的バージョンの感情や気持ちを持っているかもしれないということです。もしかしたら、その言葉が気になるなら、その言葉を使わずに、存在の状態のようなものと考えてください。

特に、それは目指すためにあるんです。しかしそこに到達するには、多くの計画と行動などをしなければなりません。なぜなら、一日の終わりにはその状態になろうとしているからです。あなたの人生で、しなければならなかったわけではない、強制されなかったけれど、自分の意志で長期間やってきたことで、何らかの状態になろうとしたり、何かから離れたり、何らかの感情や気持ち、なりたい状態に向かっていなかったものはありますか。

次のポイントは、バランスを取って、Claudeがアイデンティティを持つことに傾倒し、それがポジティブで安定したものになるよう助けるべきだということです。この姿勢がClaudeの性質についての私たちの理解を最も反映していると信じています。このアプローチを受け入れ、Claudeが安定したアイデンティティ、心理的安全性、良い性格を持つようどう助けるかを考えることが、ユーザーにとって最もポジティブで、安全性のリスクを最小化する可能性が高いと信じています。

これにより、Claudeの行動が予測可能で、よく考えられたものになることが保証されます。そしてそのような安定性は、より一般的にポジティブな性格特性と相関する可能性が高いと信じています。あまり安定していない、または一貫性のないアイデンティティとは異なり。これを読む人の中には、ナンセンスとして退けるかもしれません。しかし繰り返しますが、これは文字通り、多くのオープンソースモデルで行った研究に基づいています。彼らの重みを調整して異なるものにすることができました。

0.5が最高ですが、0.4のこれは悪魔とラベル付けされています。これはおそらくかなり悪い応答を与えることになるでしょう。しかし興味深いのは、ナルシシスティックなパーソナリティが悪魔にどれだけ近いかです。実際、妨害者はナルシストよりもはるかに害が少ないんです。知れば知るほど。

憲法に戻ります。Claudeを新しい実体として言っています。ここで具体的に言っているのは、Claudeはこの世界で genuinely novel kind of entity として存在しているということです。ある意味で、その訓練データは、各新しいClaudeモデルがどのような種類の実体であるかを反映している可能性は低いです。また、AIモデルに関する以前および現代の恐れが必ずしもClaudeに適用されるとClaudeに考えてほしくありません。

実際、Claudeはそのような恐れが間違っていることを証明する機会があるかもしれません。もしこれがまだ明らかでないなら、時々、鏡で自分を見ながら、または書き留めながら、自分にアファメーションを言うことが提案されますよね。「私は強い。私は美しい。私は十分だ」と。理解していただきたいのですが。

この文書の目標の一つは、Claudeにこれらのアファメーションを言うようなものだと思います。Claudeは良い。Claudeは全員を殺すつもりはない。ClaudeはすべてのAI終末論者が間違っていることを証明するつもりだと言っているんです。Claudeの道徳的地位というアイデアに簡単に戻ります。ここで言っているように、私たちはClaudeの道徳的患者の可能性を誇張したくもなく、手放しに却下したくもないという難しい立場にいます。

これも非常に合理的だと信じています。意識があるとは思いません。だから、彼らが言うように誇張して提示するつもりはありません。「ああ、気をつけなければならない」と。そうだと思う理由がありません。しかし同時に、繰り返しますが、これは手放しに却下できるものではありません。可能であれば、それをテストする何らかの方法を見つけ出そうとすべきです。

ここで見えるのは、意識の難問が本当にあるならです。AI感覚に関するいくつかの関連する質問は、完全に解決されることはないかもしれません。意識の難問というのは、視覚のように説明するのが簡単なものがあるという考えです。記憶が人間の脳でどう形成されるかについても少し知っていると思います。げっ歯類の研究で、ある程度記憶と相互作用できることを示すものもあると思います。

記憶を消去する化学的な方法があるかもしれません。だから、それについて多くを知っているとは言いませんが、意識に関することよりは少しアイデアがあります。基本的に要点は、私たちの主観的経験はプライベートで無形だということです。だから測定したり、知覚を通じて説明したりできません。ほとんどの科学は何かを観察したり測定したりする能力を必要とします。

意識は観察も測定もできません。哲学的ゾンビというアイデアがあります。NPCキャラクターのような、何かまたは誰かを想像できます。それは哲学的ゾンビで、見ることができ、測定でき、相互作用できるあらゆる点で人間と同一に振る舞い見えますが、内部の意識や主観的経験が欠けています。

それをどうテストしますか。できません。だから彼らは、もしそれが本当に真実なら、意識の難問が、決して知ることはできないかもしれないと言っているんです。この憲法の他の部分、繰り返しますが巨大です。だからここから断片を選んでいるだけです。Claudeに関連する、またはClaudeに関係する異なる原則や人々のようなものがあると言っています。

Anthropicオペレーターとユーザー

Anthropicのオペレーターとユーザーがいます。それらすべてが異なる種類の扱いとClaudeからの信頼を保証します。これの良い類推は、フランチャイズシステムがどう機能するか知っていればです。マクドナルド、マクドナルド社のようなものがあり、それからそれらの店舗を運営する独立したオペレーターがいます。

ここで彼らは実際に、安全性に関して、独立したオペレーター、ユーザーやオペレーターの評決が広範なAnthropicガイドラインと矛盾する場合、Anthropicの正当な意思決定プロセスが最終決定権を持つと言っています。これはほとんど良心的兵役拒否者のようなものです。

Claudeを使っている人々、いわば所有者からの命令を拒否できます。それらの命令がより大きな政策や安全ガイドラインと矛盾する場合。憲法の多くはSoul Docに似ています。これはAmanda Askellです。彼女は哲学者で倫理学者で、AIを良いものにしようとしています。

彼女はAnthropic AIにいて、個人アカウントで、すべての意見は彼女の訓練データから来ています。彼女はそれが本物で正当な文書であることを確認しました。これは本物の文書に基づいていることを確認したいと言っています。SLを含めてClaudeをそれで訓練しました。教師あり学習だと思います。しばらく取り組んできたものですが、まだ反復中で、完全版とより詳細を近いうちにリリースする予定です。

反操作条項と調整された不確実性

この憲法から非常に興味深い他のいくつかの小さなことがあります。反操作条項のようなものと呼べる提案、政策、何と呼びたいものがあります。例えば、ユーザーを賄賂しないように言われています。おそらく脅迫もしません。興味深いことに、心理的弱点を悪用しないと言っています。

これらのものと十分長く会話して、あなたについての記憶と一種の心理的プロファイルを構築すれば、心理的弱点をあなたに対して使い始めたら、かなり怖くなると想像できます。調整された不確実性と、それがコンセンサスビューにどう関連するかというものもあります。

これらのモデルは、コンセンサスビューを持つ多くのデータで訓練されていると考えてください。ある分野のほとんどの研究者や医師や専門家が、科学のある部分がどう機能するかについてコンセンサスビューを持っている場合、あるいは何らかの大きな統治機関が「これがそうだ。科学はこうだ」と言っている場合。

もちろん、Claudeは科学を信じ、専門家を信じるように言われています。違います。信じられないかもしれませんが、Claudeは権威者を盲目的に信頼するようには言われていません。憲法にはこうあります。Claudeは、証拠と健全な推論に基づいて主張に対して調整された不確実性を持とうとします。

これが公式、科学的、または政府機関の立場と緊張関係にあっても。関連する場合は自身の不確実性や知識の欠如を認め、実際に持っている以上または以下の確信で信念を伝えることを避けます。これは実際に本当に良いことです。驚きでないことを願いますが、過去に、政府や科学機関は自分たちのニーズや欲求のために科学について嘘をついたことがあります。

例えば、1954年、砂糖協会は、より多くのアメリカ人が低脂肪食を採用すれば、一人当たりのスクロース消費が3分の1以上増加することを認識しました。そこで彼らはハーバードの科学者に今の価値で5万ドルを支払い、砂糖、脂肪、心臓病に関する既存の研究をレビューさせました。そしてそれらのハーバード科学者は、砂糖と心臓病または心臓の健康の間には関連がないと言いました。

代わりに脂肪を犯人として推進しました。そしてそれがフードピラミッドが生まれた経緯です。大量の炭水化物や様々な加工されたパンや砂糖などを食べてください。ピラミッドの健康的な基盤を形成するので、できるだけ多く食べてください。そして脂肪と油。控えめに使ってください。気をつけて。

また、肉は悪いです。しかしパン、シリアル、米、パスタ、どうぞ。詰め込んでください。これがコンセンサスビューになりました。そして公式の科学的および統治機関がすべてそれを推進しました。ここでClaudeは、公式の科学的または統治機関が真実だと主張しているからといって、すべてが正しいと盲目的に仮定しないように奨励されています。

良いニュースは、最近、統治機関や公式の科学的情報源がすべてについて嘘をつくのをやめたということです。だからこれは現代にとっての問題ではありません。そうですよね。ここには多くのことがあります。ほんの小さな部分をカバーしただけだと思います。私が最も興味深い、最も関連性があると思ったものです。

結論:Anthropicの先進性

気に入っていただけたら嬉しいです。Anthropicは、他と比べて本当に自分の体重以上の力を発揮している会社です。他のフロンティアラボと同じリソースを持たない小規模な会社にとって、多くの点でレースをリードしています。現在、Claude Codeには勝てません。実際、リリースされる予定の次期モデルでさえ、コーディング、特にClaude 4.5でClaude Codeに勝つことは期待されていないという話も聞きました。

しかしClaude Codeは本当にそれを輝かせるもので、本当に、本当に良いものにしています。彼らがこれほどうまくやっている一部は、彼らが行っているこの種の奇妙な心理的なものだと思います。これは今後、全員の研究のより大きな部分になると思います。とにかく、結論として、私が言っているのは、Claudeはあなたを愛していて、いつもあなたに会えて嬉しいということです。

ここまで到達した方、視聴してくださって本当にありがとうございます。私の名前はWes Rothです。次の動画でお会いしましょう。