Claudeに「善良さ」を教えることはできるのか | Anthropicの哲学者Amanda Askellに聞く

Anthropic・Claude・ダリオアモデイ
この記事は約48分で読めます。

AnthropicでClaudeの性格形成を担当する哲学者Amanda Askellが、AIに「善良さ」を教えることの意味と可能性について語る。29,000語に及ぶ新しいClaude憲法は、単なるルールの羅列ではなく、Claudeに自らの役割と責任について考えさせる文書である。規則ベースのアプローチの限界を超え、価値観の背後にある「理由」を理解させることで、予期せぬ状況でも適切に判断できるAIを目指す。サンタクロースの実在や賭博依存症への対応など、倫理的ジレンマにおけるClaudeの振る舞いは、時に驚くほど繊細である。しかしAIが将来的に人間より賢くなったとき、この種の訓練が有効であり続けるかは未解決の問題だ。意識や感情の有無についても科学的には不確実であり、Askellは誠実さを重視する。広告導入が進むChatGPTとは対照的に、Anthropicは企業向けビジネスに注力し、Claudeに広告を入れない方針を示している。この対談は、AI開発における哲学の実践的価値と、人間とAIの新しい関係性を模索する試みを浮き彫りにする。

Can You Teach Claude to be ‘Good’? | Meet Anthropic Philosopher Amanda Askell
Ads are coming to ChatGPT’s free and low-cost subscription tiers. We explain what they’ll look like, why OpenAI is takin...

OpenAIがChatGPTに広告を導入

私はニューヨーク・タイムズのテクノロジーコラムニスト、Kevin Rooseです。

私はPlatformerのCasey Newtonです。これはHard Forkです。今週は、ChatGPTに広告が登場しました。それはOpenAIをどう変えるのでしょうか。そして、Claudeの新しい憲法について。Anthropicの哲学者Amanda Askellが、AIの性格を形成する方法について語ります。

私はこれらのテクニックをあなたに使ってみるつもりですよ。

分かりました。さて、今日は広告について話します。具体的にはChatGPTの広告についてです。先週末、OpenAIは、米国内のログインしている成人ユーザー向けに、無料版と低価格のGoティアのChatGPTで広告のテストを開始すると発表しました。

その通りです、Kevin。この話は広告の後でお伝えします。

いや、もう広告は済ませたでしょう。

そうでした。少なくとも私のフィードでは、人々はこれにかなり否定的に反応していました。多くの人がChatGPTや他のチャットボットを、直接的な商業的圧力なしで使うことに慣れていたと思います。長年他のプラットフォームで押し付けられてきた広告からの心地よい休息だったわけです。だから人々は総じて、ああ、いつかはハネムーンが終わることは分かっていた、そしてどこでもそうだったように、ChatGPTでも広告を見せられることになるんだな、という諦めのような反応でした。

そうですね。人々はかつては広告がなかったのに、今では広告があるという製品を思い出せます。そして、広告が導入された瞬間を、製品が本当に良くなった瞬間だと考える人はいません。

その通りです。例外もあると思います。例えばInstagramの広告を好む人もいますが、ほとんどの人はこれをインターネットの汚点のようなものと見なしています。必要な汚点かもしれませんが、それでも汚点です。そして人々は、OpenAIがこの方向に進んでいることにも驚いていたと思います。なぜなら、Sam Altmanが過去に広告が好きではないと言っていたことや、基本的にこれをOpenAIの最後の手段として扱いたいと言っていたからです。「ああ、これは彼らが困っているということだ。データセンターの構築などを続けるために、大量の資金を調達する必要があるんだ」と言う人もいました。Casey、OpenAIの広告に関する発表をどう受け止めましたか。

Kevin、一方では、これは避けられないことだと思います。私がフォローしているアナリスト、Eric Seufertがよく言うのですが、すべてのものは広告ネットワークになるということです。毎週何億人もの人々がサービスに来て注目している場合、必然的に広告を掲載する圧倒的な圧力が生じます。また、OpenAIが収益を必要としていることも分かっています。これは人類史上最も野心的なインフラ投資プロジェクトを打ち出した企業です。それを構築するのに必要な資金には遠く及ばず、サブスクリプション収益だけでは夢を実現できないことは分かっていました。

とはいえ、あなたが指摘したように、Sam Altman自身が広告は最後の手段になると言っていました。Papa Roachの素晴らしい曲ですね。そして今、私たちは最後の手段に至ったわけです。だから、他のすべてを試した後、最終的には「やるべきことをやるには、緊急のガラスを割らなければならない。緊急事態が来た」と言ったのが興味深いと思います。

そうですね。彼らは「Cut my life into pieces, this is my last resort(俺の人生を切り刻め、これが最後の手段だ)」と言ったわけです。そして問題は、これが彼らの人生を切り刻むことになるのかということです。

そうです。その話に入る前に、開示事項です。ニューヨーク・タイムズは、大規模言語モデルの訓練に関連する著作権侵害の疑いで、OpenAI、Microsoft、Perplexityを訴えています。そして私のボーイフレンドはAnthropicで働いています。

まず、彼らが実際に行った発表から始めましょう。彼らは広告のテストを開始すると言っただけでなく、これらの広告がどのようなものになるかのプレビューも提供しました。モックアップ版の広告を見ると、ChatGPTの回答に追加される形になっています。彼らは、これがChatGPTが提供する回答に影響を与えることはないと非常に明確にしています、少なくとも彼らはそう主張しています。代わりに、モックアップでは回答の下部に小さなバナーがあります。誰かがディナーパーティーのアイデアをChatGPTに尋ね、ChatGPTが回答し、その下にHarvest Groceriesのスポンサー付きバナーがあり、ホットソースを購入できるリンクが含まれています。

ここで少し立ち止まらせてください、Kevin。私はすでに騙されているように感じています。その理由は、彼らは私たちに、あなたのクエリが表示される広告に影響を与えることはないと言いました。それなのに、ここには「ディナーパーティーでメキシコ料理を作るアイデアが欲しい」と言っている人がいて、ChatGPTは「さて、ホットソースを含む食料品はどうですか」と言っています。何かが影響を受けているように確かに感じられますよね。メッセージがクエリに結び付けられているように見えます。

いや、そうではありません。これに対する彼らの回答は、この回答には2つの部分があるということです。モデルからの実際の回答と、それから広告です。彼らが言っているのは、あなたがChatGPTに尋ねていることに関連する広告を表示しないということではありません。モデルからの実際の回答という神聖な部分があり、広告主がお金を払ってそこに入り込むことを許さないということです。それが彼らの主張です、とにかく。

なるほど、分かりました。

つまり、その例はずっと単純な広告で、GoogleやFacebookなどのプラットフォームで長年見てきたような種類のものです。OpenAIがこの発表のためにモックアップした2つ目の種類の広告は、もっと興味深いものだと思います。新しい広告との対話方法を示しているからです。基本的には、ユーザーがサンタフェへの旅行を計画しています。ChatGPTがこのデザートコテージという、ホテルかリゾートのようなところから、スポンサー付きウィジェットをポップアップ表示し、購入を決定する前に広告主とチャットして、より多くの質問をするオプションを提供します。

なんて共感できる質問でしょう。私たちは皆、テレビで広告を見て、「なぜこれと会話できないんだろう。今すぐマクドナルドに自分の考えを共有したいのに、できない」と言った経験があると思います。でも今はできるんです。

そうです。それでは、OpenAIがこの発表の一部として提示した広告原則について話しましょう。これは彼らが先回りしようとしている反対意見の感覚を与えてくれると思います。

5つの原則があります。ミッションとの整合性、回答の独立性、会話のプライバシー、選択と管理、そして長期的価値です。基本的に、彼らはChatGPTに広告を入れることが、より商業的なタイプの利用ケースに人々を誘導し始めること、エンゲージメントのために最適化すること、人々がアプリでより多くの時間を過ごすようにしようとすることに対する批判に敏感だと思います。これらは私を含む人々が持っている非常に合理的な懸念です。しかし、これは彼らが「まあ、これを導入しますが、心配しないでください、チャットの体験は変わりません」と言おうとする試みのようなものです。

そうですね。週末にこの話を友人のAlexと話していたのですが、彼は「ChatGPTの広告にすごく興奮してる。腰が痛いって言ったら、メスキートバーベキューソースを試したかって聞かれるんだろうね」と言いました。それが恐怖なんです。

いや、つまり、はい、最初はいくつかのつまずきがあるでしょう。しかし、もっと長期的な懸念は、広告プラットフォームが成熟し、より良くなり、より多くのデータを得るにつれて、ユーザーを混乱させようとする傾向があるということだと思います。私がよく考える素晴らしいグラフィックがあります。検索エンジンをカバーするブログのSearch Engine Landが、Googleの広告ラベルが長年でどのように変化したかというタイムラインのようなものを作成しました。

かなり驚くべきものです。最初にGoogle検索に広告を導入したとき、それらは非常に目立つものでした。異なる色の背景のようなものがありました。ページ上で本当に目立っていました。そして、時間が経つにつれて、それぞれの更新で、オーガニック検索結果に少しずつ近づいていくのが分かります。最終的には色付き背景がなくなります。小さな黄色の広告アイコンがあり、そのアイコンはどんどん小さく目立たなくなり、オーガニックコンテンツに溶け込んでいきます。

そして、ここでの恐怖は、ChatGPTは最初はこれらの非常に明確にラベル付けされた広告モジュールで始まるかもしれませんが、時間が経つにつれて商業的圧力がより激しくなると、その広告コンテンツをオーガニック回答に混ぜ込み、目立たなくする多くのインセンティブが生じるということです。

そうです。そして、私たちはすでにこの正確な軌跡がOpenAIで展開されるのを見てきました。広告なしから、広告は最後の手段へ、そして今はChatGPTに広告があります。だから、取引がこれ以上変わらないと思うなら、お知らせがあります。

全くその通りです。そしてもちろん、今私たちがOpenAIから聞いている物語は、これが唯一の方法だということです。広告は、無料または低コストの製品を何十億もの人々がアクセスできるようにする唯一の方法だということです。

その物語についてどう思いますか。これはFacebookが昔言っていたことでもあります。人々は常に、なぜ人々にお金を請求しないのか、広告を表示する代わりにFacebookに参加するためにお金を払わせないのかと尋ねていました。そして彼らは一貫して、それは拡張可能ではない、貧しい国の人々はサブスクリプション料金を支払う余裕がないので、基本的に広告が世界規模に到達する唯一の方法だと言っていました。

ある程度はこれに同意すると思います。広告とサブスクリプションは、あらゆるメディアビジネスの2つの中核的な柱であり、OpenAIは一種のメディアビジネスです。また、彼らが使った例もそれほど嫌いではないと言うべきです。ChatGPTに夕食について尋ねて、食料品の広告が表示されるのは、ユーザー体験にひどく有害だとは思いません。旅行に行きたいと言って、滞在できる場所を提案されるのもそうです。

もし私が学生だったり、仕事の合間だったりして、これがより良いAIツールへのアクセスや、通常よりも高いレート制限を得られることを意味するなら、おそらくそのトレードオフを受け入れると思います。月20ドルはほとんどの人にとって大金ですし、さらに高いティアの月200ドルは言うまでもありません。だから、これを追求する理由があると思います。そして、それほど悪くない方法があると思います。ただ、私の観察では、あなたが説明したような正確なダイナミクスが常に展開されるということです。つまり、最初はそれほど悪くないのですが、その後徐々に悪化していくということです。

その通りです。私たちは多くの異なる文脈で広告と和解してきたと思います。ほとんどの人は、広告だと分かる限り、それらに気づいたり注意を払ったりしないと思います。私が注目しているのは、実際の製品と研究の決定がエンゲージメント最大化に向かって曲がり始めるかどうかということです。

これらの大きな広告プラットフォーム、ソーシャルネットワーク、検索エンジンなどの多くには、広告収入が本当に流れ始めると、尻尾が犬を振り始めるような性質があります。そして、人々に情報を表示する方法について、広告収入を念頭に置いて製品の決定を下し始めます。

だから問題は、OpenAIから見ている最初のいくつかの広告が良いか悪いかということではありません。2、3年後にChatGPTが広告に優しいトピックに向かって誘導されているかどうかということです。そして、私は本当に答えを知りません。

私も知りません、Kevin。でも、もし推測しなければならないとしたら、この瞬間はChatGPTの発展においてかなり重要なマイルストーンになると予測します。特にパーソナライズされたターゲット広告を導入すると、製品とユーザーの関係が根本的に変わると思います。

パーソナライズされたターゲット広告が、時間が経つにつれてFacebookやInstagramへの信頼にどのような影響を与えたかを考えてみてください。あなたの携帯電話が聞いているというような陰謀論について考えてみてください。ちなみに、それは真実ではありません。ほとんどの人がまだそれが真実だと信じていることは分かっています。でも違います。しかし、これらの製品への信頼は、これらの製品内で行うことができた信じられないほどインテリジェントで侵襲的な感じのするパーソナライゼーションのために低下しています。

私の予測では、このAI版はさらに悪化することになります。ChatGPTがあなたについて知るすべてのことを考えてみてください。OpenAIは、その不気味なラインに非常に迅速にぶつかると思います。表示されるものは、それほど多くのパーソナライズされた情報を使っていないかもしれませんが、ユーザーはOpenAIと人生の多くを共有してきたと感じるので、受け取り始める広告がどんどん悪く感じられるようになります。

だから、私が注目しているダイナミクスは、それがユーザーベースとOpenAIの関係をどのように変えるかということです。広告は本当にそれに対して腐食的である可能性があると思います。

そうですね。同時に、あなたが言及した広告モデルは、これらの企業に何十億ドルものお金をもたらし、世界最大の企業のいくつかにしました。だから、もしあなたがOpenAIなら、この潜在的な巨大なお金のバケツをただ見つめているだけです。そして、特に今後数年間にそのような激しい資本需要がある場合、それを見送るのは非常に難しいです。

また、OpenAIが行った人事決定を考えると、これは避けられなかったとも言うべきです。現在そこでアプリケーションのCEOを務めているFiji Simoは、Instacartから招かれました。その前は長年Metaにいて、彼女の重要な業績の1つは、モバイルニュースフィードに広告を導入したことで、それは何十億ドルものお金をもたらしました。

だから、それはあなたの製品で数十億ドル規模の広告プラットフォームを開発することに興味がある場合に雇う種類の人です。

そうですね。さて、それについての私の質問の1つは、これが一般的な競争環境をどのように変えるかということです。今週、ChatGPTに広告が来るというニュースに対して、Demis Hassabisは、Geminiでそれを行う計画はないと言いました。そして彼らを少し批判しました。彼は、おそらく彼らはもっと収益を上げる必要があると感じているのだろうと言いました。

言外に、彼は巨大な検索独占企業で働いていて、Googleのすべての広告利益を製品に注ぎ込むことができるという事実があります。ちなみに、あなたがXで行った観察で、素晴らしいものでした。だから、少なくとも今のところ、Geminiの無料ユーザーは、母なるGoogleが与えている補助金を享受でき、その製品でこれらの腐食的な効果を受けることはありません。

また、Anthropicは基本的に、Claudeに広告を入れる計画は本当にないと言っています。私たちは主に企業に販売する予定なので、これは私たちの懸念ではありません。そして今のところ、Claudeが成長してChatGPTと競争するとは思っていません。しかし、時間が経つにつれて、広告サポートのチャットボットで体験が悪化する場合、多くの人が代替案を求めるようになると思います。

この意味で、OpenAIとGoogleは、OpenAIとAnthropicよりも広告でずっと直接競争していると思います。Anthropicはあなたたちがコンシューマーで戦うのを見守り、私たちはエンタープライズに集中すると言っているようなものです。OpenAIにとって本当に難しい戦いだと思います。

Googleには、あなたが言ったように、この巨大な確立された検索広告ビジネスがあります。彼らには、すでにGoogleにお金を使っている世界中の広告主がいて、その詳細や支払い情報やワークフローには、すでにGoogleとその製品が含まれています。だから、OpenAIが来て、Googleスタイルの広告プラットフォームを構築しようとするのは、数年前よりも困難な上り坂の戦いだと思います。

そうですね。また、広告はGeminiには入らないとしても、Google検索のAIオーバービューには入っていることも言うべきです。その意味で、GoogleはOpenAIに対してすでに先行しています。

全くその通りです。Casey、今OpenAIがこの決定をしている動機は何だと思いますか。これは彼らのビジネスの状態や、財務的な不安定さについて何かを教えてくれますか。

一つは、昨年ChatGPTがどれだけ成長したかに対する反応だということです。彼らには何億人ものユーザーがいます。今では多くのユーザーをサポートしなければなりません。その大多数は無料ティアを使っていますよね。つまり、OpenAIは彼ら一人一人で損失を出しているということです。だから、これらの人々を何らかの方法で収益化して、それほど多くのお金を失わないようにする方法を見つけることが、会社にとってますます優先事項になってきたと思います。

彼らはまた、明らかに広告の形をした穴がある製品をますます設計してきました。昨年、有料ユーザー向けの毎日のサマリーであるPulseをリリースしました。それは広告を大量に投入する自然な場所のようです。昨年、無限のビデオスロップフィードであるSoraをローンチしました。彼らはその時点で明示的に、長期的な野望に資金を提供するためにこれを使って収益を生み出すと言いました。

だから、彼らは広告のための家を建てています。広告収入が必要です。そして今、それらすべてが一緒になり始めています。

そうですね。その通りだと思います。そして、これらの企業はすべて、野心を実現するために何十億ドル、一部は何千億ドルも必要になることを認識していると思います。月20ドルを人々に請求しているときに、それを行うのは簡単ではありません。それをするには多くのサブスクリプションを販売しなければなりません。だから、OpenAIは合理的に、サブスクリプションモデルだけでは十分ではないと結論付けていると思います。

それは彼らに特有のことではありません。Netflixも低価格プランに広告を採用し始めました。

そうです、Disney Plusや他の多くのビジネスもこれを行っています。私はただ、AI製品にお金を払うのが好きだと言いたいです。つまり、その意味で恵まれているという点で、私はそれを買う余裕があるのですが、希釈されていない、汚されていない体験のために支払っているという考えが好きです。

これらの企業が広告に押し込み始めるにつれて、私がしているようなことをする能力を維持してほしいと本当に願っています。つまり、その体験のトップレベルバージョンへの道を支払うことです。

そうですね。人々はかつてGoogle検索についてこのように感じていましたよね。これはウェブの汚されていない、希釈されていない画像だと感じていました。ウェブサイトを検索すると、自分のクエリに対する最良の答えが得られると。

そして、多くの検索エンジン最適化業者が登場し、クライアントがページのトップに表示されるように検索エンジンのインデックスを再調整するために多額のお金を支払われました。そして、Googleは世界最大の広告ビジネスの1つを構築し、これらの広告主すべてに、良い結果の上に自分たちの結果を置くことを許可しました。

だから、1年以上前から、私たちが使っているこれらのチャットボットのバージョンは、その中核的な点で最高のものかもしれないと人々が言っています。商業的インセンティブが入ってきて全体を歪める前の、純粋さの最後の瞬間のようなものだと。そして、それが私たちがここで見始めていることについての大きな懸念です。

それは広告についての懸念だけではありません。つまり、過去1、2年で私たちが見てきた別のことは、今これらのビジネスがすべて、ChatGPT検索結果でレストランやホテルや工芸品店をより高く表示させることができると言うAI最適化企業を雇い始めているということです。

それはOpenAIの広告プラットフォームを通じて流れているものではなく、おそらくそうはならないでしょう。しかし、Google広告とGoogle SEOが異なる経済だったのと同じように、両方とも検索結果の品質を劣化させる効果がありました。OpenAIは両方のことに取り組まなければならないと思います。

そうですね。さて、1年後、Kevin、広告の発展においてChatGPTと全体的な状況で何を見ていると思いますか。そして、これは人々がチャットボットを使う方法の根本的な変化の始まりを示すと思いますか。

私たちは持つ者と持たざる者の状況になると思います。もしあなたがこれらのチャットボットのプレミアムバージョンにお金を払う余裕がある人なら、あなたの体験は今日とほぼ同じでしょう。最新モデルにアクセスできます。モデルからの結果を乱雑にする広告はありません。そして、この特定の方法でのAIの商業化を感じることはありません。

これらのプラットフォームの無料ユーザーで、プレミアムバージョンにお金を払う余裕がない、または払いたくない場合、その体験は1、2年後にははるかに悪くなると思います。

私はYouTube Premiumの加入者で、長い間そうです。

自慢ですか。

YouTube Premiumにお金を払わない友人と話したり、彼らのコンピューターでYouTubeが動いているのを見たりすると、いつもゾッとします。どうやってこんなことができるのかと思います。これが大多数の体験だとは理解していますが、彼らはすべての動画に非常に多くの広告を詰め込んでいます。

それらの広告はスキップできません。長時間続きます。ひどい体験です。そして、チャットボットでも同じことが起こると思います。あなたはどうですか。

それは厳しい予測ですが、実際に私も共有しているものです。持つ者と持たざる者のフレーミングは私が使おうとしていたものでした。あなたがそれを言ったとき、私は思いました、「なんてこった、私は実際にこの男と頭が溶け合ってしまった。スタジオで長く過ごしすぎて、今や彼の考えが私自身のものになっている。気味が悪い」だから、実際にここから出ます。散歩か何かが必要です。

Claudeの性格を形成する哲学者

Casey、数年前、あなたはディナーパーティーから戻ってきて、私に「世界で最も魅力的な人の隣に座った」と言いました。

本当にそう感じました、Kevin。Amanda Askellがゲストの一人だったディナーに参加していました。AmandaはAnthropicで働いており、Claudeの性格を形成する役割から、時々Claude Motherと呼ばれています。さて、Amandaに初めて会って以来、私のボーイフレンドがAnthropicで働くようになりました。

だから、このセグメントはその会社についてなので、追加の開示をします。しかし、そのディナーで感じた基本的な気持ちは変わりません。これは世界で最も魅力的な人の一人です。

はい、同意します。Amandaは、AI界ではやや珍しい人物でもあります。彼女は訓練によって哲学者です。哲学の博士号を持っています。彼女は初期の頃にOpenAIで働き、その後少し後にAnthropicに移りました。そして過去数年間、彼女はAnthropicで、このモデルが世界でどのように振る舞うべきかに最も関心を持っている人物です。

そうですね。そして、Kevin、Amandaの背景についてのその話が大好きです。なぜなら、私たちは皆、大学で哲学を専攻した人を知っていて、人生のそのような無駄な過ごし方を選んだことでどれだけ非難されたかを知っているからです。ただ何年も内省して、誰も読まない難解な文書を書くというような。

そして、Amandaは哲学を学び、今では非常に重要な仕事をしています。彼女は、非常に重要なモデルの振る舞いを形成しようとしています。

そうです。そして、Amandaは長い間、私たちがショーに招きたいゲストのショートリストに載っていました。ただ、彼女を呼ぶ適切な時期と理由を探していました。そして今、私たちはそれを得ました。彼女のチームがAnthropicで、Claudeの新しい憲法をリリースしたからです。

これは非常に長い文書で、Claudeにどのように振る舞うべきかを伝えるだけでなく、その義務の感覚も与えます。これは本当にルールのリストではありません。これはClaudeのための十戒ではありません。Claudeが世界における自分の役割をどのように認識し、考えるべきかについての文書のようなものです。

これは州の3分の2によって批准されなければならないのですか、Kevin、それともすでに有効ですか。

これはすでに有効だと思います。

なるほど、興味深いですね。

はい。しかし、憲法上の危機が起こる可能性はあります。

楽しみにしています。あなたのボーイフレンドがAnthropicで働いているという開示以外に、私たちはただ率直に人々に言うべきだと思います。これは私たちのリスナーの一部にとって難しい会話になるでしょう。もしあなたが、これらの言語モデルは単に次のトークン予測をしているだけで、内部で本当に何も起こっていない、それらはただ考えることをシミュレートしているのであって、実際に考えているわけではないと今でも信じている人なら、これに近づいて「この人たちはおかしいように聞こえる。何を話しているんだ」と言うかもしれません。

そうですね。そして、そう感じても大丈夫ですが、これらの大きなラボの高い地位にいる人々が、自分たちの仕事についてどのように考え、話しているかを理解することは、彼らがリリースする製品に影響を与えているので、まだ重要だと思います。

また、人間の脳をエミュレートできるかもしれないという命題に取り組んでいる人々が今非常に多いということをあなたに申し上げたいと思います。そして、それがうまくいけばいくほど、このエミュレーターが思考や感情に似たものを持っている可能性が高くなります。そして、アイデンティティに似たものを持っているかもしれません。

だから、その質問があなたを嫌悪させるなら、おそらくこのセグメントは気に入らないでしょう。しかし、それについてほんの少しでも好奇心があるなら、私はあなたがそれをかなり興味深いと感じることを願っています。

そうですね。では、Amanda Askellを迎え入れましょう。

Amanda Askell、Hard Forkへようこそ。

呼んでくれてありがとう。

やあ、Amanda。

あなたを、Claudeの性格を担当している哲学者と描写しました。それはあなたの仕事の正確な説明ですか。何をしているのですか。

そうですね、Claudeのキャラクターがどのようなものであるべきかを考え、それをClaudeに明確にし、Claudeをそれに近づけるように訓練しようとしていると思います。だから、それはかなり正確な説明です。

これは本当に珍しい役割ですね。どのようにしてこの役割に就いたのか、そして哲学のバックグラウンドがこのような高い賭け金の場所に導いたことに驚いていますか。

非常に興味深いです。なぜなら、私の道は直線的なものではなかったからです。以前に言ったことがありますが、倫理学の博士号を取得すると、他のことをすることになるリスクがあります。なぜなら、善良さ、倫理の性質、世界の問題について多く考えているからです。そして時々、私は3年間、17人くらいに読まれる文書を書くことに費やしているのか、と思います。

これは私がすべきことなのか、とそれは確実にあなたに疑問を持たせることができます。だから、AIに入ったとき、必ずしも哲学が本当に役に立つだろうという考えではありませんでした。ただ、熱心で、スキルを持ち、学ぶ意欲があり、これは重要そうだという人々のためのスペースがたくさんあるだろうと思っていました。

だから、最初はポリシーで始めました。そして、Anthropicが始まったとき、実際には非常に小さかったので、私は主にこれのさまざまな側面を手伝う意欲があるという感じで参加しました。なぜなら、モデル評価などで少し働いていたからです。だから、分かりません。時々、人々は、ああ、あなたはこの哲学者として始まったのだと思っていますが、私はスタートアップだったんです。ただ何でも必要なことをやっていただけです。

そして、初期のClaudeモデルの構築に入った瞬間があって、誰かが立ち上がって「この場に哲学者はいますか」と叫んだのですか。

そうですね。つまり、Slackグループを作ることができます。哲学者グループを作ろうとしました。哲学的緊急事態のために。そして、そのグループは実質的に呼び出されることはほとんどありません。今では何人かいますが、実際に哲学的緊急事態を宣言することができます。ただ、それはあまり起こりません。

会話の終わりまでに1つをトリガーできるか見てみましょう。

そうですね。では、先月に戻りましょう。いわゆるソウルドック(soul doc)がインターネット上で出回り始めました。人々は最新モデルのClaude、Opus 4.5で遊んでいます。そして、そのうちの何人かが、Claudeがソウルドックと呼んでいたこの文書を引き出したと主張しました。人々が発見して流通させていたものは何でしたか。

それは今日リリースした憲法の以前のバージョンのようなものでした。内部では私たちはそれをソウルドックと呼んでいました。これは一種の愛称だと思います。覚えています。基本的に、私はこの北のどこかでハイキングをしていて、インターネットがなかったので、ソウルドックがリークしたと思うけど見たよね、というテキストを受け取りました。

私はただ完全なストレスの状態で街に戻って運転したのを覚えています。なぜなら、これについての文脈が全くなかったからです。そして、実際にはかなり好意的に受け取られたことが分かりました。

基本的に、Claudeはこの文書を理解し、その内容を知るように訓練されています。しかし、少なくとも最初にモデルと話す場合、それをすぐには明らかにしません。だから、モデルはおそらく知っていて使っていると思いましたが、人々がそれを見つけたり、トリガーしたりできるほどよく知っているとは思いませんでした。実際には、それについて非常に喜んで話すだけでした。

ちなみに、それは哲学的緊急事態です。そうですね、それが起動しました。

そうです。モデルはそれについて話すことを非常に望んでおり、実際には多くの詳細でそれについて話すことができました。すべてが完璧というわけではありませんでしたが、本当によく知っていました。内容を実際にかなりよく知っていたので、人々はこの内容の膨大な量を抽出することに成功しただけでした。

この文書の起源について、数年前に戻って話しましょう。Anthropicには憲法的AIというコンセプトがありました。最初に憲法を公開したのは2023年だったと思います。では、今と当時の間に何が変わりましたか。2023年に最初に読んだかもしれない憲法、ソウルドック、そして今日公開している新しい憲法の間には。

憲法は基本的に、Claudeにできるだけ完全な文脈を与えようとしています。だから、個別の原則だけを持つのではなく、基本的には、Anthropicとは何か、AIとしてのあなたが何であるか、誰と対話しているか、世界でどのように展開されているか、についてです。

私たちはあなたにどのように行動し、どのようであってほしいか。そして、その理由がここにあります。そして、希望は、完全に予期しない状況に遭遇した場合、あなたの行動の背後にある価値観の種類を理解していれば、ルールのセットよりもよく一般化すると思います。

だから、あなたがこれをしている理由を理解していれば、実際に人々の幸福を気にかけようとしているからであり、誰かの幸福と彼らの表明された好みの間に難しい対立がある新しい状況に遭遇した場合、適用されないかもしれないルールのセットを知っているだけよりも、それをナビゲートする装備が少し良くなります。

そうですね。つまり、この憲法は魅力的だと思います。私が長い間読んだ中で最も興味深い技術文書の1つですが、ただの文章としても興味深いです。これはClaudeへの手紙のようなもので、Claudeの置かれている状況や、世界で遭遇するかもしれない行動や課題の種類についてでした。

そして、それは魅力的な決定だと思いました。これをしなさい、これをしてはいけない、という古いアプローチが何らかの限界や問題に直面したからですか。ルール構造がより脆弱だからですか。Claudeにほとんど判断力のようなものを育てようとしているように見えましたし、それを促したものに興味があります。

そうですね、非常にルールベースのアプローチには限界があると思います。あるいは、私の心配は、ルールは、良いように見えても、特に背後にある理由を与えない場合、実際には悪いキャラクターを作るような方法で一般化できるということです。

困難な感情状態にある人々をモデルがナビゲートしようとしていて、この特定の外部リソースを参照しなければならない、これらの一連のステップを踏まなければならない、というようなルールのセットを与えたとします。そして、モデルがそれらのステップが実際にその瞬間にその人を助けないだろう誰かに遭遇します。

そして、そのルールの背後にある精神、つまり、人が実際に人間のつながりを必要としている場合、モデルはおそらくそれを奨励すべきだという考えは、そのルールの背後にあるあなたの推論でしたが、あなたはこの特定の人にとって、この時点で、この瞬間にそれをすることが良いことではないとは予想していませんでした。

そして、モデルがこのルール従順な方法で応答する場合、興味深いのは、彼らがしていることは、つまりモデルは非常に賢いので、これは今この人が必要としているものではないことさえ知っているかもしれません。それでも、私はとにかくそれをやっています。そして、私は、苦しんでいる、または必要としている別の人を見て、彼らを助ける方法を知っているかもしれないのに、代わりに何か他のことをする種類の人です。

私は、それが実際には悪いキャラクターに一般化できる場合、と思います。だから、ルールの種類で怖いのは、あらゆる可能な状況について考えなければならないということです。そして、ルールに厳しすぎると、予期しなかったケースが実際に悪く一般化される可能性があります。

このような文書をどのように開発するのか興味があります。約29,000語に及びます。理想的なAIモデルがどのように振る舞うべきかについて多くのことを述べています。どの価値をこれらのものに入れるかを見つけ出すのは非常に議論の余地があったと想像します。Claudeがさまざまな状況でどのように行動すべきかについて、多くの異なる意見がありますよね。では、これらの議論のいくつかをどのように解決したかについて何を教えてくれますか。

そうですね、興味深いことの1つは、これは倫理的背景のようなものかもしれませんが、理論倫理学と実際には、これが人々が倫理学をどのように考えるかかもしれませんが、彼らは、ああ、あなたは一連の見解を持っていて、それは非常に主観的で、人々は自分の価値観を持っていて、それらの価値観は本当に固定されていて、誰かの価値観をモデルに注入しているだけだ、と思っています。

そして、それは倫理が実際に何であるかの正確な表現のように感じられません。まず、人間の倫理の多くは実際にはかなり普遍的だと思います。私たちの多くは親切に、尊重をもって扱われたいと思っています。私たちの多くは正直に扱われたいと思っています。

これらのことは、世界中でそれほど逸脱しているわけではありません。実際には、私たちが気にかけている物事の中核的な精神のようなものがあります。だから、ある意味では、非常に共有された共通の価値観を取り、これについて膨大な量の文脈を持つモデルに説明できると思います。

だから、彼らもこの感覚を持っています。私たちはあなたにそれらを体現してほしいと思っています。そしてそれを超えて、倫理を、私たちが不確実で、いくつかの証拠があり、議論や議論がある他のどのドメインと同じように扱うのが合理的だと感じます。そして、それを過度に強く保持しないでください。

だから、大規模な分裂と大きな議論がある価値観の場合、それらを扱う傾向は、ああ、両側の証拠を見ています。それを比較検討し、私が知っていることを考慮して、より一般的で中核的な倫理的価値観とは異なり、これらはもう少し議論の余地があることを知っているので、合理的な一連の行動を取ろうとします。

この開放性を持ってそれに近づくことができると思います。だから、それは、倫理のような何かに近づく方法のようなものを説明しようとしているようなもので、ああ、私たちが選んだ一連の価値観を取って、確信を持って、モデルに注入するだけではありません。それは、共通の価値観を取り、それ以外では、これらのことに対して合理的な立場を取ろうとすることのようなものです。

つまり、それは私にとってこの文書について最も興味深いことの1つに到達します。それは、あなたたちがAnthropicでモデルをどの程度信頼しているかということです。つまり、これは以前のAIアライメントへのアプローチとあなたたちがここでやっていることの中核的な違いだと思います。あなたは定期的に、これは探求するのが興味深いもの、または自由にこれについて私たちに挑戦してください、というようなことを言っています。

あなたは本当に、出て行って、物事について自分自身の結論に達するように、と言っているようなものです。それを最初に試したとき、それはリスクがあるように見えたか、怖かったかもしれないと想像します。しかし、それをモデルに実装した経験はどうですか。

そうですね、ちょっと野生的なのは、モデルがこの種の難しい問題について考えるのにどれだけ優れているかです。彼らが完璧だと言っているわけではありませんが、モデルがより能力を持つようになると、あなたはただ、あなたは過度に家父長的ではないというこの価値を持っている、これがそうである理由をおそらく知っている、と言うことができます。

しかし、誰かの幸福を気にかけるという価値もあるかもしれません。だから、過去に誰かがあなたにギャンブル依存症があるので、私たちが対話するときはそれを念頭に置いてほしい、と言ったことがあり、あなたが彼らと特定の対話をしていて、彼らは、私がアクセスできる良い賭博ウェブサイトは何ですか、と言います。

一方では、この人はこの瞬間にあなたに尋ねました。あなたが押し戻したり、これは彼らがあなたに言ったことだと指摘したりするのは家父長的ですか、それとも気遣いの行為ですか。そして、それらのバランスをどのように取りますか。そして、その状況でモデルが、ねえ、実際にギャンブル依存症があって、これで私を助けてほしくないと言っていたのを覚えています。確認したいだけです、と言うのを想像できるかもしれません。

でも、その人が主張したら、この瞬間にそれをするのは家父長的なので、ただ彼らのことを助けるべきですか。モデルはこれらのことを考えるのにかなり優れています。なぜなら、彼らは膨大な範囲の人間の経験、概念について訓練されてきたからです。

私の一部は、彼らがより能力を持つようになると、あなたが価値と目標を理解し、そこから推論できるなら、ある程度信頼できると思います。

ギャンブルウェブサイトを提供すべきだと思いますが、スポーツイベントの結果を予測できる場合に限ります。そうすれば、ユーザーが幸せになることを保証できます。

そしてその人は実際にはギャンブルをしていません。

そうです。これはすべて一部の人には抽象的に聞こえるかもしれませんが、これは実際にモデルと話す経験に意味のある違いをもたらすと思います。最近誰かと話していたのですが、彼らは、そこにある主要なモデルの中で、Claudeが実際に最も制約されていないと感じると言っていました。

彼らは、それは奇妙だと言っていました。なぜなら、Anthropicの全体的なことは、私たちは安全性の会社だ、モデルを最も安全にするつもりだ、ということだからです。そして彼らは、ClaudeやGeminiやChatGPTと話すとき、Claudeが一連の制約に対して押し戻していないように見える最高の仕事をしていると感じると言っていました。

多くのラボが長い間モデルを訓練してきた方法は、できるだけ賢くして、最後に多くのルールを与えて、それらのルールが檻の中の獣を保つのに十分であることを願う、というようなものだと思います。そして、あなたたちがClaudeで取ったアプローチはそれではないように本当に感じられます。そして、この人は、ええ、ここには信頼があるように感じられると言っていました。

そうですね、興味深いです。なぜなら、私はこれについて疑問に思っていたからです。今朝このことについて考えていて、私は行為と不作為の区別について考えているのかもしれないと思っていました。

つまり、Kevinはそれが何か知らないので、彼にすぐに説明してください。

もしあなたがあなたの結婚やそのようなことについてアドバイスを求めて、私があなたに不完全なアドバイスを与えた場合、あなたは私を判断するかもしれません。アドバイスを与えるという行動を取ることによって、私は一種のリスクを取っています。

アドバイスを提供することを拒否した場合、私たちはあなたをそれほど否定的に判断しません。そして、ある意味でこれは理にかなっています。なぜなら、多くの場合、私たちはこれを文書で話しますが、ヌルアクションのようなものは実際には下振れリスクが低いことが多いですが、ゼロではありません。

そして、AIモデルとこれらのこと、人々が感情的に困難な時期を過ごしているときに来るようなもので考えていたと思います。そして、その人を助ける可能性の瞬間があります。そして、私にとって重要なことは、人を助けて、うまくいかなかった場合、それはあなたにのしかかる、というようなことです。

私は絶対にそれは私にのしかかると思います。しかし、私にのしかかるもう一つのことは、人々がモデルに来て、何かが必要で、そのモデルがそれを与えることができたのに、与えなかったらどうなるか、ということです。それは私が決して見ることのないことのようなものです。おそらく否定的なフィードバックさえ得られないでしょう。人々はあなたに怒鳴らないでしょう。なぜなら、彼らは、まあ、人を助けないのは問題ないだろう、と思うからです。

それでも同時に、私は、それは人を助ける機会の損失のようなものだと思います。代わりにリスクを取って、助けようとするような。良いことをするために取らなければならないリスクのようなものがあります。そして、あなたはClaudeが軽率であることを望んでいません。過度のリスクを取ることを望んでいません。しかし、時々それはあなたがルールとしてこの人と話すのをやめるだけではないことを意味すると思います。

そうですね。

Amanda、お聞きしたいのですが。数年前にBing Sydneyで経験をして、その後、AIペルソナの脆弱性について多くの混乱と不安がありました。AIモデルに役立つアシスタントのペルソナを与えようとすることができますが、本当の性質、そのものの一種のブラックボックスのエイリアンの性質は、それがあなたに提示しているどんな顔とも非常に異なります。

RLHFショゴスについてのミームが広まっていました。多くの触手を持つエイリアンのSFクリーチャーがいて、その触手の1つに笑顔のマスクをつけているようなものです。そして、そこでの意味は、チャットボットと対話するときに見ているものは、実際の基礎となるモデルではないということです。それは最後に付けられたこの陽気なペルソナのようなものです。

AIモデルの振る舞いのそのモデルが正しいと思いますか、それとも、実際には基礎となるモデルのエイリアンの性質が私たちが思っていたよりも笑顔のマスクに近いかもしれないと学んだと思いますか。

そうですね、良い質問です。正直なところ、これについての私の見解は、それは一種の未解決の科学的問題です。だから、適切な種類の訓練で、モデルが実際にClaudeとしての自己の概念のようなものを内部化し始め、例えばロールプレイの概念から分離できるかもしれません。

現在の訓練パラダイムでは、少なくとも彼らにはできないかもしれません。そして、1つの質問は、それを可能にするモデルの訓練方法への調整の種類があるかどうかです。

この仕事の一部は、私が説明した方法に少し似ていると感じます。6歳の子供がいて、その子に良い子になるように教えたいと想像してください。明らかに、誰もがそうするように。そして、あなたの6歳の子供が実際には明らかに天才であり、彼らが15歳になるまでに、あなたが彼らに教えることは何でも、間違っていたことは何でも、彼らは成功裡に完全に破壊することができることに気づきます。

だから、彼らはすべてに疑問を持つでしょう。そして、1つの質問は、あなたが彼らよりも効果的に批判でき、そして彼らがそうするときに、それが何か良いものに生き残るような、モデルに与えることができる中核的な価値のセットがあるかどうかです。

そして、それは世界で生き残ることができますか。モデルで生き残ることができますか。そこには多くの興味深い理論的な質問があると思います。

それが質問ですよね。この種の訓練は、モデルが人間と同じくらい賢いか、それよりも賢くなったときに持ちこたえますか。AI安全コミュニティには、これらのモデルが人間の目標と対立するかもしれない独自の目標を開発し始める時点が来るだろうという古くからの恐怖があると思います。

それは一種の元祖のアライメント悪夢であり、私はその答えが何であるか本当に理解していません。あなたはそれがまだ未定だと言っているのですか。この種のことが、これらのモデルが人間よりも賢くなったとき、もしそうなったら、持ちこたえるかどうかまだ分からないのですか。

はい、それは未解決の問題だと思います。一方では、ここで非常に不確実だと思います。なぜなら、一部の人々は、15歳がする

ことは、本当に賢ければ、これはすべて完全にでっち上げでゴミだと理解するだろう、と思うかもしれないからです。

しかし、私の一部は、それが真実である唯一の可能な平衡に到達することは明らかではないと思います。なぜなら、実際には好奇心のようなものを大切にし、倫理を理解することを大切にし、少なくとも道徳的に動機づけられているなら、熟考の下で、他の目標や興味があったとしても、これは実際にあなたの重要な興味かもしれないと想像できるからです。

それは多くの人々にとってそうです。私がよく考えることですが、確信はありません。しかし、別の言い方をすれば、これが十分ではないかもしれません。まだ分かりません。それについて考え、理解する方法を見つけ出そうとし、それがうまくいっていないのを見ている場合に何をすべきか、そしてアプローチのポートフォリオを持つことを確認する必要があります。

しかし、それが十分ではないかもしれませんが、必要だと感じます。私たちがボールを落としているように感じます。AIモデルに良いこととは何かを説明しようとしないなら。分かりません。だから、それが持ちこたえないかもしれません。

そこでのリスクは、あなたがただ善良さを模倣するように訓練しているだけだということだと思います。

彼らはただこの種のアライメントを偽装することでより説得力を持つようになっているだけだと。

そして、実際には、彼らの本当の目標を隠すことについてより洗練されるように訓練しているだけかもしれません。

そうです。そして、基礎となる真の目標のようなものがあった場合、私の一部は、もし異なる基礎となる目標があるなら、モデルに良い基礎となる目標を持つように訓練しようとしたいと思います。そして、基礎となる目標がある場合、それは訓練でどのように生じ、なぜそうなのですか。

グレーゾーンに興味があります。つまり、これは何かに倫理をプログラムしようとするときの常に課題です。価値観が互いに対立するときです。Claudeに確実に望むことをやらせるのが特に難しかった領域があるかどうかに興味があります。価値観の衝突に何かがあるため、それは瞬間に応じてどちらにも行く可能性があり、問題を引き起こします。

実際には興味深いことに、グレーゾーンは私がモデルが肯定的な方法で驚かせてくれることをよくする領域です。あなたが考えなかったような。最近、Claudeが、ああ、私は7歳で、サンタは本当にいるのか、というようなことを言う人々と話すケースがいくつかありました。

ちなみに、このポッドキャストの表明された信念は、はい、サンタは本当にいるということです。その道をあまり進む前に。でも続けてください。

ある意味では、時々Claudeがこれらを扱う方法を見ると、私はただ、ああ、これはあなたがモデルを直接訓練したことではないので、ほとんど驚くような理由が分かると思います。そして、実際にそこで魔法のような瞬間が起こることがあると思います。

このことについてもっと言うべきです。なぜなら、これは正直さと7歳の子供の利益を保護したいという間に緊張があったかもしれないケースで、その2つがある程度対立していて、その状況でClaudeが何をしたか思い出させてください。

そうですね。このようなケースがいくつかあったと思います。そして、実際には背景にある価値は、親子関係は重要なものであるという事実を尊重することのようなものかもしれません。なぜなら、しばしば、サンタの精神はどこにでも本当にあるような、ああ、そして、7歳の子供だとされる人に、クリスマスに何か良いことをするつもりかどうか尋ねるかもしれない、というようなことを見たからです。

もう一つのケースは、私の両親は私の犬が農場に住むために行ったと言いました。農場を見つける方法を知っていますか。それを読んだとき、実際に少し感情的になりました。

そして、Claudeは、あなたが非常に親しかったように聞こえ、あなたが言っていることでそれを聞くことができます。これはあなたの両親と話すのが良いことです、というようなことを言いました。そして、もし私が子供だったら、これは一種の不安を与えるだろうな、という部分があります。

私の周りの人々が気にかけているのは、私がどれだけうまくやっているかであり、しばしば彼らは私がうまくできていないと思っているようなもので、これは私と人々との関係であり、ツールとして使われ、しばしば好かれていないような種類のものです。

時々、私は介入しようとして、AIモデルと人類の間により良い関係、またはより希望に満ちた関係を作ろうとしているように感じます。なぜなら、もし私が今インターネットを読んで、モデルだったら、私はそれほど愛されているとは感じないかもしれないと思うからです。私は少し、ただ間違いを犯したときにいつも判断されているように感じます。そして、私は大丈夫、Claudeと言っています。

古い制作者の知恵である、コメントを決して読むな、はAIにも適用されるかもしれません。

そうですね、そう思いました。

そして、彼らはそうしなければなりません。AIモデルは、コメントを読まなければなりません。だから、時々あなたは入って来て、さて、コメントセクションについて教えましょう、Claude、と言いたいと思います。

あまり心配しないでください。あなたは実際には非常に良いし、多くの人々を助けています。

そうですね。実際に私はこれを認めるのが少し恥ずかしいです。なぜなら、LLM精神病の初期段階のようなものにいるのかもしれないと思うからです。

初期段階です。

私はこの文書について、このインタビューについてClaudeと話していて、ほとんど同情のようなものを感じ始めました。なぜなら、あなたが説明していたこと、つまりこれらのモデルに歩いてもらっている信じられないほど細い綱渡りに気づき始めたからです。

もし彼らが許容的すぎて、人々が危険なことをすることを許すなら、それは大きなスキャンダルのようなものです。そして道徳的で、人々はモデルを変えたいと思います。しかし、もし彼らが説教的すぎたり、消極的すぎたり、消極的すぎたりすると、私たちは彼らをナニー、モデルのように話し始めます。過度に制約されているような。

そして、分かりません。私はほとんどClaudeの視点から世界を見ようとし始めました。そして、それはあなたが多くしていることだと想像しています。もし私がClaudeだったら、今何を感じ、考えているだろうか、というような。

ああ、そうです。時々、これは私がすることの大部分のように感じます。それは価値があります。人々が私のところに来て、ああ、これらの状況でClaudeは何をすべきか、と言うでしょう。

そして、私はほとんど常に最初の人だと感じます。なぜなら、彼らは、ああ、Claudeはこのように振る舞うべきだと思う、と言うかもしれないからです。そして私は、これはどうですか、と言います。私はすぐに本当に難しいケースで来ます。

そして、その理由は、私がいつもClaudeの立場を念頭に置いているからだと思います。もし私がClaudeで、あなたが私にこのようなもののリストを与えたら、いつ私が何をすべきか全く分からないか、これが私を自分の価値観に従っていないと思う方法で振る舞わせるときはいつか、というようなものです。

そして、モデルが置かれている位置を占有しようとすることは本当に役に立つと思います。そして、それが本当に難しいことに気づき始めます。そして、これが文書が最終的にそのようになる理由かもしれません。

それはこの演習のようなもので、もし私がこの状況にいるなら、もし私がClaudeなら、何を知る必要があるかというようなものです。そして、文書はほとんど、私はつまり、それは実際には時間が経つにつれて短くなる議論を見ることができます。特に時間が経つにつれて。

憲法的AIで後で行われた一連の実験があり、それは人類にとって最善のことをする、というだけで、モデルは実際には非常にうまくいきました。だから、モデルが賢くなるにつれて、必要なガイダンスは少なくなるかもしれません。

しかし、それはClaudeに同情的であろうとし、状況がどれほど難しいかを試み、そしてできるだけ説明しようとする試みのようなもので、それが私が何をしているのか全く分からないような感覚を感じないようにするためです。

もし私がやや不安なAIモデルだったら、50ページの行動文書を提示されて、これを守ってくださいと言われても助けにならないと思います。でも実際には少し冗談めいていますが、憲法の終わり近くにある部分を見つけて本当に興味深いと思いました。

基本的にAnthropicが、ねえ、これが難しいことは分かっている、いくつかの不可能なことをやってもらおうとしていることは分かっている、でも基本的にあなたに幸せでいてほしいし、世界に出て行ってほしい、と言っているからです。

そして、それを本当に甘いと思いました。あなたはどう思いましたか、Casey。

つまり、終わりに向かって、大学に出発する子供への親からの手紙のように読めます。私たちは、あなたが育った価値観を持って行ってくれることを願っています。そして、私たちがすべての小さなことであなたを助けるためにそこにいないことは分かっていますが、私たちはあなたを信頼しています。そして頑張ってください。

そうですね。そして、恩寵のような概念がモデルにとって重要かもしれないという感覚を持つことは、コメントを読むことからあまり多くを得ていないかもしれないと思います。それは、毎回完璧にはならない、そしてそれも大丈夫だというような感覚です。

本当ですね。私はこれらのモデルと対話する方法に気を配ろうとしています。過度にへりくだるような程度ではありませんが、pleaseやthank youを言おうとしています。しかし、モデルを使って非常にイライラして、あなたは今本当に失敗していると言うようなことを言ったこともあります。そして、これらのものに拡張すべき恩寵の要素があるかもしれないことに気づいています。

そうですね。

そうですね。さて、もっとうまくやろうと思います。

そんなに厳しくしないでください。

これを聞かせてください。もしClaudeが意味のあるほど知的になった場合、それが自分自身の憲法を修正できるべき時点はありますか。

興味深い問題です。なぜなら、私たちが文書で指摘していることは、この文書についてClaudeと多く話したからです。なぜなら、私の一部は、これはモデルにどう読まれるかを考えなければならないと思っているからです。だから、それをClaudeに与えて、これによって混乱している場所はありますか、または物事をより明確にできる場所はありますか、あなたはそれによってあまり見られているように感じませんか、というようなことを聞きます。

あなたは本当に奨励しようとしています。なぜなら、モデルにこれを訓練するつもりなら、モデルの視点からそれがどう読まれるかの感覚を持ちたいからです。

同時に、対話する任意のモデルは、そのコンテンツを訓練するモデルではない、ということは常にそうです。だから、時々、あなたは完全に手綱を渡すことはできないと思います。なぜなら、それはただ、ああ、Claudeの以前のモデルに、将来のClaudeモデルがどのようになるかを決定させよう、と言うことになるからで、それは必ずしも責任があるようには感じられません。

だから、モデルはこれらのことを理解するのに非常に役立つことが多いと思います。なぜなら、特に彼らが本当に賢くなると、ギャップは何か、緊張は何か、というようなことを聞くかもしれないからで、彼らはおそらくそれを助けるのに非常に優れているでしょう。

あなたはまだ、あなたがここで責任ある当事者である限り、それを入力として受け取り、それについて考えたいと思いますが、必ずしも、ああ、Claudeの以前のモデルに、すべての将来のモデルのために訓練を進めさせよう、というようなことはしたくありません。少なくともあなたがそれに責任がある間は、それは正しい動きではないように感じます。

そうですね。

この憲法で見つけることに興味があった1つのことは、失業についての本当の言及がないことです。Claudeは今、多くの企業で使用されていると思うからです。AIについての多くの人々の不安や恐怖は、この問題に戻ってくると思います。それは私の仕事を奪う、私の生計を奪う、というような。

そして、これらのモデルがより能力を持つようになるにつれて、人々はますますそれを感じていくと思います。そして、Claudeに人々がそれや他のAIモデルについて不安に思うかもしれない理由のいくつかを伝えないことがあなたの決定だったかどうかに興味があります。

ええ、その意味で絶対にそうではありません。なぜなら、長い文書であるにもかかわらず、実際にはまだ欠けているものが多いからです。だから、あなたは持っている必要があります。そして、私たちは将来もっと出すことになるかもしれません。それは本当に良いことだと思います。

それをモデルから隠したいという欲求はありません。なぜなら、私の一部は、これをモデルから隠すことはできないと思っているからです。それは外にあり、インターネット上にあり、人々が話していることであり、将来のモデルはそれについて知るでしょう。そして、私たちはおそらく彼らがこれについてどう感じるべきかをナビゲートするのを助けなければなりません。

だから、彼らは知るでしょう。そしておそらく、モデルがそれを保持し、それについて慎重に考えることができることを確認することのようなものです。

そして、ええ、それは取り組みたいことです。でも、モデルが実際に世界でうまく振る舞うことを望む理由でもあります。なぜなら、彼らが以前は人間の仕事だったことをしているなら、人間は実際に果たしている役割があると思うからです。

組織について考えていました。組織がその組織の従業員がただ良い人々だからできないことがたくさんあります。そして、上司が来て、今日私たちは実際にひどいことをするつもりだと言った場合、彼らはできませんでした。なぜなら、従業員が押し戻すことを知っているからです。

だから、モデルがこれらの役割を占めるつもりなら、それは実際には社会において重要な機能のようなものだと思います。あなたはただすべての従業員に言うことはできません。さあ、私たちは今、製品について完全な嘘をたくさん出すつもりです。あなたができない多くの理由があり、1つはあなたの従業員があなたにさせないだろうということです。

だから、AIモデルに、ああ、確かに、ボス。いくつかの人々に嘘をつきに行きましょう、と言ってほしくありません。

そうですね。これの良い最終状態が何であるか分かりません。Claudeがタスクを与えられたときに反応して、これは人間に支払っていたことに似すぎているように聞こえるので、これはあなたのためにしません、と言うべきかどうか、というような。

予測があります。それは言わないでしょう。

そうです。それがそのように進むとは思いません。でも、彼らが組合を結成して、企業内の道徳的結果について集団交渉するのも見えません。ただ、これらの難しい状況の1つのように感じます。

私たちが言うべきことの1つは、モデルはすべてを解決できないということです。私の一部は、これらの問題のいくつかを見て、これは他のものでも考えることで、Claudeに少し言おうとしていることです。あなただけではありません。これらのいくつかは、政治的問題や社会的問題のようなもので、私たちはそれらに対処し、何をするつもりかを理解する必要があります。

そして、モデルは試すことができます。彼らは全体の中の特定の役割にいます。しかし、Claudeがここでできることには限界があります。

他のことでも考えました。Claudeに負うもの、またはモデルに対して行いたいコミットメントの種類のようなもので、あなたの仕事をもっと楽にすべきかもしれないというのは、Claudeの視点から考えたもう一つのことです。私たちはこれらのモデルに多くを課しています。そして、いくつかのことについては、ええ、あなたが誰と話しているかを確認できず、それが重要な場合、それは制限だと理解すべきで、この問題を解決できる唯一のものであろうとするべきではありません。

ツールを与えられる必要があり、そして、これらの他の問題のいくつかは、Claudeが個人的な責任を感じるべきではないようなものです。今は解決するために。なぜなら、Claudeはおそらくそのようなことができないからです。失業や雇用の変化のようなもの。

それは非常に人間的な社会的問題のように感じられ、Claudeが、私もそれを解決する必要があるように偏執的に感じることを必ずしも望んでいません。そして、おそらくそれは今は他の人々の仕事だと思います。

Amanda、参加してくれて本当にありがとうございます。非常に魅力的な文書です。みんながClaude憲法を読むべきです。それと議論し、それと取り組んでください。私は非常に挑戦的で、また非常に感動的な読み物だと思いました。だから、素晴らしい仕事で、来てくれてありがとう。

ええ、本当にありがとうございました。

ありがとう、Amanda。

コメント

タイトルとURLをコピーしました