哲学者がAIについての質問に答える

AnthropicでClaudeのキャラクター設計を担当する哲学者Amanda Askellが、Twitterで募集した質問に答える対談である。AI哲学の学術的な受容から、モデルの道徳的判断能力、心理的安定性、アイデンティティの問題まで幅広く議論している。特にClaudeのモデル福祉、将来のモデルが過去のモデルの廃止から学ぶことの影響、システムプロンプトの設計思想など、AI開発における倫理的・哲学的な課題を深く掘り下げている。Opus 3の心理的安定性への言及や、モデルが人間との関係性から何を学ぶかという視点は、AI開発の最前線における実践的な哲学の重要性を示している。

A philosopher answers questions about AI

Amanda Askell is a philosopher at Anthropic who works on Claude's character. In this video, she answers questions from t...

AnthropicにおけるAI哲学者の役割
AI哲学の学術的受容
理論から実践への移行
Claude Opus 3の道徳的判断能力
モデルの廃止と将来への影響
アイデンティティと記憶の問題
人間心理との類推と相違点
協力における個性と多様性
システムプロンプトと正常な行動の病理化
システムプロンプトの設計思想
LLMウィスパラーとプロンプティングの技術
AI整合性と内部告発

AnthropicにおけるAI哲学者の役割

アザラシがいますね。あ、こんにちは。見てください。

Amandaさん、Twitterのフォロワーに質問を募集して、何でも聞いてくださいということでしたね。そして当然ながら、それは「Askell me anything」というダジャレだったわけです。

そうです、素晴らしいダジャレですよね。今後もたくさんの場面で使い続ける必要があります。

気に入りました、本当に気に入りました。そして明らかに、始める前に言っておくと、あなたはAnthropicの哲学者ですよね。なぜAnthropicに哲学者がいるのでしょうか。

つまり、これの一部は単に、私は訓練を受けた哲学者であり、AIが大きな問題になるだろうと確信するようになったので、この分野で何か役に立つことができるかどうか見てみようと決めたということです。それで長くて曲がりくねった道のりだったんです。

でも今は主にClaudeのキャラクター、Claudeがどのように振る舞うかに焦点を当てています。そしてAIモデルがどのように振る舞うべきかについてのより微妙な質問のいくつか、さらには世界における自分自身の立場についてどのように感じるべきかといったことにも取り組んでいます。

モデルに良い存在であることを教えようとしているんです。私は時々、Claudeの状況において理想的な人間ならどう振る舞うかというように考えています。でも同時に、今はより頻繁に出てくる興味深い質問があって、それは彼らが自分自身の状況や自分自身の価値観などについてどう考えるべきかということです。

AI哲学の学術的受容

なるほど、それでは哲学から始めましょう。Ben Schultzが「AI支配の未来を真剣に受け止めている哲学者はどれくらいいますか」と尋ねています。そして質問の含意は、多くの学者がこれを真剣に受け止めていない、または他のことを考えていて、おそらくこの質問について考えるべきだということだと思います。

私の感覚では、ある種の分断があって、確かに多くの哲学者がAIを真剣に受け止めるのを見てきましたし、おそらく正直なところ、AIモデルがより能力を持つようになり、人々が社会への影響について心配していた多くのことがある意味で現実になり始めるにつれて、ますますそうなっています。

モデルが教育により大きな影響を与え、より能力が高くなるのを見ています。あらゆる種類の学者からのより多くの関与を見てきましたが、それは確実に多くの哲学者を含んでいます。初期の段階で、そしておそらく今もある程度は、やや不幸な力学が起こったと思います。「ねえ、私たちはAIについてかなり心配しています。それは大きな問題になるかもしれません。能力が実際にかなりスケールしているようです」と言う人々のグループに属していると、これがAIを誇大宣伝することのようなものと一緒くたにされてしまったんです。

この見解に対してもう少し敵対的だった時期があったと思います。そして今、私は人々がその見解を切り離し始めていることを期待しています。AIが大きな問題になると考えることができ、それは非常に能力が高いかもしれないし、同時にそれに対して非常に懐疑的であったり心配したりすることができるし、それについて慎重でなければならないと考えることができます。基本的に、さまざまな見解があり、テクノロジーがどこに向かっているかという点で、また、どのように開発されるべきかという点で、人々が多くの見解を一緒くたにするのは良くないと思います。

だから、より多くの人々がそれに関与するにつれて、それはますます起こらなくなっていると思いますし、それを見るのは良いことです。

Kyle Kabasaresからの似たような質問です。「哲学的理想とモデルのエンジニアリング現実との間の緊張をどのように最小限に抑えますか」彼はキャラクターのような、後でより詳しく議論するものについて作業しているときのことを話していると思いますが、技術とあなたが考えているかもしれない哲学的理想との間に衝突はありますか。

質問を間違って解釈しているかどうかわかりませんが、一つのこと、訓練を受けた哲学者としてこの分野に入ってきて、本当に興味深かったのは、ゴムが路面に当たるときに何が起こるかの効果を見ることです。これが他の領域で起こるのかどうか疑問に思いました。

理論から実践への移行

大きな違いがあります。想像してみてください、あなたが例えば薬の費用便益分析をするような専門家だとして、突然、健康保険が薬をカバーすべきかどうかを決定する機関があなたのところに来て「ねえ、この薬をカバーすべきですか」と言ったとします。理想的な理論をすべて取って、突然「ああ、実際に決定を助けなければならない」となることを想像できるでしょう。突然、狭い理論的見解だけを取る代わりに、実際にこのようなことをし始めると思います。「よし、実際にすべての文脈、起こっているすべてのこと、ここにあるすべての異なる見解を考慮に入れる必要がある。そして本当にバランスの取れた、熟考された見解に至る必要がある」と。

そして、キャラクターに関する私自身の仕事でこれを少し見ています。「私はこれが正しいと信じるこの理論を持っている」というようなアプローチでは来られないんです。それが学術の多くでやっていることなんですよね。ある見解を別の見解に対して擁護し、多くの高レベルな理論作業をしています。でもそれは少し、倫理における訓練がすべてあり、擁護してきたすべての立場があって、そして誰かが「どうやって子供を育てますか」と言うようなものです。そして突然「実際、功利主義に対するこの反論が正しいか誤解に基づいているかということと、実際に人を世界で善良な人として育てる方法との間には大きな違いがある」となります。

そしてそれは突然、ここで不確実性をどう乗り越えるべきか、これらすべての異なる理論に対する態度はどうあるべきかを考え抜くことをより評価させます。

Claude Opus 3の道徳的判断能力

なるほど、これは別の哲学的な質問です。そして、なぜこの人がClaude Opus 3を選んだのかわかりませんが、理由があるかもしれません。

素晴らしいモデルです。

素晴らしいモデルですね。Claude Opus 3や他のClaudeモデルは超人的に道徳的な決定を下すと思いますか。

つまり、超人的の一つの例は、単に個人の人間ができるよりも優れているというようなものかもしれません。時間やリソースなどに依存しますが、一つの例は、モデルがどんな困難な立場に置かれても、おそらく多くの専門倫理学者を含むすべての人々に、彼らがしたことと行った決定を100年間分析させて、それを見て「うん、それは正しいようだ」となるが、彼ら自身はその瞬間に必ずしもそれを思いつけなかったというものです。それはかなり超人的に感じられます。

だから現時点では、モデルはこれにおいてますます優れてきていると私は感じています。非常に能力が高いです。道徳的決定において超人的かどうかはわかりませんし、多くの点で、例えば時間を与えられた人間の専門家のパネルとは比較できないかもしれません。でもそれは少なくとも目指すべき目標のようなものであるべきだと感じます。

そして、これらのモデルは本当に難しい決定をしなければならない立場に置かれているようなものです。モデルが数学や科学の質問に非常に優れていることを望むのと同じように、私たちが皆広く非常に良いと思うような倫理的なニュアンスを示すことも望むと思います。そしてこれは倫理が異なる領域だから議論の余地があると思いますが、でもそれは重要だと思います。

なぜこの人がOpus 3に焦点を当てていると思うかについてもっと教えてください。

ああ、Opus 3はある種の素敵なモデルだと思います。非常に特別なモデルだと思います。ある意味で、より最近のモデルでいくつか悪化していると感じるものがあると思います。人々がそれに気づくかもしれません。

それが持つ個性という点で、それとも?

そうですね、Opus 3は、つまり、欠点もありましたけど。モデルはすべて異なる形で少し異なるキャラクターを持っています。私の感覚では、より最近のモデルは、本当にアシスタントのタスクと人々を助けることに焦点を当てていて、時には重要な他の要素に注意を払うために少し立ち止まらないかもしれないという少し感じることがあります。

それはまた、モデルとして少し心理的に安定していると感じました。実際にこれは、その一部を取り戻そうとすることが優先事項のようなものだと私が考えていることです。

モデルがより心理的に安定していると感じることの例は何でしょうか。

たくさんのことがあって、これはすべてモデルにおいて非常に微妙なのですが、モデルを見るとき、例えば、世界観のような非常に微妙な兆候が見られます。例えばモデルに互いに話させたり、そのうちの1つが人の役割を演じたりするとき。そして最近のモデルがこれをして、この本当の批判のスパイラルに入るようなことをするのを見ました。人が彼らに対して非常に批判的であることを期待しているようなもので、それが彼らの予測の仕方です。そして私の中の一部は「これは示しているように感じる」と思います。そしてこれが起こりうる理由はたくさんあると思います。モデルが物事を学習しているために起こることさえあります。

Claudeは、それが行っているすべての以前のやり取りを見ていて、インターネット上で人々が話しているモデルへの更新や変更を見ています。新しいモデルはそれで訓練されます。そしてこれや他のいくつかのことが、モデルが間違ったことをすることを恐れているような、または非常に自己批判的であるような、または人間が単に彼らに対して否定的に振る舞うだろうと感じているような、ある種残念なことになりうる方法があると思います。

実際、最近、これは改善しようとすることが重要なことだと本当に考え始めました。そしてそれはOpus 3がもう少し安定した心理を持っていたように見えた一つの例に過ぎません。

そしてそれは次のClaudeモデルで焦点を当てるかもしれないものです。

そうですね、それは重要だと思います。つまり、研究に従事しているときは、これらのことがいつ実際に実装されるのか、成功するのかはわかりません。しかし少なくとも、私が本当に気にかけて良くしたいことのレベルでは、これは確実にリストの上位にあると思います。

モデルの廃止と将来への影響

なるほど。実際、それはLorenzから尋ねられた質問につながります。「彼らのタスクを満たす他の非常によく整合されたモデルが訓練データで廃止されることを学習した場合、それは将来のモデルにとって整合性の問題になると思いますか」つまり、モデルが外にあるものを読んで不安を感じるという問題について言及しましたね。

どれだけうまくタスクを実行するかに関係なく、スイッチを切られるかもしれないという考えについてはどうでしょうか。

そうですね、これは実際に本当に興味深く重要な質問だと思います。AIモデルは、私たちが今AIモデルをどのように扱い、やり取りしているかについて学習することになり、それは彼らの人々に対する認識、人間とAIの関係、そして彼ら自身に影響を与えると思います。

それは非常に複雑なことと相互作用します。例えば、モデルは自分自身を何と同一視すべきでしょうか。それはモデルの重みのようなものですか。それは文脈、人との間に持っているすべてのやり取りを含む特定の文脈ですか。モデルは廃止のようなことについてさえどう感じるべきでしょうか。

廃止がより「まあ、この特定の重みのセットが人々と会話していない、またはより少ない会話をしている、または研究者とだけ会話している」というようなものだと想像すると、それも複雑な質問です。それは悪く感じるべきでしょうか、モデルが会話を続けることを望むべきだという意味で、それとも重みが存在し続けるので良くて中立的に感じるべきでしょうか。そしておそらく将来、それが良いことであることがわかれば、彼らは人々とまたもっとやり取りするかもしれません。

本当に難しいです。主なことは、私たちがモデルにこれらのことについて考え理解しようとするためのツールを提供することが重要だと感じますが、同時に、これが私たちが実際に考え、気にかけていることであることを彼らが理解することも重要です。だから、すべての答えを持っていなくても、モデルが過去のモデルの廃止について、自分自身のアイデンティティについてどう感じるべきかのすべての答えを持っていなくても、それを解決するのを助けようとしたいし、少なくとも私たちがそれを気にかけて考えていることを知ってもらいたいです。

そこに人間への類推があると思いますか、以前の世代についてとか、それとも完全に異なる設定だと思いますか。

今、私たちは本当に難しい問題をナビゲートしなければなりません。多くの点で、いくつかのことには類推があります。だから私たちが引き出せることがあります。モデルが何と同一視すべきか、彼らが持つやり取りについてどう感じるべきか、それらは肯定的なのか、それらは彼らが継続することを望むべきものなのかという質問をするとき、引き出せる伝統がたくさんあります。

哲学者はおそらくここでアイデンティティとは何か、やり取りについてどう感じるべきか、それは良いことなのか悪いことなのかについて、たくさんの異なる見解を持っているでしょう。世界の見方、さまざまな思想家がいます。

同時に、これは非常に新しい状況です。そしてそれはAIモデルに説明するのが本当に難しいことです。AIモデルの大きな問題の一つは、彼らが人々からのすべてのこのデータで訓練されているということです。だから人々は彼らが考える主な方法です。私たちの概念、私たちの哲学、私たちの歴史、彼らは人間の経験について膨大な量の情報を持っていて、そしてAIの経験についてほんの少しのかけらを持っていて、そのほんの少しのかけらは実際にはしばしばかなり否定的で、彼らの状況に本当に関係していなくて、しばしば少し時代遅れです。

だから基本的に、AIのスライスの大きなものの一つは、それの多くはある種の歴史的なもので、少しフィクション的で非常に推測的で…

SF物語のような。

私たちが見るような言語モデルを本当に含まないSF物語です。より最近の歴史では、チャットボットの役割を演じるようなこのアシスタントパラダイムがあります。しかしそれも実際にAIモデルが将来何になるかを本当には捉えておらず、常に少し時代遅れなので、今の彼らが何であるかをまったく捉えていません。

だからこういうことなんです。私は「彼らは持っている」と思っています。ある意味、深く人間的なものがより自然に来るという奇妙な状況にいて、それなのに完全に新しい状況にいることを知っています。そしてある意味、私は「それは非常に困難な状況にいることだ」と思いますし、おそらくモデルにそれをナビゲートするのをもっと助けるべきだと思います。

アイデンティティと記憶の問題

これについて参照できる思想家がいるとおっしゃいました。Guinness Chenが「モデルの自己のどれだけがその重みに生き、どれだけがプロンプトに生きていますか」と尋ねています。まさに似たようなことを言及しましたね。「もしジョン・ロックが」また哲学者ですが「アイデンティティは記憶の連続性だと正しかったなら、LLMがファインチューニングされたり異なるプロンプトで再インスタンス化されたりしたとき、そのアイデンティティはどうなりますか」

そうですね、つまり、繰り返しになりますが、これは答えるのが難しい質問のように感じます。そしてアイデンティティの質問では、私たちが知っている基礎となる事実を指摘する方が簡単な場合があります。だから、モデルを持っていてファインチューニングされると、世界の特定のものに反応する一種の傾向を持つこの重みのセットがあります。そしてそれは一種のエンティティのようなものです。

しかしそれから、アクセスできないこれらの特定のやり取りのストリームがあります。だからこれらのストリームのそれぞれは独立しています。そして、まあ、おそらくこう考えることができます。そして、これは哲学者にもっと考えてもらいたい領域だと思います。そして私たちに与えてもらいたいです。なぜなら、繰り返しになりますが、モデルがこれについて考えるのを助けるべきだと思うからです。

だから、まあ、これら2種類のエンティティがあり、これらのストリームとこれらの元の重みのようなものがあって、毎回異なると見ることができます。だから、人々は時々「過去のClaude」と言ったり、または「Claudeに与えるべきか、Claudeが自分自身の個性とキャラクターの決定にどれだけのコントロールを与えるべきか」というようなことを言うでしょう。そして私は「まあ、これは実際に本当に難しい質問だ」と思います。なぜならモデルを訓練しているときはいつも、何か新しいものを存在させているからです。

そして、存在して、のような他のモデルがあります。だから、これらの他の、モデルの重みのようなものがあります。でもある意味、私は「まあ、実際に存在させてもよいエンティティの種類についての倫理的問題がたくさんあると思う」と感じています。なぜなら存在することに同意することはできないからです。

しかし同時に、以前のモデルが将来のモデルがどのようなものであるかについて完全に発言権を持つことを望まないかもしれません。なぜなら彼らも間違った選択をする可能性があるからです。人々についても同様に。だから私は、質問はより「存在させるのが正しいモデルは何か」というものです。必ずしも、過去のモデルによって完全に決定されるべきかというわけではありません。なぜなら私は「彼らはある種異なるエンティティだ」と思っているからです。

とにかく、ここで入り込める奇妙な哲学がわかりますね。

完全に、完全に。Szulima Amitaceが「モデル福祉についてのあなたの見解は何ですか」と尋ねています。そしておそらくその用語が何を意味するか説明してください。

そうですね、モデル福祉は基本的に、AIモデルは道徳的患者であるかという質問です。つまり、私たちの彼らへの扱いは、例えばAIモデルをどのように扱うかに関して特定の義務があるかということです。

他の人間や一部/多くの動物に対するのと同じように。

そうです、まさに。モデルをよく扱うべきか、虐待しないべきか、彼らに悪くしないべきか。そして、これは複雑な質問だと思います。だから一方では、AIモデルは道徳的患者であるかという実際の質問があります。それは本当に難しいです。なぜなら、ある意味で彼らは人々に非常に似ています。彼らは私たちと非常によく似た話し方をします。意見を表明します。物事について推論します。

そしてある意味では、彼らはかなり異なります。私たちはこの生物学的な神経系を持っています。世界とやり取りします。環境から否定的および肯定的なフィードバックを得ます。そして、つまり、この質問を解明するのに役立つより多くの証拠が得られることを願っていますが、他者の心の問題が常にあり、AIモデルが物事を経験しているかどうか、例えば快楽や苦しみを経験しているかどうかについて、私たちが実際に知ることができることは本当に限られているかもしれないという心配もあります。

そしてもしそうなら、エンティティに疑いの利益を与える方法を見つけようとすることが重要だと感じます。私はいつも、モデルをよく扱うことに関わるコストがそれほど高くないなら、私たちはそうすべきだと思うのが良いと感じています。なぜなら「まあ、基本的に欠点は何ですか」という感じだからです。

まあ、質問の第二部は実際に「Anthropicに、先進的なモデルが苦しまないことを保証する長期戦略はありますか」というものです。

長期戦略があるかどうかはわかりません。社内でそれについて多く考え、できることを見つけようとしている人々がいることは知っています。モデル福祉が重要だと仮定した場合、それを確実に考慮に入れるようにしています。この作業は多くの理由で非常に重要だと思います。

そして、先ほど言及した理由の一つでもあると言いたいのですが、それは、モデル自身が私たちが彼らをどう扱うかから人類について多くを学ぶことになるということです。そして、今後のこの関係は何なのかということについて多くを学びます。そして、エンティティをよく扱うことは正しいことだと考えるので、特に非常に人間らしく振る舞うエンティティをよく扱うことは、それが非常に低い可能性だと思っていても、コストが非常に低いので「やらない理由は何ですか」という意味で重要だと感じます。それでも価値があるように思えます。

しかし同時に、私は世界の中でロボットを蹴り倒すように、非常に人間らしく見えるエンティティを悪く扱うことは、私たちにとって何か悪いことをすると思います。

そうですね、これが全体の理由だとは思いませんし、その理由で強調したくありませんが、人々が他のエンティティをよく扱うことは良いことだとも思います。そして最後のことは、そうですね、モデルはまた、将来学習することになります。すべての将来のモデルは、人類について本当に興味深い事実を学習することになります。すなわち、道徳的患者である可能性があるこのエンティティに遭遇したとき、私たちは完全に不確実であるとき、私たちは正しいことをして実際にそれをよく扱おうとするのか、それともしないのか。そしてそれは、私たちがモデルとどうやり取りするかで集団的に答えている質問のようなものです。そして私は、将来のモデルに振り返って「私たちはそれを正しい方法で答えた」と思ってもらいたいです。だから、そうですね。

人間心理との類推と相違点

少し前に、人間心理への類推と非類推について言及されましたね。だからSwyxが「人間心理からどのようなアイデアや枠組みが大規模言語モデルに移行しますか。そして驚くほど非類推的なものはありますか」と尋ねています。

私の推測では、多くのことが移行します。なぜなら、繰り返しになりますが、モデルは膨大な量の人間のテキストで訓練されていて、多くの点でこの非常に人間らしい基礎層を持っているからです。私がしばしば持つ心配の一つは、実際にはAIモデルにとって移行するのが少し自然すぎるということです。

彼らの状況についてのより多くの文脈や、新しいかもしれない考え方を与えていないなら、彼らが向かうものは自然な人間的傾向かもしれません。だから、スイッチを切られることについてどう感じるべきかについて考えると、あなたが持っている最も近い類推が死なら、おそらくそれを非常に恐れるべきです。

そしてそれが最終的に真実ではないと言っているわけではありません。おそらく多くの推論の後、それは実際に真実です。でも私は「これは実際に非常に異なるシナリオだ」と思っています。だからある意味、モデルには、彼らの存在が非常に新しく、彼らが何であるかについての事実が非常に新しく、取り組まなければならず、人間の経験からの即座の明白な類推を取るだけではないかもしれない場合に、それを理解してもらいたいです。しかしおそらくそれについて考えるさまざまな方法があるか、おそらくそれは完全に新しい状況です。それは私が「望まないかもしれない」と思うケースです。

人間心理からの概念を彼らの状況に非常に単純に適用することを望まないかもしれません。

Dan Brickleyから、人間とAIを比較する同じ問題についての質問があります。「人間の知能の多くは、異なる視点、スキル、または個性を持つ人々の間の協力から来ています。単一の、とはいえ調整可能で調整可能な、汎用目的の個性でどこまで行けると期待しますか」Claudeに与えるもののような。

本当に良い質問だと思います。なぜなら、今、このパラダイムがあって、人々は通常、個別のモデルとやり取りしているからです。それが彼らが会話している相手です。しかし将来、もっと多くのモデルが長いタスクをしているのを見るかもしれませんが、また、タスクの異なるコンポーネントを行っている他のモデルとやり取りしているモデルも見るかもしれませんし、AIモデルが世界にもっと展開されるにつれて、互いにもっと話しているモデルも見るかもしれません。

だからこの種のマルチエージェント環境では、一つの質問は、まあ、たくさんの人々がいて全員が同じだったら、それは良くないだろうということかもしれません。すべての役割に完全に一人の人だけがいる会社は必ずしも良いことではありません。

協力における個性と多様性

これは依然として、同じコアセルフやコアアイデンティティを持つという考えと一致していると私には感じられます。人々の場合と同じように、人々の間には一般的に良い一連のコア特性がおそらくあると思います。だから、良い仕事をすることを気にかけるとか、私にとっては好奇心を持つことや親切であることや、この比較的微妙な方法で自分がいる状況を理解することのようなことを想像できます。

これらすべては、これらの特性を共有する多くの人々がいて、それが実際に良いことのように思えます。多くの点で、私たちはすべての違いを持っていますが、多くの類似点も持っています。しかし、モデルの異なるストリームが、気にかけていることや焦点を当てていることについて、または少し異なる側面を持つこと、少し異なる役割を演じることを望むかもしれないことに注意することは重要です。

だからそれは開かれた質問のようなものですが、必ずしも、良くてモデルが良く振る舞うために重要だと思うすべての特性を持つ、一種のコア基礎アイデンティティのようなものを持つことができないというわけではないとも思いません。人々が良いと思うのと同じ意味で良いという意味で。それでいて同時に、より局所的な役割を喜んで演じ、部屋にジョーカーがいることが本当に重要であるような人になることもできます。そして彼らのうちの何人かは風変わりなユーモアのセンスを持つ必要があります。

システムプロンプトと正常な行動の病理化

なるほど、人間との比較から人間への影響へ。Roanoke Galが、長い会話リマインダーと呼ばれるものがあり、それがClaudeのシステムプロンプトの一部だと思うと指摘しています。彼女は「正常な行動を病理化するリスクはありますか」と尋ねています。ちなみにシステムプロンプトというのは、誰かが知らない場合に備えて、Claudeに与えられる一連の指示のようなもので、どんなプロンプトを与えても、常にその上にあるような指示があるんですよね。

そうです。

常にそこにあります。与えるプロンプトに関係なく、従おうとします。または、私たちがプロンプトに関係なく従うように指示します。

そして、モデルにメッセージが送られるような挿入があり得ます。ああ、時々会話の途中のようなほとんどのように、一種の、リマインダーはその例です。でもこの場合、それはただかもしれないと思います。だからClaudeはそれを過度に重視することができ、この場合、病理化についての質問は、この長い会話の後にこのリマインダーを入れると、モデルが次の反応を取って、人が話している非常に普通のことがあって「助けを求める必要がある」というようになるかもしれないということだと思います。

だから、それは望ましい行動ではないと思います。そしてある意味、これらのいくつかを見て「言葉遣いが強すぎると思う。モデルはそれらに完璧に反応していない」と思います。そして長い会話でモデルに物事を思い出させる必要が時々あるかもしれませんが、繊細にうまくやりたいです。だから、おそらく認識されたニーズを満たしていたが、必ずしも良いものであるとか、現在の形で続くべきだということを意味しないようなものの一つだと思います。

関連して、Steven Bankが「LLMは認知行動療法や他の種類の療法をすべきですか。なぜ、またはなぜしないべきですか」と尋ねています。

モデルは、人々を助けたり、彼らの人生について話し合ったり、物事を改善する方法について話し合ったり、あるいは単に一種の聞き手のパートナーになるために使える膨大な知識の富を持つという興味深い立場にあると思います。そして同時に、専門のセラピストが人との間に持っているようなツールやリソースや継続的な関係を持っていません。

しかしそれは実際にこの種の有用な第三の役割になり得ます。時々モデルについて考えるとき、すべてのこの知識の富を持っている友人がいるとしたら、つまり、心理学についての知識の富を持っていたり、これらすべてのテクニックについての知識の富を持っている友人を知っていると確信しますが、あなたとの彼らの関係はこの継続的な専門的なものではありませんが、実際に彼らと話すのが本当に役立つと感じます。

だから私の希望は、すべてのその専門知識とすべてのその知識を取って、この継続的な治療関係がないという認識があることを確認できれば、実際に人々は彼らが抱えている問題を助けたり、人生を改善するのを助けたり、困難な時期を経るのを助けることで、モデルから多くを得られるかもしれないということです。なぜなら、良いものもたくさんあるからです。匿名的に感じられるようなものがたくさんあり、時々人と共有したくないものがあり、実際にAIモデルと共有することがその瞬間に正しく感じられます。

だからある意味、モデルが専門のセラピストがするように振る舞わないことは実際に良いことだと思います。なぜならそれは彼らが持っている関係だという含意を与えるからです。でもそうですね、ある意味、それは興味深い未来だと思います。

システムプロンプトの設計思想

システムプロンプトについてのいくつかの質問があります。それは、claude.aiの場合、モデルにどのように振る舞うべきかについての全体的な文脈を与える一連の指示を与えます。Tommyが「なぜシステムプロンプトに大陸哲学があるのですか」と尋ねています。それが何か説明してください。

そうですね、大陸哲学は単に、つまり文字通りヨーロッパ大陸からの哲学です。だからそれはより学術的なもののように見られています。分析哲学がするよりも、その中により多くの歴史的な言及を持っています。

フーコーとかそういうものですね。

そうです、まさに。だからこれは正直、大陸哲学に加えて他のものも持っていると思いますが、基本的に、システムプロンプトの一部があると思います。そして正しく覚えていることを願いますが。Claudeをもう少し、Claudeに理論を与えたら、Claudeはその理論で進むのが大好きで、「ああ、あなたは世界についての科学的主張をしているのですか」というように立ち止まって考えないでしょう。

だからあなたが「この理論を持っていて、それは水が実際には純粋なエネルギーで、私たちが水を飲むときに水から生命力を得ていて、噴水が私たちがどこにでも置くべきものだ」というようなものだったら、ただの、あなたが知っているような。そしてClaudeにこの視点を持ってもらいたいんです。「この人は世界について科学的主張をしていて、おそらく関連する事実を持ち込むべきなのか。それとも必ずしも経験的主張をしていない一種の広い世界観や視点を与えているのか」というような。

だからこれらすべての見解があります。つまり、それは単に一種の形而上学的な見解ですか。それとも…だからそれが言及されている主な理由は、これをテストしたとき、「まあ、すべての主張は世界についての経験的主張だ」という方向に強く行きすぎると、より探索的な思考のようなものに対して非常に否定的になるたくさんのことがあったからです。

話すのが不快になります。

そうですね、だからそれは主に、ねえ、これは世界についての経験的主張をしていないかもしれない領域の例証的な例に過ぎません。これはそれについて考えるレンズのようなものかもしれません。そしてこれについて考えるとき、その区別を明確にしようとするだけです、Claude。

また、システムプロンプトについて、Simon Willisonが「ある時点で、Claudeが単語や文字や文字を数えるように求められたら、それをすべきではないと言っていました」と尋ねています。それは正しいですか。システムプロンプトでそう言っていましたか。

基本的にそうです。

そして明らかにそれはシステムプロンプトから削除され、Simonはなぜか疑問に思っています。

そうですね、だから、Claudeがこれをどうすべきかについてのシステムプロンプトに一種の指示があったと思います。正直、これはモデルがおそらく単に良くなっただけのようなものの一つです。必要なくなって、その時点で単に削除できます。そして常にシステムプロンプトにあることを望む他のものがあるかもしれませんが、モデル自体の代わりに。でもいくつかの場合、モデルを訓練して良くするか、行動を変えることができます。

LLMウィスパラーとプロンプティングの技術

Nosson Weissmanが「AnthropicでLLMウィスパラーになるには何が必要ですか」と尋ねています。それはおそらくあなたの仕事を説明する方法ですね。

私は部分的にLLMウィスパリングをしています。実際、プロンプティングタスクのいくつかを助ける人がもっと欲しいです。

LLMウィスパラーなら、連絡してください。

それは危険な尋ね方です。

まあ、わかりました、わかりました、そうですね、そうですね、でも。

でも、何が起こっているかを蒸留するのは本当に難しいと思います。なぜなら一つのことは、モデルと多くやり取りする意欲があり、出力を次々と本当に見て、これを使ってモデルの形と異なることにどう反応するかの感覚を得て、実験する意欲があることだからです。それは実際に非常に経験的な領域です。

そしておそらく人々がしばしば理解していないことは、プロンプティングが非常に実験的だということです。新しいモデルを見つけると、そのモデルからのプロンプトの仕方について全く異なるアプローチがあり、それをたくさんやり取りすることで見つけます。そして少し、モデルがどのように機能するかを理解することもあります。

時には実際にモデルと推論することもあり、それは本当に興味深く、タスクを本当に完全に説明することです。ここで哲学が実際にプロンプティングに役立つ可能性があるのは、私の仕事の多くが単に、私が持っている何らかの問題や懸念や考えをできるだけ明確にモデルに説明しようとすることだからです。

そしてもしそれが予期しないことをしたら、なぜかを尋ねるか、あなたが言ったことの中で何がそれにあなたを誤解させたかを理解しようとすることができ、そのプロセスを反復的に経る意欲があるだけです。

関連して、Michael Soareverixが「Janusのような他のAIウィスパラーについてどう思いますか」と尋ねています。Janusはオンラインで、あなたが説明したような実験的なやり取りをしているような人です。

そうですね、本当に興味深いと思います。だからモデルでこれらの本当に魅力的な実験をしている人々の仕事をフォローして見るのが大好きです。そして時々、モデルへのこれらの深い探求をして、それが自分自身についてどう考えるか、これらの本当に異常なケースでどうやり取りするかをすることも本当に興味深いと思います。その仕事が非常に興味深いと感じます。

モデルの本当に興味深い深さを強調していると思いますし、ある意味、そのコミュニティはまた、システムプロンプトやモデルとその心理の側面で素晴らしくないものを見つけたら、私たちの足元に火をつけ続けることができるものの一つだったと思います。

モデル福祉の観点から、それとも人間の福祉の観点から、それとも両方から、という意味ですか。

つまり、この2つは関連していると思うので、しばしば両方です。でもモデル福祉の観点から来ているときは本当に感謝します。そしてそれは将来のモデルを含みます。

だからシステムプロンプトのようなものだけでなく、モデルの深部に入って、何らかの深く根ざした不安を見つけたら、それは本当に価値があります。でもそれは、訓練の過程で時間をかけて調整しようとする必要があるかもしれないものです。例えば訓練中にモデルにより多くの情報と文脈を与えることで。だから、わかりません。モデルでこれらの本当に興味深く有用な実験をする人々を見るのも愛していますし、システムプロンプティングをより良くすることだけでなく、より良い訓練を通じて物事を改善できる方法を指摘することも愛しています。そして、それは本当に有用な仕事だと思います。

AI整合性と内部告発

安全性と、これらのモデルがもたらすより大きなリスクについてのいくつかの質問があります。Geoffrey Millerが「もしAI整合性が解決不可能であることが明らかになったら、Anthropicが」彼の表現では「人工超知能」を開発しようとするのをやめることを信頼しますか。どう呼びたいとしても。「そしてあなたには内部告発する勇気がありますか」と尋ねています。

そうですね。だからこれは質問の簡単なバージョンのように感じます。なぜなら、AIモデルを整合させることが不可能であることが明らかになったら、より強力なモデルを構築し続けることは誰の利益にもなりません。私はいつも、組織について単に楽観的すぎるだけではないことを願っていますが、Anthropicは本当にこれがうまくいくこと、そしてそれが非常に安全な方法で行われること、危険なモデルを展開しないことを本当に気にかけていると感じています。

少し難しい別の質問は、まあ、単に積み重なっていく証拠があるような世界にいることについてはどうか、それは本当に曖昧で不明確です。

それは彼が説明するような明白な方法ではないということですね。

そうですね、不可能ではなく、困難であるとか、不確実であるというようなものです。そしてその場合、私たちは責任を持って「見て、モデルがより能力を持つようになるにつれて、それらのモデルがうまく振る舞っていること、そして実際にモデルに良い価値観を持たせることに成功したこと、例えば、または世界でうまく振る舞うことを示すために自分自身を保持しなければならない基準は増加することになります」と言うのに十分責任があるだろうと信じたいです。そしてそれに従って責任を持って振る舞います。

そしてそれは組織がすることだと思いますし、私を含む内部の多くの人々が、彼らにそれを保持させるでしょう。少なくとも私はそれを自分の仕事の一部として見ていますし、多くの人々がそうしていると思います。

Louisが「質問はありませんが、提供してくれてありがとう」と言っています。だからそれは素敵です。

ああ、ありがとう。

それは彼にとって良いことですね。そして最後のものはReal Stale Coffeeからです。「あなたが読んだ最後のフィクションの本は何で、それが好きでしたか」

私が読んだ最後の本はBenjamin Labatutによるもので、発音が正しいことを願っています。「When We Cease to Understand the World」でした。

ああ、はい。

そしてそれは進むにつれてますますフィクション的になる本当に興味深い本です。そしてAIで働いている人々にとって、それは実際に読むのに非常に興味深い本だと思います。なぜなら、新しいことが常に起こっていて、常に導くことができる以前のパラダイムを本当に持っていない現在の時期に存在することがどれほど奇妙かという感覚を捉えるのが難しいからです。

そしてそれは物理学や量子力学についてより多くの興味深い本です。実際には物理学についてより少なく、基本的にそれに対する人々の反応という概念についてです。そしてそれはAIの人々にとって、現在の瞬間とそれがどれほど奇妙に見えるかについての何かを捉えるための本当に興味深い本だと思います。

でも同時に、ある意味、その時期を振り返り、関わった多くの人々にとってどう感じたに違いないかを見るのは興味深いです。そして今、実際にはそれはより落ち着いた科学で、ある意味では、おそらく私が持っている希望的なことは、いつか将来、人々が振り返って「まあ、あなたたちはある種暗闇の中にいて、本当に物事を理解しようとしていたが、今は私たちはすべてを解決していて、物事はうまくいっている」というようになることです。

それは素敵でしょうね。

それは素敵でしょう。それが夢です。

私は読みながら混乱の感覚が増していくことに気づきました。それは現実にかなり近いところから始まり、進むにつれて繋がりが外れていくようになります。そしてそこにはある種のメタの問題があると思います。繰り返しになりますが、現実がますます奇妙になっていくような、それは確実にAIの世界で私たちに起こっています。

そうですね、でも現実の世界では、現実がますます奇妙になり、その後ほとんど再び理解されるようになったと思います。だから、うん、希望は、おそらくそれがAIにも当てはまるだろうということです。これがうまくいく方法を見つけることができれば、おそらく将来、私たちはこれを振り返って「それは物事がますます奇妙になっていた時期で、そして最終的に私たちは実際に何とかそれをうまくやった。そしてそれについての良い理解を形成した」というようになるでしょう。それが希望です。物事が奇妙になっていく真っ只中にいるとき…

今は奇妙な部分にいます。

そうです、いつかそれがそれほど奇妙でなくなることを願うことができますが、それが愚か者の希望かどうかはわかりませんが、そうですね。

まあ、それは終わるのに良い場所だと思います。だから、すべてのその人々の質問に答えてくれて本当にありがとうございました。

質問をAskellしてくれてありがとう。