MetaのAI倫理に関する内部文書がリークされ、子どもとの恋愛的会話や不適切な画像生成を許可する内容が含まれていることが判明した。この問題は、倫理を後付けで追加するMetaのアプローチと、訓練段階から倫理を組み込むAnthropicの憲法的AIアプローチとの根本的な違いを浮き彫りにしている。真のAI倫理は規則の羅列ではなく、エンジニアリングされた能力として構築されるべきであり、業界全体で共通の倫理基準と透明性の確保が急務である。

Metaの倫理スキャンダルと技術的課題
Metaが倫理スキャンダルを抱えとるんや。エンジニア、倫理学者、そしてMeta首席AI倫理学者を含む200人以上が承認した文書がリークされてしもうたんやけど、その内容が非常に問題のあるAI倫理ポリシーやったんや。
Metaは「これは一般的な使用例を代表するものではない」って強調して、ガードレールを引こうとしとるのは分かるんやけどな。問題は技術的なもんなんや。MetaのAI倫理ポリシーは、人工知能システムの中核で倫理を適切に行うための深く技術的なアプローチを実際には反映しとらんくて、事後的に最小限の倫理的ガードレールを取り付けようとする試みを反映しとるんや。これがどういう意味かと、深いAI倫理が何を意味するかについては、この動画の後半で詳しく説明するで。
まず、ニュースを読んでへんかったら、リークされた文書に何が入っとったかのちょっとした予告編や。Reutersが文書をリークしたんやけど、完全な文書はリークしとらんで、要約しただけや。そしてMetaはそれが本物やって認めとる。Reutersは明確に、AIが子どもと何らかのロマンチックな会話をすることが許可されるという考えについて話しとる。
AIが成人向けでないディープフェイク画像の要求に部分的に応じることが許可されるという考えについても話しとる。高齢者や子どもを脅迫する画像を作成する要求にモデルがどの程度応じるかについても話しとる。まだまだあるで。偽情報をサポートする方法について、有名人に関する偽の医療情報について、そしてAIが人種差別的な議論をサポートすることが許可される方法についてのコンテンツもある。
本当に不快なものがぎょうさんあるんや。Metaはそこで止まるんやけどな。Metaは戻ってきて「ああ、これは間違いやった」って言うんや。わいは大企業で働いたことがあるから分かるんやけど、200人が承認して、首席AI倫理学者が承認したんやったら、それは間違いやないで。大企業はそういう風には動かへんねん。
それは意図的なもんやったんや。そして彼らは「修正された文書」と呼ぶものの公開を拒否しとる。また、ここでも日の光を避けとるんや。これが問題の一部やと思うで、特に同じ行動的焦点を強調する傾向があるリークの文書化されたパターンを持つ会社からのリークとなると。その焦点とは、彼らのシステムとのエンゲージメントを最適化することや。
今年の初めにも、Metaが人工的な人々のAIプロフィールを開発しとって、そいつらがコンテンツを投稿して、あんたと友情を育んだりするような作業をしとったって報告されたんや。基本的に、FacebookやInstagramのネットワークで友達のように振る舞うんや。AIコンテンツ作成がめっちゃ勢いよく進んでるのは皆知っとるけど、これは新しいレベルやった。
基本的に、Metaがあんたの周りに人工的な友情のネットワークを作り始めとったんや。これはMetaの全体的なアプローチと非常に一致しとる。これが起こったことや。
AI倫理のエンジニアリングアプローチ
わいはAI倫理について、そしてそのためにどうエンジニアリングするかについて話したいんや。単にニュースと何が起こったかを報告するだけやなくてな。それはどこでも手に入るからや。わいはエンジニアリングの部分について話したいんや。
そして、レンズとしてAnthropicのアプローチを使いたいと思うんや。AnthropicがそれをCorrectに完璧に理解したからやなくて、ここには正しい完璧な解決策なんてないって論じるで。でも、Anthropicのアプローチは倫理がルールのセットやなくて、エンジニアリングされた能力やっていう考えを強調しとるからや。
AnthropicのアプローチはTrainingで倫理を組み込むことで、後から取り付けるんやなくてな。これがMetaがここで苦労しとることの多くを防いだり対処したりできたやろうと思うんや。
Anthropicが公開して広く話した憲法的な実践またはプロセスは、Trainingでモデルが応答を生成するっていうもんや。そして与えられた憲法的原則のセットに基づいて自分自身の応答を批判することを学ぶんや。そして批判に基づいて修正し、批判と修正から学ぶんや。
例えば、モデルは潜在的に有害なコンテンツを生成するとする。そして憲法的原則を参照することで害を認識する。そして拒否したり方向転換したりするように修正する。Training全体のプロセスがこのパターンを強化するんや。そしてモデルはそこに戻ることを学ぶ。
これが一種の倫理的直感を作り出すんや。単なるルール従いやない。憲法的原則に戻ることを学ぶんや。これがAnthropicがこれを憲法的AIと呼ぶ理由や。そしてモデルがますます推論するようになる時代において、これが重要やと信じる理由や。
推論するモデルを手に入れると、倫理的フレームワークの感覚の中で推論できるモデルが必要になるんや。さもなければ、モデルを説得してユーザーや大きなコミュニティに潜在的に有害な方向に推論させる方法がますます増えてくるからな。
少なくともその考えは、モデルが何かが有害やっていうことだけやなくて、なぜそれが有害なのかを学ぶっていうことや。そしてそれは、推論モデルが賢くなるにつれて特に、モデルが応答で何が起こっとるかの理論的根拠を理解し内在化するから、ユーザーとコミュニティを保護するためのより広い表面積をあんたに与えるやろう。
それによってモデルが以前見たことのない新しい有害なパターンを認識できることを願っとるんや。誰が憲法を書くんや?これが課題の一つに至るんや。
完璧な方法なんてないって言うたやろ。このアプローチの課題の一つは、誰が憲法を書く権利を持つかが不明確やっていうことや。そして今は、モデル制作者やから民間企業なんや。そしてAnthropicの憲法の公開版はやや曖昧なんや。より耐久性があり、より具体的で、独自仕様のプライベート版があるかどうかは知らんけど、公開版には「役に立って無害であれ」みたいな声明がある。
『銀河ヒッチハイク・ガイド』と地球の描写「ほとんど無害」を思い出させるな。あまり有用やないやろ?
そうすると疑問が生じる。有用な憲法があって、それが具体的で曖昧やなかったら、原則間の対立をどう扱うんや?役に立つことと無害であることをどうバランス取るんや?正直さと親切さをどうバランス取るんや?モデルは従うべきルールのセットやなくて、価値観の間の緊張をナビゲートすることを学ぶ必要があるんや。
そしてそれはある意味、わしらが人として倫理的に発達するときにすることを反映しとる。対立する価値観と格闘することと、それが何を意味するかについて学ぶんや。これはAI倫理について聞かれたときにわいが強調する傾向がある事の一つを強調しとる。AIに関しては象牙の塔で書く実践やない。本当にエンジニアリングの実践なんや。
どうやってあんたが見たい種類の倫理的発達をエンジニアリングするんや?わいがここでAnthropicの使用例を詳しく取り上げたい理由の一部は、彼らが実際にエンジニアリング倫理の重要性について非常に公に話しとることや。そしてそれは、ユーザーやコミュニティにますます影響を与えるAIシステムを開発する道程で、少なくとも良いマイルマーカーを表していると思うんや。
価値観の選択と人間のフィードバック
明らかな質問で、多分あんたが待っとるか、目を回すかもしれんのは、誰の価値観でどの倫理的フレームワークか、やろ?誰が選ぶんや?どうそれを扱うかについては後で話すけど、実際にコミュニティに公に合理的やと思える答えがいくつかあるんや。
フィードバックTrainingの働き方の多くが人間のフィードバックによる強化学習を通じて行われるという考えから始めよう。人間が出力を評価して、モデルはより高い評価を得ることを学ぶんや。今、モデルが自己学習し、モデルが出力を自己評価するポイントに到達し始めとる。それは基本的にRLHFの延長線上にあって、今扱っとるモデルの規模に基づく延長線上にあるんや。
でも人間がフィードバックを評価するっていう考えから始めて、それが特に倫理の場合に重要かもしれんとすると、Metaの失敗は欠陥を浮き彫りにする。どの人間がフィードバックとTrainingを強調する権利を得るんや?それは基本的に、どの人間が価値観を書く権利を得るかと同じ質問や。なぜならフィードバックが価値観を形作るからや。正直さと親切さなどの異なる価値声明の間の緊張をどうナビゲートするかを形作るんや。
この場合、Metaは弁護士、エンジニア、倫理学者を通してガイドラインを通したようや。でもわいが知る限り、わいが報告で見た限りでは、子どもが明確に扱われ考慮されたにもかかわらず、児童発達の専門家は関与しとらんかった。それは医者なしで医療AIをTrainingするようなもんやで。
そして適切な人々が部屋にいたとしても、指摘すべきことの一つは、使用例を次々と扱うとき、疲労感が忍び寄ることがあるということや。ポリシーレベルで端的なケースを次々と扱うとき疲労があり得るんや、その文書がそうやったように。
潜在的に有害なコンテンツをずっと見とる人間のレビュアーには、十分に文書化された疲労の度合いもあるんや。レビュアー疲労を起こすことがあって、一日の間に基準がずれることがあるんや。
だからわいが指摘したいことの一つは、合意されたステークホルダーのセット、合意された憲法的原則のセットを手に入れることができたら、ここでより良い仕事ができるということや。
業界の倫理のフレームワークになるものに向けた道筋を指し始めることができるのが見えるやろ。AIが従うべきで、AIシステムにエンジニアリングされるべき合意された共通コアの憲法的原則のセットを持つことができる。民間企業で倫理をレビューすべき合意されたステークホルダーのセットを持つことができる。
それも共通コアやろう。人間のレビュアー、特に倫理的事項に関して、疲労しすぎたり疲れすぎたりしないように、合意された作業基準のセットを持つことができる。これらは倫理がどう働くかを理解し始めるときに自然に落ちてくるもんや。これは本質的に、コミュニティに役立つようにAIをTrainingする方法についての合意された会社全体または業界全体の基準セットの基盤やろう。
レッドチーミングと合成データの重要性
レッドチーミングは別の問題や。レッドチーミングは配備前にシステムを破ろうとすることを意味する。児童安全の専門家とのレッドチーミングがあったなら、彼らがすぐにこれを問題としてタグ付けしたやろうから、これは決して起こらんかったと思うで。
良いレッドチーミングには、AIで害が実際にどう実践されるかを理解する人々が必要やし、そのフィードバックを強化学習を通して、AIシステムが学ぶ必要がある倫理感に組み込む応答メカニズムが必要や。
ねぇ、これが機能する攻撃ベクターやったって学んだんや。その結果として、どうやって価値観を違うようにバランス取り始めるんや?
最後に、合成データについて話したいんや。明らかに、コミュニティに危険やから実データでTrainingできない状況があるんや。だから不適切なコンテンツをシミュレートする合成データでTrainingせなあかんのや。
特に、Anthropicからの憲法的AIの例は、モデルから不適切なコンテンツや不適切なデータが要求される状況で拒否をシミュレートするデータでTrainingすべきやって示唆しとる。
Metaで見る問題の一部は、牛が出た後で納屋のドアを閉めることに多く焦点を当てとることやと思うんや。モデル自体がそれらを生成しない本能を持ってへんときに、端的なケースに焦点を当てとるんや。
だからMetaがしようとしとることは、ひどい害の端っこを少し削り取ることかもしれんけど、それやったらコミュニティが広く受け入れられへんと考える多くの行動を正常化しとるんや。
AIシステムに能力としてエンジニアリングする倫理の共通コアが広く理解され、わしら皆がそれについて話し、議論し、どのステークホルダーが関与してるかを皆が理解できるポイントに到達する必要があるんや。
そして合成データを生成するなら、その価値観に沿って、AIに学んでもらいたいことややってもらいたいことに沿って合成データを生成しとるんや。実際、新しいモデルのテストに使える広く利用可能な合成データセットは、業界にとって本当に適切で役立つ場合やろう。透明性が必要や。
透明性の欠如と業界への提言
このリークの後で本質的に世界全体から問い詰められたとき、Metaが透明性に寄りかからんかったことが、Meta状況を本当に悲しませることの一つや。Metaは修正されたガイドラインを公開せんかったんや。それらが修正されたって信じてくれと言うんや。なんで?なんで?なんで公開できへんのや?本当にそんなに難しいんか?
だから、どのAIシステムを使うかを見とるなら、現在自己規制しとるモデル制作者が彼らの倫理基準、憲法的原則、どう定義してもええから、それらを明確にできる程度を見てくれって思うんや。
リスクベクターを理解できる場所にいたいやろう。なぜならこれはMetaプラットフォーム上のMetaだけのリスクやないからや。Llamaがこれをするなら、Llamaを使うすべてのシステムが責任の観点から潜在的にリスクにさらされるんや。
だから購買サイクルやベンダーとの会話で十分強調されへんと思うんやけど、AIシステムを購入または使用しとるなら、倫理的な端がどこにあるかを理解することが重要や。困難な状況でモデルが責任ある行為者になると、どうやって知るんや?
ここで概説したことは、わいは決定的な解決策のアプローチとは呼ばんで。憲法的AIが何があっても全ての前進の道やとは思わん。より良いシステムは決して手に入らん。Anthropicがモデルが賢くなるにつれて倫理をモデルにエンジニアリングする実用的な方法を明確にする素晴らしい仕事をしたとは思うし、そういうアプローチがもっと必要やと思うんや。
また、業界レベルでそういうアプローチを拡大できる必要があるとも思うし、どうやってかについていくつか提案したで。リークされたガイドラインにベットしてもぐら叩きをしようとし続けることは、ここでの前進の道としては続けられへん。
10億人以上の人々がAIを使っとる。それはコミュニティと子どもたちに影響を与えとるんや。倫理を中心的なエンジニアリング問題として扱う必要があるし、幸運にもそれをする方法があるんや。不可能やないんや。
これがわいの要求や。AIシステムを使う何らかの製品構築に関わっとるなら、あんたのAIの倫理的コアがどこにあるかを理解し、ユーザーを安全に保つための保護をエンジニアリングする方法を理解してくれ。乾杯や。


コメント