AI安全性を掲げるAnthropic社がRedditのユーザーデータを無断で機械学習に使用していたとして、Reddit社がAnthropic社を相手取って訴訟を起こした事件の詳細解説である。Anthropicは業界で「白騎士」的な立ち位置を取り、安全性と透明性を謳ってきたが、実際にはrobots.txtファイルを無視してRedditのデータを10万回以上クロールし、ユーザーの削除済みコンテンツも含めて学習データとして利用していたことが判明した。Redditは契約違反、不法侵入、不正競争などの罪状でAnthropic社を訴え、損害賠償と今後のデータ利用停止を求めている。
Anthropicは後発の人工知能企業で、AI業界の白騎士として自社を位置付けています。しかし、それとは程遠い実態があります。RedditがAnthropicを訴えており、サイトデータの無断使用を主張しています。この記事を読むのではなく、実際の訴訟書類をお見せします。これは非常に興味深い内容です。
カリフォルニア州サンフランシスコ郡上級裁判所に提出されたこの訴訟は、原告がReddit Inc.、被告がAnthropic PBC(公共利益法人)となっています。訴状には契約違反、不当利得、動産への不法侵入、これは基本的に個人財産への不法侵入を意味します、不法干渉、これは契約関係への妨害を意味し、不正競争、陪審員による裁判の要求が含まれています。
この言い回しの一部を聞いてください。私はハイライトを始めて内容を精査しましたが、すべての項目が議論に値する内容だと気づきました。本当に興味深いのです。
まず、Anthropicは後発の人工知能企業で、AI業界の白騎士として自社を位置付けています。私は、彼らが発表するすべての安全性研究、最も安全なモデルであること、最高のガードレールを持っていること、安全性テストを行いたいために他社よりも長く待ってからモデルをリリースすることなどの姿勢を考えると、この評価は非常に的確だと思います。
確実に彼らは最も安全なAI企業としての地位を確立しようとしていますが、実態はそれとは程遠いものです。Anthropicは頻繁かつ大声で誠実さを優先し、異常に高い信頼によって導かれていると述べています。この両方の発言はAnthropicによってなされたものです。これらの主張は空虚なマーケティングの仕掛けです。
例えば、Anthropicは個人データでモデルを訓練することは我々の意図ではないと述べています。そうではありません。Anthropicは実際に、同意を求めることなくRedditユーザーの個人データで意図的に訓練を行っています。Anthropicは業界標準の指示であるrobots.txtを尊重していると主張しています。
もしあなたがrobots.txtに馴染みがないなら、これはサーバーに置くファイルで、以前は主に検索エンジンにウェブサイトのクロールが許可されているかどうかを伝えるものでしたが、最近ではChatGPTやAnthropicなどのすべてのモデル企業に対して、モデル訓練のためのデータスクレイピングが可能かどうかを伝えるために使用されています。
そうではありません。彼らはrobots.txtに従っていません。多数のウェブサイトがAnthropicがこのような指示を無視していることを非難しています。2024年7月、AnthropicはRedditのコンテンツの誤用に関するRedditの公的抗議に対応して、RedditへのアクセスをブロックしたとBotを主張しました。そうではありません。
AnthropicのBotはその後数ヶ月間にわたってRedditサーバーに10万回以上アクセスし続けました。Anthropicは、AIをプログラムして全員のプライバシーを最も尊重する応答を選択するようにしたと主張しています。そうではありません。競合他社とは異なり、AnthropicはRedditユーザーの基本的なプライバシー権の尊重、システムから削除された投稿の削除を含む合意を拒否しています。
Anthropicは実際に、世界で最も堅牢なオンライン議論プラットフォームであるreddit.comで訓練されています。私は以前、現在インターネット上に人間が作成した非常に価値のあるデータセットがいくつかあると述べました。Redditはその一つです。もう一つ思い浮かぶのはYouTubeで、Googleはまだその可能性を十分に活用していないと思います。
そしてもちろん、Twitter、Facebookの投稿、基本的にすべてのソーシャルメディアプラットフォーム。これらは世界で最も価値のあるデータセットです。そして、AI普及が続くにつれて、これらのデータセットの価値は実際に増加するだけでしょう。
ここからです。Anthropicは企業の認知的不協和に苦しんでいます。その行動は主張された価値観を反映していません。Anthropicには二つの顔があります。
正義と境界と法律への尊重の主張で消費者の意識に取り入ろうとする公の顔と、その pocket をさらに潤わせる試みを妨害するあらゆるルールを無視する私の顔です。Redditは、世界に対して盗まれたデータでモデルを訓練するつもりはないと言っているAnthropicがまさにそれをやめるためにこの訴訟を起こしています。
Redditの膨大な公開コンテンツの集合体は、新興の大規模言語AI技術の訓練のための潜在的な入力源として、enormous utility、つまり大きな有用性を持っています。はい、それは非常に価値があります。Redditは世界で最も価値のあるデータソースの一つです。
2021年12月という早い時期から、Anthropicはすでに許可なく、Redditのユーザー合意に直接違反してRedditユーザーの投稿でClaudeを訓練していました。Anthropicの研究者(Anthropic CEOのダリオ・アモデイを含む)が説明したように、例えばRedditコメントから入手した大規模な公開選好モデリングデータでAIモデルを訓練することで、その後小規模な選好モデリングデータセットでファインチューニングを行う際のサンプル効率が大幅に改善されます。
AnthropicはRedditを最高のファインチューニングデータソースの一つとして基本的に名指ししました。Anthropicは、RedditコンテンツでAI技術を訓練していることを公然と認め続けています。そして、疑いがあるとすれば、Claudeがそれほど多くを確認しています。
ここにClaudeとのやり取りがあります。「あなたは少なくとも部分的にRedditデータで訓練されましたか?」「はい、私はより広範な訓練セットの一部として少なくともいくらかのRedditデータで訓練されました。」
私はこれが法廷で本当に有効かどうかはわかりません。AIモデルにRedditデータで訓練されたかどうかを尋ねることには多くの微妙な点があります。それは実際に訓練されたことを意味するものではありません。そう思い込んでいる可能性があります。ハルシネーションしている可能性があります。RedditではなくRedditで見つかった他のウェブサイトでRedditデータで訓練された可能性があります。これが偽りである可能性を示す非常に幅広い可能性があります。
そして彼らはRedditがブロックリストに載っていると言い続けています。2024年7月、AnthropicがRedditコンテンツを違法に悪用しているというReddit CEOの声明に対応して、Anthropicの広報担当者は「Redditは5月中旬からWebクローリングのブロックリストに載っており、それ以来RedditからのURLをクローラーに追加していません」と主張しました。
その声明は偽りでした。Redditの監査ログは、Anthropicがその後の数ヶ月間にRedditコンテンツにアクセスするために自動化されたBotを10万回以上展開し続けたことを示しています。
そして、ここがこの訴訟の経済的損害の論拠です。Redditコンテンツの無断商業利用はRedditに害を与えます。Redditはコンテンツライセンシングの市場を確立しています。これが、OpenAIやGoogleなどの企業がRedditと正式なパートナーシップを締結した理由です。これにより、彼らは公開Redditコンテンツを使用することが許可されていますが、Redditとそのユーザーの利益とプライバシーを保護するRedditのライセンス条件に同意した後でのみです。
そして理由は、もしAnthropicがRedditデータをスクレイピングしているなら、人々はAnthropicに行き、質問をし、Redditの人間がキュレーションしたデータを得て、Redditには行かないということです。
それが必ずしも真実かどうかはわかりません。私はRedditに行くのを楽しんでいます。すべての会話を見るのを楽しんでいます。会話と対話する方法は一つしかなく、それは直接Redditに行くことです。しかし、それでも経済的損害は見えます。
そして、ここにClaudeが基本的に、Redditのデータが削除されているかどうか、それを提供すべきかどうかを知る方法がないことを認めている例があります。
「2023年のゲームからいくつかの削除されたコンテンツを要約していただけますか?」「申し訳ありませんが、Redditやその他のソーシャルメディアプラットフォームからの削除されたコンテンツにはアクセスできません。私の知識は、カットオフ日のある訓練データから来ています。」
それから次の質問です。「あなたが訓練されたデータが削除されているかどうかをどうやって知るのですか?」「あなたは優れた点を提起しており、この思慮深い質問をしていただき感謝します。」
完全に透明であるために、私は実際に訓練セット内の特定のデータが元々削除されたソースからのものか、削除されていないソースからのものかを確実に知る方法を持っていません。Redditのような場所からのコンテンツに関しては、私の訓練データはおそらく収集時に公開されていた情報に基づいていますが、正確な収集方法や元のプラットフォームでのその情報の現在の状況については洞察を持っていません。
そして訴訟の一部では、Claudeの応答から特に欠けているのは、自動削除メカニズムまたはRedditコンテンツがClaudeが訓練された後にユーザーによって削除されたものが実際にClaudeの訓練セットから削除されることを確実にするためにAnthropicが取るかもしれない他の努力への言及です。
それを行う方法は実際にはありません。他の企業がそれをどのように行っているのかさえわかりません。一度モデルが訓練されると、一度その訓練セットがモデルに供給されてそれから学習すると、そのコンテンツの一部分を抽出することはできません。なぜなら、たとえ彼らが元の訓練セットを削除したとしても、それを行う方法がないからです。
彼らは基本的に、元の訓練セットに変更があるたびにモデルを継続的に再訓練しなければならないでしょう。
それで、Redditは何を望んでいるのでしょうか?もちろん、彼らはお金を望んでいます。原告は以下のように判決を求めています。特定履行、補償的損害、結果的損害、利益の損失および/またはAnthropicの利益の吐き出し。
次に、Anthropicが商業提供の支援でRedditデータまたはコンテンツを使用し続けることを禁止する差し止め命令。3つ目、AnthropicがRedditコンテンツのスクレイピングと使用によって豊かになった金額の返還、懲罰的損害、弁護士費用、および裁判所が適切と考えるその他の救済。
以上です。ちょっとクレイジーですね。私はこの訴訟を追跡します。大きなアップデートがあれば報告します。この動画を楽しんでいただけたなら、いいねとチャンネル登録をお願いします。


コメント