Anthropicが中国AI企業による大規模データ窃盗を告発するも偽善との批判が殺到

Anthropic・Claude・ダリオアモデイ
この記事は約13分で読めます。

AnthropicがDeepSeek、Moonshot、Miniaxの3つの中国AI企業によるClaudeモデルからの大規模なディスティレーション攻撃を公表し、波紋を呼んでいる。これらの企業は24,000以上の不正アカウントを作成し、1,600万回以上のやり取りを通じてClaudeの機能を抽出し、自社モデルの訓練に利用していたという。しかし、Anthropic自身も著作権侵害で訴えられた過去があり、インターネット上では「偽善的だ」との批判が殺到している。イーロン・マスクも「Anthropicは大規模なデータ窃盗の罪を犯している」と指摘し、Anthropicの主張に疑問を呈する声も上がっている。この問題は、AI開発における倫理、知的財産権、国家安全保障、そして米中間の技術覇権争いという複雑な地政学的問題を浮き彫りにしている。

They Got Caught...
Download The 25 OpenClaw Use Cases eBook 👇🏼 The Subtle Art of Not Being Replaced 👇🏼 Humanities...

Anthropicによる衝撃の告発

Anthropicが中国の主要AI企業3社の名前を挙げて、AnthropicのAPIからデータを盗んでいたと発表しました。これはディスティレーション攻撃と呼ばれるものです。名指しされたのはDeepSeek、Moonshot、そしてMiniaxです。これらの企業は世界最高クラスのオープンソースモデルを生み出している企業であり、Anthropicは彼らを直接名指しで非難したのです。しかし、事はそう単純ではありません。

インターネット上の反応は凄まじいものでした。イーロン・マスクを含む多くの人々が、Anthropicを偽善者だと非難しています。これから全てを詳しく見ていきましょう。

こちらが投稿です。ちなみに、2,600万回も表示されています。私たちはDeepSeek、Moonshot AI、そしてMiniMaxによる、私たちのモデルに対する産業規模のディスティレーション攻撃を特定しました。これらの企業は24,000以上の不正アカウントを作成し、Claudeとの1,600万回以上のやり取りを生成し、その能力を抽出して自社モデルの訓練と改善に利用していました。

ディスティレーション攻撃とは何か

では、ディスティレーションとは何でしょうか。そして、ディスティレーション攻撃とは何でしょうか。実は、ディスティレーションは非常に一般的で完全に正当な手法であり、大規模なモデルを取って基本的にサイズを縮小し、より小さく高速にするものです。

確かに忠実度は多少失われます。品質も若干落ちますが、その代わりにはるかに小さく、高速で、効率的なモデルが手に入ります。そして、これらの小型モデルには多くの優れた用途があります。ローカルで実行できる可能性も含まれますが、これらの最先端企業にとっては、最先端モデルのより高速なバージョンであることが多いのです。

しかし、ここからが興味深いところです。アメリカのモデルを不正に蒸留する外国の企業は、安全装置を取り除くことができ、モデルの能力を自国の軍事、情報、監視システムに供給できるのです。つまり、Anthropicが言うには、DeepSeek、Kimmy、そしてMiniaxが行ったのは、大量の不正なAnthropicアカウントを作成し、基本的にプロンプトを使って大量の質問と回答のペア、そして最先端のAnthropicモデルから思考の連鎖を引き出したということです。

Anthropicの詳細な報告書

まず、完全なブログ投稿を見ていきましょう。非常に興味深い内容です。そして、インターネットがどう反応したかをお見せします。予想とは違っていたからです。

これらの中国企業が使用したのは、ディスティレーションと呼ばれる技術です。これは、より能力の低いモデルを、より強力なモデルの出力で訓練することを含みます。ディスティレーションは広く使用されている正当な訓練方法です。しかし、不正な目的にも使用できます。競合他社はこれを使って、他の企業から強力な能力を、時間もコストもごくわずかで獲得できるのです。

これは非常に興味深いですね。基本的に彼らが言っているのは、これらの中国企業がインターネットデータを全て集め、それを合成し、高品質であることを確認してから最終的にトレーニングを実行するという大変な作業をする代わりに、Anthropicに直接アクセスしてモデル自体から直接高品質のデータを入手しているということです。

そして当然、非常にAnthropicらしい言い方で、これは安全上の懸念だと述べています。不正に蒸留されたモデルには必要な安全装置が欠けており、重大な国家安全保障上のリスクを生み出します。生物兵器の開発や悪意のあるサイバー活動の実行を可能にする可能性があり、不正な蒸留では安全装置が保持される可能性は低いのです。

彼らはさらに、輸出規制を一貫して支持してきたと述べています。これはGPUに関するものだと思いますが、アメリカのAIでのリードを維持するためです。ディスティレーション攻撃は、中国共産党の管理下にある企業を含む外国の企業が、輸出規制が維持するために設計された競争上の優位性を、他の手段で縮めることを可能にすることで、これらの規制を損なうものです。

彼らが特に指摘している問題は、これらの企業が素晴らしいオープンソースモデルを生産している場合、誰もが輸出規制が機能していないと考えるだろうということです。しかし、実際には機能しているのです。ただ、彼らが抜け穴を見つけただけなのです。では、実際に機能しているのでしょうか。輸出規制自体は機能していますが、彼らは別の回避方法を見つけたのです。

中国企業の具体的な攻撃手法

では、これらの企業は実際にどのようにしたのでしょうか。彼らは不正アカウントとプロキシサービスを使用して、検出を回避しながら大規模にClaudeにアクセスしました。そして、彼らが実際にClaudeのサービスを攻撃していた方法は、通常の使用パターンとは異なっていました。

それが検出できた理由です。そして、驚くべき部分がこちらです。私たちは各キャンペーンを特定の企業に高い信頼度で帰属させました。IPアドレスの相関、リクエストのメタデータ、インフラストラクチャの指標、そして場合によっては、自社のプラットフォームで同じ行為者と行動を観察した業界パートナーからの裏付けを通じてです。彼らは基本的に、正確な企業、場合によっては実際にデータを盗んでいた企業の幹部まで特定できたのです。

DeepSeekの攻撃パターン

まずDeepSeekから見ていきましょう。15万回のやり取りです。正直に言って、それほど多くは聞こえませんね。その数字を覚えておいてください。それほど多く聞こえないということを。これについては後ほど動画の中で触れます。

彼らは特に、多様なタスクにわたる推論能力をターゲットにしました。基本的に、モデルが物事をどう考えるかを理解しようとしたのです。ルーブリックベースの採点タスクで、Claudeを強化学習の判定者、つまり報酬モデルとして機能させました。これは非常に強力です。天安門広場について尋ねた場合など、ポリシーに敏感な問い合わせに対する検閲安全な代替案を作成しました。

彼らは多数のアカウントを持ち、これらのアカウントを同期させて、できるだけ正当に見せかけました。協調したタイミングは、スループットを増やし、信頼性を向上させ、検出を回避するための負荷分散を示唆していました。

そして、ここが最も重要な部分です。これを聞いてください。注目すべき技術の一つとして、彼らのプロンプトはClaudeに、完成した回答の背後にある内部推論を想像して表現し、それをステップバイステップで書き出すよう求めました。

基本的に、彼らは「思考の連鎖を生成してください。なぜなら、私たちはそれを取って、Claudeモデルがどう考えるかという思考の連鎖を使って、自分たちのモデルを訓練するからです」と言ったのです。

Moonshotの大規模攻撃

次にMoonshotです。Moonshotは340万回以上のやり取りを行いました。これは非常に多いですね。彼らはエージェント的推論とツール使用を抽出するために使用しました。これらのオープンソース中国モデルのいくつかを見ると、ツール使用とエージェント的推論が非常に優れています。

だから、そうですね、それが理由かもしれないと思うかもしれません。Claudeファミリーのモデルはツール呼び出しとエージェント使用が非常に優れています。だから、これらのモデルから蒸留すれば、あなたのモデルもおそらく優れているでしょう。そして、それが私たちが目にしているものです。これらの中国モデルは非常に優れています。

一方、アメリカのオープンソースモデルはそれほど優れておらず、おそらくClaudeモデルから蒸留していないのでしょう。おそらくコーディングと分析、コンピュータ使用、エージェント開発、コンピュータビジョンもです。Moonshotは複数のアクセス経路にまたがる数百の不正アカウントを使用しました。

多様なアカウントタイプにより、Anthropicが検出することが困難になりました。それが彼らが340万回のやり取りを得られた理由です。しかし、これを聞いてください。私たちはリクエストのメタデータを通じてキャンペーンを帰属させました。これはMoonshotの上級スタッフの公開プロフィールと一致しました。

Miniaxの最大規模の攻撃

そして最大のもの、Miniaxです。1,300万回のやり取り、エージェント、コーディング、ツール使用、オーケストレーション。そして彼らは実際に、Miniaxがまだモデルを訓練している間に攻撃を検出しました。だから、ディスティレーション攻撃がどのようなものかの完全なライフサイクルを実際に見ることができたのです。

そして、Miniaxがまだ攻撃している間に攻撃を検出したので、Anthropicはモデルを変更し、モデルを更新しました。例えばOpus 4.6として。すると、Miniaxのトラフィックの多くが新しいモデルに向かって、最新の機能を求め始めました。だから、彼らは明らかに自分たちが何をしているのかよく分かっていました。

そして、Anthropicがこれに対してどう対応するかについて、検出、情報共有、アクセス制御、対抗措置について語っています。素晴らしいですね。

インターネットの激しい反応

しかし、インターネットは全く異なる考えを持っていました。コミュニティノートがAnthropicを完全に批判しました。これを見てください。Anthropicも盗んだデータを使ってモデルを訓練しました。

そして、公開されているデータがモデルが訓練できるデータかどうかという議論だけではありません。彼らは実際に、訓練の一部として盗んだデータまたは盗まれたデータを使用したと告発されたのです。いくつか例を挙げましょう。

Anthropicはシャドウライブラリから700万冊の本を海賊版化したことで15億ドルの訴訟を和解しました。さらに、2万曲をトレントダウンロードしたことで30億ドルの訴訟。そして、Anthropicが自社モデルを訓練するために盗んだデータを使用したことについて語るbeaw.comからの別の記事もあります。

そして当然、イーロン・マスクが出てきて何か言わなければなりませんでした。Anthropicは大規模な訓練データの窃盗の罪を犯しており、その窃盗に対して数十億ドルの和解金を支払わなければなりませんでした。これは単なる事実です。

そして、誰かが実際に彼を批判しました。「まるであなたが訓練データを自分で書いたかのように」と。つまり、xAIもおそらく同じことをしたという意味です。しかし、彼は言います。「ああ、でも私たちはAnthropicのように超高慢で、道学者ぶって、偽善的ではないよ」と。

まるでそれがましになるかのように。つまり、誰もが同じことをしているのです。これらの最先端企業はすべて、盗まれたデータや著作権で保護されたデータを使用しています。もしもあんずもバッツもありません。これは起こっているのです。

実際、これを見てください。これは少し前に発表された研究論文からです。研究者たちは、以前のClaudeモデルからハリー・ポッターの本の95%以上を、一字一句抽出することができました。

では、どうやって訓練しなかったと言えるのでしょうか。もちろん、彼らは訓練したのです。そして、Theoさえも何か言うことがありました。彼は実際にAnthropicが報告書で嘘をついていると非難しました。これを見てください。

私は一日中彼らの報告書を分析してきました。彼らが嘘をついているという結論以外にたどり着くのは難しいです。数字が意味をなさないのです。彼らはDeepSeekが15万件のメッセージを送ったと主張しています。

T3 Chat、これは彼のスタートアップですが、1日あたり16万件を処理しています。彼らが共有する数字は、これらの企業内での基本的なベンチマーク作業で説明がつきます。追加の主張は馬鹿げた領域に達しています。

基本的に彼が言っているのは、これらの数字、特にDeepSeekの15万という数字は非常に小さく、文字通り自社のモデルをAnthropicとのベンチマーク使用のために比較しているだけの可能性があるということです。

もちろん、彼は実際のモデルが何をしようとしていたかについての内部情報を持っていません。特にDeepSeekがClaudeモデルに思考の連鎖を徹底的に説明するよう求めていた場合は。それを必要とするベンチマークは実際にはありません。

そして彼は実際に自分のお金を賭けています。もし私がこれについて間違っているなら、Anthropicに私が見逃しているものを個人的にオフレコで開示するよう招待します。もし私が間違っているなら、喜んで報告を訂正します。しかし、彼らがWindsurf、OpenAI、xAIについて同様の主張をした後では、彼らの言葉を額面通りに受け取ることは本当に難しいのです。

彼はこれについてビデオを上げたので、ぜひチェックしてみてください。

地政学的な現実

そして、ちょっと立ち止まって現実について話しましょう。もしこれが本当だとしても、実際にはそれほど驚くべきことではありません。中国企業は文化的に絶対的に容赦ないことで知られています。そして、超資本主義者である私自身、法的限界内に留まる限り、ほとんどの場合は気にしません。

中国企業が互いに対して、そしてもちろん海外の他の企業に対して使用してきた容赦ない技術について、非常に多くの本が出版されています。そしてもちろん、国家に関連した産業スパイ活動、知的財産の窃盗、知的財産保護の無視があります。これらはすべて中国企業について報告されてきたことです。

もちろん、アメリカ企業もこれらの多くで告発されてきたことも付け加えておきます。だから、それを念頭に置いておいてください。しかし、それだけでは終わりません。これは実際にもっと複雑になります。

アメリカ政府高官によると、DeepSeekは禁止されているBlackwellチップ、つまり彼らが持つべきではないNvidia Blackwellチップを不法に入手したそうです。輸出規制について言及したのを覚えていますか。それがまさに私たちが話していることです。

彼らはこれらのチップを持つべきではないのに、これらのチップを持ち、次世代モデルをこれらのチップで訓練していると告発されています。これらのチップを使って次のモデルを訓練し、証拠を削除し、実際に使用したチップについて嘘をつく計画です。そして3つ目として、ディスティレーション攻撃を使ってモデルを訓練しました。

だから、彼らはすべてのことをやっているのです。DeepSeekが新しいモデルをリリースし、2つのH800チップを使ってゼロから訓練したと主張するとき、うまくいけば世界はそれが嘘だと認識するでしょう。

そして、DeepSeekは禁止されたアメリカの技術と知的財産にほぼ完全に依存しているのです。だから、これには非常に多くの地政学的な影響があります。

一つは、結局のところ、これらの中国のオープンソースAI企業は、実際には最先端の技術とアルゴリズムを持っていない可能性が高いということです。彼らは単にアメリカのイノベーションから主に蒸留しているだけであり、入手しているチップや入手を許可されているチップさえ使えないのです。彼らは基本的に最先端のアメリカ製チップを入手しなければならないのです。

AI競争への懸念

私がAIについて最も恐れていることの一つは、私たちの敵対者の一つ、私たちの競合他社の一つ、別の国が突然私たちより大きく先行することです。そして、中国は実際におそらくそれに向かって順調に進んでいると思っていました。なぜなら、彼らのオープンソースモデルは非常に優れているからです。

しかし、結局のところ、私たちが思っていたよりも大きなリードを持っているかもしれません。だから、ここにはまだ多くの未解決の問題があります。

一つは、もしアメリカのAI企業が盗んだデータを使ってモデルを訓練しているなら、中国が同じことをしていることとの違いは何でしょうか。実は、両方とも同時に真実である可能性があります。

しかし、多くの人が好まないのは、Anthropicの偽善だと認識されていることだと思います。彼らは「私たちが言う通りにしなさい、私たちがすることをするな」と言っているのです。

この動画を楽しんでいただけたなら、ぜひいいねとチャンネル登録をご検討ください。

コメント

タイトルとURLをコピーしました