速報:Anthropic対中国!蒸留攻撃をめぐる論争

Anthropic・Claude・ダリオアモデイ
この記事は約11分で読めます。


AnthropicがDeepSeek、Moonshot、Miniaaxといった中国のAI企業に対し、Claudeのデータを不正に抽出してモデル訓練に使用しているとして告発した。蒸留と呼ばれる技術自体は業界で広く使われる正当な手法であるが、Anthropicは利用規約違反や地域アクセス制限の侵害を問題視している。しかし同社がこの技術的問題を国家安全保障上の脅威として位置づけようとする姿勢に対しては、オープンインターネット上のデータで訓練されたモデルの知的財産権主張の妥当性や、米中対立を煽る意図への疑問が投げかけられている。

Breaking 🚨: Anthropic vs China!
Anthropic says that they’ve identified industrial-scale distillation attacks on our models by DeepSeek, Moonshot AI, and...

Anthropicが中国企業を告発

Anthropicが中国のオープンソースLLM企業に対して、自社のデータを盗用しているという厳しい告発を行いました。Anthropicの主張は妥当なのでしょうか。詳しく見ていきましょう。

これはAnthropicが公開したばかりの新しいブログ記事です。「蒸留攻撃の検出と防止」というタイトルになっています。これが何を意味するのか理解するために、まず蒸留とは何かを理解しましょう。

蒸留とは何か

蒸留は非常にシンプルな深層学習プロセスです。大規模な言語モデルから知識を取り出すんですね。つまり非常に大きなモデルを使って、蒸留によってより小さな言語モデルを作成するわけです。

小さな言語モデルはパラメータ数が少ないにもかかわらず、教師モデルとも呼ばれる大規模モデルからの知識によって、非常に優れた知識を持つことができます。教師モデルを模倣しようとする形で機能するんです。その結果、小さな言語モデルはパラメータ数やサイズが小さいにもかかわらず、より多くの知識、より高い能力、その他あらゆる面で優れた性能を持つことになります。

必要な計算リソースも少なくて済みます。では、Anthropicが何を主張しているかというと、中国の言語モデル企業、例えば今回初めて具体的に名前を挙げているのですが、DeepSeek、Moonshot、Miniaaxといった企業です。DeepSeekはDeepSeek R1などのモデルを作った会社ですね。MoonshotはKimi K2などのモデルを作っています。Miniaaxも当然、多数のモデルを持っています。

中国企業による不正アクセスの疑惑

Anthropicが主張しているのは、これらの企業が不正にClaudeの能力を抽出して、自社モデルの改善に利用しているということです。これらの研究所、DeepSeek、Moonshot、Miniaaxは、2万4000の不正アカウントから1600万件以上のやり取りを作成しました。

つまり、これらのアカウントを使ってClaudeとチャットし、Claudeが回答として提供したデータを抽出したわけです。これは利用規約と地域アクセス制限に違反しています。

これらの研究所は蒸留と呼ばれる技術を使用しました。これは能力の低いモデルを、より強力なモデルの出力で訓練することを含みます。蒸留は広く使用されている正当な訓練方法です。例えば、最先端のAI研究所は日常的に自社のモデルを蒸留して、より小さなモデルを作成しています。

例えばClaudeの場合、Anthropicはより大きなモデルであるOpusを持っています。AnthropicはOpusを使って自社のより小さなモデルであるHaikuを訓練しているかもしれません。これは業界では非常に一般的な慣行なんです。

Anthropicが問題視する点

しかしAnthropicがこの特定のケースで気に入らないのは、まず第一に中国企業が自社のデータにアクセスしていることです。これがAnthropicが嫌がっていることです。

第二に、Anthropicは誰かが自社の訓練データを取って、それを使ってモデルを蒸留しようとしているという事実を気に入っていません。

今、みんながAnthropicに対して怒っていますが、それはある程度理解できます。しかしAnthropicに怒る前に、人々が理解しなければならないことが一つあります。それは、データを使って小さなモデルを訓練することが利用規約違反になるという利用規約を作った企業は、これが初めてではないということです。

初めてではありません。OpenAIは過去にこれを行っており、それについてオープンにしてきました。これらの多くの企業、多くの大規模言語モデル企業、基盤モデル企業のウェブサイトに行って利用規約を見れば、実用的な目的のためにデータを使用することはできるが、そのデータを使って別のモデルを訓練したり、さらに下流で訓練したりすることはできないことに気づくでしょう。

これは多くの企業が公然と利用規約違反だと言っていることなんです。しかし、この特定のケースでは、Anthropicはさらに一歩進んで、外国の研究所がアメリカのモデルを蒸留すると、保護されていない能力を軍事、諜報、監視システムに流し込むことができると言っています。

国家安全保障問題としての位置づけに疑問

まさにここが引っかかるところなんですよね。誰かがあなたのデータを取って訓練することに問題があるのは理解できます。まず第一に、彼らは訓練データを盗んでいるわけではありませんが、それでも利用規約に違反してほしくないですよね。APIエンドポイントに絶えずアクセスしてほしくないですし、自分の訓練レシピを使って小さな言語モデルを訓練してほしくないというのは、ある程度理解できます。彼らは多額のお金を払ったかもしれませんし、独自の訓練データを作成するために多くの障害や面倒を経験したかもしれませんから。

しかし、ここで引っかかるのは、AnthropicがこれをグローバルなAIスパイ活動として、あるいはグローバルなAI戦争として位置づけようとしていることです。この場合、「外国の研究所」と言っていますよね。では、OpenAIがこれを行うのは問題ないのでしょうか。これが理解しなければならない最初の質問です。イーロン・マスクのGrokがAnthropicのデータを取って、モデルを蒸留しようとするのは問題ないのでしょうか。

企業が単一の技術的問題や競争を国家的脅威として位置づけようとする場合、多くの異なる疑問が生じます。この場合、それがAnthropicがやろうとしていることなんです。

外国の研究所がアメリカのモデルを蒸留すると、保護されていない能力を軍事、諜報、監視システムに流し込むことができ、権威主義的政府を可能にする、とあります。ここでは中国を指しています。最先端のAIを展開するためにと。

モデル蒸留の技術的限界

まず第一に、モデルを蒸留する場合、それは小さな言語モデルです。最先端のモデルを作ることはできません。モデルを蒸留した後、教師モデルは明らかに最先端のモデルになるでしょうが、攻撃的なサイバー作戦、偽情報キャンペーン、大規模監視のために最先端のAIを展開するというのは。まあ、現在のTwitter以上に偽情報はないと思いますが。

とにかく、蒸留されたモデルがオープンソースである場合、このリスクは倍増します。これらの能力は単一の政府の統制を超えて自由に広がるため。Anthropicは、これらの企業がモデルをオープンソース化することにさらに大きな問題を抱えているわけです。

訓練データの出所問題

これらの大規模言語モデル企業の訓練データ、そのうちのいくつかは購入したものです。アレクサンダー・ワンが始めたScale AIのような企業や、他の多くのデータラベリング企業に行ってお金を払ってデータを購入しました。

しかし、データの一部は完全にオープンインターネットからのものです。彼らはインターネットをクロールしました。Common Crawlのようなものがあります。そこに行ってデータを取得します。Wikipedia、Wikipedia、そしてReddit、Stack Overflowのような他の多くの場所、これらすべてのデータが大規模言語モデルの訓練に使われたんです。

実は、Anthropicが多くの著者から訴えられたケースがありました。そして実際に裁判官が判決を下しました。2つの部分がありました。最初の部分で、裁判官はAnthropicに有利な判決を下しました。

つまりAnthropicがフェアユースで勝ったんです。LLMの訓練はフェアユースと見なされる、大丈夫だということです。それがAnthropicが勝った部分で、70億ドルを支払う必要はありませんでした。一方、Anthropicは海賊版書籍の中央ライブラリを構築しようとしたため、15億ドルの支払いを求められました。

著作権問題との矛盾

アーロン・シュワルツの事件を覚えている方はどれくらいいるでしょうか。この場合、Anthropicという大企業が、著者のオリジナルの書籍を取得しようとし、違法な海賊版書籍の中央ライブラリを作成しようとして、15億ドルの支払いを求められたんです。

ですから、これが純粋にAnthropicがデータソースに多額のお金を払ったことに関するものだと考え、それでも問題があるというなら、理解できます。しかし、これらの訓練データの大部分は単にオープンインターネットなんです。誰かにお金を払ってデータを入手しなければならなかったわけではなく、オープンインターネットなんです。

これが私の最初の問題です。オープンインターネットのデータに純粋に基づいて大規模言語モデルを構築した場合、どうしてそれが自分自身の訓練データだと主張できるのでしょうか。データラベリングチーム、データ処理、データ前処理があり、データが高品質であることを確認するためにあらゆることを行ってきたのは理解しています。

OpenAIによる先例

OpenAIは実はこの基盤を長い間前に築いていました。おそらく2年前だったと思いますが、ShareGPTという非常に人気のあるChrome拡張機能がありました。これはChatGPTの初期の頃です。

私の記憶が正しければ、当時はモデルもそれほど優れていなかったと思います。ShareGPTという拡張機能があり、GPTとの会話を共有できるようにしました。これを覚えている方がいたら、コメント欄で教えてください。実際に応答を共有できるようにしました。

人々がやったのは、ShareGPTで人々が作成したものをすべて取得して、膨大なデータセットを作成したんです。人々はモデルのファインチューニングや訓練を始めました。これはずっと昔のことで、ShareGPTデータに基づいて訓練されたさまざまなモデルがありました。そしてその時でさえ、OpenAIはいくつかの制限を設けました。

ですから、Anthropicだけがこのゲームを始めたわけではありません。この種は長い間前に蒔かれたんです。

現在の状況の変化

しかし、今変わったのは、これらの企業がシステムを改善して、モデルとチャットできるようになり、得られるものが単なる生の訓練データではなくなったという事実です。そこがAnthropicの問題だと思います。

得られるのは訓練データではありません。非常にファインチューニングされた、教師あり学習でファインチューニングされ、強化学習を経たモデルであり、それらを経て、美しく作り上げられた最終的な回答なんです。

今、Anthropicが恐れているのは、これらの中国の研究所がこのデータを取ってモデルをファインチューニングすると、Anthropicを非常に厳しい立場に置くということです。

まず第一に、Miniaax、DeepSeek、Kimiの開発元であるMoonshotのような企業にとって、オープンソースモデルをリリースして、最高レベルで競争するAnthropicの能力を潰すのは非常に簡単です。

そして、実際にそれが起こっているのを見ています。DeepSeekは米国の業界全体を完全に動揺させましたし、MiniaaxやMoonshotのような企業はさまざまなモデルをリリースし続けています。

技術的に解決困難な問題

これは技術的に解決できない問題です。Anthropicのような企業はAPIアクセスを持ち、人々はいずれ複数のアカウントを持とうとして、既存の訓練データを取得しようとするでしょう。

ですから、Anthropicがこれで何を達成しようとしているのか分かりません。しかし、Anthropicがここでやろうとしているかもしれないと感じるのは、企業として、私はAnthropicがとても好きです。彼らは素晴らしい製品を持っています。Claude Sonnet 4.5は驚異的でした。今、Claude Sonnet 4.6はさらに優れています。Claude Codeは、趣味のバイブコーディングではなく、実際のコーディングをしたい場合、業界最高の製品の一つです。

Anthropicの政治的動機への疑問

しかし問題は、Anthropicが特にCEOのダリオと一緒に続けていることです。彼らは常に自分たちが米国企業であり、米国に関するあらゆることを守っており、他のすべての人々はその反対であり、特に中国が常にそう言おうとしていると位置づけたがっています。

そしてAnthropicは最近問題になっています。なぜなら米軍がAnthropicを召喚しているからです。彼らはすべてのAnthropicモデルに対して、いかなるガードレールもない完全なオープンアクセスを望んでいました。

どうやら彼らは米国大統領の好意を得たい、米国の政治家の好意を得たいようです。だから彼らはこれを米国対中国の論争として位置づけたいんです。そしてこの論争のために、オープンソースモデルをスケープゴートにする用意があるわけですが、これは良いアイデアだとは思いません。

Anthropicがこのブログ記事を作成した概念は非常にネガティブに感じられます。しかし、分かりません。彼らはこれを知的財産権と呼びたいのだと思います。彼らはこれが利用規約違反だと言いたいのでしょう。それについては既に非常に明確に言及しています。

ですから、Anthropicがこの特定の時点でこれを行うことに決めたのは非常に奇妙に感じられます。しかし皆さんの意見を知りたいです。これについてどう思いますか。オープンインターネットで訓練したにもかかわらず、これが自社の訓練データ、自社の知的財産権だとAnthropicが言うのは公正だと思いますか。コメント欄で教えてください。また別の動画でお会いしましょう。ハッピープロンプティング。

コメント

タイトルとURLをコピーしました