AI企業が海賊版データ使用を認める｜現役弁護士が解説

この動画では、知的財産権法の専門家であるクリスタ・レーザー教授が、AI企業による著作権データの使用について詳細に解説している。特にBarts対Anthropic事件とMeta関連訴訟を中心に、AI企業が海賊版データを使用してモデルを訓練することの法的問題点と、フェアユースの4つの判断基準について分析を行っている。海賊版データの使用に対する裁判所の異なる判断や、将来的な損害賠償の規模についても言及されている。

AI Labs Admit to Using PIRATED DATA | Actual Lawyer Explains

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

AI企業による著作権データ使用の法的問題
裁判所の見解の相違
フェアユースの4つの要因
市場希釈理論の新規性
Anthropicの事件との比較
人間とAIの違い
MetaとAnthropicの事件の違い
Anthropicへの実存的脅威

AI企業による著作権データ使用の法的問題

Bartsの対Anthropicっちゅう裁判があってな、これがかなり大きな事件やったんや。アメリカの法律がこういう問題をどう見とるかがよう分かったわ。よう出版物なんかで「AIモデルは著作権のあるデータで訓練されとる」って言うやろ？当然、本や教科書を使うし、本や教科書には著作権があるからな。

でもな、「AIモデルが著作権のあるデータで訓練されとる」って言うたら、まるでAIモデルが著作権法を破っとるみたいに聞こえるやろ？多くの人がそう思うとるけど、それは正しくないんや。これはフェアユースの問題なんやで。その辺をちゃんと説明してもらえるか？

確かにAIモデルは一般的に著作権のあるデータで訓練されとるけどな、それが合法か違法かは状況によるんやで。多くのAI企業が本とか芸術作品みたいな著作権のあるデータを使ってモデルを訓練するんは、著作権のあるデータこそが、興味深い出力を生成するのに役立つ創造的表現やからなんや。

質の高い基盤となる作品で訓練したら、はるかにええ文章が書けるようになるんや。やから本は最初の訓練の主要なターゲットになっとる。実際、多くの訴訟で見たとおり、ほとんどのAI企業がAIモデルの初期訓練の中心に本を使っとったんや。

ケースを詳しく見ていくと分かるけど、AI企業の中には著作権のある作品を合法的に入手しとるところもあるんや。例えば、コピーを購入してな。でも、トレントサイトからダウンロードするみたいに違法に入手した企業も多い。合法的に入手されてない著作権コンテンツを使って訓練することが、AI訓練の目的なら実際に違法なのかどうかについて、これまでに出た裁判の判決は分かれとるんや。

裁判所の見解の相違

一部の裁判所は、その最初の「毒の木の果実」が問題やって言うとる。でも他の裁判所は、AI訓練の目的で使用していて、そのAI訓練がフェアユースで著作権を侵害してない、あるいは著作権侵害の抗弁になるなら、その根本にある海賊版材料の使用も同様に違法ではないって言うとるんや。

この件については今後も裁判所の意見が分かれ続けると思うで。かなり激しく争われとる問題やからな。フェアユースについてはどう考えたらええんやろ？4つの異なるチェックポイントがあって、何かがフェアユースかどうか判断するんやろ？訴訟でもそれが大きな争点になったみたいやけど。

著作権のフェアユース分析には4つの要因があるんや。まず、それが著作権の侵害やと判断されてからやで。つまり、著作権のあるものを複製しとるか、著作権のあるものから派生作品を作っとるか、あるいは追加の作品を作る目的でその作品を使ったかってことや。通常、このプロセスでコピーが作られるんや。

ほとんどのAIモデルは初期訓練材料のライブラリを保持しとる。これが著作権侵害を構成する最初のコピーなんや。そして、著作権侵害で訴えられた人がフェアユースを抗弁として主張できるんや。フェアユースは、著作権のある作品の使用が著作権者に与える害よりも公益の方が大きい状況のために設計されとるんや。

フェアユースかどうか判断する4つの要因を定めた法律があるんや。最初の要因は使用の目的と性格や。大きな問題は、これが商業的使用か、非営利や教育的使用かってことやな。商業的使用はフェアユースになる可能性が低いんやで。でも、これらすべては要因であって、絶対的な基準やないけどな。

使用の目的と性格の最初の要因でもう一つ考慮されるのは、それが変革的かどうかや。これはAI訓練の事件でよう出てくることなんや。裁判所は、AIモデルは根本的かつ極端に、例えば本を読むという元の目的とは違うって言うとる。

AIモデルを訓練したり、AIシステムから出力を生成したりすることは、根本的に異なる体験を与えて、異なる目的があるんや。やから裁判所はそれが変革的やって言うとる。この変革的使用がある時は、最初の要因がフェアユースの認定に有利に働いて、著作権侵害の抗弁になるんや。

フェアユースの4つの要因

他にも重要な要因がいくつかあるで。例えば、侵害されとる作品の性質やけど、これはほぼ常にフェアユースの認定に不利に働くんや。これは、侵害されとる作品が小説みたいな創造的なものか、それとも電話帳みたいに著作権保護の権利が弱くて、表現力が強くないものかってことや。

訴えられとるほとんどの作品について、この要因はフェアユースに不利に働くんや。なぜなら、訴えられとるほとんどの作品は小説みたいに明らかに広範囲の著作権保護を受ける権利がある創作物やからな。

それから、使用の量と実質性っちゅうのがある。これは著作権のある作品のどれだけが侵害で使われとるかってことや。典型的な例を言うと、YouTubeチャンネルを持っとって、他のYouTubeチャンネルからクリップを取って、その人のYouTubeクリップの30秒を使って視聴者にそのクリップが何についてかを教育する目的で、それについて話せるようにするんや。これは非常に少ない量のクリップの使用で、元のクリップについてコメントや批判をするという目的の中心になっとる。

やから、その量と実質性は、やろうとしとることを実行するために必要な分だけ元のものを取る場合、フェアユースに有利になるんや。クリップでコメントを作っとって、30秒か数秒だけ使うなら、フェアユースとしては問題ないやろ。

でも、これはすべてケースバイケースやで。クリップがほんの数秒しかなかったら、少ない使用量でも実質的になることがあるんや。AIの文脈では、この量と実質性の問題は本当に難しいんや。なぜなら、AIはしばしば作品の全体を取り込むからな。これは1時間のYouTube動画全体を取るようなもんやろ？

そうや。あるいは小説全体を取り込むんや。それをやっとったら、著作権のある作品の全体を使っとるからフェアユースに不利に働く要因やと思うやろ。でも、これまでに出た判例では、他の事件が出たらまた違う判断が出るかもしれんけど、これまでの判例では、AIモデルは数百万の作品で訓練されなあかんし、文脈のために完全な作品が必要やから、そういう状況では、小説全体を使っても使用の量と実質性の要因がフェアユースに有利に働くって言うとるんや。

彼らはもっと、本全体を見る必要があって、AIモデルを作るために何百万もの本を含める必要があるという使われ方を見とるんや。

最後の要因は、裁判所によってどれだけ重要かの見方が違うんや。事件について話す時に詳しく説明するけど、例えばMetaの事件では、裁判所は侵害が元の作品の市場に与える影響についてのこの要因が極めて重要やって言うたんや。そのMeta事件では、ほとんどのAI訓練は元の作品と競合するAI生成作品で市場があふれることになるから、フェアユースにならんって判断したんや。

やからMeta事件では、彼らが決定した事件以外のほぼすべての他の事件で、彼らは最終的にMetaに有利な判断を下したけど、ほぼすべての他の事件で市場への影響が見られる可能性が高いって言うたんや。やからその場合、フェアユースにならんってことや。これはちょっと無理があるで。これは市場希釈理論って呼ばれとる考え方や。

同じもんやないのに、新しい作品が入ってきて元の作品を押しのけて競争するっちゅう考え方や。従来、この要因は侵害が全く同じ作品の直接的な競争をもたらすかどうかを考慮しとったんや。完全に異なる作品が同じ市場で競争するという観点から見るのとは大きく違うんや。

市場希釈理論の新規性

それはどこで起こるんやろ？これらの大規模言語モデル以外で、そんなことが起こる例があるか？ちょっと理解できるような例はあるか？

これは全く新しい理論なんや。やからこのMeta事件は、フェアユースの市場分析要因でこの市場希釈理論を裁判所が明確に示した最初の事件の一つなんや。

全く新しい理論やから、Meta事件の原告がその要因が自分たちに有利に働くと立証するのが非常に困難やった理由の一部がそれやったんや。原告は、裁判所がその市場希釈理論を使うことすら知らんかったからな、判決が出るまで。

裁判所の判決でこの市場希釈が重要な理論やって言われるのを知らんかったから、原告はそれについて何の証拠も提出せんかったんや。専門家にそれについて証言させることもできたけど、やらんかったんや。やから、ちょっと鶏と卵の問題やな。その理論が使われるって知らんと、その理論を支持する証拠を提出するのは非常に困難なんや。

そうやな。われわれは未だに見えざる手みたいなことで議論しとるからな。それは本当に難しい問題になりそうやで。

大規模言語モデルで見とることと、同じ状況が人間によってやられた場合とはどう違うのか、ちょっと興味があるんや。例えば、もし人間が他人の家に侵入して、自分が所有してない創作物を読んで、それから出て行って何が起こったかについてブログを書いたとして、家に侵入した時に明らかに法律を破っとったとしたら、その権利は学習元の人たちが所有するんやろか？それとも人間の脳やから、そこから出てきたものはもっと自由になるんやろか？

いい質問やな。人間の行動についての判例法では、AI訓練の場合と比べて、もちろんはるかに確立された先例があるんや。

図書館に侵入して、何らかの情報を読んで、それから出てきて侵害となる芸術作品を作る人間の場合、途中でいくつかのステップが潜在的に違法になる可能性があるんや。まず第一に、家に侵入する行為があるやろ。

さて、誰かの本を読むこと自体は違法やない。やから本を手に取って読むこと、合法的にアクセスできるなら違法やないけど、家に侵入するのは法律違反になるんや。同様に、海賊版ライブラリをダウンロードして読むとしたら、その海賊版材料をダウンロードする行為が違法になるんや。なぜなら、元の著作権者の許可なしに著作権のある作品のコピーを作ることになって、それは著作権法の侵害を構成する行為の一つやからな。

次の問題は、その材料で何をしとるかってことや。海賊版材料を使った場合でも、訓練のためにそれを使うなら最終的な使用がフェアユースである限り問題ないって言うMetaの事件の理論の下では、同様に、海賊版材料をダウンロードして、読んだ他の作品と似てない全く新しい作品を作るみたいなフェアユースの目的でそれを使う人間にも適用できると思えるかもしれん。そうすれば、Cadri対Meta事件の分析の下では、それは著作権法の違反にはならんやろ。

でも、それは非常に異なる理論や。人間の使用について見てきたものとは大きく違うんや。人間については一般的に、海賊版コンテンツをダウンロードしたら、海賊版コンテンツをダウンロードしたってことで、それは違法やろ？

Anthropicの事件との比較

でも次の質問に行こう。別の違反についてや。これがBarts対Anthropic事件がそれを別々の違反として扱う方法なんや。海賊版行為は対処すべき一つの問題やって。Barts対Anthropic事件では、海賊版行為は違法やって言うとる。それについては金を払わなあかんってな。

そして、それでやることについて二番目の潜在的な訴因があるんや。人間の場合、侵入や海賊版コンテンツのダウンロードの代わりに、図書館に行って1年かけて図書館のすべてを読んで、それから何か新しい作品を作ったとしよう。裁判所がまずすることは、著作権侵害があるかどうか問うことや。もし読んだものと実質的に類似している、あるいは同一のものを作ったら、それは著作権侵害やで。

裁判所は、何かが実質的に類似しとるかどうかについて多くの要因と考慮事項を持っとる。専門家に来てもらって、どれだけ似とるか言ってもらうかもしれん。これは音楽の事件で見られることで、どれだけ似とるか見るために専門家が各音符を分析するんや。実質的に類似していたら、侵害になるんや。

作っとるものを出版したり売ったりしたら、それは侵害になるんや。そして、たぶんフェアユースにはならんやろ。なぜなら、しばしば商業的性質のものを作っとるか、公益やない何らかの利益を生み出しとるからや。元の基盤となる作品の批判やコメントの目的で作品を作っとるわけやないからな。

そういう状況では、フェアユース抗弁の恩恵は受けられん。裁判所は単に「見てみ、読んだものと実質的に類似したものを作ったやろ。終わり。それは著作権侵害や」って言うやろ。

AIに関しては、裁判所は違う判断をしとる。Barts対Anthropic事件では、裁判所はAIシステムを作ることは根本的に変革的やって言うとる。やから裁判所は、それが人間がやっとることとは何らかの形で異なるって言うとるんや。でもその事件では重要やったのは、AIが出力しとるものが何らかの入力と実質的に類似しとるって誰も主張せんかったことや。

実際、システムに入った入力と同じか実質的に類似した出力を防ぐためのガードレールを設置しとったんや。これは、人間が出てきて類似したものを作るという問題を回避するために重要やったんや。

人間とAIの違い

裁判所は基本的にAIモデルがやっとることは人間がやっとることとは違うって言うたって話やったけど、それをもうちょっと説明してもらえるか？

裁判所は、AIモデルが作品の元の目的を変革しとるって言うとるんや。前の本と類似した本を作るためにただ本を読むんやなくて、AIモデルは多くの本を読んで、根本的にわれわれの生活を変革し、単一の本とは違うことをするシステムを作っとるんや。大きく違うんや。

でも、それって人間がやっとることと似てないか？つまり、学校に行って、たくさんの本を読んで、それから自分なりの新しいコンテンツを生み出せるようになるやん。

でも、彼らが言うとることはそういうことやない。そうや、その通りやって言うとるんや。それに加えて説明すると、人間は本当に近い直接的なコピーを作る選択もできるし、元の作品の hint だけがある非常に異なるものを作る選択もできる。全範囲があるんや。

この場合、われわれはどちらか一方をするようにプロンプトできるLLMについて話しとるんや。やから、すべての場合で著作権のように見えるわけやないけど、時にはユーザーが「この本の非常に近い近似を教えて」ってプロンプトしたら、取り込んだものに非常に似て見えることがあるんや。根本的に君の言う通りで、もし人間が読んだものと実質的に類似したものを何も作ってない例を取るなら、それは著作権侵害とは見なされんやろ。

フェアユース分析に入る必要すらないんや。なぜなら、人間は本を読む時に作品のコピーを作っとるとは考えられんからな。本を読む時、脳にコピーをダウンロードするわけやないやろ？やからAIが関わっとるコピー作成の根本的な行為がないんや。

AIが実際にコピーを作るかどうかについては議論があるけど、これらの事件では、基盤となる訓練データのコピーがあるライブラリがあることを認めとる状況があったんや。やから人間は、非常に良い写真記憶を持ってない限り、読んだものを脳にコピーせん。そして、その場合でも、たぶん本全体は頭に入らんやろ？

余談やけど、うちのおかんは写真記憶を持っとって、学校にいた時、一度盗作で問題になったことがあるんや。筆記試験に入る前に、写真記憶を使って試験に関連する本の部分を暗記して、それから記憶から本の答えを逐語的に書いたんや。先生が「あかん、それは盗作や。そんなことしたらあかん」って言うたんや。

興味深いな。おかんは「本からコピーしたんやない。記憶から書いたんや」って言うたけど、変な話やけど、脳から得たとしても、やっぱりちょっとズルしたような感じがするんや。他人のページを見たわけやないのは分かるけど、ポイントは質問を総合して文脈で理解して学習することやのに、彼女はそれを覚えただけやったからな。

それは魅力的やな。やから、彼らが言うとるのは、これらのAIでも基本的に同じことが起こっとるってことなんや。最終的な出力を生成するために完璧なコピーが作られるんや。そして、これらの事件は、原告がAIシステムが入力から逐語的な出力を生成しとるって主張する状況では、大きく異なる結果になるやろ。

例えば、OpenAIに対するニューヨーク・タイムズの事件では、それがその事件の結果にとって非常に重要になる申し立ての一つなんや。

彼らが何が起こっとるかの証拠として提出したものを読んだで。そこにはちょっと変なところがあるんや。それについて動画を作ったけど、後でOpenAIが実際に出てきて、それは見た目とは違うって言うたんや。

だから、非常に興味深いことになりそうやで。なぜなら、出力の構造を見ると、導入段落、実際の回答、そして要約みたいになっとるからな。要約を基に、プロンプトがどう構造化されとったか分かるんやけど、彼らは最後の段落をすべて削除しとったんや。やから「うわ、それがあったら、モデルからその結果を出力できた方法について多くのことが分かったやろうに」って思ったんや。

Anthropicは、訓練データの入力と同じ出力を防ぐガードレールを設置しとるって言うとるのが興味深いんや。それは素晴らしいな。明らかにその問題を解決するやろうからな。

でも、何かをコピーするってことの意味についてもうちょっと深く掘り下げたいんや。例えば、君が言うたように、人間はそれをコピーせん。読んでから思い出せるんや。一方、モデルの訓練では、モデルは情報をコピーせんけど、モデルを訓練するためのデータを持つには、それをサーバーにコピーして、それを使ってモデルを訓練せなあかんのや。

Googleがその防御を使っとるか知ってるか？なぜなら、彼らは小さなクロールボットで Web 全体をクロールしとるけど、Web ページをコピーすることはないからな。リンクの数とかに蒸留して、Web サイトの数学的表現みたいなのは持っとるけど、コピーはせんのや。それが彼らがそれをできる理由なんかな？

その点については多くの議論があって、それはこれらすべての事件の事実発見で出てくる必要があることやけど、初期の訴訟のほとんどは、何らかのライブラリを持っとるって述べとるか、訓練に使用しとる本や他のデータのコピーを作ったりダウンロードしたりしたって述べとる企業に対して提起されとるんや。

一方で、AIに取り込むための材料のコピーを作らんって誓っとる他のAIシステムもあるんや。AI訓練の目的で使用するために、まずトークン化してから使うって言うとるんや。

まさにそこが疑問やったんや。訓練データをコピーせずに取得する方法があるのかどうか気になっとったんや。正確なコピーは必要やないと思うしな。トークン化する方法があるやろうし、クロールボットにWebをクロールさせて、コピーを作らずにやる方法もあるかもしれん。

やから、その辺りを知るのは興味深いやろな。そこには何らかの簡単な近道があるかもしれん。でも、操作方法によっては、Webをクロールしとっても、キャッシュか何かでコピーを作ることになるやろ？つまり、これはすべて非常に事実集約的やと思うし、その特定の企業の技術がどう働くかについて正確に話す専門家がいるやろ。

でも、これらの初期の訴訟が訓練材料のコピーを保持しとることを認めた企業に対するものやという理由があるんや。

MetaとAnthropicの事件の違い

MetaとAnthropicを巻き込んだ二つの大きな訴訟があって、どちらもモデルを訓練するために海賊版の本とか海賊版材料を使っとるっちゅう事実についてどう思う？もちろん、それは著作権法を破る違法なこと、トレントサイトを使うこととかを理解しとるわけやけど。一方ではAnthropicの事件で裁判官がそれは間違いやって言うとって、Metaの事件では裁判官がそれは大丈夫やって言うとる。その点についてはどう思う？どうしてそうなるんや？

個人的には、Meta事件の裁判官は完全に間違っとると思うで。将来何らかの変革的目的で使う意図がある限り、著作権のある作品を海賊版にしたりトレントしたりするのは大丈夫やって言うのは、理不尽に思える。他の学者は俺と意見が違うけど、俺の観点では理不尽に思える。

それはどうしてやねん？今では誰でもAIモデルを訓練できるんや。やから、もし俺がスタートレックの全エピソードをトレントして、スタートレック好きやから自分用にスタートレックのAIを作ったとしよう。スタートレックの質問回答AIを自分で作ったとしたら、突然俺がスタートレックの全エピソードをトレントしたことが、スタートレックの質問AIを作ることにしたから合法と見なされるようになるんか。

それは俺の心では完全に間違っとると思う。まるでロビンフッドの雰囲気やな。配る限りは盗んでもええみたいな。

そうや。まさにロビンフッドやろ？一方、Barts対Anthropic事件では、作品を購入して合法的にコピーを入手すれば、心ゆくまでAIモデルを訓練できるって正しく判断しとると思うんや。

一般に配布されるような追加のコピーを作らん限り、そして作るコピーをAI訓練の目的のためだけに使う限りはな。どこにも行かん。複製されることもない。そういう状況では、それは大丈夫やと思う。それでAIを訓練できるんや。

さて、作品でAIを訓練するという単なる事実が何らかの著作権侵害を構成するかどうかについては他の問題があるけどな。でも、そこでの間違いは著作権にはあまり適合せんと思う。なぜなら、必ずしもその作品を正確に複製したり、派生作品を作ったりしとるわけやないからや。議論の余地はあると思うけど、その点については裁判所は、コピーを作ってない場合、それはたぶん著作権侵害にならんやろうし、派生作品を作ってない場合も著作権侵害にならんやろうってかなりはっきりと判断するやろ。

でも海賊版作品に関しては、Barts対Anthropic事件では、それらの作品をAIシステムの訓練に使っとって、訓練自体がフェアユースやったとしても、海賊版コンテンツの行為を別に考慮するって言うたんや。

そして、購入せんかった著作権のあるものをダウンロードしとったら、それについて責任があるってことや。興味深いことに、Barts対Anthropic事件は、その海賊版材料の損害について裁判にかけられることになっとるんや。そして、多くの場合、本は著作権があるだけやなくて登録もされとるから、強化された損害を受ける権利があるんや。

登録された著作権は侵害に対する強化された損害、法定損害を受ける権利があって、それは作品ごとの数字に基づいとる。使用が故意やった場合、作品あたり15万ドルまで上がることがあるんや。やから、著者のクラスの規模と侵害されたとされる作品の数によっては、そのBarts対Anthropic事件で数百万か数十億ドルの著作権法定損害を見ることになる可能性があるんや。

Anthropicへの実存的脅威

そうや。それが俺の質問の一つやったんや。それはAnthropicにとって実存的脅威になるかもしれんように思える。正しく理解しとるか？

そうやな、たぶん保険金請求か何かを通じてか、あるいは著者との何らかの取引を通じて、そこから抜け出す何らかの方法を見つけることができるやろ。

著者が作品あたり15万ドル未満の何らかの損害を受けるような補償基金を提供する和解のようなものを見るかもしれんな。もしこれが裁判にかけられて、裁判所が数百万の海賊版作品がすべて著作権があったって判断したら、それは莫大な損害やと思う。

でも、これらのAI企業の多くも数百万、数十億ドルの収益を生み出しとるんや。やから、必ずしも彼らの終わりになるわけやない。ただ、非常に困難になって、これが法律になったら、将来は合法的に入手された作品を使うよう確実にせなあかんようになるんや。もちろん、これらの事件はすべて控訴の対象になるやろ。

裁判所は裁定を停止する可能性が高い。つまり、損害賠償やそういったもののような、彼らの裁定の適用を一時停止するってことや。控訴中はそれらを一時停止するやろうし、この種の事件は最高裁判所まで行くやろ。

それは10年かかるかもしれんし、運が良ければ5年や。5年でこれらのAI企業に多くのことが起こる可能性があるからな。やから、彼らは実務を変えるかもしれんとも思う。合法的に作品を入手する方法を見つけ始めるかもしれん。

俺はクリスタ・レーザーや。クリーブランド州立大学法科大学院の知的財産法教授やで。新しく設立された知的財産・起業家精神センターの所長もしとる。AIやブロックチェーン、バイオ医薬品を含む知的財産法と革新に関連するトピックを投稿するYouTubeチャンネルとchristalaser.comのウェブサイトを持っとるんや。