Googleはこれに怒る権利があるのか?

GoogleとOpenAIが、DeepseekによるAIモデルの「蒸留攻撃」を知的財産権の侵害として批判している状況を取り上げた動画である。両社は世界中のデータを無断で収集して生成AIの学習に使用してきた経緯があるにもかかわらず、自社のモデルから知識を抽出されることに対して倫理違反だと主張している。この矛盾した姿勢は、AI業界における倫理基準がいかに恣意的であるかを浮き彫りにしており、結局のところ企業の利益確保が最優先されていることを示している。

Is Google allowed be mad at this?

- I Stream on Twitch - Want to order coffee over SSH?ssh terminal.shopBecome Backend Dev: h...

Googleが訴える倫理違反の矛盾
DeepseekとAI競争の実態
行動クローニングとデータ窃盗の議論

Googleが訴える倫理違反の矛盾

さて、アメリカには非常に深刻な問題があるんです。これについて動画を作らなければならないと思いました。なぜなら、十分な人数がこの問題について話していないからです。これは倫理の侵害、深刻な倫理の侵害なんです。正直言って、私が目にしている行動には本当に吐き気がします。

倫理的ではないだけでなく、完全に犯罪行為とも言えるかもしれません。「一体何の話をしているんだ?この犯罪的な行動って何なんだ?」と思われるでしょう。Googleが最近発見したことを聞いたら信じられないと思いますよ。

Google DeepMindとGTIG、つまりGoogle脅威インテリジェンスグループですが、彼らはモデル抽出の試みや蒸留攻撃の増加を特定したんです。これは知的財産権の窃盗の一種であり、Googleの利用規約に違反するものだと言っています。

そうです、ここで初めて聞きましたよね。世界中のデータを盗んで、それを生成AIという形で私たちに売り返している会社が、生成AIから誰かが盗んでいることに腹を立てているんですよ。信じられない!冗談みたいな話ですよ。Googleが知的財産権の窃盗を訴えようとしているという事実。

これは私が人生で見てきた中で最も皮肉に満ちたことの一つだと思います。Googleだけじゃないんです。OpenAIも警告を鳴らしているんですよ。OpenAIは、民主的なAIとともに前進する未来が最良の未来だと信じています。

ちなみに、民主的なAIというのは、モデルをもっとオープンソース化するという意味では決してありません。それはあまりにも民主的すぎますからね。アメリカが常に掲げてきた原則によって形作られるAI。民主的なAIを推進する中で、アメリカは2030年までにAIの世界的リーダーになろうとしている中国共産党と競争しているんです。

DeepseekとAI競争の実態

これがDeepseek R1のモデルが旧正月の1年前にリリースされたことが、競争状態を測る指標として非常に注目に値する理由の一つです。

後の方では、OpenAIがDeepseekの蒸留技術についての評価を提供していると述べられています。要するに、彼らがOpenAIやGoogle、Anthropicからデータを取得して、それを自分たちのモデルの訓練に使用している方法を詳しく説明しているわけです。そして、ダリオ・アモデイがそれらの中国のオープンソースモデルについてどう感じているかは、もうご存知ですよね。

オープンウェイトなんてこの家では認めませんよ。蒸留やその他の用語について全く知らない人のために、実際に何が起こっているのか、かなり高度な概要を説明しましょう。

これらのLLMでは、基本的に2つの主要な訓練ラウンドを経ます。実際にはもっと複雑なんですが、この動画のためには2つのラウンドだと考えてください。

事前学習データのセクションがあって、そこではブログから見つけた単語のリストを入力し、ブログから次に出てくる単語をモデルに予測させます。そして、誤差逆伝播法として知られる8行のアルゴリズムに従って、数十億もの全てのパラメータを修正していくんです。

大学時代、AI科学の修士課程を取得していた頃にこれについて学んでいたんですが、偏微分がたくさん出てきます。誤差逆伝播の本当の意味は、単純に言えば、答えに誤って寄与した割合に応じて変更すべき割合を決めるということです。学習率と呼ばれるスケールダウンの掛け算も含まれます。

とにかく、これによってモデルの基本的な形状が与えられます。そして2番目のフェーズが指示チューニングで、質問と答えがあるんです。これがAIを単純な次の単語予測から、「これはどう機能するんですか?」といった、より広範な質問に答えられるようにする方法なんです。「まさにこう機能するんですよ、これはああでこうで」という感じでね。

それがこのフェーズで行われるわけです。Deepseekがどう機能するかというと、「ChatGPT、Pythonサーバーのコーディング方法を教えて」という質問をするんです。答えは何だと思いますか?ChatGPTを使って指示チューニングをしているだけなんです。

行動クローニングとデータ窃盗の議論

この素晴らしい動画から、説明欄にリンクを貼っておきますが、彼らは通常これを行動クローニングと呼んでいます。それは事前学習の微妙なニュアンスや、半分くらい一致するものを学習することが全く得られないからです。

単純に「オーケー、こういう風に常に答えるべきだ」という感じです。別のモデルの行動を模倣しようとしているだけなんです。そしてこれが、GoogleやOpenAI、その他全ての企業が知的財産権の窃盗だと主張している部分です。中国が彼らの指示チューニングを盗んでいるとね。

Googleが、事前学習のために世界中のデータを盗んできたリーダーの一つでありながら、人々が自分たちの知的財産を盗んで利用規約を破っていると主張する要約レポートを実際にリリースする勇気を持っているなんて、信じられない世界に私たちは生きています。

サイトから事前学習データを収集することで、いったいいくつの利用規約を破ってきたんですか?インターネット全体で文字通り何百万、いや何千万もの利用規約を破ってきたでしょう。だから実際にこう書き留めるなんて、「誰かが私たちから盗むのって超不公平で非倫理的だよね?」って感じですよ。

これは非倫理的の最も古典的な定義みたいなものです。いつもこうなんです。「ああそうだね、倫理なんて実際には重要じゃないよ、自分にとって非倫理的になるまではね。そうなったら重要になるんだ。そうなったら本気だ。そうなったら本当に怒るんだ。よくも知的財産を盗もうとしたな!」ってね。

5分前には「知的財産なんて偽物で存在しないよ」って言ってたのに、今は「いや、本物だ」って言うんですよ。

これが私に示しているのは、本当に一つの大きな教訓があるということです。それは常に全く同じ教訓なんです。民主的なAIでみんながAIを使えるようにするということではないんです。私だけが提供できる民主的なAIについてなんです。

OpenAIやGoogleは、最上位に立ちたいんです。彼らはAIを提供する側でありたいし、その入力を形成し、何が言えて何が言えないかを決められる立場にいたいんです。

正直言って、それが最終的な利益以外の何かのためだとは思えません。だからGoogleが知的財産権の窃盗を訴えても、嘘じゃなく、私は一滴の涙も流しません。

名前はキミー・ケーゲンです。コーディングを学びたいですか?より良いバックエンドエンジニアになりたいですか?それならboot.devをチェックしなければなりません。

個人的に私はそこでいくつかのコースを作ってきました。YouTubeで無料で視聴できるコース全体のライブウォークスルーがあります。boot.devの全てのコンテンツは無料で利用できます。でもゲーム化された体験や学習の追跡などが欲しければ、お金を払う必要があります。でも、ぜひチェックしてみてください。素晴らしいですよ。

あなたが知っていて好きな多くのコンテンツクリエイターがそこでコースを作っています。boot.dev/primeで25%オフです。