なぜ中国のAIは突然これほど優秀になったのか（DeepSeek、SeaDance 2.0の解説） | アジアンボス解説

本動画は、中国のAI技術がなぜ急速に世界トップクラスへと躍進したのかを、ハードウェア、モデル、データの3つの層からなる「AIスタック」の概念を用いて詳しく解説するものである。かつてAlphaGoに衝撃を受けた中国は国家戦略としてAI開発を推進し、米国の半導体輸出規制というハードウェアの壁に直面しながらも、DeepSeekのようなソフトウェア技術の極限の最適化と、ByteDanceなどが保有する膨大なマルチモーダルデータを武器に、独自の進化を遂げて米国企業の強力なライバルとなっている現状を紐解いている。

Why Chinese AI Is Suddenly So Good (ft. DeepSeek, SeeDance 2.0) | AB Explained

Take your personal data back with Incogni! Use code ASIANBOSS at the link below and get 60% off an annual plan: DeepSeek...

2016年3月10日：AIの歴史を変えたAlphaGoとイ・セドルの対局
世界に衝撃を与えた第37手と中国の覚醒
デジタル時代の個人情報保護について（スポンサーメッセージ）
AIを構成する3つの層：AIスタックとは
ハードウェア層：マイクロチップとGPUの魔法
TSMCとNvidia：世界の半導体サプライチェーンを巡る地政学
モデル層：DeepSeekがソフトウェアでハードウェアの壁を越えた方法
トランスフォーマーと強化学習：AIの推論能力を極限まで高める
データ層：ByteDanceとマルチモーダルデータの圧倒的な優位性
AIの未来と私たちにできること

2016年3月10日：AIの歴史を変えたAlphaGoとイ・セドルの対局

2016年3月10日に何をしていたか、たまたま覚えている方はいらっしゃいますか。およそ10年前の完全にランダムな日付のように聞こえるかもしれませんが、実はこの日、人類とAIの関係を永遠に変える、あるいは再定義することになる出来事が起こりました。

2016年3月10日、韓国のソウルにある静かな部屋で、二人の対戦相手が向かい合って座っていました。静かだと言いましたが、実際には世界中から集まったカメラや技術者、ジャーナリストで埋め尽くされたかなり広い部屋でした。それほどの注目を集めていたにもかかわらず、室内の雰囲気は水を打ったように静まり返り、緊張感に包まれていました。それもそのはず、二人の対戦相手は囲碁の第2局を始めようとしていたからです。

囲碁について聞いたことがない方のために説明しますと、これは2500年以上前に中国で生まれた、世界最古の戦略ボードゲームだと広く考えられています。そして、多くの人が知っているチェスとは異なり、囲碁ははるかに複雑です。囲碁の盤面の可能な配置の数はあまりにも膨大で、観測可能な宇宙に存在する原子の数すら超えると言う専門家もいるほどです。それは文字通り、何兆の何兆倍の何兆倍といった数の盤面配置の可能性があるということです。つまり、たった1回のゲームが展開する道筋の数は、ほとんど想像もつかないほどなのです。

だからこそ、何十年もの間、その時まで、機械が囲碁で人間のマスターを打ち負かすことは絶対にできないというのが一般的な見解でした。たとえいつか可能になる日が来るとしても、それは何十年も先のことだろうと思われていたのです。

とにかく、その日、盤面の一方に座っていたのは、歴史上最も偉大な囲碁棋士の一人であり、韓国の国民的英雄であるイ・セドルでした。当時彼は世界ランキング1位ではありませんでしたが、すでに18の国際タイトルを獲得しており、その創造的で攻撃的なプレースタイルで知られる、まさに世界的な囲碁のレジェンドでした。では、対戦相手として彼の向かいに座っていたのは誰だったのでしょうか。それは、Googleに買収されたばかりのイギリスのAI企業であるDeepMindが開発した、AlphaGoというコンピュータープログラムでした。

5番勝負で行われるこの対局が始まる前、多くの囲碁専門家はイ・セドルがかなり余裕でAlphaGoを打ち負かすだろうと信じていました。何しろ、人間は2000年以上にわたって囲碁というゲームを支配してきたのですから。しかし、第1局で4時間近くに及ぶ接戦の末、予想外の出来事が起こりました。AlphaGoがイ・セドルを破ったのです。部屋にいたほとんどの観客は、完全に呆然としてその様子を見つめていました。ただし、最初からその結果を予想していたかのような顔をしていた二人の人物を除いては。AlphaGoを開発した企業DeepMindの創設者であるデミス・ハサビスと、この歴史的な対局を直接見るためにソウルに飛んできていたGoogleの共同創設者セルゲイ・ブリンです。

世界に衝撃を与えた第37手と中国の覚醒

しかし、次の試合、つまり2016年3月10日のシリーズ第2局で起こったことは、囲碁界全体、そして特に中国にさらに大きな衝撃を与えることになります。

ゲームの中盤、AlphaGoは、試合をライブで見ていたプロの解説者たちにとって、最初は完全に奇妙に見える一手に出ました。その状況において、人間のトッププレイヤーなら通常絶対に打たないような形で盤面に石を置いたのです。数分間、解説者たちでさえ説明を止め、自分たちが見ているものを理解しようと悩み、機械がミスをしたのではないかと疑うほどでした。イ・セドル自身もあまりに驚いたため、休憩を取るために約15分間部屋を退出しました。ちなみに、時計が動き続けている限り、プレイヤーは対局中に実際にそうした休憩を取ることが許されています。

後に単に第37手として知られるようになるその一手は、決してミスなどではありませんでした。そしてそれは、プロの棋士たちが囲碁というゲームについて考える方法を完全に作り変えることになります。AlphaGoはそのまま第2局も勝利を収め、その瞬間、見ているすべての人に突然あることが腑に落ちました。機械が世界最高の人間のプレイヤーの一人を2戦連続で打ち負かしただけでなく、2000年以上もの間、人間が誰一人として考えつきもしなかった全く新しい戦略を明らかにしたのです。

ちなみに、イ・セドルは第4局で、後に多くの人が神の一手と呼ぶ驚異的に創造的な手を使い、なんとかAlphaGoに一度だけ勝利を収めました。しかし結局のところ、彼はシリーズを4対1で負け越しました。そして最終的に中国を動かしたのは、AlphaGoの圧倒的な強さ、特にあの異次元のような第37手だったのです。

欧米では、多くの人がこれを単に、賢いアルゴリズムがボードゲームで人間に勝ったという、もう一つの印象的なマイルストーンとして見ていました。しかし、多くの中国の科学者や政策立案者にとって、AlphaGoの対局は、中国のAIへの取り組みを劇的に加速させる強力な警鐘として機能しました。その翌年、中国政府はAIを最優先課題とする国家戦略を発表し、明確な目標を掲げました。それは2030年までにAIの世界的リーダーになるというものです。

それから10年も経たないうちに、突然DeepSeekやSeaDanceのような中国のAIツールがインターネット上でバイラルに広がっているのを目にしています。では、中国はどのようにしてそれを成し遂げたのでしょうか。後ほどこの動画でも触れますが、AI開発競争における究極の武器はデータです。大手テクノロジー企業は、インターネット全体を容赦なくスクレイピングし、見つけられるあらゆるテキスト、ビデオ、そして個人情報を収集しています。しかし、あなたのデジタルフットプリントを収穫しているのは、こうした巨大テクノロジー企業だけではありません。

デジタル時代の個人情報保護について（スポンサーメッセージ）

ここで、本日のスポンサーであるIncogniをご紹介します。自動化されたAIによるウェブスクレイピングの新しい時代において、皆さんの個人情報はかつてないほど危険にさらされています。現在、データブローカー、人物検索ウェブサイト、身元調査会社などの業界全体が、皆さんの非常に詳細なプロファイルを作成するために、インターネットを密かにスクレイピングしています。そしてそれこそが、詐欺師やアイデンティティ泥棒があなたの個人データを買いに行く場所なのです。彼らはそれを使ってあなたになりすまし、あなたの名前でクレジットカードを作り、あなたのお金を盗みます。誰かがあなたの盗まれたアイデンティティでローンを組み、あなたは手遅れになるまでそれに気づきすらしない様子を想像してみてください。

だからこそ、Incogniが必要なのです。Incogniはデータブローカーのサイトからあなたを削除するだけでなく、それ以上のことをしてくれます。カスタム削除機能を通じて、Incogniはあなたの個人データが販売され取引されている特定のウェブサイトやプラットフォームをターゲットにします。彼らはあなたに代わってこれらの企業に連絡し、あなたの情報の削除を要求し、実際にそれが削除されたことを確認します。彼らがすべてを処理してくれるので、あなた自身が何か月もかけて自分で行う必要はありません。

これは言うなれば、インターネットから自分自身を取り除くようなものだと考えてください。あなたの許可なしに、毎日データが売買されているのと同じインターネットからです。私自身も比較的公的な立場にあるためIncogniを使用していますが、その結果には目を見張るものがありました。ですので、自分のデータが搾取されるのを防ぎたい場合は、このQRコードをスキャンするか、説明欄のリンクを使用してIncogniを試してみてください。incogni.com/asianboss で ASIANBOSS というコードを使用すると、年間プランが60%オフになります。あなたのアイデンティティを保護し、インターネットから自分自身を削除するための60%オフです。このオファーをぜひ活用することを強くお勧めします。

AIを構成する3つの層：AIスタックとは

それでは、本題の深掘りに戻りましょう。中国がなぜ突然AIでこれほど優秀になったのかという質問に答える前に、この話題においてほとんど誰も明確にしたがらない、非常に基本的な疑問を解消しておきましょう。AI、つまり人工知能とは一体何なのでしょうか。

多くの人はその言葉を聞くと、ChatGPTやGeminiがメールやエッセイを書いている姿を思い浮かべるかもしれません。あるいは、ソーシャルメディア上のますますリアルに見えるフェイク動画を想像するかもしれません。もしかすると、踊ったりクレイジーな宙返りキックでカンフーをしたりするヒューマノイドロボットのことを考えているかもしれません。

しかし、ここが重要なポイントです。AIというのは、実は単一のテクノロジーではありません。それはスタック、つまり複数のテクノロジーの層が積み重なったようなものであり、それぞれの層が機能するためには、その下にある層に依存しているのです。そして、アメリカと中国が現代史上最も重大な技術的ライバル関係に陥っている理由を理解したいのであれば、このスタックを一番下から理解する必要があります。なぜなら、この競争は、ハードウェア層、モデル層、そして何十億もの人々が毎日使用しているアプリケーション層全体で同時に起こっているからです。

ハードウェア層：マイクロチップとGPUの魔法

それでは、一番基礎の部分から始めましょう。AIスタックの絶対的な一番下にあるのが、ハードウェア層です。これは本質的に、AIを超複雑な数学の計算から現実のものへと変える物理的なインフラストラクチャです。私たちが話しているのは、巨大なデータセンター、冷却システム、GPU、そして最も重要なマイクロチップのことです。その名の通り、これは信じられないほど小さなものです。

もしあなたが、これらのチップが実際にどれほど小さいかを見たことがないなら、顕微鏡下で見たマイクロチップのこの驚異的な映像を見てください。それはあまりにも異常なほど小さく、私が初めてこれを見たとき、人間がどうやってこんなものを作り出すことができるのかと不思議に思ったほどです。簡単に言えば、マイクロチップとは半導体と呼ばれる原材料から削り出された高度にエンジニアリングされた製品です。そして今日使用されている最も一般的な半導体材料はシリコンです。物理的に見れば、マイクロチップは文字通り、何十億もの微細な電気的トランジスタ、つまりスイッチが直接組み込まれたシリコンの小さな破片にすぎません。

では、これらのスイッチは実際に何をしているのでしょうか。それらは単に電気をオン・オフして、コンピューターが理解できる言語を作り出しているだけです。スイッチがオフなら、それはゼロです。スイッチがオンなら、それは1です。これを十分な数だけつなぎ合わせれば、コンピューターコードの出来上がりです。

しかし、ここからが面白いところです。そして、そもそも私たちがこれを半導体と呼ぶ理由でもあります。もし銅線でコンピューターチップを作ろうとしても、銅は完璧な導体であるため機能しません。電気が絶え間なく流れ続けるため、スイッチは常に1に固定されてしまいます。一方で、ゴムでチップを作ろうとしてもやはり機能しません。ゴムは完璧な絶縁体だからです。電気を完全に遮断するため、スイッチは常にゼロに固定されてしまいます。

しかしシリコンは、自然にそのちょうど中間に位置するという点で特別なのです。通常の条件下ではゴムのように電気を遮断しますが、微小な電荷を与えると突然変化し、銅のように電気を通すようになります。これこそが魔法なのです。シリコンは、電力を遮断することと電力を通すことの間を瞬時に切り替えることができるため、人間のエンジニアが実際にそれを制御することができます。私たちはその何十億もの微細なスイッチを小さなゲートのように扱い、シリコンに対して1秒間に何十億回も0と1の間を反転するように命令することができるのです。

今日の単一の高度なマイクロチップには、何百億ものこれらのスイッチが含まれており、それらがすべて、およそあなたの指の爪ほどの大きさのシリコンの破片に詰め込まれています。しかも、それは通常のマイクロチップの話です。AIを動かすために使用されるチップの話になると、すべてがはるかに大きく、はるかに高価になります。

現在、AIの世界で最も重要な単一の種類のチップは、GPUと呼ばれるものです。これはGraphics Processing Unitの略です。GPUも技術的にはまだマイクロチップですが、物理的にはノートパソコンの中に入っている通常のチップとは全く異なる構造で作られています。もしあなたがGPUを見ることがあれば、シリコンの表面は、密集して詰め込まれた何千もの小さな頭脳の巨大なグリッドに分割されています。元々、GPUは非常に特化した一つの目的のために設計されました。それはビデオゲームにおける複雑なグラフィックのレンダリングです。影や反射、3次元環境といったものです。

しかし、研究者たちは最終的に、GPUを画像のレンダリングに非常に適したものにしている全く同じアーキテクチャが、AIシステムが必要とする大規模で並列的な数学的計算を実行するのにも信じられないほど強力であることを発見しました。ですから、あなたがAIツールにテキストのプロンプトを入力して短い動画クリップを生成させようとするとき、実際に起こっているのは、システムが1秒の何分の一かの間に何千億回、時には何兆回もの数学的演算を実行しているということです。もっともらしい出力を生成するために、学習したすべてのデータとパターンを照合しているのです。それを行うには、GPUという名のエンジンが必要です。

現在市場に出ている中で最も新しく、最も高度なGPUアーキテクチャは、Blackwell B200と呼ばれています。これはあまりにも巨大なため、もはや単一のシリコンの破片ですらありません。実際には2つの独立したチップがシームレスに縫い合わされて1つとして機能するように作られており、気が遠くなるような2080億個の微細なスイッチが詰め込まれています。そして技術の進歩はあまりにも速く、2026年1月には、Rubinプラットフォームと呼ばれるさらに高度なGPUアーキテクチャがすでに開発中であることが発表されました。

これらのチップは本質的にAI革命全体のエンジンであるため、このGPUのたった1つが3万ドルから4万ドルもします。そしてChatGPTのような巨大なAIモデルをトレーニングするには、1つだけでは足りず、何万ものGPUが必要であり、それらがすべて数十億ドル規模の巨大なデータセンターで互いに接続されているのです。

ちなみに、NvidiaのCEOであるジェンスン・フアンがイーロン・マスクにGPUをプレゼントしたバイラル動画を見たことがあるなら、待って、あれは小さなチップには見えない、何か重いハードドライブみたいだと考えたかもしれません。その通りです。彼が手渡したのは単なるGPUではなく、巨大な冷却ファンが組み込まれたミニスーパーコンピューター全体だったのです。実際に数学の計算を行っているシリコンの破片、つまりGPU自体は、トランプのカードほどの大きさにすぎません。

TSMCとNvidia：世界の半導体サプライチェーンを巡る地政学

しかし、ここから事態は深く地政学的になり始めます。なぜなら、誰が実際にこれらのGPUの生産をコントロールしているのでしょうか。

2026年3月の時点で、Nvidiaは地球上で最も価値のある企業であり、その価値はおよそ4兆5000億ドルに上ります。彼らはアーキテクチャを設計し、事実上、これらトップクラスのGPUの世界的な供給をコントロールしています。しかし、ここが問題です。Nvidiaは実際に自分たちでチップを物理的に製造しているわけではありません。彼らはチップを設計し、その設計図を台湾の特定の企業、つまりTSMCに渡して製造してもらっているのです。

TSMC、正式名称Taiwan Semiconductor Manufacturing Companyは、これら超高度なチップを確実に大量生産できる地球上で唯一の工場です。今日、彼らは世界のチップ製造市場全体のほぼ70％を支配し、AIに使用される最も高度なチップの市場では90％以上を支配しています。

ここで皆さんは、もしTSMCが台湾の企業であり、中国が台湾を自国の領土の一部だと主張しているなら、なぜ中国は単にTSMCにチップを引き渡すよう強制できないのだろうかと考えるかもしれません。その答えは、レバレッジにあります。TSMCは台湾の企業ですが、彼らの工場はアメリカのソフトウェア、アメリカの特許、そしてアメリカ製の機械に大きく依存しています。そしてアメリカの法律の下では、アメリカの技術を使用して製品を作るいかなる外国企業も、高度なAIチップを中国に販売することを厳しく禁じられています。もしTSMCがそのルールを破れば、アメリカは即座に彼らが生き残るために必要なツールへのアクセスを遮断し、事実上その会社を閉鎖に追い込むでしょう。

では、これらのチップがそれほど信じられないほど価値があるのなら、なぜ中国は何十億ドルも費やしてゼロから自分たちバージョンのTSMCを作ることができないのでしょうか。それは、これらのチップを製造することが、人類の歴史上おそらく最も複雑な物理的プロセスだからです。それには何十年にもわたって蓄積されたエンジニアリングのノウハウが必要であり、オランダで作られた2億ドルのレーザーマシンや日本からの超高純度化学物質など、極めて特殊な設備や材料に依存しています。韓国のSamsungのような巨大テクノロジー企業でさえ、TSMCに追いつこうと何十億ドルも費やしてきましたが、それでも自社の高度なAIチップを同じように確実に機能させるのに苦労しています。

世界的なボトルネックは非常に深刻で、イーロン・マスクは最近、TeslaがアメリカでProject Terafabと呼ばれる独自の巨大なAIチップ工場を立ち上げると発表しました。彼は、TSMCのようなサードパーティのサプライヤーが将来の需要を満たすのに十分なチップを製造できないため、他に選択肢がないと主張しました。

先ほど、AlphaGoが中国のお尻に火をつけ、AIに関する包括的な国家戦略を打ち出させたとお話ししたのを覚えていますか。その戦略は次世代人工知能発展計画と呼ばれ、2030年までにAIの世界的リーダーになるための当時の中国の計画の一部には、ハードウェア層も支配することが含まれていました。中国の当初の計画は、HuaweiやSMICのような地元のテクノロジー企業に投資して独自のチップ生産を開始させることでした。しかし中国は、数年後に世界トップクラスのGPU供給から完全に遮断されることになるとは、おそらく予想していなかったでしょう。

現在、中国がハードウェアの面で追いつくことは事実上不可能なように見えます。なぜなら、アメリカとその同盟国は事実上、中国がTSMCにアクセスするのをブロックし、Nvidiaの最高のGPUを買うのをブロックし、そしてそれらを国内で製造するために必要な特殊なヨーロッパや日本の機械を買うこともブロックしているからです。

これが中国にとってどれほど巨大なボトルネックを作り出しているかお分かりいただけるでしょう。確かに、中国はコンクリートを流し込み、AIスーパーコンピューターを収容するために必要な巨大なデータセンターや冷却システムを建設することは十分に可能です。それは簡単な部分です。しかし、そのスーパーコンピューターを動かすための実際のエンジンを手に入れるとなると、全く別の話になります。中国は世界で最も重要なハードウェアのサプライチェーンから締め出されていたため、欧米の専門家のほとんどは、彼らのAIの野望は頓挫したと思い込んでいました。誰も、中国がアメリカに追いつくことができるとは考えていませんでした。

しかし、欧米が過小評価していたのは、中国がソフトウェアの分野でどれほどイノベーションを起こせるかということでした。中国のエンジニアたちは、ハードウェアを力技でどうにかする代わりに、ゲームのルールを書き換える方法を見つけたのです。そして、この死角こそが、中国がDeepSeekと呼ばれるAIモデルを発表したとき、欧米のテクノロジー界全体が完全に不意を突かれた理由なのです。

モデル層：DeepSeekがソフトウェアでハードウェアの壁を越えた方法

さて、ここまででAIが実際には様々な技術のスタックであることがお分かりいただけたかと思います。一番下にあるハードウェア層、主にそれらの異常なほど強力なGPUについてお話ししました。そして、そのハードウェアの真上に座っているのが、私が先ほどソフトウェア層と呼んだものです。より正確に言えば、これにはソフトウェアの要素が関わっていますが、本当にモデル層と呼ぶべきものです。そしてここが、現代のAIの実際の頭脳が存在する場所なのです。また、中国が競争できることを証明した層であるとも言えます。

公平を期すために言えば、ハードウェア層は依然として非常に重要です。何もないところにモデルを構築することはできません。確かに中国はアメリカから出てくる最も高度なAIチップから遮断されましたが、中国の研究者たちは、アメリカの輸出禁止の前に備蓄していたNvidiaの古くて能力の低いGPUを使ってまだ作業することができました。ハードウェアの面で制限されていたため、彼らはより革新的になり、よりスマートなエンジニアリングと低コストのトレーニング戦略を通じて、それらのチップからはるかに多くのパフォーマンスを絞り出さなければなりませんでした。彼らは効率性に取り憑かれ、どうすれば弱いハードウェアからより良い結果を引き出せるかとか、計算の無駄をどうやって減らすかといった質問を常に投げかけるようになりました。

そして、それが私たちをモデル層へと導きます。ここで、基盤モデルといった用語が登場します。例えばChatGPTを例に挙げてみましょう。ChatGPTというアプリは、実際にはモデルそのものではありません。それは基盤モデル、つまり一般の人々が対話できる頭脳の周りを包んでいる、消費者向けアプリなのです。そして2026年3月の時点でChatGPTを動かしている最新の基盤となる頭脳は、GPT-4oと呼ばれるモデルです。

しかし、エンジニアたちは一体どのようにしてその基盤モデルを構築しているのかと不思議に思うかもしれません。その答えは、2017年のアメリカの研究者たちによる巨大なエンジニアリングの突破口にまで遡ります。彼らは、AIのための全く新しいアーキテクチャの設計図となるトランスフォーマーを導入しました。

トランスフォーマーは、革新的な新しいエンジンの設計だと考えてください。2017年以前、AIは人間が本を読むのと同じように、左から右へ、厳密に1単語ずつテキストを処理していました。それは遅く、もし文章が長すぎると、AIは最後に到達する頃には読んでいる内容の文脈を文字通り忘れてしまっていました。トランスフォーマーはゲームのルールを完全に変えました。なぜなら、それは文字の巨大なブロック全体を一度に見るように数学的に構成されていたからです。さらに重要なことに、それはすべての概念の間に目に見えない数学的なつながを描いたため、文脈を失うことが決してありませんでした。

そして、このトランスフォーマーエンジンを使って、人間のテキストの絶対的な山を処理するように特別に設計したとき、私たちが大規模言語モデル、あるいはLLMと呼ぶものが出来上がるのです。さて、LLMの構造はその絶対的な中核において、基本的には究極の次の単語当てゲームをしているだけです。あなたが誰かにテキストメッセージを送るときにスマートフォンのシンプルなオートコンプリート機能を使うようなものですね。しかし、トランスフォーマーアーキテクチャのおかげで、基盤モデルが文脈を失うことはありません。そして、それは文法、論理、物理学、数学、そして基本的にインターネット上の他のすべてのことについて訓練されているため、その予測は単純なオートコンプリートをはるかに超えていきます。それが次の単語を推測するとき、それは複雑な人間の推論と全く同じように見え、またそのように振る舞い始めるのです。

OpenAIを含む世界中のほぼすべての主要なAI企業が、この全く同じトランスフォーマーの設計図の上にモデルを構築しました。しかし、巨大なトランスフォーマーの頭脳を構築するには、何千もの最先端のトップクラスGPUが必要であり、繰り返しになりますが、アメリカは中国がそれを買うのを禁止していました。そこでDeepSeekのような中国の企業は、そのトランスフォーマーの設計図を取り、それをより安く、より効率的にするために根本的に作り変えなければなりませんでした。そして彼らはそれを成し遂げるために、2つの巨大な突破口を開いたのです。

第一に、彼らはMixture of Experts、略してMoEと呼ばれるアーキテクチャを絶対的な極限まで押し進めました。ここでのエキスパートとは、文字通り、特定のパターンを認識することに特化したモデル内部の人工ニューロンのクラスターのことです。ですから、もしあなたが数学の質問をすれば、モデルはそれを数学の方程式を認識するニューロンのクラスターへとルーティングします。

以前の密度の高いAIモデルでは、あなたが質問をするたびに、答えを計算するために巨大な頭脳全体がオンにならなければならず、それは膨大なGPUの計算能力を消費していました。これに対処するため、OpenAIのようなアメリカの企業はMoEの使用を開拓しました。これは本質的に、モデルを複数の特化したエキスパートクラスターに分割するものです。

しかし、DeepSeekのエンジニアたちは、この概念をエンジニアリングの極限まで高めました。モデルを数十のエキスパートクラスターに分割する代わりに、彼らはそれを256の超特化した小さなエキスパートにスライスしたのです。そのため、あなたがDeepSeekにコーディングの問題を解決するように頼むと、超高効率のルーターが瞬時に起動し、それらの小さなエキスパートのうちのたった8つだけを活性化させ、頭脳の大部分を完全に眠らせたままにしておきます。

しかし、中国勢はそれだけにとどまりませんでした。彼らはこの極端な断片化を、彼らが発明した全く新しい技術であるMulti-head Latent Attention、略してMLAと組み合わせました。これが何をするものなのかを理解するために、AIと会話をすることを想像してみてください。長く複雑な質問をしたとき、AIは文脈を失わないように、会話の前の部分を常に頭の中に保持し続けなければなりません。エンジニアリングの世界ではこれをキーバリューキャッシュと呼びますが、単にAIの短期記憶と考えていただいて構いません。

通常、この短期記憶をすべて保存するには膨大な量のGPUパワーが必要になりますが、DeepSeekの新しいMLA技術は、極限のメモリ圧縮ツールのように機能します。それは本質的に、AIの短期記憶のフットプリントを90％以上縮小します。これにより、モデルは劇的に少ないメモリを使用しながら自分が考えていることを完璧に追跡できるようになり、システム全体を信じられないほど安価で高効率に動かすことができるのです。

第二に、彼らはハードウェアが通信する方法にも深い最適化を行いました。DeepSeekは古くて能力の低いNvidiaのGPUを使用しなければならなかったため、Nvidiaのデフォルトのソフトウェアだけに頼るわけにはいかなかったのです。

通常、世界中のすべてのAI企業は、チップを動かすためにNvidiaの業界標準ソフトウェアであるCUDAに依存しています。CUDAはAI開発におけるオートマチック車のようなものです。速くて、信頼性が高く、使いやすいのです。しかし、DeepSeekが行ったのは、さらに深く掘り下げ、CUDAエコシステムの中にPTXと呼ばれる中間のアセンブリ層を構築することでした。PTXを使用して高度にカスタマイズされた低レベルのコードを書くことで、彼らはオートマチックからマニュアルへとシフトしました。Nvidiaのデフォルトの汎用ソフトウェアが許容するよりも、はるかに効率的に計算を処理し通信するように、それらの古いチップに強制したのです。

さて、アメリカのテクノロジー企業にもこれを行うことができたのでしょうか。もちろんです。OpenAIやAnthropic、さらにはNvidia自身でさえ、高度に最適化された低レベルの演算子を定期的に開発しています。ここでの違いは、すべて必要性にあります。DeepSeekは最新のハイエンドGPUにアクセスできなかったため、極端なソフトウェアの最適化を追求する以外の選択肢がありませんでした。事実上無制限の予算とトップクラスのチップへの無制限のアクセスを持つOpenAIのような企業にとっては、低レベルのコードを細心の注意を払って最適化することに何ヶ月も費やすよりも、単により多くのハードウェアを購入する方が早くて費用対効果が高いことが多いのです。

ですから、これらの信じられないほど複雑なソフトウェアのトリックと、彼ら独自のMoEおよびメモリ圧縮技術こそが、DeepSeekがわずか600万ドル未満と言われる費用で世界クラスのAIモデルを構築できた正確な理由なのです。一方でOpenAIは、GPTモデルのトレーニングに何億ドルも費やしていました。

しかし、DeepSeekのモデル層における究極のキラー機能は、アーキテクチャそのものではなく、ディストリビューションでした。私が言いたいのは、DeepSeekがモデルをオープンソースにしたということです。これは実際のところ、世界中の研究者やスタートアップ、開発者がそれを検査し、動かし、ファインチューニングし、その上に自分たちで構築できることを意味します。これが、一般の人々がそもそもモデル内部の主要な設計の選択を理解できた理由でもあります。そのエキスパートシステムの詳細や、彼らが頭脳を正確にいくつのエキスパートに分割したかといったことまで含まれています。

これは、OpenAIのような企業が採用しているクローズドモデルのアプローチとは全く正反対のものです。結論から言えば、DeepSeekは自社のモデルを事実上プラットフォームに変え、モデルの背後にある秘密のレシピを配り始めたのです。そして一度それが起これば、進歩はもはや一社だけには依存しなくなります。何千人もの外部のエンジニアが並行して実験を始め、システムを洗練させ、拡張していくことができるのです。

トランスフォーマーと強化学習：AIの推論能力を極限まで高める

いずれにせよ、オープンソースであろうとなかろうと、この信じられないほど構造化されたモデルは、それを動かすための一つのものがなければ、それ自体では全く役に立ちません。現時点では単なる空っぽの頭脳にすぎず、燃料が必要なのです。そしてその燃料こそがデータです。

これこそが、中国のAIの物語が面白くなる正確なポイントです。ハードウェアとモデル、つまり頭脳だけでなく、それを動かすための膨大な量のデータが必要であることを理解すると、中国がアメリカには根本的に太刀打ちできない構造的な優位性を持っていることに気づくからです。そしてそれが私たちを、AIスタック全体の3番目で最も目に見える層、つまり消費者アプリ層へと導き、そして中国が実際にデータを作成し収集する独自の方法へとつながっていきます。

中国のオープンソース基盤モデルであるDeepSeekの登場が、シリコンバレーやより広範な欧米のテクノロジーコミュニティに衝撃波を送ったと言っても過言ではありません。多くの欧米のエンジニアや投資家にとって、それはスプートニク・ショックのような瞬間でした。もしこの言葉に馴染みがない方のために説明しますと、これは1957年、ソビエト連邦が予想外に世界初の人工衛星を宇宙に打ち上げ、アメリカを完全に驚愕させた出来事に由来しています。テクノロジーの世界におけるスプートニク・ショックとは、戦略的ライバルが予想よりもはるかに早く追いつき、しかも全く異なるアプローチを通じてそれを成し遂げているという、突然の衝撃的なリマインダーなのです。

しかし、もしあなたがDeepSeekの優位性がソフトウェアのトリックやモデルのアーキテクチャで止まっていると思っているなら、AIスタックの最後のピースを見逃しています。ハードウェア層についてはカバーしましたよね。そして今、モデル層についてお話ししました。ここで、おそらくすべての層の中で最も重要であり、AI業界全体の真のボトルネックとなっている層がやってきます。データ層です。

AIモデルは、その設計がどれほどエレガントであっても、最初は空っぽの頭脳として始まります。世界に関する生来の理解は何も持っていません。知的になるためには、膨大な量の人間の知識と行動について訓練されなければなりません。皆さんもビッグデータという言葉を聞いたことがあるでしょう。私たちが話しているのは、インターネット全体からのテキストのことです。本、ニュース記事、学術論文、その他あらゆるものです。

トレーニングの過程で、モデルはスクレイピングされたデータ内の何十億ものパターンに繰り返しさらされます。文章を読むたびに、頭の中の目に見えないつながりを何度も何度も調整し、あなたの質問に対する最も一貫性のある論理的な答えが正確にどうあるべきかを予測するのが極めて得意になるまでそれを続けます。

そして何年もの間、欧米での前提は、最も賢いモデルは最も多くの人間の専門知識を買うことができる企業から生まれるというものでした。彼らは巨大なアノテーター、研究者、ドメインスペシャリストのチームを雇い、プレミアムなトレーニングデータを作成しました。一歩一歩の数学の解答、注意深く書かれたコーディングの例、そしてAIに推論の方法を教えるために設計された高度に構造化された解説などです。そのアプローチは依然として機能していましたが、専門家の知識は高価であるため、残酷なほど費用がかかりました。一人だけでなく、何千人もの弁護士やコンサルタント、ソフトウェアエンジニアに時間単位で報酬を支払い、AIの学習教材を大規模に手作りさせることを想像してみてください。

しかしDeepSeekは、全く異なるアプローチ、つまり強化学習へとより強く押し進めました。人間が書いた正しい推論プロセスを常にモデルに見せる代わりに、モデル自身に多くの可能な答えを生成させるのです。そして、スコアリングシステムがその結果をチェックします。答えが正しいか、明確か、または有用であれば、モデルは報酬を得ます。間違っていたり、雑であったり、矛盾していたりすれば、ペナルティを受けます。

ですから、このモデルは生徒が答えを暗記するように学習しているわけではありません。実践的な問題を何度も何度も解決し、どの戦略が成功につながるかをゆっくりと発見していく人間のように学習しているのです。時間が経つにつれて、システムはより良い推論を生み出すパターンを強化し始めます。

ここで皆さんは、もしこれがそんなに効率的なら、なぜOpenAIやGoogle、Metaは自分でこのアプローチを取らなかったのか、と疑問に思うかもしれません。実のところ、アメリカのAI企業も強化学習を使用していますが、彼らはハイブリッドアプローチに依存しています。彼らはAIが高度に制御可能で、安全で、礼儀正しく、商業的に準備ができていることを保証するために、人間の専門知識に何億ドルも費やします。そして、その上に強化学習を重ねるのです。

一方、DeepSeekには人間の家庭教師に費やす何十億ドルもの資金がありませんでした。純粋な経済的必要性から、彼らはトレーニングプロセスのずっと早い段階で、純粋な強化学習へとより強く傾倒したのです。

しかし、これには欠点もありました。DeepSeekがこの純粋な強化学習アプローチを最初にテストしたとき、彼らは巨大な問題に直面しました。AIは論理、数学、コーディングには見事なほど優れるようになりましたが、人間とのコミュニケーションはひどいものになってしまったのです。AIは正しい数学の答えを得ることに対してのみ報酬を与えられていたため、自分がどう聞こえるかを気にしなくなりました。

DeepSeekのエンジニアたちは、モデルが彼らの呼ぶところの言語の混ざり合いに苦しみ始めたことを認めました。それは英語と中国語の奇妙で読めないハイブリッドで考え始めるようになったのです。基本的には、ブツブツと独り言を言い、普通の人との話し方を知らない天才数学者に変わってしまったわけです。そのため、一般の人々にとってモデルを役立つものにするために、DeepSeekはやはり戻って、AIに答えを明確にフォーマットする方法を教えるためだけに、少量の高価な人間によるラベル付けデータを使用しなければなりませんでした。それでもDeepSeekは、世界クラスのAIのコア推論エンジンをわずかなコストで構築できることを証明したのです。

データ層：ByteDanceとマルチモーダルデータの圧倒的な優位性

さて、まだついてきてくれていますか。これがすべて非常に専門的であることは承知していますし、私たちの調査に基づいて可能な限り最も簡単な方法でこれを説明しようと最善を尽くしています。ここまで到達したなら、AI開発競争における2つの重要な部分、つまりチップと推論について理解できたはずです。

しかし、推論の問題を解決することは、実際には始まりにすぎません。ChatGPTが初めて登場したとき、私はあまりにも感動して、止まることなく実験を繰り返していたのを覚えています。しかし今日まで時間を早送りしてみると、Claude SonnetやGeminiのようなモデルが推論においてどれほど素晴らしくても、もう十分ではないと不満を言う人々を耳にするようになります。

それはなぜかというと、第一に、人々の期待が満たされることは決してないからであり、第二に、現実世界は単にテキストだけで動いているわけではないからです。ChatGPTやGeminiのような大規模言語モデルには厳しい限界があります。どんなに高度であっても、あるいはどれだけ多くのデータで訓練されていても、それらは根本的に言語に基づいているからです。

しかし、物理的な世界を理解するようにAIを教えるにはどうすればいいのでしょうか。夕日や、水が跳ねる物理的な現象を単にテキストで説明することはできませんよね。画像が必要です。音声が必要です。動画が必要です。基本的には、次世代のAIをトレーニングするために、高解像度の動画、音声、画像の膨大な量が必要なのです。

業界では、これをマルチモーダルデータと呼びます。言語モデルがテキストの読み方しか知らない暗い部屋に閉じ込められた頭脳だとすれば、マルチモーダルモデルは目と耳を与えられた頭脳です。それは複数のモードの情報を同時に処理することができ、写真を見て、音声クリップを聴いて、物理世界で何が起こっているのかを正確に理解することができるのです。

そしてこれこそまさに、現在アメリカのAI業界が巨大なレンガの壁にぶつかっているところなのです。アメリカのAI企業は、オープンなインターネットをスクレイピングすることで初期のモデルをトレーニングしました。多くの場合許可なしで、おそらくは違法にです。私が言っているのは、YouTube、Reddit、X、そして公開されたウェブサイトのようなプラットフォームのことです。しかし私たちの調査によれば、2026年の時点で、彼らは事実上高品質なマルチモーダルデータを使い果たしてしまっています。インターネットからスクレイピングできるものは何でも、すでに手に入れてしまったのです。

イーロン・マスクでさえこのことについて公に警告しており、業界では実際の人間のデータが枯渇しつつあるため、AI企業は合成データと呼ばれるものに依存せざるを得なくなるだろうと述べています。これは本質的に、AIが自身をトレーニングするために独自のデータを生成することです。私たちが先ほどカバーした、自己学習型の強化学習ループと非常に似ています。さらに悪いことに、彼らがなんとかスクレイピングできた現実の人間のデータは、多くの場合大幅に圧縮され、高度に断片化されており、厳格な著作権訴訟やプライバシー法の背後にますます閉じ込められるようになっています。

しかし、中国ではエコシステムが全く異なります。そしてそれが、私たちがインターネットの至る所で目にするようになった、あのクレイジーでバイラルなAI動画に直結しています。これらの超リアルな動画は、SeaDance 2.0のような中国のAIツールによって生成されています。なぜ中国企業が突然この分野を支配しているのかを理解するには、消費者アプリ層を理解しなければなりません。これがAIスタックの最後のピースです。

中国では、デジタル経済はWeChatのような、いわゆるスーパーアプリや、TikTokの中国版であるDouyinのような動画プラットフォームによって支配されています。そして、DouyinとTikTokの両方の親会社であるByteDanceのような企業は、単に動画をホストしているだけではありません。これらは消費者向けのアプリであり、彼らはこれまでに設計された中で最も効率的で大量の動画データパイプラインを運営しているのです。毎日、何億人もの中国市民がこれらのアプリを使用して、料理やダンスから複雑な機械の修理、ドローンの映像、日常のVlogに至るまで、考えられるあらゆる人間の生活の側面をカバーする超高解像度の動画をアップロードしています。

では、SeaDance 2.0を所有しているのは誰だと思いますか。そうです、ByteDanceです。ByteDanceは文字通りプラットフォームそのものを所有しているため、自社のサーバー上にネイティブで非圧縮の動画ファイルを直接保有しているのです。さらに重要なことに、その動画は完璧にカテゴリー分けされており、正確なユーザーエンゲージメントの指標と結びついています。彼らのAIがこのデータでトレーニングを行っているとき、単に人が歩いている動画を見ているわけではありません。AIはメタデータへのアクセスを持っています。正確なカメラのアングル、照明条件、そして人間の視聴者が興味を失ってスワイプした正確なミリ秒までも知っているのです。

これは完璧にラベル付けされ、無限に成長し続けるデータベースであり、中国のインターネットの壁の完全に内側に存在しています。そしてそれこそが、SeaDanceがOpenAIのSoraのような他のAI動画生成ツールを圧倒できる正確な理由なのです。なぜなら、Soraは物理的な一貫性、音声の同期、そして視覚的なハルシネーションにいまだに苦労しているからです。それは主に、OpenAIが合法かつクリーンにスクレイピングできるマルチモーダルデータの限界に達してしまったためです。

実際、ByteDanceのAIチャットボットであるDoubaoは、すでにユーザー数でDeepSeekを抜いており、現在中国でナンバーワンのAIチャットボットとなっています。その主な理由は単純です。DeepSeekはテキストと推論には優れていますが、画像や動画を処理することはできません。一方のDoubaoは、ByteDanceの巨大なデータエンジンを利用して、AI画像、シネマティックな動画、そしてリアルな音声をすべて1か所でシームレスに生成できるのです。

これで、SeaDanceがトレーニングデータの質と構造の面において、アメリカのどの同等品よりも根本的に優れている理由がお分かりいただけたでしょう。エンジニアたちはこれを自然モーション合成と呼びます。SeaDanceが人が水たまりを歩き抜ける動画を生成するとき、水は正しく跳ねます。反射は環境と一致し、水しぶきの音は視覚と完璧に同期します。

そしてその観点から見ると、中国の優位性ははるかに大きく見え始めます。なぜなら、DeepSeekが中国も推論において競争できることを示したとすれば、ByteDanceのような企業は、中国が世界で最も深いマルチモーダルな消費者データのリザーバーの上に座っていることも示したからです。そしてもちろん、これがすべて可能なのは、中国が14億人の人口を抱えており、Douyinには毎日7億5000万人以上のデイリーアクティブユーザーがいて、絶えずマシンにデータを供給し続けているからです。

とはいえ、コインの裏を返せば、これらの中国のAIツールも最終的には中国国外のマルチモーダルデータへのアクセスに苦労するかもしれないということです。もし彼らが自社のモデルに西洋の文化、西洋の物理学、あるいは西洋の都市景観を完璧に理解させたいのであれば、中国の動画プラットフォームであるDouyinだけに頼ることはできませんよね。彼らも最終的には、アメリカのAI企業と全く同じデータの壁の問題にぶつかることになるでしょう。

AIの未来と私たちにできること

私にとっては、これはAI開発競争がまだ終わるには程遠く、私たちがまだほんの表面をなぞっているにすぎないことを意味しています。戦場が新たな場所へと移っているだけなのです。

未来のこと、特にAIエージェントや物理的なロボットの台頭に関しては、私の直感では、発見され、トレーニングされるのを待っている現実世界のデータがまだ膨大に存在しているように思います。それは単にインターネット上にはないかもしれない、ということです。例えば私たちAsian Bossでは、10年以上にわたって現実世界のストリートインタビューを実施し、社会的、文化的なトレンドに関する人々の正直な意見を収集し、キュレーションしてきました。もし私たちが、こうしたストリートインタビューをもっとたくさん行う能力を持っていたらどうでしょうか。あるいはさらに良いことに、一般の人々の声を動画フォーマットで表現し、なぜ人々がそのように考えるのかを世界に示すのを助けるような、独自のアプリ層を作成できたらどうでしょうか。もしAIの未来が現実の人間を理解することを必要としているなら、おそらく最も価値のあるデータはウェブサイトのスクレイピングからは生まれないでしょう。それは実際に人々と話すことから生まれるのかもしれません。

この動画が洞察に満ちており、何か新しいことを学んだと感じていただけたなら、私が今説明したことよりもはるかにお分かりいただきやすいであろう一つのことを皆さんにお伝えしたいと思います。私たちの分析によると、現在視聴してくださっている方のうち、実際にチャンネル登録をしてくださっているのは約23％にすぎません。

なぜそれが重要なのかをお話しします。私たちはリサーチに非常に多くの時間と労力を費やしているため、毎週同じ日といった固定のスケジュールでアップロードすることが本当にできないのです。ですから、皆さんが実際にチャンネル登録をして通知ベルをオンにしてくださらない限り、アルゴリズムは私たちが最新の動画をアップロードしても、しばしばそれを埋もれさせてしまいます。それが意味するのは、新しい動画が出ても、時としてそれに気づくことすらできないということです。たとえ私たちのチャンネルの定期的な視聴者であったとしてもです。ですから、興味深いトピックだからというだけでなく、私たちが物事を深く掘り下げ、分解して説明するやり方を気に入って定期的に動画を見てくださっているなら、どうか大きなお願いを聞いてください。Asian Bossのチャンネル登録をして、通知をオンにしてください。

それは私たちがアルゴリズムに打ち勝ち、より多くの視聴者にリーチし、既存の大手メディアに対抗できるほど強力なブランドを築く助けとなります。また、コメントを残したり、メールを送ったり、あるいは将来のライブストリームに参加したい場合は説明欄のフォームに記入することで参加することもできます。ここでの目標は、文化的に好奇心旺盛な人々と未来のリーダーたちからなる真のコミュニティを構築し、彼らが私たちの作成するコンテンツに力を与えてくれるようにすることです。そうすることで、私たちがアジアに関するあらゆることについての本格的で非政治的な洞察の、頼りになる情報源となることができるのです。

あなたがその一部となってくださることを心から願っています。もちろん、私はスティーブン・パークです。最後までご視聴いただき、ありがとうございました。そしていつものように、好奇心を持ち続けてください。