このAIブレイクスルーはDeepSeekを復活させられるか?

AI研究
この記事は約10分で読めます。

DeepSeekが新たに発表した論文「MHC(多様体制約付きハイパーコネクション)」は、AIモデルのスケーリングにおける根本的な不安定性の問題を解決する画期的な手法である。従来のハイパーコネクションは、レイヤー間の情報混合を豊かにすることでモデルの知性を向上させる試みだったが、大規模モデルでは信号の増幅や減衰が制御不能になり訓練が破綻していた。MHCはエネルギー保存則に基づいた制約を導入することでこの問題を解決し、ブルートフォースな計算量増加に頼らないアーキテクチャスケーリングの道を開いた。一方で、DeepSeekの急速な台頭は各国政府の警戒を招き、データ収集やセキュリティ、検閲の問題が浮上している。米国をはじめ複数の国がDeepSeekを禁止し、AI業界は地政学的に分断された競争環境に突入しつつある。

Can This AI Breakthrough Bring DeepSeek Back?
Checkout my newsletter : - 🐤 Follow Me on Twitter 🌐 Learn AI With Me :

DeepSeekの新たな挑戦と技術的ブレイクスルー

DeepSeekがついに戻ってきました。彼らはMHC、つまり多様体制約付きハイパーコネクションという論文を発表したのですが、この論文は皆さんが思っている以上に重要なものです。それでは、この技術について、そしてDeepSeekが実際にどこにいたのかについて話していきましょう。

できるだけシンプルに説明していきます。誰も混乱させたくないですからね。基本的に、大規模なAIモデルは、洗練された新しい接続を追加してより賢くしようとすると不安定になるんです。内部で爆発したり崩壊したりし始めて、残念ながらそれが訓練を破壊してしまいます。

通常のモデル、つまりResNetやトランスフォーマーが行っていることは、各レイヤーでこういうことをしています。新しい情報と古い情報を足し合わせて、それが次のレイヤーになるんです。これは残差接続と呼ばれています。簡単に言えば、すでに知っていたことを忘れないでくださいということです。これが深いモデルが壊れない理由なんです。

ハイパーコネクションの可能性と課題

ハイパーコネクションが試みようとしているのは、もし1つのメモリストリームではなく、複数のストリームが互いに会話できたらどうだろうということです。素晴らしいですよね。より多くの知性、より多くの混合、より良い結果が得られます。でも覚えておかなければならないのは、落とし穴があるということです。それらのストリームがランダムに互いを増幅し始めるんです。

では、そもそもなぜDeepSeekはこんなことをしたのでしょうか。皆さんは気づいていないかもしれませんが、これまでのところ、ほとんどのAIの進歩は主により多くのデータ、より多くの計算、そしてより大きなモデルから来ています。これらすべてが途方もなく高価になってきています。チップがどんどん高価になり、サプライチェーンの問題もあります。

私たちは物理的にエネルギー、GPU、メモリによって制約されていますし、もちろんそれに伴う政治的な問題もありますよね。そして経済的に混沌としてきています。だから研究者たちは、コストを爆発させることなく知性をスケールさせる新しい方法を探しているんです。

MHCによる安定性の実現

ここでDeepSeekのハイパーコネクションが登場します。彼らは基本的に、トランスフォーマー内部のレイヤーを大きくする代わりに、内部的により豊かにしたらどうだろうかということを考え出そうとしていました。簡単に言えば、同じ量の演算、同じレイヤーサイズで、より多くの内部メモリとクロスレイヤー推論を実現するということです。これがマクロアーキテクチャスケーリングで、ブルートフォースではありません。

面白いことに、ハイパーコネクションがその新しいレイヤーだったんです。彼らが問題の解決策を探していたとき、ハイパーコネクションがその新しい解決策でした。レイヤーを大きくする代わりに、内部的により豊かにしたらどうだろうかということで、これがハイパーコネクションだったわけです。簡単に言えば、同じ演算量、同じレイヤーサイズで、より多くの内部メモリとクロスレイヤー推論を持つということです。これは非常に非常に魅力的でした。これがブルートフォースではないマクロアーキテクチャスケーリングという以前の課題だったんです。

しかし問題は、これが実際にはスケール時に壊れてしまうということです。ハイパーコネクションは理論上は機能していましたが、より深いモデル、より長い訓練実行、そして100億以上のパラメータになるまででした。訓練が始まると、勾配が爆発し、ランダムな損失のスパイクが発生し、ハードクラッシュが起きます。つまり、フロンティアモデルでは使えないということです。アイデアは正しかったのですが、使用不可能だったんです。

MHCがこれを実際に使用可能にしているんです。本質的にMHCが存在する理由は、もし以前の不安定性が修正されなければ、アーキテクチャのアイデア全体が死んでしまうからです。安定性がなければスケーリングもなく、スケーリングがなければ採用もなく、採用がなければ研究ラインは死んでしまいます。

もちろん誰もがこれを気にします。なぜなら、GPUの供給はまだ逼迫していて、電力網はストレスを受けていて、訓練コストは精査されているからです。これが重要なのは、トランスフォーマーが残念ながら収穫逓減に直面しているからでもあります。そして誰もがこれを知っています。新しい研究所は新しいメモリ構造、新しいルーティング、新しい残差設計をテストしており、MHCはポストトランスフォーマー進化の一部なんです。

MHCの技術的メカニズム

彼らがMHCで実際に行ったことは、HCを修正したということです。HCが壊れたのは、信号が制御不能に成長または縮小することを許したからです。しかしMHCは、信号に振る舞いを強制することでこれを修正しました。ハイパーコネクションレイヤーは、複数のストリーム間でレイヤーが情報を混合することを可能にします。それは良いことです。しかし、どれだけの混合が起こり得るかを制限していませんでした。

多くのレイヤーにわたって、信号は増幅されて爆発するか、減衰して消失します。これがスケール時の訓練を破壊してしまうんです。考えてみてください。すべてのレイヤーがランダムにボリュームノブになることが許されているようなものです。50から100レイヤーの後、スピーカーが爆発してしまうんです。

MHCが変えた重要なルールはこうです。ストリームを混合することはできますが、信号の総強度を変えることは許されません。エネルギーを追加したり減算したりする代わりに、エネルギーを再分配するだけなんです。

簡単な修正は、MHCが主要なHC行列に3つの重要なルールに従うことを強制するということです。すべての値は正である、信号キャンセルの奇妙さはない、そして各行の合計は1になる、つまり前方への増幅はなく、各列の合計は1になる、つまり後方への増幅もないということです。

これにより、安定した順伝播、安定した勾配、そして安定した深層訓練が保証されます。これが非常にうまく機能するのは、1つのレイヤーが自分自身を単独でブーストできなくなり、複数のレイヤーが積み重なってもまだ振る舞いが保たれ、ネットワーク全体が安定したアイデンティティパスを維持するからです。言い換えれば、MHCは元のResNetの安全レールを復元しながら、HCが追加する追加の知性を失わないようにしているんです。

ここでの決定的な直感は、HCが自由な混合であるのに対し、MHCは保存則を伴う混合だということです。

DeepSeekの次なる展開

ここで、DeepSeekが次に何に取り組んでいるのかを知りたいと思い、このパートをビデオに追加したいと思います。なぜなら、彼らは最初に市場の混乱を引き起こし、OpenAI、Anthropic、Googleだけがこれらの唯一の企業ではないということを示してくれたからです。中国が明らかにレースに参加しているんです。

最近のDeepSeek CEOの最新声明では、彼らは3つの方向に賭けを置いていると述べています。共同創設者、いや創設者のリアン・ウェンファンは、3つのことが次に来ると述べました。

彼らが最初に焦点を当てるのは数学とコードです。これはAGIの自然なテストベッドとして機能します。なぜなら、それらは閉じた検証可能なシステムであり、自己学習が高度な知性につながる可能性があるからです。

2つ目に焦点を当てるのは、AIが現実世界と関わって学習するマルチモダリティ、そして人間の知性の基本である自然言語そのものです。

3つの主要なことです。そして皆さん、覚えておいてください。その会社の使命、彼らの公式な使命は、好奇心を持ってAGIの謎を解き明かすことなんです。

実際にAIのタイムラインについて尋ねられたとき、彼らは2年から5年、あるいは10年かかるかもしれないが、私たちの生涯のうちに起こるだろうと実際に述べました。

DeepSeek R2の遅延と課題

DeepSeek R2について気になっている方がいるかもしれませんが、これは元々2025年5月に噂されていましたが、繰り返し遅延しています。報告によると、リアンはパフォーマンスに不満を持っており、チームはNvidiaへの米国の輸出規制により、Huawei Ascendチップでの訓練に課題を抱えているとのことです。

現在のところ、DeepSeek R2は2026年初頭のいつかに登場する可能性があるように見えます。

セキュリティと検閲という象の問題

さて、話さなければならないことが1つあります。ほとんどの人はおそらくこれについて話さないでしょうが、私たちはセキュリティと検閲について話さなければならないと思います。これが部屋の中の最大の象なんです。覚えておいてください、DeepSeekの急速な台頭は、世界中の政府からの重大な反発を引き起こしました。

米国下院中国特別委員会は、DeepSeekがOpenAIモデルからの無許可の蒸留を使用したという高い確信を主張しており、これはOpenAIが正式に申し立てている告発です。

セキュリティ研究者たちは警戒すべき発見を提起しています。ルートセキュリティは、ユーザーデータを中国のモバイルレジストリ、つまり米国で禁止されている国家管理の通信事業者に送信できる隠されたコードを発見しました。

Ciscoのテストでは、DeepSeekが有害なプロンプトを100%ブロックできなかったことがわかりました。他のAIモデルでは90から95%程度ブロックしているのに対してです。そして、すべてのユーザーデータは実際に中国に保存されており、中華人民共和国の法律の下で、企業が情報機関を支援、援助、協力することが義務付けられています。

モデルはプライベートポリシーによれば、キーストロークパターン、デバイスデータ、チャット履歴を収集するようです。

検閲の実態と各国の対応

考えてみてください。検閲が組み込まれているんです。DeepSeekは天安門について議論することを拒否し、台湾の地位について中国共産党寄りの回答を提供し、中国政府の政策を批判的に評価することができません。CNNは、このモデルが世界に中国の検閲と情報統制への窓を提供していると報じました。

複数の政府が禁止措置で対応しています。NASA、ペンタゴン、海軍、連邦機関に加えて、オーストラリア、台湾、韓国、さらにテキサスとバージニア州といった州、そしてイタリアはデータ保護機能の問題でアプリを完全に禁止しました。フランス、アイルランド、オランダも規制調査を開始しています。

こう考えてみてください。DeepSeekはAI界において独特な位置を切り開きました。OpenAIの27分の1のコストで、特定の推論ベンチマークで現在のモデルの一部と同等の性能を発揮しています。最近のアップデートが出て以来、これらのフロンティア研究所が引き離し始めているとは言えますが。

しかしもちろん、DeepSeekがフロンティアAI開発を定義するために使ってきた3つのコア前提に挑戦したことを覚えておいてください。

地政学的分断とAIの未来

これからどのように物事が変わっていくのかは間違いなく興味深いものになるでしょう。もちろん、地政学はAIの成功を定義する要因です。複数の政府がDeepSeekを禁止し、米国がチップ規制を強化する中、AI界は競合するエコシステムへと分断しつつあります。開発者たちは、どちら側につきたいかを選択しなければならなくなるでしょう。

考えてみると、DeepSeekは本当に新しい何かを表しています。ブルートフォースの計算力ではなく効率性を通じてフロンティアパフォーマンスを達成し、それをすべて無料で提供している、研究重視の自己資金提供型中国研究所です。彼らはウォール街を震撼させ、競合他社に加速を強いて、AIレースが人々が想定していたよりもオープンであることを示しました。

しかし重要な疑問は残っています。600万ドルの訓練費用は正確なのでしょうか、それとも事前のR&DやGPU取得コストを除外しているのでしょうか。彼らは激化する輸出規制の下でこのイノベーションを実際に持続できるのでしょうか。そしてユーザーは、データを中国に保存し、基本的なセキュリティテストに失敗し、機密トピックに関して中国共産党の物語を強制するモデルを信頼すべきなのでしょうか。

コメント

タイトルとURLをコピーしました