OpenAI が予想していなかったこと… DeepSeek-V3 が Mac Studio で ChatGPT を圧倒

5,384 文字

OpenAI Didn't Expect This... DeepSeek-V3 Just Crushed ChatGPT on Mac Studio

OpenAI Didn't Expect This... DeepSeek-V3 Just Crushed ChatGPT on Mac StudioDid OpenAI just get dethroned? In an unexpect...

DeepSeek V3 が先日リリースされ、すでにテクノロジー業界に大きな影響を与えています。驚くべきことに、この会社は大々的な発表を行いませんでした。代わりに、Deepseek V30324 という名前のモデルが、Hugging Face という AI プラットフォームに静かに登場したのです。しかし、静かにリリースされたにもかかわらず、人々は大きな注目を寄せています。それはこのモデルができることだけでなく、それが世界とどのように共有されているかということにも関係しています。
このモデルの特別な点は、MIT ライセンスで提供されていることです。これにより、企業を含む誰もが制限を気にすることなく無料で使用できます。それだけでも大きな特徴ですが、さらに素晴らしいことがあります。このモデルは一般の人々が購入できるコンピュータで実行できるのです。通常、このような大規模な AI モデルは、強力なマシンを備えた巨大なデータセンターを必要としますが、このモデルは Apple の Mac Studio（M3 Ultra チップ搭載）で実行可能です。これは本当に驚くべきことです。
テストした人々からは非常に良い評価が寄せられています。ある AI 研究者は、特別な 4 ビット形式でモデルを実行したところ、512 GB のメモリを搭載した Mac Studio で 1 秒あたり 20 語以上を処理できたと述べています。
正直に言って、Mac Studio は安価ではありません。約 9,499 ドルと非常に高価です。しかし、通常このような強力な AI に必要な巨大で高価なサーバーと比較すると、単一のコンピュータで実行できることは画期的な変化です。これは AI テクノロジーがどれほど進歩し、将来どのような可能性があるかを示しています。
では、この新しいモデルについてさらに掘り下げてみましょう。
DeepSeek の非現実的なマーケティング戦略
この新しい AI モデルは 685 億のパラメータという巨大な規模を持っていますが、本当に驚くべきなのはその公開方法です。研究論文もなく、機能を説明するブログ記事もなく、期待を高めるための大きなマーケティングキャンペーンもありませんでした。代わりに、モデルは空の README ファイルと、使用するために必要な生データだけで単純にアップロードされたのです。
これは、新製品を最終的に発表する前に数ヶ月かけて期待を高める西洋の AI 企業の通常の運営方法とは大きく異なります。一方、DeepSeek はモデルをただリリースし、その性能が自ら語るようにするという完全に異なるアプローチを取っています。
すでにテストした人々は、以前のバージョンと比較して大きな改善を感じています。ある AI 研究者の Zeopon は、自分のシステムでテストを実行した後、オンラインで感想を共有しました。彼らは、DeepSeek の新モデルがあらゆる性能テストで大きな進歩を見せ、現在では推論機能のない AI モデルの中で最高であり、Sonnet 3.5 さえも上回ると述べています。
これは大胆な主張ですが、さらなるテストでこれが確認されれば、AI の世界において画期的な出来事となるでしょう。もしこの主張が証明されれば、DeepSeek の最新モデルは、Anthropic が作成した高く評価されている AI である Claude Sonnet 3.5 よりも強力だということになります。しかし、一つの重要な違いがあります。それは、Sonnet が有料サブスクリプションを必要とするのに対し、Deepseek V30324 は誰でも無料でダウンロードして使用できるということです。これだけでも、DeepSeek のモデルは重要な競争相手となり、一切のお金を使わずに高レベルの AI 技術にアクセスする機会を人々に提供します。
この新しい AI モデルを際立たせているもの
Deepseek V3 0324 は単なる別の AI モデルではありません。それはよりスマートで効率的な、まったく新しい動作方法を使用しています。従来の AI モデルのように 685 億のパラメータをすべて一度に実行する代わりに、「専門家のミックスチャー」アーキテクチャと呼ばれるものを使用します。これは、特定のタスクに対して、実際に必要なパラメータ（約 370 億）のみをアクティブにし、残りは非アクティブのままにすることを意味します。
これは AI モデルの機能の仕方における大きな転換です。通常、大きなモデルは必要のない部分も含めてすべてを活性化するため、実行するには膨大な計算能力が必要です。しかし DeepSeek はまったく異なるやり方をします。各タスクに対して最も関連性の高い部分だけを使用することで、はるかに少ないエネルギーと処理能力でより大きな AI システムと同等のパフォーマンスを発揮します。
さらに、このモデルには他にも二つの画期的な技術が搭載されています。一つ目は「マルチヘッド潜在アテンション（MLA）」、そして「マルチトークン予測（MTP）」です。MLA は、特に長い会話や文書において、AI が情報をより良く記憶するのを助け、大量のテキストを理解する必要があるタスクにはるかに役立ちます。
一方、MTP により、モデルは一度に一つの単語ではなく、複数の単語を同時に生成できるようになり、応答速度が約 80％向上します。これらの改良により、モデルはより高速になるだけでなく、はるかに効率的になります。
有名な開発者サイモン・ウィリスは、Deepseek V324 が 4 ビット形式に圧縮されると、そのサイズが 352 GB に縮小され、Apple の Mac Studio（M3 Ultra チップ搭載）のような高性能パーソナルコンピュータで実行可能になると指摘しています。これは大きな進展です。なぜなら、これまで強力な AI モデルを実行するには、膨大な電力（時には数キロワット）を消費する複数の NVIDIA GPU が必要だったからです。
しかし今、DeepSeek の新しいアプローチにより、Mac Studio は 200 ワット未満の電力で同様の結果を達成できます。これにより、将来の AI 展開方法が完全に変わる可能性があります。巨大で電力を大量に消費するサーバーファームに依存する代わりに、企業や開発者はより小型で手頃な価格のデバイスで最高レベルの AI モデルを実行できるようになるかもしれません。
このブレイクスルーは単に AI をより良くするだけではなく、よりアクセスしやすく、エネルギー効率の良いものにすることで、産業全体を作り変える可能性を秘めています。
ここからさらに興味深い展開になります。引き続きお聞きください。
DeepSeek が OpenAI と他の AI 企業に挑戦
DeepSeek の AI モデルのリリース方法は、中国と西洋の企業が人工知能にアプローチする方法の大きな違いを浮き彫りにしています。米国では、OpenAI や Anthropic のような企業はモデルを有料サブスクリプションの背後にロックし、使用するためにお金を払わせています。しかし中国では、ますます多くの AI 企業がモデルを完全にオープンにし、誰もが無料で使用できるようにすることを選択しています。
この決断はすでに中国の AI 産業に大きな影響を与えています。高度な AI モデルが一般に公開されると、驚くべき効果が生まれます。スタートアップ、研究者、開発者は膨大な資金を必要とせずに、これらの強力なモデルを利用して新しいツールやテクノロジーを構築できます。このため、中国の AI 能力は驚くべき速さで成長しています。西洋の多くの人々がその進歩に驚くほど急速です。
この戦略の背後には賢いビジネス理由があります。中国では、多くの大手プレイヤーが覇権を争う激しい競争の中で AI 企業が活動しています。競合他社が同様のテクノロジーを無料で提供している場合、AI モデルを非公開にして料金を請求することはより困難になります。AI モデルから直接お金を稼ぐ代わりに、企業はサービスの提供、ビジネスソリューションの構築、より多くのユーザーを引き付ける無料ツールの提供によって AI エコシステムをリードするなど、新しい収益方法を見つけています。
中国の最大手テック企業でさえもこの変化を認識しています。百度（Baidu）はすでに Ernie 4.5 モデルシリーズを 6 月までにオープンソース化すると発表しています。また、アリババとテンセントも特別な機能を備えた無料の AI モデルをリリースしています。これは、開発者がサブスクリプションする必要がある有料 API の背後にほとんどの AI テクノロジーがロックされている西洋企業の運営方法とは大きく異なります。
中国企業がこのオープンソース戦略を採用するもう一つの大きな理由があります。最新の NVIDIA チップの購入制限のため、中国の AI 企業は少ないリソースでモデルをより高速で効率的にする新しい方法を見つける必要がありました。最初はこれは課題でしたが、今では大きな利点に変わっています。効率性に焦点を当てることで、彼らは最も強力なハードウェアを必要とせずに、世界最高のモデルと競争できる AI を作成する方法を学びました。
この AI 開発のシフトは、グローバル産業を変える可能性があります。高価でエネルギーを大量に消費する AI システムに依存する代わりに、企業は中国のリードに従い、AI をより身近で効率的、そして誰もが利用できるものにし始めるかもしれません。AI の未来は、最大で最も高価なモデルを構築する企業ではなく、AI をよりスマートで高速、そして誰もが利用できるようにする企業に属するかもしれません。
DeepSeek の可能性のある未来
Deepseek V30324 は単なる別の AI モデルではなく、さらに大きな何かへの足がかりであるように思われます。すべての兆候は、このモデルが推論に焦点を当てた高度な AI である DeepSeek R2 の基盤となることを示しています。もし DeepSeek が通常のパターンに従えば、この改良されたモデルは今後 2 ヶ月以内にリリースされる可能性があります。
これは同社がこの戦略に従う初めての例ではありません。過去には、DeepSeek はまず基本モデルをリリースし、その後数週間後により専門的な推論モデルを導入しました。AI コミュニティの人々はすでに予測を立てています。ある Reddit ユーザーは、DeepSeek がクリスマス頃に V3 をドロップし、その後すぐに R1 をリリースした時と同様のことをしていると指摘しました。現在、多くの人が R2 は 4 月に来ると信じており、この最新モデルはそのパズルの最初の一片に過ぎないかもしれません。
DeepSeek R2 のようなアップグレードされた推論モデルが公開されれば、AI の風景を完全に変える可能性があります。現在、OpenAI や DeepSeek 自身の R1 のような推論を専門とする高レベルの AI モデルは、人工知能における最も強力なツールの一部です。これらのモデルは数学からコーディングまですべてにおいて優れた問題解決能力を実証しています。しかし、これらは通常、支払い能力のある企業や個人のみがアクセスできるペイウォールの背後にロックされています。
しかし、もし DeepSeek の新モデルが無料でリリースされれば、この最先端の技術を莫大な資金を持つ人だけでなく、誰もが利用できるようになる可能性があります。
また、これらの推論モデルが実際にどれだけの電力を必要とするかについても驚くべきことがあります。NVIDIA の CEO であるジェンセン・フアンは最近、DeepSeek の R1 モデルが通常の AI の 100 倍の計算能力を使用していると明らかにし、多くの人を驚かせました。西洋のテック大手より少ないリソースを持っているにもかかわらず、DeepSeek は最高レベルの AI を作成し続けています。
もし R2 が R1 の道をたどれば、OpenAI の今後の GPT-5 に匹敵する可能性があります。これにより、2 つの AI アプローチの間で主要な戦いが構築されます。OpenAI のクローズドで多額の資金提供を受けたシステムと、DeepSeek のオープンで効率的、そしてアクセスしやすいモデルです。
しかし、DeepSeek の動きを見ると、AI が強力であるためにロックされる必要はないことを証明しており、これは AI の歴史における刺激的な瞬間です。
ここまで読んでいただき、ありがとうございます。あなたの考えをぜひコメント欄で教えてください。さらに興味深いトピックについては、画面に表示されているおすすめ動画をご覧ください。ご視聴ありがとうございました。