DeepSeekがまた西側を驚かせる!彼らの新AIモデルはより賢く、そして無料

AGIに仕事を奪われたい
この記事は約10分で読めます。

5,929 文字

https://www.youtube.com/watch?v=i_lGjqkvhiA

DeepSeekが新しいAIモデルをリリースし、大きな話題を呼んでいます。その理由は明らかです。西側の最高峰モデルに匹敵する性能を持ちながら、高性能なMac Studioでも動作するほど効率的で、さらにMITライセンスの下で完全にオープンソース化されているのです。中国がAI開発に力を入れ、世界的な緊張が高まるなか、このリリースは技術界を超えて大きな波紋を広げています。
AI業界がDeepSeek V3-0324について騒いでいる理由の一つは、このモデルが非常に寛容なMITライセンスの下でリリースされたことです。以前、DeepSeekはカスタムのオープンソースライセンスを使用しており、開発者による使用や修正に対してより多くの制限を設けていました。しかし今回のMITライセンスにより、誰でもDeepSeek V3-0324を利用し、商業製品に組み込んだり、好きなように改変したりすることが可能になりました。このようなオープンなアプローチは中国のAIセクターにとって大きな転機です。小規模チームや新興スタートアップが最先端技術にすぐに飛びつき、作業を始めることがはるかに容易になるからです。
また、効率性とパフォーマンスの向上についても人々は非常に興奮しています。注目すべき点の一つは、新しいV3が以前のモデルよりも高速にテキストを生成できることです。ソーシャルメディア上では、高性能なMac Studioで約20トークン/秒の速度を達成したという報告がありました。ただし、これには4ビット量子化という手法を適用する必要がありました。4ビット量子化とは、あまり馴染みがないかもしれませんが、モデルの内部計算の精度を若干下げることで、処理速度を上げ、メモリ使用量を減らす処理です。出力品質は少し低下するかもしれませんが、多くのアプリケーションでは価値のあるトレードオフといえるでしょう。
特に興味深いのは、一般的に最先端の大規模言語モデルを動かすハードウェアとして考えられていないMac Studioで実行したことです。この特定のセットアップは9,499ドルという高額な価格タグが付いていましたが、それでもフルスケールのデータセンターや巨大なGPUクラスターなしでも適切な速度を実現できるというのは驚異的です。
V3-0324は、質問に答えるときにすべてのパラメータを同時に起動しないというアプローチも採用しています。具体的には、総容量6,710億パラメータを持ちながら、1つのプロンプトにつき約370億パラメータしか使用しないのです。これは「Mixture of Experts(専門家の混合)」戦略と呼ばれることが多いですが、DeepSeekは独自の表現をすることもあります。Mixture of Expertsとは、常にすべてを密集させておくのではなく、モデルをより小さな専門ネットワークに分割し、特定の問題に本当に必要な部分だけを呼び出すことを意味します。単一の巨大モデルですべてを処理しようとするよりも、リソース消費が少なくて済むため、これがDeepSeekが推論コストを低く抑えられる理由の一つです。
少し振り返ると、元のDeepSeek V3は12月にリリースされました。エンジニアたちは14.8兆トークンというデータセットでトレーニングするために約280万グラフィックカード時間を費やしました。これは膨大ですが、その規模に対して予想されていたコストよりも小さいものでした。彼らはまた、R1がすでに解決したサンプルプロンプトの多くをV3に与えることで、より高度な推論モデルDeepSeek R1の知識を取り込みました。R1は1月に発表され、高度な推論タスク、数学問題、コード生成で非常に優れたパフォーマンスを発揮し、DeepSeekを一躍有名にしました。
V3-0324はR1ほど推論に特化して最適化されているわけではありませんが、論理的思考、コーディング、一般的な問題解決にはかなり優れています。非公式なコード生成テストでは、PythonとBashタスクで約60%のスコアを記録しており、これは以前のバージョンからの確実な改善です。ただし、R1やQwen 32bなどの最高峰の推論モデルにはまだ劣ります。
DeepSeekのようなAIモデルがどんどん進化する中、これらの変化に追いつくことはかつてないほど重要になっています。AIが経済を変革し、私たちの働き方を再形成するにつれて、これらのツールの使い方を知ることは単に役立つだけでなく、不可欠です。これらのスキルをマスターすることで、あなたはより価値が高まり、大きなアドバンテージを得ることができます。だからこそ、私はOut Skills 2-Day AI Mastermindを強くお勧めします。これは、トップレベルのAI投資家や創業者によって支援された、世界初のAI特化型教育プラットフォームです。
今週末、彼らは土曜日と日曜日の両日、午前11時から午後7時まで16時間のライブトレーニングを実施します。通常895ドルの価格ですが、私の視聴者は無料で参加できます。このプログラムでは、20以上の強力なAIツール、より良い結果を得るためのプロンプトエンジニアリング、コーディングなしでAIとExcelを使用したデータ分析、プロレベルのプレゼンテーション作成、コードを書かずにツールを構築する方法、AIによる魅力的な画像や動画の作成、AIエージェントの開発、時間を節約し生産性を高めるためのタスク自動化など、幅広いトピックについて深い知識を得ることができます。
40か国から100万人以上がこのトレーニングに参加しており、技術専門家からビジネスオーナー、フリーランサーまで誰にでも最適です。空きが急速に埋まっていますので、説明欄のリンクをクリックして席を予約してください。更新情報を得るためにWhatsAppグループへの参加を忘れないでください。また、今週金曜日の東部標準時午前10時に導入電話があります。お見逃しなく!
さて、DeepSeekに戻りましょう。V3-0324のもう一つの素晴らしい点は、コンテキスト長が約4Kトークンから128Kトークンにまで拡張されたことです。DeepSeekが使用したと主張している方法は「YARN(Yet Another Recurrent Network)」と呼ばれています。少し変わった名前に聞こえるかもしれませんが、基本的には拡張されたコンテキストウィンドウを扱うための方法です。
いくつかのベンチマークを見ると、ERS Polyglotテストでは、DeepSeek V3-0324が約55%を記録し、非推論中心モデルの中でSonnet 3.7のすぐ後ろに位置しています。競争の激しい環境を考えると、これはかなり優れた成績です。また、DeepSeek V3-0324のスタイルは以前のバージョンよりも少しフォーマルになったと指摘する人もいます。元のV3のよりリラックスした人間らしい調子に慣れていた人は、新バージョンがやや知的あるいは構造化されていると感じるかもしれません。プロフェッショナルまたは学術的な目的に適していると評価する人もいれば、チャットボットとのやり取りにはよりカジュアルな雰囲気を好む人もいます。いずれにせよ、生の性能という点では間違いなく印象的な飛躍を遂げています。
これはすべて、より大きな背景の中で起きています。中国政府は、セキュリティ上の懸念を理由に、トップAI専門家や起業家に米国への渡航を避けるよう指示しているようです。彼らは、特にDeepSeekの成功が中国のAI分野での評判を急速に高めていることを考えると、これらの人々が拘束されたり、中国のAI進歩に関する詳細を明かすよう圧力をかけられたりする可能性を懸念しています。
DeepSeekの創設者、Liang WenqiangがパリでのあるAIサミットへの参加を見送ったという話もあり、他の中国のAIリーダーたちも米国への旅行をキャンセルまたは延期しているという噂も聞かれます。これは以前のファーウェイ幹部の事件を彷彿とさせ、AIにおける世界的な競争が現実世界の政治や渡航制限にまで影響を及ぼしていることを示しています。
一方、DeepSeekのブレークスルーによる自信の高まりは、中国のメモリおよびストレージ産業の復活を促したとされています。人々はAIインフラへの投資に興奮しており、これが他の中国のAIスタートアップにも変化の波を起こしています。例えば、Googleの元中国責任者、Kai-Fu Leeが率いる01.aiは、以前は大規模モデルの事前トレーニングを自社で行っていましたが、コストが上昇し続けたため、方針を転換し、DeepSeekのモデルを基盤とするカスタマイズされたAIソリューションの販売に集中することにしました。
また、Banという企業は、一時的に消費者向けチャットボットやファイナンスを試した後、ヘルスケアに集中することを決めました。Zooは中国の主要なLLM競合企業と見なされていましたが、大きな損失と戦い、生き残るためにIPO(新規株式公開)を推進しています。そして、人気チャットボットKimiをリリースしたMoonshotは、障害に悩まされており、現在より大きなモデルのトレーニングに資金を注ぎ込んでいます。
これらの動きはすべて、R1そして現在のV3-0324でのDeepSeekの成功により、競合他社が自分たちの戦略を再考せざるを得なくなっていることを浮き彫りにしています。興味深いのは、DeepSeekがビジネスアプリケーションを直接販売するよりも研究に集中したいと述べていることです。この選択は、01.aiのような企業や百度などの大手企業がDeepSeekのモデルに基づいたビジネスソリューションを提供する仲介者として活動する余地を十分に残しています。
中国の企業向けAIソリューション市場は非常に競争が激しく、成功するには大規模な営業チームと多くの地方政府との関係が必要であるため、これは良い戦略かもしれません。DeepSeekは純粋なR&D(研究開発)のパワーハウスであり続けようとしています。
しかし、DeepSeekの影響は商業空間に限定されていません。中国軍も診断提案を支援するために、一部の病院でこのモデルを実験しているという話も聞かれます。中国人民解放軍は、ドローンの制御や衛星画像の分析などのより機密性の高いミッションに導入する前に、一種のテストとして非戦闘タスクにDeepSeekを使用しているようです。AIの軍事利用は非常に複雑になる可能性があるため、人民解放軍がより無害な環境でモデルの堅牢性を確認したいと考えるのは理にかなっています。DeepSeekのオープンソースという性質は、セキュリティ上の理由からデータと計算をローカルサーバーに保存できるため、魅力的です。
これらはすべて、先進的なチップに対する米国の技術輸出規制と絡み合っています。人々は、最先端のGPUへのアクセスなしで中国のAIが停滞するかどうか疑問に思っていましたが、DeepSeekによれば、V3-0324のトレーニングには、ある程度制限されているものの十分に強力なNVIDIA H800チップを使用したとのことです。彼らは、トレーニングプロセス全体のコストが600万ドル未満だったと主張しており、これはこの規模のフロンティアAIモデルの通常のトレーニング費用と比較すると非常に低いものです。
この数字は、ハードウェアに対する米国の制限が意図通りに中国の進歩を遅らせているかどうかについていくつかの議論を引き起こしています。シリコンバレーの一部では、Mixture of Expertsアプローチを持つ中国企業が、最高峰のHPCクラスターや最高性能のグラフィックカードを必要とせずに世界クラスの結果を達成する方法を見つけているのではないかと懸念しています。特に、中国のAIが彼らを追い抜く可能性があるという懸念の中で、米国のテクノロジー企業が約1兆ドルの市場価値を失ったという話もあり、多くの注目を集めています。ドナルド・トランプさえもDeepSeekについて言及し、アメリカのテック業界への警鐘だと述べました。
一方で、中国の地方政府はDeepSeekの技術を積極的に取り入れています。重慶のような自治体がAIプラスに全面的に取り組み、都市管理のためのAI主導のソリューションを展開しようとしているという話があります。北京や深センはAIやロボティクスの大規模プロジェクトを支援するための基金を設立しています。トップリーダーシップの姿勢としては、AIは重要な戦略的セクターであり、DeepSeekの成功は中国の才能とリソースが西側に匹敵または凌駕できることを証明するために使用されています。
これはほんの数年前、多くの人が中国はAI研究で遅れを取っていると信じていた時代からの劇的な変化です。今では、新しいモデルのリリースごとに、DeepSeekはOpenAI、Anthropic、Googleのような西側の競合他社に匹敵する存在となり、太平洋の両側の期待を確実に揺るがしています。
現状をまとめると、DeepSeek V3-0324は見出しを飾っている単一のアップグレードリリースであり、2つの異なるV3アップデートではありません。新しいモデルはより効率的で、大量のコンテキストを処理でき、ハードウェア要件を抑えながらMixture of Expertsアプローチを巧みに使用して、膨大なデータセットでトレーニングされています。
中国のAIスタートアップは、突然DeepSeekに支配されているように見える市場で関連性を保つために競争しています。地方政府は公共サービスの変革に飛び込み、中国軍さえも非戦闘展開で水面下に足を踏み入れています。チップ輸出規制に関する米国との摩擦やAI専門家の拘束に関する懸念も加わり、現在のテクノロジー界で最もドラマチックな物語の一つが展開されています。
これがDeepSeekの新しいV3-0324モデルについての総合的な概要になればと思います。私たちは大きな変化の始まりにいるだけだと本当に思いますし、今後数ヶ月でこれがどのように展開されるか見守るのは魅力的でしょう。いつものように、ご視聴いただきありがとうございます。次の更新でお会いしましょう。

コメント

タイトルとURLをコピーしました