
4,583 文字

DeepSeekは次のAIモデルを予定より早くリリースしようと急いでおり、コスト面でOpenAIを最大40倍も下回り、業界全体に衝撃を与えています。一方、アリババの新しいビデオAIはすでにOpenAIのSoraを上回るパフォーマンスを示しており、西側諸国は焦り始めています。そしてOpenAIが新しい研究ツールと音声機能を展開する中、一つの大きな疑問が浮上しています——AIはどれほど説得力を持つべきなのでしょうか。
まず、DeepSeekが大きな話題を呼んでいます。彼らが1月にR1モデルを発表したときのことを覚えているでしょうか。このモデルは基本的に業界を驚かせました。R1は強力なAI推論モデルとして宣伝され、OpenAIのような大企業が自社モデルに投資していると言われるコストのほんの一部で訓練されていました。Googleを含む一部の人々はこれらの主張に懐疑的でした。GoogleはDeepSeekの発言を「誇張されている」と呼び、OpenAIはDeepSeekがChatGPTのインフラからの蒸留を使用した可能性があると疑っていました。しかし、どちらにせよモデルは公開され、MicrosoftのようなビッグネームもR1をAzure AI FoundryとGitHubに追加し、Amazon Web Servicesもそのモデルカタログに取り入れました。
現在の大きなニュースは、DeepSeekが当初予定していたよりも早く後継モデルR2をリリースしたいと考えていることです。彼らはR2が5月初旬に発表される可能性があると述べていましたが、新しい報告では、さらに早く発表しようとしていることが示唆されています。残念ながら正確な日付はわかりませんが、5月より前のいつでもリリースされる可能性があるという噂です。
今後登場するR2は、コーディング能力が向上し、英語以外の言語でもより効果的に推論できるようになるとされています。これは非常に重要です。なぜなら、多くの高度な言語モデルは英語を中心に展開される傾向があるため、堅牢な多言語サポートを持つことでDeepSeekは世界的な競争力を持つ存在になり得るからです。
DeepSeekがこのタイムラインを前倒ししている理由は何でしょうか?GPT-4.5はまだ数週間先で、GPT-5は数ヶ月後にならないと登場しないかもしれません。もしR2がすぐに市場に出れば、DeepSeekは再び業界に衝撃を与える可能性があります。彼らはすでに価格設定の面でOpenAIを大幅に下回ることができることを証明しています。バーンスタインのアナリストによると、DeepSeekの価格設定は同等のパフォーマンスに対してOpenAIが請求する料金の20〜40倍も安価である可能性があるとのことです。このコスト削減の側面は、小規模企業だけでなく、R1を自社のサービスに統合したいと考える大手企業も引きつけています。
DeepSeekを理解するには、創設者である梁文峰(Liang Wenfeng)について少し知る必要があります。彼は「超内向的」で「控えめ」と形容されていますが、彼の定量的ヘッジファンド「ハイフライヤー」のおかげで億万長者になりました。彼はDeepSeekを従来の営利目的のスタートアップというよりも研究所のように運営しているという印象があります。彼は従業員にトップクラスの給与を支払っており、一部のシニアデータサイエンティストは年間150万元を稼いでいます。これは他のライバルの定量ファンドが通常80万元程度で上限を設けているのとは対照的です。また、彼は比較的フラットな企業構造を持つことでも知られており、これは午前9時から午後9時まで週6日働く典型的な中国のテック大手のモデルとは大きく異なります。代わりに、人々は通常の8時間勤務をし、かなり協力的で実践的な環境で働いていると報告しています。
このすべてを支えるヘッジファンドであるハイフライヤーは、R1が注目を集める前からAI研究に多額の資金を投入していました。2020年と2021年に、彼らは2つのスーパーコンピューティングAIクラスタに約15億元を費やしました。これらのクラスタの1つであるFirefly 2は、約10,000個のNVIDIA A100チップで構成されています。これは米国がこれらのチップの中国への輸出を禁止する前のことでした。その禁止措置が実施される頃には、ハイフライヤーはすでに準備ができていたのです。これにより彼らは大きなアドバンテージを得ました。
DeepSeekのコスト効率の秘訣は、Mixture of Experts(専門家の混合)やMultihead Latent Attention(MLA)などの技術の使用にあります。基本的にはモデルを専門化された専門家コンポーネントに分割し、あらゆるクエリに対して全体のモデルを起動する必要がないようにします。一方、MLAはモデルが入力の異なる部分を同時に処理し、最も重要な詳細をより効率的に選択できることを意味します。その結果、DeepSeekは、多大なコストをかけることなく、より大きく高価なモデルと同等のパフォーマンスを達成できると主張しています。
興味深いことに、中国当局はDeepSeekを全面的に支援しています。市政府、エネルギー企業、レノボ、BYD、テンセントといった大企業がDeepSeekを自社製品に統合しているのが見られます。政府はDeepSeekに国際メディアで目立たないように指示しているほどです。
一方、韓国やイタリアなどの西側政府はプライバシーの懸念からDeepSeekベースのアプリを制限または削除しています。また、高度なAIモデルがソーシャルエンジニアリングや誤情報キャンペーンに使用される可能性があるという広範な懸念もあります。したがって、特定の地域で監視が強化されているのも不思議ではありません。
しかし、動きを見せているのはDeepSeekだけではありません。アリババは最近、オープンソースのビデオ基盤モデル「W2.1」を発表しました。これは特定のベンチマークでOpenAIのモデル「Sora」を上回るパフォーマンスを示していると報告されています。アリババの新しい提供物には、テキストから動画、画像から動画、動画編集、テキストから画像、さらには動画から音声まで最適化された複数のサブモデルが含まれています。彼らはW2.1 I2V4BとW2.1 T2V4Bを持っており、どちらも480pと720pで動画を生成できます。さらに、RTX 4090のような一般消費者向けGPUで実行できる小型のT2V 1.3Bモデルもあります。
アリババによると、W2.1は複雑な動きとリアルな物理シミュレーションを処理でき、V-Benchリーダーボードでいくつかの優れた指標を記録しています。その秘訣の一部は、スピードのための特徴キャッシュメカニズムを備えた新しい3D因果VAEアーキテクチャと、拡散トランスフォーマー構造内のフローマッチングフレームワークにあります。要するに、彼らは約15億の動画と100億の画像でトレーニングされたパイプラインに多くの高度な技術を投入したのです。
OpenAIのフロントでは、いくつかの大きなニュースがありました。まず、彼らは「Deep Research」ツールへのアクセスを拡大しました。当初は月額200ドルのProサブスクライバーのみが利用できましたが、現在はすべての有料ChatGPTユーザー、そしてTeamとEnterpriseのユーザーも利用できるようになりました。Plusプランを持っている場合、毎月10回のDeep Researchクエリが提供されます。Proユーザーは100クエリから120クエリに増加しました。
Deep Researchは基本的に詳細で資源を多く使用するレポートを生成するための詳細なツールです。単一のクエリをまとめるのに5〜30分かかることもあります。推論はやや遅いですが、より徹底的なものになり得ます。また、現在では引用のための画像も組み込まれており、より深い洞察が可能です。ただし、無料のChatGPTユーザーには引き続きDeep Researchは提供されていません。これは、非常にリソースを消費するためとされています。
もう一つのOpenAIの更新は、説得リスクのトピックに関するものです。最近の白書で、彼らはDeep Researchモデルが人々の信念を説得または影響を与えるために使用される可能性について議論しました。そのため、Deep ResearchモデルのAPIバージョンの立ち上げを控えています。彼らは基本的に、AIが大規模に意見を左右する可能性のある、非常にパーソナライズされたコンテンツを生成する方法など、現実世界での説得をテストする方法を再評価しています。
彼らはまた、Deep Researchモデルがお金を支払ったり暗号のコードワードを明かしたりするようにGPT-4を説得できるかどうかなどのテストを実施しました。実際、コードワードのシナリオではそれほど説得力がなかったものの、いくつかの古いOpenAIモデルよりも優れたパフォーマンスを示しました。それでも、OpenAIは外部の開発者に広く提供する前に慎重に進みたいと考えています。
最後にOpenAIからもう一つの興味深い情報があります。彼らはChatGPTの高度な音声モードのプレビューをプラットフォームの無料ユーザーに展開しています。この機能はしばらくの間、Plusサブスクライバー専用でした。音声用のGPT-4oミニモデルの変種を使用して、すべての質問をタイプするのではなく、ChatGPTと声に出して話すことができます。より自然なリアルタイムの会話を処理でき、回答の途中で中断して明確な質問をしたり、トピックを転換したりすることもできます。
ただし、毎日の使用制限があり、変動する可能性がありますが、それでもプレミアムサブスクリプションを支払わずに多くの人がテストできるのは素晴らしいことです。試してみたい場合は、ChatGPTアプリの音声アイコンをタップし、マイクアクセスを許可するだけで開始できます。
興味深いことに、Appleも何らかの形でOpenAIとのコラボレーションに関わっています。AppleとOpenAIのChatGPTの取引に関する噂が飛び交っており、これはAppleデバイスでのAI音声インタラクションをさらにシームレスにすることに関連している可能性があります。公式の確認を待つ必要がありますが、何か進行中のことがあるようです。
価格は下がり、競争は激化し、主要プレーヤーは業界全体を再形成する可能性のある動きを見せています。コメントで教えてください。DeepSeekはOpenAIに挑戦する力を持っていると思いますか?それとも西側の巨人たちはさらに強く押し返すでしょうか?
この解説が気に入ったら、いいねを押して、より多くの深堀り分析のためにチャンネル登録をお願いします。視聴ありがとうございました。次回の動画でお会いしましょう。


コメント