OpenAI対DeepSeek対Qwen:オープンソースLLMアーキテクチャ比較

AIベンチマーク
この記事は約13分で読めます。

この動画では、OpenAIが5年ぶりにリリースしたオープンソースモデル「GPT-o1」と、中国のDeepSeek V3、アリババのQwen 3という3つの主要なオープンソース大規模言語モデルのアーキテクチャを詳細に比較している。各モデルの混合エキスパート構造、注意機構、長文脈処理の手法、データセットとトレーニング手法の違いを技術的な観点から解説し、同じようなベンチマーク性能を達成しながらも異なるアプローチを取る各社の戦略を明らかにしている。

OpenAI vs. Deepseek vs. Qwen: Comparing Open Source LLM Architectures
OpenAI recently released its first open-weights model since GPT-2, entering a field led by DeepSeek and Alibaba's Qwen.Y...

OpenAIのGPT-o1登場

OpenAIが最近、GPT-o1っちゅうもんをリリースしたんや。これ、2019年のGPT-2以来、初めてのオープンウェイトモデルなんやで。1月にDeepSeek R1が話題になって以来、最も注目されるオープンソースモデルのローンチの一つやな。せやけど、GPT-o1は他のトップクラスのオープンソースモデルと比べて、アーキテクチャ的にはどないな感じなんやろか?調べてみよか。

GPT-o1は、OpenAIの最近のリリースの中でも特に期待されとったもんの一つや。アメリカの主要なAIラボの一つから出た大規模で完全にオープンウェイトのモデルやからな。論文を詳しく見て、実際にどうやって設計されて訓練されたかを調べてみよか。

GPT-o1は混合エキスパートモデルで、1200億パラメータと200億パラメータの2つのサイズで提供されとる。各トークンは上位4つのエキスパートを活性化するんや。つまり、全パラメータのうち一部だけが任意の時点で使われるっちゅうことやな。これによって、より大きなモデルの利点を犠牲にすることなく、効率的な推論が可能になるんや。

デコーダーオンリーのトランスフォーマーとして訓練されたGPT-o1は、現代のLLMに典型的な特徴をぎょうさん組み込んどる。これにはグループクエリアテンションも含まれとる。これは複数のクエリヘッドが同じキーバリューペアを共有できるように修正された注意機構で、メモリ使用量を削減して推論を高速化するんや。

また、フィードフォワードネットワーク層にはSWIGLU活性化も含まれとる。これはReLUのようなシンプルな活性化よりも、より繊細な変換を可能にするんや。それから回転位置エンベディング(RoPE)も使ってて、これはトークンの位置を注意機構に直接エンコードして、より長い文脈をサポートするんやな。最後に、モデルは事前正規化付きのRMSノルムも使用しとる。これは入力をその二乗平均平方根でスケールする正規化手法で、より安定した訓練が可能になるんや。

このモデルの際立った能力の一つは、13万1000トークンという文脈ウィンドウや。これは推論時の調整としてではなく、事前訓練中にヤーン拡張を適用することで実現されとるんや。これが何を意味するかは、動画の後半でちょっと触れるで。

GPT-o1に関しては、OpenAIは彼らのオープンソースo200K Harmonyトークナイザーを使用しとる。このバイトペアエンコーディングトークナイザーは20万以上のトークンを持ってて、GPT-4oのようなモデルで使われとるo200Kトークナイザーをベースに構築されとるんや。

GPT-o1が訓練されたデータセットについては、OpenAIは大まかな概要しか開示してへん。モデルは何兆トークンものテキストオンリーコーパスで訓練されて、STEM、コーディング、一般知識に焦点を当てとったんや。安全性のために有害なコンテンツはフィルタリングされたけど、それ以外は公的にはほとんど知られてへん。

訓練が完了すると、モデルはデフォルトで量子化フォーマットでリリースされて、控えめなハードウェアでの展開に十分軽量になっとる。これによって、コンシューマーグレードのGPU、ラップトップ、その他のリソースが限られたハードウェアで実行できるようになったんや。ただし、量子化されていないバージョンは利用できへん。

GPT-o1はまた、安全性と整合性のために相当なポストトレーニングを受けて、より制御された出力のためのデフォルト動作が形成されとる。オープンソースコミュニティの一部では、生のモデルの能力を探索するために、これらの層を削減または除去する実験をしとることは注目に値するで。

オープンソースAIの広がりの中で

オープンソースAIの広い景色の中で、GPT-o1は即座に使用できる完全装備の長文脈モデルとして登場したんや。印象的やけど、しかし、これは急速に拡大するオープンソースLLMの分野における数あるモデルの一つに過ぎへん。

今年4月にリリースされたアリババクラウドが開発した最新のモデルファミリーQwen 3は、相当な話題を呼んだんや。DeepSeek V3やLlama 4といった主要なオープンソースベースのモデルに匹敵するベンチマークスコアを記録したからな。

Qwen 3ファミリーには、クエリごとにすべてのパラメータを活性化する密なモデルと、クエリごとにパラメータの小さなサブセットのみを活性化する混合エキスパートモデルの両方が含まれとる。密なモデルは7つの異なるサイズクラスがあって、60億パラメータモデルも含まれとる。これは現世代のオープンウェイトモデルの中でも最小の部類に入るで。一方、混合エキスパートモデルは2つの異なるサイズクラスで提供されとる。

アーキテクチャ的には、Qwen 3の密なモデルはアリババの前回のリリースであるQwen 2.5モデルと非常によく似とる。Qwen 2.5やGPT-o1と同様に、Qwen 3もグループクエリアテンション、SWIGLU、RoPE、RMSノルムといった特徴を組み込んどるんや。

Qwen 3のスパースモデルは、その密なモデルと同じ基本アーキテクチャを共有しとるけど、混合エキスパート層を追加しとる。これは合計128のエキスパートがあって、トークンごとに8つが活性化されるんや。

すべてのQwen 3モデルは、以前のQwenモデルで使用されとった同じトークナイザーを使用しとる。これはバイトレベルのバイトペアエンコーディングを実装していて、単語や文字ベースのトークナイザーとは違って、特別な前処理なしにどんなテキストやシンボルでも処理できるんや。

Qwen 3を以前のQwenモデルから際立たせる主要なもんの一つは、注意スコアをスケールで安定させるためにキー、クエリ、バリュープロジェクションのスケールを制御する方法やな。以前のモデルでKQVプロジェクションをシフトする静的オフセットであったQKVバイアスを、クエリとキーベクトルを動的に再スケールして一定の大きさを維持するQKノルムという正規化ステップに置き換えたんや。

データセット面では、Qwen 3は36兆の事前訓練トークンで訓練されて、Qwen 2.5モデルの2倍やな。多言語テキスト、STEMやコーディングソース、推論タスクからデータを引っ張ってくることに加えて、Qwen 3はQwen 2.5モデルを使って、教科書、指示、コードスニペットといった異なるフォーマットで何兆トークンもの合成データを生成しとるんや。

Qwen 3の事前訓練は3つのステージで行われた。ステージ1の一般ステージでは、モデルは4096トークンのシーケンス長で119言語をカバーする30兆以上のトークンで訓練された。ステージ2の推論ステージでは、より多くのSTEM推論やコーディング問題を特徴とする追加の5兆の高品質トークンで訓練された。そしてQwenチームが長文脈ステージと呼ぶステージ3では、いくつかの巧妙なアルゴリズム最適化を使って文脈長を32,000トークン以上に拡張したんや。

これらの最適化には、位置信号がはるかに長いシーケンスにわたって正確に保たれるようにRoPEを調整するABF、より長い入力にさらにスケールするヤーン、シーケンスを効率的に処理するデュアルチャンクアテンションが含まれとる。これらの最適化を合わせることで、モデルは推論時により長い入力に対して推論できるようになるんや。

最後に、Qwenは2つの目標を持つ4ステップのポストトレーニングパイプラインを使用しとる。ユーザーが特定のクエリに対してどの程度の推論を使用するかをより制御できるようにし、より大きなモデルの能力をより小さなモデルに効率的に蒸留できるようにすることや。

ポストトレーニングパイプラインの最初のステップは、長い思考連鎖コールドスタートステージやな。これは、数学論理やSTEMからの挑戦的な推論問題の厳選されたデータセットを検証可能な参照回答とともにモデルに提供し、品質を確保するために出力をフィルタリングすることを含んどる。

これに続くのが、複雑な問題解決を強化するために約4,000のクエリ検証ペアでDeepSeekの研究者によって元々開発されたRLアルゴリズムGRPOを使用する推論RLステージや。個人的には、たった4,000ペアで素晴らしい結果が得られるのは魅力的で驚くべきことやと思うで。

ポストトレーニングパイプラインの3番目のステップである思考モード融合は、推論と非推論を単一のモデルに統合するQwen 3の主要な革新で、ユーザーがモデルを変更せずにモードを切り替えられるようにしとるんや。基本的に、この段階で開発者がやったことは、中間推論ステップを含む思考データと、それらを省略する非思考データの混合でモデルを微調整し、ユーザーがモードを切り替えられるチャットインターフェースを構築したことやな。

これはモデルが最初にローンチされたときはQwen独特のもんやったけど、GPT-o1も今は似たような切り替え機能を持っとる。最終ステップの一般RLは、指示追従、フォーマット、嗜好整合、ツール使用、特殊シナリオでの能力を拡張するんや。Qwenの開発者は次に、より大きなモデルからより小さなモデルの訓練を可能にする強から弱への蒸留を使用しとる。

総じて、Qwen 3の性能は、その比較的小さなサイズを考慮すると非常に印象的やな。しかし、数か月前に、別のモデルがすでにオープンソースでの賭け金を上げとったんや。

DeepSeekの革命的アプローチ

昨年12月にリリースされたDeepSeekのV3モデルは、近年の主要なラボから出た最も野心的なオープンソースLLMの一つやった。中国で開発されたこのチャットボットはDeepSeekと呼ばれとる。

DeepSeekは進行中のことの経済学に対する根本的な変化やな。アメリカで最もダウンロードされた無料アプリや。これは人々が可能やと考えることのアップデートやな。

6710億パラメータのV3は、能力と同じくらい効率性を重視して設計された大規模な汎用ベースモデルで、後に続く推論に焦点を当てたR1モデルの基盤を築いたんや。

V3のアーキテクチャや訓練パイプラインについては、2月に包括的な詳細な解説を出したから、ここでは詳しくは触れへんけど、V3について知っておくべき高レベルなことは、それがいくつかのハードウェアとアルゴリズムの最適化を含む混合エキスパートモデルやっちゅうことやな。V3を16ビットや32ビットではなく8ビットでネイティブに訓練することも含まれとって、これは訓練コストを削減するための大きな突破口やった。

そして最近、DeepSeekはアップデート版でV3をさらに押し進めたんや。新しくリリースされたV3.1は元のV3ベースのチェックポイントに直接基づいて構築されて、2段階の長文脈訓練アプローチでそれを拡張し、同じモデルが推論重要と軽量推論を切り替えられるハイブリッド思考モードを追加しとる。

また、より高度なポストトレーニングのおかげで、ツール使用とエージェント性能も向上しとる。実際には、これはV3.1がV3と同じコアアーキテクチャを維持しながら、より強力な推論、より賢いツール使用、より優れた性能を提供するっちゅうことやな。

V3を際立たせる一つのことは、GPT-o1やQwen 3とは異なる注意機構を使用しとることや。現代のLLMでは、計算とメモリの多くはKVキャッシュに結びついとって、そのためV3はMLAを使用しとる。これはキーとバリューをキャッシュする前により小さな潜在空間に圧縮し、推論中にそれらを展開するんや。

MLAの実装はちょっと複雑やけど、以前のDeepSeek V2の論文では、特にこのような巨大な長文脈モデルにおいて、GQAよりも大きなメモリ節約とより良いモデリング性能を提供することがわかったんや。そしてこれは、DeepSeek V3が異なる道を取る複数の分野の一つに過ぎへん。

3つのモデルの比較分析

これらすべてを踏まえて、V3からQwen、GPT-o1まで一歩下がって考えてみよか。これらのモデル間の違いを高レベルでどう考えるべきなんやろか?

一つの大きな違いはサイズや。Qwen 3モデルファミリーは、3つの中で唯一、密なモデルと混合エキスパートの両方のバリアントを提供しとる。密なモデルは60億から320億パラメータまで、混合エキスパートのラインナップには300億パラメータモデルと2350億パラメータモデルが含まれとる。注目すべきことに、Qwenの混合エキスパートベースモデルは、アクティブパラメータが5分の1しかないのに密なモデルの性能に匹敵したんや。

一方、DeepSeek V3は6710億パラメータの混合エキスパートアーキテクチャでのみ提供されて、そのうち370億が特定のトークン予測のために活性化される。つまり、最大のQwen 3モデルよりもかなり大きいっちゅうことやな。

GPT-o1は真ん中に位置しとる。2つのモデルを提供していて、一つは1170億パラメータで、そのうち51億が特定のトークンに対して活性化され、もう一つは210億パラメータで、そのうち36億が特定のトークンに対して活性化される小さなもんやな。

最も興味深い技術的違いの一つは、各モデルがどうやって文脈長を拡張するかにある。ヤーン(Yet Another RoPE Extension)は、モデルの回転位置エンベディングを伸張する技術で、元々訓練されたよりもはるかに長いシーケンスを処理できるようにするんや。

通常、RoPEは、そのベース周波数が設定されたよりも多くのトークンを与えると破綻し始める。しかし、ヤーンはその周波数を調整するんや。そうすることで、同じエンベディング空間がはるかに多くの領域をカバーするようになる。

興味深いのは、ここの3つのモデルがそれを異なって使用することやな。GPT-o1は事前訓練から右にヤーンを適用するんや。つまり、その重みは13万1000トークンの文脈でネイティブに動作するように学習されとるっちゅうことやな。

DeepSeekは段階的アプローチを取って、事前訓練後に微調整を行い、まず32,000トークンに達し、さらに訓練して128,000を達成するんや。Qwenも32,000に微調整するけど、その追加の再訓練ステップはスキップしとる。代わりに、推論時にヤーンスケーリングを再度適用して、追加の再訓練なしでRoPEベース周波数を4倍に増加させて128,000トークンに達するんや。

つまり、GPT-o1は長文脈能力を持って生まれ、DeepSeekは段階的にそれを訓練し、Qwenは追加の長文脈訓練なしに32,000で訓練されたモデルができることの限界を押し上げとるっちゅうことやな。

個人的には、これらの論文と深層学習における最新技術について最も興味深いことの一つは、これらの多くが経験的発見として読めることやと思うで。各ラボは自分たちにうまく機能するツールの組み合わせを説明するけど、なぜ一つのツールが他より優れているかの第一原理の正当化をほとんど誰も提供してへん。

例えば、なぜMLAがGQAよりも完全に優れているかとかな。これは、公理や法則から結果を導出する第一原理の説明をすべて提供する数学や理論物理学のような分野とは大きく異なるんや。

また、これらのモデルのほとんどが似たようなトップラインのベンチマーク統計を持ち、注意機構、活性化関数、位置エンベディングなどの大まかに同じツールを使用しとるにも関わらず、しばしば非常に異なる技術を使って同様の結果を達成しとることも興味深いんや。

これはかなり驚くべきことやな。非常に異なる訓練手法が非常に異なる結果につながると期待するもんやからな。また、すべての主要なモデルは、モデル訓練努力のポストトレーニングと推論部分の一部として強化学習を大いに使用しとる。そして、これらのRL努力の一部が非常に少ない量のデータを必要とすることは魅力的でかなり驚くべきことやな。

Qwenの場合はたった4,000データペアやからな。ここでのもう一つのポイントは、ラボ間でのデータセットの違いが何であるかが非常に不透明やっちゅうことや。論文から、データセットエンジニアリングで舞台裏で膨大な作業が行われていることは明らかやな。

この作業は、おそらく、これらの会社がモデルをリリースすることを快適にする堀の重要な側面なんやろな。彼らがリリースしているものを複製するのは非常に困難やからな。

これらの論文を読む際の大きな要点は、ベンチマーク性能や文脈サイズのようなトップライン統計だけに焦点を当てすぎるべきではないっちゅうことや。代わりに、これらのラボがそれらの結果を達成するために使用している特定の手法を見るべきやな。

この動画では議論しなかった高性能なオープンソースモデルがたくさんあるんや。Qwen2-VLやGoogle Gemma 3みたいなもんやな。しかし、これらの多くの中身を覗いてみると、私が本当に興味深いと思う微妙な違いを見つけることができるやろな。

これが最新のオープンソースリリースを理解するためのフレームワークを提供し、自分でそれらをいじり始めるためのツールキットを提供することを願っとる。見てくれてありがとう。次のエピソードで会おうや。

コメント

タイトルとURLをコピーしました