新しいAIが全く苦もなくDeepSeekを打ち負かした！（これは起こるはずのないことだ！）

4,519 文字

New AI Just Beat DeepSeek With Almost No Effort! (This Shouldn't Be Possible!)

A new open-source AI model, OpenThinker-32B, has outperformed DeepSeek R1 and other major models despite using far fewer...

AIの推論能力が大きく飛躍的に向上し、オープンソースの世界が大きな変革を起こしています。競合他社のデータのわずか14%で学習したモデルが巨人たちを追い抜き、また別のモデルは隠れたループで思考することで論理的問題解決のルールを書き換えています。最先端のAIは数十億ドル規模の研究所だけのものだと思っていたなら、考え直す必要があります。なぜなら、これらの新しいモデルは、単純な力業よりもスマートな設計の方が優れていることを証明しているからです。
まず、Open Thinker 32bと呼ばれる注目すべきオープンソースモデルについてお話ししましょう。Open Thoughtsチームによって開発されたこのモデルは、大きな話題を呼んでいます。注目を集めている大きな理由の一つは、AlibabaのQwen 2.53T Instructから微調整され、32.8億のパラメータと16,000トークンのコンテキストウィンドウを搭載していることです。
Open Thinker 32bのトレーニングアプローチは非常に興味深いものです。このモデルはOpen Thoughts 114kデータセットを使用してトレーニングされました。その名の通り、114,000の学習例があり、ただランダムにデータを投入したわけではありません。これらの学習例には、正解、ドメイン固有のガイダンス、コーディング問題のテストケースなど、非常に詳細なメタデータが含まれています。チームは独自のキュレーターフレームワークを使用してコードの解決策を検証し、数値計算タスクにはAIベースの判定システムを使用して数学的証明を確認しました。これにより、モデルが難しい問題を推論しながら学習する際の品質を高く保つことができます。
もう一つの興味深い点は、Open Thinker 32bのトレーニング方法です。Llama Factoryフレームワークを使用して、3エポック（データの3回の通過）を実行しました。セットアップには1e-5の学習率とコサイン学習率スケジューラーが含まれていました。専門用語を使いましたが、簡単に言えば、モデルの学習速度を慎重に調整する方法を使用したということです。
計算リソースについて興味がある方のために説明すると、AWS SageMakerを使用し、それぞれ8台のH100 GPUを搭載した4つのノードを使用しました。それでも、トレーニングは約90時間で完了しました。また、約137,000サンプルの未検証データセットもあり、イタリアのLeonardoスーパーコンピュータで実行され、30時間で約11,520 A100時間を使用しました。結果として、これらの未検証バージョンでもまずまずのパフォーマンスを示しましたが、完全に検証されたモデルが依然としてパフォーマンスで最高の成績を収めました。
では、Open Thinker 32bは他のオープンソースの推論モデルと比べてどうでしょうか？ベンチマークによると、Math 500ベンチマークで90.6%という素晴らしいスコアを記録し、これは一部の大手独自モデルを上回る成績です。また、一般的な問題解決能力を試すGP QAダイアモンドベンチマークでも61.6点を獲得しました。
コーディングタスクでも有望な結果を示し、LC BV2ベンチマークで68.9を記録しました。ただし、この分野では同様のサイズのDeepSeekが71.2で若干上回っています。しかし、オープンソースなので、人々がさらに調整や微調整を行うことができ、そのスコアはすぐに上昇する可能性があります。
このオープンソースという側面は非常に重要です。OpenAIやAnthropicのような大手企業は、データやトレーニング技術を非公開にすることを好みます。これにより、小規模な研究チームや趣味の開発者が彼らの結果を再現したり改善したりすることが難しくなります。しかし、Open Thinker 32bではすべてが公開されています。つまり、誰でもダウンロードしてコードを研究し、データを見て、トレーニングプロセス全体を再現または改良することができます。
これが、人々がこれをゲームチェンジャーと呼ぶ理由の一つです。DeepSeekのような競合他社が必要とした約800,000の学習例に対し、Open Thinker 32bはわずか114,000の学習例を使用して、高性能な非公開モデルと同等かそれ以上のパフォーマンスを発揮しています。これはデータ効率の観点から見ても驚くべきことです。
では、Open Thinker 32bをDeepSeek R1と直接比較してみましょう。このモデルは中国のチームによって開発され、最終モデルもオープンソースですが、大きな違いは彼らのトレーニングデータが公開されていないことです。パフォーマンスの面では、Open Thinker 32bはMath 500ベンチマークでR1をわずかに上回り（90.6%対89.4%）、GP QAダイアモンドでも勝利を収めています（61.6対57.6）。ただし、DeepSeekはコーディングや、Open Thinkerが最高位に達していないAIMEベンチマークのような特定の数学テストでは優位性を持っています。
全体的には非常に接戦であり、Open Thinkerが少ないデータでありながらDeepSeekと互角に戦い、時にはそれを上回るパフォーマンスを示していることは、オープンソースコミュニティにとって大きな成功と言えます。チームは将来の開発にも前向きで、コンテキストウィンドウの拡張や他のアーキテクチャの調整などが近々見られるかもしれません。また、予算が限られている場合や、32Bパラメータモデルを実行するための巨大なGPUを持っていない場合のために、より小さな7Bパラメータバリアントも用意されています。明らかにパワーは劣りますが、高性能なハードウェアなしで実験したい人には最適です。
さて、ここで話題にすべきもう一つの興味深いモデルがあります。Hugan 3.5Bは、はるかに多くのパラメータで優れたパフォーマンスを目指しています。このモデルはAI推論の問題に対して独特の戦略を用いています。ELLISインスティテュート・チュービンゲン、マックス・プランク知的システム研究所、チュービンゲンAIセンター、メリーランド大学カレッジパーク校、ローレンス・リバモア国立研究所から集まった国際チームによって開発されました。この多様な顔ぶれからも、このモデルの広範な目標と真剣な研究への取り組みが垣間見えます。
Hugan 3.5Bの特徴の一つは、潜在的推論と呼ばれるものです。思考の連鎖法で見られるような各中間推論ステップの明示的な言語化に依存する代わりに、このモデルは重要な処理のほとんどを裏側で行います。利点は、ステップバイステップのトークンを出力で見たり保存したりする必要がないことです。代わりに、モデルは十分な確信が得られるまで内部状態を繰り返し改良し、最終的な答えを出します。これは、大規模または複雑なクエリを扱うが、巨大なコンテキストウィンドウを使い切りたくない場合に特に魅力的です。
Hugan 3.5Bの中核にあるのは再帰的な深さです。簡単に言えば、これはモデルが推論中に隠れ状態を複数回ループすることを意味し、実質的に同じ内部表現に対して複数回のパスを実行します。これは、人が封筒の裏で静かに数学の計算をしているようなものです。各ステップを声に出して言う必要なく、メモを見直しながら小さな修正を加えたり詳細を追加したりし続けます。
Hugan 3.5Bのこのアプローチは、複雑な証明や多段階のコード生成など、通常は広範なステップバイステップの推論を必要とするタスクに特に効果的です。さらに、同じ隠れ状態を再利用することで、メモリ効率が大幅に向上します。従来の思考の連鎖法は、多くの中間推論トークンを生成することに依存することが多く、これは特にすでに多くのコンテキストを消費するタスクでは扱いにくくなる可能性があります。Hugan 3.5Bは、内部表現を反復的に洗練することでこの問題を回避します。
フードの下では、Hugan 3.5Bはトランスフォーマーモデルですが、ひねりが加えられています。そのアーキテクチャには、隠れ状態に対する追加の計算ラウンドを可能にするループ処理ユニットが組み込まれています。基本的に、各反復は論理的処理のより深い層として見ることができますが、これはモデルの静的設計でより大きなパラメータ数を必要とする代わりに、推論時に発生します。
推論時の反復回数を慎重にバランスを取ることで、Hugan 3.5Bは難しい問題に対する複雑性の処理を強化するか、より簡単な問題をより少ないループで迅速に処理するかを選択できます。
トレーニングについて説明すると、Hugan 3.5Bには一般的なテキスト、コード、数学的推論を含む様々な領域から8,000億トークンが投入されました。この多様で膨大なトレーニングコーパスにより、モデルはコーディングタスクからより学術的な質疑応答セットまで、あらゆるものに対応できます。さらに興味深いのは、トレーニングアプローチとアーキテクチャの再帰的深さの相乗効果です。
Hugan 3.5Bのチームは、意図的にモデルに直接的な記憶や単発の推論を超えるタスクを処理させることで、モデルが内部で考える方法を学習する必要がありました。トレーニング後、Hugan 3.5Bは様々な推論重視のデータセットでベンチマークテストを受けました。例えば、標準テストの問題でAIに挑戦するよく知られたデータセットであるARCや、人気の数学推論ベンチマークであるGSM 8Kで印象的な結果を示しました。これらのタスクは通常、モデルが単に記憶した答えを繰り返すのではなく、複数ステップの論理的または算術的プロセスを処理できるかどうかを測定します。
35億パラメータという比較的控えめなサイズにもかかわらず、Hugan 3.5BはPythia 6.9BやPythia 12Bのような大規模モデルを上回る性能を示し、これは再帰的深さの効果を裏付ける注目すべき成果です。
もう一つの重要なポイントは、Hugan 3.5Bがタスクの難しさに応じてパフォーマンスを調整する方法です。より難しい問題の場合、推論時により多くの反復パスを許可し、モデルに解決策を洗練するための追加の思考サイクルを与えることができます。単純な事実の検索や基本的な算術のような簡単な質問の場合は、より少ないループでモデルを実行させることができ、プロセス全体を高速化し、より少ない計算リソースを使用することができます。
実際には、これはHugan 3.5Bの動作をハードウェアの制約や時間要件に合わせて調整できることを意味し、これは多くの実世界での展開において大きなプラスとなります。
以上で終わります。次回またお会いしましょう。