AIの第一次世界大戦が始まった:衝撃の新AI(Tülu 3)がDeepSeekとOpenAIを打ち倒す!

AGIに仕事を奪われたい
この記事は約8分で読めます。

4,571 文字

AI World War 1 Just Began: SHOCKING New AI (Tülu 3) Destroys DeepSeek & OpenAI!
Ai2's Tülu 3 405B, a massive open-source AI model, has outperformed DeepSeek V3, GPT-4o, and Llama 3.1 405B on key bench...

衝撃的な展開で、私たちが「AI第一次世界大戦」と呼ぶものにおいて、新たなプレイヤーが首位に躍り出ました。AI2の最新モデルTulu 3 445bが突如として現れ、物議を醸しているDeepSeekのモデルとOpenAI GPT-4o1を複数の主要なベンチマークで上回りました。
このAI戦争は、中国のスタートアップDeepSeekが、OpenAIの最強モデルに匹敵、あるいは凌駕するモデルを無料で公開したことで始まりました。これにより熾烈な競争が巻き起こり、その後アリババもQwen 2.5モデルで参戦し、さらに状況は激化しました。
事態をより緊迫させたのは、MicrosoftとOpenAIがDeepSeekを技術窃盗で告発したことでした。そして今やTulu 3 45bが登場し、競争の激化と賭け金の上昇は明らかです。
状況は非常に興味深く、今後の展開が楽しみです。ここで概要を説明しましょう。シアトルを拠点とする非営利研究機関のAI2(Allen Institute for AI)は、自然言語処理(NLP)やその他のAI研究分野で最先端の成果を上げていることで知られています。
今回彼らは、Tulu 3 45bをリリースすることで注目を集めています。45bという名称は、このモデルが使用するパラメータの巨大な規模を示しています。歴史的に見て、より大きなモデルはより優れた推論能力を示す傾向があり、Tulu 3 405bもこの傾向に従っています。
このプロジェクトでは256個のGPUを並列で使用して学習が行われたとのことで、計算リソースの規模の大きさが分かります。Tulu 3 405bが特別なのは、その巨大さだけでなく、完全にオープンソースであることです。多くの強力なモデルとは異なり、このモデルを再現するために必要な学習コード、データ、手順のすべてが自由に公開され、許容的なライセンスの下で提供されています。
AI2のチームは、Tulu 3 4.5bをアメリカが大企業の研究所に頼らずとも、トップレベルのオープンソースAIを構築できることを示す重要な一歩と位置付けています。これは、多くのAIのブレークスルーが非公開APIや独自コードの背後に隠されている中、オープンAI研究についてのより大きな議論の一部となっています。
では、パフォーマンスについて話しましょう。AI2はPopQA、GSM8K、数学など、多くの一般的なベンチマークでテストを行いました。これらのテストには、知識の想起、事実の正確性から、高度な推論、数学の文章題、コーディングタスク、指示の遵守まで、あらゆる項目が含まれています。
内部評価では、Tulu 3 45bは多くのタスクでDeepSeek V3とGPT-4oを上回りました。例えば、Wikipediaから14,000以上の知識に関する質問を集めた評価セットPopQAでは、Tulu 3 4.5bが優れた成績を収めました。また、小学校レベルの数学の問題を扱うGSM8Kというベンチマークでは、Tulu 345bが同クラスのモデルの中で最高のパフォーマンスを記録しました。これは特に興味深い結果です。なぜなら、多くのモデルにとって数学は、特にその領域で明示的な微調整を受けていない場合、非常に困難だからです。
Tulu 345bを自分で試してみたい場合、AI2はそれを紹介するチャットボットウェブアプリを提供しています。また、GitHubとHugging Faceにコードを投稿しており、開発者や研究者であれば、すべてが利用可能です。テストしたり、適応させたり、自分のデータと組み合わせたりすることができ、すべて無料でオープンです。
Tulu 345bは一夜にして登場したわけではありません。これはAI2が段階的にリリースしてきたより大きなTulu 3ファミリーの一部です。以前には8Bと70Bパラメータのバージョンがあり、これらも非公開モデルに匹敵、あるいは凌駕するように指示調整されていました。この最新の405Bバージョンは、基本的に「オープンな重みでどこまでスケールを押し上げられるか見てみよう」という試みです。
Tulu 345bが際立っている最大の理由の1つは、その学習方法にあります。AI2は、教師付き微調整、DPO(Direct Preference Optimization)のような選好学習、そして新しいアプローチであるRVR(Reinforcement Learning with Verifiable Rewards、検証可能な報酬による強化学習)を組み合わせた高度な学習後のアプローチを使用しました。
本質的に、RVRはモデルに数式や特定の制約のある指示など、答えを明確に確認できるタスクを与えます。モデルは正しい解答を出すと報酬を得ます。このアプローチは特に405bのスケールで、正確な推論を必要とするタスクでTulu 3に追加のブーストを与えているように見えます。
彼らはまた、ランダムな報酬関数を持つのではなく、数学の問題解決と指示遵守に関して検証可能な結果を重視しました。Tulu 3 415bは、自動化できるプロセスで解答が検証されたときのみ報酬を得ます。これにより、奇妙な方向に逸れることなく、これらのタスクでより良い性能を達成できています。
AI2はまた、Tulu 3 415bのスケーリングにおいていくつかの技術的課題があったことを言及しています。405bのパラメータは非常に大きく、学習には32ノード、256 GPUの並列実行が必要でした。また、この作業を処理するために特別な分散フレームワークも使用しました。
もう1つの大きな要素は、大規模バッチ推論のためのVMとの相乗効果で、これにより並列学習と推論を効率的に行うことができました。これは典型的な「週末にシングルクラスターで学習する」というような状況ではなく、本当に大規模なプロジェクトです。
比較は常に面白いものです。Tulu 3 405bは、特にM MLU(知識)、PopQA、GSM8Kにおいて、DeepSeek V3、GPT-4o、Llama 3.1 45b、Nous Hermes 3 45bと多くのテストで比較されました。Tulu 345bは健闘し、オープンモデルが大手の独自モデルと十分に競争できることを示しました。
ただし、GPT-4oはいくつかのタスクでわずかに強さを保っており、Tulu 3 405bが同点かわずかに及ばないこともありましたが、その差は大きくありません。
安全性も注目すべき点でした。AI2によると、Tulu 3 45bは有害な要求や禁止された要求を拒否するなど、複数の安全性テストでDeepSeek V3、Llama 3.1、Nous Hermes 3を上回りました。オープンソースモデルは堅牢なコンテンツフィルターが不足していると批判されることが多い中で、これは大きな成果です。特別なデータキュレーションと選好微調整のおかげで、Tulu 345bは適切な対応ができていると彼らは主張しています。
データキュレーションに関して、Tulu 345bのパイプラインは広範囲に及びます。様々なオープンデータセット、WildChatのような実際のユーザーとのやり取り、Flan V2のような既存のオープン指示セットから、プロンプトと指示を慎重にキュレートしました。
また、学習データの大規模な汚染除去も必要でした。学習用のプロンプトがテストセットと重複しすぎないようにする必要がありました。テスト例で学習してしまうと、数値が人為的に膨らんでしまうため、これは常に大きな問題です。そのため、彼らは公平性を確保するための措置を講じました。
次に、多段階アプローチがあります。一般的なスキル構築のための慎重に選択されたデータによる教師付き微調整(SFT)、特定のスタイルや正確性の好みにモデルの回答を合わせるための直接選好最適化、そして検証可能な正解のあるタスクのためのRLVです。これらを組み合わせることで、数学、推論、知識の想起、コーディング、一般的なチャット、そして安全性の制約をうまく処理できる、バランスの取れたモデルが生まれました。
興味深い発見は、Tulu 3 445bが正確な指示遵守に焦点を当てていることです。このプロジェクトには、モデルが正確に3段落を作成したり、特定の単語数や制約を満たしたりする必要があるタスクが含まれており、失敗すると文字通り報酬がゼロになります。これは厳しいシナリオですが、より正確に指示に従うモデルを生み出します。そのため、非常に厳格な制約に従う必要があるチームにとって、Tulu 3 45bは興味深い候補となるかもしれません。
全体として、Tulu 345bのオープンソースの立場は大きな声明です。部分的なコードや重みのみを提供するオープンモデルとは対照的に、Tulu 3でAI2はすべてを公開しています。学習のレシピ、選好データセット、チャットテンプレート、最終的な指示、各ステップのコードなど、これらの結果を再現したり、さらに進めたりしたい場合、すべて利用可能です。
使用方法については、Tulu 3 405bはコードと指示の両方がHugging Faceで見つけることができます。より技術的でない方は、AI2のウェブデモに行って、Tulu 345bチャットボットと対話することができます。彼らは基本的に「新しいフラッグシップモデルがいつ現れてそれを打ち負かすかわからないので、今のうちにテストしてください」と言っています。これが現在のAI開発の性質なのです。物事は超高速で動いています。
ちなみに、Tuluという名前は、バクトリアラクダとドロメダリーの間の雑種ラクダを指します。彼らはこれをハイブリッドアプローチの比喩として使用しており、それはなかなかクールです。
全体として、Tulu 3 405bはオープンソースコミュニティ、特にアメリカ側にとって重要なマイルストーンのように感じられます。AI2は基本的に、モデルコードから学習ステップまで、すべてを研究者や開発者が自由に利用できるようにしながら、大規模言語モデルの境界を押し広げ続けることが可能であることを示しています。
多くのベンチマークでDeepSeek V3を上回ることで、Tulu 3 405bはグローバルAI空間における良好な競争を示し、学術的なオープン性とトップレベルのパフォーマンスの間のギャップを埋めています。
自分の実験を実行したい場合、これほど堅牢なオープンモデルを手に入れるのに、これ以上良い時期はありません。
今日のブレイクダウンは以上です。Tulu 3 405bはAI界の話題の的となっています。巨大で、複数のタスクで信じられないほど良いパフォーマンスを示し、完全にオープンです。ぜひチェックして、オープンソースAIがどのように進化しているかについて、あなたの考えを聞かせてください。
この情報が役立ったと思ったら、ぜひチャンネル登録とライクボタンをお願いします。視聴ありがとうございました。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました