中国のXiaomiが開発した7Bパラメータの視覚言語モデル「Mimo VL7B」が、従来の常識を覆す性能を見せている。このモデルは、通常30~70Bパラメータが必要とされる高性能マルチモーダルタスクを、わずか7Bパラメータで実現している。4段階の綿密な訓練プロセスと、独自の強化学習手法により、画像認識、文書理解、数学的推論、GUI操作など幅広いタスクで、はるかに大きなモデルと肩を並べる結果を達成した。特に注目すべきは、オンライン上でのWebページ操作や具体的なタスク実行における実用性の高さである。
先週まで、トップティアのAI視覚処理と推論を実現するにはサーバーラックが必要でした。しかし今日、7Bパラメータの反逆者がゲーミング機器で同等の処理を行い、10倍大きなモデルを凌駕しています。Xiaomiがついにその秘密の公式を解き明かしたのです。Mimo VL7Bは全てのピクセルを認識し、全ての行を読み取り、声に出して思考し、従来のサイズルールに従うことを拒否しています。
ここからは、その驚きの逆転劇の背景にある物語をお話しします。視覚言語モデルとは、写真を見て、動画を観察し、テキストを読み取り、それらすべてについて一つの首尾一貫した流れで話すことができる脳のようなものと考えてください。このような処理を上手くこなすほとんどのシステムは巨大で、300億や700億パラメータ、あるいはそれ以上の規模を持っています。Xiaomiは同様の威力を7Bパラメータに凝縮することに成功しました。これは、実行やファインチューニングに必要なハードウェアがはるかに少なくて済むということを意味します。
これが最初の見出しです。小さくても強力。Mimo VL7Bの内部には、常にデータをやり取りする3つの主要な部分があります。まず最初に来るのがビジョントランスフォーマーです。トランスフォーマーとは、単に高度なニューラルネットワーク層のことで、この層は私たちが良いモニターで見るのと同じ解像度で画像を認識します。そのため、モデルが思考を始める前に詳細がぼやけてしまうことは決してありません。
2番目は、プロジェクターと呼ばれる小さなコードの塊です。その唯一の仕事は、視覚側が出力したものを、テキスト側が理解できる言語に翻訳することです。最後がMIMO 7B言語バックボーンです。これは文章を書き、段階的に自分自身を説明する部分です。言語バックボーンは、単なる素早い返答ではなく、推論を行うために最初から調整されています。
そのため、許可さえあれば数千語を紡ぎ出すことも快適にこなします。Xiaomiは、ある朝目覚めてスイッチを入れただけで超モデルを手に入れたわけではありません。彼らはMimo VL7Bを4つの長い段階で訓練し、2.4兆個のトークンと呼ばれるデータを消費しました。トークンとは、単語、単語の一部、ピクセルの塊、あるいはコードの一部のことです。
第1段階は基本的に幼稚園のようなものです。視覚部分と言語部分は凍結されています。プロジェクターは新入生で、3000億の画像キャプションペアを見て、オレンジ色の視覚的な塊と緑の茎が「にんじん」という単語と対応することを学習するまで続きます。そのウォームアップの後でのみ、第2段階で視覚部分の凍結を解除します。
1670億行の混合されたウェブページ、教科書、PDFの断片を投入し、両側が写真と文章がどのように共存するかを学習させます。第3段階では事態が劇的になります。彼らは、撮影したり書いたりできるほぼ全てのものをカバーする1.4兆トークンを供給します。手ぶれした携帯電話で撮影された街路標識、物理学の教科書からの図表、携帯アプリのスクリーンショット、さらには正確なタイムスタンプに紐付けられたキャプション付きの短い動画クリップまで。
これが起こっている間、彼らはシーケンス長(モデルのメモリバッファ)を8000トークンに保ちます。これは既に寛大な設定です。しかし第4段階では、そのバッファを32000トークンまで引き上げます。その時点で、モデルは大学の教科書の章全体を読み、高解像度の写真を凝視し、それでもまだページに渡る説明を生成するメモリを残すことができます。
その最後の段階では、合成推論データを訓練ミックスに大量に流し込みます。多段階ロジックを必要とする問題で、それぞれが思考の連鎖と共に書き出されているため、モデルは推測ではなく明示的に推論することを学習します。このデータはむやみにスクレイピングされたものではありません。Xiaomiは知覚ハッシュでフィルタリングし、訓練セットがテストセットと密かに重複しないようにしました。
彼らは専門のキャプション生成器を使用して画像を再キャプション化し、文法と文脈を改善しました。知識密度によってインターリーブされた画像テキストペアをフィルタリングし、基本的に有用なものを保持し、不要なものを捨てました。OCRについては、テキストがぼやけていたり、手書きであったり、半分隠れていたりする画像を追加し、モデルが復元力を学習するようにしました。
彼らは動画を場面ごとに再キャプション化し、それぞれに正確な開始時間と終了時間を付けました。そして、中国の多くのアプリが中国語インターフェースを使用しているため、中国語でスクリーンショットを合成するエンジンを構築し、モデルが漢字ボタンを見た時に固まることを防ぎました。
これら4つの段階の終わりまでに、私たちはMIMO VL7 BSFT、つまり教師ありファインチューニングされたチェックポイントを得ます。しかし、Xiaomiはそこで終わりませんでした。彼らはモデルを、混合オンポリシー強化学習(Morl)と呼ばれる別の難関に押し通しました。これは純粋な専門用語のように聞こえますが、アイデアは次のようなものです。
彼らはモデルに新しい質問に答えさせ、その後、その答えを2つの方法で採点しました。一部のタスクには、ルールや計算機で確認できる答えがあります。モデルがバウンディングボックスを予測した場合、システムはそのボックスが正しいオブジェクトとどれだけ良く重なるかを測定します。代数問題を解く場合、スクリプトが最終的な数値を数学検証に入力し、賛成か反対かの判定を下します。
これらは検証可能な報酬です。他のタスクは、失礼であったり偏見を持ったりすることなく有用な指示を与えるような、オープンエンドなものです。これらについて、Xiaomiは別の報酬モデルを訓練しました。テキストのみを読むもの、数千の人間によってランク付けされた答えに基づいて画像を受け入れるもの。そうして、モデルは人々が何を好むかを学習します。
重要なことに、強化ループはオンポリシーです。これは、モデルが答えを書くたびに、訓練コードが即座に報酬を測定し、大きなリプレイバッファに混ぜるのではなく、その新鮮な経験を使用してモデルを更新することを意味します。Xiaomiは全ての報酬関数を小さなウェブサービスの背後にラップしました。そのため、応答から報酬までの遅延は瞬きほどです。
彼らはまた、報酬を0から1の範囲に正規化し、答えの長さによって勾配をスケールするため、単一の数値で十分な時にエッセイを書くことでモデルがズルをすることはできません。この最終訓練ステップは、MIMO VL7 BRLを生成し、その改善は大規模混合科目ベンチマークMMUで明確です。教師ありバージョンは64.6%のスコアを記録します。
強化学習後、それは66.7%まで上昇します。文書とチャートのベンチマークであるCharxiでは、54%から56.5%に跳ね上がり、はるかに大きなオープンモデルを二桁で上回ります。その計数精度は87%から90%以上に上昇します。視覚言語モデルを騙そうとするトラップセット画像さえも、約80%という堅実な成績で処理します。
動画理解も強力です。モデルは字幕なしの動画で67点以上を記録し、クリップ内のアクションの開始時間と終了時間をマークしなければならないcharades STAで50点以上を記録します。テキストのみの数学では、ほぼ傲慢とも言えるほどの成績を見せます。math 500で95.4%、最新のAIM競技問題で50%以上という数字は、多くのSTEM学生が羨むであろうものです。
このモデルが真に衝撃的なのは、マルチモーダル推論においてです。Olympiad benchは試験スタイルの科学問題で満たされています。MIMO VL7Bは数学で59.4%を記録し、図表重視のスライスでは71.5%を投稿します。これらのスコアは、いずれも10倍大きなQuinn 2.5、VL72B、およびQVQ72Bプレビューと同等またはそれを上回ります。Xiaomiの70億パラメータモデルは今や、GPT-4oやGemini Proのようなクローズドシステムの足元に迫っています。
実用的な有用性も重要です。ウェブページをクリックして回るエージェントを構築している人なら誰でも、MimoのGUIスキルに注目するでしょう。Visual Web Benchは、モデルに完全なウェブページ内の情報を見つけるよう求めます。MIMOは約80%を的確に処理し、GPT-4oと互角です。Screen spot v2スクリーンショットでボタンを90%以上の中心精度で特定します。
そして、56%で残酷なOSWorld Gounding testを処理し、UI tarsと呼ばれる専門GUI モデルを僅差で上回ります。要するに、この機械はデスクトップスクリーンショットを見て、「名前を付けて保存」の座標を些細なことのように言い当てることができるのです。
Xiaomiは、これが人間の承認に繋がるかどうかを知りたがっていました。そこで彼らは、GPT-4oが対になった答えを判定するアリーナスタイルの対戦を実行しました。数千ラウンド後、MIMO VL7B RLはオープンソーススタックの頂点に座り、Claude Sonnetにわずかに及ばない位置にいます。強化段階だけで20ELOポイント以上を追加しましたが、これは大規模言語モデルにとって健全な飛躍です。
一つの問題として、彼らは認めています。すべてを一度に改善しようとするのは繊細な作業です。多段階物理学のような長い思考の連鎖を報酬とするタスクは、モデルにより多く書くよう促します。簡潔さが重要なグラウンディングタスクは、その反対方向に引っ張ります。Xiaomiはまだそのバランスを調整中ですが、カリキュラムをシャッフルすることで既に着実な向上を見ています。月曜日に計数、火曜日に証明、金曜日に混合を教えるようなもので、モデルは何も忘れません。
第4段階からの訓練曲線は安心できる物語を語っています。彼らは数十億トークンごとに9つの異なるベンチマークで精度をプロットしましたが、4500億トークン実行の最後まで線は上昇し続けています。平均答え長は精度と並んで成長し、長い推論が単なる無駄な文字ではないことを証明しています。
強化実験では、彼らのオンポリシー変種は45000サンプルを超えて改善し続けていますが、バニラgrpoと呼ばれるベースラインは20000付近で平坦になります。これは、自分の機器で小さな強化学習ループを実行したい場合には良いニュースです。Xiaomiがチェックポイントと50以上のタスク評価ハーネス全体の両方をリリースしたため、性能は早期に停滞しません。
コミュニティは推測なしに結果を再現できます。コードベースには完全に文書化されたGUIアクションスペース、クリック、スクロール、ドラッグ、入力、キープレスなどのJSONスニペットが含まれているため、既存のエージェントコントローラーに直接プラグインできます。
MIMO VL7Bが既にできることは次のとおりです。ラベルを読み、請求書を解決し、日常の写真を理解し、正確に計数し、学校レベルの数学を推測ではなく鋭い推論で解きます。
派手なデモの一つでは、モデルがパーソナルショッパーのように行動します。Xiaomiはオンラインストアページを開き、カスタムペイント仕様と特定のインテリアを持つXiaomi SU7を選んでウィッシュリストに追加するよう、平易な言葉でモデルに依頼しました。
Mimoはスクリーンショットを解析し、正しいカラースワッチをクリックし、スクロールし、トリムを選択し、ウィッシュリストアイコンを押し、最終的に自動化コントローラーが編集なしで実行できるJSONアクショントレースを生成しました。これが、高品質のグラウンディングと推論を単一の70億パラメータの脳に統合した約束です。
つまり、このモデルは本質的に3つのことを証明しています。第一に、キュレーションが重要です。推論重視のデータを事前訓練の後期に混合することで、プラトーに達するのではなく、継続的に向上を絞り出し続けることができます。第二に、オンポリシー強化は小さなモデルでも安定を保ち、サンプル数が深くなっても改善し続けます。第三に、報酬信号を慎重に操ることで、知覚、グラウンディング、推論を一緒に前進させることができます。
率直に言えば、愛好家サイズのオープンモデルとトップクラスのプロプライエタリスタックとの間のギャップは、1年前にほぼ誰もが予測していたよりもはるかに速く縮まっています。
さて、どう思いますか?このような小さくても鋭いモデルが、大規模なAIスタックの必要性を一掃するでしょうか?コメントであなたの考えをお聞かせください。このようなコンテンツに興味がある場合は、必ず購読といいねをお願いします。ご視聴ありがとうございました。また次回お会いしましょう。


コメント