中国Alibaba Cloudが開発したQwen 3VLは、2350億パラメータを誇る大規模視覚言語モデルであり、オープンソースとして公開された最大級のマルチモーダルAIである。本モデルはGemini 2.5 ProやClaude 4.1 Opusなど主要な商用モデルを多数のベンチマークで上回る性能を示し、GUI操作、視覚的コーディング、空間認識、長文脈理解において優れた能力を発揮する。Apache 2.0ライセンスで提供され、39言語に対応したOCR機能を含む包括的な機能を備えている。

Qwen 3VLの革新的な性能とオープンソース化
中国のQwenチームがめちゃくちゃすごい視覚言語モデル、Qwen 3VLをリリースしたで。一番ええところは、最大版のQwen 3VLをオープンソースで公開してくれたことや。総パラメータ数2350億、アクティブパラメータ数220億という化け物級のモデルやねん。
この動画では、Qwen 3VLについて徹底的に解説していくで。そして実際にモデルをライブテストして、チームが主張してることが本当なんかどうかを確かめてみるわ。
オープンソース化されたこのモデルの指示版は、多くの視覚認識ベンチマークでGemini 2.5 Proを上回ってるんや。個人的にはGemini 2.5 Proを最高のモデルやと思ってたから、これはもうビックリやで。
包括的なベンチマーク比較
これまで見た中でも最も包括的なベンチマークの一つやと思うわ。Qwen 3VLをGemini 2.5 Pro、GPT-4o、Claude 4.1 Opus、その他のトップモデルと比較してるんや。最高のモデルと信じられてるやつらと比較して、どのベンチマークも抜かしてへん。
チェリーピッキングは一切してないと思うで。まずQwenチームには祝辞を送りたいわ。モデルをオープンにリリースしただけやなく、すべてのモデルを比較したベンチマークまで提供してくれたからな。
これまで多くの会社がモデルをリリースしてきたけど、最高のモデルの一つであるQwenと比較すらせえへんところが多かったからな。今回は本当に徹底的にやってくれて嬉しいわ。
Qwen 3VLの主要な改善点
この特定のモデル、Qwen 3VLについて詳しく話そうか。このモデルの主な目的は、様々な次元でモデルの理解力を向上させることやねん。
テキストの理解を向上させたい、視覚的コンテキストの認識を向上させたい、推論能力を向上させたい、そしてより長いコンテキストと空間関係のより良い理解を持たせたいんや。動画を扱ったり、その上にエージェントを構築したりしたいなら、このモデルは利用可能な他のどのモデルよりもはるかに優秀にできるで。
モデルの主要機能
このモデルのいくつかの重要なハイライトがある。まず、モデルはGUI用の視覚エージェントとして使用できる。つまり、モバイルインターフェースやラップトップインターフェースで特定のボタンをクリックするためにモデルを使用できるんや。モデルははるかに優れた理解力を持ってる。
画像をアップロードして、単純なOCRではない質問をしても、モデルは答えを提供できる。モデルはより優れた視覚的コーディング能力を持ってる。ナプキンに描いた図面をアップロードして、それをHTML、CSS、JavaScriptに変換するよう依頼したり、デザインモックアップをdraw.ioに変換したりすることも今すぐできるんや。
そして、モデルはより良い空間理解力も持ってる。つまり、モデルはより良い2Dグラウンディングを持ってるということや。画像内の2点間の相対距離やあらゆる種類のものを非常によく理解してるんや。
モデルは256,000のコンテキスト長まで対応する長いコンテキストを含め、かなり良い仕事をしてる。さっき言ったように、モデルは多言語OCRサポートを持ってる。現時点で多くの異なる言語をカバーしてるんや。
テストデータセットでは39言語をカバーしてて、ヒンディー語のようなインドの言語、アラビア語、ウルドゥー語など様々な言語を見ることができる。これらはローマ字化された文字ではないけど、それでもモデルはこれらの文字を理解してるんや。
ベンチマーク結果とモデルアクセス
ベンチマークで皆を退屈させるつもりはないから、自分でベンチマークを確認してもらうわ。でも全体的に、このモデルは多くの異なるベンチマークで他のすべての商用モデルよりもはるかに優秀なんや。
Claude 4.1 OpusやGemini 2.5 Proがこのモデルより優れているベンチマークもいくつかある。でも全体的に見ると、オープンソースモデルとしては素晴らしい性能やで。
モデルにアクセスしたいなら、すでにHugging Faceで利用可能や。ダウンロードするだけでいい。Apache 2.0ライセンスで利用できる。指示モデルと思考モデルの両方が使用可能や。
でも僕はQwenのエコシステム内でモデルを使うつもりや。chat.qwen.aiにアクセスして、Qwen 3VL 235B 220億パラメータモデルを選択できる。これが彼らの最強の視覚言語モデルや。
実践テスト:生物・非生物の識別
最初のテストでは、この画像をアップロードして、「非生物ではないものを何か見つけますか?」とモデルに尋ねた。ここで二重否定を使ってるんや。植物があるということを見つけ出してもらうのが狙いで、人間には明らかやけど、AIが見つけられるかが問題や。
結果を見ると、すぐに「画像には非生物ではないものが少なくとも一つあります。それはターンテーブルの上のガラス瓶の中の小さな植物です」と答えてきた。これは良いで。
なぜ植物が生きている有機体なのかという説明も本当に素晴らしい。説明の仕方が本当に良いことやと思うわ。
視覚的グラウンディングテスト:列の人数カウント
次に、モデルの視覚的グラウンディングを理解するために、写真をアップロードして「列に何人が待っていますか?」と尋ねた。これについては思考機能を有効にして、モデルがどうするかを見てみるわ。
見ての通り、バリスタがいる。モデルにはバリスタも列で待っているとは理解してほしくない。バリスタは列にいないし、バリスタ以外に1、2、3、4、5、6、7、8、9、10人の人間が列で待ってる。モデルが理解できるかどうかを見たいんや。
モデルが理解を始めているのが分かる。考えていて、9まで数えて、「あ、待って、もう一人いるかな、画像を確認してみよう」と言って、画像を確認し直してる。また数えて、10人目を確認しようとしてる。この時点まで、まだ9人しかいないと考えてるけど、10人目を見つけられなかった。
OCRテスト:表のマークダウン変換
次のタスクでは、画像をアップロードして、マークダウンに変換するよう依頼した。見ての通り、これは表で、金属があって、反応があって、電極電位もあって正負の値を持つ整数になってる。方程式もA+e-のようなものがすべて含まれてる。
マークダウンに変換して、マークダウンレンダラーを使って表示してみると、入力画像と全く同じようになってる。表のマークダウンへの変換は非常に綺麗にできてる。これは本当に重要な仕事で、多くのレガシーデータを扱う場合、多くのデータがPDFにある可能性があるから、これほど正確なOCRがあるのは非常にエキサイティングやで。
実用テスト:メニューカードの価格抽出
次にテストしたいのは、メニューカードをアップロードして、メニューカードのアンドラ料理の値段を調べることや。これはバンガロールの有名なレストランのメニューや。
アップロードすると、見ての通り、これは簡単な答えではない。メニュー項目を理解して、それぞれの価格を見る必要がある。
そして「提供されたNagaraja Andhra Styleのメニューに基づいて、アンドラ料理の価格は以下の通りです。食事とビリヤニの下にリストされているAndhra Bhojanamは255ルピーで、シェア不可とマークされています」と答えた。
期待していた通りの答えをくれた。テキストを理解し、それが何を意味するかを理解し、特定のテキストのそれぞれの価格も知ってるからや。
総括と感謝
もっとモデルをテストして、別の動画を作りたいけど、今のところこれは素晴らしいモデルや。chat.qwen.aiで使い始めてみてくれ。
改めて、Qwenチームにはモデルをオープンソース化し、詳細なベンチマークレポートをリリースし、オープンソースの旗手になってくれたことに大きな感謝を送りたい。
みんなQwenを愛してる。Qwenチーム、本当にありがとう。また別の動画で会おう。ハッピープロンプティング!


コメント