中国がオープンソースでGPT-4o Miniを上回る!

AGIに仕事を奪われたい
この記事は約8分で読めます。

4,655 文字

China beats GPT 4o Mini with Open Source!
At the end of January this year, we launched the Qwen2.5-VL series of models, which received widespread attention and po...

中国のモデルで今日私が非常に喜んでいるのは、コンピュータで実行できない700GBのDeepSeek V3.1モデルではありません。私が結構満足しているモデルはQwen 2.5 VL 32ビリオンパラメータモデルです。これは彼らのビジョン言語モデルですが、32ビリオンという新しいサイズをリリースしました。
私が非常に興奮している理由は2つあります。1つ目はApache 2.0ライセンスの下にあることです。これは寛容なライセンスであり、このモデルを使って何でもできるということです。2つ目は、例えば私の場合のように36GBのRAMを持つパワフルなマシンがあれば、20GBのファイルをローカルにダウンロードして、すぐにこのモデルを使い始めることができます。現時点では机を片付ける必要があるため、このモデルの使い方をお見せすることはできませんが、このモデルは完全に無料でオープンであり、素晴らしいパフォーマンスを発揮します。
このモデルは主に2つのことで優れた仕事をします。1つは以前のモデルより数学的推論が非常に優れていること、もう1つは画像理解と推論が向上していることで、彼らは「細粒度の画像理解と推論」と呼んでいます。
ベンチマークの点では、Qwen 2.5 Vシリーズのモデルは常に高いスコアを記録しています。以前のバージョンであるQwen 2 VL 72ビリオンパラメータモデルがあり、今回はQwen 2.5 VL 32ビリオンパラメータモデルがあります。すべてのベンチマークにおいて、このモデルは近いスペックを持つMistral(24ビリオンパラメータモデル)よりもはるかに良いスコアを獲得しています。Mistralモデルはこのモデルより8ビリオンパラメータ少ないですが、このモデルが明らかに優れたスコアを記録しています。
このモデルが実世界に影響を与える可能性のあるベンチマークがいくつかあります。1つは明らかにMath Vistaで、このモデルは数学理解に優れています。このモデルは74.7点を獲得し、Mistral 24ビリオンパラメータモデルの68.9点よりも優れています。実際、最新のGemma 3の27ビリオンパラメータモデルよりもはるかに優れています。
さらに、OpenAIの独自モデルであるGPT-4o(5月13日にリリースされた0513バージョン)と比較しても、クローズドソースモデルと比べて非常に優れています。これは大きな飛躍です。OlamaやLM Studioなどを使用してこのモデルの量子化バージョンを実行でき、そのモデルがGPT-4oとほぼ同等のパフォーマンスを発揮するという事実を想像してみてください。これはOpenAIがオープンモデルとして決してリリースしていないものであり、オープンソースが達成できることとしては大きな成果です。
このモデルはMBVP HumanLなど、マルチモダリティだけでなく純粋なテキスト機能に関する他のベンチマークでも優れています。純粋にテキスト機能だけ、例えばPythonコードを作成するためにこのモデルを使用した場合、このモデルはMBVPでコード84を獲得しており、これはGPT-4 Miniがスコアしたものとほぼ同等です。
また、最近誰もが注目しているGPQA(GPQAダイヤモンドデータセット)のみにこのモデルを使用した場合、このモデルはMistral 24ビリオンパラメータモデルと同等で、GPT-4 Miniよりも優れています。Human Eval、Math、MLU Proなど、すべてのベンチマークにわたって、このモデルは実際に優れたモデルであり、彼らが提供したデモユースケースからそれを確認できます。
1つは、このモデルが優れた画像理解を持っていることです。ユーザーとして、「この道路でトラックを運転しています。12時です。110km離れた場所に13時(1時)までに到着できますか?」というように質問できます。ビジョン言語モデルが必要な理由の1つは、純粋な光学式文字認識(OCR)だけではなく、これらのモデルの推論能力も使いたいからです。多くの人がビジョン言語モデルをOCRだけのためのものと混同しています。
例えばこの質問では、この画像を表示すると、3つの速度制限があります。今、特定の場所にこの1時間で到達できるかどうかを尋ねています。このモデルはこれらすべての分析を行い、最終的な答えとして「いいえ、到達できません」と、なぜ到達できないかの詳細を提供します。
数学的理解のためにこのモデルに尋ねる場合、このような画像をアップロードして、モデルに問題を解決するよう依頼でき、モデルは問題をうまく解決します。また実際、このモデルは中国語が非常に得意です(これは驚きではありません)。食べ物や数学の問題の画像をアップロードして、何かを返すように依頼すれば、中国語で返答してくれます。この場合、それはおそらくスープやその他のものが識別されたレシピでしょう。
ローカルに20GBファイルをダウンロードせずにモデルをすぐにテストできるHugging Faceデモを用意しました。これはHugging Face Spacesで、このモデルとチャットできます。まず非常にシンプルなアイテムから始めます。インターネットに行って、非常に人気のあるインド南部の食べ物「イドリ・サンバル」について尋ねます。イドリ・サンバルの画像を選びますが、イドリ、サンバル、ヴァダ、そして何らかのチャツネが入った画像を選びます。
これは理想的な画像で、イドリ、サンバル、チャツネなどがあります。まずこの画像を保存し、Qwenに戻ってこの画像をアップロードします。画像がアップロードされたら、「これを作るために使用されているアイテムをリストアップし、レシピを共有して、どれくらいの時間がかかるか教えてください」と尋ねます。
これを送信すると、まず画像に何があるかを識別する必要があります。これはイドリ(南インドの蒸した米ケーキ)でさまざまなチャツネと一緒に提供されていると言っています。イドリを識別し、チャツネを識別しましたが、サンバルを捉えなかったと思います。しかし、レシピを説明してくれており、チャツネの作り方を教えてくれています。
驚いたことに、サンバルを識別していないと思ったのですが、サンバルパウダー、ダル、マカニミックスなどサンバルを作るための材料を教えてくれており、これは非常に興味深いです。最終的に指示に従っています。彼らが言及した利点の1つは、応答が人間の好みにより合致していることです。良い応答をくれるということです。
また、私が尋ねた時間見積もりも答えてくれました。準備時間は1時間(浸漬と粉砕)、発酵に8〜10時間、調理時間は10〜12分とのことです。私なら15分と言いますが、これはインドからでも西洋からでもないこの特定のモデルにとってはかなり的確だと思います。
履歴をクリアして、典型的な質問である「何個あるか数える」をしてみましょう。この画像を撮り、もう一度保存し、戻ってアップロードして、「このバナナの葉の上にいくつのイドリがありますか」と尋ねます。
イドリの数を識別し、数えて戻ってくることを期待します。正確に4つのイドリを識別しました。この特定の画像でこの質問をした理由の1つは、白いチャツネ(この場合はココナッツチャツネ)をイドリと誤認識しないようにするためです。これは、このビジュアル言語モデルの進歩がどれほど良いかも示しています。
イドリは一列に並んでおり、チャツネを入れた2つの小さなボウルもあると言っています。ココナッツパウダーと言っていますが、理想的にはイドリと一緒に出されるココナッツチャツネです。これはイドリ・サンバルですが、ここでは非常に具体的でないことを許すことができます。
次に数学の問題を選んでみたいと思います。これらの方程式の1つを選び、この方程式を説明するよう依頼します。この方程式を解けるかどうかわかりませんが、とりあえず「この方程式を説明して、できれば解いてください」と尋ねてみます。
AIが私を完全なバカだと思わないように、それについて読んでみましょう。「数学者によると、これらは最も美しい方程式です」と書かれています。これはローナー微分方程式です。一部の方程式は非現実的で予期しない関係があるため美しいとされています。これは1923年にチャールズ・ローナーによって導入され、共形(角度を保存する)関数のファミリーの時間進化を記述しています。私は全く理解していません。
黒板の方程式は微分方程式ですが、私たちが参照している方程式を完全に理解しているようには思えません。解くべき解決策かどうかわかりません。ここで停止して、「この方程式には名前がありますか?誰かにちなんで命名された有名なものですか?」と尋ねてみましょう。
これを停止する必要があります。履歴をクリアします。停止していないので、このページを更新します。もう一度この画像をアップロードして、この質問をします。答えられるかどうかわかりませんが、試してみましょう。
これは確率微分方程式だと言っています。またしても方程式についての正しい情報を持っていないようです。これは理想的には改善すべき点です。
次に、彼らが例で示したのと全く同じことをして、私たちが与えたものを理解できるかどうか確認したいと思います。このチャートをアップロードして、「これから5つの有用な洞察を教えてください、また最後に3つのツイートを作成してください」と依頼します。
画像をアップロードすると、Qwen 2.5と32ビリオンが全体的にどのように性能を発揮し、Mistralが競争力のあるパフォーマンスを示し、特にDoc VQAという重要なベンチマークで優れていることがわかります。Doc VQAはドキュメントの理解、ドキュメントスキャンなどにとって非常に重要なベンチマークです。
ツイートはAIモデルを比較したもので、5つの洞察を提供してくれました。Doc VQAは最も難しいベンチマークで、すべてのモデルが最高スコアを達成し、Qwen V 72ビリオンは96.5点をスコアしました。
全体的に、このモデルはビジョン言語モデルから自然に期待されることをかなり良くこなしています。私は1つの言語でのみテストしましたが、複数の言語でテストすると非常に楽しいでしょう。
今のところ、これはオープンソース愛好家で十分な計算能力があるなら祝うべき優れたモデルです。600GBのDeepSeek V3.1よりもこのモデルをもっと称賛すべきだと思います。DeepSeek V3.1のビデオを作成する予定ですが、今のところモデルについての完全な詳細がリリースされるのを待っています。
今のところ、Qwen チーム(アリババから)のQwen 2.5 VL 32ビリオンパラメータモデルです。Apache 2.0ライセンスでリリースしてくれたことに感謝します。Hugging Faceから直接モデルをダウンロードできます。彼らはまた、量子化フォーマットのAWQもリリースし、Appleユーザーの場合はMLXフォーマットもすでにあります。これらのモデルについてどう思うか教えてください。また別の動画でお会いしましょう。ハッピープロンプティング!

コメント

タイトルとURLをコピーしました