
2,800 文字

画期的なオープンソースAIの世界で、DeepSeekが1週間後に新しいマルチモーダルモデル「Janus Pro」をリリースしました。私が初めて目にするモデルで、画像を取り込んで質問に答えることができるだけでなく、画像生成も同じモデルでできます。しかも比較的小規模な70億パラメータのモデルなので、自分のコンピュータで簡単に実行できます。完全にオープンソースで、重みも完全に公開されています。なんと素晴らしい時代でしょう。
DeepSeekは、JanusモデルがStabilityのモデルやOpenAIのDallyの両方を上回るパフォーマンスを発揮すると主張しています。こちらをご覧ください。上部にJanus Proの平均パフォーマンスが表示され、パラメータ数は70億です。そして、SD3 medium、SDXL、EMU3-genと比較したグラフでは、紫の破線で示されているJanus Proが他のすべてを上回っています。実際に試してみましょう。
現在、GitHubで最もトレンドの高いリポジトリとなっている「Janus統合マルチモーダル理解・生成モデル」をご紹介します。その性能をテストしてお見せしますが、その前にGitHubのトップ5リポジトリすべてがDeepSeekのものであることに注目してください。DeepSeekは今、まさに快進撃を続けています。
最高速のパフォーマンスを得るため、今回はVultureにロードしています。Vultureは当チャンネルの長年のパートナーで、今回も動画でコラボレーションしています。
繰り返しになりますが、Janus Proは画像を取り込んで質問に答えることができ、さらに画像生成もできます。これまでにない機能です。AMD Instinct Mi 300Xで動作させており、その速さをご覧いただけます。動画の最後で、Vultureで300ドルの無料クレジットが得られるプロモーションコードをお伝えします。
シンプルなGradioインターフェースでロードしましたが、もちろんVultureではどんなインターフェースでも使用できます。ベアメタルGPUなので、好きなように使えます。どんなインターフェースでも載せられますし、APIエンドポイントも同様に簡単に利用できます。
まず、画像認識機能をお見せしましょう。このミームを説明させてみます。ウェブ検索機能は組み込んでいないモデルなので、理解できることを期待しています。もちろん追加することもできますが。このミームはDeepSeekがOpenAIを叩いているものです。
ロードして「このミームを説明して」とチャットで送信すると…はい、できました。「この画像は有名な漫画のシーンを使用したユーモラスなミームで、DeepSeekについてのメッセージを伝えています。興味深い検索エンジンですね。詳細な分析は以下の通りです。視覚的要素:パロディ。DeepSeekが目立つように表示され、OpenAIも見えます。意味:DeepSeekがOpenAIと積極的に相互作用または攻撃していることを示唆し、競争的または敵対的な関係を暗示しています。」かなり良い理解ですね。
次に、この処理手順書を読み取って、実行可能なコードに変換させてみましょう。基本的に、ランダムな数字を選び、私たちが推測し、その推測を読み取って正誤を判定し、再度行うという単純なものです。重要なのは、この図をコードに変換できるかということです。
「これをPythonコードに変換して」とチャットで送信すると…とても簡単にできました。コードをハイライトして…はい、ペーストしました。「1から10までの数字を当ててください」2「間違い、もう一度」4、6「違います」7「違います」10「正解です!」図からコードを再現することに成功しました。印象的ですね。
次はExcelのスクリーンショットをCSVに変換してもらいます。はい、CSVができました。見たところ完璧に正確です。しかも非常に速いです。小規模なモデルだからというだけでなく、VultureのAMDチップで実行しているからこそのパフォーマンスです。
もう一つミームの説明をさせてみましょう。このミームは、スタートアップでは多くの人々が溝で手を汚して働いているのに対し、大企業では1人が実際の作業をして他の全員が監督しているという内容です。理解できるでしょうか。
「これは革新と問題解決の文脈でスタートアップと大企業の役割を比較する視覚的な比喩です。左側は溝で協力して掘削や地面の検査をする人々のグループ。右側は同様の溝で作業する人々のグループですが、より形式的で構造化された設定に見えます。効率性と調整に重点が置かれ、より階層的な構造となっています。」そうですね、解釈を見てみましょう。「スタートアップはより機敏で革新的とされることが多く」はい、「リスクを取る」良いですね、「左の画像の協力的な実践的アプローチはスタートアップ文化を反映しています」良いです。「大企業はより多くのリソースと確立されたプロセスを持ち、複雑な問題をより体系的に取り組むことができます」いいえ、それは正しくありません。残念ながら良い答えではありませんでしたが、70億パラメータのモデルとしては全体的にかなり印象的です。
次に画像生成機能をお見せしましょう。これが本当にすごいんです。同じページで、モデルを再度ロードする必要も、別のモデルをロードする必要もありません。すべて同じです。単にプロンプトを書くだけです。
最初のプロンプト「ジャングルの中の宇宙飛行士、寒色のカラーパレット、控えめな色調、詳細な8K」…なかなか良いですね。驚くべきものとは言えませんが、ローカルで実行できるのは素晴らしいことです。もう一つ試してみましょう。「反射する表面の上の赤ワイングラス」…はい、なかなか良いですね。
全体として、このモデルはかなり優秀だと思います。小規模なモデルで非常に効率的かつ低コストで動作し、しかも完全に無料です。VultureでAMD Instinct Mi 300Xを使用して爆速で実行できます。また、DeepSeek-1を完全な非量子化でVultureにロードしたり、DeepSeek Coder、DeepSeek V3、または他のオープンソースモデルを好きなようにロードできることも覚えておいてください。
Vultureは私の素晴らしいパートナーなので、ぜひ利用することをお勧めします。getvultr.com/futureaiにアクセスし、プロモーションコード「Burman300」を使用すると、最初の30日間で300ドルの無料クレジットを受け取れます。
この動画が気に入ったら、いいねと登録をお願いします。次回の動画でお会いしましょう。


コメント