Deepseek R2と Wan 2.1 | オープンソースがすべてを破壊する

AGIに仕事を奪われたい
この記事は約8分で読めます。

4,297 文字

Deepseek R2 and Wan 2.1 | Open Source DESTROYS *everyone*
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

ここ数日でかなり大きなAIニュースがありました。まず一つ目は、これからお話しする非常に興味深いAIビデオモデルです。これは見る価値があります。二つ目は、Deepseekが極めて人気があり、非常に優れたR1モデルの次世代バージョンであるR2モデルをリリースすることです。当初は5月にリリースする予定でしたが、現在できるだけ早くリリースしようと急いでいます。
まずはAIビデオモデルから始めましょう。アリババがWan 2.1をローンチしました。これは彼らの最新のAI駆動ビデオモデルのスイートで、学術および商業利用のためにオープンソースとして公開されています。現在Hugging Faceでホスティングされているので、ダウンロードしてローカルのコンピューターで実行できます。テキスト→ビデオと画像→ビデオの両方の機能があります。
特に興味深いのは彼らの最小モデルであるt2v D 1.3bで、これは8.19ギガのVRAMしか必要としない消費者向けGPUで実行できます。つまり、コンピューターに搭載されたNVIDIA 4090のようなものがあれば、例えば480pの5秒のクリップを4分弱で作成できるのです。まだ驚異的な速さではありませんが、このようなものをオープンソースでコンピューター上で生成し、その出力を商業目的やアートなど好きな用途に使えるようになる段階に近づいています。将来的には、ビデオから音声生成やAI駆動のビデオ編集なども可能になるでしょう。
これらのビデオについてはすぐに詳しく見ていきますが、まずはDeepseekのニュースを片付けましょう。Deepseekはもちろん、オープンソースの非常に優れた推論モデルです。推論モデルと非推論モデル、そして様々な理由で非常に興味深いR10モデルもあります。これらが数ヶ月前に最初にリリースされたとき、世界の株式市場がほぼ崩壊しかけました。多くの人がNVIDIAが危機に瀕しているのではないかと疑問に思っていました。
ロイターによると(おそらく内部情報筋からのリークだと思いますが)、Deepseekは当初5月初めにR2をリリースする予定でしたが、現在できるだけ早くリリースしたいと考えています。このモデルはより優れたコーディングを生成し、英語以外の言語でも推論することができるようになります。もちろんR1はより低性能なGPUチップで構築されましたが、それでも西側のはるかに多額の費用と訓練コンピューティングで構築された対応製品と競争力を持っています。
このチャンネルで話したように、これらのモデルを訓練するコストは、モデルを生産するためのコストだけです。その段階に至るまでには他にも多くのコストがかかっています。そのため、どんな企業でもゼロからそのコストでそのようなモデルを立ち上げられるわけではありません。しかし、これは様々なコンピューティングインフラストラクチャやデータセンターなどに莫大な資金を費やしているアメリカ企業に対する警告のようなものでした。
年間約5億ドルの収益を上げているインドのテック企業ZenarのCEOは、Deepseek R2モデルの発表はAI史上の重要な瞬間になる可能性があると述べています。それは部分的に、オープンソースのコスト効率の良いAIモデルを作成するDeepseekの成功が、世界中の企業に自社の取り組みを加速させる可能性があり、業界における少数の支配的プレーヤーの独占状態を打破することになるためです。
これはまさに、フロンティアモデルを生産している巨額の資本支出を持つ多くの大手アメリカ企業に対して、徹底的な攻撃を仕掛けるようなものです。より小さな企業が少ないリソースで、ほぼ同等の(完全に同等ではないにしても非常に近い)競争力のあるものを投入できたらどうなるでしょうか。しかも、コストはほんの一部で、オープンソースで利用できるため、知識を抽出したり、独自のバージョンを作成して独自のユースケースに役立てることもできます。
オープンソースのもう一つの大きな違いは、ダウンロードして無限にコピーできることです。一方、多くの独占的なモデルでは、常にOpenAIのサーバーなど、どこかに接続していなければなりません。オープンソースモデルの場合、特に小さなサイズに量子化できれば、コンピューター上に配置し、世界中どこでも制限なく使用できます。
つまり、これは非常に破壊的なものです。フロンティアモデルの90%の機能を持つオープンソースモデルがあれば、それは極めて破壊的です。もちろん米国は、これらの中国のAIモデルが世界中、そして米国に広がる潜在的な危険性について話し合ってきました。米国の一部の上院議員は、Deepseekをダウンロードする人に最大20年の禁固刑を提案しています。
これはDeepseekだけでなく、基本的には中国から出ている多くのプロジェクトで、中国共産党とつながりがあり、中国共産党の「社会軍事装置」の一部となる可能性のあるものです。
この企業の創業者について素晴らしい背景情報があるので、ロイターの記事へのリンクを下に貼っておきます。また、彼らがすべてのチップをどこから入手しているのか、それらは違法チップなのか、米国が中国に課した輸出規制に違反するものがあるのかという継続的な議論があります。
Scale AIのCEOアレクサンダー・ワンは、輸出法の下で許可されているよりもはるかに多くのチップをDeepseekが持っていると主張しました。私の理解では、彼がどこから聞いたかという点で、一種の「伝言ゲーム」の誤解があったようです。要点としては、彼らは多くのチップを持っており、中国でこのようなクラスターにアクセスできる数少ない企業の一つですが、それでも米国の競合他社と比較するとはるかに少ないのです。そのため、効率性と全体的なアプローチについて新しい技術を発明する必要がありました。それは非常に効果的だったようです。
強力なアイデアの一部は米国の競合他社や西側企業の研究から来ていますが、同時に彼らも多くの方法で貢献し、革新を起こしています。米国企業もまた間違いなくそれらを活用し始めるでしょう。
中国政府がこの企業を支持していることが伺えます。創業者は中国の高官と会談しており、この企業は中国が米国を革新で上回り、AI開発でリードを取る可能性があることを示すものと見られています。同社はまた社内でのチップ開発も模索しており、おそらく採用しようとしている半導体設計の才能はそれに向けられるでしょう。
このチャンネルで取り上げた彼らの論文では、OpenAIに対していくつかの皮肉を込めているようです。「これこそがオープンAIであるべきもの」というような言葉遊びがあります。もちろんOpenAIとは間にスペースがあるので、実際に会社名を言っているわけではありませんが、OpenAIという名前の会社はオープンではなく、この中国企業Deepseekはすべてをオープンソース化していることを指摘しようとしているようです。
また、彼らは利益率が545%であるという投稿もしています。OpenAIで働くAdam GPTは、これはTwitter上での誤解だと投稿しました。利益率は84%だそうです。要点としては、545%の利益率は紙の上では印象的に聞こえますが、それは理想化された完全に構築されたシナリオに基づいており、低価格帯、無料サービス、割引などを考慮すると、利益率は84%程度になるということです。
しかし、その数字が何であれ、Deepseekと同様のOpenAIバージョンのモデルの間には価格設定に大きな違いがあるため、依然として驚異的です。価格設定と利益率、すべてが信じられるなら、これはオープンソースにとって信じられないほど素晴らしいことです。誰もが予想よりもはるかに早く、安価で測定可能なインテリジェンスにアクセスできるようになります。
Deepseekの創業者が言うように、「資金は決して問題ではなく、高性能チップに対する禁輸が問題だ」のです。もちろんDeepseekは信じられないほど人気があります。Deepseekアプリはわずか7日間で1億ユーザーに達しました。これはChatGPTやTikTokと比較してどうかということですが、もちろん中国には大きな人口がいるのでそれが影響しています。しかし、このものの世界規模は、見方によっては印象的あるいは懸念すべきものです。
中国からのその他の大きなニュースの中には、彼らの新しいオープンソース(これもまたオープンソースです)、アリババのAIビデオ生成ツールがあります。背景を通過する列車に注目してください。信じられないほど素晴らしいです。ここにフェレット(間違っていたら訂正してください)がいて、準備してください、世紀の対戦、二匹の猫がアリーナで戦っています。
キリンがどのように地面から物を拾うことができるか疑問に思ったことがあるなら、ここに例があります。彼らは木の枝からぶら下がって下に手を伸ばすのです。素晴らしい。これは私が一度見た夢です。とても現実的で非常に良く見えると言わざるを得ません。カラスあるいはワタリガラスのクローズアップショット、これが実在する鳥に対応するものかどうかはわかりませんが、クローズアップで見るとかなりクールです。水中で目の色が変わるクローズアップショット、アクションシーケンス。
ここにはBMX自転車のトリックを学ぶスタントタイガーがいます。素晴らしい。所々にグリッチがありますが、全体的には非常に良いです。ここには水から現れる女性、犬の棚、見事なロビン・フッド(と思われます)、液体の動きがあります。
そしてこれらは画像→ビデオの例です。静止画から始めて、それがビデオに変わります。かなり良いですね。これはその機能の非常に印象的なデモンストレーションで、車などすべてを正確に表現しています。これは画像→ビデオで作られたもので、これはKabuki AIだと思います。そのXプロフィールへのリンクを下に貼っておきますが、これは本当に素晴らしく見えます。高品質のアニメ、素晴らしい動き、素晴らしいアニメーションです。
明らかに、ここでは多くのポストプロダクション、編集、いろいろなものを組み合わせているでしょう。おそらく人間の知性がかなり追加されていますが、それでもこれは信じられないほど素晴らしく見えます。
ここまで見てくれてありがとうございます。

コメント

タイトルとURLをコピーしました