メタのムービージェン、ヒントンのノーベル賞受賞、NVIDIAの新オープンSOTAモデル、Flux1.1 Pro

AIに仕事を奪われたい
この記事は約12分で読めます。

6,829 文字

AI News: Meta Movie Gen, Hinton Wins Nobel Prize, NVIDIA's New Open SOTA Model, Flux1.1 Pro
Here's all the biggest AI News from the last few days!Try Vultr by visiting and use promo code "BERMAN300" for 0 off ...

おはようさんどす。今日は最初にめっちゃワクワクする話題からお伝えしますわ。ジェフリー・ヒントンはんがノーベル物理学賞を受賞されたんです。ジェフリー・ヒントンはんをご存知ない方もおられるかもしれませんが、人工知能の生みの親として広く知られてはる方どす。はっきり言うて、この人がおらんかったら、今日のAIは存在してへんかったかもしれません。
ちょっとヒントンはんのことについて読んでみましょか。1986年に、多層ニューラルネットワークを訓練するための誤差逆伝播アルゴリズムに関する、めっちゃ影響力のある論文を共著されたんです。確率的な再帰型ニューラルネットワークの一種であるボルツマンマシンを共同開発しはったんですわ。分散表現や時間遅延ニューラルネットワーク、専門家の混合といった技術も開発されました。
最近では2012年に、学生さんたちと一緒にAlexNetを作られたんです。これが画像認識の分野で革命を起こして、それまでのシステムをめっちゃ上回る性能を示したんですわ。2018年にはチューリング賞、2019年にはホンダ賞、2022年にはロイヤルメダルを受賞して、今回2024年にノーベル物理学賞を受賞されたわけどす。
でもね、ヒントンはんはAIについてめっちゃ心配もしてはるんです。2023年5月には、AIテクノロジーのリスクを懸念して、Googleを辞めはったんです。それ以来、AIの潜在的な危険性について声を上げて、説得力のある誤情報を生成する能力や軍事利用の可能性について警告されてます。
ノーベル賞の受賞の電話を受けたときの反応がおもろいんですわ。「カリフォルニアの安いモーテルにおるんやけど、ネットも電話も繋がりにくいわ。今日MRIの検査を受ける予定やったけど、キャンセルせなアカンなぁ」って言うてはったそうです。
ほんま、ジェフリー・ヒントンはん、おめでとうございます。AIの分野で絶対的な伝説の方どす。
次の話題は、メタが発表した驚くべきテキストから動画を作る製品についてどす。金曜日のライブストリームで紹介しましたけど、これがもうほんまにすごいんです。テキストから動画を作るだけやないんですわ。
ちょっと詳しく見ていきましょか。まず、MovieGen Videoというのがあって、これは300億パラメーターのTransformerモデルなんです。ここで注目してほしいのが2点あって、1つ目はメタとAIから出てきてるってことは、おそらくオープンソースになるやろうってことです。2つ目は300億パラメーターやから、一般のハードウェアでも動かせる可能性があるってことです。これがもうすごいんですわ。
それから、130億パラメーターのテキストから音声を作るモデルもあるんです。これがまたええ感じなんですわ。
面白いのは、動画をロードすると、その動画にぴったり合う音声エフェクトや音楽を付けてくれるんです。これがめっちゃ印象的どす。ちょっと例を見てみましょか。
[音楽] [拍手]
次に、精密な動画編集もできるんです。やりたい変更を説明するだけで、それを変えてくれるんです。それに、自分の写真を撮って、それを動画に入れたり、自分の姿をもとに動画を作ったりもできるんです。まぁ、これが悪用されへんわけがないですけどね。
テキストで動画を編集する例を見てみましょか。元の動画があって、「手に青いポンポンを追加して」って言うたら追加してくれる。「サボテンの砂漠に変えて」って言うたらそうしてくれる。「走る膨らませた恐竜に変えて」って言うてもそうしてくれるんです。
もう1つすごい例があるんです。元の動画があって、「ビクトリア朝時代のペンギンの格好をさせて」「ビーチパラソルを追加して」「絵のように見せて」って言うたら、全部やってくれるんです。これらがもうほんまにすごいんどす。これらの例へのリンクは、説明欄に載せときますわ。
そして、パーソナライズされた動画を作るには、自分の写真を撮って、プロンプトを入力するだけで、あなたを動画に挿入してくれるんです。これがめっちゃクールなんどす。
ほんで、これは実際には起こってへんことなんですけど、2Dの画像とプロンプトを入れるだけで、はい、動画ができるんです。ほんまにクールどす。まだ完全には公開されてへんみたいで、まだテスト中らしいです。SORAみたいに、結局手に入れられへんってことにならんといいんですけどね。でも、近いうちに手に入るんちゃうかなと思ってます。
テキストから動画の話といえば、もう1つあるんです。Halu HaloAI、発音がわからへんのですけど、HaloAIが画像から動画を作る機能をリリースしました。今すぐ使えるんです。ちょっと例を見てみましょか。
ところどころ間違いは見られますけど、全体的に一貫性とか物理法則とかはかなりええ感じに見えますわ。ほんで、プロンプトがめっちゃ長いんです。もう1つ例を見てみましょか。
これ、正直言うてピクサーの映画みたいどす。これは、近い将来、映画制作やテレビ番組制作、つまりエンターテイメント制作全般で何が可能になるかを示してますわ。ほんま、チェックしてみてください。Halu、Haloo、HalooAIかな。説明欄にリンク載せときますわ。
さて、この動画のスポンサーであるVultrについて少しお話しさせてください。Vultrは世界最大の独立系クラウドプロバイダーで、GPUワークロードを持ち込むと様々な恩恵を受けられるんです。最新のNVIDIA GPUが6大陸32箇所に展開されていて、業界をリードする価格対性能比と、真剣なアクセシビリティと信頼性を提供してくれます。
Vultrのグローバルで完全に組み立て可能なクラウドインフラは、アプリケーションをユーザーの近くに移動させ、ベンダーロックインから解放してくれます。自分のネットワークやデータベースソリューションを持ち込むことができるんです。単一のクラスターを超えてスケールアップする必要がある場合は、Vultrのkubernetesエンジンを使えば、デプロイメントを完全にコントロールできます。しかも、コントロールプレーンは100%無料どす。
他のプロバイダーでGPUを待つのに疲れたら、Vultrを使ってみてください。すぐにどんなスケールでもデプロイできますし、H100sやL4sなどが今すぐ利用可能です。カードの一部や、完全に専用のベアメタルシステムを使うこともできるので、ハードウェアとスループットを完全にコントロールできるんです。
高度な機械学習ワークロードに必要なアプリケーションのワンクリックインストールもあるので、何時間もかからず数分で準備ができるんです。Vultrの違いを体験してください。厳しい待ち時間や限られた場所に悩まされることはありません。今すぐ無料で試してみてください。get.vultr.com/bmanにアクセスして、チェックアウト時にコードBman300を使えば、最初の30日間で300ドルのクレジットが得られます。再度、この動画のスポンサーになってくれたVultrに感謝します。
次に、2つの新しい素晴らしいモデルがあります。まず1つ目は、NVIDIAのオープンソースモデルです。これはGPT-4に匹敵する可能性のあるオープンな巨大マルチモーダルモデルです。このモデルはNVMと呼ばれていて、実はまだテストしてないんです。テストしてほしいですか?教えてください。
NVM 1.0を紹介します。これは、ビジョン言語タスクで最先端の結果を達成するフロンティアクラスのマルチモーダル大規模言語モデルのファミリーです。例を見てみましょう。
まず、ジェンセンの写真があって、「この画像の人物は誰ですか?」って聞くと、「ジェンセン・ファン」って答えるんです。面白いのは、多くのモデルが識別タスクを拒否するんですけど、Pixolモデルはうまくやってくれたんです。でも、Llama 3.2はビル・ゲイツの写真の識別を拒否しました。でも、NVMは全然やってくれるんです。
ほんで、「このミームが面白い理由を説明して」って言うたら、ちゃんと説明してくれるんです。抽象的な内容や論文も理解できます。「画像の左、中央、右のオブジェクトの違いは何ですか?」って聞いたら、「異なる種類のチップス」って答えてくれます。さらに、手書きの疑似コードを基に実際のコードを書いてくれるんです。
このモデルは、OCR、推論、位置特定、常識、世界の知識、コーディング能力を共同で活用することで、さまざまなマルチモーダルタスクで多彩な能力を発揮します。これはオールインワンのモデルなんです。テストするのがめっちゃ楽しみどす。
コードも、重みも、論文も、ベンチマークも手に入るんです。NVIDIAはこのリリースでほんまにすごいことをやってくれました。NVIDIAに感謝です。これはほんまにすごいです。近々テストする予定どす。
次の話題は、Liquid AIの新しいモデルについてどす。Liquid AIについては以前から噂を聞いてたんですけど、MITのチームから出たものらしいです。これが本当に次世代のモデルだって言われてるんです。ちょっと見てみましょか。
このグラフィックを見ると、いろんなモデルがあって、LFM 1B(10億)、3B(30億)、40B(400億)のMixture of Expertsがあるんです。全てのモデルが、このベンチマークで他の全てのモデルを上回ってるんです。
これらはLiquid Foundational Models(液体基盤モデル)と呼ばれていて、一から作られた新世代の生成AIモデルどす。10億、30億、400億パラメーターのバージョンがあって、400億のやつはMixture of Expertsなんです。メモリフットプリントが小さくて、推論がより効率的なんです。
今日からLiquid Playground、Lambda、Perplexity Labs、Cerebrus Inferenceで試せます。10億パラメーターモデルを見ると、Llama 3.2を上回ってるんです。でも、コンテキストウィンドウは32kだけどすね。
30億パラメーターバージョンに移ると、同じサイズクラスの他のモデルをほぼ全て上回ってるのがわかります。400億になると、Mixel、Qwen2、Gemma2、Yi 1.5、Llama 3.1と比較してみましょう。このモデルの性能がめっちゃ良いのがわかりますわ。
でも、これらのモデルが本当に輝くのはメモリフットプリントなんです。このチャートの他のモデルと比べると、LFMsの推論メモリフットプリントがかなり低いのがわかります。
Transformerとは異なるアーキテクチャを使ってて、それが大きな違いなんです。詳細には深入りしませんけど、LFMsについて深掘りしてほしかったら教えてください。喜んでやりますわ。
次に、Flux 1.1がリリースされました。Fluxを覚えてはりますか?これは、以前Stability AIにいた人らが作った、完全オープンソースのテキストから画像生成モデルどす。めっちゃすごいテキストから画像生成モデルで、Grockでも使われてます。今回バージョン1.1が出たんです。
Flux 1.1は、前のバージョンのFlux 1.0より6倍速く生成できるようになった上に、画質やプロンプトへの忠実性、多様性も改善されてるんです。ここに、いろんなテキストから画像生成モデルのELOスコアがあるんですけど、Flux 1.1 Proがトップにおるんです。ほんで、Midjourney 6.1がここ、IDEOGRAM V2、IDEOGRAM V2 Turboがこのあたりどす。
ほんまに他のモデルをかなり上回ってるんです。コストと比較したELOスコアでも、まだええ成績を出してます。確かに一番高いELOスコアで、コストスペクトルの真ん中あたりどすね。
速度に関しても、めっちゃ速いんです。ここが本当に光ってるところどす。つまり、最高のELOスコアを持ちながら、最速の推論時間の1つを誇ってるわけどす。チェックしてみてください。どう思うか教えてくださいね。
次に、アップルがiOS 18.1、つまりApple Intelligenceの発売を今月後半、具体的には10月28日に予定してるって報告があるんです。昨日、開発者ベータリリースのアップデートを自分のiOSデバイスで受け取ったんですけど、Apple Intelligenceに期待してた機能は入ってなかったんどす。
Apple Intelligenceのすごい機能を紹介するCMを見たことあると思います。「The Last of Us」の女優さんが「この人誰?」って聞くと、Apple Intelligenceが彼女のメールやカレンダーを全部チェックして、その人の情報を取得するんです。めっちゃ印象的どす。
これを試すのがほんまに楽しみどす。ええモンやったらええなぁと思ってます。これが私の生活でAIに足りてない部分なんどす。個人的な生活、カレンダー、メール、ドライブなど、今のところAIにアクセスを許可してもええと思ってるものに基づいてタスクを実行できるAIが必要なんです。でも、今のところそれができてへんのです。
現在のベータ機能が使えへんってわけやないんですよ。実際、一番便利なのは通知のまとめ機能どす。私も皆さんと同じようにめっちゃ通知を受け取るんですけど、それぞれを表示する代わりに、全部まとめて2、3文でどんな通知があったかをまとめてくれるんです。これがほんまに便利で、よく使ってます。
文章作成ツールは使ってへんのですけど、新しいSiriのアニメーションは好きどす。Appleフォトの機能もちょっと試してみたんです。アルバムの説明をするだけで、その説明に合った写真を全部集めてアルバムを作ってくれるんです。基本的にプロンプトに基づいてやってくれるわけどす。
でも、本当に欲しいのは、メールやカレンダーなどへの深い統合どす。今月末にはそれが手に入るといいなぁと思ってます。
次に、金曜日に詳しく話したんですけど、簡単に触れときます。OpenAIがチャットGPTキャンバスをリリースしました。これはほんまに大きなアップグレードどす。機能的にはまだ基本的なものですけど、基本的にコーディングや文章作成タスクを別のウィンドウで、追加機能を使ってできるようになったんです。
ClaudeのArtifacts機能に似てるんですけど、もうちょっとシンプルどす。大規模言語モデルを使ってコーディングや文章作成をするための道具を人々に提供する、いい一歩やと思います。全てをプロンプトで指示せんでも、いろんなことができるようになるわけどす。
最後に、もう1週間ほど前のニュースになりますけど、OpenAIがビジネス史上最大の民間資金調達をしたんです。66億ドルの新規資金を調達して、ポストマネー評価額が1,570億ドルになりました。これは、彼らのミッションの進展を加速させるためどす。
この資金調達をめぐっては、すでにいろいろドラマがあったんです。サム・アルトマンはんが大金を手にするって噂があったんですけど、本人は全面否定しました。それに、投資家らにAnthropicみたいな他のAI企業には投資せんでって言うたって噂もあるんですけど、これも確認はとれてへんのです。
とにかく、めちゃくちゃな額のお金を調達したわけで、それが必要なんでしょうね。OpenAIとMicrosoftの関係が微妙になってきてるみたいどす。もしOpenAIが自社の製品をAGI(人工汎用知能)って呼び始めたら、Microsoftはもうアクセスできへんらしいんです。
Microsoftはすでに会社の49%くらい所有してるのに、数ヶ月前の公開報告書では、OpenAIを競合他社って宣言したんです。MicrosoftとOpenAIのこの微妙な関係について、考えることがいっぱいあるんどすわ。
それに、OpenAIが営利企業に移行しようとしてるみたいで、もうごちゃごちゃどす。とにかく、めちゃくちゃな額のお金を調達したわけどす。
それに、MicrosoftがOpenAIに十分なサーバーを提供できてへんって報告もあるんです。OpenAIがMicrosoftのリソースを全部食い尽くしてて、Microsoftが追いつけへんみたいなんです。
この話についてはもっと深掘りしていくつもりどすけど、今のところはこれくらいどす。この動画を楽しんでいただけたら、いいねとチャンネル登録をよろしくお願いします。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました