動画の編集、3D動画作成、GPTを超えるAI、手術用AI、GIS用AIなど最新のAI技術

AIに仕事を奪われたい
この記事は約12分で読めます。

6,893 文字

AI edits anything in videos, makes 3D videos, new AI beats GPT, AI for surgery, AI for GIS
INSANE AI news: AutoVFX, DimensionX, Google's Gemini 1114, Qwen 2.5, Nvidia's Add-it, Earth Copilot & more! #ainews #ai ...

AIは眠ることがなく、今週もまた驚くべき進展がありました。プロンプトだけで動画にエフェクトを追加できるオープンソースAIが登場し、画像を一貫性のある3D動画に変換できる技術も現れました。人間の医師と同等のスキルで手術を行えるAIロボット、タップしたビートを本格的なドラムビートに変換するAI、そしてClaude 3.5 SonetやGPT-4を含むトップモデルを凌駕する小規模なオープンソースモデルなど、多くの進展がありました。
まず最初に紹介するのは、イリノイ大学が開発した「Auto VFX」という驚くべきオープンソースAIです。これはプロンプトだけで動画を編集し、視覚効果やオブジェクトを既存の動画に追加することができます。例えば「炎の付いたバスケットボールを花瓶に向かって投げ、衝突して花瓶を割る」というプロンプトを与えると、入力された動画から、そのような効果が加えられた動画が生成されます。
他の例として「花瓶を液体に溶かす」というプロンプトを与えると、花瓶が溶けていく映像が生成されます。「花瓶を割る」というプロンプトでは花瓶が割れる映像が、「テーブルの上に5つのバスケットボールを落とす」というプロンプトでは、まさに5つのボールが落ちてくる映像が生成されます。
キャラクターを追加することも可能で、「テーブルの上にアニメーションのピカチュウを挿入する」というプロンプトで、ピカチュウが追加された映像が生成されます。さらに、既存のオブジェクトの構成や見た目を変更することもできます。「花瓶を鏡のようにする」というプロンプトでは、花瓶が鏡面効果を持つように変化します。
「花瓶を1.5倍大きくしてテーブルの上に落とす」というプロンプトでは、まさにその通りの効果が得られます。「ビンテージスーツケースを生成してテーブルの上に置く」というプロンプトでも、忠実に要求が実現されます。
「床の上を動き回るアニメーションのドラゴンを挿入する」というプロンプトでは、ドラゴンが床の上を歩き回る映像が生成されます。ドラゴンの動きは完全に正確とは言えませんが、これは始まりに過ぎません。このようなツールは、映画やアニメーション、ビデオゲームの制作において画期的な変化をもたらす可能性があります。
「床の中央にキャンプファイアを設置する」というプロンプトでは、その通りの映像が生成されます。「床に4つの樽を落とす。1つは鏡のような、1つは布のテクスチャ、1つは舗装のような見た目で、1つは変更なし」という複雑なプロンプトでも、美しく処理され、それぞれ異なる質感を持つ4つの樽が生成されます。
運転映像のような動きの多い映像でも機能します。「前方に物理演算を伴うベンツGを2D回転でランダムに配置し、フェラーリを前進させる」というプロプトでは、フェラーリがベンツGに衝突する映像が生成されます。「ベンツSを私たちに向かって走らせる」というプロンプトでも、要求通りの映像が生成されます。
「炎の付いたベンツGを車両の10m前方、3m上から落とす」というプロンプトでは、まさにその通りの映像が生成されます。「彫刻を壊す」というプロンプトでも、その効果が実現されます。
同様の機能を持つ既存のツールも存在しますが、Auto VFXははるかに優れています。Auto VFXと他の3つの既存手法を比較すると、「花瓶を鏡のようにする」というプロンプトでは、Auto VFXだけが正しく処理できています。「悟空のフィギュアを地面に置いて炎を付ける」というプロンプトでも、Auto VFXだけが実際に悟空を地面に配置して炎を付けることができます。
先ほど見た「テーブルの上にアニメーションのピカチュウを挿入する」という例でも、Auto VFXだけが正しく処理できています。以前の動画で紹介した独自モデルのPika 1.5とも比較しています。Pikaには「Pika Effects」という機能があり、オブジェクトを溶かしたり崩したりするような定義済みの視覚効果を動画に追加できますが、クローズドソースのPika 1.5と比較しても、Auto VFXの方がこれらの効果をより優れた形で処理できています。
仕組みを簡単に説明すると、このフレームワークは3つの段階で構成されています。最初の「シーンモデリング」段階では、入力された動画を解析して3Dシーンとその中のオブジェクトを理解します。次の段階では、ユーザーのプロンプト(例:「炎の付いたバスケットボールを花瓶に向かって投げる」)を受け取り、プロンプトに基づいて必要な編集タスクを指定するプログラムを生成します。
最後の段階では、VFXモジュールと呼ばれるデータベースから関連する編集タスクを取得します。これは、オブジェクトのアニメーションや視覚効果の生成など、動画を操作するための定義済み関数のコレクションです。
素晴らしいことに、彼らはすでにコードの一部をGitHubで公開しています。単一のRTX 4090で動作するとのことで、将来的には量子化されたバージョンも登場するでしょう。現在、このツールを実行するにはコードを直接扱う必要がありますが、将来的にはより直感的に使用できるgradioユーザーインターフェースがリリースされる予定です。
次に紹介するのは、さらに印象的な無料のオープンソースツール「Dimension X」です。これは単一の画像から3Dおよび4Dシーンを作成することができます。例えば、少女の画像を入力すると、その1枚の画像から3Dシーンを作成し、カメラの動きをコントロールしてズームインやズームアウト、回転、パン、チルトなどができます。
ロボットアームの例では、1枚の写真からズームインや横への回転も可能な3Dシーンを作成し、高い精度と一貫性を持って全体を推測することができます。家の例でも同様で、AIは家の裏側がどのように見えるかを推測する必要がありますが、これらの空白を非常にうまく埋めることができます。
カップの例でも、シーンを回転させた際にカップの後ろがどうなっているかというデータはAIにはありませんが、非常に自然に空白を埋めることができます。これは現在、このような処理が可能なツールの中で最も優れたものです。他の例では、水面に映る空の反射が非常にリアルで、すべてが一貫性を保っています。これをたった1枚の写真から実現しているのは本当に印象的です。
ゴールデンレトリバーの肖像画の例でも、異なるカメラの動きを指定できます。これは非常に難しい生成タスクで、AIは多くの推測を行う必要がありますが、それでもうまく処理できています。
1枚の画像から360度の軌道ビューを生成する例も示されています。これは非常に難しいタスクです。例えばクジラの画像では、クジラの背面がどのように見えるかは1枚の画像からは分かりません。AIは多くの推測を行う必要があり、クジラが反対側に回転すると目立つ欠陥も見られますが、これは非常に難しいタスクであることを考慮する必要があります。
アニメーションの風景シーンの360度撮影の例もあります。また、動画を入力として複数の視点を生成することもできます。元の動画が左側にあり、このツールを使用して異なる角度から見た動画を生成できます。これはテレビ番組や映画、YouTubeの動画制作に非常に有用です。複数のカメラを購入してセットアップする必要がなく、1つの動画を撮影してこのAIに入力するだけで複数の視点を生成できます。
彼らはすでにコードの一部をGitHubで公開しています。現在は「orbit left」と「orbit up」の一部のカメラアクションのみがリリースされていますが、将来的に残りのチェックポイントもリリースされる予定です。また、直感的なgradioインターフェースを備えたHugging Faceスペースでテストすることもできます。
次に紹介するのは非常に面白いツール「TRIA」(The Rhythm in Anything)です。これは2つのオーディオ例を使用します。例えば、1つ目は複製したいドラムサウンド、2つ目はビートです。ビートボックスやテーブルをたたいて作ったビートに、ドラムサンプルをマッピングすることができます。
[スポンサーセクションは省略]
別の例では、ドラムサウンドとユーザーのビートから最終的な結果が生成されます。ユーザーが多数のオーディオエフェクトをブレンドする、より創造的な例もあります。これは音楽制作に非常に有用なツールと言えます。
現時点ではコードはリリースされていませんが、論文では簡単なgradioインターフェースを開発したと言及されています。これはAdobeから発表されたものなので、オープンソース化されるか、非常に高額なサブスクリプションになるかは不明です。オープンソース化されることを期待していますが、リリースされた際には必ずお知らせし、可能であればチュートリアル動画も作成する予定です。
次にNVIDIAが画期的な画像編集ツール「Add-IT」をリリースしました。これはプロンプトだけで任意の画像を編集できるツールです。以前の動画で紹介したOmniGenやAceと同様の機能を持っています。
例えば、壁にNVIDIAのロゴを追加したり、テニスプレーヤーにヘッドバンドを追加したりできます。羊にブーツを履かせたり、テーブルの横に男性を座らせたりすることも可能です。
複数のステップで編集することもできます。例えば、部屋にソファを追加し、次にそのソファの上に犬を寝かせ、最後に「DO IT」と書かれた猫の絵を追加することができます。スマートフォンに地図を表示させたり、椅子にウサギを座らせたりすることも可能です。
コンテキストも非常によく理解しており、「真ん中の犬に帽子を被せる」というプロンプトでは、中央の犬だけに帽子が追加されます。「バスケットに花束を入れる」というプロンプトでも、適切な結果が得られます。
現在の他の手法と比較すると、NVIDIAのAdd-ITの方が優れた結果を示しています。入力画像が左の列にあり、次の列がNVIDIAのAdd-ITの出力、残りの列が他の手法の結果です。興味深いことに、OmniGenとの比較が含まれていません。OmniGenは非常に優れており、意図的に除外された可能性があります。
「赤毛の鳥の後ろにコヨーテを配置」というプロンプトでは、NVIDIAのAdd-ITだけが実際に鳥の後ろにコヨーテを追加できています。「皿の左側にフォーク」というプロンプトでも、NVIDIAのツールだけが適切なフォークを追加できています。「自転車の前にバスケット」というプロンプトでも同様です。
「子供の手におもちゃのトラック」というプロンプトでは、他の手法では子供の見た目が完全に変わってしまったり、トラックが追加されないのに対し、NVIDIAのツールは適切にトラックを追加できています。「男性が買い物袋を持っている」というプロンプトでも、NVIDIAのツールだけが他の要素を保ちながら買い物袋を追加できています。
「サンプルの横のカウンターに顕微鏡」というプロンプトでも、NVIDIAのツールだけが他の要素との一貫性を保ちながら顕微鏡を追加できています。GitHubリポジトリも作成されており、近日中にコードをリリースする予定とのことです。
他のニュースとして、Googleが新しいAIモデル「Gemini Experimental 1114」をリリースしました。これは現在、Google AI Studioのモデルドロップダウンで選択可能です。このモデルは非常に優れており、LMScy(AI言語モデル評価)のリーダーボードでは、ユーザーによるブラインドテストの結果、現在1位にランクされています。これはGPT-4や01 Preview、01 Mini、さらには最新のClaude 3.5 Sonetも上回る結果です。Google AI Studioで無料で試すことができます。
また、アリババが新しいオープンソースのコーダーモデルファミリー「Qwen 2.5 Coder」をリリースしました。これは大きな進展です。フラッグシップモデルの「Qwen 2.5 Coder 32B Instruct」は、わずか32ビリオンパラメータという小規模なモデルで、一般的なGPUで実行可能です。驚くべきことに、このモデルはGPT-4やClaude 3.5 Sonetを含む最高峰の独自モデルを凌駕しています。
Qwen 2.5 Coderはコーディング専用のLLMで、Human Evalを含むほとんどのベンチマークで、最高峰の独自モデルを上回っています。GPT-4が約1.76兆パラメータであることを考えると、Qwen(32ビリオンパラメータ)は55倍も小規模ですが、これらの大規模モデルを上回れるという事実は非常に印象的です。
Qwen 2.5 Coderファミリーには、0.5ビリオン、1.5ビリオン、3.7ビリオン、14ビリオン、そして32ビリオンパラメータなど、様々なサイズのモデルが含まれています。特に小規模なモデルは、中程度のGPUを搭載したタブレットやラップトップでも簡単に実行できます。40以上のプログラミング言語をサポートし、特にコードエラーの特定と修正に優れているとされています。
これらのモデルは完全にオープンソース化され、Hugging Faceで試すことができます。また、「Qwen 2.5 Coder Artifacts」という興味深いHugging Faceスペースもリリースされており、プロンプトで作成したいアプリを指定すると、コードを出力するだけでなく、右側のウィンドウに最終結果もリアルタイムで表示され、編集も可能です。
例えば、「単一のHTMLファイルでクリックイベントを捕捉し、クリック位置にランダムな数の絵文字を配置し、各絵文字に重力と衝突効果を追加する」というプロンプトを試してみましょう。コードが生成されると、ページ上でクリックするたびに絵文字が表示され、重力と衝突効果で動き回ります。これは非常に印象的です。
次に、NASAとMicrosoftが「Earth Co-pilot」という非常に有用なツールを共同開発しました。これはGoogle Earthのような地理空間情報を、手動で探す代わりにプロンプトで質問すると回答を提供してくれるツールです。特定の地域の人口密度や大気質、農業地域の作物の健康状態などを質問できます。このツールは地理空間研究に非常に有用です。
現在のところ、NASA Earth Co-pilotはNASAの科学者や研究者のみが利用可能ですが、将来的に一般公開される可能性もあります。また、他の競合他社が同様のオープンソースプロジェクトを構築することも考えられます。これは基本的にAIを地理空間データの理解と出力のために訓練することです。従来の地理空間研究では、複数のデータソースから多くのレイヤーを見つけ出し、それらを組み合わせて複雑な計算を行う必要がありましたが、このツールではAIにプロンプトを与えるだけで、データの収集、計算、マッピングを行ってくれます。
最後に、ジョンズホプキンス大学の研究者たちが、手術用AIロボットに多数の手術手順の動画を見せ、模倣学習を使用して手術手順を学習させることに成功しました。例えば、針の使用や組織の持ち上げ、縫合などを学習し、人間の医師と同等のスキルでこれらを実行できるようになりました。
驚くべきことに、このモデルで訓練されたロボットは、人間の医師と同じレベルで手術手順を実行できました。これは医療と手術の革命的な進歩となる可能性があります。このモデルを使用すれば、どのような種類の手術手順でもロボットに迅速に訓練できるとされています。現在、研究チームは小さな手術タスクだけでなく、完全な手術を実行できるようロボットの訓練を行っています。
将来的には、人間の医師の代わりにロボットアームのチームが手術全体を実行し、人間の医師よりも高い精度と成功率を達成する可能性があります。
以上が今週のAIにおける主なハイライトです。これらについてどう思われますか?どのニュースが最も印象的でしたか?いつも通り、私は最新のAIニュースやツールを注意深く見守り、皆さんと共有していきます。
この動画を楽しんでいただけたなら、いいね、シェア、購読をお願いします。毎週AIの世界では多くのことが起きており、YouTubeチャンネルですべてをカバーすることは不可能です。AIの最新情報を常に把握するには、私の無料週刊ニュースレターの購読をお勧めします。リンクは説明欄にあります。
ご視聴ありがとうございました。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました