Metaが発表したSAM 3は、動画内の任意の物体をテキストプロンプトやクリック操作だけで自動的にセグメント化できる革新的なオープンソースモデルである。従来は数十人規模のチームが手作業で行っていたロトスコーピング作業を数秒で完了させることが可能となった。犬、自転車、バイク、タクシー、ナンバープレートなど、動画内の特定の物体を正確に識別し、フレームごとに追跡する機能を持つ。完全無料で利用でき、ローカル環境での実行も可能なこのツールは、動画編集者、アニメーター、ゲーム開発者、セキュリティシステム、さらにはロボット工学など幅広い分野での活用が期待される。Metaが提供する専用プレイグラウンドでは、動画のアップロードから物体検出、エフェクト適用までを直感的に操作でき、ナンバープレートのぼかし処理などの実用的なテンプレートも用意されている。

MetaのSAM 3が革命的なセグメンテーション技術を実現
Metaが発表したSAM 3、つまりセグメント・エニシング・モデルは、シンプルなテキストプロンプトを使って動画内の任意の物体を簡単にセグメント化できるツールです。少し背景を説明させてください。ロトスコーピングというものがあります。これは非常に手作業の多いプロセスで、数十人のチームが動画内のさまざまな要素を手動でセグメント化する必要があります。
そして今、SAM 3を使えば、これがわずか数秒で完了します。私はこの動画でMetaとパートナーシップを組んで、かなり驚くべきことができるこの素晴らしいオープンソース、オープンウェイトモデルについてお伝えします。では、これを見てください。動画からセグメント化したいものを入力するだけで、あとは自動的に処理してくれます。
見てください。ここでは「犬」と入力すると、すべての犬がハイライトされます。そしてこれは単なる画像ではありません。実際には完全な動画であり、フレームごとにハイライトすべきものを判断しています。こちらは動物です。こちらは特にシマウマです。動画内の任意の物体を単純にクリックすることもできます。プロンプトで説明する必要はありません。
物体をクリックするだけです。すると何をクリックしたかを認識し、動画全体を通してそれを追跡します。見てください。こちらはスケートボーダーです。こちらはスケートボードです。こちらは浮遊するランタンや鳥です。完了です。交通量の多い道路の車です。ご覧の通り、バイクは一切ハイライトされていません。そして先ほども言いましたが、最も素晴らしいのは、完全にオープンソースで、Metaによる完全にオープンウェイトだということです。これをダウンロードできます。
自分のコンピューターで実行できます。彼らのプレイグラウンドで実行することもできます。無料です。使いやすいです。ぜひ試してみてください。リンクは下に貼っておきます。いくつかデモをお見せしましょう。では、この夜のシーンを見てください。たくさんの交通量、たくさんの歩行者や走っている人、バイク、車、そして自転車が1台あります。
1台の自転車がそこにあります。そして見つけにくいです。つまり、私が見つけられた唯一の理由は、男性のシルエットが見えて、自転車に乗っているように見えるからです。では、プレイグラウンドに移動します。「自転車」と入力して、動画全体を検索します。
これは10秒間の動画で、その自転車を見つけました。そして実際に動画の途中でフレームに入ってくる他の自転車も見つけました。そして左側に表示されているように、さまざまな物体のリストが実際に得られ、物体を追加したり削除したりでき、突然2D動画から要素を抽出できるようになります。
自転車とバイクの識別精度をテスト
では、自転車とバイクの違いを識別できるか見てみましょう。見てください。物体を変更をクリックします。「バイク」と入力します。このフレームだけをプレビューします。そこで1台のバイクを見つけました。そして動画全体を見ると、そこにあるバイクがハイライトされているのがわかります。
そして繰り返しになりますが、すべての物体が左側にリストアップされています。こちらは別の例です。古い動画で、すべてのタクシーを見つけたいとします。単に「タクシー」と入力すると、すべての物体を見つけて個別にセグメント化し、左側に各物体の小さな画像が再び表示されます。
各物体にラベルがあり、各物体に色があります。不要なものは削除でき、これらの動画を深く分析するのが非常に簡単になります。そしてSAM 3は単に物体をハイライトするだけの単純なモデルではありません。実際に動画の中身を理解しているのです。これは本当に印象的です。
この例では、バニラと他のフレーバーの違いを認識します。ここで「バニラアイスクリーム」と入力します。すると、バニラに非常に近いと思われるこれら3つがハイライトされ、こちらは明らかにバニラではないストロベリーです。では、プレイグラウンドをご案内しましょう。
SAM 3プレイグラウンドの使い方
これはMetaが提供する完全無料でホストされたバージョンで、動画をアップロードして遊んで、何が自分に合うか、いつSAM 3を実際の制作で使いたいかを把握できます。そして実際の制作でSAM 3を使いたいときは、モデルをダウンロードして自分で実行し、制作に組み込むことができます。アップロードしたい動画を選択します。
下にあるサンプル動画を試すこともできます。自分の動画をアップロードしたくない場合は、それらをクリックしてください。動画の準備に1分ほどかかります。すぐに左側に移動して、動画内でハイライトしたい物体を説明します。ここでは「人」と入力すると、明らかにすべての人がハイライトされます。
次に「動画全体を検索」をクリックします。プレビューフレームが表示され、文字通りフレームごとに進んで、動画全体を通してこれらのさまざまな物体をハイライトする方法を判断します。次に、すべての物体が左側に表示されます。クリックして説明することで物体を追加できます。
エフェクトを追加できます。エフェクトを追加し続けましょう。エフェクトを追加して、輪郭線を選択します。彼らが用意しているこれらのクールなエフェクトをいくつか試すことができ、このように動画全体に追加されます。そしてもちろん、共有ボタンをクリックしてダウンロードできます。ダウンロードに加えて、この画面から直接共有することもできます。
リンクをコピーして、右側で共有設定を行います。友達と共有したり、先ほど述べたようにダウンロードしたりできます。では、テンプレートについてお話ししましょう。そしてSAM 3が特に動画編集者、アニメーター、ビデオゲーム制作者にとってなぜこれほど便利なのか、ヒントをお伝えし始めます。これでできることはたくさんあります。
テンプレート機能とナンバープレートのぼかし処理
テンプレートは基本的に、動画に対して実行したい事前定義されたタスクのセットです。動画編集者にとって非常に一般的な使用例は、ナンバープレートをぼかすことです。そして人の顔をぼかすことも非常に一般的な使用例であることは容易に想像できます。
テンプレートでは、すべてのナンバープレートをセグメント化してから、ぼかしエフェクトを適用します。見てください。ナンバープレートを見つけて、マスクにぼかしエフェクトを適用します。テンプレートを試してみましょう。自分の動画をアップロードできます。もちろん、サンプル動画を試すこともできます。自分の動画をアップロードしましょう。これが私たちの動画です。
このテンプレートを使います。テンプレートを適用します。ナンバープレートを見つけてマスクにぼかしエフェクトを適用するのが表示されています。テンプレートを適用します。ナンバープレートを検索しています。そして完了です。すべてのナンバープレートが完璧にぼかされているのがわかります。非常に印象的です。とても簡単です。わずか数秒で完了しました。
では、なぜこれを行うのでしょうか。なぜこれがそれほど便利なのでしょうか。今1つの例を示しましたが、あなたに当てはまるかもしれない他のいくつかの例を見せましょう。
実用的な活用例:監視カメラから野鳥観察まで
いたるところにライブカメラがあるため、車を追跡することは非常に人気のある使用例です。単に「トラック」と入力すると、すべてのトラックを簡単にハイライトしてくれます。そして、追跡されているものを簡単に視覚化できるように、ボックスのようなマスクを適用できます。防犯カメラや街頭カメラがある場合、簡単に追跡できるようになります。
バードフィーダーにカメラを設置して最もクールな鳥を見たり、単に鳥を追跡したりしたいとしましょう。これで簡単にできます。ここでは「鳥」と入力し、動画全体を開始します。繰り返しになりますが、非常に簡単です。そしてこれが非常に便利になるもう1つの場所は、ロボットです。
これはダウンロードしてローカルで比較的簡単に実行できるモデルです。そして今、ロボットが目にするすべてのものを簡単にセグメント化する能力を持つことを想像してください。子供を見たら、自身を安全モードにするか、完全に停止することができます。可能性は本当に無限です。そして繰り返しになりますが、最も素晴らしいのは、完全に無料で、完全にオープンソースで、完全にオープンウェイトであることです。
ダウンロードして、楽しんで、テストして、何を作るか教えてください。この動画のスポンサーになってくれたMetaに改めて感謝します。この動画を楽しんでいただけたら、いいねとチャンネル登録をご検討ください。


コメント