MetaのSAM Audioを徹底解説(そしてなぜ重要なのか)

Meta・マイクザッカーバーグ
この記事は約5分で読めます。

Metaが公開した最新のオープンソースモデル「SAM Audio」は、動画や音声ファイルから特定の音を簡単なプロンプトで分離できる革新的なツールである。女性の声、足音、食器の音といった個別の音源を高精度で抽出でき、さらにスタジオサウンドや水中音響などのエフェクトも適用可能だ。完全無料で利用・ダウンロードできるこのモデルは、動画制作者にとってノイズ除去やミキシング作業を劇的に簡素化する。将来的には補聴器などのデバイスへの応用も期待され、特定の音だけを聞き分ける「超聴覚」の実現可能性も示唆している。

Meta’s SAM Audio Explained (And Why It Matters)
Check out SAM Audio today! The Subtle Art of Not Being Replaced 👇🏼 Humanities Last Promp...

Metaの驚異的なオープンソースモデルSAM Audioの登場

Metaは最近、本当に素晴らしいオープンソースおよびオープンウェイトのモデルを次々とリリースしています。SAM 3モデルファミリー全体が素晴らしいのですが、最新のリリースがSAM Audioです。このツールを使えば、シンプルなプロンプトだけで動画や音声ファイルから音を分離できます。しかもその精度は驚くほど高いんです。実際にお見せしましょう。

こちらが「Segment Anything」のプレイグラウンドです。「Isolate Sounds(音を分離)」をクリックします。これは完全に無料で使えるプレイグラウンドで、ダウンロードも可能です。ちなみに、今回の動画はMetaとのパートナーシップで制作しており、使い方と素晴らしさをお見せできるんです。本当に素晴らしいツールですから。

最初にアップロードするのは、トゥームレイダーというビデオゲームの動画です。

トゥームレイダーの音声分離デモ

さて、こちらが動画です。まずは編集なしでお見せしましょう。

これがクイックなクリップです。ここで「woman(女性)」とだけ入力して、音を分離してみます。すごいですよ。

非常に素早く3つの異なるトラックが生成されました。オリジナルの音声、分離した音声(つまり私たちがリクエストしたもの)、そして分離なしの音声(これは逆で、リクエストしたもの以外のすべて)です。

分離なしの音声を無効にして、「woman」というプロンプトだけで再生してみます。

不気味な感じに聞こえますが、そうです、これは彼女の声だけです。では今度はこれをオフにして、分離なしの音声をオンにします。もう一度再生してみましょう。

今度は彼女の声がまったく聞こえないはずです。本当に印象的ですよね。他にもたくさんのオプションがあって、音声を異なる方法で聞こえるようにするためのエフェクトを追加できます。

カフェでの通話音声の分離デモ

でもちょっと待ってください。もう一つデモをお見せします。これは動画や音声を生業にしている私にとって本当に驚異的なんです。こういう作業は簡単ではないですから。

こちらは、混雑した騒がしいレストランで女性が電話で話している動画です。彼女の後ろでたくさんのことが起きています。まず編集なしの動画を再生します。

「ねえ、今カフェにいるの。電話したかったのは、プロジェクトが終わったから。今夜送るわね。とにかく、電話したのは、あなたが無事かどうか確認したくて」

さて、ここで一時停止します。「voice(声)」と入力して、音を分離をクリックします。

そして非常に素早く、再び3つのトラックが得られ、彼女の声が完全に分離されます。繰り返しますが、こういう作業は簡単ではありません。しかもこれは無料でダウンロードして、好きなように修正できるモデルなんです。

さあ、彼女の声だけを再生してみましょう。

「ねえ、今カフェにいるの。電話したかったのは、プロジェクトが終わったから。今夜送るわね。とにかく、電話したのは、あなたが無事かどうか」

すごく印象的です。では今度は彼女の声以外のすべてを再生してみましょう。

個別の音源の分離

彼女の声をオフにして、それ以外のすべてを有効にします。他のこともできますよ。最初からやり直しをクリックします。足音が聞こえたので、この動画から足音を分離できるか試してみましょう。

「footsteps(足音)」と入力します。音を分離。信じられないですね。

では今度は食器類を分離してみましょう。バックグラウンドでカチャカチャ鳴っている食器類だけを分離します。同じように「utensils(食器類)」と入力します。

できました。素晴らしい。

音声エフェクトの適用

さて、彼女の声に戻って、適用できるサウンドエフェクトをいくつか試してみましょう。

スタジオサウンドを適用してみます。これは少しリバーブがかかって、温かみのある音になります。聞いてください。

「今カフェにいるの。電話したかったのは、プロジェクトが終わったから。今夜送るわね。とにかく、電話したのは」

もちろん、このように上下に調整できます。楽しいエフェクトがたくさんあって、適用できるさまざまなエフェクトがあります。クラシック80年代ロボット、ロボットボイスなど。

楽曲の楽器分離とエフェクト

最後は曲です。異なる楽器を分離してみたいと思います。これがどれだけ簡単か見てください。

さて、これがオリジナルです。

では、ギターだけを分離してみましょう。どうぞ。

今度はギター以外のすべて、これは基本的にちょっとしたドラムだけです。

そして今度はオリジナルに戻します。

コンサートホールに配置してみましょう。水中はどうでしょう?

というわけで、できることがたくさんあります。ダウンロードをクリックすれば、各トラックを個別にダウンロードできて、もちろん好きなように使えます。

実用的な活用方法と未来の可能性

これは音声のクリーンアップやミキシングに非常に役立ちます。私のようにYouTube動画を作っていて、バックグラウンドにノイズが聞こえる場合、簡単に除去できます。そしてもちろん、このモデルを補聴器のような小さなデバイスに搭載することを想像してください。そうすれば、異なる音を分離できて、突然超聴覚を持つことになります。すべて本当にクールです。

改めてMetaに感謝します。ぜひチェックしてみてください。リンクは下にあります。この動画を楽しんでいただけたら、いいねとチャンネル登録をお願いします。

コメント

タイトルとURLをコピーしました