
13,162 文字

AIは休むことなく、今週は本当に凄まじい進展がありました。1枚の画像からリアルタイムで、文字通り1秒以内に3Dモデルを作成できる新しいAIが登場しました。また、物体の画像を既存の動画に直接追加できる別のAIもあります。カメラの動きや物体の動きを制御できるオープンソースの動画ジェネレーターもあります。さらに、通常の動画を3D化して3DメガネやVRヘッドセットで視聴できるようにするAIもあります。
NVIDIAは数千億のパラメーターを持つAIモデルを実行できるパーソナルスーパーコンピューターを発表しました。つまり、近いうちにデスクトップで最先端のオープンソースモデルを簡単に実行できるようになります。また、透明な動画を作成できる新しいAIもあり、これを既存の動画に重ねることができます。他にもたくさんありますので、早速見ていきましょう。
まず最初に、これは既にかなり驚異的なものです。Stability AI、つまりStable Diffusionを開発したチームが、Spar 3D、つまりStable Point Aware Reconstruction of 3D Objectsをリリースしました。これは1枚の画像からリアルタイムで3Dオブジェクトを生成し、さらにその3Dオブジェクトを瞬時に編集・操作することができます。
これは非常に高速で強力なツールです。例えば、3Dオブジェクトを複製したり、伸縮させたり、特徴を追加したり、特定のポイントの色を変更したりすることもできます。このビデオで見られるように、1枚の入力画像からポイントクラウドと3Dメッシュに変換することができ、この処理は非常に高速です。
ここでは、編集されたポイントクラウドを最終的なメッシュに変換するのにわずか0.3秒しかかからず、1枚の入力画像から高詳細な3Dメッシュを生成するのに物体1つあたりわずか7秒しかかからないと述べられています。こちらがいくつかの例です。これらの画像から3Dオブジェクトを作成できることがわかります。
簡単に仕組みを説明すると、アーキテクチャは2つの主要な段階で構成されています。第1段階では、入力画像がデコードされ、このような物体の基本的な構造を捉えるポイントクラウドを作成するために、特殊なポイント拡散モデルを通過します。第2段階では、このトライプレーントランスフォーマーがポイントクラウドデータと元の画像を処理して3Dデータを作成し、これには物体の形状、テクスチャ、照明などが含まれます。
もちろん、このツールは製品デザイン、ゲームデザイン、VR、AR、アニメーションなどに非常に有用です。1秒以内に3Dモデルを生成できるほど高速なので、リアルタイム編集が可能になり、モデリングワークフローがより速くなります。
このページではすでにHugging Faceでモデルの重みがリリースされており、GitHubリポジトリへのリンクもあります。そこをクリックしてREADMEファイルまでスクロールすると、インストール方法とローカルでの実行方法についての説明がすべて記載されています。ローカルで実行したくない場合は、無料のHugging Faceスペースもあり、オンラインで実行することができます。
使い方は非常に簡単で、画像をアップロードするだけで3Dモデルが生成されます。試しにこのブルージェイの画像を使ってみましょう。様々な設定を調整することができますが、今回はデフォルト値のままで実行してみます。ご覧のように、この鳥のポイントクラウドと3Dモデルが数秒で作成されます。これは非常に高速です。
この主要ページへのリンクは説明欄に記載しておきます。Hugging Faceスペース、モデルの重み、GitHubリポジトリへのリンクがすべて含まれているので、さらに詳しく確認することができます。
次のAIも非常に驚異的です。Gazelleと呼ばれるもので、これらの例で見られるように、AIを使用して人がどこを見ているかを推定します。人物の動画を見ていて、その人が正確に何を見ているのかを知りたい場合、このAIがそれを実現できます。
いくつかの例を見てみましょう。動画内の任意の人物を選択できます。この人物を選択すると、このAIは動画全体を通してこの人物が見ている場所を正確に指し示すことができます。画像でも機能します。ここにいくつかの例があります。動画である必要はありません。
これはかなり斬新なアイデアです。仕組みとしては、ビジョントランスフォーマーモデルを使用して入力画像または動画のフレームを分析し、人物がどこを見ているかを判断します。素晴らしいことに、コードはすでにGitHubで公開されています。インストール方法とローカルでの実行方法についての説明がすべて記載されています。少し下にスクロールすると、Google Colabオプションもあるので、Google Colabで無料でオンライン実行することができます。また、無料のHugging Faceスペースもあります。
The Officeのこの写真を使って、どのような結果が得られるか見てみましょう。送信を押すと、写真内の3人のキャラクターすべての視線を検出し、さらに個々のヒートマップも作成します。これはAIがこの人物の視線を予測する際の信頼度を示すものです。赤い部分は最も確信度が高く、緑と青の部分は確信度が低くなっています。つまり、彼はおおよそこの範囲を見ているということです。そして、これを異なるキャラクターすべてに対して行います。
この人物については、この物体を見ています。そして、これが彼が見ている範囲の信頼度です。最後に3人目のキャラクターについては、この人物を見返しており、これがヒートマップです。非常に興味深いツールで、監視などに活用できる可能性があります。
このGitHubリポジトリへのリンクは説明欄に記載しておきます。さらに詳しく試してみることができます。
前の2つのツールが印象的だと思った方は、こちらはさらに驚異的です。Stereocrafterと呼ばれるもので、基本的にAIを使用して2D動画を没入型の3D動画に変換することができます。例えば、映画館で見かけたことがあるような赤緑の3Dメガネと互換性のある動画を作成したり、Apple Vision ProのようなVRヘッドセット用の没入型動画に変換したりすることができます。また、左右の視点に分解することもでき、これは3Dディスプレイで使用することができます。
ここにいくつかの結果がありますが、コンピューターの画面でこのYouTube動画を見ているだけでは、もちろんこれらの3D効果を見ることはできません。その没入感を本当に体験するには、赤緑のメガネやApple Vision Proを着用する必要があります。しかし、動画をこのAIに入力した後の出力がどのように見えるかの例をいくつか紹介します。
赤緑メガネと互換性のある出力を選択すると、このようになります。そして、ラクダの非常にランダムな動画の別の例では、これが結果です。また、この例で見られるように、アニメーションや漫画でも機能します。ちなみに、例えばApple Vision Proをお持ちの場合、これらのデモの出力動画をダウンロードして、Apple Vision Proで視聴し、実際の効果を確認することができます。理論的には、この入力動画のような没入型の3D動画になるはずです。
AIにプラグインした後、このようになります。端が引き伸ばされ、動画がこのようにより没入感のあるものになることに注目してください。仕組みとしては、アーキテクチャは2つの主要な段階で構成されています。
第1段階では、AIが動画のデプスマップを作成します。つまり、物体がカメラからどれだけ離れているかを判断し、その情報を使用して3Dのように見える歪んだ動画を作成します。そして第2段階では、その歪んだ動画を拡散モデルに入力し、欠落している部分を埋めて完全な3D動画を作成します。
上部には技術論文がリリースされており、ダウンロード可能なデモ動画もあります。さらにGitHubリポジトリへのリンクもあり、そこをクリックしてスクロールすると、インストール方法とローカルでの実行方法についての説明がすでに記載されています。素晴らしいですね。
この主要ページへのリンクは説明欄に記載しておきます。さらに詳しくお読みください。
次に、このツールも素晴らしいです。TransPixarと呼ばれ、テキストの説明から動画を生成することができますが、それだけではありません。このような透明な要素を作成することができ、既存の動画にレイヤーとして重ねることができます。これはもちろん、特殊効果やアニメーションに非常に有用です。
透明な要素を含む動画の生成は非常に難しいものです。それは、透明な要素にはアルファチャンネルと呼ばれるものが必要で、これは動画内の各ピクセルの透明度を決定します。問題は、SoraやClingのような大半の動画ジェネレーターはアルファチャンネルを生成せず、これらのモデルの訓練に使用されたデータセットも、大半がアルファチャンネルを持つ動画、つまり透明な動画を含んでいないことです。
この問題を解決するために、他の画像や動画ジェネレーターと同様に拡散トランスフォーマーを使用しながらも、透明度も生成できるようにアルファチャンネル用の追加コンポーネントを組み込んだ新しいアーキテクチャを導入しました。
こちらがいくつかの追加デモです。大きな虫眼鏡を通して見る白いタンポポが揺れている様子です。魔法の火が広がって森の地面を焼き尽くしていく様子です。魅惑の森でドリフトしながら蛇行するオートバイがあります。ただし、この動画の品質はかなり悪く、私のチャンネルで紹介してきた最先端の動画ジェネレーターには及びません。
こちらは崩れ落ちる像です。急速に膨張と収縮を繰り返す小さな爆発があります。これは非常に良く見えます。路地を走る宇宙飛行士もかなりいいですね。さらに印象的な例がいくつかあります。
渦巻く雲と稲妻を伴う巨大な嵐が形成される様子で、動画に重ねて嵐の効果を簡単に得ることができます。または、走りながら長い黒髪が流れる女性の様子で、髪の毛のような細かいものでも非常によく生成できています。魔法のエネルギーを放ちながら開くポータルも、再び非常に良く見えます。動画に重ねることで、とてもクールなアニメーション効果を得ることができます。
空中で飛び散る水しぶきは、コカ・コーラのCMなどに非常に便利なオーバーレイになり得ます。なお、テキストプロンプトから動画を生成するだけでなく、画像を入力して透明な動画を生成することもできます。
いくつか例を見てみましょう。このドラゴンを入力すると、これが結果として得られる透明な動画です。または、この燃える扉を入力すると、これが結果です。そして、この宇宙船の画像を入力すると、これが結果です。ただし、なぜか後ろ向きに飛んでいますが。そして、この人型ロボットの画像を入力すると、これが得られます。かなり良いものだと思います。
上部までスクロールすると、コードとローカルでのダウンロードと実行方法についての説明がすべて含まれているGitHubリポジトリがあります。または、上部にはHugging Faceデモもあるので、十分なGPUがない場合は、このスペースを使用してオンラインで実行することもできます。
すべてのリンクはここにありますので、説明欄にこの主要ページへのリンクを記載しておきます。さらに詳しくお読みください。
しかし、TransPixarのことは忘れましょう。次のツールはさらに優れています。TransPixarの問題点は、確かに透明な動画を作成できますが、既存の動画の上に重ねると非常に場違いに見えてしまうことです。それは、おそらく明るさやホワイトバランス、コントラストが正しくなく、背景動画と調和していないからです。正直なところ、これは本当に良いアイデアとは言えません。
透明な要素を作成する代わりに、既存の動画に任意のオブジェクトやエフェクトを追加できたらどうでしょうか?それが、Video AnyDoorというこの本当にクールなAIの登場です。これにより、非常に高い精度で動画内のオブジェクトを挿入または置き換えることができます。
いくつかの例を見てみましょう。この背景動画があって、この蝶を入力したいとします。この蝶の画像をアップロードし、このAIにプラグインするだけで、これが結果の動画です。なんと素晴らしいでしょうか。
または、この猫を挿入したいとして、雪の中を歩く女性のこの背景動画があるとすると、これが最終結果です。再び非常に印象的です。入力画像の色がより暖かく、この動画の色がより冷たいことに注目してください。しかし、最終動画では、AIはこの猫の色をこの背景動画に合わせることができています。
別の例を見てみましょう。このニモ(クマノミですが、私はただニモと呼んでいます)をこのサンゴ礁の背景動画に追加したい場合、このAIにプラグインするだけでこれが最終結果です。
別の例です。この魚を追加したい場合、これが最終結果です。この魚が既存の動画とどれほどシームレスに調和しているかに注目してください。この出力動画を見ただけでは、この黄色い魚がAIで追加されたとは全くわからないでしょう。
別の例を見てみましょう。このカモメを海の背景動画に追加したい場合、これが最終結果です。元の画像がより明るく、色がやや暖かいことに注意してください。しかし、このAIは自動的にカモメの明るさ、コントラスト、ホワイトバランスを調整して、この背景動画に合わせることができます。
別の本当にクールな例です。このSUVの画像をこの動画に入力したい場合、これが得られます。再び、色がこの背景動画とうまく調和しています。
これにより、多くの可能性が開かれます。このツールを動画での仮想試着に使用することができます。例えば、このモデルの動画があり、異なるシャツを着せたい場合、このAIを使って彼女の服を交換することができます。これは動画での服の交換の別の例で、本当に印象的です。さらに別の例もあります。
AIが彼女のシャツだけを交換し、手やバッグ、ズボン、靴など、動画の残りの部分を一貫して保持することに注目してください。このAIは非常に汎用性が高いため、基本的に動画内の任意のオブジェクトを追加または置き換えることができます。
これを動画でのフェイススワップとしても使用できます。例えば、テイラー・スウィフトの画像を入力し、これが入力動画の場合、基本的にこの女性の顔をテイラー・スウィフトと交換します。ほとんどの部分で一貫性が保たれています。なんと不気味ですが。この女性をイーロン・マスクに変えたい場合は、イーロン・マスクの写真を入力するだけで、これが得られます。
別のクールな使用例があります。動画に何でも追加できるため、動画内の誰かのシャツにロゴを追加することもできます。これがその例です。なんとクールでしょう。
別の例では、このロゴを車に追加したい場合、このAIにプラグインすると、かなり一貫して処理してくれます。このアップルロゴをこの車に追加する別の例もあります。
上部までスクロールすると、コードは近日公開予定と書かれています。オープンソース化される予定のようで、素晴らしいことです。
この主要ページへのリンクは説明欄に記載しておきます。さらに詳しくお読みください。
次に、これは非常に便利な機能です。私の好きなAI動画ジェネレーターの1つであるMinimax、またはHiloが、一貫したキャラクターを作成できる機能をついにリリースしました。少なくとも私はクリエイティブパートナーなので、このタブが表示されますが、この動画が公開される頃には、おそらく誰もがこのタブにアクセスできるようになるはずです。そうでない場合でも、近日中にリリースされる予定です。
使い方は非常に簡単で、リファレンスキャラクターの写真をアップロードするだけです。例えばモナ・リザを使い、図書館に座っているなどのプロンプトを書いて実行すると、これが得られます。なんと素晴らしいでしょうか。これは完全にモナ・リザそのものに見え、図書館に座って話をさせているのです。
これはモナ・リザの顔の特徴と非常によく一致しており、一貫性があります。ちなみに、他のユーザーからのいくつかの例がこちらにあります。ご覧のように、これは非常に強力なツールです。他のユーザーからの例もあり、アニメや3Dキャラクター、動物でもとてもよく機能することがわかります。
これは非常に強力なツールです。なぜなら、以前は一貫したキャラクターで動画を作成するには、キャラクターの多くの写真でLoRAを訓練し、それらのLoRAを使用してStable DiffusionやFluxで写真を生成し、それを動画の開始フレームとして使用してMinxに入力する必要がありました。しかし今は、その手順は必要ありません。キャラクターの写真をMinimaxにアップロードし、プロンプトを追加するだけで、このキャラクターで動画を生成してくれます。
これは本当に便利で、創造的な可能性を多く解き放ちます。
スポンサーのAbacus AIによるChat LLMというこの素晴らしいツールについてお話ししましょう。これにより、最高のAIモデルをすべて1つの統合プラットフォームで使用することができます。これには、最新のo1プレビューやo1ミニ、GPT-4oやClaude 3.5などの最先端モデルが含まれています。
さらに、プロンプトに基づいて最適なLLMを自動的に選択する新しいRoute LLM機能もあります。チャットボットから直接画像を生成することもでき、最高のジェネレーターであるFlux Proを使用しています。単一のプロンプトで動画を生成することもできます。
また、コーディングや何かを構築している場合に、アプリをサイドバイサイドで表示して操作できる非常にクールなアーティファクト機能もあります。また、Cod LLMと呼ばれる新しいコーディングツールもあります。これはVS Codeとまったく同じように動作しますが、AIによって強化されています。
横でAIとチャットしてコードを生成または編集したり、タブを押してコードを自動補完したりすることができます。これにより、コーディングがはるかに高速になります。また、AI Engineerと呼ばれる新機能もあり、これを使用すると、独自のカスタムデータや指示で微調整された独自のカスタムチャットボットを作成することができます。
これは、最高のAIモデルをすべて1つのプラットフォームで使用する非常に強力な方法です。説明欄のリンクからお試しください。
次に、ご存知かもしれませんが、世界最大のテクノロジーイベントの1つであるConsumer Electronics Show(CES)が今週開催されており、多くの大手ブランドが素晴らしい製品を披露しています。このイベントでNVIDIAも非常にエキサイティングな発表をいくつか行いました。
まず、DGXと呼ばれるものを導入しました。これは、誰でもデスク上で使用できるコンパクトなパーソナルAIスーパーコンピューターで、多くのAIタスクを処理するのに十分な計算能力を持っています。このDGXスーパーコンピューターの心臓部には、NVIDIAの最上位GPUであるGB10 Grace Blackwellスーパーチップが搭載されています。
参考までに、このデバイス内で最大2,000億のパラメーターを持つAIモデルをすべてローカルかつオフラインで実行することができます。情報として、RTX 4090でさえ700億のパラメーターを持つLlama 70bモデルを処理するのはかなり苦労します。このスーパーコンピューターが2,000億のパラメーターを処理できるというのは素晴らしいことです。
さらに、ConnectXネットワークと呼ばれるものを使用して2台のスーパーコンピューターを組み合わせることもでき、これにより4,050億のパラメーターを持つLL 405bのようなさらに大きなモデルを実行することができます。デスク上の小さなデバイスで4,000億のパラメーターのモデルを実行できるようになったことが信じられません。これは本当にエキサイティングです。
ご覧のように、デバイスはかなりコンパクトで、デスク上に快適に設置することができます。とはいえ、開始価格は安くはありませんが、それほど高価でもありません。現時点では3,000ドルに設定されており、今年5月のリリースを予定しています。
個人的に、これにとても興奮しています。最終的に1台手に入れて、より強力なAIモデルをコンピューターでテストできることを願っています。
このAIスーパーコンピューターの他に、NVIDIAはProject R2Xも発表しました。これは、コンピューター上のタスクを支援できるAI駆動のアバターです。基本的に、画面の隅に住むアバターで、話しかけることができますが、ビジョン機能も持っています。つまり、画面を分析して何が起こっているのかを理解することもできるので、コンピューター上のさまざまなタスクをリアルタイムで支援することができます。
簡単なデモをご紹介します。
「開発者とAIエージェントを構築する愛好家向けのRTXパワードデジタルヒューマンインターフェース、Project R2Xを紹介します」
「やあR2X、調子はどう?」
「元気です、ありがとうございます。何かお手伝いできることはありますか?」
「私のPCで何ができますか?」
「アプリケーションの使用を支援したり、ドキュメントを分析・要約したり、Microsoft Teamsミーティング中のタスクを支援したりすることができます」
「Photoshopでこの写真のジャケットを生成AIで置き換えるにはどうすればいいですか?」
「選択ツールでジャケットを選択し、コンテキストタスクバーの生成フィルを選択してください。置き換えたいものを説明すると、Photoshopがオプションを生成します」
「保険証書を共有してもいいですか?」
「はい、どうぞ共有してください」
「保険証書を開きましたが、どのようにお手伝いできますか?」
「素晴らしい、屋根の雪解け水が漏れを引き起こしたのですが、保険でカバーされますか?」
「はい、あなたの保険証書には雪解け水による損害がカバーされています」
次に、このSEO1ヒューマノイドロボットの新しい「実際の」動画があります。以前の動画でこのロボットを紹介しましたが、これは最も生命らしい歩行姿勢を持つロボットです。その流動的で自然な歩き方をご覧ください。
これは「ただの歩行」なので、何が特別なのかと思われるかもしれません。しかし、これは実際にヒューマノイドロボット設計における最大の課題の1つを解決する非常に印象的な成果なのです。
私たちの体は比較的柔らかく、動き回る際にクッションとして機能する筋肉と靭帯があり、これが衝撃を吸収し、関節や骨への負担を軽減します。そのため、私たちの動きはかなり流動的で、自然に動き回ることができます。
しかし、ロボットは硬い材料で作られています。そのため、この自然なクッション性がないのです。このように自然に歩けるロボットの設計は実際に非常に難しく、これを実現するには相当賢明なエンジニアリングが必要です。
以前のデモ動画から、一部の人々は懐疑的だったかもしれません。彼らが紹介したように本当に機能するのでしょうか?ついに今週、新しい動画が公開されました。これはSEO1が実際にカジュアルに歩き回っている様子を捉えた動画で、確かに非常に自然かつ素早く歩くことができます。
これは、NVIDIAのJim Fan博士を含むAI分野の信頼できる複数の専門家によって確認された本物の動画です。そして、これはUnitreeやテスラのOptmusと比べてあまり知られていない企業やロボットですが、賢明なエンジニアリングを備えた非常に印象的なロボットなので、私たちは注目すべきだと思います。
次に、このAIは非常に強力です。Diffusion as Shaderと呼ばれ、これができることをご紹介します。画像や別の動画から動画を作成できますが、カメラアングル、カメラの動き、そして物体の動きや登場人物の動作もコントロールできます。これは非常に柔軟なツールです。
例えば、この画像を入力すると、実際にデプスマップを生成し、シーンの3Dモデルを構築します。そこから好きなものを操作して動かすことができます。この例では、この人形を回転させています。
または、このオートバイの画像を入力すると、このようにオートバイを回転させることができます。または、これが入力画像で、この建物を宇宙船のように離陸させたい場合、これをうまく処理します。
または、このバナナの画像を入力して、空中に浮かばせることもできます。非常に強力で柔軟なツールです。さらにいくつかの例があります。このアニメの2Dシーンでもとてもうまく機能することがわかります。
再び、これが入力画像で、このAIにプラグインすると、このようにカメラを動かすことができます。地面のこの光の別の例があり、これを非常によくアニメーション化しているのがわかります。雨やカーの運転までアニメーション化することを知っており、通りに反射する光にも注目してください。これは非常にリアリスティックに見えます。
カメラの動きを好きなように指定することができます。上下左右に動かすだけでなく、らせん状に動かすこともできます。例えば、入力画像がこのようで、カメラをらせんパターンで動かすと、これが最終結果です。このらせんパターンでのさらなる例もあります。
しかし、できることはこれだけではありません。例えば、Blenderなどで生成したこのようなアニメーションがあるとします。このキャラクターの動きを好きなキャラクターに転送することができます。これがその動作の例です。
さらなる例もあります。これが入力アニメーションで、筋肉質な男性というプロンプトを与えると、確かに筋肉質な男性の動画を生成しますが、入力アニメーションに従って動きます。別の例では、プロンプトがスーツを着た男性で、これが入力アニメーションの場合、これが出力です。確かにスーツを着た男性を生成しますが、入力アニメーションに従って動きます。
同様に、既存の動画内のキャラクターやオブジェクトの動きを新しい動画に転送することもできます。例えば、この動画を入力し、この青いエイリアンやロボット、このカエルのようなエイリアンクリーチャーなどでプロンプトを与えると、それらすべてのクリーチャーの動画を生成しますが、入力動画に従って動きます。
湖を泳ぐ白鳥のこの入力動画の別の例があり、プロンプトで何を指定しても、動画内のすべての外観は変更されますが、白鳥は入力動画に従って動き続けることがわかります。
走り回る熊の子供のこの入力映像の別の例では、黄色いキツネが草の上を走るとプロンプトすると、これが得られます。非常に柔軟なツールです。
彼らのGitHubページには多くの例があるので、リンクを共有して、これらのデモをさらに見ることができます。ちなみに、仕組みはこうです。まず画像を取り込み、実際にその画像からデプスマップを生成します。つまり、3D空間内でものがどこに位置しているかを予測し、その3Dモデルから、コントロールしたい方法に基づいて3Dトラッキング動画と呼ばれるものを生成できます。
例えば、カメラの動きやビデオ内のオブジェクトの動きを変更でき、その後、拡散モデルを通して最終的な動画を生成します。このページの上部にGitHubリポジトリへのリンクがあり、2月10日までにコードをリリースすると書かれています。お楽しみに。オープンソース化されることは素晴らしいことです。
現時点では、説明欄にこのページへのリンクを記載しておきます。さらに詳しくお読みください。
次に、このAIも非常に興味深いです。プロジェクトは「極端な照明変化下での3D再構築のための生成的マルチビューリライティング」と呼ばれ、短い名前はないようですが、リライトと呼ぶことにしましょう。
これができることは、異なる照明条件で撮影された一連の写真から3Dモデルを作成するAIです。いくつかの例を見てみましょう。このオブジェクトの一連の写真があるとします。様々なアングルで撮影され、異なる照明条件で撮影されていることがわかります。ホワイトバランス、色、明るさ、彩度など、すべてがこれらの写真間で一貫していません。
従来、これらすべての画像から3Dモデルを作成することは非常に困難でした。写真が一貫していない場合、このオブジェクトの真の色や形状、テクスチャを推測することは非常に難しいからです。ついに、この新しいAIがこれを処理できるようになりました。
異なる背景、異なる照明条件のこれらすべての写真を取り込むことができます。例えば、1枚は非常に暗く、もう1枚は非常に明るいかもしれません。これらすべての異なる写真を持っていても、すべてをキャリブレーションし、これらすべての写真をマージしてオブジェクトの3Dモデルを作成することができます。
さらなる例があります。この一連の写真でも、様々なアングルで、様々な照明条件で撮影されていることがわかります。一部の写真ではホワイトバランスがより冷たく、他の写真では色がより暖かくなっていますが、これらすべての写真をAIにプラグインすると、すべてをキャリブレーションし、このオブジェクトの一貫した3Dモデルを生成することができます。
簡単に仕組みを説明すると、各写真を特別なリライティング拡散モデルに通します。これは基本的に、すべての写真を同じ照明で撮影したかのように見えるようにします。これらの入力写真では明るさ、コントラスト、色が異なるかもしれませんが、このリライティング拡散モデルを通過した後、すべてをキャリブレーションして、すべての写真が同じ照明条件になるようにします。
これにより、すべてのアングルで一貫して見える物体の3Dモデルを作成することができます。次に、シェーディングエンベディングと呼ばれるものも使用します。これは基本的に、物体が異なる方法で光を反射する様子をAIが理解するのを助け、これにより、任意の背景や環境に3Dオブジェクトを配置したときにより現実的に見えるようになります。
これは3Dオブジェクトを作成するための非常に便利なツールです。物体を3Dモデルに変換するために、プロフェッショナルな照明やカメラを備えた豪華なスタジオは必要ありません。物体に向かってスマートフォンを向け、異なるアングルや異なる照明条件、背景で無作為に写真を撮るだけで、このAIを通して一貫性があり現実的に見える3Dモデルを生成することができます。
この主要ページへのリンクは説明欄に記載しておきます。さらに詳しくお読みください。
これで今週のAIのハイライトをまとめましたが、今週は本当にたくさんの素晴らしいツールを紹介しました。今週は多くのヒット作がありました。コメント欄で、これらすべてについてどう思うか、どのツールを最も試してみたいかをお聞かせください。
いつものように、トップのAIニュースやツールを探して皆さんと共有していきます。この動画を楽しんでいただけたなら、いいね、シェア、登録をお忘れなく、今後のコンテンツもお楽しみに。
また、毎週AIの世界で本当にたくさんのことが起こっており、YouTubeチャンネルですべてを紹介することはできません。AIで起こっているすべてのことを本当に把握するには、無料の週刊ニュースレターを購読してください。そのリンクは説明欄に記載されています。
ご視聴ありがとうございました。また次回お会いしましょう。


コメント