グーグルが大打撃、オープンソースが応える:今週の衝撃的なAI

AGIに仕事を奪われたい
この記事は約15分で読めます。

8,897 文字

Les 4 OUTILS en IA qui signent la FIN de l'ère des géants de la Tech.
🚀 Apprenez l'IA sous toutes ses formes et rejoignez la communauté VISION IA ! 📧 Rejoignez ...

あなたもご存知の通り、AIは日々進化しており、今週もまた完全に驚くべき週となりました。新しいオープンソースのビデオジェネレーターが登場しました。また、写真の光を非常に簡単に変更できるGoogleの新しいAIもあり、それはまさに驚異的なものです。すべてご理解いただけるでしょう。
別の新しいAIでは、オープンソースで音楽を作成することができます。Soonは心配する必要があるでしょう。また別の分野では、新しいオープンソースの3Dモデルジェネレーターが単純に素晴らしく、多くの注目を集め始めています。しかしそれだけではありません。
今日は、驚くべきAIツールをご紹介します。この動画でご覧いただくものはすでにアクセス可能で、利用可能、そしてオープンソースですらあります。もし人工知能がどこに向かっているのか、そして誰よりも先にそれを活用する方法を本当に理解したいなら、最後までご覧ください。
始める前に、視聴中に動画が気に入ったら、まだチャンネル登録していない方はぜひ登録を、または動画にいいねをお願いします。これによりチャンネルの成長を大きくサポートしていただけます。また、ニュースレターを開設したことをお知らせします。登録するだけで、月曜から金曜まで最高のニュース要約をメールでお送りします。
最後に、Xでもフォローしていただけます。そこでは最新の技術的ブレイクスルーをリアルタイムで発見できます。現在は毎時間新しい情報があるので、ぜひお越しください。それでは、最初にご紹介したいツールから動画を始めましょう。
今週は素晴らしい週だったとお伝えしましたが、今週登場した最初のAIをご紹介します。LTX Videoという、まさに登場したばかりの新しいビデオ生成モデルです。彼らは130億パラメータモデルの蒸留版を公開したところです。
つまり、非常に小さなAIモデルで、多くの環境で簡単に動作し、以前のバージョンからの改良版です。すぐに使ってみますが、簡単にご紹介します。まず、ビデオ生成がはるかに高速になりました。品質は元のツールに非常に近く、特にリソース要件が大幅に下がっています。
お伝えしたように、ここで見ているすべての例はこの新バージョンで作成されたものです。例えば、車を運転している人のこの例や、今画面に表示されているこの例です。これもかなり良いものです。これらすべてが130億パラメータの小さなモデルで作成されたことを思い出してください。
考えてみると本当に驚くべきことです。これも驚くべきものですが、若干現実味が少ないです。これは私たちが今後見ることになる最も基本的なバージョンのAIであることを心に留めておく必要があります。今後数ヶ月でさらに改善されるでしょう。現在の時点でこれだけのものが10秒で生成できるというのは非常に印象的です。
彼らのツール紹介ページを分析すると、ハードウェア面では多くのユーザーが僅か12GBのVRAMで完璧に動作することを確認しています。実際には、FP8の蒸留バージョン(quizedバージョン)を使用すればさらに少ないメモリでも動作します。これはもちろん、ローカルでAIを実行できる知識のある方向けの情報です。すべての情報はHuggingFaceのページにあります。
NVIDIA GPUを持っていれば、PCで実行できる可能性が高いです。そうでない方々のために、これは技術に詳しくない方にも制限されていません。ブラウザから直接テストできる無料デモを公開しています。
リンクは説明欄にありますが、このページにアクセスすると「デモ」と書かれたボタンがあります。クリックすると、GoogleまたはEメールでのログインを求められますので、ログインし利用規約に同意すると、モデルをテストできるインターフェースに進みます。
パラメータは左側にあります。LTXV(最新モデル)を選択してください。動画を見ている時点では「new」と表示されているはずです。その後、画像から動画を作成したい場合は画像をアップロードし、プロンプトを入力します。
ここでは彼らが提供している例を使ってみましょう。この例では、馬に乗った男の画像を使用し、プロンプトには「黄色のカウボーイが白い馬に乗っている」と入力しました。動画の長さを選択します。例えば5秒を選び、プロンプトの強度(指示にどれだけ忠実に従うか)を選びます。
サイズは変更する必要はありません。「動画生成」をクリックすると生成が始まります。素晴らしいのは、このモデルが非常に高速で動作するため、4つのバージョンを生成してくれることです。お伝えしたように、小さなモデルなので非常に速く生成します。
このようなモデルでビデオを生成する速さは珍しいです。結果をご覧ください。非常に興味深い結果が出てきました。どう思われますか?4つの動画を生成するのにたった10秒かかっただけです。これは完全に驚くべきことです。他のモデルではこれに高額な料金を請求されることを考えると、このようなツールが登場するのは本当に嬉しいです。
正直に言うと、このような小さなモデルとしては結果は本当に悪くありません。AIの世界では130億パラメータはとても小さなモデルだということを思い出してください。だから本当にこのAIに感心しています。
ぜひ試してみることをお勧めします。いつものように、GitHubへのリンクや先ほどお見せしたサイトへのリンクはすべて動画の説明欄にあります。彼らのインターフェースを使うか、このページの指示に従ってローカルのコンピューターにインストールすることもできます。
もし私の講座の生徒であり、これに興味があれば、ぜひお知らせください。時々、ローカルでAIをインストールするための詳細なチュートリアルを作成しています。サーバーでお知らせいただければと思います。
プライベートメッセージで興味があるかどうか教えていただければ、チュートリアルを作成できると思います。この最初のAIツールは非常に印象的でした。次に進みましょう。次も大したものです。Googleは人工知能の分野で競合他社を圧倒し続けています。Gemini 2.5 Proでの印象的な進歩に続き、つい最近、Alpha Evolveを発表しました。これは人間の監視なく自律的に科学的発見を行えるシステムです。これは過去数ヶ月で最も印象的な技術の一つです。3日前に発表されました。
これについての動画を準備していますが、本当に驚くべきものです。興味があれば、説明欄にリンクを貼ります。そして今、彼らはさらに新しいAIを提案しています。彼らは決して止まりません。Googleの研究所から提案されているのがLight Lab(光の研究所)です。
基本的に、このツールは画像の照明を完全にリアルな方法で変更することができます。光をより弱くしたり強くしたり、色を変えたり、シーンに新しい光源を追加したりすることもできます。そしてこれらすべてが視覚的にも驚くほど正確です。彼らが提供した例をご覧ください。
これらはインタラクティブな例です。クリックすると、ビフォー・アフターが見られます。最初の例をご覧ください。ここにランプがあります。AIを適用すると、ランプが点灯したかのようにシーンが変わります。結果は本当に印象的です。他の例も見てみましょう。
ここには暗い部屋があります。壁にネオンが取り付けられているのが見えます。おそらくこれを点灯させるのでしょう。クリックするとこのような結果になります。単に印象的です。外部の環境でも機能します。この例をご覧ください。
昼間の外にある像があります。これらのランプを点灯させると、結果はこのようになります。別の例も見てみましょう。反射の忠実度は非常に印象的です。このランプを点灯させると、ドアや寝具、布団による影などすべてに影響します。すべてが印象的です。
もう一つの驚くべき例です。ここに絵画があり、絵画内に光を当てると、元の画像の品質やスタイルが保持されます。まるでそのように描かれたように見えます。また、昼から夜へ変更することもできます。この例では昼間の場面がありますが、AIを適用すると夜のこのような場面に変わります。逆もしかりで、夜に点灯した電球がある場面を昼間に変えることもできます。
理解していただけたと思いますが、このAIは非常に驚くべきものです。このツールは画像内に存在する光源を自動的に検出し、それらの光源を個別に操作することができます。どのように機能するのでしょうか?ここに仕組みを説明する動画があります。まずAIはあなたの画像を分析します。この画像には2つの光源があります。
次に、カーソルやマウスで各光源を選択できます。ここに円があり、すでに選択されています。これによりスライダーが表示され、光を変更できます。電球の光を変更すると、もう一方も変わります。
別の例では、この画像に複数の光源が検出されています。変更したいのはレゴですが、「Jazz Club」の看板がネオンであることも検出され、光源が作成されています。光を変更してみると、このような結果になります。
これについてどう思われますか?かなり印象的です。このAIの使用例がさらにあります。2つの光源を持つこの画像で、一方をクリックして明るさを変更すると結果が見えます。こちらのままにして、もう一方を変更して点灯させるとこのようになります。
これらはすべてこのサイトで見つけることができます。リンクは説明欄に記載します。技術的には、画像処理は光源の自動セグメンテーションから始まります。それが見えているものです。
次にシーンの深度を推定し、いわゆるDepth map(深度マップ)を作成します。AIの分野に詳しい方向けの説明です。このマップを作成してシーンの幾何学的構造を理解します。この情報により、反射や影を正確に処理できるようになります。
最後に、生成された2つの画像は従来の拡散モデルで処理され、光をコントロールし、指定したパラメータをすべて適用します。現時点では、このツールは一般に公開されておらず、技術論文のみが公開されています。
しかし、オープンソースコミュニティがこれを取り入れ、すべての人のためにオープンソース化するのは時間の問題です。詳細、例などを含む公式ページへのリンクは動画の説明欄に記載します。
次に、他の分野の2つの素晴らしいAIを見ていきましょう。ここで30秒ほど時間を取って、Vision AIプロジェクトについてお話しします。もしこれらすべてが魅力的だと思われるなら、これらの知識とさらに多くの実践的なケース、理論的なケースなどを非常に具体的な研修にまとめました。これを常に改善しています。
数ヶ月間で1500人以上の学習者をVision AIプログラムで研修してきました。これは完全な研修で、人工知能を使って本当に自立し、効率的で、私が言うところの「超人的」になれるように設計されています。現在のレベルや年齢に関係なく、技術的な前提知識は必要ありません。
本当に基礎から始めて、オープンソースツールの使用など、段階的に進めていきます。ビデオレッスンを通じて、ゼロから市場で最も強力なツールの完全な習得まで、一歩一歩お手伝いします。今週、主要なアップデート、新しいツール、新しいテクニック、そしてさらに多くの新しい機会を発表しています。
Vision AIの目標は、できるだけ多くの人に簡単にアクセスしてもらうことです。現在、特別オファーを提供しています。価格は来週の主要アップデート後に上がる可能性があります。今日登録することで、オファーを活用するだけでなく、将来のすべてのアップデートへの無制限のアクセスを追加料金なしで生涯保証します。
AIの大規模な登場に翻弄されるのではなく、他の人より先に進み続ける保証です。説明欄またはコメント欄のリンクをクリックして、今すぐ参加してください。最初のレッスンですぐにお会いしましょう。
続いて、もう一つの素晴らしいツールであるStep OneX 3Dを見ていきましょう。これは本当に強力で、すべてが公開され、利用可能です。3Dジェネレーション、3Dモデル操作の分野に興味がある方は、この新しい3Dモデルジェネレーターに注目してください。単一の参照画像から、テクスチャを含む完全なオブジェクトを作成できます。
はい、テクスチャを含めて、単一の画像から3次元でモデル化された結果が得られ、そのディテールのレベルはかなり印象的です。彼らが提供した例を見てみましょう。ドラゴンの画像からAIが3Dモデル、インタラクティブなメッシュを作成しました。これはBlender、Unreal Engine、さらには3Dプリンターなど、あらゆる場所で使用できます。3Dモデルが今日可能にするすべてのことができます。
忠実度は非常に印象的だと思いませんか?注目すべきは、彼らに1枚の画像だけを与えたということです。AIは背後にあるものなどをすべて推測しなければならず、そして3Dモデルが出来上がりました。生物の完全な形状を再構築するだけでなく、入力画像に対して非常に信頼性の高い仕上がりで皮膚のテクスチャも自動生成します。
それが最も驚くべき点です。もはやテクスチャを作成するのに何時間も費やす必要はありません。結果をご覧ください。この分野に詳しい方は、このようなテクスチャ付きモデルが専門プラットフォームで数百ユーロかかることをご存知でしょう。
これらがすべて無料でオープンソースであり、実際にモデルを購入する金額と比較して、ほとんど何もかからずにローカルで実行できるというのは驚くべきことではないでしょうか。非常に印象的です。このような例はたくさんあります。すべてに対応します。マーケティング分野の例をご覧ください。
例えば、製品の画像を撮った場合、このバッグを販売しているとすれば、AIはバッグを3Dでモデル化し、それをどこでも使用できます。彼らはたくさんの例を提供しており、そのページで見ることができます。3Dモデルのレンダリングの詳細レベルを変更でき、これまでにないレベルの詳細さです。
明らかに、一般に公開されているツールとしては、これまでに到達したことのないレベルの詳細です。これはとても興味深いです。明らかに、中国の巨人Tinの3Dジェネレーターと並んで、元の画像に最も忠実なツールの一つですが、それはオープンソースではありません。これは本当にオープンソースです。
ページの一番上に戻ると、すべてが公開されており、デモもあります。クリックするとHuggingFaceのページに移動します。使い方は非常に簡単です。ここに画像をアップロードします。例えば、この白いドラゴンを使用します。
重要なのは、切り抜かれている必要があることです。つまり、画像に背景がないようにする必要がありますが、これは非常に簡単な方法があります。パラメータについては、多くのオプションから選択できます。非対称性などです。これは例えば、画像に対称性が欠けている場合に使用します。
例えば、ドラゴンの画像に翼が一つしかない場合、「非対称性」をクリックして最初の翼と対称的に次の翼を作成します。これらはすべて自分でテストできます。「開始」をクリックすると、180秒後(超高速ではありませんが適切な時間)、テクスチャと基本バージョンを持つ3Dモデルが得られます。
さらに進みたい場合、すべてのモデルが利用可能で、すべてダウンロードでき、インストール用のコードはここにあります。これらすべては、説明欄に記載されているメインページから利用できます。
次は、Stability AI(Stable Diffusionの開発元)からの大きな話題となる新製品に移ります。彼らは普通の開発チームではありません。最大のオープンソースチームであり、最もオープンソースを提供しています。最近は少し減速していますが、消えてはいません。彼らが今日提供するAIをご覧ください。超コンパクト、超高速、そして特にオープンソースのオーディオジェネレーターをリリースしました。
Stable Audio Openは、単純なテキストプロンプトからAIが作成した音楽や効果音を作成できる小さな宝石です。専用のグラフィックチップなしでスマートフォンで直接実行できるように最適化されています。本当に誰でも使えます。
モバイルデバイスから7秒で12秒のオーディオを生成できます。つまり、携帯電話を持っていて、このAIを実行すると、12秒のオーディオを作成するのに7秒かかります。つまり、これは今日利用可能な最も高速でアクセスしやすいテキストからオーディオへのモデルの一つです。
具体的にはどのような結果になるのでしょうか?彼らが提供した例を見てみましょう。「ラテンファンクドラムセット、BPM 115、ステレオ」というプロンプトを入力しました。BPMは1分間の拍数、つまりメトロノームです。どのような結果になるか聞いてみましょう。
他に3つの例を提供しており、彼らの方法はArc hoursです。聞いてみましょう。どう思われますか?要求されたスタイルに忠実なだけでなく、ステレオであることで本当に音の空間化が行われています。ヘッドフォンやイヤホンで聴くと、それがわかります。
別の例として、今度は効果音の分野です。「高速でそばを通り過ぎるスポーツカー」というプロンプトを見てみましょう。結果を聞いてみましょう。ヘッドフォンで聴くと、左右のどちらかで聞こえるでしょう。空間化されているからです。
それが驚くべき点です。音の再生は没入型で、ダイナミックで、本当に驚くべきものです。編集をしている方や、特殊な効果音が必要な分野にいる方にとっては、これは状況を一変させます。ここに「パチパチ燃える火」の別の例があります。どのような結果になるか見てみましょう。
マシュマロを取り出したくなるようなキャンプファイアーの雰囲気をすぐに与えてくれます。繰り返しますが、リアリズムはそこにあります。私の意見では、リズムの精度も非常に印象的です。特定のスタイルで80拍/分とループを指定した場合、どうなるでしょうか。
ループであるという事実から、このトラックを取って連続して貼り付けることができ、最終的な結果は非常に印象的です。生成されたループは、オーディオ編集ソフトウェアに入れると、完全に80拍/分を守ります。
正直なところ、音楽を生成するためのはるかに重いモデルでさえ、指定されたBPMを守るのに苦労しています。ここでは本当に印象的です。さらに良いことに、参照オーディオクリップのスタイルをプロンプトに転送することができます。基本的に、別のオーディオを入力として使用できます。
この例を見てみましょう。彼らは参照オーディオを提供しました。聞いてみましょう。そして、このオーディオのスタイルを変更するプロンプトを入力しました。「ギターで115拍/分のマイナーコード」と指定しました。聞いてみましょう。AIは元のグルーブを保持しつつ、楽器を置き換えていることがわかります。
結果として、元の参照と同じリズム、同じ意図、同じ雰囲気を正確に守るギターが聞こえます。次の例を見てみましょう。これは素晴らしいです。モデルがプロンプト内のキーワードを本当に理解していることがわかります。最後に、非常に強力な機能として、オーディオからオーディオへの変換があります。
例えば、単純なドラムのリズムを使用して、それに完璧にマッチするベースラインを生成するようAIに依頼することができます。次にリズムギター、シンセのアップなど、様々な要素を追加できます。これが彼らが説明していることであり、プロンプトに多くの要素を追加できます。
結果を見て、聞いてみましょう。この分野を少し知っている者として、これはまさに多くの作曲家が待ち望んでいたものです。彼らの創造性に取って代わるのではなく(これはそのままでは音楽を作るために使用できません)、
彼らの創造性に取って代わるのではなく、最終的な音楽のために一貫性のあるステム、リズム、補完的で使用可能なものを提供するAIです。非常に興味深いです。お伝えしたように、すべてオープンソースです。上にあるすべてのモデルをダウンロード、インストール、PCで実行できます。
本当にNVIDIAのグラフィックカードは必要なく、どのグラフィックカードでも動作します。すべてを探索してみてください。さて、今週リリースされた4つの本当に素晴らしいツールを見てきました。どう思われましたか?どれが一番驚くべきだと思いますか?私にとっては間違いなく3Dモデルのものです。実際に購入すると数百ユーロかかるものを考えると、この分野で多くのことが変わります。また、
Gen 4やCling AIが数分かかり、有料で提供しているものを、10秒で生成する無料のビデオジェネレーターも印象的です。すべて非常に印象的です。動画が気に入ったら、まだチャンネル登録していない方はぜひ登録をお願いします。このチャンネルでは、すべての技術的なブレイクスルーをカバーしています。Xでもフォローしていただけることを思い出してください。そこではAIと技術の分野で起きていることをリアルタイムでカバーしています。
ニュースレターのリンクと研修のリンクが説明欄またはコメント欄にあることもお伝えしておきます。AIを学ぶ最高の時期は今です。特別オファーがある今、本当に参加してください。いつまで提供できるかわかりませんが、お待ちしています。
ここまで視聴していただきありがとうございます。次の動画、つまり明日までお待ちください。またすぐにお会いしましょう。

コメント

タイトルとURLをコピーしました