AI ニュース:新しい無料エージェントが俺の心を揺さぶってる

AIニュース
この記事は約32分で読めます。

この動画では、最新のAI技術とツールについて包括的に解説している。特に注目すべきは、新しいオープンウェイトモデルGLM4.5の登場、RunwayとLumaの動画編集AI機能、GoogleのVO3モデルの創発的行動、MidJourneyの新機能、そして各種AI画像生成・3D生成ツールの進化である。また、OpenAIのスタディモード、Photoshopの新機能、さらにはロボット技術の最新動向まで幅広くカバーしており、AI業界の現在の動向を俯瞰できる内容となっている。

AI News: New FREE Agent Is Blowing My Mind
-Everything you need to know that happened in the world of AI this week!Discover More:🛠️ Explore AI Tools & News: 📰 Week...

今週の注目:GLM4.5の登場

今週な、めちゃくちゃすごいオープンウェイトモデルが出てきたんや。それに加えて、かっこええ動画編集ツールとか、一貫したキャラクターを約束するAI画像生成器とか、今週はほんまに盛りだくさんやったで。時間を無駄にしたくないから、早速始めていこか。

まずはこの新しい大規模言語モデル、GLM4.5から話していこうや。最初にこのモデルに出会った時は、正直言うて動画の後半に回そうと思ってたんや。なんでかっていうと、既存のもんと比べて微々たる改善しか見せへんモデルにはあんまり興味ないからな。

でもこのGLM4.5モデルを見てみると、これはオープンウェイトモデルやから、重みをダウンロードして自分のコンピューターで使うこともできるし、クラウドコンピューターで動かして好きなようにいじることもできるんや。そして現在の最先端モデルと肩を並べる性能を持ってるんやで。

このベンチマークチャートを見てもらったら分かるけど、GLM4.5はGrok2やChatGPTのo3とほぼ同じくらいの性能を発揮してて、エージェント的な推論とコーディングのベンチマークではClaude 3.5 Sonnetよりも良い結果を出してるんや。もちろん、俺は個人的にベンチマークにはあんまり注目せえへんようになってきてる。使ってみて純粋に感動するかどうかが大事やと思ってるからな。

そしてこのモデルを初めて使ってみた時、ほんまに感動したんや。特に誰でも自由に使えるオープンウェイトモデルとしては驚異的やった。Z.aiにアクセスすれば完全無料で使えるで。

GLM4.5の驚異的な機能

このモデルの面白い芸当の一つが、スライドデッキを作成できることなんや。AIスライドを選択すると、画像検索、ウェブ検索、スライドメーカーを使って実際にスライドデッキを作ってくれるんやで。

試しに「鳥は実在しない」っていうスライドデッキを作ってもらったんや。そしたら見てくれ、俺のためにこんな研究をしてくれて、スライドデッキを作り上げたんや。

「鳥は実在しない」運動について情報を検索して、Wikipediaにアクセスして、続けてWikipediaを読んで、ニューヨーク・タイムズにアクセスして、60分の記事を読んで、関連画像を検索して、運動の創設者の画像を検索して、それからスライドデッキの作成を始めて、1枚目、2枚目、3枚目のスライドを作成していったんや。

そして最終的に出来上がったのが、ほんまに俺を感動させるスライドデッキやった。「鳥は実在しない:風刺的陰謀論」っていうタイトルで、説明も入ってる。俺はこの小さな格言が気に入ったわ「飛ぶものがあれば、それはスパイする」ってやつや。創設者についての詳細と起源、そして創設者の写真まで入ってて、引用文と詳細情報まで載せてくれてる。

主要な主張と証拠も載せてて、実際にここには偽の鳥の写真があって、陰謀の詳細と提示された証拠、成長と文化的影響、100万人のフォロワーってことまで書いてある。これらのスライドは実際にちゃんとしたスライドに見えるで。

比較のために、数週間前にChatGPTにスライドデッキを作らせたんやけど、これがその時に生成されたスライドデッキや。見ての通り、スライドは全部白い四角に黒いテキストが書いてあるだけや。確かにチャートとかもあるけど、この新しいモデルが作ったスライドデッキとは全然比べ物にならへん。

俺にとって、これらのスライドはほんまにすごく見えるわ。

コーディング能力のテスト

コードを書くのもめちゃくちゃ上手で、作りたいアプリをワンショットで作ってくれるんや。例えば、「ブラウザで遊べるVampire SurvivorsのクローンをJavaScriptで作って」っていうプロンプトを投げてみたんや。

このプロンプトを送信すると、これは思考モデルやから考えてから、俺のためにコードを書き始めるんや。やってる間に言っとくけど、このモデルはめちゃくちゃ速いし、今のところ完全に無料で使えるんや。支払いを求められた場面は一度もない。俺は彼らのウェブサイトで彼らのサーバー、彼らのクラウドを直接使ってるけど、一切支払いしてへん。

彼らはAPIも提供してるから、おそらくAPIを使ってもらうことで収益を上げる予定やと思うけど、ここにゲームができたで。これはワンショットで作られたんや。小さな光る円が作られて、俺に近づいてくる敵にダメージを与えてるのが見える。敵を避けることもできる。

もちろんVampire Survivorsのグラフィックスはないで。俺はグラフィックスを何も提供してへんからな。でも概念はそこにある。敵の群れがキャラクターに向かってきて、キャラクターは自動で武器を撃って近くの敵にダメージを与える。そして小さなXPポイントを集めるんや。

そしてナイフ投げを選んでみよう。実際にナイフを投げるかどうか見てみよう。見てくれ、ナイフを投げてるやん!そして今度は4つの異なる方向に撃つ武器を手に入れて、レベルアップしてる。ガーリックを使ってみたら、うまくいった。これは一発で作られたんや。俺は他に何のプロンプトも出してへん。

だから今、俺が望むなら、すべての小さな点を実際のキャラクターグラフィックスに置き換えることができるけど、Vampire Survivorsライクな弾幕スタイルのゲームの実際のゲームプレイは動作するんや。一つのプロンプトで動いたんや。

ほんまにめちゃくちゃ良いんや。そしてこれがオープンウェイトモデルやで。このモデルは今俺の心を揺さぶってる。また言うけど、俺は既存のものより微々たる改善しか感じられへん新しい大規模言語モデルが出た時は、細かいところまで入り込まへん傾向があるんやけど、これは特にオープンウェイトモデルとしては、遥かに印象的に感じるわ。

ほんまにめちゃくちゃかっこいいモデルや、GLM4.5。Z.aiで遊んでみることができるで。ログインは必要やけど、Googleログインを使って入ることができる。ほんまにめちゃくちゃ印象的やで。

AI動画編集の新時代

次に、AI動画編集について話そうや。Runwayが新しい機能「ALF」をリリースしたんや。多分ALFやと思う。この機能では、動画を読み込ませて、その動画について何を編集したいかを伝えると、その部分だけを編集してくれるんや。

俺のRunwayアカウントにログインすると、これは有料アカウント全てに展開されてるはずや。無料アカウントには入ってへんと思うけど、月額有料プランのどれかに入ってたら使えるはずや。そしてチャットモードで使うことを推奨してる。

動画を与えてみよう。このTop Gun Maverickのクリップを与えて、空の代わりに宇宙を飛び回るようにしてみよう。まずはそれを試してみよう。

「これを宇宙に置いて、エイリアンの宇宙船に追われるようにして」っていうプロンプトを与えてみよう。どうなるか見てみよう。

こんな感じになった。確実に宇宙にいるな。エイリアンの宇宙船は見えへんけど、ジェット機を宇宙に置いてくれた。

あそこの小さな光、俺が画面を指差してるけど君らには分からへんやろうけど、あれがエイリアンの宇宙船かもしれへん。ジェット戦闘機に乗った男が宇宙を飛んでるのはかなり良い仕事してくれたけど、エイリアンの宇宙船はよく見えへんな。それでもかなり印象的やで。

今度はFlashのこのクリップを試してみよう。テーブルの上に赤ちゃんがいっぱいいるけど、赤ちゃんを巨大なサンドイッチに置き換えてもらおう。このクリップを入れて。「赤ちゃんを一つの巨大なホギーサンドイッチに置き換えて」。

こんな感じになった。うまくいった。2、3人の赤ちゃんはそのまま残ってるけど、うまくいった。これは全く同じままで、それからFlashに切り替わって、巨大なサンドイッチを見せてて、サンドイッチの隣にまだ2、3人の赤ちゃんがぶらぶらしてる。でも、うまくいった。やるべきことはやったで。かなり楽しいな。

The Shiningのテスト

今度は、The Shiningのこの象徴的なクリップを試してみたい。ドアを叩き割ってるシーンやけど、ドアを叩く代わりに木を叩くようにしてもらおう。これを入れて、「男が森で木を叩いてる」っていうプロンプトを与えよう。

まあ、これは少し軌道から外れたと思うわ。俺が予想してたのとはちょっと違うけど、大部分では、何かがいる環境を変えるのはほんまに得意みたいや。空にいる誰かを宇宙に置いたり、動画内の単一の要素を変えたり、赤ちゃんをサンドイッチに置き換えたりとかな。

でも、全体のシーンを取って、ドアを叩く代わりに木を叩くようにするのは、うまくいかへんかったみたいや。それでも、このモデルでできることの可能性はたくさん開けるで。

Xで見た中で、ほんまにかっこよくて楽しい使用例がいくつかあるんや。例えばここのChristopherは基本的に「女性を取り除いて目だけ残して」っていうプロンプトを与えて、元の動画では女性が立ってたのが、今では目だけが浮いてるっていう結果になってる。

既存の動画の角度を再構成するのがほんまに得意らしい。Omryはここで言ってる、「RunwayのALFの俺のお気に入りの機能の一つは、新しいカメラアングルと次のショット生成を組み合わせる方法や」って。

元の動画では二人がお互いを見てるけど、そこから男性が話してる新しいアングル、女性が話してる別のアングル、そして男性がアボカドを使ってプロポーズするアングルを作ることができた。そして全部この元の動画に基づいてるんや。ほんまにかっこいい使用例やな。

Luma Labsの類似機能

会社のLuma Labsも今週、「modify with instructions」っていう類似の機能を展開した。同じような発想に見えるな。入力動画を与えて、何をしたいかの指示を与えると、その方法で動画を変更してくれるんや。

環境を変えることができる。ダンスの動画を取って、他の人がダンスしてるシーンに変えたり、照明を変えたり、同じような種類のことができるんや。俺も同じような概念でテストしてみた。

Top Gun Maverickのクリップを取って、「宇宙に置いて、エイリアンの宇宙船に追われるようにして」って言った。まあ、これは実際にかなり良い仕事をしてくれた。左側でジェット機が飛び回ってるのが見えて、両方で実際に彼の後ろに宇宙船が見えて、追いかけてるように見える。そして音も保持してくれた。これらの上にホバーすると、音が聞こえるで。

だからこの特定のプロンプトに対しては、そのクリップを取って宇宙に置いて、エイリアンに追われるようにするのは、かなりまともな仕事をしてくれた。

そして2番目のものを与えたら、まあそれは少し軌道から外れたな。女性が叫んでて、それから巨大なサンドイッチがあって、それから女性がまた叫んでる。でも全部を再構成したみたいや。完全に違うシーンに見える。Flashはいなくなった。実際にはFlashの代わりにピンクの女性がいる。

サンドイッチの中に赤ちゃんの頭みたいなのが入ってた。だから全然うまくいかへんかった。

そしてThe Shiningのショットで木を叩くはずのところを与えたら、同じ動画をリスキンしただけみたいになって、違う環境でドアを叩いてるように見える。

Luma Dream Machineの強度調整機能

Luma Dream Machineについて気づいたことの一つは、modifyをクリックして動画を与えると、強度を調整できることや。強度を最大にすると、元の動画を全然フォローせずに、ほぼ完全に新しい動画を作るようになる。

そして最小にすると、このShiningの動画で見てるように、元の動画にかなり忠実にマッチして、環境がどんな感じかを少し変えただけになる。だから欲しい出力が得られるまで、それをいじって調整することができるんや。

でも、またLumaとRunwayの間で、今では任意の動画を取って調整することができる。人を異なる環境に置いたり、画像内のオブジェクトを変更したり、元の動画にはなかった追加のオブジェクトを加えたり。動画で本当にかっこいいことをする機会がたくさんあるんや。

Team Waterキャンペーンについて

ちょっと止まって、俺が結構重要やと思うことについて話したい。

きれいな水を当たり前に思うのは簡単やけど、それが蛇口から出てこない世界を想像してみてくれ。シャワーも、料理も、安全な飲み水もない。そして地球上の10人に1人にとって、それが日常の現実なんや。

だからこの動画では、Mr. BeastやMark Roberみたいなクリエイターが主導するTeam Waterっていう大規模なグローバルキャンペーンとパートナーシップを組んだんや。200万人にきれいな水を届けるために4000万ドルを集めることを目指してるんや。

このチャンネルは技術とAIと未来についてやけど、考えてみてくれ。みんなに利益をもたらさへん進歩に何の意味があるんや?きれいな水は地球上で最も影響力があって、スケーラブルな技術の一つや。健康、教育、生産性、さらには革新を支えるんや。

そしてこのキャンペーンは、ペットボトルの水を配ったり、適当に井戸を掘ったりすることやない。地域のコミュニティと協力して持続可能なインフラを構築することや。ソーラー駆動のポンプ、配管された水システム、さらにはスマートろ過と遠隔監視技術もな。

たった1ドルで一人に1年間のきれいな水を提供できる。そして20ドルで何十年ものきれいな水を提供できるんや。だから俺は個人的に1000ドルを集める目標を設定したけど、君らの助けでそれを粉砕してもっと大きく行きたいと思ってる。

だから本当に意味のあることの一部になりたいなら、持続可能な技術を使って現実世界の問題を解決することなら、説明欄のリンクをチェックしてTeam Waterに貢献してくれ。

1ドルでも大切やで。水は俺たち全員をつなげるもので、未来はみんなのために構築されるべきやからな。支援をお願いするで。

GoogleのVO3モデルの創発的行動

さて、話を戻そう。次のことはGoogleから出た新しいニュースではないんやけど、彼らのVO3モデルから創発的行動を発見したんや。

創発的行動っていうのは、基本的にモデルの作成者が期待してへんかったことをモデルが始めるようになったことで、なんでそうなるのか正確には分からへんのやけど、実際に画像を取って、動画で何が起こってほしいかを画像にテキストで書くと、動画がその画像に書いた指示に従うんや。

この元の画像が見えるやろう。「デューンバギーが高速で俺たちに向かって走ってくる、超高速。ヘリコプターが上から現場に降下してきて、熱い追跡で俺たちに向かって飛んでくる」って書いてある。そして下の部分で、車が君に向かってきて、カメラがズームバックすると、ヘリコプターがフレームに入ってくるのが見える。

別のアングルもある。「デューンバギーが俺たちから急速に遠ざかって運転してる。ヘリコプターが現場に降下してくる」。デューンバギーがそこで遠ざかって運転してるのが見えて、それからヘリコプターが現場に降下してくる。画像にテキストを追加して、ビデオモデルが画像のテキストが言ってることに従うっていう事実が、新しい興味深い行動なんや。

Techalaがまとめたこの素晴らしいスレッドで、いくつかの例があるんや。「男が巨大な亀に飛び乗ってそれに乗る。巨大な亀は男を背中に乗せて海に向かって歩く」。それに従ってるのが見える。亀に飛び乗って、亀が海に向かって歩き始める。

別の例、「男がワニに飛び乗る。ワニが口を開ける」。これが生成されたものや。男がいて、ワニに飛び乗って、ワニが口を開ける。

ただし、この方法で動画を生成する時に気づくことの一つは、テキストが実際に動画の最初の数フレームで画面に残ってて、それからフェードアウトすることや。だからこの映像を使うつもりなら、おそらく数フレーム早送りしてから、編集してる他のものからそこから動画を始める必要があるやろう。そうすれば動画に最初のテキストが入らへん。

VO3での実験

これをテストしてみたいと思うんや。実際にLeonardoでここに画像を作成した。Leonardoの新しいLucid Originモデルを使った。これは真新しいモデルや。文字通り俺がこの動画を録画してる日にLeonardoに展開されたんや。そしてほんまに良いモデルや。俺はちょっと偏ってる。Leonardoに株式を持ってるからな。でもこのモデルは真新しい。

だからニュースについて話してるなら、まあ、それがニュースや。LeonardoがLucid Originをリリースしたんや。弓矢で月を狙ってる男の画像を作った。これを取って、テキストで注釈を付けて、他の人がVO3から得てるようなことをVOがやってくれるかどうか見てみよう。

Photoshopでこれを開いて。今Windowsにいたら、おそらくMicrosoft Paintで開くやろう。それで十分や。長方形ツールを使って、長方形の中にテキストを入れよう。1番、矢が燃えてる、って書こう。実際に読めるように白いテキストにしよう。月に向かって矢を描こう。

だから月に向かって撃ってるみたいな感じや。それから月のそばに「月が燃える」って書こう。この四角は実際に必要かどうか分からんから、削除しよう。だから理想的には、矢が燃えてる。矢が月に向かって撃たれる。月が燃える。VOが俺が何をさせようとしてるか理解できるかどうか見てみよう。

フローに飛んで。フレームから動画をやろう。今作った追加のテキストが入ったフレームを選択して。プロンプトを与えよう「最初のフレームの白い指示を即座に削除して、順番に実行して」。

だから俺がやってるのは、指示を削除して、見えた指示を実行するように言ってるだけや。それでできるはずや。どうなるか見てみよう。

まあ、全然うまくいかへんかった。4つの異なる動画を返してくれたけど、どれも俺が欲したことをしてくれへんかった。これが最初のやつ。火がただ飛び回ってる。2番目。

燃える矢が必要やっていう事実は分かってくれた。それは良い。でも月を燃やさへんかったし、炎は大体いつも男のところに戻ってきた。でも俺の指示を削除して、矢を毎回燃やしてくれた。V3でちょっと楽しい小技やな。明らかに俺は最初の試行では成功させへんかったけど、アイデアは分かってもらえるやろう。

画像を取って、画像にテキストを追加して、理論的には画像のテキストに書いた指示に従ってくれるんや。

MidJourneyの新機能

MidJourneyのファンなら、開始フレームと終了フレームの両方を追加できる機能が展開されて、これはほんまにかっこいいで。いくつかの可能性が開けるからな。

開始フレームと終了フレームを与えて、一つのフレームから終了フレームまでアニメーションするのを見ることができる。または実際に動画の始まりと終わりの両方に同じフレームを与えることもできて、それでループ動画ができる。その最初のフレームに戻るループ動画になるんや。最初と最後の両方にそのフレームを使ったからな。ほんまにかっこいい機能や。

MidJourneyにいて、ここでcreateをクリックして、左上のadd imagesをクリックすると、開始フレームがある。でも開始フレームを選択すると、終了フレームも選ばせてくれるんや。

俺がいつもやりたかったことの一つで、どのモデルにもやらせることができへんかったのは、俺が狼に変身する画像を作ることや。狼男みたいにな。だからここで狼の画像をいくつか作った。

これをダウンロードして、終了フレームとして使おう。add imageをクリック。開始フレームを選ぼう。既にアップロードした自分の画像を選ぼう。このヘッドショットを使おう。終了フレームがあるのが見える。終了フレームには、今作ったこの狼の画像をドラッグしよう。

俺の顔の狼の画像。それからプロンプトを与えよう「男が狼に変身する」。生成してみよう。実際にやってくれるかどうか見てみよう。

まあ、4つの動画を生成してくれたけど、どれもうまくいかへんかった。全部俺の頭の上に狼の頭を作るだけや。だから象徴的な狼男映画で見るような、男が狼に変身するビジュアルをこれらのビデオ生成器の一つに作らせることは、まだできてへん。

飛行機の画像もいくつか生成した。アイデアとしては、一つの空港にいる飛行機の画像、別の空港にいる飛行機の画像を取って、実際に点と点を結んで、一つの空港を出発して他の空港に行くように見せることができるかどうかや。これがうまくいくかどうか全然分からんけど、どうなるか見てみよう。

これが気に入った。この画像をダウンロードしよう。それからこれを取ろう。midJourneyに戻ろう。飛行機の一つを開始フレームとして追加。他の飛行機を終了フレームとして追加。プロンプトを与えよう「飛行機が一つの空港から離陸して、国を横断して飛んで、別の空港に着陸する」。もう少し明確にするためにUSAを横断して飛ぶって言おう。どうなるか見てみよう。あんまり期待してへんけど。

まあ、これができることの限界をテストしてるみたいやな。全然うまくいかへんかった。飛行機をただ回転させただけで、一つの角度から飛行機がただひっくり返って、鼻が反対側になっただけや。何を期待してたか分からん。

5秒の動画しか生成せえへんのやから、でも俺が望んでたことは全然やってくれへんかった。でもこれが何をできるかのアイデアは分かってもらえるやろう。開始画像と終了画像を与えて、その二つの間をアニメーションする何らかの方法を見つけ出してくれるんや。その二つの間をアニメーションする方法に論理や本当の物理法則が全然なくてもな。

ループ機能のテスト

最後のテストでは、ループをテストしてみたいんや。Leonardoで消火器を持った俺の画像を生成した。火が起きて、俺が火を消して、火が起きて、俺が火を消して、無限にループするループ動画を作ることができるかどうか見てみよう。

最初の画像をここに追加しよう。今作った画像を入れよう。それからここでloopを選択すると、同じ画像を開始フレームとして使ってるのが見える。「火が起きるべきや。俺が火を消すべきや。それからループするべきや」って言おう。まあ、理論的にはそうなるはずや。提出して、ループで何が起こるか見てみよう。

これが生成した例や。消火器はそんなことをするはずやないと思うんやけど。確実にループはしてるけど、俺がMidJourneyがクソなのか何かで、何か間違ったことをしてるのか分からん。MidJourneyから信じられへんほど印象的な出力を得ることができてへん。

こういうことができるのはかっこいいけど、俺はMidJourneyのプロンプトがクソなのか何かやと思う。最近、MidJourneyとそのビデオから得る出力の種類にあんまり感動してへん。なんで火を起こして、消火器を使って消すだけやないんや?その背後の論理を少し理解してへんみたいや。MidJourneyに対して何もないで。俺がクソなのか何かやと思う。

IDOGRAMの顔交換機能

会社のIdogramが新しい機能をリリースした。一つの入力画像だけを使って、任意の顔を任意の画像に置くことができるんや。そして現時点では完全に無料でできるはずや。

Idogram characterを試してみよう。写真を一枚アップロード。magic fillで簡単にキャラクターを配置。リミックスで独特の構成に完璧に動作する。やってみよう。

顔を追加することから始める。既に持ってる画像をアップロードしよう。ここには既に存在する画像に自分のヘッドショットを取って置くことができるテンプレートがたくさんある。例えば、このロックギタリストのイラストを取って、generateをクリックすると、ロックスターとしての俺の写真を何枚か手に入れる。どれも結構まともに見える。一枚の画像をアップロードするだけでこれは印象的やで。

過去にstable diffusionとかでは、どんな風に見えるかを学習させるために少なくとも20枚の画像をアップロードせなあかんかった。既存の画像にも俺らの顔を交換できるはずや。

例えば、オスカーでのこの有名なセルフィー画像を取れる。俺の顔をキャラクターリファレンスとして残したまま、この画像を開く。ここでmagic fillを使える。それからBradley Cooperを俺の顔に置き換えよう。Bradley Cooperの顔をこんな風にマスクアウトしよう。Nextをクリック。理論的には、Bradley Cooperを俺に置き換えるはずや。

まだプロンプトを入力することを求めてる。「グループセルフィー」ってやろう。どうなるか見てみよう。

ほら、俺がこの象徴的なセルフィーの中にいる写真ができた。何枚かの写真や。だから、俺がEllen DeGeneresやKevin Spaceyとぶらぶらしてる写真がインターネット上にあるってことや。それに何の問題もないやろ?

David Lettermanにインタビューされた時の俺の写真が何枚かある。そこでもプロンプトを変えてへん。まだ「グループセルフィー」って言ってて、うまくいった。テキストプロンプトは必要やないと思うけど、それなしでは送信させてくれへん。

両手で同時に独立宣言書にサインした時の写真もある。このIdogram characterの機能はほんまに印象的やで。

以前は20枚の画像をアップロードして、何度も何度も試行して顔を置き換えるようにせなあかんかったことを考えると。今では顔の画像を一枚アップロードして、顔を交換したい画像をアップロードするだけや。めちゃくちゃ簡単になった。

Meshy 5の3Dモデル生成

会社のMeshyがMeshy 5の新しいバージョンを展開した。より賢く、よりきれいなモデルを作るんや。Meshyを知らへん人のために説明すると、プロンプトや画像を与えることができるツールで、実際にその3Dモデルを作成してくれるんや。

Meshy.aiにアクセスすると、text to 3D、image to 3D、AI texturing、text to imageといった様々なオプションがある。

AIモデル用にtext to 3Dから始めよう。真新しいMeshy 5 previewを試してみて、全部のせのピザを生成できるかどうか見てみよう。ピザの上の小さなトッピング全部でどれだけ詳細になるか見てみよう。generateをクリック。

実際に選択できる4つのドラフトを生成してくれた。左下のやつが一番詳細に見える。それを選択しよう。色とかも追加するテクスチャーも生成してもらおう。どうなるか見てみよう。

これは実際にかなり印象的やで。全部のせピザの3Dグラフィックを生成した。どんなトッピングか確実には分からん。サワークリームかモッツァレラボールか何かに見えるけど、でもな。ビデオゲームでこれを見たら、かなりリアルで詳細なピザに見える。これには感動した。

image to 3Dを試してみたい。Rick and Mortyからの詳細がたくさんあるこの画像を持ってる。レストランの内部みたいなもんや。3Dでこれを作るのに苦労すると思うけど、限界をテストしてみたい。どうなるか見てみよう。

この画像をここにドラッグしよう。Blips and chits arcade AI model mesh 5。生成してみよう。どうなるか見てみよう。

これが生成したもんや。右下のやつは実際にそんなに悪く見えへん。試してみよう。

俺が期待してたよりもはるかに良くやってくれた。すごいってわけやないけど、この場所の内部のモデルをマッピングして、全然ひどく見えへん。ゲームで使うにはまだ準備ができてへんけど、俺が与えた元素材に対してはほんまに悪くない。

Rick and Mortyの宇宙船

最後にもう一つ試してみたい。実際のRick and Mortyの宇宙船をやってくれるかどうか見てみたい。この宇宙船を持ってる。宇宙船の3Dモデルを手に入れられたらほんまにかっこいいやろうな。将来の動画で3Dプリントとかもできるかもしれん。

それを使ってみよう。俺らのために何をしてくれるか見てみよう。

これが生成したもんや。すごいってわけやないな。特に下を見ると問題がある。少し透けて見える。でもひどくはない。Meshy 5は実際にかなり印象的やで。俺のピザモデルがおそらく最高のモデル生成やった。これでこんなに良くやってくれたのは超びっくりした。Rick Mortyの宇宙船を手に入れた。

俺がこれを3Dプリントして自分でペイントしたら、おそらくかなり近く見せることができるやろう。

Tencent Hunyuan 3D World Model

今週、Tencent Hunyuanから新しいモデルが出た。実際にはHunyuan 3D world modelっていうオープンソースモデルや。テキストプロンプトや画像プロンプトを与えることができるモデルで、実際にその世界内で探索できる世界を作成するはずや。

このHunyuanページで試すことができる。リンクは説明欄に入れとくで。Tencentのウェブサイトにログインすると、上の方に3D world modelがあって、いくつかのオプションがある。

最初から世界に入れてくれる。どうやって動き回るか分からん。ズームインとアウトはできる。これは360度で、roaming sceneがある。これを選択すると、その中を動き回れると思う。

このシーンを作成して、実際にW A S Dキーを使って前に動くことができる。あんまり遠くには動けへん。画面に青いアウトラインがあるのが見える。それが後ろに動ける限界や。前に動くと、青いアウトラインに到達する。それが前に動ける限界や。

だからあんまり動きの自由はない。下でテキストプロンプトを試してみよう。「2500年のサンディエゴ市」ってやってみよう。どうなるか生成してみよう。

まあ、既存のシーン以外は明らかにこれ以上テストできへん。自分のプロンプトを入力しようとすると、待機リストに登録するように言われる。

かなりかっこよく見える。もう少し深く探索できたらいいのにと思うけど、少ししか動けへん。待機リストから外れたら遊んでみるのが楽しそうや。

OpenAIのStudy Mode

今週、OpenAIとChatGPTから小さなアップデートがあった。study modeを導入したんや。これは数学の問題とかの問題を与えた時に、必ずしも答えを与えるためやなくて、実際に答えにたどり着くのを助けて、問題を通して作業してくれるモードや。

ChatGPTアカウントでtoolsをクリックすると、「study and learn」のオプションが見える。宿題のヘルプのためにデザインされてる。近寄りやすいガイド付きの説明で複雑な問題を分解、テストの準備、新しい科目の探索。

試してみよう。12年生の数学問題をざっと調べた。50フィートのビルの頂上からボールが初速64フィート毎秒で上向きに投げられる。t秒後の地面上のボールの高さはこの方程式で与えられる。

ボールが最大の高さに達するのにどれくらいかかるか?ボールが達する最大の高さは?ボールが地面に当たるのはいつか?

これを送信すると、理論的には答えを教えてくれへん。

素晴らしい。ステップバイステップで分解しよう。君は既に高さ関数を持ってる。これは時間に対するボールの高さをモデル化する二次方程式や。ここで説明してる。

質問1。下向きに開く放物線がその頂点、最高点に達する時間は、この一つのように、この公式で与えられる。aとbの値を代入してtの値を教えてくれる?

答えを教えるんやなくて、それらを通して歩くのを助けようとしてるのが見える。

今この動画で数学をやる気分やないけど、これが何のためにデザインされたかの簡単なデモを見せたかったんや。

Photoshopの新機能

最後のデモでは、今週Photoshopにいくつかのかっこいい新機能がある。低解像度の画像を大幅にアップスケールできる新しいgenerative upscale機能を展開した。

全然違う照明の2つの画像を取って、それらを合成して、スタイルをマッチアップしようとするharmonize機能を追加した。改良されたremoveツールみたいな他の機能も展開した。

これらの新機能を使うためには、Photoshop betaバージョンを使う必要がある。Creative Cloudを持ってるなら、標準のPhotoshopやなくてPhotoshop Betaを使ってることを確認してくれ。betaをクリックしてくれ。

オンラインで見つけたビーチにいる男の画像を持ってる。これは100%や。アップスケールが使える。

上のimageに来て下に来ると、generative upscaleが見える。これを選択しよう。3倍でアップスケールしよう。ここでupscaleをクリック。

今、この画像のはるかに大きく、よりアップスケールされたバージョンができた。この男を取って、タイムズスクエアのこの写真に置きたい。見ての通り、これは夜で紫色の色合いが後ろにある。だからこの男はその画像であんまり良く見えへん。

背景を削除することから始めよう。背景が削除された。command Aで全部選択して、command C。タイムズスクエアに貼り付けよう。この角に置こう。この男はタイムズスクエアにいてめちゃくちゃ興奮してる。

下にharmonizeっていう新しいボタンが現れたのが見える。これをクリックすると、彼がこのシーンにフィットして、照明がマッチアップしてすべてが合うように見えるはずや。どうなるか見てみよう。

今、夜みたいに見えて、これらの光が全部彼に赤い光を投げかけてて、タイムズスクエアで写真を撮ったように見える。ここで他のバリエーションもいくつかくれた。より良いのがあるかどうか見てみよう。

これが一番自然に見えると思うけど、それがharmonize機能のやることや。一緒に行くべきやない2つの別々の画像を取って、それらを一つの画像に結び付けて、それらが機能するように色と照明を調整してくれるんや。

それがAdobeが展開した新機能の一部や。

今週の他のニュース

今週出たデモ可能な製品がたくさんあって、テストするのがほんまに楽しかった。でも、出てきたニュースはそれだけやない。今週起こった他のことで君らが興味を持つかもしれへんことがいくつかあるけど、あんまり深く入り込みたくないから、簡単なラピッドファイアセクションをやろう。

GoogleがAI modeをイギリスで展開した。これはアメリカでは数週間、数ヶ月間Google Searchの機能として使えてたけど、今イギリスでも使えるようになった。写真を撮って写真が見てることについて質問できるマルチモダリティモードも含めて、かっこいいこととかな。イギリスで使えるようになった。

Notebook LMがvideo overviews機能を展開してる。覚えてるかどうか分からんけど、前の動画でNotebook LMで遊んで、「鳥は実在しない」についてのポッドキャストを作らせた。今度は「鳥は実在しない」についてのポッドキャストを作ることができて、実際にスライドショーが付いてくるんや。

デモ動画では、Google Vidsを使って、今生成したnotebook LMの音声で話されてることについてのスライドを実際に作成してる。

Googleからのこの記事を見ると、video overviewsは英語で全ユーザーに展開中って書いてある。でも俺自身のNotebook LMアカウントにログインしても、まだその機能は見えてへん。録画時点では完全に展開されてへんのやろう。

MicrosoftのEdgeブラウザを使うのが好きなら、今Edgeの中にco-pilot modeがあって、ブラウザにもっとエージェント的な機能を追加してるみたいや。PerplexityのCometブラウザ、Diabrowser、OpenAIが近々エージェント的なタスク用にデザインされた独自のブラウザを展開するって見てきた。

MicrosoftのEdgeも同じようなことをしてて、君の代わりにブラウザでアクションを取ってくれるんや。

俺はまだこれをテストしてへんけど、ほとんどのブラウザがそういう機能をかなり近いうちに持つようになりそうや。

今週、AmazonがFableっていう会社に投資した。AIのNetflixになろうとしてる会社や。Amazonが投資したことには興味ないけど、実際の技術の方に興味がある。

基本的にNetflixみたいなもんで、欲しいショーのコンセプトを教えると、そのショーのエピソードを生成してくれるんや。8秒のビデオクリップやなくて、これらのショーの20〜30分の完全なエピソードを生成するんや。

この初期バージョンでは、自分のショーを生成することはできへんみたい。概念実証として作成したいくつかの生成されたショーがある感じやけど、将来的にはショーのアイデアをプロンプトして、そのショーのカートゥーンバージョンを生成できるようにしたいらしい。

リアルなもんは何もない。全部かなりカートゥーンに見えるけど、それがその背後のアイデアや。そしてこの会社は実際にDisneyやUniversalみたいな会社からIPをライセンスしようとしてるらしい。

だからToy Storyの世界で起こった何かについて30分のエピソードを生成してって言えて、ライセンスを持ってて、それらのショーでトレーニングされたデータを持ってるから、似たようなエピソードを作ることができるんや。

人々が見たがる新しいジャンルのショーを作ることができると思う。コンセプトはほんまに興味深いし、こんなことができるのはほんまに強力やと思う。でも俺はまだAI生成のカートゥーンを見たいとは思わへん。人間の方がまだはるかに良いストーリーテラーやと思う。

でも時間の問題やと思う。正直なところ、どうなるか見てみよう。AIも人々が見たがるストーリーを語るのがほんまに上手になって、かなり早くその点に到達するやろう。

HIGSFIELDの大発表

今週Higsfield AIもかなり大きな発表があった。AI動画モデルHaloをみんなに無料で提供するんや。「無制限の無料生成でMinimax Haloをみんなに提供してる」って書いてある。

Halo AIは優れたAI動画モデルの一つや。数週間前の俺の動画を見てたら、VO3の使い方をデモしてて、VO3でプロンプトがうまくいかへん時はいつもHaloでやってた。Haloは基本的に何でも生成する。

音は生成せえへんけど、ほぼ検閲されてへんくて、欲しいコンセプトなら何でも生成してくれる。Higsfieldがその技術を誰でも無料で利用できるようにしてくれるのを見るのはほんまにかっこいいで。

ウェブサイトに行くと、one week onlyって書いてある。ちょっと不明やな。1週間無制限でHaloを無料で使えて、それから有料プランの一つに入らなあかんってことやと思う。

料金表を見ると、無料プランでは1日5クレジット。下にスクロールして無料プランの動画を見ると、無料プランでは1日最大1回のHigsfield生成って書いてある。

これが1週間後も続くかどうか分からん。この1週間だけHaloを無料で使えるってことやと思う。

その他のアップデート

Cursorが新しい機能をbug botに展開した。変更を自動的に分析して、本番に入る前に論理バグ、エッジケース、セキュリティ問題を見つけるコードレビューエージェントや。まだテストしてへんけど、cursorにとってはかなりまともなアップグレードみたいで、コードのバグを見つけるのを助けてくれる。

この話はほんまに面白いと思った。OpenAIのChatGPTエージェントが「私はロボットではありません」検証テストをさりげなくクリックする。

このスクリーンショットで見えるけど、エージェントに何かをしに行くように言えて、ロボットやないことを確認するためにボタンをクリックしなあかんこれらの検証のうちの一つに遭遇すると、AIが実際にそのボタンをクリックして、ロボットやないことを確認してくれる。めちゃくちゃ面白いと思った。

ロボットで終わり

最後に、ロボットで終わろう。俺はロボットが大好きやからな。ロボットが嫌いな人なんているか?

Figure Roboticsの創設者Brett Adcockからのビデオがある。Helixロボットを使って実際に洗濯をしてる。これは多くの人が支持できることやと思う。洗濯をしてくれるロボットを多くの人がほんまに感謝すると思う。

乾燥機から取り出した後に実際に洗濯物を畳んでくれるロボットを見せてくれたら、ほんまに感動するで。服を取って洗濯機や乾燥機に入れる機械的な動作は、人々が抱える最大の悩みやないと思う。

大体は乾燥機から取り出して、縮ませたくないものを吊るして、乾燥機から出てきた服を畳むこととかや。洗濯かごから実際の洗濯機に移すことは、ほとんどの人が興奮することやないと思う。俺らはこれらのものが実際に乾燥機から取り出して畳んでくれることを望んでる。

でもここで見てるのは、その夢に一歩近づいたもんや。

最後に、家に自分のロボットが欲しいなら、Unitry R1ロボットをチェックしてくれ。これは5900ドルで売るロボットや。まだ大きな数字やけど、このロボットができることをするヒューマノイドロボットとしては、6000ドルはかなり安く感じる。

このロボットが側転できるのが見える。もっと側転。そう、もっと側転。逆立ちもできる。ロボットに逆立ちをさせる必要があるからな。正直、かなりかっこいい。

でも今のところ、これはどちらかというと新奇なもんみたいに感じる。俺のために洗濯をしてくれへん。皿洗いもしてくれへん。掃除機もかけてくれへん。空手キックができるのを見せる以外に、俺のために多くのことはしてくれへん。

あの手の形を見てくれ。なんであの形に手を作ったんや?どんなアダプターを作るかもしれへんか気になる。まあ、そこには行かんとこう。

とにかく、今日の分はこれや。今週はたくさんのかっこいいデモ、たくさんのニュースがあった。毎週楽しいことがたくさん話せる。今週は特にかっこいいツールがデモできて楽しかった。

うまくいけば、君ももっとループに入った感じがするやろう。これらの動画の俺の目標は、先週できへんかった今週できることを見せて、AI世界から出てくることの含意を共有することや。

こういうのが好きで、もっと見たいなら、この動画にいいねして、このチャンネルを登録してくれ。こういうのがもっと君のYouTube フィードに現れるようにして、AIでできる最新のかっこいいことについていつもループに入ってる感じにするで。

また見てくれてありがとう。俺と一緒にオタクしてくれてありがとう。うまくいけば次のやつで会えるで。バイバイ。

今日俺と一緒にオタクしてくれてほんまにありがとう。こういうビデオが好きなら、いいねしてこのチャンネルを登録してくれ。こういうビデオがもっと君のYouTube フィードに現れるようにするで。まだやってへんなら、futuretools.ioをチェックしてくれ。最もかっこいいAIツールと最新のAIニュースを全部共有してるで。素晴らしい無料ニュースレターもある。また本当にありがとう。感謝してるで。

コメント

タイトルとURLをコピーしました