本動画は、2024年末時点における最新の画像・動画生成AI技術の詳細な比較と分析である。特にGPT Image 1.5とNano Banana Proの性能比較を複数の実例を通じて検証し、それぞれの長所と短所を明らかにしている。さらにFlux 2.0 Maxによる3本脚ロボット生成の成功、Quenによるレイヤー分離技術、Decart AIの軌跡指定動画生成、Luma LabsのRay Trace Modify機能など、画像・動画生成分野における革新的な技術を紹介している。加えて、ワールドモデルの発展、特にHI World 1.5やNitrogenといった新技術、そしてGoogleのFunction Gemaという300MBの超小型モバイル特化型AIモデルについても解説する。2026年が画像・動画生成AIの飛躍的進化の年になると予測し、映画制作からロボティクスまで幅広い応用可能性を示唆している。

GPT Image 1.5とNano Banana Proの激しい競争
皆さん、GPT Image 1.5がNano Banana Proより優れているのか劣っているのかを巡って、かなり激しい議論が起きています。終わりのない混乱状態で、誰もどちらがより好きか、どちらがより劣っているかを決めかねています。そして皆さん、もしあなたが動画、画像、ワールドモデル、そしてこれらすべての3D関連のものを扱うのが好きなら、来年は画像生成、動画生成、ワールドモデルなどの最高の年になることが約束されています。
そしてローカルモデルが好きな皆さんには、Googleからちょっとしたニュースがあります。Function Gemaです。その通りです。お見せします。一緒に来てください。
それでは皆さん、いつもいいねを押してくれた皆さん、チャンネル登録してくれた皆さんに感謝しています。このAIチャンネルをスポンサーしてくれているチャンネルメンバー全員に特別な感謝を申し上げます。
いつもお伝えしているように、メンバーの皆さんはインテリジェントエージェントの限定動画にアクセスできます。そこではWhatsApp統合、PDF読み取り、MCPなどの作り方を教えていますし、先行公開動画にもアクセスできます。もしあなたの会社にAIを導入したいけれど、データベース、LGPD(個人情報保護法)で頭を悩ませたくない、N8Nでフローを作るのに時間を費やしたくないなら、Maximiza IAはカスタマーサポートアシスタントの専門家です。彼らと話して、2026年にあなたの会社をAIの世界に導入してください。リンクは説明欄にあります。
詳細な画像比較分析
それで皆さん、今日のニュースはこれです。GPT Image 1.5がNano Banana Proより優れているか劣っているかという論争です。ちなみに、GPT Image 1.5というこの名前は、ひどい名前ですね。いくつかの画像をお見せして議論しましょう。何が起きているかの主なポイントをいくつかお見せします。
そして皆さんが結論を出して、コメント欄に残してください。知りたいですから。さて、最初の生成がこれです。この人は2つの参考画像を送りました。この女の子の髪型、変な眉毛、すべてが輝いています。そして製品を送り、いくつかのことを求めるプロンプトを書きました。
私は要約して、異なっていたポイントに焦点を当てます。左側がNano Banana、右側がGPT Image 1.5です。さて、あるべきだったいくつかのこと。ここの女の子は、顔に変更があってはいけませんでした。それで、Nano Bananaでは彼女の髪が完全に白くなってしまいました。これは起きてはいけないことでした。この小瓶は頬になければならず、指輪がなければならず、指が見えなければならず、すべて正しくなっています。
どちらのケースでもうまくいきました。製品があり、ここに指があり、指輪があり、すべて完璧です。光は左から来るべきでした。そしてここ、Nano Bananaではとても正確です。光が左から入っているなら、影は右側にあります。一方、GPT Imageでは、光がここから来ているのがわかります。
これが瓶の影のようです。反対側から来ているようです。明らかにあまり意味がありません。そして照明はゴールデンアワーのものです。つまり、このベージュ系の色調で、この明るい白ではありません。GPTに現れるもう一つの詳細は、この黒いペンダントです。これがあるべきなのに、Nano Bananaの写真には現れていません。
比較すると、ベージュの背景は正しく、髪は維持されているので正しく、ペンダントは正しく、影は間違っています。影については、Nano Bananaが正解しました。広告を考えるときに最も意味があると思うことの一つは、手がChatGPTでのようになければならないということです。製品を見せて、女の子の体を覆わないようにすることです。
だから、このシナリオでは、Nano Banana Proが負けて、GPT Imageが勝ったと言えます。では、明らかにGPT Imageの方が優れていると思いますか。まあ、そうであってほしいのですが、人生はもう少し複雑です。そしてこの隣の生成も同じです。ここには様々な小さなモンスターがいて、彼らがテレビを見ているこの画像を作らなければなりません。
注意深く見ると、Nano Bananaのモンスターたちはテレビを見ていますが、ここのモンスターたちはカメラを見ています。プロンプトでは、シーンはベージュでなければならず、居心地が良くなければならないと言っていて、すべて正しいですが、ここにいくつかのキッチン要素がなければならないとも言っています。これはChatGPTには現れていません。
キャラクターはすべて正しいですよね。緑、黄色、太った羊、そして羊がすべてきれいです。この部分は両方とも正解しました。窓は両方とも配置し、正解しました。だからこのケースではNano Bananaの方がより多く正解したことがわかりますね。キッチンを配置し、視線も正しいです。つまり、今回はNano Bananaが勝ち、GPT Image 1.5が負けました。
私の経験、私が動画を生成した経験では、GPT 1.5を発表したあの動画で、最後に言っていますが、結局のところ両方を使うことになると思います。特にあの動画でIndiana Bobの生成をして、Nano Bananaで同じ生成を試みたのですが、確実にうまくいきませんでした。
そしていくつかの画像については、一方または他方でより良くなることがあります。このTech Trixが、おそらく大多数の人々の意見を要約する投稿をしました。彼はこう言いました。「GPT Image 1.5をテストし、Grokもテストしました。これがGPT、これがGrokです」そして彼はこう結論づけました。結果は興味深いですが、全体的にはまだNano Banana Proの方が好きです。
そしてこの「全体的に」という表現が重要だと思います。なぜなら、平均するとNano Bananaの方がより良い結果を出しているように見えるからです。さて、私がやりたかったけれど必要なかったことの一つが、この感情の部分です。そしてこの感情の部分では、私の意見では、これらすべての感情を見ると、まさに私が言った通りのことが起きました。
Nano Bananaの方が良いものと、Image 1.5の方が良いものがあります。一部の人々は、GPTの画像のリアリズムがNano Bananaのリアリズムほど良くないとコメントしました。この画像では真実だと思いますが、私のテストでは、Nano BananaではうまくいかないけれどGPTではうまくいくというシナリオが常にあります。
だから、この画像で具体的に結論を出すことはできません。このGPTの女の子は少し偽物っぽいです。こちらの方がよりリアルで、あのアマチュアスタイル、アマチュア写真のようです。しかし、例えばこの悲しみの表情では、この悲しみは初心者の俳優のように見えます。
悲しい顔をしていて、すべて正しく、完璧です。でもこの悲しみは、この少し赤くなった目で、いくつかの詳細があり、この何もない顔、この無表情な顔、こちらの方が良くなりました。例えば混乱を表現するいくつかのアイデアは、かなり異なっています。彼らが異なるアイデアを探求したことがわかります。だからあまり言うことはありません。
でもこの画像を見て、これらすべての感情について何を考えているか見て、あなたの意見を言ってください。なぜなら最終的に、プロンプトを書いて画像を再生成するのに苦労するのは、画像を生成している本人だからです。でも私が言ったように、2026年は画像生成の年になります。
Flux 2.0と新しい画像生成技術
Flux 2がここでリリースされました。Black Forestの、Flux 2 Maxバージョンです。LM Arenaで非常に良い位置にあります。そして皆さん、これは世界のプロンプトを一貫して生成できる最初のモデルです。世界のプロンプトとは何でしょうか。3本脚のロボットです。その通りです、皆さん。
あなたの家の画像生成ツールに、3本脚のロボットを生成するように書いてみてください。モデルができないことに気づくでしょう。いや、実はできます。これはどんどん良くなっていますが、この足がきちんとしていて、3本脚のロボットで足がきちんとしているこの品質は、非常に珍しいです、皆さん。
これができる唯一のモデルはFlux 2 Proです。そして古いバージョンでは、3本脚のロボットさえ作ることができません。プロンプトはこれです。3本脚のヒューマノイドロボット。ChatGPTで作っています。3本脚を頼んでも、ChatGPTの通常は2本脚で作るので、いつもこの鶏の足を作ります。
Geminiでも同じです。ここに鶏の足を作りましたが、全然関係ありません。鶏の足付きの3本脚ではありますが。まあ、プロンプトを改善して、鶏の足を持ってはいけないと説明する必要があるかもしれませんが、これはとても良くなっていると言えます。なぜなら正解するのは非常に珍しかったからです、皆さん。
今、3本脚のロボットを作っているのは、これらの新しいモデルだけです。3本脚のロボット、かっこよく、きちんとしています。ここです。今のところFluxだけです。
もう一つの目下のニュースは、Quenが生成された画像のレイヤー分離、層の分離をしていることです。面白いですね。テキストがあり、写真があり、たくさんのキャラクターがある画像を送ると、この小さなモデルがすべての層を分離し、すべてをきれいに分けます。
そしてこれは、確実に欠けていたものだと確信しています。なぜなら、私たちはいつも何かを変えたいだけの画像でいっぱいだからです。テキストを変更するように頼むと、実際には私たちがテキストだけを変更したいのに、画像全体を変更してしまいます。だから要約すると、たくさんのものがあるこの画像を送ります。
背景を分離し、女の子を分離し、テキストを分離し、テキストの詳細を分離し、果物を分離し、ロゴを分離し、すべてをきれいに一緒に配置しました。まるで別々のもののように。ここにいくつかテストできる場所へのリンクがあります。私はModel Scopeでテストをして、Indiana Bobの写真を送り、テキストと背景画像を分離すると想像しました。そしてきちんと、見てください。基本的にここにぼかしがあるだけのテキストを生成しました。基本的に何もありません。
それからここでIndiana Bobを分離しました。それから影のように見える別のレイヤーを分離しました。そして最後に上部の「Indiana Bob in search of the sacred ID」を分離しました。だからレイヤー分離をしたいなら、Quenを通じて既に可能です。
もう一つの非常に興味深いニュースは、Decart AIという会社からです。皆さんは覚えていないかもしれませんが、昔Minecraftのニュースがあって、AIでMinecraftをプレイできるというもので、この会社がやっていました。
これは AIの初期の頃でした。この人たちは何をしたのでしょうか。1行書いて、キャラクターに何をさせたいか、ボートをどこに行かせたいか、お店をどこに動かしたいか、カメがどこに歩かなければならないかを書きます。そしてレンダリングを押すと、あなたが作った矢印の通りに動画を作ります。きちんと、正確に。
ああ、皆さん、この生成のことがより面白くなってきましたね。どう思いますか。基本的なアイデアはここです。DecartのLoy Motionに来ます。ここに画像を送ることができます。例えば、ここにクマを送って、クマの軌跡を作りました。ここで回転して、それから横切ります。
画像を生成すると、クマが来て、一回転して、それからあなたが指示した通りに前に来ます。だからこの犬でやってみましょう。ここをクリックして、ここにドラッグします。左側に来て、おそらくもう一匹の犬は静止したままです。何が起こるか見てみましょう。
ほら、ほら、犬が。変だったけど、うまくいきました。変だったけど、うまくいきましたね。とてもきちんとしています。犬はここにいましたが、カニのように歩いていきました。足がすべて曲がって、すべて横向きで歩いていました。これはおそらく画像を作っている人、動画を生成している人のための解決策です。
何を考えているか教えてください。そしてこのレベルでも、Dream Labがここで動画を説明しています。Kite Journeyについて、Luma LabsのDream MachineでリリースされたこのRay Trace Modifyという新しい技術について話しています。
基本的なアイデアは、私たちが話していたアイデアと関係があります。参考として画像を送り、それから他のものに変換します。あなたが配置した小さな絵で、残りを補完することができます。またはここで起きていることと同じです。
初期画像、最終画像があり、生成を続けます。でも最も楽しいのは、ある種の表現をして、それからキャラクターと一緒に再想像することです。他の参考画像で生成するだけです。
とても面白いですね。いくつかのテクニックで、私が最も気に入ったものの一つは、偽の動画を作ることです。例えば、偽の動画で動かす紫色の人形があり、キャラクターが何をすべきかを示します。そして動画を生成するとき、その子は偽の人形が作った軌跡に従います。
非常に興味深いです。多くの映画製作者がこの画像生成を活用し、優れた品質の映画を作ることができる方法です。なぜなら、これらのテクニックを使うことができるからです。偽の小さな絵の参考にして、それを本物の絵に変換し、再想像された世界にすることができます。
この再想像のアイデアはますます興味深くなっています。実際、再想像された映画をいくつか作ることを考えています。これはとても素晴らしいからです。このアイデアを見てください、面白いです。ラクダは静止画像で、凧も静止画像です。何をするのでしょうか。この静止画像を右に移動させ、再想像すると、ラクダが歩き始めて足を動かし始めます。
凧も動き始めます。偽の動画を作るときに棒の上の粘土の人形だけだとしても、木を持っている小さな猿に変わります。きれいに、そして私たちが最も好きな方法で動き始めます。皆さん、正直なところ、創造性が限界で、何でもできます。
私は確実に大好きになりました。Ray 3 Modifyと呼ばれています。どう思いましたか。見てください、面白いです。シーン全体を完全に無視します、皆さん。ここに女の子がいました。たくさんのことが起きていました。恐竜だと私が言うものだけを考慮したと単純に言えます。でも恐竜をここで馬に変換し、それで凧の小さな列車のこの映画全体を作っています。凧が散歩して、すべきことをしています。
私は正直驚いています。ここでの画像生成の品質と、彼らが使っているアイデアを見ると、単純に頭が爆発しそうで、あなたはすでに考え始め、あなたがずっとやりたかった映画を作り始めることができます。でも安い予算しかなかったのに、今突然できそうです。コメントしてください。何を考えているか知りたいです。
2026年は映画の年になります。2026年末までに長編映画があると思いますか。あると思いますよ。
ワールドモデルとロボティクスの進化
さて、ワールドモデルの流れで、Ran One World Playがそのワールド生成をしています。WASDキーで、学校の教室の中を移動しながらマップをコントロールしています。きちんと。
非常におかしいです、皆さん。カメラをコントロールでき、キャラクターの位置をコントロールできます。だから、どんどん楽しくなっています。中国企業がこのワールドモデルのアイデアに参入しています。なぜならワールドモデルのこと、その魅力は何でしょうか、皆さん。
ロボティクスのためのことができ、ロボットが作業する仮想世界を生成でき、特にロボットが参照として使用できる画像を持つことが非常に稀なシナリオの世界を生成できるからです。この場合、稀なシナリオの写真を撮って、この生成で使用することが可能です。
この小さなモデルはオープンソースで、HI World 1.5と呼ばれ、Tencent Home Yuanの小さなモデルです。遊ぼうとアクセスを試みましたが、今のところテスト段階だけです。ウェイティングリストに登録する必要がありました。だからおそらく後でリリースされるでしょう。
AIにゲームをプレイさせるための別のリリースがNitrogenと呼ばれ、これらのゲームをプレイするようにAIを配置できます。皆さん、これには終わりがありません。だから前のアイデアを想像してください。プレイできる世界を作りますが、それはAIによって生成された世界です。そして別のAIを取って、Nitrogenのようなゲームをプレイできます。
一つのことともう一つを組み合わせると、シミュレートされた世界に住むAIになります。そこで疑問が生じますね、皆さん。私たちはこれではないでしょうか。私たちはシミュレートされた世界に住む人ではないでしょうか。あなたが見ているこの動画は存在しないのではないでしょうか。すべてカメラ、発明ではないでしょうか。わかりません、皆さん。
これがすべてシミュレートされているなら、コードがあり、GitHubにあります。そしてこのワールドモデルのアイデアに大きく賭けている人々の一人がYann LeCunです。彼はこれに多大な投資をしている人です。彼は大型言語モデルの大きな批判者です。彼はもう大型言語モデルの研究について話すのが好きではありません。彼は、大型言語モデルが言語だけを扱うというこの制限が巨大な問題だと言っています。
そして彼はワールドモデルを作りたがっている人々の一人で、おそらく今日使われている技術さえ使わないでしょう。だから皆さん、ワールドモデル、ロボティクス、これらすべてが加速し始める準備をしてください。2026年はレベル2で始まる年になると思います。なぜならレベル1は去年で、レベル3、レベル4で終わります。どう思いますか。技術が成熟してきて、今物事がますます高品質になってきました。
Function Gema – Googleの新しいモバイル特化型モデル
さて、あまり騒がれていないリリースですが、GoogleのFunction Gemaです。これの何が重要なのでしょうか。なぜこれについて話しているのでしょうか。これは300MBの非常に小さなモデルです、皆さん。あなたが聞いた通りです。300MBで300GBではありません。3GBでさえありません。300Mです。非常に、非常に、非常に、非常に小さなモデルです。
携帯電話で実行するように作られており、そのアイデアはこのいわゆるモバイルアクションを行うことです。これは何を意味するのでしょうか。例えば、懐中電灯のオンオフ、連絡先の追加、メールの送信、カレンダーへのイベント記入、地図上の位置表示、またはWi-Fi設定を開くアプリがあると想像してください。
これらの7つの可能性だけだと想像してください。何をしますか。このFunction Modelsを取り、これらの機能だけを行うようにトレーニングします。そしてあなたのアプリは携帯電話で制御可能になります。あなたは私に尋ねます。「でもボブ、これは既に存在しないの。通常のアシスタントを使ってこれらのことをするのはなぜ。なぜこれを使うの」
説明は非常に簡単です。なぜなら一般的にこれらの音声制御されるアプリは、固定フレーズか非常に限定的な何かだからです。ここでのアイデアは、より柔軟性を持ち、より多くのことを作成できることです。あなたが何でも言うことができ、アプリがあなたが求めたことをするという感覚をもう少し与えます。これにより、小さなゲームをプレイするアプリケーションを作成し、携帯電話にプログラムされていない他のことをすることができます。
すべて音声コマンドですが、よく注意してください。これらのモデルと会話することはできません、皆さん。これらはコントロールと音声コマンドができるように最小限の言語で作られており、それ以上ではありません。これらのモデルとおしゃべりを始めようとすると、うまくいきません。それは狂人の会話のようなもので、うまく機能しません。
だから音声制御アプリを作りたいなら、ここで何が起きているかを勉強して理解する価値があります。Function GemaはOllamaで既に利用可能です。私が言ったように301Mです。そして私が言ったばかりのように、これを使用するにはトレーニングを行う必要があります。
動画の説明にGoogleへのリンクがあります。そしてこのGoogle Collabにすべてのステップがあります。かなり複雑で、今始めたばかりの人向けではなく、AIとプログラミングを少しわかっている人向けです。
でもアイデアは、専門的なデータセットを作成し、ここでネットワークのトレーニングを行ってから、アプリで使い始める必要があるということです。そしてなぜこのアイデアが重要なのでしょうか。次のことです、皆さん。将来何が起こるか想像してください。私はこれを予測します。
今日、言語モデルは様々な主題について話すために言語でトレーニングされており、あなたと会話できることに加えて、地球全体の多くの情報を知っています。だからGemini 3、ChatGPT、Claudeの基本モデルは、既に多くのネイティブ情報を持っています。
将来おそらく何が起こるでしょうか。彼らは話すことだけを知っているモデルを作ります。それはあなたと会話するのに十分です。あらゆるアイデアについて。話すことだけを知っていて、それ以上何もないモデルを作れば、サイズをかなり縮小でき、一連のコンピューターで実行できるようになります。
そしてこれの問題は何でしょうか。あらゆることについてあらゆる質問をすることができなくなるからです。コンピュータープログラムを作ることを頼んだり、医学のことを話したり、数学のことを話したりすることができません。いいえ、それらの情報を持っていませんが、これはすべての質問に答えようとしてあまり正解しない現在のモデルよりも理にかなっています。
最終的なアイデアは、話すことを知っている小さなモデルを持ち、ファイルを添付して、それから会話できるようにすることです。これがFunction Gemaにあるこの基本的なアイデアで、おそらくこのアイデアが2026年に大きなモデルで起こるのを見ることになります。これは起こるでしょうか。起こるためのすべてがあります。
これは非常に有望な道です。下にコメントして、何を考えているか言ってください。そしてこのような動画を見続けるためにチャンネルをサポートしたいなら、メンバーになってください。メンバーはインテリジェントエージェントの限定動画と先行公開動画にアクセスできます。それでは、いいねを押してください。ありがとう。


コメント