本動画では、GoogleのGemini 3とImagen 3(通称Nano Banana)を組み合わせた絵本制作の実践的な手法を紹介している。わずか10ページの児童向け絵本「感情の缶詰市場」を完全にAIで生成する過程を詳細に解説し、キャラクターの一貫性を保ちながら物語を視覚化する技術を明らかにする。また、Poeticという企業がARC-AGIベンチマークで驚異的なスコアを記録し、GoogleのGemini 3を活用しながらGoogle自身を上回る性能を達成した事例を取り上げ、AI民主化の可能性を論じている。さらに、映画監督ジェームズ・キャメロンが新作アバターの制作においてAIをどのように位置づけているかについても言及し、現時点でのAI生成映像の限界と可能性を考察している。

Gemini 3とImagen 3による絵本制作の実演
皆さん、Gemini 3とNano Banana、つまりImagen 3を組み合わせると本当に無敵になりますね。これから人工知能だけを使って絵本をどうやって作るのかを見ていきましょう。そして、現在最も難しいとされる人工知能のテストであるARC-AGIで破られた記録についても見ていきます。誰も知らないような小さな企業が素晴らしい結果を出しているんです。
さらに、ターミネーターやアバター、そしてタイタニックを手がけた監督が人工知能について何を語っているのかも見ていきましょう。それでは始めます。
いつもいいねを押してくれた皆さん、チャンネル登録してくれた皆さんに感謝しています。この人工知能チャンネルをスポンサーしてくれているチャンネルメンバーの皆さんには特別な感謝を送ります。
メンバーの方々には、WhatsAppとの統合、PDFの読み取り、MCPとの統合、スプレッドシートの読み取りなど、私たちが好きなことすべてを教えるインテリジェントエージェントの限定動画へのアクセス権があることをお伝えしておきます。また、動画の先行公開も見ることができます。
もしあなたの会社のカスタマーサービスに人工知能を導入したい、社内プロセスを自動化したい、あるいは実際に何か製品を作りたいとお考えなら、説明欄にあるMaximiza AIにご連絡ください。彼らがプロジェクトを実行してくれます。登録フォームに記入すれば、連絡が来ます。
今日の動画は、皆さんが画面で見ているこの美しいアニメーションについてです。このアニメーションは、Gemini 3とNano Bananaを組み合わせて作成した物語の一部で、ちょっとした工夫を凝らしています。大体どのように作られるのかをお見せしますし、特にこの最終結果にどうやって到達したのかをお見せします。本の表紙があり、テキスト付きの物語全体が挿絵入りで、ストーリー展開全体を伝え、何が起こっているのかすべて説明されていて、とても綺麗な仕上がりになっています。
もしあなたが本を書きたい、何か挿絵入りのものを書きたいと思っているなら、これは良い道筋になるでしょう。
キャラクターの一貫性とImagen 3の能力
GoogleのImagen 3、通称Nano Bananaについて最初に理解しておくべきことは、一貫したキャラクターを作成できるということです。このおばあちゃんと少年を作って、全く異なる場面でおばあちゃんと少年を再び登場させることができます。
そして、ここでも別のおばあちゃんと別の少年を異なる状況、異なる場面、異なる文脈で作ることができます。この文脈を作る能力によって、スライド、物語、本などを作成できるようになります。
では、この結果にどうやって到達したのでしょうか。基本的に、ここにあるGemini 3から始めました。推論モデルを使用して、Geminiに次のように依頼しました。「絵本のアイデアを4つ欲しいです。物語は最大10ページで、キャラクターはカラフルで環境は好奇心をそそるものでなければなりません。それぞれの物語について、子どもの世界に属する解決すべき問題を作成してください」と。
ここで10ページという制限を設け、創造性を求め、子どもの世界向けのアイデアをいくつか示しています。つまり、創造性をこの方向に導いているわけです。物語の最後には教育的な要素が必要です。子どもが読んで最後に興奮するようなものです。
物語ごとに最大5人のキャラクターを探索してください。物語がかなり短いので、それ以上は必要ありません。キャラクターと各物語が解決すべき問題の要約を作ってください。4つの物語から選ぶわけですから、キャラクターが何人いて主要なアイデアが何なのかを大まかに理解して、どれを選ぶか素早く決めたいのです。
そして彼はコメントしています。「ここに4つの詳細なアイデアがあります」と。アイデア1は「半分のものの惑星」です。3人のキャラクターを配置しました。リスキーニョという線、トーレという塔、そしてボラーチャという消しゴムです。
彼らが解決しようとしている問題は、リスキーニョとトーレが完成の大パーティーに参加したいのに、そこにたどり着けないというものです。リスキーニョは片足がないので転びます。トーレは歩こうとすると崩れてしまいます。彼らは途中で遊ぶのをやめた子どもに置き去りにされたのです。
これは良いアイデアになるかもしれません。子どもが絵を描けるような本を作るのに。半分の絵がたくさんあって、物語は描き続けることについて語っています。だから、ここは子どもに絵を描くことを促すための良い本になるかもしれません。でも、少し混乱していて説明が難しいと思いました。プロンプトが何を求められているのか理解するのに問題が起こりそうだと思いました。
それで2つ目のアイデアに進みました。「騒々しい音の村」です。4人のキャラクターがいます。ズームという蜂、プラフトというカエルで手にドラムのシンバルを持っています、シレンシオという白くてふわふわした雲、そしてマエストロ・グリーヨという燕尾服を着た優雅なコオロギです。
彼らが解決しようとしている問題は何でしょうか。ハーモニー・フェスティバルが始まろうとしているのに、みんなが注目を集めるために同時にあまりにも大きな音で演奏しているため、誰も音楽を聴くことができないのです。騒音があまりにも大きくて、トランペット型の花が疲れてしおれてしまいます。
興味深いですね。もし少し騒々しい子どもがいて、調和の重要性や終わりのない騒音を出さないことを教えたいなら、これは良い物語かもしれません。これは線の物語より少し良くなっていますね。
「感情の缶詰市場」の選択
3つ目はこうです。「感情の缶詰市場」で、3人のキャラクターがいます。レオという好奇心旺盛な少年、何でも知っているおばあちゃんで市場のオーナー、そして混乱の怪物という灰色でもつれた小さな生き物です。
彼らが解決しようとしている問題は、レオが暗闇で眠るための勇気のボトルを買いたいということです。ここで私は気に入りましたよ、皆さん。これは典型的な子どもの問題です。でも、混乱の怪物が棚を倒してラベルを混ぜてしまいました。今や恐怖のボトルが用心深さのボトルと同じように見え、怒りがエネルギーのように見えます。
ここで何が起こっているかというと、子どもが一人で眠ることに問題があって、勇気のボトルが必要なのかもしれません。この物語は説明しやすくて理解しやすいと思いました。キャラクターは3人だけです。おばあちゃんがいて、小さなキャラクターがいて、怪物がいます。素晴らしかったです。これが私が選んだものです。
でも、4つ目も見てみましょう。「逆さまの庭」です。4人のキャラクターがいます。フリップという高いところが怖いアルマジロ、葉っぱで作ったパラシュートを使うミミズのおばさん、トポレイラという土の中を泳ぐ鳥、そしてグランデ・バタータ・アズールという庭の市長です。
彼らが何を解決しようとしているのでしょうか。種の雨が降ってきますが、重力が反転しているため、種はすぐに地面に植えられなければ空に落ちて宇宙で失われてしまいます。これも混乱していると思いました。フリップだけが十分に速いのですが、遠くに浮いていく恐怖で麻痺しています。
というわけで、これも混乱していると思いました。私が選んだのは「感情の缶詰市場」です。
さて、決めたら、物語3を選んだことを知ったら、チャットに行って言いました。「物語3を作ってください」と。そして推論が始まり、何をするか考え始めました。
本のタイトル「感情の市場」を付けました。私は10ページを依頼しました。彼は10ページを作成しました。1ページ目、テキスト。「感情の市場へようこそ。ここでは棚が雲のように浮かび、ガラスの瓶はホタルよりも明るく輝いています」と続きます。これは彼が望んでいる挿絵の一部となるテキストです。
そして、ここに挿絵の提案を置いています。市場のワイドショット、背景は白くて無限ですが、浮かんでいる曲がった棚でいっぱいです。つまり、彼は画像を与え、その画像には物語があります。ここには対話も含まれています。「うわあ」とレオはささやきました。「私たちはこんなにたくさんのことを感じることができるんだ」と。これがスライドに表示されることを期待しています。
そして2ページ目、3ページ目、4ページ目があり、10ページ目まですべてのページがあります。そしてそれらすべてにテキストと挿絵の提案があります。基本的にとても簡単になりましたね。彼はプロンプトを生成するかどうか尋ね、私は「はい、表紙を作ってください」と言いました。
そして彼はここで表紙のプロンプトを生成しましたが、画像は生成しませんでした。でも、すでに彼に頼みました。「生成してください」と。そして彼はこの表紙を生成しました。「感情の缶詰市場」です。ここに危険な小さな怪物がいて、勇気を求める少年がいて、ここに何でも知っているおばあちゃんがいます。
スタイルの調整と画像生成プロセス
見ての通り、とても簡単でした。この最初の画像、彼が表紙として使ったものは、最も重要なことの一つだと気づくのは興味深いです。例えば、あなたが見ていて「ああ、タイトルが気に入らない、画像のスタイルが気に入らない、キャラクターが気に入らない。小さな怪物はもう少し怒っているべきだと思う。これはクレヨンの絵のように見えるべきだ」と思ったとしましょう。
この時点で、画像のスタイルやこの画像の何かを変更したい場合は、今すぐ変更すべきだと言えます。なぜなら、これから先すべてがこれを基に生成されるからです。すべてのキャラクターはこの最初の画像を参照します。
だから、ここで依頼しました。「この表紙をクレヨンで描いたバージョンを作ってください」と。期待しているアイデアは、別のスタイルでまったく同じ絵になることです。基本的なアイデアはこれです。まったく同じ絵になりましたが、見てください、テクスチャーがどうなったか。もう少しクレヨンのように見えるようになりました。
だから明確にしておきます。スタイルを変更したい、キャラクターを変更したい、何かを変更したい場合は、今すぐ変更してください。なぜなら、今から、私は何も変更したくなかったので、もう彼に言いました。「そのスタイルで生成してください」と。
そして彼はここにタイトルを置きました。「感情の缶詰市場」、ここにパノラマビューを置きました。画面の中央に少年がいますが、テキストは表示されませんでした。
そこで何と言ったでしょうか。「1ページ目にテキストを入れてください」と。そして彼は同じ画像を、今度は本のように下にテキストを入れて生成しました。例えば、この本が開いた本で真ん中でステープラー留めされていたら、子どもが読むための大きな画像がある大きな本になります。そしてここにテキストがあります。
「感情の市場へようこそ。ここでは棚が雲のように浮かび、ガラスの瓶はホタルよりも明るく輝いています。レオはゆっくりと入りました。彼のバックパックは空でしたが、頭は心配でいっぱいでした」と。ここにダッシュがあります。「うわあ」とレオはささやきました。「私たちはこんなにたくさんのことを感じることができるんだ」と。
そして、何が起こり始めたかというと、「今度はテキスト付きで2ページ目を生成して」と言い続けました。これは私が多くの動画でコメントしていることです。スライドや物語や何かを生成することを考えているとき、人工知能にすべてを一度に生成させないことが重要です。一つずつ生成する方が良いです。なぜなら、変更したいこと、修正したいこと、間違って出力されたテキスト、期待通りに出力されなかった画像があれば、すべてを一度に生成するよう依頼すると、その創造的なプロセスを失い、できたはずのインタラクションを失うからです。
ここでは、私の場合、段階的に行うことが興味深いと思います。なぜなら、最終的にこれらの画像で好きなことができるからです。望むならスライドを作ることも含めて。
そして、ここで非常に正確に続けています。「カウンターで、何でも知っているおばあちゃんが巨大な眼鏡を調整していました。こんにちは、坊や。今日は何をお探しですか。レモン味の喜びか、それとも粉末の忍耐はいかがですか」と。
そして彼は答えます。「いいえ、おばあちゃん」とレオは言いました。「大きな勇気のボトルが必要です。私の部屋の暗闇はとても暗いのです」と。
ページ生成と物語の展開
そういうことです。基本的に、今から起こっているのは、3ページ目を生成して、4ページ目を生成して、5ページ目を生成して、6ページ目を生成してということで、彼はここですべてのページを正確に生成していきます。挿絵を正確に配置しています。
時々、後ろに小さなおばあちゃんが現れます。私は修正しませんでした。最後まで生成してうまくいくか見たかったからです。そのため、ここまで最後の生成に進みました。彼がスーパーサイヤ人のようになる部分も含めて、実際にサイヤ人の怪物によく似た小さな怪物たちがここに現れ始めます。
でも、物語はとても興味深く続きました。基本的に、小さな怪物が現れたとき、すべてのボトルが混ざってしまいました。ボトルが混ざったので、今度は一つずつテストし始め、毎回異なる感情を取り、毎回彼が望んでいたものとは正確には違うものでした。
例えば、ここで焦りのボトルを取った瞬間です。そして彼は狂ったように走り出しました。だから彼は一つずつテストし、それぞれが何なのかを見て、おばあちゃんが教えを与え、説明します。「いいえ、あなたは感情を認識することを学ばなければなりません」と。
ついに彼はここで勇気の感情を見つけます。そしてそれが彼の部屋で眠るための通路を開きます。そして私は最終的に彼にボーナスの最終ページを作るよう依頼しました。それがこのページになりました。少年が勇気のボトルの横で自分の部屋で眠っています。
そして私は考えました。画像があるし、物語もある、すべて正確だから、これをPDFに変換できるな、と。でも、ウェブサイトを生成する方が面白いと思いました。そこで彼に依頼しました。
ウェブサイト化とキャラクターの一貫性の課題
そして彼は、ここに画像を手動で読み込めるウェブサイトを作りました。画像のない画面が開き、読み込む画像を選択できます。ここで開くと、生成された画像がここで物語になり、ページをめくって見ることができます。
私はこのリーダーをGitHub内の小さなサイトにオンラインで置きました。リンクは説明欄にあります。この物語を見たい方は、そこに入れば正常に動作します。この物語を追って、どう思ったか分析できます。欠点も指摘してください。注意深く見れば、ここにはかなりあります。
例えば、この小さな女の子は突然現れました。彼女は物語の一部ではなかったのに、1枚の写真に現れてから消えました。おばあちゃんは時々複製されているように見えます。毛糸の塊だった小さな怪物まで。そして突然、物語の真ん中でサイヤ人の怪物になります。
この問題が起こったのは、重要なステップをしなかったからです。ここでキャラクターを分離することです。例えば、この最初の画像を取って、私がここでやったことをすべきでした。紫色の髪のおばあちゃんを画像から切り取って、透明な背景を置いてください、と。そして彼はおばあちゃんを切り取りました。
そして私は言います。「今度は正面から見たバージョンを作ってください」と。そして、ここに正面から見たおばあちゃんが正確に現れます。なぜなら、これらの画像があれば、キャラクターはこの正面から見たおばあちゃんのバージョンでより一貫性を保てるからです。
そして3人のキャラクター全員に同じことをするだけです。少年に対して。少年をここに置いて、少年を正面から見させます。そして小さな怪物もここに取って、小さな怪物を正面から見させます。
だから、このようにして、一貫性を保ちたい場合は常に、欲しいキャラクターの写真を投げ入れます。各キャラクターで何をしたいか依頼します。
動画生成とアニメーション化
それで、どう思いましたか。絵本を生成したことがあるか、何か挿絵入りのものを生成したことがあるか、そしてこの生成についてどう思ったか、下にコメントしてください。
正直に言って、スライドの生成、絵本の生成に関しては、これらのモデルは驚異的だと思います。これについてどう考えているか、そして動画のように動いて見える、ここで見ているような動画の生成をどうやって作るのかをコメントしてください。
さて、2つの方法があります。1つはGeminiによるものです。ここに画像を置いて、Veo 3.1で動画を作成するをクリックすると、ここで通知されます。今日さらに1つの動画を作成できます、と。何本の動画を生成できるか教えてくれます。
だから、すでに生成したので、今は何も生成しませんが、この場合は具体的にVeo 3でここから作りました。そして、この画像にはすでにかなりのアニメーションがあったので、おばあちゃんが少し動いていて、少年が何らかの表情を持っていて、画像にある種の動きがすでに起こっていたので、私のプロンプトは非常にシンプルでした。
「キャラクターを動かしてください」と。そしてこれだけで十分このアニメーションを作ることができました。この画像自体にすでにかなりのアニメーションがあったので、すでに多くの表現力があったからです。もし何もない顔をした人、腕を下げている静止した写真のようなものだったら、何か言わなければならなかったでしょう。手を上げて、ジャンプして、踊って、何かしてください、と。
この場合は必要ありませんでしたが、非常に簡略化された方法で、動画用のフレームをここに置き、欲しいフレームを選択します。最終フレームがあれば、ここにも置きます。この場合、私は何も置きませんでした。そしてそこでプロンプトを選び、モデルVeo 3 Fastを選びます。そしてそれだけです、幸せになってください。
ジェームズ・キャメロン監督のAI観
さて、ターミネーターの監督に関しては、その通りです。ジェームズ・キャメロンです。彼はタイタニックも作り、アバターも作り、すでに新しいバージョンのアバターを撮影しています。彼はテクノロジーを扱うことで非常によく知られており、映画に高度な投資をすることで知られています。例えば、ターミネーターは非常に先進的で、アバターもそうです。
彼は、画像や動画を生成するこの人工知能の始まりに、人工知能にはあまり気にしないだろう、たまに使うだろうと言っていました。しかし今、彼が映画を作っているので、彼の意見は少し変わったようです。
彼はこうコメントしています。「私たちには、テキスト、つまりプロンプトに基づいてゼロからキャラクター、俳優、パフォーマンスを作成できる生成AIがあります」と。でも彼はこう言います。「いいえ、それはひどいです。それはまさに私たちがやっていないことです」と。
インタビューを見れば、彼が本当にキャラクターを作ること、実際の舞台を作ること、実際のプール、実演をする実際の人々、すべての技術的なものに焦点を当てていることがわかります。物理的なことをする人々が関わっており、常に行われてきたようにやっています。
多くのテクノロジーがあり、多くの人工知能がありますが、それは長い間すでに適用されてきたより古典的な方法で適用されています。人工知能の生成で気づくことは、映画の品質を得るにはまだその時期ではないということです。プロンプトを導くことはできません。実際の環境で実際に撮影された画像の品質を導くことはできません。人間が巨大なスクリーンで映画を見て何も気づかないという点までは。
ARC-AGIベンチマークでの驚異的な記録
だから、もし人工知能が映画全体を作り始める日が来るとしても、ジェームズ・キャメロンのような人からそれを期待しないでください。おそらく彼がそれをする人ではないでしょう。でも、映画を作りたい、何かの映画に出演したい普通の人々にとっては、AIを使うことは良い代替案かもしれません。
すでにコメントしてください。あなたは100%人工知能で生成された映画を見るために映画館に行きますか。コメントしてください。知りたいです。
そして、ARC-AGIについて出た非常に興味深いニュースがあります。これは人工知能にとって最も難しいテストの1つです。なぜなら、データを記憶せずに常に推論して解決する必要があるように作られたテストだからです。良い記憶者であれば、このテストでは非常に悪い成績になります。そして、このタイプのテストを人間は非常に簡単に行いますが、人工知能は非常に苦労します。
何年もの間、ARCベンチマークはAIシステムにとってほぼ乗り越えられない障害と考えられていました。単純な記憶ではなく、本当の流動的知能のテストです。だから、それがその評判でした。
しかし今、何が起こっているかというと、新しい結果は、この障壁さえも現代のAI研究所の容赦ない最適化の力の下で崩壊していることを示しています。そしてこれはすべて、Poeticと呼ばれるこの会社が、誰も知らない会社ですが、ここで素晴らしい結果を出しているからです。
見てください、皆さん。これはARC-AGI-2のテストで、最も難しいもので、誰もが解いています。彼女はGemini 3 ProとGemini 3 FKを超えることができ、テストの60%を通過しました。これは人間が解決する平均とほぼ同じです。
そして興味深いことに見てください。Poetic Gemini 3B、Poetic Gemini 3A、Poetic Mix、Poetic Grok 4 Fast。何が起こっているのでしょうか。他の企業の人工知能モデルを使用して、その上に戦略を作成しているのです。
そしてこれだけで、このテスト内でパフォーマンスを向上させるのに十分なのです。これは、私が将来起こると思っていることと大いに関係があります。私たちの知能、人間の知能は、脳の中にあるのではなく、相互作用の中にあります。これは私が観察で気づいたことで、ミゲル・ニコレリス教授も同じことを言っています。
知能は脳の中に固定されているのではなく、まるでそこに質問の答えがあるかのようにではありません。相互作用していくにつれて、答えが起こり、知能が起こります。だから、環境が刺激しなければ、良い脳を持っていても意味がありません。
そして、ここで基本的に起こっているのはこれです。Poeticは、Googleとは異なるアプローチを使用して、Google自身よりも良い結果を得ているのです。
さて、私がこの結果を見たときに見たことの1つは、ARCのプライズの公式サイトに行って、この結果が公式なのか部分的な結果なのかを確認することでした。真実は、ここの公式結果のリーダーボードにはPoeticの結果がなく、これはこの結果が変わる可能性があることを意味します。
AI民主化の可能性と今後の展望
一般的に、彼らがARCのプライズの人々と一緒に公式テストを行うと、これらの数字は下がる傾向があり、これは、ここで彼らが今示しているよりも、このモデルがより小さな値に下がる可能性があることを意味します。データ汚染と呼ばれるもののために、これは人工知能がすでにある程度慣れている、何が起こるかをある程度知っているときのようなものです。
しかし、どうやら会社は次のように言っています。「ARC-AGI-2のこのテスト、特に2では、データ汚染はありません。この結果は変わるでしょうが、彼ら自身によれば、それほど変わらないでしょう」と。だから待たなければなりません。
Geminiを使用している会社がGoogle自身よりも良い結果を出すことができれば、それは非常に興味深いことになるでしょう。これは素晴らしいことです。これは見ているあなたの心を開くでしょう。おそらくあなたは、Poet自身がやったように、Google自身のエージェントよりも知的なエージェントを作成できるでしょう。
Googleのモデル自体を使用して、Google自身と同じくらい、あるいはそれ以上に知的なエージェントを作成できると思うか、下にコメントしてください。これは素晴らしいことです。なぜなら、これが起こり始めれば、本当の人工知能の民主化が起こり始めるからです。
なぜなら、Googleのような巨大企業がGeminiのような人工知能を持っていても、モデルを持っていても、彼ら自身が作成した知能から知的エージェントを作成する他の人々ほど知的なエージェントを持っていないようなものだからです。少し混乱していますが、おそらく理解したでしょう。
そして、これについて考えているか、Googleよりも知的なエージェントを作成することを考えているか、下にコメントしてください。
ところで、それについて言えば、すぐに進化的エージェントの動画を公開します。私はすでにここで準備をしました。Gemini 3を使用して、私が実行させたタスクを解決しようとするにつれて進化していくエージェントのシステムを作りました。
だから、待っていてください。すぐにニュースがあります。そして、このような動画を見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーは知的エージェントの限定動画と先行動画にアクセスできます。
それだけです。いいねを押してください。ありがとうございました。


コメント