
10,202 文字

あらかたこれを試してみましょう。この写真に色をつけて。かなり印象的ですね。では、これを夜景に変えて、空には天の川を表示して。まさか!いいですね、この写真の背景をぼかしてみましょう。とても良いですね。それでは、写真から人々を消してみましょう。すごい!あるいはこれはどうでしょう、これらの椅子に座っている人々を追加して。信じられない、これはすごい!このAIはフォトショップを駆逐しました。非常に強力で、使い方も超簡単、しかも完全に無料です。この動画では、このAIでできるすべての素晴らしいことをお見せします。
Googleが最新バージョンのGemini 2.0 Flashをリリースしました。これは真のマルチモーダルAIモデルで、テキストの理解と出力だけでなく、画像、動画、音声でも同じことができます。そして何よりも、今すぐGoogleのAI Studioで無料で無制限に使用できます。リンクは下の説明欄にあります。AI Studioについて聞いたことがない方のために、その機能を詳しく説明する動画を作りました。音声の文字起こしやAI音声とリアルタイムで会話するなど、驚くべきことができます。
Geminiは画像や動画を理解できるので、カメラをオンにして何かを指して質問することもできます。これは日常生活で非常に役立つAIアシスタントです。例えば、宿題を指して、リアルタイムで助けを求めることができます。「もちろん手伝いますよ。問題3の図形の周囲を計算する必要があるようですね」。あるいはレストランのメニューを指して英語に翻訳するよう頼むこともできます。「はい、83番は野菜入り蒸し竹ロールです」。
すでにこれについての完全なチュートリアルを作成したので、まだ見ていない方はこの動画をご覧ください。しかし今週、彼らはネイティブな画像生成機能を備えたGemini 2.0 Flashの新バージョンをリリースしました。つまり、このバージョンには以前は利用できなかった画像の編集と生成の機能があります。だからこそ、今日はまさにそれについて見ていきます。このAIでできるすべての素晴らしいことをお見せします。
さっそく始めましょう。まず、AI Studioの右上隅で、こちらの「Gemini 2.0 Flash experimental」を選択する必要があります。そして、その横に「new」タグがあることを確認してください。その後、出力形式で「images and text」を選択してください。それだけです。それでは画像の生成と編集を始めましょう。
このプラスアイコンをクリックして画像をアップロードします。医師の画像をアップロードして、「この写真のサイドビューを作成して」というプロンプトを入力しましょう。実行ボタンを押して、何が出てくるか見てみましょう。すごいですね!同じ男性の横顔とデスク、ノートパソコンなどを表示しています。
次に「この写真の拡大表示を作成して」と入力します。実行をクリックして、何が出てくるか見てみましょう。これは非常に高速で、すべてが5秒程度で完了します。この写真は少し引きになっていることに注目してください。この写真では見えなかったベルトやデスクの端が見えるようになっています。とても素晴らしいですね。ちなみに、保存するにはここのボタンをクリックして写真をダウンロードするだけです。
次に、サイドバーの「create prompt」ボタンをクリックして新しいチャットを開始し、この白黒写真をアップロードします。「この写真に色をつけて」と入力して、何が出てくるか見てみましょう。これも非常に高速で、わずか7秒しかかかりませんでした。この結果を見てください、すごくないですか?もはやフォトショップが必要ないことがわかります。
では、「これを夜景に変えて、空には天の川を表示して」と試してみましょう。実行をクリックして、何が表示されるか見てみましょう。これは完全に狂気の沙汰です。写真の編集がいかに簡単かを見てください。このツールがあれば、本当にもうフォトショップは必要ありません。あまりにも簡単すぎます。
他のことも試してみましょう。ここをクリックして新しいチャットを開始します。ちなみに、AI Studioでチャットは保存されないので、新しいチャットを開始する前に必ず画像を保存してください。さもないと永遠に失われてしまいます。
次に、この女性の写真をアップロードします。これは本当にアマチュアカメラで撮影されたので、背景が詳細すぎてシャープすぎるのがわかります。もっとプロのカメラ、もっとDSLRのような見た目で、背景が少しぼやけていて、被写界深度の効果が得られるようにしたいと思います。「この写真の背景をぼかして」と入力してみましょう。実行をクリックして、何が表示されるか見てみましょう。
なんてこった、見てください!これは簡単すぎます。この技術をスマートフォンに実装するだけで、もう高価なレンズを備えたプロのDSLRカメラは必要なくなります。普通の携帯電話カメラで写真を撮り、このAIを使って後処理して被写界深度効果を追加できます。
そして、背景を歩いているすべての人が嫌いな場合は、「背景からすべての人を削除して」と試してみましょう。実行をクリックして、何が表示されるか見てみましょう。そしてできました!魔法のように背景から全員を消去します。フォトショップでは、手動で全員を消去するのに少なくとも数分はかかりますが、このAIではプロンプトを入力するだけで、文字通り数秒で理解してくれます。これは、写真に写りこんでくる人々がいなければ、まともな写真が撮れないような混雑した観光スポットで休暇中の時に非常に役立ちます。その場合も大丈夫です。とにかく写真を撮って、このAIに差し込むだけで、背景からすべての人を消去できます。
さらに別のもっとクールな例を紹介します。新しいチャットを開始します。繰り返しますが、すべての写真を保存してください。さもないと永遠に失われてしまいます。そして、ステージで自撮りをしている男性の画像をアップロードしますが、彼を見ている人は誰もいません。背景の椅子はすべて空いています。「背景の椅子に座っている人々を入れてください」と入力しましょう。実行をクリックして、何が表示されるか見てみましょう。
なんてこった、できました!これは同じ写真ですが、これらの椅子にすべて座っている人々がいます。これはすごくないですか?もし偽のグルーやインフルエンサーで、マスタークラスに参加する人がいなくても大丈夫です。それでも自撮り写真を撮って、このAIを使って写真に人々を追加できます。成功するまで偽装しましょう、そうでしょう?
次に、画像の編集ではなく、画像の作成を試してみましょう。再び「create prompt」をクリックします。Geminiはあらゆる種類の画像を生成するだけでなく、他の画像生成器が本当にはできない正確なテキストを含む画像も生成できることに注意してください。「黒板の前の教師のリアルな写真を作成してください。テキストは「これは異常に長い文章で、ほとんどの画像生成器は正しく生成できません」と表示してください」とプロンプトします。実行をクリックして、何が表示されるか見てみましょう。
これを展開すると、テキストが100%正確であることがわかります。このプロンプトをideogramやfluxで使用しても、通常はいくつかの文字が間違っていますが、これはテキストを完璧に表現しています。これは非常に印象的です。
他のことも試してみましょう。英語のテキストの代わりに、中国語のテキストを試してみましょう。「この中国語のテキストを含む日記ページのリアルな写真を作成してください」と書きます。実行をクリックして、何が表示されるか見てみましょう。
そしてできました!ここに日記のページがあり、中国語のテキストは完璧です。以前の画像生成器では、このような正当な中国語テキストを生成することは完全に失敗していました。非常に印象的なツールです。
さて、新しいチャットを開始します。これはテキストと画像を非常にうまく生成できるので、もう一つ本当にクールなことができます。「結婚式の招待状デザインを作成してください。それはJackとJill、2025年3月30日、あなたは招待されています、RSVPはこちら」というプロンプトを入力します。実行をクリックして、何が表示されるか見てみましょう。
見てください!数秒で完全な結婚式の招待状ができあがりました。これはcanvaさえも駆逐するかもしれません。canvaではまだ手動で複数のステップを実行し、テキストを自分で入力する必要があります。それは単に多すぎる作業です。AI Studioではプロンプトを入力するだけで、数秒でフルデザインを生成してくれます。
そして、一度に1つの画像だけを生成できるだけでなく、これはマルチモーダルなので、チャットボットのようにチャットし、テキストと画像の両方を同時に出力させることができます。「ブルーベリーマフィンの作り方レシピを教えてください。各ステップで画像を含めてください」というプロンプトを試してみましょう。実行をクリックして、何が表示されるか見てみましょう。
これが完了するのを待ってから、チャット全体を見ていきますが、このAIがテキストと画像の両方を生成する速さに注目してください。これは非常に高速です。さあ、上にスクロールして、チャット全体を見てみましょう。
ここにレシピがあります。必要な材料はこちらです。必要な道具はこちらです。最初のステップはオーブンを予熱し、マフィン型を準備することです。紙のライナーを使用するか、カップにグリースを塗る必要があります。ここに紙のライナーが付いたマフィン型があります。
次のステップは、乾燥材料をホイップで混ぜることです。ここでは、これらの乾燥材料がこのボウルに入っています。これはインターネットから既存の画像を引っ張ってきているのではなく、AIがその場で画像を生成していることに注意してください。そして、ここでは湿った材料をホイップで混ぜています。ここに見られるように、このボウルには植物油、卵、牛乳、バニラエキスがあります。
次のステップは、湿った材料と乾燥材料を組み合わせることで、ここに見られるとおりです。次のステップは、ブルーベリーを優しく折り込むことで、確かにここに見られるように、このミックスにブルーベリーが加えられています。最後に、マフィンカップに生地を入れ、ここに見られるとおりです。そして、オプションでコースシュガーなどのトッピングを追加し、確かにこれらのマフィンの上にシュガーが見られます。
次のステップはマフィンを焼くことで、確かにここに見られています。そして、マフィンを冷ますことで、ここに見られています。最後に、おいしいブルーベリーマフィンをお楽しみくださいという言葉とともに、本当においしそうなブルーベリーマフィンの写真があります。これはすごくないですか?これのように画像付きの完全なレシピを吐き出す別の画像生成器に出会ったことがありません。このツールがあれば、フードブログやレシピブックを作成するのがとても簡単になります。
新しいチャットを開始して、もう一つのすごい使用例を紹介します。このAIを使用して、各パネルが同じスタイルと同じキャラクターを持つストーリーボードを作成できます。「古典的なシンデレラの物語について視覚的なストーリーボードを書いてください。画像を含めてください」と入力してみましょう。実行をクリックして、何が表示されるか見てみましょう。
繰り返しますが、これはインターネット上の既存の画像ではなく、その場で生成しています。ここがストーリーボードのパネル1です。ここがキャプションです。ここが視覚的な説明です。そして、ここがパネル2です。これも同じくシンデレラで、同じキャラクターです。ここに新しいキャプションと視覚的な説明があります。
そして、パネル3は「ある日、王室の使者が招待状を持ってやってきた」です。ここでも同じキャラクターであることに注目してください。それは、そのディズニー映画のルックさえも保持していることに気づきます。ちなみに、彼らがどこからトレーニングデータを取得したのか疑問に思います。そして、ここがパネル4です。以下続きます。このAIを使えば、誰でも簡単にストーリーボードを計画し作成できることがわかります。
新しいチャットを作成して、これが機能するかどうか見てみましょう。プロンプトは「ラベル付きの小器官を持つ動物細胞の図を作成してください」です。これを実行できるならば、本当に感心します。実行をクリックして、これを処理できるかどうか見てみましょう。
ようやく、できないことを見つけました。確かに細胞の図を作成しますが、これらのラベルはすべてがめちゃくちゃです。いずれにせよ、新しいチャットを開始して、もう一つの超クールな使用例を紹介します。
この非常に粗いアニメの女の子のスケッチをアップロードします。これは単なる粗い鉛筆スケッチです。そして、「このスケッチからラインアートを作成してください」と入力しましょう。何が表示されるか見てみましょう。なんてこった、これを開いてみましょう。これは信じられないです。ここに並べて比較があります。今や、どんな絵でも、実際に自分でアウトラインを描く必要なく、ラインアートに変えるのがとても簡単です。これはすごいです。
では、そのラインアート画像をここに再度アップロードして、「これに色をつけて」と書きます。何が表示されるか見てみましょう。そして、わずか数秒で、スケッチからラインアートを経て、完全に色付けされたアニメ画像に変えることができます。もちろん、彼女の髪や目、シャツなどの色を変えることもできます。これは非常に強力なツールで、あなたはこれを気に入るでしょう。
私はNVIDIAと提携して、RTX 4ではなく5でもなく、RTX 6000 Adaをプレゼントします。これには驚異的な48GBのVRAMがあり、最高のAIモデルをコンピュータ上でローカルに簡単に実行できます。さらに、Jensen Huang自身によって個人的にサインされています。これは一種類しかなく、あなたのものになるかもしれません。
今年3月17日から21日にかけて、カリフォルニア州サンノゼで直接、そしてバーチャルで開催される彼らの次回のGTCイベントのどのセッションにも参加するだけです。これはAIからロボット工学、コンピューティングまで幅広いトピックをカバーするグローバルカンファレンスです。業界のトップリーダーや専門家によるたくさんの講演があるので、これから大きな価値を得ることができます。
無料で仮想参加に登録できます。3月18日のJensen Huangによる基調講演を強くお勧めします。彼はAIエージェント、ロボット工学、コンピューティングに関する多くの洞察を共有します。個人的に本当に興味があるその他のセッションをいくつか紹介します。3月19日には、非常にエキサイティングなヒューマノイドロボットに関する講演があり、3月20日には量子コンピューティングに関するこの講演も非常に洞察に満ちたものになるでしょう。
Jensenはこの分野の多くの業界リーダーとともにこの講演を主催するので、量子コンピューティングで何が起こっているかについての最新の概要を得ることができます。さて、RTX 6000 Adaのプレゼントに戻りましょう。どのようにして応募するのでしょうか?下の説明欄にあるリンクをクリックするだけで、応募方法のすべての指示が表示されます。
それでは、ビデオに戻りましょう。では、「背景を追加して、照明と陰影を調整して」というようなことを試してみましょう。そしてできました!ここに陰影と照明が調整された新しい背景があります。これはとんでもないツールで、文字通り数秒でスケッチからラインアートに、そして色付けされたモデルに、さらに正しい照明と陰影を持つ背景を含む完全に色付けされた画像に変えることができます。
最後に紹介したいことがあります。新しいチャットを開始しましょう。このようなインテリアデザインの写真やいくつかの建築写真をアップロードして、この写真のスタイルを変更するようにプロンプトを入力することもできます。これをビンテージ80年代の見た目にリデザインするか、カーテンを赤に、ソファを青にするか、あるいは私の場合は、これを白いミニマリストでモダンな見た目にリデザインするとプロンプトできます。実行をクリックして、何が表示されるか見てみましょう。
これが結果です。より白く、モダンで、ミニマリストに見えることに注目してください。このツールを使えば、インテリアデザイナーや建築家、あるいはデザイナー全般がアイデアやインスピレーションを見つけ、何でもリスタイルするのが非常に簡単になります。
これで、この画像生成器と編集ツールで試してみたすべての素晴らしいことをまとめました。ただし、これが最初でも唯一のものでもないことに注意してください。過去数ヶ月間に、基本的に同じことができる他の無料でオープンソースのツールをいくつか紹介しました。
例えば、そのうちの一つはomn genと呼ばれる非常に多用途なツールです。例えば、まず本を持って座っているこの女性を生成させ、次に「彼女のイヤリングを取り除き、コーヒーカップをコーラのグラスに置き換えてください」とプロンプトできます。実際、イヤリングを取り除き、コーヒーをコーラに置き換えます。
また、AIにこの女性のポーズを抽出させ、そのポーズを男の子の新しい生成に転送することもできます。あるいは、もう一つのすごいことは、2枚の写真をアップロードして、AIに最初の画像の黄色い髪の男性と2番目の画像の左の女性を取り、両方を一緒に写真を生成するようにプロンプトできることです。
あるいは、この画像の花と、この画像の真ん中の花瓶を取り、それらを同じ写真に配置する別の例もあります。非常に多用途なツールです。omnigenについてもっと知りたい場合は、このインストール方法とコンピュータでローカルに実行する方法を説明するこのビデオをご覧ください。繰り返しますが、これは完全に無料でオープンソース、そして無制限です。
同様のツールで、無料でオープンソースのものとしてMagic Quilがあります。これにより、特定の領域に塗りつぶし、プロンプトを使用してその特定の領域のみを編集できます。塗りつぶす場所に応じて、画像から物を追加または削除できます。これにより、画像の編集方法をより良くコントロールできます。
繰り返しますが、Magic Quilの完全なインストールチュートリアルをすでに作成したので、興味がある場合はこのビデオをご覧ください。両方のモデルがStable DiffusionやFluxのようなオープンソースベースのモデルを使用していることに注意してください。これらのツールでNSFW画像を生成できますが、問題は、これらのGitHubリポジトリをクローンし、Pythonや他の多くのパッケージや依存関係をインストールするなど、コンピュータにローカルにインストールする手間がかかることです。
技術的な人でない場合、これはイライラするかもしれません。すべてこれを行いたくない場合や、NSFW内容を生成する必要がない場合は、正直なところ、GoogleのAI Studioははるかに簡単で高速なオプションです。
また、オンラインで画像を生成するもう一つの無料の場所はGoogleのTest KitchenまたはGoogle labsであることに注意してください。このプラットフォームにはさまざまな名前がありますが、いずれにせよ、下の説明欄にリンクがあります。ここで画像を生成できます。
例えば、「都市の女性」と入力して、このようなさまざまなスタイルから選択できます。さらに、さまざまなアスペクト比から選択できます。ランドスケープを選んで「create」をクリックしましょう。このツールも非常に高速で、一度に4つの画像を生成するのに数秒しかかかりません。
さあ、ここに都市の女性がいます。これらの写真一つ一つがいかにリアルであるかを見てください。これらは信じられないほど詳細です。そのセンサーシップはかなり敏感なので、「都市の女性」のような特定のプロンプトでも、コンテンツフィルターを通過しない生成があるかもしれないことに注意してください。
これは彼らのimmagine 3と呼ばれる画像生成器を使用していますが、これは画像を生成するだけであり、AI Studioのこの新しいGeminiモデルのように画像を編集することはできないことに注意してください。
最後に、このGeminiモデルはネイティブにマルチモーダルであるため、単に画像を編集または生成するだけでなく、画像、動画、音声を分析し、これらの形式を出力することもできます。例えば、もう一つのクールなことは、YouTubeビデオへのリンクを貼り付けるだけで済みます。
AIとは何かを説明するこのビデオへのリンクを貼り付けて、単純にこのビデオを要約させることができます。実行をクリックして、何が表示されるか見てみましょう。この動画は37分間ですが、Geminiは100万トークンの巨大なコンテキストウィンドウを持っているため、37分の動画でもそのコンテキストウィンドウに収まる約65万トークンしか使用しません。これはGrok、DeepSeek、Claudeなどの他のAIモデルには収まらないことに注意してください。
繰り返しますが、このAIは非常に高速で、37分の動画であっても数秒しかかかりませんでした。ここに要約があり、これは正確です。これは確かに私がその動画で話したことです。
あるいは、もう一つのすごいことができます。新しいチャットを作成して、今回は何でもポッドキャストエピソードを生成できるGoogleの別のツールであるNotebook LMから生成した音声クリップをアップロードします。とにかく、そのポッドキャストの30秒ほどを取って、ここに差し込み、Geminiにタイムスタンプ付きの文字起こしを作成させます。実行をクリックして、これが成功するか見てみましょう。
これが文字起こしです。この音声クリップを再生して、文字起こしと一致するかどうか確認してみましょう。「写真、スケッチ、抽象的なアイデアでさえも、それがOmenの背後にある約束であり、今日私たちが深く掘り下げているものです。これは本当にこれを現実にしている研究です。この研究論文は、AI画像生成において本当に大きな一歩前進です。それをとても画期的にしているのは、このユニファイドアプローチです。すべてのこれらの異なる画像タスクに対して別々のAIツールを持つのではなく、omnigenは一種のこのユニバーサルな創造的エンジンです。」「正確に、そしてそれはAIが実際に視覚をどのように理解するかについて大きな影響があります。」
完璧です。このクリップの文字起こしを完璧に行いました。これらすべてのデモから、このGeminiモデルがいかに信じられないほど多用途であるかがわかるでしょう。これは単なる画像生成器やエディタではありません(フォトショップを駆逐する可能性があるとはいえ)。これはチャットボットでもあり、質問をしたり、チャットしたり、何かを書いてもらったりすることもできます。さらに、これはネイティブにマルチモーダルなので、音声や動画を分析することもできます。
繰り返しますが、これはすでにGoogleのAI Studioで誰もが利用可能であり、完全に無料で使用できるはずです。ですから、無料で無制限である間に、これを最大限に活用してください。
これでGoogleの新しいGeminiモデル、特にその画像生成と編集機能に関する私の動画をまとめました。これについてどう思うか、もし使ってみる機会があれば、どのような他のクールなことができたかをコメント欄で教えてください。いつものように、私はトップAIニュースとツールを探し続け、あなたと共有します。
この動画を楽しんでいただけましたら、ぜひいいね、シェア、チャンネル登録をして、今後のコンテンツをお楽しみください。また、AIの世界では毎週とても多くのことが起きているので、YouTubeチャンネルですべてをカバーすることはできません。AIで起こっているすべてのことを本当に把握するために、私の無料ウィークリーニュースレターにぜひ登録してください。リンクは下の説明欄にあります。視聴いただきありがとうございます。また次回お会いしましょう。


コメント