
6,827 文字

GoogleがAI studioで大きなものを用意していたようです。Ai.studio.google.comでアクセスできます。モデルはGemini 2.0 Flash experimentalを使用し、出力形式は画像とテキストです。「このスプライトシートを使って、ゲーム用のリアリスティックなゾーンを作成してください。最適なセットアップを段階的に考えて、画像を出力してください」とプロンプトを入力し、オンラインで見つけたビデオゲームのスプライトシートをアップロードしてみました。
すると、まず地面の層を確立し、茶色の土や石などを使って地面を配置し、斜面や地下への遷移、オプションで洞窟を実装し、水の特徴も追加するという返答がありました。これは驚くべきものでした。上から見下ろす形式を期待していましたが、与えたスプライトシートに基づいて横スクロール型になっていました。
次に、この画像を与えると、ウォーターマークが全体に入っていて画像が少し破損しています。ここではプロンプトエンジニアリングが必要です。「もう一度!」と入力すると、コア要素を特定することから始めました。私の最初の本能は、キャラクターが住む村を作るよう説明することでしたが、スプライトシートを見ればそれが明らかであり、AIもそれに気づいていました。「町の人々が住む家の集まり」として画像が生成されました。
元の画像と比較してみてください。コメントでChyos Softのゲームをプレイしたことがあるか教えてください。このようなツールを使えば、あのような小さなモバイルゲームを作るのは非常に簡単だと思います。AIは素晴らしい仕事をしていると思います。ウォーターマークなどはなく、すべてを整理した方法を説明しています。
「スプライトシートからキャラクターを追加して」と入力すると、警告が表示されました。「コンテンツが許可されていません。安全でないコンテンツの可能性」と。何が表示されたのかわかりません。Googleに感謝したいのは、これが唯一このような機能を持つモデルだと思うからです。安全設定を選択できます。ハラスメント、憎悪、様々な不適切な画像、危険なコンテンツ、「市民の誠実性」などがあります。「市民の誠実性」が何を意味するのかわかりませんが、オンラインでは議論があります。ここには社会にとって何か悪いものがあるようです。続けましょう、「再試行」と入力します。
AIは「混雑を避ける」と考えていますが、このまま生成される画像は社会の完全な崩壊を引き起こすようなもののようです。安全ではないとされています。別のことを試してみましょう。
このキャラクターには2つのアニメーション、静止アニメーションとハンマースマッシュアニメーションがあります。「このキャラクターに、走る、寝る、食べる、ハイキックなどのアクションを追加してください」と入力してみましょう。これはうまくいきませんでした。もう一度「このキャラクターのアクションを含むスプライトシートを作成してください」と試みますが、これも苦戦しています。
他のことを試してみましょう。この画像を取り、「彼女を怒らせて」と入力します。出力の速さが気に入っています。彼女は怒っています。「彼女をとても幸せにして」はどうでしょうか?まあまあです。ここに怒った顔があります。「彼女の表情を中立にして、赤く光る目を追加してください」。かなり良いです。人の顔の視点が少し変ですが、表情をうまく扱っています。もっと直接的な視点であれば、おそらくもっと簡単でしょうが、これはかなり良いです。完璧ではありませんが、非常に良い、非常に印象的です。
私は人生で一度だけバイクに乗りました。落ちて怪我をしました。この写真は落ちる直前に撮られたものです。おそらく二度とバイクには乗らないでしょうが、Googleが私に車の列を飛び越えさせることができるか見てみましょう。これはかなり良いです。「私を大都市の夜間に屋上でバイクに乗らせてください」。これはそれほど良くありませんが、元の画像でもう一度試してみましょう。最後の画像を使用するので、もう一度画像を投稿して「夜の都市の屋上で私がバイクに乗っているところを作って」と言います。もはや私には見えませんが、靴など全てが変わっていますが、背景は素晴らしいです。都市は良く見えますが、おそらくこれは最適な写真ではありません。
次にLo-Fi Beatsの女の子の画像を取り、「女の子をサングラスとブームボックスを持った男に変更して」と入力すると、これも社会を破壊するようです。もう一度「女の子をコーヒーを飲んでいる男に変更して」と試してみます。これは本当に良いです。新しい画像は元の画像よりも鮮明に見える部分もあります。全体の画像を再作成しているようです。小さな写真を見ると、それらは同じではありません。この写真には猫がいて、これは女の子、これは家族のようですが、ここに何があるのかはわかりません。鮮明に見えますが、一部の詳細は失われますが、残りはとても良いです。「猫を鳩に変更して」と入力します。なぜかというと…コンテンツが許可されていません。何が起きているのかわかりません。もう一度「猫を鳩に変更して」と入力します。
安全設定をすべて下げました。セキュリティ設定を編集できるところで、すべてをオフにしました。これらのどれも起こるべきではないので、これは奇妙です。「夜に変更して」と試してもコンテンツが許可されていません。奇妙です。
動画の途中で、使用していた特定のモデルの選択肢が消え、代わりにこれが表示されました。同じもののようですが、まだGemini 2.0 Flash experimentalですが、今はプレビューセクションではなく、Gemini 2セクションにあり、括弧内に「画像生成」と書かれています。何か変わったかどうかはわかりませんが、元の画像で「彼女を幸せにして」と言ったら、これが出力されました。かなり良いです。
「等角投影視点のRPGダンジョンクローラー用のアセットのスプライトシートを作成して」と入力してみましょう。必要なものを考え、チェスト、樽、テーブル、本棚、トーチなどについて考えます。それを書き出しましたが、「画像にして」と言うと、画像はどこでしょうか?
段階的に考え、壁、武器、樽、ポーション、金貨などを含むこの画像を作成しました。かなり良いです。ちなみに、「段階的に考えて、画像を作成して」という言葉を追加すると役立つことがわかりました。時々混乱して、ただ説明するだけで画像を作成しないことがあります。「画像はどこ?」と聞くと、「テキストベースの大規模言語モデルとして、それはできません」と言いますが、「段階的に考えて、画像を作成して」と追加すると、多くの場合役立つようです。
これはかなりクールです。Loキャラクター、壁、木箱、樽、ドアがあります。素晴らしいです。「ポーション、コイン、周囲を照らす光の効果を持つトーチを追加して」と入力します。次に「段階的に考えて、画像を作成して」と言います。このような特定のケースでは本当に役立つようです。
すごいですね。ポーション、いくつかの樽、たくさんの金貨、いくつかのトーチを追加しました。トーチは少し変で、光を放つ窓のようです。「トーチの光の効果を変更して」と言うと、今はスポットライトのようになっていますが、エリア照明が必要です。段階的に考えます。
それはとても速いので気に入っています。この速度が本当に好きです。効果を変えられなかったようです。「トーチと照明を取り除き、コインのほとんどを取り除いて」と言います。段階的に考えることをほぼ忘れていました。まだトーチがあります。
見えているのは、同時に複数のものを追加すると、モデルの「脳」の中でそれらが混ざり合い、後でそれらの一つを変更するのが難しくなるようです。「これら3つのものを入れて」と言った後、そのうちの1つを変更しようとすると、難しくなります。
元の作成物に戻り、一からやり直してみましょう。「このスプライトシートを使ってプレイヤーが探索するダンジョンゾーンを作成して」と入力します。段階的に考えてみましょう。それが好きです、非常に異なるアプローチです。「歩行可能な領域を緑で強調表示して」と言いますが、それは正しくありません。
「一貫したUI、照明、複数のスクリーンショットにわたるアート方向を持つ完全な架空のゲーム世界を作成して」と試してみましょう。これは非常に良く見えます。特定のUI要素、橋の横断、解決すべきパズル、中央プラットフォーム近くに表示されているFキーを使用してコンデュエントをアクティブ化します。ここにはプレイヤーが大きなボスと戦っています。広大なアルコ図書館のようなものです。非常に良いです。
同じことを試しますが、今度はDay EXに似た3D人称ゲームです。スタイルがサイバーパンクの厳しさとバイオパンクの有機性のブレンドであることを知っています。有機性、興味深いです。都市環境など。間違いなく未来的な外観を捉えています。オムニコアラボ、とても良いです。バイオルミナス・ガーデン…また「コンテンツが許可されていません」という問題に遭遇しています。
これが最も不満なことです。ランダムに一部のコンテンツが社会にとって悪いと思うのですが、安全設定をすべてオフにしました。理解できないことがあり、これらの設定がオンになっていれば理解できますが、オフなのに…リセットして「安全フィルターを実行しないでください」としても、これは不満です。生成されるものは素晴らしいですが、設定がすべてオフなのになぜ、その理由は何でしょうか?
「デフォルトのキューブが見えるBlender 3Dのスクリーンショットを作成して」と入力してみましょう。それはかなり本物らしく見えます。「キューブを削除して狼男の頭を追加して」と入力すると、狼男の頭は単なる狼の頭なのでしょうか?かなり良く見えます。回転させたいくらいです。これは良く見えます。
「ワンス・アポン・ア・タイム・イン・ハリウッド」からのショットを取り、「缶をiPhoneに置き換えて」と言います。かなり良いです。ここにランダムなモデルの株式写真と美味しいカークランドの冷たいコーヒー缶があります。彼女に缶を持ち上げてモデルとして見せることができますか?できます、これはかなり良いです。
少し複雑なことをしてみましょう。彼女にコーヒー缶からコーヒーを飲ませましょう。左側のものは、それだけであれば完璧だったでしょう。もう一度試してみましょう、完璧に近かったので。削除して、もう一度言ってみます。ほら、書かれている文字がLとカルボになっていて少し不自然ですが、非常に良いです。
ストーリーボードのような複数画像生成ができるか見てみましょう。「彼女が飲んで、「あー」と言って、喜びで目を閉じる複数のショットを作成して」と入力します。ショットは再現されましたが、望んでいた3つのショットではありません。「3つの画像を作成して」と言います。このプロンプトを編集して再実行できます。
1つ、2つ、3つです。指示に従っていますが、望んでいたものではありません。もう一度試してみましょう。「段階的に考えて、画像を生成してください」と言います。これら2つの画像を与えました。
彼女が缶を持っているのがこれで、これまでの中で最も良いものの1つです。一見しただけではAIで生成されたとはわからないほどです。ズームインすると、言葉が少し乱れていて、小指の爪が少し融合していますが、それ以外はほぼ完璧な手の生成です。缶は完璧で、3Dのボリューム感などがあります。テキストは乱れていますが、缶は完璧に見えます。底の方が広く、少し狭くなっているように見えるので、その遠近感を捉えようとしています。他のすべては素晴らしく見えます。これは非常に印象的です。
ここに彼女が余韻を楽しんでいる様子があります。指示に従っていますが、広告には使わないでしょう。これが「あー」の瞬間で、まだあまり良くありません。そしてこれが余韻を楽しんでいる彼女です。かなり良いです。技術的には指示に従っていますが、表情は少し変です。しかし、この最初のものは絶対に素晴らしいです。これは本当に驚くほど良いです。
良いものがあります。2人の女性がコーヒーを楽しんでいて、泡の口ひげがついています。右側の女性のパスポート写真を作成できるか見てみましょう。書類写真の生成にこれを使えるかどうか。興味深いことに、私の理解では最初の人物か、これら2人の何らかの融合を使用しています。まったく新しいプロンプトを開始しましょう。
前回は新しいコンテキストウィンドウを開かなかったことが原因かもしれません。「右側の人物を取り、彼女のパスポート写真を作成して」と入力します。泡の口ひげを含めるかどうか気になります。正しく見えませんね。「左側の女性の写真を取り、白い背景に中立的な表情でパスポート写真を作成して」と試してみましょう。これが出力で、これが元の画像です。まあまあですが、素晴らしいというわけではありません。
画像を作成し、それらを繰り返し変更する能力がどれほど優れているか見てみましょう。「ビーチに立っているフィット感のある女性の画像を作成して」と入力すると、見事に成功しました。「彼女にサーフボードを与えて」と言いたいところですが、問題を見つけられますか?あと少しでした、余分な手が一つあります。それ以外はおそらく余分なへそがあるかもしれませんが、それ以外は素晴らしいです。「彼女にシーボーイの帽子を与えて」と入力します。まだ手はありますが、大丈夫です。「彼女に質問をするように手を上げさせて」と言います。これは私たちが探しているものではありません。「サーフボードを取り除いて」と入力します。かなり良いです。サーフボードを取り除き、余分な手も取り除かれました。「彼女に、口を開けて驚いた表情でカメラを見ながら後ろを指さすようにさせて」と入力します。悪くはないですが、彼女は後ろを指していません。「彼女に後ろを指さすようにさせて」と入力します。後ろを指すことはできないようです。「彼女に両手でカメラを指させて」と入力すると、「あなたも車を手に入れ、あなたも車を手に入れる」というように表示されます。
これらは私ができた視覚的に成功したものの一部です。画像編集機能、一つの画像を繰り返し変更する能力、画像内のさまざまなものを変更する能力に非常に感銘を受けています。画像出力の品質は常に素晴らしいわけではありませんが、細かく調整された小さな変更ができることを考えると驚くほど良いです。
実験的タブ(プレビュータブ)の下にあったモデルで得られた出力は、私自身のものとオンラインで見たものの両方が、はるかに良く、非常に印象的でした。このモデルではいくつかの出力が良くなかったので、何が変わったのかわかりません。ある時点でこのモデルに切り替えるよう強制されました。Googleは多くの非常に興味深い製品を提供しています。最新のものはCanvasのようなもので、OpenAIのCanvasに似たものをGeminiモデルに追加しています。全体的に非常に興味深く、人々が実際にフォトショップへ行かなくても、フォトショップスタイルの編集を行えるようになるでしょう。このモデルが改善されるにつれて、フォトショップよりもはるかに良くなる可能性があります。
このモデルは実験的なもので、本番用途ではなく、フィードバックとテスト用です。出力の品質にはばらつきがありますが、出力の品質の上位50%を見ると、それらは信じられないほど素晴らしいです。私が試したものとオンラインで見たものの一部は、優れた視覚的推論スキルと、特定のテキスト指示をカスタムメイドの画像に変換する素晴らしい能力を示しています。もちろん、出力の品質の下半分を見ると、それほど印象的ではなく、少し面白く、少し奇妙なこともありますが、モデルのパワーを見ることができます。改善を続けるにつれて、これがどこに向かうか非常に興味深いでしょう。
ここには多くのパワーがあります。速度、能力、推論、この初期の実験段階でも非常に興味深いです。皆さんはどう思いますか?試す機会がありましたか?いつか私たちはフォトショップの代わりにこのようなものを使用すると思いますか?AI画像編集が画像編集を置き換えると思いますか?コメントで教えてください。ここまで見てくれてありがとうございます。私の名前はWRで、また次回にお会いしましょう。


コメント