OpenAIの新しい画像生成ツールが違いを生み出している…

2,766 文字

OpenAI’s new image generator hits different...

Sign up for CodeRabbit using code FIRESHIP to get get 1-month free new GPT-4o image generator was just released and now ...

今週は激動の10年でした。Googleは静かにGemini 2.5 Proをリリースし、OpenAIのすべてのモデルを市場で圧倒しました。一方、DeepSeek、Tencent、Quenはすべて素晴らしい中国製モデルをリリースしましたが、誰も話題にしていません。代わりに、テック業界のすべての目はいま、OpenAIの新しいGPT-4o画像生成ツールに釘付けになっています。このツールはインターネットをジブリアニメの漫画的な悪夢に変えてしまいました。
これはまさに、何年も前にジブリアニメーションスタジオの生みの親である宮崎駿先生が警告していたAIのディストピアです。彼はこう言いました。「私は完全に嫌悪感を抱いています。気味の悪いものを作りたいなら、どうぞやってください。私は決してこの技術を自分の作品に取り入れたいとは思いません。これは生命そのものに対する侮辱だと強く感じています」。それは何年も前のことですが、今やこの悪夢は完全に現実となっています。今日Twitterを見る間違いを犯せば、あなたのお気に入りのミームがすべてGPT-4oによって台無しにされているのを発見するでしょう。
今日の動画では、OpenAIの最新おもちゃと、私たちをシンギュラリティに一歩近づけたいくつかの素晴らしいツールを詳しく見ていきます。2025年3月28日、コードレポートをご覧いただいています。
GPT-4oに画像生成機能が追加されたという新聞記事を読んだとき、私の期待値は非常に低かったです。特にSoraやGPT-4.5の失望の後では。しかし、OpenAIは実際に素晴らしいものを提供することで、完全に自らを償いました。このツールのおかげで、Canvaのようなグラフィックデザインソフトウェアをゴミ箱に捨てることができます。なぜなら、ほぼ完璧なテキストレンダリングでインフォグラフィックやマーケティング素材を作成できるようになったからです。
さらに、ほぼ良いコミック漫画も作成してくれますし、他のほとんどの画像生成ツールとは異なり、透明度にも対応しています。しかし、誰もが話題にしているのは、特定のアートスタイルに画像を変換する能力です。それはかなりクールですが、ここで重要なのは、キャラクターの一貫性を維持することで、これまで不可能だった方法でAIガールフレンドをレンダリングする能力を与えてくれることです。今なら新しいポーズ、新しい衣装でアップグレードしたり、寂しい家族のディナーの写真に彼女を追加したりすることもできます。
印象的ですが、どのように機能するのでしょうか？これはクローズドAIの話なので、論文やコードは見ることができませんが、拡散ではなく自己回帰的アプローチを使用しているようです。Stable DiffusionやMidJourneyのようなモデルの拡散アルゴリズムは、画像全体を一度に生成しますが、GPT-4は異なるアプローチを取り、左から右へ、上から下へと画像をピクセルごとに生成します。
ほとんど人工的には見えませんが、実際にはContent Providence and Authenticity連合（CPAA）によって提供される物議を醸すウォーターマークが含まれています。実際、この画像を取ってCPAAツールにアップロードすると、OpenAIによって生成されたことや、その修正履歴を見ることができます。カメラメーカーやAdobeのようなソフトウェア開発者は、画像のような電子資産に対するあらゆる変更を追跡する目的で、これをソフトウェアに実装しています。
もちろん、これはプライバシーと自由を犠牲にして、誤情報から保護するためです。YouTubeやSteamのようなプラットフォームは、作品でAIアセットを使用していることを開示することを人々に要求するようになりました。これは、インターネット上でアニメのプロフィール画像を持つ誰かによって最初に提起された大きな哲学的疑問を浮き彫りにします。
スロップの剃刀で考えてみましょう。見るだけでAIが生成したものだとわかりますか？答えがノーなら、それは人間の作品と区別がつかないので開示は必要ありません。もし答えがイエスなら、それは明らかにスロップであり、やはりAI開示は必要ありません。CPAAは単なるディープステートのブロートウェアです。
話は変わりますが、あなたが裕福でない場合、知っておくべきもう一つのことはGemini 2.5 Proです。Googleのこの最新の最先端モデルは実際に素晴らしいものです。プログラミングにおいてはClaude 3.7と同等の性能を持ちながらより大きなコンテキストウィンドウを持ち、OpenAI3のような推論モデルよりも優れています。しかもOpenAI Proに月額200ドル支払う代わりに、現在無料で使用できます。
しかし、Googleにとっての問題は、中国が世界のAI支配計画を台無しにしていることです。DeepSeekはバージョン3.1をリリースし、これも素晴らしいものです。Alibabaは新しい「思考者・会話者」アーキテクチャにより、見て、聞いて、話して、書くことができるQuen 2.5 Omniをリリースしました。TencentはDeepSeekとBiteDanceと競合するためにT1をリリースしました。TikTokの親会社であるByteDanceは、大規模な大規模言語モデルを構築するためのオープンソース強化学習システムDapoをリリースしました。
現在、誰でもオープンソースの中国モデルを入手して、必要以上のコードを生成できるバイブコーダーのパラダイスに住んでいます。これは、実際のプログラマーは多くのコードを修正し、リファクタリングする必要があるということです。
そのようなコードをレビューするのに役立つ素晴らしいツールがCode Rabbitで、今日の動画のスポンサーです。これはすべてのプルリクエストに即座にフィードバックを提供するコードレビュー用のAIコパイロットです。基本的なリンターとは異なり、コードベース全体を理解するので、コードスタイルの問題やテストカバレッジの欠如などのより微妙な問題を検出できます。その後、簡単なワンクリックの修正を提案して、すばやくクリーンアップできるよう支援します。
Code Rabbitは時間の経過とともにあなたのPRから学習し続けるので、使えば使うほど賢くなります。オープンソースプロジェクトでは100％無料ですが、以下のリンクからコードFireshipを使用すると、チームに1ヶ月間無料でご利用いただけます。
以上がコードレポートでした。ご視聴ありがとうございます。次回もお会いしましょう。