本動画は、2024年12月中旬のAI業界における主要な動向を包括的に解説するものである。OpenAIの新モデルGPT-5.2のリリースが中心的なトピックとなっており、数学と科学分野での性能向上が報告されている。また、OpenAIとDisneyの10億ドル規模の提携により、Soraを使ったDisneyキャラクターの生成が可能になる見込みである。
技術面では、Runway Gen 4.5が物理的精度と動作品質の向上を実現し、テキストから動画への変換ベンチマークで首位を獲得した。一方、OpenAI、Anthropic、Blockが共同で設立したAgentic AI FoundationはLinux Foundationの傘下で運営され、AI agents間の相互運用性確保を目指す重要な標準化の取り組みとなっている。
Rivianの自動運転技術に関しては、4段階の自律走行モードが発表され、最終的にはレベル4の完全自動運転を目指している。動画の最後では、McDonald’sのAI生成広告に対する批判的な見解が示され、AI生成コンテンツへの疲労感、いわゆる「AIスロップ」問題が指摘されている。大企業が安易にAI生成コンテンツに頼ることへの懸念が表明され、人間のクリエイターを適切に活用すべきだという主張が展開されている。

GPT-5.2の登場とOpenAIの最新動向
ホリデーシーズンが近づくにつれて、AI業界からのニュースは少し落ち着き始めています。しかし、AI業界において「少し」というのは、それでもなお大量の発表が続いているということを意味します。ですから、今週がAI業界においては比較的穏やかな週の一つだったとはいえ、まだかなり興味深い話題がいくつもあります。
まず最初に、今週OpenAIから新しいモデルがリリースされました。GPT-5.2です。このモデルの登場については少し前から知られていました。多くの人が火曜日にリリースされると思っていましたが、結局木曜日にリリースされることになりました。皆さんはどうか分かりませんが、私にとって古いChatGPTモデル、つまり5.1モデルは、なんだか少し頭が悪くなってきているような感じがしていました。多くの間違いやエラーを起こしていることに気づいていました。ですから、この新しいモデルは待ち望んでいたものでした。
残念ながら、私は今Rivianで開催されているイベントに参加しています。彼らのAIと自動運転の日というイベントです。ですから、この新しいモデルをまだテストしていないのですが、いくつかの詳細情報は手に入れているので、皆さんにお伝えできます。
この新しいGPT-5.2モデルは、数学と科学により焦点を当てており、それらの分野でベンチマークのトップに到達することを目指しているようです。ですから、幻覚の問題や情報をでっち上げる問題が解決されていることを願っています。まだ確認できていません。彼らのウェブサイトにあるベンチマークは、基本的に他のChatGPTモデルとのみ比較しています。
ですから、科学の質問に関してはGPT-5.1よりも優れていることが分かっています。そして、高度な数学に関してもGPT-5.1よりも優れていることが分かっていますが、ChatGPT以外のモデルとどのように比較されるかについては、私の手元に比較データがありません。もし見つけることができれば、OpenAI以外のモデルのベンチマーク比較を画面に表示できるかもしれません。
新しいGPT-5.2モデルは、40万トークンのコンテキストウィンドウと12万8000トークンの最大出力を持っているようです。これは基本的に、このモデルに与えたり受け取ったりできる単語の量です。ですから、合計で40万トークンを与えたり受け取ったりできます。これはおよそ30万語ですが、そのうち12万8000トークンのみが出力可能です。計算してみましょう、その75%です。画面に表示できるかもしれません。12万8000トークンの75%。それが、この新しいモデルから出力として得られるおよその単語数です。
API料金に関しては、入力100万トークンあたり1.75ドル、出力100万トークンあたり14ドルです。同様のことを行う他の多くのモデルとかなり匹敵します。
ソフトウェアエンジニアリングについて、Swebench ProでGPT-5.2は55.6%のスコアを記録しました。これに対してGPT-5.1は50.8%、Claude Opus 4.5は52%、Gemini 3 Proは43.3%でした。ですから、これはコーディングにおいて大幅に優れているとされています。科学の質問に関しては、他のモデルを圧倒しています。Gemini 3 Proとはかなり匹敵します。そして、私が予想していた通り、これはかなり限定的なアップグレードです。
実際に家に戻ってからもっとテストを行う予定です。しかし、今週OpenAIから得られたニュースはそれだけではありませんでした。彼らはDisneyとも提携しました。これは多くの人が予想していなかったことかもしれませんが、Disneyが10億ドルをOpenAIに投資しているようです。
そして、OpenAIはDisneyの知的財産を使用することが許可されます。つまり、SoraやOpenAIの画像生成プラットフォーム内でDisneyキャラクターなどを生成できるようになると思われます。また、DisneyはDisney Plus上で、お気に入りのキャラクターを使った動画を生成できる機能を実現しようとしています。
ですから、この契約はそれらすべてを結びつけているようです。ですから、近いうちにDisney Plusで、Sora技術を使ってモアナのショート動画を生成できる機能が見られても驚かないでください。
OpenAIの画像モデルのリーク情報
今週はOpenAIから潜在的なリークも得られました。これらはインターネット上で出回っています。新しいOpenAI画像モデルがついに引用される可能性があります。
AI噂と洞察コミュニティ内のKNからのこの投稿は、「ついに起こっている」と述べています。以下の出力をご覧ください。これらは次のGPT画像モデルからのものである可能性が最も高いです。現在、Design ArenaとLM Arenaでテストされています。おそらくGPT-5.2と一緒にリリースされるでしょう。主な観察点は以下の通りです。
世界知識はNano Bananaに似ています。つまり、何かをプロンプトすると、実際に画像に入れる前にいくらかの調査を行い、情報を収集する可能性があります。有名人のセルフィーを生成でき、Nano Banana Proに非常に近い品質です。これは非常に興味深いです。なぜなら、1年前にはこれらのモデルは誰も実在の人物の画像を生成させてくれなかったからです。
今では、それらすべてが気にしていないようです。そして、画像内にコードを非常によく書くことができます。画像内にコードを書くとはどういう意味でしょうか。すぐに見てみましょう。
現在、これらのモデルのコードネームはChestnutとHazelnutです。そして、先ほど話したOpenAIのGPT-5.2モデルと一緒に登場した可能性が十分にありますが、ここでリークされたのはこれらです。
ホワイトボード上にテキストがある画像が見られます。OpenAIのロゴは、マーカーやホワイトボードマーカーで書かれたようには見えませんが、残りの部分は書かれたように見えます。モデルについての人類のためのAIの推進。私はChatGPT4の大規模言語モデルです。これは、調査を行い、その調査で見つけたものを実際の画像に入れたことを示しているに違いありません。
また、画像にコードを入れることができると言及していました。これがそれを指しているのだと思います。これはここにあるJSONのようなものです。モデルGPT40 OpenAI知識カットオフ2022年1月データセット審美的、そしてPlayStationコントローラーを作りました。かなり良く見えます。トレーニングデータ内にPlayStationコントローラーの画像がたくさんあることは確かです。
ですから、生成するのに最も難しいものではありません。より興味深いのは、画像上にJSONテキストのようなものを実際に配置したという事実だと思います。これは多くの有名人がかなりリアルに見える画像です。この画像が出回っているのを見たら、私の最初の考えはおそらくこれはAIだろうというものですが、かなりリアルです。
ただ、いくつかの顔には何かがあります。ここのジャック・ブラックの目や、ポール・ラッドの肌のように。具体的に説明できない何かがありますが、これがAIだと分かります。しかし、十分な画像を見てきたので、ええ、なんとなく分かるという感じです。とはいえ、これがAIだと知っているという洞察も持っています。
ですから、もし誰かがこの画像を送ってきて、AIだと知らなかったら、違うことを言っているかもしれません。そして、これが別の画像です。これは私にとってさらにAIっぽく見えますが、少し解像度が低く、少しピクセル化されているという事実が、逆に少しリアルに見せています。
まるで、まともな見た目の画像を生成して、それをダウンサイズして、人を騙す可能性を高めたような感じです。ここを見ると、既存の画像モデルであるGPT image oneでプロンプトを実行したことが分かります。そして、これは明らかにAIっぽく見えます。これらの顔のいくつかの比率は間違っているように見えます。
ここでは彼の頭がエレンの肩から生えているように見えます。ここで彼女の歯に何が起こっているのか分かりませんが、ええ、これには多くの証拠があります。そして、これはジャレッド・レトが2人いるのでしょうか。よく分かりません。これが以前のモデルであるGPT image oneからの別の画像です。これらの歯はかなり手がかりになります。
また、同じ人物の複製のようなものがあるようです。ですから、新しい方は古い方よりも確実に改善されて見えますが、見てみましょう。これを見ているときにはもう出ているかもしれません。なぜなら、5.2と一緒に出たからです。分かりません。
Agentic AI Foundationの設立
本当に予想していなかったけれど、存在して嬉しいコラボレーションもありました。OpenAI、Anthropic、BlockがAgentic AI Foundationという新しいグループを発表しました。そして、基本的にすべての主要なテクノロジー企業、Google、Microsoft、Amazon、さらにはBloombergやCloudflareも関与して支援されています。
これはLinux Foundationの傘下で運営されます。Linux FoundationはLinuxやKubernetes、NodeJS、PyTorchのような巨大なオープンソースプロジェクトを管理する非営利団体です。
しかし、おそらくこの新しい財団の目的は何だろうと疑問に思っているでしょう。AI agentsは実際のビジネスや消費者向けアプリで使われ始めていますが、各企業はそれぞれ異なる方法で構築してきました。ですから、共有ルールがなければ、これらのagentsは実際にお互いに通信することができません。アプリ間を移動するのに苦労し、予測不可能な動作をする可能性があります。
ですから、この新しい財団は、これらすべての企業が共通の標準に合意できる中立的な場所を作ります。これにより、テクノロジーの世界が互換性のないシステムに分裂するのを防ぎ、agentsをより安全で信頼性が高く、どこでも使いやすいものにします。
では、なぜこれを気にする必要があるのでしょうか。AI agentsはまもなくどこにでも存在するようになります。予約を取ったり、メールを管理したり、デバイスのトラブルシューティングをしたり、カスタマーサポートを行ったりするでしょう。仕事で行うことすべてを支援するでしょう。
そして、この財団は、異なる企業のagentsが実際に連携して動作し、一貫性を保ち、安全であり、一つの企業のエコシステムに閉じ込められないようにします。すべての電源プラグが同じ形状を使用するようにして、すべてが機能するようにするようなものです。
Runway Gen 4.5の登場
今週はRunwayからもクールなアップデートがありました。Runwayはついに、Gen 4.5という新しいビデオモデルへのアクセスを展開し始めました。そして、彼らのドキュメンテーションによると、最先端の動作品質、物理的精度、プロンプト順守を備えています。
オブジェクトは実際の重量と運動量を持って動くようになったとされています。液体は正しく振る舞います。顔は一貫性を保ち、キャラクターは微妙だが信じられる感情を示すはずです。また、現在、グローバルなテキストから動画へのベンチマークで1位にランクされています。
私がテストしたいくつかのことを紹介します。
ホリデーセールはおもちゃやテレビだけのものではありません。このセールは実際に役立つもののためのものです。Hostingerは現在もサイバーウィークのセールを実施しており、正直なところ私が使わないと困るものです。このチャンネルを見ている方なら、私が毎週AI agentsを使って止まらないAIニュースの流れを追跡していることをご存知でしょう。彼らはリリース情報を収集し、記事を要約し、これらのビデオの準備を手伝ってくれます。
しかし、最も難しい部分はagentを構築することではありません。それを24時間365日稼働し続けるようにホスティングすることです。だから私はHostingerのVPS NAN hostingを使うのが好きなのです。彼らはワンクリックN8インストールでプロセス全体を非常にアクセスしやすくしてくれたので、サーバーセットアップやLinuxコマンドなどに対処する必要がありません。
私がしたのは、AIワークフローに推奨するKVM2プランを選んだだけです。チェックアウト後、HostingerがNADNを自動インストールしてくれます。これは非常にユーザーフレンドリーなノーコードAI agentビルダーで、チュートリアルが必要なら他にも複数のビデオがあります。
そして、このホリデーセールで、現在月額わずか5.99ドルです。そして、私のコードMattwolfを使えば、さらに10%オフになります。それが稼働すると、AI agentはクラウドでノンストップで動作し、コンピューターがオフの時でも動きます。
そして、完全なルートアクセス、バックアップ、そしてすべてを管理するのを助けるAIアシスタントのCodyが利用できます。ですから、他のみんながセールでテレビを買っている間に、実際に週に何時間も節約してくれるもののホリデーセールを手に入れることができます。説明欄のリンクとコードMattwolfを使って試してみてください。今日のビデオのこの部分をスポンサーしてくれたHostingerに心から感謝します。さあ、本題に戻りましょう。
Runway Gen 4.5の詳細テスト
まず最初に、物理的精度と複雑な複数オブジェクトの相互作用をテストしたいと思いました。オブジェクトがどのように調和するかを見たかったのです。これが私のプロンプトです。全部は読みませんが、透明なガラスの球体が大理石の階段を転がり落ちて、各段で現実的にバウンドするスローモーション映像です。
プロンプトはそれよりも詳細です。照明や使用したいカメラなどについても詳細を与えました。これがそこから得られたものです。Gen 4.5は、他の最先端モデルのいくつかのように音声を生成しないことに留意してください。
ですから、この大理石が階段を転がり落ちて、水が当たってバウンドしているのが見えます。しかし、最後には水で満たされているように見えます。かなり良く見えます。プロンプトと実際に生成されたものを見てみましょう。透明なガラスの球体を得ました。チェック。大理石の階段を転がり落ちる。チェック。現実的にバウンド、チェック。
上から水の流れが注がれ、球体に飛び散る。チェック。正確な流体力学。イエス的だと言えます。かなり近いように見えます。カメラは球体の横を近くで追跡します。屈折と表面の詳細。ええ、すべてを満たしました。
ですから、プロンプトの一貫性に関しては、私たちが求めていたすべてを確実に詰め込みました。ボールは階段と相互作用しました。水はボールと相互作用しました。良いテストだと言えるでしょう。
次に、キャラクターの演技とキャラクターの感情をテストしたいと思いました。ここで使用したプロンプトです。プロンプトを一時停止して読むこともできますが、何が生成されたか見てみましょう。
傘を持った女性が雨の中を歩いて、人々に手を振っている様子があります。背景にはネオンサインのようなものがあります。そして、ここのプロンプトを見てみましょう。中年の女性、それは入っています。雨の都市で。はい。通りを横断します。通りを横断しているとは言えません。むしろ通りの真ん中を歩いています。
透明な傘を持っています。クール。はい。一時停止し、雨が傘に現実的に当たる中、微妙な笑顔で見上げます。それからカメラの外の誰かに手を振ります。はい、それは機能しました。そして、ネオンサインからの劇的な逆光で、一貫性のあるダイナミックな手持ちカメラとマイクロジッターを保つように言及しました。
背景にネオンサインがあります。そして、これを本当に素早く動かすと、カメラのマイクロジッターのようなものさえあります。完璧な安定したショットではなく、誰かがカメラを持って歩いているように見えます。
ですから、これも良い仕事です。次に、非現実的なアニメーションスタイルを試してみたいと思いました。ですから、2Dアニメの様式化された世界で、若い探検家が浮遊するランタンとアニメーション化された生き物で満たされた浮島の市場を走り抜けるというプロンプトを与えました。
これがその結果です。確かに漫画のような外観を持っていますが、明らかにいくつかの奇妙さがあります。特に背景で起こっています。キャラクターはかなり一貫性を保っていますが、背景を見ると、一体何が起こっているのでしょうか。何が起こっているのか分かりません。
ええ、これらは何らかのクレイジーに見えるキャラクターですが、残念ながら本当に下手に描かれたキャラクターのように見えます。そして、ここに来ると、背景はただのナンセンスです。
ですから、ここの漫画のものは、素晴らしいものではありません。これにはあまり感銘を受けていません。他のモデルのいくつかは、これらの漫画を少し良くやっているかもしれません。
これについては、生活のスライスのようなB-rollのような基本的な映像をテストしたいと思いました。また、このようなマクロショットの詳細でどれだけうまくいくかもテストしたいと思いました。
ですから、温かいコーヒーショップでバリスタがラテを作るというプロンプトを与えました。探しているものについてのより詳細な情報もあります。繰り返しになりますが、ビデオを一時停止してプロンプトを読むこともできますが、これが得られたものです。
クローズアップ、彼らがここでエスプレッソにミルクを注いでいます。それから、ズームアップして人がカメラに微笑みます。
プロンプトを見てみましょう。エスプレッソに渦巻くミルクのクローズアップショット。ここを戻すと、ミルクがエスプレッソに入って少し渦巻き始めているのが見えます。流体力学はかなり正確に見えます。エスプレッソを注いでいるように見え、何も変に見えません。
蒸気が自然に上昇しています。ええ、ここでいい蒸気が出ています。背景の客がソフトにぼやけて動いています。バリスタがカウンターを拭き、見上げて微笑みます。ですから、確実に背景にぼやけた人々が歩き回っているのがあります。
カメラはバリスタを見るためにパンアップし、今見ているように、カウンターを掃除しようとしていて、カメラに微笑みます。完璧に達成しました。これが私が今まで見た中で最もリアルに見える顔だとは本当に言えませんが、かなり良いです。
プロンプトの順守に関しては、このモデルは実際に本当に私を感銘させています。さて、最後のテストです。映画のようなアクションと、この種の環境での物理がどれだけうまくいくかをテストしたいと思いました。
ですから、未来的な警察ドローンが夜に狭いネオンの路地でオートバイを追いかけるというプロンプトを与えました。ドローンが見えます。ドローンは最初はオートバイの前にあるように見え、それから後ろになりました。ですから、そこで起こる少し奇妙な視点の変化があります。
しかし、繰り返しになりますが、プロンプトを見てみましょう。警察ドローン。それは得られました。オートバイを追いかける。チェック。夜の狭いネオンの路地。狭い路地にネオンサインがあります。バイクが金属の手すりをこする際に火花が飛びます。
それは得られましたか。金属の手すりは得られなかったと思います。ああ、待って。得られました。ですから、ここ、数秒後に、バイクの後ろから火花が飛んでいます。地面にある何かのようなものから。金属が地面にあると思います。そこから火花が出ています。
私が念頭に置いていたものとは正確には違います。ここに金属の手すりのようなものがありますが、バイクはそれに当たりさえしません。ですから、そこに少し奇妙な物理があります。火花が何から来ていたのか分かりません。
雨に濡れた舗装がライトを正確に反射します。ええ、良く見えます。ドローンは、ライダーを追跡するスポットライトを発射します。ドローンにはスポットライトがあります。カメラは上空から、密着した追従ショットに切り替わります。
前からのショットがあり、実際には追従ショットに切り替わることはありませんでした。ですから、十分な時間がなかっただけかもしれません。これは5秒の生成だけなので、最終的なショットに切り替えるための時間が足りなくなった可能性があります。
しかし、全体的に、特にプロンプトの順守に関しては、かなり印象的です。それは私が常にテストするのが好きなことの一つです。プロンプトにたくさんのものを投げ込んで、私が投げ込んだすべてのものを取得するかどうかを見るのが好きです。すべての詳細を分離して、それらをビデオに入れることができましたか。
そして、ここの4.5はそれをすべて本当に本当にうまくやっているように見えます。リアリズムに関しては、分かりません。リアリズムではまだVO3.1に優位性があるかもしれません。また、ほとんどの最新の最先端モデルは音声も生成します。
ですから、VO3.1、Sora、新しいCling 2.6か何かがあって、それは音声を生成します。ですから、ほとんどの最新の最先端モデルはビデオと一緒に音声も生成します。
ですから、Runwayがこのモデルに音声を持っていないのは少し興味深いと感じますが、視覚的には間違いなく最も印象的なモデルの一つです。
新しい大規模言語モデルのリリース
今月、いくつかの新しい大規模言語モデルが出ました。これらのモデルすべてを詳しくテストすることはしませんが、出てきた様々なモデルを簡単に共有します。
フランスのAIラボであるMistralがDevstral 2とMistral Vibe CLIまたはコマンドラインインターフェースをリリースしました。ですから、Mistralは本当にそのバイブコーダールートを進んでいて、人々にコードを書くツールを提供しようとしています。
ここのベンチマークを見ると、彼らのDevstral 2モデルはこの72.2モデルです。そして、これらは利用可能なすべてのオープンウェイトモデルです。DeepSeekがおそらく現在、オープンウェイトの世界で最高のモデルです。そして、このDevstral 2はほぼ同等です。
わずかに下回っているだけで、実際にはプロプライエタリなGrok Code Fast 1よりも優れており、最先端モデルであるGemini 3 Pro、GPT-5.1、Claude 4.5 Sonnet(Opusではなく、彼らの2番目に良いモデルであるSonnet)のすぐ下にあります。
そして、これらの新しいモデルはオープンソースです。ですから、バイブコーディングのようなことをしたいけれど、ローカルでやりたい、大規模言語モデルをコンピューターにダウンロードして、クラウドサーバーに接続せずに自分で実行したい人にとっては、現在の選択肢は基本的にDeepSeek v3です。
2とDevstral 2が、完全に自分のクラウドまたは自分のコンピューター上で実行できる最高のオープンウェイトコーディングモデルになるでしょう。
今週、中国のラボのいくつかからも新しいモデルがいくつか出ました。Z AIがオープンソースモデルであるGLM 4.6Vをデビューさせました。そして、これは実際にツール呼び出しとビジョンの使用が可能です。
ですから、2つのモデルがあるようです。4.6Vと4.6V flashがあります。1つは1060億パラメーターモデルです。1つはわずか90億パラメーターモデルです。ですから、これはかなり標準的なGPUでもほぼ確実にローカルで実行できます。
ここのベンチマークを見てみましょう。彼らは、類似のオープンウェイトの世界にある他のモデルとほぼ同等です。そして、これらは主に他の中国のモデルと比較されているだけです。
Quin 3も彼らのモデルの一つを更新しました。彼らのQuin 3 Omni Flashが大幅なアップグレードを受けました。ですから、彼らはマルチターンのビデオとオーディオの理解を改善しました。システムプロンプトを通じてAIのパーソナリティをカスタマイズできます。よりスマートな言語処理と音声は人間と区別がつきません。
chat.quin.aiで試すことができます。そして、ここでこのモデルのベンチマークが見られます。彼らはGPT40とGemini 2.5 Flashと比較しました。ですから、最先端のモデルと比較しているわけではありませんが、まともなモデルと比較しており、他のモデルとほぼ同等か、はるかに優れた性能を発揮しています。
しかし、繰り返しになりますが、彼らは誰と比較するかをある程度選んでいます。
その他のニュース速報
さて、すでにかなり多くのことを共有しました。そして、今週は穏やかな週だと言いましたが、すでに多くのことについて話しました。あと数点、本当にほんの数点だけ共有したいことがあります。しかし、あまり深入りはしません。
ですから、速報に移りましょう。先週のニュース動画で、OpenAIがChatGPTに広告を展開し始めていることについて話しました。そして、人々がそれに気づいて、これはひどいと言っていました。
そして、私もそのビデオで同意しました。ええ、それはひどいと。しかし、実際にはChatGPTに広告を入れていませんでした。彼らはショッピング機能を構築していて、そのショッピング機能がたまたま広告に非常によく似ているだけでした。
OpenAIのMark Chenは、広告のように感じられるものは慎重に扱う必要があり、私たちは不十分だったと言いました。モデルの精度を向上させている間、この種の提案をオフにしました。また、役に立たないと感じる場合に、これを減らすかオフにできるように、より良い制御も検討しています。
ですから、繰り返しになりますが、私が何について話しているのか全く分からない場合、これがTwitterでのBenjamin Decrackerからの元の投稿でした。彼はプラスサブスクリプション、有料サブスクリプションを利用しており、このHome and Groceries Connect Targetのショップを見たと言っています。
彼はこれを共有して、OpenAIに今は広告があると言いました。一体何だと。それがMarkからのこの応答を促しました。Markは基本的に、それは広告ではなかったと言いました。それは新しいショッピング機能をテストしていたのです。
Benjaminは、もし広告のように見えて、広告として認識するなら、私たちにとっては本当に違いはないと言いました。ですから、OpenAIは決定しました。今のところその機能を削除して、すべて修正してきれいにすると。
ですから、それが広告だったかどうかについて混乱がないようにします。なぜ地獄についてあなたは話しているのですか。OpenAIの良い動きだと思います。OpenAIとChatGPTについて話しているので、ChatGPTは新しい機能を展開しました。これで、ChatGPT内で直接、Adobe appsを使用して写真やPDFを無料で編集できるようになりました。
実際にはまだ試していません。ですから、ChatGPTにすぐに移動してみましょう。私のアカウントに展開されているか見てみましょう。プラスをクリックして、もっと見るに行きましょう。ソースを追加しましょう。そして、デフォルトではオンになっていません。もっと接続しましょう。
さて、ここです。Adobe Acrobat、Adobe Express、Adobe Photoshopを接続でき、前回見たときよりもはるかに多くのコネクタがあります。これらの多くは覚えていません。
ですから、彼らは本当に新しいコネクタを次々と作り出しています。しかし、Adobe ExpressとAdobe Photoshopがあります。Adobe Expressを接続しましょう。それから、プラスをクリックして、Adobe Expressを選択します。
理論的には、ChatGPT内でAdobe Expressを使用して画像を編集させることができます。ですから、ここに画像をアップロードしましょう。これは私自身の画像です。背景を削除してグリーンスクリーンにするように言いましょう。
理論的には、通常の画像モデルだけでこれを行うことができ、Adobeは必要ありませんが、Adobeコネクタを使ってみて、何をするか見てみましょう。さて、Adobe Expressではそれができないようです。
ですから、Adobe ExpressはChatGPTでまだそれができませんが、デザインの検索、テキストの塗りつぶし、背景色の変更ができます。それは私がちょうど求めたことではありませんか。画像の置き換え、デザインのアニメーション化。背景色を緑に変更してください。
これはあなた自身がアップロードした写真なので、Adobe Expressのデザインテンプレートではなく、適用できません。分かりました、もういいです。このようなことをAdobe Expressで10秒でできるのに、ChatGPTで会話させられるなんて、学びたくありません。とにかく、ランダムな話題でした。
今はAdobeを接続できます。そして、現在はできないことを教えてくれますが、接続はできます。
LimitlessのMeta買収とその他のアップデート
このニュースストーリーについては多くを語ることはありませんが、Limitless Pendantというものがあります。これは彼のシャツに見えるような小さなものです。文字通りすべてを記録する小さなクリップです。常にオン、常に記録していて、すべての会話を記録します。電話の会話を記録します。
まあ、少なくとも電話の会話のあなたの側を記録します。基本的にあなたの一日を記録し、後で会話を振り返ったり、人々に言ったことを思い出したりできます。そして、それらのことからTo Doリストを作成できます。
さて、彼らはMetaに買収されました。ですから、サングラスにカメラ、スピーカー、マイクをつけている会社が、今やマイクを体につけてすべてを記録する会社も所有しています。怖くありません。
過去に私たちのデータを誤って管理したことで問題になった会社が、私たちが一日中している会話のすべてのオーディオデータを収集しています。なぜあなたは私にそんなに執着しているのですか。それについてどう感じればいいのか分かりません。次に進みましょう。
Alibabaから本当にクールな画像のようなものが出ました。Quin image I2Lと呼ばれています。これはimage to Loraの略だと思います。Lorasに詳しくない方のために、私は非常に単純化しすぎますが、基本的に画像モデルやビデオモデルに追加できる小さなプラグインのようなもので、Loraの方向にそれを導きます。
ですから、Loraにあなたがどのように見えるかについての詳細がある場合、画像モデルを導いて、あなたの見た目に近いものを生成できます。Loraに特定のデザイン美学、例えばStudio Ghibliのようなものに関するトレーニングデータがある場合、そのLoraをプロンプトと一緒に実行でき、モデルをLoraが指示する方向により導きます。
繰り返しになりますが、超単純化です。それを言うことで、さらに混乱させてしまったかもしれませんが、ここでこの新しいモデルがたった1つの画像でそれらのLorasを生成できることが分かります。
ですから、画像モデルにプロンプトを出して、毎回Studio Ghibliのように見せたいけれど、画像とスタイルが非常に一貫した全く同じスタイルにしたい場合、Studio Ghibliの写真の1つの画像を与えて、そこからLoraを生成するように指示すると、そのLoraを含めると、そのスタイルで将来のプロンプトを生成します。
おそらくさらに混乱させてしまいましたが、スタイル、人、オブジェクト、ペットなどを複製するのがはるかに簡単になります。かなりクールです。
RivianのAI・自動運転デー
今週、私はRivianで開催されたAIとAutomation Dayというイベントにも参加していました。Rivianはかなりクールなことをしています。ですから、Rivianイベントにいる未来の私に移りましょう。そして、このイベントで聞いている興味深いことのいくつかを説明します。
さて、Rivianは今日、彼らの車両に何が来るかについて、かなりクールな発表をしました。そして、何だと思いますか。その多くがAIに関係しています。今日のRivianの基調講演で私が本当に興味深いと思ったことの一つは、Rivianが実際に独自のシリコンを作ることに取り組んでいるということです。
将来のRivianには新しいRivianチップが搭載される予定です。これは明らかにNvidiaへの依存を減らすための動きのようですが、Nvidiaに何が起こっているのか尋ねると、彼らはまだNvidiaと協力しており、しばらくの間両方のチップに依存すると言いました。
彼らはまだそのことを理解しようとしていると思います。しかし、ポイントは、Rivianが独自のチップを作っているので、多くのAIが、使用しているRivianの車上で、デバイス上で動作するようになるということです。
Rivianに関しては、自律性の4つの波があります。実際に以前、そのうちの1つをテストしました。それは、手を離してここPalo Altoを運転してくれる自動運転モードでした。
いくつかの介入が必要でした。スピードバンプを越えて、スピードバンプの直後に車が止まり、ドライバーがガスペダルを踏んで、再び動き出すようにする必要がありました。しかし、ほとんどの場合、問題なくPalo Altoを運転しました。一時停止標識で停止し、赤信号で停止し、すべきことをすべてしました。
しかし、これは彼らのフェーズ1に過ぎません。それはユニバーサルハンズフリーで、ハンズフリーでいられますが、まだ準備をしている必要があります。ガスに準備、ブレーキに準備、必要に応じてステアリングホイールを操作する準備が必要です。まだ注意を払う必要があります。
その次に来るモードは、ポイントツーポイント自律運転と呼ばれています。行きたい場所を指定すると、現在いる場所から行きたい場所まで連れて行ってくれますが、まだある程度注意を払っている必要があります。
第3段階は、彼らがアイズオフ自律運転と呼んでいるものです。文字通り椅子を後ろに向けて、後ろの人々と話していても大丈夫です。道路に目を向けている必要はなく、それがあなたのために運転してくれます。Rivianではそれが来年の終わりに向けて来る可能性があるように聞こえます。
そして、最終段階はパーソナルL4またはレベル4自律運転と呼ばれています。そして、それは完全に自分自身で運転できるというものです。誰も車にいる必要がありません。ですから、例えば、彼らが与えた例の一つは、空港からの乗車が必要だとしましょう。
車を召喚して、家から空港まで運転してあなたを迎えに行かせることができます。そして、それは自分自身であなたのところまで運転してきます。車に乗り込むと、家まで運転してくれます。それが真のレベル4自律運転です。それが彼らがここRivianで取り組んでいることです。
来年は見られないでしょう。おそらく27年か28年か、分かりません。しかし、それが彼らが目指しているものです。次世代のRivianには、Waymoが持っているようなLIDARが搭載されますが、車の上の盛り上がりのようなものではありません。車に非常に統合されています。ほとんど見えません。
そして、彼らはRivianアシスタントも展開しています。これは車の中のAlexaのようなものや、車の中のSiriのようなRivianバージョンです。ただ「Hey、Rivian」と言って、やりたいことを伝えられます。カレンダーに接続します。テキストメッセージに接続します。
ですから、「明日何をする必要があるか」と言えます。「Joeにテキストを送ってもらえますか」と言えます。彼にメッセージを送って、テキストを音声で話すことができます。しかし、車のすべてについても知っています。
ですから、「Hey、Rivian、寒くなってきた」と言えます。そうすると、あなたのために暖房を上げてくれます。または、「Hey、Rivian、助手席以外のみんなの座席ヒーターをつけてもらえますか」と言えます。そして、まさにそれを実行します。
ですから、音声コマンドを使って車のすべてをすることができます。私はRivianを所有しています。Rivianについての最大の不満の一つは、大きなタッチスクリーンです。車で何かを変更したいときは常に、タッチスクリーンを使用する必要があります。
ですから、エアコンを少し上げたい場合、画面上のボタンを見つけて、開いて、スライダーを上にスライドして、温度を変更する必要があります。ステレオの音量を変更したい場合、私が運転手でなければ、小さなスクロールホイールではできません。
今は、音量ボタンを押して、指を上にドラッグして音量を変更する必要があります。ですから、多くのタッチスクリーン制御は、特に運転中にはかなりイライラすることがあります。
さて、このRivianアシスタントで、Rivianに話しかけることができるようになり、車内の様々な制御をしてくれます。かなりかなりクールなものです。これは本当に楽しいイベントでした。通常、車両に関するイベントには来ません。通常は、最新のソフトウェアや大規模言語モデルについて教えてくれるイベントに行きます。
ですから、実際の物理的な製品を直接体験できるのは本当にクールでした。
McDonald’sのAI広告論争
今週共有したい最後の少しのニュースですが、おそらく見たか、少なくとも聞いたことがある新しいMcDonald’sの広告が出回っています。この広告では、たくさんの人々がクリスマスを絶対に嫌っていて、早く終わってほしいと話しています。
そして、窓から投げ出されたり、プレゼントが車から落ちたり、誰かがトロリーのドアに挟まってそれに引きずられたりするような、不幸に見舞われる人々のたくさんです。
そして、全体がAI生成されていて、みんながそれを嫌いました。さて、私の見解を述べます。人々はソーシャルメディア上でこのようなAIスロップに非常にさらされてきていると思います。そして、見る画像やビデオのほとんどすべてについて、これは本物なのか、それともAIなのかと疑問に思わなければならない段階に来ています。もう分かりません。
特にハロウィーンの時期にそれが明らかでした。クレイジーなハロウィーンコスチュームや、猫がドアベルを鳴らしてトリックオアトリートをしているようなビデオをたくさん見ていました。
猫のものではありませんが、これらのビデオのいくつかは非常にリアルで、実際にAIだったと見分けるのが難しかったです。そして、それらが実際のビデオであるかのように共有されていました。人々がそれらがAIだと知ったとき、AIビデオを見ていたと気づかなかったので、イライラしていました。
私自身を含め、人々は至る所でAI生成されたスロップを見ることに非常に疲れていると思います。そして、McDonald’sやCoca-Colaのような会社が行って、自社のためにさらに多くのAIスロップを生成するのを見ると、私たち全員を怒らせます。
そうでしょう?なぜなら、これは数十億ドル規模の企業で、何でもできる財源があるからです。最高の俳優を雇うことができます。A級の俳優を雇ってコマーシャルに出演してもらうことができます。最高のビジュアルエフェクトの人々、最高のミュージシャン、最高のナレーションアーティストを雇うことができます。
高予算のビデオを作る能力があります。ですから、個人が誰でも生成できる他の安いAIスロップのように感じられるAIスロップを生成しているのを見ると、なぜあなたたちはこれをやっているのかと思います。AIを使ってこのようなものを生成する経済的な言い訳はありません。
本物の人間を使ってください。人々にお金を払ってこのようなことをしてもらってください。十分なAIスロップが出ています。コマーシャルまでそれである必要はありません。
そして、その疲労が始まっていると思います。そして、そのようなものを見るたびに、常に反発を受けることになります。AIは、私の意見では、このようなものには、より小さなツールとして使用される必要があります。
つまり、コマーシャルの80%を本物の人間、本物のグラフィックデザイナー、本物のVFXアーティストで作るということです。その80%を彼らと一緒に作りますよね。AIなしでは生成が難しい、またはVFXで本当に本当に高額になる、または生成に何ヶ月もかかるかもしれないシーンがいくつかある場合、分かりました。
ビデオのその15〜20%くらいで、それらのショットを得るためにいくらかのAIを使ってください。しかし、お願いします。本物の俳優と本物のVFXアーティストにこのようなことをしてもらう余裕があります。
この数十億ドル規模の巨大企業の側では、安くて怠惰に感じられるだけです。とにかく、その明るい話題で、今日お伝えすることはほぼ以上です。
まとめ
ですから、このようなものが好きで、最新のAIニュースをすべて把握し続けたい、そして出てくるこのすべてのクールなAIのものを実際に使用する方法についてのチュートリアルを入手したい場合は、このビデオに「いいね」をして、このチャンネルを購読してください。
このようなものがあなたのYouTubeフィードに表示されるようにします。私は毎日、指をパルスに置いているので、あなたはその必要がありません。そして、週に一度、起こったすべてを分解してあなたを把握させるためにこれらのビデオを出しています。
繰り返しになりますが、そのようなものが好きなら、ぜひ購読してください。そして、次のビデオでお会いできることを願っています。今日も私と一緒にナードアウトしてくれてありがとうございました。また楽しい週でした。そして、これは遅くなるとは思いません。では、また後で。
このようなビデオが好きなら、親指を立てて、このチャンネルを購読してください。このようなビデオがあなたのYouTubeフィードに表示されるようにします。そして、まだの方は、futuretools.ioをチェックしてください。そこで、すべての最もクールなAIツールとすべての最新のAIニュースを共有しています。そして、素晴らしい無料のニュースレターがあります。改めてありがとうございます。本当に感謝しています。


コメント