2024年12月の第3週は、AI業界にとって予想外の大ニュースラッシュとなった。年末の休暇シーズンを前に、各社が一斉に新機能や新モデルを発表。OpenAIはGPT Image 1.5とGPT 5.2 Codexをリリースし、GoogleはGemini 3 Flashと音声合成モデルの改良版を投入。Metaは音声分離モデルSAM 2 Audioを公開し、LumaとClingは動画編集機能を大幅強化した。さらに宇宙データセンター構想の現実性への疑問、MicrostalのOCR 3、Amazon Alexaの会話型AI統合など、画像、動画、音声、3D生成からインフラまで、あらゆる分野で革新が同時進行している。この1週間だけで28件もの重要発表があり、AI開発競争が年末にもかかわらず加速していることを示している。

年末のAI業界が選んだのは「暴力」だった
皆さん、AI企業はどこもクリスマス休暇に向けてゆっくり休もうとしていると思いますよね。でも違います。今週、彼らが選んだのは暴力でした。今週は本当にニュースが多くて、皆さんが完全に最新情報をキャッチアップできるようにしたいと思います。
では、しっかり準備してください、研究者の皆さん。これは私がこれまでやった中で最大級の速報ニュース動画になりますよ。
OpenAIの新画像モデルとBlack Forest Labsの挑戦
まずはOpenAIの全く新しい画像モデルから始めましょう。今週、彼らはGPT Image 1.5をChatGPTとAPI内でリリースし、Googleが発表した最先端モデルであるNano Banana Proと競合できるようにしました。これがおそらく今週最大のニュースでしたが、実は私はすでにこのニュースの詳細な解説動画を作成していて、Nano BananaとGPT Image 1.5モデルの両方を比較しています。
今週はカバーしたい内容が山ほどあるので、このモデルについては深く掘り下げません。代わりに、すべての詳細を知りたい方は既存の動画をご覧ください。
でも、今週手に入れた新しい画像編集モデルはこれだけではありません。Black Forest Labsも今週Flux 2 Maxという全く新しいモデルをリリースしました。これは実はまだテストしていないので、試してみましょう。
このFlux 2 MaxモデルもNano Bananaや新しいGPT Image 1.5と競合しようとしているモデルのようです。というのも、画像生成だけでなく画像編集にも設計されたモデルだからです。
ウェブサイトの例では、このボーディングパスコーヒーのような製品にロゴを配置しています。反復編集も可能で、1つの画像から始めて、その画像を別の画像と組み合わせ、さらに別の画像と組み合わせていくことができ、元のコンテキストを覚えています。Nano Bananaでテストしたときは苦戦しましたが、GPT 5.1は実はかなり良い結果を出しました。
Nano Bananaと同様のグラウンデッド画像生成機能もあり、画像に何を入れるべきかを実際に調査してから、調査した内容を追加してくれるようです。また、画像のスタイルをさまざまなタイプのスタイルに変更する方法も理解しています。
Fluxのページにはもっと多くの例があります。私はNano BananaとGPT 1.5でテストしたのと同じプロンプトでいくつかテストしてみることにしました。
最初のテストでは、この画像を渡しました。これは前回の動画で他のモデルに渡したのと同じ画像です。そしてこんなプロンプトを出しました。「アップロードした私の写真を使って、右側に立っている人を削除しながら、私の顔、ポーズ、照明、背景を全く同じに保ってください。私はPadresのシャツを着ている人です。私の服装を黒い革ジャケットに変更し、私の後ろに微妙なネオンのリム照明を追加してください。私の顔の構造や表情は変更しないでください。」
そして、まあ、このバージョンでは私とJoeのハイブリッドバージョンのようなものを作って、私を右から削除しました。つまり、私が唯一お願いしたことは私の右側の人を削除することだったのに、私を削除して右側の人を残し、2人の愛の結晶のようなものを作ってしまいました。
他の出力もほとんど私の指示に従うのが得意ではありませんでした。簡単に思い出していただくと、ChatGPTがやったのはこれです。私の周りに紫色の光を配置し、私を同じ場所に残し、右側の人々を削除しました。ほぼ指示に従いました。一方Fluxは、同じ画像、同じプロンプトで、全く同じ結果ではありませんでした。
これは他のモデルでも行った興味深いテストでした。「雑誌のレイアウトのように9つの不均等な長方形に分割された白いキャンバスを作成してください。左上に湯気の立つコーヒーカップ。右上に折りたたまれた市街地図。中央左にヘッドフォン。中央右に光る電球。下部中央に赤いノート。各オブジェクトは長方形の内側に完全に収まり、境界線と重ならないようにしてください。」
すでにここで9つの不均等な長方形を台無しにしていることがわかります。5つの長方形しか見えないからです。これを1つと数えるなら6つの長方形と主張できるかもしれません。つまり、すでに数を間違えています。左上、湯気の立つコーヒーカップ。はい。右上、折りたたまれた市街地図。これは開いた地図のように見えます。中央左のヘッドフォン。中央右の光る電球。下部中央、赤いノート。重なりなし。
念のため、OpenAIのモデルがやったことを思い出しましょう。9つの不均等な長方形を頼みました。何らかの理由で10個になりました。すべてを正しい場所に配置しましたが、最後の指示も無視しました。各オブジェクトは長方形の内側に留まらなければならない。なぜなら見てのとおり、ノートについて、モデルが少し私をテストしているようでした。線の内側に留まれと言った。線の上に置いてみよう。それで通るか見てみようって感じです。
新しいFluxモデルはかなり良いモデルのようです。Nano BananaやOpenAIモデルにはまだ及びませんが、他の2つのモデルがうまくいかないときの別の選択肢です。
Metaの音声分離技術SAM 2 Audio
さて、画像から音声に移りましょう。Metaは音声用のSAM(segment anything)モデルのバージョンを展開しました。segment anythingモデルに馴染みがある方なら、画像や動画を渡してテキストを入力し、「電車をハイライトして」とか「電車を削除して」とか「電車にエフェクトを追加して」と言えます。今は音声でも同じことができるようになりました。音声ファイルを渡して、話し声だけを分離して、ギターだけを分離して、というようなことが言えます。
テストしてみたかったので、今はMetaのPlayground内で無料でテストできます。実際にSunoで曲を作成しました。著作権のある音楽を使っていないことを確認したかったんです。これは生成された曲です。簡単なクリップをどうぞ。
ボタンをクリックします。ここで分離したいものを入力できます。ギターを分離しましょう。分離音をクリックします。分割されたのがわかります。分離された音と分離されていない音があります。
ギターだけを聞くと、どんな音か聞いてみましょう。完全にボーカルと他の楽器をすべてカットしました。ギターを完全に取り除いたバージョンも聞けます。こんな感じです。
ドラムとベースと他のすべての楽器が聞こえますが、ギターはなくなりました。別のトラックに分離しました。このギターにエフェクトを追加することもできます。あまり良い音にはならないと思いますが、できます。
メガホンをギターに追加してみましょう。うん、あまり違いはありませんでした。リバーブを追加してみましょう。ええ、この音楽ではあまり違いに気づきませんね。
でも、他のものの分離も得意です。Meta Playgroundに戻って、音声を分離をクリックすると、ポッドキャストで話している2人のような他の例があります。動画を渡したものです。デフォルトではこんな感じです。
「やあ、私たちの地元のサウンドエディター、Phoenixと一緒にいます。」
「あなたがしてくれることすべてに感謝します。」
男性ボーカルだけを分離しましょう。その音を分離すると、理想的には彼のボーカルだけが得られるはずです。こうなります。
「今日は私たちの地元のサウンドエディター、Phoenixと一緒にいます。あなたがしてくれることすべてに感謝します。さあ、この空間と映画との関係、あなたが学んできたことについてもう少し教えてください。」
彼女が話し始めると、彼女の音声がカットされているのがわかります。その音声は分離されていない音にあるでしょう。彼が話しているように見えますが、音声は出ていません。
彼女が入ってくるところまで早送りすると、彼女が入ってくるのが聞こえるはずです。
「私はたくさんのことを学びました」
かなりクールですよね、特にポッドキャスターや音楽を作る人にとっては。個別の音声要素を分離できる便利な小さなツールです。画像や動画でできるようになっていて、今はMetaが音声バージョンを持っています。かなり素晴らしいです。
Vibe Code:スマホでAIアプリを作成
バイブコーディングでAIアプリを作るのがずっと簡単になりました。文字通りVibe Codeと呼ばれるこの新しいAIツールを使えば、AI搭載アプリを作成して、スマホから直接App Storeに配信できます。
アプリを開いて、画面をピンチすると、CapCutのようなビルダーが表示され、作りたいアプリを説明できます。Claude CodeがVibe Codeアプリ内でそのアプリを構築してくれます。
画像、サウンド、ハプティクスなどのアセットを生成してアプリに配置することもできます。なんと、ペイウォールを追加して新しいアプリから収益を得ることもできます。完成したら、ワンタップでスマホからApple App Storeに直接配信できます。本当にそれだけ簡単です。
自分で試してみたい方は、コードwolfを使って最初の3つのアプリを無料で作れます。説明欄のリンクからチェックしてみてください。今日の動画のこの部分をスポンサーしてくれたVibe Codeに本当に感謝します。
動画モデルの大進化
さて、画像モデル、音声モデルについて話しました。今度は動画モデルについて話しましょう。今週は動画モデルの世界で多くの動きがありました。見ていきましょう。
まず、Adobe Fireflyがプロンプトベースの動画編集をサポートするようになりました。理論的には、Fireflyで動画を編集して、この人を削除して、この音響効果を追加して、人の周りにこの光を追加して、というようなことが言えます。まだ何ができるのか正確にはわかりません。テストしていませんが、理論的には、動画を編集するためのテキストプロンプトを今は与えられます。
明らかに、すべての動画編集者は終わりで、もう仕事がなくなります。「調子はどう?」って聞かれたら、「元気だよ」って言わなきゃいけないんです。
Adobe Fireflyに入ってみましょう。これもまだ試していないものです。Firefly内に動画編集ベータ版があります。ここに入りましょう。新しいプロジェクトを作成するか、メディアをアップロードできます。
メディアをアップロードしましょう。この動画を渡します。「なんて可愛いの!」明らかにAI生成動画ですが、作業しやすいです。彼らの動画エディターがこれです。えっと、テキストベースの編集はどうやるんだろう? エディターに入ったら、右上に小さなボタンがあって、テキストベースの編集と書いてあります。
これをクリックすると、「なんて可愛いの」と認識します。実際に言っていることを変更できるんでしょうか? トランスクリプトを修正、タイムラインにテキストを追加、話者を割り当て、または削除ができます。非常に、非常に基本的な編集です。文字通り、物事をカットするためにテキストを編集しているだけです。
「なんて、可愛いの」だけにしたい場合、goshを取り除きます。どう編集されたか見てみましょう。「なんて、可愛いの」
goshがカットされたのがわかります。あまり多くの編集機能があるようには見えません。物事をカットするためにテキストを編集できるだけです。今はFirefly内で直接それができて、かなりクールです。時間が経てば、もっとAI編集機能を追加すると思います。
生成設定をクリックするとどうなるか見てみましょう。生成したい動画を説明してください。これは動画を生成するためのものであって、動画を編集するためではありません。今のところFirefly内の非常に基本的なテキストエディターです。
LumaのRay 3 Modifyと動画編集の進化
Luma AIという会社も今週Ray 3 Modifyという新しいAI動画モデルを展開しました。これは動画入力と開始フレームと終了フレームを渡すことができて、開始フレームと終了フレームに基づいて動画を変更できるようです。
実際の人間がアクションを動かしているようなものですが、それを別のもので再スキンできます。このデモで見られたように、群衆がいなかったものを群衆で再スキンしたり、人の髪の色を変えたり、そういったことができます。
最初にテストしたのは、ここで見える開始フレームを渡しました。シャツです。拡大できるかもしれません。小さいですからね。でもこれは醸造所に立っている私、友人のJoe、友人のBradの画像です。
それから、前の動画で作成した紫色の光が周りにあって革ジャケットを着ている私のこの画像を渡して、この2つの間でアニメーション化するように言いました。こうなりました。
彼らが歩き去って、それから私が奇妙にこのジャケットを着て、腕が奇妙に袖を通ります。でもそれが開始フレームと終了フレームでやったことです。
でも、ドライビングビデオでテストしたかったのですが、残念ながらアップグレードする必要がありました。ドライビングビデオを使いたい場合は、実際に料金を払う必要があります。
私がオフィスでライトセーバーで遊んでいるこの動画と、Leonardoで生成した剣を持っている海賊のこの画像を入力しました。剣で遊んでいる私のアニメーションを取って海賊に適用してくれることを期待していました。
でも代わりにやったことは、10秒マークくらいになるとすぐに、ライトセーバーを剣に変更しますが、その後海賊にクロスフェードするだけでした。
私の動画を海賊のドライビングアニメーションとして本当に使ったわけではありません。でもやり方はこうです。Luma Dream Machineにいる場合、ここでボードをクリックします。新しいボードを作成します。右下で、modifyに設定されていることを確認してください。
動画が選択されていることを確認してください。Ray 3が選択されていることを確認してください。これが全く新しいモデルです。動画をアップロードできます。ここで海賊の動画を渡します。10秒にクロップされます。
開始フレーム、変更フレーム、キャラクターリファレンスなどのオプションが表示されます。キャラクターリファレンスをもう一度海賊に設定しましょう。また、海賊を開始フレームとして設定しましょう。ここに差し込みます。
開始フレームはこの海賊のはずです。ライトセーバーを持った私の動画がドライビング動画です。それからキャラクターリファレンスとしても海賊です。ここで強度も調整できます。まだ何をするのか完全にはわからないので、真ん中に置いておきます。これが最初のテストよりも良いことを願います。
10分ほど待った後、永遠にかかっていたので、生成失敗となりました。うまくいっているように見えました。いくつかのアニメーションが動いているのを見ていましたが、10分後に生成失敗となりました。これはイライラします。私は有料顧客なのに。
私の推測では、全く新しいものだから、今は圧倒されているんだと思います。過負荷です。さらに10分待った後、ついにこれを得ました。まあまあです。
ええ、つまり、私の動きに従って、この男に適用しました。剣が消えるところや奇妙なアーティファクトがあるという明らかなおかしさがありますが、追加した画像をアニメーション化するドライビングビデオをついに得ました。
2回目の試行では、アバターを削除して、特定のアバターを添付せずに動画と開始フレームだけをアップロードしたら、うまくいったようです。
繰り返しますが、ベストプラクティスはわかりませんが、正しく取得できれば、かなりクールに見えます。つまり、これらのロープやものにはかなり良い詳細があります。かなり印象的です。ただ、遅くなければいいのにと思いますし、10分待って失敗したと知ることがないように、もっと良い説明があればいいのにと思います。本当にイライラします。
でも、最終的にはたどり着きました。でもまだ終わりではありません。
Clingのモーションコントロールとリップシンク
Clingはモーションコントロールを含むいくつかの新機能を展開しました。Cling Video 2.6モデルで新しくアップグレードされたモーションコントロールがあり、基本的にはCling内のモーションキャプチャのようなものです。速くて複雑なアクションで全身の動きを検出でき、完璧な手の動き、表情豊かな顔ができます。
ドライビング動画と画像を渡せば、理論的にはドライビング動画を使って同じように画像をアニメーション化してくれます。テストしてみましょう。
これは以前のバージョンで行ったテストでした。あまりうまくいきませんでした。もう一度試してみましょう。この動画を渡しました。
それから、Leonardoで生成したライトセーバーを持つジェダイのこの画像も渡しました。テキストプロンプトとは組み合わせませんでした。ドライビング動画と画像だけを渡しました。これが生成されたものです。
以前よりもずっとうまく機能します。それは確かです。まだおかしなところはありますが、前回よりも確実に良くなっています。
ClingはCling Video 2.6内にAI音声コントロールも展開しました。どんな感じになるかの例がこれです。非常に、非常に印象的なリップシンクです。チェックしてみてください。
「それって私の声?この感触は柔らかい。」
「この感触は力強い。」
繰り返しますが、本当に、本当に良く見えます。これまで見た中で最高のリップシンクの1つです。
でも、Clingにログインすると、これをどう使うのか実際にはわかりません。Avatar 2.0モデルがあるのがわかります。これらの1つにカーソルを合わせても、あまり良くありません。
「仕事に着けていくお気に入りのリップグロスをシェアします。」
「お気に入りのルースパウダーでベースを整えます。ほら? 滑らかで、柔らかくて、完全に決まってる。」
そのリップシンクは、さっき見たデモのリップシンクには見えません。
今、Video 2.6だと言っていました。ここの動画モデルに行って、テキストから動画にすると、ネイティブオーディオのオプションがあります。だから、誰かがカメラに向かって話しているプロンプトを試してみます。
男性がカメラを見て「Matt Wolfの登録を忘れないで」と言うというプロンプトを出しました。こんな感じです。
「Matt Wolfの登録を忘れないで。」
つまり、ええ、かなり良いです。Cling Video 2.6で話すように指示すると、かなり良く見えます。繰り返しますが、ここで無駄話をしている感じですが、これまでこれらのAIモデルの1つから見た中で最高のリップシンクです。
Alibabaの新モデルとRunway ML4.5の謎
Alibabaから出た新しい動画モデル、Quan 2.6も手に入れました。これは、Clingで見たものと非常に似ています。参照動画を渡せば、画像を渡せば、参照動画を使って画像をアニメーション化してくれるからです。ネイティブのオーディオビデオ同期もあります。シンプルなプロンプトを自動ストーリーボード化されたマルチショット動画に変えることができます。
本当にクールなモデルに見えます。これをテストできるか見てみましょう。わかりましたか?
「よう、私のプードルを持って。私のプードルを持って。」
Quanに行くと、最初のフレーム、最後のフレーム、音声駆動があります。音声ファイルから始められます。この新しいQuan 2.6モデルで人々がやっているのを見た本当にクールなもののほとんどは、Comfy UIを使ってオープンバージョンでやっています。
ドライビング動画から始められるかどうかは実際にはわかりません。ここでサンタを主演させましょう。Soraが持っているようなカメオ機能に似ています。ジャンプして「やった! クリスマスだ」と叫ばせましょう。
世界最速のモデルではありませんが、見てのとおり、編集の力で、生成されたものがこれです。「やった! クリスマスだ。やった! クリスマスだ。」
そして最後に、AI動画ニュースの最後の部分ですが、先週話したことに修正を加えたいと思います。新しいRunway ML4.5モデルについて言及して、オーディオを生成しないと言いました。
でも、ここのTechCrunchのような報告を見ていて、最新の動画モデルにネイティブオーディオを追加すると言っています。それで、何か見逃したのかと思いました。戻って別の動画を生成しましたが、まだ動画と一緒にオーディオを生成しませんでした。でも、オーディオができるという報告を見ています。
私のためではないか、何か見逃しているだけかもしれません。Gen 4.5でオーディオを使う方法を知っている方がいたら、コメントで教えてください。わからないんです。私には明らかではありません。
AI業界の大量ニュースラッシュ
今週は多くのニュースが展開されたと言いましたが、まだ表面をなぞり始めたばかりです。まだ共有したいことが山ほどありますが、すべてを詳しく分解する代わりに、速報に飛び込みましょう。
この動画のほとんどはかなり速報になりますが、行きましょう。ピュー。やりましょう。
OpenAIからのニュースがいくつかあります。開発者がChatGPTにアプリを提出できるようになりました。ChatGPT内の設定を見て、アプリをクリックすると、デフォルトでAdobe Express、Canva、Figma、Gmail、他にもかなりあります。
アプリを作成する能力は、もはやこれらの大企業だけのものではありません。どうやら、誰でもアプリを作成してChatGPTに承認のために提出できるようになりました。自動的に承認されるわけではありません。OpenAIには従う必要があるガイドラインがあり、公開される前に承認される必要がありますが、ChatGPTがようやくChatGPTのアプリストアのようなものを作っているようです。
スマホでChatGPTを使っている場合、iOSでもAndroidでも、ブラウザバージョンで利用可能だったブランチ機能がモバイルバージョンでも利用可能になりました。モバイルバージョンを使っている場合は、クイックな生活の質の更新です。
ああ、そうだ、2026年第1四半期にアダルトモードが手に入ると発表しました。つまり、基本的にはGrokのようにゆっくり変わっていて、下品な話をしてくれたりするようになります。
Google Labsは今週CCという新製品を披露しました。これはGmail、Calendar、Driveを接続して、毎朝パーソナライズされたブリーフィングを配信する新しい生産性エージェントです。
ブリーフィングはこんな感じです。メールに送られてきて、「今日のゲームプランはこちらです」と書いてあります。このゲームプランのすべての詳細は、カレンダー、Gmail、Google Driveから引き出されました。
これを使うためのウェイトリストに参加できます。今は個人アカウント内でのみ機能します。Googleビジネスアカウントを持っている場合は、まだありません。個人アカウントだけです。
Googleがすべきだと思うことの1つは、この機能を複数のGoogleアカウントで利用できるようにすることです。複数のGoogleアカウントを使っている人は私だけではないと思います。私はおそらく4つの異なるGoogleアカウントを使っています。1つは純粋に個人用で、友人や家族だけが知っています。
1つはビジネスアカウントで、スポンサーやさまざまなビジネス問い合わせが来ます。1つはFuture Tools用で、人々がバグなどを提出できます。複数のGmailアカウント、複数のGoogleカレンダー、複数のGoogle Driveアカウントを持っています。
このCC機能が、すべてに接続して、すべてから情報を引き出せたら本当にクールだと思います。今は、メインのGmailやメインのカレンダーから詳細を引き出すことさえできません。それらはビジネスアカウントで、個人アカウントではないからです。
でも、日常的に必要なすべての情報を、1つのGoogleアカウントだけでなく引き出せるようにしたいです。繰り返しますが、私が異常かもしれませんが、そうではないと思います。ほとんどの人が複数のGoogleアカウントを持っていると思います。
このニュースは先週でしたが、言及するのを忘れました。AIニュースが先週あったので、彼が今それについて話します。
Googleのテキスト読み上げモデルとLLMの新展開
Googleもテキストトゥースピーチモデルを改善しました。全く新しいGemini 2.5テキストトゥースピーチモデルは、表現力の向上、精密なペース配分、シームレスな対話を備えています。理論的には、望むならNotebook LMポッドキャストのように聞こえるようにできるはずです。同じ基礎技術だと思うからです。
実際にGemini 2.5テキストトゥースピーチモデルをOpenAIのPlayground内、aistudio.google.comで試すことができます。2人の異なる話者での簡単な例がこれです。
「こんにちは、ネイティブスピーチ機能をお見せできることに興奮しています。」
「音声を指示したり、リアルな対話を作成したり、もっと多くのことができます。これらのプレースホルダーを編集して始めましょう。」
要点はわかると思います。プレースホルダーを編集する必要はありません。興味深いのは、バックグラウンドで少しノイズが聞こえることです。ヘッドホンをしているから聞こえるのか、それとも非常にクリアだったのかわかりませんが、少しバックグラウンドのパチパチというノイズがありました。
でも、Notebook LMのようなポッドキャストに似たものを取得したい場合、AI StudioとGemini 2.5の新しいテキストトゥースピーチモデルで、今無料でマルチスピーカーオーディオを実際に作成できます。かなり素晴らしいです。
Googleはディープリサーチにも新機能を展開しました。これは実際にディープリサーチで作成されたコンテンツのビジュアルを作成します。
この例の動画では、ディープリサーチを行って、グラフやチャートなどが組み込まれたこれらのレポートを生成し、ディープリサーチで得られる出力にすべて組み込まれます。
これは今はUltra購読者のみが利用できると思います。Google AI Ultra購読者。月額250ドルのプランに加入する必要がありますが、この機能が下位層のプランに展開されるのも時間の問題だと思います。ディープリサーチを行って、クールなグラフやチャートやレポートなどを生成できるようになります。
今週は多くの新しい大規模言語モデルもリリースされました。Googleからの1つを含みます。彼らはGemini 3 Flashをリリースしました。数週間前にGemini 3を手に入れました。Flashモデルは、使用がずっと速く、計算効率がずっと良いモデルです。
「私が本当にどれだけ速いか、全く分かっていないと思います。」
興味があればすべてのベンチマークがここにありますが、FlashとGemini 3 Proのコスト差は4分の1です。トークンの出力価格もコストの約25%です。かなり安く使えます。
ベンチマークでの結果を比較すると、実際にGemini 3 Proに非常に近いです。Humanity’s Last Examはかなり近い。Arc AGI Google Proof Q&Aはほぼ同じです。速くて安いモデルで、Gemini 3とほぼ同じくらいうまくいくことがわかります。
とはいえ、他のモデルよりもかなり幻覚が多いという報告を聞いています。使う場合は、クリエイティブな目的で使っている場合を除いて、作業を二重チェックしてください。
この人は、このGemini 3 Flashを使ってバスト・ア・ムーブのようなバージョンを作成することさえできました。かなり良く見えます。かなり印象的なモデルです。繰り返しますが、これらの速くて安いモデルを使っているときは、精度に問題が多い傾向があるので注意してください。
このモデルは現在世界中で展開されています。APIでも展開されているので、開発者であれば使用できます。Geminiアプリにも展開されています。携帯電話でGeminiアプリを使用している場合、このモデルが利用可能になります。Google検索でデフォルトのAIモードになっているようです。
Google検索を使用すると、AI結果でAIモードのようなものを見るとき、Gemini 3 Flashを使用している可能性が高いです。
でも、OpenAIからの別のモデル、GPT 5.2 Codexというコーディングモデルも手に入れました。彼らは、プロフェッショナルなソフトウェアエンジニアリングと防御的サイバーセキュリティのための最も高度なエージェントコーディングモデルだと主張しています。
GPT 5.2のバージョンで、先週か先々週に発表されました、いつだったか覚えていませんが、最近発表されましたが、コーディング用により微調整され設計されたものです。
Software Engineering BenchでGPT 5.2よりもわずかに正確で、Terminal BenchでGPT 5.2をわずかに上回ります。バイブコーディングにAIを使用している場合、これは試せる別のモデルです。
LM Arenaをちょっと覗いてみると、Opus 4.5がまだトップモデルで、5.2 Highがほんの少し後ろにいるようです。
NvidiaはNeotron 3という新しいモデルファミリーをリリースしました。Nanoモデル、Superモデル、Ultraモデルがあります。Nanoモデルは速くてコスト効率の良いモデルを意味しますが、おそらく3つの中で最も正確ではないです。Ultraは大きなパラメータモデルで、ずっと正確ですが、遅くて高価でもあります。
でも、これらのモデルについて重要なことの1つは、オープンモデルだということです。実際にローカルにインストールして実行したり、自分でクラウドで実行したり、微調整したり、好きなようにできます。
いつものように、ブログ投稿へのリンクを以下に貼ります。話している個々のモデルについてもっと詳しく知りたい場合は、リンクをクリックして、スキップしているすべての詳細を得ることができます。
Xiaomiから新しいモデルが出ました。Mimo V2 Flashと発音すると思います。これも別のオープンソースモデルで、推論、コーディング、エージェントシナリオに優れています。これらのモデルの多くは、エージェントシナリオに適しているように本当に集中しています。
ベンチマークで、オレンジ色のMimoモデルがDeepSeek V3.2、Kim K2、Claude Sonnet 4.5、GPT 5 High、Gemini 3.0とどう比較されるか見ることができます。これは基本的に、それらのモデルとかなり同等であることを示しています。
Swebench Multilingual以外ではほとんどを打ち負かしていないようですが、最先端のモデルのいくつかとかなり同等であることがわかります。オープンモデルとしては驚くべきことです。
LLMニュースの最後の部分として、ManisがManis 1.6をリリースしました。プレスリリースによると、3つの大きな飛躍を導入しています。最も強力なエージェントであるManis 1.6 Max、ウェブを超えて構築するためのモバイル開発、インタラクティブな画像作成のためのデザインビューです。
正直に認めますが、Manisと多くの時間を過ごしていません。最初に発表されたときに少し試しましたが、それ以降はあまり時間を費やしていません。そろそろもう一度試す時期だと思います。おそらく、現在利用可能なさまざまなエージェントを比較する動画で。
そのような動画を見たい場合は、このチャンネルに登録してください。
宇宙データセンター構想と技術的課題
さて、LLMニュースから離れて進みましょう。これも実は先週のニュースですが、ラウンドアップで見逃しました。それは、StarCloudという会社が軌道データセンター競争が激化する中、宇宙で最初のAIモデルをトレーニングしているということです。
何が起こっているかというと、これらの企業はすべて、持っているよりもずっと多くの計算能力を必要としています。地球上には、これらのデータセンターを冷却するための土地と水しかありません。彼らは最良の解決策は宇宙にデータセンターを置くことだと考えています。
提案の1つでは、これらのデータセンター衛星を80個ほど、かなりクラスター化して、レーザーを介して互いに通信させると言っています。
AIを搭載した空のネットのようなもの。どこで聞いたことがあるかな?
「これがうまくいくよう神に祈りましょう。」
「Skynet防衛システムが起動しました。」
とにかく、アイデアは、宇宙は冷たくて、これらのデータセンター衛星を常に太陽が当たる位置に置くことができ、無制限の電力を意味するということです。
ただし、それにはいくつかの問題があります。その1つは、Hank Greenがここでかなりうまく説明していると思います。彼は言います。「ねえ、宇宙は熱の管理に役立つからAIデータセンターに良い場所だと何度か聞きました。信頼できる人々から聞いたような気がしますが、真空は有名な断熱材で、電力を得るためにはデータセンターが太陽の中にいる必要があり、太陽は有名に熱いです。頭がおかしくなりそうです。私は何を見逃しているんですか?」
彼は何も見逃していないと思います。常に太陽が見える衛星を上に置くことには大きな問題があると思いますし、宇宙を漂っているデータセンターから熱を放散する方法がほとんどありません。だから、これが実際に実行可能に感じられる前に、まだかなりの工学的なハードルが解決される必要があると思います。
The Vergeのこの記事にも遭遇しました。このアイデアに対してさらに懐疑的です。別の問題として、衛星のグループは数百万個の宇宙デブリの地雷原、つまりそれぞれ時速17,000マイルで移動するランダムなオブジェクトの地雷原を通過する必要があります。宇宙デブリは、太陽同期軌道のような人気のある軌道に特に集中しています。
各オブジェクトを避けるには、移動するための小さな推進力が必要です。その反発を生み出すためには、燃料が必要です。とにかく、興味深い、非常に未来的に聞こえるアイデアですが、多くの科学者、エンジニア、天文学者がみんな、それがすべての人が思っているほど近くない可能性が高いと言っています。
とにかく、先週その話を見逃しました。今週それについて私の意見を言いたかったです。
3D生成からAmazon Alexaまで
今週、MicrosoftはTrellis 2をリリースしました。これは画像を3Dモデルに変換するモデルです。デモ動画で出力する3Dモデルのタイプのいくつかの例を見ることができます。つまり、画像から3Dへのパイプラインでこれまでに見た中で最もリアルな3Dモデルです。
これは間違いなくこれまでに見た中で最高です。少なくとも、デモでのかなり厳選された例からは。
Hugging Faceのデモに飛び込んで、この未来的な大砲のようなものの画像を渡しました。実際には彼らの例の画像の1つでしたが、十分簡単です。作成されたものがこれです。ここでさまざまなバリエーションを見ることができます。
興味深いことに、クリックしてさまざまな3D角度を見るために回転させることはできませんが、これをドラッグすると回転してくれますが、水平面でのみ回転します。あらゆる方向に回転させることはできません。
でも、得られる詳細は、繰り返しますが、無駄話をしていますが、本当に良いです。
さて、Amazonのニュースに移ります。彼らには実際にChatGPTのようなオンラインチャットボットがあり、このアプリと話すことができます。今はAlexa Plus顧客専用です。でも、入ったときの様子はこれです。ChatGPTのようなチャットボットで、Amazonデバイスと話すことができます。
家でトリガーしないように、この言葉を言うのを避けようとしているだけです。Anthropicモデルを使用していると思いますが、確実ではないので引用しないでください。Anthropicに多額の投資をしたことは知っています。
私について何を知っているか見てみましょう。「Wolfは多面的なアメリカの起業家で、AIとデジタルマーケティングの分野でかなりの名声を得ています。彼はFuture Toolsの作成者として最もよく知られています。これはAIツールとヌードルを厳選して整理する人気のプラットフォームです。」
ええ、つまり正しいです。認識と賞:Edelmanの「知っておくべきAIクリエイター」に掲載、YouTube Creator Award、10万人の購読者、TubeBuddy Emerging Creator Award、Hustle and Flowchartの共同ホスト。それは古いニュースですが、はい。
現在のプロジェクト、Future Tools、Next Wave、YouTube。つまり、本当に正確です。本当に良い仕事をしました。これらの人々は誰だかわかりません。それらは私ではありません。
Amazonについて話しているので、Ringを持っている場合、間もなくAIがドアのゲストと話せるようになります。AmazonのAIがRingのドアベルに応答して、訪問者と話すことができるようになりました。
挨拶は、会話型AIとRingのビデオ説明を組み合わせて、ドアベルのやり取りをインテリジェントに処理します。忙しいときに配達を管理したり、割り込みを優雅に処理したり、不在時に友人や家族を助けたり、外出中も情報を把握できます。
これは興味深いでしょう。ドアに来る人とAIが話すのを望んでいるかどうかわかりませんが、ドアに来る人をAIでからかうのも楽しいと思います。だから、するかもしれません。わかりません。ただ興味深いと思って、共有する価値があると思いました。
フランスの会社Mistralは、現在利用可能な最高のOCRモデルであるOCR 3をリリースしました。これは光学文字認識の略です。基本的には、手書きのテキストを取って入力されたテキストに変換する洒落た方法です。
このOCR 3は現在利用可能な最高のモデルですが、おそらくほとんどの人にとって最も興味深いものではありませんが、私は日記エントリを入力したり手書きしたりできる日記アプリを作成しました。OCRが組み込まれています。
だから、おそらく既存のOCRをこの新しいOCRモデルと交換して、手書きの日記がさらに正確になるようにすると思います。だから、楽しみです。
Metaからの別のクールなアップデートで、共有する価値があると思いました。Meta AIグラスに会話フォーカスという機能が追加されました。Spotify統合も追加されました。でも、会話フォーカスが本当に興味深いです。
基本的に、騒がしい環境にいてグラスをかけている場合、話している人を増幅してくれる機能です。ユーザーが騒がしい環境でも現在行っている会話に集中できるように助けます。
これらのグラスにとってかなり良い生活の質の機能だと思います。便利だと思います。
2025年の流行語「スロップ」
すでにかなり壮大な週だったニュースの最後のビットとして、Websterの辞書の2025年ワード・オブ・ザ・イヤーはスロップです。やった、私たちがやりました。AIスロップワードの1つを今年のワードにしました。
私たちはスロップを低品質のデジタルコンテンツで、通常は人工知能によって大量に生産されるものと定義します。今年は多くのスロップを得ました。今年はスロップという言葉をたくさん言いました。そして、AIのおかげで、スロップはほぼ全員の語彙に入っているので、理にかなっています。スロップが2025年のワード・オブ・ザ・イヤーであることに賛成できます。
とにかく、息が切れました。今週は話すことがたくさんあって、すべてカバーしたと思います。何か見逃したら、コメントで教えてください。何を見逃したか常に知りたいですし、大きなことなら、次の動画で言及されるようにします。
また、コメントで、私がここに持っているこの小さなピクチャーフレームについて人々が尋ねているのに気づきました。これは実際に私のすべてのセルフィーとカンファレンスからの画像です。カンファレンスに行って誰かとセルフィーを撮って、彼らがオンラインに投稿したときはいつでも、それらのセルフィーを取って、このフレームに置きました。
だから、実際に会って一緒に写真を撮ったら、おそらく私の動画の背景で循環しているこの小さなフレームに載ることになります。それがそこで起こっていることです。
でも、なんて週でしょう。12月は落ち着くと本当に思っていましたが、12月は加速したようです。来週は遅い週になるでしょう。週の終わりにニュース動画を出します。おそらく日曜日に、編集者がクリスマス休暇を必要とするためです。
でも、来週ニュース動画があります。来週リリースする唯一の動画になります。ほとんどの週は休みを取っています。この動画を楽しんでいただけたら嬉しいです。情報をキャッチアップできた気分になってくれたら嬉しいです。来週また情報をお届けします。ループインと何度も言いますね。
このチャンネルに登録してください。この動画に「いいね」をしてください。そうすれば、このような動画がもっとYouTubeフィードに表示されます。でも、クレイジーな週でした。来週までニュースを報告し終わりました。話すことがずっと少ないはずです。企業がクリスマスにものをリリースするとは思いませんが、来週わかります。
だから、繰り返しますが、「いいね」、登録、すべてのことをしてください。そして、次の動画で会えたら嬉しいです。一緒にオタク話をしてくれてありがとう。バイバイ。
今日一緒にオタク話をしてくれて本当にありがとうございました。このような動画が好きなら、親指を立ててこのチャンネルに登録してください。このような動画がもっとあなたのYouTubeフィードに表示されるようにします。
まだの場合は、futuretools.ioをチェックしてください。そこですべての最高のAIツールと最新のAIニュースを共有しています。素晴らしい無料ニュースレターもあります。改めてありがとう。本当に感謝しています。次の動画で会いましょう。


コメント