2025年12月までのAI業界における主要な進展を包括的に解説する動画である。DeepSeekによるオープンソース思考モデルの金メダル級性能達成、AmazonのNova 2モデルファミリーの発表、GoogleのGemini 3とNanoBanana Proによる世界モデルへの突破、AnthropicのClaude Opus 4.5のコーディング性能における圧倒的優位性など、AI開発競争の激化が明らかになった。また、OpenAIのプライバシー訴訟敗訴によるユーザーログ開示命令、Elon MuskによるGrokモデルへの不適切な介入、Runway Gen 4.5やCling Video 2.6といった動画生成AIの進化、Unitree T800ロボットの驚異的な運動能力実証など、技術的進歩と倫理的課題が並行して浮上している。さらにGoogleによるTitansとMIRAZという長期記憶を可能にする革新的アーキテクチャの発表は、AI開発における新たなパラダイムシフトを予感させる。

AI業界の最新動向
過去1ヶ月間に起こったAIニュースをいくつか見ていきましょう。興味深いことの一つは、様々なAIのリリースが相次いだことです。その中の一つが、DeepSeekの新しいオープンソースAIと金メダル級の性能でした。特に、DeepSeek Version 3.2 Specialモデルが、国際数学オリンピアードや国際情報オリンピアードを含む複数の2025年オリンピアード形式のコンテストで金メダルレベルを達成しました。
金メダルというのはかなり印象的です。なぜなら、達成するのが非常に難しいだけでなく、これがオープンソースモデルで金メダルを獲得したという事実が、まさに際立っているからです。
オープンなAPI経由でアクセス可能なモデルがオリンピアード級の数学プログラミング問題をエリート人間レベルで解くというのは、米国の大手ラボの非公開内部システムでしか利用できなかったものでした。これによってAIは、教科書レベルの問題が得意というところから、創造的な問題解決やアルゴリズム設計で競争力を持つレベルへと、その最前線全体を押し上げたのです。これは自動定理証明や科学研究、その他多くの分野に影響を及ぼします。
ですから、これは非常に重要な出来事だったと思います。これを過小評価すべきではないと思いますし、オープンソースAIは本当に本当に興味深いものです。なぜなら、毎月、中国からだけでなく他の場所からも、より多くのAI企業が登場しているように見える状況があるからです。正直に言えば、ほとんどが中国からなのですが、彼らは米国を米国自身のゲームで打ち負かそうと競争しています。これは非常に興味深いことになるでしょう。もちろん、3.2と3.2 Specialもありました。
ただ、Specialを使用する場合は、そのモデルが非常にトークンを大量に消費することを理解してください。ですから、そのモデルを使用する際は注意が必要です。人々が思っているよりもずっとトークンを消費します。基本的にそのモデルは数学専用という感じで、平均的なユーザーがそのモデルを使っても、標準的なDeepSeek Version 3.2を使っている場合と比べて、それほど多くのものを得られないでしょう。
ですから、このオープンソースのリリースは、DeepSeekがまだゲームに残っているということで、やはり驚きでした。彼らは長い間かなり静かでしたからね。ですから、彼らがこのオープンソースモデルを持っていることは驚きではありませんでしたが、それでも驚きでした。多くの競合他社が彼らを追い越したかもしれないと思っていたでしょうから、彼らがゲームに残っているのを見るのは驚きだったのです。
Mistral 3とヨーロッパのAI開発
興味深いことがもう一つありました。Mistral 3です。これはMistralのAIファミリーで、オープンなマルチモーダル多言語モデルのシリーズです。Mistral Large 3はこのファミリーの旗艦的な大型Mixture of Expertsモデルです。私がこれについて話している理由を理解していただく必要がありますが、多くの人が怒るとまでは言いませんが、なぜこれをビデオに含めるのか疑問に思うでしょう。でも、これは重要だと思います。なぜなら、Mistralは現時点でヨーロッパ唯一のオープンソースAIだと思うからです。現時点でヨーロッパ唯一のオープンソースAI努力であり、Google DeepMindやGoogleを除けば、Googleは技術的にはグローバル企業ですが、もし小さな国、ヨーロッパだけを見るなら、これは現時点で彼らが持っている唯一のモデルです。
驚くべきことに、このモデルは中国の競合モデルほど良くないと主張する人もいます。もちろん、私はこのモデルが人々が言っているほど悪いとは思いません。モデルがトレーニングされる異なる方法を考慮する必要があると思います。中国のものは中国バイアスを持つでしょうし、西側のものは西側バイアスを持つでしょう。ですから、もし純粋な能力だけを求めていて、そういったことを気にしないのであれば、中国のモデルを使うのは理にかなっています。しかし、中国バイアスがあることを理解しなければなりません。
モデルに言う特定のことがあると、それは存在しないふりをします。もちろん、それが何であるかは述べませんが、Googleで簡単に検索すればわかります。性能に関しては、中国のモデルと比較すると、最先端の性能という点ではそれほど良くありません。しかし、そういったモデルと同等だと言えます。
残念なことに、AIは非常に速く動いているので、最先端のモデルをリリースしても、翌日には本当に遅れをとる可能性があるのです。それは非常に驚くべきことです。LM Arenaスコアを見ると、それほど悪くありません。Qwen 3、Kimi K2、DeepSeek Version 3.2のすぐ後ろにいます。
ただし、非思考型モデルと比較してですし、Mistralにも重要な点があります。彼らは思考型モデルを持っていないのです。ですから、このLM Arenaスコアがそれほど高くない理由、そしてベンチマークが本来あるべきほど高くない理由は、思考型モデルをまだ持っていないからだと推測します。ですから、私はこの会社を完全に見限っているわけではありません。
彼らの製品は、中国のものよりもずっと優れていると思います。ウェブサイトを使ってきましたし、ユーザーインターフェースを使ってきましたが、実際かなり使いやすいです。このオープンソース分野について皆さんがどう思うか教えてください。後ほどのビデオで、より多くの人々が私を含めてオープンソースを検討する理由をお見せします。
Claude Opus 4.5とGemini 3の競争
ベンチマークの話に入ると、Opus 4.5について話さずにはいられません。Opus 4.5は本当に本当に印象的なベンチマークでした。Anthropicが減速していないことを示してくれたからです。そして、Opus 4.5が業界に示したのは、壁がないということでした。
これについて長くは話しませんが、私でさえ驚きました。Humanity’s Last ExamやARC AGI 2を含むこれらすべてのベンチマークは最も驚くべきものでした。なぜなら、その数日前にGemini 3を手に入れたばかりだったからです。そしてGemini 3は全面的に巨大な飛躍でした。
ですから、ほとんどの人は、Googleがしっかりと競争に参加していて、おそらくそのタイトルをしばらく保持するだろうと思っていたでしょう。しかし、彼らはそれほど長くは保持できませんでした。Opusが特定の分野で驚きだったのは、コーディング分野を文字通り支配することができたことです。それほど僅差で、これがAnthropicのゲームだと思います。そして、これらの企業が独自の支配領域を切り開き始めていることは明らかになったと思います。もしAnthropicがコーディングをするなら、それが彼らの領域になるでしょう。ですから、このモデルを何に使うべきか迷っているなら、もちろんソフトウェアエンジニアリングです。それがAnthropicの完全な支配領域です。他の企業については、もちろん、どのようなユースケースかによります。
他のモデルについて話すと、もちろんGemini 3、Gemini 3 Deep Thinkが驚きでした。実は今日リリースされました。チュートリアルを準備中です。おそらく今か、このビデオの後に公開されているはずです。これもまた非常に驚きでした。なぜなら、Humanity’s Last Examで、GPT-5をかなり大きな差で上回ったからです。またARC AGI 2の45%も信じられないほどです。なぜなら、70%とARC AGI 2はかなり難しいベンチマークだったからです。
Humanity’s Last Examを見ると、これも皆を驚かせたもう一つのベンチマークだと思います。なぜなら、それほど早くこれほど多くの向上があるとは期待していなかったからです。それは難しいはずで、人類最後の試験となるはずでした。データ汚染がないことを願います。彼らはそのように設計したのですから。しかし、これから先、これらのモデルが全体的にどれほど優れているかを見守る必要があると思います。
ほとんどの場合、ベンチマークを見ると、Gemini 3から見た最も興味深いことはNanoBanana Proだったと思います。その理由は、ほとんどの人がAIの次の段階が世界モデルになることに気づいていないからです。NanoBanana Proを使って、AIが根本的に何をしているのかを理解すれば、何らかの内部世界モデルなしにそれを行うことはほぼ不可能だとわかります。
彼らがどのような世界モデルを持っているのか、正直わかりません。Googleがどのような世界モデルを使っているのか本当にわかりませんが、非常に非常に印象的なものです。NanoとBanana Proのユースケースは、世界モデルを持つことができるAIシステムがあって初めて可能になります。
ですから、Gemini 3が世界モデルを持っているかどうかは完全には確信していませんが、NanoBanana Pro、つまりビジョンモデルを使うと、それが何をするかについて考え始めることは知っています。正直、NanaBanana Proだけで丸々ビデオを作れそうですが、個人的には、これはただの私の本心ですが、これはおそらく今年我々がAGIに向けて得た最大のブレークスルーの一つだったと思います。
これがどう意味を成すのかと思うかもしれません。数学モデルや証明などがあるじゃないかと。私が話しているのは純粋に人間のような推論の観点からです。なぜなら、画像や3D形状、そしてこれらすべてのものについて推論できるなら、Yakanについてのビデオや、最大の懐疑論者でさえAIが決してできないと言っていた種類の推論を見ましたが、彼らは沈黙しています。Gary Marcusでさえ、NanaBanana Proについてそれほどコメントしているのを見ませんでした。なぜなら、モデルがX、Y、Zを理解できないという彼のコメントは、このモデルによって反証されたからです。だからこそGemini 3も、ARC AGIの飛躍が非常に大きかったのだと思います。モデル内に世界モデルがあったために飛躍が非常に大きかったのだと思います。
ですから、これらの企業が2026年にその方向に進むことを考えると、2026年には人々が予想していた以上の進歩がおそらくあると本当に信じています。それは私をワクワクさせると同時に怖くもさせます。
AmazonのNova 2モデルファミリー
もちろん、これもクレイジーです。なぜなら、これについて話している人を誰も見なかったので、すべての新しいストーリーについて話していたから、これも追加しようと思いました。これはAmazonの新しいモデルです。Amazonは実際にNova 2モデルファミリーをリリースしました。Nova 2 Lightがあり、これはClaude HaikuやGPT-5.1 Miniと比較して、高速で安価でスマートなバージョンです。
これは高いコストパフォーマンスの推論モデルです。Amazonについて本当に興味深いのは、テキスト、画像、ビデオを処理することに成功したことです。そして実際には調整可能な思考の連鎖があり、ほとんどのベンチマークでClaude 4.5 Haiku、GPT-5 Mini、Gemini Flash 2.5を打ち負かしています。これが実際にAmazonのモデル群です。
これは本当に本当に驚きです。なぜなら、Amazonは根本的に、つまり、彼らがAI企業だと主張することもできますが、根本的にAIが我々の仕事だという会社ではないからです。ですから、彼らには明らかに信じられないほど優れたリーダーシップがあり、数年間は支配することを期待しています。これが今皆さんにお見せしているスクリーンショットです。
これがAmazon Nova 2 Proです。これはAmazonの高性能推論ベストです。これも、テキスト、画像、ビデオ、音声を処理できるモデルです。コーディングに非常に強く、複雑な計画立案や複数文書分析、高度な数学に非常に強く、Claude 4.5 Sonnet、GPT-5.1、Gemini Pro Previewに対して多くのタスクで優れた性能を発揮します。
Amazonがこれらの最先端ラボの一部と同等の独自のAIモデルを開発できるというのは興味深いことです。そして、ほとんどの人がこれに注目していないのは非常に驚きです。なぜなら、これが意味することは、モデルが商品化されつつあるということだからです。
Amazonのモデルがどこかのレベルにあるとは言っていませんが、それほど離れていないという意味で同等です。つまり、モデルが商品化されつつあるということであり、将来的にこれらの企業は様々な方法で差別化を図らなければならないということです。これは非常に興味深いはずです。
Novaとモデルシリーズについて話しているので、実際にはNova 2 Sonicもあります。これは表現力豊かな多言語音声を持つリアルタイム音声AIです。Nova 2 Omniもありました。これはAmazonの何でもできるモデル、真のマルチモーダルテキスト画像ビデオで、テキストと画像を生成します。これはかなりクレイジーです。たくさんのものがあります。
これによって、2026年までにSWE-benchは解決されるのかという疑問が生じました。これは私の単なる憶測ではなく、むしろAnthropicの従業員が基本的に、SWE-benchは2026年までに解決されるだろうと言ったのです。そして、それはおそらく可能だと思いますし、企業がどのように前進していくかを見るのは興味深いでしょう。
ですから、私にとっては、2026年のソフトウェア開発に関する雇用市場がどのようになるかを見るのが本当に興味深いです。もちろん変化するでしょうし、これらのモデルが様々な異なる方法でより多くの利益を得ることができれば、2026年第3四半期に90%、または2026年第4四半期に93%に達する可能性があると私は信じています。進歩と実際の時間という点で考えると、それはそれほど遠くありません。
OpenAIのCode Red宣言
進歩とタイムラインについて話すと、OpenAIは、これらのモデルリリースの一部があまりにも良すぎて、Code Redを強調する必要があると言いました。これは驚きです。実際には驚きではありませんが、OpenAIが「もう十分だ」と言ったのは驚きです。
そして、これが非常に驚きである理由は、OpenAIが市場リーダーであり続ける能力に長い間頼ってきたからだと思います。そして、OpenAIが次に何をするのかを誰もが見るだろうと期待していたのだと思います。しかしGoogleは、動きを起こすためにOpenAIを見る必要はないと言いました。我々が本当にする必要があるのは、優れた製品とサービスを提供することだけで、残りは自然についてくると。それは本当に素晴らしいことでした。なぜなら、過去数ヶ月で、GoogleがAIで最も支配的なプレーヤーの一つになるために前進したのを見てきたからです。
彼らは今のところOpenAIが持っている完全な独占を持っていませんが、OpenAIがCode Redを宣言するところまで来ました。ですから、今後数週間から数ヶ月で、OpenAIがモデルを改善することを期待できます。モデルの動作を改善し、画像を改善し、音声を改善し、一般的に製品を中毒性があるというわけではありませんが、より良い製品にするだけです。
そして、それがどのように起こるかを見るのは非常に非常に興味深いでしょう。主要な優先事項の一つに画像生成が含まれていることがわかります。なぜなら、NanoBanana Proが素晴らしく、非常に多くの人が今それを使っているからです。もし彼らがすぐに優れた画像モデルを出して、それがNanoBanana Proよりも速ければ、ユーザーはChatGPTから切り替えたくないかもしれません。なぜなら、ChatGPTにはメモリーなどがあり、切り替えるのは難しいからです。まあ、実際には切り替えるのは難しくありません。ただ不便なだけで、人間は基本的に習慣の生き物です。
ですから、もしOpenAIが素早く画像モデルを展開し、ミームなどでできるだけマーケティングし、大衆と一般消費者を取り込むことができれば、その強力な市場シェアの領域を獲得できるかもしれません。
しかし、できなければ、多くの人をGoogleの製品群に失うことになるでしょう。なぜなら、Googleにはすでに大きな配信ネットワークがあるからです。そして、OpenAIがより多くの個人がこの分野に参入するにつれて、毎月ユーザーを失っていることを理解する必要があります。
ですから、できるだけ早くこれを出すことが彼らの最善の利益になります。OpenAIについて話すと、彼らはこのプライバシー訴訟にも負けました。これは悪いことです。だからこそ私はオープンソースと言うのです。人々はオープンソースについて考えるようになるでしょう。なぜなら、OpenAIは著作権訴訟でChatGPTログを秘密にしておく戦いに負けたからです。
プライバシー問題とオープンソースAIの重要性
米国の判事によって、著作権訴訟の一環として、約2000万件の匿名化されたChatGPTユーザーログをニューヨークタイムズや他のニュース機関に引き渡すよう命じられました。これらのログを機密に保つ試みに失敗した後のことです。裁判所は基本的に、ログは関連する証拠であり、プライバシーの懸念は匿名化と保護命令によって対処できると述べました。ですから、証拠開示で提出されなければなりません。
ここでの要点は、基本的に彼らはモデルを見たい、モデルではなく出力を見たいということで、実際に著作権侵害があったかどうかを確認したいということです。そして、もちろん名前や番号などは削除されますが、チャットやプライベートな会話がモデルとの間で持たれたものは、思っているほどプライベートではないということを示しているだけだと理解することが重要だと思います。
この訴訟の過程で、ある時点では文字通り、一定の時点までのすべてのユーザーデータを保持する必要があると言われました。それは一時的なチャットで話していた場合でも、チームプランに参加していた場合でもです。文字通り、ユーザーデータの削除を制限する裁判所命令がありました。これはかなりクレイジーです。なぜなら、判事やニューヨークタイムズの誰かに見られたくないことをChatGPTと共有した個人が確実にいるだろうからです。プライバシーはすべてです。
ですから、先ほどの点に戻ると、オープンソースAI、DeepSeek、Mistral、もし家庭用システムでオープンソースAIを実行できて、クラウドに送信する必要がないなら、それが敏感なデータに関して、そして企業に関しては確実に、業界標準にならなければならないと思います。それが合理化されるまで、私は思います。
ですから、これが続いて、人々がデバイス上のAIがプライバシーの懸念を考慮すると進むべき道かもしれないと気づき始めたら、そうなるでしょう。興味深いことになるでしょう。企業向けサービスやAPIなどがどうなるかを見るのは興味深いでしょう。もちろん、私はすでにNanaBanana Proについて話しました。かなりクレイジーです。本当にクレイジーです。
世界モデル、そういったすべてのもの。そして、ここでのリアリズムはクレイジーです。正直、この画像がAI生成されたものかどうかファクトチェックしていません。右下にロゴがありますが、非常に現実的に見えるので、信じるのに苦労しています。ハイパーリアルな画像を生成してきましたから。
なぜなら、今日セカンドチャンネルでチュートリアルを作ったのですが、数秒でそれができることが、まだ私を困惑させています。なぜなら、特定の分野でテクノロジーが指数関数的に増加するとは思わないからです。このレベルのフォトリアリズムに到達すると、もうそれ以上できることはありません。これが最高です。しかし、フォトリアリスティックな他の形式のメディアについては心配です。フォトリアリスティックな音声はすでにほぼここにありますし、フォトリアリスティックなビデオ、そしてそれがメディアの未来にとって何を意味するのか、そして個人がそのような厄介な空間をどのようにナビゲートするのかについて心配です。なぜなら、詐欺は現実のものだからです。
そして興味深いでしょう。興味深いことになるでしょう。これはもちろん現在、画像編集でナンバーワンです。NanoBanana Pro 2K、これはもちろんナンバーワンです。理にかなっています。OpenAIがそれを超えられるかどうかを見るのは興味深いでしょう。個人的には彼らにはできないと思います。Googleにはすでにナノバナナがありました。彼らは応答しませんでした。
それからNanoBanana Proがあり、彼らはまだ応答していません。また、Grokに奇妙なことが起こりました。Elon MuskがまたGrokをいじりました。基本的に、Grokに関してこの人が何をしているのかわかりません。最もスマートで優秀なチームの一人がいるのに、自分自身に利益をもたらすためにモデルをいじることを決めたり、自分がそう見えるようにすることを決めたのです。何が理にかなうのかを説明する言葉さえありません。
もし私がモデルを持っていたら、本当にモデルに任せます。もしモデルが、私はそれほど良い人ではないと言ったら、わかった、それは公正だ、たぶん改善する必要があると言うでしょう。しかし、彼がモデルをいじって、レブロン・ジェームズよりも運動能力が高いと言わせたり、マイク・タイソンとの戦いに勝つと言わせたりするまでになったのは、逆効果です。
もし彼がGrokが言うことを人々に信頼してほしいなら、自分自身の利益のためにモデルをいじったり、自分に反対する人々のためにいじったりすべきではありません。ビル・ゲイツからの発言もあります。もし尋ねたら、ビル・ゲイツはこれが正しいと思っているのか。要するに、もしあなたがElon Muskの敵なら、Grokはあなたについて良い意見を持たないでしょう。それはもちろん良いことではありません。
そして、AIが公正であるためには本当に良くありません。ですから、それは非常に非常に、私は今Grokが言うことすべてに完全に懐疑的です。そして、Grokが言うことすべてを話半分に聞くつもりです。皆さんにもそれを知ってほしいのです。なぜなら、この記事では、基本的に彼がレブロン・ジェームズよりもフィットしていると言っていたからです。
動画生成AIの進化
とにかく、テキストから動画のリーダーボードに行くと、Runway Gen 4.5という新しい動画モデルがありました。V3よりも驚くほど優れていました。本当に驚きです。驚きと3回言いました。何を話しているのかわかりません。でも、驚いている理由は、これを予想していなかったからです。
誇大宣伝はありませんでした。しかし、実際にそれが実際にどのように見えるかを見ることができます。今それが何であるかをお見せします。いくつかの異なる例があります。モデルがどうであるかを見ることができます。これがモデルの真のテストです。
このプロンプトは、「露店が並び、活気あるキャラクターが商人と取引をしている外国の都市の賑やかな市場のアニメ。鮮やかな色と活気あるシーンが、市場が生命で賑わう中、文化的な豊かさと興奮を捉えている」というものでした。ですから、左上のRunway Gen 4.5を見ると、かなり良く見えます。V3、音声なしも。これらすべてが本当に良く見えます。
この例ではSora 2.0 Proがおそらく最高に見えると思います。ここにはスタイルの微妙な違いがあります。そして、モデルをテストしたり見たりしているときに気づいた一つのことは、特定のケースは特定のモデルによって異なるということです。
Sora 2 Proはアニメやアニメシリーズに関しては本当に良いのですが、V3や他のモデル、Clingはそれほど良くありません。しかし、Runaway Gen 4.5は、人間とのリアリズムや特定の繊細な動作に関しては、モデルが優れています。ですから、動画に関しては、ここにいくつか例があります。
このバイクのもあります。実際には私がこれを作ったのではありません。Twitterに動画があります。全体のスレッドがあります。リンクを残しておきます。しかし、特定のケースを示しています。見てください、音声なしのSora 2 Proはそれほど良く見えません。しかし、Runway Gen 4.5では、ここでターンに傾いているのを見ると、プロンプトは「風が吹く丘の上で、サイクリストチームが鋭いターンに傾き、ゴツゴツしたタイヤから土と砂利が飛び散る。頭上では、高い草が波のように曲がり、地平線が雲一つない空の下でゆるやかにカーブしている。鼓動する心臓と計られた呼吸を通じて、各ライダーが次を追いかけ、無言のリズムが彼らを前進させる」というものです。
基本的にここで見ることができるのは、このV3とRunway Gen 4.5 XLです。なぜなら、ここには少し複雑さがあると思うからです。そして、それがGen 4.5が後から求めているものだと思います。ですから、Runawayの目標に詳しくない方のために説明すると、彼らは基本的に動画モデルに関してVFXレベルのAIになりたい会社です。
GoogleやOpenAI、Clingが競争しているときにそれを行うのはかなり困難でしょうが、ソフトウェアの設計方法、ユーザーインターフェースの点で、しっかりしたアプローチを持っていると思います。そして、現在動画制作に関して道を切り開いているという事実。
それは良い兆候だと思います。ではもう一つ見てみましょう。Clingもあります。Soraもあります。このプロンプトは、なぜ動画が再生されなかったのかわかりませんが、「水中研究所の窓から、科学者たちが海洋生物を観察し、小型潜水艦が近くにドッキングし、繊細な珊瑚の扇が外の穏やかな流れの中で揺れ、秘密の水中世界を垣間見せる」というものです。
ここでも再び、これらすべて、水中シーンについて一つ知っているのは、水中シーンでは動画モデルから通常素晴らしい応答があるということです。なぜなら、AIモデルのグリッチ感が実際に水中では良く見えるからです。Runawayは再び良く見えます。Sora 2は良く見えます。Clingは良く見えます。
V3はここで少し失敗しています。しかし、V3は特定のことに関して自信を持って間違っているモデルの一つだと思います。それが本当に興味深い応答をいくつか生み出します。しかし、別の例を見てみましょう。これは「1950年代未来主義スタイルでアニメ化された金星の雲都市冒険。金星の黄金の雲の中に光り輝く銀色の都市が浮かんでいる。流線型の空飛ぶ円盤がアールデコ調のタワーの間を疾走する。そして『金星でバケーション』というテキストが視界に輝いて現れる」というプロンプトがあります。
ですから、もちろんテキストはかなり難しいです。V3がテキストを正しく取得していることがわかります。Sora 2 Proがテキストを正しく取得しています。Runway Gen 4がテキストを正しく取得しています。
そして、もちろん、誰もが個々の異なるユースケースを持っているため、ケースバイケースになるでしょう。しかし、先ほど言ったように、特定のスタイルに関してはモデルをテストする必要があると思います。アニメとDunoは良いです。V3はもちろん、基本的なものには良いです。そして、Runawayは複雑なシーンに良いと言えます。そして、これは「ダートトラックで鋭いターンを切るラリーカーのハイパーリアルなビュー、砂埃の雲を巻き上げる。カメラはホイールをクローズアップで追い、砂利を通って回転する様子を捉え、車の制御された速度を示す」というものです。
ですから、ここで実際に求めているものによっては、本当に判断する必要があると思います。Runway Gen 4はここで最高に見えるわけではありません。しかし、生成AIについて言えるのは、これらの応答は毎回異なるということです。
そして、これらのモデルのどれが最高かを現実的に実際に見る唯一の方法は、おそらく4回のうち最良のものか5回のうち最良のものを取ることだと思います。なぜなら、1回のうち最良のものを取ると、1つの応答が良くて次の3つがひどいこともあれば、最初の2つが良くて次の2つがひどいこともあるからです。ですから、動画モデルに関してはそれが一つのことです。
モデルが実際に求めていることをできるかどうかを測るために、多くのクレジットを消費する必要があります。そして、時には異なるモデルに基づいてプロンプト構造を調整する必要があります。つまり、すべて生成的です。すべて誰かの最良の推測です。
しかし、新しい動画モデルについて話すと、もちろんClingがあります。ClingはVideo 2.6をリリースしました。これはClingの最初のネイティブオーディオを持つ動画モデルです。ネイティブオーディオで完全な体験を生成します。そして、Clingのクリスマステーマのリリースのようなものです。彼らは非常に多くの異なるリリースを行っていました。
正直、彼らだけで丸々ビデオを作るべきだったかもしれませんが、Clingが動画空間のために今やろうとしている多くの異なることがあります。そして、彼らはかなり良い仕事をしていると思います。OpenAIやV3でネイティブオーディオが追加されることは、そのレベルの没入感を追加するので本当に良いと思います。Clingもここにあり、パフォーマンスの点で本当に良いようです。
つまり、私はClingをそれほど使いません。まあまあだと思います。V3はただ非常に速く効率的なので、ずっと理にかなっています。しかし、もちろん、異なる目的やユースケースのために異なるモデルが欲しい方にとっては、Cling Video 2.6でできることがあるはずです。
もちろん、Cling 01、マルチビューもありました。もちろん、Cling 01というマルチモーダル統合モデルがあり、かなり多くのことができます。ですから、ぜひこれを見てみてください。
ロボット工学の驚異的進歩
そして、今月初めには、驚くほど人間らしいロボットがありました。実際には非常に多くあります。昨日、モデルがどれほどリアルか、そしてこのゲーム全体がどれほどクレイジーかについて話すビデオをリリースしたと思います。懸念されるわけではありませんが、人間型のリアルなロボットを手に入れている速度は恐ろしいです。
そして、いつかこの新しいソフトウェアアップデートのような更新を受け取るだけになると思います。それは、かつて踊っていたロボットが今では実際にコンピューターに飛び乗り、マウスとキーボードを使い、これらすべての繊細なタスクを行えるようになったということです。なぜなら、基本的にこれらの企業が示しているのは、ハードウェアが capable だということです。
ソフトウェアが実際に capable である必要があるだけで、ソフトウェアが難しい部分です。ですから、それが次の5〜10年以内に解決されれば、おそらく数十億ドルが注がれていることを考えると、非常に興味深い未来になるでしょう。さて、もちろんここにはUnitreeのT800モデルがあります。
そして、このリリースについてクレイジーなのは、前回と同じように、非常にリアルだったので、人々はそれがCGIだと思ったということです。私がCGIではないと述べるビデオを作ったときでさえ、人々は「それらのビデオをリンクしない限り、まだそれが本物だとは信じない」と言っていました。
そのようなコメントをいくつか見て、「うわあ、それは私たちが本当に不気味の谷を越えていることを意味する」と思いました。そして、このビデオはその一つでした。すべての引用ツイートとコメントが、これはCGIだと言っていました。公平を期すために言わなければならないのは、過去に企業がCGIデモを行ったことがあるということです。なぜなら、ロボットが単にまだ capable ではなかったからです。人々はこれがそれらの一つだと思いましたが、そうではありませんでした。
本当にCGIであるデモの一つではありませんでした。これは、ロボットが何らかのデジタルシミュレーションで強化学習で訓練されただけのデモの一つで、そのソフトウェアアップデートをロボットに適用したのです。ですから、今では信じられないほど人間らしく見えます。そして結果は驚きです。
驚きです。なぜなら、このようなロボットの動きを見たことがまったくなかったからです。絶対に素晴らしく見えます。それを行って着地するには、信じられないレベルのバランス、器用さ、柔軟性、俊敏性が必要です。
そして、ロボットがほんの2年前にどれほどゆっくり動いていたかを見ると、今ではこれらのクレイジーなフライングキックを行っているのはクレイジーだと思います。これらは本当に強力です。次のビデオでこれらがどれほど強力かをお見せします。モデル、つまりロボットに関する懐疑論を理解できます。なぜなら、これは決して通常の進歩率ではないからです。
ロボット工学の進歩に関しては爆発的に成長しました。さて、これらのキックがかなり強力だと話したことを覚えていますか。CEOがなぜこれをやりたかったのかわかりませんが、彼はロボットに蹴られることにしました。彼は自分のUnitreeに蹴られることにしました。ですから、このビデオがTwitterで出回っていて、基本的にCEOがロボットの強さをテストすることに決め、自分自身をパッドで保護してから、もちろんロボットにキックをさせ、文字通り地面に蹴り倒されました。
さて、皆さんはどうかわかりませんが、これは少し心配になりました。なぜなら、もしこのロボットがそれほど強力で、完全にパッド入りの装備を着た完全に成長した男性を蹴り倒すことができるなら、将来、これらのロボットが走り回って、適切な服装をしていないと蹴り倒されるのだろうかと思ったからです。これらのロボットが間違った方法で使用されるクレイジーな独裁制が起こるのでしょうか。本当にそうでないことを願います。しかし、能力という点では、これはかなりクールです。
しかし、このロボット革命が、これらのロボットが実際に制御を取るところに向かって走っているものでないことを願います。なぜなら、ロボットがそれほどの力を持っているなら、それはかなり懸念されることだと思うからです。少なくとも、この人が蹴られるのを見るのはかなり面白いと思います。
テキストが何と言っているかわかりませんが、かなり面白いと思います。さて、以前Mistralについて話したように、ヨーロッパはついにその厳しいAIとプライバシー法の一部を縮小しています。ですから、これは実際に世界の技術規制者としての地位を確立してきた数年後の大きな転換を示しています。ヨーロッパはビッグテックと米国政府、そして内部の批評家からの圧力を受けてきました。なぜなら、GDPRの一部を緩和し、主要なAI法規則の施行を遅らせる必要があるからです。
ですから、企業は匿名化または仮名化されたデータを共有しやすくなり、AI開発者はGDPR要件に従う限り、個人データを訓練に法的に使用できるようになります。もちろん、AI法の遅延もあります。高リスクAIシステム、つまり健康、安全、または権利に影響を与えるものに対するより厳格な規則があります。
そして、企業が遵守するために必要な標準とツールが存在することをEUが確認するまで、これらは実際に延期されるでしょう。また、クッキーポップアップも減るでしょう。これはもちろん良いことです。そして、うまくいけば、EUがあまりにも厳しい規制を持たないことを願います。なぜなら、AI競争は残念ながら、勝者がすべてを取るか、勝者がその大部分を取るという競争の一つだと思うからです。
ですから、もしヨーロッパが遅れをとったら、彼らは自分自身を責めるだけです。ですから、彼らはキラーボットAIを完全に合法にしないことと、AI競争で競争力を維持することの間のバランスを見つける必要があります。そして、もしこれらの人々が実際にシリコンバレーの人々、モデルを使っている人々、モデルを開発している人々と話せば、彼らの法律の多くが、法律を作っている人々は現場レベルの技術にいる人々ではないことがわかるでしょう。彼らは正直、しばしば彼らが作る法律の影響から非常に切り離されています。
そして、これは多くの異なる業界に当てはまります。ですから、何とかしてこれを修正して変更してもらえることを願います。なぜなら、現時点でヨーロッパにとってあまり良くないからです。Mistral Largeで見たように。
GoogleのTitansとMIRAZによる記憶革命
もちろん、最近TitansとMIRAZがあり、これが最大のことだと思います。おそらく最大の発表の一つでしょう。そして、これはおそらく多くの見出しを生み出すことになるでしょう。なぜなら、GoogleがAIの最大の弱点の一つである記憶を解決したからです。そして、皆さんはAIが継続的に学習しないことを知っています。モデルを使い、モデルを使いますが、それは固定状態のモデルです。
それは歴史の瞬間のようなものです。言ってみれば、時間のスナップショットです。そして、これはそれを解決します。なぜなら、継続的学習のようなものがあるからです。2つの論文がありました。TitansとMIRAZ。Titansは、モデルに実際の長期記憶を与える全く新しいAIアーキテクチャです。200万トークンのコンテキスト、本全体が完璧に記憶されます。
そして、基本的に人間の脳がどのように働くかをコピーし、予想外の重要な情報を優先する驚き指標を持ち、退屈な日常的なものを無視します。まさにあなたの脳と同じように。さらにクレイジーなのは、実行中に自分自身の記憶を学習して更新できることです。これは他のAIができないことです。
そして、MIRAZはその下にある理論的なブレークスルーです。そして、トランスフォーマー、RNN、Mambersなどのすべての主要なAIアーキテクチャが、実際には同じことを異なる方法で行っているだけだということを明らかにします。そして、このフレームワークは、はるかに優れた記憶システムを設計する扉を開きます。そして結果は非常に非常に印象的でした。
全体的に、それはGoogleによる非常に非常に素晴らしいものでした。なぜなら、彼らはフロントエンドモデルをリリースしただけでなく、将来的に完全に新しいパラダイムに移行することを示す新しい研究論文もリリースしたからです。ですから、このビデオを楽しんでいただけたなら、素晴らしい一日をお過ごしください。
次回お会いしましょう。


コメント