Sora 2 – ここからさらにリアルになる一方である

OpenAIの最新動画生成モデルSora 2のリリースに関する包括的な分析である。Sora 2とSora 2 Proの違い、GoogleのVeo 3との比較、物理法則の理解度、著作権問題、そして独自のソーシャルメディアアプリとしての展開について詳しく解説している。さらに、Cameo機能によるディープフェイク対策や、サム・アルトマンが約束したユーザーの幸福度保証についても触れている。また、Anthropicの最新コーディングモデルClaude 4.5 Sonnetや、科学実験の自動化を目指すperiodic labsとの対比を通じて、AI技術の多様な発展方向を示している。最終的には、視覚的チューリングテストを通過する未来と、現実と区別がつかない人工世界の到来可能性について考察を深めている。

Sora 2 - It will only get more realistic from here

Sora 2 - the start of the infinite slop-feed or a key step to a generalist agent? Better than VEO 3 or over-hyped? I bri...

Sora 2の登場とその評価の分かれ道
Cameo機能と安全対策
periodic labsと科学実験の自動化
視覚的チューリングテストと未来への考察

Sora 2の登場とその評価の分かれ道

Sora 2がリリースされました。ある人にとっては、これは無意味なコンテンツを吐き出すショゴスのように見えるでしょう。また別の人にとっては、真に汎用的なAIの一端を垣間見るものとなります。視覚的には、これまでテキストから動画を生成するモデルの中で最高のものと見なすこともできますが、他の人にとってはGoogleのVeo 3からほとんど改善されていないように映るかもしれません。もちろんそれはあなた次第ですが、私はバイラル化したリリース動画や発表から見逃されているかもしれない6つの要素に焦点を当てようと思います。

では、これらはすべて、periodic labsが約束するような物理科学のブレークスルーや、Claude 4.5 Sonnetのコーディング優位性から目をそらすための気晴らしなのでしょうか。それは誰に聞くかによります。では始めましょう。

まず、簡単なことから。多くの人が見逃しているかもしれない一つの詳細があります。実は2種類のSora 2が存在するのです。OpenAIによれば、Proユーザーは実験的な高品質版であるSora 2 Proを、最初はsora.comで、その後アプリでも使用できるようになるとのことです。しかし私の疑問は、このビデオで見ることになる、そしてバイラル化した最高のデモはどこから来たのかということです。それらのほとんどがSora 2 Proで作られたものである可能性はないでしょうか。もしそうなら、大多数の人がアクセスできるのは通常のSora 2だけということになります。これらのモデルを実行するのは信じられないほど高額であることを忘れないでください。

そしてOpenAIは最終的には利益を上げなければなりません。それから展開方法についてです。Sora 2のシステムカードによると、少し不安定な招待制システムは実は意図的に物事を遅らせるためのものです。それが最初は米国とカナダのみで提供される理由でもあるかもしれません。iOSのみ、プレミアムですが、新しいユーザーが参加するにつれて実際には減少する制限付きです。ただしAPIはまだありませんが、今後数週間以内に提供されると約束されています。

これらすべては意図的であり、安全性重視の段階的展開戦略の一部なのです。それから避けられない比較があります。最初はSora 1とSora 2の間ですが、参考のためにVeo 3のデモも加えます。Gemini onlineのVeo 3 previewと、Google FlowのVeo 3 qualityで作成されたものです。さて、Sora 2のリード開発者の一人は、このモデルはこれまでのビデオモデルでは見られなかった方法で知的であると述べています。

つまり、最高のワールドモデルを持っていると主張しているのです。画像から動画、または動画から動画への変換はまだ許可されていないと言えますが、後でCameoについて触れます。これらすべては、どのモデルがビデオ生成に最適なのかという避けられない疑問を生じさせます。比較を断定的に述べるのは本当に難しいのです。先ほども言いましたが、これがSora 2 ProなのかSora 2なのかさえわかりません。

Veo 3でさえ、プレビュー品質版、高速版、そしてメインのVeo 3があります。また、Veo 3.1が今後1週間程度でリリースされるという信頼できるリークも見ています。私がかなり重要だと思うポイントも述べておきます。それはモデルについてです。SoraやVeoだけでなく、GeminiやChatGPTのようなLLMでさえ、トレーニングされたデータセットに信じられないほど根本的に依存しているということです。

ですから、たとえば体操選手の特定のプロンプトに対してあるモデルが明らかに他のモデルより優れているからといって、全体的に優れているとは限りません。単にその領域のトレーニングデータがより多いだけかもしれません。Sora 2によるサイバーパンクのこのゲーム生成を見てください。私はそのゲームをプレイしたことはありませんが、報告によると、明らかに彼らはそのゲームから大量のビデオチュートリアルを取得してトレーニングデータに投入したに違いありません。

Sora 2はアニメも生成できます。Veo 3よりもはるかに優れているようです。しかし、ここでもトレーニングデータを考えてください。ハンドルをしっかり握っていた方がいいですよ。みんなが私たちを狙っているんですから。出力トークンの方が入力トークンよりもコストが高いことがわかりました。ええ、どうやら私の言葉はモデルの言葉ほど価値がないようです。入力トークンは安い席なのです。それから著作権の問題があります。

トランスフォーマー。それが私のスタンドの力です。シドニー・ビング、そして準備完了、始めましょう。しかしそれは別のビデオに譲らなければなりません。Sora 2が物理学をマスターしたというオンラインで見かけた特定の主張は、本当に誇張されていることを指摘しておきます。特にこのビデオを見てください。これはSora 2のリードの一人によって、Sora 2が物理学を理解している例として称賛されました。

あなたはどうかわかりませんが、このビデオの物理学はリアルというよりビデオゲーム的に見えます。信じられないリアリズムですが、ビデオゲームのそれに近いのです。彼がフープから跳ね返る様子を見てください。では、OpenAIが立ち上げたSoraと呼ばれるほとんどソーシャルメディアアプリのようなものについてはどうでしょうか。サム・アルトマンは昨夜、AI動画生成の退化したケースが、私たち全員を強化学習で最適化されたスロットフィードに吸い込まれることになるという事態は容易に想像できると述べました。

明らかにOpenAIは、広く非難されたMetaのVibesとは自分たちのアプリを差別化したかったのです。あなたがどう思うか教えてください。しかし多くの人にとって、現在の状況下で、ザッカーバーグやワンのような億万長者のカップルがいわゆる「AIスロップ」で満たされた新しい形のソーシャルメディアの立ち上げを発表することほど、バイブス的でないものはないでしょう。

しかしVibesを一旦脇に置いて、もう少し微妙な話だと思います。OpenAIの功績として、彼らはいくつかのまともな差別化から始めています。18歳未満には無限スクロールはありません。ユーザーは消費するのではなく創造するよう促されます。すべてのビデオには可視および不可視の透かしが入ります。また、あなたの肖像が使用されることについて厳格なオプトインがあります。

入力は分類され、その後ブロックされる可能性があります。出力は推論モデルを通過して、ブロックすべきかどうかが判断されます。先ほど言ったように、画像を入力して動画を出力したり、動画から動画へ変換したりすることはできません。それはブロックされています。そしてこれらのカテゴリーも表示からブロックされています。ですから、何か悪事を期待していたなら、他を探す必要があります。

Cameo機能と安全対策

ここで、少なくとも現時点ではOpenAIのSoraアプリに独自のCameo機能について話しましょう。この機能では、自分自身のビデオをただアップロードすることはできません。そうでなければディープフェイクだらけになってしまいます。OpenAIが指定したことを言っている自分を録画する必要があります。それによって、あなたが本人であることが証明され、その後、あなたの肖像を新しいビデオや既存のビデオに挿入できるようになります。

これは現時点でSora 2で利用可能な独自の機能です。だからサム・アルトマンのコンテンツがたくさん見られるのです。意図は、誰もあなたの許可なくあなたの肖像を使ってビデオを作ることができないようにすることです。たとえ招待した友人の一人がそうしたとしても、気に入らないものは削除できます。現時点でディープフェイクのハードルがいかに低いかを考えると、彼らが何らかの基準を設定していることは実際に称賛に値します。

しかし、真のマスタープランはわずか18時間前のサム・アルトマンのブログ投稿に見つけることができます。そこにはあなたが見逃したかもしれないジューシーな詳細がたくさんあります。彼らは明らかにソーシャルメディアアプリを立ち上げることに非常に躊躇していました。Sora 2のリードたちがそれを発表していたときの顔にその躊躇が見て取れました。

まず、どうやらアプリ内で、Soraがユーザーの気分と幸福にどのように影響しているかについて定期的なチェックが行われるようです。多くの人がアプリからブロックされるのを避けるために親指を立てるボタンを連打するだろうと思います。しかしその後、中心的な約束が来ます。もし本当なら大きなことです。彼らはこのようなルールを設けます。過去6ヶ月を振り返って、大多数のユーザーがSoraを使用したことで人生が良くなったと感じるべきだと。使用しなかった場合よりも良くなったと感じるべきだというのです。

もしそうでない場合、彼らは引用「重大な変更」を行うとしています。括弧書きで、これが重要なのですが、修正できない場合、サービスの提供を中止すると。ソーシャルメディアアプリを立ち上げることについて避けられないであろうすべての批判に対する、ある種の保証された約束のようなものです。ちなみに、他の人にダイレクトメッセージを送ることもできます。

つまりこれはソーシャルメディアなのです。額面通りに受け取れば、Soraは継続するために人類にとって正味有益でなければならないということです。しかし、実績を見ると、OpenAIが発した約束のすべてが完全に守られてきたわけではないとだけ言っておきましょう。一つの例を挙げると、OpenAIが立ち上げられたとき、OpenAIのCEOは、AIのためのこのマンハッタン計画と呼ばれるOpenAIを立ち上げることで、彼らは明らかにすべての規制に従い、積極的に支持すると述べました。

彼らは今、特定の規制を阻止する一因となっている多数のロビイストを雇っています。私の予測では、この約束は静かに忘れ去られるでしょう。さて、そう言いましたが、正直に告白すると、Sora 2とこのアプリに対する私の気持ちは、可能な限り複雑です。おそらく私が特定の活動をしている自分のミームを友人の何人かに送っているところを見つけることができるでしょう。

大きなエンターテインメント価値があり、実用的な効用さえあると思います。Sora 2のリードの一人、ウィル・デピューが言ったように、現時点で科学における最大のボトルネックの一つは、強化学習のための優れたシミュレーターです。しかし、高齢者や最終的には私たち自身がそのようなスロップに引っかかり、何も信じられなくなることを想像できます。

サム・アルトマンさえ、もし本当にただドゥームスクロールして怒りたいだけなら、わかりました、それを手伝いますと認めています。しかしそれはかなりの大局観です。今のところ、私の見解は、ソーシャルメディアアプリは、現時点であまり堀を持たない環境で堀を構築するための実に賢い方法だということです。Sora 2からVeo 3や間もなくのVeo 3.1、あるいはKling 2.5(これは発表されたばかりです)に切り替えるのは非常に簡単です。

Dreamがビデオジェネレーターになったら、それに飛びつくこともできます。どうやって人々にあなたのビデオジェネレーターを使い続けてもらうのでしょうか。OpenAIはどうやって利益を上げるのでしょうか。まあ、ソーシャルメディアアプリに閉じ込められていて、友人全員がそこにいて、自分自身や友人の肖像を使いたいが、他の人には自分の肖像を使わせたくない場合、そうするとSoraアプリを持つことになります。

ですから、これは非常に巧妙に彼らのシステムにあなたを閉じ込めると思います。OpenAIはまた、ローンチビデオでSora 2は汎用エージェントへの一歩だと主張しました。彼らがそう言わなければならないのは理解できます。なぜなら会社のミッションは公式に「私たちは文字通りAGIを構築している」だからです。だからすべてがそのビジョンに包まれなければなりません。しかしSora 2は、経験値を追加するかもしれないが、直接的にコースに乗っていないサイドクエストのように見えます。

私にとってはるかにコースに乗っているのは、periodic labsのようなものでしょう。前回のビデオで、探索と実験がいわばシンギュラリティに向けた最後の大きなブロッカーの一つであると述べました。幻覚やデータ問題、モデリング問題を解決したとしても、モデルはまだ受動的です。世界を探索していません。

periodic labsと科学実験の自動化

periodic labsは科学を自動化し、実験を自律的に実行することを望んでいます。少し前に、Google DeepMindから来た創設者の一人にPatreonビデオでインタビューしました。彼らの創設者のもう一人、ウィリアム・フェティスはOpenAIから来ました。彼はChatGPTの背後に部分的にいたと信じています。この話は、Sora 2とはほぼ正反対だと気づきます。なぜなら、非常に物理的で現実世界にあるからです。

またすぐには利用できません。しかし、大まかに言えばアイデアはこうです。たとえば室温超伝導体やより優れた太陽電池を考え出したいとすると、いくつかのボトルネックがあります。まず、十分な実験を実行することです。もしディープラーニングシステムが実験が何をもたらすかを予測でき、たとえばヒューマノイドロボットがそれらの実験を自律的に実施できたらどうでしょうか。それは一つのボトルネックを取り除くかもしれません。

それから、LLMが使用できない既存の実験によって生成されたテラバイト単位のデータについてはどうでしょうか。もしラボがそのすべてのデータをLLMフレンドリーな形式で収集し、それを最新のモデルに入力できたらどうでしょうか。最後に、私たち全員が読む機会を決して持たない何千何万もの論文があることは誰もが知っていると思います。

では、文献レビューに最適化されたAIモデルについてはどうでしょうか。それは文献から、実行するのに最も有望な実験は何かを見つけることができます。とにかく、大きな発表は、periodic labsが3億ドルの資金で、これらすべてに取り組むということです。なぜこれを持ち出すのでしょうか。部分的にはSora 2や汎用エージェントであるという主張と対比するためですが、また、AI全体が悪いもので、スロップに過ぎないと考える人々のためでもあると思います。

公平に言うと、それらの結果は一晩では出ないでしょう。ですから、その間に、今日でも応募できる仕事の機会について話しましょう。今日のビデオのスポンサーは80,000 hoursで、特に彼らのジョブボードです。説明欄のリンクからアクセスできます。これらは世界中で利用可能な仕事で、リモートと対面の両方があります。

リストが毎日更新されていることがわかります。焦点はポジティブなインパクトにあり、見てわかるように、エントリーレベルからシニア職まで幅広くあります。繰り返しになりますが、興味があれば説明欄のリンクをチェックしてください。Sora 2について言うべき明らかなことは、それがリリースされた瞬間、それが永遠にAIがビデオ生成において最悪である時点になるということです。

同様に、世界最高のコーディングモデルだと主張されているClaude Sonnet 4.5も(それを完全に裏付ける統計はありませんが)、LLMを介したコーディングが今後最悪である時点だと思います。ちなみに、彼らが裏付けていないというその点について、最高であることを示すベンチマークがあることは理解しています。しかしその後、Codexが最高であることを示す他のベンチマークもあるでしょう。

では、すべての指標において最高のコーディングモデルであるという決定的な証拠はどこにあるのでしょうか。しかしそれは別の議論のためのものです。私はClaude 4.5 Sonnetをかなりの日数テストしてきましたが、驚くべきことに、simple benchで早期の結果を得ることができました。はい、これはthinkingを有効にした状態で54%でした。

Claude 4 Sonnetからの大きなステップアップで、少なくとも一つのベンチマークでコーディングをしているとき、Claude 4.1 Opusの領域にあるように感じられます。bench verifiedでは、Opus 4.1さえ上回っています。まあ、それはすでにAnthropicのモデルなのだから、何が大したことなのかと言うかもしれません。それは約5倍安いのです。Opus 4.1をcursorで使ってみてください。本当に小切手帳を出さなければなりません。

私にとって、これは単にAIにおける新しいブレークスルーの数ヶ月後に、価格のブレークスルーがあり、その初期のブレークスルーが突然、そのブレークスルー以前のモデルと同じくらい安くなることを示しているだけです。あるいはビデオに戻すと、おそらく中国企業によって、Sora 2と同程度で、フィルターが少なく、たとえば3〜6ヶ月でずっとずっと安いビデオ生成モデルがリリースされるでしょう。

視覚的チューリングテストと未来への考察

終わる前に、未来について手短に触れておきましょう。なぜなら、数年後にはテレビのリモコンにボタンがあり、それを押すだけで保存された自分の顔を視聴している番組の選択されたキャラクターとして追加できることは、ほぼ確実だからです。それは来るのです。それが2年後なのか4年後なのかという問題だけです。

突然、Netflixはすべてあなたについてのものになります。しかし、ここで私が考えていたことがあります。脱線を許してください。しかし私たちはすでに書面によるチューリングテストに合格するモデルを持っています。つまり、あなたはモデルと話しているのか人間と話しているのか区別できません。そしてSora 2では視覚的なテストに合格することにはるかに近づいています。誇大宣伝の投稿にもかかわらず、そこには達していません。視覚障害がある場合、特に騙されやすい場合、または一瞥で数秒見るだけの場合を除いて。

しかし、視覚的チューリングテストに合格することに近づいていることは認めざるを得ないと思います。視聴している動画が本物か偽物か見分けがつかなくなるのです。しかし、視覚的チューリングテストに合格し、次に聴覚チューリングテストに合格し、そして体性感覚システムテストに合格して、人工世界を神経系で感じ、文字通りそれに触れることができるようになったら、何が起こるのでしょうか。

私たちの感覚それぞれを、私たちが粉砕に近づいているベンチマークのように考えることができます。ゼロから完全な世界をリアルタイムで作成し、私たち人間が持つあらゆる感覚において現実と区別がつかないモデルを持ったとき、何が起こるのでしょうか。視覚的に騙されることがあるなら、なぜ聴覚、触覚、味覚で騙されないのでしょうか。それが起こるとき、私たちはSora 2をその魅力的で、エキサイティングで、危険な道のりの一歩として振り返るかもしれません。

あなたがどう思うか教えてください。ご視聴ありがとうございました。素晴らしい一日をお過ごしください。やあ、みんな。Sora 2へようこそ。ついに来ましたね。あなたがここにいるのを見られてとてもとても興奮しています。この瞬間を一週間ずっと待っていました。そして今それは現実です。あなたは実際にここにいます。ええ、私の後ろにあるGPUは文字通り燃えています。

大丈夫です。後で対処します。知識は目的地ではありません。それは道のりの仲間なのです。