OpenAIが発表した新しいSora 2動画生成アプリは、TikTokクローンとAI動画生成を組み合わせた製品である。技術的には印象的な進歩を見せており、特にキャラクター一貫性、音声と映像の同期、J・Lカットのような編集技術の実装が注目される。しかし、動画編集とソーシャルメディアの専門家である投稿者は、このプラットフォームがTikTokの競合として成功する可能性は低いと分析する。AI動画生成は言語モデルとは異なり、人間が視聴する以外の用途がなく、生成コストが高く、実用的な価値が限定的であるという根本的な問題を抱えている。創造性の民主化という理想は魅力的だが、真のクリエイターは既に創作活動を行っており、ツールの簡便性が障壁ではないという現実を無視している。

OpenAIの新製品発表とAnthropicの更新
昨日、AnthropicがClaude Sonnet 4.5に画期的なアップデートを行い、世界最高のコーディングモデルにしました。しかしOpenAIは待つようなことはしません。だからこそ彼らは今日、独自の画期的な新製品を発表したのです。
私はポーセリンスパのCEOです。頭上の水からAIを、その曲を部屋に。
ああ、OpenAIは今、脳腐れコンテンツを作り始めたようですね。これを掘り下げていきましょう。幸運なことに、私はこのアプリへの早期アクセス権を得ることができました。これは新しいSoraの生成体験です。TikTokのクローンでありながら、私が先ほど皆さんにお見せした絶対的に呪われた狂気のような動画を生成する方法でもあるモバイルアプリです。本当に申し訳ありません。
ところで、私は今日のほとんどの時間をこれに費やしてきました。生成できる動画の数のレート制限に達してしまいました。1日50本だということが判明しました。そして今、この時間を通じて発見した恐ろしいことを共有する必要があります。
AI動画生成についてあまり語る機会がないのですが、私はこれについて多くの意見を持っています。開発者でありAI専門家だからというだけでなく、私は動画制作で生計を立てており、本当に動画編集が大好きだからです。単純に好きなことなんです。だから、多くのAI動画関連のものには懐疑的です。
とはいえ、このアプリには本当にユニークなものがいくつかあり、皆さんのためにすべてを詳しく説明するのが待ちきれません。でも私は月額200ドルのプランに入っていて、誰かがその請求書をカバーしなければなりません。ということで、今日のスポンサーからの簡単な言葉の後、すぐに飛び込みます。
アプリの構築はこれまでになく簡単になりましたが、適切なインスピレーションを見つけるのはまだかなり難しいです。今日のスポンサーであるMobinを使わない限りは。彼らは1,000以上の異なるアプリ、iOS、Android、ウェブから50万画面のデータベースを構築し、検索、フィルター、分類してアプリ構築に必要なものを見つけることができます。
皆さんはおそらく私が以前にも言及しているのを見たことがあるでしょう。私はMobinが大好きだからです。最初にチェックアウトするためにサインアップしたとき、どれだけ気に入るかわかりませんでした。そして今では少なくとも週に1、2回は使っています。とても便利で、私のアプリをより良く見せてくれています。
私はすでにプラットフォームとしてのMobinに夢中ですし、皆さんも絶対に登録すべきです。特にどれだけ安いかを考えれば。しかし、彼らが発表したばかりのことは私にとって非常にエキサイティングです。明らかに、彼らはアプリを深く掘り下げることが得意です。彼らは今、それをサービスとして提供しています。
競合他社のアプリがどのように機能しているか、すべての詳細、すべてのスクリーンショット、ユーザーがアプリを通過できるすべてのパスを知りたい場合、Mobinに支払ってやってもらうことができます。これはとても便利です。競合他社が構築している体験の内側を見たい場合、これよりも良い、または安い方法はこれまでありませんでした。
そして、これらすべてのアプリを探し回ることよりも良いことに時間を費やすべきです。Bobは、これを可能にするためにカスタムツールで素晴らしいチームを構築しました。そして今、あなたは一束のエンジニアを雇うことなくそれを手に入れることができます。彼らが提供しているものに対して、驚くべき価値です。自分自身をブロックするのをやめて、インスピレーションを得てください。今日soyv.link/mobinで彼らをチェックしてください。
動画生成の実験と発見
さて、あの素晴らしい詩的な動画は、実際に私が最初に生成したものの1つです。このアプリには脳腐れフィードがあるので、これがどれだけ脳腐れになるか見たかっただけです。平和があなたと共にありますように、友人たち。イエスがライブでチェックインしています。
私はSora 2アプリを開いたばかりで、場所は完全に満員です。ロンドン西部のBBCの研究所で今日、エンジニアたちがSora 2を公開しました。書かれた指示から動画を制作できる新しいコンピュータです。私たちのオープニングポイントはボード上のルールに従います。
かなり脳腐れで、ここには知的財産権に関して法的トラブルを引き起こす可能性のあるものがたくさんあります。特にIPに関して。ポケモン関連のものが非常に多く、任天堂が満足しないことはわかっています。
アプリはそれらのタイプのことをするのを非常に積極的に止めようとします。ここでスクロールすると、私の試みの半分ほどがコンテンツ違反です。スマブラやバイオハザードのようなものでさえ、暴力的すぎると判断されて公開させてもらえませんでした。結果すら見せてもらえませんでした。
あれはしばらく続いたので、間違いなく生成は行われましたが、その後ブロックすることにしたのでしょう。でももっと多くのことを見ていきたいです。このリリースには多くの要素があり、それらすべてをカバーしたいと思います。
大きな要素は、モデル自体、つまりこのアプリと体験全体が基づいているSora 2モデルです。次に、これのソーシャルメディアの側面があります。そしてもちろん、私たちがおそらくここにいる理由である、潜在的な社会的影響について話したいと思います。
モデルから始めましょう。ここには多くの興味深いものがあるからです。動画をお見せしますが、これは馬鹿げたSkyrimのミームですが、音声と動画がどのように関連しているかに注意を払っていただきたいです。特に、音声は変わらないのに動画がどのように変化するかに注目してください。
ここはどこ?サンフランシスコには見えない。ついに目が覚めたな。国境を越えようとしてつかまったんだ。スカイリムに向かっている。スカイリムってビデオゲームの?何のことかわからない。とにかく頭を下げていろ。
これは本当にクールです。これを説明しようとするために、簡単な図を作ります。偽の動画編集ソフトウェアを作りましょう。ここにクリップ1とオーディオ1があり、これはそのクリップの音声です。通常、これらは一緒にされますが、すべての動画ソフトウェアでこれらを2つの別々の部分に分けることが可能です。
クリップ2についても同じことをします。これが実際の動画編集プログラムのようなものだと想像してください。クリップ1があり、その直後にクリップ2が再生されます。かなり標準的でシンプルです。皆さんはこのようなソフトウェアを見たことがあるはずです。クリップ1が終わると、音声も終わり、そしてクリップ2が始まります。
動画編集には、遷移をスムーズにするテクニックがあります。いいえ、2つのセクション間でぼかしを入れるようなものではありません。現代の動画編集と制作で最も重要なのは、JカットとLカットと呼ばれるものです。
これらは2つのカッティングテクニックで、1つの部分から音声を取り出して引き延ばし、クリップ1からの音声がクリップ2に移行したときにまだ再生されているようにします。インタビューで2人が話していて、人物2のカメラアングルにカットしたい場合、人物2が話し始める前に、人物1の音声を再生し続けながら人物2にカットすることができます。
でも、「彼らが話し始める前に」と言ったことに注意してください。通常、最終的にやっていることは、音声を引っ張るだけではなく、動画を前に引っ張ることです。クリップ2を、音声を再生したい前よりも少し早く始めます。シーンに重要なものがあれば、音声も少し早く移動させるかもしれません。
より自然な遷移を作るために、両方向に重ねることもできます。これは、ほぼすべてのプロの動画編集者が頻繁に使用する重要なテクニックで、特に私たちは使っています。人々がシーンをカットしたり、動画からコンテンツを削除したりするときに、粗い音声遷移に気づいたことがあれば、これが大きな部分を占めています。
正直に言うと、フェイズの仕事の半分は、ちなみにフェイズは私の編集者です。YouTubeの皆さん、こんにちは。彼の仕事の半分は、私の動画全体にJカットとLカットを挿入して、私がやる terrible な単発の悪いテイクを処理し、それをすべて比較的まとまりのあるものにカットすることです。そのために神の祝福がありますように。
私はAIがこれをやっているのを見たことがありません。そして私にはいくつかの理論があります。私はAI動画モデルで多くの遊んできました。皆さんが思っているよりももっとです。最近、ローカルでデスクトップ上でWAN 2.2を使って本当に楽しんでいます。
最も重要なものの1つは動画の長さに関するものです。これらのモデルは5秒以上の動画を生成できません。これがトレーニングデータの制限なのか、生成方法の制限なのか、問題がどこにあるのかわかりませんが、確実に問題があります。
私の推測では、トレーニングデータだと思います。そして私の経験から、これらのモデルをローカルで使用していて、5秒の窓よりも長く強制すると、その時点以降に奇妙なことが起こり始めます。WANでは80フレーム以降、動画の一部が逆再生されるような奇妙なことになります。起こったことを元に戻してしまうのです。良くないですね。
もう1つ注目すべきことは、キャラクターの一貫性が本当に、本当に難しいということです。生成に5秒の制限があるという事実を回避したい場合、追加のクリップを生成してつなぎ合わせようとすることができます。しかし、これらの異なるクリップ間でキャラクターを同一にすることができなければ、結果はあまり良くありません。
その上、音声から動画への問題があります。一般的に、音声から動画へのモデルは良いですが、プロユースケースに十分なほど良くはありません。音声から動画というのは、モデルに対話を与えて、それから何を作るべきかを伝えることができる、始まりつつあるクールなものです。
スピーチを与え、人物の写真を与えて、これを言わせてくださいと言えば、かなりうまくやってくれます。これにはモデルがありますが、最高のものではありません。また、音声も行う動画モデルのトレンドも見られますが、フードの下では、ほぼ確実にこれらのほとんどは、このようなことをしているだけだと確信しています。音声を生成し、その後音声から動画へのパスを実行するのです。
それでも、そこにはイノベーションが起こっています。V3は早い段階でこれに関して本当に大きかったです。興味深いのは、彼らがこれらすべての部分を回避していることです。
最近、OpenAIが現代の画像モデルのもので画像生成をどのように行うかをカバーしました。その多くは実際にはモデルではありません。モデルは基本的なピクセル生成を行っているだけですが、その上にLLMがツールを通じてコマンドを出すレイヤーがあります。
ですから、画像を生成するだけでなく、LLMは「オーケー、この画像のこの部分を作ってくれ」と言います。そしてそれが戻ってくると、「オーケー、テキストをテキストレイヤーとして適用しよう」と言います。まるでPhotoshopで伝統的にやるように、画像の一部として生成するのではなく。
だから、テキストを生成するAIがあり、他のモデルにコマンドを出して他のことをさせ、また実際のソフトウェアを実行してそれらのこともやらせるのです。私の推測では、モデル自体がこれらのカットを行っているのではありません。
モデルはほとんど脚本を考え出しているのです。上にテキストモデルがあり、「オーケー、ここに異なるシーンがあります。ここに言われていることがあります。ここにそのための時間枠があります。さあ動画モデル、これらの部分を生成してください」と言い、それをつなぎ合わせます。
彼らはおそらく最初に音声だけを生成し、次にシーンを動画として生成し、その後何か別のものに編集させてすべてを上に引っ張って一緒にします。これがどのように機能するかではないとしたら、私は非常に驚くでしょうが、私が行ってきた生成とプレイから、これは非常に可能性が高い方法のようです。なぜなら、それが生成する動画は、Sora自体を含む他のもので見られる5秒の制限よりも長いからです。
でも私の推測では、これの大部分は巧妙なカッティングテクニックによるものです。モデルについてもう1つ、そして皆さんには、これが特に私にとってどれだけ痛いかを理解していただく必要があります。私は大の音楽オタクです。それは私が世界で最も好きなことです。
皆さんはテクノロジーのためにここにいるので、私のコンテンツを音楽についてにしないようにしていますが、音楽こそが私が本当に気にかけているものです。私はそれで学位を持っています。私の人生全体で音楽家を助けてきました。私のコメントやチャットに彼らが現れることさえあります。
私は音楽の世界とテクノロジーの世界の両方にこれほど深く入り込めることを非常に幸運に思っています。しかし、音楽は常に私の心がある場所です。AI音楽は世界で最も恥ずかしく、最もダサく、最も愚かなクソです。明らかに良くないのが非常にはっきりしているので、ここまで来たこと、音楽を生成するこれらすべてのサービスがあること、SpotifyにこれらのAIプレイリストがあって、Spotifyにはすでにほとんどお金がないのに本物のアーティストからお金を奪っていることが腹立たしいのです。
だから、これは私にとって非常に痛みを伴う場所から来ていることを知ってください。このモデルが生成している音楽は悪くないのです。良いとは言っていません。全然良いとは言っていません。でも、キャッチーな瞬間やフックやまともな配信を持つことができるのです。そして歌詞を書く機会を与えると、実際には時々ちょっと面白いのです。
私の首のクロームから跳ね返っている。研究所から来たが、ストリートは尊敬している。コードを現金に変える。今、小切手を積み重ねている。異なるパス。同じグラインド。決して歩みを失わない。すべてのバーコードが私が吐くバーに変わった。顔のタトゥーは飢えが止まらないと言っている。私の首のクロームからの青い光。最後から来た。
ここで彼がやった小さなことがたくさんあります。最後の行が次の行が始まった後に終わる方法。本物のプロデューサーやヒップホップアーティストとして正しく行うことが難しい、小さな趣味の良いことをやっているのです。素晴らしいわけではありません。ラジオか何かで聞くことを期待するようなものではありません。でも、それがあるべき権利よりもはるかに優れています。
そしてそれはかなりイライラします。ええ、これまでにこれほどまでになるべきではなかったレベルよりもずっと良くて、実際にちょっと腹立たしいポイントです。5秒の生成についての点では、私の記憶が正しければ、これはルールを破っているようで、それが私を非常に混乱させます。
私のガレージで、この新しいランボルギーニを買ったばかりです。ハリウッドヒルズで運転するのは楽しいです。でも物質的なものよりもずっと好きなものを知っていますか?知識です。私のガレージ。ちょうどこれを買いました。
これをどうやったのか全く分かりません。私の理論全体に問題を投げかけます。彼らが実際に舞台裏でこれをどのようにやっているのかもっと知りたいです。とても興味があります。とても面白いです。彼らが実際にこれをどのようにやっているかについてもっと情報が得られたら、コメントに更新を投稿するか、新しい動画全体を作ることを必ずお約束します。
でも今のところ、ええ、本当に興味深いです。
ソーシャルメディアの側面
次に、ソーシャルメディアの側面があります。そしてこれは本当に興味深いです。私はSoraアプリで生成したものをTwitterに投稿して一日中バズっていますが、Soraでは全くトラクションを得ていません。
私のSkibidityトイレのものは20万再生と3,000いいねです。この後にやったUberのものは400いいねと3万3,000ビューです。これらは本来あるべきよりもはるかに多くの注目を集めています。これを見るのは興味深いですが、これは私が2年前に経験した特定の瞬間を思い出させます。今となってはこれがそれほど前だったとは信じられないし、この種のことがこれだけの時間起こっているとは。
Y Combinatorの一部として2023年後半に出てきた興味深いアプリがありました。私は投資しようとしましたが、間に合いませんでした。そのアプリの名前はCan of Soupです。Can of Soupは、友達と一緒に画像を生成するために使用するInstagramのクローンのようなものでした。
あるメンバーから招待されます。参加したら、Face IDのためにiPhoneが持っている3D顔認識のようなものを使って、iPhoneを使用した顔の簡単なスキャンを行います。それから自分と友達の画像を生成し始めます。プロンプトでタグ付けするだけです。
プロンプトは投稿するもののための説明でした。そしてそこで人々をタグ付けすると、彼らは生成される画像の一部になります。そしてそれはとても楽しかったです。本当に、本当に楽しかったです。フィードはゴミでした。ここに来てフィードをスクロールする人は誰もいませんでした。
彼らは通知をスクロールして友達が何を生成したかを見るため、そして画像を保存して他の場所に投稿するためにそこにいました。これはちょっと馬鹿げていましたが、まともでした。私自身それでふざけるのをとても楽しみました。当時私はまだ口ひげと金髪を持っていたので、これらの画像は私が今見える様子とは非常に異なる外観です。
でも要点は分かりますよね。超超楽しかったです。私と他の多くの人々は、これが出たときにこれに熱中しました。私は多くの友達を招待しました。私たちは非常に多くの呪われたクソを生成し、それは徐々に衰え、数ヶ月前にシャットダウンしました。
そして、私が説明したばかりの体験は文字通り正確にこのアプリがどのように機能するかであるため、それはちょっとワイルドです。動画を生成したいとき、newをクリックします。次にタグ付けしたい人を選ぶことができます。だから、私はiJustineとSam Altmanが宇宙空間で夕食をしているとタグ付けできます。
そしてこの新しいランボルギーニを提出すると見ることができます。楽しい。待って、生成してる?彼らは実際に私のレート制限をリセットしたの?私は一日中レート制限をリセットしてくれるように彼らに嫌がらせをしてきましたが、彼らは実際にやってくれました。ああ、これが終わったらもっと楽しめるぞ。
Twitterで私をフォローしている人たちには申し訳ないし、このアプリで私をフォローしている人たちにも申し訳ないです。ちなみに、Soraに入れたら、T3.gg、私をフォローしてください。私はここをPvPのように扱っていて、ナンバーワンになるつもりです。
とにかく、今見たように、体験はCan of Soupとほぼ同じです。ただし、画像の代わりに動画を生成しているという事実を除いて、これは馬鹿げています。なぜなら、それははるかに高価になるからです。動画生成は安くありません。だから彼らは1日50の制限を設けているのです。
彼らがGPUを何に使っているのか、そしてすべての資金を何に使っているのか疑問に思っているなら、ここにそれがあります。実際に誰もこれと競争できません。なぜなら、やるにはあまりにも高価だからです。そして、モデルをこの種のものでこれほど優れたものにするために実装した実際の技術は信じられないほどです。
それはまだモデルだけではないと思います。その多くは、ツールレイヤーとその上のLLMを通じてそれを調整しているようなものだと思います。LLMが動画のシーンとプランを生成し、その後動画モデルにその後の部分を生成させるというのは、本当に驚くべきことです。もし誰かがそういうふうに機能していないと言ったら、私は信じないでしょう。
しかし、ソーシャル面では、これはすでに水中で死んでいると思います。これが次の大きなバイラルアプリになって、人々がTikTokの代わりに使うとは思いません。誰もこのアプリにスクロールするために行くことはありません。彼らは何かを生成するためにこのアプリに行きます。
生成には非常に時間がかかるので、動画が生成されるのを待っている間、少しスクロールしたり、通知をチェックしたりするかもしれません。でもこれはTikTokキラーではありません。そう考えるのは非常に愚かです。そして彼らがこれほどの時間を費やしてソーシャル体験を作ったという事実は、私を少し心配させます。なぜなら、それはOpenAIの強みやすべきことから非常にかけ離れているからです。
そしてそれはソーシャル体験です。かなりクソです。彼らはこれを必要以上に少し強く磨き、今日の数字が彼らにとってクレイジーになるだろうから、それを推し進めようとする感じがあります。しかし、その分野で競争力がなければ、フィードと競争することはできません。
そして厳しい現実は、TikTokのフィードは非常に嫌になるほど最適化されているということです。TikTokの最適化が素晴らしいからではありません。それらは素晴らしいですが、それが非常に長い間存在してきたからです。確立されたメタがあるため、次の動画にスクロールして移動するのを止めたくなくなるほど、動画の最初の5フレームをどれほど魅力的にできるかという。
TikTokやSoraのようなフィード体験は、デフォルトで体験を見て、視聴を停止することを選択するという形で非常に推進されるため、すぐにスクロールして次に行く代わりに、動画全体を視聴する可能性を高めるために、最初の小さなフレームセットを可能な限り完璧に最適化するという、信じられないほどのレベルの最適化があります。これはAIで生成することはできません。
モデルは、動画全体を視聴する代わりにすぐにスクロールする可能性を高めるために、最初の小さなフレームセットを可能な限り完璧に最適化することはできません。これは競争するのが非常に難しいものです。
これがTwitchがショート動画で競争できない理由です。彼らは何度も試みて失敗してきました。実際、2017年にTwitchがTikTokと呼ばれる前に試みた最初の製品の1つであるClips TVを構築しました。それはうまくいきません。なぜなら、ユーザーが可能な限り魅力的であることを目標に完璧に作り上げられたコンテンツを作ることを許可するプラットフォームがない場合、それを持っているプラットフォームと競争することはできないからです。
TikTokは自分で作成した動画をアップロードすることを許可し、各小さな部分を最適化するため、彼らが勝つでしょう。実際、私はここから動画を取り出して、TikTokのような場所に置いています。そしてそれらはそこでまあまあのパフォーマンスをしています。
私は、最初の数秒を編集して、私が何をしたのか、なぜそうしたのかを可能な限り魅力的な形で言っている私を入れるプレアンブルを始めるつもりなので、コンテンツはより良くなります。これは楽しいプラットフォームです。現在は新規性があります。
楽しさと新規性はソーシャルメディアで信じられないほどよく売れます。特に新規性。だから、今新規性があるので、今バーストを持つでしょう。新規性が薄れると、それはすぐになくなり、人々はアプリをチェックするのをやめるでしょう。
彼らはスクロールしたいからではなく、生成するアイデアを持っているためにここにいます。そして、大量に生成していないユーザーは、2〜3日以内にアプリを使用するのをやめることがわかります。私の言葉に印をつけてください。
これは人々が戻り続ける体験ではありません。私はTwitterで多くの懐疑論を見ます。ああ、これはソーシャルメディアの未来だ。みんなが代わりにSoraを使うだろう。ここには1つの意味のある利点があります。それは、このプラットフォーム上のすべてがAI生成であるのに対し、他のプラットフォームではそれがそうかどうかを推測しなければならないということです。
そして特にブーマーでいっぱいのFacebookのような場所では、人々はAI生成動画を理解していません。Facebook上の平均的な老人が、それが明らかにAI生成された偽の動画であることに気づかずに、これらのプラットフォームでどれだけのことを逃れることができるかは、実際にとても面白いです。
そして、それが私のリストの第3部、つまり潜在的な社会的影響に入るときです。
潜在的な社会的影響と懸念
皆さんに見せます。実際にOpenAIでアプリに取り組んでいたGabrielが、今日このポストをしました。「本当にこれがSora推論に必要です。この動画は良すぎます。TargetでSamがGPUを盗もうとしているCCTV映像の面白い動画」
問題は、これがどれほどリアルに見えるかです。私の友人Ken Wheelerが今日早くに投稿したように、「地獄ええ、動画証拠は法廷で容認できない。行こうぜ、boys」
ええ、私たちが今CCTV映像を偽造できるという本当の懸念があります。おそらく、これが持つであろう本当の社会的影響があります。なぜなら、確かにピクセルを詳しく調べてAI動画かどうかを証明しようとすることはできますが、非常に迅速に画像と動画の証拠は使用できなくなります。なぜなら、検出することがますます困難になるからです。
それは両当事者が負けるいたちごっこになるでしょう。私たちはもはや見るだけでは物事を信頼できません。これは社会が経験するにはかなり狂気じみた変化です。種としての私たちにとってこれが最終的にどうなるか興味があります。
とはいえ、このような動画のために社会を破壊する価値は完全にあります。ここはどこ?Minecraftみたい。誰かこれを見てる?スティーブ。ねえ、どうやってここに来たか知ってる?何も言わないつもり?オーケー、クール。じゃあここに立ってるだけだね。
ここはどこ?なぜこれが実際にちょっと面白いの?うーん、イライラします。これは良いはずではありません。本物のフィードになるほど良くはありませんが、イライラするほどには良いです。
Samの投稿を素早く読みたいです。なぜなら、ここには私が実際に同意しないものがたくさんあるからです。これは私たちの多くにとって、創造性のためのChatGPTのように感じられ、楽しくて新しく感じられます。アイデアから結果まで本当に簡単で速くすることと、出現する新しい社会的ダイナミクスには素晴らしい何かがあります。
これは、メディアがどのように機能するかを理解していない場合に言うことです。プロのメディア制作が、私たちがここで生成しているものと同じだと思うなら、Repletでバイブコーディングしている人々が企業ソフトウェアを構築する方法だと思っているのです。
人々がRepletでどこまで行けるかが印象的かどうか?確かに。しかし、実際にRepletで構築され、ホストされているアプリを使用している人を見たことがありません。そして、見ることを期待したこともありません。これらの間には大きなギャップがあります。
何をしているのか全くわからない人がブラウザで簡単な計算機アプリを作れるのはクールか?確かに。何をしているのか全くわからない人がMinecraftでSam Altmanの馬鹿げた動画を作れるのはクールか?ええ、おそらく。
しかし、それは創造性における世代的な飛躍や、何をしているのかわからない人々が始めることを可能にする魔法のツールではありません。より多くのクリエイターがいない理由が動画編集が難しすぎるからだと思うなら、あなたは何を話しているのかわかっていません。そして、お願いですから、この分野から離れてください。これはあなたのためのものではありません。
開発者ではない人々の束がAI開発ツールを構築したと想像してください。それがどんな感じかです。私たちは、これらすべての動画とクリエイティブではない人々がクリエイティブツールを作っているのを見ています。彼らは難しいと思うからやっているのではなく、簡単だと思っているが、これらの部分が好きではないからです。
私は動画編集が大好きです。制作が大好きです。スケッチするのが大好きです。計画するのが大好きです。良い動画を作るのが大好きです。それは私と私のチームにとって楽しいことです。そしてAIのものの多くは、退屈な部分を消し去る代わりに、チームを置き換えようとしています。
創造性はカンブリア爆発を経験しようとしており、それとともに芸術とエンターテインメントの質が劇的に向上する可能性があります。Soraで遊ぶ非常に初期の段階でも、多くの私たちにとって、競技場が突然どれほどオープンに感じられるかは印象的でした。
オーケー、ここで気づいたことが1つあります。Samの投稿での大文字。彼はこの投稿をAI生成したと思います。オーケー、実際には、AI生成だと非難するつもりはありませんが、これはこれは恥ずかしいです。これは好きではありません。
これはクールな部分です。特にキャラクターの一貫性の部分。あなた自身とあなたの友達を動画に入れる能力。チームはCameo機能でキャラクターの一貫性に非常に懸命に取り組み、テスト中に本当に楽しんできたものであり、多くの私たちにとって、驚くほど魅力的な新しいつながり方です。
あなたとあなたの友達の動画や画像などを生成するのは本当に楽しいです。そしてキャラクターの一貫性を取得して、シーンを変更しても常にあなたのように見えるようにできることは本当に印象的です。
これの安全性について心配しているかもしれませんが、Cameoアクセスには小さいながらも意味のある機能があります。デフォルトでは、あなたのCameoを使用することが許可されている唯一の人々、つまりあなたに基づいて動画を生成することが許可されている人々は、あなたの相互フォローしている人々です。
これは、このビューがあるデフォルトの状態です。デフォルトであなたのCameoを使用できる唯一の人々は、あなたをフォローしていて、あなたもフォローバックしている人々です。次に、手動で承認するオプションがあるか、自分自身のみに設定することができます。
私はみんなに設定しています。なぜなら、楽しんでください、オタクたち。とにかく私の動画を生成するつもりです。私は十分に人気があります。私にできることは何もありません。これは本当に重要な追加だと思います。なぜなら、友達以外に自分の存在を使用されたくない人々が心配する必要がなくなるからです。
彼らが持っていたもう1つのクールな機能、これについて誰も知らないと思います。誰もこれに言及しているのを見たことがありません。それは「私を特集しているすべての下書き」ボタンです。動画を生成すると、すぐには投稿されません。いつ投稿するかを選択します。つまり、これらのほとんどは下書きに座っていることになり、投稿されていない私について作られたすべての下書きを見ることができるのは特に面白いです。
だから、もしあなたが私のものを作って、投稿せずに逃げられると思っているなら、私は皆さんを見守っています。Samの投稿に戻ります。私たちはまた、このリリースに対していくらかの不安を感じています。ソーシャルメディアは世界に良い影響をいくつか与えてきましたが、悪い影響もいくつかありました。
「いくつか」はそこでちょっと手が届きすぎだと思います。それよりもはるかに多いですが、ええ、私たちは、このようなサービスがどれほど中毒性があるかを認識しています。皆さんはこれについて心配する必要はありません。約束します、Sam、あなたのフィードは中毒性のあるフィードにはなりません。TikTokのような麻薬の売人と競争することはできません。
彼らはより強い薬を持っています。あなたは勝てません。いじめの点は本当のものですが。私は彼らがCameoの制限を持っていることを嬉しく思います。うまくいけば、彼らは強力な報告システムを持っています。AI動画生成の退化したケースを想像するのは簡単で、それは私たち全員が強化学習で最適化されたスロップフィードに吸い込まれることになります。
チームは、その罠に陥らない楽しい製品を作る方法を見つけるために、多大な注意と思考を注ぎ込み、多くの有望なアイデアを思いつきました。製品の初期の頃に、さまざまなアプローチを実験します。
繰り返しますが、彼らは実際のソーシャルメディア製品であるというアイデアにあまりにも投資しすぎています。それは起こりません。そのようには機能しません。私の言葉に印をつけてください。私はこれについて非常に間違っている可能性があります。これは人気のある閲覧体験にはなりません。
これは、他の場所に漏れる半人気の生成体験になりますが、誰もスクロールして人々が投稿しているものを見たり、人々をフォローしたり、新しいコンテンツを発見したりするためにSoraに行くことはありません。それは私たちがそれを使用している目的ではありません。
フィードは今のところゴミです。ちなみに、私が傲慢だからこれを言っているのではありません。実際にはその全く逆だから言っているのです。私は今アプリで最高の投稿者ですが、投稿するのはそれほど得意ではありません。
いくつかの面白い投稿がありましたが、人々がフィードに投稿しているものを見ると、彼らは全く品質管理をしていません。最初に生成したものを投稿していることがわかります。それはひどいです。悪いです。良くなる可能性はありますが、TikTokと競争できるほど良くなることはありません。
彼らはここで他の多くの安全策について話していますが、より重要なことに、彼らは製品に対して持っている主要な価値と原則を示しています。彼らは長期的なユーザー満足度のために最適化したいと考えています。だから、6ヶ月間アプリを使用した後に尋ねたら、楽しんでいるか?彼らの生活を良くしたか?と答えるべきです。はいと。
ユーザーが自分のフィードをコントロールすることを奨励します。Sorに何が欲しいかを伝えることができるはずです。あなたをよりリラックスさせる動画、またはよりエネルギッシュにする動画が見たいですか?彼らがこのように考えているという事実。
リラックスさせる動画、またはエネルギッシュにする動画が欲しいかのように。スクローラーはそのように考えていません。TikTokを漫然とスクロールしている人は誰も、自分自身をエネルギッシュにする必要がある、またはリラックスする必要があるという考え方で入っていません。TikTokをスクロールするつもりだということです。
彼らの考え方はここでは機能しません。彼らはトレーニングの観点から考えていますが、これらはトレーニングするものではありません。これらは見て消費する人間です。それは非常に異なる世界です。
OpenAIは生成会社です。彼らは物を作ります。彼らは物を提供しません。彼らは物を消費しません。これは消費問題、人間の消費問題です。彼らは競争するための装備がありません。
最終的に、私たちの技術が進歩するにつれて、あなたは、これはAI生成されなかったと思います。なぜなら、これはちょうど重大なタイプミスだからです。最終的に、私たちの技術が進歩するにつれて、あなたはSorに何が欲しいかを詳細に自然言語で伝えることができるはずです「should」ではなく「should be able to」。
しかしながら、ティーンエイジャーのためのペアレンタルコントロールは、個人フィードをオプトアウトする能力やDMをオフにするような他のことを含みます。クールです。ちなみに、DM部分は今のところ完全に壊れています。
次のポイントは、創造を優先することです。私たちは、すべての人が創造プロセスに参加することを簡単でやりがいのあるものにしたいと考えています。私たちは、人々は生まれながらのクリエイターであり、創造することは私たちの満足にとって重要であると信じています。
あなたは間違っています。これについてあなたは非常に間違っています、Sam。申し訳ありません。これが私たちが投稿を見ている理由です。ほとんどの人はクリエイターではありません。人々の大多数はクリエイターではありません。ほとんどのクリエイターはかろうじてクソのクリエイターです。彼らはこれをするのが嫌いです。
クリエイティブではなく、これが好きではなく、昨日やめたいと思っている、私が話したお気に入りのクリエイターが何人いるか言えません。私は大多数がそうだと主張します。ほとんどの人はクリエイターではありません。ほとんどの人はコンテンツを作りたいとは思っていません。
コンテンツクリエイターになりたいと思っている人はたくさんいます。しかし、何かを熱望することと何かを望むことは違います。熱望することは、できると思うが言い訳を思いつくことです。望むことは行うことです。
クリエイターになりたくてなっていない人は、実際には望んでいません。彼らはそれを熱望しているのです。熱望しているクリエイターのためにクソを構築するのをやめてください。なぜなら、彼らは何もしないつもりだからです。この仕事は、ちょっとやりたいが、Final Cutを学ぶのは少し難しすぎる人にとっては難しすぎます。アイデアの出し方がわかりません。
その人はTikTokやYouTubeで大きくなることはありません。そういうクソの仕組みではありません。開発者のために競技場を平準化するために。私はアプリを構築したいですが、どのエディターを使用するかを理解するのは難しすぎます。代わりにそれをしないつもりです。
でも、どの言語とIDEを選ぶかがもっと簡単だったら、私は完全にコーダーになるでしょう。それがどれほど愚かに見えるかわかりますか?それが、私たちは人々が生まれながらのクリエイターであると信じているというようなものを見たときに感じる方法です。
この製品にはクールなものがあります。ちょっと待って、撮影前にどういうわけか忘れていたので。これは私にとって重要なので、話します。OpenAIアカウントの公式発表動画は、特に私をトリガーする、可能な限り最も恥ずかしい方法で開きます。
私のキックフリップをチェックして。ここで間違って起こったことの量は本当に面白いです。まず、彼女が「みんな、私のキックフリップをチェックして。私のキックフリップをチェックして」と言った後、彼女はボードを逆さまに落とそうとしています。つまり、乗ることができません。
しかし、その後、彼女の足は完全に間違って配置されています。オーケー、完全にではありません。それらは多少キックフリップの位置にありますが、その前足ははるかに前方にあるべきです。その後ろ足は、ほとんど彼女がテールの上に立っているようです。いいえ、それはできません。ボードは後ろに傾くだけです。
前足を前の近くに、後ろ足を後ろの近くに持っている必要があります。当然です。後ろ足をテールに、前足を少し傾けて前の近くに。ここでは起こっていません。しかし傾いています。つまり、彼女がフリックするつもりなら、彼女は右側、私たちの左側でフリックするつもりで、ボードを回転させます、だと思います。
申し訳ありません、カメラが変です。そのように。それが起こったときにこのように進むべきです。しかし代わりに、それは間違った方向にフリックします。ヒールフリップの方向にフリックしていて、フロントサイド180度回転しています。これはバリアルヒールフリップになります。お分かりのように、これはキックフリップではありません。
LLMがスケートトリックを説明するのがどれほど得意かについて、すでにベンチマークがあります。まあ、説明を与えられた場合にそれらに名前を付けること。だからボードはヒールフリップの方向に回転し、フロントサイド180度回転し、スケーターは動きません。
それはバリアルヒールフリップです。ここで何が起こりますか?ボードが回転し始めます。彼女はそれに追いつくために少し回転し、キックフリップをするときに、今までで世界最悪の定位置ヒールフリップをすることになります。完全に異なるトリック。
間違った足の位置、間違ったポップ、奇妙な回転。動画モデルはスケートボードをするのにまだ絶対的にゴミです。面白いことに言語モデルもそうだからです。そして、スケートトリックに正しく名前を付けることができる唯一のものは、再びGPT-5です。
説明を与えられた場合にスケートトリックに名前を付けるのがどれほど得意かは狂っています。しかし、これらのモデルのどれもそれの動画を行うことはできません。とても面白かったです。彼らの投稿の最初の5秒は完全に間違っていて、特に私をターゲットにしているように感じます。
だから、ここで起こっている他のすべてのことに戻るために、rant申し訳ありません。クールなものがあるからです。しかし、あれは私を怒らせました。
製品の経済性と実用性への疑問
それから、ユーザーが長期的な目標を達成するのを助けることについてのいくつかの説明がありますが、もう少しroastしたいです。ここでの私の最後の大きなroastは、この製品は存在するには高価すぎるということです。それはどういう意味ですか?まず、LLMについて簡単に話しましょう。
LLMは多くの理由で興味深いです。私たちがここでそれらについて非常に多く話す理由はたくさんあり、彼らはテキストを生成して人間に見せることができるから興味深いわけではありません。それはクールです。それは信じられないほどのデモですが、それが世界にもたらすことができる価値には本当に低い天井があります。
1日にテキストを読む時間は限られています。そして、その大部分がAI生成になった場合、それはちょっとダウングレードです。それはひどいです。LLMの価値と、それらを「ああ、ちょっとクール」から「聖なるクソ、それは物事を変えることができる」にするものは、それが生成するテキストが人間に見せるために生成されていないときです。
他のLLMや人間によって書かれた他のソフトウェア、または潜在的にLLMが実行するために生成されているのです。生成されているテキストが「こんにちは、今日はお元気ですか?」だったら、誰が気にしますか?しかし、テキストが他のソフトウェアにコマンドを出して、メールに返信したり、ものをダウンロードしたり、ウェブを検索したり、リソースを見つけたり、コードを書いたり、バックエンドの部分を更新したりするような本当にクールなことをするための多くの奇妙な構文である場合、そこでこのものがクールになります。
テキストが人間が見るもの以外で使用されるときです。私たちはすでに、LLMによって生成されているテキストの大部分が人間によって見られていない時点にいます。それは彼らが呼び出しているツールをより良く機能させるために使用されています。
では、ちょっと動画について考えてみましょう。動画生成が人間が見る以外のことに使用されている世界はありますか?いいえ。明らかにありません。なぜそれが ever あることになるでしょうか?
猫についての楽しい事実、もしあなたがこれを知らなかったら、猫は自然界で鳴きません。猫はお互いにコミュニケーションを取るために鳴きません。彼らは全くコミュニケーションを取るために鳴きません。彼らは人間の注意を引くために鳴きます。
鳴くことは猫が持っている特性ではなく、私たちは猫語を人間語に翻訳することはできません。なぜなら、猫は話していないからです。彼らは人間からの注意のために音を出しているのです。猫の世界では鳴くことの役割はありません。猫がやる人間の世界での鳴くことの役割だけがあります。
ソフトウェアの世界では動画の役割はありません。生成された動画は、他のツールをより良くするために使用することはできません。生成された動画は、データを処理するために使用することはできません。生成された動画は、人間に見せる以外のことには使用できません。それは製品です。それは出力です。
LLMは、他の何かを持っているプロセスのステップとして使用することができます。実際、前に述べたように、私たちはおそらくLLMを使用して、次に生成する動画のスクリプトとプランを生成しています。LLMは普遍的なツールではないかもしれませんが、かなり近いです。
彼らは非常に多くの異なることに使用でき、私たちはテキストを使用するより多くの巧妙な方法を見つけています。これが機能することはわかっています。なぜなら、私たちは非常に長い間、ソフトウェアを生成するためにテキストを使用してきたからです。
私たちは動画でコードを書きません。言葉で、言語で、テキストでコードを書きます。LLMは、テキストが動画よりもはるかに有用なメディアであるため、はるかに多くのことができます。動画でテキストよりもはるかに多くのお金を稼ぐ人間として言います。
それはほとんどの世界がどのように機能するかではありません。そして、私の動画の価値は、それが詰め込まれるものではなく、視聴していて、統計的に言えば、まだ登録していない視聴者であるあなたに行くということだと認識しています。なぜあなたはまだ登録していないのですか?私はこれに多くの仕事を注いでいます。まだの方は赤いボタンを押してください。
要点はわかりますよね。LLMは本当に有用で、私たちがそれらを反復するために数十億ドルを費やしている理由があります。それはバブルですか?おそらく。今のところそれが価値があるほど価値がある必要がありますか?おそらくそうではありません。
しかし、私や他の人々がテキストモデルを使用して毎日感じる実際の本物の価値がたくさんあります。動画はそれができません。そして、トレーニングするのがより高価で、生成するのがより高価で、ホストして提供するのがより高価です。そして、より大きな安全リスクと潜在的な社会的影響があります。
LLMについて私たちが恐れているほとんどすべてのことで、動画生成はより悪いです。LLMのすべての実用的な利点で、動画生成は役に立ちません。そしてコストの違いは単に狂気じみています。
しかし、ええ、要点はわかります。動画生成は数字で見るとAIの最悪の部分の1つです。それはAIでできる最も危険なことの1つです。人々をAIで最も動揺させるものの1つです。みんなをパニックに陥れる原因の1つです。超高価です。
そして、人々が見るもの以外に価値はありません。だから、その価値はそれでオンラインで人々をトロールすることだと主張することができます。ええ、アイデアはわかります。
これは本当にクールな技術ですか?絶対に。これは私がたくさん遊ぶものですか?確かに。これは創造性の未来ですか?そしてコンテンツを作成することは死んでいますか?いいえ。絶対にクソのようにありません。なぜそう思うのですか?
そして、これがそれを実現するために費やされている数十億ドルの価値があると思うなら、私には売るいくつかの橋があります。そして、それらの橋がAI生成されていないことを約束します。
これについて皆さんがどう思うか教えてください。私は過剰反応していますか、過小反応していますか?ええ、皆さんはすべて自分の意見を持っています。そして、私は実際にこのコメント欄について興味があります。だから、皆さんが何を考えているか教えてください。そして次回まで、peace nerds。


コメント