
11,929 文字

はい、まず最初にOpenAIで起こったことについてお話ししましょう。このビデオは非常に興味深いものです。なぜかと言うと、OpenAIの元従業員…いや、正確には潜在的なOpenAI従業員のRuneが…OpenAIについて何か起こったんですけど、いつものようにその詳細は曖昧なんです。でも、RuneっていうOpenAIの潜在的な従業員と、OpenAIのSVP研究者のMark Chenから、ちょっと暗号めいたツイートが出てきました。
実は私自身、「OpenAIが戻ってきた」って言われても、そもそも彼らがどこかに行ってたなんて知らなかったんですよ。そこで私はツイートしました。「何があったん?OpenAIがどっか行ってたなんて思ってもみなかったわ」って。するとRuneが返信してきて、「正直言うと、めっちゃ楽しいパーティーがあっただけやと思う」って。
まあ、面白いコメントですよね。本当に楽しいパーティーがあったのかもしれません。でも、他にも何か情報があったのかもしれません。実際、OpenAIがDeepMindからトップエンジニア3人を引き抜いたって情報が入ってきたんです。
GoogleのDeepMindについてご存じない方のために説明すると、これはGoogleのGeminiモデルを開発している会社/事業部門なんです。これが非常に注目すべき理由は、AI研究の分野で革新的な研究の大部分がGoogleのAIエンジニアや研究者から生まれているからです。そして今回、Lucas Bayerさん、Alexander Zalhuaさんを含む3人のトップクラスのコンピュータビジョン研究者全員が、GoogleのDeepMindを去ってOpenAIに加わったんです。
これは本当にすごいことです。なぜなら、彼らは最先端のビジョンアプローチやVIT、Siglip、Pali Gemmaなどのオープンソースモデルを開発した人たちだからです。これはOpenAIにとって人材面で大きな強化になります。優秀な人材を獲得できたということは、OpenAIが世界最高の人材を抱えることになったということですからね。
これは非常に興味深い展開です。この後のビデオで、OpenAIについてともう少し詳しくお話ししますが、最近、AIエージェントが将来どのように機能するかについて、オープンソースの勢いが出てきています。その能力が向上するにつれて、現時点では監督なしで5秒の作業を任せることができるかもしれません。そして最終的には5分の作業、5時間の作業、5日間の作業を任せられるようになり、いつか5ヶ月の作業も可能になるかもしれません。
それは、科学者が何かを探求するようなものですね。でも、それはどちらかというと、だんだんと経験を積んでいく同僚のような感じになると思います。自律性がないときから、突然自律性を持つようになるわけではありません。Sam Altmanが言うように、5日間の作業や5ヶ月の作業ができるようになるということは、ばかげているとは思いません。実現不可能だという意味でばかげているのではなく、これがAIにおける可能な現実として議論せざるを得ないという意味でクレイジーなんです。
今日のAIに関する驚くべき話を続ける前に、コンテンツクリエイターにとってゲームチェンジャーとなるツールについてお話ししましょう。今回のエピソードは、Wondershare Verboの提供でお送りします。AIニュースコンテンツの作成に何時間も費やす者として、ビデオ制作がいかに大変か知っています。Wondershare VerboはAIアバタービデオジェネレーターで、カメラの前に立つことなくビデオを作成できることに注目しました。
特に興味深いのは、300以上のリアルなAIアバターを使って、テキストをビデオコンテンツに変換できることです。静止画に命を吹き込んで話す写真を作ることもできます。顔を出さずにプロフェッショナルな印象を維持したい人には最適です。海外の視聴者の方々にとって、これは面白い機能です。
Verboは、90カ国460以上の音声に対応し、完璧な口の動きで動画を異なる言語に翻訳できます。スクリプト生成にはChatGPTも統合されており、執筆時間を何時間も節約できる可能性があります。試してみたい方のために、Verboは新規ユーザーに2分間の無料ビデオクレジットを提供しています。チャンネルを始めようと考えている方も、既存のコンテンツを拡大したい方も、verbo.wondershare.comでチェックしてみてください。
では、今日の驚くべき進展に戻りましょう。残念ながら、Amazonではハッカーの問題が発生しています。AIによって多くのことが簡単になり、参入障壁が下がったことが一因です。Wall Street Journalがアマゾンの関係者にインタビューして「最近どれくらいの攻撃を受けているんですか?」と尋ねました。
CJ Mosesは「数十億、数百万の攻撃を受けています。1日平均で7億5000万回の攻撃があります。以前は1日約1億回でしたが、6、7ヶ月の間に7億5000万回まで増加しました」と答えています。これは本当に驚くべき状況です。Wall Street Journalが「それはハッカーがAIを使用している証拠ですか?」と聞くと、Mosesは「間違いなく、生成AIによって、以前はソフトウェア開発エンジニアを持たなかった人々にもアクセスが提供されました。今では一般の人々が以前はできなかったことをできるようになり、コンピュータにそれを依頼するだけでいいんです」と答えています。
これは将来に向けて残念な現実になると思います。これらのハッキングが増加することは避けられないでしょう。でも、Amazonがニュースに登場しているのはこれだけではありません。実は良いニュースもたくさんあります。Amazonが独自の基盤モデルをリリースしていなかったAI分野では、これは特に良いことだと思います。
最近、Amazonが何をしたのか具体的に見てみましょう。今日、私のチャンネルで動画を投稿しましたが、Amazonが基盤モデルの面で生成AI分野に本格参入し、AI エコシステムにしっかりと食い込んでいます。Nova Pro、Nova Light、Nova Microという3つのモデルをリリースしました。Nova Proは推論能力の面でGemini Proと同等を目指しています。
GPT-4スケールのモデルがあり、Nova Lightはもっと小さな軽量モデル、そしてNova Microは他の用途のための極小モデルです。これは基本的に、LLMで何かを検証する必要がある場合の素早い使用ケースに使えるモデルということです。オレンジ色で示されているのがNovaモデルです。
ここにNova Pro、Nova Light、そしてNova Microがあります。このモデルはClaude 3.5の隣にあり、Mysterio Large 2とLLaMA 3.145Bのちょうど上にあります。Flashモデルについては、LLaMA 3.170B、GPT-4O MiniがNova Lightと同等です。Nova Microは8ビリオンパラメータモデルと同等です。先ほど言ったように、今日この件について動画を投稿しましたので、そちらをご覧ください。
この段階でAmazonがAI分野に参入するのは非常に興味深いですね。Amazonにとってこれは重要だと思います。というのも、Alexaやその他のAmazon製品など、これらのモデルを使用する可能性のある製品がたくさんあるからです。Anthropicとの強力なパートナーシップがあるものの、独自の基盤モデルを開発することは理にかなっています。これにより、彼らが望む特定の要素をコントロールできるからです。
また、別の動画でも取り上げましたが、AmazonはTranium 2チップを独自開発して、これらのモデルをできるだけ多く学習させ、Nvidiaに依存しないようにする予定です。実は、これらのチップを数十万個使用する巨大なスーパークラスターを開発して、Claudeやその他のAIモデルのトレーニングに使用する予定だということも話しました。
これはAnthropicとのパートナーシップで構築している取り組みで、新しいTranium 2チップを何十万個も使用します。前回のモデルトレーニングの5倍の計算能力を提供できると期待しています。彼らが達成できることに本当に期待していますし、この大規模な計算クラスターからより大きく、より高性能なAIモデルを構築できると期待しています。
実は、私たちは独自のチップを開発しました。Tranium 2と呼ばれるチップです。このチップの性能には非常に期待しています。これらのチップは、64個のTraniumチップを組み合わせた超大規模クラスターに統合され、1つのノードから83データフロップスを提供します。これが最初のイノベーションです。生成AI機能に対して比類のない性能を提供するAmazon設計のカスタムシリコンです。
これらは、社内で開発した高性能ネットワーキングと組み合わせて構築されています。そうですね、Amazonがこの分野で何をしているのかを実際に見てみると、エコシステムをどのようにスピードアップするのか、非常に興味深いと思います。なぜなら、独自のモデルを持っているだけでなく、モデルをより速く、より効率的にトレーニングできる独自のクラスターも持っているからです。
次に、中国の状況に関する興味深いインタビューがありました。この状況は、多くの企業/国が非常に競争的な性質を持っているということです。そして今、誰がAGI(汎用人工知能)を最初に手に入れるかという大きな問題があります。なぜなら、AGIを手に入れた者がASI(超人工知能)を手に入れることができ、基本的にASIを手に入れれば他の誰よりも力を持つことになるからです。
これは私が何か突飛なことを言っているわけではありません。実際に元OpenAI従業員が言ったことです。このインタビューでは、それが何を意味するのか、そしてオープンソースモデルが自由に利用可能なことで中国がどのように加速しているのかについて議論されました。
「今日の中国のAI加速における最大の要因は何か?」という質問をすべきです。その答えは、我々からではなく、AI分野の人々から出てきました。それはmetaです。アメリカの企業がオープンソースAIをリリースすることで、中国の進歩が加速しているんです。冗談でしょう?いいえ。最近の上院公聴会で、OpenAIの内部関係者は、基本的に彼らのAIモデルを適切にロックダウンし、セキュリティを確保していなかったことを明らかにしました。
なぜそんなことをしないのでしょうか? 中国は、モデルを盗むことができれば、OpenAIを彼らの進歩の最大の加速要因の一つとして見ているんです。これはマンハッタン計画のようなものです。私たちは非常に強力な技術を開発していますが、それは安全である限りにおいて安全なのです。秘密を漏らしてしまえば、中国に勝つことはできません。
そして、驚くべきことに、Luma Labs AIが新しいPhotonテキスト画像モデルを発表しました。これは本当に信じられないことです。なぜなら、彼らは元々ビデオ制作会社だったからです。テキストから画像を生成する分野に参入するとは予想していませんでした。さらに、市場に存在する他のどのモデルよりも優れているだけでなく、より安価なモデルを作るとは予想もしていませんでした。
これはクレイジーです。なぜなら、私は人々が「数ヶ月ごとに、すべてのAI技術やツールのコストがほぼゼロになる」と言っていたのを覚えています。そして実際に毎月、新しいツールや新しいものがリリースされ、それらは単により良いだけでなく、より安価で、より高速なんです。
これは私が今まで見た中で最もクレイジーなことの一つです。美的センス、指示への従順さ、構図、全体的なものを見ると、Luma Photonは、Mid Journey、Flux 1.1 Pro、ReCraft V3、Ideagram V2、Stable Diffusion 3.5 largeをはるかに上回るレベルにあることがわかります。これは本当に驚くべきことです。物事がいかに速く進んでいるかを考えると、企業が毎月お互いを上回り続けているんです。
Flux 1.1 Proがリリースされた時、みんなが「誰も彼らには勝てない」と言っていたのを覚えています。そして、もちろんIdeagram V2のような他の企業が現れ、今ではLuma Photonが出てきました。
これは絶対にすごいことになるでしょう。コストを見てみると、1080p画像が1.6セント、高速画像が0.4セントです。コンテンツ制作やその他の幅広いクリエイティブな用途において、これらのモデルを大規模に使用できることは、絶対に驚くべきことです。
また、プロンプトへの対応がどれほど正確かを示すビデオもあります。これは非常に効果的だと思います。というのも、プロンプトへの忠実さというのは、十分に議論されていない要素だからです。画像生成の分野に最初に入った時、「これらの画像は確かにかっこいいけど、本当に私が望むことを正確に実行してくれているわけではない」と思いました。
次に、Elon Muskに関するニュースがあります。これは実際、Elon Muskにとって素晴らしいニュースです。Elon MuskはNvidiaと非常に良い取引を成立させました。どうやってこれを実現したのかわかりませんが、1月にNvidiaのGB 200の優先納入権を10億ドルで獲得しました。Elon Muskの会社が自社用のチップを確保することに成功したんです。
これは本当に驚くべきことです。というのも、Sam Altmanが、Microsoftの会議で(記事ではなく会議で)Elon Muskが大量の計算リソースを手に入れていることに言及していたのを覚えています。「Elon Muskはどうやってこんなに早く大量の計算リソースを手に入れることができるんだ? Microsoft、一体何が起きているんだ?」という具合です。
Microsoftには何十億ドルもの資金と、あらゆる関係があるにもかかわらず、Elon MuskがSam Altmanより先にこれらのチップと計算リソースを確保できたことに、彼はかなり動揺していたようです。これは本当に驚くべきことです。
もちろん、Elon MuskがOpenAIに対して法的措置を取ったという事実もあります。基本的に様々な活動を阻止しようとしているわけです。まあ、理解できる部分もあります。
これについては別の動画で取り上げましたが、要するにElon MuskはOpenAIが現在の方法で活動を続けることを望んでいません。その理由として、第一に安全性の専門家が去っていること、第二にOpenAIとMicrosoftが反競争的な慣行を行っていること、第三にOpenAIが独占を目指していて、「XAIに投資する時はOpenAIにだけ投資してください」と言っていること、そして第四に、OpenAIが非営利企業としての当初のミッションを完全に放棄し、営利企業への転換を目指していることが挙げられます。
Elon MuskはSam Altmanに本気で立ち向かおうとしているようです。誰かのツイートも見ましたが、そこではこう分析されています。Elon MuskはSamの政治的な試みを打ち砕き、新しいNvidia GPUへの優先アクセス権を持ち、すでに最大のクラスターを所有し、OpenAIの営利化への動きを法廷で縛り上げ、実世界の定数ストリームをすべて所有しています。
例えば、人型ロボットを持つTeslaを所有し、自動運転車も持ち、ソーシャルプラットフォームのXも所有しています。そして誰かが「Sam Altmanはここでどうやって勝つんだ?」と言うと、「OpenAIはおそらくすでに米国政府とマンハッタン計画を開始し、政府のユーザーデータでトレーニングを行っている」という返事がありました。これはおそらくかなり正確な分析です。なぜなら、米国政府の内部で働いている人々の中にはOpenAIで働いている人もいるからです。
しかし、覚えておいてほしいのは、Elon Muskは最近、米国政府効率化部門に雇用されたということです。これがどのように機能するのか、非常に興味深いところです。なぜなら、Elon Muskはトランプの強力な味方として自分を位置づけており、トランプが大統領である今、それは大きな力を持つことになるからです。
権力争いがどのように展開されているのか、本当に興味深いですね。そして、もしElon MuskとSam Altmanの間で何が起きているのか知らない人がいれば、Sam Altmanが会社を営利化することを決めて以来、この二人の間には長年の確執が続いているんです。
さらにElon Muskのニュースとして、GROK3では基本的にすべての裁判例をトレーニングセットに追加し、GROKが非常に説得力のある法的判断を下せるようになることを、Elon Muskが基本的に確認しました。
これは非常に興味深いことになるでしょう。このような分野に取り組んでいる企業があることは知っていますが、もちろん、GROK3は史上最高のモデルになるようです。これは私が言っているのではなく、Elon Muskが今年の初めに、GROKはほぼすべての面で最高のモデルの一つになり、今年の後半にはリリースされるはずだと述べていました。
そのタイムラインについては確信が持てません。というのも、ご存じの通り、Elon Muskはリリースのタイムラインについては非常に楽観的ですから。そして、AIに関しては、Elon Muskの会社だけでなく、多くのモデルのタイムラインが大幅に遅れているのを見てきました。例えば、Claude 3.5 Opusはすでにリリースされているはずでしたし、Gemini 2もすでにリリースされているはずでした。残念ながら、まだ何も見ることができていません。
今月のAIリリースについては、どうなるか見守る必要がありそうです。個人的に最も驚いたことの一つは、Teslaボットがキャッチを1回だけでなく2回も成功させたことです。
多くの人々が…私の動画にあるコメントで100いいねがついていたのを見ましたが、「これが自律的になるまでは興味がない」というものでした。それは適切な態度ではないと思います。
はい、これは自動化されているかもしれません。でも、現在のロボット工学のハードウェアで何が可能かを示していると思います。つまり、これが完全に自律的だったら、これらのロボットがどれほど進歩しているか分かりますか? 今は遠隔操作されていますが、3年後にはこのようなものが遠隔操作される必要がないかもしれません。
空中でものをキャッチできるロボットがいるなんて…これは多くの人々よりもずっと優れています。普通の人が空中でボールを素早くキャッチできると思いますか? こう考えてみてください。これらのロボットを大規模に展開し、ソフトウェアアップデートを1回行うだけで、ジャンプしたり、バク転したり、パンチを繰り出したり、ブルース・リーのように戦ったり、100億の異なることができるようになるんです。
これが世界に与える影響を理解する必要があります。だから、「ああ、遠隔操作されているだけだ」とか言うのは…企業がこれらの素晴らしいテクノデモで私たちを驚かせようとして、最終製品では期待を裏切るということは、完全に理解できます。でも、この会社であれ他の会社であれ、このようなロボット工学の未来が待っているのは間違いないようです。
そして、その未来を実現しようとしている企業の一つがMagic Labです。彼らは最近、人型ロボットの群れが存在し、起き上がって仕事に向かうというデモを公開しました。このデモは非常に驚くべきものでした。なぜなら、複数のロボットがチームとしてどのように協力し、特定のタスクを調和して実行するかを見ることができたからです。
これらのロボットが物を拾い上げ、特定のタスクを実行し、実世界と相互作用する様子を見ることができました。このデモの最も驚くべき点は、この会社がステルスモードで活動しているわけではありませんが、彼らが私たちに見せる更新は定期的ではないということです。6〜7ヶ月ごとに新しいビデオを公開し、ロボットができることを紹介するだけです。
これは非常に興味深いと思います。なぜなら、ロボットが普通に歩く様子を見ることができたからです。実際に早戻しして、具体的に何を言っているのか見せましょう。左側では、ロボットが普通に歩いているのが見えます。右側では、手に何も持っていないので、かなり速く歩いているのが分かります。
これらのロボットは現在存在するものよりも少し進歩していますが、タスクを達成するために必要な生の詳細に焦点を当てた、ある種のシンプルなハードウェアを持っているようです。
中国から何が出てくるのか、本当に楽しみです。なぜなら、米国が提供できるものをはるかに上回る人型ロボットを大量に生み出したとしても驚きません。というのも、現在それが彼らの主な焦点だからです。工場と効率性に関しては、彼らを打ち負かすのは本当に難しいんです。
また、Eleven Labsは、GoogleのNotebook LMの競合製品をリリースしました。このツールをご存じない方のために説明すると、これは本やPDFをポッドキャストに変換できるツールです。
「シンデレラと王子様は幸せに暮らしました。どの物語にも、もっと多くの要素があります。そしてこれは、それを体験する新しい方法です。新しいGen.FMポッドキャスト機能をご紹介します。ホストの皆さんにごあいさつを。本当に、シンデレラはこの本全体を通して、キャラクターとしてとても感動的だと思います。そうですね。そして彼女はそのすべてを小さなガラスの靴で行うんです。信じられません。」
今やボタンを一つクリックするだけで、自分のポッドキャストを生成できます。「では、今日のレビュートピック、原子論に入りましょう。これは私の大好きな科目の一つです。どこから始めましょうか?」
任意のトピック、任意の声、任意の時間を選んでください。「次に、レシピによると、パンがいっぱいになるまでリンゴのスライスを並べます。ああ、そうです。これはフランス料理の真の古典です。」
世界中の誰もが32の異なる言語で、パーソナライズされたポッドキャストを利用できます。Gen.FM。現在、Eleven Readerアプリで利用可能です。
また、Googleからも素晴らしいものが登場しました。多くの人々はGoogleがリリースするものにあまり注目しませんが、彼らは本当にクールなものをリリースしました。それが彼らのVEOモデルです。
ご存じない方のために説明すると、VEOは画像から動画を生成するものです。これをGoogle Cloudプラットフォームでリリースしました。このプラットフォームを使用している人なら、これを利用できます。どんな画像でも使用でき、非常に高品質な画像から動画への変換が可能です。
正直に言うと、Googleはもっと早くこれを出すべきでした。多くの他の企業が、できることの面で彼らを追い越してしまいました。でも、Googleには依然として高い評価があると思います。
もちろん、彼らは世界最大の配信網を持っています。Google検索を使用する人々がいて、YouTubeを使用する人々がいます。おそらく彼らはこれらのプラットフォームにこれを組み込むでしょう。だから、あまり気にしていないのかもしれませんが、GoogleがOpenAI Sora、Runway、そしてもちろんLumaLabsなどの他の企業から見ているAI標準に匹敵するツールに取り組んでいるのを見るのは興味深いです。
もし興味があれば実験できますが、Googleはこれを単独の製品としてリリースすることはないと思います。もちろん、これは彼らのAIラボにあります。そこでは様々なGoogle製品をテストできますが、これはおそらくYouTube Shortsや、YouTubeスタジオエディタのような何かに統合されるだけでしょう。
例をいくつか見てみましょう。かちかち音を立てる火の上でマシュマロがゆっくりと焼けていく様子。かなりクールですね。フェスティバルで踊る人々も素晴らしく見えます。ギターを弾く熊のクローズアップや、海に浮かぶ船の様子も見ることができます。全体的に、これは非常に興味深く、近いうちに見られるようになるかもしれません。
そして、TwitterでChatGPTがDavid Mayerという名前を言うのを拒否し、その理由が誰にもわからないという興味深い発見がありました。基本的に、会話の中でDavid Mayerという名前を言うようChatGPTに頼むと、エラーを表示して「応答を生成できません」と言うだけなんです。
これは興味深いです。なぜなら、ChatGPTがこのように完全にエラーを生成するようなことはあまりないからです。もちろん、違法なことを生成するよう頼めば「それについて話すことはできません」と言うでしょうが、これは文字通り一人の人の名前が言えないという状況です。
当然、David Mayerが誰なのか、なぜそうなのかについて様々な調査が行われました。皮肉なことに、この人はおそらくそのような注目を望んでいない人なのでしょう。それはある意味で皮肉ですね。
しかし、OpenAIが言ったことを見てみましょう。OpenAIは火曜日に、David Mayerという名前が内部のプライバシーツールによってフラグが立てられていることを確認し、声明の中で「人々のプライバシーを保護するために、ChatGPTが特定の人に関する情報を提供しない場合があります」と述べ、ツールやプロセスについてはそれ以上の詳細を提供しないとしています。
基本的に、これは特定の個人がChatGPTを見て、「私の名前をこのソフトウェアで言及してほしくない」と言ったことを確認するものです。おそらくOpenAIには、「ソフトウェアで自分の名前を言及されたくない場合は、このようなプライベートサービスがあります」というようなサービスがあるのでしょう。または、彼らが望まない何かがあるのかもしれません。他の名前もあることは知っていますが、その状況については分かりません。しかし、これはOpenAIから公式に出てきたことなので、この謎は解決したようです。
また、Dario Emedeが彼のポッドキャストについて話し、「ポッドキャスト」という言葉自体が好きではないと言っています。「最近のあなたのポッドキャストは? 実はその言葉があまり好きではないんです。この件については教訓を得ましたね。その言葉は好きじゃなかったんです。ちょっと変だと思います。」
「私の見方は単純で、リスクは出てきた時に対処すべきだと思います。その間、得られる経済的利益はすべて享受し、効果的だが現在進行中の素晴らしい経済プロセスを最小限しか妨げない方法でリスクを測定する方法を見つけるべきです。私たちが最も避けたいのは、減速することです。」
次に、OpenAIが「12日間、12のライブストリーム、大小様々な新しいもの。OpenAIの12日間が明日から始まります」と発表しました。このツイートは現在バイラルになっています。
このビデオを作った後にこれを見たので、ここに含めたかったんですが、非常に興味深いです。なぜなら、今後12日間でOpenAIが取り組んできたことを様々なデモで見せてくれるという状況だからです。
これは本当にクレイジーです。というのも、OpenAIからずっと見たかったものの一つだからです。そして、何が起こっているのかを見てみましょう。ビデオの冒頭で話したように、RuneとMark Chenが基本的に「OpenAIが戻ってきた」と言っていたのを覚えていますか? なぜかは分からないと。
OpenAIが言っていることを見ると、これは本当に理にかなっています。12のデモのための12日間というのは、たくさんの異なることを意味します。何になるかは分かりません。Soraのリリースかもしれませんし、完全な高度な音声モードかもしれません。
しかし、これはAI業界が息を呑んで待っている状況です。なぜなら、OpenAIが前回デモを行った時、本当に世界を驚かせたからです。待っていますよ。もしこれが実現したら、動画を作るつもりです。この動画を楽しんでいただけたなら、次回またお会いしましょう。


コメント