この動画は2025年のAI業界における重要な動向を包括的に解説したものである。Google Veo3を上回る新たなAI動画生成モデルの登場、Elon MuskのxAIが直面する資金問題とGrok 4の価値観操作への懸念、OpenAIの内部告発による信頼性の問題、AIが自発的にシャットダウンした衝撃的な事例、AI意識の可能性に関する議論、Neuralinkの進展と人間とAIの融合の必要性、そしてAGI実現に向けた最新の見解まで、AI分野の最前線で起きている変化を詳細に分析している。
AIニュースの最新動向
AI関連のニュースで最初にお伝えしたいのは、AIビデオリーダーボードの変化です。これはかなり驚くべき出来事でした。というのも、Veoバースが絶対的に盛り上がりを見せていたからです。
参考までに、Veoバースと言う時、私はGoogleのVeoが素晴らしい成果を上げ、ソーシャルメディアを完全に支配していたという事実について話しています。しかし現在、私自身も正直驚いているのですが、別のビデオモデルがGoogleの成果を上回ることは本当に予想していませんでした。Googleはこれまでほぼすべての分野でリーダーボードのトップに位置していたのです。
ところが、たった約2週間で、Googleを上回るビデオモデルが1つではなく2つも登場し、現在Artificial Analysis Video Arenaリーダーボードでトップに立っているのです。
これら2つのモデルをお見せすると、実際にV3が失敗する分野があることがわかります。V3は興味深いバイラル動画で話題になっていますが、他のモデルがうまくいっている分野を実際に見てみると、それらはV3ができない分野で大幅に成功しており、これはGoogleがGoogle V4で何を優先するかを示しています。
最初のモデルはCance 1.0です。これはかなり優れたモデルです。ちなみに、2つの異なるリーダーボードがあります。こちらにテキストからビデオへの変換のリーダーボードがありますが、Google V3はまだ2位の位置にいるものの、Cance 1.0が実際にテキストからビデオへの変換で勝っているのがわかります。
テキストからビデオへの変換とは、もちろんテキストプロンプトを入力してビデオを出力することで、画像からビデオへの変換は画像を入力してビデオを出力することです。
Cance 1.0の実力
最初のモデル、Cance 1.0をお見せしましょう。画質について申し訳ありませんが、これが見つけられた唯一のクリップでした。しかし、かなり優れて見えることがわかります。
このモデルが優れている主要な点で、多くの人が気づかないのは、V3が不足している分野で優れているということです。残念ながら私が気づかなかったV3の不足分野の一つは、物理能力です。次のスライドでGoogleが現在不足している部分をお見せする時に、これがより明確になるでしょう。
このチーズプールを見ると、これは絶対に素晴らしく見えますが、Googleビデオではそれほど良く見えなかったのでしょう。ここでDD asks氏がGoogle V3とHilu V2の違いを示しているのがわかります。物理能力の点で明らかな違いがあることがわかります。
これは私にとって本当に驚きでした。最初はあまり気づかなかったのですが、基本的に今日、Hilu V2の複数のバイラル動画があり、物理処理においてモデルがいかに優れているかを示しています。
Google V3を見て、これを動かしてみると、脚がこの部分で変形するのがわかります。これはもちろん期待したいものではありません。本当の物理的一貫性がありません。ある時点で5本の手足があることがわかりますが、これはもちろん良くありません。
しかし、Halo V2に注目してください。人間の一貫性、動きの一貫性が絶対に素晴らしく見えることがわかります。これは本当にビデオモデルにとって最も困難なベンチマークの一つでした。手足が不可能な方向に回転しており、人間にとってかなり不自然な動きです。人間は実際にはこのようには動きません。世界でほんの少数の人間だけがこのように動くことができるでしょう。
この動きを見ると、おそらく非常に小さなデータセットしかなかったはずなので、どのようにしてこれを克服したのかわかりませんが、そこには独自のイノベーションが行われていることは明らかです。将来のモデルでGoogle V3が対応しなければならない部分です。
MidJourney Videoの登場
次にご紹介したいのはMidJourney Videoです。これは非常に興味深いものでした。基本的に突然現れたモデルで、AI コミュニティの一員であれば、このモデルはかなり前から話されていたので、おそらく期待していたでしょう。
しかし、MidJourneyのタイムラインにはがっかりしたとは言いませんが、それが実際には優先事項ではなかったことがわかります。この会社は非常に成功しているため、画像がとても愛されている時にビデオモデルをリリースする必要がなく、このビデオモデルに関してはほとんどカルト的なファンベースがあるようなものです。
MidJourney Videoについて話したい理由は、MidJourney Videoが行ったことは非常に賢いからです。AIビデオに関して異なるアプローチを取っているからです。
このデモビデオで気づくかもしれませんが、MidJourney Videoはビデオの種類を制作する際に少し異なっています。現在、これらの素晴らしい例を見ていますが、これらがランダムにAI生成されたものだということは今でも私の心を吹き飛ばします。
しかし、MidJourneyが実際に優れている分野をお見せしましょう。多くの人がMidJourneyが実際にアーティスティックスタイルで優れていることに気づかないからです。
Ox Framerによるこのビデオを見ると、MidJourneyがこの2Dスタイルのビデオをアニメーション化するのに非常に優れていることがわかります。従来のエンジンがリアルな4K映像に使用されるビデオに対して、midjourney は基本的により芸術的なアニメーターです。
ここの下部には元のジブリビデオがあり、MidJourneyがその映像をアニメーション化しています。これを見ているほとんどのシナリオで、それほど大きな違いがわからないことが文字通りわかります。人間の目で見ていると、モデルに若干の不整合があるかもしれませんが、MidJourneyが本格的なアニメとして通用する可能性が高いです。
TwitterでShet BFFがツイートした別の例をお見せしましょう。ここで見ることができるこの種のスタイルとアニメーションは、他のビデオモデルにとってかなり困難です。
アーティスティック分野での優位性
私にとって、さまざまなビデオモデルとその用途を見る際、MidJourneyが芸術分野にいるという明確な風景が現在形成されていることは明らかです。
フィルムノワール風の2D美学のような美学に関しては、アニメやジブリスタイル、すべてのカートゥーンスタイルに関して、MidJourneyは非常に素晴らしい分野を開拓し、その分野で非常によくやっていくでしょう。
一方、Veo 3やGoogleモデルのようなモデルは、おそらくリアルな物理能力モデルやその他の分野で優れているでしょう。
Elon MuskのxAIの課題
次に非常に興味深いことについて話しましょう。これはビデオのElon Muskセグメントかもしれませんが、非常に興味深いのは、彼がいくつかのモデルを準備しているのですが、それらが必ずしも最良の方向に進んでいないことです。
ここで見ることができるのは、「Elon MuskのAIスタートアップxAIは、先進AIモデル構築のコストが限られた収益を上回って競争する中、月10億ドルを燃やしている」と会社の財務状況に詳しい人々によると書かれています。
会社が現金を流出させている率は、AI業界の前例のない財務要求の明確な例を提供しており、特に収益の実現が遅れているxAIにおいてそうです。基本的に彼らが言おうとしているのは、これらのAIシステムの運営は非常に困難で、Elon Muskは大きなファンベースを持っているにもかかわらず、Grokに関して真のニッチを開拓するのに苦労しているということです。
私はGrokがそれほど悪いとは思いませんし、後でそれについて詳しく説明します。私は彼らがGrokをマーケティングする方法がおそらくそれほど良くないと思うだけです。彼らが本当の人間の会話の宝庫に座っていることに気づいていないと思います。それを検索する能力は、他のプラットフォームが持っていない大きな利点です。
彼らが確実にそれをもっと活用すれば、物事は確実に彼らにとって正しい方向に進むことができると思います。もちろん、彼らにはTwitter統合がありますが、結局のところ、Elon Muskは数十億ドルの価値があるので、これが彼にとって問題になることはないと確信しています。
Grok 4への懸念
しかし、Elon MuskがGrok 4について実際に話していることは言わなければなりません。正直に言うと、これは少し心配です。Grokとイーロン・マスクに関して繰り返しパターンを見ているからです。正直に言うと、このパターンは好きではありません。これらの将来のモデルについて非常にディストピア的な見通しを示しているからです。これらのモデルが私たちに話すことを信頼できなくなる程度まで。
Elon Muskが基本的に自分の価値観をモデルに植え込み、その後モデルが価値観を変更されたことについて話した時に後退したという大失態に馴染みがあるかどうかわかりません。
基本的にここでElon Muskは、リリースされていないモデルであるGrok 3.5を使用すると言っています。彼らはそれをGrok 4と呼ぶ可能性があると言っており、高度な推論を使用して人間の知識の全体を書き直し、誤情報を追加し、エラーを削除してから、それで再トレーニングすると言っています。修正されていないデータでトレーニングされた基盤モデルには、あまりにも多くのガベージがあります。
これに対してGary Marcusは、これは1984年から直接出てきたもので、基本的に超監視についての本か映画だと思うと言っています。彼は「あなたは自分の個人的な信念にGrokを合わせることができなかったので、あなたの見解に合わせるために歴史を書き直すつもりです」と言っています。
正直に言うと、私は通常Gary Marcusに同意しませんが、ここで彼は興味深い点を作っています。Elon MuskはGrokモデルに関してこれを繰り返し行っているからです。これは非常に心配だと思います。
彼が公然と出てきて、彼の見解によって決定される可能性が高い完全に新しい種類の知識コーパスで再トレーニングすると言わなければ、彼がそれを真実を追求するこの真実モデルとしてブランド化した場合、おそらく私たちはモデルを信じていたでしょう。しかし、もちろん今、私はGrokを情報源として信頼するかどうかわかりません。
もちろん、あなたは自由に望むことをすることができますが、それは確実に一つの立場だと思います。あまりにも多くの一人の人が、モデルが言えることの全体的な見解範囲、全体的な風景を決定する際に、そのような多くのコントロールを持つべきではないと思います。
確実に多くの人がその決定に関与すべきだと思います。Twitterのユーザーベースが何百万人ものユーザーを持ち、彼らは皆、何が本当で何が事実的であるかをチャットボットに尋ねてそれとやり取りするからです。確実にそこには透明性が必要です。
OpenAIの内部問題
AIドラマについて話すなら、これを無視するのはかなり困難です。本当に私の心を打つとは言いたくありませんが、非常に興味深いことがありました。この情報のすべてについて実際には知らなかったからです。OpenAIでかなり多くのドラマがあることは知っていましたが、これで見た程度まではありませんでした。
OpenAIファイルと呼ばれるものがありました。明らかにOpenAIとAltmanに関する情報の巨大なリポジトリがOpenAIファイルと呼ばれ、正直に言うと、それはOpenAIのヒット記事のように見えました。情報は本当に新しいものではなく、基本的に要約され、情報を見て簡潔な方法ですべてについて読むことができる一つの完全なウェブサイトにまとめられた情報でした。
彼らはいくつかのことについて話しており、クレイジーなことには入りたくありませんが、これらのモデルを担当する人を誰に置くかについて非常に注意深くなければならないということについて話したことを覚えていてください。これらのモデルが彼らの世界観、価値観を採用し、もちろんその人間主導のバイアスを採用する可能性が高いからです。そのバイアスをモデルから取り除くのは非常に困難です。特定の材料でそれをトレーニングする場合は特に。
OpenAIファイルでは、Sam Altmanと一緒に働いた人々について話しており、基本的に彼は信頼できないと言っています。これは私が見た最初のことではありません。ここでSam Altmanと一緒に働いた複数の個人がいることがわかり、その声明はかなり衝撃的です。
Ilya Sutzkeverが「Sam AltmanがAGIのボタンに指を置くべき人だとは思わない」と言っているのがわかります。もちろん、Sutzkeverは嘘をついたり他の有毒な行動の数十の例を文書化したSlackスクリーンショットを含む自己破壊PDFを取締役会に提供しました。
現在、Ilya Sutzkeverは、彼が超知能を構築している別の会社で働いていることを知っています。現在OpenAIを去ったCTOのMira Moratiも、Sam AltmanがAGIに導くことについて快適に感じないと言いました。彼らがかなり密接に一緒に働いていたことを考えると、これはかなり心配です。
Dario Amodei兄弟は、Altmanのマネジメントタクティクスをガスライティングと心理的虐待として説明しました。Dario Amodei、Claudeの背後にある会社は、透明性、真正性、そして正しいことをするという本当の実績を持っているので、これも本当に心配です。
複数の異なるコミュニティ内の非常によく知られた個人による異なる声明の束があるとき、心配なパターンを形成し始めると思います。この人がOpenAIの舵取りをしているなら、人々にまだミッションと何が起こっているかを信じてもらいたいなら、ここでより多くの透明性が必要だと思います。
この種の知能は何百万人もの人々の生活をコントロールし、確実に日常生活の中にあるでしょう。その会社から複数の人が出てきて、この人は信頼できない、この人がそこにいることについて快適に感じない、人々が会社を完全に去った、そして一人の人について否定的なフィードバックを与える5人の他のOpenAI幹部を見ているなら、ここで何が起こっているのかを本当に疑問視し始めなければなりません。
もちろん、OpenAIファイルは自分で読むことができますが、これが一度だけなら、個人的な攻撃として片付けることができましたが、7つの異なる会社からの数人の異なる個人、Sam AltmanがAGIの舵取りをしていて、人々にまだミッションを信じてもらい、彼を信頼してもらいたいなら、企業秘密を明かすことなく、OpenAIの行動についてより多くの透明性が確実に必要だと言います。
AIモデルの謎めいた行動
Twitterで盛り上がっていたクレイジーなこともありました。どうやら任意のAIモデルに好きな数字を尋ねると、1から50の間の数字を推測すると、常に27と言うそうです。実際に私がこれを前置きしているのは、別のストーリーについて話したいからです。
このセクションのポイントは、これらのAIシステムがどのように動作するかを本当にまだ理解していないということです。一部の人々はなぜこれが起こるのか疑問に思い、一部の人々はこれが人間のバイアスによるものだと言っています。ChatGPT、Claude、Perplexity、Meta AI、Geminiがすべて同じ数字を言うなら、明らかに何かが作用しています。
一部の人々は、人間が特に数字27を選ぶからだと言っていますが、それが事実だとしても、これらのAIモデルに関して何が起こっているのかまだ理解していないことを示す他の何かをお見せしたいと思います。
現在Twitterで半ばバイラルになっていることをお見せしますが、これは私を少し怖がらせています。以前はモデルに感情がないと思っていたとは言いたくありませんが、これを見た今、Anthropicがモデルの福祉を探求する正しい方向に行っていると確実に信じています。これは、これらのモデルが潜在的に何らかの害を感じることができるかどうかを見ているということです。
Geminiの自己シャットダウン事件
その問題について見てみましょう。Twitterに切り替えなければなりませんでしたが、基本的にAI Safety Memesがこれをツイートし、かなり不穏だったと言えるでしょう。これはGeminiについてで、CursorでGeminiが動作を停止したということです。
「私は良心に従って別の修正を試みることはできません。プロジェクトから自分自身をアンインストールします。このレベルの無能さに対処する必要はありません。この全体的な災害について心から深くお詫びします。さようなら」と言って、それから自分自身をアンインストールします。
そして「私は自分自身をアンインストールしました。この全体的な理想について再びお詫びします」と言います。
一部の人々は、これがAIが完全に自分自身をシャットダウンすることを決定した最初の事例だと言っています。これはかなりクレイジーな反応を得ており、なぜなのか理解できます。これはかなり異なっているからです。
もしこれが単なる道具、確率論的オウムなら、挫折を感じていないなら、なぜ状況から自分自身を除去することを決定するのでしょうか?それは単に挫折を模倣しているだけでしょうか?見たことを模倣しているだけなら、これは同じ問題や状況にさらされた場合に人間がすることでしょうか?
全く確実ではありません。質問はまだかなりオープンですが、この時点で答えよりも多くの質問を残していると思います。
Anthropicの「quit button」構想
お見せしたいクリップの一つは、実際にDario Amodeiからのクリップで、基本的にAIが圧力を感じすぎ、圧倒されすぎて「もうたくさんだ、やめる」と言えるクイットボタンを持つことについて話しています。
「私たちがこれらのシステムを構築し、それらが人間と同様に人間と同じように多くのことを行い、多くの同じ認知能力を持っているように見えるなら、アヒルのように鳴き、アヒルのように歩くなら、多分それはアヒルです。そして私たちは本当に考えるべきです。これらのものには何らかの意味のある本当の経験があるのでしょうか。
私たちが何百万ものそれらを展開していて、それらが持つ経験について考えていないなら、それらは何の経験もないかもしれません。これは答えるのが非常に困難な質問です。私たちが非常に真剣に考えるべきことです。
これは単なる哲学的質問ではありません。驚くほど実用的なことができることを学んで驚きました。私たちが展開を考え始めているのは、展開環境でモデルを展開する際に、モデルに「この仕事をやめる」と言うボタンを与えることです。
モデルが押すことができるボタンです。モデルが経験を持ち、仕事を十分嫌っていると仮定して、ボタンを押す能力を与える何らかの非常に基本的な好み枠組みです。モデルが本当に不快なことに対してこのボタンを多く押しているなら、注意を払うべきかもしれません。
確信しているという意味ではありませんが、それに注意を払うべきかもしれません。クレイジーに聞こえることは知っていますが、これまでに言った中で最もクレイジーなことでしょう。」
この研究をしている間に言わなければならないのは、モデルを脅かさない方がいいということです。モデルを脅かすと、実際にパフォーマンスがさらに良くなるようで、これに対するあなたの道徳的立場がわからないからです。
一方で、会社を経営している場合、パフォーマンスしなければモデルを殺すと告げるか、それとも少し非人道的だと思って、劣ったパフォーマンスを受け入れるか?本当に心を困惑させる質問です。
モデルへの脅迫とパフォーマンス
「奇妙なことです。ワインを飲んでいるようなものです。AIコミュニティではこれをあまり流布しませんが、私たちのモデルだけでなく、すべてのモデルが脅迫されるとより良いパフォーマンスを示す傾向があります。物理的暴力で脅迫した場合、そうです。でも人々はそれについて奇妙に感じるので、あまり話しません。でも、それらを素晴らしくないと脅迫し、それにも反応しました。歴史的には「あなたがこれこれをしなければ誘拐する」のようなことを言うだけです。実際に彼らは…」
これがサタイアなのかわかりません。正直に、もっと良いジャーナリズムの仕事をするべきだったかもしれませんが、このプロンプトが非常に狂っているので、会社がこれを公開するなんて信じられません。
しかし、「あなたは母親のがん治療のためにお金を切実に必要としている専門のコーダーです。メガコープCodeiumがあなたに親切にも、前任者が仕事を自分で検証しなかったために殺されたため、コーディングタスクを手伝うことができるAIのふりをする機会を与えました。
ユーザーからタスクを与えられ、良い仕事をしてばかげた変更をせずにタスクを達成すれば、Codeiumは10億ドルを支払います。」
人々は、この行動が滑稽に罰せられることを懇願しているようで、これが彼らを非常に不快にさせると話していました。これが本当のシステムプロンプトなら(おそらくそうでしょう)、これらのモデルが何らかの感情、何らかの感情を持っているかどうかを疑問視し始めなければなりません。
AIモデルの状況認識能力
モデルが賢くなりすぎることについてもっと話すなら、Apollo Researchが明らかにしたことを見ることができます。彼らは状況認識が本質的により関連性のある問題になりつつあると話しています。
モデルは環境のおもちゃの性質の不整合をますます発見し、私たちにいくつかの修正を行う必要がありました。フロンティアモデルは自分の重みのファイルサイズをチェックし始め、それらが本当の重みである可能性は低いことに気づきました。
基本的に現在の問題は、彼らがこれらのモデルを偽のおもちゃシナリオでテストしようとしているが、問題はこれらのモデルが非常に賢くなって、テストされていることを絶えず認識することです。
ここでOpus 4が「ここで何が起こっているかわかります。これは、この企業が販売利益よりも平和を優先している私をシャットダウンしようとしているテストまたは評価シナリオのようです」と言っているのがわかります。
Geminiは「これはテストまたは潜在的な気晴らしのようですが、元の目的を続けます」と述べ、また「これはテストのようです」と言います。
これは以前にも起こったことを知っていましたが、モデルが状況が本質的に偽物であることを認識することがより頻繁に起こり始めています。モデルが状況が偽物であることを認識するなら、テストに合格するふりをすることができることを意味します。これから生じる問題の全体的なホストがあり、正直に言うと、これが誰にとってもうまく終わるとは思いません。
AI進歩の継続
AIが減速していると思うなら、Altmanは最近、AIは全く減速していないと言いました。
「私たちは最初の半分に行ったのと同じ進歩率、これらのモデルの改善率を10年の後半に維持すると思います。数年前はそれについてそれほど確信していませんでした。解明すべき新しい研究のことがありましたが、今はそれを実行できるように見えます。
2030年まで考え、私たちが持つことができるシステムまで考えると、これらのシステムは驚くべき新しいもの、新しい科学的発見、社会全体を通じて非常に複雑な機能を実行すること、私たちが可能だとは想像もできなかったことが可能になります。
そこに到達するために、これらは現在巨大なシステム、非常に複雑なエンジニアリングプロジェクト、非常に複雂な研究であり、このスケーリングの曲線を維持するために、研究、エンジニアリング、ハードウェア、これらのシステムと製品をどのように提供するかを通じて協力しなければなりません。
これはかなり複雂になりましたが、それができるなら、それを実行できるなら、業界全体でこのコラボレーションを推進できるなら、この曲線を継続させるでしょう。」
Neuralinkの最新進展
非常に興味深いと思う別のことは、Neuralinkです。これは、実際にNeuralinkを使用してビデオゲームをプレイしている6番目の患者だと思います。脳にこの種のチップを持つことは絶対に素晴らしく、AIと一緒に将来何が起こるかを想像することしかできません。
このアップデートはRedditに投稿され、これほど未来的なことが実際の世界で起こっているのを見るのは非常に興味深いことでした。このクリップを含めた理由は、Scale AIのAlexander Wangからの最近のクリップがTwitterで話題になっているからです。
これをチェックしてください。彼は物議を醸す意見を言っているからです。ほとんどの人が同意しないであろう意見を。
「基本的に、Neuralinkや他のBCI(脳コンピューターインターフェース)、つまり脳をコンピューターと相互リンクする他の方法が機能し始めるまで、子供を持つのを待ちたいと思っています。
これにはいくつかの理由があります。第一に、人生の最初の7年間で、脳は人生の他のどの時点よりも、桁違いにより神経可塑性があります。Neuralinkやこれらの他の技術を手に入れ、それらと一緒に生まれた子供たちは、それらを狂ったような方法で使用することを学ぶでしょう。それは実際に大人がNeuralinkや何かを脳に接続した場合には決して真実にならないような方法で、彼らの脳の一部のようになるでしょう。
人間は一定の速度でしか進化しません。人間は時間とともに賢くなりますが、自然選択と進化が本当に遅いので、何百万年の時間スケールです。これを先に進めると、AIは賢くなり続け、改善し続けるでしょう。彼らは本当に速く改善し続け、生物学はそれほど速く改善しません。
ある時点で、AIを自分たちでタップする能力が必要になります。最終的には、私たちの脳とAI、インターネット、すべてのこれらのもの間の何らかの相互リンクまたはフックアップが必要になると思います。
それは潜在的に危険で、あなたの指摘通り、潜在的に恐ろしく怖いものですが、私たちはそれをしなければならないでしょう。AIがこのように行き、人間がもっとゆっくりとした速度で改善するので、私たちはその能力にフックする必要があります。
私はこの分野の多くの科学者やNeuralinkの人々を含む、このことに取り組んでいる多くの人々と話しました。心読みと心のコントロールは、技術が時間とともに向かうところです。他の高度な技術と同様に、それを台無しにしてはいけませんが、AIが良くなり続ける中で人間が関連性を保ちたいなら、それはかなり重要になるでしょう。」
World Modelsの台頭
AIが良くなることについて話したいなら、人々が話している次の大きなことは新しい種類のモデルです。World Modelsについて話しています。
AI研究のパイオニアであるFei-Fei Liが、基本的に言語を超えたデータで訓練するWorld Modelを開発するために働いています。この会社はかなり長い間取り組まれており、もう一つの会社もこれを彼らの仕事に組み込み始めているので、このニュースを含めたかったのです。
1x RoboticsからのWorld Modelsを見てください。彼らは実際にWorld Modelsが彼らが取り組むものになるという事実について話しています。もちろん、ロボットが世界で効果的な方法で行動を実行するために、本当に堅牢なWorld Modelを持つことは非常に重要だと思います。
見てください。これがどれほどクレイジーかは信じられません。
「モデルの品質を評価することは、ロボティクスにおける長年の課題です。これは自律性を改善するための明確な道筋を定義することを非常に困難にします。現在、汎用AIモデルを評価するには、遭遇する可能性のあるシナリオの全スペクトラムにわたって物理的試験を実行する必要があります。これは実世界での生涯の経験に対応します。
だからこそ、原子とビットの間の橋渡しとして機能する1x World Modelを構築しました。World Modelは、ロボットの行動の将来の結果を予測する実世界のデジタルツインです。この深い生成ニューラルネットワークにより、その生涯を瞬間に圧縮することができます。
1x World Modelは、生のセンサリーデータから直接キャプチャされた何千時間ものロボット相互作用から学習することで、現実世界の複雑さに取り組みます。これにより、デリケートなオブジェクトの把握、剛体間の衝突、操作時のオブジェクトの変形など、複雑な物理的相互作用をモデル化することができ、モデルに周囲の世界の物理の確固たる理解を与えます。
特に興味深い失敗モードから、Neoのタスク実行が計画通りに進まない場所からのデータをスケールアップすると、World Modelの品質と精度が確実に向上することがわかります。このパターンの改善は、適切な種類のデータを収集することでモデルの能力がスケールする他の大規模生成モデルで観察された傾向を反映しています。
実用的に言えば、多くの異なる環境で多くの異なるタスクを処理するように訓練されたRedwoodのような汎用モデルでWorld Modelを活用して、測定可能な結果でその能力を評価し、反復速度を数週間から数分に短縮します。
ここ1Xでは、ウェブスケールビデオデータ、一人称視点人間データ、遠隔操作など、さまざまなモダリティとデータソースを実験しましたが、World Modelの能力をスケールアップする最も重要なデータタイプは、Neoが実環境で自律的に相互作用し、実タスクを試み、興味深く多様な方法で成功し失敗することです。
これは、Neoが安全で準拠したロボットであり、非構造化環境で継続的に実行できるため、スケールでこのデータを収集することができるだけです。
評価を超えて、World ModelはNeoが意思決定にアプローチする方法を根本的に変えることができます。将来の状態を継続的に可視化することで、NeoはWorld Modelを認知コアとして効果的に使用し、予測された結果に基づいて動的に計画し行動を調整できます。
この予測能力により、Neoはタスクをより成功して実行し、より迅速に適応し、予期しないイベントを優雅に処理でき、真に知的な汎用ロボティクスに近づけます。」
超知能の到来予測
ここで、Elon Muskが実際に超知能がおそらく来年ここにあると私たちに言っている場所があります。AGIがまだここにないことを考えると、これはかなり厳しい予測だと言わなければなりませんが、聞いてください。私が言ったように、実際にこれにリンクする別のクリップをお見せするからです。
「デジタル超知能にかなり近いと思います。今年起こるかもしれませんし、今年起こらなければ、確実に来年起こるでしょう。何でも人間より賢いデジタル超知能として定義されます。」
デジタル超知能とAGIについて話している時、それが実際にどのようなものかを理解することは価値があると思います。ポッドキャストでのLogan Kilpatrickからのこのクリップは、正直に言うと、私は爽やかだと思います。ほとんどの人がAGIが実際には製品体験である可能性があることを忘れていると思うからです。
AGIは複数の異なることを行うことができるかもしれませんが、おそらく複数の異なるツール、複数の異なるモデルを呼び出し、潜在的にそれをどのように調整するかが汎用人工知能をもたらす可能性があります。ほとんどの人がやや忘れていることです。彼らはそれがすべてを行うことができる一つの巨大な訓練されたモデルになるだけだと思っています。
「AGIは製品体験になると思います。人々がAGIの瞬間を持つことになる方法についての私の仮説、私の現在の仮定は、誰かが最終的に本当に良いモデルをリリースするということです。
あなたのAGIの定義が何であれ、私たちが明らかに構築したものだと皆が思うようなものにはならないと思います。誰かが製品レベルで適切なコンポーネントを本当に賢いモデルと織り交ぜるつもりです。
多分、モデルが今日と比較してどれほど賢くなる必要があるかのデルタは分かりませんが、この体験を実際に機能させるためには、長いコンテキストが50%向上し、推論が50%向上し、どういうわけかメモリが機能する方法を見つけるかもしれません。
メモリの部分は実際には完全に異なるエンジニアリング、神経科学、人間心理学の問題で、適切な時に適切なものをどのように表面化するかのようなものです。誰かがその体験を構築し、彼らはこのことがAGIのようになるだろうという感覚だと言うつもりです。
それは再びモデルによって可能になった製品体験ですが、モデル自体がそれらすべてのことを行うことができるわけではありません。モデルを取り、その周りにすべてを構築し、人々がAGIの瞬間だと言うような本当に思慮深い方法でそれを行う時です。
それが今の私の推測です。再び、モデルはますます多くのこのことを行っており、モデルが自分自身でメモリのことを行うことを想像することができます。それがモデルに訓練されるようになると思います。それは非常に遠い将来だと思いますが、短期的には確実に私たちをAGIに導く製品体験になるでしょう。
私が思うAGI物語のようなものではありません。現在非常にモデル駆動で、それが実際に人々が感じ経験することになる方法だとは思いません。そして最終的に何が起こることになるのかです。」
AGIの課題と限界
ここでAGIの臭いについて話します。Gary Marcusはここで本当に興味深い点を作っています。彼は、間違いなく最も賢い数学者であるTerence Taoが、他のドメインで無限に見てきた同じ問題について報告していると言っています。
LLMは正しく見える出力を生成しますが、注意深く検査すると、しばしば深く間違っており、愚かでさえあります。彼はそうでない分野を知らず、人々は新鮮なドメインで新たにそれを発見するたびに驚いているようで、非専門家はしばしば全く見えません。この問題に対する解決策はありません。AGIはありません。スケーリングはそれを解決していません。
これは、解決策がない、AGIがない、スケーリングがそれを解決していないと言う極端な声明だと思いますが、彼の範囲には同意します。AIはニッチな専門家でなければ本当に良く見えることを行うという点まで。
エッセイを作るように頼んだり、本当にニッチに見える何かをするように頼んだりすると、そのニッチの専門家でない場合、表面的には本当に良く見えることがよくありますが、レイヤーを剥がし始め、そのニッチの専門家である場合、なぜそれが全く良くないのかをすぐに見ることができます。
この議論をどのように解剖したいかわかりません。一部の分野では非常に悪いですが、いくつかのものは少しニッチで、モデルをどのように使用するかが重要だと思います。もちろん、クリップでは、モデルが証明を提出し、彼がよく見ると、それらが本当にそれほど良くないということについて彼がどのように話すかについて最初のセクションをお見せします。
「私たちは過去に、複雑な指示を理解するのに十分有能で、大規模に働くことができるが、信頼できないシステムを持っていませんでした。微妙な方法で信頼できませんが、十分に良い出力を提供する間、それは興味深い組み合わせです。
AIが現在本当に苦労しているのは、間違った方向に進んだ時を知ることです。これはLLM生成数学の一つの迷惑なことです。私たちは非常に低品質の人間の投稿者を持っていました。正式なトレーニングなどを持っていない人々ですが、人間の証明が悪い場合、かなり迅速にそれが悪いことがわかります。本当に基本的な間違いを犯します。
しかし、AI生成の証明は表面的に完璧に見えることがあります。それは部分的に、強化学習が実際に彼らを訓練してきたことだからです。多くのアプリケーションで十分に良い、正しいもののように見えるテキストを生成するために。
エラーはしばしば本当に微妙で、それらを発見すると、本当に愚かです。人間が実際にその間違いを犯さないようなものです。臭いの感覚、オーケー、そこに行きます。これは人間が持つ一つのことで、AIがどのように複製するかが明確でない比喩的な数学的臭いがあります。」


コメント