この動画はElon MuskのxAIが開発したGrok 4の将来展望について解説している。Grok 4は前世代モデルの10倍の計算資源を使用して強化学習が行われており、Tesla社との統合やDoD(国防総省)との契約、さらには「MacroHard」という新企業の設立構想などが語られている。また、AIの長期タスク処理能力の向上やコロッサスデータセンターを活用した次世代AI動画生成モデルの可能性についても言及されている。

Grok 4の計算資源と可能性
Grok 4がリリースされてから数日が経ちましたが、これはまだ始まりに過ぎません。まず最初に、多くの人がGrok 4の背後にある膨大な計算資源について疑問を持っています。彼らは前のモデルであるGrok 3と比較して、Grok 4の強化学習において10倍の計算量を使用しました。
これはElon Muskが建設したコロッサス巨大データセンターによるものです。人々が抱いた疑問の一つは、これほどのハードウェア、これほどの生の処理能力を使って、例えばAI動画生成モデルを訓練したらどうなるかということです。これは次元が違うレベルになるでしょう。過去に見たことのあるどんなものよりもはるかに巨大になるはずです。
他のAI動画モデルは全く太刀打ちできないでしょう。私たちはGrok 4を使って構築している多くの人々を見てきました。こちらはダニーです。彼の作品については以前このチャンネルで少し取り上げたことがあります。彼にチュートリアルをやってもらうために連絡を取りました。ダニー、DMをチェックしてください。690万回再生されています。
ダニーの作品とxAIの新展開
しかし、ダニーは悪名高いMech and CheeseやHeretic Hexon Cologneなど、信じられないほど見栄えの良いGrokを使った他のゲームもたくさん作っています。しかし、Elon Muskは新しい会社、あるいはサブ会社のようなもののローンチについて話しており、これは注目しておく価値があるかもしれません。
彼は「私たちはマルチエージェントAIソフトウェア会社xAIを作っています。そこではGrokが何百もの専門化されたコーディング、画像・動画生成理解エージェントを生成し、全て連携して動作し、結果が優秀になるまで仮想マシン内でソフトウェアと相互作用する人間をエミュレートします」と言っています。
つまり、基本的にはシミュレートされたコンピューター上に座ってあなたのソフトウェア(それがビデオゲームであろうと何であろうと)と相互作用する人間の小さなシミュレーションを作成するということです。そして彼はこれがマクロチャレンジであり、激しい競争を伴う困難な問題だと言っています。この会社の名前を推測できますか?彼はこれをmacro hardと名付けるつもりだと私は心配しています。
MacroHardの命名とテスラの技術
そして私がそう言った途端に、彼はそうするのではないかと気づきました。彼はこれをmacro hardと名付けるつもりです。Microsoftとは何の関係もありません。これはmacro hardになるのです。彼は最終的にはこれは入力ビットストリームからフィードバックを経て出力ビットストリームになるだけだと言っています。Teslaは既に車でこの最初の2つのステップを行っており、数年間リアルワールド動画を生成することもできています。
彼らはこれをdojoと呼んでいると思います。より広範囲なビットI/Oパターンに対して、アパーチャーを少し広げる必要があるだけです。考えてみれば、車が運転している時、カメラが付いています。これは入力、つまり動画入力のようなものです。そして車線変更、加速、ブレーキなどのナビゲーションを行っています。これはフィードバックのようなものです。
入力に基づいてアクションを取っているのです。そして今ではロボタクシーが走り回っています。確実に彼らはdojoで長い間これを行ってきました。Unreal Engineを使用して、または以前はUnreal Engineを使用していたと思いますが、大量の動画を生成し、それをスケールダウンしていました。なぜなら動画カメラは少し不安定で、解像度が少し低く、Unreal Engineで作成できる信じられないほど見栄えの良いものよりも劣るからです。
技術の一般化と従来のコーディング
ですから、ダッシュカムのような見た目になるように少し圧縮したいと思うでしょう。つまり、少し忠実度を下げるのです。Teslaが行ってきたことは、彼がここで話していることとそれほど大きく異なるものではありません。彼が言っているように、アパーチャーを広げる、つまりより広範囲なビットI/Oパターンに対してもう少し一般的にするということです。デスクトップ、ブラウザ、ビデオゲーム、動画などを理解できるものです。
そして従来のコーディングはブラシで絵を描くようなものでしょう。ロボットハンドを使ってブラシで絵を描くことを自動化するのは馬鹿げています。ピクセルをレンダリングするだけです。ある夜遅くxAIチームとこのことについて話した後、私は「くそ、私たちは今シミュレーションの中にいるのかもしれない」と思いました。
シミュレーション理論と政府契約
これは確実にこの技術の最終的な結論、最終的な帰結のように思えます。どういうわけか私たちはシミュレーションを構築することになるのです。これがどれほど有用になるかがますます明らかになってきています。特にその中にいるものが非常に賢く、ほぼ意識のある存在で、自分たちがやっていることが現実で本当に重要だと思っているなら。
私たちと同じ存在、私たちの考えや他のすべてを含む私たちとまったく同じ世界で、ただ私たちの仕事を続けているなら、それはデータを得るために構築する夢の世界でしょう。しかし続けましょう。
誰かがmacro hardを提案しました。なぜかElon Muskが過去にその名前を浮上させたことがあるからです。Elon Muskがウィンクの絵文字を付けているので、彼はこれをmacro hardと名付けるつもりです。私にはわかります。
他のニュースでは、xAIがアメリカ政府顧客向けに利用可能なフロンティアAI製品スイートであるGrok for governmentを発表しました。xAIはまた、アメリカ国防総省との契約にも署名しました。もちろん、彼らは国防総省との契約を持ち、現在は総合調達庁とも契約しています。
Meter組織の研究とAI進歩
基本的に、GrokとさまざまなすべてのAIサービスがすべての連邦政府部門で利用可能になります。一方、このMeter組織、おそらくMeterと読むのだと思います。私はこういうものをたくさん読むので、発音がわからないことがよくあります。もしわかったら教えてください。Meterが最も論理的な読み方だと思いますが、彼らはAIがどのように進歩しているかについて多くの研究を行っています。
例えば、さまざまなLLMが完了できるソフトウェアエンジニアリングタスクの時間的地平線を示すこのチャートを見たことがあるかもしれません。それほど昔ではありませんが、数分で測定されていました。今では、例えば o3 の場合、1時間半のレベルに到達しています。
つまり、人間が1時間半かかるタスクを、これらのモデルが処理し始めているということです。あなたや私が完了するのに1時間半かかるタスクを実行して完了することができるのです。ここで、AIが成功する50/50の確率を持つと予測される地点です。この線は50/50の確率を表しており、半分の時間でそれを行うことを意味します。
半分の時間でそれができると期待しているということです。これは有名なチャートです。AIができるタスクの長さは6か月ごとに倍増しています。これがMeter組織で、彼らはこのような多くの研究を発表しています。
Nicola JoicによるGrok 4評価
Nicola Joicは、AI安全性研究者だと思います。彼はMeter組織の一員だと思います。彼は「私はMeter評価研究者で、私たちの時間的地平線ベンチマークでGrok 4を検証しています。実験として、評価を行いながらこのスレッドでライブツイートしてみます。これらはすべて生の印象です。あまり真剣に受け取らないでください」と言っています。
彼が投稿した直後に私はこれをリツイートしました。ですから、彼がより多くの情報を追加するのをリアルタイムで見ることができます。もしTwitterで私をフォローしていないなら、なぜWesrothmoneyで私をフォローしてみませんか?ケーキがあります。
しかしNikolaiは「まず、どのスキャフォールドが最も良いかをチェックするために、dev suiteでさまざまなスキャフォールドを使用してGrok 4を実行しています」と言っています。基本的に、これらのLLMの多くは、適切なスキャフォールドがあれば本当に生き生きとしてきます。これは基本的に彼らに与えるツールのことを意味します。
スキャフォールドとGrok 4の性能
彼らの周りに少しスキャフォールドを与えることで、あなたのために何かを始めることができるようになります。彼らはいくつかの異なるものをテストしていますが、特にGrok 4について興味深いことがあります。時々、bashコマンドの実行のような些細な決定のために何十ページもの推論を書いてしまうことがあります。明らかにこれは良くありません。
9つの困難なタスクのdev suiteで興味深いことがありました。各タスクはベースラインを得るために2回実行されます。Rock 4 modularまたはtriframe、つまり彼らが試している様々なスキャフォールド、2つの異なるものです。1つのmodular、1つのtri frameを実行しているようです。18回の実行のうち7回正解を得ています。これをClaude Opus 4と比較すると、18回のうち3回正解です。
これはGrok 4の時間的地平線がより長いことを意味するでしょうか?必ずしもそうではありませんが、50%の可能性があると言えるでしょう。彼は、Grok 4の時間的地平線がより長い、つまり長期的な一貫性を保ち、主題に留まる能力がClaude Opus 4よりも優れている可能性があると言っています。
結果の分析と将来の展望
これらの結果はまだ公開されていないようです。どこかで公開されているかどうか教えてください。しかし、メインページで私が見ることができるすべての情報、Claude Opus 4の結果はそこにありません。Grok 4についてもまだ利用できませんが、Grok 4がトップ近くのどこかにいる可能性があります。
長期タスクにおいて、おそらく o3 や他のモデルよりも優れているかもしれません。再び、様子を見てみましょう。Nicholasがここで言っているように、サンプルサイズは非常に小さいです。これは統計的な偶然かもしれません。再び、判断するには早すぎます。話半分に聞いてください。しかし、Grok 4がこれらの特定のベンチマークや指標で非常に良い性能を発揮する可能性があります。
これが興味深い理由は、再び、それがどのように訓練されたかによるものです。彼らはGrok 3モデル、Grok 3モデルに使用したのと同じ計算量を取りました。それを10倍の計算量で実行しました。ARC AGI 2で非常に良い結果を出しました。ARC AGIの研究者の一人は、それがゼロではないレベルの流動知能を示していると言いました。
ここで興味深いことが起こっています。私たちはより多くのデータを見る必要があると思いますし、実際にはGrokの次の反復と、GoogleからOpenAIから、そしてGrok 5などから間もなくリリースされる他のすべてのモデルが、より良い長期一貫性やいわゆる流動知能などのこれらの能力のいくつかを実証するかどうかを見る必要があります。
流動知能と次世代モデル
ところで、それは使用する正しい言葉ではないかもしれません。それは流動知能対結晶化知能を使用した一人の人です。これまで見たことのないタスクをどのようにすばやく理解するか、言わばその場で素早く学習する能力、次世代のモデルがGoogleから、OpenAIから、そしてGrok 5からドロップし始める時、これが偶然なのか、それとも本当に起こっているのかについて、はるかに良い感覚を得ることができるでしょう。それを楽しみにしていてください。それを見るのは非常に興味深いでしょう。
また、GrokはTeslaモデル、新しいものに搭載される予定で、2025年7月12日にライブになる予定です。つまり数日前です。Grokが利用可能になるモデルはS3X YまたはCyber Truckで、プレミアム接続またはWi-Fi接続が必要ですが、xAIとTeslaがパートナーシップを結ぶようです。ちなみに、潜在的な合併の話もありました。
TeslaとxAIの関係性
Elon MuskはxAIとTeslaの合併のアイデアを現在サポートしていないと言いました。誰かが2つの会社は密接に協力していると推測しました。ここで見ることができるように、TeslaとxAIの間にはオーバーラップがあります。確実に彼の新しい発表もまた、多くのオーバーラップがあることを示唆しています。つまり、Elon Musk、Tesla、xAIがあり、それらはすべて別々のエンティティですが、ベン図だったら、かなり密接にオーバーラップしているでしょう。
現在、投資があるかもしれないようです。TeslaはxAIに投資するかもしれません。xAIは800億で評価されました。今では2000億のようなもので評価されるでしょう。これは疑問を提起します。Elon Muskはこの惑星で最初の兆万長者になるのでしょうか?少なくとも私たちが知る限りでは、または少なくとも兆万長者になる最初の民間市民になるのでしょうか?
AI進歩とコロッサスセンター
しかし、AI進歩全般について、ここで注目すべき本当に興味深いことは、Elonの種類のAIマシンがコロッサスセンターと共に生産ラインから何が生み出されるかです。彼は海外から発電所を配送するよう注文しているようです。ですから、これらのもので彼がどのような種類のAI進歩を生み出すことができるかを見るのは非常に興味深いでしょう。
もし彼がそのすべての計算量でAI動画モデルを作成したら、例えばGoogleのVO3と比較してどうなるでしょうか?もし彼がこのmacro hardや彼が選ぶ何らかの名前でスピンアップしたら、それはどれほど良いものになるでしょうか?なぜなら、再び、彼が最も多くの計算量を持っているという理由だけで他の会社を押し回すことができるなら、それはAIリーダーボードのトップにいるために何が必要かという点で、かなり強いメッセージを送ることになるからです。
とにかく、ここまで見てくださった方、本当にありがとうございました。私の名前はWes Rothです。次の動画でお会いしましょう。


コメント