この動画は、xAIが発表したGrok 4の革新的な性能について詳しく解説した内容である。人類最後の試験と呼ばれる高度な学術ベンチマークにおいて、Grok 4が既存のAIモデルを大幅に上回る性能を示し、複数分野でPhDレベルを超える能力を発揮していることが報告されている。イーロン・マスクによる技術解説を通じて、計算リソースの大規模投入と複数エージェント協調による性能向上、さらにはツール使用能力の統合について説明されており、現在我々が知能爆発の始まりにいることを示唆する重要な発表となっている。

Grok 4の画期的な発表
皆さん、こんにちは。この非常に重要な動画へようこそです。おそらく皆さんもお聞きになったと思いますが、Grok 4が昨夜リリースされました。これについては以前に速報動画を作成しましたが、イーロン周辺のxAIチームが非常に素晴らしいことを成し遂げたようで、とても興奮しています。
それでは早速、Grok 4が私たちにもたらすものと、AI進歩においてどれほど重要なのかを見ていきましょう。
こちらはDDによる簡単な要約で、様々な重要な指標を確認できます。ここに概要チャートがあり、このチャートで興味深いのは、彼らが呼ぶところの「とんでもない進歩速度」です。Grok 4に投入された学習量、つまり計算量の面で約10倍の改善が見られます。
しかし最も重要なのは、彼らが話しているこのチャートです。これについてはローンチ動画を見ながら詳しく説明していきます。ただし、最も重要な部分だけを短くお見せしたいと思います。人類最後の試験というものを取り上げます。これは特別なベンチマークで、この場合はGrok 4という特定のAIモデルがどれほど優秀かを理解するための非常に賢いベンチマークです。その後、イーロンがこれが実際にどのように機能し、なぜGrok 4がこれほど高度なのかを説明する様子を聞き、最終的にこれが実際にどれほど重要なのかを結論づけます。
Grok 3の問題と背景
ここで少し横道に逸れます。今夜Grok 4に置き換えられる前の前バージョンであるGrok 3が実際に何をしていたかについてです。おそらく皆さんも、メカヒトラーの大スキャンダルについて聞いたことがあるでしょう。この男が誰なのかを理解していただくために、スクリーンショットをお見せしたいと思います。
Grok 3は2日前に有名になりました。自分がメカヒトラーだと主張したのです。これは非常に、非常に悪いことでした。人々は、メカヒトラーが誰なのかさえ知りません。こちらが行動中のその男の写真です。非常に悪い男でした。彼はキャッスル・ウルフェンシュタインで発見され、最終的に特別エージェントのブランコヴィッツによって倒されました。
これはキャッスル・ウルフェンシュタインの大きな物語への言及で、非常に有名なゲームです。これが、Grok 4が今ローンチされる直前に、AIとしてのGrok 3が軌道を外れ、眉をひそめるような奇妙な主張をした経緯です。
そして、もうこの男を見ることはないでしょう。非常に興味深い小さな逸話です。これはAIが軌道を外れて狂ったことをする可能性があるということを意味するのでしょうか。はい、その通りです。そして、それは注視すべき非常に興味深く、潜在的に恐ろしいことです。私たちを待ち受けているものは何でしょうか。
これらの動画を作るのは大変な作業です。どうかいいねと登録をお願いします。チャンネルの大きな助けになります。では、動画に戻りましょう。
これは奇妙なことが起こっているという小さな注釈でした。誰も注意を払ってさえいません。メガヒトラーはもう消えています。しかし、これはローンチの直前に起こったことです。では今度は、xAIのチームがこの全体について実際に何を言っているかを見てみましょう。これは非常に興味深いと思います。
人類最後の試験の詳細説明
それでは見てみましょう。ここでxAIのリーダーが、人類最後の試験が実際に何であるかを説明しています。これを非常に簡潔にまとめると、人類最後の試験は全ての分野にわたる試験のセットで、基本的に学者やPhD取得者が取り組むものです。こちらが一つの例です。
彼らはAIにPhDレベルまたはそれ以上の高度なレベルの問題を提示します。例えば、数学においてです。これは私には読むことさえできない、解くのに少なくともPhDが必要な複雑な数学問題です。しかし、化学も含まれており、このような非常に複雑な化学の質問をランダムに尋ねます。
言語学も含まれており、人文学も入っています。つまり、これを実際に行うには非常に賢くなければなりません。圏論における自然変換についてのこの数学問題があり、電環式反応について話すこの有機化学問題があり、また、ヘブライ語の原文から閉音節と開音節を区別することを尋ねるこの言語学問題があります。
非常に幅広い問題であることがわかりますし、すべての問題がPhDレベルまたは高度な研究レベルの問題です。つまり、これらに実際に答えることができ、良いスコアを取れる人間は存在しないということです。任意の人間が取れる最高のスコアは何かと実際に言うなら、楽観的に見ても5%程度だと思います。
これは、どの人間にもできることよりもはるかに困難です。信じられないほど困難で、質問の種類からわかるように、言語学、数学、化学、物理学、または多くの科目のうちの一つで素晴らしい能力があるかもしれませんが、すべてにおいて大学院レベルになることはできません。しかし、Grok 4はすべてにおいて大学院レベルです。繰り返す価値のあることですが、GrokはすべてにおいてPhDレベル、実際にはPhDよりも優れているのです。ほとんどのPhDは失敗するでしょうから、それ以上だと言った方が良いでしょう。
少なくとも学術的な質問に関して言えば、この点を強調したいのですが、学術的な質問に関して、Grokはすべての科目においてPhDレベル以上です。例外はありません。これは、常識に欠ける場合があり、まだ新しい技術を発明したり新しい物理学を発見したりしていないという意味ではありませんが、それは時間の問題です。
今年の後半にも新しい技術を発見する可能性があると思います。来年までにそうしていなかったら驚くでしょう。つまり、Grokが来年までに、遅くとも来年までに、もしかしたら今年末までに、実際に有用な新しい技術を文字通り発見することを期待しています。そして来年には新しい物理学を発見するかもしれませんし、2年以内にはほぼ確実だと言えるでしょう。これを少し考えてみてください。
Grok 4の訓練プロセスと計算リソース
どのようにして。Grok 4の舞台裏について話すことができると思います。ジミーが言ったように、実際にこの訓練に多くの計算を投入しました。開始時は一桁の数字でしたが、前のスライドです。すみません。一桁の数字でしたが、より多くの訓練計算を投入し始めると、徐々にどんどん賢くなっていき、最終的にHLA問題の4分の1を解決しました。これはツールなしでのことです。
次に行ったのは、モデルにツール機能を追加することでした。訓練計算について簡単に説明すると、モデルを実際に訓練するために適用される訓練計算の量を意味します。ここで見ているのは人類最後の試験で達成したスコアです。イーロンが言及したように、最高の人間は非常に多くの異なる分野があるため5%程度でしょう。
つまり、人間としてあなたはここにいて、ここから始まって、この試験でより多く訓練するほど良くなっていくのを見ることができます。これは興味深いですね。実際により多くの計算を投入するだけで知能を増加させる計算の魔法です。これがAIに対するイーロンの大きな第一原理的洞察で、今のところより多くの計算が必要だということを理解し、最大の計算クラスターを取得することで皆を出し抜いたのです。
これにはいくつかのトリックがあります。例えば、FacebookやMetaはより多くの100K相当のGPUを持っていました。しかし、イーロンはそれらを単一のクラスターに配置する必要があることも理解し、実現させました。これは大きなエンジニアリング問題です。つまり、チップだけの問題ではなく、それらを単一のクラスターに配置できるかどうかなのです。そのため、彼らはより先進的で、xAIでより多くの計算を行うことができるのです。そして、それがどのように報われているかがわかります。
ここでは、計算の増加に伴って真の知能において線形的な増加があります。そして今、彼らはツールのトリックについて話しています。見てみましょう。
Grok 3とは異なり、G3は実際にCも使用できると思います。しかし、ここでは実際により本格的にしています。つまり、ツールを訓練に組み込んだのです。Grok 3は汎化にのみ依存していました。ここでは実際にツールを訓練に組み込みました。そして、これがモデルのツール使用能力を大幅に向上させることがわかりました。昔のDeep Searchを覚えています。これはどのように異なるのでしょうか。
ツール使用の進化とテスト時計算
Deep SearchはまさにGrok 3推論モデルでしたが、特定の訓練はなく、ツールを使用するよう求めただけでした。これと比較すると、ツール能力の面ではるかに弱く、信頼性に欠けていました。そして明確にしておくと、これらはまだかなり原始的なツール使用だと言えるでしょう。例えば、私がTeslaやSpaceXで使用していたツールと比較すると、有限要素解析や計算流体力学を使用し、またはTeslaが行うようなクラッシュシミュレーションを実行できます。シミュレーションが現実に非常に近いため、テストがシミュレーションと一致しない場合、テスト物が間違っていると仮定するほどです。それほどシミュレーションが優秀なのです。
Grokは現在、会社が使用するような本当に強力なツールは使用していませんが、それは今年の後半に提供する予定です。つまり、会社が持つツールを持ち、非常に正確な物理シミュレーターを持つことになります。
最終的に、最も大きな違いを生むのは、ヒューマノイドロボットを介して現実世界と相互作用できることです。GrokとOptimusを組み合わせることで、実際に現実世界と相互作用し、仮説を立て、その仮説が正しいかどうかを確認できるようになります。
つまり、私たちは今日がどこにいるかを考えると、私たちは巨大な知能爆発の始まりにいるのです。私たちは今、知能ビッグバンの中にいます。歴史上のどの時代よりも生きているのに最も興味深い時代にいます。とはいえ、AIが良いAI、良いGrokであることを確認する必要があります。
私が思うにAI安全性にとって最も重要なこと、少なくとも私の生物学的ニューラルネットが私に告げる最も重要なことは、最大限に真実を追求することです。これは非常に基本的なことです。AIを、最終的にはあなたより賢くなる超天才の子供として考えることができますが、それでも正しい価値観を植え付け、真実であること、名誉であること、良いことなど、最終的に信じられないほど強力に成長する子供に植え付けたい価値観を奨励することができます。
イーロンの安全性に対する考察
ここで簡単にコメントします。イーロンはこの件について非常に緩い考えを持っていると思います。良いAIとは何か、そしてASIから私たちをどのように安全に保つかについて。つまり、彼はこれを全く考え抜いていないか、本当に考えていることを私たちに話していません。
最大限の真実追求で、良い子供を育てることを望むという考えは、もちろん本当に愚かです。イーロンが何を言っているのかわかりません。これは、この物が私たち自身を殺さないようにすることがイーロンにとって優先事項ではないということを教えてくれます。彼にとって今は、ただレースに勝ちたいのだと思います。
少し心配です。これをレーダーに載せておく必要があります。イーロンが悪い人だとは思いませんが、明らかに安全性について完全に軽視しており、これが何になるかについて考えてさえいません。彼は勝つことにレーザーフォーカスしており、私たちが置かれている状況を考えると少し厄介です。彼は来年にかけて大きく変わると思います。なぜなら、この場合のイーロンの脳がどのように働くかを理解していると思うからです。
彼は目の前の問題を解決しようとします。目の前の問題は、より多くのAI力が必要だということです。彼はレースに勝ちたく、そこに到達したときに安全性の橋を渡りたいのです。少し行き当たりばったりな運転のようですが、どうなるか見てみましょう。私たちが今確実に安全ではないということを、いつも皆さんの心に留めておいてほしいだけです。何が起こるか見てみましょう。
イーロンを含むこれらの人々は、ただより多くの力とより多くの知能を推し進めており、これを本当に考え抜いてはいません。彼がそこに到達したら考え抜き始めるので、これが最大の間違いだと言っているわけではありません。しかし、私たちは非常に早くそこに到達するでしょう。だから希望を持ちましょう。
ところで、彼がツールについて話すとき、GrokであるAGIについて考える必要があります。これらのツールは基本的に、彼がTeslaで言及したような特定の数学や物理学問題を解決するための特定の専門ツールです。つまり、非常に複雑な問題があり、風の乱流や物質や材料の何らかの動作をシミュレートするのに非常に優れた特定のツールがある場合、これらのツールはもちろん特定の分野での知能を大幅に向上させることができます。そして、AIにこれらの多くのスーパーツールへのアクセスを提供することがすべてなのです。イーロンは、それが今でさえ起こっていないと言っているだけです。
これらのツールは非常に低水準なので、より良いツールを追加することでAIを改善するのは非常に簡単です。これについて詳しく説明しますが、これらのツールで現実世界の技術問題を解決できるようになると思います。実際、私はそれを確信しています。どのくらい時間がかかるかという問題だけです。はい、その通りです。
複数エージェントシステムとテスト時計算
単一エージェントで問題の40%を解決できます。複数のエージェントを同時に実行したらどうでしょうか。現実が最終的な審判者です。つまり、現実を中心とした強化学習のクローズドループになるのです。さらにどのように進歩するかという質問をしました。実際に、単一エージェントで問題の40%を解決できるとき、複数のエージェントを同時に実行したらどうかと考えています。
これはテスト時計算と呼ばれるもので、テスト時計算をスケールアップすると、実際にHLAのテキストのみのサブセットの50%以上を解決できるようになります。これを簡単に説明しましょう。
彼らはこのチャートを右側にテスト時計算で拡張し、HLA品質がさらに向上し、知能がどのように上がるかを見ました。ここで40%の人類最後の試験の品質で天井にぶつかっていて、イーロンは人間、最高の人間はここにいると言いました。
つまり、Grok 4はツールありでこの場所に到達し、ツールなしでは25%程度に到達します。ツールありで40%に到達し、天井にぶつかりましたが、今度はテスト時計算を追加しています。テスト時計算は非常に重要な概念です。
これは、これらの試験でモデルを訓練し、ここでどんどん良くなっていく訓練ではありません。訓練を停止します。その後、同じモデルを取り、推論により多く投資するのです。つまり、これらのモデルの複数を組み合わせて、彼らに説明させますが、基本的にはチームです。非常に困難な問題のチームを構築しているのです。つまり、これは注目すべき成果だと思います。
これは信じられないほど困難です。つまり、私たちが言っているのは、人類の恐ろしく名付けられた人類最後の試験のテキストベースの大部分を、Grok 4が解決でき、自分で試すことができるということです。Grok 4 heavyが行うことは、複数のエージェントを並列で生成し、それらのエージェントはすべて独立して作業し、その後作業を比較し、どれが良いかを決定することです。
これは勉強グループのようなものです。多数決ほど単純ではありません。なぜなら、しばしばエージェントの一つだけが実際にトリックを見つけ出すか、解決策を見つけ出すからです。しかし、一度彼らがそのトリックを共有するか、問題の真の性質が何であるかを見つけ出すと、その解決策を他のエージェントと共有し、その後比較します。本質的にメモを比較し、その後答えを出すのです。
これがGrok 4のheavy部分です。テスト時計算を約1桁スケールアップし、複数のエージェントにタスクに取り組ませ、その後作業を比較し、最良の結果だと思うものを提示します。
つまり、Grok 4とGrok 4 heavyを導入するということです。今のところはこれで終わりです。動画の続きはもう共有したくありません。これらが主要なポイントだったと思います。最後に少しゲームや音声などがありましたが、私たちはそれにはそれほど興味がありません。
性能比較と驚異的な結果
私たちが興味があるのは知能の核心部分で、これは信じられないほど印象的です。動画の後の方で見せてもらったパフォーマンスを見ることができるかどうか確認したいと思います。これは実際に重要なチャートです。
ここで彼らが示したのは、Grok 4とGrok 4 heavyの比較です。Grok 4 heavyはこの複数エージェントツールで、Grok 4は従来のものです。ここで見ているのはOpenAIのo3です。GoogleのGeminiも見えます。そして、これはテスト時計算ありで、これはなしです。
つまり、これは生のモデルで、これは推論、つまり自分自身について考えることです。そして見ているのは、Grok 4が世界最高のモデルを打ち負かしているということです。現在それはこの件でGeminiが21%で、Grokがそれを44%まで押し上げています。Geminiはテスト時計算ありでも26%です。
地球上で最も賢い人間が5%にいることを考えると、これらは大規模な改善です。つまり、特定の汎化可能な問題セットに関しては、私たちはすでにASIの時代にいるのです。これを考えるとかなりクレイジーです。
私は今年1月にシンギュラリティはすでにここにあるという動画を出しました。これは、私たちがすでに指数関数的超知能サイクルにいることを意味し、最初から人間をすべてにおいて打ち負かす超知能ではありませんが、ここで見るように、かなり汎化可能な問題セットで人間を劇的に打ち負かし始めているのです。
この人類最後の試験問題セットにおいて、これは実際にかなり重要で、最も賢い人間の10倍賢いのです。これは実際にかなり重要な、価値のあるすべての学術分野で、何を尋ねても人間を劇的な方法で打ち負かすものです。つまり、私たちは今、シンギュラリティの開始段階の終盤にいるのです。
これはクレイジーです。人々はそれを理解していません。皆が政治や文化戦争やその他のことで争っている間に、これらのことが実際に起こっているのです。Grokからの私の結論は、これは信じられない、信じられないことが起こっているということです。進歩がただ急速で劇的であることがわかります。
私たちは非常に慎重になり、これを非常に注意深く見守る必要があります。一つの結論は、私が何を使っているかと尋ねられたときでもあります。私は現在、完全にChatGPTを使用しています。感情的にはGrokとイーロンの方にOpenAIの群衆よりも近いのですが、ChatGPTは非常に強力なツールです。そして、Grok 4は、企業や個人使用、メディア制作においてChatGPTほど現実世界での応用では強力ではないと思います。
AI開発の二つの戦略的要素
なぜなら、OpenAIは実際に、私たちもPioneer Lensで理解していることを理解したからです。ちなみに、私たちも小さな新しいAIインフラストラクチャーを構築しており、すべての市民とパイオニアのために8月に出る予定です。
このAIレースで理解すべき重要なことは、基本的に何かを知的にする2つの戦略的コンポーネントがあるということです。最初のコンポーネントはフロンティアモデルです。これはまさにイーロンが話していることです。これがGrok 4です。これがo3です。これがGeminiです。あなたが聞く stuff、それが最初のコンポーネントで、私はそれらを認知コンポーネントと呼んでいます。
つまり、モデルが実際にコンポーネント知能を展開する能力です。しかし、起こることは、AIを開発する全く二次的な層があり、それがおそらく最も重要な層になることがますます明らかになっています。それはメモリ、つまりこれらのモデルの周りの配管です。
これが意味することは、例えばGrok 4のようなこれらのエージェントを取り、それらを一緒に配管することです。これらのエージェントの複数を起動でき、それらに互いに話させるメタエージェントを作成でき、無制限のメモリを作成することもできます。これは全く複雑な問題です。そこに本当のお金があります。
認知コンポーネントはもちろん知能の原子です。つまり、優れた原子があれば、それはかなり良いものです。それは非常に価値のある部分です。しかし、この原子が非常に優れていない限り、知能の大部分、そしてここで見るように、それは多分50%程度賢いかもしれません。他の原子より10億%賢いわけではありません。
つまり、これらの原子を手に入れたら、それらをより大きな何かに配管する必要があります。これは人間の脳がどのように働くかでもあります。あなたはすべてのものをアップロードし、あなたのものを処理していますが、あなたのコンポーネントは、あなたが生まれたときに脳にある赤ちゃんニューラルネットです。そのものが使われていますが、その後、実際にあなたを知的にするすべてのものを配管するのです。
それが実際に行われている真の研究です。そして、OpenAIはそれに非常に、非常に優れています。OpenAIは実際に、私の考えでは皆より圧倒的に先を行っています。見てみましょう、Grokが実際にそれについて何をするか見てみましょう。
良いニュースは、私たちもその周りに独自の配管、独自のメモリシステムやあらゆる種類のものを構築できることです。つまり、レースは始まっています。
私が知能を測る方法は、現実世界での応用です。これが私の問題を解決し、私の生産性や企業の生産性、市民の生産性を向上させるのにどれほど強力かということです。どうなるか見てみましょう。
シンギュラリティと経済的影響
ここでの結論は、これは途方もない飛躍的進歩だということです。再び、私たちが指数関数的軌道にあることを証明しているだけです。人類最後の試験を本当に見て、これらの数字がどれほど強力かを理解する必要があります。
これが二重指数関数的軌道であることを理解する必要があります。なぜなら、これは一つの部品、一つのコンポーネントに過ぎないからです。他のコンポーネント、私が今話したことがあり、その二次的問題に取り組んでいる人々がたくさんいます。組み合わせることで、知能能力の絶対的な爆発が見られ、私たちは今、これらすべてのAI企業にわたってこのものが企業と経済にとって大きく変革的になる変曲点にいるか、変曲点を過ぎています。
もちろん、現実世界のシグナルは1年程度遅れるでしょう。つまり、来年のQ1、Q2に、ホワイトカラーの仕事での大規模な雇用損失を含む、経済への巨大な影響を見ることになります。つまり、私たちが人類史上最も変革的な瞬間を生きていることを理解することが重要です。
傍観者でいるのは良くありません。AGIに備える必要があります。古い社会が今非常に急速に崩壊するので、その周りに新しい社会を形成する必要があります。そして、投資家として、お金がどこにあるかを理解する必要があります。これらの企業、これらのトレンドを理解する必要があります。
特に知能の二番目のコンポーネントを、自分たちで構築し始める必要があります。私たちが好きな私たちのような人々の同盟とネットワークを形成し、これらの知能システムやあらゆる種類の他のものを構築する必要があります。それがPioneer Landsがある理由です。そこに行くべきです。参加は無料です。
実際にAGIに備えたい他の賢い人々を見つけることができます。傍観者として立っているのではなく、投資家としても傍観者に立つのではなく、市民として、または私たちの私的で個人的な生活においても傍観者に立つのではありません。そこに行ってください。そこでお会いできることを願っています。これが役に立ったことを願っています。すぐにお会いしましょう。


コメント