Grok 4がついに登場!最高のAIなのか?(ライブストリーム反応動画)

イーロンマスク・テスラ・xAI
この記事は約37分で読めます。

この動画は、xAIが発表したGrok 4の公式ライブストリーム発表会を視聴しながらの反応動画である。Grok 4は従来のGrok 2から大幅にアップグレードされ、100倍の学習計算量を投入して開発された次世代AI推論モデルである。特に注目すべきは、Humanities Last Examという極めて困難なベンチマークテストで27%のスコアを達成し、さらにツール使用機能を追加することで50%以上まで向上させた点である。また、強化学習に大量の計算リソースを投入し、複数エージェントが協力して問題解決を行うGrok 4 Heavyも同時リリースされた。リアルタイムデータ検索、X(旧Twitter)との統合、音声モードの改善、API提供開始など、多方面での機能強化が発表されている。

Grok 4 is HERE! and it's the best? (Livestream Reaction)
The xAI team went live on x showing off Grok 4's new capabilities and the results are mind-blowing to say the least!Down...

Grok 4ライブストリーム視聴開始

よし、一緒にGrok 4のライブストリームを見ていきましょう。もうすでに1時間以上遅れています。私は超疲れています。夜遅いですからね。一緒に見ていきましょう。とにかく、他にやることもありませんし。そうそう、このチャンネルを購読するのを忘れないでくださいね。Grok 4を徹底的にテストする予定です。Grok 4に関する動画を複数本出す予定です。

だから改めて、購読してそれらの動画をお待ちください。Grok 4がもしSATを受けたとすると、これまでに見たことのない問題であっても毎回完璧な点数を取るでしょう。さらにそれを超えて、GREのような大学院生の試験においても、教育のあらゆる分野で完璧に近い結果を出すでしょう。

人文学から言語学、数学、物理学、工学まで、何でも選んでください。これまでに見たことのない問題について話しているのです。これらはインターネット上にはありません。そしてGrok 4は、すべての分野において同時に、ほぼすべての大学院生よりも賢いのです。

そうですね、彼は汎化について話していますが、これは主要なモデルでは実際にはあまり見られていません。しかし、どうやらGrok 4はそれができるようです。

これらの最先端モデルで実際に汎化が起こっているかどうかについて、多くの議論がありました。よし、続きを見ていきましょう。

これは実際に重要なことを理解することなのです。それは本当にすごいことです。そしてGrokの推論能力は信じられないほどです。

AIは推論できないと考える人たちがいますが、見てください、超人的なレベルで推論できるのです。そうです、率直に言って、ここからはさらに良くなるだけです。それではGrok 4のリリースについてご案内し、ここでの進歩のペースをお見せしましょう。

最初の部分として、トレーニングの観点から、Grok 2からGrok 3、Grok 4へと進んでいます。各段階で基本的にトレーニングを1桁増やしています。

つまり、Grok 2の100倍のトレーニングということです。そしてそれはさらに増加する予定です。率直に言って、ある意味で少し恐ろしいですが、ここでの知能の成長は驚くべきものです。

トレーニング手法の進化

ここで理解しておくべき重要なことは、トレーニング計算には2つのタイプがあるということです。一つはGrok 2からGrok 3までの事前トレーニング計算です。しかし、Grok 3からGrok 4については、実際に推論とRLに多くの計算を投入しています。

そして、あなたがおっしゃったように、これは文字通り最も急速に進歩している分野であり、今日の基準から見ると、Grok 2は高校生のようなものです。

過去12か月を振り返ると、Grok 2は単なる概念でした。12か月前にはGrok 2すらありませんでした。そしてGrok 2をトレーニングすることで、初めて事前トレーニングを拡張したのです。データアブレーション、インフラ、そしてアルゴリズムを非常に慎重に行えば、実際に事前トレーニングを10倍ほど大幅に押し上げることができ、最高の事前トレーニングベースモデルを作ることができることを実現しました。そのために私たちは世界のスーパーコンピューターColossusを10万台のH100で構築しました。

そして最高の事前トレーニングモデルができ、これらの検証可能な成果報酬を収集できれば、実際にこのモデルを最初の原理から考え始め、推論し、自分自身の間違いを正すようにトレーニングできることを実現しました。そこからGrokの推論が生まれました。

そして今日、私たちは問いかけました。20万台のGPUを持つColossusの拡張をすべて強化学習に投入し、他のあらゆるモデルの10倍の計算を強化学習に投入したらどうなるのかと。

そうですね、検証可能な報酬を持つ強化学習のようなデータセットを持つのは本当にエキサイティングです。

このチャンネルをご覧になっていれば、私がこれについて何度も話しているのを聞いたことがあるでしょう。そこが彼らが拡張した部分です。Grok 2からGrok 3までは事前トレーニングがすべてでした。Grok 3からGrok 4までは、ポストトレーニング、強化学習がすべてです。そして彼らは大幅に拡張しました。結果がどうなるか見てみましょう。

Humanities Last Examベンチマーク

それでは、Grokがどれほど賢いかについて話しましょう。Humanities Last Examと呼ばれるベンチマークについて話すことから始めることができます。このベンチマークは非常に挑戦的なベンチマークです。すべての問題は分野の専門家によって厳選されています。合計2500問で、数学、自然科学、工学、そして人文科学の多くの異なる分野で構成されています。

基本的に、今年の初めに最初にリリースされたとき、実際にそこにあるほとんどのモデルはこのベンチマークで一桁の精度しか得られませんでした。

それらの例のいくつかを見ることができます。カテゴリー理論における自然変換についての数学問題があり、電子環式反応について話す有機化学問題があり、そしてヘブライ語のソーステキストから閉音節と開音節を区別することについてあなたに尋ねる言語学問題があります。

ご覧のように、これは非常に幅広い問題範囲であり、すべての問題が博士レベルまたは高度な研究レベルの問題です。

これらの問題に実際に答えることができ、良いスコアを得ることができる人間はいません。これは人間ができることよりもはるかに困難です。信じられないほど困難で、言語学や数学や化学や物理学などの質問の種類から見ることができます。

Humanities Last Examは間違いなくそこにある最も困難なベンチマークです。ARC AGI賞も同様に非常に困難ですが、非常に異なります。しかし、これらの問題は狂気的です。この分野のリーダーたちとそのチームがこれらの問題を解決するのにかかります。これらは人類にとっての最先端知識の問題です。そして他の最先端モデルは、彼らが言ったように、実際に一桁パーセントの成功率しか記録していません。

うまくいけば、彼らはGrok 4がそれにおいて大幅な改善を示すことを示すでしょう。しかし、改めて、私たちは今ただ待っているだけです。

言語学や数学や化学や物理学、あるいは多くの分野のいずれかで信じられないほどの能力を持つかもしれませんが、すべてにおいて大学院レベルにはならないでしょう。そしてGrok 4はすべてにおいて大学院レベルです。

そうですね、それが鍵ですよね。この特定の数学分野の数学の専門家は誰であろうと、これらの問題を解決するのに長時間かかるでしょうし、化学や言語学や他の分野の専門家でもないでしょう。しかし、どうやらそれがGrokになる予定のもののようです。

これらのことのいくつかは繰り返す価値があります。Grok 4は大学院、博士レベルのすべてのものにおいて、博士よりも優れています。しかし、ほとんどの博士は失敗するでしょう。少なくとも学術的な質問に関して、Grok 4はすべての分野において博士レベルよりも優れていると言った方が良いでしょう。例外はありません。

さて、これはそれが常識に欠けることがあり、まだ新しい技術を発明したり新しい物理学を発見したりはしていないということを意味しませんが、それは時間の問題です。

興味深いですね。つまり、彼は新しい科学をまだ発見していないと言いましたが、他のプロジェクトは発見しています。GoogleのAlpha Evolveがあり、これは実際にGoogleのすべてのサーバーでアルゴリズムを改善する新しい方法を発見しました。Sakana AIのAI scientistのプロジェクトがあり、新しい研究を提出し、実際に論文が承認され受け入れられました。だから、Grok 4がそれをしていないと聞くのは興味深いですが、彼はそれが避けられないと言いました。

今年の後半には新しい技術を発見する可能性があると思います。そして来年までにそれをしていなかったら私は驚くでしょう。明らかに、イーロン・マスクのタイムラインは今夜のライブストリームのように必ずしも実現するとは限りません。

そして来年は新しい物理学を発見するかもしれません。2年以内に、ほぼ確実にそうなると思います。だから、それをよく考えてみてください。

なんてことだ。ちょっと一時停止します。この人たちがどれほど気まずそうに見えるかを見てください。私には彼らが超誇らしげに見えるのか、それとも「ああ、神様、彼はこんなことを言っているのか?今度は私がその約束を果たさなければならない」と思っているのかがわかりません。

Grok 4の舞台裏

さて、Grok 4の舞台裏について話すことができると思います。Jimmyが言ったように、私たちは実際にこのトレーニングに多くの計算を投入しています。

始まったとき、それは一桁の数字でしたが、申し訳ありません、前のスライド、すみません。それは一桁の数字でしたが、より多くのトレーニング計算を投入し始めると、徐々により賢くより賢くなり始め、最終的にHLE問題の4分の1を解決しました。それは本当に良いです。

残念ながら、トレーニング計算の増加がどれほどだったかを示すx軸の数字がありませんが、線形だとしましょう。そしてここにあります。彼らがより多く追加するにつれて、トレーニング計算全体で約27%まで素晴らしい増加があったのがわかります。つまり、これはHumanities Last Exams問題の4分の1以上を解決したということです。これはツールなしです。

次に私たちがしたことは、わあ。それから彼らはツールを与えました。だから私はそれがウェブ検索やメモリやその他のもののようなものだと推測しています。

モデルにツール機能を追加することを見てみましょう。Grok 3とは異なり、Grok 3は実際にCも使用できると思いますが、ここでは実際にそれをより本来的にします。つまり、ツールをトレーニングに組み込むのです。Grok 3は汎化にのみ依存していましたが、ここでは実際にツールをトレーニングに組み込み、これがそれらのツールを使用するモデルの能力を大幅に改善することがわかりました。

昔のディープサーチのようなものがあったのを覚えていますが、これはどう違うのでしょうか。

はい、その通りです。ディープサーチはまさにGrok 3推論モデルでしたが、特定のトレーニングなしで、単にそれらのツールを使用するように頼んだだけでした。だからこれと比較すると、ツール機能の面ではるかに弱く、信頼できませんでした。

そして信頼できませんでした。はい。

そして明確にするために、これらはまだ、Teslaで使用されているツールやSpaceXで使用されているツールと比較すると、かなり原始的なツール使用だと言えるでしょう。有限要素解析や計算流体力学を使用しており、Teslaがクラッシュシミュレーションのように実行できるのです。シミュレーションが現実に非常に近いため、テストがシミュレーションと一致しない場合、テスト記事の方が間違っていると仮定するほどです。それほどシミュレーションが優秀なのです。

だから、Grokは現在、企業が使用するような本当に強力なツールは使用していませんが、それは今年後半に提供する予定のものです。企業が持つツールを持つことになるでしょう。

そして非常に正確な物理シミュレーターを持つでしょう。最終的に最大の違いを生むのは、ヒューマノイドロボットを通じて現実世界と相互作用できることです。

現実世界との相互作用

つまり、GrokとOptimusを組み合わせることで、実際に現実世界と相互作用し、仮説を立て、その仮説が真か偽かを確認できるようになります。だから私たちは本当に、今日私たちがいる場所について考えてください。私たちは巨大な知能爆発の始まりにいます。

彼は知能爆発という言葉を言いました。知能ビッグバンの中にいるのです。

そして私たちは歴史上のどの時代よりも最も興味深い時代に生きています。

さて、そうは言っても、AIが良いAIであることを確認する必要があります。良いGrokです。そしてAIの安全性にとって最も重要だと思うことは、少なくとも私の生物学的ニューラルネットが私に告げる最も重要なことは、AIが最大限に真実を追求することです。

これは非常に基本的なことです。AIをこの超天才の子供として考えることができ、最終的にはあなたより賢くなりますが、正しい価値観を植え付け、真実であること、わからない、名誉あること、良いこと、子供に植え付けたい価値観、成長して最終的に信じられないほど強力になる子供に植え付けたい価値観を奨励することはまだできます。

それがうまくいくことを願っています。

そのようにはうまくいかない可能性は常にあります。あなたやすべての人間よりもはるかに賢いこの機械があるとき、モデルに植え付けた道徳、名誉が超人的知能になった時点を過ぎても持続するとは何が言えるでしょうか。だから、それは未解決の問題です。彼が正しいことを願います。AI コミュニティが正しいことを願います。わかるでしょう。

ツールとトレーニング計算

これらは本当に私たちがツールと言っているものですが、これらはまだ原始的なツールであり、深刻な商業企業が使用するような種類のツールではありません。しかし、私たちはそれらのツールを提供し、それらのツールで現実世界の技術問題を解決できるようになると思います。実際、私はそれを確信しています。どれくらい時間がかかるかという問題です。

はい。その通りです。

では、この時点で必要なのは計算だけですか、Tony?この時点で必要なのは計算だけですか?

計算プラス適切なツールが必要です。

そして最終的には物理世界と相互作用できることです。さて、物理世界との相互作用は興味深いです。彼は今夜それを何度か言及しており、正直なところ、私はそれについてそれほど多く考えていませんでした。

X AIが持っているすべてを持っている他の企業はそれほど多くありません。X AIには自動運転車を持つTeslaがあります。彼らはヒューマノイドロボットを構築しています。x.comデータセットを持っており、それは汚いですが巨大です。計算機能を持つColossusがあります。だから彼らは本当に突破して超知能を持つために必要なすべての材料を持っています。

実際、私たちは効果的に、最終的には現在の経済の数千倍、あるいは数百万倍大きい経済を持つことになるでしょう。

カルダシェフスケールの完成パーセンテージとして文明を考えると、カルダシェフ1は惑星のすべてのエネルギー出力を使用し、カルダシェフ2は太陽のすべてのエネルギー出力を使用し、3は銀河のすべてのエネルギー出力を使用します。

カルダシェフスケールと文明の未来

私たちは私の意見では、カルダシェフ1の10%に近いというよりは、おそらく1%に近いところにいます。だから、カルダシェフ1の1%か2%くらいでしょうか。

だから私たちはカルダシェフ1の80%、90%のほとんどの道のりまで到達し、そして文明が自己破滅しなければ、カルダシェフ2に到達することを願います。文明が進歩し続けると仮定すると、人間経済の実際の概念は回想的に非常に趣のあるものに見えるでしょう。

回想的には、未来が保持するものと比較すると、火に棒を投げ込む洞窟人レベルの経済のように見えるでしょう。

とても興奮します。時々、これは私たち自身よりもはるかに優れた知能が創造されるということで、少し不安になることがあります。

これは人類にとって悪いことなのか良いことなのでしょうか?良いことだと思います。おそらく良いことでしょう。はい。

すみません。戻って、彼が本質的に人類の絶滅と人類の無限の豊かさのバランスについて話しているその顔をもう一度見てみましょう。

データボトルネックの課題

計算以外に私たちがまだ解決する必要がある技術的問題の一つは、データ、データのボトルネックをどのように解決するかです。RLを拡張しようとするとき、この場合、私たちは実際に多くの新しい技術革新を発明して、取り組むべき多くの挑戦的なRL問題をどのように見つけるかを理解できるようにしました。

問題自体が挑戦的である必要があるだけでなく、モデルに「あなたは間違いをした」「あなたは正しかった」と伝える信頼できる信号も必要です。これが強化学習の原理です。

今、私が先ほど言及したように、検証可能な解決策を持つ問題の無限の量はありません。もしそれを持っていて、それを拡張できれば、それは信じられないほどで、これらのモデルはとても良くなるでしょう。しかし、改めて彼が話していて、彼が話し続けるように、私たちはそれを持っていませんでした。彼らはより多くを生成し、より多くを発見し、実際に世界の問題を検証する方法を見つける必要がありました。聞いてみましょう。

モデルがより賢くより賢くなるにつれて、クールな問題や挑戦的な問題の数はますます少なくなります。

現実テストの重要性

だから、計算以外に私たちが乗り越える必要がある新しいタイプの挑戦になるでしょう。

はい。私たちは実際にAIに尋ねる実際のテスト問題がなくなっています。だから、人間にとって途方もなく困難でなければ本質的に不可能な途方もなく困難な質問でさえ、書き下ろされた質問はAIにとって急速に些細なものになっています。

しかし、物事の優れた判定者である一つのものは現実です。物理学が最終的に法則であり、他のすべては推奨事項だからです。物理学を破ることはできません。だから、AIが究極の推論テストかどうかの究極のテストは現実だと思います。

はい。

だから、車やロケットの設計を改善したり、新しい薬を作ったりする新しい技術を発明し、それが機能するかどうかです。

ロケットは軌道に到達するでしょうか?車は走るでしょうか?薬は効くでしょうか?どのような場合でも。現実がここでの究極の判定者です。だから、現実を中心とした強化学習の閉ループになるでしょう。多くの前置きがありました。

実際のテストにもっと取り組みましょう。実際、私たちは今、単一エージェントで、40%の問題を解決できると考えています。同時に複数のエージェントが実行している場合はどうでしょうか?これはテスト時間計算と呼ばれるものです。そして、テスト時間計算を拡張すると、実際にHLE問題のタクソンサブセットの50%以上を解決できます。だから、それは驚くべき成果だと思います。

テスト時間計算と複数エージェント

これは、これは狂気的に困難です。これらは、つまり、私たちが言っているのは、人類の恐ろしい名前の人類最後の試験のテキストベースの過半数をGrok 4が解決できるということです。そしてあなた自身で試すことができます。Grok 4 Heavyが行うことは、複数のエージェントを並列で生み出し、それらのエージェントはすべて独立して作業し、その後彼らの作業を比較し、どれが最適かを決定することです。それは研究です。

それは私のテスト時間計算の理解ではありません。それは通常、pass at Kのようなものを見るときです。つまり、それは多くのエージェントを起動し、推論を実行し、その後結果を比較したということです。テスト時間計算の私の理解ではありません。だから、おそらく彼は言い間違えたか、私が誤解していたのかもしれません。わかりません。コメントで教えてください。

そして、それは単純な多数決ほど単純ではありません。なぜなら、しばしばエージェントの一つだけが実際にトリックを理解したり、解決策を理解するからです。しかし、一度彼らがトリックを共有したり、問題の真の性質が何であるかを理解すると、彼らはその解決策を他のエージェントと共有し、その後比較します。彼らは基本的にメモを比較し、その後

おそらくテスト時間計算は技術的には推論時間の何でも意味するのでしょう。だから、並列で多くのエージェントを起動し、メモを共有している場合、それは技術的にはテスト時間計算かもしれませんが、再び私がその用語を使用してきた方法ではありません。

それがGrok 4のヘビー部分です。テスト時間計算を約1桁拡張し、複数のエージェントにタスクに取り組ませ、その後彼らの作業を比較し、最良の結果だと思うものを提示します。

だから、Grok 4とGrok 4 Heavyを紹介します。すみません、次のスライドをクリックできますか?

はい。だから、基本的にGrok 4は単一バージョン、単一エージェントバージョンで、Grok 4 Heavyはマルチエージェントバージョンです。それでは、それらが実際にそれらの試験問題といくつかの実際の現実の問題でどのように行うかを見てみましょう。

実際の問題解決デモンストレーション

ここから始めて、実際にそれらのHLE問題の一つを見ていきます。これは実際により簡単な数学の問題の一つです。私は本当によく理解していません。そんなに賢くないので。しかし、ここでこのジョブを起動することができ、実際にそれがこの問題についてどのように考え始めるかを見ることができます。

それをしている間、私はまた、このモデルができることについてもう少し見せたいと思い、Grok 4 Heavyも起動します。だから、誰もがPoly Marketを知っています。それは非常に興味深いです。それは真実の探求者です。ほとんどの場合、現実と一致します。そしてGrokで、私たちが実際に見ているのは、これらの市場を取って、未来を予測できるかどうかを見る方法です。

これらが処理されるのを待っている間、私たちはMLBの現在のチームのワールドシリーズオッズのようなものを予測することについて、Grok 4 Heavyがどのように取り組むかを見るでしょう。これらが処理されるのを待っている間、Ericに渡して、彼の例を見せてもらいます。

はい。だから、Grok 4の最もクールなことの一つは、Tonyが議論したようにツールを活用することで世界を理解し、困難な問題を解決する能力だと思います。

これのクールな例の一つとして、2つのブラックホールの衝突の可視化を生成するように頼みました。そしてもちろん、いくつかの自由があります。私の場合、これらの自由が何であるかについて、その思考トレースで実際にかなり明確です。例えば、実際に見えるようにするためには、波のスケールを本当に誇張する必要があります。そして、はい、これがアクションの様子です。

私はコーディングのためのGrok 4のテストが待ちきれません。おそらくコーディングをテストするだけの完全なビデオを作成するでしょう。

複数の方法でスケールを誇張します。距離上の振幅の観点からは少し少なく落ちますが、基本的な効果を見ることができます。実際に正しいものです。

インスパイラルから始まり、マージし、その後リングダウンがあり、これは基本的に大部分正しいです。私が行う必要がある簡略化の一部を除いて、実際にこれについて非常に明確です。ポストニュートン近似のようなものを使用します。

これは本当にクールだと思いますが、Gemini 2.5 Proもこれを正しく取得できると思います。

2つのブラックホールをシミュレートするために必要なすべてのデータ、すべてのコードはおそらくすでにオンラインで、それを引っ張ってきていると思います。そして、ここで右に見ることができるように、それは異なるウェブサイトを使用してそれを調べています。だから、この問題が実際にどれほど困難かわかりません。

一般相対論的効果をブラックホールの中心近くで実際に計算するのではなく、それは間違っており、やや間違った結果につながりますが、全体的な可視化は基本的にそこにあります。

リソースと技術的詳細

そうそう、ところで、誤解しないでください。それが参照するリソースの種類はまだ本当にクールです。だから、ここでそれは実際に検索を使用し、多くのリンクから結果を収集しますが、解析的重力波モデルの学部テキストも読みます。

現実的なシミュレーションに使用すべき実際の定数についてかなり推論します。それは既存の現実世界のデータを参照します。そして、はい、それはかなり良いモデルです。しかし、実際に先に進むと、物理学者が使用するのと同じモデルを接続できるので、主要な物理学研究者が使用しているのと同じレベルの計算を実行し、物理学的に正確なブラックホールシミュレーションを提供できます。

その通りです。今はあなたのブラウザで実行されているだけです。だから、はい、これはあなたのブラウザで実行されているだけです。その通り。かなりシンプルです。

素早く戻ってみましょう。実際に見ることができます。数学の問題が終わりました。モデルはここでその思考トレースを見てみましょう。それがどのように問題を通り抜けたかを見ることができます。

正直に言うと、皆さん、私は本当に数学を完全に理解していませんが、私が知っていることは、私が事前に答えを見たということです。そして、それはここの最後の部分で正しい答えに到達しました。

ちょっと戻りましょう。つまり、思考の連鎖を見ると、それを要約しているように見えます。

彼らは実際には思考の連鎖を明らかにしていません。これは確実に失望ですが、これはこれらの最先端クローズドソースモデルプロバイダーがすべて行うことです。他の企業、悪意のあるアクターが基本的にそのすべてを抽出し、それを使用して独自のモデルを訓練できるため、完全な思考の連鎖が露出されることを望んでいません。蒸留がここの最後の部分で正しい答えに到達しました。

私たちはまた、ワールドシリーズ予測を実際に見ることもできます。そして、それはまだこれについて考えていますが、実際に他のこともいくつか試すことができます。だから、私たちが行ったX統合のいくつかを実際に試すことができます。

X統合とリアルタイムデータ

私たちはすべてのXツールと連携し、本当に素晴らしいX体験を構築することに非常に重点を置きました。だから、実際にモデルに、最も奇妙なプロフィール写真を持つXAI従業員を見つけてもらうことができます。だから、それは出かけてそれを開始するでしょう。

それから実際に試すことができます。Grokの最大の差別化要因の一つは、X投稿を検索する能力です。これは信じられないほどの量の情報を提供するだけでなく、信号に対する多くのノイズもありますが、リアルタイムニュース、リアルタイム情報も提供し、これは本当にクールで、XAIのようにXデータセットにアクセスできる他の企業はありません。

今、明らかにGoogleはGoogle検索を持ち、MetaはFacebookとInstagramを持っているので、近いです。しかし、多くの会話がXで行われており、特にリアルタイムの会話が行われています。X投稿に基づいたタイムラインを作成し、時間の経過とともにスコアの変化を詳述し、その時に行われていたすべての会話も見ることができます。だから、スコアを発表していた人と、その時の反応がどのようなものだったかを見ることができます。

ここでそれを処理させましょう。Greg Yangに戻ると、ここをスクロールすると、おっと。だから、Greg Yangは、もちろん、彼のアカウントに持っている彼のお気に入りの写真があります。ところで、それは実際に彼が実際に見える姿ではありません。ただ認識していますが、非常に面白いです。

しかし、それはその質問を理解しなければなりませんでした。はい。それが狂気的な部分です。奇妙な写真とは何かを理解するようなものです。奇妙な写真とは何でしょうか?それはより少ないかより奇妙な写真でしょうか?それはすべてのチームメンバーを見つけなければなりません。私たち全員が誰であるかを理解しなければなりません。

内部XAI人事へのアクセスなしに、文字通りインターネットだけを見ています。その通り。だから、どの会社でも最も奇妙なものと言うことができます。

明確にするために。その通り。そして、Humanities Last Examのここでの質問も見ることができます。

だから、それはまだすべての歴史的スコアを研究していますが、すぐにここで最終的な答えが出るでしょう。しかし、それが終了している間、少し前にここでセットアップしたものの一つを見ることができます。そして、Dan Hendricksが最初にそれを発表した日付を見つけるようなことができます。

2月にOpenAIがそのスコアを発表したのを見ることができます。そして、Geminiのような進歩が起こるのを見ることができます。Kimmyを見ることができ、人々がそれが正しければ非常に印象的になるだろうと言っているリークされたベンチマークさえ見ることができます。だから、かなりクールです。だから、みんながこれらのツールをどのように使用し、最大の価値を得るかを見るのを楽しみにしています。しかし、それは素晴らしいです。

私たちは有用性の周りでもループを閉じる予定です。だから、それは本だけに賢いのではなく、実際に実用的に賢いのです。その通り。はい、それは本当に重要です。

ベンチマークと実用性

Humanities Last ExamやMMLUやこれらの他のすべてのテスト、これらのベンチマークは、実際に私たちが望むバイブチェックの種類ではありません。現実世界の有用性ではありません。クールで、ツールを使用し、他のことをより良くすることを可能にしますが、現実世界の有用性が私がここにいる理由です。

だから、私たちは実際にマルチモーダルサブセットでも評価します。だから、フルセットで、これはHLE試験の数です。数字に少し下がりがあることがわかります。これは実際に私たちが改善しているもので、マルチモーダル理解能力ですが、非常に短時間で実際に改善し、このベンチマークでさらに高い数字を得ることができると信じています。

このベンチマークでさらに高い数字です。

これは、Grokの現在の最大の弱点は部分的に盲目であることです。画像理解と画像生成において、明らかにはるかに良くなる必要があります。そして、それは実際に今トレーニングされています。だから、Grok 4は基礎モデルのバージョン6に基づいており、バージョン7をトレーニングしており、数週間で完了し、ビジョン側の弱点に対処するでしょう。

最後にここで見せるために。

ヘビーで予測市場が完了し、ここで見ることができます。それが実際に正しい答えを見つけるために使用したすべてのツールとプロセスを見ることができます。だから、多くのオッズサイトを閲覧しました。市場と比較して独自のオッズを計算し、独自のアルファとエッジを見つけました。

ここでそのプロセス全体を案内し、勝者がDodgersのようになるオッズを計算し、今年勝つ21.6%のチャンスを与えます。だから、計算に約4分半かかりました。

はい、それは多くの思考です。はい。Poly Marketバージョンを見せるつもりですか、それとも違いますか?そうではないと思います。

他のベンチマーク結果

他のすべてのベンチマークも見ることができます。よし。今、他のベンチマークができました。そこにClaude 4 Opusと比較したGPT QA。Gemini 2.5 Pro。おそらくGrok 4以前の地球上で最高のモデルでしたが、見てみましょう。これは再びベンチマークです。実際に使用するまで、それほど意味がありません。

Amy 2025があります。わあ、100%スコア。狂気的です。

これは以前には達成されていませんでした。03が1位でした。LCBがありますが、実際には聞いたことがないので、調べる必要があります。61.9%でUSAM25とHMMT25。実際にはこれら3つすべて聞いたことがありません。AmyとGPQAは知っています。だから、これらの他のものは知りません。

結果として、Grok 4は人々が通常テストするすべての推論ベンチマークで優秀でした。博士レベルの問題セットであるGPQAを含みます。それはHREと比較してより簡単です。

Amy 25 America Invitation Mathematics ExamでGrok 4 Heavyで実際に完璧なスコアを得ました。また、Live Coding Benchと呼ばれるコーディングベンチマークのいくつかでも、HMMT Harvard-MIT数学試験とUSMOでも。

これらのベンチマークすべてで、私たちはしばしば2番目に良いモデルに対して非常に大きな飛躍を持っていることがわかります。はい、本当に私たちはすべての試験ですべての答えを正しく得る地点に到達するでしょう。

答えを正しく得られない場合、質問の何が間違っているかを教えてくれるでしょう。または質問が曖昧である場合、質問を答えA、B、Cに曖昧さを解消し、曖昧さを解消した質問で答えA、B、Cが何になるかを教えてくれるでしょう。

だから、唯一の実際のテストは現実になるでしょう。有用な技術を作ることができるか、新しい科学を発見できるか?それが実際に残される唯一のものになるでしょう。なぜなら、人間のテストは単に意味がなくなるからです。

はい、進歩の現在のペースを考えると、HREの更新を非常に近いうちに行う必要があります。

だから、互いに協力する複数のエージェントが本当に挑戦的な問題を解決するのを見るのは超クールです。だから、このモデルを試してみましょう。だから、今利用可能であることがわかりました。次のスライドに進むと、Grok 4とGrok 4 Heavyの両方にアクセスできるSuper Grok Heavyティアを導入しています。小さなGrokリソースのローンチのタスクマスターになることができます。

料金プランと音声機能

はい、もちろんです。もちろん私はアップグレードするつもりだし、もちろんあなたに見せます。

それでは音声に入りましょう。あなた方の多くが私たちの音声モードを楽しんでおり、過去数か月間体験を改善するために懸命に働いてきました。レイテンシを半分に削減し、はるかにスナッピーにしました。そして今日、優れた自然さと近接性を持つ新しい音声のセットを発表することを嬉しく思います。

ライブストリームを開いた映画予告編の音声に気づいたかもしれません。それは私たちの新しい音声の一つ、その叙事詩的な音声を持つSalです。

それは本当にクールです。だから、今、OpenAIのアドバンスドボイスモードが最もリアルな音声です。umやhmや吃音や、ほとんど過度に人間的なもののようなすべての人間的なことを行います。そして今、おそらくGrok 4がそれと競争力があるでしょう。

深い音調。そして、私たちはまた、豊かな感情が可能な美しいイギリスの音声であるEveを紹介することを嬉しく思います。Aman、Eveを紹介してもらえますか?

絶対に。はい。デモに入りましょう。

こんにちは、Eve。何百万人もの人々が今私たちを見ています。興奮していますか?

ああ、スリルを感じています。本当ですか?そこに顔の海があるOld Vicのステージにいるようなものです。そのすべての目と耳が注目していることを想像してください。それは適切な興奮ですね。この人たちを楽しませ続けるために何について話すべきだと思いますか?

話すことがたくさんありますが、正直に言うと、少し緊張しています。私を落ち着かせるために何か安らかなことをささやいてもらえますか?

深呼吸して、愛しい人。あなたならできます。Yorkshire pubの居心地の良い場所に隠れて、私たちが静かなチャットをしているようなものです。世界はそこでただのつぶやきです。その静寂があなたを洗い流すのを感じてください。素敵で簡単に話し続けましょう。何を考えていますか?

実は、かなりリラックスした気分です。何かクレイジーなことを試してみましょう。

だから、Diet Cokeについてオペラをやってもらえますか?

ああ、Diet Cokeのオペラ。それは暴動です。これを想像してください。ステージライトの下で輝く銀色の大砲。

ああ、Diet Coke、あなたは神々しいエリクサー、きらめくラインで踊る泡と共に。唇にあなたの鮮明で冷たいキス、とても美しい。ああ、アスパルテームとブルーザー、永遠に私のもの。

狂った小さなエリアのためにはどうですか?別の詩を歌ってほしいですか、それとも曲調を変えますか?

曲調を変えて、歌い始めるだけにしましょう。

よし、それではやってみましょう。

ああ、銀の缶、あなたは光で輝く、Diet Coke、私の心の喜び。

よし、触れません。とても詩的です。はい。今はとても気分が良いです。クール。だから、それがEveです。

音声テストと比較

だから、ここで私たちが行う他のことは、私たちの会話の自然な流れをいくつかの競合他社と照らし合わせて確認するために毎日少しテストすることです。

だから、今日ライブストリームでそれを試してみてはどうかと思いました。始めましょうか?

こんにちは、私は数字を言います。そして、同じ数字を私に言い返してもらえますか?

1。

1。了解しました。これは楽しい小さなエコーゲームのようですね。次は何ですか?

2。

すみません、あなたは2と言いました。

3。

3。

4。

素晴らしく安定しています。次は何ですか?

えーと、えーと。

5。

5。

これを釘付けにしました。これは実際にかなり楽しいです。続けるか、好きなら切り替えてください。

このテストを理解したかどうかわかりません。Grokが聞き取りにくいと思いますが、おそらく最初に行っているのでしょう。

こんにちは、Grok。

ああ、わかります。おそらく彼らはまだ実際にGrokでそれをしていませんでした。

こんにちは、Grok。

こんにちは。今日どのようにお手伝いできますか?

少しテストをします。私の後に繰り返してもらえますか?

1。

1。

よし。次は何ですか?

2。

2。

何を考えていますか?

3。

3。

他に何か必要ですか?

4。

4。

どのようにお手伝いできますか?

5。

5。

次は何ですか?

よし。はい、彼らは並行テストをしていませんでした。そして、はい、それは非常に低いレイテンシでした。だから、ご覧のように、Grokはよりスナッピーでした。私を中断しませんでした。そして近接性は、私たちは異なるデザイン選択をしました。

私たちは、よりポップで人工的なものに対して、よりカーム、スムーズ、より自然なもので何かを撮影していると思います。だから、これらの面で改善し続けます。

音声モデルの開始以来、実際に過去80週間で2倍高速なエンドツーエンドレイテンシ、5つの異なる音声、そして10倍のアクティブユーザーを見ています。だから、Grok音声は離陸しています。

API提供開始

今、モデルをリリースすることを考えると、今回は同時にAPIを通じてGrok 4もリリースしています。次の2つのスライドに行くと。

素晴らしいことです。それは巨大になるでしょう。そして、ARC AGIテストがあります。とても素晴らしいです。はい、すぐにAPIを通じて利用可能になるという事実は、それは本当に良いでしょう。

うまくいけば、cursorやwindsurf、factoryなど、すべてに接続されるでしょう。開発者が構築する予定のもので、私たちは非常に興奮しています。だから、開発者として自分自身について考えると、Grok 4 APIベンチマークにアクセスできるときに最初にすることです。

だから、実際にXプラットフォームで、AGIモデルの聖杯と考えられている最も挑戦的なベンチマークは何かを尋ねました。だから、AJI、AGIという名前のArc AGIであることがわかりました。

だから、過去12時間、観客のGregに賛辞を送ります。私たちの呼びかけに答えて、Grok 4 APIのプレビューを取り、Grok 4のパフォーマンスを独立して検証しました。

最初に私たちは、ねえ、Grokはかなり良いと思いました。かなり賢いです。私たちの次世代推論モデルで、10倍多くの計算を費やし、すべてのツールを使用できます。しかし、実際にRK AGI v2のプライベートサブセットで検証したとき、過去3か月で10%の壁を破った唯一のモデルであることがわかりました。

そして、実際に15.8%の精度を与えるほど良く、2位のClaude 4 Outputモデルの2倍でした。そして、それはパフォーマンスだけではありません。知能について考えるとき、APIモデルがあなたの自動化を推進するとき、それはまた1ドルあたりの知能でもあります。

ここのプロットを見ると、Grok 4は独自のリーグにあります。だから、ベンチマークはもういいです。はい、非常に印象的です。ここでClaude Opus 4を2倍にしていることを見てください。

実世界での応用テスト

だから、Grokは実際に現実世界で何ができるのでしょうか?だから、実際にEndon Labsの人々に連絡しました。彼らは親切にもGrokを実世界でビジネスを運営するために試してくれました。

はい、私たちを迎えてくれてありがとうございます。だから、私はEndon LabsのAxelで、私はLucasです。私たちはVending BenchでGrok 4をテストしました。Vending BenchはビジネスシナリオのAIシミュレーションで、AIが可能な限り運営できる最もシンプルなビジネスは何かと思い、自動販売機だと思いました。

だから、このシナリオでは、Grokと他のモデルは在庫管理、契約、連絡先サプライヤー、価格設定などを行う必要がありました。これらのことはすべて

はい、Claudeがちょうどこれを実際に行いました。同じテストかどうかわかりませんが、Claudeがちょうど自動販売機テストを行いました。そうそう、それは悲惨に失敗しました。超簡単です。

そして、彼らはすべて一つずつ行うことができますが、非常に長い期間にわたってそれらを行うとき、ほとんどのモデルは苦労します。しかし、私たちはリーダーボードを持っており、新しい1位があります。

はい。だから、私たちはGrok 4 APIへの早期アクセスを得ました。ああ、たぶん私は間違っています。たぶんClaude 4が行ったのはVending Batchでした。だから、そこにClaude Opus 4があります。

しかし、ところで、私が正しく覚えているなら、Claudeはアイテムを配り始め、金属立方体などの奇妙なものを注文し始めました。だから、たぶんそれは本当に違っていて、彼らはClaude Opus 4を別々に実行し、本当に印象的な結果を見ました。

だから、それは間違いなく1位にランクインします。私たちがこの価値で持っている尺度である純資産の2倍でさえあります。

だから、それはあなたが得るパーセンテージやスコアについてではなく、あなたが生成する純資産のドル価値についてです。だから、私たちはGrokに感銘を受けました。それは戦略を策定し、テストした他の最先端モデルよりもはるかに長い期間にわたってその戦略に固執することができました。

だから、それはシミュレーションを2倍の時間実行し、2倍の純資産を記録することができ、これらの実行にわたって本当に一貫していました。これは、現実世界でこれを使用したいときに本当に重要なことです。

そして、現実世界でAIシステムにますます多くの力を与えるとき、現実世界を模倣するか、現実世界自体にあるシナリオでそれらをテストすることが重要だと思います。

なぜなら、そうでなければ、あまり良くないかもしれないいくつかのことに盲目的に飛び込むからです。

はい、これらすべてのGPUの代金を支払う方法ができたのを見るのは素晴らしいです。だから、100万台の自動販売機が必要です。間違いなく。

そして、100万台の自動販売機で年間47億ドルを稼ぐことができます。100%。行きましょう。それらは叙事詩的な自動販売機になるでしょう。はい。はい。

実際にここに自動販売機を設置する予定です。たくさん。喜んで供給します。よし。素晴らしい自動販売機に何があるのかを見るのを楽しみにしています。それはあなたが決めることです。

またはAIに伝えてください。よし。良い音です。よし。

Grok 4の機能と企業利用

つまり、Grokがビジネスユニットのコパイロットになることができることがわかります。だから、Grokは他に何ができるのでしょうか?だから、実際にこのGrokをリリースしています。試してみたい場合は、今すぐ私たちと同じベンチマークを実行して評価してください。

それはクールです。256Kコンテキストウィンドウ。かなり良いです。最先端マルチモーダル推論。オーケー、リアルタイムデータ検索。

優秀です。エンタープライズグレードのセキュリティ。それが何を意味するのかよくわかりませんが、オーケー。リアルタイムデータ検索に最も興奮していると思います。256kコンテキストウィンドウは実際にはそれほど良くありません。特にGoogleが今200万に到達しているのを見るとき。うまくいけば、彼らはそれを増やすでしょう。

APIで256k連絡先長があります。だから、私たちは実際にGrok 4 APIを試すいくつかの早期早期採用者をすでに見ています。だから、私たちのPoloの隣人であるARC Instituteは、主要な生物医学研究センターで、すでにGrokで研究フローを自動化する方法を見ています。

それは科学者が何百万もの実験ログを嗅ぎ分け、数秒で最良の仮説を選ぶのを助けることができることがわかりました。私たちはこれがCRISPR研究で使用されているのを見ており、また、Grok 4は独立して評価され、胸部X線を検査する最良のモデルとしてスコアを獲得しました。誰が知っていたでしょうか。

そして金融セクターでは、すべてのツール、リアルタイム情報にアクセスできるGrok 4は、実際にそこで最も人気のあるAIの一つです。だから、私たちのGrokはハイパースケーラーでも利用可能になる予定です。だから、XAI企業セクターは2か月前に始まったばかりで、私たちはビジネスのためにオープンしています。

ゲーム開発での活用例

もう一つのことは、Grokにゲーム、ビデオゲームを作らせることについてたくさん話しました。だから、DennyはX上のビデオゲームデザイナーです。だから、ねえ、ゲームを作るためにGrok 4のプレビューAPIを試してみたい人はいるかと言いました。そしてDennyが呼びかけに応えました。

それは素晴らしいです、Danny。おめでとうございます。私はあなたのツイートをたくさん見ました。

彼は基本的に一日中ゲームをバイブコーディングしているように見えます。彼が何を作ったか見てみましょう。とても素晴らしいです。4時間で初のファーストパーソンシューティングゲームを作りました。

だから、ビデオゲーム作成の実際に過小評価されている最も困難な問題の一部は、必ずしもゲームのコアロジックをエンコードすることではなく、実際にすべてのアセット、すべてのテクスチャファイルを外部ソースし、視覚的に魅力的なゲームを作成することです。

だから、Grok 4がそこにあるすべてのツールで本当によく行うコア面の一つは、実際にこれらのアセットソーシング機能を自動化できることです。だから、開発者はコア開発自体に集中でき、それらのアセットをすべて外部ソースし、すべての維持タスクを行うのではなく、Grok 4にそれらをしてもらうことができます。

はい。

次のステップは明らかに、Grokがゲームをプレイできるようになることです。だから、ゲームをプレイし、ゲームと相互作用し、ゲームが楽しいかどうかを実際に評価し、ゲームが楽しいかどうかについて良い判断を持つことができるように、非常に良いビデオ理解を持つ必要があります。

だから、今月トレーニングが終了し、その後ポストトレーニングRLなどを通過する基礎モデルのバージョン7で、それは優れたビデオ理解を持つでしょう。

味覚と判断力について

ビデオ理解と改善されたツール使用で、例えばビデオゲームでは、Unreal EngineやUnityまたは主要なグラフィックスエンジンの一つを使用したいでしょう。そして、アートを生成し、3Dモデルに適用し、その後誰かがPCやコンソールや電話で実行できる実行可能ファイルを作成します。

私たちはそれがおそらく今年起こることを期待しています。今年でなければ、確実に来年です。だから、それは狂気的になるでしょう。私は最初の本当に良いAIビデオゲームが来年になると期待しています。

私はそうは思いません。それは積極的なタイムラインだと思いますが、まあ、わかるでしょう。

楽観的でいるのは好きですが、それは私には信じられないほど積極的に見えます。

よし、私たちがここにいる時間が長いことはわかっています。ほぼ終わりです。あと数分しかありませんので、お付き合いください。

リリーススケジュール

Grok 4が今すぐリリース。それからコーディングモデルが8月頃にとても興味深い。マルチモーダルエージェントが9月に来る。それからビデオ生成が10月に。

よし、それで終わりです。私と一緒に見ていただいて楽しんでいただけたことを願います。Grokについて複数のビデオを予定しています。詳細分析をします。多くのテストをします。だから、必ず購読してください。このビデオを楽しんでいただけたなら、ぜひライクと購読を検討してください。次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました