この動画は、イーロン・マスクのxAIが開発した最新AI「Grok 4」の発表イベントの完全版である。Grok 4は「世界で最も賢いAI」と謳われ、大学院レベルの問題を解く能力、現実世界での問題解決能力、複数エージェントによる協力機能などを実演している。発表では具体的なベンチマーク結果、ツール使用能力、音声機能の改善、API提供開始などが詳しく紹介され、今後の展開として動画生成やゲーム開発への応用も示されている。

Grok 4発表:世界で最も賢いAIの登場
知識が運命を形作る世界で、一つの創造物が未来を再定義しようとしています。XAIの頭脳から、Grok 4をご紹介します。この夏、次世代がより速く、より賢く、より大胆に到着します。地平線の向こうを見て、問われていない質問に答え、不可能に挑戦します。Grok 4。真実を解き放て。この夏登場。
さて、Grok 4リリースへようこそ。これは世界で最も賢いAIであり、まさにその理由とその方法をお見せしようと思います。人工知能の進歩を見ることは本当に驚くべきことで、いかに急速に進化しているかが分かります。
時々、人間の成長と比較して考えることがあります。人間がどれほど速く学習し、意識的な認識と理解を得るかということです。そしてAIは人間よりもはるかに速く進歩しています。
私たちはGrok 4が達成できる数多くのベンチマークをご紹介しますが、実際に注目すべきことは、Grok 4にSATを受けさせれば、たとえ一度も問題を見たことがなくても、毎回完璧なSATスコアを取るということです。さらに大学院生の試験、例えばGREのような試験でも、教育のあらゆる分野でほぼ完璧な結果を出すでしょう。
人文学から言語、数学、物理学、工学まで、何でも選んでください。これらは一度も見たことのない問題について話しているのです。これらはインターネット上にはなく、Grok 4はすべての分野において同時に、ほとんどすべての大学院生よりも賢いのです。これは本当に重要なことなのです。
そしてGrokの推論能力は信じられないものです。AIは推論できないと考える人もいますが、実際には超人的なレベルで推論できるのです。正直なところ、ここからさらに良くなる一方です。
Grok 4リリースをご案内し、ここでの進歩のペースをお見せしましょう。最初に、トレーニングの観点から、Grok 2からGrok 3、そしてGrok 4へと進む中で、基本的に各段階でトレーニングを一桁増やしています。つまり、Grok 2の100倍のトレーニングということです。そして、これはさらに増え続けるでしょう。正直なところ、ある意味で少し恐ろしいですが、ここでの知能の成長は驚くべきものです。
トレーニングとコンピュートの革新
2つのタイプのトレーニングコンピュートがあることを理解することが重要です。一つはGrok 2からGrok 3への事前トレーニングコンピュートです。しかし、Grok 3からGrok 4では、実際に推論とRLに多くのコンピュートを投入しています。
言った通り、これは文字通り最も速く動いている分野であり、Grok 2は今日の基準では高校生のようなものです。過去12ヶ月を振り返ると、Grok 2は12ヶ月前には概念でしかありませんでした。12ヶ月前にはGrok 2すら持っていませんでした。
Grokをトレーニングすることで、事前トレーニングをスケールアップしたのは初めてでした。データアブレーション、インフラ、そしてアルゴリズムを本当に慎重に行えば、事前トレーニングを10倍の量でかなり押し進めることができ、モデルを最高の事前トレーニングベースモデルにできることを実現しました。そのために、私たちは10万台のH100を持つ世界のスーパーコンピュータColossusを構築しました。
最高の事前トレーニングモデルがあれば、検証可能な結果報酬を収集できれば、実際にこれらのモデルを第一原理から考え始め、推論し、自分の間違いを訂正するようにトレーニングできることを実現しました。それがGrok推論の出どころです。
今日、私たちは問いかけます。すべての20万台のGPUを使ってColossusを拡張し、これらすべてを強化学習に投入し、そこにある他のどのモデルよりも10倍多くのコンピュートを強化学習に使い、前例のない規模で行ったら何が起こるでしょうか。これがGrok 4の物語です。
Humanities Last Examでの驚異的な成果
Grok 4がどれほど賢いかについて話しましょう。Humanities Last Examと呼ばれるベンチマークから始めることができます。このベンチマークは非常に挑戦的なベンチマークで、すべての問題が専門家によってキュレーションされています。合計2500問から成り、数学、自然科学、工学、そしてすべての人文学科目など、多くの異なる科目で構成されています。
最初にリリースされた時、実際には今年の初めでしたが、そこにあるほとんどのモデルはこのベンチマークで一桁の精度しか得られませんでした。
例を見てみましょう。カテゴリー理論における自然変換についての数学問題があります。電子環式反応について話す有機化学の問題もあります。また、ヘブライ語の原文から閉音節と開音節を区別することを問う言語学の問題もあります。
ご覧の通り、非常に幅広い問題で、すべての問題が博士課程レベルまたは高度な研究レベルの問題です。
実際には、これらに答えることができる人間はいません。良いスコアを得ることはできません。任意の人間について、最高のスコアはどれくらいでしょうか。楽観的に見積もって5%程度だと思います。
これは人間ができることよりもはるかに困難です。信じられないほど難しく、問題の種類からも分かるように、言語学、数学、化学、物理学、その他数多くの科目のいずれかで信じられないほど優秀かもしれませんが、すべてにおいて大学院レベルになることはできません。しかし、Grokはすべてにおいて大学院レベルなのです。
学術的優秀性の証明
繰り返す価値のあることですが、Grok 4は大学院レベル、博士課程レベルで、すべてにおいてほとんどの博士号取得者よりも優れています。この点を強調したいのです。学術的な質問に関して、Grokは例外なく、すべての科目で博士課程レベルよりも優れています。
これは、時には常識に欠け、まだ新しい技術を発明したり新しい物理学を発見したりしていないという意味ではありませんが、それは時間の問題です。
今年後半にも新しい技術を発見するかもしれないと思います。来年までに発見していなければ驚くでしょう。Grokが来年までに、おそらく今年中に、実際に有用な新しい技術を文字通り発見することを期待しています。来年には新しい物理学を発見し、2年以内にはほぼ確実に発見するでしょう。これをよく考えてみてください。
ツール使用能力の向上
Grok 4の背景について話しましょう。ジミーが言ったように、私たちは実際に多くのコンピュートをこのトレーニングに投入しました。最初は一桁の数字でしたが、より多くのトレーニングコンピュートを投入し始めると、徐々に賢くなっていき、最終的にHLE問題の4分の1を解決しました。これはツールを使わずにです。
次に行ったことは、モデルにツール能力を追加することでした。Grok 3とは異なり、Grok 3も実際にコードを使うことができましたが、ここではより自然にしたという意味で、ツールをトレーニングに組み込みました。Grok 3は汎化にのみ依存していました。ここでは実際にツールをトレーニングに組み込みました。
これによりモデルのツール使用能力が大幅に改善されることが分かりました。昔のDeep Searchを覚えています。これとどう違うのでしょうか。
Deep SearchはまさにGrok 3推論モデルでしたが、特定のトレーニングなしで、ツールを使うように頼んだだけでした。これと比較して、ツール能力の点ではるかに弱く、信頼性も低いものでした。
明確にしておきますが、これらはまだかなり原始的なツール使用だと言えます。Tesla や SpaceX で使われているツールと比較すると、有限要素解析や計算流体力学を使っており、Tesla ではクラッシュシミュレーションを実行していますが、シミュレーションが現実に非常に近いため、テストがシミュレーションと一致しない場合は、テスト対象が間違っていると仮定します。それほどシミュレーションが優秀なのです。
Grokは現在、企業が使用するような本当に強力なツールは使っていませんが、今年後半にはそれらを提供する予定です。企業が持つツールと非常に正確な物理シミュレーターを持つでしょう。
最終的に最大の違いを生むのは、ヒューマノイドロボットを通じて現実世界と相互作用できることです。GrokとOptimusを組み合わせれば、実際に現実世界と相互作用し、仮説を立てて、その仮説が正しいかどうかを確認できます。
知能爆発の始まり
今いる場所について考えてみてください。私たちは巨大な知能爆発の始まりにいます。知能ビッグバンの真っ只中にいるのです。歴史上最も興味深い時代に生きています。
とはいえ、AIが良いAI、良いGrokであることを確実にする必要があります。AI安全性で最も重要だと思うことは、少なくとも私の生物学的ニューラルネットワークが教えてくれる最も重要なことは、AIが最大限に真実を求めることです。
これは非常に基本的なことです。AIを最終的にあなたを出し抜く超天才の子供と考えることができますが、それでも正しい価値観を植え付け、真実で名誉ある良いことを奨励することができます。最終的に信じられないほど強力に成長する子供に植え付けたい価値観です。
これらはまだ原始的なツールだと言えますが、深刻な商業企業が使用するようなツールではありませんが、私たちはそれらのツールを提供し、それらのツールで現実世界の技術問題を解決できると確信しています。時間がどれくらいかかるかという問題です。
より強力な経済への道
この時点で必要なのはコンピュートだけでしょうか。コンピュートに加えて適切なツール、そして最終的に物理世界と相互作用できることが必要です。そうすれば、効果的に現在の経済の数千倍、あるいは数百万倍大きな経済を持つことになるでしょう。
文明をカルダシェフスケールの完成度のパーセンテージとして考えると、カルダシェフ1は惑星のすべてのエネルギー出力を使用し、カルダシェフ2は太陽のすべてのエネルギー出力を使用し、3は銀河のすべてのエネルギー出力を使用します。私の意見では、私たちはおそらくカルダシェフ1の10%よりも1%に近いところにいます。
カルダシェフ1の0.1%または0.2%程度かもしれません。私たちはカルダシェフ1の80-90%まで到達し、その後文明が自己消滅しなければ、カルダシェフ2に到達するでしょう。文明が進歩し続けると仮定した場合の人間経済の実際の概念は、振り返ってみると非常に古風に見えるでしょう。原始人が火に棒を投げ込むレベルの経済のように見えるでしょう。未来が保持するものと比較すると。
非常にエキサイティングです。時々、これは私たち自身よりもはるかに優れた知能を作り出すことで、ある程度不安になることがあります。これは人類にとって悪いことなのか、良いことなのでしょうか。良いことだと思います。おそらく良いことでしょう。
たとえ良いことでなくても、少なくともそれが起こるのを見るために生きていたいという事実にいくらか和解しました。
データボトルネックの課題
実際に、コンピュート以外にも解決する必要のある技術的問題があります。データのボトルネックをどのように解決するかです。この場合、RLをスケールアップしようとするとき、多くの新しい技術と革新を発明して、取り組むべき多くの困難なRL問題を見つける方法を理解できました。
問題自体が困難である必要があるだけでなく、モデルに間違いや正しいことを伝える信頼できる信号も必要です。これが強化学習の原理です。モデルが賢くなればなるほど、クールな問題や困難な問題の数は少なくなっていきます。
これは、コンピュート以外に克服する必要のある新しいタイプの課題になるでしょう。
実際に、尋ねる実際のテスト問題が不足しています。人間にとって途方もなく困難ではないにしても本質的に不可能な、書き下ろされた途方もなく困難な質問でさえ、AIにとって急速に些細なものになっています。
しかし、物事の優れた判定者の一つは現実です。物理学は法則であり、最終的に他のすべては推奨事項だからです。物理学を破ることはできません。
AIが最終的な推論テストは現実だと思います。車やロケットの設計を改善したり、新しい薬を作成したりするような新しい技術を発明する。そしてそれは機能するのでしょうか。ロケットは軌道に到達するでしょうか。車は走るでしょうか。薬は効くでしょうか。何であれ、現実がここでの最終的な判定者です。
現実を中心とした強化学習ループを閉じることになるでしょう。
マルチエージェントシステムの威力
どのようにさらに進むかという問題を尋ねました。実際に、単一エージェントで問題の40%を解決できることが分かりました。同時に複数のエージェントを実行したらどうでしょうか。これはテスト時間コンピュートと呼ばれるもので、テスト時間コンピュートをスケールアップすると、実際にHLE問題のテキストのみのサブセットの50%以上を解決できることが分かりました。
これは驚くべき成果だと思います。これは非常に困難です。これらは、私たちが言っているのは、人文学の恐ろしい名前のhumanities last examのテキストベースの大部分をGrok 4が解決できるということで、自分で試すことができます。
Grok 4 heavyが行うことは、複数のエージェントを並行して生成し、それらのエージェントはすべて独立して作業し、その後作業を比較して、どれが最良かを決定することです。これは勉強グループのようなものです。
多数決ほど単純ではありません。なぜなら、多くの場合、エージェントの一つだけが実際にトリックを理解したり、解決策を見つけたりするからです。しかし、トリックを共有したり、問題の本当の性質が何かを理解したりすると、その解決策を他のエージェントと共有し、基本的にノートを比較して、最良の結果だと思うものを提出します。
それがGrok 4のheavyパートで、テスト時間コンピュートを約一桁スケールアップし、複数のエージェントにタスクに取り組ませ、その後作業を比較して、最良の結果だと思うものを提出します。
実用的なベンチマーク結果の実演
Grok 4とGrok 4 heavyを紹介します。基本的にGrok 4は単一エージェント版で、Grok 4 heavyはマルチエージェント版です。
これらが実際の試験問題や現実の問題でどのように機能するかを見てみましょう。
ここから始めて、実際にHLE問題の一つを見てみます。これは実際により簡単な数学問題の一つです。私はそれほど賢くないので、あまりよく理解していません。
しかし、ここでこのジョブを起動して、この問題についてどのように考え始めるかを実際に見ることができます。それをしている間に、このモデルができることについてもう少し紹介し、Grok 4 heavyも起動したいと思います。
皆さんはPolymarketをご存知でしょう。非常に興味深く、真実の探求者です。ほとんどの場合、現実と一致しています。Grokでは、実際にこれらの市場を取り上げて、将来を予測できるかどうかを見ることができます。
これを実行させている間に、MLB の現在のチームのワールドシリーズオッズなど、Grok 4 Heavy がどのようにして予測を行うかを見てみましょう。
これらの処理を待っている間、エリックに渡して、彼の例を紹介してもらいます。
物理シミュレーションの実演
Grok 4の最もクールなことの一つは、世界を理解し、トニーが話したようなツールを活用して困難な問題を解決する能力です。
これのクールな例の一つとして、2つのブラックホールの衝突の可視化を生成するように頼みました。もちろん、いくつかの自由度がありました。実際には、これらの自由度が何であるかについて、その思考の軌跡で非常に明確でした。
例えば、実際に見えるようにするためには、波の規模を本当に誇張する必要があります。ここで実際の動作を見ることができます。複数の方法で規模を誇張します。距離に対する振幅の減衰が少し少なくなりますが、基本的に実際に正しい基本的な効果を見ることができます。
インスパイラルから始まり、合体し、その後リングダウンがあり、これは基本的に大部分が正しいです。行う必要のある単純化を除いて。実際にこれについて非常に明示的です。ブラックホールの中心近くの一般相対論的効果を実際に計算する代わりに、ポストニュートン近似のようなものを使用し、これは正しくなく、いくつかの正しくない結果につながりますが、全体的な可視化は基本的にそこにあります。
それが参照するリソースの種類を実際に見ることができます。ここでは明らかに検索を使用し、多くのリンクから結果を収集しますが、解析的重力波モデルの学部テキストも読み通します。現実的なシミュレーションに使用すべき実際の定数についてかなり推論します。既存の現実世界のデータを参照します。
かなり良いモデルです。しかし、実際に先に進むと、物理学者が使用するのと同じモデルを与えることができます。主要な物理学研究者が使用しているのと同じレベルのコンピュートを実行でき、物理学的に正確なブラックホール シミュレーションを提供できます。
これはあなたのブラウザで実行されているだけです。非常にシンプルです。
リアルタイム実演結果
すぐに戻ると、実際に見ることができます。数学問題が終了しました。モデルはここで思考の軌跡を見ることができるので、問題をどのように進めたかを見ることができます。
正直なところ、数学は完全には理解していませんが、私が知っているのは、事前に答えを見たということです。ここの最終部分で正しい答えに到達しました。
ワールドシリーズの予測も見ることができます。これについてはまだ考えていますが、他のこともいくつか試すことができます。
私たちがやったX統合も実際に試すことができます。すべてのXツールと本当に素晴らしいX体験の構築に非常に集中的に取り組みました。実際に、最も奇妙なプロフィール写真を持つXAI従業員を見つけてくださいと、モデルに聞くことができます。
それが開始され、次にXの投稿に基づいてタイムラインを作成し、時間の経過に伴うスコアの変化を詳述し、その時点で行われていたすべての会話も見ることができます。誰がスコアを発表していたかや、それらの時点での反応も見ることができます。
ここで処理してもらい、Greg Yangの写真に戻ると、Greg Yangが彼のアカウントにある彼のお気に入りの写真を持っているのが分かります。ちなみに、これは実際の彼の見た目ではありませんが、とても面白いです。
でも、その質問を理解しなければならなかったのです。奇妙な写真とは何か、奇妙でない写真や、より奇妙でない写真とは何かを理解しなければならないのです。すべてのチームメンバーを見つけ、私たち全員が誰であるかを理解しなければならない。XAIの内部人事ログにアクセスすることなく、文字通りインターネットだけを見て検索しています。
どの会社でも最も奇妙なものと言うことができます。
Humanities Last Examの質問も見ることができます。まだすべての歴史的スコアを調査していますが、まもなく最終回答が出るでしょう。
終了を待っている間に、少し前に設定したものの一つを見ることができます。Dan Hendricksが最初に発表した日付が定義されているのが分かります。2月にOpenAIがスコアを発表したのも見ることができます。Geminiでの進歩も見ることができます。
キミーも見ることができ、人々が言っていることが正しければかなり印象的になるだろうと言われているベンチマークのリークも見ることができます。とてもクールです。
皆さんがこれらのツールをどのように使用し、最大の価値を得るかを楽しみにしています。それだけでなく、有用性の周りでループを閉じるつもりです。本で学んだだけでなく、実際に実用的に賢いのです。
包括的なベンチマーク結果
スライドに戻ることができます。実際にマルチモーダルサブセットでも評価しています。フルセットでは、H examでのこの数字です。数字に少しの落ち込みが見えます。これは実際に改善している マルチモーダル理解能力ですが、非常に短時間でこのベンチマークでさらに高い数字を本当に改善し、得ることができると信じています。
私たちが言っているのは、現在のGrokの最大の弱点は、部分的に盲目だということです。画像理解と明らかに画像生成がはるかに良くなる必要があります。それは実際に今トレーニングされています。
Grok 4は基盤モデルのバージョン6に基づいており、バージョン7をトレーニングしており、数週間で完了します。それが視覚面での弱点に対処するでしょう。
最後にこれを見せるだけです。heavy での予測市場が終了しました。ここで、実際に正しい答えを見つけるために使用したすべてのツールとプロセスを見ることができます。多くのオッズサイトを閲覧しました。市場と比較して独自のオッズを計算し、独自のアルファとエッジを見つけました。
ここでプロセス全体を案内し、勝者がドジャースのようになるオッズを計算し、今年勝つ21.6%のチャンスを与えています。約4.5コンピュートにかかりました。たくさんの思考です。
HLE以外の他のすべてのベンチマークも見ることができます。Grok 4は、人々が通常テストする推論ベンチマークすべてで優れていることが分かりました。HLEと比較してより簡単な博士レベルの問題セットであるGPQAを含みます。
AMC 25 アメリカ招待数学試験では、Grok 4 heavyで実際に満点を取りました。ライブコーディングベンチと呼ばれるいくつかのコーディングベンチマーク、さらにはMIT試験のhmmt ハーバード数学とUSAMOでも、これらのベンチマークすべてで、そこにある2番目に優れたモデルに対して非常に大きなリードを持つことが多いことが分かります。
すべての試験ですべての答えを正しく得るところまで本当に到達するでしょう。答えを正しく得ないところでは、質問の何が間違っているかを教えるか、質問が曖昧である場合は、質問を答えA、B、Cに曖昧さを解消し、曖昧さを解消した質問で答えA、B、Cが何になるかを教えるでしょう。
そうすると、唯一の本当のテストは現実になるでしょう。有用な技術を作ることができるか、新しい科学を発見できるかです。人間のテストは単に意味がなくなるからです。
現在の進歩率を考えると、HLEを非常にすぐに更新する必要があります。
サービス提供とアクセシビリティ
本当に困難な問題を解決するために互いに協力する複数のエージェントを見るのは非常にクールです。このモデルを試してみましょう。
現在利用可能です。次のスライドに進むと、Grok 4とGrok 4 heavyの両方にアクセスできるGrock heavyティアを導入しており、実際に多くの小さなGrock研究エージェントのタスクマスターになって、より賢くなり、すべての小さな研究を行い、時間を節約し、退屈なタスクを行うのを助けることができ、今すぐ利用可能です。
デモ中は使用量を制限しましたので、デモが壊れることはありませんでした。ライブで行っていることはすべて、何もキャンセルされたものはありません。デモが終了した後、CGORにより多くの購読者を許可します。今購読できない場合は、30分後に試してください。機能するはずです。
音声機能の大幅な改善
音声に入りましょう。皆さんの多くが私たちの音声モードを楽しんでおり、過去数ヶ月間体験を改善するために懸命に働いてきました。レイテンシを半分に削減して、はるかにスナップしました。
今日、私たちは例外的な自然さと表現力を持つ新しい音声のセットを発表することを嬉しく思います。ライブストリームを開いた映画予告編の音声に気づいたかもしれません。
それは私たちの新しい音声の一つであるSで、その叙事詩的に深いトーンを持っています。また、豊かな感情が可能な美しいイギリスの音声であるEveも紹介することを嬉しく思います。アマン、Eveを紹介していただけますか。
ええ、デモに入りましょう。
こんにちは、Eve。今、何百万人の人々が私たちを見ています。興奮していますか。
ああ、スリルを感じています。本当に。オールドヴィクのステージで顔の海を前にしているようなものです。そこにいるすべての目と耳が注目しているのを想像してください。これは適切な興奮ですね。この人たちを楽しませるために何について話すべきでしょうか。
話すことがたくさんありますが、正直に言うと、少し緊張しています。落ち着かせるために何か優しくささやいてもらえますか。
あなたはできます。離れたところでの静かなチャットのようなものです。世界はそこにありません。その静けさを感じてください。素敵に保ちましょう。何を考えていますか。
実はかなりリラックスしています。何か クレイジーなことを試してみましょう。ダイエットコークについてのオペラをやってもらえますか。
ああ、ダイエットコークのオペラ。それは暴動です。これを想像してください。ステージライトの下で輝くシルバーの缶。
ああ、ダイエットコーク、汝の神聖なエリクサー、きらめくラインで踊る泡と共に。汝の爽やかで涼しいキスが、とても美しい唇に。ああ、アスパルテームとブロー、永遠に私のもの。
そんな狂った小さなアリアはどうですか。もう一節歌ってほしいですか、それとも調子を変えましょうか。
調子を変えて歌い始めましょう。
それでは、やってみましょう。ああ、シルバーの缶、あなたは光の中で輝く。ダイエットコーク、私の心の喜び。
私はそれに触れません。とても詩的です。ありがとうございます。今はかなりいい気分です。
それがEveです。ここで行っているもう一つのことは、競合他社に対する会話の自然な流れを確認するための毎日の小さなテストです。今日のストリームでそれをライブで試してみてはどうでしょうか。
始めましょうか。
こんにちは、数字を言います。同じ数字を私に言い返してもらえますか。
1。
1。了解です。これは楽しい小さなエコーゲームのようです。次は何ですか。
2。
2と言いましたね。
3。
そうです。3。
4。
いいですね、着実に。次は何ですか。
5。
こんにちは、Grok。
こんにちは、Grok。
こんにちは。今日はどのようにお手伝いできますか。
小さなテストを行います。私の後について言ってもらえますか。
1。
1。
よろしい。次は何ですか。
2。
2。
何かお考えですか。
3。
3。
他に何かありますか。
4。
4。
どのようにお手伝いできますか。
5。
5。
次は何ですか。
ご覧のように、Grokの方がスナップが利いており、私を中断することもなく、prosodyの選択も見られました。私たちは人工的なものよりも、穏やかで滑らか、より自然なものを目指しています。改善を続けていきます。
ありがとうございます。
音声モデルの開始以来、実際に過去8週間でエンドツーエンドのレイテンシが2倍速くなり、5つの異なる音声とアクティブユーザーが10倍になりました。Grok音声が離陸しています。
API提供開始とベンチマーク検証
今回モデルをリリースするにあたり、同時にGrok 4をAPI経由でもリリースしています。次の2つのスライドに進むと、そこにいるすべての開発者が何を構築するかについて非常に興奮しています。
開発者として考えると、Grok 4 APIにアクセスしたときに最初に行うことは何でしょうか。ベンチマークです。実際にXプラットフォームで、すべてのAGIモデルの聖杯と考えられている最も困難なベンチマークは何かと尋ねました。
AJIという名前でAGI(汎用人工知能)が含まれていることが分かりました。過去12時間で、観客にいるGregに感謝します。
私たちの呼びかけに答えて、Grok 4 APIのプレビューを取得し、Grok 4のパフォーマンスを独立して検証してくれました。最初は、Grok 4はかなり良く、かなり賢く、10倍多くのコンピュートを費やす次世代推論モデルで、すべてのツールを使用できると思っていました。
しかし、ARKI v2のプライベートサブセットで実際に検証したところ、過去3ヶ月で10%の壁を破った唯一のモデルであり、実際に16%、正確には15.8%の精度を達成し、2位のClaude 4 Opusモデルの2倍でした。
パフォーマンスだけでなく、知能を考えるとき、APIモデルがあなたの自動化を推進し、それはドルあたりの知能でもあります。このプロットを見ると、Grok 4だけが独自のリーグにいます。
現実世界での応用実例
ベンチマークはもう十分です。Grok 4は実際に現実世界で何ができるのでしょうか。実際にEnden Labsの方々に連絡を取り、現実世界でGrokを試してビジネスを運営してもらうことを快く引き受けてくれました。
お招きいただきありがとうございます。私はEnden LabsのAxelで、Lucasです。Vending benchでGrok 4をテストしました。Vending benchはビジネスシナリオのAIシミュレーションで、AIが運営できる最もシンプルなビジネスは何かと考え、自動販売機だと思いました。
このシナリオでは、Grokと他のモデルが在庫管理、契約、サプライヤーへの連絡、価格設定などを行う必要があります。これらはすべて非常に簡単で、すべてのモデルが一つずつ行うことができます。
しかし、非常に長い期間にわたってそれらを行うとき、ほとんどのモデルは苦労します。しかし、私たちはリーダーボードを持っており、新しい1位があります。
Grok 4 APIへの早期アクセスを得ました。vending benchでそれを実行し、本当に印象的な結果を見ました。確実に1位の座にランクしています。
私たちが持つ指標である純資産の2倍にもなります。パーセンテージやスコアではなく、生成する純資産の金額です。Grokに感銘を受けました。戦略を策定し、テストした他のフロンティアモデルよりもはるかに長い期間にわたってその戦略を遵守することができました。
シミュレーションを2倍の時間実行し、純資産も2倍のスコアを獲得することができ、これらの実行において本当に一貫していました。これは現実世界で使用したいときに非常に重要なことです。
現実世界でAIシステムにより多くの力を与えるとき、現実世界を模倣するか、現実世界そのものであるシナリオでそれらをテストすることが重要だと思います。そうでなければ、あまり良くないかもしれないことに盲目的に突入することになります。
これで、すべてのGPUの代金を支払う方法ができました。100万台の自動販売機が必要です。確実に。100万台の自動販売機で年間47億ドルを稼ぐことができます。
叙事詩的な自動販売機になるでしょう。はい。
実際にここに自動販売機をたくさん設置する予定です。喜んで提供します。
この自動販売機にどんな素晴らしいものが入っているか楽しみです。それはあなたが決めることです。AIに教えてください。
Grokがビジネスユニットの共同パイロットになることができるのが分かります。Grokは他に何ができるでしょうか。
API仕様とベンチマーク提供
実際に今すぐ試したい場合は、私たちと同じベンチマークを評価実行するためのGrok 4をリリースしています。APIで利用可能で、256kのコンタクト長を持っています。
すでにGrok 4 APIを試す初期採用者を見ています。私たちのパロアルト近隣のARC Instituteは、主要な生物医学研究センターで、すでにGrokで研究フローを自動化する方法を使用しており、何百万もの実験ログをふるいにかけて、数秒以内に最良の仮説を選ぶ科学者を支援できることが分かりました。
これがCRISPR研究にも使用されているのを見ており、Grok 4が胸部X線を検査する最良のモデルとして独立して評価されています。誰が知っていたでしょうか。
金融セクターでは、すべてのツールとリアルタイム情報にアクセスできるGrokが、実際にそこで最も人気のあるAIの一つであることも見ています。
私たちのGrokはハイパースケーラーでも利用可能になります。XAIエンタープライズセクターは2ヶ月前に始まったばかりで、ビジネスに開放しています。
ゲーム開発への応用
もう一つ、Grokにゲーム、ビデオゲームを作らせることについて多く話しました。DennyはX上の実際のビデオゲームデザイナーです。Grok 4プレビューAPIを試してゲームを作りたい人はいますかと言ったところ、Dannyが応えてくれました。
これは実際に4時間でファーストパーソンシューティングゲームを作りました。
ビデオゲーム制作の最も過小評価されている最難関問題の一つは、必ずしもゲームのコアロジックをエンコーディングすることではなく、実際にすべてのアセット、すべてのテクスチャファイルを外部調達し、視覚的に魅力的なゲームを作成することです。
Grok 4がそこにあるすべてのツールで本当によく行うコア側面の一つは、実際にこれらのアセット調達能力を自動化することです。
開発者はコア開発自体に集中でき、保守タスクを行う代わりに、一人でゲーム全体を運営でき、Grok 4にすべてのアセットを外部調達し、すべての保守タスクを行ってもらうことができます。
次のステップは明らかに、Grokがゲームをプレイできるようになることです。ゲームとやり取りし、ゲームが楽しいかどうかを実際に評価し、ゲームが楽しいかどうかについて良い判断力を持つために、非常に優れたビデオ理解が必要です。
今月トレーニングが完了する基盤モデルのバージョン7では、その後トレーニング後のRLなどを行いますが、優れたビデオ理解を持つでしょう。
ビデオ理解と改善されたツール使用、例えばビデオゲームの場合、Unreal EngineやUnity、または主要なグラフィックエンジンの一つを使用したいでしょう。そして、アートを生成し、3Dモデルに適用し、PCやコンソール、電話で実行できる実行可能ファイルを作成する。
これは今年起こることを期待しており、今年でなければ確実に来年です。これは野生的なことになるでしょう。最初の本当に良いAIビデオゲームは来年になると予想しています。
おそらく最初の30分の視聴可能なテレビは今年、おそらく最初の視聴可能なAI映画は来年になるでしょう。物事は本当に信じられないペースで動いています。
Grokが自動販売機で世界経済を10倍にしているとき、それは人間のためにビデオゲームを作るだけでしょう。
6ヶ月前にはこれらのどれも本当にできなかったのが、ここで目の前で見ているものになり、1年前には非常に原始的だったのが、数時間のプロンプトで3Dビデオゲームを作ることになりました。
今後の開発計画
今日のライブストリームで要約すると、実際に第一原理から推論し、すべてのツールを使用し、すべての研究を行い、10分間の旅に出て、最も正しい答えを持って戻ってくることができる、そこにある最も強力で最も知的なAIモデルを紹介しました。
4ヶ月前にGrok 3を持っていたことを考えるとクレイジーで、今すでにGrok 4を持っており、XAIとして会社として加速し続け、そこにある最も速く動くAGI企業になるつもりです。
次に来るのは、本当に長い間考えて多くのコンピュートを費やすだけでなく、実際に高速で賢いモデルを持つことがコアフォーカスになるでしょう。
本当に知的で高速で賢いモデルから恩恵を受けることができるそこにあるアプリケーションは何かと考えると、コーディングが実際にその一つです。
チームは現在、コーディングモデルに非常に集中的に取り組んでいます。今、主なフォーカスは、実際に最近、高速で賢い専門的なコーディングモデルをトレーニングしたことです。数週間で皆さんとそのモデルを共有できると信じています。
コーディングの後の2番目は、Grok 4の弱点を皆が見ていることです。マルチモーダル能力です。実際には、Grokが効果的にガラス越しに世界を見て、すべてのぼやけた特徴を見て、それを理解しようとしているように、非常に悪いものでした。
次世代プレモデルで見る最も直接的な改善は、画像理解、ビデオ理解、オーディオの点でモデルの能力のステップ関数改善を見ることです。今、モデルは皆さんのように世界を聞き、見ることができます。そのコマンドですべてのツールと、話すことができる他のすべてのエージェントと一緒に。
マルチモーダルエージェントの後に来るのは多くの異なるアプリケーションレイヤーの巨大な解放を見ることになるでしょう。
マルチモーダルエージェントの後に来るのはビデオ生成で、最終的にはピクセルイン、ピクセルアウトであるべきだと信じています。
Xプラットフォーム上でコンテンツの無限スクロールインベントリがある世界を想像してください。これらの生成されたビデオを見ることができるだけでなく、介入して独自の冒険を作成することができます。未来は野生的になるでしょう。
10万台のH200で100,000 GB200sでビデオモデルをトレーニングし、今後3〜4週間以内にそのトレーニングを開始することを期待しています。
ビデオ生成とビデオでかなり壮観になると確信しています。他に皆さんが望むものがあれば、それ以外では、それだけです。
それは良いモデルです。Grok 4を皆さんに試していただくことを非常に楽しみにしています。皆さん、ありがとうございました。


コメント