xAIが新たにリリースした最新モデル「Grok 4.20」の革新的なマルチエージェント・アーキテクチャについて解説する動画である。このモデルは単一のAIではなく、統括役のGrok、情報収集のHarper、論理・数学担当のBenjamin、そして創造的な反論を提示するLucasという4つのエージェントが内部で議論を交わし、合意形成を行ってから回答を出力するという特異な仕組みを持つ。リアルタイムの圧倒的な情報処理能力や、強化学習による最適化、さらに株価予測などの実践的なベンチマークにおける卓越したパフォーマンスなど、Grok 4.20が既存のAIモデルと一線を画す理由を詳しく考察している。

待望のGrok 4.20がリリース
今日こそ、私たちが待ちに待った日です。Grok 4.20が遂に公開されました。つまり、Grok 4.2ですね。ベータ版の展開が始まっています。そしてこのモデル、ちょっと変わっているんです。というのも、実際には単一のモデルではありません。皆さんに話しかける前に、内部で4つのモデルが互いに議論を戦わせているんですよ。こんな展開、誰も予想していなかったんじゃないでしょうか。
Grok 4.0は、4つのエージェントによるマルチエージェント・コラボレーション・システムを導入しています。でも、これはGrok Heavyとは違います。Grok Heavyでは4つのエージェントを並行して走らせることができますが、あれは個別のエージェントのインスタンスが4つあるだけです。今回のはそれとは全くの別物なんです。
4つのエージェントによる共同作業システム
まずはわかりやすいところから始めて、だんだん奇妙な部分へと深掘りしていきましょう。さて、4つのエージェントが登場します。これが今回の核となるイノベーションですね。複雑な質問を投げかけると、4つのエージェントすべてが同時に起動します。
私たちのメインエージェント、言うなればGrokですね。彼が船のキャプテンです。コーディネーターとしてタスクを細かく分解し、他のエージェントにタスクを割り振り、戦略を練ります。彼がボスであり、キャプテンなんです。彼には他のエージェント間の衝突を解決する役割もあるようで、最終的にすべてを要約し、最終的な答えを統合して皆さんに提示してくれます。ですから、Grokがピラミッドの頂点にいて、その下に3人の従業員、あるいはサブエージェントがいると想像してみてください。呼び方はなんでも構いません。
まず最初にご紹介するのはHarperです。Harperはリサーチと事実確認の担当エージェントです。ファクトチェッカーですね。Xという膨大な情報の奔流を飲み込みながら、リアルタイムで検索を実行しているのが彼です。Xには毎日6800万件もの英語のポストがあると言われていますよね。まさに情報の奔流です。そしてHarperというエージェントは、そのすべてを飲み込み、整理しようとし、証拠を集め、主張の真偽を検証しているんです。Grok 4.20が突発的なニュースに対してほぼリアルタイムの認識を持てるのは、このHarperのおかげなんです。
私がGrok 4.20をいじってみた短い時間でも、情報がはるかに最新で、情報源の数もずっと多いように感じました。現時点で、リアルタイムのデータ更新が必要な場合、これに少しでも近づけるものは他に存在しないと思います。Geminiのモデルも非常に優秀です。検索もできるし、ウェブで情報源を探すこともできますが、Grok 4.20のリアルタイム性には遠く及びません。
次のエージェントはBenjaminです。こちらは数学、コード、論理などを担当しています。厳密な思考、段階的な推論、数学的証明、計算による検証、コード生成などをこなします。Harperが何かデータを見つけたとしますよね。Harperは、あのXの情報の奔流を扱うリアルタイム情報リサーチ担当ですよ。彼が情報を見つけると、Benjaminがそれにストレステストをかけ、チェックし、疑わしい点がないか確認するんです。
そして3番目のエージェントがいます。彼がどんな性格か予想がつきますか。やり手のリサーチャーがいて、数学や論理の担当がいる。ここに来る3番目はLucasです。彼は創造的なバランスをとるタイプですね。ちょっとしたワイルドカード的存在です。発散的思考や、反対意見を提供してくれます。何にでも食って掛かる、グループに一人はいるあの鬱陶しいヤツですね。もちろん冗談です。本当に鬱陶しい人なんていませんからね。まあ、中にはいるかもしれませんが、私が言いたいのは、彼らがこのシステムをどう構築したかが非常に興味深いということです。
これまでの多くの生成プロセスで気づいたことですが、複数のエージェントが協力して作業する場合、モデルはしばしば一つのアイデアに収束しがちです。それについて話し合えば話し合うほど、自分たちのコンテキストウィンドウにそのアイデアが反映されているのを見て、ますますそれに固執していくんです。
これってすごくいいアイデアだと思うな
ああ、それは素晴らしいアイデアだね
いや、最高だよ。歴史上最高のアイデアだ
こんな感じで、自分たちが思いついたことにどんどん乗っかっていくんです。少なくとも私たちは過去にそういう例を見てきました。これについてもっと知りたい方は、Anden Labsの創設者たちへのインタビューをチェックしてみてください。彼らはVending Bench 1と2、そしてVending Bench Arenaの背後にいる人たちです。彼らはシミュレーションの中で、モデルがいくつかのアイデアに収束してしまい、近親交配的とまでは言いませんが、一つのことにしがみついてそのまま突っ走ってしまう現象を何度も目撃していると説明してくれました。
興味深いことに、ここでLucasエージェントの出番です。もちろん理論上の話ですよ。まだこれを十分に試す時間はなかったので、話半分に聞いてくださいね。私たちが今持っている最初の情報に基づいているだけですから。まだAPI経由でGrok 4.20を使えないので、徹底的にテストすることはできていません。でも、もしその通りだとすれば、理論上、Lucasは狭い回答へと早急に収束してしまうのを防ぐための、あえて反論を唱える役割を果たすことになります。彼は、みんなが型にとらわれない考え方をするように促す、ちょっとしたカオスを生み出すワイルドカードなんです。
プロフェッショナル向けAIツールキット
AI動画といえば、皆さんも色々なAIツールを見たことがあると思いますが、私たちクリエイターとしては、実際のプロフェッショナルなワークフローに組み込めるものが必要です。今日の動画のスポンサーはArtlistで、彼らの真新しいAIツールキットの早期アクセスを提供してくれました。
ほとんどのAIツールは機能がバラバラに散らばっています。でもこのAIツールキットは、画像、動画、そしてAIナレーションのツールを一つの整理されたワークスペースに統合しているので、5つも違うタブを行ったり来たりする必要がありません。これは単なる新しいモデルではありません。アーティストのプロフェッショナルな映像だけを独占的に学習させた初の画像生成モデルなんです。
生成されるすべての画像は、実際の映画撮影技術に基づいており、プロダクションレベルの色彩科学と奥行きを備えています。映像制作者なら、専用のスタイルを使ってルックを実際にディレクションすることができます。
もう私についてこなくていいよ
わかってる、でもまだそうしたいんだ
映画風やコマーシャル風といったスタイルを指定して、プロンプトを驚くほどの精度で解釈してくれます。ネガティブプロンプト、プロンプトガイダンススケール、そして自分のビジョンを本当に細かく調整するための複数の参照画像の使用など、より深いコントロールが可能です。
これはまだ早期アクセスなので、モバイルエクスペリエンスのブラッシュアップや、音声クローン、音声テキスト変換などの機能の最終調整をまだ行っている最中だという点には注意してくださいね。AIスタータープランでこれから始める方でも、Artlist Maxでプレミアムカタログ全体を使いたい方でも、すべてのクリエイターにぴったり合うものがあります。概要欄のリンクから、5000万人以上のクリエイターの仲間に加わって、今日からArtlistのAIツールキットを使って制作を始めてみてください。
エージェント間の内部議論とコンセンサス
さて、Grok 4.20に質問をすると、キャプテンであるGrokが動きます。少しややこしいですが、彼はメインとなるエージェントの一人ですね。キャプテンのGrokはプロンプトを分析し、それをサブタスクに分解して、すべてのエージェントを同時にアクティブにします。4つのエージェントすべてが並行して考え始めるんです。一人ずつ順番に部屋を回って意見を聞くような直列的なやり方ではありません。彼らは並行して処理を始め、それぞれが独自のパーソナライズされた視点から物事を考え抜きます。
そして、これが内部での議論の引き金になります。エージェントたちは、一種のピアレビューのラウンドを繰り返すんです。リサーチャーのHarperは事実に関する主張にフラグを立てて、それが本当に正しいかどうかダブルチェックし、ファクトチェックを行います。Benjaminは論理や計算などをチェックします。Lucasはさまざまなバイアスやそういった類のものを探し出します。彼らは合意に達するまで、反復的に互いに質問し合い、修正し合います。
今気づいたんですけど、なぜ私がサングラスをかけているのか不思議に思っているかもしれませんね。実は顔を少し引っ掻いてしまって、めちゃくちゃごまかしているんです。カッコつけてるわけじゃないんですけど、まあ続けましょう。
とにかく、彼らはそうやってグループディスカッションを行います。互いにテストし、質問攻めにし、徹底的に追及し合い、最終的にコンセンサスに達するんです。そしてこの時点で、4つのエージェントの1人であるキャプテンのGrokが、それぞれの最も強力な要素をすべてかき集めます。残っている意見の相違を解決し、一つの首尾一貫した回答として出力するんです。
Society of MindとGrokの違い
ここが非常に重要で、なんだか少し奇妙に感じるところでもあります。奇妙というより、新しいんですね。斬新なんです。これまでにもChatDevやAutoGenのようなものは見てきました。以前の動画の一つで、「Society of Mind(心の社会)」を構築することについて話しましたよね。基本的には、4つのラボから提供されている最高のモデルを集めて、互いにチャットさせ、私が今Grok 4.20のやり方として話したのと非常によく似たプロセスを踏ませるというものです。
なぜそんなことをするかというと、このチャンネルで取り上げてきた過去の論文に、そのアプローチが実際にうまく機能することを示す研究が山ほどあるからです。より良いアイデアが生まれるんです。これらのエージェントは部分の総和以上の力を発揮します。彼らが集まることで、個別に作業したり、ただ出力を合計したりするよりも、はるかに多くのことができるようになるんです。
伝わっているといいんですが、一つ簡単な例を挙げましょう。私自身の実験で、特定のトピックに関する新しい動画がネット上にアップされたかどうかを確認し、その動画がどのように変化しているかを追跡するシステムを、これら4つのエージェントに作らせました。データを集めるためにYouTube APIを使用するものです。
ClaudeとCodexが私がお願いしたシステムを構築してくれたんですが、それはもう見事な出来栄えでした。すべての条件を満たし、ちゃんと動いて、必要なデータを取得してくれました。ただ一つだけ問題があって、それはすべて完璧なんですが、もしそのチェックを頻繁に実行しようとすると、残高がどんどん減ってしまうということでした。APIを呼び出すたびに少しずつお金がかかりますからね。だから、もし5分おきとか10分おきに更新したいと思ったら、数週間から数ヶ月でかなりの出費になってしまいます。
それを見て私は、これはちょっと現実的じゃないかもしれないなと思いました。でも、それをあのSociety of Mindに通して、すべてのモデルに意見を言わせ、どうすれば改善できるか説明させてみたんです。面白いことに、後から考えればかなり当たり前のことなんですが、ここでGeminiがアイデアを出してくれました。もちろんGeminiはGoogle DeepMindのモデルです。YouTubeもAlphabetという同じ親会社の一部ですから、驚くことではなかったのかもしれません。でもGeminiはこう提案したんです。
ねえみんな、何をしてるんだい。新しい動画があるかどうか確認するだけなら、RSSフィードを使えばいいじゃないか。もし新しい動画があったら、その時だけAPIを使って必要なデータを集め始めればいい。RSSフィードなら無料だよ。1日に何度実行しても制限はないし、なんなら1秒ごとに確認してもタダさ。まあ1秒ごとに確認したいとは思わないだろうけど、とにかくコストはかからないんだ。更新があるかどうかのチェックにはそれを使って、コストや制限が伴うAPIの呼び出しはその後に回せばいい。
このアイデアのおかげで、もし頻繁にチェックを入れたら月に100ドル以上かかっていたかもしれないアプリが、ほんの数ペニー、もしかしたら無料枠に収まって完全にタダになるかもしれないレベルにまでコストダウンしたんです。
ここで重要なのは、GeminiモデルがClaude Opus 4.6やCodex 5.3ほどうまくコードを設計できたとは私は思っていないということです。Google DeepMindが新しいモデルのリリースに向けて準備を進めているのは感じていますし、きっと素晴らしいものになるでしょう。でも、今挙げたモデルは最新のリリースで、現在のところコーディングにおいてはトップクラスです。しかしGeminiは、システムを非常にエレガントにする方法のアイデアを持っていました。
部屋を一周してすべてのモデルに意見を求めるというそのアプローチだけで、異なるラボの全く違うモデルたちが集まることで、どの単一のモデルよりもはるかに優れたソフトウェアを生み出したんです。
強化学習による最適化と独自の構造
少し話が逸れてしまってすみません。でも私が言いたいのは、これは決して全くの新しいアイデアではないということです。私たちはここ数年、このことについて話してきましたし、これを実証した論文もいくつか取り上げました。Googleにも興味深いSociety of Mindの論文がありましたし、その論文を引用してさらに発展させた他の論文も山ほどあります。
だから皆さんは、じゃあこれの何がそんなにすごいんだ、ただそれと同じじゃないか、と言うかもしれませんね。いいえ、私たちが知る限り、これは何か違うんです。以前のモデルで話していたのは、ユーザーが調整するフレームワーク、AutoGenか何かでした。複数のモデルが協力して作業する、つまり部屋の中にいる4人の個人みたいなものです。
Grok 4.20 Heavyなら、4人のクローンが一緒に働いていると考えることができます。同じモデルを4回、あるいは最大32回クローン化したものです。でも、これは違います。これはまるで、何でしょう、ヒドラとか、4つ頭のドラゴンとか、ケルベロスとか、なんて呼べばいいかわかりませんが、とにかく一つのモデルなんです。推論のプロセスに直接組み込まれているんです。
エージェントたちはモデルの重みを共有しています。入力のコンテキストも共有しています。xAIによれば、これを実行するための限界費用は、単一のエージェントを使用する場合の1.5倍から最大2.5倍程度であり、このシステムを4つクローンして並列に実行した場合のような4倍にはならないそうです。
この議論のラウンドは短時間で終わります。これらは強化学習(RL)によって最適化されているんです。つまり、より良い答えを導き出すために4つすべてが協力し合うように、強化学習の圧力がかかっています。そして何より効率的です。このアーキテクチャは無駄を最小限に抑えます。
イーロン・マスクが、xAIがGrokをトレーニングする際に持っている秘密のソースについて話しているのを聞いたことがあります。xAIにいる多くの異なる研究者たちがそれについて投稿していますが、少し曖昧な言い方ではあるものの、全員がこれがRL(強化学習)のための何か特別な秘密のソースであるという考えを示唆しています。
事前学習が教科書を読んで知識を吸収しようとするようなものだとすれば、強化学習は本の巻末にある問題に答えるようなものです。答えを見て、それを解いて、自分が正しいかどうかチェックする。正解ならハイタッチしてよくやったと褒められ、間違っていたらもう一度挑戦して何かを学び、改善していくわけです。
だからこれは強化学習です。でも間違いなく、彼らは何かユニークで、他とは違う、新しいアプローチを編み出したようです。食品の広告みたいですね。プロテイン増量中、みたいな。でもこれは、脳みそ増量中、といったところでしょうか。
そしてもちろん、これはColossusスーパー・クラスターでトレーニングされたわけですよね。確か20万基のGPUが稼働しているはずです。そしてそのパワーの多く、GPUがフル回転したその力は、この新しいアプローチに特化した強化学習のトレーニングに注ぎ込まれたに違いありません。
どうやらこれは3兆パラメータのモデルで、Mixture of Experts (MoE) アーキテクチャを採用しているようです。でも、私たちが話しているこの4つのエージェント、つまり4つのエキスパートについての機能は、Mixture of Expertsで言及されるものとは違います。MoEでは、論理ゲートやルーターのようなものがあって、質問をどこに送るべきかを判断し、そのエキスパートにルーティングしますよね。
これは違います。これはディベート形式なんです。ルーティングするのではなく、全員が話すんです。すべてのエキスパートが発言します。私の知る限り、こんなものは見たことがありません。もし私が間違っていたらコメント欄で教えてください。他にこんな新しいアプローチで発表されたものってありましたっけ。これについて言及している論文はありましたか。だって、これまで見てきた他のすべてのものとは違うように見えるんです。似ているけれど、違います。
株価予測アリーナでの圧倒的なパフォーマンス
皆さんは、それで一体何ができるんだ、何かでより良いパフォーマンスを出すのか、と気になっているかもしれませんね。ベンチマークの公開はまだ始まったばかりです。イーロン・マスクは、もうあのような標準的で静的なベンチマークには焦点を当てていないと言っていました。だからHumanity’s Last Examみたいなものにはもう興味がないんです。今、より関心があるのは、実際の自律的なエージェントとしてのパフォーマンスです。長期的な視野に立ってタスクを遂行できるか、脱線せずに自分が何をしているか覚えていられるか、などです。つまり、実際の役に立つ現実世界での能力ですね。
リリース前にGrok 4.20が登場したベンチマークを見たんですが、非常に興味深いものでした。Alpha Arena Season 1.5がありましたよね。あれはライブの株式取引のシミュレーションで、誰もが進行状況を追うことができます。実際にブロックチェーン上にあるので、すべてのトランザクションを検証することが可能です。そこにはオープンソースのモデルも、中国のモデルも、欧米のラボのモデルも、すべてのモデルが参加していました。
数週間そのアリーナが稼働した結果、時間が経つにつれて当然ながらそのほとんどが損失を出しました。どういう仕組みだったかというと、各モデルが4つのバリエーションで参加したんです。1つは標準的なもの、別の1つは他のモデルと競争していることを認識しているもの、もう1つは資本保全により重点を置いたもの。すべてのシナリオは覚えていませんが、それぞれに独自の特徴がありました。
つまり、OpenAIもGoogleも、すべてのモデルに4つのバリアントがあったわけです。競争が終わった時、それらはすべて赤字でした。例外はGrok 4.2のバリアントである4つのモデルだけでした。彼らだけが利益を出したモデルで、数週間の稼働で約35%の利益を叩き出したんです。
面白いのは、当時私は彼らがリアルタイムのニュースを取得していないか、少なくとも自分たちではリアルタイムのニュースを検索していないと思い込んでいたことです。Alpha Arenaのシミュレーションで1日なり何なりの時間が経過するごとに、彼らには、現在の市場はこうなっています、あなたの株価はこれくらいです、現在こんなニュースが起きています、というプロンプトが与えられていました。そしてモデルたちはそれに基づいて決定を下していたんです。
でも今考えると非常に興味深いことに、Grok 4.20以降は、最初のエージェントの名前が何でしたっけ、Harperですかね、リアルタイムのリサーチャーがいましたよね。彼はリアルタイムでXのデータフィード全体、あの情報の巨大な奔流をくまなく調べていたみたいなんです。そしてもちろん、それは計算に使われていたはずですよね。もしそれが一つのモデルなら、脳のその部分だけをシャットオフすることはできないわけですから、間違いなく組み込まれていたはずです。私の推測にすぎませんが、これについてもっと情報が出てくるのが楽しみです。これは本当に魅力的ですね。
現在、LLM Arenaという非常にリスペクトされているリーダーボードがあって、これらのモデルの性能をランキングしています。トップにはClaude Opus 4.6がいて、テキスト分野のメインランキングでのEloレーティングは1506です。コード分野でのEloレーティングは1561ですね。テキストの通常部門のトップスコアが1506です。そしてGrok 4.1のThinkingモデルは1483かそのあたりにいます。今回見ているこれらの要素をすべて考慮すると、Grok 4.20が完全にランク付けされてみんながお気に入りのモデルに投票し終わった時、総合1位のポジションを獲得しても私は全く驚きません。本当にそうなるかどうかはわかりませんが、一気にトップに躍り出たとしても不思議ではありません。
システムプロンプトの公開と情報処理能力
もちろん、あの解放者プリニー、モデルのジェイルブレイクで悪名高い彼が、すでにGrok 4.20を突破しており、完全なシステムプロンプトが彼のアカウントにオンラインで公開されています。もし興味があればチェックしてみてください。そのプロンプトの大部分は、ポリティカル・コレクトネスに反する質問をどう扱うか、あるいはユーザーの質問に対してポリティカル・コレクトネスに反する答えが出た場合にどう対処するか、という点に割かれています。
そしてそのための主な指針は、裏付けが取れるのであれば、そういったポリティカル・コレクトネスに反することでも発言して構わない、というものです。だから、他のモデルが繊細に避けて通るような話題から逃げることはありません。自分が考えていることを伝え、その情報源を提示してくれます。
そしてもちろん、xAIは自社のプロンプトをGitHubでオープンソース化している数少ない企業の一つだということも忘れないでください。そこに行けば、彼らがオープンソース化したものをすべて見ることができます。Grokの任意のモデルがどのようなシステムプロンプトで動いているかを確認できるんです。Grok 4.20はまだそこにはありませんが、私の知る限り、それ以前のモデル、つまり昨日までのモデルはすべてそこに入っています。システムプロンプトを見ることができるんですよ。
これについて皆さんがどう思うか教えてください。なんだかすごく素晴らしいことのように思えます。私も限られた短いテスト期間の中でかなりいじってみました。主にリアルタイム情報に焦点を当てていたので、それ以外の部分はあまりテストできていませんが。でも、リアルタイムの最新情報を整理し、検証し、ファクトチェックするという観点から見れば、このシステムは非常に優秀です。
たった30秒で、28もの情報源を伴うクエリへの回答を返してきました。その情報源の1つはブライアン・https://www.google.com/search?q=%E3%83%AF%E3%83%B3%E3%81%8C%E6%9B%B8%E3%81%84%E3%81%9Fnextbigfuture.comで、彼も私がここで話したような内容の一部を取り上げていました。素晴らしい情報源です。xAIとこの新しいリリースについて、あんなに内容の濃いブログを書いてくれた彼には本当に称賛を送りたいですね。彼のブログを知ったのは今回が初めてだったんですが、他の投稿もいくつか見てみて、もっと読んでみたいと思いました。
ですから、Grok 4.20は非常に質の高い情報源を選んで情報を取得しているだけではないようです。それらを素早く見つけ出し、大量に見つけ出し、すべての情報を非常に見つけやすく、読みやすい記事にまとめる能力も備えているんです。
終わりに
ちなみに、詳細な記事のリンクを下の概要欄に貼っておきます。ブログでちょっと新しい試みをしていて、今後の動画でもお話しするつもりですが、個人的にすごくワクワクしていることなんです。もし時間があれば、natural20.comをチェックしてみてください。新しいバージョンが今日公開されたばかりで、私たちが過去に見てきたものとは少し違っています。それについてはまた今後の動画でお話ししますので、ぜひ見てみてくださいね。
Grok 4.20についての皆さんの感想も教えてください。第一印象はどうでしたか。もし試してみたいなら、grok.comに行くのが一番簡単な方法でしょうね。スマートフォンならGrokアプリをダウンロードする必要があります。でも、ショーノートやそういった情報はすべて下のリンクにまとめておきます。
ご視聴ありがとうございました。それではまた次の動画で。


コメント