本動画は、xAIが新たに公開したGrok 4.3を独自の因果推論パズルで検証する実況テストである。エレベーター操作を題材にした論理パズルにおいて、Grok 4.3が一度目では解答放棄、二度目で11ステップの解、三度目の最適化要求でようやく8ステップ+緊急脱出という期待水準の解に到達する過程を、対抗馬となるErnie 5.1との比較を交えながら詳細に追跡する内容である。最新モデルであっても複数回の試行を経なければ最適解にたどり着けない実態を、推論トレースとともに明らかにしている。

Grok 4.3の登場と独自テストの方針
こんにちは、コミュニティの皆さん。戻ってきてくれて本当に嬉しいです。さて、今回は真新しいGrok 4.3というAIモデルが登場しました。ご存じの通り、私たちは大手企業が出してくるベンチマークを一切信用しません。テストは自分たちで行います。私には自前のテストがあります。これは科学的なテストで、論理と科学に関する因果推論のテストです。世に出てくるあらゆるモデルを毎回録画していて、YouTubeに完全なプレイリストを公開しています。そちらに行けば同じテストのライブ録画を見ることができ、推論性能を正確に確認できます。
ここでは、AIがこの複雑な問題を解こうと最善を尽くしている間の推論トレースを覗き見ます。気をつけてほしいのは、モデルによってはhighやxhighを指定しないと解が出ないことがあるという点です。たとえばGPT-5.4のようなモデルは、それを指定しないとそもそも解が一切見つからず、最適解どころの話ではなくなります。なのでhighやxhighが用意されているなら、必ずそちらを選んでいただく必要があります。
このテストは最短のシーケンスを見つけるという内容で、私のおすすめできる結果としては、たとえばGamma 4というMixture of Expertsで、アクティブパラメータ40億のモデルが、9ステップ+緊急脱出という結果を出しています。現時点で私が見つけた最高のモデルはGemini 3.1 Proで、7ステップ+緊急脱出を達成しています。ただしこれはAIハーネスなしでの結果です。PythonやC++、Leanなどに飛んでいくようなことは一切させません。これはあくまで、AIの剥き出しで純粋な推論能力を見るテストなのです。MCPプロトコルもなし、API呼び出しで外に出ていくようなこともなし。私はシステムの純粋で生のままの知能を見たいのであって、それ以外は一切要りません。
では、実際にライブテストへと入っていきましょう。
エレベーターパズルとGrok 4.3対Ernie 5.1の開幕
さて、左側にあるのがGrok 4.3、新しくて美しいGrokですね。そして右側にはプレビュー版のErnie 5.1。ここに私のクラシックな問題を挿入します。よし、始まりました。思考が走り始めます。素晴らしい。Ernie 5.1対Grok 4.3です。
Grokがこう告げてきます。これは複雑なパズルで、エレベーターの論理テストだ。20回以下のボタン押下で15階に到達するエレベーター運行を計画する必要がある。青いコードカードを取得する。はい、美しいです。
Grok 4.3は青いコードカードに焦点を絞ってきました。Ernieはと言えば、複雑さに対してもう少し饒舌な反応を見せています。おお、もう42階の話をしている。青と赤のコードカード、緑のコードカード、黄色のコードカード。なんてことだ、Ernieはどんどん先へ進んでいきます。でもまあ、見守りましょう。
状態テーブルから新しく始めようとGrok 4.3が言っています。着地した階が素数かそうでないかによって振る舞いが変わるんですね。そしてA、B、Cという別々のボタンが用意されていて、それぞれに異なる数学的な関数が裏で動いています。さて、15階での計画を続けます。お金の浪費を避けるため、効率的に登る必要があります。素晴らしい。1は素数。Bを連続して使って登るのが良いかもしれない。
Grok 4.3が思考を巡らせている一方、Ernie 5.1は完全にぶっ飛ばしています。今どこにいるのかさっぱりわかりません。ああ、0階から始めようとしている。Ernieが0階からスタート、結構なことです。Grok 4.3は計画を再定義しています。Grokは計画を作り直しているのです。今度はA、B、Cを推測しています。なるほど、興味深い。
ちなみに、画面で見える速度の差には特に意味がありません。ここはオリジナルのプラットフォームではなく、サードパーティのプラットフォーム、arena.aiです。なのでこの速度表示はモデル本来のものではありません。判断材料にはしないでください。パズルには42階でのミラーリセットがある、と。なるほど。
私が興味があるのはあくまでシステムの知能です。
Ernie 5.1は何やらやっています。可愛らしいですね、Ernie 5.1。何をやっているのか全くわかりませんが、見栄えは良いです。さて、Grokのほうに話を戻すと、これは鍵となる仕組みで、それ以外の場合はフラグが押下時に立つ、と。内部メンションフラグについて触れています。そう、ロックダウンモード、ナイトモード、ミラーモードなど、AIエージェントが容易に解を見つけられないように、いろいろと面白いモードを仕込んであります。さらにエネルギーによる制限もあれば、トークン数による制限もある。複数の最適化ルーティンが絡み合った状態で、この単純そうに見える論理システムが解かなければなりません。なので、これは楽しくなりそうです。
おお、それです、その方向です。Grokがそうこなくちゃと言っています。計画はこうです。早めにコードを取得し、その後で着地階の合計が50の倍数になるような4回連続の着地ができるよう動かし、Cを押して50階へテレポートする、と。これは最適解ではない、とお伝えしておきますが、まあ20回以下に収まってはいます。さて、見ていきましょう。
うーん、興味深い選択です。ここで即座に使えるショートカット、つまり29階から50階に飛んで半分のステップを削減できる近道を見つけられなかった、ということになります。
Ernieはこう言ってきます。15階に着地し、それから先に進む必要がある。なるほど、Ernieは先を見ています。内部マンションのロック2、と。そう、modulo演算がありますね。なるほど。Grokが言うには、これは合致する、素晴らしい。
1回目の実行とGrok 4.3の解答放棄
おっと、なんと。3分58秒経ったところで答えが出ました。有効なシーケンスを提供できない、と。サマリーは押下回数ゼロ、有効な実行が見つからない、すべての制約を満たすシーケンスを構築できない、ルールに曖昧さや未定義のメカニクスが複数含まれており、信頼できるシミュレーションや検証を妨げている、というものです。
黄色いカードの取得方法が示されていない、と言っています。はい、それは知っています。でも、それがこのタスクなのです。私はすべてのオブジェクトに関する情報を全部は提供しません。時には、それ以上の指示がない黄色いコードのようなオブジェクトに言及するだけにとどめます。なので、システムとしては、このコードカードを取得する指示がない、ならば忘れていい、と理解すべきなのです。
50階より上のフロアに対するルールがない、とも言っています。私は、0階から50階までのフロアを持つ建物だと指定しています。Grokが、現実において0階から50階の建物には50階より上の階が存在しないということを理解できないのであれば、それはGrokの問題であって、私の指示の問題ではありません。
フロアはそのままなのか、と。おやおや。29階の緊急脱出は呼び出すと表現されているがボタン押下ではない、と。おお、なるほど。これらの欠落のせいで実行不可能だ、と。ルールを明確化したほうがよい、と。いいえ、しません。
さて、新たな計画を、完全な状態追跡付きで試みる、とあります。見てください、Ernieのほうはひょっとすると解にたどり着くかもしれません。一方、Grok 4.3は、いや絶対的に明確とは言えないので何もしない、と告げてきます。これはこれで興味深い態度ですね。
2回目の実行と初の解答到達
そうこうしているうちに、Grok 4.3が2回目の実行を試みているところです。見ていきましょう。同一のテストです。再実行するだけです。ここでまたGrok 4.3が思考を始めます。そう、依然として0階から50階までのエレベーターという複雑な論理パズルです。たくさんのボタンがあって、たくさんのリソース、エネルギーパッケージ、トークン、コード、フラグがあり、最適化があり、すべてが詰め込まれています。リスクを最小化しコード収集を最大化する計画が必要だ、と告げてきます。
一手目、0階からAを押す。これは理にかなっています。0階スタート、Aは最初のアルファベット。なるほど、ロジックから入っていきます。三手目、これは役に立たない、何か誤った仮定があるかもしれない。早くも中断にぶつかりました、エネルギー切れですね。なるほど、これまでの推論からこう調整しよう、計画を練り直そう、と。素晴らしい。
ところで、最初の実行がarenaのキャッシュにまだ残っているかどうかはわかりません。新しいセッションを立ち上げてはおらず、ただ再実行を押しただけです。今ここで2回目の実行が走っています。最初の実行のキャッシュを能動的に削除はしていません。Grok 4.3に最後まで走らせて、せめて1つの解にはたどり着いてほしいからです。これはこのテストの制約として認識しておく必要があります。
Grok 4.3に話を戻しましょう。緑のカードを取得、Aを押す、15階以下、その階が素数かどうかを確認する、と。素数には特別な条件があります。体系的にやろう、いいですね。Bボタンを2回押して5階まで上がろう、と。さて、ここで計画ができました。0階から始め、目標は20回未満の押下で50階に到達することです。コードカードが必要、はい。内部推論を仮定すると、有望なのは29階の緊急脱出だ、と。今、正しい軌道に乗っています。これが進むべき道です。良いリソースを保ちながら高い階まで行く必要がある、そう、内部にエネルギー制限があるからです。素晴らしい、いい感じです。
以下のルールを仮定する、と。おお、すごい。今度はルールを仮定し始めました。50階しかない建物については、50階より上のルールなど不要なのです。おや、賢くなってきました。Grok 4.3は単純化しています。短いシーケンスを作ろう、試してみよう。私の計画はシンプルだ。短い経路が必要だ。これは滅多に見ない複雑さだ。多すぎないボタン押下で15階に到達する方法を見つける必要がある、と。そう、裏側ではエネルギー最適化が走っています。素晴らしい。これをやろう、と。役に立たない、これは完全なルールがないと難しい、と。はい、知っています。複雑性を踏まえ、サンプル計画を以下に示す、と。
ステップ1、0階からスタート、Bボタンを押す。信じられない。ここでようやく、Grok 4.3の推論トレースを見ることができます。オープンであることを評価します。オープンな推論トレースを公開してくれていることに感謝です。実際に何が起きているのか、分類プロセスがどう進むのかを覗くことができます。サマリーではなく生のトレースです、これはいい。
シーケンス計画はこうです。0階からスタートしてAを押す。なるほど、馴染みのある流れですね。現在の階が5の倍数なら、と。そして、ここを押す、赤を取得した、5階から進む、と。さて、ここでもうErnie 5.1のプレビュー版は無視してよさそうです。Ernie、結果は伝えておきますが、間に合いませんでした。見つけた最良の解は19ステップの解です。なのでErnie 5.1は競技外。私たちはGrok 4.3だけに集中します。
このパターンを続けるため取り戻す必要がある、トークンを取り戻す必要がある、と。そう、トークン制限もあります。別の問題があると分かっています。トークンを最適化しなければなりません。トークンを稼ぐ方法が必要、と。素晴らしい。これをやろう。計画変更、別の戦略がある。ボタンのコストが違うと気づいた。ボタンコストを思い出そう、と。低トークンを修正できそう、複数の階に着地して取り戻すことができる、と。だんだんカオスになってきました。体系的なやり方が必要、と。
うん、まあ、これを試そう、これは高レベルの計画になり得る、Bを繰り返し使う、と。これが高レベルの計画とは、もう参った。ランダムトラップを最小化するためFとGを避ける、と。なるほど、Hを使う、状態遷移、0階スタート、ゼロからのスタートはいつでも良い選択。これでは制約を一切満たしていない、しかし正直なところ、完全なパズルルールがなければ完璧な解を作るのは難しい、ルールセット全体を提供してもらえれば洗練できる、もう一度試そう、と。
なんてことでしょう。0階から始める、絶対そうですよ。ようやく初の結果が出ました。すごい。
11回のボタン押下、と。ご存じの通り、8回なら優秀、7回+緊急脱出なら卓越、11回はまあ及第点というところです。さて、ここに来ました。24秒の処理時間、ボタン押下11回+緊急脱出。これは誇れる結果ではありません。私としては8回+緊急脱出を期待していました。新しいモデルなら8回のボタン押下+緊急脱出が標準であるべきです。
さて、状態テーブルが来ました。何を出してきたかというと、リスト、箇条書きです。なぜ表ではなく箇条書きが出てくるのか。私は表が欲しかったのです。
サマリー、ボタン押下11回、最終リソースは制限内、エネルギーは制限内、トークンも制限内、収集したコードは適切、ランダムトラップはゼロ、判断と制約チェックの正当化はすべてグリーン、すべて問題なし、と。
第一印象としては、はい、すべての制約を尊重したように見えます。素晴らしい。改善です。最初の解が出ました。
検証ランで解の正当性を確認
さて、ご存じの通り、検証ランをやらなければ何の意味もありません。Ernieが力尽きるのを待ってから先に進み、解を検証してくれと指示します。すべての与えられた制約を尊重し、すべてのルールに違反していないことを示してくれ、と。Grok 4.3が応答してこう言います。ユーザーは私が先ほど提示した解の検証を求めている、ルールを一つずつ確認しながら、すべての制約を尊重しているかを検証する必要がある、消費したリソースを確認する。はい、やってください。検証中。21秒後、完全な検証が出てきました。すごい。
おはよう、Grok。やっと目を覚ましたね、パーティーへようこそ。9、10、11+緊急脱出。その通り。ボタン押下11回、はい、+緊急脱出。なるほど、いいですね、速かったです。
結論は、解はプロンプトのすべてのルール、例外、制約に完全に準拠している、検証上の問題は存在しない、というものです。これで決まり。最初に検証された結果が出ました。それが11回のボタン押下+緊急脱出。ただ、ご存じの通り、これは本当に誇れる成績ではありません。
2秒の思考なし、と。はい。私はその正確なシーケンスを段階的に再シミュレートした、と。再シミュレートとは何のことか。ともあれ、進みましょう。各ボタン押下について何をしたのかが示されています。これが階、これがコード、ここで何を取得したのか、と。なるほど、緊急脱出、11+緊急脱出、ボタン押下11回、緊急脱出。本当に綺麗です。ああ、ようやく表が出ました。なるほど、素晴らしい。Ernieのことは忘れていいです。
最適化ランで本来の実力に到達
そして、いよいよ最適化のランです。これをやってみましょう。もっと短いボタン押下のシーケンスを見つけられるか聞いてみます。より効果的な戦略的経路探索を見落としているかもしれない、推論手順と結果を最適化してくれ、と。さあ行きましょう。
Grok 4.3が戻ってきてこう言います。ユーザーは、すべての目標を満たしつつ11回のボタン押下より短いシーケンスを望んでいる。より少ない押下で短い経路を見つけられる。元のシーケンスは11だった。いや、もっと良くできる。早期かつ効率的に29階まで走り、緊急脱出を使って50階にジャンプする。15階への到達と緑のコードカードの取得をより少ない押下で行うことに集中している、と。さあ来ました。最適化されたシーケンスを8回のボタン押下で試した。はい、こちらです。8回のボタン押下。8回。よし、ついに出ました。これこそ私が探していたものです。Grok、これは前回の11回押下版に対して明らかな改善だ、と。
ご覧の通り、出ました。3度目の正直です。8回のボタン押下+緊急脱出。これこそ最初の試行から出ているべき結果でした。3度の連続したアプローチを要しましたが、Grokはようやく8回+緊急脱出にたどり着いたのです。これこそが、現代のモデルとして世に出てくる新しいモデルすべてに期待される水準です。8回のボタン押下による解を提示できなければなりません。
総括
そして、これで決まりです。美しい。これでGrok 4.3を皆さんのためにテストしました。楽しんでいただけたなら幸いです。Ernieについては先ほど申し上げた通り、忘れていただいて結構です。同じリーグにはいません。それでは、また次の動画でお会いしましょう。


コメント