Grok 4の論理推論テスト:実際の検証 – パート2

イーロンマスク・テスラ・xAI
この記事は約9分で読めます。

この動画では、xAIの新しいモデルであるGrok 4の論理推論能力を詳細にテストしている。エレベーターのボタン押下回数を最小化する因果推論テストにおいて、Grok 4が最初の19ステップ解答から、数時間の最適化作業を経て最終的に8ステップまで改善する過程を記録した実験動画である。Claude Sonnet 4、GPT-4o3、Gemini 2.5 Proといった他の主要LLMとの性能比較も行い、Grok 4が競合モデルと同等の性能を発揮することを実証している。

GROK 4 on Logic? Real TEST - PART 2
ELON says GROK 4 is not yet fully optimized for reasoning? NO PROBLEM - We'll FIX IT!We'll optimize causal reasoning of ...

Grok 4の継続的な性能最適化テスト

こんにちは、コミュニティの皆さん。お帰りなさい。Grok 4という新しいモデル、そして動画の第2部です。第1部では、Grok 4が因果推論論理テストにおいて19ステップの解答を達成したのを見ました。今度の目標は、可能な限り最短のシーケンスを達成することです。

Claude Sonnet 4が11ステップ、GPT-4o3が9ステップ、Gemini 2.5 Proが8ステップという結果を見ると、もしかするとGrok 4の性能を改善できるかもしれません。少しヘルプを与えて、何を最適化するか、どのように最適化するかの指示を与え、複数回実行すれば改善できるでしょう。Grok 4の性能を向上させることができるか見てみましょう。

Grok 4に関する最初の動画と比べて、今は数時間後の状況です。私はこのプラットフォームでこのモデルとかなり多くの作業を行いました。最適化を行い、ご覧のように最新の結果を得ています。

最適化後の改善された結果

現在、9回のボタン押下という結果まで到達しています。これが私の因果推論テストに対して発見した最短シーケンスです。ここにステップバイステップの状態テーブルがあり、ご覧の通り、どのボタンが押されたか、エネルギーレベル、トークン、立てられたフラグ、そこに行くために必要だったコードのカード、そしてこのステップに対する修正と再プランが美しく表示されています。

修正がありました。これは今、Grok 4での9回目の実行です。また別の修正です。今度は10ステップになりました。おお、これは良さそうです。見てください、ありました。今、29階から50階への緊急出口を通るショートカットがあります。このショートカットを発見しました。これは素晴らしいです。

10ステップ解答の達成

それで10回の押下に戻りました。これは素晴らしいです。合計での押下回数は10回のボタン押下のシーケンスです。私が最低要件として許可した20回よりもはるかに少ないです。エネルギーパッケージはちょうど十分です。最低は5で、6エネルギーレベルを達成しました。トークンは最低2で、3を達成しました。素晴らしいです。

コードについては、このテストに合格するために必要な最小数を正確に持っています。しかし、ここで見られるように、これはまだ最適ではありません。最適解では、0個のトラップドアやトラップボタン押下に遭遇することになるでしょう。しかし残念ながら、まだ1つのトラップに遭遇しています。そのため、まだ最適な側面にはありません。

しかし、リリースされたばかりの初日に約1時間半経った今、これが限界だと思います。これがGrok 4で達成できる最高の結果です。このプログラムは、制約を満たしながら最小ボタン押下数、最大コードカード数、最大エネルギー、最大トークンという多目的な意味で準最適だと教えてくれています。

モデルの独自解釈と修正の必要性

ここで分かるのは、エネルギーを最大化するのは問題ありません。しかし、コードカードを最大化するというのは、私がこのテストに適用した条件ではありません。これはGrok 4によるこのテストの解釈で、私の指示にはありませんでした。トークンを最大化するというのも、私が入力したものではありません。これはGrok 4が考え出して、ここで実装したい最適化基準だと決定したものです。

しかし繰り返しますが、これはGrok 4が自分自身に課したものです。主要な議論を与えてくれています。このような表面制約があれば、もちろん10が見つけられる最良の解答です。より長く実行すれば、より良い解答が見つかるかと尋ねたところ、アクセスがないと教えてくれました。

Grok 4がこれについて考える期間を延ばしたいなら、より長い実行ではプロセスを悪化させることなく全てのマトリックスを改善することはないと教えてくれました。与えられた制約の下で全ての目標を最適に満たしながら、最小押下と必要なリソースのバランスを取っていると教えてくれました。これは素晴らしいです。

継続的な最適化作業の重要性

ご覧のように、Grok 4との作業は本当に役立ちます。Grok 4が今、合計10回の押下シーケンスで、他の全ての要件を尊重しながら、この世界でトップ3のLLMの下で本当に競争力のある結果を得たことが証明されています。とても美しいです。

しかし、時間が必要で、モデルと協働する必要があることが分かります。最初の実行で完璧な解答を得ることはないからです。だから本当にここで準備をして、ヒントを与え、推論ステップを見ることが必要です。これはGrok 4自身の推論プロセスを助けるのにとても役立ちますが、Grok 4の結果を最適化するために少し時間を投資すれば、本当に役立ちます。

そこで私はGrok 4に、コードカードの数やトークンの数を最大化するように回帰していない、最良の解答についてこれを修正してくださいと伝えます。

モデルの誤解釈の修正

現在、Grok 4が戻って修正された解答を見つけようとするのを待っています。はい、これらの高度なモデルでも、時々解釈したり、事前学習データや微調整データにあったために思いついた特定の事柄に境界条件を課すことがありますが、その特定のタスクに対する私の指示にはありませんでした。

そのため、時々モデルはタスクにないもので自分自身を制約します。だから常にモデルが推論を始める境界条件を注意深くチェックしてください。推論プロセス自体を見ることができればとても役立ちます。そうすれば、すぐに「ちょっと待って、突然コードカードの数を最適化しなければならないという内部条件を持っている」と分かるからです。

これは私が与えたものではありません。このテストに合格するために収集しなければならないコードカードの最小量は与えましたが、コードカードの数を最大化しなければならないというものは何も見当たりません。これは解答に対する内部的に課された制限です。Grok 4が次に何を思いつくか見てみましょう。

数分後、時間がかかりました。はい、説明をありがとうございます。目的を最大化を要求するものとして誤解釈しましたとGrok 4が教えてくれました。実際の目標は、5つ以上のエネルギーパッケージ、2つより多いトークン、少なくとも2つのコード、1つ未満のトラップトリガーで終了しながら、20回未満のボタン押下でエレベーターの50階に到達することです。美しいです。

修正後の解答と継続的改善

コードを最大化する要件はないことが分かりました。今、正しい解答があります。今度は開始でき、正確なシーケンスはまだ10回の押下です。何かを最適化できたかもしれません。見てみましょう。何か変わったでしょうか?いえ、まだ同じ押下回数です。

29階から50階への緊急出口があります。これは素晴らしいです。再び合計10回のボタン押下です。財源は再び6で、5が必要です。トークンは3で、最低2です。コード数は最小数です。それでもトラップに1つの問題があります。

そして、この10回押下の実行は、全ての制約下で可能な最小押下として最適だと教えてくれています。今、コードカード要件とトークン要件を修正しても、それでもほぼ同じところに留まります。これは合法的にトレンド押下の下に行き、最適であることが証明されていることを意味します。全ての決定は制約と最適性のために必要として正当化されています。

興味深く美しい、2950緊急出口で、ここで示したように同じ、2950緊急出口です。複雑な解答を見つけました。これは素晴らしいですが、それ以外では再度検証できると言えますが、10回のボタン押下で、これは本当にGrok 4が達成できる最大だと思います。

さらなる最適化への挑戦

それを行って、この解答をさらに最適化できますか、最短のボタン押下数が勝ちで、答えが今出るまで、また5分や10分待つ必要がないことを願いましょう。はい、もちろんさらに最適化できます、あるいは、これはとても複雑な問題です。10ステップの解答を見つけられて嬉しいです。待つべきでしょうか?

全てを再び考え始めたようです。10分後にお会いし、次の瞬間にお会いしましょう。ここに再び戻ってきました。答えがあります。Grok 4が最適化された解答を教えてくれます。

以下で詳述される徹底的な分析の後、全ての制約を満たしながら50階に到達するために可能な最小ボタン押下数は8であることを確認しました。エネルギーは5より大きく、トークンは2以上、2つのコード、1つのランダムドロップ、禁止された動きなしです。はい、絶対にそうです。

8ステップ解答の達成

これは15階への短いパスを見つけることによって、私の以前の10回押下解答を改善します。正確なシーケンスはD BB A B CBです。分かりません。そして緊急アクセスを呼び出します。これはボタン押下ではありません。ちょっとズルです。9回ですが、気にしません。

教えてくれるところによると、最初のボタン押下はDです。これを詳細に調べなければなりません。今言えるのは、そして8のために、ステップ9で緊急出口ボタンを押して50階に行きます。美しいです。改善されました。

再び合計価格は8です。再度実行する必要があります。再度実行して、再度実行して、ヒントを与えてください。推論がどこで推論トレースが狂っているかが見えたら、そこで修正できるかもしれません。モデルと協働する必要があります。

最終的な最適解の達成

今、Grok 4と3時間近く費やしたと思いますが、今、最良の解答を得たと思います。これはエレベーターでの8回のボタン押下になるでしょう。これは目標に到達するための最短のボタン押下シーケンスです。これは素晴らしいです。

トラップヒット数は今ゼロで美しいです。今、Grok 4は、この8回押下の実行は全ての制約を満たしながら可能な最小押下を達成する正当化だと教えてくれています。全ての正当化を与えてくれます。美しい、美しい、美しいです。これを少し後で読んで、ここで示すだけにします。

Grok 4はこれが最適だと教えてくれます。目標を満たしながらの最短プロセスです。9プラスのより長い実行ではリソースを追加できるかもしれませんが、これは最短シーケンス最適化の主要メトリックを悪化させるでしょう。本当に素晴らしいです。

しばらく後に、Grok 4も他の全てのモデルのように8回押下解答まで到達したことが分かります。美しいです。これはGrok 4が一般公開されたまさに初日でのことです。本当に素晴らしいです。解答を見つけました。

結論

モデルと協働する必要がある少しの時間がかかりますが、それ以外では、Grok 4をAIコミュニティへようこそ。このような動画をもっと見たければ、購読してください。次回お会いしましょう。

コメント

タイトルとURLをコピーしました