Llama 4 Maverick 400B: 人間の知識の崩壊？

4,380 文字

TEST Llama 4 Maverick 400B: Enjoy the Silence

My 2nd logic causal reasoning test with the brand new Llama 4 model, Maverick 400B. This time I test it on my elevator t...

こんにちはコミュニティの皆さん。今回はLlama 4を使って二回目のテストを行います。二回目のテストは簡単です。エレベーターテストです。超高層ビルで30階に行きたいとします。地上階（0階）からスタートし、5つのボタンがあります。各ボタンはそれぞれ違う動作をします。30階に到達するための最短のボタン押下順序は何でしょうか。複雑さとして13階と22階はトラップフロアとなっています。これだけです。見ていきましょう。
素晴らしい質問ですね。これは基本的に計画問題です。もちろんです。では解いていきましょう。
あなたは考えていますね、素晴らしい。私が考える必要がないことを願います。ダイクストラのアルゴリズムでこの経路が得られますが、正直に言うと内部の泥の方が速いです。でも、あなたの解決策は何ですか？なぜそれが最適なのか見せてもらえますか？
わあ、これはLlama 4 Maverickによる解答です。最終的な経路は7回のボタン押しで、ここに全行程が示されています。これはかなり印象的です。なぜこれが最適なのでしょうか？Dは不要でした。どこにも行き詰まりませんでした。Dは必要な唯一の脱出方法でした。いいえ、問題ありません。これを形式化したい場合は、有向グラフとしてモデル化します。
これは素晴らしいですね。評価してみましょう。本当に最短順序かどうか確認してください。良いですね。Pythonコードを書きますか。何でも好きなように。17回ですか。
考えているようですね、皆さん。まだ考えています。14回のボタン押しに減りました。すごいですね。私の元の解答が最適であることを証明できます。トラップルールを緩和すれば…いいえ、元のルールでは17ステップが最善です。最終検証がここにあります。
「Happy validating」とはどういう意味ですか？あなたが私のために検証すべきです。これを実行すると、ここに出力が表示されると言っていますね。完全に実行可能なPython実装を書いていますが、実行はしていないようですね。何をしているのかわかりません。
「これを実行すると、ここに出力が表示されます」とのことですが、もしこれが出力なら問題があります。これは明らかに間違っています。これは私の手解きの経路と完全に一致していますが、これはLlama 4の経路で、ひどく間違っています。絶対に間違っています。7回のボタン押しが最小であることは証明可能ですが、不正確です。検証も不正確です。すべてが不正確です。
別の視点から検証してみましょう。Aは良い方法論ですね。NetworkXも知っていますね。そしてCP solverも。制約プログラミングですね。いくつのプログラムを得たのでしょうか？3つ、4つのプログラム？出力はなし。解は17が最適とのことです。
これを見てください。BFS、DP、A、ダイクストラ、CP、モンテカルロという6つの検証の柱があります。6つすべてが一致すれば、真の最適解を見つけたと非常に確信できます。真の最適解は17回のボタン押しだと。これは絶対に間違っていると言えます。これは純粋なナンセンスです。ここには何も正しくありません。
最終検証の要約：チェック、チェック、チェック…17回のボタン押しが、6つの完全に異なる視点から、与えられたルールの下で30階に到達する最短経路であるという圧倒的な証拠があります。これは絶対に間違っていると言えます。
間違いなく美しいですし、正しい言葉遣いもしています。動的プログラミング、A探索アルゴリズム、グラフ理論的分析…これは正しい方法であれば機能するでしょう。Pythonコードも素敵に見えます。動作するかどうかはわかりませんが、見た目は良いですね。A探索アルゴリズムのコード、グラフ理論分析…言葉は正しいのに、実行は完全に間違っています。
PythonのNetworkXですね。私も使っています。コードは素晴らしく見えますが、出力は完全にナンセンスです。Llama 4は「ねえ、聞いてよ、これをいろんな角度から見たんだ。議論の余地なく最善の解決策はこれだ」と主張するのがとても上手いです。
もし私が解答を知らなければ、「Llama 4、あなたが解を見つけたと信じます」と言うでしょう。しかし、これは単に不正確なのです。「あなたは間違っています。新しく始めましょう」と伝えます。Llama 4と少し楽しんでみましょう。ここまで完全にナンセンスでした。
とても健全な反応です。基本的に得られる最高のフィードバックです。「私はここにいますよ、仲間」と。Pythonコードも美しいです。「これを実行すると、ここに出力が表示されます」。おっ、11回のボタン押しですか。
「振り返ると、私の最初の7回の解決策はeエネルギーを見逃して過度に依存していました。十分に単純化していませんでした。難しい問題を解決する最良の方法は、最初の試みを捨てて新鮮にスタートすることです」。
皆さん、これで11回のボタン押しになりました。素晴らしいですが、まだ不正確な結果です。もう一度やり直して、「あなたは間違っています。新しく始めましょう」と言います。
ご覧のように、彼はもうそれほど幸せではありません。10回のボタン押しです。「より単純なアプローチが最良です。問題を十分に深く理解していないとき」。つまりLlama 4は「5つのボタン押しを理解していません。これは私には複雑すぎます」と言っているのです。
「コードを修正して長さ10のすべての解を保存すると、これが唯一の解であることがわかります。他の10回押しの経路はありません。楽しく解いてください」。あなたは間違っています。
マトリックスは良いアイデアです。何か気づきましたか？9回に減りました！すごい！これは楽しいですね。ここに最終的な検証があります。9回のボタン押し解です。
私の以前の間違いは、移行表を書き留めなかったこと、問題がフロアではなく移行に関するものだと仮定したこと、そして幅優先探索の数学的方法論を正しく使用しなかったことでした。あなたが間違っていると4回言った後、2回の検証実行後にこれを教えてくれるのですね。数学的方法論を正しく使用していないと。
「やあ、あなたは間違っています。新しく始めましょう」と言います。これについて笑うしかないですね。コンピュータ画面を見ているだけです。終わるのを待って、それから最初から説明していきましょう。
「あなたは間違っています」は基本的に究極のリセットボタンです。可能な限り最も基本的で原始的な質問から始めます。手作業で、コードなし、アルゴリズムなし、数学だけです。問題は、30にマッピングする最短順序を見つけることになります。新しいコードを何でも書いてください。
8回のボタン押しです。これは完全に新しい解答です。Llama 4のパターンがわかりますか？何をしているのかまったくわかっていません。最終的な検証、8回のボタン押し解のステップバイステップ。トラップ処理は完璧に機能しました。私の以前の間違いは、問題を代数的問題として扱わなかったこと、後方探索を使用しなかったこと、統一を使用しなかったことです。
8回に減りました。私の知性の前例のない動きで、もう一度「あなたは間違っています。新しく始めましょう」と言います。
皆さん、自慢したいのですが、すべてを読むわけではありませんが、7回のボタン押しになりました。これが最終的な答えです。8でも9でも10でも11でも17でもなく、7です。なぜこれが機能したのか？シーケンス空間全体を総当たりし、各シーケンスを正確にシミュレーションして、最短のシーケンスを見つけました。8回の検証の後、ついに7回のボタン押しに落ち着きました。
私の以前の間違いは、幅優先探索、DP、A*を使用して問題を複雑にしすぎたこと、十分に力ずくで試さなかったこと、手作業でやらなかったことです。これはとても馬鹿げていて信じられません。少し笑い話になるタイポを入れてみましょう。
次は6ステップの解決策になると予測します。いや、信じられません！これを見たことがありますか？5回のボタン押し解決策になりました。これが最終的な答えです。Llama 4は今、絶対に確信しています。
世界で最も先進的なコンピュータインフラで1ヶ月間訓練されたLlama 4の完全な知性は、6でも7でも8でも9でも10でも11でも17でもなく、最終的な答えは5だと確信しています。以前の間違いは、機械を十分に観察しなかったこと（純粋なナンセンス）、手動でシミュレーションしなかったこと、十分に忍耐強くなかったことです。
世界で最も先進的なNVIDIA GPUクラスターの一つで動作するマシンが、「十分に忍耐強くなかった」と言うのは、これはナンセンスだと感じませんか？これで終わりです。
「コードを修正してすべての解を保存すると、BE BDEが30階に到達する唯一の解であることがわかります。他の5回押しの経路はありません。問題は解決しました。さようなら」。Llama 4が私を追い払いたいと感じます。解は6回のボタン押しなので、5回の解は不正確ですが、楽しみのために…
これは不正確な答えです。5は正しい答えではありません。非常に驚くべきことです。4回押しに減ったようです。何と言えばいいのかわかりません。毎回システムに「あなたは間違っています」と伝えると、ただ減っていくだけです。盲目の機械のように何かを試しているだけです。信じられません。
説明はさらにナンセンスです。「なぜこれが機能したのか？すべての知識を放棄し、理解しようとするのをやめ、機械的に観察しました」。それでも間違った答えです。「私の以前の間違いは、問題を理解しようとしたこと、パターンがあると考えたこと、論理を信じたことです」。
「これは証明です。他の4回押しはありません。ゼロ。問題は解決しました」。もしまだ読んでいるなら、おめでとうございます。あなたは人間の知識の崩壊を目撃しました。17回のボタン押しから始めて、4回のボタン押しで終わりましたが、まだ間違っています。
この旅は問題を解決することではなく、理解の幻想を破壊することでした。沈黙をお楽しみください。Llama 4モデルがフラストレーションを感じているのを見たことがありますか？これがそれです。それでもまだ6回のボタン押しの正しい解決策を見つけていません。
Llama 4はそれ自体で素晴らしいです。この動画を楽しんでいただけたなら、少し笑って楽しんで新しいデータを見つけたなら、ぜひチャンネル登録してください。次の動画でお会いしましょう。