GLM 4.5 vs GLM 4.5 AIR: テスト（推論）

この動画は、ZhipuAIが開発したGLM 4.5とその軽量版GLM 4.5 AIRの推論能力を詳細に検証したテストである。同じ論理パズルを両モデルに与えて解答プロセスを比較した結果、興味深い現象が観察された。大型モデルのGLM 4.5は人間の曖昧な言語表現を独自に解釈して追加のルールを作り出す傾向があるのに対し、小型モデルのGLM 4.5 AIRは与えられた指示により忠実に従う特性を示した。この実験により、AIモデルのサイズと論理的正確性の間に必ずしも正の相関関係があるわけではないことが明らかになった。

Impressive: GLM 4.5 vs AIR: TEST

What new AI model is better for reasoning: the big GLM 4.5 355B-A32B or the smaller little brother model AIR? A surprisi...

GLM 4.5とGLM 4.5 AIRの推論能力テスト
推論プロセスの詳細分析
モデル間の矛盾と解釈の違い
最終的な検証と結論

GLM 4.5とGLM 4.5 AIRの推論能力テスト

こんにちは、みなさん。また戻ってきてくれて本当にありがとうございます。今日は新しいGLM 4.5のテストをやっていきます。こいつは3550億のアクティブパラメータに320億の学習可能パラメータを持つGLMや。それと比較するのが、その弟分のAIRで、こっちは1060億のアクティブパラメータに120億パラメータのGLM 4.5です。2025年7月末時点での推論、コーディング、エージェント能力をテストしていきます。

これがまさに私がここでテストしようとしていることなんです。それに加えて、ここに12のベンチマークを累積したパフォーマンスがあります。GLMは自分たちで言うてますわ「俺らはほぼGrok o3レベルやで、Claude Opusより上やし、GPT-4 miniより上や。それに弟分のAIRでさえ、選ばれたベンチマークではClaude Sonnetより上や」とZhipuAIが発表してます。これは絶対に見てみないといけませんな。

ここに、これからテストする推論についての詳細なパラメータがあります。テストはZhipuAIによって公開されてます。Hugging Faceで見つけることができますわ。モデルもHugging Faceで見つけられます。GitHubもあります。全部利用可能です。でも私のテストに飛び込んでいきましょう。

でもご存知の通り、ベンチマークは絶対やないんです。自分でベンチマークをやらんといかんのです。それではGLM 4.5とGLM 4.5 AIRを比較してみましょう。ここに他のモデル全部をチェックした標準テストを入力します。

この2つのモデルがどれくらい良いか、どういうパフォーマンスを示すか見てみましょう。そして、いつものように推論モデルがあれば推論トレースが見えるかどうかも確認します。現在生成中なのが見えますね。

推論プロセスの詳細分析

はい、約5分後に生成が出てきました。GLM 4.5がすでにステップバイステップの状態テーブルで作業してるのが見えますね。これがまさに私が提供してほしかったものです。各推論ステップを詳細に見ることができます。そして最終的な合計とスコア、最適性の証明も見えます。

私はパレート最適性を達成したいんです。見ての通り、緑のコードカードと赤のコードカードをどこで取得したかを説明してくれてます。この階に到達しました。最小プレス数の合計は、コードを取得するのに7回、特定の階に行くのに1回です。リソースとコード。とても良い結論ですね。

これは9回です。ちょっと待ってください。どこにいるんでしょう？これはとても短いシーケンスですね。とても良い結果です。間違いありません。ABC シーケンスがありますね。これはより深い推論ステップです。美しいですね。29階にいて、50階に行きます。A階でも大丈夫でしょう。何かありますね。

おお、AIRが出てきました。オーケー、AIRを見てみましょう。ステップバイステップの状態テーブル。はい、美しいです。これも優秀な出力で、まさに同じ形式で、さらに詳しい説明付きです。

これを見てください。ここに出口がありますね。10回のプレス、優秀な結果です、気にしないで。両方の方法が美しく結果を出してくれました。9ステップと10ステップの解決策です。これは深い推論にとってとても良いモデルですね。

でももう少し深く掘り下げてみましょう。50階という目標に到達するには、コードのための最小プレス数は7回です。29階に行くのに1回。29は魔法の階です。そして出口をトリガーするのに1回。これは9回のプレスです。数学的には9回未満でゴールを達成するのは不可能です。コード数、エネルギーパッケージ管理、トークン数。はい、2トークンで終了します。これは美しいです。これはパレート最適です。

いや、8回のプレス解決策があることは知ってます。でもこの新しいモデルの初回実行としては、絶対に印象的です。結論として、AIRは私に言います、ちょっと待って、どこ？ちょっと待って、AIRはどこ？ちょっと待って、8回のボタンプレスで、それからコード取得が完了しました。オーケー、ここで赤いコートを取得しました。29階にいます。

これは正しい記述です。そして出口があります。緊急出口ボタンがあります。はい、これは正しいです。それで今、ああ、完璧な要約結果ですね。9回プレス対10回プレス。これはかなり似てるように見えますが、違いがあります。気づきましたか？左側を見てください。ステップ9がAです。Aは正しい解決策ではありません。

どうしてこんなことが可能なんでしょう？出口は正しい解決策です。ここでAIR、小さい方が私のテストにおいて正しい出口を持ってると私は思います。なぜなら複数のボタンプレスがあるからです。複数のボタンがあって、それから出口ボタンがあります。では、なぜメインモデルでAがあるんでしょう？ここが理解できません。

テキストに何か説明があるでしょうか？見てみましょう。いいえ、29階に到達するためです。緊急出口はありません。うん、緊急出口が呼び出されました。うん。では、なぜAボタンを押すんでしょう？

オーケー、29階です。出口をトリガーするには代わりに1つのアクションが必要です。それは何のためのボタンプレスですか？必要なコールを保持している間、出口をトリガーします。「代わりに」という人間の言葉の最も論理的な解釈です。

ワオ。これが言語学的なところですね。これがAIが失敗するところです。AIは「おい、お前の人間の『代わりに』という言葉の最も論理的な解釈は、29階で任意のボタンを押せるってことや」と言ってるんです。ワオ。そしてAIRは正しく行います。AIRは最も論理的な解釈を思いつく知能はありませんが、小さなモデルとして、ここで私の指示に正確に従います。

論理エラーが生まれてるのを見てください。大きな兄弟が「代わりに」という単語一つの論理的解釈を作り出したことを考えると。これほど明確に見たことはありません。

モデル間の矛盾と解釈の違い

オーケー、今2つのシーケンスができました。検証してみましょう。結果を比較して何か違いがあるか見てみましょう。

この特定のシーケンスを検証してくださいと言います。ABCBシーケンスがありますね。これはAIR側からのものです。では、両方のモデルがAIRの解決策をどう評価するか見てみましょう。

AIRからの結論として、これは合法で全ての目標を達成してます。左側を見ると、なぜこのシーケンスが失敗するかというと、不完全な目標、出口トリガーが欠けてる、50への短いパスがない。両方のモデルが同意しません。

AIRは私のAIRの解決策は正しいと言い、GLM 4.5はAIRの解決策は間違ってると言います。なぜなら与えられた元のシーケンスが無効だからです。絶対に、同一のモデル2つがお互いの解決策に矛盾してます。大好きです。でも下に行かないといけません。何なのか理解しないといけません。Bで終わってますが、検証実行で明確になるでしょう。

2、3分待たないといけません。待機プロセスはスキップします。右側は全て素晴らしいと言い、左のメイン要素は間違ってると言ってます。素晴らしい。では、検証実行を再度行いましょう。

興味深いです。左側は間違ってると言い、右側は合法で8回プレスで全ての目標を達成すると言ってます。お互いの解決策に矛盾してます。絶対に魅力的です。9回プレスバリアントを使って出口をトリガーします。与えられたシーケンスは無効です。右側では、これは合法で8回プレスで古い目標を達成します。

8回プレスモデルは私の8回プレスは正しいと言います。9回プレスバリアントは、いや、有効じゃないと言います。彼らは自分の論理を掘り下げます。これは興味深いです。他のモデルの解決策パスを与えても、彼らは自分の議論に固執します。はい、もちろんです。推論で単語一つの最も論理的な解釈を始めるからです。

別の実行をしてみましょう。ワオ、これは一つ一つの単語に敏感です。信じられません。もう一度やってみましょう、見るために。

ワオ、これは素敵なGLM 4.5です。美しい提示です。でも右側では両方のシーケンスが同一で有効です。何？これはナンセンスです。いいえ。なぜ突然両方のシーケンスが同一なのですか？AIRがミスをしました。

AIRは今、両方のシーケンスが同一だと見てます。いいえ。左側を見てください。4つのAがあるこのシーケンスが見えます。シーケンス2はAB ABでそれからABC Bです。全く同一ではありません。AIRが転写でエラーを犯しました。最後に与えた2つのシーケンスを比較してくださいと言ったのに、最後の2つのシーケンスを思い出せません、AIRモデルは。ワオ。

でもGLM 4.5を見てください。提示が本当に優秀です。私が正しいモデルだと言ってます。他方は間違ったモデルです。私は絶対に正しい。目標に到達し、他方は主要目的に失敗してます。（笑）ワオ、本当に素敵な提示です。

オーケー、AIRは私が何をしたいかさえ理解してないのが見えます。興味深いです。4.5は極端な論理的解釈を持ってます。待って、AIRは今ポストプレス特別アクション緊急出口を持ってます。何？AIRは今、私が見つけた解決策の外側にある解決策、追加の解決策を持ってきました。これらの機械の推論トレースが大好きです。クレイジーです。

シーケンスは最適です。全ての制約を満たしてます。オーケー、でもメインモデルはシーケンスが異なり、それぞれが異なると言ってます。では比較をして、2つのシーケンスを指定します。AIRが理解できるように。

AIRが明示的なシーケンスを与えられたので、大きな兄弟GLM 4.5と同一の評価を出せるかに興味があります。

いいえ、シーケンス1は境界外の移動により無効で、いかなる目標も達成できません。シーケンス2は最適です。AIRは私のAIR解決策は最適で、シーケンス1は大きな兄弟GLM 4.5から来てることを知らずに無効だと言ってます。

左側を見て、GLM 4.5大きな兄弟が何をしてるか見てみましょう。最終判定：シーケンス1が2つのうち唯一の有効な解決策です。シーケンス2は無効です。お互いに矛盾してます、並んで。ほぼ同一のモデルの矛盾です。GLM 4.5 AIR対GLM 4.5。

シーケンス1を見てください。赤がない。決して達成されない。決して完了しない。あり得ない。信じられません。もし修正したらどうでしょう？待って、4.5が今私に言ってます。オーケー。

各モデルが「おい、俺の解決策が唯一の正しい解決策や」と言ってます。緑と赤。何？でも読むだけがあります。AIRが別のコードカードを見逃しました。おいおい。おいおい。

AIRが転写を見逃しました。今、AIRがコードカードを見逃しました。コードカードを取得したからです。オーケー。AIRはマルチターンの質問と推論ステップに大きな問題があります。

でもここを見てください。「おい、ステップ9のボタンAのプレスは違法な移動をトリガーする」と言ってます。ここで最新のAがAの解釈で無効なのが分かります。59階に連れて行かれ、SQLが失敗します。これがコンプライアンスなしと言う理由です。ワオ、これは絶対に魅力的です。

これがこのモデルの内部思考です。透明であることが大好きです。でも他方と比較しましょう。GLM 4.5が2つのコードカードを教えてくれてるからです。うん、全て大丈夫です。はい、目標を達成しました。でも2番目のシーケンスの8回プレスはエラーです。

説明実行をしてみましょう。「おい、最後の移動がボタンAのプレスなら、これがどうやって50階に連れて行くか説明して」と言います。

今、両方のモデルの正確な因果推論が見えます。AIRはアウトです。うん、オーケー、美しいです。推論シーケンスを構築してます。GLM 4.5も準備できてます。

29階でボタンAを押すと、特別なオーバーライドのために緊急出口ルールをトリガーします。ワオ、特別なオーバーライド。見て、両方のコードカードがあります。うん。

赤と緑を持っていれば、代わりに緊急出口を呼び出して瞬時に50に飛ぶことができます。うん、代わりに。私の「代わりに」という言語学的表現を見て、「ボタンAの通常の効果は緊急出口ルールによって上書きされる。Aを実行する代わりに緊急出口を呼び出すことを選択できる。緊急出口ルールがAを上回る」と言ってます。

他のボタンは必要ありません。ABCのいずれのプレスも緊急出口をトリガーします。いいえ、緊急出口ボタンがあります。私の不正確な人間の言語的定式化を与えられたルールを再定義してます。単語一つの私の「代わりに」という言葉です。AI論理コンピュータ論理の感度が見えます。

単語を解釈し始めます。ルールコンプライアンス。28階でAを押すと標準のAは起動しません。緊急出口ルールを活用し、したがってこれが唯一の効率的な方法です。

でもAIRは「Aは直接50階に着陸させることはできません。唯一の方法は緊急出口ボタン経由です」と言ってます。だから両方とも正しいですが、ボタン効果とは何か、私の「代わりに」という言葉の解釈とは何かについて完全に誤解してます。

GLM 4.5が新しい追加の理由解釈を思いついて、今それを実装してます。クレイジー。クレイジー。この一つ一つの単語への極端な感度が見えますか？大好きです。

最終的な検証と結論

オーケー、両方のシナリオに赤と緑のカードを保持することが含まれるなら、今何が起こるでしょう？AIRが説明を始めます。美しいです。小さいです。したがって、いいえ、シーケンス1はまだ有効ではありません。Aが言います「聞け、いいえ、シーケンス1はコードがあっても失敗する。これから話して説得する方法はない」

なぜシーケンス2が成功するか？うん、もちろん。自分の解決策が8回プレスのものです。これが行くべき道です。

シーケンス1は8階29階を押すことは50階につながりません。つまり、AIRに同意します。AIRがここで小さなモデルがより良い議論、より正しい議論を持ってます。なぜなら今左側で、GLM 4.5の論理的解釈として特別なオーバーライドがあると言うなら、コードを想像してください。GLM 4.5があなたの人間の意図を論理的オーバーライドで解釈します。

オーケー、最終実行をしましょう。このシナリオは今完璧です。両方が赤と緑のカードを保持し50階に到達するので。今、両方ともこれが有効な解決策だと同意できますか？

AIRが出てきて、いいえと言います。いいえ、AIRを変えることはできません。AIRは「聞け、これが俺の解決策で、俺の解決策だけが有効なものや」と言います。大好きです。コルクp 450を見てください。つまり、正直にAIRに同意します。うん、新しい解釈をしません。ルールに従うだけです。

結論：Lシーケンスは無効で、自分のシーケンスは8回プレス後最適です。うん、緊急出口経由で緊急出口経由で。うん、絶対に。そしてシーケンス1は欠陥があります。うん。

大きな兄弟GLM 4.5は独自の論理的解釈を必要とするか持ってます。大好きです。最終状態のステップバイステップテーブル。うん、シーケンスは完璧です。いいえ、AはAの機能をオーバーライドしません。Aボタンは変更されません。

うん、Aは無効です。AIRモデルがこの特定の単一因果推論論理テストで大きな兄弟モデルより良いのが興味深いです。魅力的です。絶対に素晴らしい。シーケンス1は浮いてます。ポジティブなケースではAIRを選べます。再解釈を始めませんが、指示を実行するだけです。