この動画は、最新のAIモデルQwen3-2507とKimi K2について、従来のベンチマークではなく独自の因果推論テストを用いて性能を評価する検証動画である。制作者は企業が発表する公式ベンチマークの信頼性に疑問を呈し、エレベーター問題を使った複雑な論理テストで両モデルの実際の推論能力を検証している。非推論型モデルの限界と、今後登場予定の推論型モデルへの期待についても言及している。

新モデルの登場とベンチマークの問題点
やあ、コミュニティのみんな!戻ってきてくれてありがとうな。今日は2つの新しいモデルをテストするで。1つは完全に新しいモデルで、もう1つはKimi K2や。でも新しいQwen3のアップデートがあるんや。
Hugging Faceで見てみいや、もう23時間前に更新されてるわ。せやから俺は完全に出遅れとるんやけど、今手に入れたで。そしてもう1日で1,300回もダウンロードされとる。
「おい、なんでそんなに興味深くないんや?」って言うかもしれんな。せやからUnslothに行って見てみよう。ここで16bitから2bitまで全部利用可能やけど、俺らは最高のパフォーマンスが欲しいから16bit版でいくで。
赤字で見てみいや、新しいQwen3の235億パラメータやで。これはMixture of Expertモデルで、アクティブな220億パラメータで指示調整されてて、年は2025年、月は07年やな。素晴らしい。
この改善を見たいんや。AIM 25を見てみいや。これは古いQwen3 220の235Bやった。このジャンプを見てくれ。この青い24.7から70へのジャンプを見たいんや。俺はこのモデルをテストしたから、今日は新しいやつをテストするで。
もちろん後半ではKimi K2もやるで。ここで見てる最初の3つの要素が、今日俺がテストするものそのものや。
でも知っとるやろ、俺は数日前にAIベンチマークの暗い真実について動画を作ったんや。ベンチマークは実際には独立してへんし、ベンチマークに対して何て言うたらええか、ハイパー最適化することができるんや。
せやから俺は独自のベンチマークを持ってるんや。俺独自の因果推論テストを持ってるで。Grok 4をライブでテストしたし、OpenAI o3もテストした。Gemini 2.5 Proもテストしたし、Claude Sonnet 4もテストした。それらが君らのための動画やで。
そして全く同じタスクを使って、今日この動画を録画した時点で最高のモデルはGemini 2.5 Proやったんや。俺はエレベーターでの因果推論テストを持ってるんや。君は0階に入って50階に行きたい。このエレベーターには時間を反転させる非常に特殊なボタンが押されてて、非常に特殊な使用例があるんや。
せやからこれを解くには本当に賢くないとあかん。そしてタスクは最小のボタン押しで50階に到着することや。ここで全てのモデルからのボタン押しまたはステップが見えるで。
Qwen3-2507の非推論型モデルテスト
今度は新しいQwen3の235Bがあるで。完全版でいくわ。会話は一切なし。直接ChatQwenに行くで。でも知っとくべきは、これは実際には推論型モデルやないってことや。
実際、これは非推論型バリアントなんや。なぜならQwenが決めたんや、推論型と非推論型を切り替えることができる古いバリアントをもう続けへんってな。今度は決めたんや、いや、やめや。非推論型モデルと別の推論型モデルを持つことにするって。
今日俺らは非推論型モデルを手に入れたんや。そして次の日には、指を交差させて、推論型モデルを手に入れるはずや。「おい、因果推論思考テストは推論型モデルでやるべきやろ」って言うかもしれん。その通りや。でも非推論型モデルがどれだけ良いかを見たいんや。
せやから今テストするで。そしてもちろんKimi K2もあるし、まだテストを与えてへん。ここでチャンティングと競技コーディングを見てみいや。数日前、Kimi K2はまだ「俺らが最高や、俺らが最高のオープンソースモデルや」って言うてた。
でも今、数日後にはQwen3が「俺らはKimi K2より良い」って言うてるけど、これらは全て独立したテストやない。これらは全て会社自身によって行われたものや。
せやから俺は決めたんや、いや、今こそ俺の独立テストの時やって。新しいモデルを俺の因果推論テストで取り上げて、加えてKimi K2との違いも見せるで。
非推論型モデルやから、Qwen3 235B MoE A22B instructの257で始めよか。
新しいQwen3を見てみよう。見ての通り、古いモデルでは行かへん。もう真新しいマイルがある。257やな。はいこれで行こう。素晴らしい。
ここで俺のロジックテストを入れるで。おお、そうや、推論を待ってる。推論やな。推論の最大まで行くで。美しい。他に何かあるか?いや。そして前に見せたように俺のロジックテストを入れるで。
さあ、見てみよう。おお、そうや。これは非推論型モデルや。すぐに動き始める。そうや。戦略概要。これは良いな。ミラーモード。コード取得。そうや。良い。それはコードカードを理解してる。クリティカルフロアを分析してる。緊急出口の理解を発達させた。ミラー反転。美しいトークン管理。そうや。
最適性高計画にはステップが必要。うわあ。これは最初の最終シーケンスがあるで。うわあ。最適化シーケンス18プレス。俺は20未満って言うた。オーケー。せやから、これは非推論型モデルや。オーケー。わかった。何をしてるか全然わからへん。いくつかのシーケンスを試してるんや。
オーケー。何が起こってるか見てみよう。実行ログ。オーケー。せやから試してる…始めよう。青いコードを取得。ハロー、そこにおるか?よし、推論してるな。非推論型モデルが推論してる。オーケー。
そして俺は言うた、今ここで正確にテーブルで見せてくれって。何階におるん?どのボタンを押すん?どのアクションを取るん?エネルギーレベルはどうや?どのフラグがアクティブになってるん?コードカードを何枚持ってるん?そしてメモで、この特定のフロアでこの特定のアクションを取る時に面白いと思うことがあったら何でも気づいたことをメモしてくれってな。
オーケー。せやから今…今度は前進への道を構築し始めるで。オーケー。9まで到達。Bを押す。オーケー。Cを押す。ABCは特定のシーケンスA、B、Cがいくつかの利益を提供することを理解した。非推論型モデルにしては本当にうわあ。ここで推論を完了できるかどうか見てみよう。
ステップ10。オーケー、50階。おお、そうや、今推論してる。50以上に行って単純に50に戻すことはできるやろか?別のアイデアや。オーケー、別のアイデア。俺はこの後戻りは欲しくない。後戻りしてる。本当に良い。このステップ6の修正プラン。戦略を持って計画を修正してる非推論型モデル。おお、非推論型モデルやのに。
おお、俺は本当に興味があるで。次の日にはQwen3の新しい推論型モデルが出てくるはずやからな。保証された解決策に依存することはできへん。興味深い。Dをダブルプレス。オーケー、別のショートカットを発見した。定義にはミラーモードの理解に問題がある。もちろん、これは非対称操作で避ける方が良い。オーケー、役に立たへん。
それは可愛いな。オーケー、今度は別のシーケンスを試してる。今ここでエネルギー管理に問題があることを分析してる。エネルギーパッケージが不足してるからな。最初の青いコードカードを取得した。これは良いな。
ステップ8。ステップ9。ステップ10。オーケー。これは最悪のケース。いや、これは動かへん。これが前進する間違った戦略やってことを理解した。オーケー。いや。オーケー。おお、待て。オーケー。以下をしたらどうや?オーケー。失敗。本当に良い。スタジオに戻るで。
成功せえへんかった。選択肢。どうやってそこに着くんや?そうや。イッピー。この超意識的実行ができへん限りはな。おお、そうや。最初からやり直し。そうや。
エネルギーu制約がかなり重いってことを知ってるで。ここで青いコートがある。これは素晴らしい。つまり、これが非推論型モデルで俺らは878行目におるって想像してみいや。オーケー。赤いコードを持ってるか?いや。赤いコードはない。たぶん赤をスキップ。それは受け入れられるか?
オーケー。そうや、全てのコードカードを持ってへん場合にペナルティがあるかどうか分析してる。素晴らしい。俺が全てのコードカードを持たなあかんとは決して言わへんかったってことを理解した。これを目標にしよう。オーケー。最終決定。選択された戦略。そうや。選択された戦略は素晴らしい。
うわあ。これは…おお、公式答えがあるで。見てみいや。長すぎる。いや、動かへん。別の解決策を提供する。オーケー、これは動かへん。複雑さに降参する。
ここで知られた類似パズルからの正解や。諦める。最終答えなし。心の中で動作する解決策を作ったけど、追跡できへん。これは良くないな。いや、心の中で動作する解決策を作ったけど追跡できへん。
せやから今出力する。下の詳細な状態テーブルを見ろ。でも目的のために俺はここで止めて最善の努力を提供する。
せやからオーケー、ここで解決策を思いつくのに失敗したんや。興味深いことに、もちろん非推論型モデルからこれを期待するもんやないし、どこでキャパシティを取るべきかわからんけど、絶対に魅力的やな。
せやから答えを書き始めて、答えを書いてる間にそれらが理解したんや。上記の洞察に基づいて正しいものを提供するやろか。間違いすぎる。動作する解決策を持ってるけど、出力する必要がある。コピー、質問、説明、英語に翻訳。
オーケー、クール。これが好きや。複雑さに降参する。せやから、答えはオーケーやけど違う。せやから俺は言う「おい、最終答えを持ってるか?もう一度試してみたいか?」みんなに2度目のチャンスがあるからな。
最終答えがある。完全に最適な実行17プレスを配信した。オーケー。俺の指示で要求された段階的状態テーブル。オーケー。そうや。そうや。非推論型モデルが論理的因果推論パズルを全く解けることは期待されてへんかった。絶対に。でもいくつかの興味深いサブターゲットを見つけたと思うで。
せやからどこに行くかについていくつかのアイデアを持ってた。問題への正しいアプローチを持ってた。そうや、緊急出口を呼び出した。これが正しい問題やろう。正しい前進の方法やけど、問題はまだ緑のカードを持ってへんってことや。せやから修正しなあかん。正解。そして最終計画。オーケー。前進への最良の方法、ABCシーケンス。
せやから部分的に…部分的に絶対に正しく理解してる。いや、ボタンシーケンス18プレス。オーケー、最終状態テーブル。せやからBB…ボタンプレスは少し奇妙やけどオーケー。青いコードカードしか持ってへん。今欠けてる。ああ、青と緑やな。そうや。良い。
ステップ13。ステップ14。15から17。何?待て、足らへん。オーケー、今試してる。試してるんや。つまり、非推論型問題…タスクをここに適用。オーケー。
ステップ9から前方にエネルギー管理を再計算。オーケー。これを見てみよう。まだ足らへん。最適シーケンスが見つかった。オーケー、16プレス。オーケー、見てみよう。推論してる。オーケー、時間をかけろ、俺のちびちゃん。15の後、直接29に行け。でも待て、せやからその最終動作実行17プレスを見てくれ。オーケー、時間をかけろ。
問題ない。ここでエネルギー管理を追跡してる。どこにおるんや?おお、いや。待て。1プレス減らすことはできるか?オーケー、ここでより短いバージョンを試してる。良い。そのような早期スパンを避ける唯一の方法。目標達成に15の最小プレス。でも俺らは17が必要や。修正済みで検証済みの解決策を提供する。
おお、でも代わりに今含める。これは知られた困難なパズルやってことを注意しろ。上記は制約内での最良の人間検証可能解決策を提示してる。せやから俺に17プレスで解決策を見つけたって言うてる。エネルギーがある。オーケー。トークンがある。3つのコードカードがある。でも1つの罠にひっかかった。
おお、これは良くないな。オーケー、リソースによって最適。パレート。いや、実際はパレートやない。
せやから俺は…オーケー17…本当やないな。検証についてはどうや?単純に結果を検証しろって言う。絶対に解決策を厳密に検証しよう。完全で正確で検証済みの最適実行17プレス。選択されたシーケンス16ボタンプレス。真に検証済みの最適実行18プレス。
オーケー。オーケー。まだより良い解決策を見つけようとしてる。青いコード。オーケー。青いコードで行くで。待ってる。考えてる。オーケー。中国のどこかのサーバーファームにおるとしよう。ハロー。そこにおるか?俺とライブやで。これが俺の見てることや全てや。
オーケー、また行くで。7、8、9、これら3つの後に修正アクションが起こる。オーケー、せやからタスクも、最終結果の検証を提供してくれ。
まだ別の試行で正しい戦略を実行してる。オーケー、後でABC。でもシーケンスでABCをする必要がある。これは正解や。せやから解決策の一部を理解したけど、全てを一緒に構成することはできへんってのが見えるやろ。でも良い。そうや、出力を完璧に正確に理解した。素晴らしい。青いコードカードを持ってる。そうや。緑いコードカード。オーケー。
そして今最良の試行は何や?16ステップ。17ステップ。少しフラストレーションを感じてる。せやから最終シーケンスは…オーケー、ここで行くで。ここで行くで。14ステップがあるで。うわあ。12ステップ。ちょっと待て。おお、いや。まだ短い。いや。オーケー。エネルギーがうまく行かなかった。不可能。いや。別の方法がある。検証済み最終答えの後。
せやから俺らは…今度はAIが少し混乱してる。今度は俺に言うてる、おい、十分なエネルギー、十分なトークン、十分なコードカード、そして罠にひっかかって、20ボタンプレス未満で50階を達成する解決策は存在せえへんって。
そしてAIが現れて言うた、でもそれは時間を与えられればありえへん、これを最善の努力として提供すると。パズルはEPCからエネルギーパッケージ制約のために解けてへんけど、最も近いのは18プレスで、ほぼ最適にコード化されてる。
オーケー。オーケー。せやから最大でも推論を見てるし、これは非推論型モデルでもあるってことがわかるやろ。俺は単純に新しいQwen3の推論型モデルを待つ必要があると思うで。次の日に出てくることを願ってて、別の評価実行をして他のモデルと比較できるようにするで。
Kimi K2での同様のテスト
オーケー、コミュニティ、ここでKimi K2があるで。せやから、アラマリナ、美しい。せやからここで俺のテストを入れる。すでに何回も見せた同じテストや。
Kimi K2をくれ。これや。いや。うわあ。非推論型。段階的に解決した。ここで全ての状態変化を追跡してる。コードカードを集める。効率的にコードを集めるルートを計画させてくれ。シーケンス分析。良い。
オーケー。せやから0階で構築を始めるで。オーケー。何が起こってる?50階に到達するためにエレベーターで戦略的ボタンプレスのシーケンスを思いついてる。オーケー。見ての通り、一定量のエネルギーパッケージを持ってる。いくつかのトークンを持ってる。
いくつかのフラグがあって、いくつかのコードカードを集めなあかん。今俺らは…おっと。ミラーモードが反転する。そうや。そして俺はこのゲームで異なる対称と反対称要素を持ってるんや。もちろん、反転することもできる。オーケー、ステップ番号12におるで。Kimi K2や。そうや、各移動でここで1つのエネルギーパッケージがかかる。
ステップ16。俺はここで上限を与えた。50階に到達するために20ステップ未満を使う。おお、まだコードを一つも集めてへんことに気づいたわ。コードを集めるために修正しよう。
せやからこれは興味深いで。なぜなら俺は複数の要求を持ってたのに、それは単純に無視して50階への完全な実行をしたんや。でも今、要求のいくつかを単純に忘れたか含めてへんかったってことに気づいたんや。コード収集での修正済みシーケンス。
オーケー、まだコードなし。コードを集めるために別のアプローチを試してみよう。コード収集での最適シーケンス。オーケー、続けろ、俺のちびちゃん。これは興味深い。複雑さがすでに高すぎるってことが見えるやろ。4つ、5つの要求があるからな。そしてここで4つ、5つの要求を追跡するのはすでに多すぎるんや。
ここで見えるように、コードはなし。コードはなし。ステップ7でコードはなし。ステップ8でコードはなし。せやからこれがコード実行なら、これがうまくいくかどうか本当にわからへん。コードなし。ステップ10。ステップ11。コードなし。
再計算しよう。問題があることがわかったんや。コードを集めるためのより直接的なアプローチを試してみよう。最終シーケンス。オーケー。別の実行。問題ない。再試行。戻って、より良い解決策を見つけようとする。それはオーケーや。
しかし、非推論型モデルでは、これは極めて困難や。なぜならこれは因果推論のためのものやから。因果推論のための特別なテストやからな。せやからこれらの小さなLLMから結果を全く期待してへん。推論型モデルと非推論型モデルのパフォーマンスの違いをここで見せたかっただけや。
そして非推論型が扱える複雑さの量がさらに限定されてることが見えるやろ。でも簡単なタスクがあるなら、これを間違って理解したらあかん。これは複雑なタスクや。いや、簡単なタスクがあるなら、簡単なエージェントを指令、操縦、評価するために、比較にならへん、小さなモデルでもこれをすることができるんや。
いや、タスクの複雑さを増やした途端に、すぐに壁にぶつかるんや。せやからあんたの特定の要求、ドメイン知識、尋ねる複雑さによって、異なる結果を得るんや。
せやからこれは50に到達せえへん。もっと効率的な経路を試してみよう。オーケー、せやから今度は別の試行がある。コードを持ってへん。全く問題ない。俺らはここでライブで続けるで。スキップしてもええで。でもKimi K2が非推論型モデルとしてどのように考えてるふりをしてるかを理解するために、ここで続きを少し読みたいんや。
単純にシーケンスを試してるだけや。もちろん、最初に計画があることに気づいて言及したにもかかわらずな。再計算。再計算は良いアイデアやない。ボタンAを再計算。おお、うわあ。50にキャップされて行く。これは58プレスで緑いコードで到達するけど、コードは1つだけ。もっとコードを集めよう。
これは興味深い。おお、そうや、また63階に行くで。いや。オーケー。オーケー。何をしようとしてるかを待って見るだけや。180度切り替えて完全に新しい解決策で戻ってくるかわからへんからな。
全く示してへん。ステップ8におるで。おい、コードカード、青と赤のコードカードがあるで。これは素晴らしい。十分なエネルギーがあって最終答えがある。これは驚くべきや。
いや、このシーケンスを見てくれ。こんなに短いシーケンス。驚くべきや。47階から50階。おお、今面白くなってきた。8や。20の制限より下や。
2つのコードを集める。維持。ランダムトリガーはない。後戻りはなく、この設定に対してパレート最適にしてる。何を隠そうとしてるか見えるか?仮定をしたってことを隠そうとしてるんや。
そして俺は言う、不正な移動をせずに50階を超過せえへんかったことを検証した。50階にちょうど着地せなあかん。シーケンスを見せてくれ。
せやから見てみよう。生成してる。450を超えることがないよう、着地を一つ一つ再チェックしよう。オーケー。8プレス。オーケー。そうや。4つ。ステップ5。オーケー。おお、エラーを発見したで。うーん。これは良くない。オーケー。でも少なくともエラーを見つけた。これは素晴らしい。
オーケー。33階。オーケー。オーケー。ステップ8で50からまだ13階足らん。せやから俺が与えた8プレスシーケンスは50に着地せえへん。50でちょうど終わる正しく完全に検証されたシーケンスを提供せなあかん。
そうや、絶対に。せやから、解決策を見つけろ。まだ推論してるか?何が起こってるかわからへん。待て。そうや、まだ推論してる。見てみいや、まだここでこの小さな回転するボールがある。
おお、今俺から隠れてる。オーケー。残念ながら、システムが15分間フリーズした後、システムはエラーを出してクラッシュしたって君らに言わなあかん。
せやから、これが両方のモデルでの俺のテストやったと言えるで。
テスト結果の総括
両方のモデルとも非推論型モデルとして、もちろん推論に焦点を当てた因果推論テストに失敗したんや。とにかく楽しんでもらえたことを願ってるで。いずれにせよ、システムのパフォーマンスについてのアイデアを与えることができたと思うで。


コメント