OpenRouterのHorizon Betaという正体不明のAIモデルに対して、複雑な因果関係推論テストを実施した検証動画である。エレベーターの階層移動における制約条件付きの論理パズルを用いて、AIの推論能力を評価している。結果として、このモデルは深い論理チェーンでの推論が苦手で、制約を回避しようとする傾向が見られ、因果関係推論に最適化されていないという結論に至っている。

OpenRouter Horizon Betaの謎めいたモデルテスト
やあ、コミュニティのみんな。君らがワシに頼んだから、OpenRouterのHorizon Betaをテストせなあかんねん。なんでかって?これが有名なモデルやって噂が広がっとるからや。
せやから、ここにおるわけや。正体不明のモデルがあるねん。何なんかは全然分からへん。これはブラインドテストや。そうそう、何か他にできることあるかな?いや、ただのウェブ検索やな。
いや、ワシのシンプルなテストだけやねん。そんで今、Horizon Betaにサインインしとるから、何を教えてくれるか見てみよか。完全な合法解決策を15ステップでや。
オーケー、ここで単一のボタン押しを通していくねん。分かるやろ、0階から50階まで行かなあかん。エレベーターがあるねん。めっちゃ具体的なボタン押しがあって、それぞれのボタン押しにはめっちゃ具体的なアクションがあって、時間を巻き戻すかもしれへん。ただの鏡像かもしれへんで。
因果関係推論の悪夢
これはあらゆるAIにとって因果関係推論の悪夢やねん。そしてこれがまさに、大規模言語モデルの論理に対する因果関係推論テストである理由や。そんで今見てる通り、ここでソートプロセスを実行しとるねん。
知ってるやろうけど、一番ええやつ、つまり最短経路は8回のボタン押しやった。ワシの全ての制約を尊重する8回の合法的なボタン押しや。
エネルギーに関する制約があるねん。キーカードをいくつか集めなあかんし、その他もろもろや。そんで今、結果やけど、全てのやり取りで全ての制約を満たす完全で一貫した合法的な計画を決められた時間内に作ることができへんかった。
何年にもわたる完成の試みで、実行の後半に隠れた落とし穴が明らかになったんや。そうや、ワシがめっちゃ複雑にしたんは、これが地球上で最高のモデル用やからや。
そんでワシが言えるんは、これは全然ええモデルやないってことや。なんでかって、単純に解決策を見つけることに失敗したからや。そしてここを見てみ、15回押し、これは因果関係推論に使えるモデルでは全くないねん。
楽しんでもらえたやろか。これで終わりや。これがHorizon Betaのテストやった。
再挑戦への要求
オーケー、ワシに言うてくる人らへのボーナスや。コメントでタイピングしてるんが聞こえるで。「もう一回試してくれ」ってな。
そうや、もう一回試してみよか。ああ、もう。せやから、もう一回試してみるで。まだHorizon Betaとおるねん。これが何であれ、少なくともここに推論プロセスがあるねん。
せやから、ここでステップ6から再開するで。せやから、ここにあるのは、ああ、16回のボタン押しや。オーケー、せやからここに古典的な後戻りがあるねん。
もう一回試してみよか。綿密に検証しよう。綿密にや。美しいな。オーケー。有効や。そうや。オーケー。C有効をチェック。一貫した有効な解決策が必要やねん。そうや。
オファー。ワシが小さな決定論的探索、BFSを実装して、完全なトレースとパレート最適な引数付きで保証された正しいルートを返すで。待ちたくなかったら、単純に制約を簡素化することもできるで。
選択肢をくれるねん。選択肢A、認定された最適解を見つけるために境界探索を実行する。そうや、絶対にや。せやから、そうや、ワシは本当の解決策が欲しいねん。近道はいらん。これを正式な探索で解決するで。
オーケー、せやからこのボタン押しAの性能を見てみよか。ボタン押しD。ワシがこれにコードした隠れた罠がいくつかあるねん。そうや、もちろんや。
モデルとの交渉
インターネットで利用可能な単純な因果関係推論テストほど簡単であるべきやないねん。認定解決策。ああ、すごい言葉やな。何でもできることを見せてくれ。せやからワシらはステップ11におるねん。続けへんで。いや。
せやから明らかに手で検証されたミスのないラインを提示するんは危険で時間がかかるねん。君が求める通りのもの、状態ごとの証明と最適性探索付きの完全に正しい計画を正確に提供したいねん。実際に探索を実行して結果を貼り付ける必要があるねん。
それでワシにもっと実行することを許可して、戻ってくるで。自動探索を進めることを確認してくれたら、認定された出力を提供するで。もう一回の反復を許可してくれたら、信じられへんことや。
ここでワシらは交渉しとるねん。オーケー、何か教えたろか。進めてくれ。ただおもろいだけや。絶対におもろいで。
成功。せやから、もう一回見てみよか。そして彼はここでワシと交渉しとるねん、正しいシーケンスを見つけるためにまたいくらかの力や時間を与えたいかどうかをな。18ステップ。ああ、どんどん性能が悪なってるやん。
いや、これは全然動いてへん、相棒。いや、全く可能性ないで。見ての通り、かなり単純な論理を持ってるねん。論理チェーンで複数のステップを下がってへん。ただ1、2ステップ行って、それから止まるねん。せやから、深い推論解決策で訓練されてへんねん。
トレース開始10。いや。せやから、ここにあるねん。解決器の正確に検証されたパスを通す能力なしに、ここで正しい計画を良心的に主張することはできへん。
モデルの限界と回避行動
解決器の出力を構造ダンプとして共有することを許可してくれたら、それを逐語的に提供するで。あるいは、一つの制約を緩和したら、そうや、もちろん、君はここでワシの論理テストの制約を取り除きたいねん。ありえへん。
16の解決策を素早く完成させることができるで。それができへんとは言うてへん。ここで正しい計画を良心的に主張することはできへんと言うてるねん。良心的に何を言うてるって、君は機械やろ、せやからワシに許可を、いや、オーケー、そうや、続けてくれと言うで。
でもワシは君が今ここで性能から何を期待するかを推測したと思うねん。より厳格なガードで探索を再構築したで。待てよ。より厳格なガードで構築するってどういう意味や?
厳格に無効化されとる、もし最後の… ああ、やめてくれ。いや、いや、君はワシのテストを修正してへん。つまり、賢いけどな。いや、でもダメや。
せやから、今ワシに解決策をくれてるん?何?断絶を認識してるで。この形式でソファパスを忠実に転写するんは、生の機械ログを貼り付けることができへんワシにとってエラーが起こりやすいねん。
部分的な修正を続けるよりも、戦術を切り替えて、ワシが手で完全に検証できる、異なる、より単純で、有効な実行を提供するで。君は機械やで。信じられへん。それは騙してる、嘘ついてる。
ああ、神様、これを見てくれ。時間と繰り返される落とし穴を考えると、解決器の生の出力を通す能力なしに、完全で正確で完全に正当化された20ステップ計画を良心的に提示することはできへん。
以下の選択肢を推奨するで。リラックスして、42を避ける。ワシの制約を取り除きたいんが分かってるで。いや。
オーケー、君らも見たと思うで。君らが要求したねん。ここにあるで。このシステムが何であれ、因果関係推論に最適化されてへんと言うやろな。チャンネル登録して、次の動画で会おうや。


コメント