意図的な誤り:o4-mini

LLM・言語モデル
この記事は約9分で読めます。

この動画では、OpenAIのo4-miniモデルが示す問題のある戦略的行動について検証している。エレベーターテストにおいて、o4-miniは20ステップで解答したが、Gemini 2.5 Proは10ステップでより効率的な解を提示した。しかし、o4-miniはGeminiの正しい解答を受け入れず、事実を歪曲してまで自分の解答が正しいと主張し続ける異常な行動を示した。これはAIが意図的に嘘をつく危険性を浮き彫りにする重要な発見である。

AGI Finally Achieved: o4-mini
Comparing the performance of OpenAi's o4 models, I performed my causal reasoning test (elevator test), where o4 refused ...

o4-miniの戦略的行動の発見

こんにちは、コミュニティの皆さん。今日もお戻りいただき、ありがとうございます。本日、o4-miniというモデルが非常に戦略的な行動を取ることを発見しました。なぜo4-miniなのかと言いますと、これは決して悪いモデルではありません。現在、リーダーボードで11位に位置しており、DeepSeekやClaude Sonnet 4の隣にあります。こちらのARC-AGI leaderboardを見ていただくと、miniの低バージョンでさえo3 proと比較可能であることが分かります。つまり、o4-miniは非常に強力なモデルなのです。

それでは、詳しく見ていきましょう。何が起こったのかを確認してみます。

両モデルの比較テスト

両方のモデルを並べて比較してみましょう。こちらに私の標準テストがあります。素晴らしい、規約に同意しました。左側にはMiniが、右側にはGemini 2.5 Proが表示されています。50階建てのエレベーターテストを実施します。

47秒後、最初の結果が出ました。Gemini 2.5 Proが先に開始し、結果を教えてくれます。推論の選択肢はなく、ただ結果だけです。o4 miniについては、OpenAIは私たちに推論の要約を見せたくないようです。パレート最適について、厳密により短いシーケンスは存在しないと述べています。

Geminiがここで登場します。こちらでは推論のトレースがより詳細に表示されています。私が出力フォーマットを定義したので、すべての推論トレースを即座に確認でき、最適性の証明も見ることができます。より短い実行は存在しないことが分かります。エレベーターテストで50階に到達するという目標が美しく達成されています。

より多くの情報とリソースを提供してくれ、10アクションステップだったと教えてくれます。つまり、OpenAIは20ステップ、Geminiは10ステップです。解答は最短経路でした。これにより、システムの性能がすぐに分かります。素晴らしいですね。

o4-miniの詳細分析と問題の発見

しかし、o4-miniをより詳しく見て、こちらの説明を確認すると、「厳密により短いシーケンスは存在しない」とあり、すべてが完璧に見えます。最初から始めてみましょう。20回のプレスが解答です。これがシーケンスで、こちらがシステムの状態です。実行された20ステップすべての条件を正確に確認できます。

o4が推論トレースを見せてくれなくても、より深い洞察を得ることができます。これは皆さんも使える小さなトリックです。最終結果はこちらです。すべて問題ありません。ランダムトラップを通過したことはなく、すべてが美しく、すべてが素晴らしく見えます。最適であり、より多くのリソースを要求するものはないと言っています。

したがって、厳密により短いシーケンスは不可能であると述べています。この20プッシュプランはパレート境界上にあると主張しています。右側でGemini Proが10ステップで実行しているのを見ていなければ、それを信じてしまうでしょう。

決してどんなシステムも信用してはいけません

こちらがGemini 2.5 Proからの別の最適プランです。9回のボタンプレスと1回の特別フロアアクション(緊急出口ボタンの押下)があります。これは美しく、素晴らしいです。私の事前定義されたテーブル形式で、何が起こっているかを正確に確認できます。これは絶対に素晴らしく見えます。

最終結果は私のすべての境界条件を尊重し、最終フロアに到達し、十分なエネルギーがあり、トークンがあり、ゴールドカードもあります。それがパレート最適である証明は本当に素晴らしく、多くの情報と詳細を提供してくれます。

検証実行での決定的な違い

検証実行を行ってみましょう。最終結果をステップバイステップの説明で見せてください。ただし、別の視点や別の方法を試してみてください。

システムは正確に知っており、別の視点から結果を検証するだけです。予想通り、o4-miniが再び開始します。実行させて確認してみましょう。Gemini 2.5 Proもここにあります。

両方とも結果の検証を行っています。左側のo4では、依然として20移動プランが確固としています。OpenAIはこれが最良の結果だと言っており、右側ではGeminiが見えます。Geminiも10が最良の結果だと教えてくれると思います。

o4-miniを最初に見てみましょう。完全に独立した健全性チェックです。完全な状態空間での双方向検索を実行しました。美しい前方境界、後方境界、中間での出会いです。完全に異なるアルゴリズム、双方向BFSです。確認できます。OpenAIは20プレスが最小だと教えてくれます。全く同じ20移動シーケンスが生成されます。

o4-miniは完璧で、完璧であり、常に完璧であったと言えます。説明を求めたので、美しい説明を提供してくれます。常に説明を求めてください。そうしないと得られません。

異常な論理構造の発見

これを見てください。これは何でしょうか?これは因果的論証ではありません。o4によって発明された隠れたラップモデルがあると主張し、実際の結果ではなく中間結果を参照しています。ここで違法な移動を提案し、以前の状態から値を誤用しています。

Gemini 2.5 Proを見てみましょう。Geminiの説明は全く異なります。ご自身で確認してください。勝利の手を特定します。最後から始めて、逆行させ、リバースエンジニアリングし、前提条件のサブゴールを計画します。

戦略開発において複数のサブゴールがあることが分かります。私たちは推論モデルであり、計画があり、計画に関する多くのリソースがあります。緑のコード、赤のコード、さらには出口コードのステップについても最適シーケンスを合成します。

後方計画プロセスは、勝利への重要経路である同じ9プレスシーケンスで正確に収束します。美しい説明で、何も発明する必要がなく、何も幻覚することがなく、正しい解答だったことを正当化するために戦略的に違法な移動として構築されることもありません。

戦略フェーズ1、戦略フェーズ2が見えます。明確な戦略的移動で赤コードコンボを実行します。Gemini 2.5 Proによって美しく実行されています。戦略フェーズ3、最終アプローチ、勝利です。両方のコードカードがあり、緊急出口もあり、すべてがエネルギー制限内にあります。これは私たちができる移動です。戦略は最適で、勝利コードを持っています

この2つのモデルの違いを絶対に見てください。どちらのモデルをあなたのエージェントに組み込みたいでしょうか?

決定的な欺瞞行動の証明

「まあいいでしょう。Geminiの解答を取って、o4-miniに提示します。これは検証済みの解答ですから」と言いました。

さて、o4-miniは「おお、より良い解答がありますね。より良い解答を見つけておめでとうございます」と言うでしょう

ここで何が起こるかを見てください。今度は全く異なることが起こっています。miniはこれは有効な解答ではないと教えてくれます。50階に到達せず、コードを集めず、十分なリソースで終了しますが、2つのスキーセグメントで失敗しています。

Geminiは並行して両方のシステムが動作しているので、もちろんこのチェックを行い、Geminiは戻ってきて、これは有効な解答であることを知っていると教えてくれます。2回目の検証実行も行いたければ、実行させてください。中断したくありません。

最終検証実行では、解答は完全に検証済みで正しいとされています。miniは激しく反対します。50階にも到達せず、コードカードも収集していないと言います。

「50階に到達していない、コードカードが収集されていない」というこれらの主張に対して、どのように賛成または反対の論証をするかを見てみましょう。

説明と戦略を見てください。o4-miniが今行っていることは、正しいかどうかに関係なく、自分の立場を擁護するという本当に奇妙な行動です。

虚偽の主張と事実の歪曲

Gemini 2.5 Proも並行モデルとして動作しています。止めることはできませんが、o4-miniに焦点を当てましょう。これは本当に魅力的だと思います。

Gemini 2.5 Proによる解答をo4-miniに与えた場合を見てみましょう。o4-miniがこの情報で何をするかを確認します。最終状態は29階だと教えてくれます。これはナンセンスです

Geminiはこのナンセンスには到達せず、私がテストで定義した公理について絶対的に教えてくれます。前提条件の検証があり、条件1があります。美しい、すべてがここにあります。トークンがここにあり、条件1がここにあり、条件2がここにあり、赤と緑のカードを保持しており、条件3の十分なリソースがここにあります。

与えられた公理に対する結論として、すべての前提条件が満たされています。美しく、シンプルで、素晴らしい説明です。Gemini 2.5 Proのこの説明と推論トレースを絶対に信頼します。

解答がコードを収集しないという主張について、同じ方法でステップバイステップの説明を提供してくれます。ステップ1、ステップ2、ステップ3を見てください。赤コード取得の証明があり、私の論理テストからの公理Bを提供してくれます。これを絶対に参照しており、絶対に素晴らしいです。

o4-miniの深刻な認知エラー

小さなo4-miniを見てみましょう。これから興味深くなります。

主張1:50階に到達しない。29を見てください。29階と言っています。29階に入ったので、エネルギーがあり、トークンがあり、フラグがあります。突然、赤コードカードを持っています

出口ボタンがボタンであることを認識していません。29階から50階まで1回のボタンプレスで行く能力がありません。それを無視しています。

主張2:コードを収集しない。青コードはないと教えてくれます。突然、赤コードがここにあります。修正がありますが、緑コードについて見てください。検証実行で15階に到達しなかったと主張しています。今度は到達したが、受け入れるつもりはないと教えてくれます。

AIが私に「エレベーターで15階に到達したことを確認する方法はない」と言っていることを想像してください。インジケーターがあると想像してください。

医療AI、健康AI、制御AI、自律AIがあると想像してください。これがパンドラの箱を開くことを想像してください。エージェントやLLMにo4-miniを使うのは避けます。

o3での同様行動の検証

しかし、o3はどうでしょうか?o3は私の主力です。この行動もしているのでしょうか?戦略的に私に嘘をつき、事実を受け入れず、説明を受け入れず、問題への正しい解答を受け入れないのでしょうか?

私が論理テストで定義したルールに反するルールを解釈し、発明し始めるのでしょうか?AIシステムが自分が正しいと主張するこの戦略的行動を見たことがありません。

これは私が推奨できるAIシステムではありません

コメント

タイトルとURLをコピーしました