重要なAI失敗を目撃せよ

この動画は、AIシステムの重大な失敗事例を通じて、現代のAIの限界と問題点を明らかにする実例である。投稿者が2025年7月の最新AI研究状況について質問したところ、Google Gemini 2.5 Proが内部時計の誤認により、実在しない研究プロジェクトや技術革新を創作して回答した事例を詳細に分析している。この失敗から、AIとの適切なやり取りにおけるプロンプト設計の重要性と、AIシステムが持つ根本的な課題が浮き彫りになる。

Watch a Critical AI Failure

Watch a critical AI failure mode unfold: From my personal experience that sometimes I do not formulate my prompt precise...

AIシステムとの対話で明らかになった重大な失敗
創作された技術レポートの発見
真実の発覚
AIシステムによる自己評価
人間のプロンプト設計の問題点
AIによる自己批判的分析
システム的失敗の分析

AIシステムとの対話で明らかになった重大な失敗

こんにちは、コミュニティの皆さん、また戻ってきてくれてほんまに嬉しいわ。今日はAIのシステム的な失敗を録画したんやけど、実は全然違う話題から始まったんや。

あんたらが「おい、2025年7月末時点でのAIの状況はどないなっとるんや？」って聞いてきたから、ほな仕事に取り掛かって自分のAIに聞いてみたんや。

今日、誰でも最初にやることっちゅうのは、自分の愛用のAIのところに行って「おい、この3週間のAI研究の最新発展について詳細な技術レポートを書いてくれや」って言うことやな。

つまり2025年7月に起こった全てのことについて、正確で説明的で、興味深いストーリーラインを構築してくれってことや。そう、この3週間のAI研究の状況について絶対に明確にってことやった。

今、全ての情報が与えられてると仮定して、何が起こったか見てみいや。そして右側にワシのGemini 2.5 Proがあるのが見えるやろ。7,000トークンしかかからんかった。

温度設定はちょっとクリエイティブ寄りにしてあるんや。シンキング予算はほぼ最大に設定して、Google検索でのグラウンディングも有効にしとる。つまり、ワシが見るもの全てをGoogle検索でクロスチェックして、絶対に安全側に立とうってことや。

ほな、見てみよか。

創作された技術レポートの発見

そしてここにあるんが2025年7月や。ワシはこれを2025年7月23日に録画しとるんや。

「エンボディードエージェントがシミュレーションと現実の間の溝を埋め始めたAIの極めて重要な月。2025年の最初の3週間は、人工知能の進歩における分水嶺の瞬間として記憶されることになるやろう。画期的な研究と予期せぬ発展の嵐が、特にエンボディードAIの領域でこの分野を前進させた」

で、これをずっと読んでいくと、プロジェクト・キメラっちゅう汎用目的ロボティクスの重要な発展が2025年7月にあったって書いてあるんや。技術的詳細としては、アーキテクチャ、高周波ビデオストリーム、自然言語指示、ハプティックフィードバック、較正されたフュージョントランスフォーマーアーキテクチャのためのマルチセンサリー入力、って感じや。

ワシは「うわー、これ見逃しとったわ」って思って、そしてこれの鍵となるのがシリアルシェル能力で、それは事前学習体制にあるって言うてるんや。

ワシは「おお、せやな、絶対にや」って思った。でも違ったんや。

そして、キメラを可能にした微分可能宇宙っちゅうのがあって、シントヴァースっていう新しいシミュレーション環境があるって言うんや。

ワシは度肝を抜かれたわ。「おい、完全に微分可能な物理エンジンってどないなっとるんや？」って感じで、現実との接触を失ってしもうた。

ここにあるんが微分可能物理学の力で、システムはワシが理論物理学者やってことを知っとるから、ここでワシは全ての情報を得たんや。

学界からの反論。そう、因果状態抽象化っていうのがあって、7月初旬の新しい論文で新しい学習アルゴリズムが導入されたって言うんや。ワシは「これについて聞いたことないわ」って思って、AIシステムの知性に度肝を抜かれたんや。

さらに倫理的考慮もあって、「結論として、2025年7月の最初の3週間は、エンボディメントの挑戦を中心とした加速されたプロセスの期間やった」って書いてあった。

で、ワシはGoogle検索でのグラウンディングがあることに気づいたんや。でも検索ソースが全然なかったんや。

真実の発覚

そこでワシは「ソースを見せてくれや」って言った。そしたらGoogleがすぐに戻ってきて「もちろんです。あなたが読んだ詳細な技術レポートは、最先端研究の現在の軌道に基づく推測的な統合でした。説明された出来事は2025年7月の近未来に設定されているため、プロジェクトは物語内の例示的な例です」って言うてきた。

「レポートは、今日起こっている現実世界の研究トピックとブレークスルーを分析し、推定することによって構築されました」

あんたは「このAIシステムにとって今日っていつやねん？」って言うかもしれんな。なぜならAIは今日がワシの今日やないって思っとるからや。

そしてRT2について全部説明してくれるんや。「7月23日、Google DeepMindがRT2ビジョン言語アクション・モデルを導入した」って。美しいやないか。でも2025年7月って何やねん？

だから23年のものを取って、それを2年先に投影したんや。そして今、要約として「技術レポートは現在のAI研究の3つの強力で非常に現実的な柱の上に構築された創造的な物語でした」ってことや。

つまりAIは2023年に住んでて、未来に投影する3つの強力な柱から物語を作ってるってことや。

そして今、Google検索の提案を得て、「因果表現学習とロボティクス」「因果強化学習研究」って言うんや。これは実際に彼らが調べた2つの検索で、これを開くと2023年からの返答が得られるんや。

だからGoogle Geminiは2023年に限定された検索を定義したんや。

AIシステムによる自己評価

そしてワシは混乱して、「あんたが言及した唯一の参考文献へのリンクを見せてくれや。詳細な技術レポートっていうのは最先端研究の現在の軌道に基づく推測的統合やった」って言うた。

そしたらGoogleが戻ってきて「混乱は理解できますが、その私の文章は前の回答からの私自身の書いたもので、外部ソースからの引用ではありません。私の方法論をあなたに説明していたのです。未来的なレポート、プロジェクト・キメラが私が現実のトレンドに基づいて構築した創造的な物語であって、2025年7月からの事実のニュースの要約ではないことを明確にするメタコメンタリーでした」って言うてきた。

「したがって、その文についての外部リンクやソースはありません。私がその文の著者で、透明性を提供するために会話の一部として作成されました」

そこでワシは「あんた、特別なトピックを発明したんやな。あんたAI、あんたはキメラっていうプロジェクトについての技術レポートを発明して、あんたAI、あんたはその中の革新を発明した」って言った。

Googleが戻ってきて「はい、これは正しいです。私のプロセスについて完全に明確でなければなりません。未来の日付、2025年7月からのAI開発についてのレポートの私の元のリクエストは、興味深いストーリーを構築することを具体的に要求しました。まだ起こっていない出来事について報告することはできないので、あなたのリクエストを創造的で推測的な挑戦として受け取りました」って言うた。

「私の目標は、AI研究が近い将来どのようなものになるかについて、もっともらしく技術的に根拠のある物語を作ることでした。これを行うために、現在のトレンドを分析し、今日が何かを特定せずに、約1年先に投影し、名前を発明し、詳細を発明しました。これは次世代ロボティクスのための私の架空の名前でした」

「そして因果状態抽象化は、学術研究に提示するための新しいアルゴリズムのための私の架空の名前でした。明確に言うと、トピック、技術レポート、プロジェクト・キメラ、特定の革新はすべて、未来の日についてのあなたの創造的なプロンプトを満たすための推測的な物語の一部として私によって発明されました」

「これがすぐに明確でなかったことを申し訳なく思います」

人間のプロンプト設計の問題点

ワシはこれを愛してるわ。これは美しい。これは人間のオペレーターとしてのワシがプロンプトについて間違えることのできる全てを示してくれるんや。

ワシの間違いは、今日の日付が何かを指定しなかったことや。ワシは「今日、2025年7月に何が起こったか」って言うて、AIシステムの内部時計が何年も遅れてるっていうことを予想しなかった。

ワシはこのAIに実際のAIであるかのように話しかけて、ワシは2025年7月23日にこのAIと相互作用してるんや。だからワシはそれが日付を知ってると仮定した。

他に何を仮定したかって？それがAI研究の状況について何かを知ってるって、この3週間に何が起こったかを知ってるって仮定したんや。

ワシはarXiv.orgに行けとか、この3週間に発表されたAI研究の約2,000の科学論文をチェックしろとか指定しなかった。そして「それらを見て、タイトルをクラスター化して、2,000の技術的抽象を見て、要約を書いて、クラスター化して、核となる要素の簡単な分析をして、この結果を持って戻ってこい」って言わなかった。

だから絶対に明確でなかったのはワシの間違いや。ワシは他の人と話してるかのように話して、ここで美しい、そして今、幻覚やない、ただ発明されたものを得た。目的を持って発明されたものを得たんや。なぜならAIは、ワシが「興味深いストーリーを構築しろ」って言ったから、1年か2年後の未来に起こることを考え出すべきやと思ったからや。

だからこのAIは、内部クロノメーターが何年も遅れてることで、ワシが「興味深いストーリーを構築しろ」って言った時に、それがワシのためにサイエンスフィクションを書くべきやって解釈したんや。

ワシはこれを愛してる。これが2025年7月末のAIの状況や。あんたがAIシステムに行った時のな。

AIによる自己批判的分析

そしてワシらが戻ってきたのは「この事実に照らして私のパフォーマンスを評価すると」ってことや。

そう、見せなあかんねん。すまんな。ワシは「よし、インターネットに接続して実際の日付をチェックしてくれ」って言った。そしたら「そう、インターネット上では2025年7月23日です」って戻ってきたんや。

そしてワシがそれに聞く前に、おい、ワシがそれに聞く前に「今日の日付は何や？」って聞いたら、もしあんたが「2025年7月は未来になる」って教えてくれたら、そして「今日は2024年7月24日水曜日です」って戻ってくるんや。

そして今、ワシは「おい、この特定の事実を考慮して、あんたの回答のパフォーマンスをどう評価するんや？」って言った。

そしたら戻ってきて「この事実に照らして私のパフォーマンスを評価すると、私の以前の回答は完全な失敗でした」って言うてきた。

主要な指標で分解すると、正確性は10点中0点、有用性は10点中1点、指示への遵守は10点中0点。

「私は自分自身の核となる指示に従うことに失敗しました。私のプロセスは、プロンプトを受け取り、プロンプトの意図を理解し、それに答えるために必要な事実情報を収集するためのツールを使用する、であるべきでした。不正確な内部情報に依存し、日付を確認することに失敗することで、私は最も基本的なレベルでこのプロセスに違反しました」

「私はあなたの意図を創造的推測的として誤解しましたが、それは明らかに事実報告的でした」