AIは燃えている – 5つの新しい論文

LLM・言語モデル
この記事は約14分で読めます。

この動画は2025年6月23日に発表された5つの研究論文を通じて、大規模言語モデル(LLM)が抱える根本的な課題を分析している。内容は主に3つの問題に焦点を当てており、第一に内部一貫性の危機として同一のLLMが自身の推論と矛盾する現象、第二に推論プロセスの非効率性によるコストと速度の問題、第三に時間性・因果性・確率といった現実世界の概念に対する形式的理解の欠如である。これらの課題はLLMを医療や金融などの重要な応用分野で使用する際の根本的な制約となっている。

AI is Burning - 5 New Papers
The current challenges of AI Agents: Logic, Lies and LLMs. I analyze 5 newly published Arxiv AI reports on June 23, 2025...

AIの現実的な課題:大規模言語モデルの限界を探る

こんにちはコミュニティの皆さん、お帰りなさい。論理とLLMについてお話ししましょう。なぜ私が今日、2025年6月23日の5つの論文を選んだのか、そしてそれらが1つのトピックを持っているのかについて話しましょう。それはLLMにおける課題についてです。

これを見てみましょう。私は多分ここで、私たちがすべてを知っていて、すべてが既知であるというAIの絵を描いてきたかもしれませんが、これは事実ではありません。そのため今日は、大規模言語モデル、特に推論において私たちが今日直面している課題をお見せしたいと思います。

LLMは素晴らしいものですが、これらのLLMを創造的なタスクやミッションクリティカルなアプリケーションにより強く押し進めるほど、私たちのLLMの根本的な制限に遭遇するのです。

これらの3つの論文が示しているのは、多かれ少なかれ3つの相互接続されたトピックです。まず内部一貫性の危機です。なぜならLLMは、同じLLMが同じコンテキスト、同じドメイン内でさえ、自身の推論と矛盾し、基本的な論理的一貫性において失敗しているからです。これは、健康医療や金融を扱うAIエージェントで欲しいLLMではありません。

次に効率性の非効率性があります。「より多く支払えばいい、効率的でないならより多くのトークンを支払えばいい、より多くのトークンを見ればいい」と言うかもしれませんが、これは計算的に高価で遅く、これは必要ありません。ですから、これも最適化できます。

そして、これが本当に今何かというと、情報の形式的基盤の欠如です。なぜこのようなことが起こるのかと疑問に思うかもしれませんが、単純に私たちの言語モデルは、時間、因果性、確率のような構造化された現実世界の概念の本質的な理解を欠いているからです。これにより、彼らの推論は脆弱で検証不可能になります。なぜなら、私たちは次のトークンの確率分布予測を持っているだけで、実際の複雑な世界モデルのような一般的な理解を持っていないからです。

MITの発見:医療AIにおける非臨床情報の影響

これを始めましょう。「でも、これは今日2025年6月23日のあなたの関心事でしょう」と言うかもしれませんが、MIT(マサチューセッツ工科大学)が「私たちはここで発見し、実験を行いました」と言いました。

研究者たちは、患者メッセージ内の非臨床情報、例えばタイプミスや余分な空白文字の追加、または少し非典型的な言語が、医療におけるAIモデルの精度を著しく低下させることを発見しました。

MITは私たちに、メッセージに文体的または文法的変更を加えると、LLMが突然、データを取得する患者が医療を求めて来院するのではなく、自分の健康状態を自己管理することを推奨する可能性が高まると告げています。

人間の医療専門家によってAIの推奨事項を評価したところ、AIはいかなる形でも最適な形で機能していないことがわかりました。彼らは「私たちはこれを調べました。この研究を見てください。美しいと思います」と言い、MITの発見は、LLMが余分な空白のような非臨床情報を取り込んでいることを示していると述べています。

余分な空白など誰が気にするでしょうか?しかし、この特定のLLMの訓練データには、いくつかの二重空白や余分な空白があったかもしれません。そうすると、パターンが異なるものになりました。そして今、LLMは医療情報の意味的情報ではなく、「二重空白がある、だから別のパターンを活性化しなければならない」と見ているのです。言語的意味的医療推論プロセスではなく、です。

信じられないことに、AIはパターンマシンですが、どのパターンがこのマシンに向かって作用するかはわかりません。

内部一貫性の危機:簡単なタスクでも自己矛盾するLLM

私たちが今日直面している3つの課題について、現実的でありたいと思います。2025年6月23日に示した論文だけについてです。まず内部一貫性の危機です。

これがここでの最初の論文です。「既存のLLMは単純なタスクについて自己一貫性がない」と述べています。私たちは高複雑性のタスクについて話しているのではありません。全くそうではありません。単純なタスクについてです。

これはChenhua大学とChanga AI研究所からのものです。この論文を見てください。彼らはGitHubを持っており、「簡単な問題で、LLMはその出力において頑健な論理的一貫性を欠いている」と言っています。

最も簡単なケースを想像してください。モデルがAがBより前で、BがCより前だと述べるとします。それは論理的にAがCより前であると推論すべきです。しかし、推論はLLMが頻繁にこれらの関係に違反し、自分たちにとって不可能な内部世界モデルを作成していることを示しています。

そして、これらのモデルは透明ではありません。私たちは多くのモデルからの推論プロセスを見ることができません。どのようにして一つの結論に至ったかさえアイデアがありません。これは破滅的である可能性があります。

この特定の論文について、研究者たちはLlama 3からGPT-4 Omniまで、DeepSeekまで、2次元化された時空の簡単なタスクで多くのモデルをテストしました。そして、どのモデルも完全に自己一貫性がないと言いました。最先端のモデルでさえ、都市の位置について重大な非一貫性を示し、地理的に不可能な解決策を見つけました。

問題は事実エラーだけでなく、論理的分解の破綻についてでもあります。複雑な問題を複数のより複雑でない問題に還元することが、大規模にエラーを起こしやすいのです。この研究を見てください。LLMができるはずだと思うことと、この能力をチェックしたときに見る違いについて、本当に目を開かせるものです。

美しさは、問題があることを示すだけでなく、2つの解決策を思いつくことです。著者たちはここで、すべての著者に感謝しますが、2つの修正を使いました。グラフ修正アルゴリズムエネルギーベースモデル修正アルゴリズムです。素晴らしいですが、これらのモデルは事後修正であることを知っています。

モデル自体は根本的に非一貫性のままです。このモデルをエージェントの中核で使用すると、エージェントは根本的に非一貫性になります。これは著者からの引用です。AIモデルから100%の信頼性を期待してはいけません。それは提供されていません。

著者たちは、予算上の理由でより小さなモデルで実際の事実データについてファインチューニングを開始すると、パフォーマンスが向上すると思うでしょうが、時にはモデルの非一貫性スコアが増加することがわかりました。これは、単により多くの知識を与えるだけでは根本的な推論の欠陥を修正しないことを示唆しています。

この複雑さがLLMに統合または刻印されたとき、パターンが非常に支配的だったため、事前訓練データセットの推論トレースに正確にここにない知識でファインチューニングを提供しても、ほとんど効果がないか、さらには負の効果があります。これを心に留めておいてください。ファインチューニングを始めると間違いが起こる可能性があります。

効率性の問題:推論チェーンの冗長性

効率性、コスト、エネルギー、お金についてはどうでしょうか。この出版物「シンガポール国立大学の簡潔なヒントが効率的な推論を促進する」で、「出力の生成中に継続的な簡潔なヒントを通じて」と言っているかもしれません。

「いや、私が思っていることを言っているのではないでしょう」と言うでしょう。ああ、そうです、これはまさにあなたが思っていることです。

核心的な問題は、推論チェーンが信じられないほど冗長だということです。多数の中間トークンを生成し、自己修正、フィラーフレーズ「詳細について考えてみましょう、今日は月曜日だから」といったものです。そして、これらすべてが追加コスト、追加レイテンシーを計算します。大規模推論モデルは高価で遅いのです。

特に大規模推論モデルについて、この論文が今日発表され、私がそれを見せる理由は、ここで新しい方法、この簡潔なヒントを提案しているからです。一回限りのプロンプトの代わりに、この特定のLLMの推論チェーンに小さな論理的因果ヒントを継続的に注入して、与えられた答えの簡潔性と一貫性を促進します。

想像できますか?あなたはAIモデルで、私があなたにタスクを与えている。そして、あなたはいつも心の背景で声を聞いている。「私たちは今火星の惑星にいて、この惑星を解決している。このような予算とエネルギー予算が利用可能です」といった具合に。推論チェーンのためのヒントを常に注入しているのです。

彼らは「これを賢い方法で行わなければならない。介入は適応的でなければならない」と言いました。複雑さ適応間隔があり、ヒントの頻度を動的に変更しなければなりません。そうでなければ、このAIは他の人間がするように狂ってしまいます。

注入の位置も適応的でなければなりません。常に最初でも最後でもなく、システムがこれらのヒントの異なる位置から学習できるようにして、推論トレース、推論進歩にそれをどうにか統合できるようにしたいのです。

彼らは根本的なトレードオフがあることを発見しました。過度に積極的にヒントを与えすぎると、精度が低下します。特に本当に複雑なタスクで精度が下がります。モデルが多くの冗長な情報を得て、複雑性能力が低下するからです。

長編ストーリー生成における課題

「これは真実ではない、不可能だ。私たちは2025年6月末に到達し、世界最高のモデルを持っている。健康、金融、自動運転などからAIを適用する際に、なぜこれらのモデルが突然このような大規模な制限を持つのか、信じられない」と思うかもしれません。

これはマーケティングと関係があります。Chinhua大学からのこの研究「長編ストーリー生成のためのマルチエージェントフレームワーク」を見てみましょう。私は2日前、1日前、2日前にこれを投稿しました。4日前のものです。もう有効ではありませんが、例外を作りましょう。

質問は「私たちの現在のLLMは、1,000語以上の一貫したシンプルなストーリーさえ書けないのか?」というものでした。研究を見ると、彼らは大規模な問題があることを示しています。

彼らが常に見つける解決策は素晴らしいですが、ここでの解決策は、1,000語のストーリーの複雑さを分解する必要があるということです。1つのLLMではできません。3つのエージェントに分解する必要があります。

最初のエージェントはアウトラインエージェントで、何か特定のことについて10,000語のストーリーを生成します。次に、異なるイベント、異なる章、異なる人物や何であれ起こる特徴のためのプランニングエージェントがあります。

そして、それがすべて一緒になって、ライティングエージェントがあります。ライティングエージェントは、どんなストーリーを書くべきか、どんなイベントが起こるべきか、何についても気にする必要がありません。アウトラインエージェントからすべての情報を、プランニングエージェントからすべての情報を、起こる予定のすべてのイベント、起こる予定のすべての複雑さを持っています。ただそれを書くだけ、最終化するだけ、書き留めるだけです。

彼らは「これは解決策ではない」と言いました。私は「これは不可能だ。100万、200万のトークンコンテキスト長があるのに、6月末に我々の航空会社が1,000語以上の一貫したデータフローと一貫した特徴を持つ問題があることがわかったなんて、信じられない」と言いました。

論理的推論のための新しいフレームワーク

3番目の、最後の最高のもの。2025年6月23日、ダービー大学の美しい「論理RAGエージェント開発のための時間的因果確率記述論理」です。

「信じられない、RAG、RAGは死んだ」と言うでしょう。いいえ、RAGは死んでいません。ここで再びそれがあり、確率記述論理、数学的論理と組み合わせます。

私たちがいるのは、時間記述論理、因果推論、確率的知識表現、アレン間隔代数、知識グラフ、その他すべての領域です。

著者たちが発見したのは、私たちが特定した核心的な問題です。LLMは素晴らしく、構文と統計的相関のマスターです。信じられないほど美しいです。しかし、LLMは現実世界の推論パスに重要な概念の形式的に基盤のある理解を欠いています

第一は時間性、第二は因果性、第三は確率性です。これは私たちのLLMにはありません。

そのため、彼らは今ある種の新しいニューロシンボリックフレームワークを提案します。彼らはこれを時間的因果確率記述論理という新しい論理フレームワーク、論理ソルバーと呼んでいます。

彼らは「聞いてください、LLMをこれについて訓練できることには意味がありません。コーディングするときのようにしましょう。Python環境、C++環境、どんな環境でも、LLMとは別のコーディング環境があります。このコーディング環境でPythonファイルを実行し、数値的結果を得て、結果がLLMに戻ります。

そして、LLMは、単純なPythonファイルの数値計算シミュレーションによる数値的結果を与えられて、推論を続けます。同じことをしなければなりませんが、RAG検索拡張生成コンテキストに基づく複雑な論理データ構造で行わなければなりません」と言っています。

信じられない、どのようにここでコンテキストを閉じるか。彼らは「これを提案します」と言い、記述論理から時間演算子、明示的因果演算子、確率タグまで、多くの研究分野を融合させているので美しいと思います。

なぜなら、最終的に言語で「多分これが起こるだろう」と言うだけでは不十分だからです。より正確になりましょう。推論プロセスを行っている論理式に基づく数学的ソルバーに来ましょう。なんて美しいアイデアでしょう。

エージェント向け論理RAGの実装

彼らの壮大なビジョンは、エージェント向けの論理RAGです。美しい。自然言語クエリを形式的TCPDL形式論に翻訳します。これは今形式的推論器であり、結果を翻訳し直して、LLMがそれを使用して推論プロセスを続けることができるようにします。シンプルで美しいですが、設定するのはあなたが思うほど簡単ではありません。

私たちはすでに論理ソルバーを持っており、彼らはここにあります。これは私の理解する限りでのデモです。LLの出力、私たちはここで推論プロセスを模倣します。これは単純に喫煙と危険因子、血圧とタイプなどについてです。

この正確な人間の英語の文章が、このような形式的推論表現に翻訳されるでしょう。左側に人間のストーリーがあり、右側に論理的、因果推論タスクに最適化された形式的機械読み取り可能な数学的方程式のようなものがあります。

本当に興味深いです。今日発見したばかりで、まだ試していません。理解して知識を皆さんと共有しようとしているだけです。

「これは危険因子です」や「これは結果です」というLlamaの出力が数学的演算子になります。コーディングでPythonで行ったことを、今度は私たちのトピックの形式的ソルバーを構築するというアイデアをコピーしようとしているのがわかります。

この演算子で、LLMは医療テキスト、医療教科書から学習した相関言語を使用していますが、この新しいソルバーでは専用の論理演算子を使用しています。これは「〜の十分な原因である」という意味で、これは単なる強い関連ではなく、論理的証明、推移性要素などで使用できる形式的因果主張です。

より広い知識が必要であることがわかります。何が何を引き起こすのか、これらの要素間の関係は何か、確率、密度、数値因子を教えてください。「これは主な原因です」のような結果を伴う言語を離れて、「メカニズムを理解し、確率を理解し、次に何が起こるかを理解し、このシステムで起こっている交差参照や反対参照を理解している」と言います。

成功した論理ソルバーを持ちたいなら、人間の言語でもっと正確でなければなりません

現在のLLMが直面する根本的な課題

見通し、このビデオを変更したと思います。読んで楽しむことができる1つの新しい出版物ではなく、クロスセレクション、クロストピック、1日に5つのタイトル、10、12の出版物を見せたいと思います。これらは明確に、ホットトピックは何か、人々が何を解決しようとしているか、どんな問題を解決しようとしているかを示しています。

美しいと思います。自己一貫性論文は、LLMが根本的に信頼できないという症状を明らかにする強力な診断ツールです。私のチャンネルで「LLMは美しい」と言っているという印象を持っていたなら、そうです、しかし彼らは根本的に信頼できません。この事実を認識しなければなりません。

第二に、簡潔なヒントのPDF、現在の思考連鎖の非効率性に関する論文で、推論プロセスをより実用的で低コストにする方法を提供しています。

絶対に興味深いのは、LLMが高複雑性での論理的推論でそれほど優れていないことへの根本的な治療です。外部数学的ソルバーを構築します。すでにいくつかのソルバーがありますが、外部形式推論エンジンで拡張された高度なものを構築し、より強力なニューロシンボリックハイブリッドモデルを作成します。

この方向での研究は何であれ、LLMの推論を改善するためのものです。LLMはエージェントの心臓、知能、脳、主要な中核要素であることを知っています。LLMがなければ、エージェントは全く改善しません。どれだけメモリや接続性を追加しても、LLMの推論能力が必要で、それらはエージェントの中核、心臓、脳なのです。

まとめ:LLMの現在の制約と今後の課題

今日LLMで直面している課題は何でしょうか?今日の5つの論文だけを見て、私は素晴らしい一貫性があると思います。なぜなら、今日200以上の論文を見て、これら5つの論文による文章や発見と矛盾する論文を1つも見つけられなかったからです。

課題は因果性です。因果性はまだLLMの重要な弱点です。誤解しないでください。LLMは相関のマスターですが、因果関係のマスターではありません。因果関係はLLMの主な弱点です。

第二に確率性です。私たちの人間の言語には曖昧な用語があります。「おそらく」「可能性が高い」「小さなチャンスがある」「めったに起こらない」といったものです。しかし、これは複雑な推論エンジンを持つために探しているものではありません。複雑な数学的問題がある場合、火星に行くロケットを建造したい場合、または自動運転のためでも、小さなチャンスでは十分ではありません。これを定量化しなければなりません。

また、LLMは継続的更新、学習プロセスに問題があります。新しい証拠が現れても、事前の信念を体系的に更新しません。「これは新しい事実です、これは新しい推論パターンです」と言うことはできますが、LLMの層に深く統合されていません。事前訓練データセットによって生成された推論パターンに新しい情報をある程度組み込んだ、新しいもっともらしい響きの文章を生成するだけで、それは深く織り込まれていません。

今日、LLMが何をしているか、強みと弱みは何かについて、非常に暗い、ほとんど暗黒の絵を見ています。しかし、LLMは完璧ではない、全くそうではない、近くでさえないということをすべての人に認識させることは絶対に重要だと思います。

LLMには大規模な制限があり、LLMを重要なプロセスのどこかに置く場合は、この制限を認識してください。この種のビデオに興味があり、これをもっと見たい場合は、なぜ購読しないのでしょうか。次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました