新しいAI推論システムが研究者を驚愕させる:無制限コンテキストウィンドウの実現

本動画は、MITとPrime Intellectが提案する再帰的言語モデル(RLM)という革新的なアプローチを解説するものである。従来の大規模言語モデルはコンテキストウィンドウの拡大により膨大な情報を処理できるようになったが、実際には入力が長くなるほどパフォーマンスが低下する「コンテキストロット」という問題に直面していた。RLMはこの課題に対し、全ての情報をモデルに詰め込むのではなく、外部環境として配置し、モデルが必要に応じて探索・検索・分析するという根本的に異なる手法を採用している。これにより、1000万トークン規模のデータを従来モデルより低コストかつ高精度で処理することが可能となり、AI推論における新たな次元が開かれたのである。

New AI Reasoning System Shocks Researchers: Unlimited Context Window

AI just gained a completely new way to reason. Instead of forcing massive inputs into a context window and hoping perfor...

拡大するコンテキストウィンドウの限界
コンテキストロットの本質
RLMのアーキテクチャ
驚異的なコストパフォーマンス
モデルの実際の動作パターン
コストと効率性の分析
Prime IntellectによるRLMnVの実装
現在の制限と将来の可能性
まとめ:AI推論の新たな地平

拡大するコンテキストウィンドウの限界

ここ数年、私たちはコンテキストウィンドウがどんどん大きくなるのを見てきました。8,000トークンが32,000になり、次に100,000、そして突然誰もが100万トークンモデルについて話すようになりました。理論上は、これで問題は基本的に解決したように聞こえます。すべてをプロンプトに詰め込んで、モデルに任せればいいと。

しかし、実際の使用ではそうはいきません。パフォーマンスは低下し、回答は曖昧になり、コストは爆発的に増加し、ある時点でモデルは本筋を見失ってしまうのです。そこで登場するのがこの新しいアイデアです。そしてこれは、より大きなモデルでも、より広いウィンドウでも、巧妙な圧縮トリックでもありません。言語モデルがそもそも何を見るべきかについて、まったく異なる考え方なのです。

MITとその後のPrime Intellectが再帰的言語モデル、つまりRLMで提案しているのは、考え方の転換です。モデルに巨大なプロンプトを一度に飲み込ませるのではなく、そのプロンプトをモデルが探索できる外部世界として扱うのです。モデルはすべてを読むわけではありません。あちこちを突いて、断片を調べ、コードを書いて検索し、さらには小さなバージョンの自分自身を呼び出して助けを求めるのです。

最初は抽象的に聞こえますが、分解してみると驚くほど直感的です。まず、彼らが解決しようとしている核心的な問題から始めましょう。今日の最高のフロンティアモデルでさえ、研究者が今では公然とコンテキストロットと呼ぶものに苦しんでいます。入力が長くなるにつれて品質は低下し、タスクがより複雑になるほど低下は速くなります。

コンテキストロットの本質

巨大な文書のどこかに隠された特定のフレーズを見つけるような単純な検索タスクは、かなりうまくスケールします。しかし、答えが入力の多くの部分に依存するタスク、さらに悪いことに多くの部分間の関係に依存するタスクは、すぐに崩壊します。これはOolongやUlongペアのようなベンチマークで非常に明確に現れます。これらのベンチマークでは、モデルは単一の事実を検索するだけでなく、大量のエントリを変換または比較するよう求められます。

MIT論文では、GPT-4oを使ってこれを視覚化しています。入力長を数千トークンから数十万トークンまで増やすと、GPT-4oのパフォーマンスは急激に低下します。特に線形または二次の複雑さを持つタスクでそうなります。入力全体にわたってペアワイズ集約を必要とするUlongペアでは、GPT-4oは基本的に崩壊します。F1スコアはゼロに近づきます。

そしてこれは、ハードなコンテキスト限界に達する前に起こります。つまり、問題は単にトークンが足りないということではなく、モデルがそれらをどう処理するかなのです。巨大なプロンプトをAIの脳に詰め込む代わりに、そのテキストすべてをモデルの外側に、机の上の巨大な文書のように置くのです。AIは最初にすべてを読むわけではありません。

必要なときだけそれを見るのです。モデルはその文書と対話する方法についての簡単な指示のセットを受け取ります。その一部をざっと見たり、特定の単語を検索したり、小さなセクションを引き出したり、メモを取ったり、さらには小さなAIに小さな一部分だけの助けを求めたりできるのです。

つまり、情報に溺れる代わりに、重要なものだけをチェックしながら段階的に進むのです。こう考えることができます。AIはもはや本全体を記憶していません。ページをめくり、行をハイライトし、必要に応じて段落を要約するようアシスタントに依頼しているのです。

RLMのアーキテクチャ

舞台裏では、1つのメインAIが全体を運営しています。そのメインAIは、完全な入力が存在するワークスペースに接続されています。あちこちを突いたり、素早く検索したり、大きなテキストを小さなチャンクに分割したり、それらのチャンクをより安価で小さなAIに処理させたりできます。

必要なものがすべて揃ったら、答えをまとめてあなたに送り返します。まだ普通のチャットのように感じられます。1つの質問をして、1つの答えを得る。これの強力な点は、AIが「自分のメモリにどれだけ詰め込めるか」という観点で考えるのをやめて、「この情報をどう処理するか」という観点で考え始めることです。すべてを読むことではなく、それをナビゲートすることなのです。

そしてそれは、入力が巨大になったときにすべてを変えます。AIが一度に最大1,000の完全な文書を受け取るベンチマークがあります。それは数百万語です。通常のモデルはそれをすべて一度に読むことはできません。近くすらありません。しかしこのセットアップでは、AIは試みません。ただスキャンし、検索し、重要な部分にズームインするだけです。他のすべては背景に手つかずのままです。

これが本当のブレークスルーです。入力のサイズが主な制限でなくなります。代わりに重要なのは、AIが情報を見つけ出すのにどれだけ賢いかです。そのベンチマークでは、結果は正直言って無視できません。RLMがGPT-4oと組み合わされると、91%をわずかに超える精度に達し、質問あたりの平均コストは1ドル弱になります。

驚異的なコストパフォーマンス

これを視野に入れるために、モデルにすべてを直接読ませる昔ながらのアプローチでは、クエリあたり1.5ドルから3ドル近くのコストがかかります。そしてそれは、モデルがそれだけのデータを最初から処理できると仮定した場合です。そしてギャップは、より困難なタスクでさらに明白になります。

LongBench V2のCode QAを取り上げましょう。GPT-4o単独では、精度は24%です。その上に要約エージェントを追加すると、その数字は41.33%に跳ね上がります。これはすでに堅実な改善のように見えますが、RLMセットアップに切り替えると、精度は62%に上昇します。

本当に興味深いのは、さらに物事を削ぎ落としたときに何が起こるかです。モデルがRipple環境にアクセスできるが、再帰的なサブコールが全くないアブレーションがあります。そしてそのバージョンは実際に66%の精度を達成します。この場合、完全なRLMよりも高いのです。

そしてそれは大きなシグナルです。コンテキストをモデルの頭の外に移動して外部環境に入れるだけで、すでに大きな違いが生まれることを示しています。再帰が登場する前でさえ、モデルは一度にすべてをメモリに保持する必要がないときにうまく機能するのです。

次にUlongペア、二次タスクを見てみましょう。ここで物事はワイルドになります。GPT-4o単独ではF1スコアは約0.04です。これは本質的に役に立ちません。要約エージェントはゼロ近くをうろつきます。検索を伴うKodakは約24.67になります。完全なRLMは58.00に跳ね上がり、再帰のないRippleのみのバリアントでさえ約43.93に達します。

巨大なオープンモデルであるQwen 2.5 Coderの場合、ベーススコアは0.1 F1未満に留まりますが、完全なRLMは23.11に達します。Rippleはモデルにすべてのコンテキストをプッシュする場所を与えるので、過負荷になりません。再帰的なサブコールは、管理可能なチャンクでそのコンテキストについて実際に推論する方法を与えます。

モデルの実際の動作パターン

MIT論文は、これらのモデルが動作しながら実際に何をしているかをステップバイステップで示しています。そしてそれを見ると、非常に理にかなっています。まず、モデルは素早く一瞥します。入力の始まりをちらっと見て、どんな種類の混乱に対処しているかを理解します。これはリストか、文書の山か、ログか、コードか、それとも他の何かか。その最初の一瞥が、次に何をすべきかを決めるのに役立ちます。

その後、選択的になります。すべてを読む代わりに、検索を始めます。関連性がありそうな単語、パターン、または行を探し、残りは無視します。つまり、モデルは実際にすべてを頭にロードすることなく、すでに問題を削減しているのです。

物事がより複雑になると、データを一度に処理しようとするのをやめます。大きな入力を、個々の行や文書のような小さな断片に分解します。各断片は別々に処理され、時には小さなヘルパーモデルによって処理されます。メインモデルは制御を維持し、有用な断片を集めて1つの答えに組み合わせます。

最終的な答え自体が非常に長い場合、RLMは別の簡単なトリックを使います。一度にすべてを書こうとはしません。部分を保存しながら少しずつ構築し、最後にすべてをくっつけます。これが通常の出力制限を回避する方法です。彼らはノンストップで話しているのではありません。組み立てているのです。

これが、再帰という言葉が実際にここで重要である理由でもあります。モデルは戻って、再度尋ねたり、何かを洗練させたり、小さく焦点を絞った呼び出しを使って自分の作業をチェックしたりできます。時にはそれが、あまりにも多くの情報が混ざり合ったときに通常起こるミスをキャッチするのに役立ちます。他の時には、それは単に余分な作業と高いコストを意味します。そして論文はそれを隠していません。

いくつかの実行は速くてクリーンです。他のものはあちこちさまよって、チェックしすぎて高価になります。しかし重要な部分は、モデルが今や情報に圧倒される代わりに、情報を処理する方法を持っているということです。

コストと効率性の分析

それがコストと効率性につながります。平均して、RLMは驚くほど競争力があります。多くの場合、中央値のRLM実行は、すべてを直接処理しようとする単一のベースモデル呼び出しよりも安価です。しかし分散は高いです。いくつかの実行は安くて効率的です。他のものは長い間さまよい、多くのサブコールを行い、高価になります。

著者は、すべての実装が同期ブロッキング呼び出しを使用し、並列性がなく、いつ停止するかについての学習されたポリシーがないことを指摘しています。ここには多くの低い位置にある果実があります。ここでPrime Intellectが登場します。彼らはMITの青写真を取り、RLMnVと呼ばれる具体的なシステムに変えました。

彼らがセットアップした方法は非常に意図的です。決定を下すメインAIは、シンプルなワークスペースへのアクセスのみを取得します。ウェブブラウジングなし、巨大なツール出力なし、メモリを氾濫させる乱雑なデータなし。すべての重労働、ウェブ検索やファイルアクセスのようなものは、小さなヘルパーモデルにプッシュされます。メインモデルは掘ることではなく、考えることに集中し続けます。

彼らはまた、LLMバッチと呼ばれるものを使って、一度に多くの小さなタスクを送信する方法を提供します。つまり、すべてを1つずつ行う代わりに、作業を分割してより速く処理できるのです。そして最後に非常に厳格なルールがあります。モデルは最終的な答えを特定の場所に明確に書き込み、完了としてマークしなければなりません。半分終わった思考も、さまよい歩くこともありません。

Prime IntellectによるRLMnVの実装

その分離が本当に重要であることがわかります。巨大なテキストのチャンクがメインモデルのメモリにダンプされることは決してありません。環境の外側に留まります。メインモデルは短い要約、メモ、中間結果のみを見ます。それがすべてを管理可能に保ち、システムが自分自身の入力で窒息するのを防ぎます。

Prime Intellectはこのセットアップをいくつかの非常に異なるシナリオでテストしました。そのうちの1つ、Deep Diveは、非常に長くノイズの多いページを持つウェブリサーチに関するものです。別のMath Pythonは、コーディング環境を使用した難しい競技スタイルの数学問題に焦点を当てています。

彼らはまたOolongを直接再利用し、Verbatim Copyを追加しました。これは、システムがJSON、CSVファイル、または混合コードのような複雑なデータを正確に再現できるかをチェックします。これらすべてにわたって、GPT-4o MiniやPrime Intellectの独自のIntellect-1 MOEのようなモデルは、このRLM構造にラップされると、著しく信頼性が高くなりました。

モデルを比較すると、他の本当に興味深いことが現れます。GPT-4oとQwen 2.5 Coderの両方は、RLMとして使用するとはるかに良くなりますが、同じように振る舞いません。Browse Comp Plusでは、GPT-4oを使用したRLMはほぼベンチマークを解決します。一方、Qwen 2.5 Coderを使用したRLMは、タスクの約半分で苦労します。

ワイルドなのは、システムプロンプトが基本的に同一であることです。唯一の違いは、Qwen 2.5 Coderにヘルパー呼び出しを過度に使用しないように警告する1つの追加の警告です。その小さな変更が非常に異なる動作につながります。GPT-4oは慎重で選択的である傾向があります。Qwen 2.5 Coderはより積極的で、特にOolongスタイルのタスクで、1行ずつ物事を分割し始めます。

同じ構造、異なる本能。これは何か重要なことを指摘しています。RLMはどのモデルでも機能することになっており、理論的にはそうです。しかし実際には、それらがどれだけうまく機能するかは、ベースモデルが判断を下すのにどれだけ優れているかに大きく依存します。

現在の制限と将来の可能性

現在、これらのモデルはその種の意思決定のために特別に訓練されていません。その場で理解しているのです。著者は制限について非常に正直です。現在のRLMは1レベルの深さにしか行きません。ヘルパー呼び出しは単なる通常の言語モデルであり、完全なRLM自体ではありません。すべては並列ではなく順次実行されます。

いつ分割するか、いつ停止するか、どれだけのチェックで十分かをガイドする強化学習はありません。時々モデルは考えすぎて、同じ答えを検証し続け、予算を使い果たし、それでも間違ってしまいます。しかしそれはまた、上昇余地がある場所でもあります。

論文は、これらのRLM実行が基本的に新しい種類の推論トレースであると主張しています。そして推論トレースは訓練できます。この構造を強化学習と組み合わせれば、モデルに巨大な入力を効率的に探索する方法、どれだけ深く再帰するか、いつ停止すべきかを教えることができます。より良いモデルとより良いシステムが互いに積み重なるでしょう。

長い間、改善はより多くのデータとより多くの計算でより大きなモデルを訓練することを意味していました。RLMは推論時に新しい次元を追加します。制限はもはやコンテキストウィンドウにどれだけ収まるかではありません。モデルがその外側に存在する情報をどれだけうまくナビゲートできるかです。

ある意味で、これは古典的なコンピュータサイエンスからアイデアを借りています。アウトオブコアアルゴリズムは、何をいつロードするかを注意深く管理することで、メモリよりもはるかに大きなデータセットを処理します。RLMは言語モデルのために似たようなことをしています。巨大な外部ストアへのシンボリックアクセスと組み合わされた、小さく速い作業メモリです。

まとめ:AI推論の新たな地平

そして結果はすでに無視できません。1000万トークンを処理し、フロンティアモデルを完全に壊すタスクを解決し、基礎となるモデルアーキテクチャを変更することなく、同等またはより低いコストでそれを行っています。

では、人々が巨大なコードベース、企業全体の知識グラフ、または重要な詳細を忘れることなく数ヶ月のログを処理できるエージェントを手に入れることができるかどうかを尋ねるとき、これはこれまでに見た中で最も具体的な答えの1つです。

では、これでコンテキストウィンドウが重要であることが終わりなのでしょうか。あなたの考えをコメントで教えてください。そしてこれが実際にフードの下で何が変化しているかを理解するのに役立ったなら、いいねを押して、このようなより深い解説のために購読してください。そして視聴ありがとうございました。