シングルトークンも使わずに"考える"新しいAIモデル

5,571 文字

Nuevo Modelo de IA "PIENSA" SIN USAR UN SOLO TOKEN

Unete a mi newsletter aqui! este informe especial, exploramos una de las innovaciones más disruptivas en la inteligencia...

新しい研究論文が発表され、大規模言語モデルが単語を一つも生成せずに内部的に考えることができる方法が示されました。Chain of thoughtやテスト時の計算についてはすでに聞いたことがあるかもしれませんが、これらの新しいモデルはさらに一歩進んでいます。思考プロセスはモデル自体の内部で行われ、この場合、簡単に読み取れる内部独白ではありません。この新しいアプローチでは、推論は潜在空間、つまりトークンが生成される前にモデル内部で行われます。
これはChain of thoughtと比べて根本的な違いがあり、言葉だけでは表現できない問題を解決する可能性を開きます。研究の詳細に入る前に、大規模言語モデルの限界についてMetaのAI主任科学者であるヤン・ルカンが述べたことをお見せしたいと思います。ルカンは人工知能分野で最も優れた頭脳の一人であり、これらのモデルが人間のように推論や計画を立てることができるという考えに対して最も批判的な声の一人でもあります。
彼によれば、現在のモデルが言語を超えて進むことができないことは、主要な限界の一つです。以下は、レックス・フリードマンのポッドキャストでのインタビューで、彼がこの点について正確に説明している部分です。
彼が基本的に言っているのは、私たちを取り巻く世界を本当に理解し推論できるモデルを持つためには、言語が記述できるもの以上のものが必要だということです。もちろん、彼にはそれを達成する方法について独自のアイデアがありますが、それはこの動画のテーマではありません。彼の主張は、言語モデルだけでは本物の推論と計画を達成するには不十分だということです。
この会見は思考モデルの現象が一般的になる前に録画されたものであることに注意してください。彼はおそらくthinking models、テスト時の計算、Chain of thoughtなどの概念をすでに認識していましたが、それでもなお不十分だと考えています。
個人的に、Chain of thoughtのプロセスを観察し、モデルが最終的な回答を出す前に従う推論のステップを見ると、かなり説得力があると感じます。しかし、彼はそうは見ていません。彼が説明している部分を見てみましょう。
彼ははっきりと言っています。私たちは、これらのモデルが言語を扱い、私たちが聞きたいことを言うことに信じられないほど長けているという事実に惑わされているのだと。しかし、それだけでは本物の推論と論理を達成するには不十分だと。
それでも、私はChain of thoughtを実際に読み、推論パターンを見ることができるという考えに立ち返り続けています。確かに、最終的にChain of thoughtは依然として言語の操作に過ぎないので、誰にもわかりません。
インタビューの別の部分をお見せし、その後で論文の詳細に入りましょう。そこで彼は生成AIの考えを完全に否定しました。これは最近見られた大きな進歩を考えると、かなり驚くべきことです。彼の立場は少数派です。ほぼすべての大手AI企業が、言語モデルだけを使用してAGIさらにはASIに到達できると考えています。
この見方によれば、Chain of thoughtとテスト時の計算は、真の推論と論理、そして現実世界の正確な表現を達成するために必要な最後の要素となるでしょう。しかし、再び彼は同意していません。
とはいえ、この研究をお見せしたいと思います。なぜなら、これはまさにヤン・ルカンが大規模言語モデルで欠けていると指摘している部分に対処できる可能性があるからです。
この論文のタイトルは「潜在的推論による試験時計算のスケーリング：再帰的深度アプローチ」です。著者らは、モデルが潜在空間、つまり単語を生成する前にモデル自体の内部で考えることが可能であることを発見しました。このアプローチは、ヤン・ルカンが推論と計画能力を持つモデルを開発するために不可欠と考える重要な要素となる可能性があります。
この種のアーキテクチャにより、モデルは内部で推論を行い、その思考プロセスをスケールアップすることができます。これがどのように機能し、何を発見したのか、詳しく説明しましょう。
研究の要約では、潜在空間での暗黙の推論プロセスを通じて試験時の計算をスケールアップできる新しい言語モデルアーキテクチャについて説明しています。モデルは再帰的ブロックを反復することで機能し、これにより試験フェーズ中に任意の深さまで展開することができます。
言い換えれば、モデル内に隠されたブロックがあり、それは無限に考え、最終的な答えを見つけるまで深く掘り下げることができます。これはすべてテスト時に行われ、従来の推論モデルがより多くのトークンを生成することで計算能力をスケールアップするのとは根本的に異なります。
これをよりよく理解するために、現在の思考モデルがテスト時にChain of thoughtを使用していることを思い出す必要があります。本質的に、これは追加のトークンを生成し、進行中の回答を修正し、生成したものについて反省することを意味し、このアプローチを採用しない従来のモデルと比較して、かなり多くのトークンが必要になります。
この新しい手法にはいくつかの重要な利点があります。特殊なトレーニングデータを必要としません（これが何を意味するかは後で説明します）。現在のChain of thoughtモデルのような巨大なコンテキストウィンドウを必要としません。そして最も重要なことは、言葉で簡単に表現できない形の推論を捉えることができるということです。
これは、言語モデルに対するヤン・ルカンの主要な議論、つまり現実世界は言葉だけでは完全に表現できないという点に直接つながります。おそらくこれが、それを証明する解決策かもしれません。
研究者たちは、これらの技術の一部を実践で適用する35億パラメーターのテストモデルを作成しました。その機能の詳細に入る前に、一歩下がって人間の思考がどのように機能するかについて話しましょう。
私たちの推論プロセスの大部分は、最初の言葉を発する前に、脳内での再帰的な神経活性化パターンを通じて行われます。現在のChain of thoughtモデルと比較すると、これらはトークンを生成しながら推論を生成しています。つまり、声に出して考えているのです。モデルが反省しようとしても、依然として言語を主な思考経路として依存しています。
しかし、私たちは常にそのように考えているわけではありません。多くの場合、言語化する必要なく情報を処理することができます。内部的にさえも。アイデアを概念化し、状況を想像し、言語を全く使用せずに問題を分析することができます。
これは、内部モノローグを持たない人々を思い起こさせます。彼らはどのように考えているのでしょうか？彼らは考えていますが、言葉を使わずにです。
論文では、研究者たちが近年、テスト時の計算を拡張することでモデルの推論能力を向上させる方法を探求してきたと述べています。これらがDeepSeek o1などのいわゆる思考モデルです。これまでの最も一般的なアプローチは、Chain of thoughtの広範な例を用いた事後トレーニングでした。これにより、モデルはコンテキストウィンドウ内で即時計算を仮想化し、その思考プロセスを外部化することを学習できます。
言い換えれば、モデルに考えることを学ばせるためには、それをどのように行うかの多くの例が必要でした。しかし、疑問を生じさせる点があります。最近、バークレーの博士課程の学生が、推論の大量の例を提供する必要なく、わずか0ドルでモデルに思考行動を誘導することに成功しました。代わりに、検証可能な報酬を用いた強化学習を使用し、これは明示的な思考の例に依存しないアプローチです。
おそらくこの論文は、その実験の前に書かれたものでしょう。いずれにせよ、研究は明確な制限を提起しています。すべての内部推論プロセスを単一の言語化されたトークンに縮小することを強制するのは非効率的です。モデルは、応答を生成する前に言語に依存せずに潜在的な連続空間で推論できれば、より有能になる可能性があると考えるのは理にかなっています。
そしてこのアイデアは完全に新しいものではありません。この考えは機械学習の基本であり、再帰型ニューラルネットワーク、拡散モデル、ユニバーサルおよびループ型Transformerの形で、それぞれの10年で再発見されてきました。これは新しいものではありませんが、研究の著者らは、新しい世代のAIが登場するたびに、これが再探求され発展していくと指摘しています。
では、テスト時に実際何が起こっているのでしょうか？モデルは潜在空間で再帰的推論を適用することで、その性能を向上させることができます。これは、トークンを生成する必要なく、内部的に問題を何度も再考できることを意味します。このアプローチのおかげで、より多くのパラメーターとトレーニングデータに依存するオープンソースモデルと競合することができ、より効率的になります。
この技術の利点をいくつか見てみましょう。再帰的なパスにより、Transformerベースのモデルはトークンを生成する前により多くの計算を実行できます。言い換えれば、モデルは応答を出す前により深く推論することができます。
潜在的推論は、カスタマイズされたトレーニングデータを必要としません。従来、モデルに推論を学ばせるには、構造化された思考の大量の例を与える必要がありました。しかし、検証可能な報酬を用いた強化学習のような技術が、明示的なトレーニングなしに推論行動を誘導できることをすでに見てきました。これがスケールできるかどうかはまだわかりませんが、その実現可能性を裏付ける複数のケースが存在します。
潜在的推論モデルは、Chain of thoughtベースのモデルよりもトレーニングと推論のためのメモリが少なくて済みます。これにより、計算リソースの面でより手軽で効率的になる可能性があります。これは、従来のChain of thoughtモデルが大量のトークンを生成し、そのために巨大なコンテキストウィンドウが必要となり、結果として高い計算コストが必要になるためです。
一方、再帰的深度ネットワークは標準的なTransformerよりもパラメーターあたりの演算を多く実行し、これによりアクセラレーター（つまりGPU）間の通信コストが大幅に削減されます。基本的に、これは複数の接続されたGPUを必要とする代わりに、単一のGPUをより効率的に活用できることを意味します。
もう一つの重要なポイントは、より計算中心で、パラメーター数の少ないアーキテクチャを設計することで、情報を単に記憶するのではなく、メタ論理と抽象化の戦略を開発することによって問題を解決するモデルを促進しようとしていることです。
これは根本的な側面です。なぜなら、現在の言語モデルは記憶に大きく依存しており、トレーニングデータを超えて一般化する能力は依然として議論の的となっているからです。多くの場合、これらのモデルは本当の意味で一般化できないと主張され、これが真の人工知能（AGI）から遠ざけている要因となっています。しかし、この新しい技術はそのパラダイムを変える可能性があります。
実践でどのように機能するか見てみましょう。テスト時にモデルは入力を受け取ります。例えば「こんにちは」です。次に、モデルは再帰的ブロックに入ります。これは次のステップがどうあるべきかを何度も繰り返し考えることができる反復段階です。このプロセスは無期限に続けることができ、最終的に出力が生成されます。この場合は「世界」となり、「こんにちは世界」が形成されます。
緑の部分は、単一のトークンを生成する前に行われるモデルの推論フェーズを表しています。
まさにこの研究が示しているのは、モデルが出力トークンを生成する前に潜在空間でより長く考えれば考えるほど、さまざまなタスクでの性能が向上するということです。グラフは、応答を出す前の内部反復回数が増えるにつれて、GSM 8k、G-SWAC、Human Evalなどのベンチマークでモデルが改善することを示しています。
さらに、モデルがより多くのトレーニングトークンを受け取るほど性能が向上するというTransformerの従来のスケーリング法則も確認されています。もう一つの重要なポイントは、モデルがタスクの複雑さに応じて使用する計算量を調整できることです。高校レベルの数学のような単純な問題では少ないステップで済みますが、哲学や道徳的ジレンマのようなより抽象的なテーマでは、良い回答に到達するためにより多くの反復が必要です。
これは人間の推論の仕方に似ています。問題が難しければ難しいほど、考えるのに時間がかかります。しかし最も興味深いのは、このアプローチがChain of thoughtに取って代わるのではなく、それを補完するということです。モデルは最初にトークンを生成せずに潜在空間で推論し、最終的にテキストの生成を開始したら、Chain of thoughtを使ってそれらの回答について反復することができます。
これは問題を解決する人間のプロセスに似ています。最初に内部で考え、次に書き出し、書いたものを見直して解決策を調整します。この進歩は、より洗練された適応可能な推論を持つモデルへの重要なステップとなり、本当に考える人工知能にさらに近づく可能性があります。