CoT から SoT へ: 新たな抽象的 AI 推論

6,286 文字

How much "abstract logic" can an AI system understand? Can an AI integrate pure associative abstractions in its calculat...

こんにちはコミュニティの皆さん、戻ってきてくれて嬉しいです。前回の動画では、チェーン・オブ・ソート(Chain of Thought)やツリー・オブ・ソート(Tree of Thought)、グラフ・オブ・ソート(Graph of Thought)などの推論トポロジーについて話しました。そして前回の動画を終えたばかりのとき、グラフ・オブ・ソートの特定のトポロジカルバリアンスの計算方法をお見せしたところで、新しい推論トポロジーがあることを知らされました。それは「S」と呼ばれるもので、とても興味深いと思いました。
最初に目にしたのはこのグラフです。x軸にはアウトプットトークン、つまりトークン数があり、こちらにはシステムの精度があります。ここでシステムの使用トークン数が200から50へと減少していることがわかります。しかし精度を見ると、ほぼ水平な線になっています。つまり、性能はわずかに低下するものの、トークン数を大幅に削減できるのです。これは7B、14B、そして数十億のトレーニング可能なパラメータを持つLLMにおいて当てはまります。
では「S」が何の略かを詳しく見てみましょう。「スケッチ・オブ・ソート」(Sketch of Thought)の略です。韓国の同僚たちが新しいAI研究論文を発表し、認知科学の原理に基づいた3つの専門的な推論パラダイムを適用する新しいプロンプティングフレームワークを紹介しています。彼らは、このシステムが機能するために、各クエリに最適な推論パラダイムを動的に選択する新しい言語モデルを訓練したと言っています。つまり推論時に3つの専門的な推論パラダイムを持っているのです。
これが私の興味を引き、この研究を詳しく見てみようと思いました。彼らが調査したものは何でしょうか。彼らは認知科学に基づいていると続けています。本当の科学は人間が作る機械、数学、物理学だけだと言う人もいるかもしれませんが、認知科学も科学だとしましょう。彼らは人間が推論プロセスを合理化する方法を反映させています。
最初のパラダイムは「概念的連鎖」(conceptual chaining)です。これは最小限の言語化でアイデアを繋げる私たちの連想記憶ネットワークに基づいています。すぐに例を示します。
2つ目は「チャンク・シンボリズム」(chunked symbolism)です。これは簡単です。自然言語に適用される数学的推論で、数学的論理記法を使って象徴的表現を書き下すことができます。これは素晴らしいものです。
そして医師に行ったことがあれば、専門家は特別な省略表現を持っていることを知っているでしょう。別の病院への指示や転送を受けるとき、彼らは長い文章で美しいエッセイを書くのではなく、特定の順序のキーワードを使います。この「専門家の省略表現」(expert shorthand)は、TRがLLMに学ばせようとしている、同じ推論性能を生み出すものです。
ご存知のように、動画のためには小さな天才の閃きが必要です。皆さんが馴染みのあるチェーン・オブ・ソートと、スケッチ・オブ・ソートは非常に似ています。今はルーターモデルがあり、AIインテリジェンスがあります。ユーザーから新しいクエリを受け取り、3つの異なる推論パラダイムがある場合、LLMを訓練して、クエリをこれら3つの推論パラダイムのいずれかに割り当てる必要があります。
数学的表記の場合は非常に簡単です。なぜならLLMは言語指示と数学的指示の両方で訓練されているからです。例を挙げてみましょう。
まず人間言語の象徴的表現による数学的推論から始めましょう。これは前回の動画でQWQという長いチェーン・オブ・ソート安定性テストを示したときに見ました。その動画の最後でGemini Flashの同期を示しました。それはエレベーターのタスクで、コード実行を有効にしたので、モデル自体がルールを数学的関数として再定義することを決定しました。
このプランニング方法について考え、そして数学的関数として私が指示した内容と全く同じ内容をPythonコードで書きました。つまり、人間のタスク記述から数学的論理記法へと移行し、数学はコードであり、その数学的論理がPythonでコードされたのです。
また「AI推論の嘘」という別の動画では、自然な英語で定式化された前提がある場合、一階論理を使う方法を正確に示しました。数学や論理について少し知っていれば、この特定の表記を理解できるでしょう。
「専門家の省略表現」にはある種のリスクが伴います。このビデオのサムネイルは一種の専門家表記です。AIについて少し知っていれば、CoTはチェーン・オブ・ソート、ToTはツリー・オブ・ソート、GoTはグラフ・オブ・ソートを表すことを理解できるでしょう。この専門家表記や専門家の省略表現には多くのドメイン知識が必要です。
3つ目は「概念的連鎖」です。連鎖というと、アイデアを単に繋げる論理的でおそらく一次元の線形チェーンをすぐに理解します。私の知識体系があり、連想記憶ネットワークがあり、アイデアA、B、C、Dがあるとします。特定のアイデアと用語があれば十分です。ネットワークがこれを私の知識体系に統合するからです。このアイデアが何であるか、その前提条件は何かなどの完全な解決策があります。
例えば、またこのビデオのサムネイルですが、概念的連鎖は単純な矢印表記とも呼ばれるものです。チェーン・オブ・ソートから次の複雑さであるツリー・オブ・ソートへ、そしてさらに次の複雑さであるグラフ・オブ・ソートへと矢印で繋がっています。概念的連鎖と専門家表記は連携し、互いを補完することができます。
ここで韓国の同僚たちによる公式文書を見てみましょう。概念的連鎖については、先ほど説明したように、クエリと回答、あるいは思考タグの開始と終了の間に仮定があり、SEエラー(韓国のエラー1)があります。回答は韓国語のものです。
チャンク・シンボリズムに移ると、物理学を適用する単純な数学的例があります。数学、物理学、化学、材料科学など様々な分野がありますが、前提条件として車の加速に対する理解が本質的にあることに気づきます。つまり、これは例えば地球の重力場で起こっていることを理解しています。
私たちは定数Gが何であるか、火星や他の惑星の衛星でこの実験を行うとしたら何を入れるべきかを正確に知っています。また正確な速度があるので、光速に近い速度区間ではないことを知っています。つまりアインシュタインの方程式を使う必要はありませんが、私たちが日常的に経験する多くの本質的なアイデアがあります。
注意深くチャンク・シンボリズムを使うと、意識しているかもしれないリスク、または著者が意識している、あるいは全く意識していないリスクがあるかもしれません。
3つ目は関連しています。専門家の語彙や専門家の表記のためには、あなたもその分野の専門家である必要がありますが、病院Aでは医療ルーチンの異なるプロセスがあり、病院Bでは何らかの理由で別の線形処理チェーンがあるかもしれません。注意が必要です。表記の中には未定義の自由度があります。
事実に入りましょう。2025年3月7日に韓国の同僚たちとディープユートから発表された「スケッチ・オブ・ソート: 適応的認知インスパイアスケッチングによる効率的なLLM推論」です。これは冒頭でお見せしたグラフで、私の注目を引きました。内容について説明しましたが、あとは実際にどうやるかという点だけです。
彼らはHugging Faceの15の推論データセットを取り、データセットを数学、常識、論理、マルチホップ推論、科学などの6つのカテゴリーに分類しました。さらに、多言語・マルチモーダルデータセットでも確認しようとしました。
最初のタスクは、私が説明したようにルーターがあることです。ルーターの任務は簡単で、3つの推論パラダイムがあり、ルーターはこの特定のクエリをどこにルーティングするかを理解するように訓練されます。
彼らはデータセットから14,200サンプルについて言及し、単純にGPT-4 Omniを使って「各データサンプルに対して、概念的連鎖、チャンク・シンボリズム、専門家の語彙のうち、どの推論パラダイムが最も完璧か」と尋ねました。
GPT-4の解決策を含むトレーニングデータができたら、彼らは最小のモデルを探しました。BERTではなく、さらに軽量なDistilBERTを選びました。これは数年前から知られているもので、非常に軽量で計算が速いので、このモデルを選んで各クエリを適切な推論パラダイムに分類するコーパスをトレーニングしました。
私たちには3つの推論パラダイム(1、2、3)があるので、AIモデルに連想をさせる方法を学びました。BERTに馴染みがなく、完全なトランスフォーマーネットワークを思い浮かべるなら、エンコーディングとデコーディングPFFがあります。エンコーディングPFFはBERTと呼ばれ、デコーディングPFFはGPTと呼ばれます。
システムの完全なプロセスフローを見てみましょう。ユーザー(私)が数学的問題などのクエリを送信します。訓練された言語モデルであるDistilBERTが私のクエリ、特徴、シンボルの存在、使用する技術用語を分析し、数学なのでチャンク・シンボリズムパラダイムを選択します。
ルートの出力に基づいて、次のLLMに簡潔な象徴的推論を指示するシステムプロンプトが構築されます。UTはQwen 2.5 32Bモデルを使用し、システムプロンプトについてはすぐに説明します。3つの異なるシステムプロンプトがあり、Qwenは象徴的推論をどう行うか正確に知っています。
Qwen 2.5 32Bは私たちが求めるもの、つまり数学的問題に対するコンパクトな形式でスケッチされた推論チェーンを生成し、特定のタスク固有の変数を定義し、最小限のトークンで計算を実行します。ここではGPT-4、DistilBERT、Qwen 2.5 32Bが使われています。
著者たちは自己一貫性もチェックしました。複数の可能性を生成して、AIシステム自体に投票させる方法です。最も簡単な多数決投票システムを使って、複数の回答の中からAIが最適と考える回答を選びます。最終回答を得たら、従来のチェーン・オブ・ソートプロンプティングと比較して、このスケッチ・オブ・ソートプロンプティングが実際に機能するかどうかを確認します。
著者たちは14Bと7Bの小さいモデルを使用することにしましたが、もちろん他の7B、14B、32Bモデルも使用できます。マルチモーダルタスクには、画像用のQwen 2.5 Vision言語7Bモデルを使用しました。
これらはすべて利用可能で、MITライセンスがあり、GitHubリポジトリもあります。スケッチ・オブ・ソートのPythonファイルがあり、9時間前に更新・統合されたばかりなので、本当に最新です。システムプロンプトも提供されています。特に素晴らしいのは、3つの推論パラダイム用のシステムプロンプトが英語、韓国語、イタリア語、ドイツ語で提供されていることです。
彼らはローカルにインストールする方法も教えてくれています。ドイツ語版のチャンク・シンボリズムシステムプロンプトを見たい場合は、これがそれです。もちろん、チェーン・オブ・ソートと比較しているので、チェーン・オブ・ソートのシステムプロンプトもあります。
より一般的な形式で見たい場合は、arXivの論文の付録に行けば、少数の例を含む概念的連鎖システムプロンプトがあります。プロンプトがどのように構造化されているか、思考開始、思考終了、短縮推論ボックス、最終結果など、すべてが提供されています。
チャンク・シンボリズムシステムプロンプトと、例を含む専門家の語彙システムプロンプトもあります。もし異なるドメインで作業していて、バイオテクノロジーや医療、金融など、特定のドメイン向けに異なる方法でこれを構築したい場合は、自分の金融や株式市場計算のための例をここに挿入し、独自の推論パラダイムを定義することができます。
最後にシステムのパフォーマンスを見てみましょう。Qwen 2.5 32Bシステムでの推論タスクの公式結果です。最初の行が従来のチェーン・オブ・ソートで、次にピンク色のスケッチ・オブ・ソートがあります。さらに自己一貫性を持たせたいので、複数の回答が生成され、AIが最適と考える回答を選ぶ多数決投票があります。
ここにはチェーン・オブ・ソートの自己一貫性（SC）とスケッチ・オブ・ソートの自己一貫性があります。数学、常識、論理、マルチホップ、科学、特殊生活がありますが、全体を見ると、精度のパーセンテージがあり、チェーン・オブ・ソートは80.9%、スケッチ・オブ・ソートは80.5%です。
「どこに利点があるのか」と思うかもしれませんが、利点はトークン数にあります。チェーン・オブ・ソートは227トークンを使用しましたが、スケッチ・オブ・ソートはわずか53トークンです。自己一貫性を使うと、チェーン・オブ・ソートは682トークン、スケッチ・オブ・ソートは161トークンです。
このシステムの精度はどの程度低下するでしょうか。絶対的なパーセンテージ数字がありますが、一般的にはこの特定の32Bモデルでは精度は約0.5パーセントポイント低下すると言えます。
数学的タスクについて、32B、14B、7Bモデル全体で見ると、一般的にLLMのトークン数が約60%削減され、ほぼ同じ精度が得られます。興味深いことに、+2%の精度向上も可能ですが、少し損失もあります。つまり、システムの精度はわずかに低下しますが、トークン数は60%削減されます。
これは興味深いですが、常に機能するとは限らないことに注意してください。特に数学的タスクはうまく機能すると思います。なぜなら数学的論理と数学的表記があるからです。専門家の省略表現を使う場合は、特定の省略表現でシステムを少し訓練した方がいいかもしれません。意識していない隠れた自由度が多くあるかもしれないからです。
14Bモデルのパフォーマンスデータはこちらで、7Bモデルも同様です。マルチモーダル推論に関して、チェーン・オブ・ソートとスケッチ・オブ・ソートでトークン数が大幅に削減されていますが、パフォーマンス、つまり精度は86%から約82.5%に低下しています。
ここでマルチモーダルでは何かが起きていることに注意が必要ですが、計算インフラに大きな制限がある場合、特に数学的論理表記や推論専門家システムプログなどを使う場合、スケッチ・オブ・ソートは可能性の一つです。これはかなり安全に行えると思います。Gemini 2.0 Flashが自動的にそれを行っていることを示しました。
しかし、この専門家の省略表現については、このシステムが訓練フェーズでプライムされた可能性のあるすべてのシステム的前提条件を本当に理解できるのか、そしてユーザーがすべての隠れた次元を推測できるのかについては、あまり確信が持てません。しかし、推論プロセスのトークン数を削減するためのアプローチとしては興味深いものです。
これが興味深いと思われたら、ぜひチャンネル登録してください。次の動画でお会いしましょう。