チェーン・オブ・ドラフト：チェーン・オブ・ソートの終焉？（より速い結果、より低いコスト！）

5,753 文字

Could this be the END of Chain of Thought? - Chain of Draft BREAKDOWN!

Want to stay on track and up to date with AI? Check out Matt Wolfe's AI Playbook from Hubspot for free here: My Newslett...

チェーン・オブ・ソートどけ、新しいプロンプト戦略が登場しました。それはチェーン・オブ・ドラフトと呼ばれています。チェーン・オブ・ソートを使用する新世代の思考モデルによってAIは新たなスケーリング法則の時代に突入しましたが、チェーン・オブ・ソートにはいくつかの問題があります。最終的な出力を得る前に非常に多くのトークンを生成する必要があるため、本質的に遅いのです。しかし今、Zoom Communications（そう、あのビデオ会議ソフトウェア会社です）の研究者たちが、思考モデルがより効率的に動作する方法を発見しました。これは人間の思考方法により近い方法です。
このビデオはHubSpotによって提供されています。こちらが論文です。「Chain of Draft: Writing Less to Think Faster（チェーン・オブ・ドラフト：より少なく書いてより速く考える）」というタイトルです。詳細に入る前に結果をお伝えしますと、このプロンプト技術はチェーン・オブ・ソートと同等かそれ以上の性能を発揮する一方で、コストと遅延が大幅に少なくなります。まずチェーン・オブ・ソートについて簡単に説明し、それからチェーン・オブ・ドラフトについて詳しく見ていきましょう。
チェーン・オブ・ソートはモデルがステップバイステップで考えることを可能にします。問題を段階的な解決策に分解することで、人間が行う構造化された推論プロセスを模倣します。論文によると、チェーン・オブ・ソートは効果的ですが、この手法は推論時に大幅に多くの計算リソースを要求し、冗長な出力と高い遅延につながります。思考モデルがチェーン・オブ・ソートを使用し、これらの思考モデルはDeep Seek、O1、O3、Gemini Thinkingなど、推論時にスケールアップするモデルであることを覚えておいてください。しかし、チェーン・オブ・ソートは人間の脳の働き方を模倣しているとはいえ、完全に同じではなく、実際には人間の思考方法により似た技術があります。
このような冗長性は、人間が通常問題解決にアプローチする方法とは大きく異なります。私たちは不必要な詳細を省いて、本質的な洞察を捉えるために簡潔な下書きやメモに頼っています。しかし、まずチェーン・オブ・ソートがどのように機能するかを簡単に説明しましょう。
チェーン・オブ・ソートは、モデルが問題を段階的に分解し、それらの問題について考え、潜在的な解決策を探索し、最後に問題に対する最良の解決策を選択することを可能にします。しかし、それには多くのトークンが必要です。チェーン・オブ・ソートは非常に冗長な性質を持つため、実際のコストと遅延の両面でかなりコストがかかります。そこでZoomの研究者たちによるこの論文は、チェーン・オブ・ソートと同等かそれ以上の性能を発揮しながら、コストの一部で済むチェーン・オブ・ドラフトという新戦略を提案しています。
では、チェーン・オブ・ドラフトはどのように機能するのでしょうか？論文を引用すると「冗長な中間ステップの代わりに（これがチェーン・オブ・ソートの仕組みで、多くのトークンを使って考え、反復し、異なる解決策を考え出し、それらの解決策について考える）、チェーン・オブ・ドラフトは各ステップで簡潔で密度の高い情報出力を生成するようLLMを促します」。この例をすぐに示しますが、もう少し文脈を説明しましょう。
人間はしばしば、私たちが前進するのに役立つ重要な情報だけをメモします。このような行動を模倣することで、LLMは冗長な推論のオーバーヘッドなしに解決策に向かって進むことに集中できます。
また、大きな効率性向上をもたらすのが、本日のビデオスポンサーであるHubSpotです。HubSpotのMatt Wolfによる「AIプレイブック」をご覧ください。Matt Wolfは私の友人であり、AI分野での素晴らしいYouTuberでもあるので、彼が個人的なAI戦略を世界と共有しているのを見て本当に嬉しく思いました。日常的にAIを最大限に活用する方法を模索している方には、これは学ぶための素晴らしい方法です。ビジネスの一部を自動化することから、最も役立つAIツールの内訳まで、AIについてのすべてを学ぶことができます。また、すべての主要なAIツールの長所と短所も説明しているので、自分でテストする必要はありません。
私のお気に入りの部分は、毎日出てくる膨大な量のAIニュースをどのように常に最新に保っているかという点です。これは私がやっていることに非常に関連しています。このリソースは完全に無料でHubSpotによって提供されていますので、今すぐダウンロードすることをお勧めします。このセグメントのスポンサーになってくれたHubSpotに感謝します。
さて、ビデオに戻りましょう。今から例を示します。「ジェイソンは20本のロリポップを持っていました。彼はデニーにいくつかのロリポップをあげました。今、ジェイソンは12本のロリポップを持っています。ジェイソンはデニーに何本のロリポップをあげましたか？」という問題を想像してください。
これは非常に単純な問題ですが、それがどのように機能するかを説明するのに良い例です。標準的なモデルでは、次のようになります。質問を入力すると、単に答えが出力されます。これは良いですが、答えに至った思考を理解できないため、限られた助けにしかなりません。この非常に単純な問題ではそれは問題ではありませんが、より複雑な問題になると、モデルがどのように考え、最終的に解決策に辿り着いたかを見たいと思います。
では、チェーン・オブ・ソートという伝統的な思考モデル技術を見てみましょう。同じ質問です。「よし、ステップバイステップで考えてみましょう。最初、ジェイソンは20本のロリポップを持っていました。デニーにいくつか渡した後、今は12本持っています。何本渡したかを知るために、簡単な引き算を設定できます。数字を入れると…」というように計算して、最終的に「8本」という答えが出ます。しかし、問題を解決する過程でこれらの追加情報が本当に必要だったでしょうか？おそらくその答えは「いいえ」です。
次に、チェーン・オブ・ドラフトを示します。同じ質問で、答えは非常にシンプルです。モデルがどのように答えに至ったかを理解するために必要な情報はまだ提供されていますが、サイズは大幅に小さくなっています。単に「20 – x = 12、x = 20 – 12、したがってx = 8」です。これだけです。モデルがどのように問題を考えたかを理解するために最も適切な情報を提供していますが、「待って、考えて、式を設定する必要があります」などの余分な情報はありません。
私たちは同じ解決策に到達し、必要な情報も得られましたが、不要だった余分な情報はありません。ここで一歩下がって、チェーン・オブ・ソートの他の進化や、チェーン・オブ・ソートの遅延問題を解決しようとする他の潜在的な解決策について少し話しましょう。
チェーン・オブ・ソートのもう一つの問題は、単純すぎる問題に対しても時々過剰に考え込むことです。モデルはタスクの複雑さに対する認識が不足しているため、単純なタスクでも過剰に考え込み、不必要なリソース消費を引き起こすことがあります。
これを解決しようとする最初の技術は、実際には解決というよりも、プロセスにおいて人間を安心させるものです。ストリーミングのような技術を示しましょう。つまり、モデルがチェーン・オブ・ソートでトークンを生成するとき、思考が終わるまで待つのではなく、その思考過程を見せてくれるのです。
ストリーミングのような技術は、出力シーケンス全体を待つのではなく、生成される部分的な出力を徐々に提供することで、体感的な遅延を減らすことを目的としています。しかし、この手法は全体的な遅延や計算コストを完全に軽減することはできず、中間ステップがエンドユーザーに見せることを意図していないことが多いため、チェーン・オブ・ソート推論には適していないことがよくあります。
チェーン・オブ・ソートをエンドユーザーに見せる必要がないケースがあることは知っていますが、ほとんどの場合、少なくとも私のすべてのユースケースでは見たいと思っています。したがって、その部分には必ずしも同意しませんが、ストリーミングだけではコストと遅延を実際に減らすことはできません。
この論文はさらにチェーン・オブ・ソートのいくつかの進化について概説しています。そのうちの1つを示しましょう。チェーン・オブ・ソートの次の潜在的な進化は「スケルトン・オブ・ソート」と呼ばれ、Ningらによるものです。この方法では、まずLLMに回答の骨組み概要を生成させ、その後並列デコーディングを行って遅延を減らします。スケルトン・オブ・ソートは遅延を下げるのに役立ちますが、計算コストを削減せず、効果的に並列化できる質問に限定されます。
チェーン・オブ・ドラフトを実装することがいかに簡単かを示しましょう。モデルの更新は必要ありません。微調整も必要ありません。強化学習も必要ありません。単にプロンプトを更新するだけです。これはプロンプト戦略なのです。
標準のプロンプトを見てみましょう：「質問に直接答えてください。前置きの説明や推論は返さないでください」
次にチェーン・オブ・ソート：「ステップバイステップで考えて、次の質問に答えてください。レスポンスの最後に、4つのハッシュ記号の区切り文字の後に答えを返してください」
そしてチェーン・オブ・ドラフト：「ステップバイステップで考えてください。ただし、各思考ステップの最小限のドラフトのみを保持し、最大5語で表現してください。レスポンスの最後に、4つのハッシュ記号の区切り文字の後に答えを返してください」
文字通り「思考のハイライトだけを教えて」と伝え、単語数の制限を設定することができます。実際に制限を強制するわけではありませんが、5語の制限を強く示唆しています。それが6語になるかもしれませんし、10語になるかもしれません。最も適切なものであれば何でも構いませんが、彼らは5語を使用しています。
彼らはそれをテストし、良い結果を得ました。最初にGSM-8K（現在のAIモデルの標準的な数学ベンチマーク）での結果を示します。GPT-4oとClaude 3.5 Sonnetという2つのモデルをテストしています。繰り返しますが、実際のモデルに変更は必要なく、単にプロンプトやシステムメッセージだけです。
標準プロンプト、チェーン・オブ・ソート、チェーン・オブ・ドラフトの結果です。GPT-4oでは、標準プロンプトの精度は53％、チェーン・オブ・ソートでは95％です。ちょっと一時停止してみましょう。チェーン・オブ・ソートは信じられないほど強力です。標準プロンプトから思考モデルへのジャンプは驚異的で、これを見るたびに本当に感銘を受けます。
標準プロンプトではトークン1つで遅延6秒、チェーン・オブ・ソートでは95.4％の精度で200トークンと4.2秒の遅延です。本番環境ではこれらの数字は非常に意味があります。数千、数万、さらには数百万回の反復と使用を掛け合わせると、これらの数字は急速に増加します。
チェーン・オブ・ドラフトでは91.1％の精度（少し低いですが標準よりはるかに高い）で、わずか43トークン（チェーン・オブ・ソートのトークン数の約20％）を使用し、1秒（チェーン・オブ・ソートの時間の約4分の1）かかりました。全体として、少しパフォーマンスは失われますが、遅延が大幅に改善され、コストが大幅に削減されます。
次にClaude 3.5 Sonnetも同様の結果が見られます。標準64％、チェーン・オブ・ソート95％、チェーン・オブ・ドラフト91％で、トークン数はGPT-4oと同様に反映されています。非常に良い結果です。
次に常識的推論について見てみましょう。GPT-4oでの常識的推論では、標準は分かったので飛ばします。チェーン・オブ・ソートとチェーン・オブ・ドラフトはほぼ同一で、チェーン・オブ・ドラフト88％、チェーン・オブ・ソート90％ですが、チェーン・オブ・ドラフトはトークン数が半分以下で、遅延も1.3秒対1.7秒です。大きな違いには見えないかもしれませんが、これを百万回行うことを考えると大きな差になります。
実際、Claude 3.5 Sonnetではチェーン・オブ・ドラフトがチェーン・オブ・ソートを上回り、トークン数も遅延も一部で済みました。これが私たちが見るテーマです。同等で、時にはチェーン・オブ・ソートを超えています。
もう一つの例を示します。これはスポーツ理解についてのものであり、シンボリック推論カテゴリに分類されます。ここでも私たちが見ているのは、チェーン・オブ・ドラフトが実際にGPT-4oとClaude 3.5 Sonnet両方でチェーン・オブ・ソートを上回りながら、トークン数と遅延の一部しか使用していないということです。
さらにコイン・フリップ評価があり、両方のモデルでチェーン・オブ・ソートとチェーン・オブ・ドラフトが共に100％である一方、実際の使用量、効率性はチェーン・オブ・ドラフトの方がはるかに優れています。
以上です。これは新しいプロンプト技術であり、本質的にはチェーン・オブ・ソートを必須要素だけに絞り込み、ほぼ同等かそれ以上の性能を発揮しながら、コストの一部で済みます。プロンプトのほんの数語の変更でこのようなイノベーションが起こるというのは驚くべきことです。これは全く新しいモデルアーキテクチャでも、新しい微調整技術でもありません。基本的に、プロンプトを変更するだけで、莫大なコストを節約し、遅延を大幅に削減することができました。
このビデオを楽しんでいただけたら、いいねとチャンネル登録をご検討ください。次回のビデオでお会いしましょう。