新着: マルチエージェント・ファインチューニング (MIT、ハーバード、スタンフォード、DeepMind)

7,316 文字

NEW: Multi-Agent Fine-Tuning (MIT, Harvard, Stanford, DeepMind)

A new Multi-Agent Fine-Tuning Framework for improved performance. Audio: With the automatic audio dubbing from YouTube /...

コミュニティの皆さん、こんにちは。今日は素晴らしい新しい論文についてお話しします。2025年1月10日にMIT、ハーバード大学、スタンフォード大学、そしてGoogle DeepMindから発表された新しい出版物についてです。これ以上ないくらい素晴らしいものです。LLMの自己改善について話し、私たちが愛するchain of thoughtの実装があり、そしてマルチエージェントプラットフォームにも取り組んでいます。これ以上素晴らしいことがあるでしょうか。
まず、私たちが取り組んでいる問題を理解しましょう。ここで問題となっているのは、LLMやエージェント、もしくはエージェントシステムを複数回ファインチューニングした後のパフォーマンスベンチマークとパフォーマンスデータにおける利得の減少です。
人間が行うことを類推として説明させてください。チームメンバーが同じような基本知識レベルを持っているチームがあります。彼らは議論し、アイデアを交換し、議論を重ねます。そしておそらくボスがいて、ボスは常に有用です。フィードバックを提供してくれるので、より良い知識の改善などが可能になります。
その結果、グループ全体が新しい知識を生み出し、おそらく各個人が新しい情報や洞察の特定のセットを持ち、それがその個人の知識体系に追加されます。これがプロセスです。そして驚くべきことに、この論文の核心を見ると、これがまさに私たちが実装しようとしているプロセスなのです。
実装する前に、2023年5月のこの論文を読むことをお勧めします。「マルチエージェント討論を通じた言語モデルの事実性と推論の改善」です。これは1年半以上前のものですが、このブランチの出発点となった重要な論文です。
研究者たちは、彼らの手法が同じベースモデルから複数の小規模言語モデルのマルチエージェントセットをファインチューニングし、それぞれのモデルを関心のあるタスクの一部を捉えるように独立して特殊化すると述べています。重要な洞察は、複数のモデルをファインチューニングすることで、グループ全体の応答における専門化と多様化を促進でき、それによって多くのファインチューニングラウンドにわたって一貫したパフォーマンスの向上が可能になるということです。
これは私たちが直面している問題の解決策なのでしょうか？多くのラウンドのファインチューニングは、コンピュータインフラストラクチャに大きな負荷がかかることを示唆しています。より詳しく見てみましょう。
ボスの役割は、最も単純な実装では各個人の発言を批評することができます。しかし、私がより好む実装は、他のエージェントのソリューションとあなたのソリューションを組み合わせて新しいソリューションを導き出すことができるプロンプトです。これにより、全てのチームメンバーの応答を統合し、個々のメンバーに洞察をもたらす結論に至る、より有用なボスが実現します。より協力的な設定となりますが、強く批評するボスや有用なボスのどちらが良いかは、両方のソリューションを試すことができます。
これはエージェントではありません。完全に対称的です。ここには5人の人間がいて、5つのAIエージェントがあります。彼らは全て同一のベースモデルから始まり、同じLLM、同じトレーニングセットを持っています。もちろん、ボスもAIエージェントです。これを単に6番目のコピーとすることも、より強力で洞察力のある、おそらくドメイン特化型トレーニングを受けたエージェントとすることもできます。
そして議論が行われ、バブルが生まれ、ボスは素晴らしいアイデアを持っているかもしれません。全てのアイデアはボスから人々に下りてきます。そしてデータセットを作成し、このデータセットで従来のHugging Faceの教師あり学習ファインチューニングアプローチを行います。このデータセット、つまり全てのアイデアのバブルで教師あり学習ファインチューニングが行われます。
より複雑なトピックの場合、彼らは要約エージェントを導入します。批評のために、5つのAIエージェントから全てのアイデアや情報を得ようとする場合、要約が役立ちます。要約エージェントは、批評エージェントの前に置くか、一つに統合することができます。マルチエージェントシステムの構築方法には多くの可能性があります。数週間前に、私はHugging Faceの小さなエージェントについて、この美しく簡単なコード実装を紹介しました。
また、ボスエージェント、批評エージェント、協力エージェントの議論レベルに基づく教師あり学習ファインチューニングも有用であることがわかりました。つまり、この議論プロセスの継続により、基本的に全てのエージェントがファインチューニングされます。これは大量のファインチューニングです。
批評LLMの役割は、他のエージェントの応答を評価し、改善することです。マルチエージェント討論は全ての始まりです。そして時間が経過すると、全てのエージェントの応答とボスエージェントの批評に基づいて、ユニークなデータセットが作成されます。各エージェントについて、過去の個々の応答とボスエージェントの批評評価に基づいて、ユニークなトレーニングデータセットを抽出することができます。
このエージェントがHR（人事）に焦点を当て、このエージェントがテクノロジーに焦点を当てていた場合、完全なトレーニングデータセットの特定の部分のみを使用し、この特定のデータセットで専門化のための教師あり学習ファインチューニングを開始することができます。つまり、アイデアは同一の人間やAIエージェントから始めて、議論のプロセスを通じて、おそらく統計的な変動だけで、各エージェントの専門化を開始できるということです。
最初の結果を示しましょう。53モデル、Mistalモデル、またはLlama 38bモデル（これは比較的小さな言語モデルです）のパフォーマンスや精度があります。ファインチューニングの反復回数を見ると、複数回のファインチューニングステップがある場合、チームに単一のエージェントしかなく、議論やフィードバックがない状態でファインチューニングを行うと、単一のエージェントは自身の知識だけを持ち、50%から52%、53%に増加するかもしれませんが、エージェント自体の固有の知識でより多くのファインチューニングを行うと、パフォーマンスは低下し、性能を失います。これはMistalでも、Llamaでも同じことが起こります。
しかし、私たちが先ほど説明したマルチエージェント、つまりこのチームメンバーを使用し、各チームメンバーが回答に統計的な変動だけを与え、おそらく新しいアイデアを持っている場合、パフォーマンスが向上することがわかります。これは数学のデータセットで行われており、すぐにお見せしますが、これは既知のベンチマークです。
これを行うと、パフォーマンスが向上します。新しいアイデアの多様性、あるいは単なる統計的な変動があることで、少なくとも新しいデータセットを抽出し、このデータセットでモデルをファインチューニングすることができます。そして、これらの新しくファインチューニングされたモデルが別の新しいデータセットを生成し、この新しいデータセットで別のラウンドのファインチューニングを行うことができます。
このように、ファインチューニングを繰り返し行います。興味深いことに、この数学データセットのベンチマークで彼らが示したのは、57.5%のパフォーマンス精度から67%近くまで実際に向上できるということです。改善の余地は確かにありますが、興味深い質問は、外部の専門知識を追加しない場合、それは限定されているのかということです。
ファインチューニングプロセスは、この全体の本質的な要素です。まず、マルチエージェント討論を使用し、5つのエージェントがいれば多数決システムを使用できます。2つのエージェントがソリューションAを支持し、3つのエージェントがソリューションBを支持する場合、多数決があるので進め方がわかります。
これらのデータセットは、各エージェントをファインチューニングするために使用されます。生成エージェントは下部の5つのエージェントで、批評エージェントはボスエージェントです。生成モデルのファインチューニングでは、多数決などを使用し、批評モデルは特定のドメイン知識に応じてより敏感になる可能性があり、応答が多数決に一致するかどうかに基づいて最終ラウンドからの応答を使用します。正しい入力と不正確な入力が混在しているので、これは本当に繊細なトピックです。
また、どのモデルを選択するかも重要です。このPythonコードで見てみましょう。マルチエージェントファインチューニング手順があり、これを理解するのに役立つように、かなり簡単です。これが討論のブロックで、全てのエージェントが討論し、全ての応答の要約があり、5つのエージェントによる多数決があり、次に何をするかが決まります。したがって、データセットができ、データセットができたら、マルチエージェントファインチューニングを開始します。
これがブロックで、これは単に生成モデル、5つのAIエージェント、そして批評モデルまたはボスモデルのファインチューニングです。これが全てです。しかし、いくつかの隠れた洞察があります。もちろん、ファインチューニングを行った後、全てのAIと同様に、AIの予測のパフォーマンスを確認したいと思います。
推論時には、生成エージェントを表す一連のファインチューニングされた生成モデルと、一連のファインチューニングされた批評モデルがあります。人事に特化したボスモデルと、テクノロジーに特化したボスモデルなど、複数のボスモデルを持つことができます。アイデアはわかると思います。
推論実行では、各個々の生成エージェントが最初のラウンドに参加し、その後のラウンドで個々の批評エージェントが続くマルチエージェント討論があります。そして、推論実行が終わった後の評価があります。
MIT、スタンフォード、ハーバードのチームは、彼らがどれだけ良いのかを尋ねました。彼らは推論タスクの3つの標準ベンチマークデータ、算術、GSM、そしてMATHを使用しました。これが元の論文です。各データセットについて、彼らはファインチューニング用に500の例をランダムに選択し、評価実行用に500の問題を保持しました。これはLLMで行う古典的な方法です。
これが、単一エージェントまたはマルチエージェント構成のいずれかで、この結果に到達した正確な説明です。MATHでは500がトレーニング用で、500が評価結果を与えてくれます。
ここで私は考えました。待てよ、これらの3つのMATHと算術のデータセット、ベンチマークは全て標準データセットで、何年も前から利用可能です。小さなLLMがすでにそれらに事前学習されている可能性があります。質問と解答の両方について。では、54%という値は実際には何を意味するのでしょうか？
54%について何を話しているのかと思われるかもしれません。説明しなければなりません。例えば、Mistalの小規模言語モデルを使用し、先ほど示したマルチエージェント構成でこの特定のファインチューニングをMATHデータセットでのみ行い、GSMデータセットで評価した場合、このファインチューニングアプローチでMistalがGSMデータを見たことがないとして、一般化においてどれだけ良いのでしょうか。
ベースモデルのMistalは、この新しいデータセットでのGSM精度が44%で、多数決があれば49%、討論があれば51%ですが、もちろん私たちはこの新しいアプローチ、マルチエージェントファインチューニングに関心があり、54%の精度です。
先ほど言ったように、これが本当に改善されたマルチエージェントマルチステップ推論プロセスなのか、確信が持てません。なぜなら、考えてみてください。ベースモデルの場合、推論で1回の実行があり、モデルは1つのGSMタスクで1回実行されます。ここでは、私が説明したように5つのベースモデルがあり、それらが議論し、新しいアイデアを生み出します。
例えば、10回の推論実行があるとしましょう。1つのGSM質問に対して10回の推論実行がある場合、10の異なる回答が得られます。おそらくLLMのハイパーパラメータの温度を少し変えているからです。温度を上げると、同じモデルから様々な回答が得られます。
10回の推論実行があり、この10回の推論実行が10の新しいアイデアを生み出し、そのうちの1つか2つだけがわずかに良いとしましょう。一般的に、500回行うと、44%から54%に上げることができます。しかし、このモデルがすでにGSMデータでトレーニングされていた場合、この54%は何を意味するのでしょうか？
私の前回のビデオでのgroggingとメモリ化に関する話を参照すると、これは単に同じモデルを10回実行したからではないでしょうか？そして、それを見て、1回の実行に9回の追加実行を加えたので、より良い確率分布が得られたと言っているのではないでしょうか？
同一のモデルから新しい知識を得たのでしょうか？これは単に確率データの拡張ではないでしょうか？これは本当に固有の推論効果なのでしょうか？私にはわかりません。論文を2回読んだ後でも、この特定の効果について確信が持てません。10回実行した場合の追加された確率データの寄与もあるかもしれないと考えていますが。
しかし、ハーバード、MIT、スタンフォードの公式論文に従いましょう。リソース、ハードウェアについて、彼らは4台のNVIDIA H100 GPUを使用し、約240GBのGPUメモリを使用したと述べています。そして重要なのは、推論実行に12〜24時間かかったということです。
ここで確認しておきたいのですが、このビデオの80%で話したファインチューニングプロセスについて話しているのではありません。これは推論実行の話です。推論実行は、これら全てのファインチューニングされたマルチエージェントファインチューニングモデル、つまり5つの生成モデルと1つまたは2つのボスモデルが既にファインチューニングされている状態で行われます。
このコンソーシアムの推論実行に24時間かかるとすると、ファインチューニングについては10倍の係数があると仮定しましょう。1日で、ファインチューニングされたAIエージェントを作るのに10日かかり、それが24時間かかる推論実行のベースとなります。これが小規模言語モデルでの話です。
これは本当に新しい学習効果なのでしょうか？一方では、継続的なファインチューニングがあるので、はいと言えます。私たちは本当にトランスフォーマーの層のテンソル重み構造を修正し、完全なトランスフォーマーアーキテクチャを通過し、この新しい知識の刻印を本当に持っています。したがって、それは本当にこのLLMの固有の部分となっています。そのため、これは本当の学習効果だと言えます。
しかし、非常によく知られた、公開されている3つのベンチマークデータのみを使用する場合、このコンポーネントを完全にフィルタリングする方法について確信が持てません。おそらく、あなたはさらなる情報を見つけたかもしれませんが、システムにわずかな摂動があるかもしれないことに注意すべきでしょう。
内部からの知識の限界について話しましょう。エージェントのグループまたは人々のグループがあり、これらの人々が全て同じ知識を持っているとします。彼らは農業技術の専門家で、GPSや農業インフラについて全てを知っています。
戦闘機の飛行力学を説明するタスクを与えられた場合、知識のバブルの中にいて、自分たちとしか話せない能力しかない彼らが、全て農業の専門家から始まり、新しい知識へのアクセスがない場合、彼らの知識の限界は何でしょうか？
3週間このファインチューニングマルチエージェント手順を実行しても、彼らのバブルの中で超音速の飛行力学と物理学を理解することは決してないでしょう。MIT、ハーバード、スタンフォード、Googleによるこの特定のマルチエージェントファインチューニングプロセスの限界は何なのでしょうか？
最後にまとめましょう。この論文は正確に何なのでしょうか？なぜなら、知識ベースが全く同じエージェントの社会から始めて、高度な相互作用と批評モデル、協力モデルを通じて、新しい知識、新しいデータセット、新しいファインチューニング手順を得て、各エージェントが専門化を始めることができるようにすることは、人類文明の進化のように見えます。
しかし、数学的データセットや哲学的データセット、医学的データセットに特化した専門家AIモデルにすでにアクセスできる場合、なぜこの特定のモデルを研究する必要があるのでしょうか？
これが私の疑問です。おそらくあなたには何か洞察があるかもしれません。しかし、これがMIT、ハーバード、スタンフォードのチームによる公式の結論であることを明確にしておきたいと思います。
研究者たちは、言語モデルのパフォーマンスと多様性を大幅に向上させる新しいマルチエージェントファインチューニングフレームワークを導入したと述べています。彼らは、異なる役割を持つエージェントの社会を採用することで、フィードバックメカニズムと全体的な出力品質を効果的に改善し、単一エージェントの自己改善手法に固有の制限を緩和したと続けています。
今回は全く異なる種類の興味深い論文でした。この動画の設計と準備をほとんど楽しんだようです。あなたの反応に興味があります。これが何かになると思うなら、チャンネルを購読してください。次の動画で何を話すか、きっと驚くことでしょう。