AIエージェントに小規模言語モデルをいつ使うべきか:新たな知見

LLM・言語モデル
この記事は約15分で読めます。

AIエージェントのワークフローにおいて、巨大で高価なLLMが必要な場面と、小規模なローカルモデルで十分な場面を比較・検証したハーバード大学の研究、AgentFloorを紹介する動画である。タスクの複雑度に応じたモデルの適切な使い分けによるコスト削減や、モデルごとの失敗パターンの違いについて詳しく解説している。

When to use Small LM for AI Agents: New Insights
"Small and mid-sized open-weight models are already sufficient for much of the short-horizon, structured tool use work t...

ローカルLLMの可能性とコスト比較

コミュニティの皆さん、こんにちは。またお会いできて嬉しいです。今日はLLMのコストを比較し、どのLLMを限界まで使い倒せるかをお見せします。支払いを減らし、企業向けの巨大なモデルに本当にお金を払うべきタイミングはいつなのかを探ります。これから、ますます複雑になるタスクへと認知の階段を登っていきます。しかし素晴らしいのは、私たちの小さなローカルLLMが多くのことをこなしてくれるということです。それでは見ていきましょう。

これは2026年5月1日にボストンのハーバード大学が発表したAgentFloorと呼ばれる研究です。小規模なオープンウェイトモデルが、ツール利用の階段をどこまで登れるかを示しています。エージェントのワークフローのどの部分でGPT-5.5のような巨大なモデルが本当に必要で、どの部分をより小さなモデル、あるいはローカルモデルで処理できるのでしょうか。

研究チームによると、エージェント型LLMシステムはユーザーに見える1つのアクションのために何度もモデルを呼び出しますが、その呼び出しのかなりの部分は短く構造化されており、率直に言えば運用上非常にシンプルだということです。本番環境では、検索、ルックアップ、レコードの抽出、または単一の送信といった形を頻繁にとります。そこで疑問になるのは、これにわざわざGPTの料金を支払う必要があるのか、それともローカルで処理できるのではないかということです。

新たなベンチマークAgentFloorの紹介

そこで彼らは、新しいベンチマークであるAgentFloorを導入しました。これはツール利用能力を制御して評価するための6層のベンチマークであり、さらに素晴らしいことに、GPT-5と比較した16のオープンウェイトモデルの能力とコストの比較が含まれています。

もちろん、私が言ったように、なぜまたツールベースのベンチマークが必要なのか、もう十分にあるではないかと言う人もいるでしょう。確かにToolBench、MINT、AgentBench、WebArena、SWE-benchなど、実際のワークフローに近いエージェント向けスイートはたくさんあります。しかし、それらはツールの基本的な使いやすさと、APIの変更、ウェブやGUIのグラウンディング、可能性のある汚染などの要因を混同してしまっています。また、能力の拡張性に関する研究は、複数ステップのツール利用における個別の認知的な要求を分解することなく、全体的なパフォーマンスをモデルのサイズに結びつける傾向があります。

ですから、ここでは完璧な階段を作るためにこれを行うのだと言っています。6つの異なる階層にわたって30のタスクがあります。A0という非常にシンプルなものから始まり、Eレベルまで上がっていきます。各階層には5つのタスクがあります。これは臨床的で中立な、再現可能な完璧な実験です。ではやってみましょう。

6段階の複雑度レベル

各階層は新しい認知的な要求をもたらします。A0はツールなしの指示への従順さです。Aは単一のツール呼び出しです。Bは2つのツールの連続的なチェーンで、最初のツールの出力が2つ目に渡されます。Cは中間結果に基づく分岐です。これをもっと詳しく見ていきましょう。

このようになっています。A0は指示、Aは1つのツール、Bは2つのツールのチェーン、Cは分岐です。Dは複数ソースの統合と競合の解決で、複数のツールからデータを取得して矛盾を解決します。そしてEは最も重い長期計画であり、モデルによる推論の全過程にわたってシステムの制約を維持しながら8から12の連続したステップを実行します。そして、ここで特定の閾値、つまりすべてのモデルが突然機能しなくなる崖があることがわかります。

つまり彼らは、ツール利用という認知の階段を、巨大なフロンティアモデルを使用せざるを得なくなる前に、小さくローカルなオープンウェイトモデルがどこまで登れるかという1つのことだけをテストするために、完璧で決定論的な抽象インメモリ環境を作成したのです。

これは素晴らしいことで、先ほど言ったように16のオープンウェイトモデルがテストされました。私たちが望んでいるのは、単純なタスクやツール利用のために、こうした巨大な企業製モデルにお金を払わないことです。彼らはこの階段を作って、どのモデルがどのレベルまで到達できるかを示してくれました。これにより、ChatGPTに支払う料金のほんのわずかな額を支払うだけで済みます。私たちが求めているのは雑多な寄せ集めではなく、タスクに対するクリーンで正確なソリューションだからです。それでは結果を見てみましょう。

実験結果とオープンモデルのパフォーマンス比較

これが彼らの発見です。Gamma 4 26BモデルはGPT-5モデルに最も近いモデルです。彼らはこれを公開し、この行がA0からEまでの階層を示していると説明しています。黄色でマークした部分には、Gamma 4 26BとGPT-5のパフォーマンス、そしてパーセンテージポイントの差などが示されています。最初の2つのA0とAを見ると、Gamma 4 26BがGPT-5を上回っていることすらあります。Cでも僅差で、Gamma 4の方がさらに優れています。DではGPT-5に少し遅れをとっていますが、本当に重要なのはEです。Gamma 4 26Bのパフォーマンスは0パーセントにまで落ち込みますが、GPT-5は10パーセントを維持しています。

しかし、これを完全なテストスイートとして全体で見ると、Gamma 4 26Bの総合パフォーマンスは60パーセントであり、GPT-5は59.6パーセントにとどまると彼らは主張しています。そして、これら2つのモデル間の価格差は非常に大きいと言っています。

では、もう少し詳しく見てみましょう。ここにはフロンティアモデル全体との比較や、タスク完了率の差が示されています。A0からEまで、そして全体のタスクにおいて、タスク完了率の差を見ると、Aではプラス20パーセントポイント、プラス2パーセントポイントという素晴らしい数字が出ています。真ん中あたりではゼロの線を中心に少し変動しており、EではもちろんGPT-5の方がマイナス10と有意に優れています。しかし全体としては、デルタT0のパフォーマンスはほぼゼロに戻ります。つまり、同じ結果を得るために、なぜはるかに多くのお金を支払う必要があるのかということです。

そしてここには他のすべてのモデルがあります。Qwen 3からQwen 3.5、Granite、Mistral、Ministral、Nemotron 3、GPT OSSなどが並んでいます。データはすべてここにあり、10億パラメータ未満の小さなモデルから、320億パラメータのQwen 3 32Bまであり、これらをGPT-5と比較しています。ここでもA0からEまでの結果があります。

これは興味深いです。Gamma 4を見ると、Eは0ですが、A0は96で、常に一番下の行にあるGPT-5と比較されます。太字になっている部分はGPT-5を上回っていることを示しています。例えば、カテゴリーBではMinistral 38BがGPT-5を上回り、カテゴリーCではGamma 4 26BがGPT-5を上回っています。全体としてまさにこのような結果になっています。

タスクの複雑度に応じたモデル選び

ここを見ると、例えばQwen 3.5 2Bの場合、これは20億パラメータという非常に小さなモデルで、時計にも搭載できそうなサイズです。もちろんGPTの80パーセントや44パーセントと比較すると見劣りするかもしれませんが、サイズを考えてみてください。Aの段階ではすでに70パーセント近くに達しており、GPTは98パーセントです。しかしBの段階では80パーセントになり、これはGPT-5のパフォーマンスとほぼ同じです。つまり、タスクの複雑さに大きく依存するということです。

だから私が今やっているのは、タスクをAからEに分類することです。どの程度の複雑さがあるかを理解したいのです。複雑なプロンプトがある場合、それを複数のより単純な複雑さのクラスに分解し、それを割り当てようとします。そうすれば、どのモデルが最も低いコストで最適に機能するかが正確にわかります。

ええ、Eの段階ではほぼすべてのモデルがゼロになっていますが、1つだけ例外があります。それはMinistral 38Bで、最も複雑なトピックにおいてGPT-5を上回っています。信じられません。これらのモデルがどのような事前学習データや複雑さのクラスで学習されたかは決してわかりません。しかし、これにより美しい視覚化、あるいは能力のヒートマップが得られます。

この列のA0から始まり、右側のEの列へと進んでいくと、Qwen 3.5 2Bが強力なパフォーマンスを示していることがわかります。色が濃く塗られており、最後まで健闘しています。また、Nemotron 3 Nano 4Bも強力な候補であり、Gamma 4 26Bも強力な候補であることがわかります。これが非常に良い概要を提供してくれます。

しかし、30億パラメータと比較して巨大なGPT OSS 20Bはどうなのかと疑問に思うかもしれません。パフォーマンスデータを見てみると、それほど良くはありません。私なら、ローカルで動かせてパフォーマンスも良いQwen 3.5 2Bを選びます。このように素晴らしい知見が得られますが、先ほど言ったようにパフォーマンスは1つの側面にすぎず、コストの違いも重要です。

コストの優位性とスイートスポット

ここに一例が示されています。GPT-5は全体のタスク完了率が約60パーセントで、1つのタスクあたりのコストはこの程度、待ち時間は約40秒です。ただし、価格は日々変動するため、これは皆さんの地域での価格ではなく、ある地域でのある時点のスナップショットにすぎません。ここで示したいのは、価格帯によって10倍の差があるということです。そして、Gamma 4 26BはGPT-5と全く同じタスク完了率を持っています。

あるいは、Granite 4 3Bのようなさらに小さくパフォーマンスの低いモデルを使った場合、全体の完了率は40パーセントにとどまります。これが十分かどうかはわかりませんが、A0のタスクだけであればGraniteは84パーセントや80パーセントを達成しており、単純な複雑さに分解されたシンプルなタスクであれば、これで完全に十分かもしれません。だったら、なぜもっと多く支払う必要があるのでしょうか。

これにより、素晴らしい全体像が掴めると思います。もちろん、Gamma 4で96パーセントならそちらの方が良いモデルではないかと聞く人もいるでしょうが、これは全体を把握するのに役立ちます。研究によると、Gamma 4 26Bをセルフホストで使用すれば、最大で15倍安く、2.5倍速くなるとされています。

思い出してほしいのですが、これは階層AとBの話です。Qwen 3.5 2BとGranite 4 3Bを比較してみると、2BモデルはA0で44パーセントですが、3Bモデルはすでに84パーセントに達しています。ですから、あまりにも小さすぎるモデルを選ぶのは最善のアイデアではないかもしれませんが、非常にシンプルなタスクであれば3Bから8Bあたりにスイートスポットがあるようです。

しかし同時に、Qwen 3.5はBの段階で80パーセントのパフォーマンスを示しているのに、より大きなモデルが56パーセントしか出せないこともあります。つまり、これはモデルに提供された個別の事前学習データセットと、皆さんの具体的なタスクに大きく依存するのです。事前学習とタスクの間にほぼ1対1のマッピングがあるかどうかです。

しかし、例えばクラスDを選ぶのであれば、このクラスで他を圧倒しているQwen 3.5 2Bという1つの選択肢しかないと思います。このように、これをよく見て理解すれば、お金をいくらか節約できるかもしれません。

リアルなベンチマークの課題とシミュレーションの価値

さて、私が前回の動画で批判した点について触れましょう。まず、検索、レコードのルックアップ、属性の取得、オプションのリスト化、制約の確認、レコードの比較、値の計算、決定の送信という8つの決定論的なツールがあることに注意してください。そしてこれらはすべて現実世界ではなく、シミュレーションで行われています。インメモリの固定データベースで行われているからです。実際のファイルシステムや外部サーバーはありません。すべてがシミュレーションです。私は前回の動画でこのアプローチを強く批判しました。

しかし著者たちは、これが現実世界のテストにはない利点をもたらすと主張しています。それはコントロールと再現性です。彼らは、エージェントのワークフローにおける限界が、単に現実世界が複雑だからというだけではないことを証明しました。世界が完全にクリーンであっても、自己回帰型LLMの基本的なアーキテクチャは、5から7つの連続した条件付きステップの後に破綻することを示したのです。

そして認知の限界を分離することで、問題に対してより大きなモデルを投入しても解決しないことを証明しました。そのためには、完全に再現可能である必要がありました。月曜の朝はネットワークが速く、火曜の午後はAPIがすぐに応答しないといった事態を許容することはできなかったのです。

これらすべてを排除するために、彼らは現実世界のAIベンチマークにおける3つの課題を指摘しました。現実世界ではAPIが変更されたり、エンドポイントがダウンしたり、レート制限が発動したり、隣接するスキーマが更新されたりするため、カオスという変数が存在します。ToolBenchでは、数日後にベンチマークを再実行しようとしただけでAPIの44.4パーセントが失敗したと著者らは指摘しています。44パーセントの失敗というのは非常に重要な要素です。

りんごとりんごを比較したいのなら、再現可能な環境を構築しなければならず、それはシミュレーションになります。月曜日はこのモデルをテストし、火曜日にはネットワークが44パーセント低下した状態で別のモデルをテストするなんてことはあり得ません。

次に、暗記問題とも呼ばれるデータ汚染の問題があると述べています。2025年の壊滅的な研究では、SWE-benchで検証された問題の60パーセント近くが、欠陥のあるテストケースを持っているか、本質的に汚染されていることが示されました。もちろんこのような状況は排除したいはずです。

そして最後に、HTML解析のノイズなど、モダリティが絡み合っている問題があります。彼らはAgentFloorで解決策を見つけました。HTMLやGUIナビゲーション、ウェブのノイズをすべて取り除いたのです。モデルは完璧でクリーンなネイティブのJSONツールスキーマを受け取り、純粋なネイティブのツール呼び出しの制御をテストします。外部環境の変動からは完全に独立しています。ですから、これは現実世界のテストではなく完全にインメモリの純粋なシミュレーションですが、毎回絶対的に再現可能な環境条件を備えています。

したがって、モデルの比較可能な結果を得たいのであれば、シミュレーションも良いものになり得ます。

モデルの失敗パターンの分析

彼らが行ったことは素晴らしいです。なぜなら、なぜそれらのモデルがすべて最も高いレベルEで失敗したのかを自問したからです。最も魅力的な部分は、モデルがこのレベルEの壁にぶつかったとき、単に失敗するのではなく、全く異なるメカニズムを通じて失敗するという失敗の分類です。彼らはこれを調査しました。

そして失敗の要素を分類しました。F1はAPIをでっち上げるツールのハルシネーションです。ええ、誰もがハルシネーションを起こすことは知っています。F4はステップ予算の枯渇で、許可された手数を使い果たしてしまうことです。F5は早期の放棄です。実行を開始したものの、LLMのコアが諦めることを決定し、適当なテキストを出力するのです。自分でやりたくないから辞任する、仕事から身を引くというわけです。また、実行を伴わない計画もありました。美しい戦略や計画を立て、すべてが完璧に目標設定されて計画されているのに、ツールの呼び出しを一度も実行しないのです。計画だけをして、実行しないと決めて停止します。これはマルチエージェントシステムに求める動きではありません。

見てみましょう。タスク完了率を合わせた状態で、オープンウェイトの限界とフロンティアモデルでは失敗の仕方が異なることが示されています。A0からEまでの、Gamma 4 26BとGPT-5の結果があります。この問題が実際に多発しているEの階層、つまり計画フェーズに焦点を当ててみましょう。

GPT-5の失敗を見ると、濃い青色の39パーセントが早期の放棄です。つまり約40パーセントのケースで、GPT-5はタスクを続行しないことを決定しました。自分の仕事が気に入らず、終わっていないことはわかっているのに途中で停止し、何らかの出力を出すのです。

薄い青色の24パーセントは実行を伴わない計画です。何をしたいのかを計画していましたが、いざ計画を実行する段になると、GPT-5は実行しないことを決めたのです。これ自体も興味深いですが、詳しくは後述します。

一方、Gamma 4では異なる色が見られます。支配的なオレンジ色は41パーセントで、ステップ予算の枯渇です。これは、小さなGamma 4がどういうわけかループや局所解に陥り、その中で堂々巡りをして、全体的な最適解や完璧な解決策を見つけるために抜け出すことができなくなったことを意味します。

そしてGamma 4 26Bの赤い部分の36パーセントは、単純にツールをハルシネーションで作り出したものです。これも、局所解の中で堂々巡りをして抜け道が見つからず、人間のユーザーに役立つ回答を提供するために、解決策をハルシネーションで作り出し始めたことを裏付けています。

異なる失敗の振る舞いとシステムプロンプトの限界

著者らはこう語っています。巨大モデルは実行の無関心によって失敗します。10ステップ先の未来を見て、計画を完璧にフォーマットし、その計画を段階的に実行するために必要な認知的負荷を認識して、単に放棄するのです。そして、実行せずに何をすべきかを主張する丁寧なテキストを出力します。

Gamma 4の失敗の行動は異なります。これは盲目的なパニックによる失敗です。タスクを忠実に実行しようとし、局所解の中でループし始め、トークン予算を使い果たし、混乱して堂々巡りをしてしまいます。そして存在しないツールやツール名をハルシネーションで作り出し始めます。抜け道を見つけようと必死になり、ハルシネーションや何かを発明することが有効な抜け道だと学習しているのです。特筆すべきは、Gamma 4 26Bはほぼ決して放棄せず、放棄率は0パーセントだということです。諦めずに最後まで戦い抜くのです。私はこの姿勢が好きです。

そして研究者たちは、システムプロンプトでこれを修正しようと試みました。プロンプトエンジニアリングなどの手法があるからです。構造化されたプロンプトを追加し、最初に計画を立ててから送信を実行するようにモデルに指示しました。

しかし、これは何の役にも立ちませんでした。それどころか、Gamma 4 26Bに対しては内部のパラメータ知識と矛盾する特定のシーケンスの実行を強制したため、モデルを放棄という失敗モードへと押しやり、悪影響を及ぼしました。

今後の展望とモデルの適切な選択

結論として、今日の動画の最後は今後の展望についてです。堅牢なAIシステムを構築するためには、AIを1つのことしかできない万能の神託のように扱い、常にGPT-5.5のような最も高価なシステムに頼らなければならないという考えをやめる必要があります。もうそのような時代ではありません。

お見せしたように、特定のワークフローや複雑さを特定の能力階層にマッピングすれば、多くのお金を節約できます。16のオープンソースモデルから好きなものを選び、基本となる負荷を3Bから26Bのような高効率なモデルにルーティングすることができます。

そして残りの部分については、現在のすべてのモデルが直面している計画の長期化という問題を克服するために、特定の非テキスト的な介入を開発する必要があります。これについては今後の動画のいずれかで、簡単な解決策をお見せします。

皆さんの複雑なタスクを解決する能力を持ち、巨大なAI企業によるプロプライエタリなモデルよりも大幅に安価な、適切なローカルLLMを選ぶ手助けになれば幸いです。新しい情報を提供できたことを願っています。楽しんでいただけたなら幸いです。次回の動画でお会いできるのを楽しみにしています。

コメント

タイトルとURLをコピーしました