GPT-5.5を活用した自己進化するAIスキル(SkillOpt)

AI活用・導入
この記事は約19分で読めます。

固定されたAIモデルの能力を、外部から自己進化させる新しいフレームワーク「SkillOpt」を解説する内容である。Microsoftが上海交通大学、同済大学、復旦大学と共同発表したこの手法は、モデル自体のパラメータを更新するのではなく、テキストベースの「スキル文書」を最適化することでエージェントの能力を向上させる。ディープラーニングの概念をテキスト空間にマッピングし、ミニバッチごとの軌跡の反省から自動的に最適なルールを導き出す仕組みや、ベンチマークにおける性能向上、さらにテキストグラディエントの実態について詳しく紹介している。

Self Evolving AI Skills w/ GPT-5.5 (SkillOpt)
All rights w/ authors:"SkillOpt: Executive Strategy for Self-Evolving Agent Skills"Yifan Yang1,∗,‡ Ziyang Gong2,∗ Weiqua...

自己進化するAIスキルの登場

皆さん、こんにちは。今日も戻ってきてくれてとても嬉しいです。今日は、人工知能におけるスキルについてお話しします。いや、もう自分でスキルを書くなんて嫌ですよね。スキル自体に自己進化してほしいわけです。

では何が必要でしょうか。まず固定されたターゲットモデルが必要です。たとえばGPT-5.5を使うとしましょう。そしてその上に、どうにかしてさらにインテリジェントなモデルを配置します。そこに新しい手法を組み合わせます。この新しい手法はMicrosoftによるもので、彼らはこれを「SkillOpt:自己進化するエージェントスキルのための実行戦略」と呼んでいます。これは上海交通大学、同済大学、復旦大学との共同研究で、2026年5月22日に公開されました。

それでは見ていきましょう。もちろん、GitHubのリポジトリもあります。多くの人からいつも「GitHubのリポジトリはどこにあるの?」と聞かれます。さて、Microsoftの主なアイデアは何でしょうか。彼らは、LLMのトレーニング方法はすでに分かっていると言います。では、LLMを固定した状態で、ディープラーニングで行っているようなマッピングのアイデアをAIのハーネスにも適用できないだろうか、と考えたのです。そしてMicrosoftですから、より高度な数学的複雑さの空間ではなく、テキスト空間に限定して話を進めたいと考えています。

これをシンプルなマッピングで行うと言います。LLMのパラメータは、ここではスキル文書になります。よくあるスキルのマークダウンファイルですね。テキスト空間において、グラディエント(勾配)の相互作用はそれほど面白いものではありませんが、軌跡から導き出された編集提案を行うことができます。これを読んだとき、私は最初何も理解できませんでした。彼らが何を言っているのか理解するのにかなり時間がかかったので、詳しく説明します。

学習率は、予算制限へとマッピングされます。検証チェックには、ゲート構造を採用しています。そして、モメンタムの平均には、エポックごとの緩やかな更新を採用しています。これには特定の理由がありますので、詳しく説明していきます。

スキル最適化のアーキテクチャ

先ほどお見せしたように、固定されたターゲットモデルMがあります。これが私たちのGPT-5.5だとしましょう。これは、ハーネスに統合されて素晴らしいタスクを実行する、いわばインターンや学生のモデルです。

そして、ボスであるオプティマイザーモデルがいます。これはハンドブックを書くシニアエンジニアのようなもので、これが私たちのスキル文書ファイルになります。彼らは何とも不思議な形で連携して働きます。見てみましょう。

ここにMicrosoftによる説明があります。これを見てみてください。もし理解できたら素晴らしいですが、私は何も分かりませんでした。すべてを読み込む必要があったのです。

これは、先ほど見た手法の流れ図を大まかに表したものです。データセットについては、古典的な機械学習のトレーニング分割、検証分割、テスト分割を採用しています。そして、固定されたエージェントAがいます。これが私たちの固定されたエージェントです。ここでロールアウト(実行)を行い、ロールアウトのバッチを複数のミニバッチに分割します。そして、2つ目のAIモデルであるオプティマイザーモデルがこれを見て最適化し、マージ操作を行います。その後、ランク付けとクリッピングの操作を行います。そこからいくつかの候補が得られ、それらが検証ゲートに入り、最終的に最高の中の最高である、最高のスキルMDファイルが完成します。素晴らしいですね。他にも要素がありますが、それは後で説明します。

これをテキストで読みたい方はどうぞ。ですが、先へ進みましょう。4層ハーネスについて話した動画でも気づかれたかもしれませんが、定義がすべてです。人によってハーネスの定義が異なるからです。幸いなことに、統一された定義があればいいのですが、そんなものはありません。ここでは、スキルは次のように定義されています。

いかなる実行の前にもエージェントのコンテキストに挿入される自然言語のポリシーであり、スキルをエージェントのための再利用可能な手続き的知識として扱う最近の研究と一致するもの。

美しいですね。これはポリシーです。私たちがここでテキストベースの構造に焦点を当てていることが分かります。

私たちは、スキル最適化のみによって行動が適応される固定ターゲットモデルをMと表します。テンソル重みには一切触れません。LLMの重みは変更せず、LLMは固定されています。そのため、ハーネスに入り込んでスキルの最適化を行い、自己学習を実現したいのです。幸いなことに、テキストの世界にもほんの少しの数学が存在します。ハーネスH、タスクX、スキルSがあり、これを実行することで軌跡とスカラー値のスコアが生成されます。スコアは0から1の範囲内に収まり、軌跡はこのスカラー値とともに生成されます。これにより、そのアイデアがどれほど良かったのかという知識が得られます。

ターゲットは実際にサンドボックス内でコードを実行します。もし悪いPythonスクリプトを書いた場合、Pythonコンパイラは実際の出力を返します。つまり、環境やサンドボックス、エラーメッセージからのフィードバックがあるわけです。システムはすべてを軌跡として記録します。モデルが使用した正確なツール呼び出し、APIの応答、そしてすべてのコンパイラエラーです。これで、ボスのエージェントであるオプティマイザーに必要なものがすべて揃いました。

フォワードパスとバックワードパスのマッピング

先ほどお話しした通り、トレーニング、検証、テストの分割があります。とてもシンプルです。書き留めておきたい方のために、ここでもう一度すべてを説明します。

では、ハーネスとは何でしょうか。フォワードパスがあります。強化学習やディープラーニングにおけるフォワードパスは、このテキスト空間ではロールアウトの証拠になります。ハーネスは、タスクのメタデータ、メッセージ、ツール呼び出し、観察結果、コマンド出力、最終回答、検証フィードバック、そしてベンチマーク固有のコンテキスト(スプレッドシートのプレビューやドキュメントの参照など)を、コンパクトな実行トレースとしてすべて記録します。これがハーネスです。

そして興味深いのは、ディープラーニングで通常バックワードパスと呼ばれるものが、ここではミニバッチ反省(ミニバッチ・リフレクション)にマッピングされている点です。Microsoftのマーケティング用語は本当に面白いですね。

ここで理解することが絶対に重要なポイントがあり、これを理解するのに5分から10分ほどかかりました。オプティマイザーモデル、つまりボスのモデルは、テキストのトレースしか読みません。これは興味深いことです。オプティマイザーは外部環境と一切接触しません。これは制限や弱点になるかもしれませんが、Microsoftはこのように構築しました。

オプティマイザーモデルはテキストのトレース、つまりエラーログも含まれる軌跡だけを読みます。そして、ミニバッチの軌跡をテキストログとして読み込みます。たとえば、試行1の例を見ます。モデルがDF lookupと書き、コンパイラが属性エラーを返しました。データフレームオブジェクトにはlookupという属性はありません、というエラーでスコアはゼロです。オプティマイザーは、これらを複数、たとえば8つのログを一度に確認します。そこで、これらがすべて失敗しているという体系的なパターンに気づきます。そして、学生モデルは古いpandasの構文を使い続けていると推論します。

そのため、最高のスキルMDファイルに、より新しい構文を強制的に使用させるスキルルールを書き込む必要があると判断します。そして、そのメモリーMDファイルをシステムプロンプトやユーザープロンプトに挿入するだけです。これがすべてです。オプティマイザーモデルで起こっていることはこれだけです。オプティマイザーモデルはすべてのエラーログを持っているので、すべての構文を理解しているはずです。しかし、突然、テンソル重みを持つLLMの内部ではなく、ハーネスの外部に出てしまい、構文やプロトコルに真剣に気を配らなければならなくなるのが分かります。

次のステップは、本当に興味深いステップです。これは制限付きテキスト更新ステップと呼ばれます。SkillOptにおける学習率のアナログは、すでにお見せした通り、編集予算(エディット・バジェット)、つまり特定のタイムステップtに適用されるテキストスキル編集の最大数です。集約の後、オプティマイザーモデルはマージされた編集プールを期待効用順にランク付けし、上位3つ、5つ、10つの編集にクリップします。

私はずっと、これは単なるプロンプトの書き換えやプロンプト最適化、コンテキスト最適化と何が違うのだろうかと考えていました。私の理解では、これこそがアドホックなプロンプトの書き換えとの決定的な違いです。なぜこれが必要かというと、ここでは1回の書き換えや上書きに限定せず、上位10個の編集を保持するからです。つまり、進むべき道の多様な選択肢のスペクトルを持つことになり、選択された編集によって、その特定のドメインやタスクに必要な候補スキルが総合的に生成されます。

これこそが秘密のタレです。オプティマイザーにプロンプト全体を書き換えさせる代わりに、SkillOptは更新を、小さな細かい編集のみの特定の限られたアトミックな編集予算に制限します。追加、特定の構造の置換、または削除はできますが、全体をすべて変えることはできません。明確な階層構造があり、デフォルトではこの予算に対してコサイン減衰スケジュールが使用されます。つまり、最初は大きな構造的編集から始まり、時間が経つにつれてより細かい調整へと減衰していきます。

これは興味深いですね。単に一回限りの上書きプロンプトを書くだけでなく、これが私たちの見つけた重要な発見であり、価値ある情報であると定義するわけです。そして、たとえば5つのアトミックな編集の予算を使って、ミニバッチからの特定のタスクに対して、さらに知識要素を追加、置換、または削除していきます。これで何が起こっているのか理解できました。外部環境との接触がないオプティマイザーモデルがあり、追加、削除、置換を行い、マージ、ランク付け、クリッピングを行います。そして、サンドボックスを使った検証を行い、最高のスキルMDファイルを手に入れます。素晴らしいですね。

スローアップデートによる系統的ドリフトの抑制

では、この図の下の部分は一体何なのだと思うかもしれません。著者らは、高速な更新(ファストアップデート)は現在のバッチから学習すると主張しています。しかし、同時に、素早く行うローカルなステップだけでは、システム全体に系統的なドリフト(傾向のズレ)が生じた場合に見落とす可能性があるとも言っています。そのため、対抗手段が必要になります。

そこで彼らは、エポックごとの緩やかな更新(スローアップデート)を採用しました。この更新は、隣接するエポックから学習すると彼らは言います。つまり、素早いクイックな更新ではありません。エポックが終わった後、前のエポックのスキルと現在のエポックのスキルを確認します。AIが改善点、継続的な失敗、安定した成功を確認します。そして、テキストによるエポックごとの反省を書き込みます。これがオプティマイザーのメタスキルとなり、系統的ドリフトを即座に検出できるドメイン固有の知識を、既知の手続きへと更新します。

最終的にSkillOptは、前のスキルと現在のスキルの下でのトレーニングをサンプリングし、改善、退行、継続的失敗、安定した成功にグループ化します。これについては先ほど確認した通りです。

ベンチマークによる性能検証

ベンチマークは本当に興味深い部分です。これがどれほど機能するのでしょうか。Microsoftの著者たちがなぜ特定のベンチマークを選んだのかは分かりませんが、もちろん、彼らの手法の効果が最も大きく出るものを選んだのでしょう。これは全くフェアなことで、誰もが多かれ少なかれ同じことをしています。

見てみましょう。固定された学生モデルがあります。これがGPT-5.5です。決して愚かなモデルではありませんが、そういう位置づけです。そして、最初はハーネスが全くない状態から始めます。ただのチャットボットです。ClaudeのコードもCodexも何もありません。検索Q&A、スプレッドシート、オフィスQ&A、ドキュメント、ライブ数学、ALFWorldなどがあります。

最初の行を見てみると、スキルが全くない場合、素のGPT-5.5のパフォーマンスはどうでしょうか。たとえば77.7%です。素晴らしいですね。人間のスキルだと81になります。LLMのスキルは80.9です。TextGradは81.4、GAPは84です。これら両方の動画は私のチャンネルにあります。そして、新しいSkillOptを見てください。84.8よりもさらに良く、この特定の質問回答ベンチマークにおいて87.3に達しています。素晴らしいですね。

スプレッドシートでは、最大30ターンのマルチターンコード生成と実際のpandasの実行時間を使用しています。デフォルトモードはマルチです。オフィスQ&Aの場合、最大24のツール呼び出しがあります。これはいいですね。そして、前回の動画で紹介したALFWorldでは、エージェントがゲームをプレイするような埋め込み型のインタラクションに対して、1エピソードあたり最大50ステップが設定されています。

「ハーネスなし」というのは、外部ツールやコード実行、バックグラウンドでの永続的なファイルシステムがないことを意味します。質問をすると、スキル文書がシステムプロンプトの先頭に追加され、モデルが回答を出力します。それだけです。素晴らしいですね。

ですから、Gaperと比較すると、確かに2.5パーセントポイントの改善が見られます。Qwen 3.6はどうでしょうか。彼らは、300億から350億の学習可能なパラメータを持つモデルに、30億のアクティブなスタックを持つMixture of Expertsモデルを採用しました。見ての通り、多かれ少なかれ似たようなデータですが、もちろんGPT-5.5ほど強力ではありません。そのため、SkillOptの87.3の代わりに、ここでは80.3となっています。素晴らしいですね。

残りの部分についても同様ですが、ここで「ちょっと待って、これはただの固定された学生モデルだけど、これをすべて修正し、すべてのミニバッチを確認し、すべてのトレースを修正し、選択・ランク付けされて最高のスキルMDファイルに実装される正しい解決策を提供する、オプティマイザーモデル、つまりボスのモデルは何なのだ?」と思うかもしれません。

なんと、オプティマイザーモデルもGPT-5.5なのです。これは興味深い状況です。たとえば、学生として固定されたGPT-5.5がいて、外部との接触を持たないアクティブな大ボス先生モデルとしてGPT-5.5が軌跡を見守っているのです。彼らはこの地球上で最高のAIモデルの一つを採用しました。なぜそうしたのかは不思議に思うところですが、これがハーネスなしの結果です。素晴らしいですね。

次に何が来るかはお分かりでしょう。OpenAIによるCodexハーネスと、AnthropicによるClaude Codeハーネスがあり、GPT-5.5に対して多かれ少なかれ同じことを行います。これを見てみてください。検索Q&Aでは、SkillOptが87.3で、もう一方が85.9です。ハーネスなしで検索Q&Aに行くと87.3になり、ハーネスありだと87.3と85.9になります。このMicrosoftの実装において、CodexやClaude Codeのハーネス構造がどれほど素晴らしいかは、皆さんが判断してください。このMicrosoftの実装にはいくつかの制限があるかもしれない、と思われるかもしれませんが、これについては5分後に詳しく説明します。

著者たちの論文に掲載された主な結果がここにあります。ハーネスを直接接続したGPT-5.5では、改善がプラス9.6%となっています。確かに改善は見られますが、GPT-5.5のCodexを見ると改善はわずか5.5%で、Claude Codeハーネス上のGPT-5.5では改善はわずか4%です。これらが、この新しいSkillOpt手法を採用した場合の実際の改善のステップです。著者らは主にGPTとQwenモデル(Qwen 3.5およびQwen 3.6のMixture of Experts)に焦点を当てています。素晴らしいですね。

手法の比較について、これは興味深いものです。異なるベンチマークにおいて、彼らはピンクのテキストでGaperを、オレンジでGAPを、そしてグリーンで新しいSkillOptを示しています。もちろん、適切なベンチマークテストを見つけたわけですから、グリーンが他のすべてを圧倒しています。おめでとうございます。率直に言って興味深い内容ですが、未解決の質問もあります。Gaperや、GaperからアップグレードされたWister、あるいはMITとUCバークレーによる遺伝的アルゴリズムであるGaperを37分間で詳細に解説した動画など、私のチャンネルに動画があります。

スキル最適化の本質とテキストグラディエント

私が興味深いと感じたのは、ここからはこの研究に対する私個人の考察ですが、それらの修正や新しい最高のスキルMDファイルの中身が一体何なのか、という点です。この完全に新しい手法をすべて実行した後に、スキルレベルで実際に何が修正されたのか、その中身は何でしょうか。

著者は完全に透明にこの情報を提示してくれています。私は、これほどの大きな成果を得るためには、1万や2万トークンに及ぶ、非常に詳細な指示や情報、それを実行するための知識が必要なのだろうと想定していました。しかし、それを見てみると、オフィスQ&Aに対する編集は正確に1回です。1回の編集、1回の指示です。トークン長は、元々は145トークンだったものが、最高のスキルMDファイルでは883トークンになっています。

これが改善のすべてなのか、と思われるかもしれません。もしかしたら、わずか1つか2つの文章だけなのかもしれません。私たちが見つけたのはこれだけなのでしょうか。ここでもまた、GPT-5.5の学生とGPT-5.5の先生による実行が見られます。これは現在この惑星で利用可能な最高のAIモデルの一つを使ったものですから、いわばこの手法で得られる最高の結果です。

しかし、他のもの、たとえばライブ数学でも正確に1回の編集、ALFWorldでは2回の編集、ドキュメントでは3回の編集となっています。これらすべての本質は何なのでしょうか。見てみましょう。その前に、これがスキルMDファイルであることを強調しておきたかったのです。つまり、モデル間やハーネス間で転送可能なファイルであり、シンプルな1ファイルのデプロイメントです。異なるハーネス、たとえばCodexでトレーニングしたものからClaude Codeへ移行しても、実際にその恩恵をもたらすことができます。なぜなら、この最高のスキルMDファイルには非常にユニークな新しい洞察が含まれているため、CodexとClaude Codeの両方がその恩恵を受けられるからです。つまり、これが結果を向上させているのです。

この時点で、私は自問しました。これが私の考察です。これは単なるハーネスの構文最適化(シンタックス・オプティマイゼーション)なのでしょうか。人間のモデルは固定されているため、ハーネスは独自のハーネス要素、メモリー、スキルプロンプト、そして固定されたLLMにデータが提示される方法しか最適化できません。これが、固定されたコアLLMにデータが提示される際のフィルター、つまりレンズになります。これがハーネスであり、それは単なる構文なのか、それともそれ以上のものなのでしょうか。

結果として、答えはノーです。単なる構文ではありません。それ以上のものです。なぜなら、著者らによって賢明に選ばれたオプティマイザーエージェントであるGPT-5.5は、構文だけに限定されないからです。GPT-5.5による推奨事項には、構文に加えて手続き的知識(プロシージャル・ナレッジ)も含まれており、これこそがスキルMDファイルに期待されるものです。

学生のGPT-5.5と先生のGPT-5.5がいて、そのうちの一方が、Microsoftが定義した検証ゲートによる現実世界の検証を行っているという状況において、接点が存在します。このテキストグラディエント最適化の結果として何が見出されたのか、その内幕をお伝えします。

検索Q&Aにおける最も重要な編集は次の通りです。

手がかりの語句から期待される回答のタイプを推論し、共起する明確な証拠によって裏付けられた、最も短い標準的なエンティティを選択せよ。

これが改善をもたらします。また、オフィスQ&Aでは次のようになっています。

オラクルがパースしたページを一次証拠として扱い、表、日付、単位の内容をロックし、余計なラベルを付けずに要求された丸められた値を正確に出力せよ。

これが、皆さんが目にした大規模な改善をもたらしている要素です。なるほど、そうですね。皆さんがこれについてどう感じるかは分かりません。私はこのMicrosoftの手法から、もっと深い学習や深い洞察、何と言いますか、ウォーターフォールモデルのようなものではなく、もっと複雑な構造的洞察を期待していました。しかし、論文の図4には、GPT-5.5とGPT-5.5のこの構成の最終的な最高のスキルMDファイルから抽出された学習ルールが、見事に提示されています。論文があるべき姿として、正確かつ非常に透明に示されており、著者らにはお祝いを言いたいです。

はっきりさせておくと、オプティマイザーである先生のGPT-5.5は、最終的な検証エラーを決して見ません。オプティマイザーモデルは、トレーニング分割データを見る癖しか許されていません。先ほどお話ししたように、これはトレーニングの軌跡のバッチをテキストレベルでのみ読み、検証することはできません。現実世界とのコンテキストを持たないのです。そして、Pythonコンパイラからのエラーログを持っているため、テキストの失敗をグループ化し、この情報に基づいてMicrosoftが「テキストグラディエント(テキスト勾配)」と呼ぶものを計算します。

ここだけの話、テキストグラディエントというのは単に文字列に対する編集提案のことですが、まあ、テキストグラディエントと呼ぶことにしましょう。テキストグラディエントに遭遇したときはいつでも、それがトレーニングの軌跡のグループから導き出されたものであることが正確に分かります。失敗を分析し、共通のパターンを見つけ、そこに追加される提案された修正を計算するのです。

まとめと追加の研究

もしこの世界の誰かが動画のここまで深くついてきてくれたなら、ボーナスがあります。全く同じ日に2つ目の研究が出ているからです。2026年5月22日のこちらも読むべきです。これは多かれ少なかれ同じ著者たち、復旦大学、Microsoft、上海交通大学によるものですが、彼らはモデルが生成したエージェントスキルの系統的研究を行っており、この研究における生の経験からスキルの消費までの発展を示しています。これは非常に興味深い内容です。一般的なスキームを理解するためには少し理論的な側面が強いですが、この研究を強くお勧めします。著者らは、そのようなスキルが実際に機能するのか、いつ機能するのか、何が成功をもたらし、何が失敗をもたらすのかを問いかけています。これは理論的な洞察です。最初の研究を終えた後、2つ目の研究としてこれを読むことを強くお勧めします。

もちろん、MicrosoftのSkillLensのGitHubリポジトリもあり、ちょうど4時間前に更新されました。素晴らしいですね。彼らは現在、経験生成のステージ1、スキル抽出のステージ2、そしてスキル消費のステージ3という3つのシンプルなステージを通じて、軌跡全体からスキルのライフサイクルまでを評価しています。いくつかの素晴らしい洞察がありますので、少し理論的な側面に興味があり、一般的なトピックに少し深く飛び込んでみたい方には、2つ目の論文を強くお勧めします。

もう人間は残っていないかもしれませんが、理論的に、もしエイリアンがこれを見ているなら、この動画には2つ目のボーナスがあります。ちょうど昨日、残念ながらメンバー限定ではありますが、公開したものがあります。もしこのトピックに興味があるなら、これはAIによるAIハーネス最適化を示した動画で、スキルに限定されません。完全なプロセスを皆さんに紹介しました。また、完全なハーネスを完全に最適化するオプティマイザーエージェントも使用しています。プロンプト、ツール、メモリー、ワークフローの最適化から、より高い複雑さに統合されたすべての要素が揃っています。

ですので、冒頭のこの動画はシンプルなMicrosoftのスキルの次元に関するものでしたが、もし本当に本格的な最新のヘビーな内容に挑戦したいのであれば、こちらの動画を強くお勧めします。少しでも楽しんで、喜びを感じ、新しいデータや新しい洞察を得て、AIに興味を持っていただけたなら幸いです。次回の動画でお会いできるのを楽しみにしています。

コメント

タイトルとURLをコピーしました