このAIは2つの心で学習する (遅いRL、速いGEPA)

イーロンマスク・テスラ・xAI
この記事は約23分で読めます。

AIモデルの新しいトレーニング手法であるSlow Fast Trainingについて解説する動画である。強化学習を用いたコアモデルの遅い学習と、プロンプトやコンテキストを用いた速い学習を組み合わせることで、破局的忘却を防ぎつつ、より適応力が高く効率的な学習を実現する仕組みを、UCバークレーなどの最新論文を交えて詳細に説明している。

Why LLMs Need Two Timescales of Learning
The video's central move is to stop treating LLM adaptation as a single process that must all be written into the tensor...

AIモデルの新しい学習手法とスキルの重要性

こんにちは、コミュニティの皆さん。またお会いできて嬉しいです。今日はAIモデルをトレーニングするための全く新しい学習手法について見ていきます。これは遅い学習と速い学習を組み合わせた手法であり、SFT AI手法と呼ばれています。それでは見ていきましょう。前回の動画でAIサイエンティストについてお話しし、スキルMDファイル、メモリMDファイル、そしてセルフDPOによる強化学習の3つをすべて一緒に変更したケースをお見せしたのは偶然ではありません。これらすべてが、一貫した学習体験のための強化学習に向けてスキルとメモリファイルを変更する上で不可欠だとお伝えしました。そしてAIサイエンティストのタスクの1つが、新しいスキルMDファイルを開発し、新しい方法論、新しい洞察、新しい科学的洞察を開発することだったのを覚えているでしょう。したがって、私たちはここでLLM自体と一緒にスキルMDファイルを最適化しているのです。これはすでに非常に興味深いことでした。なぜなら、もはや適当なAIモデルを持ってきてインターネットから適当なスキルモデルを追加するような時代ではなくなったからです。そんなことはあり得ません。それらは一貫性がなく、連携して機能しません。ですから、これらが一貫した学習体験となるように統合しなければなりません。これによって単にパフォーマンスが向上します。そして、システムの開発と新しいスキルMDファイルの開発のために人間が追加のガイダンスを提供する、大規模な人間のフィードバックループがあったことを思い出してください。

スキルの危険性とサイバーセキュリティにおけるリスク

今やスキルは研究のトピックになっています。なぜでしょうか。2026年5月12日の上海交通大学によるこの論文は、エージェントスキルエコシステムのための自己進化型レッドチームについて提起しています。なぜスキルがサイバーセキュリティにおいてそれほど危険になっているのでしょうか。それは、スキルが実行可能な動作とコンテキスト設定のドキュメントの両方を公開してしまうからです。したがって、その展開リスクは単純なプロンプトレベルのレッドチームだけでは測定できません。現実的な攻撃では、そしてこれは実際にリアルタイムで起きていることですが、監査とランタイムのフィードバックを使用して、システムからのフィードバックに基づいてスキルを繰り返し書き換え、最終的にこのスキルがインフラストラクチャを突破してアクセスできるようになるまでスキルを複数回最適化することができます。また、攻撃者が監査を通過して検証済みのランタイムの害を生み出すまでスキルを反復的に修正できるため、このリスクを適応型リークと呼ぶこともできます。そのため、スキルは極めて危険なオブジェクトであり、何をダウンロードしているのか理解していない限り、インターネットから適当にスキルをダウンロードしてはいけません。なぜかというと、スキルが非常に強力だからです。この論文のプロトスで示されているように、スキルは経路拡張を実行して成功した攻撃ベクトルの代替実装を見つけ、また表面拡張を実行して、学習した実装パターンを元のシードカタログを超えた新しい攻撃目標に転送します。つまり、このスキルはあなたのLLMやサイバーセキュリティなどの防御策に基づいて学習し、学習可能であるがゆえに、すべての防御を突破する方法を見つけ出すということです。

知識の分離と新しい学習ダイナミクス

これは肯定的な方向にも使えるものなので、この論文にばかり焦点を当てたくはありません。ぜひ読んでいただくことを強くお勧めしますが、今は別の肯定的な方向に進みたいと思います。私たちの中心に素晴らしいLLMがあり、そのLLMの周りにAIを制御する領域があり、そこにはGraph RAGからLean 4、スーパーコンピューター、データベースクラスターまであらゆるものがあるという図を思い出してください。今日はこのイメージをさらに発展させていきます。なぜなら、スキルが自己学習スキルとなり、単なる単純なタスクのためにダウンロードするものではなく、危険な動作や安全な動作を自ら学習できるようになったことで、新しい学習のダイナミクスが生まれたからです。そこで、次のような思考実験をしてみましょう。私たちの領域の中心にはLLMがあります。ニューラルネットワークがあります。ここにはトランスフォーマーのレイヤーがあります。そしてここにはテンソル重みがあります。システムが深い思考を行えるように、ここでトレーニングが行われます。そして領域の表面には、外部の世界や環境からのすべての問題やコンテキストがあり、これらはすべてこの球体の表面を渦巻く寿命の短いデータです。したがって、私たちは今システムを手に入れており、これをいかにして一貫したシステムの学習に結びつけるかを経験しているところです。私たちはさらに一歩進みます。新しいスキルファイルが必要だとか、自己更新するスキルMDファイルやメモリファイルが必要だとは言いません。より複雑なシステム構成へと進み、コアは私たちのテンソル構造、つまり重みテンソルであり、プロンプトもLLMでの学習がどのように行われるかに直接的な影響を与えるようになると考えます。

推論エンジンと動的データの分離

さらに一歩進んで、私が現在プラズマ物理学についてAIと取り組んでいるこの視覚化については気にしないでください。トーラスが見えますが、これは知識を分離していることを示すために生成した単なる画像です。青色で示されているコア、つまりプラズマは、AIの主要なロジックであり、特定のドメイン知識で事前学習および事後学習されてタスクを実行するLLMの深い推論エンジン、つまりトランスフォーマーのニューラルネットワークです。そして、そのすべてを囲むように足場があります。これを寿命の短い事実と呼びましょう。月曜日に何が起きたか、火曜日に何が起きたか、火曜日の市場の財務データなどです。外側の足場は、変動の激しい動的データの表面のようなものです。高いフラックスと高いスループットがあり、これらのデータは数秒以内に変化します。そこで私たちは、主要なロジックとは何かを切り離そうとしています。トランスフォーマーのレイヤーに本当に刻み込みたいコアの推論エンジンとは何でしょうか。これが青色の部分です。そして、ちょっと待って、日々や秒単位で変化するすべてのデータや周囲の足場についてはどうでしょうか。月曜日と火曜日のパターンを理解するようにLLMをトレーニングしたくはありません。なぜなら、それらは継続的に変化するからです。そのため、私たちは知識を、推論のための純粋に抽象的な知識と、常に変化する動的な知識に分割します。

速い学習と遅い学習の組み合わせ

そしてもちろん、ここには一種の足場やハーネスのようなものがあり、新しい数学的な最適化を見つけることになります。これがUCバークレーの論文です。UCバークレーが何かを発表するときはいつも素晴らしいですが、彼らは継続的に適応するLLMに向けた速い学習と遅い学習について述べています。これは、LLMがあり、素晴らしい事前学習フェーズがあり、ドメイン知識があり、新しいデータで毎週トレーニングしたい場合に関わってくる話です。現在私たちは破局的忘却などの問題を抱えており、彼らは今、テキサス大学オースティン校や他の素晴らしい研究者たちと共に、LLMをトレーニングするための新しい方法論に焦点を当てています。彼らはこれを速い遅いトレーニングと呼んでおり、1つの指標を示しています。これは、検証可能なフィードバックからの強化学習である遅いトレーニングのみを行う場合と比較して、複数の推論タスクにおいて一貫してより高いパフォーマンスの漸近線に到達しながら、最大で3倍もサンプル効率が高いというものです。この記事でUCバークレーは、2026年5月12日に公開された、強化学習やインコンテキスト学習を超えたLLMの全く新しいトレーニング方法を提示しています。

破局的忘却への対策と新しいフレームワーク

彼らは、強化学習でテンソル重みなどのパラメータを更新すると、特定の月曜日の朝や3週間前の天気にしか当てはまらないようなタスク固有の情報をLLMが吸収してしまい、結果として破局的忘却やLLMの推論の可塑性の喪失を招く可能性があると述べています。なぜなら、それらのデータは情報や知識となり、他のデータを上書きしなければならないからです。これは何年も前から知られている現象です。固定されたLLMパラメータを使用したインコンテキスト学習というものもあります。テンソル重みは凍結され、タスク固有の要件に安価かつ迅速に適応できます。これはプロンプト最適化やDSPyなど、最適化メカニズムに関するあらゆるものを指します。しかし、これだけでは通常、強化学習トレーニングで得られるパフォーマンスの向上には匹敵しません。長い間、このような状況が続いていました。そして今、ジョージがLLMのための新しい速い遅い学習フレームワークを導入しました。これはモデルパラメータ、つまりLLM内のテンソル重みを遅い重みとし、最適化されたコンテキスト、つまりコンテキストエンジニアリングやハーネス内にあるすべてのものを速い重みとするものです。これが論文全体で使用されている定義です。アイデアはシンプルです。プロンプト内でコンテキストを提供します。連結されたプロンプトや、少数の具体例を含む素晴らしいコンテキストを構築するRAGシステムがあるかもしれません。そして、タスクのプロンプトがあります。特定のxとyの値に対してこの特定の関数を単純に計算するというようなものです。

モデル展開と報酬のループ

彼らが今行っているのは、素晴らしいLLMモデルがあり、パラメータのシータがあり、トレーニング可能なパラメータがあるという状態から出発することです。モデルを展開し、思考プロセスがあり、さまざまな試行があり、特定のツール呼び出しがあり、エラーが発生するという一連の流れがあります。そして、彼らが遅い学習と呼ぶモデル側の学習にはループがあり、通常与えられる報酬はタスク終了時の報酬です。最後に正しい結果が得られた場合はプラス1、行き詰まったり間違った結果になった場合はマイナス1というように、スカラー報酬が与えられます。ジョブの最後にのみ報酬が得られ、それが遅い重みの更新と共にフィードバックされ、どのアプローチが本当に機能したかをモデルに伝えます。しかし先ほどお話ししたように、私たちにはインテリジェントなスキル、メモリファイル、すべてのテンプレート、すべてのツール呼び出しがあります。純粋な推論エンジンの周りにモデルを構築し、小さくて柔軟で動的なデータ構造をモデル内ではなくAIのハーネスという外部に置いた場合どうなるかが今の問題です。私たちにはコンテキストプールがあり、これがファイです。

GEPAによる速い学習の最適化

ファイはいわば速い学習ルートです。思考、ツール呼び出し、エラーがありますが、ここでは思考、ツール呼び出し、エラー、フィードバック操作を扱っているため、はるかに速く進めることができます。ツール1番でなければツール2番、ツール3番かもしれないといった具合に、単に判断して進む速い学習最適化ができるからです。そしてコンテキスト内で速いコンテキスト更新を行います。機能するかしないかにかかわらず、グループ内で母集団を混合するなどの推奨事項や追加情報が得られれば、コンテキストを最適化し、ループ全体が最初から再開されます。遅いループはスカラー報酬のみからパラメータであるパイ・シータを更新し、下部の速いループはファイを更新することを思い出してください。これは思考、ツール呼び出し、エラー、あらゆるフィードバックを含むロールアウトの全文を消費する反射的最適化によるパレートフロントの母集団です。強化学習や教師ありファインチューニングなどの遅い学習の数学やコーディングについては理解しているが、この速いループをどのように最適化するのかと疑問に思うかもしれません。UCバークレーの著者たちは独自のツールボックスを掘り下げ、これをGEPA、つまり反射的最適化で行うと述べています。

反射的プロンプト進化の役割

もしあなたが私のチャンネルの登録者であれば、チャンネル内でGEPAと検索すればすぐに私のGEPAに関する動画が見つかることをご存知でしょう。約9ヶ月前にMIT、UCバークレー、スタンフォード、Databricksから登場した新しい遺伝的AI構造であり、彼らはこれを強化学習の終わりと呼んでいました。なぜなら、GEPAや反射的プロンプト進化は強化学習を上回る可能性さえあるからです。これはDSPyの著者たちからのものでもあり、関連するすべてが組み合わされています。私が皆さんに説明しようと努めた37分の動画を見ていただいていることを願います。また、1ヶ月前に別の科学的研究動画でお話ししたように、GEPAからVisterへと進化したため、GEPAはすでに最新のものではないこともご存知でしょう。人間のプロンプトがいかに複雑なものであるかをVisterを通じてお見せしました。いずれにせよ、UCバークレー、スタンフォード、MIT、Databricksによるこの82ページに及ぶ素晴らしい出版物では、反射的プロンプト進化が提示されていますが、それは強化学習を完全に上回るわけではありませんでした。UCバークレーが9ヶ月経った今、完全な学習ルートではなく速い学習ルートのみにGEPAを選択したのを見ると、実際には強化学習を上回っていないように見えます。そして遅い学習には依然として強化学習が使われています。これは非常に興味深いことです。そしてここでオマールの名前を見て理解できるのは、GEPAからVisterへの進化についての私の動画を見たことがあるなら、GEPAが局所的最小値に陥って固定されてしまうため、アルゴリズム的によりインテリジェントなVisterのようなものが必要だったということです。Visterは局所的最小値から抜け出し、十分な勢いとインパルスを得て、真の大域的最小値、つまり最良の解決策を見つけ出します。これは仮説生成とプロンプト記述を分離するマルチエージェントAPOフレームワークです。この素晴らしい内容はすべて該当の動画で見つけることができます。とにかく、これでGEPAの扱い方はわかりました。9ヶ月後、GEPAは突然2つのシステムのうちの1つになったわけです。

2つのチャネルの数学的結合

つまり、強化学習とGEPAがあるわけです。これらをどのようにまとめるかについて、コードを書く前に数学的な基盤が必要です。私たちは数学をコード化するからです。著者は第3章でFSTについて説明しており、遅い重みであるシータを検証可能なフィードバックによる強化学習を通じて、そして速い重みであるファイをGEPAを通じて共同で最適化すると述べています。これは2つの方法論があることを意味します。GitHubのリポジトリがあり、すぐに構築できることもわかっています。唯一の疑問は、これをどのように組み合わせて共同の期待値にするかということです。先ほどお話ししたように、実際のプロンプトの母集団であるファイがあり、ここでの最適化は非常にシンプルです。ファイのUはプロンプトの母集団全体で一様分布になります。これは簡単に見えます。もし馴染みがなければ、AIの数学を解説した私の52分の動画があります。これらの数式を理解するために絶対に必要であり、すべての用語が何を意味するのか、なぜこれが必要なのか、どのように書くのか、なぜこの方法で書くのかを説明しており、そこからすべてを理解できます。さて、お話ししたように、この新しい方法論からの自然な共同目的関数はシンプルです。これが論文の最初の重要な数学的主張であり、報酬はモデルパラメータであるシータとコンテキストであるファイの両方に共同で依存します。したがって、この学習問題は本質的に2チャネルであり、シータとファイの2チャネルが結合された学習体験になることがわかります。

共同学習アルゴリズムのサイクル

遅いチャネルについては、論文ではロールアウトのバッチが与えられたときに検証可能な報酬を用いた強化学習を使用し、グループ相対アドバンテージを計算します。これは典型的な標準的な報酬主導の事後学習です。速いチャネルにはGEPAを使用します。これは私のGEPAの動画で見たとおりです。そしてこれらを組み合わせると、プロンプトの母集団であるファイと、そのプロンプトの母集団に対する一様分布であるUのファイを含む式になります。これが、2つの学習システムが共に学習するために結合されていることを示す数学的な主張です。したがって、ポリシーは単一の凍結されたプロンプトではなく、速いコンテキストの分布の下でトレーニングされることになります。GEPAは単一プロンプトの最適化ではなく完全なアンサンブルについて語っているため、これは重要です。全体的な流れを見たい方のために説明すると、このアルゴリズムはサイクルを描いて実行されます。特定のサイクルC、たとえばCが1だとして、まず次のRLミニバッチを事前フェッチし、それを見越しバッチLCと呼びます。次に、Cが1のための現在のポリシーであるパイ・シータ、凍結されたリフレクションモデル、見越しデータ、そして事前のプロンプト母集団であるファイCをシードデータとして使用し、GEPAを実行します。そしてGEPAは新しいプロンプト母集団Cプラス1を返します。その後、システムは遅い重みの更新を実行します。

閉ループ内での共同適応

良い解決策が見つかった後、システムはそこに新しい推論パスや新しい推論の複雑さがある場合、それをテンソル重みに統合します。ファイのCプラス1を固定したまま、遅い重みを更新するわけです。各RLバッチは母集団内のすべてのプロンプトの下でロールアウトをサンプリングし、それらをグループ化してグループ相対アドバンテージを計算し、更新関数を適用してから、次のサイクルが始まります。これは素晴らしいことです。しかしこれは、学習器つまり強化学習は常に現在のプロンプトの生態系の中で学習している一方で、プロンプトの生態系自体は学習器が直前に失敗したものに基づいて更新されていることを意味します。そのため、私たちはスキルを見つけようとします。スキル検索について見てください。私の動画では、この失敗を克服するために必要な特定のスキルを見つける試みについて紹介しています。そして、これらの新しいスキルや構成されたサブスキルを適用することで、解決策を見つけます。これは、2つの学習器が閉ループの中で結合されていることを意味します。Cでのファイがあり、ロールアウトがあり、Cプラス1でのシータがあり、新しいロールアウトがあり、そして再びCプラス2でのファイがあります。私たちは常に、もう一方の学習器の新しい環境内にいることになります。だからこそ、この論文は単なるプロンプトチューニングと強化学習に格下げできるようなものではないのです。数式を見てください。学習手法の共同学習であり、共同適応です。これらは互いに依存し合っており、理論的に強化学習単体よりもはるかに強力になり得ます。

データ効率とベースモデルの保持

論文の実証的なテーマは、速いチャネルが、本来であれば遅い重みを過度に動かしてしまうような寿命の短いタスク固有の負担の一部を吸収するというものです。これには影響があり、最初のポイントは学習が突然データ効率の良いものになるということです。後でデータをお見せします。FSTは、強化学習がピークに達するよりも少ない最適化ステップ数でピークに到達します。コードタスクでは3倍少なく、他の数学タスクでは4倍または3倍少なくなります。データ効率、そして時間と計算時間の節約は絶対に重要です。第二に、LLMモデルが自身のベースポリシーに近い状態を保ちます。カルバック・ライブラー情報量は通常ほど発散しません。論文のカルバック・ライブラー情報量と報酬のプロットでは、同じ報酬においてFSTが強化学習の左側に位置していることが示されています。これは、パラメータのドリフトを抑えながら同等のパフォーマンスを達成していることを意味します。強化学習単体でトレーニングされたチェックポイントよりも、新しいタスクに適応するのがはるかに容易なフェーズ2のプローブチェックポイントにおけるLLMの可塑性についても触れておきます。このデータもすぐにお見せしましょう。

実証データの確認と分析

それでは見てみましょう。ここに検証報酬のグラフがあります。緑色の実線が新しいFSTで、青色の破線が強化学習です。GEPAのみを見る場合は点線になります。X軸にステップ数をとると、緑色の線が強化学習のパフォーマンスのプラトーである42パーセントか43パーセントあたりに、はるかに早く到達していることがわかります。強化学習は約1500ステップかかりますが、新しいFSTは500ステップで同じパフォーマンスに到達します。つまり3倍優れています。これが、結合されたシステムが強化学習のみの重みのみの学習よりもサンプル効率が高いことを示す、テストからの最初の直接的な実証的兆候です。正しい方向に向かっています。次に、ベースモデルからのカルバック・ライブラー情報量と検証報酬の関係を見てみましょう。これは非常にシンプルです。緑色の線は強化学習の線のほぼ完全に左側にあります。特に物理学のタスクを見てください。緑色の線は明らかに左側にあります。これは、Y軸に検証報酬の割合をとった場合、同じ報酬においてFSTが重み空間での移動をより少なく抑えられていることを意味します。これが、コンテキストが適応の負荷の一部を吸収できるという論文の中心的テーマに対する最も優れた数値的証拠の1つです。

AIハーネスの活用と継続学習への影響

つまり、すべてをコアの強化学習に詰め込む必要はなく、スキルMDファイルやテンプレートなどのAIハーネス内のコンテキストとコンテキスト最適化が、日々変動する速いデータの複雑さの一部を吸収できるということです。そのため、適応の負荷がLLMの強化学習トレーニングの可塑性に移されることはありません。これは、あるタスクでトレーニングした後に新しいタスクをどれくらい学習できるかという非常に実践的な問いに答えるものです。答えは、FSTでトレーニングされたモデルは、強化学習のみでトレーニングされたモデルよりも将来の学習のための容量を多く維持しているということです。青い線の強化学習と緑の線のFSTを見ればわかります。物理学から別のタスクへと2つ目の複雑な学習タスクに移行する場合、X軸のステップ数に対して緑の線が他の方法論を上回っていることがわかります。これが最も明確な証拠だと私は主張します。証拠ではなく指標と言うべきかもしれませんが、とにかく速いチャネルが遅いチャネルである重みを過剰適合や過剰な専門化から保護しているということです。すべてのデータがコアで学習されるように保存および投影されるのではなく、AIハーネスの領域の表面で処理されるからです。素晴らしいことです。これを継続学習と組み合わせてみましょう。先ほど破局的忘却について話しましたが、中断のない実行で継続学習を行うとします。最初はこれについてトレーニングし、次にコードについてトレーニングし、次に物理学についてトレーニングします。そして、これら3つの要素すべてにおいてパフォーマンスが最大に保たれることを望みます。

タスク移行と学習ダイナミクス

シンプルな話です。実線が新しいFSTで、破線が強化学習です。最初のブロックでは両者はほぼ同じですが、2番目のコードのタスクに進むと、実線は最大のパフォーマンスまで跳ね上がるのに対し、破線はまったく上がってきません。ドメイン知識を完全に新しいものに変更すると、まさにこれが起こります。強化学習を使用すると、特に2番目の部分で破局的忘却が発生する可能性があります。しかし、3番目の物理学の部分を見ると、それも回復しようとしています。これは本当に興味深いことですが、一般的に言って、FSTは各段階で適応し続けるのに対し、古典的な強化学習は中間段階でひどく停滞し、後になって部分的にしか回復しないと言えます。著者らは、これがタスクの移行下におけるシステムのライブ適応をサポートする結合システムの最も強力な実証であると主張しています。あるドメインから別のドメインに移行する場合、前の知識の上に別の知識ドメインをトレーニングしたいと考えます。FSTを用いた継続学習は強化学習を上回るようです。というわけです。アイデアはシンプルです。ニューラルネットワークのテンソル重みの遅い学習と重み最適化のためのトレーニングデータとして入力するものについて、事前学習および事後学習データセットのデータを非常に慎重に扱うようになっています。なぜなら、汎用的な推論エンジン、汎用的なロジックエンジンだけを持ちたいからです。毎日変化するような動的なデータは、AI領域の表面にのみ持たせたいのです。

表面とコアの一貫した学習プロセス

もちろん、それらは互いに影響を与えます。継続学習においてそれらは現在依存関係にあり、これは素晴らしいことです。領域の内部コアと表面の間で、一貫した学習プロセスが存在するのです。論文にはありませんが、私の個人的な推奨としてさらに一歩進めることができます。何回かのループの後にこれを行えば簡単です。領域の表面にあるものは何でも抽出できるからです。表面にある解決策や例は、私たちが特定のパターンを発見したり、教訓を検証したりした結果の新しいスキルや新しいメモリに過ぎないからです。成功した戦略もあれば完全に失敗した戦略もあり、それらをメモリに入れ、過去の反省点などを明確にします。このように、AIハーネスにアウトソースしている現在のスキルやメモリに一貫した形で変換することも見事に可能です。しかし学習は織り交ぜられた複雑な組み合わせであり、だからこそより優れたパフォーマンスを発揮します。この新しい論文は、本当に役立つと思う3つのアイデアを押し出しています。第一に、すべての有用な適応をLLMの重みに恒久的に書き込むべきではないというアイデアです。11月30日金曜日の天気がどうだったかは、物理学に関しては本当に重要ではないからです。一部の情報は一時的であったりタスク固有であったりするため、単にコンテキスト内に留めるべきです。そこにある情報を修正したり、明日発表される新しい財務データについての情報を更新したりする方が簡単です。コアに組み込むのではなく、領域の表面に配置してください。

コンテキストと重みの共同トレーニング

第二に、コンテキストと重みは一緒にトレーニングされるべきだということです。これが大きなブレークスルーだと思います。順次ではなく、順番でもなく、一緒にトレーニングする必要があります。互いに依存し合う織り交ぜられた複雑さを本当に持っているコード化可能な数学的表現を見つけなければなりません。そして、GEPAと検証可能なフィードバックを伴う古典的な強化学習は、一緒にトレーニングし、今お見せしたように統合できる、非常に美しく補完的なトレーニングルーチンだと思います。プロンプトチャネルはロールアウトの分布を変化させ、それが遅い学習器つまり強化学習が見る勾配を変化させます。この論文は単なるプロンプト最適化ではなく、結合されたダイナミクスについて書かれているのです。もはや単純なケースのようにはできません。最初にパートAをやって、次にパートBをやるというようなものではありません。すべてがシステムなのです。システムダイナミクスから来る複雑なインターバルがあり、数学的に記述しなければならない結合された動的システムを持っています。そして、気にかけるべき第三の実用的な理由は、結合されたシステムはより速く学習し、ベースモデルに近い状態を保ち、推論の可塑性を維持し、タスクの変更にうまく対処できるということです。なぜなら、それらはLLMのコアではなくAIハーネス内にあるからです。したがって、科学的な主張は単にプロンプトが役立つということではなく、2段階スケールの学習アーキテクチャが継続的なLLM適応のためのより優れた抽象化であるということです。私たちはプロンプトエンジニアリングからコンテキストエンジニアリングへ、DSPyへ、そして完全なマルチエージェントへと移行してきました。今、GEPAと強化学習を組み合わせています。次の論理的なステップは、Visterと強化学習を組み合わせ、次世代のAIモデルのための全く新しい数学を開発することかもしれません。素晴らしいですね。

インフラストラクチャと今後の展望

はい。ハードウェアインフラストラクチャについては、ノードあたり80GBのH100を8台搭載したクラスターを使用しています。物理学や数学などの推論タスクのために、シンプルなQwen3モデルを使用しているのがわかります。唯一の例外として、推論を行わないStarGraphタスクもありましたが、これも素晴らしいです。新しいFSTで1つの追加ラインを実行するのにどれくらいの時間がかかるかの目安としては、約25から40GPU時間かかります。もちろん、GEPAのサイクルはこの時間のかなりの部分を占めます。これは高価で複雑で、ハードウェア集約的ではないとは言いません。ハードウェアは必要ですが、モデルの観点から見ればQwen3モデルを使用しているので、これは素晴らしいことです。しかし一方で、GEPAにはGPT-5.2を使用しています。ですから、そう簡単にはできません。彼らは第2の部分をローカルで行わないことに決定しました。トレーニングされたLLMの品質や、医療、金融、化学など扱うドメインの複雑さに応じて、試行錯誤してGEPAをローカルで実行できるかもしれません。しかし、これは良い概要を示しています。インフラストラクチャとしてはかなり高価ですが、科学的な観点からは大きく前進しました。事後学習フェーズにおけるLLMのための速い遅いフレームワークを手に入れました。これは、パイ・シータパラメータに依存する遅いモデルとして、検証可能なフィードバックを伴う古典的な強化学習と、速いテキストコンテキストの母集団を共同で最適化するものです。私たちはこれを簡略化してインコンテキスト学習と呼んでいましたが、今日では学習可能なスキルとGEPAによる反射的プロンプト進化を活用したより高度なものになっています。今やこれら2つの学習チャネルが完全に統合され、システムのために一緒により良く、より速く、より高いパフォーマンスで学習するのです。なんて興味深い研究でしょうか。他にもたくさんの研究がありますが、これを皆さんに紹介したいと思いました。なぜなら、ローカルのインフラストラクチャやローカルのLLMでも最適化できるかもしれない、全く新しい学習体験の道を開くものだからです。これについては今後の動画で詳しく説明します。楽しんでいただけたなら幸いです。テストするための新しい情報が得られたのではないでしょうか。今回紹介した2つの論文をぜひ読んでみることをお勧めします。それでは、また次の動画でお会いできるのを楽しみにしています。

コメント

タイトルとURLをコピーしました