MITの新AI「自己書き換え」で能力向上｜研究者衝撃

MITが発表した革新的な研究「Self-adapting Language Models（SEAL）」は、AIモデルが自らの重みを更新して能力を向上させる技術である。従来の静的なモデルとは異なり、新しい入力に応答して自己編集を生成し、自らの「脳」を改善する仕組みを持つ。この技術は人間の学習プロセス、特にノート作成や復習を模倣しており、モデルが独自の訓練データを生成してファインチューニングを行う。ARC AGIベンチマークでは33.5%から47%への性能向上を達成し、GPT-4oを上回る結果を示した。この革新は長期的なAIエージェントの課題である一貫性の問題を解決する可能性を秘めており、AI分野における重要なブレークスルーとして注目されている。

革新的なSEALフレームワークの登場
AIの自己改善能力の実現
重みと訓練の仕組み
ファインチューニングから自己編集へ
強化学習による自己改善
YouTuber自身の学習体験
現在の学習方法の限界
SEALアプローチの革新性
ARC AGIベンチマークでの成果
複合的アプローチの重要性
メタ学習としてのSEAL
外部報酬なしの学習の可能性
驚くべき発見
データの壁を超えて
ノート作成の概念の拡張
人間の学習との類似性
長期AIエージェントへの応用

革新的なSEALフレームワークの登場

MITが最近発表した論文「自己適応型言語モデル」は、LLMが独自の訓練データを生成し、新しい入力に応答して重みを更新するための自己編集を行うフレームワークです。つまり、これらのモデルは特定のタスクをより上手に実行するために、いわば自分自身の脳を改善しているのです。

この論文の著者の一人であるアダム・ツヴィガー氏は次のように述べています。我々の自己適応型LM論文の過小評価されている、そして潜在的により実用的な側面は、一般的な事前訓練データキュレーションの可能性です。これを教師と生徒のモデルとして考えてみてください。

論文では生成と学習の両方に同じモデルを使用していますが、実際には教師と生徒のモデルを持つ方がはるかに強力かもしれません。それぞれが独自の訓練コース、独自の強化学習訓練パイプラインを持ち、教師は生徒のために訓練データを最適に拡張する方法を教えるのです。

AIの自己改善能力の実現

この「自己適応型言語モデル」という論文は興味深いものです。なぜなら、それほど昔ではない、おそらく1、2年前には、人々は最終的にAIはここで見ているような段階に到達するだろうと言っていました。つまり、リアルタイムでより賢くなるために自分自身の脳を改善し、重みを更新できるような段階です。そして、これはその初期段階を実際に見ているのです。

論文にあるように、LMは強力ですが静的です。新しいタスク、知識、例に応答して重みを適応させることができません。そこで彼らは自己適応型LMS（SEAL）を導入し、これによりLMSは独自のファインチューニングデータと更新指示を生成することで自己適応できるようになります。

これらのモデルが訓練されると、現れるのは重みです。これらのニューラルネットは私たちの脳のニューラルネットに似ており、互いに接続された様々なニューロンがあります。これらの接続がどのように作られているか、どの程度強いかによって、私たちは思考し、推論することができます。これはそのデジタル表現のようなもので、接続は様々な数値で表され、これらが重みのようなものです。

重みと訓練の仕組み

脳にニューロンとシナプスがあるのと同様に、ここにはニューロンと重みがあり、重みは接続を表しています。重みがあれば、モデルを再構築することができます。なぜなら、通常は重みとコードの組み合わせがGeminiやChatGPTのGPT-4oモデルなどとして考えられているものだからです。

これらのモデルの訓練方法は勾配降下法と呼ばれるものを使用し、次のトークンや次の単語の予測、拡散モデルでの画像生成など、特定の目標に向かってデータでニューラルネットを訓練します。どの程度優秀かをテストする方法は、予測や推論を行わせ、推論と現実の差が損失です。これはモデルがどの程度外れているかのようなもので、私たちはその損失を最小化して、予測したいものをより良く予測できるようにします。

勾配降下法によって、ここの底部の最適点に向かって異なる位置をテストし、ゆっくりと移動させます。この最終的に現れるのが訓練されたモデルで、これらの訓練されたモデルは勾配降下法によって達成したこれらの静的な重みを持っています。しかし、そのモデルをファインチューニングすることができ、これも重みを変更し、モデルのほぼ新しいバージョンを作成します。

ファインチューニングから自己編集へ

通常、特定のサブタスクを実行するためにファインチューニングを試みます。特定のことに優れた、実行が速い小さなモデルを作るかもしれません。ファインチューニングとは、事前訓練されたモデルを取り、より小さなドメイン固有のデータセットでさらに訓練することで、特定のタスクに適応させるプロセスを指します。

つまり、モデルを実世界のアプリケーションに向けて導いているのです。大規模言語モデルがあり、タスク固有のデータセットでそれを訓練します。それがファインチューニングで、実世界で必要なことを実行できる最終的なモデルが得られます。

ここでは、これらのモデルが独自のファインチューニングデータを生成しています。新しい入力が与えられると、モデルは自己編集を生成します。これは情報を異なる方法で再構築したり、最適化ハイパーパラメータを指定したり、データ拡張のためのツールを呼び出したりする生成です。

教師あり学習によって、これらの自己編集は永続的な重み更新をもたらし、持続的な適応を可能にします。これはタスクでより良くなるために自分自身の脳を修正していると考えることができ、それはそのタスクに対する持続的な修正です。

強化学習による自己改善

効果的な自己編集を生成するようにモデルを訓練するために、更新されたモデルの下流パフォーマンスを報酬信号として使用する強化学習ループを使用します。

あなたが数学が苦手だと想像してください。そこで自分のコピーを作り、そのコピーの脳をいじって数学をより上手にしようとします。そして、そのコピーに数学のテストを受けさせ、より良い成績を取れば成功したとわかります。強化学習では、その脳の精度を向上させることで報酬を得るのです。

興味深いことに、ここで彼らは機械学習クラスの期末試験の準備をする人間の学生の類推を持っています。学生は自分のノートに頼って試験の準備をします。これらのノートは、彼らが見たすべてのもの、講義、教科書、読んで見たすべての情報から派生しています。

彼らはすべてのデータを取り入れ、それを自分にとって意味のある方法でノートに縮約します。そこではすべての情報、すべての知識を自分のデータのようなものに圧縮しています。学生はそのプロセスでデータを書き留め、そのデータを同化し、情報を書き換えることで、それが脳に定着し、内容を理解して試験問題に答える能力を向上させます。

これは、データを取り、それを再解釈することがすべて、その情報を本当に学ぶのに役立つという考えです。これは学校に限定されるものではなく、すべての人間の学習に普遍的に当てはまります。もちろん、私たちは皆、この情報を視覚的に、テキストで、あるいは具体的な数学的記述を通じて、異なる方法で同化します。

YouTuber自身の学習体験

このチャンネルを始めて以来、私を完全に驚かせたのは、記録ボタンを押して録画しながらそれを歩き回っただけで、これらのランダムな機械学習論文を何年も経った後でもいかによく覚えているかということです。願わくば皆さんの楽しみのためですが、何らかの理由で、それが私の脳に直接、非常に効果的な方法でこれらすべてのものを刻印するのに本当に役立ちます。

おそらく、それを読み、ハイライトしながら、同時に声に出して言い、説明もしているからでしょう。それだけでなく、後でビデオも編集するので、自分がこのことを再び50回も繰り返すのを聞くことになります。

何かを学ぶのに苦労したことがあり、このアプローチを試してみると、それは魔法のようなものです。しかし、このアプローチがどれほど魔法的でも、それは私たちが大規模言語モデルを訓練する方法ではありません。現在、これらのLLMはタスクデータをそのまま学習しているため、能力を向上させるために必要な最適な戦略、独自の特別なカスタム方法を開発することができません。

現在の学習方法の限界

私たちが持っている適当なデータセットを彼らに渡して「頑張って」と言うだけです。それは誰かが「この学習方法があなたには本当にうまくいくかもしれませんが、その代わりに10時間続く音声講義を、部屋が暑くてうるさくて臭い中で聞かせます。それでもそのデータを学習しなければなりません」と言うようなものです。

それはあなたにとって最適な方法で学習するほど効果的ではないでしょう。つまり、私にとって今これはまさに私がやっていることです。これを読んで、それを声に出して話し、説明し、ハイライトすることで、自分自身の訓練データを生成しています。マウスを動かし、この滑らかで使いやすいハイライト機能を持つ特定のPDFリーダーを見つけました。

SEALアプローチの革新性

大規模言語モデルのスケーラブルで効率的な適応に向けた一歩として、この論文では独自の訓練データとファインチューニング指示を生成する能力を与えるアプローチを提案し、それをSEALと呼んでいます。

SEALこのシステムまたはアプローチを2つの応用で評価しています。まず、新しい事実知識をLLMにどのように統合するか。これは試験勉強をする学生のようなものです。彼らはすべての教科書と講義をどのように脳に詰め込んで、その試験を受けられるようにするのでしょうか。

彼らがすることは、パッセージテキストで直接ファインチューニングする代わりに、このSEALモデルによって生成された合成データでファインチューニングすることです。これは学生のノートにより似ています。彼らは自分にとって意味のある方法で大量のノートを取り、それらのノートを勉強します。講義の録音や教科書を勉強する代わりに、それをノートに要約します。それが彼らの合成データで、彼らが作成したデータです。それが彼らが勉強するもの、訓練するものです。

このアプローチは質問応答性能を33.5から47に向上させ、この自己生成データはGPT-4oによって生成された合成データを上回ります。つまり、後で勉強するためのノートを取ることが、他の非常に有能で優秀なモデルよりも優れているということです。

ARC AGIベンチマークでの成果

彼らはARC AGIベンチマークでこれらのテストを実行します。ARC AGIを覚えているかもしれません。これは人間にとって非常に簡単なことです。これらのパズルを解くのにそれほど困難ではないでしょう。最初一見すると複雑に見えるかもしれませんが、時間をかければかなり簡単です。すぐにパターンに気づき、すべての例を見ることでそのパターンを確認できます。どのようなルールに従うことを望まれているか、パターンが何かがわかれば、それをここに入れるだけで完了です。

これらのタスク、このARC AGIは理論的には人間には簡単で、これらの大規模言語モデルには本当に困難であるとされています。これを通過している間、これらの問題の理解を自分でファインチューニングしているようなものだからです。つまり、これらの問題をより良く解けるように脳を形作っているようなものです。

大規模言語モデルは凍結されており、静的です。テストを受けている間は学習せず、テストを受けることから学習しません。彼らは記憶喪失患者のようなもので、毎回白紙に戻ります。コンテキストウィンドウにのみ頼ることができ、それは非常に限られています。

このARC AGIで、モデルは合成データ拡張と最適化ハイパーパラメータの両方を自律的に選択するツールセットを活用します。単に合成データを作成するだけなら、それほど印象的ではないでしょう。それは大規模言語モデルがテキストデータを再現することだからです。しかし、それらは実際に進んで、その次世代の自分自身を訓練しているようです。

複合的アプローチの重要性

学習率、訓練エポック（皆がこの発音を訂正してくれます。これはイギリス英語かアメリカ英語かによっても異なります）、トークンタイプ上の選択的損失計算もあります。これら2つのことの組み合わせが効果的にするものであることに注意することが重要です。

文脈内学習や強化学習訓練なしの自己編集の両方と比較すると、性能が向上します。効果的にツールを使用するために、合成データだけを使用している場合、それでもそれほど良くありません。この全体的なもの、これら両方を行うことがこれらの結果を生み出すのです。

私たちはこの論文「テスト時間訓練（TTT）」をカバーしました。そこでは、モデルが受け取る入力に基づいてモデルの重みを一時的に適応させます。例えば、ARC AGIテストが与えられると、このようなものを取得し、一時的に自分自身をファインチューニングし、このような質問により正確に答えられるようにモデルの重みを一時的に変更します。

彼らは、SEALの提案はテスト時間訓練アプローチを使用して更新を実行し、最大の性能向上をもたらす生成データに報酬を与えるものとして見ることができると述べています。つまり、これらの重みを変更し、その修正されたニューラルネットがどの程度うまく実行するかを見て、最良のものに仮想的なハイファイブを与えているのです。そうすることで、モデルは何が機能し、何が機能しないかを理解し、時間が経つにつれてそのプロセスが向上します。

メタ学習としてのSEAL

SEALを2つのネストされたループを持つアルゴリズムとして考えることができます。2つの部分があると考えることができます。1つは外側のRLループで、自己編集生成を最適化します。これは自分自身に対する編集の生成をどの程度うまく行うかを改善しようとする部分です。より良く教えることを学んでいる教師とさえ考えることができます。

そして、内側の更新ループがあり、これらの自己編集を使用して勾配降下法によってモデルを更新します。我々の方法は、効果的な自己編集を生成する方法をメタ学習するメタ学習のインスタンスとして見ることができます。

これらの論文はますます野生的になっています。つい最近、これらのモデルは必ずしも外部の報酬を通じた強化学習RLを必要としないことを示唆する論文がありました。これはすべてにとってある種の場合であると仮定されていました。

外部報酬なしの学習の可能性

例えば、ここではARC AGIでテストしています。これらの問題を解くのが上手になれば、「よし、ハイファイブ、よくやった」と言います。しかし、そのためには外部の報酬、ARC AGIテストが必要です。どの問題が正しいかを知る必要があります。答えを提案されたとき、その答えが正しいかどうかを知る必要があります。

ついに出たばかりの論文、実際にはまったく同じことを示唆する複数の論文があり、答えを知る必要さえないことを示唆しているようです。モデルがその答えについてどの程度確信を持っているかを見るだけでよいのです。「はい、その答えが何かわかります。確信を持っています」と言うなら、それはその質問に答える際のパフォーマンスとどの程度相関しているようです。

それは理にかなっています。答えに確信を持っているなら、正しい可能性が高いということです。必ずしもそうではありませんが、「確信がありません。これかもしれません」と言っているなら、正しい可能性は低いかもしれません。これはかなり明白に思えます。

驚くべき発見

明白でない部分は、モデルが答えを正しく得る可能性についてモデルが持っているこれらの直感や確信を、RL報酬として使用できるようだということです。これは最初は狂っているように聞こえ、私にも狂っているように聞こえました。月曜日には、SVICポッドキャストの元Google社員の人たちがいて、その論文をカバーすることになっています。物事がますます野生的になっているからです。

メタ学習をより良くする方法がここにあります。外部報酬なしに答えを正しく得ることをより良くするために自分自身の直感を使用できるという論文があります。しっかりと身を固めて、これを見逃さないでください。

データの壁を超えて

結論として、彼らは基本的にすべての公開利用可能な人間生成テキストの終わりに近づいているデータの壁に近づいていると述べています。それを超えて続けるためには、これらのモデルによって生成された合成データを使用する必要があります。

彼らは、LMが学術論文などの新しいデータを取り込み、既存の知識と推論を使用して文脈内データで、自分自身のために大量の説明と示唆を生成できる未来を想像しています。これは自己表現と自己改良の反復ループです。

ちなみに、これはGoogle DeepMindのAlpha ProvenとAlpha Geometryの背後にあったアプローチのようなものです。これは国際数学オリンピックでほぼ金メダルを取ったものです。そこでは、Alpha Geometry 2があります。これは神経記号ハイブリッドシステム、つまり複数のシステムで、その言語モデル部分はGeminiに基づいており、前任者よりも桁違いに多い合成データでゼロから訓練されています。

大量の問題を作成し、それらを処理して証明や反証を見つけ、ここで言うように、Alpha Zeroアルゴリズムを介して段階的に自分自身を訓練して、より困難な問題を解決します。そして、そのものはIMO 2024で金メダルを取るのに1ポイント足りませんでした。

彼らが「LLMが学術論文などの新しいデータを取り込み、自分自身のために大量の説明と示唆を生成できる未来を想像できる」と言うとき、それはサイエンスフィクションではありません。この論文がそれを示し、Alpha Geometry、Alpha Provenがそれを示しています。

ノート作成の概念の拡張

私たちはノートを取ることを情報量を減らすもののように考えています。教科書と講義を取って、数ページのノートに縮約します。LLMにとってはそうである必要はありません。彼らは、どんな主題についても1000倍多くのノートを作成し、すべての詳細を本当に洗練することができます。

ここで彼らが指摘しているように、現代の推論モデルの多くは、思考の連鎖トレースを生成するために強化学習で訓練されています。つまり、答えについて考えてから答えを言い、それは正しい答えに到達するために強化学習で訓練されています。

しかし、このSEALは補完的なメカニズムになりえます。モデルは自分自身の重みをいつ、どのように更新するかを学ぶことができます。状況に応じて、思考連鎖推論を行うかもしれませんし、このSEALアプローチを行うかもしれません。モデルは現在の軌道をガイドするために推論の途中で重み更新を実行することを選択するかもしれませんし、推論を完了した後に重要な洞察をパラメータに蒸留して、内在化された学習を通じて将来の推論を改善することを選択するかもしれません。

人間の学習との類似性

これはすべて複雑に聞こえるかもしれませんが、それは文字通り私たち全員が学校に行くとき、試験勉強をするとき、ノートを取ってそれらのノートを後で復習するとき、そして試験を受けてそれらのノートをどの程度うまく内在化できたかを見るときに直感的に行うことです。

私たちの脳は飛行中にこれらすべてを行う方法を学びました。時には物事を考え抜く必要があり、時には主題について他の多くのことを読んだだけで、以前に見たことのない新しい質問が、主題について一般化したので多くの意味を持つようになります。

それは私たちの脳が非常に自動的に行うことで、これらの論文の多くがそれを示しています。これらのモデルが私たちの脳がどのように機能するかに似た方法で機能する傾向があることは驚くべきことではありません。ゼロから進化的に構築される代わりに、ここでは手動で異なる部品や物事を追加していますが、その多くは私たちの脳がどのように学習するかをシミュレートしているだけです。

長期AIエージェントへの応用

ここで私にとって興味深くなったのは（全体が興味深かったのですが、誤解しないでください）、彼らがこの継続的な改良ループは、拡張された相互作用上で動作し、進化する目標に動的に適応できるエージェンティックシステム、AIエージェントを構築するためにも有望だと述べていることです。

現在、AIエージェントでは長期的な一貫性に関していくつかの問題が見られています。彼らは通常、すぐに素早く処理できる小さなタスクでは、普通は超人的に優秀な傾向があります。しかし、長期のタスクになると、非常にしばしば筋を見失い、非常に重要な詳細を忘れ、タスクが長くなるほどゴールラインに到達する可能性が下がります。

その多くは、そのタスクを追求している間に獲得している知識を保持しないからです。新しい仕事を始めるとき、その仕事を始める前に学んだすべての知識を持参しますが、静的ではなく、時間に凍結されているわけではありません。その仕事についてもっと学ぶにつれて、それを脳に、知識に取り込み、それに基づいて行動できます。その仕事の終わりには、始めたときよりも物事の進め方についてもっと知っています。

大規模言語モデルは現在、実際にはそれを行いません。それを行うことができるプロセスがありません。1年間仕事に現れていて、何も内在化していない同僚を想像してください。1日目と同じ間違いを犯しています。それが今の私たちのAIエージェントです。

しかし、彼らはこのアプローチ、SEALアプローチが、相互作用後に構造化された自己修正を可能にすることで、タスクを進めながら知識を獲得し、保持する行動をサポートすると述べています。エージェントは重み更新をトリガーする自己編集を合成することができます。

これによりエージェントは時間をかけて発達し、その行動を過去の経験と整合させ、繰り返される監督への依存を減らすことができます。言い換えれば、自律的AIエージェントのエージェンティックな未来の約束のように、これがそれの大きな修正かもしれません。これがそれを高速に推進するものかもしれません。

なぜなら、これまで、今まで、私たちは優れた例を見てきませんでした。システムとワークフローは見てきましたが、長期のタスクを実行できるもの、人間の監督に依存しない優れた例は見てきませんでした。

AI安全チームがここで述べているように、これがどこに向かっているかわかりますね。ここまで辿り着いた場合はコメントで教えてください。視聴していただきありがとうございます。私の名前はWes Rothです。また次回お会いしましょう。