Q-Star 2.0 – AIのブレークスルーが新しいスケーリング則を解き明かす（新しいストロベリー）

5,285 文字

Q-Star 2.0 - AI Breakthrough Unlocks New Scaling Law (New Strawberry)

Join My Newsletter for Regular AI Updates 👇🏼 Links 🔗👉🏻 Subscribe: 👉🏻 Twitter: https:/...

新しい言語モデルの学習手法が登場し、AGIのベンチマークで大きな飛躍を遂げました。その全容を解説し、なぜこれがAGIに到達するための新たなレバーになり得るのかをお話ししたいと思います。
最初から説明していきましょう。研究論文の内容に入る前に、考えてみると少し驚くことですが、01ファミリーのモデルはたった2ヶ月前にリリースされました。01は素晴らしい breakthrough をもたらしました。モデルに「考える時間」を与え、最初に予測した結果をすぐに出力するのではなく、思考の連鎖（Chain of Thought）を使って、数秒から数分、場合によっては数時間かけて問題を考え抜く能力を与えたのです。
OpenAIは、テスト時（推論時）により多くの計算リソースを投入することで、モデルがより知的になることを示しました。そして先ほど述べたように、01は学習後の時間、つまり推論時間をスケールアップできることを示しました。
実は、学習時間とテスト時間の計算の間に、もう一つできることがあります。それが「テスト時学習（test time training）」と呼ばれるものです。
slow developerがこの研究論文を共有してくれたことに感謝します。これによってARKプライズで大きな飛躍があり、この新しい論文は61.9%のスコアを達成しました。
ARKプライズについてご存じない方のために簡単に説明させていただきます。最近では多くのベンチマークがあり、新しいモデルによって次々と突破されています。数学、科学、作文、読解力、コーディングなど、様々な分野のベンチマークがありますが、人工知能の汎用性をどのように定義するかが重要です。それこそがARKプライズが目指したものであり、私は彼らがそれを上手く実現したと思います。
ARKプライズは、AGIベンチマークのソリューションを開発してオープンソース化することを目的とした100万ドルの公開コンペティションです。AGIをテストする方法として、一般化能力をテストしています。これこそが人工汎用知能（AGI）の本質です。
彼らは人間にとって比較的簡単に解ける例をいくつか提示し、それらの例に基づいて7×7のグリッドをどのように変換すべきかを問います。例えば、左側の例では、L字型の3つの青い点があり、それを反転させると別の3つの青い点になります。出力例では、暗い青い点が3つを4つに補完し、両方で四角形を形成しています。
人間にとっては、論理的に考えれば簡単に解けます。基本的に暗い青い四角をそれぞれに配置すれば正解になります。しかし、大規模言語モデルや人工知能一般にとって、これは非常に難しい課題です。これは一般化の問題です。教えられたことを使って新しい問題を解決することが求められます。
現在のリーダーボードでの最高スコアはRyan greenblattによる42%です。どのようなアプローチでも、オープンソースで公開して手法を示せば認められます。42%が最高スコアであり、このタイプのテストでの人間の平均スコアは約60%、最高スコアは98%近くです。これが人工知能の現状を示す基準となっています。そして今回、このテスト時学習という新しい手法により、人間の平均スコアに到達することができました。
この研究論文はMITから発表されたもので、「抽象的推論におけるテスト時学習の驚くべき効果」というタイトルです。私は論文全体を読み、最も興味深い部分をハイライトしました。
要約では、言語モデルは複雑な推論を必要とする新しい問題に苦戦することが多いと述べています。新しい問題とは、既存の知識を使って推論し、解決方法を導き出すべき未知の問題のことを指します。ほとんどの場合、モデルはこれができませんでした。ARKプライズはその完璧な例です。
しかし、彼らは「テスト時学習」と呼ばれる新しい手法が非常に効果的であることを示し、60%のスコアを達成しました。現在のトップスコア42%と比較すると、これは大きな進歩です。
テスト時学習とは、推論時にモデルのパラメータを一時的に更新することを意味します。過去数年間AIを追跡してきた方なら、LoRAについて聞いたことがあるでしょう。LoRAは低ランク適応（Low-Rank Adaptation）の略で、モデルを微調整するための非常に軽量で効率的な方法です。これが、テスト時つまり推論時にモデルを微調整するために使用された手法です。
核となる概念は、LoRAが事前学習された神経ネットワークの効率的なカスタマイズを可能にする方法であり、元のモデルの重みを固定したまま、少数のパラメータのみを学習させることです。これまでテキストから画像を生成するモデルや大規模言語モデルでLoRAを見てきましたが、それらは効果的に機能してきました。
彼らはこの新しいテスト時学習をARKプライズに適用し、素晴らしい結果を得ました。テスト時学習には3つの重要な要素があります：

類似タスクでの初期微調整（モデル自体がテスト時学習の前に能力を持っている必要がある）
補助タスクのフォーマットと拡張（モデルを微調整するためのデータをどのように生成するか）
インスタンスごとの学習

この手法により、ベースの微調整モデルと比較して6倍の精度向上が見られました。例えば、80億パラメータの言語モデルに適用した場合、ARKの公開検証セットで53%の精度を達成し、最先端の技術を25%近く向上させました。
これは80億パラメータという比較的小規模なモデルでの結果です。私は以前から何度も言っていますが、小規模モデルは他の技術を組み合わせることで非常に優れた性能を発揮しています。私は自分のコンピュータで実行できる効率的な小規模モデルが大好きです。
今日の大規模言語モデルの問題点は、学習データに含まれるタスクや、そのタスクの基本的な変形や組み合わせには優れているということです。例えば、1+1=2を知っているモデルは、おそらく1+2=3も知っているでしょう。しかし、全く異なる数学の問題を与えると、おそらく解き方がわからないでしょう。
しかし、事前学習データとは大きく異なる、非自明な推論、計画、文字列操作を含む新しい問題をLMは解決できるのでしょうか？ここでテスト時学習が重要になります。これらの知識を持っている必要はなく、新しい問題に基づいてデータを生成し、自己学習して解決することができます。
複雑で新しいタスクでは、単にLMからサンプリングするだけでは正解を得ることが難しいことが多いのですが、近年の重要な発見は、LMの性能が追加のテスト時計算によって大幅に向上できるということです。これはテスト時学習ではなく、先ほど01モデルで話した思考時間の付与、Chain of Thoughtなどの他の技術を指します。
この分野の手法には、Chain of Thought、多数決によるサンプリング、コード実行、検索など、モデルに追加の思考ツールや研究ツールを与えるものが含まれます。これらはエージェントを使用して利用可能でしたが、現在ではモデル自体に組み込まれつつあります。
そして今、テスト時学習が登場し、テスト時の入力に基づいて明示的な勾配ステップで更新を行います。この手法は標準的な微調整とは異なり、非常に少ないデータ量で動作するため、推論時やテスト時に実行できます。
彼らが発見したのは、このような複雑なタスクを解決するために記号的なコンポーネントが厳密に必要だという仮定に疑問を投げかけるものでした。代わりに、新しい推論問題を解決する上で重要な要素は、それらのリソースが記号的メカニズムを通じて展開されるか、ニューラルメカニズムを通じて展開されるかに関係なく、テスト時に適切な計算リソースを配分することかもしれないということです。
では、実際にどのように機能するのでしょうか？テスト時学習は、推論中にパラメトリックモデルが動的なパラメータ更新を通じて適応することを可能にします。これは非常に複雑に聞こえますが、基本的には目の前の問題に基づいて自己更新を行うということです。
モデルはテストデータの構造を活用して予測を改善します。微調整された「時間凍結」モデルである初期モデルパラメータから始めて、各テスト入力に対して、まず訓練データを生成します。これは実際には、問題を取り、その多くの異なるバリエーションを作成し、それらすべての訓練データを使用してLoRAで非常に軽い方法で自己微調整を行うことを意味します。
次に、これらのパラメータを最適化して損失関数を最小化し、予測のために一時的に更新されたパラメータを生成します。つまり、その問題に対して自己更新を行い、次の問題に移るとそれをすべて消去してベースモデルに戻り、そのプロセスを再度行います。このように、推論時に非常に動的な処理を行います。
予測を生成した後、次のインスタンスまたはバッチのために元のパラメータに復元されます。このように、テスト時学習は各テスト入力に対して、ベースモデルをテスト入力から生成されたテスト時データセットで微調整することによって得られる、特殊化された予測モデルを訓練します。
これが元のテストタスクです。4つの例が与えられ、そのうちの1つを解くように求められます。実際には3つの完全な例と実際の問題が与えられ、解答を待ちます。そこから、解答のない問題を取り出し、より多くの「1つ抜き」タスクを生成します。次に、幾何学的変換を使用してそれを変更し、基本的により多くの訓練データや例を作成します。それらをすべて組み合わせて微調整データとして使用します。
しかし、それだけではありません。彼らはテスト時学習だけでなく、他の拡張手法も考案しました。最近の研究では、テスト時の計算をスケールアップすることで、言語モデルの性能を大幅に向上できることが示されています。これは01について話してきたことです。
最も一般的な手法の1つは、複数の応答をサンプリングし、ランカーを使用して最良の応答を選択することです。つまり、多くの異なる例を考え出し、どれが最適かを判断者に決定させます。
しかし、コーディングのような複数の解決策が可能な領域や、数学のような最終答えに至る複数の可能なパスがある場合、サンプリングは非常に効果的ですが、答えを直接生成する場合、実際には1つの答えしかない場合には有害になる可能性があります。サンプル内の一貫性を確保しながら、サンプル間の多様性を直接強制する方法がないためです。
推論時のスケーリングの代替として、彼らは拡張推論を使用します。これは反転などの幾何学的変換を使用して複数の予測候補を生成し、貪欲なデコードスキームと組み合わせます。基本的に、同じ問題の多くの異なるバリエーションを作成して、モデルにより多くの知識を与えます。
彼らはまた、予測のアンサンブルまたは投票戦略も考案しました。このアプローチは2段階の投票を含み、最良の候補を徐々に絞り込んでいきます。まず各変換内で最も頻繁な予測を選択し、次に変換固有の候補全体で投票を行って、上位2つの最も頻繁な予測を特定します。これは非常に一般的で、多くの例を考え出し、どれが最適かを投票し、それを複数回繰り返します。
では、スコアを見てみましょう。テスト時学習（TT）手法を使用し、この新しいBARK技術とBARKのプログラムシンセサイザーに基づいて微調整された言語モデルを使用することで、61.9%のスコアを達成し、人間の平均スコアである60.2%を上回ることができました。ただし、人間の最高スコアは97.8%であり、これらの新しい技術は、より小規模なモデルを使用し、学習後に大量の計算リソースを投入することで、可能性の境界を押し広げていることがわかります。
以上が、この論文の要点です。論文へのリンクは説明欄に掲載しますので、詳細を確認したい方はそちらをご覧ください。
これは私にとって非常に興味深い内容です。基本的に、モデルを学習させるための公開データを使い果たしてしまったため、新しいデータの文脈の中で学習時間をどれだけスケールアップできるかは非常に限られています。もちろん合成データという選択肢はありますが、合成データを作成するだけでなく、既存のデータでより多くのことを行うという選択肢もあります。
Sam Altmanは数ヶ月前にこのことについて言及していました。スケーリングを継続するために合成データを使用するか、既存のデータでより多くのことを行うかのどちらかです。これは既存のデータでより多くのことを行うという考えの延長線上にあり、ARKプライズの基準によれば、これがAGIに到達するための鍵になると私は本当に考えています。
この動画が気に入っていただけましたら、いいねとチャンネル登録をお願いします。次回の動画でお会いしましょう。