Q STAR 2.0 – MITが開発したリアルタイムで自己改善する画期的なAIモデル（新たなStrawberry？）

9,007 文字

Q STAR 2.0 - new MIT breakthrough AI model IMPROVES ITSELF in REAL TIME (new Strawberry?)

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

一部のメディアはAIのスケーリングが限界に達したと報じていますが、それはかなり考えにくいという最近の進展がいくつかあります。その中には「Q STAR 2.0」と呼べるものも含まれています。いいねボタンを押してくださいね、今は立ち止まっている場合ではありません。
皆さんご存知のように、2023年にリークされたQ STARは、現在「01」または「Strawberry」として知られているモデルです。素晴らしい結果を示していますが、この録画の直前に中国のモデル「DeepSeek R1 Light Preview」がリリースされ、01と競合できる可能性を示しました。つまり、01のリリースからわずか1～2ヶ月で、中国の研究者たちがそれを解析し、リバースエンジニアリングして再構築できたということです。
このグラフを見ていただくと分かるように、まだ01ほど優れているわけではありません。1つか2つの項目で01のプレビューを上回っていますが、それ以外はやや劣っています。ただし、確実に01に追いつこうとしていることは注目に値します。時間をかければ追いつく可能性が高いでしょう。
試してみたい方は、chat.deepseek.comでアクセスできます。しかし、今日お話しするのはそれとは別の非常に有望なアプローチについてです。いわば「Q STAR 2.0」とでも呼べるもので、これはさらに新しい次元を加えるものです。
MITの論文「抽象的推論における驚くべきテストタイム・トレーニングの有効性」からの内容ですが、すぐにその詳細をお話しします。大きなニュースは、ARC AGIで素晴らしい成果を上げたことです。これは現在、唯一意味のあるベンチマークだと言われています。なぜなら、実際のAGI（人工汎用知能）、つまり一般化能力やこれまで見たことのないタスクを完了する能力をテストしようとしているからです。他のベンチマークの問題は、モデルの訓練データに答えが含まれている可能性や、単に何かを暗記しているだけかもしれないという点です。
では、私たちが話している内容を理解するために必要な重要な概念や用語をすばやく説明させてください。これらをすでに知っている方は、自分を褒めてあげてください。
まず、犬を飼っていて、障害物コースを走らせる訓練をしているとイメージしてください。ジャンプしたり、横に動いたり、様々な障害物を縫うように走ったりするコースです。最高レベルで競争するために、裏庭に5つの障害物コースを設置し、犬がうまくなるまで何度も何度も走らせます。
ここで、犬はAIモデルを表しています。犬が脳に神経ネットワークを持っているように、AIモデルはそれをデジタルで表現したようなものです。裏庭に設置した5つの訓練コース、それが訓練データです。犬を訓練する場所、練習エリアですね。
では、その5つのコースで犬がどれだけ上手くなるかということは重要でしょうか？まあ、良い兆候ではありますが、それが本当の目的ではありません。5つのコースを暗記することが目的ではなく、競技会で審判やデザイナーが何を用意しても完璧にこなせるようになることが目的です。
犬の競技会、それがテストデータにあたります。AIモデルで言えばテストデータです。つまり、訓練データとテストデータがあるわけです。
ここで重要なポイントは、家にある訓練コース（訓練データ）でモデル（犬）を訓練している間、実はそれらのコースでどれだけ上手くできるかはあまり重要ではないということです。むしろ、これまで見たことのないコースや障害物、誰かが投げかけてくる無限の種類のコースで素晴らしい成績を収められるようになることを目指しています。これを「一般化」と呼びます。
これが重要な理由は、もちろん、正確に配置を把握して完璧に暗記した5つのコースを、スクリプト化された動きで記録的な時間で完了するようなアルゴリズムやロボットを作ることもできますが、それは我々の目指すものではないからです。我々が目指しているのは、見たことのないものに対して上手く対応できる、一般化できる脳のような神経ネットワークを作ることです。
「過学習」という用語を聞くことがあるかもしれません。これは基本的に、5つのコースの訓練を重ねすぎて、それらには非常に強くなったものの、一般化能力、つまり大きな犬の競技会で走る能力を犠牲にしてしまったような状態を指します。テストの答えを丸暗記するようなものです。1はA、2はBというように。しかし、テストで問題の順番が変わったり、少しでも異なる問題が出たりすると、まったく対応できなくなります。それが過学習です。
さて、これを踏まえてARCプライズについてお話しましょう。彼らは「AGIの進歩は停滞しており、新しいアイデアが必要だ」と言っています。これは100万ドルの賞金が用意された公開コンペティションで、ARC AGIベンチマークのソリューションを打ち破り、オープンソース化することが求められています。
青い線で示されているのは、他のAIベンチマーク、つまり特定のAIモデルがどれだけ優れているかを判断するために使用する他のAIテストです。ご覧の通り、ほとんどが人間の能力を超えています。中には1年以内、あるいは約5年で超えたものもあります。しかし、ARC AGIプライズとARC AGIベンチマークは異なります。
ご覧の通り、モデルはまだ人間の能力をはるかに下回っています。彼らが言うように「ARC AGIはAIにとってまだ不可能」なのです。
このベンチマークの作成者であるフランソワ・ショレは、2019年にGoogleで働いていた頃、「知能の測定について」という論文を書きました。彼が見る問題について、簡単に引用してみましょう：
「画像認識の問題や自然言語処理の問題で非常に速い進歩を遂げていることは確かです。しかし、人工知能分野の究極の目標である人間レベルの汎用人工知能は、これらの進歩の後でも、最初と同じくらい手の届かないところにあるように感じていました。そこで、もしこれらのデータセットやベンチマークが進歩を測定し、フィードバック信号を得るための良い方法でないとすれば、より良いフィードバック信号は何かと考えました。この質問に厳密に答えるためには、知能とは何かを定義する必要があります。知能があるとはどういうことかを定義する必要があります。そこで、タスク固有のスキルが知能の良い代用にならないことを認識し始めます。」
「その理由は単純です。興味のあるタスクを固定してしまうと、知能の問題を回避し、例えば人間が作成したハードコードされたソリューションを活用するだけで、知能を使わずに任意のレベルのスキルを達成することが可能になってしまいます。チェスエンジンがその例です。賢い人間が問題について深く考え、基本的に探索空間としてモデル化し、その探索空間を非常に高速なコンピュータで探索させます。そうすると、チェスにおいて極めて熟練した、実際には超人的なシステムが得られます。しかし、それはチェスしかできません。本当の意味での知能ではありません。」
「もう一つの『ずる』の方法は、単に膨大なデータで訓練することです。そうすると、テスト時に見るどんな状況も、訓練時に見たものの非常に単純な変形にすぎなくなります。この状況でも知能は必要ありません。必要なのは記憶力と、記憶したものからほんの少し離れた一般化能力だけです。」
GoogleのDeepMindのモデルを見てみましょう。囲碁やチェスをプレイしたり、タンパク質の構造を予測したりするものですが、ある意味では人工超知能だと言えるでしょう。人間をはるかに超える能力を持っているからです。人間は囲碁やチェスでそれに勝つことはできません。しかし、それは狭い範囲の知能です。汎用知能ではありません。AlphaGoは、そのゲームで圧倒的な強さを示す以外のことは、実際にはほとんどできません。
これらのモデルは、有用で、クールで、印象的ですが、確かに汎用知能のカテゴリーには入らないということに同意せざるを得ません。一方、大規模言語モデルなどは、実際の人間が作成したものと合成データの両方で膨大な訓練を受けているため、ある時点で「テストデータのどの部分が訓練データに含まれているのだろう？」と考えざるを得なくなります。
犬の例に戻ると、もし犬の競技会の障害物コースの写真を入手して、裏庭に完璧に再現し、犬にそのコースだけを走らせることができたとしたら、確かにそのコースには非常に強くなるでしょう。しかし、これは一般化を示しているわけではありません。可能性のあるすべてのコースに対して一般的に優れているわけではありません。
そして、ARC AGIについて、これを訓練データと考えることができます。つまり、モデルのためではなく、私たち人間が実際に解決できるかどうかを見るためのものです。例の入力と出力を見て、パターンを見つけることができるかどうかを確認します。
これはかなり分かりやすいかもしれません。CCは少し異なるかもしれませんが、確かにまだ非常に複雑というわけではありません。基本的に、異なる色が他の色の周りの異なる位置に対応しており、このライトブルーの場合は何も起こりません。最後の例に到達する頃には、少し難しくなります。
ここでの目的は、人間にとって簡単なことを行うことです。人間のような一般知能があれば、これらを理解できるはずですが、AIにとっては非常に難しいものであるべきです。私たち全員がこのテストを受けて一定の割合を得た場合、それを「人間のベースライン」、つまりこのテストに対する人間の能力レベルと呼びますが、現在利用可能なAIモデルはそれを超えることができません。
彼らはその閾値を85%に設定しています。実際の人間のベースライン、人間レベルが少し低いことを指摘する人々もいましたが、85%をクリアすればARCプライズを獲得できるレベルとして設定されています。
現在、これらが公開ARC AGIの高得点、リーダーボードです。これらの提出物は、kaggle.comの競技ノートブックで見ることができます。Kaggle.comは、もちろん、この大規模なAIと機械学習のコミュニティで、大量のデータセット、多くのコンペティションがあります。そしてもちろん、コンペティションの一つがARC AGIです。
ご覧の通り、まだ85%からはかなり離れています。これで、MITの論文「抽象的推論におけるテストタイム・トレーニングの驚くべき有効性」に話を戻しましょう。
非常に速く説明すると、GPT-4のようなモデルの訓練方法は、まず訓練を行い、その後推論を実行する、つまり質問をするというものでした。訓練期間があり、その後質問に答える準備ができるという具合です。このモデルは比較的静的で、答えをすぐに出力していました。
次に01モデルがありました。これは少し異なっていました。ここでOpenAIは、テストタイム・コンピュートという考え方を導入しました。基本的に、モデルが答えについて考え、答える前により多くの計算リソースを使って問題について考えることを許可するというものです。
ちなみに、中国のモデルDeepSeekは、その方法を解明したように見えます。ご覧の通り、テストタイム・コンピュートのスケーリングで精度が向上しています。問題あたりの平均思考トークン数が増加し、考えて話を進める時間を与えられるにつれて、精度が向上し続けているのが分かります。つまり、OpenAIが最初に世界に紹介したそのアプローチを解明したようです。これが01モデル、テストタイム・コンピュートであり、DeepSeekモデルも同じことを行っているように見えます。
しかし、この新しいものは全く異なるものです。テストタイム・トレーニング（TTT）と呼ばれています。テストタイム・コンピュート（TTC）とテストタイム・トレーニング（TTT）を区別して覚えておいてください。これが、いわば元祖モデル、オリジナルです。これが以前Q STARとして知られていたもの、つまりStrawberryです。そしてこれがQ STAR 2.0と呼べるものです。これは公式な用語ではありませんが、適切に思えます。
彼らは問題をうまく説明することから始めています。言語モデルは訓練分布内のタスクで印象的なパフォーマンスを示しています。つまり、その障害物コースで訓練を受けたなら、そのコースはできるということです。しかし、複雑な推論を必要とする新しい問題には苦戦することが多いのです。もしトリック問題があった場合、そのような種類のトリック問題を見たことがなければ、おそらく失敗するでしょう。新しい、これまで見たことのない問題に苦戦するのです。
そこでMITの研究者たちは、テストタイム・トレーニングの効果を調査しました。入力データから導き出された損失関数を使用して、推論中に一時的にモデルのパラメータを更新するのです。興味深いことに、マーク・ザッカーバーグはディペル氏とのインタビューで、これについて以前ほのめかしていたと思います。訓練と推論の境界線が曖昧になってきていると言っていました。
訓練とは、例えば質問をする時のように、データを入力することです。入力と出力ですが、ここではほとんど、質問に答えるように求められている間に訓練されているとも言えます。彼らはこの仕組みを使って、抽象化と推論コーパス（ARC）、つまりARC AGIをベンチマークとして使用し、モデルの推論能力を向上させています。
テストタイム・トレーニングは、ARCのタスクでのパフォーマンスを大幅に向上させ、ベースの微調整モデルと比較して最大6倍の精度向上を達成しました。彼らは80億パラメータの言語モデル（比較的小規模）にこのTTTを使用し、ARCの公開検証セットで53%の精度を達成しました。そして、最近のプログラム生成アプローチとの組み合わせにより、61.9%という最先端の公開検証精度を達成しました。これは平均的な人間のスコアに匹敵します。
繰り返しになりますが、ARC AGIの閾値は85%です。前回見た論文では、平均的な人間のスコアは60%台だったと思います。正確な数字は覚えていませんが、ここで彼らは、このようなアプローチとテストタイム・トレーニングを使用して平均的な人間のスコアに匹敵する結果を達成したと言っています。
このテストタイム・トレーニングは、非常に少ないデータ量で動作することが重要です。初期訓練では膨大なデータ量が必要かもしれませんが、これは非常に少量のデータで継続的に訓練されているのです。
彼らは、ARC コーパス（抽象化推論コーパス）が言語モデルの限界、つまり新しい未知のタスクに対する一般化能力をテストするための理想的なベンチマークであると述べています。そして、現在の言語モデルがARCで低いパフォーマンスを示していることも指摘しています。
では、この魔法のようなことをどのように実現しているのでしょうか？テストタイム・トレーニング（TTT）、この技術は、動的なパラメータ更新を通じて推論中に適応できるようにする技術です。これは大規模言語モデルの時代においては比較的未探索のアプローチです。つまり、脳の働き方とも言えるパラメータを、テスト中の質問に応じて適応させているのです。
テストからの質問を受けている間に、その質問に더 よく答えられるように急速に自己訓練を行っているのです。モデルはテストデータ自体を活用して予測を改善します。
一般的なTTTプロセスは以下のように機能します。初期モデルパラメータ、つまり訓練された時点での初期パラメータから始めます。各テスト入力またはバッチ入力（テストの質問や一連のテストと考えてください）に対して、まずテスト入力から訓練データを生成します。
これは少し理解が難しいかもしれませんが、私にとって分かりやすかったのは、GoogleのDeepMindのブログ投稿です。彼らはAlpha GeometryとAlpha Proofという2つのAIモデルを組み合わせ、国際数学オリンピック（IMO）で金メダルに近い成績を収めました。これはかなりの大事件でしたが、ここで彼らは部分的にその方法を説明しています。
私の目を引いたのは、100万の合成データ例を生成するという部分です。もちろん、TTTの論文で話されているものとは少し異なりますが、この概念を理解するのに役立つと思います。ここでは、人間の知識構築プロセスを模倣する合成データ生成アプローチについて説明していますが、これにより、人間のデモンストレーションなしにAlpha Geometryを一から訓練することができました。
このシステムは、幾何学的オブジェクトと各図形内の点と線の間の関係について、10億のランダムな図形を生成することから始めます。Alpha Geometryは各図形に含まれるすべての証明を見つけ、そしてそれらの証明に到達するために必要な追加の構成要素があるかどうかを後ろ向きに探していきました。これを「記号的演繹とトレースバック」と呼んでいます。
基本的には総当たり的なアプローチで、10億もの例、基本的にはランダムな図形を作成し、それらの証明を得ました。そして、類似しすぎているものを除外し、最終的に難易度の異なる1億の固有の証明例のデータセットを得ました。重要なのは、この合成データを自ら「夢見る」ように作り出し、それで訓練を受け、その結果、証明が得意になったということです。
犬と障害物コースの例で言えば、犬自身が多くの障害物コースを作り、それを理解するまで走り続けるようなものです。
TTTに話を戻すと、彼らは「まずテスト入力から訓練データを生成する」と言っています。これは類似したことで、テストの問題と答えを見て、それを使って自分をテストするための合成データを作成するようなものです。
重要なテストを控えていて、自分が理解しているかどうかを確認するために小さなクイズを作成し、それを解いて確認したことがある人もいるでしょう。自分で模擬テスト問題を作って自分をテストするようなものです。これが似ていると思います。
そして彼らは「これらのパラメータを最適化して損失関数を最小化し、予測のための一時的に更新されたパラメータを生成する」と言っています。これが、その特定の問題やバッチの問題にうまく答えられるように、ニューラルネットワーク、つまり脳を実際に変更している部分です。
そして予測を生成した後、これが興味深いのですが、モデルは元のパラメータ、つまりそのテスト問題が来る前の状態に戻されます。次のインスタンスやバッチのためです。つまりTTTは、ベースモデルをそのテスト入力から生成されたテストタイムデータセットで微調整することで得られる、各テスト入力に特化した予測モデルを訓練するのです。
私たちがテストし、質問することで、それらの質問に対してより良く答えられるように自己学習するという事実は、考えさせられますね。
それでは、いくつか質問させてください。まず、スケーリングが限界に達したと思いますか？AIの冬が来て、これらのモデルを改善し続ける能力が壁にぶつかったり、停滞したりするでしょうか？劇的に減速するでしょうか？
01モデル、以前Q STARと呼ばれていたものがあります。それがリリースされてから数ヶ月後、中国版が登場し、彼らがどのように行っているかを本当に理解したように見えます。まだ完全には同じレベルではないと言えるかもしれませんが、追いつくでしょう。そして、聞こえてくる話では、オープンソースになるようです。つまり、オープンソースのQ STARがまもなく利用可能になるということです。
これは大きなニュースであるべきですが、同時に、この新しいアプローチ、テストタイム・トレーニングによって影が薄くなっている可能性があります。この80億パラメータの小規模なモデルがARC AGIで61%を達成しているということは、まもなく85%のベンチマークを達成してプライズを獲得する可能性があることを示唆しています。
今年のコンペティションについて、人々は全ての提出を済ませ、検証プロセスが進行中です。優勝者は12月6日に発表される予定です。前回も見ましたが、スケーリングが壁に突き当たったと言う人がいます。その壁は評価の100%飽和だというのです。基本的に、多くのベンチマークで100%に近づくにつれ、モデルがどれだけ改善しているかを見るのが難しくなるという考えです。
デイビッド・S・ホルツは「ChatのARIVALについてはどうですか？」と返信しています。これは私たちが話しているARG（AGI）のことです。サム・アルトマン氏自身が「心の中で、私たちがそれを解決したと信じていますか、それともそうではありませんか？」と参加しています。
つまり、MITの論文が80億パラメータのモデルをこのテストタイム・コンピュート技術で訓練し、ARIVALで61.9%を達成したとすれば、OpenAIのような組織は85%を突破できるのでしょうか？おそらく彼らはコンペティションのルールには従わないでしょう。モデルをオープンソース化し、誰も不正をしていないことを確認するために重みについて多くのことを公開する必要があるからです。
彼らがコンペティションに参加するとは言っていません。私が聞きたいのは、85%を突破する能力を持っているかどうかということです。確かにこれは、サム・アルトマンが「はい、私たちはそれを達成しました」と言っているように見えます。
では、ARC AGIプライズを突破できるのでしょうか？OpenAIはすでにAGIを手中に収めているのでしょうか？これらについては、あなたのお気に入りのAIチャンネルで続けてお話しします。私の名前はウェストです。また次回お会いしましょう。