新しいAIが複数の思考に分裂して知能を向上(並列思考)

AI研究
この記事は約8分で読めます。

この動画は、10 Cent AI研究所とトップ大学が共同開発した「並列R1」という革新的なAIシステムを解説している。従来のAIが一直線に思考するのに対し、このシステムは人間のように複数の思考パスを同時に探索し、最適解を見つける能力を持つ。強化学習を用いた3段階の訓練プロセスにより、AIは簡単な問題から複雑な数学問題まで、適応的に並列思考を活用できるようになった。ベンチマークテストでは従来手法を大幅に上回る精度を記録し、特にAIME25では42.9%の改善を達成している。

New AI Splits Into Multiple Minds to Boost Its Intelligence (Parallel Thinking)
Tencent just unveiled Parallel R1, an AI system that doesn’t just think faster or bigger — it literally splits into mult...

並列思考を学ぶAI

研究者グループがAIに並列思考を教えることに成功したんや。これは単に速くなったり大きくなったりするだけやなくて、人間が難しい問題と格闘するときのやり方にめちゃくちゃ似てるねん。いろんなアイデアを同時に試してみて、最高の答えに辿り着く前にな。

研究者らはこれを「並列R1」と呼んでて、シアトルの10 Cent AI研究所がいくつかのトップ大学と協力して開発したもんや。これがどう動くか聞いたら、AI業界の人たちがなんで興奮しつつも不安がってるかが分かるで。

まずは全体像から説明しよか。通常、AIが何かを解くとき、数学の問題でも難しいなぞなぞでも、一直線に考えるねん。一つの思考が次のステップにつながって、段階的に進んでいく。

これは機能するけど、早い段階で間違った方向に進んでしまうと、迷子になって二度と復活できへんってことでもあるねん。一方で人間は、いつも一直線に考えるわけやない。頭の中でいろんな選択肢を探って、比較して、それからどれが一番理にかなってるかを決めるねん。この柔軟性こそ、研究者らが大規模言語モデルに与えたかったもんなんや。

AIに推論を教える革新的手法

AIに単なる推測やなくて、本当の意味での推論をさせたかったんや。そやけど、機械にそんなことをどうやって教えるんやろか?

モデルを大きくしたり、無限にラベル付きデータを食わせるんやなくて、実際にモデルが複数の方向に分岐して考えて、それを再び統合するフレームワークを思いついたんや。

モデルは文字通り回答の途中で止まって「よし、探索する時間や」って言うて、複数の独立した思考パスを立ち上げるねん。それが終わったら、続行する前にそれらを要約するんや。このサイクルは必要な回数だけ繰り返せる。

これだけでも印象的やけど、この行動を訓練する方法がさらに魅力的やねん。

訓練の困難さと解決策

AIに並列推論を教えるのは簡単やない。初期の試みは、モデルに10個の異なる答えを求めて、最も一貫性のあるものを選ぶっていう力づくの方法やった。思考の木やモンテカルロ研究みたいな他の方法も賢くやろうとしたけど、手作りのルールと外部システムに依存して推論を導いてたんや。

どれもAIが実際にスキルを学んでるって感じやなくて、足場を使って偽装してるみたいやった。研究者が並列思考の教師ありサンプルで直接モデルを訓練しようとしたとき、うまくいかへんかった。なんでか?本当の段階的並列推論を示す高品質なデータは手に入れるのがほぼ不可能やからや。

人間は普通、自分の心の分岐を書き留めへん。結論だけを書くねん。人工的にこのデータを生成しようとすると、モデルは戦略を本当に学ぶんやなくて、スタイルをコピーするだけになってまうねん。

いい例えがチェスや。誰かにグランドマスターのゲームを暗記させても、本当の理解やなくて模倣を教えるだけなんや。

強化学習アプローチ

そこで10 Centチームは強化学習で行くことにした。AlphaGoを有名にしたのと同じ試行錯誤のアプローチや。でも強化学習にもここには罠があるねん。

正しい最終答えだけでモデルに報酬を与えると、すぐにショートカットを学んでしまう。一回のラッキーな推測で報酬がもらえるなら、なんで時間を無駄にする必要があるんやって、分岐のアイデア全体をスキップするかもしれへん。

逆に、常に分岐することを強制すると、簡単な質問で努力を無駄にして、全体が遅くなってまう。正しい報酬システムを設計することが中心的な課題になったんや。

3段階の訓練プロセス

実際にどうやってやり遂げたんやろか?訓練を3つのステップに分けたんや。

最初のステップはコールドスタートみたいなもんや。この段階では、AIに難しい問題を解かせるんやなくて、並列思考の習慣を学ばせただけやねん。いつ特別なタグ「parallel」を開くか、どうやって異なるパスセクションに分岐するか、どうやって要約ですべてをまとめるかをな。

それを教えるために、チームはGSM8Kとして知られるデータセットの非常に簡単な数学問題を使った。そして賢いやり方がこれや。サンプルを作るために巨大で複雑なシステムを構築するんやなくて、別の強いAIを使って生成させたんや。

7,472の練習問題のうち、83%以上が並列推論の有効なサンプルを作り出した。でも同じトリックをより困難なデータセットDAPOで試したとき、成功率はゼロまで急落した。有効なサンプルは一つもなかったんや。

この実験で一つのことがはっきりした。AIに並列思考の構造を身につけさせたいなら、まず簡単な問題から始めなあかんということや。そうでないと、基礎を全く学べへん。

強化学習とバランス調整

モデルが構造を理解したら、次のステップは同じ簡単な数学問題での強化学習やった。今度は二重シグナルで動作した。AIは少なくとも一つの適切な並列ブロックを作って問題を正しく解いた場合のみ報酬をもらえたんや。

フォーマットをスキップしたり答えを間違えたりしたら、ペナルティを受けた。このステップで習慣を固定して、構造が見せかけだけやなくて、実際に正しい答えを得ることと結びついてることを確実にしたんや。

3番目のステップが本当のテストやった。今度はより困難な一般的な数学問題のデータセットで強化学習を使った。この時点では、AIはすでに構造を知ってたから、唯一の報酬は正確性やった。

今度AIが理解せなあかんかったのは、いつ分岐が役立つか、いつ時間の無駄かやった。適応的に決める能力、これが本当の推論の姿なんや。

驚異的な結果

結果がそれを裏付けた。AMC数学やAIMコンテストみたいなベンチマークで、並列R1システムはすべてのベースラインを打ち負かした。並列推論のない強力な強化学習モデルと比較して、平均精度は約8.5パーセントポイント上昇した。

目立った結果はAIME25で、精度がベースラインより42.9%跳ね上がったことや。これは巨大な飛躍やねん。

研究者が最も注目したのは、訓練が進むにつれてAIの思考スタイルがどう変化したかや。最初は、解答の一番初めに並列ブロックを使ってた。正しい答えにたどり着くためにあらゆる角度を試すような、ある種の乱雑な探索やった。

でも時間が経つにつれて、それが変わったんや。並列ブロックがプロセスの後の方で現れ始めた。最終的に、AIはほとんど慎重に見えるようになった。問題をほぼ一本の明確な線で解いてから、最後近くで並列ブロックを開いて自分をダブルチェックするだけやった。

学習パターンの変化

訓練中、AIは並列思考をどんどん後で使うようになって、最終チェックとして保存するようになった。誰もそうしろとは言ってない。慎重であることが最もうまくいくことを独自に学んだんや。そしてこれは人間の学び方に不快なほど近いねん。

実際には、並列R1には2つのバージョンがテストされた。最初の「seen」と呼ばれるものは、モデルの設計を全く変えずに、訓練を通じて行動を学んだだけやった。2番目の「unseen」は、モデルのアテンション機能を変更することで、最後の要約まで一つのパスが別のパスに漏れないよう、各推論パスを完全に分離しようとした。

理論的にはより賢く聞こえるけど、ひねりがある。よりシンプルなseenモデルの方がしばしばうまく機能したんや。

構造化されたバージョンは簡単な数学問題に過学習する傾向があって、GSM8Kでうまくいったトリックはより困難なデータセットには持ち越されへんかった。チームはそのバージョンのために訓練プロセスを調整して、いくつかの段階をスキップして報酬信号を交互に切り替えて軌道に戻さなあかんかった。

それでも結果は出したけど、時には厳格なルールを強制するより、モデルにより多くの自由を与える方がうまくいくことを証明したんや。

報酬システムの重要性

報酬システムも重要な要因やった。AIが精度のためだけに報酬を与えられると、基本的に並列構造を無視して、13%の時間しか使わなかった。構造を使うためだけに報酬を与えられると、逆のことをして、ほぼ80%の時間で並列ブロックを作り出したけど、性能が崩壊した。

最良のバランスは交互報酬から来た。ほとんどの場合、精度が報酬されたけど、時々モデルは並列推論を使うことでも後押しを得た。このセットアップで並列使用率を60%の範囲に押し上げて、ベンチマークスコアを強く保った。

学習プロセス自体の変革

そしてもう一つの驚きがあった。並列思考は出力段階での推論を向上させただけやなくて、学習プロセス全体を変えたんや。

初期に、モデルに分岐を強制することは、ガイド付き探索のように機能して、行き止まりにはまるのを防いだ。後で、訓練が精度のみに焦点を当てると、モデルは並列ブロックをより少なく使いながらも良くなり続けた。

言い換えれば、並列思考は訓練の足場として機能して、標準的な強化学習では到達できない扉を開いたんや。

未来への影響

これで我々はどこにおるんやろか?AI研究コミュニティにとって、これは一里塚や。並列R1は、より多くのデータやより大きなモデルを投入するんやなくて、より賢い思考方法を教えることで推論能力を向上させられることを証明した。パラメータ数だけやなくて、推論時でのスケーリングなんや。

そして他の皆にとって、それはより不安な思考を引き起こす。機械が不快なほど人間らしい推論戦略を使い始めてるんや。

これが並列R1の話や。どう思う?コメントで感想を聞かせてくれや。読むからな。チャンネル登録と「いいね」ボタンを忘れずにな。見てくれてありがとう、また次回で会おうや。

コメント

タイトルとURLをコピーしました