人工知能は単なるタスク処理のツールから、自律的に科学的発見を行う存在へと進化しつつある。OpenAIやDeepMindによる未解決の数学問題(エルデシュ問題)の解明をきっかけに、AIモデルの推論能力と強化学習のメカニズムを深く掘り下げる。OpenAIの強化学習部門を率いるダン・ロバーツが、物理学の視点からAIのスケーリング則やテスト時計算の重要性を解説し、事前学習と強化学習の融合がもたらす科学的ブレイクスルーの未来を提示する。

科学的発見におけるAIの可能性
ChatGPTにできたことの一つは、それが間違っていると仮定することでした。そのように流れに逆らって常識とは異なるアプローチをとる場合、非常に長い計算の道のりを耐え抜くために、自分のやっていることに対する強い信念が必要になります。私たちが関心を寄せる科学分野の根本的な問いの多くに対し、AIモデルを原動力として実際に答えを出せるようになると思うと、本当にワクワクします。まさにスリリングな体験です。
こんにちは、マット・タークです。MADポッドキャストへようこそ。ここ数日、AI業界ではまたしても驚くべき出来事がありました。OpenAI、DeepMind、Anthropicが、エルデシュ問題として知られる数学界で最も有名な未解決問題のいくつかを解き明かしたのです。多くの人がこれを驚異的なブレイクスルーと見なしており、AIが単に指示された作業をこなす段階から、自律的に深遠な科学的発見を行う段階へと移行しつつあることを示す新たなシグナルでもあります。この歴史的瞬間と、それを可能にしたモデルの推論能力の根本的な進歩を紐解いていきましょう。
今回はOpenAIのトップAI研究者であるダン・ロバーツをお迎えできることを嬉しく思います。彼は理論物理学の深いバックグラウンドを持ち、科学とAIの交差点に強い関心を抱いています。この対話では、強化学習の真の姿、それが現在AIにおいて最も重要なパラダイムである理由、そしてAIと科学の未来について深く掘り下げていきます。ダン・ロバーツとの対話をどうぞお楽しみください。
ダン、お越しいただきありがとうございます。今日はよろしくお願いします。
こちらこそ、お招きいただき本当に嬉しいです。
強化学習の基礎研究とは
あなたはOpenAIで強化学習の基礎チームのリーダーを務めていますね。その役職やチーム名は具体的にどのような意味を持っているのでしょうか。
私たちの所属する大きな部門はファウンデーションズと呼ばれており、そこで強化学習について考えています。強化学習の基礎という非常に退屈な名前ですが、チームには強化学習の科学的側面を考えるという使命が与えられています。AIの業界での昔、つまり6ヶ月前か1年前、いやもう2年前になるでしょうか。私たちがo1や推論を行うモデルをリリースする前から、社内でこの研究を進めてきました。
最先端を走る、あるいは少なくとも最前線に立たされ、計算規模の拡大に多大なリソースを費やすことの利点の一つは、単にシステムを機能させるだけでなく、それがなぜ機能するのかを理解する仕事に人々の力を注げることです。そしてさらにその先にあるのが、どのようにスケールさせるのかという問題です。事前学習のスケールと強化学習のスケールをどう比較して考えるべきか、スケーリング則はどうなるのか。さらに踏み込んで、このようなトレーニングが私たちに何を教えてくれるのか、あるいは何を教えてくれないのかを探求します。
未知の領域を開拓する最前線で、強化学習が行っていることをいかに改善し、あるいはより深く理解するかに非常に強い関心を持っています。ご存知の通り、私たちは膨大な計算リソースを調達している最中であり、その計算力を知能へと変換したいと考えています。そのためには思考するモデルを作る必要があり、そのプロセスのどこかで私たちは関わっていきます。通常は初期の段階で、次のモデルというよりも、次の次、あるいはさらにその先のモデルのようなものを対象にしています。
素晴らしいですね。そして手短に、あなたがOpenAIに至るまでの道のりについて教えてください。物理学の研究から、今日のような立場へとどのように移っていったのでしょうか。
物理学からAIの世界へ
私はMITで理論物理学の博士号を取得し、量子重力と量子情報の交差領域について研究していました。ブラックホールや量子カオスについて深く考え、もしブラックホールに何かを投げ込んだらその情報はどうなるのか、情報は外に出てくるのか、ブラックホールをコンピューターとして捉えた場合どれくらいの処理速度があるのか、といったことを探求していました。どうすれば重力の量子論を見つけられるのかという理論物理学の根本的な問いに非常に強い関心を持っていたのです。
同時に、計算と物理法則との相互作用にも強く惹かれました。どんなコンピューターもこの宇宙に存在し、物理法則に従って動いています。つまり、実行可能な計算の種類は物理法則によって制限されており、そこにはある種の興味深い関係が存在します。ブラックホールは情報の処理に関する理論的な限界に達しているような性質があるため、非常に興味深い対象です。その後、プリンストン高等研究所でポスドクをしました。
この分野の基準からすると私はかなり年をとっていることになりますね。というのも、DeepMindによるDQNのアタリゲームの論文が出たのが2015年頃で、AlphaGoが登場したのが2016年でした。私はその頃、機械学習の可能性にとても興奮しました。当時の深層学習は統計科学の一部であり、私たちが宇宙の他の事象を研究するために使ってきたのと同じような枠組みの中に存在していました。物事はどのように機能しているのかという、3歳児が抱くような、あらゆるものに対する好奇心が常に私の中にあります。
外の世界に目を向け、深く追求していくと、最終的には哲学に行き着きます。もしあなたが定量的で数学的なアプローチを好むなら、非常に大雑把に言えば物理学に行き着くでしょう。ちゃんと機能するAIやAIシステムは、人間が行うようなことをシンプルにやってのける例として非常に魅力的です。そしてそれが、私たちが他のあらゆるものを理解するために使っているのと同じ枠組みの中に存在しているとすれば、宇宙がどのように機能するかということと、私自身や知能がどのように機能するかということの間に並行関係を見出すことができます。そこで私はAIと深層学習に極めて強い関心を持つようになりました。
その後、2017年頃にFacebookのAI研究所であるFAIRに移り、理論物理学のツールを使って深層学習を理解しようと試みました。深層学習は理解不可能で極めて難解なものだとされていましたが、物理学のツールが役立つかもしれないと考えたのです。この研究は最終的に、現在OpenAIで同じ課題に取り組んでいる同僚であり、今も共同研究者である人物と一緒に書いた本へと結実しました。ディープラーニング理論の原理という本なのですが、これは部屋の中の気体のような統計的システムを理解する際の統計的なアプローチ、例えば理想気体の状態方程式のようなシンプルな熱力学の法則で特徴づけられるといったアイデアを活用して、深層ニューラルネットワークの理解においても同様の進歩を遂げられないか、という一連のアイデアの集大成です。
それが私のキャリアの移行期でした。その過程でスタートアップを立ち上げたり、セコイア・キャピタルでアントレプレナー・イン・レジデンスとして過ごしたりもしました。自分は科学者なのか、それとも起業家なのかという葛藤もありましたが、約2年前に別のAI企業を立ち上げるべきか考えていた時、今最もワクワクするのは最前線で起きていることだと気づきました。AIの分野で驚くべき科学的進歩が起きており、根本的な問いに迫り、何が起きているのかを真に理解するためには、そこにいて実際に参加しなければならないと考えたのです。それはつまり研究所に加わることを意味し、私は2年前にOpenAIに入社しました。
科学的発見を自動化するAI
詳しくありがとうございます。AIが困難な科学的問題を解決する能力をますます高めているという進化の中で、私たちは今どの段階にいるとお考えですか。確かに業界としてしばらく前から話題にしてきたことですが、AIの他のあらゆることと同じように加速しているように見えます。現状をどう見ていますか。
興味深いことの一つは、このプロセスが非常に滑らかに進んでいるということです。システムが科学のプロセスに役立たない状態から、完全に一人前の科学者へと切り替わるような明確な分岐点は存在しないと私は考えています。なだらかな移行になるでしょう。もし一つの瞬間を挙げるとすれば、OpenAIによるo1のリリース、そしてテスト時計算と推論というパラダイムの登場かもしれません。しかし私がそう断言したとしても、GPT-4を振り返ってみれば、科学のプロセスに役立つような振る舞いの片鱗がすでに存在していたことに気づくはずです。全体的な傾向として、モデルは数学の分野で進歩を遂げるのに適した特定の種類のタスクに非常に長けています。彼らはいかなる分野においても、自律的にループを回せる完全な科学者というわけではありません。まあ、私自身もそうではありませんが。これは本当に素晴らしい漸進的なプロセスのように思えます。
今週はこのような対話をするのに特に楽しい一週間だと感じます。というのも、ここ数日でAIと数学、特にエルデシュ問題の周辺でいくつもの異なる発表があったからです。OpenAIが最初にこの進展を発表しましたが、ほぼ数時間以内にGoogle DeepMindも別の問題での成果を主張し、Anthropicもいくつか発表を行いました。しかし私の理解するところでは、OpenAIのアプローチとDeepMindのアプローチは大きく異なっていたようです。そしてそれが、AIが研究科学者としてどう機能するかという点で非常に興味深い意味を持っています。
誰もが真実だと想定していた予想がありましたが、それを証明することは誰にもできませんでした。ChatGPTにできたことの一つは、それが間違っていると仮定することでした。そのように流れに逆らって常識とは異なるアプローチをとる場合、道のりの途中で様々な選択を迫られるため、非常に長い計算の道を耐え抜くための強い信念が必要になります。もしそれらの選択のいずれかを間違えたり、自分のアイデアが機能しなかったりすれば、結局何の進歩も得られなかったという結果に終わります。だからこそ、この極めて強い粘り強さが必要なのです。
さらに、代数的整数論のような別の分野の専門知識も必要になります。これは整数や実数を一般化するような、数論の一般化の一種です。その道をずっと深く進んでいけば、この予想を反証することができます。それが大きな成果でした。ペアの数に対するこの下限の予想が間違っていたという結果です。単に間違っていただけでなく、数学の別の分野との非常に興味深い繋がりによって間違っていたことが判明したのです。そのためには、この問題が面白いと気づける専門知識を持ち、同時に別の分野の専門知識も持ち合わせており、さらに極めて型破りな発想で途方もなく長い道を突き進むことができる人物でなければなりません。そうして初めて、解決策を見つけ出すことができたでしょう。
OpenAIのアプローチとDeepMindのアプローチは非常に異なっていました。この2つのアプローチを比較・対照していただけますか。
DeepMindがとったアプローチの一つは、問題を取り上げ、Leanと呼ばれる形式言語で提示し、その言語の中で証明を探索する手法を用いるというものです。問題を表現するためには、自動形式化と呼ばれるプロセスが存在します。これは英語で書かれた問題を受け取り、それを厳密な形式的記述に翻訳し、そこで証明を行うというものです。証明が全く隙のないものになるよう設計されています。隠れた前提や奇妙な点、あるいは厳密ではない定義がないか、人間がいちいちチェックする必要がありません。この環境はDeepMindが非常に重視してきたものであり、彼らはいくつかの問題を形式化し、自社のシステムを使ってそれらを証明することができました。これが一つのアプローチです。
もう一つのアプローチは、数学的な数式を含む英語の問題文をそのまま受け取り、非形式的な言語だけでその意味を理解し、人間の数学者がLeanを使わずに証明を提示するのと同じような方法で、非形式的な言語で問題を解くというものです。その後、人間がそれをチェックする必要があります。自動でチェックできるものではないため、検証のプロセスはより困難になります。
そして、その2つ目のアプローチがOpenAIのものだったのですね。
私たちの公開している結果のほとんどは、私が思いつく限り、すべて非形式的な環境でのものです。私たちは言語モデルにテスト時推論を行うように教え込み、その応用やベンチマークの一つとして数学における推論を活用しています。
強化学習(RL)の仕組みとは
なるほど、素晴らしい。では、より多くの人に理解してもらうために、強化学習の話題に移りましょう。基本的なところから始めたいと思います。強化学習を1文か2、3文で定義するとどうなりますか。また、一般の人にもわかるようなシンプルな、技術的でない例えを教えていただけますか。
シンプルな方法として、一個人としてあなたが何かを学ぼうとする際の2つの例を挙げるのが良いかもしれません。ゲーム、それもビデオゲームを例にとりましょう。私は初代の8ビットのスーパーマリオブラザーズを遊んだ世代です。さて、ゲームの遊び方を学ぶには2つの方法があります。
1つ目の方法は、お父さんがゲーム機を出してきてプラグを繋ぎ、ゲームを起動して数時間プレイするのを、あなたはただ見ているだけというものです。それしかできません。お父さんは遊び方のお手本を見せていますが、あまり優しくないのであなたにはプレイさせてくれません。そしてお父さんが外に走りに行ったり何か別のことをしに行ったりした隙に、あなたは彼の部屋に忍び込み、自分でプレイしようと試みます。どれくらい上手くできるでしょうか。あなたは彼がやったことをただ暗記しようとしただけです。自分自身でボタンを押す機会も、ゲームと対話する機会もありませんでした。これはエキスパート・デモンストレーションと呼ばれるもので、他人がやっていることを暗記しようとしている状態です。教師あり学習の一種と言えます。教師データとは、お父さんがやるのを見て、それが物事を行う正しい方法だと受け入れるようなものです。
強化学習は、お父さんがほらお前もやってみろよと言ってくれるようなものです。一度だけ見せてくれるかもしれませんし、見せる必要さえないかもしれません。ゲームは美しく設計されており、カリキュラムと呼ばれるものを通じて、何も知らない状態から熟練したプレイができるように導いてくれるからです。あなたは自分でプレイします。最初に走って最初の敵にぶつかると、少し例えが古いですが、ライフを1つ失います。しかし2回目はボタンを押してジャンプします。つまり、あなたは行動を起こし、環境があなたにフィードバックを与えてくれます。あなたが取れる行動と得られる反応の間には密接な関係があります。
そして最後の要素として、報酬が存在します。報酬は、何かをするたびにスコアが上がるように頻繁にもらえるものもあれば、最後にしかもらえないものもあります。チェスの試合では、最後に勝ったか負けたかという報酬が得られますが、途中の段階では最後になるまで自分の調子が良いのか悪いのか本当のところはわかりません。これを疎な報酬と呼びます。ここには当然たくさんのバリエーションがあり、細かい反論もあるでしょうが、環境と対話し、報酬を得るという基本的な概念です。対話する機会のないデータから学ぼうとするのとは対照的に、フィードバックを得ながら学習していくという方法です。
では、なぜそれが機能するのか、なぜ強化学習はそれほど強力なのでしょうか。
それが機能するのは、環境からフィードバックを得る能力があるからです。正しい方法で取り組めば、自分が知らないことをどうやって学べばいいのかを見つけ出すことができます。また、自分にとって適切なレベルで学習できるという点でも非常に強力だと考えています。足し算を学びたいなら、微積分の教科書を読むべきではありません。練習し、適切なレベルで学べる環境が必要です。自分自身で選択を下し、それが上手くいくかどうかにかかわらず自分の選択から学ぶことで、自分の理解している事柄の範囲の中で、それをより良い文脈に位置づけることができるのです。
素晴らしい。では逆に、その欠点は何でしょうか。また、強化学習はどのような状況で破綻するのでしょうか。
非常に困難な状況とは、先ほど触れた、環境からフィードバックがほとんど得られないような状況です。何十回、何百回と行動を起こし、その後にようやくあの一連の行動は良かった、あるいは、いやダメだったと教えられるような場合です。例えばチェスをプレイしている時、相手がいるゲームなので全ての指し手を終えるまではどうなるか分からず複雑です。
あるいは、研究レベルの宿題を解こうとしている時かもしれません。私たちが言語モデルに与えるような明確に定義された問題で、何日も考え続ける必要があるようなものです。その過程では数え切れないほどの選択肢があり、もし最後にフィードバックが一切得られないとしたら、森の奥深くに一人隠れてノートに走り書きをしているようなもので、そこから進歩を遂げるのは非常に困難です。最後に良い評価をもらえるのか悪い評価をもらえるのか分からず、自分の取った行動のどれが良くてどれが悪かったのか、全く見当がつかないからです。
LLMへの強化学習の適用(RLHF)
わかりました。次に、大規模言語モデルの文脈で強化学習がどのように応用されてきたかについて話しましょう。歴史的に見て、最初のステップはRLHFだったのでしょうか。
ええ、大まかに言えばそう言っていいと思います。言語モデルに対して行われた最初の強化学習は、事後学習プロセスの一部として、インターネット上の次の単語を予測するだけのモデルを、ユーザーの指示に従い、親切に振る舞い、チャットボットとしての形式に適合するものへと変えるためのものでした。
RLHFとは何か、そしてそれがどのように機能するのか、手短に説明していただけますか。
基本的なアイデアは、人間からデータを集めるというものです。これがRLHF、つまり人間からのフィードバックを用いた強化学習です。人間からデータを集め、価値関数を訓練します。言語モデルの環境では、例えばモデルが生成した2つの異なる回答を提示し、人間にどちらが良いかを尋ねます。このような比較を用いて価値関数を訓練し、それを強化学習プロセスの報酬として利用することができます。
なるほど。最初は人間を使って行い、その後それを報酬モデルに組み込むのですね。
そうです。このためのモデルを訓練します。なぜなら、訓練プロセスの最中に、人間の入力を求めるためにいちいち訓練の実行を一時停止するわけにはいかないからです。そんなフィードバックのやり方では遅延が大きすぎます。そのため、人間の代わりとなる代理モデルが必要になります。人間の好みのデータに基づいてこのモデルを訓練し、それに対して最適化を、少なくともある程度は行うことができます。
強化学習の歴史において有名なものの一つに、第37手があります。効率性を保ち、既知のルートを活用しながら、モデルにそうした全く新しい手法を生み出させるように訓練するにはどうすればよいのでしょうか。
囲碁の素晴らしいところは、単に訓練させればよいという点です。ゼロサムの2人対戦ゲームなので、自己対局と呼ばれる方法で訓練できます。モデル自身と対戦させれば、ランダムなプレイから熟練したプレイへと進化し、最適な戦略が何であれ見つけ出します。それが探索を意味するなら素晴らしいことですし、既知の手法を活用することを意味するならそれも良いでしょう。
実はこれに関して面白いエピソードがあります。大学院時代にノーム・ブラウンに出会いました。彼は私とは別の大学院に通っていましたが、MITのポーカーAI大会に出場したいと考えていました。彼は世界最強のポーカーボットを持っていましたが、それはまだ人間と競えるようなものではなく、研究用の競技会で勝っただけのものでした。彼は私ともう一人の友人と協力して、MITの大会に出場しました。これは私にとって素晴らしい経験でした。物理学を研究しながら、AIの非常にエキサイティングな研究に触れ、とても興奮しましたから。
私たちは本質的に、この種の自己対局の均衡戦略を使ってプレイしていました。細かいニュアンスはありますが、基本的に私たちのコードにバグがない限り、負けることはあり得ませんでした。この大会は、他の参加者とペアになって対戦するトーナメント形式で、総当たり戦のような設定で得たポイントに応じて下位半分が脱落し、あなたともう一人だけの決勝戦になるまで続くというものでした。スコアについては授賞式があり、その時まで何が起きているか分かりませんでしたが、時間の経過とともに皆のスコアがどう推移したかを示すグラフがありました。確か32人が参加していて、時間の経過とともに30人のスコアは非常にマイナスになり下がっていきました。しかし、ほぼ真っ直ぐに上へと伸びているスコアを持つ人が一人いて、さらにもう一人、クレイジーな傾きではないもののかなり良いスコアを出している人がいました。
私たちがどちらだったか分かりますか。私たちは傾きが緩やかな方でした。そして、クレイジーな傾きを持っていたもう一人の男は、他の全てのプレイヤーを完全に叩き潰していました。これがベスト16、ベスト8、ベスト4と続きました。そして残る2人となった決勝戦での一騎打ち、私たち対、トーナメント全体を通じて誰よりも多くの資金を他者から奪ってきたこの男との対決です。そして私たちは彼を叩き潰しました。なぜか。彼は他の全員の弱点を突いて搾取していたからです。相手の心を読むような理論を持っていて、この男はブラフをかける時にこういうことをすると見抜くのに非常に長けていたのだと思います。
しかし私たちは、これ以上ない最善の手を打ち続けていたのです。私たちの基準は、誰かから得られる金額を最大化することではなく、負けないこと、つまりどんな戦略に対しても最善の対応を取ることでした。だから最終的に、私たちが正しくやっていれば勝つはずでしたし、もし誰かが同じ戦略を取っていれば引き分けになっていたはずです。
科学的発見における探索と活用
興味深いですね。では、話を冒頭のエルデシュ問題や未解決の数学問題に戻しましょう。新しい科学的発見の文脈では、活用ではなく多くの探索が必要になるという直感があると思います。それはどのように機能するのでしょうか。
数学の研究、あるいは科学の研究全般において、探索と活用の両方の要素が数多く存在していると思います。最近の例を挙げると、OpenAIの単位距離の証明はまさに探索の設定に当てはまると思います。モデルはあえて常識に逆らい、誰もが信じていたことを反証しようと喜んで取り組みました。人間の数学に関する膨大な知識のリポジトリを持ち、非常に長い時間を費やしました。何時間だったかは忘れましたが、思考のプロセスを書き直したバージョンを公開したと思います。何時間も何時間も色々なことを試していました。これは明らかに探索の領域です。
一方で、モデルが非常によく理解している計算を依頼できる場合も多く、それは異なる構造を持ち、活用にとてもよく似ていることがあります。OpenAIの結果のすぐ後に、全く別の問題に関する論文が出ました。集合があって、その集合自身を足し合わせようとしたり、掛け合わせようとしたりする問題です。要素を取り出してすべて足し合わせるか、個別に掛け合わせて、どれだけのユニークな和や積が得られるかという予想に関するものです。これも反証されたのですが、それは人間によって行われました。
その中心的なアイデアは、全く別の問題でありながら、単位距離の証明から着想を得たものでした。OpenAIのモデルが見つけ出した特定の性質を持つある種の数を選び出し、そのアプローチを一般化して、この設定にも当てはまることに気づいたのです。これは非常に活用的なアプローチです。ですから、実際の発見のプロセスにおいては、探索と活用について語る時、普通は強化学習モデルをどう訓練すべきかという文脈で話されますが、科学的発見のプロセスにおいては、分野全体を前進させるために探索と活用の相互作用が確実に存在しているという興味深い点があると思います。
RLはケーキのチェリーか、それとも本体か
現代のLLMシステムにおける強化学習に話題を変えましょう。ヤン・ルカンが言ったと思われる言葉に強化学習はケーキの上のチェリー(飾り)に過ぎないというものがありましたが、あなたは状況が逆転し、今や強化学習こそがケーキの本体であると主張されています。どのようなお考えなのか説明していただけますか。
ええ、それは約1年半前に私が言ったことです。公の場でスピーチをしなければならなかったのですが、具体的なことはあまり話せませんでした。そこで、このケーキとチェリーのミームを反転させることにしたのです。強化学習は本当にワクワクするものです。だからこそ私は今日ここでお話ししています。膨大な計算リソースがある時、その計算力を役立つ形で知能へと変換したいと考えるはずです。強化学習はその方法の一つです。私たちは当時それを始めたばかりでしたが、今はさらに多くのことを行おうとしています。
なぜ強化学習が機能し始めたのでしょうか。全く新しい概念というわけではなく、何年にもわたって試みられてきました。今、何が変わったのでしょうか。
正直なところ、人々が機能していなかったと言う時、それが実際に何を意味しているのか私にはよく分かりません。2016年から2017年、あるいは2018年までのTransformer登場前の時期、DeepMindは強化学習に全力を注いでいましたし、OpenAIもDotaやルービックキューブなど、エキサイティングな成果を挙げていました。多くの人が強化学習に全力で取り組んでいましたが、その後言語モデルが登場し、明らかにすべきことは、上手くいっていた事前学習をスケールアップすることでした。
事前学習のスケールアップに伴って人々が強化学習で何を試したのか、試さなかったのかは分かりませんが、ご指摘の通り、RLHFはかなり早くから登場した中心的な要素でした。元々はゲーム環境の文脈で開発されたもので、報酬のハッキングを防ぐために人間のフィードバックを使ってキャラクターの歩行を制御するといった内容の論文が最初だったと記憶しています。
しかし、ここで指摘しておくべき興味深い点があります。モデルにテスト時に思考させ、推論させるにはどうすればいいかという問いです。OpenAIではかなり早い段階から推論に関する取り組みがあり、時間をかけていくつかのアルゴリズムを生み出しました。シンプルに言えば、十分に強力な事前学習モデルがあれば、強化学習で良い結果を出せるようになるということです。テスト時の計算を利用して、例えばそうでなければ解けないような数学の問題を解くために、思考し始めることができるのです。
情報効率とスケーリングへのアプローチ
今年の2月頃に出回った分析で、強化学習は10,000トークンあたり1ビット以下の有用な情報しか生み出さないと主張するものがあり、アンドレイ・カルパシーはそれをストローで監督情報を吸い上げているようなものだと表現しました。この点や、モデルの全体的な効率性についてどうお考えですか。
DeepSeekのアルゴリズムのように公開されていて私たちが話せるものを見ると、正解のシーケンスで訓練を行います。正解か不正解かというのは、情報としては1ビットかもしれません。ですから、その論理がどこから来ているかは分かります。問題は、それが他の方法では不可能なことをやっているかどうかです。もしかするともっと多くの監督情報を与えたいと思うかもしれませんが、どうやってそれを実現するのでしょうか。これらの手法が、コーディングや科学の分野など、モデルができることの爆発的な増加という点で数々のブレイクスルーをもたらしてきたことは非常に明白だと思います。大局的に見れば、テスト時にモデルに思考させ、テスト時計算を利用して推論を行わせることに尽きます。そして、それを機能させるために不可欠な強化学習のプロセスの要素が数多く存在していることは明らかです。
事前学習を行い、その上に強化学習を重ねるという現在のシステムモデルで、どこまで到達できると全体的に感じていますか。少し有名な話ですが、昨年のDwarkeshのポッドキャストでのリッチ・サットンのインタビューで、私の言葉で意訳すれば、LLMは真の知能ではなく、したがって純粋な強化学習こそが唯一の道である、というような主張がありました。これについてどうお考えですか。ご自身は事前学習と強化学習の両方を組み合わせている企業の強化学習チームにいらっしゃいますが。
別の話をさせてください。私が博士課程に進む前、イギリスで2年間過ごしたのですが、そのうちの1年はオックスフォードにいました。よくあるようにパブにいた時、親友2人と一緒でした。1人は認知科学者、もう1人は言語学者です。その年頃によくあるような議論になりました。私は、物理学は世界がどのように機能するかを説明するものであり、あらゆるものは世界の中に存在しているのだから、すべての科学の中で最も根本的なものだと言いました。コンピューターも私も世界の中に存在し、物理法則に従っています。
すると認知科学者は、そうだね、でも君はそれを処理しなければならない。そこには認知バイアスや、データの集め方、学習方法に関する色々な要素があるんだと言いました。それから言語学者は、ウィトゲンシュタインがどうのこうのと語り始め、すべては言語を通じている、それがコミュニケーションの手段であり、言葉が意味を持つことこそが中心的なことだ、物理法則について語る時でさえ、私たちは言語を使わなければならないと言いました。私は今、彼とウィトゲンシュタインが正しかったのだと感じています。少なくともAIの発展の軌跡は、それが正しい道であることを示唆しています。これを聴いているかもしれない言語学の教授になった友人のカイルに、今私は譲歩しているわけです。
過去10年間のAIへの関心を引き起こした強化学習というアイデア全体を本当に機能させるために必要だった土台は、言語を通じたものだったと思います。なぜなら、すべては言語を通じているからです。インターネットのすべてがそうです。それは現実世界の土台、すべての科学的知識、すべての数学的知識、人間のあらゆる仕事の総和がインターネット上で言語として表現されています。ですから、モデルが言語の事前知識を持ち、言語で思考し、その上で訓練できることは、明らかに正しいアプローチだと思えます。そしてそれは、こうしたことが起きる前から理にかなっていると誰もが主張したであろう形でしっかりと基盤が作られています。知能のスタート地点として持つべき驚くべき事前知識です。私たちの社会に深く根ざしているからです。リッチ・サットンとは別の部分で意見が異なりますが、もしそこを掘り下げたいならどうぞ。
ええ。手短に1つか2つ教えてください。
私は苦い教訓に対して少しばかり異端な意見を持っています。単に規模(スケール)だけが必要なのではありません。スケーリングを導くための良いアイデアも必要なのです。単に物事をスケールアップするだけではない、より深い相互作用があります。例えば、事前学習のスケールアップだけを試みていたなら、事前学習の上に強化学習をスケールアップしようとする現在の手法ほどは遠くまで到達できなかったでしょう。私たちのモデルは、その非常に優れたアイデアと、そのアイデアへの投資によってずっと強力になっています。
そしてその良いアイデアは人間から生まれます。将来的にはAIから生まれるかもしれませんが、AIが存在する前は人間から生まれていました。スケーリング自体も人間から生まれた良いアイデアでした。しかしそこには相互作用があります。規模を拡大することで新しい現象を引き出し、その規模でそれらを理解しようと努め、それが新たな方向性を示し、そこから新しいアイデアを開発し、そのアイデアに再び規模を適用するのです。ですから、単純にスケール、スケール、スケールというわけではありません。
テスト時計算の魔法
テスト時計算について言及されましたが、ユーザー視点から見ると魔法のように思える思考の連鎖について、まだ人々を悩ませている部分があると思います。実際にテスト時計算の間に何が起きて、あのような出力が作られるのでしょうか。モデルは実際には何をしているのですか。
モデルはあなたが見ている通りのことをしていると思います。私たちが少し書き直したり要約したりすることはありますが、モデルはただトークンを生成しているだけです。それらのトークンは、あなたが思考を巡らせるのと同じような、実行中の思考プロセスです。あるいは、数学の問題を解いている時のメモ書きや計算用紙の束に近いかもしれません。とにかく生成し続けます。生成することの素晴らしい点は、それがモデルの順伝播だということです。つまり膨大な計算を利用しているのです。従来よりもずっと多くの計算リソースを問題解決に活用する方法だと言えます。
同僚のノーム・ブラウンはリーマン予想についてよく話しますが、もしモデルに何年も考え続けさせて証明させることができるなら、そうしたいと思いませんか。もしモデルがすぐに答えを出さなければならないなら、1つのトークンを生成するための1回の順伝播分の計算量しか使えません。しかし、もし長い時間をかけて考えた後に答えを出せるなら、重みを再利用し、はるかに膨大な計算量の関数として最終的な答えを導き出すことができます。モデルが自然に思考する方法は言語によるものです。言語モデルですから。トークン空間、つまり言語の中で思考プロセスを生成させることで、性能を向上させることができるというのが重要な洞察です。
これは強化学習以前から知られていました。モデルに思考の過程の例を与えれば、最終的な答えを出す前に同じように思考するようになります。あるいは単にそう指示するだけでも、そのように振る舞うのです。先ほどお話ししたSFTや教師あり学習と強化学習の例えに戻りますが、インターネット上には人々が長い時間をかけて思考した例がたくさんあります。ですから、それは全く無駄というわけではなく、そうした傾向を引き出すことはできます。しかし強化学習はそれを本当に強力に引き出します。
テスト時計算の間に起こることは、強化学習に関連している、あるいは強化学習によって作られたものなのでしょうか。あなたが先ほど強化学習を定義した時に説明した「モデルがある方向に進み、それが実りあるものではないと判断し、後戻りして別のことを試す」という事実上のプロセスが起きているのでしょうか。
強化学習プロセスの結果として、モデルがテスト時に思考できるようになるということだと思います。だからこそ、私たちや様々な研究所に推論の取り組みに関する調整ダイヤルがあるのです。最終的な答えを出す前に、たくさんのトークンを生成するモデルが完成したわけです。それを質の高いものにすることこそが、強化学習が行っていること、あるいは行っていることの一つです。つまり、強化学習による訓練を行った結果が、思考するモデルを持てるということなのです。
検証可能な報酬と一般化
この分野における重要な問いの一つは、LLMシステムが特にコーディングや、最近では数学で収めてきた成功を、モデルが出した答えが正しいかどうか検証できる領域を超えて拡大・一般化できるかどうかです。これについてどうお考えですか。まずは検証可能な報酬とは何かという説明から始めていただけますか。
検証可能な報酬とは、原則としてハッキング不可能な報酬のことです。数学の問題で答えが整数の場合、その整数が文字列として一致するかどうかを確認するだけで、正しく問題が解けたか検証できます。その抽象化には色々な問題も伴いますが、検証不可能な問題とはこれは良いクリエイティブ・ライティングかといったものです。文字列で照合できるようなものではありません。趣味嗜好の問題が絡んできますし、人によって捉え方も異なります。分布の概念が必要になるかもしれません。この2つの間には明らかに大きな隔たりがあります。
では、検証可能な報酬がない領域、例えばコンサルティング、銀行業務、法務などで強化学習が真に効果的になる道はあるとお考えですか。それらの分野でも驚異的な進歩が見られますが、何が起きているのでしょうか。
OpenAIは間違いなくそれらの領域に関連する素晴らしいプロダクトを生み出すでしょうし、そこでも何らかの形で強化学習が役割を果たすと確信しています。
強化学習は一般化するのでしょうか。つまり、より多くのドメインで訓練すればするほど、次のドメインを学習するのが飛躍的に得意になるという意味です。
私たちは汎用的に知的で、その知性を可能な限り押し広げるモデルを作りたいと考えています。そのためには、あらゆるものを分布の一部にし、また分布に含まれていなかった未知のものに遭遇した場合でも堅牢に対応できるようにしたいのです。強化学習がそのプロセスの一部であるなら、どうなるかはお分かりでしょう。先ほど言おうとしたように、非常に曖昧な部分が多いという感覚はありますが、AIにおける一般化の問いが重要かつ中心的なものであることは明らかです。そして、強化学習のプロセスがこれを成し得ることを裏付ける多くの例が存在すると思います。
物理学のレンズを通してAIを理解する
あなたの物理学のルーツに戻りましょう。事前学習と強化学習の相互作用や、これまで説明してきた様々な要素は、明らかに非常に複雑なシステムです。あなたは複雑なシステムを研究する学問の訓練を受けてきました。物理学は、私たちが現在構築しているAIシステムを理解する方法について、何を教えてくれるのでしょうか。
その問いへの答えには多くのアプローチがあると思います。おそらく最も興味深い、あるいは私たちの現在の働き方に最も関連しているのは、もしかすると異端な意見かもしれませんが、スケーリングやスケーリング則についての考え方は、小さなものから大きなものへではなく、大きなものから小さなものへと考えるべきだということです。これについてなぜ物理学が重要なのかは後でお話しします。
非常に巨大なAIシステムが存在し、小さなスケールでは起こらなかったような奇妙な現象が起きたとします。規模が拡大したことで何かが創発した、あるいはグロッキングという言葉を使ったり、スケーリングの連続性に非連続的な何かがあるとか、スケーリング則が破綻したと言う人がいるかもしれません。しかし私はこれを完全に否定します。それは、スケールアップしている対象について何か理解できていなかったということを意味しているに過ぎないからです。
推論の話題に戻ると、これが事実かは分かりませんが、一つの極端な例として聞いてください。私は当時OpenAIにいませんでしたが、小さなモデル、GPT-1、GPT-2、GPT-3に推論させようとして、そしてGPT-4でできるようになったとしましょう。あなたは規模によって創発した現象であり、小さなモデルでは起こらないと言うかもしれません。私はそれを否定します。代わりに、私たちが発見した推論のような非常にエキサイティングな現象、あるいは何か悪い現象かもしれません。初期のモデルでは問題なかったのにモデルが暴走したとか。そうした場合、あなたの仕事はスケーリングの連続性に滑らかさを取り戻す方法を見つけ出すことです。
元に戻って、全体が滑らかに繋がるような、より小さくシンプルなモデルやトイモデルを作るのです。もしそれができれば、その小さなシステムに何を組み込むべきかが分かり、全体を理解したことになります。そして前進することができます。これはまさに私たちが理論物理学で行っていることです。標準模型というものがあり、私の後ろにある教科書にも載っていますが、重力を除くすべての力を説明しようとすると、簡潔な記法を使ってもページ全体を埋め尽くすような途方もなく複雑なものになります。様々な粒子があり、そのうちのいくつかには理由がありますが、それぞれが異なる働きをし、互いに打ち消し合ったりします。私たちが住んでいるのがたまたまそういう宇宙だったというだけですが、その一部を研究するのにそのすべてを考慮する必要はありません。電磁気学を研究したいなら、他のことは忘れて構いません。一部の粒子に質量を与えるヒッグス機構を研究したいなら、その簡略化されたバージョンを研究すればよいのです。
物理学の訓練において重要な手法の一つは、非常に複雑なシステムを取り上げることです。物理学者は球形の牛ばかり研究していると揶揄されることがありますが、それは要点を外していると思います。あなたが関心を持っている現象を説明するのに球形の牛で十分なら、あなたは良い仕事をしたことになりますし、そうでなければ悪い仕事だったということです。計算できそうだからという理由だけで単純な設定に逃げ込むのではなく、自分が関心を持つ現象を含んでいるギリギリのシンプルな設定に落とし込むのです。そこで計算が進むかどうかは全く分かりません。しかし一度それができれば、問題が何であるかがある程度理解できます。それが物理学における多くの仕事であり、AIにおいても全く同じことが言えます。あらゆる種類の興味深い現象を持つクレイジーで巨大なシステムがありますが、正しい視点で見れば、突然変異的なグロッキングなどなく、そこには美しい連続性があるのです。
AIにも熱力学に相当するもの、つまり個々の要素をすべて追跡することなく全体的な振る舞いを予測できるような、コンパクトな理論が誕生する可能性があると思いますか。
ええ。カプランやマカンドリッシュによるOpenAIの初期のスケーリング則の研究はまさにそのバージョンです。ネットワークについて知っていることといえば、パラメータの数と学習させたデータの量だけで、それ以外の情報は捨てて最終的な損失を予測することができます。欠けている部分は、個々の重みやバイアスがどのように加算されてスケーリング則に繋がるのかを説明することです。私は初期の研究を行っており、その繋がりを橋渡ししようとする他の研究もいくつかあります。個々の微視的な記述から熱力学がどのように立ち現れるかという、統計力学から熱力学へ繋がるようなミッシングリンクです。しかし、これらのシステムがどう振る舞うかに関する有用で効果的な説明は間違いなくたくさん存在します。
質問のもう一つの側面は、私たちが関心を寄せるすべてのことを特徴づけるのにそれで十分かということでしょう。最終的な損失関数以外にも私たちが気にかけていることはたくさんありますから。そのため、微視的な記述から熱力学がどのように生じるかに加えて、さらに解明されるべき熱力学の領域が多く残されていると思います。
AIが自律的に科学を切り拓く未来
1年前の会議で、あなたは冗談めかしてアインシュタインレベルのAIが登場するまであと9年だと予測されていましたね。冗談はさておき、AIが科学的発見を生み出すというスペクトルの中で、私たちは今どのあたりにいるとお考えですか。これが最初の話題でしたので、この先どうなっていくのか気になっています。
冗談というのは常にそうであるように、分解して考えるのが役立つかもしれません。あの冗談は、システムが自律的に行える作業量が倍増する時間を計算し、自律的に8年間考え続けられるシステムに到達するまでにどれくらいかかるかを算出したものでした。というのも、アインシュタインは一般相対性理論を発見するのに8年を費やしたからです。それを予測した結果、昨年から数えて9年という数字が出たのです。
私は予測をするのが嫌いですが、それより前に何かが間違いなく限界を突破すると確信しています。一般的に言って、システムをセットアップして8年間自律的に考えさせるようなことはしないでしょう。なぜなら、8年後のシステムは比較にならないほど強力になっているため、あるシステムにそれだけの時間をかけて考えさせるのは理にかなっていないからです。システム自体が改良されるのにかかる時間と、思考に費やす時間があり、おそらくそれらが交差した時に、こうしたスケーリングの壁はさまざまな形で突破されることになるでしょう。
しかし、私がお話ししたような、物理学者が問題にどうアプローチするかという構造や特質は、エルデシュ問題のようにここに明確に定義された問題があるから計算しなさいというものとは少し異なるかもしれません。一方から他方へ橋渡しするための何らかのアイデアが必要になるでしょう。それが非連続的なものになるか、滑らかなものになるかは明確ではありませんが、科学のプロセスの一部には、まだモデルに吹き込まれていないものがあり、どうすればそれを実現できるか多くの人が考えているはずです。明確に定義されたものを計算するのではなく、何が正しい問いなのかにたどり着こうとするような能力です。そこには、簡単に検証できないような研究のセンスが含まれています。
それが実現すれば、AIが真のオリジナルな科学を行っていると納得できますか。
いえ、私はすでに納得しています。今回のような、単位距離の問題は素晴らしい例だと思います。常識に逆らう立場をとり、極めて長い時間思考し、様々な選択肢を探索し、全く異なる分野の重み付けを統合する能力。このような問題を解くためのスキルセットを完璧に備えた人間を見つけるのは極めて困難です。これは途方もなく大きな成果です。
AIがAI自身を開発する時代はいつ来るか
AI研究自体が自動化されるまで、つまりAI研究者がAIを使うだけでなく、AIが自律的にAIを構築するようになるまで、あとどれくらいだとお考えですか。
これもやはり滑らかなプロセスの一つだと思います。今でもすでにその一部を行っていますし、将来的にはさらに多くのことを行うようになるでしょう。これについて人々が考えたがる極端なバージョンがあるのは知っていますが、明確な相転移のようなものが見られるかは確信が持てません。単にその領域が増えていくだけではないでしょうか。現在、人間が何週間もかかるようなコーディングの多くは、モデルを使って非常に効率的に行うことができます。ですから、モデルがエンジニアリングの中心的な役割を果たすようになるバージョンも存在します。私はただ、それがより増えていくだけだと考えています。
一方で、人間が依然として行うのに非常に役立つような科学的思考というものも存在しますし、いつ、どのようにしてそうなっていくのかという具体的な予測はしたくありません。記録に残る形でモデルにはこれはできないと言えば、絶対に間違っていることが証明されるでしょうから。モデルにはできないと言った直後にできるようになってしまうかもしれません。だから、モデルにやってほしいことを選んでこれは絶対にできないと言い張るべきかもしれませんね。
以前人々が立てた予測の多くが、実際の結果とは異なる方向に向かっているのを見ると、予測を立てること自体が難しいと感じます。何かが起こるために必要な長い連鎖があり、その連鎖のどこか一つでも壊れれば、予測は大きく外れてしまうという信用割り当ての問題のようなものです。しかし、今後6ヶ月間という非常に遠い未来の予測をさせてもらえるなら、数学や科学のブレイクスルーをもっと多く見ることになるでしょうし、当然、そうしたAIの能力をAI自身に向けることで、モデルははるかに強力になるでしょう。それはとても楽しいことになりそうです。AIの科学を行うことが、物理学を行っているのと同じように感じられるかもしれませんし、実際そうなるでしょう。
もう一つ本当にワクワクするのは、私が物理学の道に入った時の思いについてです。ある分野を学び始め、それに専念しようと思う時、少なくとも私は、最後まで行けば、すべての答え、すべての根本的な問いに対する答えが分かるだろうと考えていました。もちろんこれは旅であり、旅の終わりにすべてが解決するのだと。しかし、大学院時代か、あるいはAIに転向した時か分かりませんが、気づいたのです。ああ、これらの問いのいくつかは永遠に未解決のままかもしれない。答えを知ることは一生ないかもしれないと。年配の同僚たちが引退していくのを見て、彼らも答えを知ることはないのだと実感しました。
しかし今、私は本当にワクワクしています。私たちが関心を寄せる科学分野の根本的な問いの多くに対し、AIモデルを原動力として、あるいはその助けを借りて、実際に答えを出せるようになると思うからです。それは本当に、スリリングなことです。
ここで締めくくるのが完璧ですね。ダン、今日私たちに考えるべき材料をたくさん与えてくれました。お時間をいただき、本当にありがとうございました。
ご招待いただきありがとうございました。とても楽しかったです。
マット・タークです。MADポッドキャストのこのエピソードをお聴きいただきありがとうございます。楽しんでいただけたなら、まだの方はぜひチャンネル登録をお願いします。また、ご視聴のプラットフォームでポジティブなレビューやコメントを残していただけると大変ありがたいです。それが素晴らしいポッドキャストを作り、素晴らしいゲストをお呼びすることに繋がります。ありがとうございました。それでは次のエピソードでお会いしましょう。


コメント