OpenAIの研究者であるNoam Brownが、AIの知能を単一の数値で評価する従来のベンチマーク手法の限界を指摘する。推論時の計算量(テストタイム計算量)を増やすことでモデルの賢さが変動する現代において、評価軸の多様化や、アカデミアと巨大IT企業のコンピューティング格差、そしてAI自身が論文を執筆・査読する未来の学術界の姿について深く考察した対談である。

知能の定義とAGIのベンチマーク
AGIやその解決、あるいはそこに至るまでの道のりについて真剣に議論を始めるなら、まずは知能の定義からスタートするべきだと思います。知能を定義することは、おそらく最初のステップになりますが、知能の定義についてどのように考えていますか。
実は、明確な答えは持ち合わせていません。本当に具体的な知能の定義を導き出そうとして、多くの人々が挑戦し、失敗してきたはずです。思い返せば、2017年の末頃に私がレディットでAMA(何でも質問して)をやったとき、すでに当時からAGIについての懸念を質問してくる人がいました。囲碁を打つボットがあり、私がポーカーをプレイするボットを作ったばかりの時期で、モデルが非常にインテリジェントになってきているように見えた頃です。今後10年以内にAIができないことは何だと思うかと聞かれ、私は、正直なところ今はAGIについてそれほど心配していません、と答えました。AIが今後10年以内に、深く考えさせられるような小説を書くことはできないと90%以上の確率で確信を持って言えます、もしAIにそれができたら、私はAGIを非常に恐れるようになるでしょう、と言ったのです。
興味深いですね。それが2017年のことだったわけですね。
ええ。私に残された時間はあと1年半ほどになりました。私の予測にとって、あまり芳しくない状況になっていると思います。しかし、これは知能の良い例だと言えますし、私はこの件に関してゴールポストを動かすつもりはありません。もし実際に、深く考えさせられるような小説を書くことができるAIが登場すれば、それは素晴らしい知能の証拠になると思います。
その小説が、誰にとって深く考えさせられるものか、という問題はありますね。
確かにその通りです。これが知能のすべてを網羅する定義だとは言いませんが、私たちが目指すべき場所でありながら、まだ完全には到達していない領域の、一つの例として思い浮かんだものです。
そこにある制限的なステップは何だと思いますか。なぜ小説の執筆ができないのでしょうか。次のトークン予測を行い、本の最後まで出力させ続ければいいだけではないのですか。プロンプトの問題なのでしょうか。
2017年の時点では、まともな文章を一本つなげることすら考えられない状況でした。そこから大きな進歩を遂げ、今ではかなり近づいていると思います。現時点で、深く考えさせられるような短編小説を書けるAIはおそらく存在しますが、長編小説における最大の課題は、そのタスク自体の長さにあります。実際に小説を書くとなると、小説そのものがおそらく少なくとも10万トークン以上になります。そして、人間が小説を書くのにどれほどの時間をかけているかを考えてみてください。それが優れた、思考を巡らせるような小説であれば、1年以上を費やすこともあります。メテオプロットに関しては私なりの問題意識もありますが、いくつかの点ではかなり優れた評価基準であり、良い測定方法だと思っています。人間が1年かけるような作業をAIができるようになるまで、どれくらいの時間がかかるでしょうか。ほとんどの事柄において、私たちはまだそこまで到達していませんが、着実に進歩しています。
つまり、あなたのAGIベンチマークの概略的な代用指標は、小説を書くこと、という感じですね。その中で、小説を生成するために費やされた過去の経験の量や、エネルギー(ジュール)の量を正規化したり制御したりする要素はありますか。他のすべての条件が同じだとして、同じだけの思考の深さがありながら、100倍少ないジュール数や1,000倍少ないトレーニングエラー、あるいは全くトレーニングなしの未学習の状態からそれを成し遂げたとしたら、その方がより印象的ではないでしょうか。
確かにそうですね。難易度を高めたり、より印象的にしたりする方法は間違いなく存在します。10年前に、どうすれば十分に難しくできるかといった議論をすること自体が不条理なことでしたから、当時は重要ではありませんでした。しかし、私たちは詳細が少し重要になる局面に達していると思います。既存のモデルを適切に足場組み(スキャフォールディング)すれば、実際に深く考えさせられる小説を出力することは、おそらく今でも可能だと考えています。
それはAGIとして十分だと言えますか。
私の予想では、おそらく十分ではないでしょう。もし見るのであれば、かなり軽いスキャフォールディングに留めたいところです。しかし、もし2017年に、2026年には大量のLLMをスキャフォールディングでつなぎ合わせることで、実際に深く考えさせられる小説を出力できるようになると言われていたら、当時の私の定義では、それで十分にAGIだと言っていたはずです。
知能を数値化するベンチマークの現状
あなたが頻繁にゴールポストを動かさないのは良いことです。他の人々はよく動かしていますからね。知能を定量化するために利用可能で一般的に使われている測定基準の中で、最も一般的なのはクリス・レイの研究所から発表された、ワットあたりの知能を示す評価パープレキシティ(eval perplexity)でしょう。これは本質的に、それらのトークンを生成するために投入されたジュール数で評価パープレキシティを割ったものです。他にも、GSMKのハッシュタグの後に起こるすべての事象に切り替えようという話もあります。それ以前に何が起きているかは気にしないという考え方です。今や、単に次のトークンを生成するだけでなく、答えを導き出すためにどれだけのジュール数がかかったか、つまりトークンの効率性がどれほど高かったかという指標です。そのような測定方法がいくつかあります。さらに、15の異なる数値が並ぶリーダーボードに見られるような、ベンチマークハックされ尽くした無数のベンチマークの不協和音もあります。そして、arc prizeやarc 1, 2, 3といった取り組みもあります。知能の代用指標として、これらについてどう思われますか。
現実問題として、知能を測定するのは非常に困難なことです。だからこそ私は一つの例を挙げたわけですが、私たち人間における知能の測定方法すら、まだ分かっていないのが実情だと思います。人々はいろいろな種類の知能について語ります。人間にすら知能を測定する方法がない段階で、モデルの知能を測定する客観的な方法を持つことは非常に難しいように思えます。ただ、これらの試みはすべて有効だと思います。同時に、すべてに課題が存在します。例えば、GSMKの評価を使用する場合、モデルが数学に特化してファインチューニングされていれば、その評価では非常に優れた成績を収めるでしょうが、小説を書くといったことを重視する場合、そのモデルがよりインテリジェントであると言えるかというと、おそらくそうではありません。
それこそが、知能の測定において過去の経験を制御しなければならないという、フランソワ・ショレの指摘のポイントですね。特に人間において、どれだけの過去の経験があるかをコントロールするのは難しいことです。あなたがOpenAIで適用した、あるいは適用するような、過去の経験による正規化についての取り組みは何かありますか。リワードハックを行わずに同等のパフォーマンスを達成できたとしたら、その方がより印象的だというような考え方です。
これについては、あまり満足のいく答えを持ち合わせていません。というのも、私が日常的に使用している明確な知能の定義というものがないからです。私は評価方法が多様である状況を好ましく思っています。これらの評価の集合体を見ることこそが、知能を測定するおそらく最善の方法だと考えています。知能には異なる側面があり、異なる評価方法がそれらの異なる側面を捉えることができるはずです。ある種の知能を重視し、ある種の知能はそれほど重要ではないという状況もあるでしょう。数学者であれば、このモデルが自分の数学の問題を証明できるかどうかを強く意識するはずで、それこそが彼らにとって重要な知能になります。ARCはまた別の種類の知能を捉えており、ARGI 3では新しい環境に適応できるかどうかが焦点になっています。これもまた、一部の領域で非常に役立つ、完全に合理的な知能の定義だと思います。モデルに何をさせたいかによって、本当に変わってくるものなのです。
OpenAIには、新しいモデルをリリースする前に必ず通過しなければならない、膨大な評価セットが存在するはずです。それが静的なものか、動的なものか、人間の評価が介在しているのかは分かりません。その内容を明かすよう求めているわけではありませんが、それはどのようなものを含んでいるのでしょうか。社内で開発した広範なタスクのセット、いわゆるOpenAIベンチのようなものですか。
それについてはおそらくお話しできません。
イリヤ主義、ノーム主義、そして推論計算量
分かりました。では次の話題に移りましょう。知能の定義や定量化の試みについて話してきましたが、今度は独自のモデルについてです。以前、私たちが議論したいくつかの主義があります。一つはイリヤ主義です。イリヤ・サツケヴァーに公平を期すために言うと、彼は必ずしも今でもこれを信じているわけではありませんが、当時のNeurIPSでは間違いなく、次のトークン予測(NTP)で十分であり、必要なのはもっと多くのトークンだと言っていました。そして、私がノーム主義と呼びたいものがあります。これはイリヤ主義に、ジェネレーターとベリファイアのギャップ(生成と検証のギャップ)を加えたものです。インターネットのデータを使い果たしつつある中で、検証可能な問題が大量にあれば、それらを生成して検証にかけ、より多くのデータを創出することで、新たなことが可能になるという考え方です。このノーム主義という表現に同意しますか、それとも少し違いますか。
それがストーリーのすべてを捉えているとは思いません。私たちは明らかに、多くの要素を一つの文章に凝縮しようとしています。私の意見では、もう一つの重要な要素はインファレンス計算量(推論時の計算量)です。特に推論能力のような多くの知能において、より長い時間をかけて思考することで、より生産的になる能力が重要です。これも一種の次のトークン予測であり、一連のトークンを予測しているわけですが、推論計算量をスケーリングする方法は他にも当然存在します。私はそれも知能の不可欠な要素だと考えています。
テストタイム計算量(推論時の計算量)だけに頼ることへの対抗意見として、次のような不自然な例があります。例えば、ソート(並び替え)アルゴリズムを学ぼうとしていて、人類がまだマージソートを知らないとします。しかし、バブルソートについては知っている。そのため、ソートされていないリスト、バブルソートと呼ばれる手順、そして最終的な答えであるソートされたリストという、無限のトレース(実行形跡)を持っているとします。これらを無限に生成することは可能です。検証可能(生成と検証)ですからね。大量に生成できます。しかし、テストタイム計算量をどれだけ増やしても、マージソートにたどり着くことは決してありません。得られるのは、バブルソートの非常に質の低いバージョンか、あるいは完璧なバブルソートかもしれませんが、それを別のアルゴリズムに圧縮することはできません。推論のトレースがバブルソートだったからです。
もしそのモデルが、全存在を通じてバブルソートだけをトレーニングされ、それしか知らないのであれば、確かにそれ以上のことは何もできないでしょう。だからこそ多様性が重要なのです。事前学習を行う際、十分な探索が行われるようにするために、多様なデータセットを確保することが大きな側面となります。
つまり、プログラム自体が出力を行ってメタ学習を行うプログラム誘導(プログラミング・インダクション)ではなく、シータ(パラメータ)がプログラムであり自身を呼び出すようなトークンスペースでの変換(トランスダクション)においてサンプリングを行う場合、バブルソートや挿入ソートなどのデータだけでトレーニングされた状態で、マージソートのトレースが出現する確率はどれくらいでしょうか。
ここでジェネレーターとベリファイアのギャップが関係してくるのだと思います。確率がゼロでなければ、100万匹の猿が100万台のタイプライターを叩き続けているうちに、そのうちの1匹がマージソートを発見するようなものです。そして、バブルソートよりも遥かに速くソートできたことに気づくのは非常に簡単です。意味のあるもの、重要なものに偶然出くわしたときに、それを検証することはとても容易なのです。多くの意味で、これは人類の文明が時間をかけて発展してきた方法と同じだと感じます。誰かが火を起こす方法を見つけたとき、おそらく多くの人が長い間、ただ石を叩き合わせて何か面白いことが起きないか試していたはずです。あるいは、面白いことを起こす意図すらなかったのに、火がついたことに気づいたのかもしれません。何かが起きた、重要なことが起きたと検証するのは簡単です。そして、それがその後の進歩に影響を与えるのです。
プログラム空間にわたる探索がランダムであれば、極めて非効率的であり、マージソートに素早く到達することは決してありません。しかし、ある程度の事前知識(プライア)があり、興味深く巧妙なヒューリスティック探索を行い、プログラム空間を探索することを学習しているのであれば、完全に同意します。それでも、毎年IMO(国際数学オリンピック)で優勝するような人々は、学習する10個ほどの戦略を持っていますし、チェスが非常に得意な人々も、歩兵は1点、飛車は5点といった知識を持っています。IMOやチェスはそれほど単純ではないと思いますが。
彼らはそれらの戦略を試します。少なくとも一定のレベルに達するための良い方法であり、それらの戦略を実行します。残りの距離を埋めるためにそれだけで進むのが馬鹿げたことだという点には同意します。マグヌス・カールセンも、歩兵が1点で飛車が5点ということさえ知っていれば自分に勝てる、と言われたら躊躇するでしょう。そうではなく、他人の凝縮された知識を足がかりにしてアルゴリズムを実行しているのです。おそらく、彼らの海馬が他の人より強く、より多くのMCTS(モンテカルロ木探索)の反復を速く行い、より深く進むことができ、優れた記憶力を持っているといった、ハードウェア的な要素や、あるいはDNAによるものかもしれません。それがスキルなのか、学習によるものなのか、DNAなのかは分かりませんが。私のポイントは、プログラム内探索のヒューリスティックは、ランダムではなく、人間のプログラムを事前知識としてトレーニングしているため、依然として人間に強く依存しているということです。
それは非常に理にかなっていると思います。確かに、100万匹の猿が100万台のタイプライターを叩いていれば、最終的には有用なものに行き着くでしょうが、それには非常に長い時間がかかります。その事前知識を鋭く研ぎ澄ますことができれば、実際に有望な方向に集中できるようになり、有用なものにより素早く行き着くことができます。
この話題を終える前に、現在のLLMのセットアップが生物学的に妥当であるとどの程度考えていますか。何が妥当で何が違うのか、そしてそれを実際に気にしていますか。
生物学的に妥当とはどういう意味でしょうか。
脳がバックプロパゲーション(誤差逆伝播法)を行っているのか、事前学習は基本的にDNAのようなものなのか、といった人々が議論するマッピングについてです。
私は生物学者でも神経学者でもないので、ここで主張をするのは少し難しいです。深層ニューラルネットワークの側面について、私の理解では、脳の構造といくつかの類似点があるようです。ただ、それが人間の脳にどれほど近いかはそれほど重要ではないと思います。特に現時点では、ここで何かが機能していることは明らかだからです。
シンプルなアルゴリズムと人間の事前知識
あなたの博士課程における大きな革新の一つは、CPU上で実行できるような非常にシンプルなプログラムでテストタイム計算量を活用することが、膨大な量のゲームなどでトレーニングされた多くのオンポリシーの強化学習アルゴリズムよりも、有意に優れていたということでした。フランソワ・ショレも、私たちは最終的に脳を動かしているアルゴリズムを発見するだろう、それは非常にシンプルでエレガントなプログラムであり、事前知識をほとんど含まない可能性が高い、と言っていました。これに同意しますか、それとも反対ですか。
おそらく非常にシンプルでエレガントなものになるだろうという点には同意します。私たちが今日使用しているアルゴリズムの多くも、非常にシンプルでエレガントです。ただ、事前知識をあまり持たないというアイデアについては、必ずしも同意するかどうか分かりません。その可能性もありますが、異なる解釈の仕方もできると考えています。多くの人がそれを聞くと、AlphaGoで大きな成功を収めたAlphaZeroのようなものを思い浮かべるでしょう。AlphaGoは膨大な量の人間のデータでトレーニングされ、モンテカルロ木探索を行い、セルフプレイを行って、囲碁のトップ人間に勝ちました。その後のAlphaZeroは、人間のデータからの学習を排除し、事前知識はルールと計算量だけという形にしました。
そして、最終的にはるかに優れたパフォーマンスを発揮しましたね。しかし、それがスタークラフトのようなゲームで試みられたときは、あまりうまくいきませんでした。
それはアクションスペース(行動空間)に関係していると思いますか。
そう思います。ですから、原理的には、十分に大きなネットワークで十分な長さの強化学習を行えば、事前知識なしで進めることも可能でしょうが、それはあまり現実的ではないことが分かっています。これまでのところ、大規模言語モデルのようなものにおいて、その事前知識は極めて重要です。いつの日か、事前知識から完全に脱却し、強化学習だけでゼロからすべてを学習するようになる可能性はあるでしょうか。理論的には妥当だと思いますが、それが起こる可能性は低いと考えていますし、近い将来において追求すべき正しい道だとも思いません。
なぜそう言えるのでしょうか。
その証拠はかなり明白だと思います。この分野の多くの人々が、人間の事前知識を排除してゼロから学習するというアイデアに、非常に長い間集中していました。AlphaZero以来、2017年から2021年にかけて、これが強化学習における支配的なパラダイムだったと言えますが、大規模なインターネットデータで事前学習を行い、有用な事前知識を構築することが極めて効果的であることが明らかになり、その結果に異論を挟むのはかなり難しくなりました。それが変わる可能性はありますが、現時点ではもう一方の方向性を支持する証拠が非常に強力です。
ショレなら、それは単に任意のレベルのスキルを買い叩いているだけであり、知能の真の測定基準はスキルの獲得率、つまりスキル獲得の効率性であると言うでしょう。事前知識を強化することは、基本的にはベンチマークハックに近づいているだけだと。
この有用な事前知識を構築することが、その後のオンライン学習の能力を損なっているかどうかは明確ではありません。そこで必ずしもトレードオフが生じているわけではないのです。もしかしたら生じているかもしれませんが、もしそうであるなら何らかの証拠を見たいところです。
単一の数値による評価の終焉
それは一理ありますね。継続学習に関しては、リチャード・サットンが証明したように、バックプロパゲーション自体が、何をトレーニングしているかに関わらず、トレーニングを重ねるほど神経可塑性(ニューロプラスティシティ)を低下させます。私もこれを経験していますが、トレーニングが進むほど、多くの次元が退化していきます。トレーニングの後半にランダムな方向をサンプリングする場合と、初期にサンプリングする場合を比較すると、後半ではどの方向も評価や損失に全く影響を与えなくなります。これは神経可塑性が低下しているという議論の根拠になり得ます。
さて、残りの質問も消化していきたいのですが、AIに関する逆張り的な見方についてです。最近ではそれを得るのがますます難しくなっていますが、現在のAIについて逆張り的な視点を持っていますか。
そうですね、多くはありませんが、一つあります。私はモデルが向上し続け、知能が非常に急速に向上し続けると強く信じています。その上で、この分野が見くびっていることの一つとして、インファレンス計算量の重要性が、特に洗練されたモデルをリリースするにつれて、依然として過小評価されていると考えています。ベンチマークをリリースするときに比較を行いますが、新しいモデルをリリースするとき、これらの異なる評価において単一の数値で評価する、という現在のあり方についてです。例えば、ここにGPQAがあり、このモデルがこのベンチマークでどれほどスマートかを示す単一の数値がこれです、というやり方です。これはもう意味をなさないと思います。
GPT-2のときは事実でしたし、GPT-3でも意味をなしていました。GPT-4でも、ある程度は意味をなしていましたが、その時点で少し怪しくなっていたと思います。プロンプトの思考の連鎖(Chain of Thought)によってパフォーマンスが向上するようになって以来、それはもう通用しなくなっています。推論モデルが登場してからは明らかに通用しなくなっており、今でもこれを続けているのは少し滑稽だとすら思います。しかし、人々がそれを期待しているからこそ、行われているのでしょう。ARCはこの状況から素早く脱却し、推論計算量やコストをX軸にして物事を測定することにおいて、実際にかなり優れていると思います。特に推論が重いベンチマークを測定するには、それが正しい方法です。
これは、備えの枠組み(preparedness frameworks)や責任あるスケーリングポリシー(responsible scaling policies)といったものを見始める際に、実際には非常に大きく関わってきます。モデルをリリースする際、その能力がどこにあり、異なる閾値がどこに存在するかを決定するための閾値があるからです。モデルのリリースに向けて能力を評価し、それが危険であるか、あるいは一定の能力レベルを超えているかを判断する際に、その評価にどれほどの推論を投入するのか、ということは極めて重要です。知能が純粋に推論の関数であるような局面に達しているのであれば、任意の量の知能を買い叩くことができるわけですからね。
そうなると、評価(eval)に無限のお金を費やすべき、ということになりますね。
ええ。これは現実的な問題です。モデルをリリースして、推論のコストを10ドルに制限する、などと言うことはできますが、誰かが簡単に大量のクエリをスキャフォールディングでつなぎ合わせ、1,000ドルの推論コストをかけることができるようになれば、彼らは事実上、あなたがリリースしたものよりもインテリジェントなモデルを手にすることになります。もし彼らが100万ドルの推論コストをスキャフォールディングでつなぎ合わせたら、あなたがリリースしたものよりも事実上はるかに能力の高いモデルを持つことになります。それが、あなたがリリースしたモデルと同じものであると言えるかどうかは議論の余地があります。明らかに、GPT-2やGPT-3のときには、これは問題になりませんでした。1,000個のGPT-3クエリをスキャフォールディングでつなぎ合わせても、GPT-3よりも実質的にインテリジェントなものは得られなかったからです。わずかに効果はあったかもしれませんが、それほどではありませんでした。モデルの能力が向上するにつれて、これはますます大きな問題になっています。
現在のトレンド、時代の精神(ツァイトガイスト)はスキャフォールディングのスケーリングであるように感じられます。バイブコーディングがやっていることもそれですし、彼らはますます多くのスキャフォールディングを注入しています。モデルが向上するにつれて、実際にはシステムプロンプトを減らすことができ、システムプロンプトが小さくなれば、必要なスキャフォールディングも減っていきます。
トレーニングタイムの再帰性と未来
別の方向性についてもお聞きしたいのですが、私は次のスケーリングローが「トレーニングタイムの再帰性(train time recurrence)」になるだろうというブログ記事を書きました。テストタイムの再帰性、つまりより多くのテストタイム計算量がある一方で、私たちがチューリングマシン、あるいはより厳密にチューリング完全なアーキテクチャを構築しようとしているという議論を採用するならば、チューリングマシンであるための要件の一つは、テストタイムにおける無制限の再帰性です。あなたが言うように、テストタイムでは無制限の再帰性がありますが、トレーニングタイムではそれがありません。ワンフォーワードパス(1回の順伝播)であり、ティーチャーフォース(教師強制)です。正確に1回の順伝播を行い、基本的には彼らが言っていることに一致させなければならず、そこから外れることはできません。テストタイムで発見された潜在空間から何らかの蒸留(ディスティレーション)が戻ってくるような再帰的な処理を行わない限り、この関係は崩れてしまいます。しかし、パラメータあたりの進歩が最も見られたのは、トレーニングタイムの再帰性を備えたARC 2でした。HRMやTRMであり、この外部リファインメントループがそこでの主要な貢献要素であったことが示されています。将来のトレーニングタイムの再帰性について、どう思われますか。
トレーニングタイムの間により多くの計算量を費やすというアイデアについて、ここでは事前学習と事後学習(ポストトレーニング)の間に区別が存在します。当然、事後学習においては、かなりの量の計算量が費やされています。しかし、あなたがおっしゃっているのはもっと事前学習に近い話のようですね。
ええ、私の次のトークンに正確に一致するようにティーチャーフォースで引き戻す前に、モデルに熟考させ、思考させることと比較して、すでにそこに非常に多くの人間のバイアスを焼き付けているのではないか、ということです。
それは追求する価値のある素晴らしい方向性だと思います。今日機能しているものがあるからといって、それが最善の方法であるとは限りませんし、確かにそれだけが唯一の方法でもありません。現在私たちが使用しているものよりも効果的なものを思いつく可能性は十分にあり、むしろその可能性が高いため、異なる研究方向が追求され、調査されることには大きな価値があります。
現在の技術スタックの中で、特にこれがなくなるだろうと最も確信しているものは何ですか。
私は事前学習の人間ではないので、私に聞くのは適切ではないかもしれません。それに、もし知っていたとしても、おそらくお話しすることはできないでしょう。
アカデミアの役割とAIによる研究の自動化
それが次の話題への良い架け橋になりそうです。私は2012年から2014年にかけてフェイフェイのラボで研究を始め、今また戻ってきたのですが、LLMが部屋の空気をすべて吸い上げてしまい、かつて追求されていた多様な研究アイデアの離散(ディアスポラ)が、もうほとんど起こらなくなってしまいました。そして今、自動研究者(auto researcher)が登場し、私が以前書いたNeurIPSの論文のようなものを執筆する自動研究者が同時に4つほど動いています。アカデミアの役割は何だと思いますか。カンファレンスの役割や、投稿することの重要性、そしてエージェントを使った査読者、あるいはエージェントを動かしている高校生の査読者による審査を通ることの重要性についてです。アカデミアの未来、カンファレンスの未来、そして博士号を取得することの重要性について、どう考えていますか。
良い質問ですね。ここ数年、この質問を何度も受けてきましたが、これについてはいくつかの考えがあります。一部の研究者が言うほど絶望的な状況ではないと思っています。アカデミアにおいて実行可能な、価値のある事柄は実際に存在します。まず問題点からお話しすると、最も印象的なAI能力の多くがスケールの結果として生み出されてきたという事実があり、これがアカデミアにおける問題となっています。なぜなら、アカデミアにはそれほど多くのGPUが存在しないのが現実だからです。
ただ、状況を変えることは可能だと思います。理論物理学の例が良い参考になります。大型ハドロン衝突型加速器(LHC)は、私の知る限り民間企業のものではありません。そのため、大学が大量の計算量を確保し、それを使って学術研究を行うことができています。もし私が大学の責任者であれば、10億ドルを投じて大規模なコンピューティングクラスターを導入するでしょう。正直なところ、コンピューターサイエンスやAIの分野でトップ10に入っていない大学が、急速にトップ10入りを果たしたい、あるいはナンバーワンになりたいと考えるのであれば、GPUを獲得するために多額の資本を投じ、すべてのスター教授やスター学生のところへ行って、私たちの大学は地球上の他のどの学術機関よりも研究者あたりのGPU数が多い、と言うべきです。そうすれば、非常に迅速に多くの優れた人材を獲得できるはずです。
今年、NeurIPSの後に私が投稿した中で最も有名なツイートがあるのですが、多くの教授たちと夕食を共にした際、あなたの学校の計算環境はどのようなものですか、と尋ねました。家に帰ってから、CSの学生数で割ったH100または同等の数をグラフにして投稿したのですが、MITとハーバードを除いて、全員が実質的に1を下回っていました。かなり厳しい状況です。
本当に厳しい状況ですね。私も大学の教員と話す機会があり、自分がジョブを立ち上げたいときにいつでもアクセスできるGPUの数を何気なく口にすると、彼らは一様に驚愕します。アカデミアと業界の間で、現在の格差がどれほど大きいかを、アカデミアの多くの人々が本当には理解していないと思います。
完全に同意します。私は不本意ながら自分で資金を調達していますが、誰も知らないフロリダ大学にはゲータークラウドと呼ばれるものがあり、膨大な数のGPUを保有しています。テキサス大学オースティン校も膨大な計算量を持っています。ですから、もし博士課程の学生であれば、正直なところその2つの大学のいずれかを目指すことを検討するべきです。スタンフォード大学は、数百億ドルの基金(エンダウメント)があるにもかかわらず、実際にはかなり劣悪な環境です。
それは私自身も教授たちとよく話す重要な問題です。学生がどこに進学するかを決める際、自分がどれだけの計算量にアクセスできるようになるのか、という問いを立てることは極めて重要だと思います。そして、おそらく教授だけでなく、学生たち自身にもアクセスできるGPUの数を尋ねるべきです。その方がより正直な答えが得られるからです。
OpenAIで働くために面接に来る人たちからも、自分がどれだけの計算量を使えるのか、と聞かれるはずです。働く場所を選ぶ上で、それは重要な要素ですよね。
そう思います。基本的には、会社が研究全体のためにどれだけの計算量を保有しているかを知りたがっています。質問されることは非常に重要ですが、実は私自身はその質問をそれほど頻繁に受けるわけではありません。人々はOpenAIが膨大な計算量を持っていると確信しており、その認識は正しいからです。しかし、人々が当然尋ねるべき質問であることは間違いありません。
アカデミアが計算量を獲得するための解決策は何だと思いますか。データセンターに対して、粒子加速器レベルのお金が投入されているわけではないのは明らかです。スタンフォードでMarloのリリースを待ちましたが、ようやくリリースされたとき、スタンフォードのCS全体で数百台のGPUという規模でした。
明確な答えは持っていません。一つには、大学が連携して大規模な実験を行うために協力し合う方法が考えられます。例えば、完全にオープンソースの、学術的な事前学習への取り組みなどが見られれば非常に素晴らしいと思いますし、それは競争力を持つ可能性もあります。ただ、課題となるのは、現在のAI研究の文化が非常に「2人の著者による論文」や、せいぜい「5人の著者による論文」というスタイルに根ざしている点です。このような大規模なプロジェクトを行う場合、全員の貢献をどのように文化的に正しく帰属させるか、という文化的な調整が非常に困難です。それが一つの課題ですが、アカデミアでインパクトを与える方法はこれだけではないということは強調しておきたいです。大規模な実験を行いたいのであれば確かにこれが現実的な課題になりますが、膨大な計算量なしでもできることはあります。
評価(eval)はその一貫した例として私がよく挙げるものです。正直なところ、OpenAIのような場所でも、サードパーティによる評価から多くの価値を得ています。皆さんも同意されると思いますが、ARGI3を作るためにある程度の計算量を使用したとしても、おそらくそれほど膨大な量ではないはずです。ARGI3のようなものが、学術機関で作られ得たと思いますか。
ARGI1はそうですが、2と3については、ディテールへのより多くの注意、資金、そしてスケールアップが必要になるため、難しいでしょうね。それに、メンテナンスコードを書くことで博士号を取得できる人は基本的にいませんから、どうしても次のバージョンのモデルを書く方向に行ってしまいます。
多くの人が、評価が与えるインパクトを過小評価していると思います。ダン・ヘンドリックスはその素晴らしい例で、彼は非常に高品質で優れた評価を作成することで、確固たる名声を築き上げました。それは、この分野でインパクトを与えるための非常に現実的な方法です。
私たちの研究室からは、例えばリーガルベンチ(legal bench)などが生まれました。本当に、ARGIは私の意見では最も高品質なベンチマークの一つですが、一人の博士課程の学生や、たとえ資金援助を受けた学生のグループであっても、ARGIが成し遂げたことを行うのは困難だったはずです。それは、フランソワ・ショレが投入した驚くべき量の努力、才能、知能、そして資金の賜物であり、アカデミアでは成し遂げ得なかったものだと思います。後から振り返れば、たくさんのゲームを作ってそれらが直交していることを確認すればいい、と言えるかもしれませんが、アカデミアの仕組み自体が、そのような協調された努力を報いるようにはなっていません。
アカデミアがこのような努力を報いないという点には、私も同意します。そして、これが変わることを願っていますし、おそらく変わっていくでしょう。もちろん、アカデミアから素晴らしい評価が生まれることもあり、OpenAIもそれらに注目しています。
AI査読と論文執筆の自動化
先ほど、カンファレンスの役割についての質問もありましたが、それがどのように進化していくかを見るのは非常に興味深いことです。現実として、多くの論文が現在、AIによって執筆されています。そして、多くの論文が現在、AIによって査読されています。私はこれを必ずしも悪いことだとは考えていません。アカデミアの人々とこれについて話すと、彼らは異口同終に、AIによる査読はそれほど素晴らしいものではないが、現時点における平均的な人間の査読よりはマシかもしれない、と言います。
完全に同意します。それは科学における大規模なアクター・クリティック(Actor-Critic)のようなものです。もちろん、すべてが適切に機能しているかを確認するために人間が介在していますが、査読者のばらつき(バリアンス)が以前はあまりにも酷かったため、全体としてはプラスに働いていると思います。
人間とAIを組み合わせるのが良い方法だと思います。すべての論文をAIに査読させ、致命的な欠陥があるかどうかを指摘させ、それを人間が検証するというアイデアは、実際にはかなり優れています。私たちはこのトレンドを目にすることになるでしょう。6ヶ月前の時点ではAIの査読はそれほど良くなかったかもしれませんが、AIは非常に急速に進化しており、最新のモデルであれば、論文の査読において非常に優れた仕事を行うことが期待できる段階に達していると思います。
同意します。特に参考文献を提示すれば、それらの論文に目を通して文献レビューを行うことも可能ですから、かなり良い仕事を期待できますね。現時点でそうでなかったとしても、今年の終わりまでには素晴らしい仕事をするようになっているはずです。
今や、大きなAIモデルすべてに論文を投入してフィードバックを得ることは標準的な手法になっています。自動査読のようなものですから、論文の中の小さな問題を絞り出すためにやらない手はありません。そして正直なところ、AIが論文を最初から最後まで完全に執筆するようになるまで、それほど長い時間はかからないと思います。すでにかなりの部分をこなしているかもしれませんが、実験を含めてすべてをAIが担うようになることへの障壁は見当たりません。それにはしばらく時間がかかるでしょうし、多くの作業が必要です。人間が優れたカンファレンス論文を執筆するのにどれだけの時間がかかるかを考えれば、少なくとも数ヶ月はかかりますが、私たちは確実にそこへ向かっています。
私はOverleafのクレジットを支払っていますよ。
オープンソースモデルと今後の展望
最後に2つ質問があります。世界におけるOpenAIの形状をした穴(OpenAIがオープンソースから離れたことによる空白)について以前議論しましたが、皆さんがウェイト(モデルの重み)の公開を止め、オープンソース化を控えるようになった一方で、再びそれに戻る兆しが少し見られました。世界における実質的なオープンソースモデルの標準として、DeepSeekやQwen 3、そして中国のモデル全般が登場していることについて、高いレベルでどのように考えていますか。
その領域は私の専門分野ではありませんし、私が決定を下すような事柄でもありませんので、付け加えられることはあまり多くありません。ただ、オープンソースには多大な価値があると考えています。優れたオープンソースモデルが世の中に存在することは重要であり、その空白が、私たちによって、あるいは他の誰かによって埋められることを願っています。
最後の質問です。あなたは過去10年間で途方もない成長を遂げ、多くのことを見てきました。AI以外の領域で、この10年間に経験しなければならなかった、最も困難で、最も自己成長を促された時期はいつですか。
AIの外部というわけではありませんが、2017年に行ったポーカーの大会は、私の人生においてかなり決定的な瞬間だったと言えます。当時、私は全く無名の大学院生で、この大会で成功を収めることができれば、それが非常に大きな意味を持ち、偉大な成果になることが明確に分かっていました。と同時に、そのためには莫大なハードワークが必要になることも理解していました。
2016年の初頭の時点で、成功への道筋がどのようなものであるかが非常に明確に見えていました。私はただ、1年間それを極めて激しく実行に移すしかなかったのです。その年、私は本当に多くの時間を費やしました。強力なポーカーボットを作るために、基本的にノンストップで働き続けました。自分のキャリアのすべてがポーカーの試合の結果にかかっているというのは、非常にストレスフルなものです。なぜなら、まず第一に、ポーカーは非常にばらつき(バリアンス)の大きいゲームであるため、自分のボットが本当に優れているかどうかが事前には分からないからです。ハンドを見るだけでは、それが良い仕事を thee end しているのか悪い仕事をしているのかを判断するのは困難です。
当時は、ストレステストを行うために人間のプロのポーカープレイヤーを大量に雇うほどの予算もありませんでした。以前のボットと対戦させ、バリアンスが非常に大きい中で勝率を正確に把握することはできませんでしたが、過去のボットに対してうまく機能しているという感触は得ていました。しかし、本当の課題は、人間が非常に適応力が高いという点にありました。実際に人間と対戦させたとき、彼らがボットの弱点に適応し、欠陥を見つけ出してしまうのではないかという恐怖がありました。そのため、本当にストレスの多い期間でしたが、幸いにも最終的には成功を収めることができました。
勝ったときはどのようにして祝いましたか。
すべてが本当に終わり、もうリラックスしていいのだと実感し、心が落ち着くまでには、おそらく数週間かかりました。お祝いをしてアルバに行ったりしたわけではなく、実際には特にお祝いらしいことはしなかったと思います。本当に最後の最後まで、自分たちが突然負けてしまうのではないかという疑念を拭いきれずにいました。しかし、終わった後にある人から、90%の努力を注いでも報酬が0%になることはある、と言われました。それは本当にその通りだと思います。何かを成し遂げるためには、時にただ懸命に働かなければならないという、素晴らしい人生の教訓になりました。
素晴らしいですね。本当にありがとうございました。エキサイティングな時間でした。
こちらこそ、お招きいただきありがとうございました。


コメント