Transformer論文の共著者でありGoogleとOpenAIで研究を担ってきたルーカス・カイザーが、AIの現在地を率直に語る。推論だけで汎化に到達できるのか、ポストTransformerの可能性、CodexやClaude Codeが研究現場にもたらした変化、強化学習の限界、オープンモデルとクローズドモデルの競争、そして機械学習研究の次のフロンティアを掘り下げる内容である。

推論だけで汎化に到達できるのか
推論だけで汎化に到達できるのでしょうか。それとも別の方法が必要なのでしょうか。もっとずっとよく汎化できる何か別のものがあるようにも感じます。なぜAnthropicがコーディングの面で最初に本当に成功したのだと思いますか。Anthropicはコーディングに集中するという、とても良い判断をしました。OpenAIはChatGPTをやっている、という感じでした。今後数年で、クローズドソースモデルとオープンソースモデルの間に見られる難しい差が広がるのか縮まるのか。これは妥当な問いだと思います。
ルーカス・カイザーはTransformer論文の著者の一人で、GoogleとOpenAIの両方で素晴らしい役割を担ってきました。Unsupervised Learningで、私は彼に、今日のAIでいま誰もが気にしている最重要の問いをすべて聞くことができました。もちろん、Transformerについて話さないわけにはいきませんでした。彼がその持続力をどう見ているのか、支配的なアーキテクチャであり続けるのか、その欠点は何なのかについてです。
また、秋に何が変わってコーディングモデルが本当に大きく改善したのか、そしてなぜAnthropicがコーディングで最初に成功したのかについても考えを聞きました。彼が非常にワクワクしている今後の研究方向についても話しましたし、オープンソースモデル対クローズドソースモデルからアプリケーション企業まで、エコシステムがどのように進化していくと考えているかについても多く触れました。この分野で多くの流れを生み出した研究をしてきたトップ研究者との回を、皆さんはきっと楽しんでくれると思います。では早速、ルーカスです。
Transformer論文の共著者をポッドキャストに迎えられるのは本当に光栄です。あなたはAIの世界における非常に多くの大きな変化の最前線にいたと思います。私たちの目的は、今日のAIフロンティアをめぐるあらゆる問いについて、あなたの考えを聞くことです。来てくださって本当にありがとうございます。
どうもありがとうございます。呼んでいただいてありがとうございます。
始めるなら、汎化以上にふさわしい場所はない気がしますよね。いま空気中に漂っている問いはそれだと感じます。11月にあなたが言っていたのを聞いたのですが、要するに大きな問いは、推論だけで汎化に到達できるのか、それとも別の方法が必要なのか、ということでした。たしかそれを言ったのはもう6か月ほど前で、AIの世界では犬の年齢みたいなものなので、何年も前のようなものです。その問いについて、あなたの考えはそれ以降どう変わりましたか。
いまのTransformerに推論があり、エージェントがあり、シェルなどにアクセスできるとします。そうすると、本当に驚くようなことができます。ここまで来たのは信じられないほどです。2年前でさえ、ましてTransformer以前なら、私は信じなかったでしょう。次の単語を予測するものを用意して、それにchain of thoughtを与え、RLをかけ、ツールを与えるだけで、私の場合は毎日Codexと何時間も話したり、他の人も同じように使ったりして、それが機能するわけです。仕事上の難しい問題について話すと筋が通っていて、実装もしてくれる。それは本当に信じられないことです。
一方で、これは私たちとは少し違う、という感覚があります。まだ到達しているはずの限界には届いていない気がします。私たちは皆、もっと良くなれるはずだと感じています。私たちはもっと少ないデータから汎化できますし、何というか、もっと大きな飛躍をして、ずっと少ない情報から概念をつかめます。
最近、私はこういう言い方をしています。人は、アメリカ人はあらゆる選択肢を使い尽くしたあとに正しいことをする、と言いますよね。LLMも概念を学びます。学ぶことは学びます。でも、あらゆる選択肢を使い尽くしたあとです。1兆トークンが必要で、表面的なことを全部学ばなければならず、それでも何かを説明できなくなって初めて、ようやく概念を学びます。私たちはそうやって学ぶわけではありません。私たちは概念をつかみます。時には自分で作り出して、それがあまり良くないこともありますが。
だから、もっとずっとよく汎化できる何か別のものがあるようには感じます。長期的には、少し違う形の理解を持てるようなものです。ただ、それは感覚なんです。それに、私たちがそこに指を置こうとするたびに、それは消えてしまうように見えます。あるいは、消えるというより、Transformerが追いついてくるんです。つまり、この間に両方の側が伸びました。Transformerはさらに良くなりましたが、別の何かが必要だという論拠もまた強くなったと思います。いまではポストTransformerを追求している研究所がいくつもあり、人々は興味深い結果を見ています。確かに面白いものがあります。ではどちらが勝つのか。正直なところ、私はまだ分かりません。両方に良い議論があると思いますし、これがどう進むのかを見るのは非常に興味深いでしょう。
ポストTransformerへの直感と人間の学習
リスナーにとって興味深いと思うのですが、あなたは最近のNearconでの講演でも、空気中に漂う気配のようなものに触れていましたよね。何かが進展していて、それに触発されて新しいラボや他の人々がスピンアウトし、既存のラボで取り組まれている支配的なアーキテクチャの代替になり得るものに取り組んでいる、というような話です。その感覚とは何なのでしょうか。初期の結果を見ているからなのか、それとも研究者の直感のようなものなのか。リスナーに向けて、もう少し具体的にしてもらえますか。
その多くは直感だと思います。ただ、注意は必要です。こういうことの多くはサンフランシスコのパーティーで起きますし、人々が互いに話します。あるいはポッドキャスト上で話します。だから、ある程度は自己増殖的なものかもしれません。ただ、その一部は非常に根本的だと思います。ヤン・ルカンは何年も前から、いまよりずっと前から、こういうことを言っていましたよね。
長い歴史の中で、私たちが持っているモデルはニューラルネットワークと呼ばれています。脳を模倣することを意図していたからです。でも実際には、脳をそれほど模倣していません。似ている部分はあるかもしれませんが、かなり違います。そして、人間がどう学ぶのか、人間に何ができるのかを見ると、私たちの現在のモデルよりもずっと少ないデータでずっと多くのことができる、と言わないのはかなり難しいです。ですから、学習機械としての私たちには、現在のモデルにはない根本的な能力があるように感じます。だから根本的には、そこには単なる雰囲気ではない何かがあるはずです。
反論としては、これらのモデルは常に1兆トークンで訓練されてきたが、人間はそうではない、ということが言えます。だから、少ないデータで訓練するようには最適化してこなかっただけだ、というわけです。同じ計算量があり、データが限られているなら、Transformerを調整して、今日よりずっと良くすることもできるでしょう。すると、なぜそんなことをする必要があるのか、と言う人もいます。私たちにはデータがあるし、いまやそれは大きな事業です。
でも、人間と同じくらい少ないデータで押し進めようとしても、やはり違うように感じます。そもそも人間は、視覚的なものや世界を動き回ることから多くのデータを得ますし、行動もします。ですから、データの種類が非常に違い、本当の意味では比較できません。だから、この点について非常に堅い科学的主張をするのは難しいのです。
それでも、機械学習にはまだ活用しきれていないものがある、という感覚があります。そしてもちろんワクワクするのは、もしその外にあるものを見つけられれば、私たちが持っているものをさらに驚くべきものにできるかもしれない、ということです。もちろん、そうではないかもしれません。データがこれほど多いと、その差は消えるのかもしれません。誰にも分かりません。ただ、研究者としての私にとっては間違いなく非常に興味深いですし、多くの人にとってもそうだと思います。
Transformerは魅力的でした。素晴らしいものです。推論もそうです。研究レベルの数学問題を解けるわけです。最近のERS関連の話は聞いていると思いますが、私は以前数学者だったので、これは非常に刺激的です。この時間軸で、コンピュータが本物の研究者のように高いレベルで数学について私と話すようになるとは思いませんでした。いまそれが存在しています。これはとんでもないことです。
でも研究者の立場に戻ると、分かりました、でもこの学習の部分はまだ本当に解明できていません、という気持ちになります。学習は確かにします。しかし、とても多くのデータが必要です。とても多くの計算量が必要です。これは、まだそこには到達していないように感じます。では、これはただの感覚なのでしょうか。ただの雰囲気なのでしょうか。ある程度は現実のように見えます。ただ、それは見ていく必要があります。
データ制約、物理世界、自動運転
それを解明する研究上の魅力は非常によく分かります。一方で、他の人たちはこう考えるかもしれません。人間のようでないとして、それが何なのか。データはあるし、機能する方法もある。もちろん、データが限られている領域、たとえば創薬など、より限られたデータから学べれば非常に役立つ分野はあります。でも、世界に存在する多くの問題は、実際にはそこまでデータ制約が強いわけではありません。時々、この両者は互いに話が噛み合っていないように感じます。ラボの人々はヤン・ルカンのような人に目を回す、みたいな感じです。
それは妥当な見方だと思います。ただ一方で、AIへの投資全体と進歩の速さを考えると、データ制約のない問題は非常に急速に解決されていきます。ですから、まもなく残るボトルネックはどれもかなりデータ制約のあるものになるか、すでにそうなりつつあります。特に物理世界でうまく機能するには、その一部を少なくとも解く必要があるように感じます。物理世界では、たとえば一つのロボットハードウェアで訓練したとしても、仮想世界やテキスト世界、インターネット世界のようにはデータがスケールしません。だから物理世界はかなり大きな部分を占めています。もちろん人々はシミュレーションデータや一人称視点の動画データといった、より安価なデータ源で試しています。
私はWaymoの大ファンなんです。いつも冗談で言うのですが、人々が自動運転車はどこにあるんだと言うなら、私は乗っていますよ、ここにありますよ、と。でも彼らは高速道路での走行を取りやめましたよね。また工事区間に対応できなかったからです。何年も工事区間の問題に取り組んできて、シミュレーションで何百万マイルも走り、実際の走行もかなりしているはずなのに、それでも高速道路の工事区間に汎化できないというのは、何かおかしい感じがします。何が正確にうまくいかなかったのかは分かりませんが、少なくとも10代の子にはこの問題はないと分かっています。人間にはありません。
私たちには他に多くの問題がありますよね。でも、街中の工事区間では運転できるのに、高速道路ではできない、という問題はありません。工事区間は工事区間ですから。
この種の問題の一部はTransformerの中で解決される、あるいは解決可能だと思いますか。今後数年で、この問いに対してより良い答えを得るために、何を見ているのでしょうか。
ML研究のワクワクするところは、それが非常に幅広いことです。アーキテクチャを調整する必要があるのか、データを調整する必要があるのか、損失を調整する必要があるのか、最適化プロセスを調整する必要があるのか、分かりません。そして、それぞれに妥当な議論があります。そのうえで、すべてをある程度調整する必要があると分かる可能性もあります。Transformerは素晴らしいですが、次単語予測の損失と一緒だからこそ素晴らしいわけです。RLでも動かせますが、chain of thoughtが必要です。こういうパズルは、組み合わせたときだけ機能するのです。
ですから、新しいものがあるとして、それにはあらゆる部分への調整が必要になる可能性があります。一方で、Transformerの一部が生き残る可能性もあります。たとえば、おそらくattentionはどこかに残るでしょう。でも、それに加えて別のものが必要かもしれません。
私は機械学習の人生をRNNから始めましたし、再帰性を心の深いところで大切にしています。構成要素として好きなんです。そして推論は、ある意味それを戻してきました。新しいトークンを生成するたびに、同じ重みがそれを生成しているからです。ある意味では戻ってきたわけです。ただ、このRLは非常に疎な損失で、とても多くのことをしています。それでも機能します。別の方法で再帰性をやろうとするたびに、なぜかまだうまく噛み合わないように見えます。
ただ、そこにはいつも、どれだけ本気で試したのか、という問いがあります。あなたやリスナーが知っているか分かりませんが、TRMやHRMのようなモデルがあります。非常に小さなモデルですが、Sudokuのような問題やARC-AGIでも非常に良い成績を出すことが分かりました。少しおもちゃのようなテストではありますが、かなりうまくいきます。多くのポストTransformerアーキテクチャは、これをLLMと融合しようとしているのだと思います。確かに面白いです。純粋なTransformerではそれほど得意ではありませんが、再帰性を少し足し、アーキテクチャ上の調整を少し加え、損失を少し変えると非常にうまくいく。小規模でも多くのことができます。
ただ、それが言語に汎化して、望むものを与えてくれるのか。そこは非常に興味深いところです。幸いにも、それを試しているラボはいくつもあります。
エージェントが研究者の働き方を変える
もう一つ、今年はエージェントがあります。私にとってこれは、ML研究者としての働き方において、ここ20年でおそらく最大の変化です。
定量化しようとするなら、どれくらい生産性が上がったと思いますか。
かなりうまく定量化できます。最近、個人用のマシンで、昔からずっと興味があった古い論文をいくつか再現しようとしました。自分の論文でコードを失ってしまったものもあります。そのうち少なくとも一つは以前にも再現しようとしたことがあり、実行可能な状態にするまで約3週間かかると分かっていました。Codexでは2日でそこまで行けました。つまり、だいたい1週間が1日になる感じです。10倍なのか5倍なのか、当時の私がもっと速くできたかもしれませんが、確実にリズムが変わります。
ただ物事に取り組めるようになります。それに、3つのことを並行して始めて走らせておけます。以前の私は通常、一つのことだけをやっていました。だから速くなるだけでなく、より並列になります。
私が個人的なものをやるとき、本番リポジトリではない場合、基本的にはコードを見るのをやめました。友人に、いまは鋭さが落ちたと思うか、と聞かれました。少し考えたのですが、実際には逆だと思います。すべてのクラス名や小さな関数を見るわけではないからです。ただ、こうしたエージェントは脱線し得ることを私は知っています。ある時、何かを実行したら、補助損失のようなものがいくつかあって、モデルが別の補助損失を加えるべきだと考えて、勝手に追加しました。それは完全に的外れで、場違いでした。
ですから、何をしているのか、損失は何か、何がどう動いているのかを頭の中で完全に制御しておく必要があります。ただ、クラス名が何か、関数内の正確な単語が何かまで制御する必要はありません。エージェントを信頼できること、つまり自分が考えていることを本当に実装していると信頼できることは、かなり印象的です。もちろん時々確認しますし、実際にそうなっています。
ただ、機械学習的に実際に何が走っているのか、損失は何か、バッチは何か、そういうことを頭の中で完全に把握しておく必要があるので、むしろ以前より自分がやっていることに対する精神的な制御は増している気がします。以前なら自分で実装していましたが、実行する前に大局が正確に何だったかを少し忘れて、小さなことに集中し、デバッグして、それから大局に戻る必要がありました。その時点で細部を忘れていて、間違ってから思い出すこともありました。
いまは美しいことに、フローの中にいられます。機械学習的に何が起きるべきかを考え、それを伝え、確認し、実際に起きる。ですから、単に時間が節約されるだけではありません。仕事そのものがとても心地よくなります。研究者の間では、ちょっとした精神病のようなものですね。止められないんです。
OpenAIはかなり公に、今年11月までに研究レベルのインターンのようなものを目指している、と言っていましたよね。研究でCodexをいつも使っている立場から見ると、その水準に近づいていると感じますか。それとも、そのマイルストーンについてどう感じていますか。
インターンに近いとは感じます。ただ、非常に注意深く確認する必要があります。さっき言ったように、合理的に見えるからという理由で、頼んでいない損失を勝手に追加することがあります。インターンがそうするかは分かりません。創造的な時には、たまにはあるかもしれません。
時々私は試します。夜の間に走らせておいて、目標を与えるんです。このパープレキシティを下げるために、より良いモデルを作って、と。それは一度もうまくいきません。非常に些細で、あまり面白くも役にも立たない調整を始めるだけです。だから、研究者の水準には確実にまだ達していません。
では、そこを良くする道筋は何でしょうか。
それは最初の問いに戻ります。私は長い間、機械学習における長いコンテキストに取り組んできました。Transformer以前にも、記憶などについて取り組んでいたと言えます。その後、Transformerでもそれに取り組み、コンテキストは長くなりました。attentionがやっていることを考えれば、100万トークンというのは巨大です。
でもエージェントでは、長いコンテキストへの解決策はgrep、あるいはripgrepのように本当に感じます。つまり、ファイルに大量のことを書いておき、grepにアクセスさせて見つけられるようにする。インデックスファイルを書かせる。小さなライブラリのようなものです。もちろん研究者としての私に、5年前にそれを言われたら、そんなの解決策ではなくハックだ、と言ったでしょう。でも機械学習では、あらゆるものがある意味ハックです。dropoutもそうです。私たちは見た目では判断しません。機能するものを採用します。そして、それは驚くほどうまく機能します。
少しRLを加えます。たとえば圧縮です。私がClaude CodeよりCodexを好きな理由が一つあるとすれば、それは圧縮です。スレッドを続けていけて、圧縮がうまい。なぜ圧縮がうまいのか。あまり神秘的なことではないと思います。人々がうまくプロンプトし、それに少しRLをかけて、ただうまくするわけです。数年前の私に、長いコンテキストは、少しRLしてツールを使い、ファイル内のものを見つけ、文脈を保つのに十分な要約をさせればよい、と言ったら、私は、分かりました、それは応急処置であって、深いものには感じませんね、と言ったでしょう。
でも、私たちは解決策を見た目で判断しません。機能するかどうかで判断します。そして、それは本当にうまく機能します。では、それは研究者になれるのか。こう言う人もいるでしょう。たぶん無理だ、新しいアーキテクチャが必要だ、もっと大きな概念を持ち、目標を追跡するポストTransformer的なものが必要だ、と。それは妥当な議論です。現時点では、それを解けるようには感じません。
一方で、こう言う人もいます。Codexと1か月会話し続け、その会話を見返してメタパターンを見つけ、それをファイルに書き出し、どう使うかを考えさせる。そして1000人分のデータがあり、それにRLをかければ、研究者のように振る舞い始めるかもしれない。ある意味では、研究者もそうやって学びます。他の人がどう研究しているかを見て、自分で少し試し、何がうまくいくかを見るわけです。
なぜそれが今うまくいかないのでしょうか。きっと人々は試していると思います。
まだ本気では試されていないと思います。プロンプトをいくつか作って、それが自分には効いているという人はいます。ただ、私にとってCodex時代が始まったのは今年、あるいはクリスマス頃です。もちろんCodexは以前から存在していて使っていましたし、Claude Codeも存在していて、その一部も使っていました。でも、誰もがクリスマスの頃に何かを感じたと思います。新しいモデルだけではなく、ハーネスやいくつかの調整も関係しています。まだ半年ほどしか経っていません。そして私たちのサンフランシスコAIバブルから少し外に出ると、まったく分かっていない人もまだ多いです。あなたは少しおかしくなっているけど、なぜそんなことをしているのか、という感じです。それは妥当な問いだと思います。
でも、それが機能し始めたのは本当にごく最近です。私たちは何がそれほど変えたのか、本当には理解していません。それほど大きな事前学習が変えたわけではありません。大きな事前学習も来ましたが、RNNからTransformerに移ったときは、その変化をこれだと非常に簡単に帰属できました。いまは、推論があり、それが明らかに重要です。しかし、昨冬、クリスマス頃の変化は、何がそれを引き起こしたのかを特定するのが少し難しいです。ハーネスが変わり、小さな事後学習が変わり、その後新しい事前学習済みモデルが来て、もちろん物事を良くしました。でも大きなジャンプに感じられた一方で、何がそれを起こしたのかを突き止めるのは簡単ではありません。
少し混沌としているんです。私たちは常にあらゆるものを改善しています。でもそれが機能し、とても重要に感じられるからこそ、人々に届け、どこでも機能させ、宣伝する必要もあります。競争が進んでいます。だから、このすべての中で、人々はまだ本当に、メタレベルでどうやるのかを考える時間がなかったのだと思います。人々は始めていますが。
また、メタレベルというのは、1週間研究して、いくつかのパターンを得て、それを適用し始めるようなものです。これは何週間もかかる必要があるように感じます。残念ながら、現在の強化学習手法では、基本的にこれに対するロールアウトを全部実行する必要があります。ロールアウトが何週間もかかるなら、訓練は何か月もかかり始めます。それは少し非現実的になります。これは、ポストTransformer、つまり人間側には学ぶべき何かがある、という論拠なのかもしれません。
明らかに、人間は何年にもわたって研究できます。そして、それを人生で一度やるわけです。あるいは二度かもしれません。数学者の中には一つの問題に20年費やす人もいます。それが代表作で、それで終わりです。つまり彼らは、20年かかる問題を200個経験してから学んだわけではありません。それでも何とかやり遂げます。これはどう機能しているのか。明らかにこの話に関係する、とても魅力的な問いです。
私たちはまだそれを解明していません。ただ一方で、多くの人がそれを使って働くようになるので、これから数週間から数か月にわたる人間のデータを大量に集めることになります。誰かがそれでRLを走らせるでしょう。そして、それが実際にさらに進ませることが分かるかもしれません。
RL、検証可能性、汎化のギザギザさ
それは非常に興味深い点です。つまり、あなたが言うように、人々が事前学習をスケールさせていた時や、初期の推論モデルをスケールさせていた時には、スケールさせるベクトルはある程度分かりやすかった、少なくとも筋が通っていました。そして、クリスマス頃にCodexとClaude Codeで起きたこの大きな進歩について、その源泉が何なのか、完全には明確でないとすると、能力をさらに改善するために何を押すべきかを判断するのは非常に難しくなります。
はい、少し混乱します。ただ、私が知らないからといって、誰も知らないという意味ではありません。何がそれを押し上げたのかについて、より強い意見を持っている人もいると思います。でも現時点では、それほど明確ではないと思います。しばらく改善は続いていましたが、何かが起きました。以前はこのようなことが可能だとは感じられなかったのに、いまは可能に感じられます。現在のスケーリング体制、RL側の体制においてです。
多くの人が持っている問いの一つは、コーディングや数学のような検証可能な領域で、明らかに大量の改善が見られていることです。そしてRLをめぐる大きな問いは二つあるように感じます。一つは、非検証可能な側でどれだけうまく機能するのか。もう一つは、各領域ごとに大量のデータを集め続けなくても済むほど汎化が得られるのか、という点です。まず一つ目からいきましょう。非検証可能な領域で解くべき問題について、どう考えていますか。コードや数学の次に来る領域について、何か兆しはありますか。
非検証可能な側でもかなり進歩があったと思います。たとえばHarveyのような法律の分野や、医学の分野を見ると、それらは検証可能ではありませんが、その中には検証可能な部分がたくさんあります。だから、かなり進歩しています。GDPvalは、ある意味でそうしたものもベンチマークする指標の一つだと思いますし、これらの領域で進歩するための非常に良いインセンティブもあります。
それらを非検証可能と呼ぶのが完全に公平かどうかは分かりません。確かにコーディングや数学ほど完璧に整ってはいません。コードや数学ではありません。ただ、数学については、人々はその検証可能性を過大評価していると思います。コードは、プログラミングコンテストのような意味ではかなり検証可能です。フロントエンドのコーディングなどに行くと、そこまで検証可能ではありません。それでも数学の場合、証明はそれほど簡単でもきれいでもありません。Leanを使うことはできますが、少なくともGPTから出てくる数学のほとんどは形式化されていません。だからそこまで検証可能ではありません。
つまり、それはスペクトラムです。そして物事は徐々に検証可能性が低くなっていきます。私はポーランド語に詩を翻訳するという個人的なプロジェクトを持っていました。これはかなり検証不可能に見えます。でも、モデルを検証器として走らせると、かなり多くのことを捉えます。韻などを捉えますし、文化的参照も捉えられます。人々が以前どのように物事を検証してきたかを読むと、ある程度の検証可能性に到達できることが分かります。
ただ、その詩の試みが示そうとしていたのは、多くのことを検証できても、それでもまだ趣味やセンスがない、ということだと思います。検証可能ではないので、それを言葉で説明するのは簡単ではありません。もし言葉で説明するのが簡単なら、それは検証されているでしょう。でも、そこに存在しないという意味ではありません。読んだ時に、脳の中の何かが、やはり何かが欠けているという考えを強めるのです。
私たちはある意味、意図的にこの穴に自分たちを追い込んできました。強化学習とは何でしょうか。教師、検証者、これは良い、これは悪いと教えてくれる誰かがいる時、それに対して訓練すれば私はうまくなれる、というものです。モデルもそうします。だから私が、これはあまりセンスよくできていないと思う、と言うと、誰かが、では見せてください、と言い、それに対してモデルがうまくやるわけです。
画像生成でも似たようなことをしている人がいると思います。これは美しいかどうかと聞く。検証可能ではありません。でも訓練中に、大勢の人にこれは美しい、これは美しくないとクリックしてもらえば、案の定、画像はより美しくなり始めます。だから検証可能性というものは、とても弱い概念です。非常に疎な信号でしかありません。これは良いか、良くないかを人に聞くことはできます。
では、なぜ私はこれをあまりセンスが良くないと思うのでしょうか。それは明らかに、私の経験や、それを処理してきた何らかの方法が、いま私にそう言わせているのです。では、なぜモデルはそれを言わないのか。可能性は二つあります。一つは、モデルがそうするための経験を十分に見ていないこと。もう一つは、それを正しい方法で処理していないことです。私は実際には両方だと思っています。
ただ、処理の仕方が現状のままだとしても、経験を増やし、1000人にそれを伝えてもらえば、モデルは良くなります。つまり、穴があれば、そこを叩くことである程度は埋められます。でも、それをしなくて済めばどれほど良いでしょうか。穴を一つ埋めると、それはボトルネックではなくなります。そして次に現れるボトルネックは、まだ埋めていない穴になります。私たちはこの面白い循環の中にいます。
でも、もし穴埋めがそれほど多く必要ない、脳のような方法があったら、素晴らしいと思いませんか。
それはつまり、現在のアーキテクチャのもとでも、誰かがある問題領域に集中すれば、どんな領域でも解けるということを意味するのでしょうか。ただ、あなたの言うように、それはキュレーションされたデータを必要とし、はるかに手作業が多く、将来的にあり得るもっと美しい方法よりずっと大変だ、ということなのでしょうか。現在のRL手法ではモデルには難しすぎる、という問題や領域の集合は特にないのでしょうか。
そのようには感じません。ただ、経済性を考慮する必要があります。現在、これらのモデルを本当にうまく動かすには、かなり強力なモデルから始める必要があります。それはかなり大きく、高価です。そのうえ通常はクローズドなので、本当に自分で扱うことはできません。OpenAIのRLファインチューニングAPIはかなり気に入っていますし、似たものもありますが、本当の意味で完全にアクセスできるわけではありません。APIがあっても、少し難しいことがあります。
さらに、データなどに必要な投資はかなり大きいです。簡単にはできません。会社が必要で、契約が必要で、いろいろ必要になります。重要性が十分に高ければ、それは妥当な方法です。でも、モデルに話しかけるだけで、それが自力で機能してくれたら素晴らしいですよね。
さまざまな領域で取り組んでいく中で、一般的な能力向上の兆しはありますか。たとえば、まずコードから始め、次に数学をやり、次に法律や医療をやるという世界を想像できます。それぞれを一つずつ取り組めるわけです。たとえ横断的な汎化が得られていなくてもです。理想的には、多くの異なる領域で強化学習を行った後、あるレベルで、あるいは事前学習のどこかで汎化が現れるのではないかという期待があると思います。
私は強化学習の中でも汎化は現れると思います。
つまり、すでにモデルは全体的に良くなっていると思うのですか。
はい、確実にそうです。たとえば法律を見ると、法律はRLパイプラインにはまったく入っていないと思います。それでもHarveyなどに話を聞くと、それは自然に現れるか、あるいはほんの少しの訓練、上に数回触れるだけで突然つかむと言います。だから、汎化は確実にあります。
ただ、その汎化は私たちが望むほど遠くまで行かないように見えます。あるいは、時々私たちが期待する形では機能しません。数学から数学の他の領域にさえ汎化しないことがあります。IMOを見ても分かります。いまではモデルがIMOを解くのは遠い昔の話のように感じますが、長い間、特定のタイプの問題、たとえば幾何が解けませんでした。他の領域では非常に難しい問題を解けるのに、幾何については、ああ、これは空間理解がないんだな、と思っていました。すると、より多くのデータを見て、解けるようになり始めました。ただし、空間理解のデータや物理データではなく、単に幾何の問題をより多く見ただけです。
そこにはギザギザがあります。ここからここへは汎化するけれど、とても近く見える別のものには汎化しない。なぜかchain of thoughtの表現の中では、それは私には近くてもモデルには近くないのです。つまり、汎化していないわけではありません。汎化しています。ただし奇妙な異星人的な形で汎化している。そして、それは私ができる汎化のいくつかをカバーしません。より多くのデータがあれば、この空間をもっとカバーするようになる可能性はあります。
ただ、そういう状態だと信頼しにくい、コミットしにくいと言う人の気持ちも分かります。モデルがまだ得ていないスパイクがあるかもしれないからです。問題に注意していなければなりません。ML研究者として使っていると、私はそれによってとても正直でいられます。鋭く保たれます。その意味では良いのかもしれません。でも能力という観点では良くありません。そうした鋭い角がないことを期待したいわけです。そして今のところ、それはあります。
アプリケーション企業、巨大モデル、ハードウェア
モデルが良くなることで恩恵を受けるアプリケーション企業について触れました。いまアプリケーション企業であるなら、ラボの一つと非常に密接に協力して、評価やドメイン理解を共有すべきなのか、それとも情報をもとにほとんど自社モデルを構築するほうが良いのか、という大きな問いがあると思います。コアモデルの上にあるアプリケーションの余地について、現時点でどう考えていますか。
確実に言えるのは、事前学習済みモデルが大きく、より良いほど、こうした鋭い角は少なくなり、一般に人生全体が楽になるということです。RLをするにせよ、ファインチューニングをするにせよ、何をするにせよ、大きなモデルでは物事が楽になります。これがずっと成り立ち続けているのは本当にすごいことです。
1年、2年前を覚えているか分かりませんが、人々はLLMは終わった、SLMが未来だ、小型モデルだ、と言っていました。そして最近のGemmaのように、数十億パラメータの素晴らしい小型モデルがあります。GPT-3の頃、人々は1000億未満ではゼロショット学習はできない、と言っていました。でも今は3Bモデルがあり、本当に素晴らしいです。それはすべて素晴らしいことです。
ただ、本当に大きな問題を簡単に解き、自分のデータやコンテキストに適応させたいなら、巨大なモデルに勝るものはなさそうです。もちろん、それらは高価で、使うのも難しく、訓練するのはさらに難しいです。
リスナーにとって興味深いと思うことの一つは、最先端の外にいる人にはあまり明らかでないかもしれませんが、新世代のハードウェアによって何が可能になるのか、という点です。そこについて少し話してもらえますか。たとえばBlackwellチップがオンラインになるのを待っていたら、実際にオンラインになってモデルが良くなった、ということがあります。どこまでが、以前はハードウェア上できなかったことを大量にできるようになったからなのか、どこまでが単なるタイミングの相関なのかはいつも判断が難しいです。これは、ハードウェアが良くなるにつれてこれらのアーキテクチャも良くなっていくのか、という話にも関係していると思います。
ハードウェアは良くなります。そしてハードウェアは単純です。FLOPSとメモリアクセスです。FLOPSに供給するために十分速いメモリが必要です。非常に単純に、性能と呼べます。
最近、私は自分用のパソコンを手に入れました。個人用に1台買って、5090 GPUを買いました。1枚のGPUで机の下にあるだけです。何ができるのだろう、という感じでした。それで少しテストをしてみたのですが、考えてみると本当にすごいんです。5090は約200テラFLOPSです。400と書かれていますが、BF16では一部がオフになっているので。
私たちがTransformerを研究していた時のGPUは9テラFLOPSで、8GPUのマシンでした。実効スケールでは、1台あたり70から80テラFLOPSくらいと言えるでしょう。いま私は机の下に、そのマシン5台分くらいのものを1枚のGPUとして持っています。しかも、そのほうがずっと便利です。私たちはたしか10台くらい使っていたと思います。つまり、Transformer研究のすべてを、数千ドルのGPUで机の下でできたかもしれない。キッチンに置けるような普通の小さなタワーでできるんです。まだ10年も経っていないのに、これはかなり驚くべきことです。
今はすべてBF16で走らせていますが、もちろん精度をさらに下げることもできます。特にMoEでは、推論時にもっと詰め込めます。これは素晴らしいことです。これらのモデルを実行する能力は劇的に向上しました。そして、それは研究できることも増やします。今では非常に多くの興味深いやり方を実行できます。
また、GPUの数も増えています。大手ラボは世界中で構築を進めています。非常に高速なGPUを大量に使って、巨大なモデルを訓練できます。Nvidiaはペースを維持していますし、GoogleのTPUもペースを維持しています。本当に急速に高速化しています。その数も増えています。そしてこれは非常に並列化しやすいプロセスです。だから私たちは、はるかに大きなモデルをはるかに速く訓練できます。それは素晴らしいことです。
ただ、それ以上に興味深いのは、私たちがもっと研究できるようになることだと思います。Googleに入った頃、人々が、脳のようなことをするにはどれくらいのFLOPSが必要なのか話していたのを覚えています。とても曖昧な問いです。脳を本当にシミュレートするのは不可能かもしれないし、まだはるかに難しいかもしれません。それでも人々は何十年も推定をしていて、だいたい1から100ペタFLOPSの間に落ちていました。当時、そこに到達するには数十年かかるだろう、という感じでした。
いまは単一のGPUを買えます。これはかなりすごいことです。そういうものを一つ持てる。そしてクラウドでは、それをたくさん積んだマシンを使えます。潜在的には、人間の1年分の処理のようなものを1日で走らせることができるかもしれません。もちろんコストはかかります。ただ、それは何百万ドルというコストではありません。そのアルゴリズムをもしかしたら見つけられると信じるなら、数百から数千ドルのコストです。
もちろん、人間が持っているデータを私たちが持っているのかは疑問です。子どもの記録を取ろうとしている人たちもいます。どれほどうまくいくか、たくさんの問いがあります。ただ、大学の誰かが、基本的に幼少期のようなものを走らせられるレベルに近づいています。脳がどう学習するかについてアイデアがあれば、それを走らせて、数日で人間の10年分の学習全体を実行し、それが機能するかどうかを見られるかもしれません。評価方法が分かっていればですが。
これは、巨大モデルを作れるという事実よりさらに強力だと思います。巨大モデルを作れることも強力です。なぜなら、それらがこのすべてを実装する手助けをしてくれるからです。そしてループができつつあります。私はたとえばRNNでは常に制約を感じていました。非常に逐次的なので、Torchでそのまま走らせると非常に遅いのです。特別なCUDAカーネルを書けば非常に速くできます。でもCUDAカーネルを書くのはひどく大変です。本当にやりたくありません。ただし、遅い実装とまったく同じことをするというユニットテストがあり、それを書いてくれるエージェントがいるなら別です。彼らはまだ驚くほど上手というわけではありませんが、すでにできます。そして、より大きなモデルはおそらく非常にうまくなって、あなたはこのハードウェアを最善の形で使って、と言い、数時間後に戻ってくると、できています、となるでしょう。
つまり、ハードウェアが自分のアイデアに合わないことによるボトルネックがありました。もちろんハードウェアは依然としてハードウェアです。何でもできるわけではありません。並列である必要があります。でも、以前よりはるかに多くのことができます。エージェントにカーネルを書いてもらえるからです。
非常に面白いですね。一部の人は、計算資源のスケールがごく少数の場所にしかないので、基礎研究はできるとしても、最終的にはその技術がスケールするかを見るところで勝負が決まる、だからラボにいないとそれを経験できない、と言います。でも、アカデミアや趣味でやっている人、単一GPUでいじっている人たちがここに貢献できる機会について、あなたがかなり前向きなのを聞けるのは素晴らしいです。
特に、根本的な変更をするべきだと信じているなら、そうだと思います。
それが事実である可能性は、そうでない可能性より高いと思いますか。
日によりますね。前向きな日にはそう思います。研究は常に美しいものをもたらしてきました。これからもそうならない理由はありません。ただ、私たちが持っている技術も非常によく機能しているので、それもまた驚くべきものです。それらを押し進めないのは大きな間違いでしょう。幸い、十分なラボがあります。
アカデミックであることの醍醐味は、ラボに入る前に私はアカデミアにいましたが、自分のアイデアで大胆にやれることだと思います。そこまでスケールアップすることはできませんが、低いスケール、いまではそれほど低くないスケールで、本当に大胆にできます。現在のパラダイムから完全に外れた美しいアイデアを試せますし、そうするべきです。それが研究者であることの楽しさです。
もちろん、多くはうまくいきません。小規模ではうまくいっても、スケールアップしないものもあります。ただ、現在の8GPUマシンのスケールでは、もちろん、あるスケールまでは機能してその先では機能しないアイデアは常にあるでしょうが、5年前よりはるかに高いレベルにいると思います。5年前は本当に小さな小さなものが多かった。非常に小規模な調整が多かったのです。いまは1台のマシンでさえ、もはや小さな調整ではないスケールに到達しています。
私は個人的にアンドレイのnanochatを使っています。GPT-2レベルのモデルで、1台の箱で数時間あれば得られます。最近、残念ながらこうした箱は少し高くなっていますが、新世代のGPUが来れば古いものは安くなるでしょう。実際にできることは本当に驚異的です。もちろん、そのすべてがスケールするわけではありません。でも、その過程で得られる楽しさは本当に大きいです。
マルチモーダルモデルの現状
もう一つ研究フロンティアについて、話題を変える前に意見を聞きたいです。マルチモーダルモデルについてです。以前のポッドキャストで、あまり大きな進歩はしていないと言っていたと思います。今もそう感じていますか。マルチモーダルの世界について、現在の状況をどう見ていますか。
人々は確実に進歩しています。これは少しJEPAの方向に近い話かもしれませんが、Transformerや拡散モデルでマルチモーダルをやる方法は、結局は周囲のあらゆるピクセルを予測するようなものです。私がここにいて環境の中にいると考えると、人間は毎秒、あるいはもっと短い単位で、驚くほど大量の情報を感知しています。ただし、ニューロンは遅いので、私たちはそんなに速く作用しているとは言えません。数百ミリ秒の処理をしています。でも、私たちは常にあらゆる感覚を受け取っています。そして、たぶんすべてのピクセルを自己回帰的に予測することなく、この狂ったようなストリームから何とか学んでいます。それはずっと並列的で、ずっと大きなものです。
だから、私たちが持っているモデルは、まだ本当の意味でこれに応えられていないと感じます。新しい研究が必要かもしれません。ただ、似たものもあります。Thinking Machinesが最近、マルチストリームTransformerのようなものを出していました。とても簡単に感じますよね。Transformerでは前のトークンに注意を向けます。複数のストリームがあり、それぞれがそれをすることもできるでしょう。それはアーキテクチャへの簡単な調整のように感じます。でも、簡単な調整でありながら、驚くべき調整かもしれません。
私はCodexなどで作業している時、何かを言い忘れて、それを言います。でもその時、向こうはbashコマンドを実行中です。だから私の指示を受けるには待たなければならず、3分かかります。これはまったくインタラクティブではない、と思います。本来なら、別のサイドの処理があるべきです。そこにもハックはいくつかあって、多少は良く感じられます。でも、当然すべてのことはあらゆる場所で同時に起きるはずです。私たちはここで見て、話して、同時に聞いています。モデルもそう振る舞うべきです。いま大きなラボがそこに圧力をかけているので、おそらく来るでしょう。
ただ、私たちはそれなしにマルチモーダルをやっているように感じます。本当に並列で、高解像度画像を吸収するためのアーキテクチャ上の変化なしにです。現在のTransformerは、その速度では高解像度画像を1ミリ秒ごとに吸収できません。画像を分割して、その処理が非常に逐次的だからです。それはどこかおかしい感じがします。小さなパッチを置いていくべきではないように感じます。何かが入り、何らかの形で処理されるべきです。
だから、より深いレベルでは、まだそこに到達していないと思います。一方で、多くの人が取り組んでいるようにも感じます。コーディングにとってそれがどれほど重要かは、言うのが難しいです。
確かに。きっと来るでしょう。
OpenAIでの転換点と推論への賭け
少し話題を変えて、OpenAIでの時間やそこでの歩みについて話したいです。明らかにここ数年は非常に出来事の多い時期でした。誰もが思い浮かべる瞬間がいくつかあると思うので、あなたの視点を聞きたいです。OpenAI側について、あなたがいた時期に会社を本当に定義した難しい意思決定は何だったのでしょうか。
私は最初期のことは知りません。自分がいた時期について言えば、ある時点で推論へピボットするかどうかという大きな問いがありました。会社、リーダーシップ、そして私たち全員が実際にその賭けに踏み込み、推論は事前学習と同じくらい重要になる、私たちのモデルは推論モデルになり、それをローンチすると言ったのは、非常に勇気のあることだったと思います。
最初の頃、推論モデルはそれほど会話的ではありませんでした。なぜかパーソナリティが難しかったのです。遅かったですし、今でもある程度は遅いです。そこで、そもそもこれをやるべきなのか、人々はチャットモデルのほうを好むのではないか、という感じでした。でもOpenAIは、この難しい賭けを受け入れて、はい、これをローンチする、この方向に進む、と決めるのが非常に上手でした。
同時に2系列のモデルをどう管理するかを考えなければなりませんでした。それは明らかにひどいことです。統一したいわけです。その統一には時間がかかりました。あらゆるものが動いているからです。非常に難しい決断です。でも、もしそこを押し進めていなかったら、いま私たちが持っている素晴らしいものの多くはあり得なかったかもしれません。そして、いまでも一部の大きなラボでさえ、RL品質に追いつくのに苦労しているように感じます。何かにコミットすると得られる勝利があるのです。
最近、OpenAIはその後おそらく20倍くらいに成長し、ずっと大きな会社になりました。すべてのラボもそうです。Googleは以前から大きかったですが、Anthropicも今では大きくなりました。私は以前Googleに長くいたので思うのですが、大企業がそのような大胆な賭けをするのはずっと難しいです。失うものがはるかに多いからです。プロセスもありますし、ただ難しくなります。
OpenAIがこの能力を保ち続けることを願っていますし、他のラボもそうであってほしいです。現在の技術は素晴らしいです。非常に遠くまで私たちを連れていってくれます。でも、もしポストTransformer世界の火花があったとしたら、これらのラボはそこに飛びつけるでしょうか。それとも、より保守的な側に立つでしょうか。
推論については初期の火花がいくつかあったように感じますが、当然データは大量にはありませんでした。そして、倍賭けすればこれはうまくいくという、ほとんど宗教的信念のようなものだったと表現されているのを聞いたことがあります。後継となるものはまだありません。少なくとも私は知りません。でも、それが現れるという希望はあります。新しいラボがそれを押し進める必要があるのでしょうか。それとも、OpenAIができるのでしょうか。OpenAIは何より、大胆な賭けが得意だと思います。
Neolabsの流れ全体を見るのは、明らかに興味深いですよね。ジェリー・トゥーレックのような人たちがスピンアウトして、大きなラボの外でこうした仕事をするほうが、ある意味ではやりやすい、一つの強い確信に基づいた賭けをしやすい、と言っています。
それは妥当な点です。確かに妥当な主張です。ただし、GPUの数を見始めると、ラボの外にいるのは少し悲しいです。手に入れるのが難しく、とても高価です。でもGPUがすべてではありません。
このエコシステム全体があるのはとても良いことです。いまは小さなラボもあり、大きなラボもあります。このAIの小さなバブルの中にいると、非常に楽しいです。そこでは明らかに、膨大な競争があり、変化が来ていて、現在の道筋でさえまだ使い尽くしていないことが見えます。まだやるべき技術がたくさんあり、データや改善もたくさんあり、より大きなモデルの訓練もあります。そして、泡立っている新しいものもすべてあります。まだ準備ができていないかもしれませんが、かなり良いリソースで非常に活発に追求されています。
それからサンフランシスコの外に出ると、人々はAIをまるでCodex以前の昨年のものとして扱い、もう二度と変わらないかのように見ている気がします。それは間違った扱い方です。私にとって、このコーディングエージェントは非常に大きな啓示で、なかなか受け止めきれないほどです。私はそれをAGIと呼びます。AGIを何と呼ぶかは人それぞれです。いつか私たちはチューリングテストを通り過ぎたように、AGIも通り過ぎるかもしれません。チューリングテストについて、もう合格したのかしていないのか、あまり議論しませんよね。誰が気にするのでしょうか。コードを書いているこれらのものは、明らかに知的です。コーディングにおいて、議論の余地なくそうです。
AIコーディング競争とAnthropicの集中
AIコーディング戦争はいま非常に激しいですよね。最終的に、どのAIコーディング製品が勝つかを決めるものは何だと思いますか。それぞれはどうやって互いより良くなるのでしょうか。CodexやClaude Codeの次のフロンティアをどう見ていますか。
コーディング市場は、2人のプログラマーがいても十分なほど大きいと思います。もっと大きな問いは、それらが他の分野へどれだけうまく行けるかだと思います。コーディングは素晴らしく、私たちにとって重要です。でも多くの人の仕事をこなすこともできるはずです。
現在のCodexについて、私は何人かの友人に勧めようとしました。でも以前は最初に、あなたのGitHubリポジトリは何ですか、と聞いてきました。それで多くの人が切り捨てられます。今は少し親しみやすくなっていますが、それでもCodexと呼ばれています。だから人々には、これは会計士のためのツールだ、というふうには聞こえません。ChatGPTではただ何かを言えばよかったのに対して、Codexには少し慣れが必要だと思います。コード側に行くならClaude Codeはさらにそうです。
だから、この力を他の職業や場所の人々にどう届けるかという問いがあります。それがより重要な問いかもしれません。AnthropicはClaude Codeを使って、基本的にコアのコード製品のより親しみやすい版を作ろうとしています。
能力は確実にあると感じます。MLの人間として、これらがそういうことをできるのは明らかです。Excelも明らかにできます。あれもこれも明らかにできます。ただ、私はやはり鷹のように見ています。これを手に入れるには、ある程度のスキルを投入する必要があります。これは完全に学べるスキルです。でも、人々は日々忙しく、必ずしもそれを学びたいわけではないことも理解しています。だから、それを何らかの形で滑らかにする必要があります。
ただ、根本的には、それを監視せずに走らせっぱなしにできるようになるとは思いません。そうしたいとも思いません。一方で、最初からものすごく優秀だったとしても、あなたはそれをしたいとは思わないでしょう。信頼を得る必要があります。だから問題は、人々にその信頼を得るための努力を始めるよう、どう説得するかです。それは報われます。ただ、コーディング側にはハードルがあります。
なぜAnthropicがコーディング側で最初に本当に成功したのだと思いますか。
Anthropicはコーディングに集中するという非常に良い判断をしたのだと思います。これはOpenAIが、私たちはChatGPTをやる、という感じだった時期です。もちろんChatGPTは素晴らしいです。でも、Anthropicがこの判断をした理由の一部は、チャットでは競争できなかったからだと思います。そして、他に何をするかについて非常に良い判断をしました。
これはAIが経験する激変に戻ります。今日あるものではない何かに賭ける必要があります。今日あるものが素晴らしいとしてもです。ChatGPTは素晴らしくないのかと言えば、もちろん素晴らしいです。それは2025年で最も驚くべきAIでした。でも明らかに2026年の最も驚くべきAIではありません。2027年にはまた別のものがあるかもしれません。物事はすばやく変わります。別のものに良い賭けをすれば、勝つことができます。
OpenAIがコーディングをやらなかったわけではありません。やっていました。だから比較的速く追いつくことができました。ただ、それは焦点ではありませんでした。こうした会社は小さなものです。10億人のユーザーに成長すると、やることがあります。ですから、どうしても分散してしまいます。
焦点を絞ることと広く探索すること
いま機能しているものを極めることと、別の領域に希望の火花があった時にそこへ倍賭けできるように他の領域を開いておくことの間には、ほとんど緊張関係のようなものがあると話しました。そこについてどう見ていますか。OpenAIは非常に公に、いま焦点を絞るモードに入っているように思います。そしてCodexの結果にもそれが見えますし、Soraなど別のものを削ったことにも見えるかもしれません。今ここにあるものを本当に極めることと、将来非常に面白くなり得る別の火種を残しておくことの緊張を、どう舵取りすべきだと思いますか。
それは文化、規模、お金、視点の問題です。有名なのはGoogleです。Googleはすべてを保ち続けるラボです。Googleに対して、自分たちの発明を逃した、それを自分たちで活かす側になれなかった、とかなり批判的な人もいます。でも、それはGoogleには機能しています。良いものが出てきた時、すでにその分野に強いチームがあるので、追いつくのが非常に簡単だからです。
彼らは追いついたと思いますか。まだ少し遅れていると主張する議論が多いように感じます。
ChatGPTの世界では追いついたと思います。まだ追いついていないのは、たとえばAntigravity 2を見たか分かりませんが。
ええ。IOの後に開きましたが、Codexとどちらがどちらか分からないくらいでした。もちろん、その件については面白いツイートもたくさんありました。そこは素晴らしいです。ただ、新しい3.5 Flashで自分のCodex的な作業をいくつかやろうとしたのですが、うまくいきませんでした。クリスマスに越えた壁を、まだ越えていないように感じます。でも、いずれ越えるでしょう。
ですから、非常に広く構えていると、後で追いつく必要がある時にはより安全になります。ただその代わり、Anthropicとコーディングのように、最初にそれをものにするという目先の勝利は得られないかもしれません。最初にうまくやるラボがあるのは素晴らしいことです。それは刺激的ですし、そうあるべきだと思います。
OpenAIには賭けをする良い文化がありました。ただ、いまはより大きな存在でもあります。GPTには10億人のユーザーがいます。世界中の多くの人にとって重要です。Google検索には30億人のユーザーがいます。世界中の多くの人にとって重要です。そうしたものを妨げたくはありません。速く進むべきです。でも、物を壊しながら進むのはあまり良くありません。ラボが道中ですべてを壊さないのは、むしろ良いことだと感じます。
クローズドモデルとオープンモデルの差
多くの人が、クローズドソースモデルとオープンソースモデルの間の差について考えています。そこには二つの異なる力が逆方向に働いているように見えます。一つは、モデルを蒸留するのが比較的簡単に見えることです。中国のオープンソース側で、クローズドソースプロバイダーを相手にそうしているという主張も多く見られます。もう一方では、大手ラボ内でさえ、これらのモデルはどんどん提供するには大きすぎるものになっているように見えます。だからラボ自身の中でも蒸留しなければなりません。今後数年で、クローズドソースモデルとオープンソースモデルの差が広がるのか縮まるのか、あなたの直感はどうですか。
予測するのは簡単ではありません。大きなモデルは良いです。蒸留はできますが、蒸留モデルは決して完全には同じではありません。素晴らしいです。特にお金のためにモデルが必要な場合には素晴らしい。でも、大きなモデルほど良くはありません。さっき言ったように、3.5 Flashは5.5と同等だとはあまり感じられませんでした。蒸留されたProだからかもしれません。Proを待つ必要があるのかもしれません。
同じラボ内でもそうです。たとえば私は、miniモデルをいつ使ったか覚えていません。mini系は非常に良いと思いますし、とても有用です。ただ、しばらく使っていません。使うとしばらくは問題ないのですが、つまずいた時に非常に多くの時間を奪われるので、大きいモデルに戻ります。
蒸留はできます。オープンソースも蒸留するかもしれませんし、しないかもしれません。ラボは当然、すべてを蒸留されないようにしようとしますが、死ぬ気で戦うというほどでもないと思います。オープンソースが非常に大きく遅れたモデルしか持たないとしたら、とても悲しいでしょう。でも、そのリスクはないと思います。十分な数の企業があります。そして今では、主権的なモデルという考えもあります。
国の立場なら非常によく分かります。たとえば警察署や病院が、事務処理を助けるためにAIを使うとします。障害を起こすかもしれない一社に頼りたくないかもしれません。だから、たとえ少し弱くても、タスクがそれほど難しくないなら、主権的なモデルを求める人々は多くいるでしょう。したがって、オープンモデルが存在し続けるだけの十分なインセンティブはあると思います。そしてラボ側には、先を保ち続ける非常に強いインセンティブがあります。人々はそのためにお金を払い続けます。だから、この状態はしばらく続くように感じます。
ただ、AIやテックでは、そういう予測は有名な最後の言葉になり得ます。何かを言って、それが違っていることもあります。将来予測はしたくありません。
もちろんです。でも、ゲストに将来予測をさせようとするのがポッドキャストの仕事ではないなら、何なのかという話です。とはいえ、すべて非常に筋が通っています。
1年で考えが変わったことと安全性
私たちはいつもインタビューの最後に、幅広い質問をたくさん詰め込むクイックファイアの時間を設けています。まず、過去1年のAI世界で、考えが変わったことを一つ挙げるなら何ですか。
間違いなく、こんなに早くインターンのようなものが出てくるとは思っていませんでした。そこについては確実に考えが変わりました。私は実際、以前は毎日AIとそれほど話していませんでした。人々によく、ChatGPTをどう使っているのですか、と聞かれていました。私は、昨日1回質問して、その3日前に1回質問したくらいです、と答えていました。自分はコンピュータとそんなにたくさん話すことはないだろうといつも思っていました。でも今は仕事について話しています。だから、そうですね。
それに、プログラミングにエディタを使わなくなるとは思っていませんでした。今は使っていません。コードを変えて、と言うだけです。それは大きな更新でした。
素晴らしいです。ここ数年、これらのモデルにより近いところで働いてきて、これらのモデルの安全性や実存的リスクに関する懸念は上がりましたか、それとも下がりましたか。
私にとってはあまり変わっていないと思います。私はいつも、それほど心配しすぎてはいないけれど、油断もすべきではないという側でした。今でもそう感じています。今のモデルはプログラミングなどのスキルを持っていますが、私が今注目すべきだと思うのは小さなリスクです。たとえば私たちのシステムをハッキングする、電力網を停止させる、といったリスクです。今焦点を当てるべきなのはそういうリスクだと感じます。
実存的リスクがないと言っているわけではありません。それについて考えている人たちがいるのは良いことです。ガードレールを持つのも良いことです。最終的には、私たちがそう決めたなら、こうしたデータセンターを止められるべきですし、そのすべてを制御できるべきです。ただ、モデルがはるかに良くなったとはいえ、私はそれらから脅威を感じてはいません。
ラボ側では、先週の話題として、アンドレイ・カルパシーがAnthropicに行ってRSIに取り組むチームに入る、というニュースがありましたよね。それについてどう見ていますか。
私はこの精神病の一部です。こうしたアシスタントを使うと、本当に多くの研究ができます。それは素晴らしいことで、やるべきです。そしてシステムの多くの部分も、ずっと速く、良くできます。それは確かにそうです。
一方で、ポストTransformer的なものについて考えると、アイデアの空間は広大で、残念ながらそのほとんどは間違っています。だから研究と呼ばれるのです。正しいものに出会うには、莫大な運とスキル、そしてやはり運が必要です。私たちはそれが空気中のどこかにあるのではないかと感じています。でも、それは研究です。何年も先かもしれません。そして世界最高のAGIがあっても、人間レベルかもしれないし、研究者レベルかもしれないし、10倍の研究者になるかもしれません。それでも何年もの間、巨大な研究者コミュニティがこれらを解こうとしてきて、できなかったのです。だから単に非常に難しいのかもしれません。
人間の脳についても、私たちはまだほとんど理解していません。そして、それを私たちのMLにうまく接続することもまだできていません。ですから、一方では素晴らしいと思います。現在のものは良くなっていくでしょう。ただ、研究上のブレークスルーを考えるなら、非常に効率的に探索していて、興味深いアイデアを探索していたとしても、それでも見つかるとは限らない何かが必要かもしれません。すべてのアイデアの空間はあまりにも広大で、非常に効率的な探索でもそこに到達できないことがあります。だから、私はこれについて実存的にそれほど心配していません。
面白いと思ったことの一つは、正しければ、あなたのTransformer論文の共著者たちは全員、会社を立ち上げていますよね。あなた自身がそれを考えたことはありますか。
それは本当に何度も何度も聞かれました。今のところ、私はそうしなかったことにとても満足しています。Googleでの時間もOpenAIでの時間も素晴らしかったと思っていますし、そこにいて、その仕事ができたことは特権でした。私は技術的な仕事が大好きです。会社を始めた人は誰でも、会社の仕事にそこまで多くの時間を費やさなくてよいかもしれないと思ったことがあるでしょう。でも実際には、そうしなければならなかったように見えます。ただ、時には会社が素晴らしいことを成し遂げることもあります。
研究者へのメッセージ
非常に魅力的な会話でした。最後の言葉はあなたに残したいと思います。リスナーに紹介したいものや、残したい考えはありますか。マイクはあなたのものです。
ありがとうございます。すでに言ったと思いますが、繰り返したいです。いまは、机の下に置ける強力なGPUがあり、コーディングエージェントがその限界まで押し進める手助けを本当にしてくれる時代です。そして、大きなものはすべてTransformerを押し進めていて、それは素晴らしいことです。Transformerは素晴らしいからです。でも、同時に、別の何かがあり得るという気配もあります。機械学習の研究者であるには、いまがなお、そして再び、最も刺激的な時代だと思います。
私は皆に、自分のアイデアを試し、他の人から学んでほしいと思います。どちらかといえば、もっと野性的なものを発表すべきだと感じます。多くの論文が、事前学習済みモデルを取り、少し違うやり方でRLしました、というものになっているのを見ると、少し寂しく感じます。それは良いことです。でも、すでにあるものに追いつく必要はありません。新しいことをしてよいのです。たとえ小さく始まっても、最初はうまくいかなくてもです。
Attention Is All You Needの前に私が出した論文について、誰も私に話しません。それはYou Don’t Need Attentionというものでした。その前年に、attentionをactive memoryで置き換えればよい、という論文を書いたんです。あまり良い助言ではありませんでした。でも、間違ったものを探索する必要があります。それが正しいものに導くかもしれないからです。そしてこれは、モデルがまだ非常に苦手としていることでもあります。ジェリーが押し進めようとしているのはそこだと思います。モデルは、完全に間違った方向から学び、それを実際に正しいものへとねじることが非常に苦手です。それは私たち人間が今でもとても上手にできることです。
だから、もっとやるべきです。失敗しても、野性的な探索をするべきです。今は、エージェントなしで自分の努力を大量に注ぎ込むと、失敗した時にとてもつらいです。でもエージェントがあれば、もっと簡単になると思います。だから皆さんには、研究探索をしてほしいです。失敗してください。この点に関しては失敗してください。それが、興味深いものに到達する方法です。
素晴らしいですね。終えるには完璧な言葉だと思います。ポッドキャストに来てくださって本当にありがとうございました。楽しかったです。
呼んでいただいて本当にありがとうございました。
私はジェイコブ・エフロンです。これはUnsupervised Learningです。AIで最も賢い人々と話し、モデルに何が起きているのか、それが企業や世界にとって何を意味するのかについて、たくさん質問するポッドキャストです。伝わっているとよいのですが、私はこれを本当に楽しんでいます。Redpointの投資家としての本業に加えて、夜と週末に取り組んでいるプロジェクトです。
でも、こうした素晴らしいゲストを迎えられるのは、皆さんがポッドキャストを購読し、友人と共有してくれるおかげです。それこそが最終的に、この全体を機能させているものです。ぜひそうしていただければと思います。そして、支援して聴いてくださって本当にありがとうございます。次回のエピソードでお会いしましょう。


コメント