マイクロソフトリサーチのアクシャイ・クリシュナムルティと一緒に、AI学習の20年を90分に凝縮する

Claude 3.7 Sonnet使用。一回の出力量がおおよそ倍になった印象。Grok3に負けてない。
31,922 文字

We condense 20 years of AI learning into 90 minutes with Akshay Krishnamurthy of Microsoft Research

We explore the depths of AI research with Akshay Krishnamurthy, a senior principal research manager at Microsoft Researc...

破滅的忘却というのは難しい問題です。工学的な問題、あるいは研究の問題かもしれませんが、以前の情報を失うことなく新しいデータをモデルに取り込む方法についてです。これらのモデルには破滅的忘却と呼ばれる問題があり、これはトレーニングの過程で発生します。あるデータセットでモデルをトレーニングして、新しいデータセットを入手し、そのデータセットでトレーニングすると、古いデータセットの情報を忘れてしまうのです。なぜそうなるのか、人々は本当に理解していません。
なぜ理解できないのですか？モデルには1兆のパラメータがあり、何をしているのか全く明らかではないのです。
このようなプログラム可能なボードを見たことがありますか？ある会社から購入するボードで、特定の設計があって、家に置くことができるものです。みんな全く同じように組み立て、穴にはLEDがついています。そうです。そしてアプリがあるので、特定のライトセットをオンにすると、それが特定のクライミングルートになります。いいですね。ジムにはそういうのがあって、それがすごく難しいので、私たちはそれをもっとうまくできるように頑張っています。とても良いトレーニングツールです。
それはいいですね。トレーニングといえば、私たちみんなの頭の中にあるトピックだと思いますが、あなたをお招きした理由の一つは、このディープラーニングやニューラルネットなどについて少し理解を深めたいからです。AEは私たちの知る数少ない深い学習をしている人の一人です。まず初めに、あなたの経歴について少し教えていただけますか？どのようにして、大学時代からエンジニアリングをされていたと思いますが、機械学習の道をどのように進むことになったのですか？
良い質問です。実は、大学に応募した時、生物工学とコンピュータサイエンスのどちらをするか迷っていました。なぜかというと、若い頃に海洋生物学などが本当に好きだったので、それが良い道かもしれないと思い、そこで面白いことが起きていると思ったからです。結局、なんとなくコンピュータサイエンスを選び、それが好きになりましたが、計算生物学の研究を始めました。つまり、生物学的問題を解決するために計算ツールを使うというものです。
実際には大学院に応募して、もしかしたら…少し戻りますが、ある時点で、卒業後にスタートアップをやるのが私の道だと想像していました。アービンと一緒にハッカソンなどをやって、それが私が進むと思っていた道でした。テック企業や小さなテック企業でいくつかインターンシップもしました。しかし、それが実際には信じられないほど退屈だと思ったので、やりたくありませんでした。企業が退屈だということではなく、インターンに提供するものが少し退屈だということです。インターンは誰も望まないこと、または優先度が高くないことを任されますよね。
どこでインターンされていたのですか？マイクロソフトが買収した会社、テルミー・ネットワークスというところとVMwareでインターンしました。
コーディングをしていたのですか？ソフトウェアプロジェクトをやっていたのですか？はい、そうです。ただ、社内のことをやらされることが多いです。エンジニアが時間のないことで、「インターンにやらせよう」というような感じのものです。だから完全に最も興味深いことではなかったです。
それはVMwareが非常に注目されていた時期でした。最終的には買収されて本当に大きな会社になり、EMCに買収されましたが、当時はかなりホットな会社でインターンするには良かったですね。そこにいた時、基本的に私のチームは一日に2時間くらいフーズボールをしていました。それは楽しいですが、私が一生やると想像していたことではありませんでした。フルタイムの人たちも含めてです。
とにかく、それにはあまり興味がなかったので、研究をすべきかもしれないと決めて、計算生物学をするために大学院に応募しました。いくつかの場所に合格し、訪問して、あなたと一緒に仕事をすることに興味がある教員と話をしました。しかし、彼らと一緒に仕事をすることに興味がないと決めました。なぜなら、計算生物学では、彼らは生物学的発見に興味があり、計算方法にはあまり興味がないからです。単純なことをするだけで生物学的に興味深い結論に到達できれば、彼らはとても喜びます。しかし、それは新しい方法を考え出したり、アルゴリズムを設計したりするほど私の興味を引きませんでした。
アルゴリズムを考え出すというのはどういう意味ですか？それは何を意味するのですか？それについては後で話します。例えば、これらの計算生物学の問題の多くは、実験を行って大量のデータを収集し、そのデータから結論を引き出すために何らかのデータサイエンスやモデリングをする必要があります。ただ見て目視するだけではできません。たとえば、あなたの体のすべての細胞のゲノムを配列決定したとしたら、これは膨大なデータ量で、あなたが何か病気を持っているかどうかを理解したいとします。
単純なことをするだけで、例えば線形回帰を行って、これを解明できるとしたら、それは私にとってはあまり興味深くありません。データセットにさらに構造を抽出するための良いモデルを考え出すこと、それが私が考えていた興味深いアルゴリズムの種類です。これは基本的に機械学習の人々がやっていることです。彼らはアルゴリズムを設計し、特定の問題領域には特にこだわりません。だから私はそれをすることにしました。そして機械学習の大学院に進みました。
私は、AIがどのデータを収集するかを決定できるような問題に非常に興味がありました。例えば、システムのどこで測定をすべきかを選ぶことができる状況では、測定を非常に効率的に使って、必要な情報を抽出するために、測定場所について非常に計画的であることができます。
例を挙げてもらえますか？二つ挙げます。一つは大学院で取り組んだものに関連していますが、湖の汚染物質を測定しようとしているような場合です。水中にプローブを落として、その場所の周りの水についての情報を得ることができますが、ただランダムにプローブを投げるのではなく、いくつかのプローブを投げて、どこかに信号があるか見て、その後、より多くの信号がある場所の近くにプローブを投げるべきです。情報がある場所にローカライズするべきです。これを、最初の測定ラウンドから得た情報を使って、次の測定ラウンドをどこで行うかを決定するというマルチステージのプロセスで行うべきです。
これは基本的に人間ならこのタスクをどのように行うかですが、実際には多くのアルゴリズムがそのようにはしません。なぜなら、複数回の測定にはオーバーヘッドがかかるからです。理解できますね。つまり、初期のデータポイントセットを使って、次のデータポイントセットをどこに置くかを最適化する方法をアルゴリズムに教える方法を見つけようとしていたわけですね。非常に統計的なことですね。
はい、非常に統計的です。そして、これは問題の構造によって異なります。汚染物質が小さな範囲に留まり、任意に拡散しないと想像すると、測定スキームをどのように設計すべきかを考慮する必要があります。
もう一つは、今私が取り組んでいることに近いもので、今日ホットなトピックである強化学習です。強化学習は、エージェントが環境と相互作用して環境に関する情報を収集する状況です。人々が今これを使っているのは、推論モデルを構築するためです。推論モデルは答えを試して、それが正しいかどうかを確認し、それに基づいて質問に対する別の答えを試みます。理想的には、過去に見たことについての情報を使って、どの答えを試すかについてより戦略的であるべきです。同じ答えを二度と試すべきではないことは確かですが、関連する答えも試すべきではないかもしれません。
フィードバックはどうやって、それがうまくいったかどうかを伝える真実の源はどこにありますか？それは良い質問です。今の生成AIでは、質問と答えが含まれる厳選された数学問題のデータセットを取ります。エージェントは質問を読み、問題を解くために計算を書き、最終答えを書きます。最終的な数値答えがデータセットにあるものと一致するかを確認し、答えが正しければエージェントに報酬を与えます。
理解しました。YouTubeを例にとると、彼らがビデオコンテンツでよく行っているのは、ビデオからピクセルをたくさん削除し、実際のビデオコンテンツを知っているので、アルゴリズムにビデオの代替品がどのように見えるべきかを推測させて、それがOKかどうかを判断することです。テキストの場合は、次の単語を推測させ、実際のテキストデータベースに基づいて正しい確率を見ることが多いですね。
そうですね。これは強化学習とは呼びませんが、両方とも行われています。
言語モデル、GPT4やGeminiのようなものは、最初の段階では、インターネット上のすべてのデータを収集し、ニューラルネットワークをトレーニングして、文章の最初の10単語を取って次の単語を予測するようにします。完全な文章があるとします。これをインターネット全体で大規模なネットワークで行います。多くのトリックがありますが、基本的にはこれが行われます。確率的な方法でトレーニングされ、モデルは次の単語が何かについての分布を出力し、実際の次の単語に対して、分布下での確率が非常に高いことを望みます。
これは事前トレーニングと呼ばれています。ここで興味深いことがいくつかあります。一つは、実際には人々はインターネット上のすべてのデータを取るのではなく、データを非常に慎重に厳選しています。また、この合成データという事を行っています。GPT4に質問をして、GPT4からの回答を得ることで、事前トレーニングのコーパスを調整できます。
事前トレーニングに使用するデータを生成しているのですね。しかし、それは単なる二重カウントではないでしょうか？それはどうやって新しい情報になるのですか？古い厳選されたデータのコーパスから生成されたものですよね？数学的には同じ情報になるのではないですか？新しい情報ではないですね。
同意します。それは同じ情報です。これは競合他社が追いつこうとしていることです。しかし、すでにそこに到達した人を超えて加速することはできません。これはおそらくディープシークが速く良くなる方法です。彼らは既に先行している人を見て、その出力からトレーニングします。実際、オープンAIがディープシークに対して訴訟を起こしているという話を聞きました。皮肉なことに、オープンAIはニューヨークタイムズのテキストやRedditなどの書かれた言葉からトレーニングしています。
だから彼らは本当に立場がないですが、同時にこれは後発の競合他社がより速く進める理由です。彼らの合成データは、これらの他のモデルによって事前に厳選されています。
それでも何か非自明なことがあります。GPT4にどのような質問をして良い回答を得るべきかを理解する必要があります。データの混合はどうあるべきか、数学はどれくらい、物理学はどれくらい、文学はどれくらいなど。数学の質問の中でも、どれを尋ねるべきかを決める必要があります。非自明な点があります。また、GPT4は推論が高価なので、世界中のすべての質問を尋ねることはできません。どの10万問を尋ねるべきかを選ぶ必要があります。
一つ質問させてください。GPT4のような初期に市場に出たモデルで、多くのユーザーベースがある場合、人々が自然言語の質問をGPT4に入力し、システムとの対話からどんどんトレーニングデータを得るというメリットはどれくらいありますか？質問をして、それに対する応答に基づいて、それが正しいか間違っているかをフォローアップで判断できるかもしれません。あるいは、修正を求めた場合など。これは強化学習の第二段階として使っているのでしょうか？
はい、それはより強化学習の部分に近いです。実際のところは正確に知りませんが、彼らはこのデータをまったく使用していないと聞いています。
本当ですか？あなたや私がGPT4を使って質問をしているデータを使っていないとおっしゃっているのですか？でもそれは非常に強力なはずではないですか？もしあなたがオープンAIなら、そのデータを使って何をトレーニングすべきかを理解したいですよね。多くの質問がされている領域があり、結果が良くない場合、それを改善したいと思うはずです。Googleのように、検索ログを使って何がトレンドになっているか、最も重要なものは何かを理解し、より良い仕事をするようにするようなものです。
おそらく彼らはそれをしているのでしょうが、どの程度これが自動化されているかは分かりません。彼らはログを見て、人々がモデルのどこに不満を持っているかを理解しようとしているでしょう。しかし、これは人間が関与している可能性があります。人間が「あ、もっと数学的知識やケン凸最適化の知識などが必要だ」と言うスクリプトを実行し、事前トレーニングチームに戻って「凸最適化のデータをもっと生成できますか」と言うようなことかもしれません。
今何と言ったのですか？凸最適化とはどういう意味ですか？それはあなたの研究に関連していますか？それは数学のトピックですが、重要ではありません。それは基本的に勾配関数の底に到達することです。
ただのランダムな数学のトピックですね。重要ではないというわけではなく、それがあなたの脳に浮かんだことに興味があります。それが彼らがやっていることでしょうと。
違う質問をしてもいいですか？「いいね」ボタンのような相互作用がないのは驚きです。彼らはそれを持っています。UIに親指を下に向けるボタンがあります。それほど大きくはありませんが、親指を上に向けたり下に向けたりすることができます。
私がノーションにいた時、彼らはGPTとノーションを統合しました。ノーション製品でそれを使用する際の反復で、回答に対して親指を上や下にすることができました。彼らがそのデータを戻して共有していたのか、あるいは内部で最適化するために使用していたのかは分かりませんが、それも一部です。
凸質問から生産的に発展させる質問として、あなたの研究は現在何を見ているのですか？これとの関連で、大量の数学をしていることは知っていますが、それはどのように関連していますか？説明してもらえますか？
前の質問に答えてみましょう。これらのモデルはこの選好データを収集しています。時々GPTに質問をすると、2つの回答を生成して、どちらが好きかを尋ねることがあります。彼らはそれをしばらく持っていました。その場合、何が良い答えかは明確ですが、以前の情報を失うことなくこのデータをモデルに取り込む方法は、エンジニアリングの問題か研究の問題です。
これらのモデルには破滅的忘却という問題があります。これはトレーニングの過程で起こることです。あるデータセットでモデルをトレーニングし、新しいデータセットを取得して、そのデータセットでトレーニングすると、古いデータセットの情報を忘れてしまいます。なぜそうなるのか、人々は本当に理解していません。
どうして理解できないのですか？モデルには1兆のパラメータがあり、何をしているのか全く明らかではないのです。結果から忘れていることが分かるのですね？結果からそれが分かります。
私の同僚は以前、非常に単純な問題で実験を行いました。例えば、これらの写真に猫と犬がいるかを判断するような非常に単純な問題です。彼はデータセットの半分でトレーニングすると、そのデータセット部分で90%のパフォーマンスが得られることを確認しました。例えば、データセットには夜の猫と犬、日中の猫と犬の2つの部分があるとします。夜の猫と犬でトレーニングすると、夜の猫と犬において90%のパフォーマンスが得られます。その後、日中の猫と犬でトレーニングすると、最初のパフォーマンスは失われ、2番目のパフォーマンスは向上します。しかし、すべてを一度に混合してトレーニングすると、均一に良いパフォーマンスが得られます。
モデルには最近のバイアスがあるのですね。そのとおりです。情報を取り込みたいけれど、どうやってそれを行うか分からないという問題があります。情報は明確にあるのですが、どうすればいいのか分からないのです。パラメータを望ましくない方向に過度にシフトさせる可能性があります。
彼らがするかもしれないことの一つは、次の完全なトレーニング実行、つまりGPT5をリリースする際に、これまでの選好データをすべて使用することです。なぜなら彼らはどうせ言語モデルトレーニングの第2フェーズでそれをやっているからです。彼らはモデルを調整するために選好データを使用しています。GPT5ではそれを使うかもしれませんが、破滅的忘却の問題のため、モデルを継続的に改善するフィードバックループは行っていません。
興味深いですね。それは人間にも類似しているような気がします。以前に違うことを学んだ後に何かを学び直すと、最近学んだことに対してより偏りがあります。
もう一つこの点について言っておきたいのは、多くの場合、報酬信号が何であるかが明確ではないということです。毎回GPTに質問をするたびに2つの回答を提供して、親指を上下に向けるように求めるのは良くないUIになると思います。彼らが望むのは、会話を通じて、会話がうまくいっているかどうかを推測することですが、これは実際に難しい問題です。あなたと私が会話をして、最後にそれが良かったかどうかは分かりません。時々、それが良いか悪いかを判断するのは非常に難しいです。
ある場合には判断できるというストーリーを思いつくことができますが、これを大規模に自動化する必要があります。
一つ興味深いことは、私たちはこれらのエピソードを録音して、オンラインに投稿し、視聴者のクリックスルーフィードバックを少し得ていますが、それもSEOと混ざっていたり、私たちの視聴者が一致しているかどうかなど、99%はアルゴリズムによって誰に表示されるかに関連していますね。
ですから、フィードバックからそれをインデックス化すると、会話がどれだけ興味深かったか、または答えがどれだけ正確だったかなど、必ずしも関連していない誤った信号を得る可能性があります。それをどう判断するかは興味深いですね。
あなたは全くその通りです。これは大手テック企業すべてが抱える問題で、マイクロソフトのエンジニアの40%がこれに取り組んでいると思います。ユーザーとの対話から私のシステムがうまくいっているかどうかをどう測定するかという問題です。検索やパーソナライゼーションなどを行う時、20人のチームがこれが何かを理解しようとしています。しかし、自由形式のテキストに関しては、はるかに難しいと思います。高いレベルでは人々がこれに取り組んでおり、それを行う多くの方法がありますが、一般的な自由形式のテキストに関してはそれが取り込まれているかどうかは分かりません。
少し戻りましょう。研究をあまり深く理解していない人のために、本当に最初から始めました。あなたの経験では、これらのモデルのパフォーマンスとそれらがどのように商業化されてきたかなどの前後を見てきたと思います。機械学習の世界で過去10年間くらいに何が起きて、今や毎日の人々がこれを日常的に活用しているような記念碑的な変化を見てきたのですか？
この質問にどう答えるべきか分かりません。ディープシークのような地殻変動的な変化について話しているのではなく、GPTの瞬間のようなものについて話しているのですね。オープンAIが最初に市場に出したので。何が彼らにとって今では実用的な製品として使用できるようになったポイントに到達できたのでしょうか？技術的な鍵は何だったのでしょうか？
実際のところは分かりません。人々が言うことは、それはただスケールだということです。歴史を見ると、2015年頃に画像データセットで非常にうまくいったブレークスルーがありました。これは基本的に非常に標準的なディープラーニングモデルを取り、標準的な方法で大量のデータでトレーニングしたものです。モデルは大きくなければならないかもしれません。
その後、GPT-2がありました。これはかなり合理的な言語モデルですが、非常に小さく、そんなにたくさんのテキストでトレーニングされていませんでした。次にGPT-3があり、これはより大きなモデルでより多くのテキストでトレーニングされました。GPT-4にはたくさんの詳細がありますが、大きな図では、コンピュートが高く、モデルが大きく、データが大きいというスケールがあります。
ハードウェアも、それが起こるために一致したことの一つだったようですが、それについて話していただけますか？2015年の画像のことが出てきた後、私はBlackbirdという会社で働いていて、画像認識の商業化に取り組んでいました。NvidiaのGPUが機械学習やソフトウェア面だけでなく大きなブレークスルーだったように思われますが。
それについてはあまり詳しくありませんが、ハードウェアについては、良いハードウェアなしでは大きなモデルをトレーニングできません。私の理解では、あなたはこの分野で働いていましたが、NvidiaのGPUをこれに使用できることに誰かが気づいた時点はありましたか？それともそれは常にあなたが持っていたツールの一部だったのですか？
それは常にツールの一部ではなかったと思います。長い歴史では、これらのニューラルネットワークは60年代、70年代、80年代に非常に人気がありました。その後、それらは決して盛り上がらないという信念があり、AIの冬と凸法の台頭がありました。これらはニューラルネットワークではありません。そして2010年頃から徐々にファッションに戻ってきました。これは計算ツールの改善によるものだと思います。Pytorchについて聞いたことがあるでしょうか？PytorchはディープモデルのトレーニングのためのPythonのライブラリです。また、より大きなデータセット、より良いCPUとGPUインフラなどのためです。
このディープラーニングは、良いコンピュート、良いハードウェアがないと機能せず、今は良いハードウェアがあるので機能し始めました。基本的に信者たちはそれを押し続けましたが、他の多くの人々は嫌いになり、他のことをやり始めました。
元々の信念は何に基づいていましたか？生物学的脳を模倣したいという考えでしたか？そしてそれが人工知能の最良のモデルになるでしょうか？
そうだと思います。個人的にはまだそう思いますか？それが人工知能への最良の道だと思いますか？
今はそうではないかもしれません。人間とのつながりのためではなく、モデルが現在のハードウェアと共進化しているようなものです。
別の質問をしてもいいですか？十分な規模でニューロンのセット、つまり他のノードに接続され、信号を前後に送るノードを配置すると、その設定から知能が出現すると思いますか？それは情報フローのタイプや接続、そしてあなたが話している強化の結果としての創発的な特性ですか？
確かではありません。質問を正確に理解していません。このような場合には、何らかの外部の信号が必要です。ニューロンは真空の中にあることはできず、何らかの形で世界と相互作用する必要があります。一部のニューロンは何らかの感覚体験についての情報を獲得し、それを他のニューロンに伝播する必要があります。
ある意味では、これらのモデルでは、トップレイヤーのニューロンが次にくる単語についての情報を獲得し、それを他のニューロンに伝播させているのです。これは基本的に真実かもしれませんが、スケールの問題もあります。悪いアーキテクチャだと、良いアーキテクチャよりも指数関数的に多くのニューロンが必要になるかもしれません。それは違いを生むでしょう。すべてが成長していても、ギャップが指数関数的であれば到達できないのです。だからこれらのことは重要かもしれません。このトランスフォーマーという種類は、GPUハードウェアと非常に相性が良いです。
あなたの研究について説明していただけますか？
はい、今は私も言語モデルに取り組んでいます。主に第二段階の作業をしています。これはポストトレーニングと呼ばれています。事前トレーニングがあり、ポストトレーニングがあり、そして推論時計算という新しいものがあります。
ポストトレーニングは、事前トレーニングされたモデルがあり、それはテキストを生成するのにかなり良いのですが、指示に従うのが上手くなるようにしたいし、Redditで見つけた有毒なコンテンツを生成しないようにしたいというものです。インターネット全体でトレーニングしたとしたら、言いたくないことをたくさん知っているでしょう。
このポストトレーニングフェーズでは、モデルが指示に従うのをより良くし、人間の価値観と一致させようとします。事前トレーニングされたモデルを取り、いくつかのことを行い、少しトレーニングします。破滅的忘却を避けたいので、あまり多くのトレーニングはしたくありません。
ここでは多くのアルゴリズムが使用されています。基本的にすべてのトップラボには、わずかに異なることを行う25のアルゴリズムのバッテリーがあり、それらをすべて実行しています。あなたがトレーニングする厳選されたデータセットがあり、それが価値観を反映していると想像します。あなたの研究では、この分野でどのような課題に直面し、それをどのように克服しようとしていますか？
これは少し技術的になります。人々が直面する一つの問題をお伝えしましょう。人間の価値観を引き出すのは実際に難しいので、選好データのデータセットを収集します。モデルに質問を与え、2つの回答を生成させ、両方の回答を人間に見せて、どちらがより好ましいかを尋ねます。
このようなペアの回答のデータセットを取得し、一方がもう一方よりも良いとします。モデルが好まれる方を好むように傾けようとし、事前トレーニングされたモデルからあまり離れすぎないようにします。
一つの方法は、報酬関数をトレーニングして、回答にスコアを割り当てることです。好まれる回答がそうでない回答よりも高いスコアを持つようにトレーニングします。そして、あなたがトレーニングした報酬関数に従って高い報酬を持つ回答を生成するようにモデルをトレーニングします。自然なことですね。
しかし、報酬関数は、あなたが収集したデータの近くでのみ良好です。それはトレーニングされた機械学習モデルだからです。もし分布から外れた、以前に見たこととは非常に異なる回答を生成すると、それがどのようなスコアを与えるかは明確ではありません。
言語モデルは高い報酬を得ようとしているため、実際には分布から外れた、報酬モデルが以前に見たことがなく、偶然に高い報酬を与えるものを生成するよう動機付けられています。これは過剰最適化と呼ばれる現象で、よく文書化されています。このプロセスを行うと、モデルは過剰最適化し、報酬モデルによれば高い報酬を得るものを生成しますが、実際には悪いものを生成します。
それは女の子を得たいと思っているけど金持ちで、問題にお金を投げつけようとするような人のようなものですが、うまくいかないようなものです。
そうです、測定できるもの（報酬モデルによる報酬）と実際に求めるもの（人間の価値観への一致）とのミスマッチです。あなたが気にするものの代用である測定できるものを最適化しようとすると、常に何かがうまくいかず、過剰最適化してしまいます。
これはここでも同じ現象が起こり、モデルが過剰最適化しないようにする何かをする必要があります。我々にはこれを行う論文があります。過剰最適化を防ぐために、ある方法でモデルが事前トレーニングされたモデルに近い状態を保つように強制する新しいトレーニング方法があります。
これをすべて、女の子を得ようとしている男の類推で説明できますか？
おそらくその考え方は、私は自分自身をある程度変えることができるが、それほど多くはないということです。あなたはお金に対して最適化しすぎたり、筋力に対して最適化しすぎたりすることはできません。私は私であり、おそらくそれは女性を引きつけるのに合理的なものであり、すぐに測定できるものに対して過剰最適化すると、狂人になってしまうでしょう。
三人とも既に結婚していて良かったですね。このような会話では、誰かを見つけるチャンスはないでしょう。
仕事でそのような問題にどのようにアプローチしますか？数学的な公式を見て、何かを試そうとしているのですか？
二つの部分があります。一つは、分野でのオープンな問題が何かを理解することです。人々が解決方法を知らないと思われる問題は何か、そしてこの過剰最適化現象は多くの実証的な論文で観察されていましたが、良い解決策がないようでした。あるいは、持っている解決策はすべて非常にハッキー的なものでした。
過剰最適化の問題は、特定のパラメータでやりすぎると、実際に達成しようとしている真実から離れていくということですね。
そう言うとそれは非常に明白なことのように思えます。主なことは、言語モデルではそれが実際に基本的なことだということです。可能な回答の空間が非常に大きいため、人間にそれらのすべてが良いかどうかを尋ねることはできません。このようなデータを収集することは期待できません。
もし報酬モデルをトレーニングすると、それは常に理解にギャップがあり、問題の複雑さのために、すべてを正しくスコアすることはできません。我々は基本的に、フィールドで何が起きているかを読み、オープンな問題が何かを理解しています。実際、この問題はRL理論コミュニティが何年も前から解決方法を知っていました。
RLって何ですか？
強化学習です。
我々は「これを解決する簡単な方法がある」と思い、それを実装可能で実行できる受け入れやすいアルゴリズムに変えました。
あなたの成功の基準は、オープンな問題を解決する論文を発表し、そしてその問題の答えが実際に使われているかどうか、あなたが書いた論文、あなたがした研究が成功した、または良かったかどうかを知る方法はありますか？
一つの基準は引用や学術的影響です。人々があなたの作品の上に構築しているか、あなたの作品について話すために来ているかです。産業界のラボが何をしているかを知るのは難しいです。彼らはあなたの作品を使っていても、あなたに教えないかもしれません。
GitHubのように、何人の人が使用しているかを知ることはできないんですね。このコードはリリースしていませんが、リリースすれば、誰が我々のリポジトリをフォークしているか、他のオープンソースのものと同様に、これらのメトリクスを見ることができます。
言語モデルをトレーニングしているチームがあるので、彼らと話し、「このアイデアがあり、小さなモデルで検証しました。より大きなモデルで試してみませんか？」と言うことができます。彼らは実際にこれにかなりオープンです。別のプロジェクトが言語モデルトレーニングチームに技術移転され、非常に単純な介入でしたが、彼らはそれを使用し、うまく機能したようです。
なぜマイクロソフトはこれについてそんなにオープンなのですか？なぜみんなそんなにオープンなのですか？なぜ論文を発表することを許可するのですか？それは私たちの学びだから、すべて内部にとどめておくべきだと感じるのが自然かもしれません。みんな自分のレースにいるんだから。あなたが発表し、人々が発表していることは良いことだと思いますが、それが自然なことだとは見ていません。ディープシークでさえ、論文を発表した理由が分かりません。これらすべてをプライベートにしておくべきだと思います。
マイクロソフトについては、そうすることの歴史があります。マイクロソフトリサーチは40年くらい前からあり、その間ずっと主に学術的な場所でした。他の多くの企業が「闇に落ちている」と同僚が言います。彼らはあまり発表しておらず、実際に論文を発表できるかどうかについて内部レビューがあります。
彼らは最新かつ最高のもの、今日実装しているものを発表していないのかもしれません。1年前に実装したものを発表しているかもしれませんが、それでも人々にとってはニュースです。
我々は最近これらの一つを実装し、大きな騒ぎになりました。私の懸念はまさにこれでした。もし学術コミュニティが、内部レビューを経ていることを知ったら、良いアイデアが公開されていないと想定するのは非常に合理的です。
画期的なものは内部にとどめられ、発表のペースが遅くなる。Googleが論文を出すとき、私の同僚たちは「それは面白いものではない」と考えます。なぜならGoogleは基本的に闇に落ちており、Metaには財団チームがあります。かつてFair（Facebook AI Research）と呼ばれていたものが、今は基礎的なAI研究と呼ばれ、生成AIチームがあります。生成AIチームはあまり発表せず、財団チームはアプリケーションからあまりにも遠いため、発表しても問題ないという感覚があります。
彼らにとって何かを発表することの利点は何だと思いますか？あるいはあなたたちにとっても。
それは主に評判的なものだと思います。人々を雇うために使うものです。人々はマイクロソフトが良い研究をしていることを見て、それは公開情報で、そのようなことをしたいと思うのです。現在、企業が引き付けようとしているAIの才能の多くは博士号を持っています。彼らはこの研究のマインドセットを持ち、論文を発表することに慣れています。
それは私が質問しようとしていたことですが、もし彼らがあなたの発表能力を停止したら、個人的にはそれほど興味がなくなると思いますか？おそらくそうでしょう。
それがポイントを鮮明にすると、あなたは多くの才能を失います。おそらく研究者たちはこの、奇妙な環境で成長する必要がある、非常に独立心の強い人々であり、それを与えなければ、彼らはどこか他の場所に行くでしょう。彼らは自分たちが素晴らしいと思っているからです。
あるいは、大学から出てきて、もう少しテクノユートピア的あるいはテクノ透明的なマインドセットを持っているのかもしれません。「この情報は共有されるべきだ、そうでなければ人々はどうやってそれを構築するのだろうか」という考えです。そして、私は他の誰かに構築してほしい、そうすれば次の楽しいことができるからです。それが何かを成長させる方法です。
私は他の人が試していることを読むことから非常に価値を得ているので、同じことをすべきだと感じています。より広い科学的知識に貢献すべきです。
以前は研究を全く理解していませんでした。なぜ人々は博士号を取るのか、なぜ人々はこの研究をしてそれを発表するのか、それがそんなに素晴らしいことなのか。しかし、巨人の肩に乗るという議論があります。実際に建物を建てるためには、その研究の基礎的な最前線を持つ必要があります。
結局のところ、あなたが取り組んでいることは非常に技術的で、この会話でも私はあなたが取り組んでいることと、それが現実にどのようにマッピングされるのか、それが製品にとって何を意味するのかを理解するのに苦労しています。あなたたちがいて、研究を理解しているけれど、より工学的で製品志向の人々のレイヤーがあり、彼らはこの最先端のものを適用していくことができます。それはあなたたちではなく、他の誰かです。
私の頭の中での核心的なアンブロックは、それらは異なることにスパイクを持つ異なるコホートの人々ですが、進歩を遂げるためには、すべての部分が必要です。
多くのAI製品は、製品の人々ができないような技術的革新に基づいています。科学者がそれをする必要があるのです。
第三のトピックに戻ってもいいですか？あなたは事前トレーニングについて話し、次にポストトレーニングについて話しました。それはモデルが排除したくないものや強化したいことに焦点を当てるものですが、三つ目は何でしたか？
三つ目は新しいホットなものです。それは推論時計算と呼ばれています。私たちがちょうど行ったプロジェクトについてお話しします。これに興奮しています。
基本的に何をしているかというと、モデルは事前トレーニングされていて、質問することができますが、難しい問題を与えられたとき、すぐに答えを出すことができないことがあります。頭の中で計算をしたり、様々なシナリオを考慮したりして、答えに到達する必要があります。これはこれらのモデルにも当てはまるようです。
できることの一つは、「数学の問題を与えます。答えはある数字になります。すぐに答えなければなりません。他には何も書いてはいけません」と言うことです。これは一つの方法です。もう一つの方法は、「数学の問題を与えます。答えは数字になります。自由に作業を示し、何でも書いて、最終的な答えを報告してください」と言うことです。すべてのモデルのパフォーマンスは、二番目の方法の方がはるかに良いです。
ChatGPTでこれを試してみると違いが出ますか？
複数の例を通して行う必要がありますが、はい、これはGPTでも当てはまります。
推論時計算は、モデルに質問するとき、作業を示すことによってより多くの計算をする能力を与えます。一つの方法は単に「作業を示せ」と言うことです。もう一つの方法は、文を生成するとき、一語ずつ生成するのではなく、時々戻って、「あ、ここまでで間違いを犯したので、戻って再試行します」というような内部的なことを行うことです。
モデルは、これまでに見たものに基づいて次の単語の分布を生成することを思い出してください。最も可能性の高い単語を取って、この軌跡を試し、戻ってきて、2番目に可能性の高い単語を取って、この別の軌跡を試すことができます。チェスゲームのような木の深さのために、異なる応答を得ることができます。
これを実際にPerplexityで気づきました。最近それを試し始めて、「実際には間違いを犯しました」と言われます。間違いを試して修正します。それが思考プロセスを私に示していて、それが興味深いと思いました。
これをバックトラッキングと呼んでいます。モデルは何かを生成し、「実際には間違いを犯しました」と言い、戻って生成し直し、これを自動的に行います。これらのモデルをトレーニングしてバックトラッキングを行わせる必要があります。推論時計算はポストトレーニングに近いです。「私はモデルをこの奇妙な方法で使用する予定なので、バックトラッキングを行い、複数のパスを試す能力を持つようにトレーニングすべきだ」ということです。
少しお話ししましょう。推論時計算とは、モデルが質問されている時により多くの計算リソースを使用することです。多くの方法があります。
以前のものは何でしたか？以前のものは、モデルが単に答えを出力するだけでした。
「作業を示す」という方法は、チェーン・オブ・ソートやスクラッチパッドと呼ばれ、人々はしばらくの間これを使用してきました。しかし、01、つまり古いオープンAIモデル、最新のオープンAIモデルの次に最新のものは、独自の軌跡でトレーニングされました。そこではあるツリー検索を行っていました。質問を与えると生成し、いくつかのアルゴリズムを実行して、このツリーの中の多くの異なるパスを試します。各ステップで上位10のトークンの一つを取ることができ、多くのオプションを得て、これらのパスの多くを試みて、良いものでトレーニングします。
ある意味では、出力が出る前に独自の合成データを生成しているのですね。それで、あなたが興奮していたことの課題は何でしたか？
我々には、なぜこれが役立つのかについて理解を与える論文があります。高レベルの理由は、答えが正しいことを確認することは、自分の答えを生成するよりもはるかに計算的に簡単だということです。
人間の観点からも自然に考えると、最初のドラフトを作成して反復する方が、最終的なドラフトをそのまま出すよりもはるかに簡単です。
これについて考えていたのは、論文を書いていて、編集したい段落があり、その段落のドラフトがあり、単語を切っていくと良くなっていきます。しかし、まず何か悪いものを書かなければ、最終的な段落を作ることはできなかったでしょう。人間もこれをする必要があります。頭の中に十分な情報を保存して、正しい答えをそのまま出すことはできません。
これは『銀河ヒッチハイクガイド』の最後を思い出させます。この本に馴染みがありますか？彼らはこの印象的なソースに到達し、「人生の意味は何ですか？」と尋ねると、「42」と答えます。それが答えですが、私が本当に知りたかったのは、どうやってそこに到達したのかということです。それがより重要です。
これにはコンピュータサイエンス理論の形式化もあります。正しいかどうかを確認することはできても、答えを生成することは計算的に非常に難しい問題があります。一つの例は、国内のすべての州を訪れるドライブをしたいが、可能な限り少ないマイル数を使いたいという問題です。
巡回セールスマン問題ですね。あなたが経路を見せれば、すべての州を訪れているかを確認することは非常に簡単で、すべてのマイル数を数えることもできます。しかし、良い経路を見つけるには、すべてを試す必要があります。良い答えを生成することは非常に難しいですが、答えが良いかどうかを確認することは実際にかなり簡単です。
この推論時計算を使用する一つの方法は、多くの答えを生成し、そのうちのどれかが良いかをチェックするだけです。おそらくあなた自身のモデルにこの能力があります。我々が行った論文では、モデルから100の答えを生成します。分布からサンプリングし、各トークンで分布からサンプリングして、新しい分布を得て、サンプリングを続けます。これらの応答はすべて異なります。
そして、自分のモデルを取り、「これらの回答のいずれかは正しいですか？この回答は正しいですか？」とモデルに促します。自分自身のモデルを促しているだけで、新しいものはありません。
GPT（一つのモデル）を取り、100の応答を生成させ、次にGPTに「この答えは正しいと思いますか？」と尋ね、GPTが正しいと思うものの一つを選び、それが実際に正しいかどうかを確認するということですね。それはより正確です。
別のニューラルネットにチェックをさせた方が良いのではないでしょうか？生成しているのと同じものではないからです。会話の中で、私がいくつかの答えを出し、自分の答えを見ているとしたら、それはVやAEに「どれがより良い答えですか？」と尋ねるよりも悪いかもしれません。
別の人や別のモデルに見てもらうことには何か公平さがあると思います。しかし、ポイントは、モデルが実際にこれを行うことができるということです。一つのモデルでも、自分の応答をチェックすることで改善することができます。これは驚くべきことです。なぜなら、新しい情報がないからです。モデルは持っている情報をすべて持っています。
もし真空の中でモデルを置いて、「答えを生成せよ」と言い、「この方法で答えを生成せよ」と言うのと、「別の方法で答えを生成せよ」と言うのでは、後者の方が良いのです。しかし、モデルは情報内容を全く変えていません。これは計算的な現象です。モデルは持っているすべての情報を抽出するためにより多くの計算を行う必要があります。応答を生成する標準的な方法では、十分な計算を使用していないのです。
答えを配信する前にどれだけ待つべきかを計算する数学的な問題でなければなりません。木の探索に十分な時間を費やしたポイントはどこなのでしょうか。すべての質問に対して同じ答えではないと思います。答えの改良が無関係になり、答えを配信すべきポイントに到達したかどうか興味があります。
これは知られていませんし、質問によって異なると思います。これらのモデルに質問すると、1万語を出力し、あなたはそれを読まないことがあります。本当に欲しいのは1つの文だけなのに、1万語を出力することがあります。
これは使いやすさの問題であり、モデルは正しいことをしているのですが、スキャンする必要があり、100の中で正しいのは1つの文だけです。彼らはこの問題を解決していないと思いますし、理論的な限界が何なのかも分かりません。無限の計算を与えてもすべての数学問題を解けない情報があるはずですが、それに到達したわけではありません。
話題を変えて一つ質問したいのですが、今日の機械学習研究の方法は、この強化学習の状況が来る前の機械学習研究の方法とは異なるように思えます。以前は、すべての特徴とすべてのことを自分で書いていて、情報を与えることで自分自身で学習することはなかったのではないでしょうか。それは正確ですか？
それはある程度正しいと思います。ディープラーニング一般では、ある意味で特徴を学習しています。それは確かに、より多くのことが自動化されています。研究者の仕事は全く異なります。データサイエンティストの仕事は異なります。私の仕事は、10年前とほぼ同じです。実証的な人々が直面している興味深い問題を調べ、それらを数学的言語で定式化し、彼らの問題を解決するための新しいアルゴリズム、アルゴリズム的介入を考え出し、時にはその経験的な検証を行います。
少し戻りましょう。GPTに自己最適化させることと、過去にあなたが最適化を行っていたことは違いませんか？それは全く異なることではないですか？
ある抽象化のレベルでは、いいえ。問題領域は異なりますが、これを「世界について情報を収集し、そのパフォーマンスを向上させようとしているエージェント」と抽象化することができます。それは実際に10年前に私がやっていたことです。エージェントがGPT2であり、そのパフォーマンスはGPT2またはGPT4に従って測定されるだけです。報酬が何なのかが異なります。
前の場合、あなたはエージェントを作成し、今はエージェントが存在し、それを最適化しようとしているのですか？
それは少し本当です。私はニューラルネットアーキテクチャをデザインせず、ただダウンロードします。以前は「このニューラルネットアーキテクチャはうまくいかない、すべてをゼロから設計する必要がある」という考えの嫌いな人がいました。ニューラルネットアーキテクチャは棚に置かれていて、ある時点でこのニューラルネットアーキテクチャが出現し、今や皆はそれをトレーニングすることに注力しています。自分ですべてを書くのではなく。それは正確ですか？
それはそうだと思います。20年前には、問題に対する良い特徴は何かという研究がたくさんありました。今はそれはほとんどなく、10年前には良いニューラルネットワークアーキテクチャは何かという研究がたくさんありました。しかし今はそれが収束し、基本的に皆トランスフォーマーを使用しています。この分野にはまだ研究がありますが、それはとても良いので突破するのは非常に難しいです。
私が言及した理由は、少なくともモデル構築においては、よりよいモデルを得ることは、もはや基礎モデルではなく、ディープシークのように、これをどう最適化するかという問題だと思うからです。モデルはそこにあり、アーキテクチャはそこにあり、トレーニング方法を知っています。すべてがありますが、どうやってより効率的にするかが、研究ではない、今私たちがいる段階です。
それは大きな部分です。ディープシークにはいくつかクールなアーキテクチャの要素がありますが、基本的にこれらはすべて、いくつかのベルやホイッスルを持つトランスフォーマースタイルのネットワークです。
ディープシークについて、学術的またはアルゴリズム的に興味深いと思うことは何ですか？
ディープシークにはテクニカルレポートが2つあります。一つは事前トレーニングされたモデルについて、もう一つはRL（強化学習）による微調整についてです。私たちは両方について話しました。RL微調整がビッグスプラッシュを起こしましたが、コスト削減に関しては、事前トレーニングされたモデルにすべての削減があるように思えます。
先ほどGPT4の出力について事前トレーニングしたとおっしゃいましたが、それが削減ですか？
おそらくそうですが、彼らはそう言っていません。他の論文を読んでいないかもしれませんが、何人かの人と話しました。それが彼らがいくらかの削減を得ている場所かもしれませんが、彼らは削減を得ているクレイジーなエンジニアリングトリックも持っているようです。モデルが小さいですね。
知っているトリックの一つは、モデルが「エキスパートの混合」というアーキテクチャを持っていることです。これはハードウェアの制約によるものです。1兆のパラメータを1つのGPUに配置することはできません。そこで、モデルを8つのブロック、各1/8兆パラメータに分割し、一度に1つのシャードだけをGPUに配置します。これは、各トークンがすべてのパラメータを通過するのではなく、パラメータの一部、一つのエキスパートだけを通過することを意味します。
パラメータとは何ですか？単語ですか？
いいえ、違います。ニューロンを視覚化できますね。信号を受け取り、信号を生成します。または多くの信号を受け取り、一つの数字を出力します。多くの信号を受け取り、これらの数字の組み合わせを計算します。ニューロンは自身も数字を保存しています。例えばニューロンが10の数字を受け取ると、ニューロンも10の数字を保存しています。それがパラメータです。これらの10の組み合わせを取り、それを出力します。
ニューラルネットワークが計算する関数や振る舞いはパラメータによって決まります。アーキテクチャは、エッジがどこに行くか、次に誰にルーティングするかですが、何をルーティングするかは、誰が私にルーティングするかとパラメータによって決まります。パラメータが多いほど、世界やモデル化しようとしているものをより詳しく説明できます。
大まかに言えば、より複雑な現象をモデル化するにはより多くのパラメータが必要です。
シャーディングすることで、シャードの数を大幅に増やし、はるかに小さなGPUを使用できるようになります。彼らのモデルは6億パラメータですが、それを128のシャードに分割しているので、各シャードは約600万パラメータを使用しています。
しかし、それはより遅くなりませんか？すべてを1つの一枚岩のGPUで処理できれば、128の異なるマシンを通過させるよりも速く答えを返すことができるのではないですか？
エキスパートの混合のポイントは、すべての128を通過させるのではなく、1つを通過させることです。それでは精度が落ちませんか？
いいえ、すべてのトークンは1つのシャードを通りますが、ルーターがどのトークンをどのシャードにルーティングするかを決定します。シャードは専門知識を持っていて、ルーターはインデックスで、数学の専門家や歴史の専門家を知っていて、そのエキスパートにルーティングします。だから「混合」と呼ばれています。
スーパーのチェックアウトレーンのようなものを考えています。「あなたはそのレーンに行きなさい」と言われるようなものです。それは果物をたくさん買っているか、10個未満のアイテムを買っているか、20個以上のアイテムを買っているかに基づいているかもしれません。それは本当にクールなブレークスルーのように思えます。
概念的には、望むだけシャードできますが、そうすると何かを失います。ルーターにより多くの統計的な需要がかかります。エキスパートをより専門化するほど、ルーターはより良く知っている必要があります。トークンを見て、それがどのトピックについてなのかを知る必要があり、それは難しいです。何らかの統計的な限界があると思いますが、ここで当たっているのはそれではなく、彼らが解明した何らかのエンジニアリングのことだと思います。それがコストを削減しているのです。古いバージョンのGPUを使用でき、より古いGPUなどを使用できるからです。
それは実際にNvidiaへの直接的な攻撃になる可能性があります。人々は「本当に良いルーターを構築する必要があるかもしれない」と言うかもしれません。たぶんそれが鍵になるかもしれず、ルーターレイヤーでToasで実行できるかもしれません。
オバマの怒りの通訳者のようなものを、AIの通訳者としてやってもらう必要があります。何か言うと、「そう、女の子を得るようなものです」と言うようなものです。
ディープシークのRL（強化学習）の部分は少しクールだと思いますが、少しハイプだと思います。彼らは基本的に皆がすでにやろうとしていることをやっており、特に新しいアンロックをしたとは思いません。実際、ディープシークが出た翌日、ある一つのグループがレプリケートを始め、別のグループは「実は私たちはすでにこれをやっており、ここに結果があります」と言いました。
ルーターはディープシークの発見ではなく、文献にあるものを使用しているのですね。ルーターではなく、強化学習の部分です。事前トレーニングモデルはルーターを持つエキスパートの混合を使用し、ポストトレーニングモデル、ディープシークR1は事前トレーニングモデルを取り、強化学習を使用して何か別のことをします。それが大きなスプラッシュを作ったと思いますが、スプラッシュの大部分は全体のトレーニングのドル効率によるものであり、その能力によるものではありません。能力はかなり良く、ドル効率が非常に低いという組み合わせかもしれませんが、ドル効率は事前トレーニングから来ていると理解しています。
もう一つの大きなバズは、多くの人々が非常に懐疑的だったということです。中国から来ているからです。基本的に技術的には中国ではNvidiaのGPUにアクセスできないか何かでしょうが、彼らはそれをシンガポールやダークウェブを通じて入手しています。多くの人々は「彼らは嘘をついているかもしれない」と言っていました。それは可能ですが、何を信じればいいのか分かりません。
次は何だと思いますか？ルーターのようなものを言及されましたが、あなたは技術的な風景の端に座っています。推論時計算が第三層として別のリープであることを感じています。ルーターは異なるタイプのリープかもしれません。何か来ているものを見ていますか？敵対的トレーニングや合成データなど、ほぼカテゴリカルな変化が起こりそうなものはありますか？
確かではありません。予測するのは少し難しいです。噂では、事前トレーニングのスケーリングが効果がなくなっているそうです。GPT4より大きなモデルをトレーニングする試みが多くあり、ベンチマークテストに基づいて、オープンAIを含めてうまくいっていないようです。
能力を向上させる新しい場所は推論時計算のようです。私たちが興奮しているのは、推論時計算を非常に意図的に使用することです。分布からサンプリングして多くの応答を生成することは、ある種の無駄のように思えます。ほぼ同じものをたくさん生成するかもしれません。ある応答を生成し、別の単語の代わりに同義語を使用して応答を生成するかもしれませんが、意味的には同じ情報を生成しています。
本当に欲しいのは、何らかの方法で生成の方法に多様性を強制することです。すべての可能性を確実に網羅するように、モデルに以前試したことのない新しいことを非常に意図的に試させることです。それを推論時計算で行って、より良いパフォーマンスを得ることです。それが何かをアンロックする可能性があります。それが私たちが興奮していることです。
100%理解できませんでしたが、基本的に推論時計算を行う方法は、多くの類似した答えを互いに比較することが多いですが、実際にはより多くの答えの幅を得る方法があるかもしれないということですね。
応答を広げて多様化し、正しい答えへのより良い三角測量を得るようなものです。
これらのモデルでこのようなことを試したことがあるか分かりませんが、「休暇の計画を手伝ってください」と言うと、「タホに行くべきです」と言い、「実はタホには行きたくありません、別の場所を教えてください」と言うと、再び「タホに行くべきです」と言うことがあります。それは何らかの形でロックインされています。
多様な応答を求めると、それは以前に与えられていないものを与えるべきです。これは数学の質問を尋ねると多く起こり、「分布からサンプリングして100の応答を生成してください」と言うと、95は同じになり、数学の作業のステップも同じになります。テキストの周りが少し異なるだけです。
「メールを書いて、別の方法で書いて」と言うだけでも、それらは意味的に同じになります。
この会話全体で、実生活に例えることができ、それが実際には間違っていないように感じることが多いです。人間との類推が機能するように思えることが多いです。モデルが互いに話すことが有益になるポイントがあるように思えます。私たちが今話しているような方法で。この会話に基づいて私の性格を完全に変えるわけではありませんが、これから言うことに何かを伝えています。
私たちはこれを待っていました。いや、そうではなく、これは全く非科学的なものですが、AIが別のAIを構築できるかどうかについてのベットがあったと思います。私たちはまだそこにはいません。これを「超知能」と呼んでいます。それはより優れたAIを作るAIが必要です。
ベットの意味論的な部分はともかく、私はおそらく負けるでしょう。50年間のベットだったからです。それは15年もかかっていません。一部の人々はこれが起こると信じていますが、それにはいくつかのブレークスルーが必要だと思います。
もう一つの質問です。GPT4のような初期のモデルで、多くのユーザーベースがある場合、彼らは人々が自然言語の質問をGPT4に入力し、システムとのインタラクションからどんどんトレーニングデータを得ることからメリットを得ているのでしょうか？質問をして、それに対する応答に基づいて、それが正しいか間違っているかをフォローアップで判断できるかもしれません。あるいは、修正を求めた場合など。これは強化学習の第二段階として使っているのでしょうか？
それはより強化学習の部分に近いです。正確には知りませんが、彼らはこのデータをまったく使用していないと聞いています。
本当ですか？あなたや私がGPTを使って質問をしているデータを使っていないと言っているのですか？しかし、そのデータを使いたいと思わないでしょうか？もしあなたがオープンAIなら、そのデータを使って何をトレーニングすべきかを理解したいですよね。質問がたくさんされている領域があり、結果が良くない場合、それを改善したいと思うはずです。Googleのように、検索ログを使って何がトレンドになっているか、最も重要なものは何かを理解し、より良い仕事をするようにするようなものです。
それはそうだと思います。おそらく彼らはそれをしているのでしょうが、これがどの程度自動化されているかは分かりません。確かに彼らはログを見て、人々がモデルのどこに不満を持っているかを理解しようとしているでしょう。しかし、これには人間が関与している可能性があります。「もっと数学的知識や凸最適化の知識が必要だ」と言うスクリプトを実行し、事前トレーニングチームに「凸最適化のデータをもっと生成できますか」と言うようなことかもしれません。
最後に私がまた質問したかったのは、大学時代にあなたに「次の100年以内にロボットが他のロボットをプログラミングするようになる」というベットをしたことです。それはすでに起きています。基本的にこのベットには負けたと思います。
それはともかく、私には常に悪い結果、非常に危険な結果、非常に制御不能な結果のように思えていました。あなたは明らかにこれを進めるために働いていますが、毎日仕事でこれの倫理について考えなければならないとは言っていません。むしろ、これが良い力になるか、制御可能で役立つものになると強く感じているのか、それとも「このプログレスは起こるべきで、知的に興味深いから私はやっている」という感じなのかを知りたいです。
後者に近いと思います。この段階では基本的に避けられないと思います。プログレスを止めることはできません。それが何を意味するにせよ、それを行うことは単に不可能です。何が起こるのかを理解することは非常に重要だと思います。ジョブの観点からも、プログラミングは今かなり簡単です。コパイロットがあり、コードの80%を書いてくれます。私の仕事が置き換えられているのです。
私たちは科学者が最後に残ると思っていましたが、そうではありません。車を作る人型ロボットがたくさんいると思っていましたが、それもある程度は起きています。しかし、実際に置き換えられている仕事はホワイトカラーの仕事です。実際に遅いのはロボティクスです。物理的な世界を操作するのは苦手ですが、仮想世界を操作するのは非常に得意です。互いにメールを送り合う人々は、誰か他の人、あるいはAIがそれをすべきです。何が起こるか分かりません。私たちはみんなアーティストになるのかもしれません。
前回のポッドを聞きましたか？恥ずかしげもなく現在のリスナーに他のすべてを聞くように勧めています。実際、全員がすべてを聞いているわけではないことを知っています。通常、これはクロスポッドで行います。「これが好きなら、別のものも聞くべきだ」と言うのです。このポッドを20の小さなポッドに分けましょう。このポッドは間違いなく分けられるでしょう。
もう一つのトピックがあります。部屋の中の象のような大きな質問です。エネルギーレベルについてはどうですか？これはどれくらいのエネルギーを消費しているのでしょうか？日常的にそれについて考えますか？もし一日中メールを送るためのボットが必要な場合、どれくらいのエネルギーを消費するのでしょうか？通常の人間が取るエネルギー、ピザ4枚分のエネルギーを消費するのでしょうか？
私がしていることの一部は、モデルをより良くしようとすることで、それは大きなモデルと同じくらい良い小さなモデルを作ろうとすることでもあります。実際にはエネルギー面を改善しようとしているとも言えます。それが一つの解釈です。
ハードウェアの進歩により、エネルギー部分は「今ここにいる」という状態で、ほとんどの人はGPT5スケールのモデルをメールを書くために必要としません。はるかに小さなモデルで十分でしょう。
それは私が少し混乱していたことです。今、皆がこの推論のことに本当に夢中になっていますが、使用ケースの99%では単に必要ありません。「このメールに返信する」や「私のカレンダーをスケジュールする」には非常に大きなモデルは必要ありません。
ほとんどの消費者や企業向けアプリケーションでは、実際には非常に大きなモデルは必要ないでしょう。エネルギーコストはまだ高いと思いますが、ある程度まで下げることもできるでしょう。ディープシークでさえ、かなり小さなモデルで非常に良いパフォーマンスを持つようにトレーニングしました。さらに小さなモデルもこのようなことができるかもしれません。
AIと暗号通貨は両方ともエネルギーを大量に消費する分野だと思います。実際には暗号通貨の方が悪いと思いますが、統計は知りません。これについてはJanと議論すべきでしょう。Jと対決しなかったのですか？彼が気にするかどうか興味があります。2回目のエピソードがあるべきでしょう。
研究の最前線にいる人の一人として、そして気候変動に関してはやや左寄りだと思いますが、そのエネルギー消費についてはどう考えていますか？
私の母の友人で、オープンAIで働いている人がいて、AIが核融合を解決するのを助け、それがエネルギー問題を解決するという理論を持っています。ディープリサーチAIを使ってこの問題の解決策を見つけ、エネルギーを得るという非常にメタな考えです。
飛行機が離陸するようなものです。彼らが言っているのは、今は大量の燃料を燃やしているが、どんどん速くなっていて、飛行機は滑走路の終わりに到達する前に離陸するだろうということです。それが彼らの議論です。それが実際に起こるかどうかは、見てみましょう。
これは興味深い意見ですね。
そろそろ行かなければなりませんが、これは非常に啓発的な会話でした。楽しかったですね。質問に全て答えられましたか？
はい、答えられたと思います。いくつかの良いスニペットがあり、この内容について引き出せると思います。私にとっては、レイヤーや推論時計算、ポストトレーニングなどを理解していなかったので、非常に興味深かったです。これでインターネットを読んで、この内容についてより深く理解できるようになりました。
もう一つ言っておきたいのは、これらのものは遊ぶのが非常に簡単だということです。言語モデル周りのツールは信じられないほど簡単です。GPUがあれば、モデルをダウンロードして自分で質問することができます。ウェブアプリを使うのではなく、質問をして、数学の問題を解けるかどうかを確認できます。自己検証をして改善するかどうかの実験を自分で実行できます。非常に簡単です。
どうやってそれをするのか教えてくれますか？Llamaなどにアクセスするのですか？
huggingface.comにアクセスし、LlamaのようなモデルやMathのようなデータセットを検索します。huggingfaceは「モデルのダウンロード方法」「データセットのダウンロード方法」を教えてくれます。それから質問でモデルに問い合わせるだけで、非常に簡単です。ビールを飲みながら見せることもできます。とても簡単です。
実際に見せてくれますか？それは素晴らしいかもしれません。
（画面共有）
基本的にVMというライブラリがあります。これで言語モデルを取得します。言語モデルの名前は「Microsoft 53 mini 4K instru」です。huggingfaceに接続しています。huggingfaceとは何ですか？
huggingfaceは、人々がモデルやデータセットを保存する場所です。別のAI企業ですね。彼らはこれらすべてを保存することを許可し、それと遊ぶためのコードを提供しています。彼らのコードは、ある意味で私の研究に力を与えています。
つまり、もし人々があなたのモデルを使えば、あなたはそれを知ることができるということですね？以前話していたように、モデルをここにアップロードすれば、それを確認できます。これはマイクロソフトの私の友人たちが作ったモデルで、ここにアップロードしています。この一行を実行するだけでダウンロードできます。名前をここに入れるだけです。
これで自分のラップトップに入りましたね？はい、GPUに置かれます。そして生成方法はこうです。モデルを呼び出し、「生成」と言い、「これはプロンプトです」と言い、サンプリング時に使用するパラメータを指定します。100の応答を生成するか1つの応答を生成するか、どのように生成するかなどです。それだけです。それが応答です。それはわずか2行のコードでモデルを取得し、質問をするだけです。それは素晴らしいですね。
何かを尋ねるにはどうしますか？私はこのモデルについて知らないので、それは数学的なものですか？
数学の質問を尋ねました。いくつかのモデルに尋ねた質問の応答をお見せします。グレードスクールマスというデータセットがあり、8,000の質問があります。これはGoogleのミニGeminiモデル、Gemmaです。何らかの質問を尋ねました。
huggingfaceからデータセットもダウンロードできます。
これはディープシークではできませんよね？それは大きすぎますね？はい、たぶん大きすぎます。
これが質問です。「ジャネットのアヒルは1日に16個の卵を産みます。彼女は朝食の前に3個食べ、4個でマフィンを焼き、残りを売ります。彼女はいくら稼ぎますか？」これは非常に単純な数学の問題です。このモデルにこの質問を尋ね、32の異なる応答を生成するように頼みました。
最初の応答をお見せします。「問題を解く方法をステップバイステップで説明します。1.ジェンが食べた後に残った卵の数を計算します。」これは作業を示しています。思考の連鎖です。いくつかのことを書き、最終的な答えは18だと言っています。これは正解だと思います。これを行うことができます。
これはとても簡単です。GPUがあれば、誰でも遊ぶことができます。Xやツイッターで人々が「モデルで遊んでみたら素晴らしかった」と言っていることは、これをしていることが多いです。
二つのことがあります。一つは人々がウェブAPIで遊ぶことです。ウェブサイトに公開しています。もう一つは、OpenAIモデルのように、彼らはこのようにリリースすることはありません。それはプロプライエタリーだからです。これらはオープンソースのためのものです。多くの人々は単にウェブAPIで遊び、一部はダウンロードして他のことをします。
オープンソースはどれくらい良くなっていますか？ビジネスであっても、オープンソースのものを取得して自分のニーズに合わせてチューニングする方が、OpenAIが作成するモデルに大金を払うよりよいかもしれないと言われていますね。
その通りだと思います。ディープシークはある意味でオープンソースです。自分でモデルをダウンロードできます。彼らはコードはリリースしていませんが、モデルはリリースしています。
その違いを説明していただけますか？
モデルはただコードによって見つかったパラメータの設定です。コードがすることは、モデルをトレーニングし、彼らのアーキテクチャのパラメータの選択を見つけることです。すべての数字、パラメータを保存して誰かに渡すことができます。それがあなたのモデルですが、そのパラメータセットをどのように見つけたかは教えていません。
コードは出力を得るのに役立っているのですね。出力を共有できますが、コードがお金になる、つまりコードが重要な部分で、それを再現したい場合に必要です。しかし、製品として使用したい場合、私はLlamaで遊んでいますが、コードは見ていません。モデルをダウンロードして質問をしているだけです。
彼らがLlamaやGPT4の新バージョンをリリースするとき、多くのトレーニングやその他のことを行って新しいモデルに到達しています。モデルを見ることはできますが、どのようにそこに到達したかは見ることができません。
ですから、完全にオープンソースなのか、単にオープンモデルなのかという違いがあります。一部の企業は完全にオープンソースで、すべてのコードをリリースし、コードのトレーニングに使用したデータをリリースします。一部の企業はそうしません。
ただ善意だけでやっているのですか？
ほとんどは研究ラボです。AI2などがそうですが、それは研究ラボです。非営利団体です。そのような場所があります。そして、ウェブなどを通じてのみモデルにアクセスできる場所もあります。重みをダウンロードすることはできません。
「重みをダウンロードする」とはどういう意味ですか？それは私が先ほどやったことです。重みをダウンロードしました。一部のものは重みをダウンロードできず、APIにアクセスして応答を得ることしかできません。
APIも提供するものは限られています。重みは提供しませんが、この推論時計算をしたい場合、次のトークンの分布や各トークンに割り当てられる確率を見る必要があり、一部のAPIはこの情報を提供していません。
研究をする際、すべてを提供しているモデルでこれらのテストを行いたいということですね？理想的には、何らかのアクセス、ゼロより多くのアクセスが必要です。基本的にOpenAIが通常提供するものより多くのアクセスが必要です。
編集することもできますが、OpenAIについてコメントしたいですか？あなたはマイクロソフトリサーチにいて、OpenAIは別の会社ですが、マイクロソフトは彼らの何かに一部アクセスしています。それはあなた個人にとって何を意味しますか？
アクセスはかなり悪いように思えます。一部の人々はテンテッドと呼ばれる、OpenAIと非常に密接に連携しているグループにいて、特別なアクセスを与えられ、追加のNDAに署名しています。G14機密のようなものですね。
それが何を意味するか分かりませんが、それはとても悪いラッシュアワーの参照です。私のアクセスは基本的に、上司がOpenAIアカウントに支払い、それを使用できるということです。つまり、OpenAIアカウントに支払えば、私と同じアクセスを持つことができます。それほど違いはありません。
私たちはモデルをホストしており、APIを通じてそのモデルにピングする能力がありますが、マイクロソフトの一部の人々は特別なアクセスを持っています。彼らと非常に密接に連携している人々は、私たちが彼らのモデルをホストしているので、より多くのアクセスを持っているはずです。私たちはそれらをAzureに配置する仕事をしている人々がいると思います。
マイクロソフト製品にOpenAIモデルを統合している製品を構築している人々もいます。私たちのコパイロットは実際にOpenAIによって動力を得ていて、私たち自身のものではないかもしれません。マイクロソフトにはOfficeスイートもあり、PowerPointがスライドをデザインするなどのヘルパーがあります。
研究をしたい場合、APIに多くの回答を求めたい場合、このデータセットには8,000の質問があるので、APIに8,000回ピングする必要があります。一般の人であれば、レート制限に当たるでしょう。彼らはオーバーフローさせたくないので、私たちはかなり良いレート制限を持っています。それが私たちが持っている一つの利点です。
しかし、他のほとんどの場所では、彼らは多くのサブスクリプションに支払い、お金を通じてレート制限を克服しています。複数のAPIキーを持ち、それらを循環させています。それはこの問題の多くを解決します。
私たちもGPUインフラストラクチャはあまり良くありません。マイクロソフトはGPUに非常に大きく投資していますが、それらはOpenAIに使用されています。彼らはGPUを使用してOpenAIモデルをホストし、顧客にサービスを提供しています。
OpenAIで働きたいと思ったことはありますか？あるいは今の場所に満足していますか？
おそらくないと思います。それがどうなるかによって異なりますが、独立性を持つことが好きです。科学的な目的のために物事を行うことが好きです。もしそこに行けば、彼らはより閉じています。ダークなのです。
私は哲学的には何が起こっているかを理解することに興味がありますが、次のブレークスルーを見つけることには興味がないのです。しかし、そこには非常に才能のある研究者がおり、これを行っています。それは私がやりたいことではないというだけです。
それは理にかなっています。ダークというのは理にかなっています。あなたは研究と出版、やっていることを共有することに関するエトスを持っているからです。もしその透明性のレベルを維持する必要があれば、そのタイプの会社は排除されるでしょう。
しかし、彼らは結局多くのものが漏洩するようです。情報が開示される方法は異なりますが、情報は開示されます。しかし、論文を書くというプロセスが好きです。それは良いチェックポイントです。「これをしました。これに満足しています」というものです。それはピアレビューもされています。そのようなことが好きです。
基本的に15年間これをやってきたので、非常に快適です。
これは非常に啓発的な会話でした。私はたくさんのことを学びました。お金を請求すべきかもしれません。
そうですね、アービンに1,000ドルの借りがあります。あなたたちはベットをしていて、次の100年間でコンピュータがコードを書けるかどうかでした。それはAIについてのことで、別のAIを構築できるかどうかでした。
実際にはそこまで達していないと思います。彼らはこれを「超知能」と呼んでいます。自分自身よりも優れたAIが必要です。それが爆発的な成長を起こすものです。
意味論的にはどうなるか分かりませんが、おそらく負けると思います。それは50年間のベットでしたが、15年も経っていません。一部の人々はこれが起こると信じていますが、それにはいくつかのブレークスルーが必要だと思います。
良いでしょう。またお話ししましょう。クリップを共有します。あなたにとっても良いものにしたいので、人々と共有したい発表や、含めたいリンクがあれば、それらを入れます。
実際に、私は最初に話したプロジェクト、過剰最適化への対処についてのブログ投稿を書いています。それは学習理論のブログに掲載される予定です。来週発表されるはずです。明日がデッドラインですが、少し遅れています。
私たちはこのエピソードを1週間ほどで公開する予定なので、そのリンクを含めることができます。
とても楽しかったです。またやりましょう。
次回はロッククライミングについて話しましょう。別のタイプのトレーニングですね。