強化学習とプログラミングが人間レベルのAIを解き放つ方法

本動画は、Poolsideの創設者が強化学習とコード実行フィードバックを活用したAI開発について詳しく解説したインタビューである。2015年のアンドレ・カルパシーの論文とAlphaGoの登場が契機となり、言語モデルと強化学習の組み合わせに注目。コード実行環境で実際にプログラムを動かしながら学習する手法により、従来の次トークン予測だけでは限界のある推論能力を向上させる取り組みを紹介している。エンタープライズ向けのソフトウェア開発支援から始まり、最終的にはAGI実現を目指す戦略について語られている。

How Reinforcement Learning and Coding Could Unlock Human-Level AI

How do we get from today’s AI copilots to true human-level intelligence? In this episode of Eye on AI, Craig Smith sits ...

ソフトウェア開発とAI能力の関係
初期の研究開発
ChatGPTの登場と方向転換
Poolsideのビジョンと戦略
ソフトウェア開発が知能の優れた代理指標である理由
強化学習とコード実行フィードバック
モデルアーキテクチャと訓練手法
エージェント型強化学習への進化
業界でのコード実行フィードバックの採用
製品展開と将来のビジョン
アーキテクチャとアテンションメカニズム
現在のモデルの限界と推論の課題
決定論的環境でのコード学習
製品の現状と競合他社との比較
エンタープライズ展開と評価手法
成功率とメトリクス
業界の将来への洞察

ソフトウェア開発とAI能力の関係

もしソフトウェア開発で非常に有能な基盤モデルを手に入れたいなら、コードだけに注力してたらあかんのや。ソフトウェア開発っちゅうのは、世界を理解することの表現なんや。だから私らのモデル、実はめっちゃ有能な汎用モデルなんやで。詩を書くことも得意やし、ソフトウェア開発に含まれる他のあらゆることも手伝ってくれるんや。

でも私らがやってることは、訓練の初期段階で全ての努力をソフトウェア開発に集中させることや。そして訓練データと訓練手法において推論に大きく重点を置いてる。今向かってる方向は、どんどんエージェント的になってきてるんや。つまり、タスクがより複雑で、より高度に抽象化されてきてる。単に関数を書くだけやなくて、機能全体を実装したり、複雑なバグを見つけ出そうとしたりするんや。

ここでも重要なのは、それが複数ステップのプロセスやということや。まず最初に、クレイグ、今日は呼んでくれてありがとうな。私の経歴を少し振り返る価値は絶対あると思うで。私は根っからのコンピューターオタクなんや。人生のほとんどの間プログラミングをやってきた。2015年にアンドレ・カルパシーの記事を読んだんや。タイトルは「リカレントニューラルネットワークの理不尽なまでの有効性」やった。

その記事は文字通り私を言語モデリングの泥沼に引きずり込んだと言わざるを得ないな。これが2015年やったということを覚えておくのが大事や。なぜなら2016年に次に私の注意を引いたもの、世界中の多くの人と同じように、AlphaGoやったからや。AlphaGoが登場した時、それはありがたいことに強化学習の理不尽なまでの有効性やった。

この短期間に起こった二つのことが、今日まで私の考え方を決定づけたと思うんや。だから2016年に、私が作ってた会社をピボットして、コードを書くことができるAIの構築に完全に集中することにしたんや。これは言語モデルを使ってたんやけど、2015年から2016年って言うたか？そうや、Transformerの前やった。

初期の研究開発

そうや、Transformerの前や。だからその時は、LSTMでモデルを訓練してたんや。Transformerの前身やな。そして私らはコード実行による強化学習の世界初の取り組みを始めてたんや。当時は「コンパイラー経由のRL」って呼んでたんやけど、あの二つのルーツからの二つのことがその瞬間に一緒になった理由が分かるやろ。適切な情報を適切な時に目の前に持ってこれて運が良かったんや。

その後4年間、チーム全体でこれに取り組む中で、言語モデリング（LSTMの後にTransformerに移行した）が人間レベルの能力まで到達できるという非常に強い確信を築き上げたんや。でも次のトークンを予測するだけでは無理やった。強化学習と手を取り合って進む必要があったんや。

その過程で、2017年末に現在の共同創設者ジェイソンに出会ったんや。彼はGitHubのCTOで、マイクロソフトに買収される約2年前のことや。彼は私らが持ってた世界初の動作するコード補完モデルを買収するオファーを出してきた。

彼は私が信じてたのと似たような未来を見てたんや。十分な時間とリソースがあれば、AIはソフトウェア開発において人間レベルの能力に近づくやろうということやった。オファーは断ったけど、良い友達になって、話すのを止めることはなかった。ある時点では数年間一緒にポッドキャストもやってたんや。これは二人の大人の男性が定期的にお互いと会う素晴らしい方法やったな。

でも結局、その会社は成功しなかった。約4年間取り組んだけど、時期尚早やったんや。実際にはかなりの技術が動いてたんやけど、開発者にエディターをインターネットに接続してもらうのが困難やった。今日では馬鹿げて聞こえるけど、そう遠くない昔はそれが大きな課題の一部やったんや。

ChatGPTの登場と方向転換

人生色々あって、2022年11月にChatGPTが登場した時がきたんや。その時点で、私らがずっと信じてきたことが起こり始めてたんや。それはある意味、私のキャリアで最大の失敗に見えてたことやった。何年もかけて研究チーム全体でこの強い確信を持って取り組んできたものが、会社としては成功しなかった。そして突然、それが世界で離陸し始めたんや。

その時点で、私もジェイソンも週一で話してる中で、次の10年がどんなものになるかは非常に明確やった。今やモデルと人間の知能の間のギャップを縮める大規模な加速、さらにはそれを超えることになるやろう。だから私らは自分たちに問いかけ始めたんや。その競争に参加するには何が必要か？

周りを見回すと、世界の感情は「AGIに到達するために必要なのは、パラメータサイズとより多くのデータをスケールアップして、より多くの言語モデリングをやることだけや」やった。でもそれは私らの見解やなかった。私らの見解は、確かにスケールが大幅に重要や。それは知能とモデルとの直接的な関係があって、今日まで実証的に示され続けてるということや。

私らの見解は、それが強化学習と手を取り合って進む必要があるということやった。それが私らがPoolsideを中心に築いたことや。だからこの会社を始めたんや。

Poolsideのビジョンと戦略

それでコード生成プラットフォームとして築いたんやけど、AGIへの一歩としてではないんか？両方やな。2年前に私らのウェブサイトpoolside.ai/visionに何かを書いて、今でもそこにあるんや。次の数年間に対する私らの見解は何かということで、3つのステップを示したんや。

ステップ1：全員がソフトウェア構築を支援できるAIを作る。ステップ2：誰でもAIでソフトウェアを構築できるようにする。ステップ3：全てのドメインに汎化する。

私らはこの会社がAGIへの競争に参加するために存在することを非常に明確に述べたんや。ソフトウェア開発に注力した理由は、それが2つのことをしてくれると感じたからや。

一つは、AIが大きな経済的影響を持つ最初の分野を解き放つということや。AIがこの分野でどんどん有能になってるのを見てたし、ソフトウェア開発者やソフトウェアを構築する人々は伝統的に常に技術を早期に採用するフロンティアにいるからや。だから生産性と働き方を変える観点で、最初に大きな影響を与える場所になることは明らかやった。

二つ目は、目隠しをつけたかったということや。もし「詩を書くことから医学知識の支援まで、ソフトウェア開発まで、あらゆることに対応する汎用的なものを作る」と言ったら、薄く広がりすぎることが分かってたんや。

ソフトウェア開発が知能の優れた代理指標である理由

ソフトウェア開発は知能の優れた代理指標なんや。世界を理解することが必要や。複雑な推論が必要や。長期的な目標に対する計画が必要や。目の前のデジタル世界との相互作用が必要や。視覚的理解が必要や。

価値ある人間の知能を構成するもの全てではないけど、多くのものが必要なんや。だから私らの見解は、そこでフロンティアを押し進めることで、将来みんながする同じポイントに自然に収束するやろうということやった。それはよくAGIと呼ばれるものやな。

GitHub CopilotはOpenAIのモデルをベースにしたものや、他のほとんどのコード生成プラットフォームは汎用基盤モデルをベースにしてると思うんやけど、君らは独自のプロプライエタリモデルを一から構築したんやな？コードのみで訓練したってことか？

二番目の部分は正しくないな。最初の部分は、AGIへの競争に参入して、基盤モデルを一から構築するということや。でもソフトウェア開発で非常に有能な基盤モデルを手に入れたいなら、コードだけに焦点を当てることはできへんのや。

ソフトウェア開発は世界を理解することの表現なんや。だから私らのモデル、実際にはとても有能な汎用モデルなんや。詩を書いたり、ソフトウェア開発以外の他のあらゆることを手伝ったりするのがかなり得意や。でも私らがやってることは、訓練の初期段階で全ての努力をソフトウェア開発に向けることや。

そして私らは訓練データと訓練手法において推論に、モデルが長期的な目標を取って、提示された情報を推論することとツール使用によって環境との実際の相互作用によって、それらをうまく処理する能力に大きく重点を置いてるんや。

でも私ら全員が固定されたパラメータ予算のある世界に住んでるからな。10兆パラメータモデルをユーザーにコスト効率的に提供することはできへん。今日のハードウェアでは実現せえへんのや。だから全てのモデル会社が最大サイズのモデルを提供できると考えると、スパースでもデンスでも関係なく、効果的に推論リクエストあたりに費やせる一定量のセントがあるということや。

私ら全員が効果的に同じ、3つの異なるタイプのハードウェア上で動作してるからや。だから私ら全員同じコストプロファイルを持ってる。誤解しないでくれ、ここやそこで20%や30%効率的にできるかもしれん。DeepSeekは良い仕事をしたし。でも私ら全員同じ予算なんや。

私らの見解はずっと、そのパラメータ予算をソフトウェア開発関連の能力に訓練の初期段階で押し進めることで、ソフトウェア開発関連の知識タスクなどにより多くの訓練計算を適用することで、ソフトウェア開発により遠くまで使おうということやった。そしてそれの多くは私らの強化学習の仕事と関係してるんや。

強化学習とコード実行フィードバック

コード実行からの強化学習を使ってるんやろ？RLHFについてはたくさんの仕事があるけど、これは具体的に書かれたコードを実行して実行されるかどうかを見ることやな？

その通りや。私らの見解はずっと、モデルの事前訓練段階で、これは一般的に持たれてることやと思うけど、可能な限り最も一般的なタスクでこれらのモデルを押し進めてるということや。次のトークンを予測することやな。でもソフトウェア開発のようなスキルについて話す時、それらは環境内で動作するんや。

コードが書かれて、実行されて、テストされて、完全なシステム内で実行される必要がある。私ら開発者はそれを修正して、自分たちが導入するエラーやバグからフィードバックを得てる。そしてそのフィードバック全てが、ソフトウェアを構築する反復プロセスにしてるんや。

私らの見解は、その経験的反復プロセスがモデルの学習方法に非常に似てるべきやということや。だから2年前の私らのステップ1は、コード実行環境を構築することやった。それはたくさん成長した。今では約100万のリポジトリ、完全にコンテナ化されたテストスイート付きの実世界のコードベースを近似し始めてる。そこで何でも変更を加えて、総セットとして数千万のリビジョンを持ってるんや。

そこで合成的にも人間が書いたタスクも定義して、モデルに解決空間を探索させることができる。そして強化学習では、いつも同じことや。タスクがあって、そのタスクを解決する可能な軌跡に関してロールアウトするサンプルの数があって、それをうまく解決するか失敗する時の報酬がある。

この極めて大きな環境を持つことで、私らの仕事は生成するタスクの品質を継続的に向上させること（そのほとんどは合成的）、モデルに持ってくる報酬信号を継続的に向上させることになる。明らかなものは単体テストに合格することやけど、その上に加わることができるより多くの報酬信号があるんや。

そして常にその環境の多様性が継続的に成長することを確認して、より多様なタスクとより挑戦的なタスクの両方を持つようにしてる。そして今、モデルがより有能になってる中で、私らの最新世代のモデルでは、それはもはや単一または複数ターンのロールアウトやない。今はその環境に入ってより多くのツールにアクセスして、学習するためにより複雑なことをするエージェントなんや。

モデルアーキテクチャと訓練手法

初期訓練では2つのモデルがあるんやろ？2つの主要な基盤モデルがあって、それらの違いは何で、それから聞こうと思ってた質問は、訓練について、伝統的な（これも新しいけど）方法で訓練してるのか。つまり、大量のデータをTransformerアルゴリズムに与えて重みに知識をエンコードさせるのか、それともDeepSeekのように直接強化学習で訓練してるのか？

基盤モデルを訓練する異なる段階を見ると、伝統的なパイプライン（ユーザー用語やけど）は、基本的にウェブでの事前訓練や。ウェブを最適化し、モデルで書き直し、より一貫性を持たせ、タグ付けし、重み付けし、大量の実験をした後にな。そして次のトークン予測段階があって、それは事前訓練予算の大部分を通じて起こる。

途中でデータセットの分布を訓練の終わりに向けて異なって変えることもある。そして事後訓練ステップがあるんや。事後訓練内で、教師あり微調整の技術の混合を見つけることになる。つまり、例付きのデータセットを提供することや。多くの場合、これはより会話的や。だからモデルはこの会話スタイルの前後、ユーザーアシスタントに慣れる。

そして強化学習コンポーネントがあって、これはモデルにこれらの環境でのタスクのセットを与えて、それらをうまく完了したり、正しいプロセス内のステップを持ったりした時に報酬を与えることや。そして後でまたSFTをするかもしれん。これが2025年のみんなのモデル構築の標準的なパイプラインやと思う。

今、業界の私ら全員がそれをさらに押し進めるために革新してる場所がある。私らが実際にやって焦点を当ててきた場所は、どこまで事後訓練でのその強化学習を押し進めることができるかということや。検証された報酬やコード実行でのRLの限界は何か。

検証されない報酬での強化学習の限界の深い探索。これは私らがまだあまり詳しく語らない一部や。まだもう少しプロプライエタリに保ってるからな。そしてそれは私らが内部的によく「パンとバターモデル構築」と呼んでることや。

効果的にモデル構築でやってることは、データの有効性を向上させて、計算の有効性を向上させることや。そしてあなたが常にやってる大量の仕事がある。最新のデータセット、アーキテクチャ、注意メカニズムの改善されたスイープがそれやな。でも私らにとって重要やったのは、これらの一つ一つが研究者による独自のプロジェクトや努力になる職人的モデル構築の世界から抜け出すことやった。

本当のモデル工場を持つこと。これらのアイデアから結果まで非常に迅速にどうやって実際に行けるか？ハイパーパラメータや異なるデータ設定の千の異なるバリエーションでスイープをどうやって実行できるか？アイデアから実験までの結果が完璧にトレース可能になるように、これをどうやって決定論的にできるか？

そして今、2年経って、モデルの構築はモデルを構築する工場での作業について、動作させようとする最新の職人的アイデアからコンポーネントを引っ張ってくることよりも多くなってる。

RLCEFコード実行フィードバックについて。それはモデルがコードを書いて、実行して、結果を得て、結果をモデルに訓練にフィードバックして、再びコードを実行して書く継続的なループなんか？つまり、コードを書くのがどんどん上手くなってるということか。どうやって動いてるんや？

それは始まった場所に近いな。だから始まった場所は、「ここにリポジトリがある。これはコンテナ化されてる。つまりコードが実行されテストされることができる。」ということやった。そして「関数を削除して、モデルから関数を隠して、その関数を命令に翻訳し戻して書こうとする命令を与えて、その考えと解決策を考えさせて、10や15や20のサンプルをしてから、正しいものを採点して、失敗するものを負に採点する」のような非常に具体的なタスクを定義することから始まった。

異なる強化学習アルゴリズムがある。最新の人気なものはGRPOで、これらのロールアウトをグループ化するんや。だから正と負のサンプル両方を活用する。そしてそれが私らの強化学習が始まった場所や。それが今向かってる場所は、ますますエージェント的になってることや。

エージェント型強化学習への進化

ループ内のエージェントでのRLCEF。これが意味することは、タスクがより複雑で、より高度に抽象化されてることや。関数を書くだけやなく、機能全体を実装しようとしたり、複雑なバグを見つけ出そうとしたりするんや。

ここでも、それが複数ステップのプロセスやということを意味してる。だからエージェントはコンテナ内にいる。もはやコードを編集するだけやない。コマンドを実行できる。物事を検索できる。ファイルを開ける。それらを読める。物事を保存できる。異なるバイナリを実行できる。

だから依存関係を引っ張って、ソースから再び作成してインストールしようとしてるのを見ることができる。エージェントが効果的に私ら開発者が持ってるのと同じツールへのアクセスに近づいてきてるのが見えるやろ？私らはただコードを書くだけやない。システムでもっと多くの変更を加えるんや。

そして報酬はますます長期間のタスクをうまく完了することにある。強化学習は非常に気難しい獣や。強化学習を安定させることは、モデルが学習できる十分複雑なタスクを探すことと、解決策を得ることができないほど複雑ではないタスクとの境界線上に常にいることを意味するんや。学ぶべきものがないからな。ちなみに私ら人間と似てるな。

業界でのコード実行フィードバックの採用

他に誰がこの種のコード実行からのフィードバックを使ってるんやろか？これを見るのは初めてやけど、標準ではないということやないけどな。

2016年にこの分野に入った時、それを見た最初やったと思う。良いアイデアは多くの場所で浮かぶと確信してる。他にもいたと確信してるけど、実際にはそういうものやなかった。

2年前にPoolsideを始めた時、ほとんど誰も強化学習に全く焦点を当ててなかったと思う。コード実行フィードバックだけやなく。今日では、そこで見るほとんど全ての推論モデル（君が言及したDeepSeekのものやOpenAIやAnthropicなどから）が、これのバージョンを訓練ループの一部として持つことが明らかやな。

私らについてユニークやと言えることは規模や。コード実行のための極めて大きな規模の環境、タスクとモデルが学習できることの観点での膨大な量の多様性、そして今私らの仕事もそれを超えて進んでることがますます増えてる。検証できない場所での強化学習はどんなものか。

コードだけやなく、そしてソフトウェア開発も。なぜなら私らが本当に持ってる観点の一つは、知識を学ぶことが重要やということや。世界を理解するために知識が必要で、知識の表現が必要や。でもドメインに対する成功した推論と思考について、もう少し普遍的な何かがあるんや。

ソフトウェア開発のようなドメインでそれらの能力を押し進めることができれば、それは玉ねぎのようなものやと見えるんや。いや、もっと良いアナロジーは水に落とした石で、近くにあるあらゆる他のものに波紋効果があることや。だからコードでの能力を改善することは、数学での能力を改善し、推論や法律などの他のドメインでの能力をさらに改善する。

これはもうユニークやないと思う。他の人たちもこれを見てきたと思う。だから今フロンティアでは、みんなにとって強化学習計算をスケールアップする競争やと思う。

製品展開と将来のビジョン

始めに言ってたけど、本当に開発者向けに構築してるけど、長期的な目標は誰でもソフトウェアを書けるシステムを構築することや。おそらく自然言語で。現在の製品のイテレーション、この強化学習とコード実行フィードバックでは、それが書いたコードがうまく実行されるまで動作を停止したりユーザーに結果を出したりしないということを意味するんか？

モデルと製品が一緒に動作するという観点からこれを考えると、RLCEFが今までどう進化してきたかについて本当に面白いものがある。最初、RLCEFは私らがコードベースの訓練部分でやってたもので、そのための特定の訓練コードを持ってたんや。

今、強化学習ループに入ってるエージェントは、私らがユーザーに製品として出荷し始めるのとまったく同じエージェントや。そしてちなみに、私らは既に世界でこの例を見てる。出てるDeepResearch製品を見たことがあるなら、それらは効果的に深い研究のための強化学習ループで訓練されたエージェントや。そしてそのエージェントはユーザーが利用できるようにその上にUIを置いてもらえるんや。

だからこれが汎用ソフトウェア開発エージェントにとって、最も有能なエージェントが基盤モデル会社から出てくることがますます明らかになってる理由や。それは多くの他の人々によってモデルの上に構築された非常に有能な特定のエージェントがないということを意味するわけやないけどな。

でもエージェント自体、それがアクセスするツール、それを囲むプロンプト、それが実際に訓練ループに入ってるものやから、そのエージェントはますます有能になる。

今、エンドユーザーにとって、ソフトウェア開発のためのAIとのインターフェースの取り方は、AIがまだ人間レベルの能力にないという事実と本当に関係してる。だから今日私らが周りに構築してるもの全ては、普通、モデルがまだ非常に失敗しやすくて、かなり多くの間違いをするという事実に対処するためのものや。

それはレビューできるコード、戻ってこれる、間違ってた時に言える複数ターンの会話、あなたがいる環境からのフィードバックを与えることができる、テストフィールドからそれをどう渡すかという周りに物事を構築してることが多いということを意味する。

でも私らはモデルの周りに構築された多くのコードや機能のレベルがどんどん薄くなってきてる軌道にますます乗ってるんや。

私はコーダーやなくて、最初のgenAIアプリケーションが市場に出るずっと前から、このことについて人々と話してきたんや。Intelに機械プログラミングの人がいて、よくこのことについて話してたんや。その時は遠い夢のように思えたけど、わずか数年後に起こってる。

でも繰り返すけど、コーダーやないので、コード生成ツールを使う時の私の問題は、間違いを見つけられないことや。コード自体を読めないんや。だから出力をもらって、実行すると、エラーが出て、エラーをモデルに送り返す。モデルは「ああ、そうや、もちろん。これが間違いや」と言って、修正して、コードを実行すると、別のエラーが出て、それが終わりのない無限ループになるんや。

でも君が言うようにコンテナで、実行されるまでユーザーに出力を与えないか、「申し訳ないが、これを動作させることができません」と言うなら、RLCEFでそれは克服できるように思えるんやけど。

クレイグ、君は正しい方向に向かってるな。エージェントは本質的にモデル・ループ・環境、MLEやろ？そして環境はそれが動作してる場所で、モデルは主に重要なもので、残りはその周りのforループのためのコードに過ぎない。そして環境は君がツールをモデルに提供する場所や。

だから私らが既に見始めてることは、モデルが成功するために反復しようとしたり、ある時点で諦めて「おい、これを理解できません」と言ったりできる、ますます大きなタスク、より長い持続時間、より高い複雑性があることや。

そしてそれが私らが向かってる世界の種類や。複数ターンのチャットの前後体験から、「おい、このタスクがある。これをやりに行ってくれるか？」という世界に向かってるんや。ステップ1は、多くの場合、モデルが適切な明確化質問をすることや。人間に聞くことはそれ自体がモデルのためのツールや。誰かに行って聞いてから、行って試すことができる。

そして環境が君が説明したコンテナのようにうまく設定されてるなら、そこで多くの仕事が成し遂げられるのを見ることになる。でも私らがまだモデルが私らが持ってるのと同じレベルの能力に到達してない世界に住んでることに注意するのが重要や。

だから特定のタイプのタスクについては、これは絶対に10回中10回成功して完了まで行くことができる。でも多くのタスクでは、まだ完全にそこまでやない。そしてこれがよくテスト時計算の概念が言及される場所や。モデルに基本的にソリューションに到達しようとするより多くの推論を実行するより多くの時間を与えることや。

でも明日私が君に量子物理学の問題を与えるとしたら、クレイグが量子物理学者やないと仮定して、1時間や500時間のテスト時間計算はおそらく君がそれを解決するまでには至らんやろ。そしてそれがモデルと同じや。彼らには真の制限とギャップがまだある。それらは私らのもののように常に明らかに境界づけられてるとは限らんだけや。彼らはしばしば驚くような方法で失敗する。

アーキテクチャとアテンションメカニズム

Transformerを使ってるんやな。LSTMについて言及してたな。セップ・ホホライターがいて、彼の名前を発音することができひんが、番組に出てもらって、彼はLSTMの研究を続けてる。リスナーのために言うと、彼は長短期記憶アルゴリズムを考案した人で、それが長い間標準やった。

そして彼はメモリウィンドウを広げることができて、まだたくさんのアプリケーションがあると信じてる。そしてMambaがあって、これは状態空間スタイルアプローチのレイヤーや。そして何が起こったかをまとめるTransformerがあって、それからこれらの状態空間レイヤーの別のブロックがある。それらのどちらかを使ってるか、それともTransformerにこだわってるか？

それは本当に良い質問や。私らはファクトリーアプローチに戻って持ってるんや。具体的に君が話してることは、モデルアーキテクチャでのアテンションメカニズムのようなものや。

それらは重要な詳細で、実験に時間を費やすものや。でもそれらについて考える方法は、多くの場合、それらの詳細が推論速度か訓練速度のどちらかを解き放つということや。そして潜在的に、それはモデルのより長いコンテキストウィンドウ、このより長い作業記憶と手を取り合って行くんや。

私らはRNNスタイルのアテンションに関してかなり多くの仕事をしてきた。君がMambaについて言及したけど、RWKVもあって、共同著者の一人がPoolsideで働いてる。私らはRNNスタイルのアテンションでかなりの成功を収めてきたんや。

最終的に見ることは、異なるアテンションメカニズムがハイブリッドとして組み合わされることで、本当に良い結果を持つことができるということや。それが君がMambaで話してたことで、TransformerブロックやGLUや、ある種のグローバルアテンションレイヤーを追加するハイブリッドがあるところやな。

これらは興味深い詳細で、私は何時間でもそれらについてオタク的に語ることができるけど、それらが最適化やということを理解することも本当に重要やと思う。それらは根本的な革新やない。

私らの地平線では、モデルのメモリに大きな影響を与えることができるアーキテクチャでの根本的な革新を持つことができるかもしれん。なぜなら今、私らは本当に持ってないからや。私らは訓練で埋め込まれた重みと活性化の更新か、RNN状態やMambaスタイル状態やTransformerのような作業記憶を使うだけかのどちらかを持ってる。それは全て効果的に、推論呼び出しが完了すると一度通るものや。

だからそれらは押し続けるものやけど、この時点では、人間レベルの能力に到達するためにアーキテクチャでの根本的な革新を必要としない瞬間にいるように感じる。コーディングやソフトウェア開発では。それは大いに役立つやろう。

そして確実に、もしそれらを持てばアーキテクチャの革新があって、私らの業界全体を覆すことができるものがある。突然それはもうフロンティアでモデルを訓練するために数十億ドルを必要としなくなることを意味するかもしれんからや。

でも今のところ、ニューラルネットの理不尽なまでの有効性は本当にそこにある。それらをスケールアップする。もしそれが伝統的な次トークン予測でデータと合成データ生成を持ってるか、私がモデルの訓練の計算予算のより大きな部分になってくると思う強化学習でかのどちらかで、より多くの計算をスケールアップする。

私がそれが今後数年でモデルを訓練する計算予算の最大部分になるという予測を進んでしようと思うほどやな。君は全部の道を行くことができる。でもそう、それらのことは重要や。最終的には私らの計算の有効性がしばしばアーキテクチャに関係するからや。

現在のモデルの限界と推論の課題

君は言ってたけど、モデルがどれだけ賢くても、まだ人間レベルやない。確実に自然言語では人間レベルや。コードについて、それらがそのレベルに到達するのを妨げてるのは何なんやろ？

私らが見ることは、ウェブのほとんどで訓練して、今私ら全員がウェブをより良く、よりクリーンで、合成形式で書き直してるということで、確実に信じられない量の知識がエンコードされるということや。信じられない言語理解を得るけど、ウェブは出力製品やということや。書かれた最終的な記事や。それに行った思考プロセスやない。最終的な研究論文や。実験の一つ一つの思考ステップやない。それに到達したものやない。

それはアインシュタインの相対性理論やけど、彼がそれを考え抜いて、うまくいかなかったもの、どうやってかということに費やした何百や何千時間やない。そして私はこれが本当に重要やと思う。なぜなら仕事の創造のプロセスが、次トークン予測だけでそこに到達する十分なデータに存在しない本当に重要な訓練データセットになることが判明したからや。君は限界を得る。

もし無限のデータと無限の計算を持ってたら、AGIに到達できるやろ。次トークン予測はモデルの学習での信じられないほど強い最適化圧力やからな。でも私らは正しい推論と数学とコーディングと医学と、これらの全ての分野での何兆もの思考プロセスのトークンを持ってないからや。

私らは推論コンポーネントで見る。思考を。私は推論を思考のサブセットとして見てる。推論は目標指向で、結果を必要とする。思考はもっと広くありえる。それはよく表現されてない何かや。そして私らはそれを持ってないから、モデルが私らが非常に単純だと考えることで壮観に失敗するのを見るんや。

でも私の一番好きな例は、彼らが数学をどうやってするかを見る時や。だから3,385かける9,882のような大きな数字にかけられた大きな数字のような単純なものを取って、今日のどのLLMにも投げ込むと、それが出力する数字は間違ってるやろう。でもおそらく左右に5%くらいしか外れてないやろう。

方向的には正しくて、真実は、もし君にその数字を与えて私からの即答が必要やったら、おそらく私の方が悪いやろうけど、うまくいけば方向的に正しくなるやろう。私らがするような方法、学校で習った小さなアルゴリズムをその数学の和にどう適用するかについてモデルに推論させると、正しい出力を得る。それがモデルで未開発な部分や。

そして強化学習が今約束を提供してて、結果を提供しようとしてることは、私らがその複雑な推論を発展させることができることや。ソフトウェア開発とコーディングは、何かを正しく行うために多くの複雑な推論と複数ステップの推論を必要とする本当に素晴らしいタスクや。

そしてしばしば、私らの作業記憶よりもはるかに大きな環境で動作するからや。巨大なコードベース。君がモデルにエージェントになってもらいたい全体システム。それが間違いを犯した時に得るフィードバックと相互作用できるようになってもらいたい。なぜなら今日それが完璧であることを合理的に期待することはできないし、私らもそうやないからや。ちなみに。

それが欠けてる部分で、これはコーディングだけに当てはまるわけやない。今日AIを適用するほぼ全ての高度な知識作業ドメインで当てはまるんや。

決定論的環境でのコード学習

私はコードは決定論的やと思ってた。モデルがステップを追って、ステップの背後にある推論を理解する方が簡単やろうと。でもそれはあまりにもナイーブかもしれん。

それがそうやったらと願うで。今、それが決定論的やからこそ、非決定論的ドメインよりも推論のレベルを改善するための強化学習での訓練をはるかに簡単にすると思う。このコードはコンパイルされたか、正しかったか、単体テストに合格したかを言うことができる多くのことをすることができるからや。

大規模言語モデル裁定とよく内部的に言及する別の概念がある。それはモデルがそれを書くこととは逆に、コードが何をするべきか、成功する入力、出力が何かについて推論する方が良いということや。そしてちなみに、私らもそうや。実際に何かを観察して、それが何をするべきかについて推論する方が、実際にそのものを作ることよりも簡単や。

そして決定論的な結果を持ち、実行できるという事実とこのモデル裁定の組み合わせが、それを世界最高の強化学習のターゲットにするんや。それが2016年に私を興奮させたものや。それが私にこの会社を始めさせ、ジェイソンを口説いたものや。

そしてそれが今、モデルの推論能力の改善の多くを導いてると思う。コードだけやなく、全体的に。推論が私らがモデルで学習してる表現で、知識の他のあらゆる表現に触れるものであることが判明したからや。

製品の現状と競合他社との比較

製品は今どこに立ってるんや？そして聞かなあかんのは、私はManusも使ってるんや。クラウドの仮想ウェブサイトで動作する中国のマルチエージェント自律マルチエージェントソフトウェアで、推論してる間君のコンピューターを使わない。混合した結果やけどな。

コード生成の世界でそれはどこに立ってるんや？それは面白い工学演習に過ぎないのか、それとも何かやってると思うか？そしてPoolsideでエージェントについて話す時、それは仮想環境で動作して、君がタブアップしたりあらゆることをしたりすることなく応答を返すような似たアーキテクチャなんか？

私はManusを使ったことがないけど、デモビデオをいくつか見たことがあって、モデル能力と素晴らしい環境が組み合わされた素晴らしいショーケースやと思う。前の点に、モデル・ループ・環境。

そして環境は君がツールを提供する場所で、モデルがそのループで実行することを許可する場所や。今日私らがどこにいるかを見ると。だから私らはモデルがエージェントレベルの能力にある前に始めたんや。

私らは開発者がエディターでPoolsideとのウェブアシスタントで持つこの前後の複数ターンの種類のチャット会話から始めた。それから私らはモデルが計画とコード変更を提示することに移行した。だからそれがファイルで作ってたネイティブ編集。

今、私らは越えてエージェント的世界に移行してて、エージェント自体が効果的にランタイムで、エディターからインターフェースできる、CLIツールからインターフェースできる、APIコールからインターフェースできるんや。

今のところ、それをローカル環境で実行することについてまだ非常に多い。私らの仕事は確実にリモート実行環境に向かってる。これらのエージェントをリモート実行環境で実行させるにはどうすればええか？なぜなら私らが開発して取り組む多くのコードは、私らのラップトップで実行されるわけやなく、Kubernetesクラスターのどこかで、CIのどこかで実行されるからや。

だから私は全体的に、ソフトウェア開発での有能なエージェントがあらゆる場所でこのパターンに従うと思う。これは私らだけのことやない。これが起こると思う。Poolsideでの私らの仕事は、2つのことを本当によくすることや。

一つは、ソフトウェア開発のための最も有能なモデルを構築することに本当に集中して、可能なことのフロンティアを押し進めるためにそれをスケールアップし続けることや。

それから二つ目は、2つのことのためにモデル周りの全ての製品体験をどうやって持ってくるかということや。一つは、将来他の人たちが私らの上に構築できるようにすること。そして二つ目は、モデルがより有能になってる中でユーザー体験が常に進化してるからこそ、私らがユーザー体験について自分たちの見解をどう持つかということで、それをエンドユーザーに持ってくることや。

そしてここで私らは1年前に決定を下したんやけど、まだ私らがやったことを非常に嬉しく思ってる。エンタープライズに本当に焦点を当てることや。時間をかけて世界のあらゆる開発者にPoolsideを持ってきたい。

でも私らは5万人のソフトウェア開発者を持つニューヨークのUS銀行のような、最大数の開発者が働いてる最も複雑な環境の一つを見たんや。そしてそれらの環境で、12ヶ月で人々が何千、何万、もしかしたら何十万のエージェントを実行してる見解を見てるなら、どうやってその混乱を管理するんや？どうやってそれらのエージェントをオーケストレーションするんや？どうやって監査ログを取るんや？どうやってそれらを監視・観察するんや？どうやって組織の人々にそれらを弾力的にスケールアップ・ダウンさせることを許可するんや？

だから私らの見解は、エージェントが効果的に弾力的なAI労働力である世界に向かってるということや。それがPoolsideの製品とどう関係するんや。君らはAIオーケストレーションや記述に向かってるのか？

私らはスタック全体を構築してきたんや。それが私らが2年間やってきたことや。だからモデル、モデルにサービスするあらゆること、それを外に公開するAPIミドルレイヤー、ユーザーインターフェースを考えてくれ。今日私らはVS Code、IntelliJ、Visual Studio、そしてCLIとウェブ、そしてAPIレイヤーに焦点を当ててる。これは人々がどう相互作用するかという点で重要や。

そして今それに追加してるのは、管理とオーケストレーションの側面や。そして私は率直に言って、これが業界のあらゆる人が既に向かってる方向やと思う。エージェントとモデルの間のギャップが、エージェントがモデル周りのラッパーに過ぎないということが、私らの能力レベルで閉じてることが今明らかやからや。だからより長い持続時間のタスクを彼らに託すことができる。つまり、より中央で、より多くの監視で、そして企業に必要な関連する全ての機能でそれらを管理できるようになりたいということや。

エンタープライズ展開と評価手法

でもボトムレイヤーでは、まだコード生成について話してるんやろ？

私らは正確に完全なソフトウェア開発について話してる。なぜならソフトウェア開発はコード生成を超えるからや。製品の構築を手伝うことや、PRD文書。システムでログを監視することを手伝うことや。私らの見解は、エージェントがあらゆる場所で実行されるということや。開発者と同期的に、タスクが送信される非同期的に、そして自律的にも動作するやろう。

CIで実行されるやろう。コンテナで実行されるやろう。ログを観察するやろう。私らはまだエージェントが実行される世界の表面積を過小評価してると思う。

でもまたコード生成について、大企業の開発者はGitHub Copilotを使ってる方法でパートナーやアシスタントとしてコードを書くためにPoolsideを使う意図なんか？

その通りや。そして彼らは既にそうしてる。

私らは既に企業に展開されてて、開発者がPoolsideと並んで作業してる。複数ターンのチャット体験からますますエージェント的な体験に移行してるんや。

どうやって有効性を評価してるんや？これは最近大きな話題やな。みんながベンチマークに訓練して、製品を出して「見ろ、私らのが彼らのを打ち負かした」と言う。でもそれは必ずしもユーザー体験に移らない。どうやってPoolsideを評価してる？どうやってCopilotを置き換えるためにPoolsideを売ってるんや？

それは素晴らしい質問や。だから評価について。私らは全エピソードをすることができる。評価、君は知ってる通り、基本的に私らがそれらを分解する方法で、業界のほとんどがそうやと思うけど、君がヒルクライムするベンチマーク。君がモデルで改善しようとしてる幅広い能力の範囲を本当に代表してると思うベンチマークや。

そして君がヒルクライムしたくないけど、モデル訓練を通じて何かが間違ってるかどうかを理解したい評価やベンチマーク。これらのことは突然ドロップダウンすべきやない。

そして君の有名なバイブチェックとレッドチーミングがある。これは本当にユーザー、内部・外部・有料・無料が君の製品の背後にあるモデルのバージョンと時間を過ごして、何が良いか、何が悪いかについてフィードバックを与えてる場所や。そして多くのことが最初は評価で捕らえられない。

次に、君のバイブチェックから学んでることを、次世代で評価セットを構築して捕らえに行くんや。もし君が学んだら、あ、君のモデルは頑固や。OK、それをどうやって評価するんや？

だから評価は生きたものや。それらが非常に広く範囲を持つことが重要や。だからこれは一般的推論から特定のコーディング能力から、モデルの性格と焦点まで全てや。そして君は常にそれについて改善してる。専用のチームを持ってるけど、内部的にもみんなが常に貢献してる評価フレームワークも持ってる。

私らの分野では決して完璧やない。そしてもしベンチマークだけをヒルクライムして、そのまわりであらゆる決定をするなら、紙の上では素晴らしく見えるけど使うのに素晴らしくないモデルになることがありえる。そして私らは業界でそれの例をいくつか見てきた。

だからそれは私ら全員がより多くの科学にしようとしてる芸術や。Poolsideをどう売るかという点では、いくつかのことがある。だから私らは5000人以上の開発者を持つ企業に焦点を当ててる。金融、公共部門・防衛、コア戦略産業で。だから大きな工業、大きな技術でこれをやってる。私らはAmazon Web Servicesと非常に密接に働いてる。

私らは彼らとファーストパーティパートナーシップを持つ非常に少ない会社の一つや。つまり企業がPoolsideの購入を検討してるなら、Amazonとの彼らのコミット支出を完全に引退させるということや。そして私が信じるところでは、これまでに4社だけが彼らと持ってたことや。4か5かもしれん。間違ってるかもしれんけど。

それは私らが非常に強いジョイント市場進出運動を持ってることを意味する。でもAWS以外でも、私らはPoolsideをオンプレミスで持ってくることも喜んでやってる。防衛や公共部門でかなりやってることで、データセンターのサーバーで、または防衛や政府でやってることでは、ラボやスキフに入る作業場でますます持ってきてる。

でも最終的には、顧客のファイアウォールの背後にモデルを持ってくることができるからこそ、私らはモデルの重みが顧客のために変わる未来もますます見てるんや。顧客側に強化学習を持ってき始めることができる場所や。まだそこでやるべき仕事がたくさんある。私らはそれで早期やな。

企業環境で何万ものエージェントを実行しようとしてる時、彼らが取るあらゆる軌跡、あらゆる思考、あらゆる決定、君の会社の誰かとのあらゆる相互作用、あらゆる行動、コード変更などの共有知識が欲しい。時間をかけてモデルの重みを変更できるようにして、モデルが君のもの、君の会社のモデルになるようにしたい。

そしてそれは私らが非常に強く感じてることや。私らは次の数年で、大きなコンテキストウィンドウを持つ中央モデルだけを見るつもりやないということや。動作してる環境にますます適応していくモデルを見ることになるやろう。

製品について言う時、これらはプロプライエタリや。オープンソースやないやろ？

私らはオープンソースやない。私らは世界がオープンソースモデルを構築してることが本当に価値があると思うけど、今私らが作ってる資本投資から、それが私らの戦略やとは見えてへんのや。

でもオンプレミスに何かをインストールする時、どうやってIPを保護するんや？これは本当に良い質問や。私らは現在のモデル能力の重みについては決して心配しすぎてない。君は常に次世代のモデルに取り組んでるからや。

だから私が最悪のケースシナリオを取って、リスク管理するなら、誰かが私らのモデルの重みをトレントウェブサイトに漏洩させることや。そのためにはかなり規制されて、人々がどう動作するかについてかなり堅実な企業内で多くのことが起こらなあかんやろう。

誰かがそれを建物から取り出してアップロードせなあかん。でもそれが起こったとしても、3、4、5ヶ月後に次世代のモデルに、1年後にはそのモデルは時代遅れや。

そして私は将来、モデルが特定レベルの能力に到達した時に、これについて異なって考えたいという非常に公正な懸念があると思う。そしてそれに向けて取ることができる技術的解決策があるんや。でも今のところ、私らは実際に業界の他の誰かのように重みについて同じレベルの偏執症を取ってへんのや。

成功率とメトリクス

別の質問で、1時間に近づいてるから長く引き留めたくないんやけど、コーディングレベルで、Poolsideが実行可能な関数を返す頻度と失敗する頻度についての何かメトリクスがあって、それで作業してるかどうかや。君は言ってたけど、より大きなコンテキストで作業してる。だから機能や全ソフトウェアスタックで作業してるけど、最終的には実行可能な関数を書くことに帰結するんや。

スタック全体にわたってそうや。だから私らの独自の訓練では、これの全てが測定される。顧客側では、収集できるあらゆるメトリクスを可能な限り公開する。API内でも、BIツールにインポートできるように保存されてるやつも。

これは実行できないコードだけやない。なぜならエージェントやないから、提案されてるからや。私らは実際に人々が変更を受け入れるか拒否するかから全てを保存してる。私らの顧客がAIがどうチームを助けてるか、どこで失敗してるか、どこで成功してるかについて細かい可視性を持てることが本当に重要やと思う。

それをプログラミング言語やチーム、特定のプロジェクトなど、彼らが好きな任意の次元で分解できるようになることや。私らはまだAIが大量の間違いを犯す領域にいて、それがどこに座ってるかを実際に非常に明確に観察できるようになりたい。

なぜなら私らは確実に、まだしばらくの間、私らが主要な行為者である世界に住んでるからや。私らがAIに指示してるんや。でもそうや、それは重要で、率直に言って、これは私らの顧客が非常に満足してるのを見て本当に楽しんでることの一つや。なぜならその透明性のレベルを提供することで、彼らはAIの採用にどこに投資する必要があるかについてより多くの情報に基づいた決定を下すことができるからや。

なぜならそれは既にチームの一部を取って、大規模な生産的にしてるけど、まだみんなやないからや。そして「おい、これはまだよく動作しない。次世代のモデルまで待とう」のような場所。

業界の将来への洞察

聞いてないことで、リスナーが知るべきやと思うことはあるか？君はこれに触れたと思うけど、私らの市場の全てのノイズから一歩下がることが重要やと思う。毎月新しいツールがあって、3ヶ月ごとに人気になるものがあるからや。

でも本当に一歩下がって次の5年を見て、私らが持ってるのと同じ仮定を持つなら、モデル能力がソフトウェア開発での人間レベルの能力と収束し、率直に言って私らがラップトップの後ろでやる知識作業の大部分と収束するなら、それはどう働いて、どう構造するかについて多くのことが根本的に変わることを意味するんや。

そして市場での最新のノイズが何であれ、それをこの世界でまだ関連性があるかに戻すんや。そしたら特定のことが高度に関連性があって、ますますそうなって、他のことについては2、3ヶ月や2、3年で聞かないやろうと見つけるやろう。

そしてそれはおそらく私が与えることができる最良のアドバイスや。AIがこのレベルの能力に到達した時にこれが関連性があるかどうかに対して測定することや。そして今起こってる全てを篩い分けるための良いフィルターになるやろう。

それは終わるのに良いポイントや。魅力的やな。そして人々が君らを試してみたいなら、poolside.aiに行くんか？

そうや。今のところ私らは一緒に働く企業でのみ利用可能や。だから一般的には利用できない。私らはそこに到達したい。でも大企業で働いてるなら、そこから私らのチームに確実に連絡してくれ。私らは常に関わる方法を見つけて喜んでる。そして確実に私らの目標は、Poolsideをみんなが利用できるようにすることや。企業外でも。