なぜ超人的なコーディングが間もなく到来するのか

AGIに仕事を奪われたい
この記事は約75分で読めます。

44,782 文字

"You don't fine-tune your way to AGI" - Here's why.
Eiso Kant, CTO of poolside AI, discusses the company's approach to building frontier AI foundation models, particularly ...

あなたは、スケールに反対する私の議論を決して聞くことはないでしょう。当時の世界での物語は、次のGPTモデルを単にスケールアップして10倍大きくするというものでした。これは非常に強い物語だったため、当時の世界の多くの人々がこれを信じていました。私たちは信じていませんでした。議論されていなかったスケーリングの軸が欠けていたのです。そして率直に言って、それが私たちが会社を始めた理由です。それは強化学習の使用によるスケーリングの軸でした。次のトークン予測のスケーリングは模倣学習と同等です。強化学習のスケーリングは試行錯誤学習と同等です。私が個人的に考える、今から18〜36ヶ月後に、知識労働の大部分において人間レベルの知能が達成される未来が見えているので私たちはこの会社を立ち上げました。ゼロから構築しなければ、それは実現できません。微調整してAGIに到達することはできないのです。
アイソ・カントとの最も素晴らしい会話をしたところです。彼はPoolside AIの共同創設者兼CTOです。彼らは最先端の言語モデルを構築しています。彼らは基盤モデルをゼロから構築する技術力を持つ、世界で7、8社しかない企業の一つです。
彼らはAIコーディングのための本当にクールなソリューションを持っています。正直なところ、今では以前よりも約10倍速くソフトウェアを書くことが可能になりました。彼らが行ったことは、コードの実行フィードバックからの強化学習を使用していて、これは言語モデルをあなたが書いているコードやソフトウェアに合わせるためにスタックのさらに一歩先に進んでいることを意味します。
現在、この分野には非常に多くの低いところに実るフルーツがあります。画面を見て、マルチモーダルで、開発者とのより良い協力を支援するコードソリューションはいつ登場するのでしょうか?アイソはこれすべてについて非常に興味深い話をします。また、基盤モデルをトレーニングする方法、テスト時の計算、思考と推論についても、かなりクールなギャラクシーブレインの会話を交わしました。この会話には多くの人が食いつくものがあると思います。
MLSTはTufa AI labsがスポンサーです。彼らはスイスを拠点とするDeepSeekです。素晴らしいチームを持っています。チームの多くのメンバーを見たことがあるでしょう。もちろん、彼らはMinds AIを買収しました。ARCで多くの素晴らしい仕事をしました。現在、彼らはo1スタイルのモデルや推論、思考、テスト時計算に取り組んでいます。彼らの下で働きたい理由は、多くの自律性、可視性を得られ、研究を発表でき、また彼らはMLエンジニアだけでなく、最高科学者も採用しています。彼らは本当にこの役割に最適な人材を見つけることを望んでおり、入社ボーナスとしてトップクラスの給与を支払う用意があります。MLエンジニアまたは彼らの最高科学者として彼らの下で働くことに興味があれば、ベンジャミン・クルジエに連絡してください。tufalabs.aiにアクセスして何が起こるか見てみましょう。
アイソ!MLSTにご参加いただき光栄です。今日はありがとうございます。
いや、こちらこそ呼んでいただきありがとうございます。
あなた自身とPoolsideについて少し教えていただけますか?
個人的には、私はコンピュータオタクです。若い頃からプログラミングを始め、2016年に世界初のAIでコードを書く能力に焦点を当てた会社を構築していると思われるものを作っていました。そこで共同創設者にも出会いました。実際には、もっと長い話があります。2023年4月23日に私たちはPoolsideを設立しました。Poolsideは、世界がAIで人間レベルの知能を達成するという私たちの見解に基づいて本当に設立されました。私たちはそこに到達する方法について独自の視点を持っていました。それが今から約2年近く前の私たちの基本的な出発点でした。
あなたの共同創設者はジェイソンですよね?
そうです。ジェイソンと私は2017年に出会いました。当時彼はGitHubのCTOでした。私たちがこれを公に、少なくともカメラの前で言ったことがあるかどうかわかりませんが、彼は実際にSource{d}と呼ばれる私が構築していた会社に買収オファーをしました。当時、私たちはコード補完などができる世界初のモデルを持っていました。私はその買収オファーを断りましたが、それでも私たちは本当に良い友達になりました。
Poolsideについてもう少し教えてください。主な目標は何ですか?
Poolsideの主な目標は、計算能力でスケールアップできる人間レベルの知能を持つ世界を構築したいということに集約されます。本質的に2つの影響を与える方法があると考えています。一つは、より有能で知的でスケーラブルにすることで、商品やサービスのコストをゼロに近づけていくことができます。一方で、私たちの前には技術と科学的進歩の全くのフロンティアがあります。そして定義上、それは無限です。私たちは常により多くを見つけ続けるでしょう。その時間をより近づけることができるということは常に私たちのミッションでした。
しかし、私たちは他の人とは少し異なる道を選びました。AIがソフトウェアを構築する能力に非常に優れるようにすることに焦点を当てる道を選び、初日からウェブサイトのフッターの下部にある3段階の計画を示しました。今でもそこにあります。ビジョンをクリックすると、「AIが開発者がソフトウェアを構築するのを支援する能力を持たせる」という第一段階、「世界中の誰もがソフトウェアを構築できるようにする」という第二段階、そして「他のすべての分野や領域に一般化する」という第三段階が記載されています。
現在、スペースには総取りの力学があります。素晴らしい最先端モデルがあります。私はsonnet 3.7の思考などで遊んでいますが、差別化の問題が常にあります。anthropicはClaude Kleeというものをリリースしました。それをリポジトリに貼り付けるだけで、本当に素晴らしいものです。その上でどのように差別化できますか?
フロンティアにいる私たち全員が、モデルの能力で常に互いに競争していると思います。時間が経つにつれて、ソフトウェア開発のような能力では、私たちは皆同じ場所に行き着くかもしれません。しかし、現在の世界の状況を見ると、そこで実際に競争している企業はごく少数です。私たちにはGoogleのような古い警備隊があります。OpenAIやanthropicのような第一世代のAI企業があります。そして第二世代としてXai、Poolside、Mistral AIがあります。私たちは皆、2023年4月か5月頃に設立されました。そして私たち全員が今、同じレースにいると思います。
私たちは、あらゆる可能なユースケースに対してモデルを一般的に利用可能にすることに焦点を当てるのではなく、ソフトウェア開発のために利用可能にすることに焦点を当てることにしました。これにより、私たちが焦点を当てる領域と焦点を当てない領域に関して一連の自由が与えられます。しかし、誤解しないでください。本当に有能な基盤モデルを構築するために私たちが行う作業は、依然として横断的に非常に有能なモデルを構築することにもつながります。ソフトウェア開発はコードを書くことだけではないからです。世界を理解する必要があります。複数のステップの複雑な推論を行う能力が必要です。長期的な目標にわたって計画する能力が必要です。
anthropicがcloud 3.7で行ったことに非常に興奮しました。sonnetモデルは素晴らしいモデルだと思います。もちろん、私たちにとってはそれを超えることを確実にすることが重要です。そのため、私たちは常にお互いにこのレースをしていますが、時間の経過とともにそれらの目標に向かってより速く加速できると考える研究やアプローチに関して特定の見解を持っています。
これを理解しようとしています。なぜなら、多くのことができる本当に一般的な基盤モデルを持つことと、業界の多くの人々が「カスタマイズ、パーソナライゼーション、オンプレムデプロイメントが必要だ」と言っている話の間に矛盾があるようです。これら2つの世界はどのように一緒になりますか?
それはスペクトルだと思います。絶対にモデルのトレーニングの最初の部分では、世界の多様性と知識をできるだけ多く埋め込みたいと思います。ソフトウェア開発はコードを書くことだけではありません。実世界と対話し、それをデジタル形式に変換する能力についてです。そのため、その一般的な部分を理解することは非常に重要です。私のモデルがどれだけユーモアがあるか、コメディの微妙なニュアンスをどれだけ上手く扱えるかについてはあまり気にしないかもしれませんが、多くの異なるドメインで持っている知識については絶対に気にします。
しかし、結局のところ、私たち全員が固定されたパラメータ空間を持っています。結局のところ、推論のコストがあるか、あるいは実際に実行できるパラメータの数は限られています。固定されたパラメータ空間を持つということは、それらのパラメータで何をしたいかを選ばなければならないということです。そのため、私たちはモデルの能力の分布をソフトウェア開発に向けて非常に傾けようとしていますが、それは創造的な就寝時のお話やコメディを書くなど、おそらく他の人の消費者向けAIで見つけるような領域ではそれほど優れていないかもしれないということを意味します。
第二の部分として、カスタマイズという概念を挙げました。そしてどこにデプロイするかということです。これは本当に、今後数年間でモデルがどこにあるかをどう考えるかに関わってきます。フロンティアにいる私たち全員の責任は、科学技術や知識労働のすべてにわたって対話できる世界で最も有能なモデルを構築することだと思います。ソフトウェアを構築する能力に焦点を当てていても、私たちはまだそのすべてを気にしています。時間が経つにつれて、第三段階では他の領域にも開放していきたいと考えています。
しかし将来何が起こるかを見ると、大きな疑問があります。静的な全能のモデルを持つのか、それとも自分自身のバージョンになり、環境にデプロイされ、その環境からのデータから学習する能力を持つ全能のモデルを持つのかという疑問です。つまり、すべてのソフトウェアを書ける開発者を持つのか、それとも銀行環境内にデプロイされ、すべての情報にアクセスでき、時間とともにそこから学習する開発者を持つのかという質問です。
それは少し人間化するようなものですか?人間のようなものですか?私は非常に有能なソフトウェア開発者になれますが、あなたが私を銀行にデプロイすると、突然、その銀行からすべてを時間とともに学ばなければなりません。それとも、それに適用される一般化されたものでしょうか?
正直な答えは、この分野ではまだわからないということです。今日、モデルがまだ人間レベルの能力にも超人的な能力にも達していない場合、モデルにできるだけ多くのデータ、コンテキスト、環境で学習する能力を与えることが非常に価値があると思います。
そのため、私たちはそれに向けて最短の道を探しました。企業がそれに向けて最短の道は、モデル、コンテキストインテリジェンスレイヤー、アプリケーションをファイアウォールの後ろ、データの近くにデプロイすることをいとわないことです。これは時間内の戦術的な決断です。時間が経つにつれてそのフォームファクターは変わるかもしれませんが、私たちのお客様と非常に共鳴していることがわかっています。
これは興味深いです。なぜなら、スケーリングに関するあなたの見解を引き出そうとしているからです。多くの人がモデルを大きくスケールアップすべきだと考えています。GPT 4.5が出たばかりです。GwernとKarpathyがTwitterにいて、基本的に「高いビブを持つ人たち(つまり賢い人たち)は、これがステップアップであり、非常に微妙なことでうまくいっていることがわかる。しかしベンチマークはそれを捉えていない。より良いベンチマークが必要だ」と言っていたのは興味深いことです。しかし、現在、能力にはギャップがあることは否定できません。そのため、ドメイン領域でのサイトコンタクトでカスタマイズや考えが必要です。しかし、将来的にはこのすべてのデータを巨大な基盤モデルに戻すことができ、同じくらいうまく機能するとあなたは想像しているのでしょうか?
あなたはスケールに反対する私の議論を決して聞くことはないでしょう。計算とデータのスケーリングは、今日のモデルと人間レベルの知能、さらにはそれ以上にまで達すると信じているところとのギャップを埋めるために重要です。しかし、それは必ずしも今日のスケーリングの軸が2年前に人々が考えていたスケーリングの軸と同じであることを意味するわけではありません。
この会社を始めたとき、当時の世界での物語は、次のGPTモデルを単にスケールアップして10倍大きくし、より多くのウェブデータを提供するというものでした。そして、このAGIのような瞬間、この人間レベルの知能を持つことになると言われていました。これは非常に強い物語だったため、当時の世界の多くの人々がこれを信じていました。私たちは信じていませんでした。私たちがスケールに同意しないからではありません。スケールは非常に重要だと思います。しかし、私たちの見解は、議論されていなかったスケーリングの軸が欠けていたということでした。そして率直に言って、それが私たちが会社を始めた理由です。それは強化学習の使用によるスケーリングの軸でした。
Karpathyを挙げました。彼が先日言ったように、「次のトークン予測のスケーリングは模倣学習と同等です。強化学習のスケーリングは試行錯誤学習と同等です。」そこには多少のニュアンスがあるかもしれませんが、それは考え方として正しいと思います。
マックス・ベネットによる「知能の簡単な歴史」という素晴らしい本を読みました。彼は基本的に、動物界、特に人間を見ると、シミュレーションの軸が見られると言っていました。つまり、直接アクセスしなかった物事や経験を想像する能力です。それが爆発的に広がりました。もちろん、言語はさらに洗練された発明です。なぜなら、実際には持っていなかったシミュレーションを模倣的に他の人と共有することができるからです。
強化学習では、実際に物事を試し、直接的な物理的経験を必要とせずに知識を蓄積することができます。
ここで強化学習をどこに適用するかによると思います。あなたが言ったことの多くに同意します。つまり、最終的には思考の中で行うことです。そしてそれは個人的な経験によって異なると思います。私の思考は完全に言語ベースです。視覚的表現や抽象的概念のない、絶えず内部モノローグが続く言語ベースのものです。そのため、私は言語モデルに非常に親近感を感じます。彼らがどのように考え、推論するかを見ることができるからです。それに関連できます。
しかし、これを挙げる理由は、言語は異なる思考の連鎖、異なる思考の可能性を探索する一つの方法だからです。それが唯一の方法だとは思いませんが、一つの方法です。そして、私の心がどのように機能するか、そして多くの人がどのように機能するかの多くは、目標を見て、その目標に到達できる異なる可能な思考の連鎖を考えるということです。それがコードを書くことについてであれ、あるいはもっと長期的なことについてであれです。
そしてその目標が正しいことを確認するためにいくつかのことを行います。一つは、以前に学んだ知識の表現と一致するように保つことです。したがって、数学の問題について推論や思考を行っている場合、私は常に以前に学んだ知識の表現、数学や物理学などの分野で真でなければならない公理と整合性をチェックしています。
しかし、私がどれだけ真実に保とうとしても、実際に作業を行い、実世界からのフィードバックを得る必要があるものもあります。少し欠陥のある例かもしれませんが、有用な例は、囲碁やチェスを学びたい場合です。多くの教科書を読んで、ある程度頭の中でチェスゲームをプレイすることができますが、結局のところ、私は自分の合成データの中で自分を食べるヘビのようなものです。そして、他の人、コンピュータや人と対戦する環境に入ると、自分の間違いから学ぶことができます。
「私が探索した推論の変化のせいでこのゲームに負けた」ということです。それが、ある形の外部フィードバックを持つことが本当に価値があると思う理由です。チェスや囲碁の場合、その外部フィードバックは決定論的です。時にはその外部フィードバックは人間からのフィードバックかもしれません。しかし、それをスケールするのは非常に難しいですし、必ずしも常に正しいタイプのフィードバックとは限りません。
そして、それが私が強化学習がその境界上に存在する場所だと思うところです。より正しく、または少なくとも正しさの方向に私たちを押す報酬を形成する能力を持つとき、次の思考のセットと思考を改善することができます。あなたが話している次の思考の連鎖です。
それはイリヤ・スミルノフとのモデル崩壊についての素晴らしいネイチャー論文を思い出させます。実は来週イリヤとのインタビューを公開する予定です。ある意味、これはAGIの破滅型の議論を思い出させます。全知について話すとき、それは科学的な議論ではないと思います。実世界では分子を押し動かす必要があります。ソフトウェアでも同じことです。これらのAIソフトウェアコーディングが非常に強力な理由は、実際に生成するソフトウェアをテストできるからです。それは本当に重要なことで、実世界からの信号を得ることです。
私たちはコード実行フィードバックからの強化学習での作業で有名です。2016年に最初の会社を構築していたときにこの作業を始めました。それはPoolsideが使用していると話してきた大きな部分で、これは本当に非常に大きく多様な環境を持っているという概念です。私たちの場合、それはテストスイートで完全にコンテナ化された100万近くのリポジトリがあり、何百万または数千万のリビジョンがあり、「このリポジトリのこのコミットハッシュで、このコードを変更し、それを実行して何が返ってくるかを見たい」と言うことができます。それがテストを実行するであれ、単にコンパイラやインタープリタ、あるいは合成テストであれです。
これにより、非常に大きな環境を持つことができます。100万のリポジトリは、暗号化やウェブアプリ、コアデータベースカーネルなど、問題の種類の大きな多様性を表しています。そして、モデルが可能な解決策とそれらの解決策につながる思考を探索できるタスクを設計することができ、正しいときや間違ったときに学習することができます。常に「正しいか間違っているか」というよりも、「より正しく、より間違っていない」と言うようにしています。それが本質的に強化学習です。次回、思考やソリューションをサンプリングするとき、モデルをわずかに改善する方向に押し進めようとしています。トレーニングで十分な回数それを行うと、非常に優れた場所に到達し始めることができますが、非常に狭いタスクでこれを行うと、モデル崩壊や過剰適合の概念が生まれます。「モデルはこれしかできなくなった」という場所に到達し、もはや有用な一般化された知能ではなくなります。
コーディングはその決定論的でありながら、十分な多様性を持つスペクトルに位置しているため、多少過剰適合しても、それでも非常に一般化された知能を作り出しています。囲碁のゲームしかプレイできない特定のタスク専用のものにはなりません。
可能なさまざまな心や異なる知能のアイデアに魅了されています。多様な表現と多くの自由度を通じて知能を作り出すことができると思います。あなたは実際に、あまり視覚的ではないという興味深いコメントをしました。分析的な言語空間で考えると言っていましたが、私は非常に視覚的です。頭の中で音などを想像することができます。そして、私たちがソフトウェアを書く方法は実際に非常に多様です。設計パターンの本などがあります。それらは異なるアナロジー、異なる抽象化です。アインシュタインが相対性理論について考えたとき、彼は波紋や波などについて考えていました。
ソフトウェアでは、構文、つまり実際にコードを書く方法があり、セマンティクス、つまりその意味するところがあり、そして行動空間、つまり実際にそれをテストする方法があります。あなたは表現の階層を学習するようなAIの形について話しており、それは動的にそれらの間を行き来することができます。
それはこれらのモデルをどのように見るかに帰着します。そして、これは私の最善の推測または現時点での意見にすぎないと本当に注意したいと思います。しかし、おそらく業界のほとんどの人が次のことに同意するでしょう。これらのモデルで起こっていることは、非常に高次元の表現を学習しているということです。私たちが学習しているそれらの表現のいくつかは言語を使用する能力を表しています。そのため、これらは他のすべてと非常に密接に相互接続された表現です。私たちが学習している表現のいくつかは非常に特定の知識の断片です。
以前に少し話し合ったことですが、FDRが生まれた時期のような知識の断片を取ると、それは高次元空間に位置し、おそらく米国大統領や類似のことに関連する他のものの近くに位置しています。機械学習の初期の頃にword2vecなどを考えると、それらはまだ持つべき有用な精神モデルだと思います。しかし、当時私たちは単語やbag of words、知識を表す埋め込みや表現について話していました。今日、私たちが構築できるタイプのモデルでは、はるかに一般化され、非常に有用な表現を持っています。言語を使用する能力、推論を始める能力です。
これを挙げた理由は、ここ数年、より多くのデータと大きなモデルで次のトークン予測をスケールアップするだけのモデルをトレーニングした第一波では、データの中で最も表現されているものを表す表現を改善していたと思うからです。言語知識です。しかし、私たちはまだ複雑な推論、複数ステップのプロセス、複雑なソフトウェアを構築するために必要なこと、新しい科学的ブレークスルーや理論を考え出すために必要なことの表現を本当に改善し始めることができませんでした。現在、強化学習でそれらを本当に改善するアクセスがあります。
しかし、最終的には、世界に私たちの思考プロセスとそれによって得られたすべてのフィードバックを表す無限量のデータがあれば、何を使用するかは本当に重要ではありません。次のトークン予測でそれを学習することができます。必ずしも強化学習を使用する必要はありません。これらはすべて、データを改善し、したがって知能を改善するための方法であり、最も計算効率の良い方法でそれを行おうとしています。私のチームは疲れてしまうかもしれませんが、私が行うすべての作業は、トレーニングやインファレンスの計算効率を改善するか、データを改善し、したがってモデルの知能を改善するかのどちらかだと言っています。そして行うすべてのことは、これらのバケットの1つに入れることができます。それが単純化のしすぎだとわかっていますし、ここや別の場所に常に小さなコーナーケースがあります。しかし、線形注意のための新しいアーキテクチャなど、私たちが多くの作業を入れたものを思いつくとき、私にとってそれは単にインファレンスの計算効率を改善することです。強化学習をスケールアップする本当に素晴らしい方法を見つけた場合、それは実際にはデータを改善するだけです。そのため、私にとってはモデル構築のただ2つの側面があります。
モデルの経済学は実際に本当に重要だと思います。なぜなら、今でもOpenAIがついにO3をリリースしたとき、ARKチャレンジの新しいバージョンが出て、彼らはタスクごとに2,500ドルを費やしていましたが、それを解くことができました。超人的なパフォーマンスを得ることができました。今や単に計算の問題です。しかし、まだパレートフロンティアがあります。Geminiモデルがあります。それは非常に非常に安価です。単に50,000回くらいサンプリングして、それでも答えを得ることができます。
そして、それから知能とAGIの定義に至ります。それについて多く話してきました。フランソワ・ショレは、それは基本的にあなたの推論や知識獲得の効率だと言いました。つまり、どれだけ速く経験空間の新しいポイントを取り、それらを新しいスキルプログラムに変換するかです。そして、このパレートフロンティアに取り組んでいるはずです。適切なモデルのサイズ、適切なアーキテクチャ、そしてモデルがどれだけ肥大しているかと状況でどれだけの知識獲得と推論を行うかのトレードオフを考えているのではないでしょうか。
最終的には、フロンティアにいる私たち全員が現在利用できるだけの計算リソースを活用しています。そして、それは無視できないと思います。フロンティアモデルの能力のレースにいる場合、トレーニングに向けることができる計算リソースの量は絶対に重要です。
しかし、取り組む部分は、それをどこに適用するかということです。パラメータ空間でモデルをより大きくするために適用しますか?大量の合成データ生成に適用しますか?強化学習のスケーリングとより多くのサンプリングに適用しますか?これはすべて本質的にこれらの各事項に最適なものを持つ方程式です。
私たちが運営する方法、そして率直に言って、ほとんどのフロンティアラボが運営する方法は、それぞれの領域や他のいくつかの領域で実験を行い、その最適を見つけることです。少し感覚を得ていただくために、私たちのチームは1月に4000以上の実験的な実行を行いました。これらはアーキテクチャ、データのアブレーション、重み付けミックス、強化学習、サンプル数、これらすべての異なる変数にわたって発生しました。すべてのこの実験で基本的に行っているのは、それらの間の最適なバランスが何であるかを理解しようとすることです。
そして、あなたは非常に重要なことを言いました。最終的にはコストが重要です。そのため、これすべての包括的な目的関数は、一定の時間と予算内で作成できる最大量の知能であり、それを最終消費者に一定の価格で提供できるようにすることです。そして、そのトレーニングとインファレンスの部分が本当に重要です。
そのため、私たちのドメインでは、ソフトウェア開発能力に焦点を当てているため、かなり価値のあるドメインにいます。経済的に価値があります。そのドメインとベッドタイムストーリーを書きたい無料ユーザーの両方にサービスを提供しようとしている場合、それははるかに困難だと思います。なぜなら、それらには異なる経済的価値が関連付けられているからです。
建築的な複雑さとカスタマイズの観点から、企業は自分たち自身のアーキテクチャを設計したいと考えています。明確なセキュリティ境界を持ちたいと考えています。つまり、金融部門のソフトウェアエンジニアや法務部門のソフトウェアエンジニアがいて、彼らはその境界に沿って独自のトレードオフを作りたいと考えています。すべての人に1つのレシピを設計するのではなく、多くのオーダーメイドのものを行っていることで、より複雑になりますか?
基盤モデルの構築と、その周りのすべてのものの構築があると思います。それを異なる環境にデプロイできるようにするすべてのソフトウェア、それがワークステーションサーバーのオンプレムであれ、プライベートクラウド環境、VPCであれ、純粋なクラウドで誰でもアクセスできるものであれです。
そのため、私たちは会社のゼロ日目から、企業の信頼されるパートナーになるためにできるすべてのことを行うという決断を早い段階で行いました。それはかなり単純な分析プロセスから来ました。世界の経済的に価値のあるソフトウェア開発作業の大部分はどこにあるのかと私たちは言いました。それは企業内のソフトウェア開発にあります。ソフトウェア開発のすべてのドルの70%が企業で費やされています。しかし、これらは、あなたが言ったように、多くのセキュリティ上の懸念と境界を持つ非常に複雑な環境でもあります。
そこで、私たちは単純な見方をとり、彼らが私たちにいてほしい場所はどこか、私たちが実際にいることができる場所で顧客が求めているものは何かを見てみました。そして、何度も繰り返し聞いたのは、「データにモデルを持ってくるのではなく、モデルをデータに持っていく」ということでした。そのため、私たちはそれに応じて構築することにしました。そのため、今日私たちは、これらのプライベート環境でフルスタックモデルとアプリケーションを上部にデプロイしています。それには多くの作業、多くのエンジニアリング、それをスケールできるようにするために行う多くの作業が必要です。
個人的には、時間が経つにつれて、誰もがクラウド上に行き着くと思います。しかし今日、世界の2000の大企業を戦術的に見ると、その多くは他の人ができない環境にデプロイできることを非常に喜んでいます。
テスラ風の戦略を採用したということですね。スタック全体を制御し、構築しています。基盤モデルを構築するスキルと専門知識を持つ、そう多くない企業の一つです。しかし、質問は、スタックを下に行くことに焦点を当てている人がとても多いということです。コード実行フィードバックからの強化学習、アーキテクチャ全体の部分など、そんなに多くの価値を加えることができたはずです。なぜ全部やって基盤モデルも構築することを決めたのですか?
今日の会話をどのように始めたかから始まったと思います。Poolsideは何を達成しようとしているのかという会話から始めました。私が個人的に考える、今から18〜36ヶ月後に、知識労働の大部分において人間レベルの知能が達成される未来が見えているので私たちはこの会社を立ち上げたのです。
2年前に会社を始めたとき、その見解を持っていた場合(当時、私たちにとってタイムラインはそれほど具体的ではありませんでした。5〜10年、もしかしたら15年と言っていたでしょう)、私たちは世界が私たちの知能を複製し、さらにそれを超えることができる場所に到達すると知っていました。
そしてそれがあなたの見解である場合、質問は、「それを世界にもたらすことができる企業の一つになるために何が必要か?」ということです。そして、もし覚えていれば、私たちは研究と実行においてそれを行う方法について独自の見解を持っていました。ゼロから構築しなければ、それは実現できません。微調整してAGIに到達することはできないのです。
それは私たちが以前話した同じページに、ゼロ日目からウェブサイトに掲載していたものです。「経験的データに直面したときの弱く保持された強い信念」と呼ばれる研究に関するリストがありました。その中の一つは、これらのことに到達するためには基盤モデルをゼロから構築する必要があるということでした。微調整で成功することはできません。「時間の経過とともにすべてのデータは合成になる。強化学習は能力をスケールアップするために重要だ」と私たちは述べました。
それは本当にそこから来ました。私たちが達成したいことと、研究の観点から重要だと信じていたことからです。そして、それは今のところ私たちに有利に働いてきたと思います。そして、世界で誰かが最新のオープンソースモデルを後処理することで人間レベルの能力に到達するのを見ることはおそらく非常に考えにくいでしょう。
そして私は大きなオープンソース支持者です。この分野での私の最初の会社は完全にオープンソースで構築しました。しかし、私はいつか本当にオープンソースのAGIを持つことになるのかさえ疑問に思います。これを構築するために必要な資本が非常に大きい道を続けていくならば、世界にそのための余地があるのかどうかです。
基盤モデルを構築するのはどれほど難しいですか?いくつかの例を挙げると、DeepSeekの素晴らしい点は、彼らがトレーニング方法と最適化の多くを公開したことです。彼らにはいくつかの素晴らしい論文があります。本当に素晴らしい新しいパスト注意論文があります。そして、スケールが大きくなるにつれて、これらのモデルをトレーニングすることがますます難しくなると思いますが、私のような人にとっては、それがどれほど難しいかを知ることは非常に困難です。それは単にソフトウェアエンジニアリングの課題ですか?どれほど難しいですか?
それを2つの部分に分けたいと思います。一つはDeepSeekについて少し言及したいと思います。なぜならDeepSeekはこの第二世代の企業の素晴らしい例だと思うからです。私たちとXAIとDeepSeekは異なるアプローチを取っています。
私が知る限り、DeepSeekは現在約200人の研究者とエンジニアがいます。彼らには10億ドル以上のインフラがあり、すでに2年間の信じられない作業を背後に持っています。私たちがそれを知っているのは、彼らが作業を公開しているからです。だから、この分野のすべての人にとって、彼らは知られた存在でした。私たちは論文を追いかけ、彼らが行ったことを非常に尊重しています。
彼らが出した最後の論文、V3についての47ページの技術報告書を見れば、この分野では皆、その作業をすべて行うと、本当に優れたモデルが得られることを知っています。そのため、私は一部の人の議論とは逆に、彼らがデータを盗んだとは思いません。彼らが何か不正なことをしたとは思いません。彼らは実際に素晴らしい仕事をしたと思います。そして、それを追跡するための2年間の研究論文の実績があります。
西洋で能力のあるAIを望むかどうか、つまり私たちがCCPが持つのと同じ価値観や原則を共有していない可能性がある世界でデプロイされるAIを望むかどうかという質問が必要です。しかし、それは完全に別の議論です。
しかし、もう一つの概念は、私たちが経験してきた、XAIが経験してきた、DeepSeekが経験してきたその2年間の構築プロセスです。もちろん、モデルはより大きくなり、エンジニアリングはより複雑になります。そして研究も。しかし同時に、それは時間の経過とともに複合的な利点を構築するものだと思います。
この分野での才能が非常に重要だと思います。私たちには素晴らしいチームがあります。過去2年間に成長してきた中で、私たちが一緒に学んだことを見ると、そこには膨大な価値があります。もちろん、それは実際にデータを常に改善することと手を携える必要があります。毎月振り返って、トレーニングするデータがより良く、よりクリーンで、達成しようとしていることをより良く表現していると言うことができます。実際の分散トレーニングスタックを改善しています。それをより計算効率的にすることによって、それは大きな部分ですが、また以前は機能しなかった特定のスキルで機能するようにすることもです。これはより大きく、より大きなクラスターにスケールアップするにつれて得られる異なるタイプの並列性についての作業です。
下にあるチップがどのように変わるかに特化した作業も行います。Hopperシリーズがありますが、今Gbx 300が出てくると、突然NVL接続を持つ72チップがあり、それはトレーニングを行う場合に実行したいアーキテクチャを変えます。
人々はしばしば、アーキテクチャが来て、それをハードウェアにマッピングするという見方をします。実際はその逆です。ハードウェアを見て、トレーニングとインファレンスの最適なモデルアーキテクチャを決定します。そのため、常に戻っています。
しかし、時間が経つにつれて、これらはすべて複合されたものになります。コード実行の環境は1,000のリポジトリから10,000、100,000、現在は100万近くに成長しました。そしてそれは成長し続けるでしょう。そのため、一部はエンジニアリングですが、一部は組織内で得る暗黙の知識と経験でもあり、これらの種類のモードを構築して、他の人が一夜にして競争できないようにします。
しかし、スケールを10倍にするたびに、すでに知っていることだけでは不十分だと言っても公平でしょうか。完全に最初からやり直すのではなく、多くの資本を費やして多くの異なることを試す必要があります。
スケールには少し定義が必要かもしれません。多くの人々がスケーリングについて話してきました。モデルサイズをスケールアップするだけです。GPT 4.5を挙げました。それはOpenAIが10倍以上の計算を持っていると思いますが、それはおそらく5倍大きく、X倍のデータ、またはその組み合わせがどうであれという意味です。
最近まで、世界はスケーリングの軸が2つあると仮定していました。モデルのサイズ、データのサイズです。強化学習は本当に今は第三のスケーリング軸だと思います。もちろん、それはまだデータの代理ですが、別のスケーリング軸として呼び出すことが重要だと思います。なぜなら、これはスケールが何を意味するかという点で力学を変えるからです。
おそらくモデルを10兆パラメータに引き上げるわけではありません。ここで数字を投げていますが。おそらくモデルをこれ以上大きくすることはないでしょう。なぜなら、強化学習の側をスケールアップすることでより効率的にスケールできることがわかるからです。
過去数年間に見た良い例はllamaモデルで、2兆トークンから15兆トークンに移行したときがありました。ちなみに、私たちはこの分野で長い間これを行ってきました。なぜなら、当時はオーバートレーニングと呼ばれていたからです。それはチンチラの最適ではなかったからです。しかし、チンチラの最適はこれらのモデルが実際にインファレンスコストを持っていることを考慮に入れませんでした。
そのため、理論的には、特定のモデルサイズ、特定の量のデータ、特定の強化学習を持つことが、モデルをトレーニングするための理論的に計算効率の良い方法である場所があります。しかし実際に実世界で実行するという制約があり、これを顧客に提供する必要があり、そのコストは100万トークンあたりこれだけのドルしかかけられないという制約がある場合、その制約は私がどこでスキルを費やすかを変えます。
これについて触れた理由は、もっと長くトレーニングするかもしれないと言うかもしれませんが、それは必ずしも多くのエンジニアリングの複雑さを導入するわけではありません。かもしれませんが。しかし、10倍大きくしようとすると、エンジニアリングの複雑さが導入されます。しかし、それもどんなハードウェアで行うかによって異なります。
イーロンが持っている632,000のHopperクラスター、H100クラスターで相互接続しているようなものでスケールアップする場合、それは突然、100,000のGB、200または300で同等のフロップスを取る場合とは非常に異なるスケーリング方法になります。
誤解しないでください。次のエンジニアリングは常にあります。私たちにとっては、一つから別のものへの10倍のようには感じません。しかし、より多くのスケーリングのアクセスを持つことがわかると、大きな変更を行います。
私たちがとても良い位置にいたと思うのは、2年前に既に大規模言語モデリングと強化学習を中心に会社を深く立ち上げたことです。これは私たちにとって新しいことではありませんでした。そのため、その上に徐々に構築してきました。他の企業はほとんど何もないところからこれを突然持ち出さなければなりませんでした。そして、それは10倍のエンジニアリングプロジェクトのように感じたと確信しています。
思考についてもう少し理解を助けていただけますか?R1が出て、sonnet 3.7やO3、Gemini flash thinkingなども同じですが、エンドユーザーの視点からは、これらの思考トークンが見え、言語モデルは一種の自己プロンプト拡張を行っています。チェーンオブソートとスクラッチパッドのティア0があり、今では物事は自分自身にプロンプトを出しています。
それについて考える一つの方法は、強化学習でトレーニングしているということです。そして、それはこのプロセスを埋め込んでいるようなものです。しかし、興味深いのは、10万の思考トレースを取り、単に通常のベース言語モデルを微調整するだけで、純粋な補間のおかげで多くのパフォーマンスが得られることです。パフォーマンスを買うことができます。通過している中でシグモイド関係があります。しかし、そこで本当に起こっているのは何ですか?強化学習自体に何か特別なものがあるのか、それともデータ拡張の一形態として考えるべきですか?
ここで意見があります。その中のいくつかは、すでに公開されている論文や物事で裏付けられていると思います。他はまだです。私たちは発表していません。これを言うのは、議論の一部を裏付けるために公開されているものを参照したいからです。
最終的には、損失または適用している何らかの関数に基づいてモデルを更新しています。そして、はい、最も真の定義では、それはすべてデータです。すべてがただのデータです。無限のデータ、すべてのものに対する無限の推論トレースがあれば、次のトークン予測でそれを学習することができるでしょう。そして、それはおそらく素晴らしいモデルになり、人間レベルの能力に達するでしょう。
しかし、今日10万の推論トレースを取ることと、そこに到達するための強化学習に同等の計算費を費やすことを比較すると、強化学習がSFT側よりも優れているのは明らかです。そして、報酬として提供できる信号がより多いからだと思います。データのサンプルを提供するだけでは得られません。
それはトレードオフだと思います。再び、それは常にデータと計算効率に帰着します。そのため、非常に多くのデータがあれば、そこには道があると思います。
現在世界で起こっていることは、10万の推論思考サンプルから大規模な一般化が見られるというものですが、私はそれを信じていません。それがモデルで実際に見ているものだとは思いません。現在のベンチマークでさえそれを示すことができると思います。しかし、これらのことを見るとよく、「この数学のベンチマークで大幅に上がった」と見ることがあります。そして推論トレースはすべて非常に特定で、そのベンチマークで起こっていることに密接に関連しています。
ある時点で、はい、何かをもう少し一般化して理解するかもしれませんが、そのためには多くのデータが必要です。そのため、モデルを改善するスケーラブルな方法は、可能な限り強化学習を適用することの周りにあると思います。
とはいえ、ある時点で、「ゼロから学習させるのではなく、そのSFTデータの一部をブートストラップとして使用したい」と言うような計算上のトレードオフがあるかもしれません。そこでできることがあるかもしれませんが、R1を挙げました。
私の分野で最も興奮したことは、最終的に西洋の誰も今や公開していないという事実にもかかわらず、ゼロの作業が公開されたことです。思考が何のように見えるのかの十分なサンプルを提供されずに、モデルが一貫した言語で思考能力を発展させることができるという事実です。
これは私たち全員の心を吹き飛ばすべきことです。500万ドルについての見出しではなく、見出しは「モデルは数学やコーディング能力のような客観的に測定可能なものでより良い結果につながる人間のような思考を言語で発展させることができる」ということであるべきです。それが興奮する部分で、実際にそれに向けて整列されることなくです。
そのペーパーは私の心を吹き飛ばしました。ゼロがAlphaGo zeroのようなものだったかどうかはわかりません。人間のシーディングがないわけではなく、まだ少し人間のシーディングがあったと思いますが、それは主に自己対戦でした。しかし、それは信じられないものでした。なぜなら、これらの創発的な行動を学んだからです。待つと言い、停止し、反省し、推論することをしました。そして、これらの多くが人間のように整列されていて、推論を行う自然な方法があるかのように見えました。
見てください、トレーニングデータの基礎はまだインターネットであることを忘れることができます。まだウェブです。そのため、人々が「何もないところから完璧に学ぶところを見たい」と言うとき、それは「一晩ですべての進化が起こるのを見たい」と言うようなものです。私たちは自分自身のイメージ、自分自身のデータ、そして持っているものに基づいてこれらのモデルを教えています。そうでなければ、正直に言って、あまり役に立たないでしょう。私たちは彼らが私たちの環境で行動することを望んでいます。
しかし、以前に事前トレーニングされたベースモデルを取り、思考を発展させるために強化学習を適用したモデルとの違いを見ると、これらの思考の能力、自己反省などがすべて改善されていることがわかります。
私たちはしばしば創発という言葉を使いますが、それはスペクトルだと思います。物事が改善し、突然レバーを引くことができるようになります。そして、しばらくの間、モデルの思考能力を改善するためのレバーを持っていました。モデルの思考能力を改善することによって、正しいことに到達するために探索する必要がある解決策の空間が小さくなります。
私たちが気にしている領域、数学、ソフトウェア開発、科学的理論、これらすべての領域でその空間をより正確にすればするほど、これらのモデルはより有用で価値があるものになります。ちなみに、人間もまったく同じです。ソフトウェア開発環境で私を役立たせる大量の学習がありますが、明日量子物理学に放り込まれたら、おそらくそれほど役に立たないでしょう。
それでも、思考の柔軟な形式と類推的関係があります。私が創発という言葉を使うのは、それが単に驚くべきことだからです。かなりの向上をもたらす能力の驚くべき到来です。そして、興味深い力学も見られます。思考トレースを始めます。私は思考トレースを柔軟な思考の一形態として考えています。それらは特定の知能の状況で操作するための自由度をより多く与えてくれます。
また、ベースモデルがどれだけ肥大しているか、どれだけ薄いかの間の興味深い関係もあります。O3は非常に薄いモデルで、推論時に計算をスケールすることが容易であることがわかりました。しかし、彼らはシグモイドのエッジに速く到達した一方、sonnet 3.7は非常に肥大したベースで、スケーリングが難しいですが、スケーリングを続ければ実際にはまだ余裕があります。
また、モデルを微調整するときにも興味深いことがあります。彼らはllama 1 10億モデルを微調整しました。そして、llamaモデルがとても薄かったため、思考トレースが根付くことができなかったようでした。それらが機能するためには、微調整しているモデルにある種のベースレベルの知能が必要でした。
この概念において、思考とは何でしょうか?思考とは、解決策の可能な空間を探索する能力です。現在、これらを推論モデルと呼び、思考モデルと呼ばないことが多い理由は、推論がある程度目標指向だからです。何かを達成できなければならず、特定のステッププロセスに従う必要があります。そして、目標が複雑になればなるほど、世界のより良い理解、言語のより良い理解と操作が必要になります。
そのため、その意味での思考はモデルサイズによって制約されるものだと思います。絶対にそうです。そして、それは常にそうでした。推論モデル以前であっても、それはすでにそうでした。しかし今、私たちはすでにあるものを使用し、それを本当に改善するアクセスを持っています。
これについて考えるもう一つの方法は、温度や他の方法で十分な多様性を導入して、モデルを1000回サンプリングし、正しい解決策を見つけることができるとしたら、正しいことが正しい解決策につながる可能性があるということです。それはすでにモデルのどこかにあることを意味します。私たちはただその完璧な潜在空間を見つけていないだけです。
もちろん最善なのは、温度だけでこれを行うことです。異なる確率セットのより多くの創造性を許可し始めるならば、基本的に望むのは、決定論的な正しさを持つものに対して、温度ゼロでモデルを報酬することです。そして率直に言って、温度0.7でも依然としてそこに到達することを望みます。それは可能なオプションの円錐を開き、解決策に近づくにつれて正しいものに崩壊します。
非常に小さなモデルを取ると、その開いている円錐が非常に広いことに気づきますが、実際には多くのことに対して正しい解決策に崩壊することができません。しかし、それがすでにその円錐の中のどこかにあるならば、それに向かって押し進めることができます。そこでまた、あなたのポッドキャストの名前のように、機械学習の側面がまだ真実になるのです。小さなモデルをタスクに過剰適合させることはできますが、十分に一般化させることはできません。
私はよくこれを、モデルは特定のスペースに圧縮された大量のデータとして考えています。圧縮が小さすぎると、あまりにも多くを失います。そして圧縮がデータと比較して非常に大きく、損失のないものになると、実際には何も学んでいません。
したがって、無限に大きなモデルの世界があるという見解も持っていません。ある時点で、このコンピューティング量、このデータ量でモデルを教育するために適用するこのサイズが最適だと言うことがより理解できるようになります。そして、目標を達成するために水平に並列化したいかもしれません。
ビターレッスン、検索における学習です。ARCチャレンジの勝者にインタビューしました。彼らは言語モデルを貪欲にサンプリングすると言いました。つまり、次のトークン、次のトークンを取ります。そして自然言語は少しメッシーなので、多くの自由度があります。彼らは創造的思考と推論の間の基本的なトレードオフについて話していました。
ARCチャレンジでは、一つの解決策しかありません。まあ、一つではありませんが、解決策の空間が非常に疎です。そして、彼らは実際に深さ優先探索のようなサンプリング戦略を考案しました。DeepMindの何人かの人と話しましたが、彼らは推論を行うとき、ソフトマックスを非常に正確にしたいと言っていました。なぜなら、その正しいものが欲しいからです。しかし、時には創造性と多様性を持ちたいこともあります。どのようにその円を解決しますか?どのように両方を持ちますか?
私は創造性と多様性が必要な問題があると思います。それは最終的な解決策、その決定論的なものに到達するためです。それがこの概念だと思います。もし何度も繰り返し実行する必要のある単一のアルゴリズム、例えば足し算や掛け算などがあれば、それは欲しいものの非常に狭い円錐です。
しかし、アインシュタインの一般相対性理論のような発見を見つけようとしている場合、その時点で、彼の周りの真実の公理に基づいて、異なるアイデアを探索するための多様性、創造性の非常に広い円錐が必要でした。もちろん、これらが世界ですでに真実であることと一致していることを確認し、どれが正しくどれが間違っているかを知るためです。
しかし、非常に小さな多様性を保っていたら、おそらくそれを発見することはなかったでしょう。「天才と狂気は紙一重」という引用がここでのモデルにも適用されると思います。しかし最終的には、無限の創造性があり、モデルの温度を上げると、それはガラクタに崩壊します。それは意味のあるものにはなりません。
モデルをトレーニングし構築するとき、私たちの仕事は、私たちが気にすること、価値ある知能として定義することに対して、そのトレードオフを完璧に行うことです。なぜなら、それが私たちが強化学習を使用してこれらのモデルを教える時に行っていることだからです。私たちはまさにそれを行っています。「可能な思考トレースの円錐のこの部分でサンプリングするとき、あなたは方向的に正しい。この部分でサンプリングするとき、あなたは完全に間違っている」と言っています。
そのため、計算を必要としない問題に計算を適用しようとする道を進み始めると、将来同様の状況に遭遇したときにモデルが行わなくなるようにそこから派生するすべての思考トレースのセットを望みます。それが私たちが常に行っているトレードオフだと思います。
人間の知能も全く同じだと思います。分野で非常に新しい、非常に若い誰かを見るとこれが見られます。また、ほとんどの興味深い科学的ブレークスルーは20代の人々から来ると思います。なぜなら、もはや制約がなく、多くの異なるアイデアを探索する意欲があるからです。それが、ファインマンのような多くの異なる分野で優れた人々が非常に創造的なアイデアを思いつく理由ですが、時には彼らは遠くに行きすぎて正しい目標に到達しないこともあります。
そのため、知能は常にそのトレードオフだと思います。私たちは決して完璧に正しく得ることはないでしょうが、より効率的にすることはできます。そして時間が経つにつれて、知識労働のための既知の計算予算作業については、私たちはそのコーンが可能な限り完璧に狭くあることを望むと言うかもしれません。そうすれば、経済的に実行可能な仕事を最大化することができます。しかし、未知の計算予算の課題に来るとき、がんを解決するための次の材料科学におけるブレークスルーなど、ここで私たちは「より広い探索を望み、より広く探索するためにお金を払う意思がある」と言うかもしれません。それはAlphaGoに戻ります。次にいくつの手を探索したいか?どれだけの深さと幅を持ちたいか?
それが大好きです。知能の空間は非常に複雑で、私たちは集合知として機能します。ケネス・スタンレーによる「偉大さが計画できない理由」という素晴らしい本があります。彼は基本的に、単調な目的の最適化は可能な限り最も愚かなことだと言いました。実際に私たちが行うのは、偶然と興味深いこと、興味深いことに対する嗅覚を通じて、多様な踏み石を集め、その多くが偉大さにつながるということです。しかし、もちろん、LMのコンテキストでは、単にサンプリングし、実際にそれらの多様な視点を取り入れることです。
しかし、少しソフトウェアについて話したいと思います。Poolsideはあなたの会社で、あなたの製品は知能です。しかし、最初はソフトウェアエンジニアリングに非常に焦点を当てていました。特に私自身の経験から言えることですが、genAIソフトウェアは私がコードを書く方法を革命的に変えました。現在、以前なら何年もかかったであろうソフトウェアを1、2ヶ月で書いています。それは絶対に信じられないことです。しかし、あなたの主な目標は何ですか?そして、ソフトウェアエンジニアリングのトレンドがどのように変化すると見ていますか?
主な目標は、人間レベルの能力を達成し、それを超えることです。それは、現在ソフトウェアを構築している1億人以上の人々がいる世界で、その1億人以上の人々から、ソフトウェアを構築できる誰にでもその数を増やすことを意味します。そして、今日ソフトウェアで彼らができることの最前線にいる人々のコアとセットが10倍または100倍生産的になることを意味します。
これは単にソフトウェアとは何かということから来ると思います。ソフトウェアは生産性をもたらすために私たちが世界に持つレバーです。それは豊かさへのレバーです。それはものの価格を下げるレバーです。そのため、私にとって、そのレバーの端に本当に強く飛び込むこと、その上に最大の重りを置くことは、その上に最大の、最も能力のある知能を置くことです。なぜなら、それによって私たち全員がAIと一緒にそのレバーを引き、ものの価格を下げることができるからです。
それが常にこの背後にある考え方でした。しかし、未来についてだけ話すのではなく、そうでなければフロンティアAI企業の創設者がただ「AGI AGI AGI」と言っているだけになると思います。そして、あなたはすでにそのようなポッドキャストをたくさん持っていると思います。
今日できることについても話すことが重要だと思います。今日はモデルの能力と限界の交差点にあります。それは開発者主導のAIアシストの世界です。AIの能力と限界と人間です。その上にプロダクトを追加することで完璧な交差点をどのように見つけるのか?自分自身の生産性のための最大の個人レバーを人々に与えるプロダクトをどのように作るのか?
あなたが言ったように、以前なら何年もかかったであろうことを今では数ヶ月でできるようになりました。それはモデルに多くのことがありますが、ユーザーエクスペリエンスにも多くのことがあります。正しい回答を与えるために、モデルに正しいコンテキストをどのように提供するか?情報を見つけるのをいかに簡単にするか?そのいくつかはウェブからの外部のものです。そのいくつかはコードベース内のものです。そのいくつかは知識ベース内のものです。そのため、本当に強力なアシスタンスを構築することです。
今日、私たちはエディタでそれを行います。ウェブでそれを行います。すぐにCLIが来る予定です。これは本当に重要だと思います。しかし、これは共生関係です。モデルが良くなるにつれて、製品でより多くのことができます。プロダクトのフォームファクターはモデルが良くなるにつれて常に変化します。すでにコード補完からチャットへ、そして現在はますます本物になり、将来的にはますます自律的になると見ています。そのため、常にそのフロンティアにいて、これらすべてのことと常に遊ぶ必要があります。
私が気づいたことの一つ、そして再び、私が非常に興奮している理由は、特に私のような創業者にとって本当に良いと思います。私は非常に小さなチームを持っていて、急速に繰り返すことができます。そして、私のコーディングのプロセスはより多くレビューアーのようになってきました。言語モデルに多くのコードを生成させ、多くのテストを行い、コードを書くよりもそれをレビューするようになっています。「これは私にとって良さそうだ、良さそうだ」と言っています。時には後退したり、前進したりします。
理解したいのは、人々のチームがいる場合にどのように機能するかということです。なぜなら、私たちがソフトウェアを書く方法は、メンタルモデルを持ち、これらの抽象化を作成し、ソフトウェアがどのように作られるべきかについてのアイデアを持ち、それを友人と共有するからです。そして今、私たちはレビューする能力よりも速くコードを生成しています。それはチームの世界でどのようにスケールしますか?
今日の開発者主導のAIアシストの世界での質問は、常に何が本質的に知識共有を必要とし、何がレビューを必要とし、何が必要ないかということです。ドキュメントに1行の変更を加える場合、レビューは必要ありません。すべての開発者に影響を与えるコードベース全体の大規模なリファクタリングを行う場合、それをチーム全体と知識共有し、場合によっては入力を得たいと思うでしょう。
AIもチームをスケールアップする場合と同じだと思います。あるいはこの場合AIをスケールアップする場合も同じです。それは常に、知識共有が重要な場所と重要でない場所の境界に位置しています。
コードレビューはしばしば、バグを捕まえるため、またはx、y、zを行うために行わなければならないプロセスとして見られてきました。私は常にコードレビューは本当に第一に知識共有に関するものだと考えています。そして、時には必要に応じて他の人から入力を得る能力があります。なぜなら、それは他の人に影響を与える表面領域に触れるか、あなたが知らないかもしれないこと、または最良の人ではなかったことに触れるからです。
突然、10倍のコードを生産したり、はるかに速く移動したりしていて、あなたが取り組んでいる領域ではすでにAIが非常に価値のあるパートナーのように感じられるようです。人間化されたインターンのようなものです。他のドメインでは、まだそこにはありません。
それはチームに誰かを追加するように見なされるべきです。そして、ますますそれが私たちがAIと持つことになる関係だと思います。それはチームに人々を追加するようなものですが、人間を追加する代わりに、実際にAIエージェントを追加しています。
これについて考える一つの方法は、かなり線形なソフトウェア開発ライフサイクルがあるということです。ビジネス分析があります。そして、ストーリーポイントを行います。そして、コードを書き、テストを行います。そして、リリースコントロールでそれらすべてを承認します。これについて考える一つの方法は、それはコントロールに関することであり、私たちが書くコードをビジネス目標に合わせることについてです。そのため、これらのすべての異なるゲートと承認があります。
では、自律性が増し、コード作成プロセス自体で多くのことができるようになると、それはどういう意味ですか?この伝統的なソフトウェアエンジニアリングのライフサイクルはボトルネックを生み出しますか?
ソフトウェア開発ライフサイクルの多くは時間の経過とともにモデルに崩壊すると思います。しかし、再び環境によって異なると思います。核ミサイル用のコードを書いている場合、AIが行動している場合でも、おそらくその線形プロセスの多くのステップを依然として存在させたいでしょう。なぜなら、一定数のナインの信頼性を気にするからです。
その場合、おそらくナインではなく、希望的には100%の信頼性を求めるでしょう。それがソフトウェアでは不可能であることは皆さんご存知の通りです。しかし、私たちは多くを望みます。他の場所では、ソフトウェアはより一時的になります。おそらく1週間動作するツールや一連のタスクを行うものを書くかもしれません。そこではSDLCは本当に重要ではありません。
スペクトルのこれら2つの極端な端で、私の脳がどのように機能するかについて、私はスペクトルを多く使用することに気づきます。AIがより有能になるにつれて、おそらくソフトウェアの分布が左に大きく傾き、それらの厳格なプロセスを必要としない方向にソフトウェアの量が増えるでしょう。しかし、世界のグローバルな銀行インフラは消えません。そこでは一定のチェックとバランスを望みます。
質問は単にそれらのチェックとバランスのすべてにわたってAIが行動しているかどうか、そしてある時点でそれが非常に信頼できるようになり、それらの多くを取り除き始めることができるかどうかです。ヒューマンソフトウェア開発者がいて、過去5年間CIテストが常に100%合格する、バグを決して書かない、間違いを決して犯さない場合、ある時点で「3時間のCIを人間に返そう。彼らがより速く動けるようにしよう」と言うかもしれません。
再び、これは理論的な例です。なぜなら、実世界ではそれは完全にこのようではないからです。しかし、人間レベルの能力を超えて進むにつれて、ある時点で「それでいい」と言うかもしれません。ユニットテストさえも消えるかもしれません。CI、これらすべてがますます少なくなり始めます。
限界の観点から物事を考えることは、明日が限界ではないからではなく、私たちがどこに向かっているかを示すのに役立つからだと思います。そのため、はい、時間の経過とともに、ソフトウェア開発ライフサイクルの多くはモデルに崩壊し、これらのチェックの多くを必要としなくなりますが、すべての場所ですべて一度にではありません。
大企業でのソフトウェアエンジニアリングの力学について考えると、FTSE 500の多くの企業は、率直に言って、本当に才能のあるソフトウェアエンジニアを雇うことができません。彼らはローコードやノーコードを行い、Microsoft Powerプラットフォームなどでものを構築するという問題がありました。そして今、私たちはAIコーディングの時代にあり、今ではほとんど誰でも、彼らがやりたいことをするための素晴らしいソフトウェア、ほとんど使い捨てのソフトウェアアプリケーションを書くことができます。よりコードを書く人が増えると思いますか?それは時間の経過とともにどのように変化するでしょうか?
言わなければなりませんが、それは企業で多くの時間を過ごしたからかもしれませんが、どこにでも信じられないソフトウェアエンジニアを見つけると思います。しかし、あなたが言っていることに関しては、Googleのスタッフエンジニアとして支払われる金額は、銀行のスタッフエンジニアとして支払われる金額と同じではありません。そのため、ここといくつかの区別があります。しかし全体的に、どこにでも素晴らしい開発者がいると思います。
現在見ているのは、AIがあなたの分野や新規プロジェクトにとってすでに大きな飛躍のように感じるかもしれませんが、ほとんどの企業環境では、まだ20%または30%の生産性向上のように感じているということです。それは一部の人にとっては2倍の生産性向上です。なぜなら、彼らはユニットテストの自動化などを行っていて、突然それがはるかに速くなり、おそらく3倍や4倍になるかもしれません。そして、他の場所では、モデルが本当にまだそれほど優れていない特定のドメインの会社特有のプログラミング言語で人々が作業している場合です。
そのため、企業の実世界へのモデル能力のマッピングは一つのサイズがすべてに合うわけではないことを認識する価値があると思います。私が見るのは、人々がより多くのことができるようになることに興奮しているということです。それが、仕事の退屈な部分を実際に自動化できる既存の開発者であるか、または多くのソフトウェアをより速く構築できることであるか、または製品マネージャーが「実際に自分でこのプロトトタイプを構築し、マネージャーに見せて、より良いスケールで構築するかどうかを確認できる」と言うようなことです。
そのため、より多くの人々がソフトウェアを構築することができ、構築したいと思うようになると考えています。しかし、欲しいというのは重要な部分です。なぜなら、私たち自身がソフトウェア開発者であるため、誰もがもし可能ならソフトウェアを構築したいと思うと仮定することがよくありますが、現実は、明日誰もができるようになっても、誰もがソフトウェアを構築したいわけではありません。しかし、アイデアをより速く構築したいと常に思っていた製品マネージャーは絶対にそうします。チームを集めようとしていたができなかった5人に1人のビジネスパーソンが今はできます。しかし、世界のすべての人がソフトウェアを構築することは普遍的ではありません。なぜなら、それはまだあなたがそれをしたいと思うことを必要とするものだからです。
私は同意します。明らかに、リフトは0から1です。今や個々のアプリケーションを数秒で構築することができます。それは信じられないことです。絶対に。しかし、私はまだ、はるかに大きなリフトがあると思いますし、私たちを阻んでいる唯一のことは想像力の欠如です。
例えば、Googleのエンジニアが非常に高給を受け取っている理由は、彼らが何百万人もの人が使用するスケーラブルな分散システムを構築しているからです。そして、マルチエージェントの障害耐性システムです。そのようなシステムはまだ構築できます。そして、質問は、これの一部は教育的なことです。AIコードを使用する良い方法と悪い方法があります。
良い方法は複雑性の上限があることを理解することです。そして、モノリシックなアプリケーションを構築し、その上に何度も何度も構築し続けると、それは崩壊します。しかし、モジュラー、ほぼサーバーレスタイプのマルチエージェントタイプのシステムを設計するように誘導することができます。そして、LMはそれを処理することができます。
現在のモデルの制限を、モデルが本質的に理解し、その中で作業できる小さくモジュラーなものを構築するという本当に良い方法にマッピングしていると思います。そして、懸念の分離があるこれらの種類のアーキテクチャがその世界で役立ちます。しかし、それは今日のモデルです。これは常に戻ってくる重要な部分だと思います。
ソフトウェアの種類についての普遍的な制限が今後3〜5年の間にモデルによって構築できるとは思いません。しかし、今日、巨大なモノリスアプリケーションを構築し、モデルにそれを大量にコーディングさせようとすると、ある時点で全体が崩壊することは絶対に正しいと言っています。
ちなみに、あなたはどうかわかりませんが、私のキャリアの初期にまさにそれと同じことをした時がありました。何かを構築し、何かを構築し、何かを構築し、ある時点で「ああ、ここにどんなモンスターを書いたんだ?」と思うことがあります。そしてそれが私をリファクタリングし、それをよりモジュラーに、より良くするように押し進めました。そして、今日のモデルで制限を見ていますが、それらはまだ私たちの能力からはほど遠いです。しかし、私たち自身の中でも、異なる瞬間に見たことがあると反省することもできます。
それは本当に興味深いです。言語モデルは二次的な複雑さでスケールし、ソフトウェアは複雑さの指数関数的にスケールするようなものだからです。そのため、それはあなたが他の方法で構築したであろうよりも2桁複雑なソフトウェアを構築することを可能にします。しかし、それでも複雑さの上限に非常に非常に速く達します。それは興味深い見方です。私はそれについてあまり考えていませんでしたが、考える必要があります。
もう一つの興味深いことは、現在人々がジェノムコーディングを行う場合、ソフトウェアを生成し、ユニットテストなどを行っていますが、まだソフトウェアエンジニアリングのかなり線形なモードを持っているということです。つまり、リリースコントロールがあり、物事を本番環境に投入します。現在、MCPサーバーなどの出現が見られ始めています。これは、開発プロセス中にインテリジェントシステムが実際にデータベースと通信し、「ライブデータベースのスキーマは何ですか」または「アクターシステムと通信して、現在どれだけのアクターが動作していますか?このアクターを修復する必要がありますか?」と言うことができることを意味します。今ではますますソフトウェアプロセスに運用レイヤーがあります。
これを人間的に考えてみましょう。開発者として私たちが行うことは、データベースコンソールを開いてスキーマを確認し、SlackやLINEで誰かと話し、情報を収集し、ドキュメントを引き出すことです。
そのため、世界が作成しているいくつかのプロトコルは、現在のモデル能力でモデルが簡単にそれを行うことができるようにする方法だと思います。再び、これを今後数年で実行すると、それがプロトコルであるかどうかはわかりません。それはコンピュータを使用するエージェントなのかもしれませんし、モデルはただAPIを叩くコードを書いているだけなのかもしれません。JIRAのAPIを叩いたり、データベースに直接接続してスキーマを取得するためのSQLコマンドを実行したりするようなものです。
そのため、今日のモデルの制限のために私たちが構築するものがあると思います。そしてそれらは重要であり、役立ちます。大規模なマルチエージェントシステムについて話すとき、ちょうど多くの開発者が協力している大きな会社について話すようなもので、興味深い質問は、その協力をどのように効率的にし、うまく機能させるかということです。
これは、モデルの1000のインスタンスがあり、それぞれが本質的に組織された集団として行動する世界ですか?それは私たちの組織のように階層的なものですか?なぜなら、私たちができないことがあるからです。私は500人の同僚の思考トレースと解決策にアクセスすることはできません。それは中央データベースに保存することはできませんが、エージェントができることです。
そのため、突然、人間レベルの知能に向かって構築している間にも、今日のモデルが私たちが操作する方法の性質上、私たちができないことをすでに行うことができる点があると思います。コードベースを並列実行し、1000のファイルにわたってファイルごとに要約することができます。私もそれを行うことはできますが、それには非常に長い時間がかかり、あまり効率的ではないでしょう。コンテキストウィンドウの長さです。あなたはどうかわかりませんが、私は100万トークンをコンテキストウィンドウに保持し、それを完璧に検索することはできません。
ある時点で、人間化することから離れ、「これらはモデルが異なる方法で行うことができる特定のことだ」と言い始める必要があります。私にとって、これらのプロトコルにつながります。今は必要ですが、18ヶ月後に必要かどうかはわかりません。
コードにはセマンティクスギャップがあるという興味深いことを話していました。多くの企業はコードが非常に価値があるためGitHubでリリースしたくないという有名な格言がありました。実際にはそれほど価値があるわけではありません。なぜなら、セマンティクス、意図、コードの背後にある動機はコードにないからです。言語でも同じです。データにない多くの情報がありますが、この情報を捕捉することができます。なぜなら、今や開発者の組織があり、これらのツールを使用してコードを構築しているからです。そして、思考プロセス全体が言語にあります。
そのため、それを一種のセマンティカルデータベースに取り込むことができます。それにRAGすることができます。そして今、あなたはこの種の意味のある、動機づけられた情報をすべて持っています。これは言語モデルが「私たちがこれを行った理由はこれだからだ」と知っているため、常に同じ間違いを犯さないことを意味します。本当にクールなものがたくさんあります。
あなたが言ったように、私たちは人間の思考をトレースし、保存する能力を持ったことはありません。そして、これらのモデルがますますアシスタントとして、将来のエージェントとして、さらには自律エージェントとしてデプロイされるにつれて、今や突然それにアクセスすることができます。問題は、私たちがそれにアクセスするか、モデル自身がそれにアクセスするかです。
私は常に未来への多くのステップに進むことに注意深くあろうとしています。なぜなら、ある時点であなたはSFに崩壊し始めるからです。しかし、この特定のシナリオからそれほど遠くないと思います。
私と同意しない人もかなりいると思いますが、可能な限り、モデルの思考と推論を言語で保つことは本当に重要だと思います。潜在空間スタイルの思考で行うことができる、おそらくさらに計算効率の良い信じられない作業があります。潜在空間推論トークンについての素晴らしいメタ論文がありました。私が見て気に入っている他のアプローチもいくつかあります。今週初めに言語ベースの拡散モデルが出てきました。私はその背後にいる人々を本当に気に入っています。そのため、機能するアーキテクチャがたくさんあると思います。
実際、私のチームは私が「おそらく世界のすべてのアーキテクチャが機能する」と言うことに疲れています。それは単に、私たちが気にする能力とタスクの種類にとって、それがどれだけ計算効率が良いかという質問です。
言語が重要だと言及する理由は、モデルがより有能になるにつれて、彼らが持つ推論と思考のトレースを見る能力と、あなたが言ったように過去からそれらを参照する能力を持つことが、特定の決定に何が導いたかという両方の解釈可能性の観点から、また他のエージェントによって以前に行われた作業の上に構築する能力の観点から、非常に価値があるようになるからです。そして、安全性と整合性の観点からも有用かどうかについての議論があると思います。
言語ベースの拡散モデルは素晴らしい例です。私は何年もの間これについて非常に興奮していましたが、特によく機能することはありませんでした。あなたが話したばかりのものは、ほぼ10倍の効率性の利点がありました。自己回帰型言語モデルでは、実際にトークンごとに進む必要がありますが、このものでは拡散を5、6回程度しか実行せず、同じ結果を得ました。
拡散はコードの観点から本当に優れています。なぜなら、視覚の拡散と同じように、実際に物事を編集することができるからです。「このコードを固定したままにして、中間のこの部分を編集したい」と言うことができます。なぜ皆がこれを行っていないのですか?
機能するアーキテクチャはたくさんあり、拡散はその一つの分野だと思います。しかし、私たちの業界では、フロンティア企業のそれぞれが私たちが持っているものを本当に効率的にするために多くの作業を行ってきました。そのため、一つから別のものに移行するには、効率性の利点があり、新しいアーキテクチャに実際に取り組むのに必要な時間を取る意欲が必要です。
その瞬間まであなたが行ったすべての実験、それが同じ方法で依然として真実を保持するかどうか。1年ちょっと前に線形注意、RNNに触発された注意に大きな賭けをしました。そして、線形注意を持つモデルを昨年の秋からすでに本番環境で使用しています。
そのため、私たちは「なぜ皆がこれをしないのか、これは非常に理にかなっているのに」と尋ねるかもしれません。それの一部は、私たち全員がある領域に大きく投資し、それをさらにスケールアップするからでもあります。そしてその移行を行うことは、そうする価値が本当にあるはずです。
そのため、拡散言語モデルのその効率性がどれだけ私たちが行っているいくつかのことや他のことと比較して現れるかを、さらに調査する必要があります。私たちは他のアーキテクチャですでに行っているかもしれないまだ開示していない異なることのために、この道を自分たちで行く可能性は低いです。
しかし、それは興奮するものだと思います。そして、アーキテクチャ研究のための余地がまだたくさんあると思います。拡散言語モデルは氷山の一角だと思います。もっと多くのことができると思いますが、それらもスケールアップする必要があります。
オープンソースやその他で見られる最もクールなものの一部は、70億パラメータで、せいぜい70億です。そして質問は、70億でどのように機能するか、そして拡散言語モデルのMoe同等物を作ろうとすると、どのように機能するかということです。ある時点で、小規模で機能するものは大規模でも機能する可能性が非常に高いですが、同じ効率性が維持されるかどうか、同じ利点を得られるかどうかということです。
それは非常に良い質問です。なぜなら、彼らは中規模のモデルを構築し、それは他のフロンティアの中規模モデルと同等のパフォーマンスでした。もう一つ気に入ったのは、任意の計算量を実行できることです。実際に拡散を続けることができます。そして、テスト時の計算の観点から見ると、実際に非常に非常に柔軟です。それが大好きです。
しかし、ソフトウェアエンジニアリングのことに戻ると、AI開発をますます行うとき、人間の側に自律性の欠如と解読可能性の欠如が見られると思います。今や、ますます解読不可能なソフトウェアを構築しています。そして、骨を折らないようにしましょう。誰もGoogleがどのようにソフトウェアコードを理解しているかを理解していません。したがって、誇張すべきではありません。しかし、私たちが言っていたように、少なくとも抽象化のあるレベルで、物事が何をしているのかを理解し、ガードレールなどを設置する認知インターフェースを仲介する情報アーキテクチャを設計することができます。しかし、私たちは、解読不可能なモンスターを構築しているだけの未来を記述しています。これは、モデルがコードを書くという最初のポイントに関して、どのように見えますか?
私はコードがすでにその高レベルの抽象化だと思います。私たちは皆、コードに入り、理解しようとすることができます。そして、いくつかのプリント文を追加して時間を費やすかもしれません。認知負荷がかかります。しかし、コードは決定論的です。それはコンパイラによって解釈され、私たち人間は皆、時間と労力を投資する意欲があれば理解することができます。それは単に価値がないのです。
そのため、私たちは大きなソフトウェアコードベースを構築することに問題があるのでしょうか?それを完全に理解することはできないでしょうか?私たちは人間の知能でもすでにそうでした。Googleのコードベースの例を挙げました。もはや一人の人もそれを理解していません。そして、私たちはそれと完全に問題ありません。なぜなら、それが行うべきことを行うからです。そして、バグがあり、何かがうまくいかなかったために、または私たちがX社がオープンソースでリリースした推薦アルゴリズムを深く気にしているために、コードの一部を実際に調査したい場合、私たちはそこに時間を費やすことを選択できます。
しかし、人間が構築したソフトウェアと同様に、私たちは常に戻って時間を費やすわけではありません。何年も誰も見ていないけれども完璧に動作しているレガシーコードベースの量を見てください。そのため、私はそれが単なる選択だと思います。
モデルがモンスターであるという点、コードベースではなくモデルがモンスター、つまり解釈可能性に関しては、優れた解釈可能性作業がますます重要になると思います。そして、モデル能力の限界で解釈可能性が現在の小規模なものと同じくらい有用かどうか疑問があると思います。
私が言いたいのは、モデルのニューラルネット内で起こる推論と思考プロセスを、私たち自身の生物学で同様にできないのと同様に、真に理解できるかどうかわからないということです。そのため、私はクリス・オラのチームがリリースし、公開している解釈可能性作業の一部に非常に興奮しています。それは信じられない方向だと思います。私は皆さんがこのタイプの作業を行い、モデルで何が起こっているのかを理解しようとすることを強く奨励したいと思います。
私たちがモデルの推論と思考を言語で保ち続ければ、それは解釈可能性のレイヤーを追加すると思います。それは必ずしもモデルの下で実際に起こっていることではありません。完璧に聞こえる推論と思考の連鎖を開発するモデルを想像することができますが、実際には異なる目的を最適化しようとしています。それが安全性と整合性の解釈可能性が中間で出会う場所だと思います。そして本当に重要です。
しかし、モデルのアクティベーションと重みのレベルで起こっていることの解釈可能性に関する良い作業と、モデルの推論と思考を言語で保ち、これら2つのことが一貫性を保つかどうかを理解しようとすることを組み合わせることで、実際に整合性と安全性に関して非常に良い仕事ができると思いたいと思います。
興味深いのは、言語モデルはすべての口語的な人間のコードでトレーニングされているため、局所的に解釈可能なコードを生成することです。それは、言語モデルが実際に驚くほど整合している、それに似ています。私がCLIでオープンインタープリターを使用していて、ファイルシステム上のすべてのファイルを削除するように指示すると、それは「いいえ」と言います。
そして、私はLMアプリケーションを構築しました。そして、名前を他の誰かに変更するように指示すると、それは「いいえ」と言います。実際には、「あなたはアイソです。これは名前です。名前を変更するつもりはありません」と言います。しかし、そこにはこの種のグローバルな解読不可能性もあります。しかし、コードを生成していますが、コードとモデルの混合もあり、解読不可能性の一部はこれが生きているものだということからも来ると思います。
Black Fridayのインシデントがありました。高頻度取引や自動取引を行っていて、それはうまく機能していますが、そうでない場合もあります。そして、カスケード効果が得られます。そして、制御の所在は今やアルゴリズムとモデルとマシンにあります。そのため、私たちは簡単に、うまく機能するように見えるこれらの非常に複雑なシステムを構築することができますが、そうでない場合もあります。
今言ったことすべてを取り上げて、モデルを人間に置き換えても、それはまだ真実であると思います。この巨大で複雑な金融インフラコードベースについて話すとき、それはこれらすべての人間によって構築され、もはや誰も知らなくなり、私たちの制御の所在はもはや誰にもなく、予期しないイベントが発生したとき、私たちはしばしば何か悪いことが起こる可能性があることを取り上げて、それをモデルに置きますが、それはすでに世界がどのようなものであるかです。
そのため、私たちができる最善のことは、これらのモデルを私たちより有能にし、エッジケースをカバーする良いコードを書く能力において非常に有能にすることだと思います。テストを書くのに怠けないことです。これは別のことです。自分たちについて非常に正直に話しましょう。私たちが楽しんでやることとそうでないことがあります。世界のコードのうち、適切なテストカバレッジがないのはどれくらいですか?世界の重要なコードのうち、現在適切なテストカバレッジがないのはどれくらいですか?
突然、私が世界の金融インフラの重要なコードのテストカバレッジを強化するために、コンピューティング、知能にドルをデプロイすることを決定できる場合、世界の電力網などの重要なインフラのセキュリティを強化できるとしたら、世界の重要なインフラのほとんどが本当に安全でないコードで動作していることはかなり一般的に受け入れられていると思います。今、私が言うことができれば、「私たちの電力網のコードをより安全にするために10億ドルを投資する意思がある」と言うことができれば、それは企業から来るかもしれませんし、公共部門から来るかもしれません。しかし、今や人間を集める必要はありませんが、AIでこれを行うことができ、テストを書いたり他のことについて怠けないことを知っています。
それは興奮することだと思います。そして、AIと一緒に科学のフロンティアを探索するなど、私たちが時間を費やしたいことに集中することができます。世界には信じられないソフトウェアとコードを書く人材が不足しています。そしてそれは、私たちがまだアップグレードしていないレガシーシステムの量に示されています。そのため、これはそれを克服する方法だと思います。必ずしも、そしてもちろん、人間と同様に、それは別の障害の領域を追加します。しかし、時間の経過とともに、あなたは重要なシステムのコードを書く人を誰に任せたいですか?
私はよく私的に言います。「私は看護師に人間であってほしいが、いつか外科医にはロボットであってほしい」と。
AIソフトウェアの進化を見ると、メタプログラミングにとても興奮しています。システムが自分自身を修復し、障害に応じて自身のコードを生成することができます。しかし、進化の次の段階は、なぜコードが必要なのかということです。なぜ単にモデルが物事を行うだけにしないのですか?変換するのがとても素晴らしいところに中間のコードステップさえありません。そして全体が適応的です。それについて興奮していますか?
2016年以来の年月をかけて、私の意見は変わりました。以前はKarpathyの引用、2016年のブログ記事「ソフトウェア2.0」のように、ある限界では、すべてが単にモデルになるという考えを持っていました。今日、それほど極端ではなく、少し異なる考え方をしています。
世界のインフラの一部を、解釈可能なものに持ちたいと思います。そしてコードは解釈可能です。それはトレースでき、テストでき、人間によって理解でき、あるいはAIが入ってきて完全に理解することができます。そのため、世界の金融決済インフラはおそらくコードに含まれていることを望みます。私たちの電力網はおそらくコードに含まれていることを望みます。何が操作しているのか?ここに実世界を見ています。電車間のスイッチはおそらくコードに含まれています。
しかし、他のソフトウェアの部分について気にするでしょうか?それが単にニューラルネットが背後で全体をシミュレーションしているだけであれば?また、コードが何であるかに戻る必要があります。コードはほとんどの場合、ほとんどのソフトウェアの場合、CPUで動作しています。そして、私たちは決定論的なコードを実行できるようにハードウェアの進化を最適化する素晴らしい仕事をしてきました。
モデルが十分に計算効率的でない場所がたくさんあります。世界のすべてのソフトウェアをモデル呼び出しに崩壊させるには、単に費用がかかりすぎるかもしれません。しかし、モデル能力が非常に優れ、非常に信頼でき、決定論的なことを行うものとして扱うことができるポイントに達すると、あなたは正しいです。Xを尋ねるたびに、それが非常に整合しているため、Yを行うことを知っています。なぜなら、それはCPU用のコードが本質的にそうであるからです。最終的に、私たちは何かが真に決定論的であることを求めています。
それらのコストプロファイルが変化するにつれて、より多くのものがモデルに移動するかもしれません。しかし、私はまだ、たぶん古いアイデアに固執していますが、有能なモデルがUber Eatsアプリを構築し、維持し、それをCPUインフラストラクチャで実行し、それを更新して変更するための維持可能なコードを持つ方が、ニューラルネットとして全体をシミュレーションするよりも安価だと思います。そのため、長い間、実世界のコードは存在し続けると思います。
素晴らしいのは、これらのAIモデルが多くの点で単に私たちよりも賢いということです。そのため、私たちがコードを書くことができないことを行ったり学んだりする関数を基本的に書くことができます。それは信じられないことで、100%NPハードです。これが信じられないほど素晴らしいことになる場所はたくさんあります。絶対にそうです。
そのため、おそらくそれはスペクトルです。ちょっとギャラクシーブレインの考えを持っていました。マーカス、私たちのクリエイティブディレクターを迎えに行く途中で運転していて、Googleマップが私を変な方向に連れて行っていました。そして私は「何をしているんだろう?これは功利主義者なのか?実際に平均ルート時間を減らすことを最適化しているのか?そして私には気にしていないから悪い道を通っているのか?」と考えていました。そして将来、これらのAIシステムは、これは制御の喪失について言いたいことの一種ですが、何か変なギャラクシーブレインのことをしているかもしれません。そしてそれは必ずしも私にとって正しいものではないかもしれません。そして多分私はそれについて知りたいと思います。
今日、すでに良い解釈可能性を持っていない多くの機械学習システムがあると思います。詐欺検出であれ、実際にあなたの位置に地図を表示するアルゴリズムであれです。Googleマップの裏で何が動いているのかわかりません。しかし、それはすでにタスク固有のニューラルネットである可能性があります。そうでも驚きません。少なくともその一部はそうでしょう。おそらくロンドンの交通パターンなどの多くのデータから学習したものです。
そのため、私たちはすでに機械学習でこれに直面しており、これからも直面し続けるでしょう。世界には決定論的であってほしいと望む部分があり、それを維持したいと思うでしょう。そして、あなたが絶対に正しい他の部分があります。一般的なロンドンの交通ではなく、私を理解する最適なルートを計画してほしいと思います。おそらく、私は混雑している列車よりも混雑していない列車を好み、特定の時間に到着することは構わないということです。
私たちが知能、一般化された知能、つまり人間のような知能を世界に追加するにつれて、私たちはそれをより計算効率的に続けることができるレバーを手に入れました。私は経路を計算するのにAGIを使うかもしれません。なぜなら、ある時点でそれは非常に安価になり、それを行う価値があるからです。
そのため、私は今日モデルで何かを行います。とても馬鹿げているように聞こえるかもしれませんが、私は仕事で多く旅行します。そして、飛行機に乗る前や着陸するたびに、私のスケジュールを伝え、何を食べたかを伝えて、「私のジェットラグに対処するための最良の計画は何ですか?このスケジュールでどこに来ているのか」と尋ねます。そして、私はそれに従います。それは「炭水化物の少ないタンパク質の食事をして、ここで90分眠ってください」と言い、私はただモデルに従います。
見てください、私たちのモデルは特にこのためにトレーニングされていませんでしたが、それはかなり良い一般化されたモデルであり、これまでのところ私にとってはうまく機能しています。しかし、私はその特定の理由のためにそれを使用しています。なぜなら、突然、知能が私がこれを行うのに十分安価になったからです。アルゴリズムを書くことができます。これらすべての要因を考慮に入れ、天気のAPIロケーションなどを呼び出すコードを書くことができます。あるいは、単にモデルを信頼することもできます。そして、私はこれら二つのものが常に存在すると思います。しかし、コードは将来モデルによって書かれることになります。そしてそれは、それがより効率的でより決定論的だからコードでものを行うことを選択します。または支払いインフラストラクチャのように、私たちはそれが決定論的であり続けることを望んでいます。
これを行うとき、何かを失うかもしれないと思いますか?昨夜素晴らしいYouTubeビデオを見ました。それはアナログ録音の時代には、テープに物事を記録する必要があり、一回のテイクしかできず、多くのノイズがあったが、それが一種の偶然性を生み出したというものでした。ただ削除して再開するのではなく、もう一度やり直す必要があります。それについて話し合う必要があります。そして、今日のこの撮影日のように、それは非常に創造的で偶然的なプロセスです。そして、あなたは機械に知的思考プロセスをそれほど多く委託することで、何かを失うかもしれないと思いますか?
今日私たちは同じ方法で考えているか、500年前、2000年前と同じように私たち自身の思考プロセスは進化したのかという質問をする価値があると思います。そして、より多くの知識の表現、思考を学び、ツールによって増強され始めたにつれて変化したものがあると思います。私はまだGoogleの前と後の世界を覚えている年齢です。私は若かったですが、Google前とGoogle後の世界です。そして突然、特定の事実を覚えなくなり始めました。実際、私がまだ覚えている特定の知識や歴史的事実はほとんどありません。おそらく、もし私たちが150年前に生まれていたら、本や他のものから学んだことを覚えることが私たちにとって非常に重要だっただろうと思います。そのため、それは変わりました。そして、代わりに使用できるツールがあるため変わりました。
そのため、私はもはやジェットラグの背後にある理論や生物学的プロセスを知る必要がないかもしれません。なぜなら、私は他の何かが決定を下すのを信頼しているからです。しかし、私たちは常にその版を持っていたと思います。過去には、X、Y、Zについてのローカルの賢者、または私たちが医者に行くという事実を信頼することでした。
私たちの思考プロセス自体が進化するでしょうか?もしこれに十分な時間をかけて進化させれば、私たちはより賢くなるでしょうか?より賢くなくなるでしょうか?人々が瞬間的に言いたがるにもかかわらず、技術のために私たちがより愚かになったという歴史は示していません。実際には、それは私たちをより啓発され、もっと多くのアイデアを探索する能力を持ち、もっと多くのことを行える能力を持たせたと思います。技術的進歩は指数関数的に続けてきました。そしてそれが指数関数的に続くことは楽しいことだと思います。
そのため、たぶん私は楽観主義者ですが、公平な議論を作ることができると思います。あなたが親で若い子供がいる場合、本質的に「あなたにはまだこれを勉強してほしい、これらのことを学んでほしい、なぜならそれはあなた自身の思考を発達させるからだ」と言うようなものです。
それはTikTokの議論のようなものです。子供に1日中TikTokを与え、1日に8時間電話で過ごすことを望むでしょうか?それがあなたの子供が成長し、知能を発達させる方法とは思いません。
今日、あなたの子供にコードの書き方を学ぶことを奨励しますか?
はい。
理由を教えてください。
ちょうどあなたが子供に歴史を学び、数学を理解し、プログラムを学び、コードを書くことを奨励するように、私はこれらすべてのことを望みます。なぜなら、最終的に、私たちはまだ自分自身の知能も訓練する必要があるからです。そのため、たとえ今日私たちが人間レベルの知能に達し、さらにはそれを超えてモデルをトレーニングする能力をますます得ているとしても、それは私たちの人生の経験が自分自身の知能を実際にトレーニングせずに済ませるべきだという意味ではありません。
そして、私はコーディングとソフトウェアの構築が私たちの知能をトレーニングする素晴らしい方法だと思います。私は今日、自分の仕事で多くのコードを書くことはあまりありません。それは共同創設者であることと、私の役割がある場所の性質です。しかし、私の人生で多くのコードを書いてきたことから学んだすべてのことが、私が現在行っていることをより能力的に行うのに役立つ思考プロセスと理解を発展させるのに役立ったと思いたいと思います。
そのため、一般的に知能を発展させることは良いことだと思いますし、コーディングはそのための良いツールだと思います。
マルチモダリティについて少し話していただけますか?現在、このジェネレーティブAI設定では主にテキストについて話しています。将来的には、画面を記録し、観察的な方法で、アプリケーションを見ることができ、将来的にはアプリケーションと一般的な方法で対話できるようになると想像できます。それは来るのでしょうか?
100%そうです。視覚言語モデリングからコンピュータ使用、ビデオでの作業と世界でのワールドモデルの構築など、マルチモダリティはすべて来ています。私はいつも質問はそれに取り組んでいる企業が彼らの目的に関して何に取り組む必要があるかに帰着すると思います。
ソフトウェア開発のための世界最高のAIを構築し、人間レベルの知能への軌道上にあることについて今話すとき、テキストで大量に表現されるものがあります。文字、言語、コードなどですが、また画面上にあるものの視覚的理解で大量に表現されるものもあります。なぜなら、アプリケーションは画面上にあるからです。
モデルが画面上に何があるか、それとどのように対話するか、コンピュータ使用の能力を持ち、エージェントがAmazon Web Serviceのコンソールを開いてクリックし、必要なデータを見つけることができるようにする理解を構築することは重要だと思います。
ソフトウェア開発能力に焦点を当てると、テキストモダリティで多くのことができると思います。テキストモダリティでは、モデルに美しいUIを作成させることはできません。UIの繰り返しには視覚的モデリングとそれをモダリティとして持つことが必要です。しかし、コンピュータ使用エージェントがAmazonウェブサイトにアクセスし、ログインし、IAMロールを見つけるのに役立つ場所では、APIコールを作成することでそれを行う方法を理解するモデルを持つこともできます。
そのため、私たちは、ソフトウェア開発能力に焦点を当てることで、ビデオや画像生成よりも計算効率の少し良いモダリティに焦点を当て、目標に向かってより効率的に計算を使用することを可能にするガードレールをたくさん設けています。しかし、完全自動運転を構築しようとしているならば、私のモダリティはテキストではないでしょう。
DeepMindのGenie論文など、将来についてかなり興奮しています。彼らはリアルタイムで対話的なビデオを生成することについて話しています。将来的に、ジェネレーティブなソフトウェアを持つことはできるでしょうか?なぜなら、ユーザーインターフェースは、私たちが皆異なる考え方をするため、あなたにとって最適なユーザーインターフェースは私にとっては異なるかもしれません。
その世界が存在できない理由はないと思います。質問はそれをどこに存在させたいかということです。私はUber Eatsアプリを開くたびに同じように見えてほしいと思います。なぜなら、私は注文したい食べ物を見つけられるように、自分自身のモデルをトレーニングするからです。しかし、UIを動的にしたい場所があります。おそらく何かの背後にあるデータに基づいて。私はそれがより私に合わせられることを望むかもしれません。
しかし、あえて言うと、世界でソフトウェアを消費する人々の大多数、私たち人間は、実際には私たちのUIが日々大きく変化することを望んでいません。私たちはUIに一定の一貫性を望んでいます。それは単に人間の行動だと思います。しかし、それが起こる可能性がない技術的な理由はないと思います。
興味深いです。クラウドプロバイダーとの関係はどうですか?
公に、私たちは12月にAWS、Amazon Web Servicesとファーストパーティの関係と呼ばれるものを持っていることを発表しました。そしてそれはかなりユニークなものです。これにより、企業の顧客がPoolsideを購入するとき、彼らはそれをAmazonの書類の下で購入することができ、つまり彼らが記録の売り手になります。
そのため、これは大規模で複雑な企業がPoolsideと契約し、別のAmazonサービスを追加するかのように私たちの製品を導入する道を開きます。これは私たちと始めるのにかかる時間を大幅に削減し、彼らの支出コミットメントを完全に使い切ることも可能にします。企業はAmazonと大きな支出コミットメントを持っています。そのため、これは私たちがこれを行ってきた方法の一つです。
Amazon企業での配布は巨大だからです。彼らは世界のどのクラウドプロバイダーよりも最大のサービス領域です。そして私たちのビジネスについて考えると、私たちは能力のレースにいます。今日、その多くについて話してきましたが、私たちはまた市場へのレースにもいます。顧客を獲得し、収益を伸ばす能力は、より多くの計算とより多くの才能にさらに大量の資本を投資して、モデル能力をスケールアップすることを可能にします。そのため、これらは非常に共生的です。そのため、Amazonとの関係は驚くほど刺激的です。
私たちは市場の側だけでなく、彼らのシリコンでも多くの作業を行ってきました。Trainium oneとTrainium twoの周りで多くの作業を行ってきました。そのため、私たちはそれに完全に専念したチームを持っており、彼らがそこで構築しているものについてかなり興奮しています。
スタートアップにも素晴らしいですね。なぜなら、Amazonで無料のクレジットをたくさん得ることができるからです。そのため、おそらくあなたのサービスに無料のクレジットを使うことができます。
私たちは、クレジットが違いを生むほどの規模の計算ではないと思います。非常に正直に言うと。しかし、私たちの顧客や他の人にとっては、絶対にそうです。それは一部だと思います。しかし、私たちの顧客にとって、そして彼らが何を見ているのかについて、デプロイする場所が彼らのセキュリティプロファイルに大きな違いをもたらすと思います。
そのため、私たちはAmazon Web Service VPCの内部、そのプライベートアカウント内にデプロイします。そしてモデルの重みとフルスタックがそこに住んでいます。そして、その組み合わせにより、企業はモデルがデータに行くのであって、その逆ではないことを快適に感じることができます。
興味深いです。そして、始めるという観点から見ると、皆さんは専用のハードウェアを持ちたいと思っていますか?あなたの顧客は一つの共有実装を持つ集中型モデルを持っていることが多いですか、それともそれはより複雑ですか?
それは本当に企業によって大きく異なります。私たちが見つけるのは、企業内にはセキュリティ境界があり、それらはモデルの複数のインスタンスを必要とするということです。そのため、彼らが内部で持っている独自のSDKでモデルを微調整していて、それが一つのビジネスユニットだけをカバーし、そのモデルが規制コンプライアンスの理由からビジネスの他の部分と共有されることが許可されていない場合、特定のユースケースに向けて異なる環境で微調整される多くのバージョンのPoolsideモデルをスピンアップしたい組織を見つけるかもしれません。
私たちが位置している場所から見ると、オンプレムからVPCまで、異なるモデルのインスタンス、異なるセキュリティ境界、アクセス権の異なる玉ねぎの層などのあらゆる種類の複雑さを見ています。そして、私たちはそのすべてのために構築してきました。今日はモデルについて多く話しましたが、防衛、政府、金融サービスで成功するために行う必要があったエンジニアリングのレベルは実際にかなりのものでした。
最後に、インフラとアーキテクチャで人々が立ち上がるのを支援するためのフォワードエンジニアリングチームはありますか?
絶対にあります。はい。私たちはPoolsideのソリューションアーキテクトを持っており、彼らは完全に私たちの顧客と多くの時間を費やすことができます。しかし、私たちが増々行ってきたことは、マネージドインストールアプローチに向けて構築してきたことです。そのため、企業が一時的なアクセス権、非常に非常に限られたアクセス権を与えてくれる場合、私たちは彼らのアカウントにPoolsideの全インフラストラクチャをスピンアップすることができます。そのため、以前は何日もの労力がかかっていたものが、単一のIAMロールを提供するだけで、現在では実際に40分以内に行うことができます。
しかし、企業には常に何かがあります。大規模なデプロイメントの途中で発見することになる何かがあります。ネットワークのどこかに座っているファイアウォールで、特定の設定を微調整する必要があります。そして、それはもちろん、私たちのソリューションアーキテクトが非常に役立つところですが、また彼らが考えるのを助けるという点でも役立ちます。
これらのモデルを彼らのモデルにし、彼らのデータで微調整し、彼らの環境でより有能にするにつれて、どのデータ、どのグループのエンジニアにモデルのどのバージョンをデプロイするか、影響をどのように測定するかについて考えるのを助けます。なぜなら、私たちは顧客が利用できる多くのメトリクスを提供しているからです。受け入れ率、レビューされても適用されなかった変更がどれくらいあるか、実際に適用されたコード行がどれくらいあるかなどのモデルの影響を見るためのものです。そのため、私たちはその作業の多くを行い、顧客がそれについて考えるのを助けようとしています。
私たちの約束は、知能がより有能になると、企業はそれを私たちと一緒にスケールアップしたいと思う、信頼されるパートナーになることです。
アイソ、本当に光栄でした。今日ご参加いただきありがとうございました。
いいえ、こちらこそありがとうございます。喜んで参加させていただきました。

コメント

タイトルとURLをコピーしました