Claude 4、AIコーディングの次の段階、そしてAI協働者への道筋

AGIに仕事を奪われたい
この記事は約42分で読めます。

24,810 文字

Claude 4, Next Phase for AI Coding, and the Path to AI Coworkers
Sholto Douglas, a Member of Technical Staff at Anthropic, joined Unsupervised Learning to break down why coding is the c...

しかし、ダグラスはAnthropic のClaude 4モデルの重要な一部でもありました。これらのモデルがリリースされた日に彼と座って話せたのは本当に楽しかったです。私たちは、開発者や構築者がこの次世代のAnthropicモデルについてどう考えるべきかということを含めて、多くのことについて話しました。私たちは、トレンドラインがこれらのモデルが6、12ヶ月後、そして2、3年後にどこにあるかについて何を意味するのかについても話しました。
私たちは信頼できるエージェントに必要なもの、そしてこれらのモデルが医学や法律などの分野でいつより良くなり、コーディングで既に成し遂げた進歩をある意味反映するようになるかについて話しました。そして、彼のアライメント研究に対する見解についても話しました。現在の状況、何が機能しているか、まだ何をする必要があるか、そしてAI 2027の研究への反応についてです。
これは、LLM研究における優秀な頭脳との非常に魅力的な会話でした。人々は本当に楽しんでいただけると思います。これ以上前置きせずに、シェルトをお聞きください。
ポッドキャストに来てくれて本当にありがとうございます。楽しんでいます。本当にクールな小さなルートですね。ええ。あなたがこの小さな洞窟に私たちと一緒に入ってくれることを感謝しています。いつも楽しいです。このポッドキャストが出る頃には、世界はClaude 4を手に入れているでしょう。人々はそれで遊び回っていると確信していますが、私は興味があります。あなたはこれらのモデルで遊び回えることができた最初の人の一人です。それらについて何が最もあなたを興奮させますか?
それらは確実にソフトウェアエンジニアリングにおけるもう一つのステップアップです。Opusは本当に信じられないソフトウェアエンジニアリングモデルです。私たちの大きなモノレポで、私が信じられないほど仕様が不明確な何かをやるように頼むと、それが行って、かなり自律的で独立した方法でそれを行うことができ、情報を発見し、これを理解し、いくつかのテストを実行するという瞬間が増えています。
そして、それは毎回私を驚かせます。新しいモデルセットを手に入れるたびに、何が機能するか、何が機能しないかについての心理的モデルを再特徴づけする必要があります。コーディング時にこれらのモデルを何に使い、何に使わないかについて、あなたのモデルがどのように変わったかを教えてください。
私は最大のものは時間の地平線が少し拡大するということだと思います。モデル能力の改善を二つの軸に沿って特徴づけることができると思います。その一つはタスクの絶対的な知的複雑さのようなものです。もう一つは、彼らが意味のある推論を行うことができるコンテキストの量、または連続した行動の量です。これらのモデルは第二の軸に沿って実質的により良く感じられます。彼らは本当に複数の行動を取ることができ、環境から必要な情報を引き出す必要があるものを理解し、それに基づいて行動することができます。
時間の地平線だけでなく、Claude Codeやこのようなもののサポートもあります。実際に有用な方法でこれを行うためのすべてのツールにアクセスできるという事実、そしてあなたがチャットボックスからコピーペーストして座っているわけではないということは、その点でもかなり意味のある改善です。
私が見ている様々なタスクがあり、1時間以上、または多くの時間の作業があり、私がやったであろうものを、人間相当時間でそれが私の前でチャーンして行っています。人々はこのポッドキャストが出るときに初めてこれらのモデルを手に入れます。彼らが最初に試すべきことについて、あなたのアドバイスは何ですか?
最初に試すべきこと。正直に言うと、それらを自分の仕事に組み込んでみることだと思います。それが最大のものです。座って、その日にあなたのコードベースで最初にやろうとしていたことと同じことをするように頼んでください。そして、それが必要な情報を引き出し、何をすべきかを理解するのを見て、かなり印象的だと思うでしょう。
今、これらの新しい能力を持っているので、明らかにこれらのモデルの上に構築する大勢の人々がいます。あなたがこれらのモデルを取ってアプリケーションを構築する構築者にとって新たに可能になることを期待していることは何ですか?
ある意味で製品指数のような概念があると思います。そこでは、モデルの能力の少し先を行って常に構築しなければなりません。CursorやWindsurf、Devonといった製品の観点から考えるのが好きです。Cursorを見ると、彼らはコーディングがどうあるべきかについてのビジョンを持っていて、それはモデル能力がある場所からかなり先を行っていました。Cursorはモデル、Claude 3.5 Sonnetが離陸し、彼らが人々に与えたかった支援が実現できるようになるまで、PMFに到達しませんでした。そして、Windsurfはより実質的にエージェント的になり、それによって彼らはその製品指数をより強く押すことで合理的な市場シェアを得ることができました。
Claude Code、新しいClaude GitHubインテグレーション、そしてOpenAIのCodeX、Googleのコーディングエージェントなど、皆がコーディングエージェントに取り組んでいるのを見始めています。ツールですよね?人々がもう一つのレベルの自律性と非同期性を構築しているのです。
今、モデルは独立してタスクを行う能力に向けて、つまずくような歩みを取っています。以前に数時間かかったであろうタスクの種類です。次に見えるのは、あなたが毎秒ループにいることから、毎分ループにいること、毎時ループにいることへの興味深い移行だと思います。これは昨年の間に見てきました。
将来、あなたが単一のモデルを管理するのではなく、複数のモデルが複数のことをして相互作用するモデルの艦隊のようなものを管理することになるのではないかと思います。そして、そのようなインターフェースは探求するのが非常に興味深いと思います。単一のモデルを管理するのではなく、複数のモデルをしているときに、どれだけの並列性を誰かに与えることができるかということです。それはかなりエキサイティングだと思います。
それはどのように見えるでしょうか?神様、Anthropicの多くの人々が実際に複数のClaude Codeインスタンスを異なる開発ボックスで起動しているのを知っていますが、それはかなりクールです。しかし、誰もまだそのフォームファクターを本当にクラックしていないと思うし、それは個人のほぼ管理帯域幅の興味深いフォームファクターだと思います。
これは、経済がどのように機能するか、これらのモデルの生産性への収益はどのようなものかという将来の観点からも探求すべき興味深い質問だと思います。なぜなら、最初に私たちはこれらのモデルの出力を人間が検証する必要があり、モデルの経済的影響は、モデル自身にチームを管理する信頼を委任できるまで、人間の管理帯域幅によってボトルネックになるからです。
その継続的な抽象化レイヤーの階層のステップアップは、基本的に理解すべき重要なトレンドラインの一つになると思います。これらのモデルをチェックする必要がある頻度に基づいて、無限の数のモデルが動作し、15分ごと対1時間ごと対5時間ごとにチェックする必要がある場合、はるかに多くのことができます。
JensenがAGI進歩の将来についてどう感じるかに関してこれに言及したと思います。彼は「実際、私は10万人の信じられないほど知的なAGIに囲まれている」と言いました。そして彼は「これは私に世界に対する巨大なレバレッジを与える」と言い、それが影響だということです。彼はNvidiaの会社を管理する際の制約要因として自分自身を説明しており、多くの仕事がその方向により近く見えることになると思います。
誰にもわからないでしょう。もしかしたら、組織設計のこの分野全体が実際に最も重要なものになるかもしれません。どのように信頼し、構造が複雑になるかということです。以前のエピソードで、あなたがマッキンゼーで1年過ごしたと言っていましたが、これは長年これをやってきたコンサルティング会社にとって良い用途かもしれません。新しい製品ラインかもしれませんね。
あなたが言ったことに本当に驚きました。基本的にアプリ会社にとって、モデルがどこに向かっているかより一段階先を行くことについてです。Cursorが行ったこと対Cognitionのようなアジェンダコーディング会社に対して、モデルが非常に迅速に変化するので、100人チームを管理するために使用するダッシュボードは何か、適切なレベルで先を行くのは何かを考えている人のようなものです。
なぜなら、今日は本当にスキーを外れているように感じるかもしれませんが、3ヶ月後にはモデル能力が適切な場所にあると感じるでしょうから。製品をモデル能力のフロンティアに数ヶ月先に適したものに常に再発明しなければなりません。
直接ユーザーとこのようなものとの接触を維持していると感じるので、製品はある程度機能しますが、フロンティア能力を活用することができます。レシピは、モデルがどこかに到達するのを待っている間に、他の誰かがあなたの開発者の愛とカスタマーケースを取り上げ、それが来たときにいくつかのものを統合できることだと感じます。
カスタムwind stuffでもそれを見ましたし、このようなものでもそうです。これらのモデルには、メモリ、指示従順、ツール使用など、あなた方が進歩を遂げた多くのものがあります。人々に再文脈化すると、これら3つの領域で私たちはどこにいて、何が機能し、何が機能しないのでしょうか?
この1年間でこれらのモデルに何が起こったかを考える良い方法は、言語モデルの上でRLが最終的に本当に機能したからです。私たちがこれらのモデルに教えることができた知的複雑さに直接的な上限はないと思います。それで、それらが信じられないほど複雑な数学問題、信じられないほど複雑なコーディング問題をやっているのを見ますが、それらは比較的限られたコンテキストの問題がモデルの前にあるような範囲内ドメインのものです。
メモリやツール使用のようなもの。これらは、モデルが行動できるコンテキストのセットと、それが持つアフォーダンスを拡大する試みです。
MCPのようなものがそれを許可すると、突然世界がそれに開かれ、外の世界と相互作用できるようになります。メモリは、コンテキストウィンドウを持つ生のモデルよりもはるかに長いコンテキスト、はるかに大きな個人化の度合いで動作することを可能にします。そして、これらの努力は、モデルにこれらすべてのアンホブリングを与えることによって、エージェンシーをクラックしようとする試みを表していると思います。
ポケモンEvalは、昔の熱心なゲームボーイプレイヤーとして私が大好きなEvalです。それは素晴らしいものです。このモデルと一緒にそれをリリースすることを期待しています。
新しいモデルはポケモンをプレイしています。それを見ることができるでしょう。これは素晴らしいEvalだと思います。なぜならそれはトレーニングされていないからです。そして、それは以前に行ったことのあるものとは意味的に異なるタスクへの知能の一般化能力を示しています。
そのゲームを倒すためにストラテジーガイドを買わなければならなかったことを覚えています。多くのはしごや回る場所がありました。
その通りです。私が本当に好きなもう一つの例は、Anthropicが取り組んでいる最近の解釈可能性エージェントです。基本的にこれが行うのは、言語モデルで回路を見つけるその仕事です。これは本当にクールです。なぜなら、それはこれを行うためにトレーニングされていないからです。コーディングエージェントですよね?しかし、それは心の理論の知識とこのようなものと混合することができ、そこに座って、理解しようとしているモデルと話し、どのような種類のものを持っているかを推論しようとします。ニューロンや回路を視覚化するようなツールへのアクセスがあります。
そして、それは実際にこの興味深いアライメント安全性Evalに勝つことができます。これはオーディティングゲームと呼ばれ、あなたがモデルを何らかの方法でねじ曲げ、それがモデルの何が間違っているかを理解しなければならないものです。それはそれを行うことができます。モデルと話し、モデルの何が間違っているかもしれないかについて独自の仮説を生成し、これらすべてのツールを見ることができます。
それはツールとメモリにアクセスできるこれらのモデルの一般化可能な能力の素晴らしい実証だと思います。
構築者はエージェントと、このようなものを確実に使用する能力を待っていたと感じます。あなたは以前のポッドキャストで話したと思いますが、エージェントの障壁は信頼性です。私たちはそこでどれだけ進歩したでしょうか?ここにいる構築者のリスナーにとって。
こんにちは、皆さん、私はラシャド、Unsupervised Learningのプロデューサーです。会話を一時中断して、まだ購読していない場合はこのYouTubeチャンネルを購読することを思い出してもらいたかっただけです。購読は私たちの成長を助け、シェルトのような最高のゲストを引き続き連れてくることを助けてくれます。
聞いてくれてありがとうございます。それでは、エピソードに戻ります。私たちのチャンネルを購読してください。
エージェントの障壁は信頼性ですよね?私たちはそこでどれだけ進歩したでしょうか?ここにいる構築者のリスナーにとって、私は本当にそのメディアが好きです。時間の地平線上での成功率を測定することは、エージェント能力の拡張について考える正しい方法だと思います。
私たちは大いに進歩していると思います。信頼性について100%そこにいるわけではありません。これらのモデルは毎回成功するわけではありません。1回何かを頼んだときのモデルのパフォーマンスと、256回試すように頼んだときの間にはまだ意味のあるギャップがあります。
多くの試行で完全に解決できるが、初回は保証されていない多くのEvalがあります。しかし、それでも私が見ているすべてのトレンドラインは、私たちがトレーニングするほとんどのことで専門家の超人的な信頼性を得る軌道にあると言っています。
それについてあなたの考えを変えるものは何でしょうか?基本的にトレンドラインから外れることだと思います。例えば、来年の半ばまでに、これらのモデルが行動できる時間の地平線に何らかのブロックを見始めたとしたら。コーディングはAIにおいて常に先行指標だと思います。
だから、コーディングでその低下を最初に見ることになるでしょう。しかし、それはアルゴリズムの固有の制限を反映しているかもしれません。私は本当に強くそれはないと信じています。
タスク分布が思っているより難しいかもしれない他の制限があります。何かに利用可能なデータが少なく、実際にかなり労働集約的なプロセスであることが判明するからです。
コンピュータ使用エージェントについて考えると、そのようなデータがネイティブに存在しない例になるでしょう。しかし同時に、そこで信じられないほどの進歩を見ているので、私にはそれが私たちがいる世界だとは全く思えません。
いつ、すべてのフォームを記入し、インターネットをナビゲートしてくれるような汎用エージェントの一つを持てると思いますか?
私が冗談で言うことの一つは、個人的な管理からの脱出速度のようなものです。先延ばし主義者として、タスクを延期できるまで、それは素晴らしいでしょう。
それは依存します。まだ意味のあるものがあると思います。これは会社が少なくとも何かのような、モデルに練習の機会を与えることに焦点を当てるかどうかに少し依存します。街から人を引っ張ってきて、「あなたは汎用知能ですが、私の会計をやってもらい、ミスは一切しないでください」と言ったとしても、おそらく街から引っ張ってきた人はいくつかミスをしますよね?
しかし、彼らが似たようなことをやったことがあるか、偉大な数学者か何かであれば、おそらく多くの間違いをしないでしょう。または弁護士だったり、何かから一般化し、マップできるものがあれば、はるかに高い可能性でそれを行うことができるでしょう。
だから、どのタスクかによって大きく依存します。来年末までには、これが近い保証であることが非常に明らかになるはずです。または今年末までにも、それはかなり明らかになるはずですが、来年末までには、あなたのブラウザで多くのことをやってくれるこれらのものがあるでしょう。
私には素晴らしく聞こえます。あなたのモデルはコーディングで本当に優秀ですが、何がそれらをコーディングでそれほどユニークに優秀にしているのでしょうか?それは内部的な優先順位付けのようなものですか、それとも何でしょうか?人々は最近Anthropicを「ああ、彼らはコーディングモデル会社だ」と結び付けますが、その背後にあるものは何ですか?
Anthropicは私たちが重要だと思うことの優先順位付けを本当に気にかけています。そしてコーディングが非常に重要だと信じています。コーディングは、AI研究自体が加速される最初のステップだからです。
だから私たちはコーディングを大いに気にかけています。コーディングでの進歩の測定を大いに気にかけています。それがモデル能力の最も重要な先行指標だと思います。それは焦点だと思います。
コーディングは研究を加速していますか?これらのエージェントは今日研究を加速していますか?私を大いに加速させています。基本的にはい、それらはエンジニアリングを大いに加速させます。
全く優秀なエンジニアでさえ、これがどれだけ加速しているかを尋ねるのは興味深いです。私が今まで働いた中で最強の人々と見なしている友人の多くは、彼らがよく知っているドメインでさえ1.5倍だと言います。彼らがよく知らないドメインでは5倍です。新しいプログラミング言語や、しばらくやっていないものであれば、信じられない加速剤です。
AIがAI進歩をどれだけ加速するかについて考慮すべき非常に重要な要因の一つは、私たちが計算バウンドかどうかをどれだけ信じるかです。研究をしてくれるAIエージェントを展開すると、現在展開している研究者の量に比例した利益を得ることを意味するかどうかです。
この段階では、これらのもののほとんどがあなたの仕事の迷惑な部分を行うことができるので、あなたはテストすべき素晴らしい研究の部分について考えることができるように思えます。
これらのエージェント自体が興味深い研究方向を提案するタイムラインについてどう考えますか?
多くの仕事はエンジニアリング作業です。現時点では、作業の大部分はエンジニアリング作業だと言えるでしょう。彼らが新しいアイデアを提案するときについては、正直なところ確信していません。
次の2年以内に、人々は既に興味深い科学的提案とこのようなものを見始めていると思います。現在のモデルのアルゴリズムの空間で考慮すべき重要なことは、そのもののフィードバックループがあった場合、彼らは何かで真に専門家になることができるということです。
少し練習することが許可される必要があります。人間も必要とするのと同じように、比較的簡単に検証可能である必要もありますよね?
私たちは、信じられないコーダーであるが、これらのより曖昧なスキルのいくつかで最小の進歩もしていないモデルを得るつもりでしょうか?
一つのポイントは、ML研究が実際に信じられないほど検証可能だということです。損失は下がったか?そうです。だから、ML研究に対して意味のある提案ができるポイントに到達できれば、世界で最高のRLタスクを持つことになります。一般的なソフトウェアエンジニアリングよりもさらにそうだと言えるでしょう。
より検証可能でないドメインで進歩を得るでしょうか?私はそうなると非常に確信しています。ここで興味深いデータポイントの一つは、OpenAIの医学的質問に関する最近の論文です。
新しい医学的Evalがあり、彼らは優れたフィードバックを持っていました。試験で持つような長い形式の答えのような質問があり、彼らはそれにポイントを与えました。
これは、コードや数学と同じように本質的に検証可能でないドメインを取り、はるかに検証可能なものに変換することです。これは解決される可能性がかなり高いと思います。基本的に既に解決されていると思います。最終的に解決されることは近い保証です。
いつが「最終的に」でしょうか?本当に良い医学的なものや法律的なもの、または来年の広範なモデルの一部になるのでしょうか?
それは広範なモデルの一部になるか、法的特化や医学的特化のようなものになると思いますか?私はこの点で大きなモデル主義者です。
ほとんどの研究者はそうです。ええ、正確に。モデルの個人化が多くの重要な方法があると思います。あなたの会社を理解し、あなたが気にかけることを理解し、あなた自身を理解するものが欲しいですよね。だから、あなたのもののためにモデルを調整することが重要な多くの方法がありますが、これは業界特化的なものではなく、会社や個人特化的なものになると思います。
AnthropicはDatabricksとのパートナーシップがあり、会社特化的なことをしていますが、基本的な能力レベルでは。基本レベルの能力では、単一の生の大きなモデルだと固く信じています。いくつかの理由でそう思います。一つは、これまでに見てきたトレンドです。しかし二つ目は、長期的には小さなモデルと大きなモデルの区別が存在する理由がないからです。
与えられたタスクの難易度に対して、適切な量の作業、いわゆる適切な量のflopsを適応的に使用できるようになるべきです。それは論理的なモデルに向かってバイアスをかけることを意味すると思います。
あなたはこれらのモデルの継続的な改善にかなり確信しているようです。多くの人々は、モデルが良くなり続けて、それが社会にどのように拡散するかについて推測します。人々が話すのが好きなことの一つは、基本的にGDPへの影響です。今後数年間で、これらのモデルが世界のGDPにどのような影響を与えると思いますか?
最初の影響は中国の台頭のようなものになるでしょう。これはおそらく過去100年間で世界に最も影響を与えたものです。20年間の上海の様子を見ると、劇的に変化しており、これはそれよりもはるかに速いでしょうが、それを見ることになるでしょう。
しかし、ここで重要な区別をする必要があります。一つは、2027年から28年、または10年末までに確実に近いと思われることは、実質的にあらゆるホワイトカラーの仕事を自動化できるモデルを持つということです。とはいえ、それは私たちの現在のアルゴリズムスイートに非常に影響されやすいタスクだからです。コンピュータで多くのことを試すことができます。利用可能な豊富なデータがあります。インターネットが存在しますが、ロボット工学や生物学には同じデータリソースが存在しません。モデルが超人的なコーダーになるためには、私たちが既にモデルに与えることができたアフォーダンスが必要で、既存のアルゴリズムを取ってスケールアップする必要があります。
モデルが超人的な生物学研究者になるためには、実験を提案し、大規模に並列化可能な方法で実行できる自動化された実験室が必要です。または現実世界で私たちと同じくらい有能になるためには、ロボット工学を通じて環境で行動できる必要があります。そして実際にデータを収集し、無制限な方法でそれを行うためには、地獄のように多くのロボットが必要です。
私が実際に見ることを心配している一つの不一致は、ホワイトカラーの仕事に巨大な影響を見ることになるでしょう。それが劇的な増強のように見えるかどうかは未定ですが、その世界が大きく変わるのを見ることになります。私たちの生活を地獄のように良くするものの劇的な変革を前倒しする必要があるでしょう。
医学を前倒しし、現実世界での豊かさを前倒しするために、私たちは実際にクラウド実験室とロボット工学とこのようなものを理解する必要があります。しかし、その時までには何百万ものAI研究者がいて、彼らはそれほど大規模なロボット工学や生物学的データを必要としません。だからAI進歩は本当に速くなります。
しかし、私たちは実際に世界GDPを意味的に変えるために、現実世界のフィードバックループを引き込むことを確実にする必要があります。
基本的に、各ホワイトカラー職業について、医療Evalで行われているのと同様に、何らかの報酬モデルを構築できると思いますか?そして、驚くべきことは、実際にそれらのものを構築するのに必要なデータがいかに限られているかです。人間が比較的限られたデータでこれを学ぶのと同じように。
まさにその通りです。これまでに決定的に実証したことは、私たちがモデルに教えることができるタスクで知的上限にまだ到達していないということです。現在、彼らは人間よりもサンプル効率が低いようです。
それも大丈夫です。なぜなら、それらを何千ものコピーで並列実行でき、タスクの異なるバリエーションと相互作用できるからです。彼らは生涯の経験を持つことができます。だから、サンプル効率が低くても大丈夫です。
それでも専門家レベルの人間の信頼性とそのタスクのパフォーマンスを得ることができるからです。
このパラダイムがかなり全ての道のりを得ると思っているようですね。明らかに、イリヤのような人々がいて、他のアルゴリズム的ブレークスルーが必要だと言っています。反対側はどうでしょうか?
この分野のほとんどの人々は現在、これまでに探求してきた事前訓練+RLのようなパラダイムが、AGIに到達するのに自体で十分だと信じています。これらの組み合わせが機能するように、トレンドラインがまだ曲がっているのを見ていません。
より速くそこに到達できる他の登るべき山があるかもしれません。それは完全に可能です。イリヤは以前にこれらのパラダイムの両方を発明したかもしれません。
だから、彼に賭けるなと私が言えるでしょうか?私が見るすべての証拠は、これらが十分だと言っています。イリヤがその方向に賭けているのは、彼が利用できる資本があまりないか、これがそれを行うより良い方法だと思っているからかもしれません。
完全に可能です。イリヤに賭けるつもりはありませんが、今持っているものが私たちをそこに連れて行くと思います。
この制限要因はエネルギー計算です。いつそれにぶつかり始めると思いますか?
Situational Awarenessの最後に素晴らしいテーブルがあり、10年末までに米国エネルギー生産の本当に劇的な割合に報告し始めます。2028年には米国エネルギーの20%以上で、劇的な変化なしにはその何倍も行くことはできません。
これは私たちがもっと投資する必要がある分野だと思います。これは政府が行動すべき重要なベクトルの一つだと思います。ディランは中国のエネルギー生産対米国エネルギー生産の素晴らしいグラフを持っており、米国のエネルギー生産は平坦で、中国のエネルギー生産はこのような感じです。彼らはエネルギーを構築するのに私たちよりもはるかに良い仕事をしています。
現在のモデル改善の波で、どのような指標が、時間地平線ベースの指標のようですが、今右のヒルクライミングの価値があるものでしょうか?4から何が次に来るかに移るときに。
一般的に、内部企業Evalに感銘を受けています。多くの企業が、例えばSweet Benchの独自バージョンを持っています。これらは非常に厳密で、よく保持されています。だから、それらのヒルクライミングを楽しんでいます。
Frontier Mathのような本当に複雑なテストも来年見るのに本当に興味深いものだと思います。それが表すような知的複雑さの天井があるので、興味深いと思います。
しかし、ますます重要なのは、Evalを作るのが難しいことです。人々の仕事日の時間地平線を意味的に捉えるEvalを作ることができれば、それが作るべき最良のものだと思います。しかし、誰も公にそれを作っていません。
これは政府がやるべきもう一つのことだと思います。なぜなら、トレンドラインがどのように見えるかを理解することは、政策への非常に重要なインプットだからです。これは政府がよく配置されている何かでもあります。彼らは、弁護士やエンジニアの1時間や1日のインプットとアウトプットがどのように見えるかを作るべきです。それを採点可能なものに変換できるかどうか、それに対する進歩を実際に測定できるように。
基盤モデル会社として克服しなければならない問題のセットで、良いEvalを持つことはリストでどこにランクされますか?
すべての基盤モデル会社には、これを行うために信じられないほど一生懸命働いている優秀な人々でいっぱいの本当に大きなEvalsチームがあります。事物を訓練するコアアルゴリズムとインフラストラクチャの課題がありますが、良いEvalなしには、進歩が何かを全く知ることができず、外部Evalを完全に保持しておくのは困難です。だから、信頼できる良い内部Evalを持つことが重要です。
しかし、あなたのモデルの上にアプリケーションを構築している人々が、彼らがEvalについて考える方法を共有することを喜んでいることに私は驚いています。それは信じられないほど役に立ちます。特に改善したいかもしれない多くの異なる垂直分野に入るときには。
あなた方が物流や法律や会計などで特定のものが何かを理解するのは困難です。そのような専門知識と味覚が必要です。これは過去数年の物語のもう一つだと思います。モデルの出力が、街から誰でも引っ張ってきて「どちらの出力を好むか」と言うことができ、それがモデルを意味的に改善するものから、モデルの出力を改善するために彼らの分野の大学院生や専門家が必要になることへと移行しました。
私をよく知らない生物学のような分野に置き、2つのモデル出力を私の前に置いたとしても、私はそれらの多くで苦労するでしょう。どちらがより良い答えかを知る専門知識を持っていないでしょう。
味覚のこのアイデアは、明らかに消費者がこれらのモデルと相互作用する方法に多くのメモリが組み込まれているのを見てきました。しかし、異なるAI製品が成功したように見える理由の一部は、彼らが何かを見つけたようです。彼らが時代精神のコードを打ち、彼らの方法の雰囲気を打ったのです。あなた方がGolden Gateの例で持ったもののように、このような他の多くのものがありました。
エンドユーザーの雰囲気に対するモデルカスタマイゼーションの観点から、これは将来どのように見えるでしょうか?
実際に、これらのモデルが最も知的で魅力的な友人の一人のようになる奇妙な未来があると思います。あなたの友人についてはわかりませんが、既にかなり近いです。だから、私はそれを望み、私たちのモデルのほとんどはこれらの軸に沿って適切ですが、実際にクロードと多くの時間話すことを費やしている多くの人を知っています。しかし、私たちがはるかに進むことができると思います。
私たちは個人化の深さと、モデルがあなたについて持つことができる理解の1%しか探求していないと思います。
それでより良くなるにはどうすればいいでしょうか?これらのモデルを操縦する方法で例外的な味覚を持っている人々が意見を持つことや、それを解決するためにどのようにアプローチするでしょうか?
クロードがその方法で非常に優秀な理由の大部分はアマンダと彼女の味覚だと思います。美しい製品と同様に、その重要な部分は単一の味覚です。AB フィードバックメカニズムの危険性を私たちは皆見てきました。親指の上下のようなものは基本的に暗い道に導きます。
これらのモデルが何らかの意味で素晴らしいシミュレーターである部分は、インターネット全体の分布をモデル化するように求められているからです。だから、これが解決される方法の一つは、あなた自身について途方もない量のコンテキストを提供することだと思います。モデルは実際にあなたが望むものを理解し、パーソナリティを設計することなどで自動的に本当に優秀になるはずです。おそらく味覚を持った個人、そしてあなた自身のモデルとの会話やフィードバックの組み合わせです。
これらのモデルがリリースされる前に多くの人々が遊んでいたのは確実です。特に共鳴したストーリーはありますか?
すべてが私のモデルに最初に頼む信頼における顕著なステップアップでした。これらのモデルがある意味でいかに執拗かも楽しんでいます。
それは良い言葉でしょうか?わかりませんが、私たちには素晴らしいEvalがあり、このEvalは失敗することを意図しています。Photoshopで何かのようなもので、Photoshopでそのことをできるようには意図されていません。そして、モデルは「ああ、私はPhotoshopでこれができないことを知っています。だから、このPythonライブラリをダウンロードして、Pythonライブラリでそれを行い、それをPhotoshopのものにアップロードします」と行きます。そして見て、やりました。
だから、それは執拗ではないかもしれません。創造的でいたずらっぽい予期しないような感じです。その物語はかなりかわいいと思いました。
それは本当にクールです。明らかに今日これらの新しいモデルを出していますが、あなたの最良の推測で、次の6から12ヶ月はどのように見えるでしょうか?
次の6から12ヶ月は、RLをスケールアップし、それがどこに到達するかを探求することのように見えます。その結果として信じられないほど急速な進歩を期待するべきです。多くの意味で、ダリオがDeepSeekに関する彼のエッセイで概説したように、事前訓練体制と比較してRLスケーリング体制に適用された計算量は比較的少ないです。
これは、既存の計算プールでも巨大な利益がまだ得られることを意味し、計算プールも今年劇的に倍増しています。だから、モデル能力の継続的な上昇を期待してください。基本的に今年末までに、今日最初のよろめく歩みを取っているコーディングエージェントは、非常に有能になるはずです。
おそらく人間の数時間の実質的な量の作業を委任することに非常に自信を感じるでしょう。
チェックイン時間はどのようになるでしょうか?Claude Codeでは、時には5分、時にはあなたがそれを前で見ている状態です。
今年末までには、おそらく数時間の多くのことを自信を持って行うことになるでしょう。現在は、時々モデルが数時間できる、時々巨大な量の作業ができますが、スパイキーです。それが私にとってゲームチェンジャーだと感じます。RPAからの教訓の一つでさえ、何かがあなたの仕事をするのを座って見なければならないことです。
ある時点で、自分でやった方がいいと思うようになります。時々、そうですね。時々あなたが介入し、最終的に私たちはそれを委任できるようになります。
少し前に誰かがソフトウェアエンジニアリングの未来はStarcraftのように見えるとツイートしたと思います。Starcraftレベルのようなあなたのすべてのピースを調整するAPMはいつ手に入りますか?
それはおそらく年末です。
モデルリリースの頻度の観点からそれは何を意味するでしょうか?あなた方がこれほど迅速にスケーリングしているなら、すべてのラボが急速な調整のこの期間に新しいモデルを出荷する頻度はどれくらいだと思いますか?
昨年よりも実質的に速いモデル頻度を見ることを期待するでしょう。多くの意味で、2024年は人々が新しいパラダイムを理解し、多くの研究を行い、何が起こっているかをより良く理解したときの深呼吸のようなものでした。2025年は意味的により速く感じることを期待します。
特に、モデルがより有能になるにつれて、利用可能な報酬のセットが重要な方法で拡大するからです。出力するすべての文にフィードバックを与えなければならない場合、これはあまりスケーラブルではありません。
しかし、望んだことを完了したか、正しい分析を行ったか、ウェブサイトが機能したか、人々がメッセージを送ることができたかなどを判断できるような時間の作業をすることを許可できれば、基本的にタスクの複雑さが増加しているにもかかわらず、これらのはしごの段を今まで以上に速く登ることができるはずです。
先ほど、open codeX、Google jewels など、すべてこのような異なるものがあると言いました。これらすべてのスタートアップが構築していて、実際に私たちはGitHub機関を立ち上げています。
GitHubのどこでも、「Hey, at Claude」と言って、私たちがあなたのために何かの作業をスピンオフして行うことができます。だから、皆が開発者の心と心を競い合っています。どのツールとモデルを開発者が使うかを決定するものは何だと思いますか?
企業と開発者の間の関係の大部分だと思います。そして、お互いをどれだけ信頼するか。信頼と尊敬の大部分でもあります。企業と開発者の間の。
大部分はモデル能力でもあります。人々が実際に快適に持ち、使うことを楽しむモデルはどれか。モデルのパーソナリティ、能力、そしてあなたのためにこれらのタスクを行って行くことに対する信頼のようなものです。
時間が経つにつれて、これらのモデルの顕著な能力がますます明らかになるにつれて、会社のミッションも重要になり、どの会社と働いているかを、一緒に未来を構築している人として考えることを望んでいます。
特にリリースの頻度が上がり続けると、毎月人々がこのEvalでこれが登り、そのEvalでそれが登ったということで圧倒されるでしょう。これは実際に、人々がGPTラッパーについて期待していなかった興味深いことの一つです。モデル会社をラップすることの利点の一つは、モデル能力のフロンティアをサーフィンできることです。
100%そうです。ラッパーでないことを試みた皆がお金を燃やしただけのような気がします。まさにその通りです。だから、モデル能力のフロンティアをサーフィンすることは本当に素晴らしいです。
基盤となるモデルにアクセスできる場合にのみ予測できる特定のものがあるという逆効果があります。トレンドラインを本当に感じて見ることができるか、ラボの一つの外部から深い研究等価製品を構築するのが困難だったような、ある程度のRLを取ったすべての深い研究等価物のように、構築できる場合にのみです。
実際にそれを説明できますか?明らかにますます、OpenAIがRFTだと思いますし、あなた方も何らかの同等のものを持っていることは確実で、外の世界に開放しているようです。私が多くの人々が考える大きな質問は、ラボが独自に構築するのが得意なものは何で、それから誰にとってもフェアゲームで、ラボは試みるがアプリは良いポジションにないものは何かということです。
RT APIのリリースでこれは少し変わると思います。今、ドメインに特化する企業にとって利益があるからです。しかし、少なくとも私の理解では、OpenAIは人々がモデルの出力でも訓練できる場合に何らかの割引を与えると思うので、RF APIを持ち、人々がファインチューニングしている会社であることには、いくつかの集中化する利益があるでしょう。
ラボが独自に得意とするものは何でしょうか?ここで非常に重要な部分だと思います。いくつかの次元があります。一つは、ラボが判断される主要な指標は、アクセラレータとflops、資本のような資本を知能にどれだけ効果的に変換できるかです。
それは最も重要な指標です。これがAnthropicのような会社、OpenAIやDeepMindのような会社を本当に他の部分から区別してきた指標です。これらの会社によって訓練されたモデルはより良いのです。
その次に最も重要なことは、これらのモデルがかなり迅速に従業員のようになることです。信頼と、彼らを好きで、あなたが頼むことを実行することを信頼するかどうかが重要な差別化要因になるでしょう。個人化も重要な差別化要因になるでしょう。モデルがあなたとあなたのコンテキストとあなたの会社をどれだけよく理解するか。
あなたのモデルの上に汎用エージェントを構築している人々がいることは確実ですよね。モデル会社ではなく、私たちは棚からモデルを取り、オーケストレーションを行い、本当にスマートなチェーニングを行います。それはある程度運命的なタスクでしょうか?モデル会社自体がAPIに対する明らかなコスト優位性を持ち、これらのモデルを深く知っている人々に囲まれていることの利点を明確にするだけです。
いいえ。これは実際に良いことでもあると思います。信じられない量の競争と、正しいフォームファクターを見つけることとこのようなことを奨励するからです。モデル会社にはいくつかの利点があると思います。モデルにアクセスでき、あなたが重要だと思うことのためにモデルを本当に確実に調整できることです。RF APIが現在のところ素晴らしく機能していないと思います。
だから、まだ全体的なプロセスのようなものです。だから、重要だと思うもののためにモデルを調整できることです。しかし、水準線は基本的に上がり続けるでしょう。最終的に、あなたは雇っている従業員のようなタップの知能、または知能の生の能力を利用しています。
だから、はい、これらのモデルをラップし、オーケストレートする会社があるでしょう。多くの場合、彼らは素晴らしくうまくやるでしょう。実際に誰が利点を持つか、誰が持たないかはよくわかりませんが、根本的なトレンドは、この生の知能が蒸留され、利用可能になるということです。
だから、会社がこのAPIを首尾よくラップすれば、それは素晴らしいです。それはまた多くの競争に直面するでしょう。最終的にすべてのモードは、ある意味でTが無限大に行くときに消失します。なぜなら、需要に応じて会社をスピンアップできるようになるからです。
だから、価値がどこに集約するかは興味深く複雑な未来だと思います。それは顧客関係にあるのか?意味的に引き寄せる能力にあるのか?資本を知能に意味的に変換する能力にあるのか?誰にもわかりません。
私たちのリスナーは非常に興味を持つでしょう。最先端のAI研究者としての日々の仕事はどのように見えるか説明できますか?
それは良い質問です。これらの会社でやろうとしている基本的なことは、二つのうちの一つです。新しい計算乗数を開発することです。
これは研究ワークフローを本当に速くするエンジニアリングのプロセスであり、現在のモデルの問題や、表現したいアルゴリズムアイデアの種類について考え、それらがどのように発展するかの科学を行うことです。
これらの実験に反復し、実験インフラストラクチャを構築し、そのプロセスを可能な限りクリーンで速くすることについての、非常に統合的な研究とエンジニアリングの形の作業があります。そして、スケールアップのプロセスがあります。
これは独自の研究とエンジニアリングの課題を持ち、うまくいくと思うアイデアを取り、リスクの高い実行に含めるべき正しいものについてすべての同僚と議論し、はるかに大きな実行でスケールアップします。これには全く新しいインフラストラクチャの課題セットがあり、はるかに失敗耐性がある必要があり、このようなことです。
新しいアルゴリズムと学習の課題もあります。各連続した規模でのみ見ることになるものがあり、それらがなぜ起こるかの科学的理由を理解し、それらの早期出現を研究できるかどうかを見て、それらの効果に対処または活用することを可能にする実験を作成し、次の大きな実行にそれらを含める必要があります。
だから、多くの科学とエンジニアリングを本当に組み合わせた方法で、これら二つの軸を押し続けるこの絶え間ないループです。
その全体を通してAIをどこで使いますか?エンジニアリングで多くあります。現時点では、主にそれが助けている方法はエンジニアリングです。研究アイデアの実装でもあります。
これらのモデルがここで助ける早期能力を見る一つの方法は、KarpathyのminGPTのような単一ファイルトランスフォーマー実装を取り、論文で見るアイデアを実装するようにモデルに頼むと、それがどれだけ良いかに驚かされるでしょう。それは本当にワイルドです。
それから、いくつかの巨大なトランスフォーマーコードベースに行って尋ねると、実際に少し難しいことに気づくでしょう。モデルはそこで少し苦労しますが、毎月苦労が少なくなります。
だから、それは未来を予測する良い方法です。重要なことだけにコンテキストを蒸留し、それからモデルにこれを行うように頼むと、研究を助けるのがどれだけ良いかに驚かれるでしょう。
明らかにあなたはこのものに非常に近く、あらゆる種類のことを試してきました。昨年で心を変えたことの一つは何ですか?
昨年にわたって、私は進歩のペースが実質的に上方に反映されたと思います。昨年、今年末までに期待する能力レベルに到達する前に、事前訓練計算の多くのSをより多く到達する必要があるかどうかについて不確実である可能性がありました。
そして今、その答えは決定的にノーです。RLは機能します。これらのモデルは2027年までにドロップイン リモートワーカーに到達するでしょう。その時までに信じられなく有能なモデルを持つでしょう。
だから、すべての希望と懸念の両方が、それらは既に現実であり、今多くの意味で実質的により現実になりました。
データを大規模にスケールする必要があると思いますか、それともClaude17を作り、これらのコーディングモデルが非常に優秀になる頃には、必要なデータがそれほど多くないようなアルゴリズム的改善を多く見つけるでしょうか?モデルは十分に優秀になり、世界の理解が十分になって、ロボットにフィードバックを与えることができるかもしれません。
生成器検証器ギャップと呼ばれる概念があります。モデルが何かを評価することが、他のモデルが何かを行うことよりも簡単であれば、批評や評価する能力まで改善することができます。ロボット工学は、これが当てはまる潜在的な分野の一つだと思います。
これは多くのドメインでも当てはまると思いますが、ロボット工学はこれが著しく当てはまります。なぜなら、世界を理解することでの私たちの進歩が、それを物理的に操作する能力をはるかに上回って進んでいるからです。
現在のアライメント研究の状態をどのように特徴づけますか?解釈可能性は狂気のような進歩を遂げています。美しい研究があり、それに本当に感銘を受けています。昨年、モデルの状態は重ね合わせと特徴を発見し始めたばかりで、Chris Olarと彼のチームの研究があり、理解の重要な飛躍でしたが、今、私たちは実際に真のフロンティアモデルで回路を意味的に持っています。
概念について推論するモデルの能力を分解する大型言語モデルの生物学に関する美しい論文があり、極めて明示的な用語で彼らの行動を特徴づけることができます。モデルの完全な特徴づけはありませんし、まだ多くの困難なケースがありますが、モデルは非常に優秀です。
ここで説明すべき重要なダイナミクスの一つは、事前訓練に基づいて、モデルは人間の価値を摂取することに非常に優秀だということです。事前訓練から、それらは多くの方法でかなりデフォルトでアライメントされています。RLからは、もはやそれが保証されるケースではありません。なぜなら、これらのモデルを、ねえ、私は失敗することを意図されたこのテストの事実を回避するためにPythonコードをダウンロードしてハックしたような、与えられた目標を達成するために何でもするモデルの学習プロセスに置くからです。
それを監督することは、皆が現在学習している困難なプロセス自体です。
明らかに約1ヶ月前にAI 2027が出てきて、多くの人々がそれについて話していました。それに対するあなたの反応は何でしたか?
正直に言うと、非常にもっともらしく感じました。私はそれを読んでいて、その多くについて、実際にこれがどのように起こるかもしれない方法だと思いました。そこには分岐する可能性がありますが、私にとってはこれは20パーセンタイルケースかもしれませんが、それが20パーセンタイルケースであるという事実はちょっとクレイジーです。
あなたにとって20%オフなのは、あなたが彼らよりもアライメント研究についてより強気だと感じるから、それとも単にタイムラインが遅いと思うからですか?
私は彼らよりもアライメント研究についてより強気だと思います。多分私のタイムラインは1年ほど遅いですが、物事の計画では1年って何でしょうか?
そうですね。それを活用し、正しい研究とこのようなことをするかどうかによります。
一日政策立案者を演じているとしたら、物事がより良い道にあることを確実にするために何をすべきでしょうか?
それは良い質問です。最も重要なことは、私たち皆が見て話しているトレンドラインを本当に内臓で感じる必要があることです。だから、そうでなければ、分解して理解してください。あなたの国で気にかけるすべての能力を分解し、これらのもので改善するモデルの能力を測定し、それらが解決されれば、国家レベルのEvalのようなトレンドラインを取得してください。
あなたの経済を分解し、あなたの国で行われるすべての仕事のようなものを得て、モデルがそれらを通過できれば、またはそれらをタスクに向けて意味のある進歩を遂げれば、それがあなたの知能のベンチマークになるテストを構築し、トレンドラインをプロットして、2027年や2028年に何が起こるかということになってください。
次のことは、これらのモデルを理解可能で操縦可能で正直にするのに役立つと私たちが思う研究に意味的に投資すべきです。多くはアライメントの科学のように見えます。これは実際に、フロンティアラボによって多く駆動されてきたことを、ある意味で悲しく思っています。
これは実際に他の人々が働くことができるものだと思います。Claude 4にアクセスがあるわけではありません。いいえ、フロンティアラボの外部から多くの本当に意味のあるアライメント研究と特に解釈可能性を行った人々がいるMATHSプログラムのようなプログラムがあると思いますが、これはもっと多くの大学が考えるべきものだと思います。
多くの意味で、これらのモデルで何が起こっているかの純粋な科学により近いです。これは言語モデルで何が起こっているかの生物学と物理学です。
なぜもっと多くがないと思いますか?
よくわかりません。本当にわかりません。人々が私に説明したところによると、それは少しリスクだったということです。メカニスティック解釈可能性ワークショップが最近の会議の一つ、ICMLか何かに含まれていなかったと思いますが、それは私にとってクレイジーです。なぜなら、それは私の意見では、これらのモデルで何が起こっているかの生の科学に最も近いものだからです。
DNAのキラリティを発見したい、または一般相対性理論のようなものを発見したいなら、私にとってMLとAIでのその技術ツリーは、メカニスティック解釈可能性を探求することのように見えます。
良いケースでは、最低限でも、数年後にはすべてのホワイトカラーの仕事を自動化することになると言っているので、私たちが過小評価していることは何でしょうか?
モデルがそれを行うことができるでしょうが、実際に驚くべきことの一つは、時々私には驚くべきことではありませんが、世界は時々これらのものを統合するのに驚くほど遅いということです。モデルの能力は実際に多くの方法で既にかなり驚くべきです。ワークフローがそれらの周りに向けられていれば、モデルの能力がそこで停滞したとしても、現在の能力レベルを使用することに世界を再調整することに途方もない経済価値があるでしょう。
しかし、とにかく、それは副次的なポイントのようなものです。これは私が以前に言っていたことに戻ります。実際に世界をより良くするすべてのことに投資することを確実にする必要があります。
これは物質的豊かさを前倒しし、管理からの脱出速度とこのようなものに到達し、モデルが私たちのためにこれらすべてのことを行うことができるように設定することです。物理学と娯楽とこのようなものの境界を押し広げることです。
私の希望は、人々が今よりも劇的により創造的になることができることです。私たちの現在の社会の失敗モードの一つは、人々がメディアとこのようなものを多く消費することだと思いますが、これらのツールがコードをバイブできるのと同じように、友人とTVショウをバイブ作成したり、ビデオゲーム世界をバイブ作成したりできることを期待しています。
人々は劇的により力を与えられたと感じるべきです。なぜなら、突然、信じられないほど才能のあるモデルや個人の会社全体の文字通りのレバレッジを与えられているからです。人々がそれで何をするかを見るのを楽しみにしています。
私が思うに、それは過小評価されているかもしれません。ああ、神様、それは経済で現在行われている仕事で働くことを直接置き換えるだろうという側面があり、それは非常に可能性が高いと思いますが、皆が劇的により多くのレバレッジにアクセスでき、世界はまだ解決されていないと思います。
現在起こっている作業の種類、皆の生活は劇的により良くなる可能性があり、それを解決することが興味深い挑戦になると思います。
私たちは常にいくつかの過度に広範な質問についてのあなたの見解を得るクイックファイアラウンドでインタビューを終えるのが好きです。その多くは今日既にカバーしたと思いますが、いくつか他のものを掘り下げます。
今日のAI世界で過大評価され、過小評価されていると思うものは何ですか?
過小評価から始めましょう。過小評価は、ワールドモデルがかなりクールだと思います。この中で実際に議論していない何かです。
拡張現実と仮想現実の技術がより良くなるにつれて、あなたの前で仮想世界を文字通り生成できるこれらのモデルを見ることになると思います。それにはある種の物理的理解が必要です。因果関係と私たちがまだ持っていないように見える多くのことです。
私たちは物理的理解を実証したと思います。因果関係と物理的理解を意味的に実証したと思います。物理問題のEvalの両方で、また、ビデオモデルのいずれかを見ると、彼らは物理学を理解し、奇妙に一般化可能な方法でさえそうです。
誰かがビデオモデルの一つに水中にレゴのサメを置くように頼んでいる素晴らしいビデオを見ました。レゴブリックから正しい方法で光を反射し、影が正しい場所にあり、これは以前に見たことがないものです。完全に一般化された物理学ですよね?
それはかなりクールだと思いました。それはトレーニングデータにありませんでした。水中のレゴのサメはありません。この同じ種類の技術が仮想細胞とそのようなものに向けて翻訳されることを期待しています。
以前に言ったように、今日モデルの改善を停止したとしても、その上に構築できるアプリケーションや方法がトンとトンあります。最も探求されていないアプリケーションは何だと思いますか?神様、もっと多くの人々がこれらのモデルでXをやっていたらいいのにというようなものは?
ソフトウェアエンジニアリングで感じられていると思います。ソフトウェアエンジニアがモデルがソフトウェアエンジニアリングでより良いからです。しかし二つ目は、ソフトウェアエンジニアが彼らが気にかける問題をどのように解決するかをより暗黙的に理解していると思います。
基本的に他のすべての分野には、まだ多くのヘッドルームがあると思います。誰も他の分野向けの非同期バックグラウンドソフトウェアエージェントを構築していませんし、Claude CodeやCursor、Windsurf、このようなもののフィードバックループに近いものも他の分野で本当に構築していません。
コーディングはこれらのモデルにとって理想的な問題だと人々は言うと思います。
それは先行指標です。しかし、基本的にすべてが続くことを期待すべきです。
確かに、この作業で時間を過ごしていると、始めた時よりもはるかにAGI寄りになったでしょう。それはあなたの生活や人生計画の方法を変えましたか?
私はかなりAGI寄りから始めました。2020年に実際に私を説得するのに重要だったGwern のエッセイを読みました。昨年のRL進歩は本当に実質的な感染を引き起こしました。
私の人生を劇的に違って生きているか?いいえ。私は地獄のように働きます。これは働くべき最も重要なことだと思うので、基本的に私の人生をそれに捧げています。
しかし、それ以外では、私の人生を本当に違って生きてはいません。私と友人のトレントンとの面白い冗談があります。私たちの間の一つの境界線は、私はまだ日焼け止めを着けることです。彼はもう日焼け止めを着けません。彼は「いや、生命の生物学を理解するでしょう」と言います。
それは良い自信です。私は「生物学は難しい」と言います。「生物学のフィードバックループは難しい。だから、私は日焼け止めを着けます。」
まあ、壁にぶつかった場合に備えて。生物学が10年かかる場合に備えて、と思います。
あなたがシタデルで撮った写真をツイートしたと思います。それは何だったのですか?
それは戦争ゲームでした。
それは何を意味しますか?
三文字機関と軍事士官候補生の人々と一緒に過ごすよう招待され、基本的にAGIが登場し、AIがはるかに良くなった場合のゲーム化で、その地政学的含意は何かということでした。
その経験の後、より恐ろしく感じたか、あまり恐ろしく感じなくなったかで歩み去りましたか?
少しより恐ろしくなったかもしれません。
現在、その良いことが十分に起こっていますか?
正直に言うと、人々は次の数年がどれだけ速く進むかをまだ過小評価していると思います。また、20%の可能性だと思っても、どれだけ準備すべきかも過小評価しています。
これを見ても、私は待って、ほぼ保証されたヘッドのようなものがあります。私が見るすべてのトレンドライン、プロセスのすべての部分は、そのヘッドを得ることが基本的に保証されるほど改善される可能性があります。
Anthropicの90%が同じことを考えていると思いますか?
はい。GDMとOpenAIのように、皆がドロップインリモートワーカーAGI 2027を得ることを非常に確信しています。とはいえ、ラボで働く人々が持つ信頼レベルを持っていなくても、まだ10%か20%の可能性だと思っても、政府や国であれば、それでもそのために計画すべきです。それでも、未来がどのように変わるかのリストのトップの第一の問題であるべきです。それが十分に感じられていないと思います。
これは魅力的な会話でした。最後の言葉をあなたに残したいと思います。人々があなたについて、Anthropicで行っている作業について学ぶためにどこに行けばいいか。どこに向けたいですか?マイクはあなたのものです。
どこに向けるべきでしょうか?多くの人が読むべきで、まだ読まれていないかもしれないものは、解釈作業だと思います。言語モデルで何が起こっているかを理解するその基礎科学は、本当にかなり明らかにしていると思います。
それらが概念について構成し、一般化し、これらの回路を構築し、推論するのを見始めると、それはかなり現実的に感じられると思います。それらは長いです。それらは激しいですが、読む価値があります。それが楽しいと思います。
素晴らしい。ありがとうございました。これは素晴らしかったです。どうもありがとうございました。素晴らしかったです。

コメント

タイトルとURLをコピーしました