2026年のAIの現状:LLM、コーディング、スケーリング法則、中国、エージェント、GPU、AGI

レックス・フリードマン、LexFridman
この記事は約209分で読めます。

本エピソードは、2026年初頭におけるAI技術の最新状況について、機械学習研究者のセバスチャン・ラシュカとネイサン・ランバートが詳細に語る議論である。DeepSeekの登場がもたらした衝撃から始まり、米国と中国のAI企業間の競争、オープンウェイトモデルの台頭、そしてスケーリング法則の現状まで幅広くカバーする。特に注目すべきは、Claude Opusのコーディング能力への熱狂、中国企業による高性能オープンモデルの相次ぐリリース、そして推論時スケーリングやRLVRといった新しいパラダイムが実用的な能力向上をもたらしている点である。技術的詳細に踏み込みながらも、実際の使用例や個人的な経験を交えることで、AI分野の最前線で何が起きているのかを立体的に描き出している。

State of AI in 2026: LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI | Lex Fridman Podcast #490
Nathan Lambert and Sebastian Raschka are machine learning researchers, engineers, and educators. Nathan is the post-trai...
  1. AIの最先端をめぐる対話
  2. DeepSeekモーメントから見るAI競争
  3. モデル選択と利用体験
  4. 研究者と教育者としての実績
  5. オープンLLMモデルの展望
  6. アーキテクチャの進化とスケーリング法則
  7. 効率的な訓練とスケーリングの課題
  8. 事前学習、中間学習、ポスト学習の定義
  9. データ品質の重要性
  10. 著作権問題とデータ取得
  11. AIと人間の心理的影響
  12. 開発者調査とAIの楽しさ
  13. ポスト学習とRLVR
  14. ポスト学習のレシピ
  15. AIと教育について
  16. LLMの仕組みを学ぶ最良の方法
  17. RLHF研究の課題と機会
  18. ポストトレーニングの重要な概念
  19. 教育における苦労の価値
  20. キャラクタートレーニングと研究への貢献
  21. 研究キャリアの選択肢
  22. アカデミアと産業界の比較
  23. シリコンバレーの文化とバブル
  24. テキスト拡散モデルの可能性
  25. ツール使用の未来
  26. 継続学習の重要性
  27. コンテキスト長の拡張
  28. ロボティクスとワールドモデル
  29. AGIとASIへのタイムライン
  30. AGIの定義とリモートワーカー代替論
  31. コーディング自動化の現実性と課題
  32. 現在の技術力と企業投資
  33. LLMによるコーディング革命の展望
  34. プログラマーの懐疑論と実装の複雑性
  35. 科学分野への応用とスタートアップの挑戦
  36. 経済的インパクトとGDP成長
  37. AGI実現に必要な新しいアイデア
  38. 人類知識へのアクセスという革命
  39. 広告モデルと企業買収の可能性
  40. MetaとオープンソースAIの未来
  41. NVIDIAの優位性と競争環境
  42. 歴史における個人の役割
  43. 技術的特異点へ向けた画期的進歩
  44. 人間らしさの価値

AIの最先端をめぐる対話

これからお届けするのは、人工知能の最先端に関する対話です。過去1年間に起きたAIにおけるエキサイティングな技術的ブレークスルーや発展、そしてこれから訪れる年に起こりうる興味深い事柄について話し合います。

時には非常に技術的な内容になりますが、専門外の方々にもアクセスしやすい形で、決して内容を薄めることなくお伝えするよう心がけています。AIコミュニティで私が最も敬愛する二人、セバスチャン・ラシュカとネイサン・ランバートとこのようなエピソードをお届けできることは、大きな名誉であり喜びです。

お二人とも広く尊敬されている機械学習の研究者であり、エンジニアであると同時に、優れたコミュニケーター、教育者、ライター、そしてXへの投稿者でもあります。セバスチャンは、初心者から専門家まで幅広くお勧めできる2冊の本の著者です。1冊目は「大規模言語モデルをゼロから構築する」、そして「推論モデルをゼロから構築する」です。私は機械学習やコンピュータサイエンスの世界において、何かを学び理解する最良の方法は、それを自分でゼロから構築することだと心から信じています。

ネイサンはアレン人工知能研究所の事後学習リードであり、「人間のフィードバックからの強化学習」に関する決定版とも言える本の著者です。お二人ともXのアカウントやSubstackが素晴らしく、セバスチャンはYouTubeにコースを、ネイサンはポッドキャストを持っています。皆さんはぜひそれらすべてをフォローすべきです。これはLex Fridmanポッドキャストです。

サポートしていただける方は、説明欄のスポンサーをご確認ください。そこには私への連絡方法、質問の送り方、フィードバックの方法などへのリンクもあります。それでは親愛なる友人の皆さん、セバスチャン・ラシュカとネイサン・ランバートをお迎えします。

DeepSeekモーメントから見るAI競争

これらすべてを見る上で有用なレンズの一つは、いわゆるDeepSeekモーメントだと思います。これは2025年初頭に起こりました。オープンウェイトの中国企業DeepSeekがDeepSeek-R1をリリースした時のことです。最先端に近いパフォーマンスを、噂では遥かに少ない計算量で遥かに安価に実現したことで、皆を驚かせたと言っても過言ではないでしょう。

そしてその時から今日まで、AI競争は研究レベルでも製品レベルでも狂気じみたものになっています。ただ加速し続けています。今日はこれらすべてについて議論しましょう。もしできるなら、いくつかの刺激的な質問から始めましょうか。国際レベルで誰が勝っているのでしょうか?中国の企業群でしょうか、それとも米国の企業群でしょうか?セバスチャン、ネイサン、お会いできて嬉しいです。

セバスチャン、誰が勝っていると思いますか?

勝利というのは非常に広い言葉ですね。あなたがDeepSeekモーメントに言及されましたが、DeepSeekは間違いなくオープンウェイトモデルに取り組む人々の心を掴んでいます。なぜなら彼らはこれらをオープンモデルとして共有しているからです。勝利には複数の時間軸があると思います。今日、来年、そして10年後。一つ確かなことは、2026年の現在、他社がアクセスできない技術にアクセスできる企業は存在しないだろうということです。それは主に、研究者たちが頻繁に仕事を変え、研究室を変え、ローテーションしているからです。

ですから、技術へのアクセスという点で明確な勝者が出るとは思いません。しかし、差別化要因となるのは予算とハードウェアの制約だと思います。アイデアは独占的なものにはならないでしょうが、それらを実装するために必要なリソースは独占的になりうる。ですから現時点では、勝者総取りのシナリオは見えません。今のところそれは見えませんね。

ネイサン、どう思いますか?

各研究所が何をしようとしているかによって、投入するエネルギーが異なるのが見えます。この録音をしている時点を区切るために言うと、AnthropicのClaude 3.5 Opusモデルへの熱狂は絶対的に狂気じみたものでした。つまり、私はこの数週間でそれを使って何かを構築しましたが、ほとんどミームのような感じになるほどの誇大宣伝になっています。興味深いのは、これが非常にオーガニックだということです。そして数ヶ月前を振り返ると、GoogleのGemini 1.5がリリースされた日付とノートが見えます。そのリリースのマーケティングやワオ要素は非常に高かったように見えました。

しかし10月末にClaude 3.5 Opusがリリースされ、誇大宣伝は成長してきましたが、Geminiはこれより前でした。そしてGeminiが出た時は皆が「これはGoogleのAIにおける構造的優位性を取り戻す瞬間だ」と言っていたにもかかわらず、人々はあまり話題にしていないような気がします。Geminiは素晴らしいモデルで、私は今でも使っています。ただ差別化が低いのです。

セバスチャンに同意します。あなたが言ったように、これらすべてにおいてアイデア空間は非常に流動的ですが、文化的にAnthropicはコードに非常に賭けていることで知られています。これがClaude Codeのことです。そして今のところ彼らにとってうまくいっています。ですから、アイデアがかなり自由に流れるとしても、これの多くは人的努力と組織の文化によってボトルネックになっており、Anthropicは少なくとも最も混沌としていない存在として提示されているように見えます。

しばらくの間それを続けられれば、それは少し有利です。しかし一方で、中国からはDeepSeekだけではなく、はるかに多くの研究所がある技術がたくさんあります。DeepSeekは中国国内で運動を開始しました。ChatGPTが米国で運動を開始したのと似ていると言えます。すべてがチャットボットを持つようになったように。

今、中国には非常に強力な最先端オープンウェイトモデルをリリースしている技術企業が大量にあります。私はDeepSeekが中国における卓越したオープンモデルメーカーとしての王冠を失いつつあると言えるほどです。Zhipu AIのGLMモデル、MiniMaxのモデル、Kimi Moonshot、特にこの数ヶ月でより明るく輝いています。

新しいDeepSeekモデルは依然として非常に強力ですが、これは振り返ると大きな物語のポイントになりうるものです。2025年にDeepSeekが登場し、これらの素晴らしいモデルをリリースしているはるかに多くの中国企業がこの新しいタイプの運営を持つためのプラットフォームを提供したのです。これらの中国企業からのモデルはオープンウェイトであり、この軌道次第では、これらの米国企業が行っているビジネスモデルがリスクにさらされる可能性があります。

しかし現在、米国では多くの人々がAIソフトウェアにお金を払っており、歴史的に中国やその他の地域では、人々はソフトウェアに多くのお金を払いません。

DeepSeekのようなこれらのモデルの一部は、オープンウェイトであるため人々の愛を受けています。中国企業はどのくらいオープンウェイトモデルをリリースし続けると思いますか?

数年は続くと思います。米国と同様に、それに対する明確なビジネスモデルはありません。私はしばらくの間オープンモデルについて書いてきましたが、これらの中国企業はそれを理解しています。ですから彼らの何社かから問い合わせを受けます。彼らは賢く、同じ制約を理解しています。つまり、多くの米国のトップテクノロジー企業やその他のIT企業は、セキュリティ上の懸念から中国企業へのAPIサブスクリプションにお金を払わないということです。

これは長年にわたる技術業界の習慣であり、これらの企業の人々はオープンウェイトモデルを、米国における巨大な成長中のAI支出市場に影響を与え、参加する能力として見ています。彼らはこれについて非常に現実的であり、それは彼らにとってうまくいっています。そして政府は、これが技術の取り込みという点で国際的に多くの影響力を築いていることを見るでしょうから、それを続けるインセンティブがたくさんあるでしょう。

しかしこれらのモデルを構築し、研究を行うのは非常に高価です。ですからある時点で統合を予想しますが、それが2026年の話になるとは思いません。2026年を通じて、2025年よりも多くのオープンモデル構築者がいるでしょう。そして注目すべきものの多くは中国にあるでしょう。

何か言おうとしていましたか?

はい。DeepSeekが王冠を失うと言及されましたが、ある程度はそうだと思いますが、彼らは依然として少し先を行っていると言えます。DeepSeekが悪くなったのではなく、他の企業がDeepSeekのアイデアを使っているだけです。例えばKimiを挙げましたが、同じアーキテクチャで訓練しています。そしてまたこの飛躍が起きます。彼らはより最近のモデルを持っているため、ある時点で少し良くなるかもしれません。

これは明確な勝者がいないという事実に戻ります。ただそのようなものになるでしょう。誰かが何かをリリースし、別の人が入ってきて、最新のモデルがおそらく常に最良のモデルです。

そうですね。中国企業には異なるインセンティブがあることも分かります。例えばDeepSeekは非常に秘密主義ですが、MiniMaxやMoonshot AIのようなスタートアップもあります。

これら2社は実際にIPO書類を提出しており、西洋の注目を集めようとして多くのアウトリーチを行っています。これらのインセンティブがモデル開発を変えるかどうかは分かりませんが、DeepSeekは有名なことにヘッジファンドであるHighflyer Capitalによって構築されており、彼らが何のためにモデルを使っているのか、あるいはこれについて気にしているのかは正確には分かりません。

彼らはコミュニケーションの面では秘密主義ですが、モデルの動作方法を説明する技術レポートに関しては秘密主義ではありません。その面では依然としてオープンです。そしてClaude 3.5 Opusの誇大宣伝についても言うべきことがあります。Xのエコーチェンバー、Twitterのエコーチェンバーの寵児であることと、実際にモデルを使用している人の数には層があります。

ChatGPTとGeminiは、日々の生活で問題を解決したいだけの広範なユーザーベースに焦点を当てていると言ってもおそらく公平でしょう。そしてそのユーザーベースは巨大です。ですからコーディングに関する誇大宣伝は、実際の使用を代表していないかもしれません。

多くの使用パターンは、あなたが言ったように名前の認識、ブランドなどもありますが、ほとんど筋肉記憶のようなものでもあります。ChatGPTは長い間存在しているので、人々はそれを使うことに慣れており、それはほとんどフライホイールのようなものです。他のユーザーに推奨したりするのです。興味深い点の一つはLLMのカスタマイズでもあります。例えばChatGPTにはメモリ機能がありますよね?ですからサブスクリプションを持っていて個人的なことに使うかもしれませんが、仕事で同じものを使いたいかどうかは分かりません。なぜならプライベートと仕事の境界があるからです。

会社で働いている場合、それを許可しないかもしれませんし、あなた自身が望まないかもしれません。そしてそれもまた興味深い点だと思います。複数のサブスクリプションを持つかもしれません。一つはクリーンなコードです。個人的な画像や趣味のプロジェクトは何も入っていません。ただの仕事用のものです。そしてもう一つはあなたの個人的なものです。ですからそれもまた、2つの異なる使用例があるということであり、1つだけ持たなければならないという意味ではありません。未来は複数のものを持つことだと思います。

2024年を勝ったのはどのモデルだと思いますか?そして2025年を勝つのはどのモデルだと思いますか?

消費者向けチャットボットの文脈では、ChatGPTよりもGeminiに賭ける意思があるかどうかという質問になると思います。私の直感では、それは少しリスクの高い賭けのように感じます。なぜならOpenAIは現職者であり、技術においてそれには非常に多くの利点があるからです。

2024年を見ると、勢いはGeminiの側にあったと思いますが、彼らは非常に低い地点から始めていました。RIP Bardとこれらの初期の試み。組織的混乱を乗り越えてそれを実現した彼らに大きな称賛を送ります。しかしOpenAIに賭けないのも難しいです。なぜなら彼らは常に非常に混沌としているように見えますが、物事を着地させるのが非常に上手だからです。

そして個人的には、o1については非常に複雑な評価をしていますが、ハイラインの機能がルーターであったことで、彼らに非常に多くのお金を節約したに違いありません。ほとんどのユーザーがもはやGPUコストをそれほど請求しないようになったのです。ですから、モデルから私が好きなものと、実際に一般大衆の差別化要因になるものを切り離すのは非常に難しいと思います。

2025年についてはどう思いますか?誰が勝つと思いますか?

リスクはありますが何か言いましょう。GeminiはChatGPTに対して進歩を続けると思います。Googleの規模は、これらの両方が非常に極端な規模で運営されている場合、要因になると思います。Googleは研究と製品をより良く分離する能力があります。OpenAIが運営的に混沌としていて、影響力の高いものを追いかけているという話をよく聞きます。これは非常にスタートアップ文化です。

そしてソフトウェアとエンタープライズの側では、Anthropicが何度も何度もそのためにセットアップされてきたので、継続的な成功を収めると思います。明らかにGoogle Cloudには多くの提供物がありますが、このGeminiというネームブランドが彼らにとって構築することが重要だと思います。Google Cloudは引き続き好調でしょうが、それはエコシステムで説明するのがより複雑なことです。なぜならそれはモデルプロバイダー側ではなく、AzureやAWSと競合しているからです。

インフラストラクチャでは、TPUが彼らに優位性を与えると思いますか?

主にNVIDIAチップのマージンが狂気じみているからです。そしてGoogleは自分たちのスタックに合わせてトップからボトムまですべてを開発でき、このマージンを支払う必要がなく、データセンターの構築で先行しています。

ですからこれらすべてのこと、リードタイムが長く、高コストに対する非常に厳しいマージンを持つものにおいて、Googleは一種の歴史的優位性を持っています。そして新しいパラダイムが来るとすれば、それはOpenAIから来る可能性が最も高いです。彼らの研究部門は何度も何度も新しい研究アイデアや製品を着地させるこの能力を示してきました。Deep Research、Sora、o1思考モデル、これらすべての定義的なものはOpenAIから来ており、それは組織としての彼らの最高の特性の一つに違いありません。

ですからそれに賭けないのは難しいですが、今年の多くはスケールとモデルにおけるローハンギングフルーツと表現できるものの最適化についてになると思います。

そして明らかに知能と速度の間にはトレードオフがあります。これはGPT-5が舞台裏で解決しようとしていたことです。広範な公衆は実際に知能を望んでいるのか、それとも速度を望んでいるのか?

実際には素晴らしいバラエティだと思います。あるいはそこにトグルを持つオプションです。私の個人的な使用では、ほとんどの場合何かを調べる時、ChatGPTを使って素早く質問し、欲しい情報を速く手に入れます。日々のほとんどのタスクでは、速いモデルを使います。最近では、思考か非思考かを具体的に言わなくてもよい自動モードがかなり良いと思います。

そしてまた、時にはプロモードも欲しいです。非常によくやることは、何か書いたものがある時、それをChatGPTに入れて「非常に徹底的なチェックをしてください。参照はすべて正しいですか?考えはすべて正しいですか?フォーマットミスをしましたか?図の番号が間違っていますか?」などと言うことです。

そしてそれはすぐには必要ありません。大丈夫です。作業を終えて、夕食を食べて、実行させておいて、戻ってきてこれを見直します。このオプションを持つことが重要だと思います。各クエリで30分、あるいは10分も待たなければならないとしたら気が狂うでしょう。

それが私です。ルーターと非思考モデルを使っているあなたに対して、私はここで気が狂いそうになっています。「どうやってそれで生きていけるの?」というのが私の反応です。私はしばらくの間ChatGPTを重く使ってきました。非思考には決して触れません。そのトーンとエラーへの傾向を見つけます。エラーの可能性がより高いだけです。これの一部は、OpenAIがo1-previewをリリースした時から来ています。これは深い検索を行い、多くのソースを見つけてあなたのために統合する最初のモデルでした。

ですから私はそれに慣れました。ですから仕事のための何らかの情報クエリを実行する時は、GPT-4o思考またはプロのみを使います。それが論文であれ、私が探しているコード参照であれ。そして定期的に5つのプロクエリを同時に実行します。それぞれが1つの特定の論文や方程式へのフィードバックなどを探しています。

モデル選択と利用体験

このポッドキャストの前にできるだけ早く答えが必要だった楽しい例があります。旅行に行く前のことでした。家でローカルGPUを動かしていて、長いRL実験を実行したかったのです。通常、家にいない時は念のためプラグを抜きます。誤ってGPUのプラグを抜いてしまいました。妻はすでに車の中にいて、「ああ、しまった」という感じでした。

基本的に、できるだけ速く、異なる実験と評価を実行するBashスクリプトが欲しかったのです。これは私が知っていることです。Bashインターフェースやbashターミナルの使い方は学びましたが、その瞬間には10秒でコマンドをくれるだけでよかったのです。

これは陽気な状況ですね。それで何を使ったのですか?

非思考の最速モデルを使いました。異なるスクリプトを互いに連結するBashコマンドをくれました。それからteeというものがあって、これをログファイルにルーティングしたいのです。頭のてっぺんでは、ただ急いでいただけで、自分で考えることもできたでしょう。

ところで、これが代表的なケースかどうかは分かりません。妻が車で待っていて、走らなければならない、GPUのプラグを抜かなければならない、Bashスクリプトを生成しなければならない。これは映画のようです。ミッション・インポッシブルのような。

私はそれにはGeminiを使います。ですからすべての情報関係のことには思考を使い、速いことやGoogleで検索できるかもしれないことにはGeminiを使います。物事を説明するのが得意で、この種の知識のバックグラウンドを持っていると信頼しており、シンプルです。そしてGeminiアプリはずっと良くなりました。

そういった類のことには良いです。そしてコードや哲学的な議論にはClaude Opus 3.5を使います。常に拡張思考と一緒に。拡張思考と推論時スケーリングはモデルをわずかに賢くする方法に過ぎません。そして進歩が非常に高い時は常にその側にヘッジします。なぜならそれがいつ新しい使用例をアンロックするか分からないからです。

それからリアルタイム情報を見つけるため、またはAI Twitterで見たと知っていて掘り起こす必要があるものを見つけるためにGrokを使うこともあります。Grok-3が出た時、Grok-3のSuper Heavyと呼ばれるものは、彼らのプロバリアントのようなもので、実際に非常に良く、かなり印象的でしたが、ChatGPTアプリを開いている筋肉記憶でそれを見失いました。ですから私は多くの異なるものを使います。

そうですね。実際に私はGrok-3 Heavyをデバッグに使います。他のものが解決できないようなハードコアなデバッグのためです。それが最良だと思います。興味深いのは、あなたがChatGPTが最良のインターフェースだと言うことです。私にとっては同じ理由でGeminiがより良いインターフェースです。しかしこれは単に勢いかもしれません。

彼らの最高の干し草の山の中の針に恋したからだと思います。たくさんのコンテキストを持つが、それがすべてを追跡することを確認するために非常に特定の種類の情報を探している何かを入れる時、少なくともGeminiが私にとって最良だったと思います。ですから面白いことに、これらのモデルのいくつかで、特定の日に特定のクエリ、そのプロンプトで、ある特定の機能であなたの心を掴んだら、「このモデルの方が良い」となります。そしてそれが本当に愚かなことをするまでしばらくそれに固執するのです。閾値効果のようなものがあります。何か賢いことをして、それに恋をして、それから愚かなことをして、「分かった、切り替えてClaudeやChatGPTを試してみよう」となります。そういったすべてのことです。

まさにその通りです。壊れるまで使い、問題が起きたらLLMを変える。そしてそれは私たちが何かを使う方法と同じだと思います。お気に入りのテキストエディタ、オペレーティングシステム、ブラウザのように。つまり、非常に多くのブラウザオプションがあります。Safari、Firefox、Chrome。

それらは比較的似ていますが、エッジケースがあります。使いたい拡張機能があるかもしれず、そうしたら切り替えます。しかし同じこと、ウェブサイトなどを異なるブラウザに入力してそれらを比較する人はいないと思います。ウェブサイトがレンダリングされない時や何かが壊れた時だけそうします。それは良い点ですね。

壊れるまで使い、それから他のオプションを探索します。

長いコンテキストについては、私もこのためのGeminiユーザーでしたが、GPT-4oのリリースブログには狂気じみた長いコンテキストスコアがありました。多くの人が「彼らはアルゴリズムの変更を見つけたのか?」と言っていました。このマイナーなモデル更新で30%から70%くらいに跳ね上がったのです。

ですからこれらすべてを追跡するのも非常に難しいですが、今ではGPT-4oの長いコンテキストをより好意的に見ています。ですからそれは「実際にどうやってこれをテストするのか?」という感じです。終わりのない戦いです。

興味深いことに、私たちの誰も使用の観点から中国のモデルについて話しませんでした。それは何を意味するのでしょうか?中国のモデルがそれほど良くないということですか、それとも私たちが非常に偏っていて米国に焦点を当てているということですか?

現在のモデルとプラットフォームの間の不一致だと思います。オープンモデルはまだプラットフォームではなく、オープンウェイトでより知られていると思います。

非常に低コストでオープンモデル推論を販売する意欲のある企業もたくさんあります。OpenRouterのようなもので、マルチモデルのものを見るのは簡単です。PerplexityでDeepSeekを実行できます。ここに座っている私たち全員が「OpenAI GPT-4 Proを一貫して使っている」という感じだと思います。私たちは皆、わずかな知能の向上のためにお金を払う意思があります。そして米国からのこれらのモデルは出力の面でより良いです。

質問は、彼らが今年、そして今後何年も良いままでいるかどうかだと思います。彼らが良い限り、私は使うためにお金を払うでしょう。中国のモデルが提供される方法について分析もあります。これは輸出規制によるものだと主張することもできますし、そうでないとも主張できますが、レプリカごとに使用するGPUが少ないため、速度が遅くなり、異なるエラーが発生します。速度と知能です。

ユーザーとしてこれらのことがあなたに有利であれば、米国の多くのユーザーはこれを選ぶでしょう。そしてそれが中国企業を無料や大幅に低いコスト、または提供の面での創造性を生み出すなど、他の方法で競争するよう駆り立てるものの一つだと思います。それはエコシステムにとって良いことです。

しかし単純なことは、米国のモデルが現在より良く、私たちはそれらを使っているということです。これらの他のオープンモデルを試しましたが、「楽しい、でも戻らない」という感じです。

プログラミングについてはあまり言及していませんでした。それも多くの人が気にする別の使用例です。私は基本的にCursorとClaudeを半々で使います。なぜなら根本的に異なる体験であり、両方とも有用だからです。

あなた方はかなりプログラミングをしますが、何を使いますか?現在のバイブは?

VS Code用のCodeiumプラグインを使っています。非常に便利です。ただのプラグインで、リポジトリにアクセスできるチャットインターフェースです。Claudeは少し違うと思います。

もう少しエージェント的です。より多くのものに触れます。全体のプロジェクトをあなたのためにやってくれます。私はまだそこまで快適ではありません。おそらく私がコントロールフリークだからですが、何が起こっているかを見たいと思っています。そしてCodeiumは今のところ甘い場所です。助けてくれますが、完全に引き継ぐわけではありません。

言うべきことの一つは、私がClaudeを使う理由の一つは、英語でプログラミングするスキルを構築することです。つまり、体験が根本的に異なります。コード生成のプロセスの詳細をマイクロマネージするのとは対照的に、それがあなたが使うIDEであるCursorなら差分を見て、変更したり、変えたりします。

進行するにつれてコードを読み、深く理解するのとは対照的に、この設計空間で考え、このマクロレベルで導くだけです。これはプログラミングプロセスについて考える別の方法だと思います。また、ClaudeはClaude Opus 3.5のより良い利用のように見えることも言うべきです。

良い並置です。Claudeを開き、Cursorを開き、VS Codeを開き、それらすべてで同じモデルを選択して質問できます。非常に興味深いです。Claudeはそのドメインではずっと良いです。驚くべきことです。

研究者と教育者としての実績

さて、お二人とも複数の面で本物だと言うべきです。研究者、プログラマー、教育者、Twitterユーザー。

そして本の面でも。ですからネイサンは、近いうちにできればRLHFの本が出ます。

予約可能で、完全なデジタルプレプリントがあります。物理的なもののためにそれをかなり良く整理しています。それが私がそれをする理由です。なぜなら私たちの生活の多くがデジタルである時に、優れていると思うものを物理的な形で作成するのが楽しいからです。

Perplexityによると、セバスチャン・ラシュカはいくつかの影響力のある本で知られる機械学習研究者兼著者だと言うべきです。私が言及したかったものの2つは、私が強くお勧めする本「大規模言語モデルをゼロから構築する」と、新しいもの「推論モデルをゼロから構築する」です。

それについて本当に興奮しています。ゼロから何かを構築することは学習の最も強力な方法の一つです。

正直なところ、LLMをゼロから構築するのは非常に楽しいです。学ぶべきこともたくさんあります。そしてあなたが言ったように、何かが本当にどのように機能するかを学ぶにはおそらく最良の方法です。なぜなら図を見ることができますが、図には間違いがあるかもしれません。

概念や説明を見ることができますが、誤解するかもしれません。しかしコードがあり、コードが機能すれば、それが正しいと分かります。誤解はありません。それは正確です。そうでなければ機能しないでしょう。そしてそれがコーディングの背後にある美しさです。嘘をつきません。基本的に数学です。数学でも、本で気づかない間違いがあるかもしれないと思いますが。

なぜなら本を読んでいる時に数学を実行していないので、これを検証できません。そしてコードの良いところは、それを検証できることです。

「Build a Large Language Model (From Scratch)」という本についてのあなたの意見に同意します。他のすべて、インターネットなどを遮断して、本だけに集中するのは良いです。

しかし、いくつかの歴史書を読みました。ただ何となく孤独ではありません。本当にもっと楽しいです。例えばプログラミングの面では、LLMと一緒にプログラミングするのは本当にもっと楽しいと思います。そしてLLMと一緒に読むのも本当にもっと楽しいと思います。しかしあなたは正しいです。その注意散漫は最小限に抑えるべきです。

ですからLLMを使って体験を豊かにし、おそらくもっとコンテキストを追加します。小規模での「あはモーメント」の率は、LLMを使うと本当に高いです。

100パーセント。自分を訂正したいのですが、LLMを使わないことを提案しているわけではありません。複数のパスでやることを提案しています。1つのパスはオフラインで、フォーカスモードで、その後で。つまり、私もノートを取りますが、すぐに調べたいという衝動に抵抗しようとします。2回目のパスをします。この方が構造化されているだけです。時には章の後で物事が答えられることもありますし、沈殿させて考えることが役立つこともあります。本を読む時にLLMを使うことを強くお勧めします。私にとっては、最初にやることではなく、2回目のパスです。

推奨として、私は反対をします。私はLLMを最初に使って、これが私が今踏み込んでいる世界の完全なコンテキストは何かをレイアウトするのが好きです。しかしLLMからTwitterやブログの世界にクリックアウトすることを避けようとします。なぜならそうするとそのウサギの穴に落ちるからです。

誰かの意見を読んでいて、特定のトピックについて炎上騒ぎがあり、突然インターネットとRedditの領域にいます。しかし純粋にLLMになぜこれが重要なのか、大きな絵のアイデアは何かのコンテキストを与えさせるなら。本自体はそれが得意ですが、常にではありません。

これが私がChatGPTアプリが好きな理由です。インターネットオプションの混乱の中のもう一つのタブであるだけでなく、コンピューター上でAIに家を与え、それに集中できます。

そしてClaude Codeはそれを喜びにするのが上手だと思います。あなたのAIがその後世界に出ていくインターフェースとして設計された製品として非常に魅力的に見えます。OpenAIのモデルと比較して無形のものです。同じくらい良いかもしれませんが、エッジの周りが少し粗く感じられるだけです。

一方、Claude Codeは物事を構築するのを楽しくします。特にゼロから、心配する必要がないところです。なぜならそれが何かを作ると信頼しているからです。これはウェブサイトやツールのリフレッシュ、データ分析などに良いです。私のブログでは、すべてのデータセットとモデルのダウンロード数を追跡するためにHugging Faceをスクレイプしています。

長い間。そしてClaudeはただ「ええ、そのデータを使いました、問題ありません」という感じでした。そして私は「それは私に何日もかかったでしょう」という感じでした。そして「OK、これらのトレンドは明らかに意味をなす」と言えるだけの状況認識があります。しかしそれは、異なるウェブプロジェクトを維持するためにしなければならなかった恐ろしい低レベルの作業をしなくても済む、仲介者を持つことができる素晴らしいインターフェースです。

オープンLLMモデルの展望

さて、クローズドウェイトモデルについて話しました。オープンなものについて話しましょう。オープンLLMモデルの状況について教えてください。どれが興味深いですか?どれが際立っていますか、そしてその理由は?すでにDeepSeekについては言及しました。

ノートを見ずに頭のてっぺんからいくつ名前を挙げられるか見てみませんか?

ええ、ええ。

DeepSeek、Kimi、MiniMax、Z.ai、Moonshot。中国だけで行きましょう。

Mistral AI、Gemma、OLMo、AI2によるオープンソースモデルを入れましょう。実際にNVIDIAには本当にクールなものがありました、Nemotron 340B。年末には特にたくさんのものがあります。Qwenが一つかもしれません。

Qwenは私が言おうとしていた明白な名前でした。私は中国の10社と西洋の10社は得られると思います。

OpenAIはGPT-2以来初めてのオープンモデルをリリースしました。OpenAIのオープンモデルリリースについて書いていた時、彼らは「GPT-2を忘れないで」と言いました。全く異なる時代なので、それは本当に面白いと思いました。

しかしGLM-4は実際に非常に強力なモデルで、他のモデルがあまりうまくやらないいくつかのことをします。利己的に西洋企業の束を宣伝します。米国とヨーロッパの両方に、これらの完全にオープンなモデルがあります。私はアレン人工知能研究所で働いており、データとコードをリリースするOLMoを構築してきました。

そして今、他の人がこれらのモデルを訓練できるようにすべてをリリースしようとしている人々からの実際の競争があります。Institute for Foundation ModelsとLM360があり、さまざまなタイプのK2モデルがありました。Apertusはスイスの研究コンソーシアムです。Hugging FaceにはSmolLMがあり、非常に人気があります。

そしてNVIDIAのNemotronもデータのリリースを始めました。それからStanfordのMeerkatプロジェクトがあり、人々がGitHubのissueを開いて新しいアイデアを実装し、それを安定した言語モデリングスタックで実行できるようにするパイプラインを作っています。ですからこの空間、そのリストは2024年ではずっと小さかったです。AI2だけだったと思います。

ですからより多くの人が関与し、言語モデルを理解するのは素晴らしいことです。中国企業には類似物がありません。話している間に言いますが、中国のオープン言語モデルははるかに大きい傾向があり、それはMoEとしてより高いピークパフォーマンスを与えます。私たちがたくさん好きなこれらのもの、GemmaやNemotronなどは、米国からのより小さなモデルである傾向があり、それは変わり始めています。

米国とヨーロッパでは、Mistral Large 3が出ました。これは12月に出た巨大なMoEモデルで、DeepSeekアーキテクチャと非常に似ています。そしてRCAIのようなスタートアップとNemotronとNVIDIAの両方が、1000億パラメータをはるかに超えるMoEモデルをからかっています。4000億パラメータ範囲で、このQ1 2026のタイムラインで来ます。

ですから今年、人々が中国対米国のオープンモデルを何に使っているかという点で、このバランスが変わるように設定されていると思います。私は個人的にそれを見るのを非常に楽しみにしています。

まず第一に、これほど多くの名前を挙げられることに大きな賞賛を。LLaMAについては実際に名前を挙げましたか?

いいえ。

RIP LLaMAのような感じがします。さて。

これは意図的ではありませんでした。

RIP LLaMA。さて。際立っている興味深いモデルをいくつか挙げてもらえますか?Qwen 2.5は明らかに際立っていると言及しました。

年はほぼDeepSeek V3とR1で区切られていると言えます。そして一方で12月にDeepSeek V3。なぜなら私がそれらについて好きなのは、常に他にはない興味深いアーキテクチャの調整があるからです。

そうでなければ、馴染みがあるが本当に良いパフォーマンスを望むなら、Qwen 2.5と、ネイサンが言ったようにJambaもです。そしてJambaについて興味深いのは、実際にツール使用を念頭に置いて訓練された最初の公開またはオープンウェイトモデルだということです。これは少しパラダイムシフトだと思います。エコシステムはそれの準備がまだできていませんでした。

ツール使用とは、LLMがウェブ検索を行い、Pythonインタプリタを呼び出すことができることを意味します。そしてそれは際立っていると思います。なぜならそれは巨大なアンロックだからです。なぜならLLMに関する最も一般的な不満の一つは、例えばハルシネーションですよね?私の意見では、ハルシネーションを解決する最良の方法の一つは、常に情報を覚えたり、でっち上げたりしようとしないことです。

数学のために、なぜ電卓アプリやPythonを使わないのですか?LLMに「1998年のサッカーワールドカップで誰が優勝しましたか?」と尋ねる場合、ただ暗記しようとする代わりに、検索をすることができます。ほとんどまだGoogleの検索だと思います。ですからChatGPTとGPT-4oは、Googleへのツールコールをして、おそらくFIFAのウェブサイトを見つけて、それがフランスだったと見つけるでしょう。

暗記しようとする代わりに、その情報を確実に手に入れるでしょう。ですからそれは巨大なアンロックだと思います。今のところオープンソース、オープンウェイトエコシステムではまだ完全に利用されていません。多くの人がツールコールモードを使いません。なぜなら信頼の問題だからです。ツールへのアクセス権を持つコンピューターでそれを実行したくありません。ドライブを消去する可能性があります。

ですからそれをコンテナ化したいです。しかし今後数年間、この能力を持つことは本当に重要なステップだと思います。

いくつか素早く。まず、ツール使用で何を意味するかを定義してくれてありがとうございます。私たちが話している概念について一般的にそれをするのは素晴らしいことだと思います。

MOEのような確立されたものでも。それがMixture of Expertsを意味すると言わなければなりませんし、人々のためにそれが何を意味するか、どのように利用されるか、どのような異なるフレーバーがあるかの直感を構築しなければなりません。ですからこれほど多くのオープンモデルの爆発があるということは何を意味するのでしょうか?あなたの直感は?

オープンモデルをリリースしている場合、人々にそれを使ってもらいたい。それが何よりもまず第一です。

そしてその後、透明性と信頼のようなものが来ます。中国を見ると、最大の理由は世界中の人々にこれらのモデルを使ってもらいたいということだと思います。そして多くの人がそうしないと思います。米国外を見ると、多くの人がソフトウェアにお金を払いませんが、それを実行するコンピューティングリソースを持っているかもしれません。

クラウドに送信したくないデータもあるかもしれません。ですから最重要事項は、モデルへのアクセスなしではできないかもしれない人々に、モデル、AI、またはあなたのAIを使ってもらうことです。

明示的に述べるべきだと思いますが、中国のモデルやオープンウェイトモデルについて話してきました。

多くの場合、それらが実行される方法はローカルです。ですからあなたのデータを中国やシリコンバレーで開発した誰かに送信しているのではありません。モデルを開発した人が誰であれ。

多くのアメリカのスタートアップは、中国からのこれらのモデルをホストして販売することでお金を稼いでいます。これはトークンを販売すると呼ばれます。つまり誰かがモデルを呼び出して何らかの作業を行うということです。

他の理由もあると思います。OpenAIのような米国企業については、GPUが非常に不足しています。GPUの限界にいます。リリースをするたびに、常に「GPUが傷ついている」という話をしています。そしてこれらのGPT-4oリリースセッションの一つで、サム・アルトマンが「私たちがこれをリリースしているのは、あなたのGPUを使えるからです。

私たちのGPUを使う必要がなく、OpenAIはこれから配布を得ることができます」と言いました。これもまた非常に現実的なことです。なぜならそれは彼らに何もコストがかからないからです。

そしてユーザーにとっては、ChatGPTを使うようにローカルでモデルを使うユーザーがいます。しかし企業にとっては、これらのモデルを持つことは巨大なアンロックだと思います。なぜならそれらをカスタマイズし、訓練し、事後学習でより多くのデータを追加できるからです。

例えば法律、医療モデルなど、専門化できます。そしてLlamaについて言及しましたが、中国からのオープンウェイトモデルの魅力は、オープンウェイトモデルのライセンスがさらに友好的であることです。文字列が付いていない、制限のないオープンソースライセンスだと思います。LlamaやGemmaのようなものを使う場合、いくつかの文字列が付いています。どれだけのユーザーがいるかという上限があると思います。

そして何百万人ものユーザーを超えた場合、財務状況をMetaなどに報告しなければなりません。そして無料のモデルですが、文字列が付いています。人々は文字列が付いていないものが好きだと思います。ですからそれもまた、パフォーマンスの他に、中国からのオープンウェイトモデルが非常に人気がある理由の一つだと思います。なぜならただ使えるからです。

その意味での落とし穴はありません。

エコシステムはその面で良くなりましたが、主にこれらの新しいプロバイダーがそのようなオープンライセンスを提供した下流です。あなたがPerplexityを引き上げて「米国でホストされているKimi-k2-thinking」と言ったのは面白かったです。これは私たちが話していることの正確な例で、私は見たことがありません。人々はこれに敏感です。しかしKimi-k2-thinkingとKimi-k2は非常に人気のあるモデルです。人々はそれが非常に良い創作的な書き方をし、いくつかのソフトウェアのことでもすると言っています。

ですから人々が好きな異なるモデルとのこれらの小さな癖です。これらのモデルのいくつかが探求した興味深いアイデアのいくつかについて話してもらえますか?特にあなたにとって興味深いもの?

アーキテクチャの進化とスケーリング法則

時系列で行けるかもしれません。つまり、もちろんDeepSeekがありました。今年だけに焦点を当てるなら、2025年1月に出たDeepSeek R1です。

しかしこれは2024年12月に出たDeepSeek-V3に基づいています。アーキテクチャ側には複数のことがあります。魅力的なのは、依然として可能だということです。つまり、それが私がゼロから構築するプロジェクトでやっていることです。GPT-2から始めて、そのモデルにものを追加してこの他のモデルにすることができます。

ですからすべて依然として同じ系統のようなものです。それらの間には非常に近い関係があります。しかし頭のてっぺんでは、DeepSeekで独特だったのはMixture of Expertsです。つまり、彼らがMixture of Expertsを発明したわけではありません。Mixture of Expertsが何を意味するかもう少し話せるかもしれません。

しかし詳細に入る前に、まずこれらのものをリストアップしましょう。Mixture of Experts、しかし彼らはまたMulti-head Latent Attentionを持っていました。これはアテンションメカニズムへの調整で、2025年においてこれらのオープンウェイトモデル間の主な区別要因だったと言えます。推論やKVキャッシュサイズをより経済的にするための異なる調整。

KVキャッシュもまもなく定義できます。しかし長いコンテキストを持つためにKVキャッシュサイズを縮小するために、どのような調整ができるかということです。そしてそれらのほとんどはアテンションメカニズムに焦点を当てていました。DeepSeekにはMulti-head Latent Attentionがあります。Grouped-query Attentionもあり、依然として非常に人気があります。これらのモデルのいずれかによって発明されたわけではありません。

数年前に遡ります。しかしそれが他のオプションになるでしょう。Sliding Window Attention、OLMo 2が使っていると思います。正しく覚えていれば。ですからモデルを異なるものにするこれらの異なる調整があります。そうでなければ私は一度記事でそれらすべてをまとめました。ただ比較しただけです。非常に驚くほど似ています。

センターにTransformerブロックの繰り返しがいくつあるかという点での異なる数字に過ぎません。そして人々が調整する小さなノブのようなものです。しかしそれについて素晴らしいのは、何があってもうまくいくことです。ものを調整できます。パフォーマンス向上を得るために正規化レイヤーを動かすことができます。そしてOLMoは常にアブレーション研究が非常に優れており、何かを動かすとモデルに何をするかを示しています。

より良くなるか悪くなるか?しかしトランスフォーマーを実装してそれを機能させる方法は非常に多くあります。依然として普及している大きなアイデアはMixture of Experts、multi-head latent attention、sliding window attention、group query attentionです。そして年末には、推論トークン予測と線形にスケールするアテンションメカニズムを作ることに焦点が当てられました。ですからQwen2がありました。

5、例えば、gated delta netを追加しました。State spaceモデルに触発されたようなもので、更新し続ける固定状態を持ちます。しかしそれは本質的にこのアテンションをより安価にするか、アテンションをより安価な操作で置き換えます。

一般的にトランスフォーマーアーキテクチャについて話すことが有用かもしれません。

ええ、ではGPT-2アーキテクチャから始めるべきかもしれません。”Attention Is All You Need”論文から派生したトランスフォーマー。”Attention Is All You Need”論文は、エンコーダーとデコーダーの2つの部分を持つトランスフォーマーアーキテクチャを持っていました。そしてGPTはデコーダー部分だけに焦点を当てました。

それは本質的に依然としてニューラルネットワークであり、内部にこのアテンションメカニズムを持っています。そして一度に1つのトークンを予測します。埋め込み層を通過させます。トランスフォーマーブロックがあります。トランスフォーマーブロックにはアテンションモジュールと完全接続層があります。そしてその間にいくつかの正規化層があります。

しかしそれは本質的にこのアテンションメカニズムを持つニューラルネットワーク層です。ですからGPT-2から来てGPT-3に移る時、例えばMixture of Expertsレイヤーがあります。GPT-3によって発明されたわけではありません。数年前のものです。しかしそれは本質的に各フォワードパスでより多くの計算を消費せずにモデルをより大きくするための調整です。

ですからこの完全接続層があり、リスナーが多層パーセプトロンに馴染みがあるなら、トランスフォーマーの内部にあるミニ多層パーセプトロン、完全接続ニューラルネットワーク層と考えることができます。そしてそれは完全接続なので非常に高価です。1,000の入力と1,000の出力がある場合、それは100万の接続です。

そしてそれはこのトランスフォーマーで非常に高価な部分です。そしてアイデアはそれを複数のフィードフォワードネットワークに拡張することです。ですから1つを持つ代わりに、例えば256持つとしましょう。しかしそれははるかに高価になります。なぜなら今256持っているが、同時にすべてを使うわけではないからです。ですから今、この入力トークンに基づいて、この完全接続ネットワークを使うのが有用だと言うルーターがあります。

そしてそのコンテキストでは、それはエキスパートと呼ばれます。ですからMixture of Expertsは複数のエキスパートを持つことを意味します。そして入力が何かに応じて、例えばより数学的である場合、異なるエキスパートを使うでしょう。入力テキストを英語からスペイン語に翻訳する場合と比較して。おそらく異なるエキスパートに相談するでしょう。これは数学のためだけのエキスパートで、スペイン語のためのものだと言うほど明確ではありません。もう少し曖昧です。しかしアイデアは本質的にネットワークにより多くの知識を詰め込むが、すべての知識が常に使われるわけではないということです。

それは非常に無駄でしょう。ですからトークン生成中、より選択的です。

どのトークンがどのエキスパートに行くべきかを選択するルーターがあります。それはより多くの複雑さを追加します。訓練するのが難しいです。崩壊など、多くのことが間違う可能性があります。ですからそれがOLMoが依然としてdenseを使う理由だと思います。つまり、Mixture of ExpertsのOLMoモデルがありますが、denseモデルです。denseの意味も専門用語です。

denseとsparseの間に区別があります。ですからMixture of Expertsはsparseと見なされます。なぜなら多くのエキスパートがいますが、そのうちのわずかだけがアクティブだからです。ですからそれはsparseと呼ばれます。そしてdenseはその反対でしょう。1つの完全接続モジュールだけがあり、それは常に利用されます。

ですからこれはKVキャッシュについても話す良い場所かもしれません。

しかし実際にその前に、さらにズームアウトして、根本的にGPT-2から今日まで実装された新しいアイデアはいくつあるのでしょうか?これらのアーキテクチャは本当にどれだけ違うのですか?

Mixture of Expertsのようなものです。Llama 3のアテンションメカニズム、それはGroup Query Attentionメカニズムになるでしょう。

ですからそれはmulti-head attentionからGroup Query Attentionへのわずかな調整です。ですから私たちはそれを持っています。彼らはLayerNormをRMSNormに置き換えたと思いますが、それはただそこでの異なる正規化に過ぎず、大きな変化ではありません。ただの調整です。非線形活性化関数、ディープニューラルネットワークに馴染みのある人々、つまりそれはsigmoidをReLUに変更するのと同じです。ネットワークを根本的に変えているわけではありません。

ただの小さな調整です。そしてそれだけだと言えます。本当に根本的にそれほど異なっているわけではありません。依然として同じアーキテクチャです。ですから1つから別のものに変換できます。これらの変更を追加するだけで、1つから他のものに行くことができます。

根本的には依然として同じアーキテクチャです。

はい。例えば、あなたは以前私の本について言及しました。本の中ではGPT-2モデルです。なぜならそれがシンプルで非常に小さいからです、約124百万パラメータです。しかしボーナス資料では、ゼロからOLMo、ゼロからLlama 3、その他のタイプのゼロからモデルがあります。

そして私は常に私のGPT-2モデルから始めて、異なるコンポーネントを調整するか追加すると、1つから他のものが得られます。ある意味で系統のようなものです。

人々のために直感を構築してもらえますか?なぜならズームアウトすると、AI世界には非常に多くの急速な進歩があります。そして同時に、根本的にアーキテクチャは変わっていません。

ではすべての乱流、進歩の混乱はどこで起こっているのですか?利益を得られるのはどこですか?

ネットワークを開発または訓練する異なる段階があります。事前学習があります。昔はGPT-2では事前学習だけでした。

今は事前学習、中間学習、事後学習があります。ですから今のところ、事後学習の焦点段階にいると思います。つまり、事前学習は、より良い、より高品質のデータにスケールアップすればまだ利点を与えます。しかしGPT-2では存在しなかった能力のアンロックがあります。例えば、ChatGPTは基本的にGPT-3モデルです。そしてGPT-3はアーキテクチャの面ではGPT-2と同じです。

新しかったのは、教師ありファインチューニングと人間のフィードバックからの強化学習を追加することでした。ですからそれはアーキテクチャというよりもアルゴリズム側の方です。

システムも大きく変わると言えます。Nvidiaの発表を聞くと、「今FP8ができる、今FP4ができる」といったことを話しています。

そして起こっていることは、これらの研究所が1つのモデルにより多くの計算を利用する方法を見つけ出しているということです。それは彼らがより速く訓練できるようにし、それはより多くのデータを入れることができるようにします。そしてこれを行うことでより良い構成をより速く見つけることができます。ですから本質的に、大規模訓練を行っている時に見る指標は、GPU当たりの秒当たりのトークンです。そしてあなたは…

FP8トレーニングをオンにすることで、10Kから13Kに行くことができます。それはモデルのパラメータごとにより少ないメモリを使うことを意味します。そして保存する情報を少なくすることで、通信を少なくして、より速く訓練できます。ですからこれらのシステムのすべてが、はるかに速い実験を支えています。

データとアルゴリズムに関するものであり、それは一種のループのようなもので、アーキテクチャを見た時、それらが全く同じである時に説明するのがやや難しいです。しかしこれらのモデルを訓練するために使われるコードベースは大きく異なるでしょう。GPUは異なりますが、おそらくGPT-NeoX-20Bを実際の時間でGPT-2が当時訓練された時よりもはるかに速く訓練できるでしょう。

そうですね。例えばあなたが言ったように、彼らはMixture of ExpertsでこのFP4最適化を持っていました。そこでより多くのスループットを得ます。しかしこれは速度のためには真実だと思いますが、モデルに新しい能力を与えるものではありません。それは単に、モデルパフォーマンスの劣化に苦しむことなく、どれだけ計算を粗くできるかということです。しかし思うに、トランスフォーマーの代替が現れています。テキスト拡散モデルがあります。完全に異なるパラダイムです。そしてまた、Mambaモデルもあります。State spaceモデルです。

しかし彼らにはトレードオフがあり、現在、自己回帰トランスフォーマーを最先端モデルとして置き換えたものはありません。最先端では、依然としてそのものを使うでしょう。しかしより安価な端のための代替があり、妥協をしている代替がありますが、もはや1つのアーキテクチャだけではありません。

小さなものが現れています。しかし最先端について話すなら、それはかなり依然としてトランスフォーマーアーキテクチャ、自己回帰、本質的にGPT-2から派生したものです。

ここでの大きな質問は、事前学習の背後にあるアーキテクチャについてかなり話しました。スケーリング法則は事前学習、事後学習、推論、コンテキストサイズ、データ、合成データにわたって強く保持されていますか?

スケーリング法則の技術的定義から始めたいと思います。それはこれらすべてを知らせます。スケーリング法則は、x軸、スケーリングしているものとして考えることができるものの間のべき法則関係で、計算とデータの組み合わせです。これらは似ていて、それからy軸は次のトークンに対する保留された予測精度のようなものです。モデルが自己回帰であることについて話しました。

モデルが見ていないテキストのセットを保持していて、訓練する時にどれだけ正確になるかということです。そしてスケーリング法則のアイデアは、人々がそれが非常に予測可能な関係であることを見つけた時に来ました。そして私はその技術的用語が続いていると思います。そして質問は、ユーザーがそれから何を得るかです。そしてより多くのタイプのスケーリングがあり、OpenAIのo1は推論時スケーリングを導入したことで有名になりました。

そして強化学習訓練をスケールできることを示したことで、あまり有名ではありません。一種のlog x軸を得て、それからy軸でのパフォーマンスの線形増加を得ます。ですから今、伝統的なスケーリング法則が事前学習について話されている3つの軸があります。それはモデルがどれだけ大きいか、データセットがどれだけ大きいかです。それから強化学習のスケーリングがあり、これはこの試行錯誤学習をどれだけ長く行えるかということです。これについてもっと話します。もっと定義します。そしてこの推論時計算、これはモデルに特定の問題でより多くのトークンを生成させることです。ですから私は少し強気です。しかし彼らは皆、本当にまだうまくいっています。しかしローハンギングフルーツはほとんど取られました。特に昨年、検証可能な報酬を持つ強化学習、これがRLVRです。そして推論時スケーリング、これはこれらのモデルを使うのがとても異なる感じになる理由です。以前は最初のトークンをすぐに得ていました。

そして今、彼らは秒、分、あるいは何時間も、あなたの答えの最初の単語を与える前にこれらの隠された思考を生成して出ていきます。そしてそれはすべてこの推論時スケーリングについてです。これはモデルが能力を変える方法において非常に素晴らしい一種のステップ関数です。

彼らは一種のこのツール使用を可能にし、私たちが話していたこのはるかに良いソフトウェアエンジニアリングを可能にしました。そしてこれは、可能にしたと言う時、検証可能な報酬を持つこの強化学習訓練がモデルにこれらのスキルを非常に簡単に拾い上げさせたという事実のほぼ完全に下流です。ですからモデルに学習させます。

ですからモデルがたくさんのトークンを生成している時の推論プロセスを見ると、やっていることは多くの場合、ツールを試し、戻ってきたものを見ます。別のAPIを試し、戻ってきたものと問題を解決するかどうかを見ます。ですからモデルを訓練している時、非常に速くこれをすることを学びます。

そして一日の終わりに、それはこの種の一般的な基盤を与えます。モデルがCLIコマンドをあなたのレポで非常にうまく使い、あなたのためにGitを処理し、ものを動かし、整理したり、より多くの情報を見つけるために検索したりできるところです。私たちが1年前にこれらの椅子に座っていたら、モデルがやっていると思わなかったようなことです。

ですからこれは今年起こった一種のもので、AIを使うことについて考える方法を完全に変えました。私はそれが非常に魔法的だと思います。非常に興味深い進化であり、非常に多くの価値をアンロックします。しかしそれは次の道が何になるかは明確ではありません。このようなものをアンロックする面で。継続学習については後で触れますが、AI の特定の領域には多くの話題がありますが、次のステップ関数がいつ本当に来るかは誰も知りません。

ですからあなたは実際にそこでかなり多くのことを言い、素早く深遠なことを言いました。それらを少しアンパックするのが良いでしょう。基本的にあらゆるバージョンのスケーリングについて強気だと言っています。ですから最初から始めることもできます。事前学習、事前学習スケーリングでのローハンギングフルーツが摘み取られたことを暗に示していますか?事前学習はプラトーに達しましたか、それとも事前学習でさえまだあなたが強気であるものですか?

事前学習は非常に高価になりました。事前学習をスケールアップするためには、ユーザーに非常に大きなモデルを提供することも意味すると思います。ですからGPT-4と類似のモデルのようなものは、最大サイズで約1兆パラメータだったと大まかに確立されていると思います。訓練がより効率的になるにつれて実際により小さくなったという噂がたくさんあります。

提供コストが比例して下がるので、モデルを小さくしたいのです。これらのモデル、訓練のコストは、数億人のユーザーに提供するコストと比較して本当に低いです。DeepSeekは事前学習のためにクラウド市場レートで約500万ドルという有名な数字を持っていました。

OLMo-1 section 2.4論文では、モデルを訓練するためにGPUクラスターをどれくらい座らせておいたかを詳述しました。これにはエンジニアリングの問題、複数のシード、そして約200万ドルでクラスターを借りて訓練の頭痛に対処することが含まれていました。

ですからこれらのモデルはかなりアクセスしやすいです。多くの人が100万から1000万ドルを得てモデルを訓練できますが、数百万人のユーザーに提供する継続的なコストは本当に数十億ドルの計算です。1000 GPUレンタルを見ることができます。1日10万ドル払えます。そしてこれらの企業は数百万のGPUを持つことができます。

これらのものが座っているのにどれだけのコストがかかるかを見ることができます。ですからそれは一種の大きなことです。そしてスケーリングが実際にあなたにより良いモデルを与えているなら、それは財政的に価値があるでしょうか?AIがより説得力のあるタスクを解決するにつれて、ゆっくりとそれを押し出します。Claude 3 Opus、GPT-4.5のようなものが、Claude Codeをうまく機能させるために。

私は7月にこのATOMプロジェクトと呼ばれるプロジェクトを立ち上げました。American Truly Open Modelsです。それは真のバイブコーディングされたウェブサイトでした。プロットなどを作る仕事があります。そして数週間前にそれをリフレッシュするために戻ってきて、6月と7月に構築していた時の当時のどのモデルに対してもClaude 3 Opusが、それが持っていたすべての問題を粉砕したという感じでした。

より大きなモデルかもしれません。これには多くのことが入りますが、依然として進歩が来ています。

ですからあなたが話しているのはスケーリング法則のY軸のニュアンスです。それがベンチマークで経験される方法対、実際の知能は異なるかもしれないということです。しかし依然として、事前学習についてのあなたの直感は、計算のサイズをスケールすれば、モデルは良くなるでしょうか?それが財政的に実行可能かどうかではなく、法則の側面から、モデルはより賢くなると思いますか?

そうですね。そしてそれは時々これを言うAI企業のリーダーシップからほとんど幻滅したように見えることもありますが、彼らは「13桁の計算で保持されたので、なぜ終わるのですか?」と言います。ですから根本的にそれが止まる可能性は非常に低いと思います。最終的には、より多くの計算で来るすべての問題のために、より大きなスケールをテストすることさえできなくなるでしょう。

2026年が非常に大きなBlackwell計算クラスター、ハイパースケーラーのためのギガワット規模の施設がオンラインになる年であるという話がたくさんあると思います。そしてこれらはすべて、ChatGPTの前または直後の2022年と2023年に署名および探索された電力とデータセンターの契約でした。ですからモデルを訓練するためのこれらのより大きなクラスターを構築するのに2〜3年のリードタイムがかかりました。

それよりもさらに多くのデータセンターを構築することへの莫大な関心があることは明らかですが。ですからそれは人々が言っている核心です。これらの新しいクラスターが来ています。研究所は訓練のためにより多くの計算を持つでしょう。彼らはこれを利用するでしょう。しかしそれは当然のことではありません。私は非常に多くの進歩を見てきたので、それを期待しています。そして少し大きなモデルを期待しています。

今年2000ドルのサブスクリプションを見ると言えます。200ドルのサブスクリプションを見てきました。それはまた10倍になる可能性があり、これらはすべて来る可能性のある種類のことです。そして彼らはすべて、ほんの少しだけより最先端を提供するこのより大きなモデルの下流です。

ですから、xAIが2026年初頭にその1ギガワット規模に達し、年末までに完全な2ギガワットになると報告されています。

スケーリング法則のコンテキストで、彼らがそれをどのように利用すると思いますか?それの多くは推論ですか?それの多くは訓練ですか?

結局のところそれはすべての上記になります。ですからモデルを訓練している時のすべての決定が事前学習に戻ってくると思います。モデルでRLをスケールしようとしている場合、依然としてこれを可能にするアーキテクチャを決定する必要があります。

他のアーキテクチャを使い、異なるタイプのアテンションを使うことについて話していました。Mixture of Expertsモデルについても話していました。MoEモデルのsparse性質は、生成をはるかに効率的にし、それが事後学習の大きな部分になります。事前学習でアーキテクチャを準備して、実際にこの計算をスケールアップできるようにする必要があります。

それでも計算のほとんどは事前学習に入っていると思います。なぜならまだモデルをより良くできるからです。依然としてこれを再訪したいのです。依然として得られる最良のベースモデルが欲しいのです。そして数年後にそれは飽和し、RL計算はただより長く行くでしょう。

事前学習は死んだと言ってあなたに同意しない人々はいますか?それはすべて推論のスケーリング、事後学習のスケーリング、コンテキストのスケーリング、継続学習、合成データについてですか?

人々はそのようにバイブして、そのように説明しますが、起こっている実践ではないと思います。

それはこのものが死んだと言う人々の一般的なバイブに過ぎません。

興奮は他のところにあります。ローハンギングフルーツは他のところにあります。例えば、11月にモデルをリリースしました。すべての会社には締め切りがあります。私たちの締め切りは11月20日でした。そしてそのために、私たちの実行は5日間でした。2024年と比較すると、300億パラメータのモデルで事後学習を行うだけで非常に長い時間です。大きなモデルではありません。

そして12月に別のリリースがありました。それは単にRLをさらに3週間半実行させただけで、モデルは著しく良くなったので、それをリリースしました。それは年間のピークになるものに割り当てる大きな時間です。ですからそれは…推論は…

モデルを訓練している時にこれらのタイプの決定が起こり、彼らはただそれを永遠に残すことができません。研究者から持っている改善を引き続き引き込む必要があります。ですから事前学習を再度行い、この事後学習を1ヶ月間行いますが、それからユーザーに渡す必要があります。安全性テストを行う必要があります。ですからそれはただ、モデルを更新するこのサイクルを強化する多くのものが適所にあると思います。

改善すべきことがあります。より安定的にまたはより速く何かをできるようにする新しい計算クラスターを得ます。Blackwellがロールアウトの問題を持っているという話をたくさん聞きます。AI2では事前学習しているモデルのほとんどは1,000から2,000 GPUです。

しかし10,000または100,000 GPUで事前学習している時、非常に異なる失敗に遭遇します。GPUは奇妙な方法で壊れることが知られており、100,000 GPU実行では、常に少なくとも1つのGPUがダウンしていることがほぼ保証されています。そしてその冗長性を処理するために訓練コードが必要です。これは非常に異なる問題です。一方、DGX H100で事後学習を試したり、あなたの本を持っていたり、MLを学んでいる人々が、これらの最大のモデルを訓練するために戦っているものは…

大規模な分散スケールです。非常に異なります。しかしそれはこれらが…それはシステムの問題です。スケーリング法則、特に事前学習を可能にするためのシステム問題です。すべてのこれらのGPUを一度に必要とします。強化学習に移る時、実際に異種計算に適しています。なぜならモデルの多くのコピーがあるからです。

そして言語モデル強化学習の入門として、あなたがやっていることは2セットのGPUを持つことです。1つをアクターと呼び、1つを学習者と呼ぶことができます。学習者はあなたの実際の強化学習更新が行われる場所です。これらは伝統的にポリシー勾配アルゴリズムです。Proximal Policy Optimization (PPO)とGroup Relative Policy Optimization (GRPO)は2つの人気のあるクラスです。

そして反対側では、完了を生成しているアクターを持つでしょう。そしてこれらの完了はあなたがグレーディングするものです。強化学習はすべて報酬を最適化することについてです。実際には、世界のさまざまな部分でさまざまなタイプの問題を行っているたくさんの異なるアクターを持つことができ、それからこの実際の学習を行うこの高度にネットワーク化された計算クラスターに送り返します。勾配を取り、異なるタイプの並列処理を行い、効率的な訓練のためにモデルを広げることができるように、緊密にメッシュされたネットワークを持つ必要があります。

効率的な訓練とスケーリングの課題

訓練の効率化については、実に多くの要素があります。スケーリングを行う際には、訓練とサービング提供のそれぞれの種類において様々な考慮事項が存在するんです。事前学習についても話しましたし、強化学習についても触れました。そして推論時スケーリングというのは、1時間思考し続けるモデルを1億人のユーザーにどうやって提供するかという問題なんですよ。正直なところ、その点についてはよく分からないんですが、それが難しい問題であることは確かです。人々にこの知能を提供するためには、あらゆるシステム上の問題があり、より多くの計算資源と、より安定した計算資源が必要なんです。

ただ、お聞きしている限りでは、あなたはこれらすべての種類のスケーリングに対して楽観的なんですね。推論についても、推論についても、さらには事前学習についても。

そうですね、これは大きなテーマなんですが、基本的には2つの方向性があります。ノブは訓練と推論のスケーリングで、そこから利得を得られます。仮に無限の計算資源がある世界を想定すると、そのすべてを実行したいわけです。

訓練と推論スケーリングがあって、訓練は階層構造になっています。事前学習、中間学習、ポスト学習があります。モデルサイズを変更したり、より多くの訓練データを使ったり、より大きなモデルを訓練することで、モデル内により多くの知識を得られます。そうするとモデルは、より優れた基盤モデルになります。それでも私たちはこれを基盤モデルと呼んでいて、それが可能性を解放するんです。ただ、事前学習中や事前学習後に、モデルが最も複雑なタスクを解決できるようになるわけではありません。それでも他の解放段階があって、中間学習や、例えば強化学習を用いたポスト学習があり、事前学習における知識という観点でモデルが持っている能力を解放します。

確かに、より多くの事前学習を行えば、後で解放できるより良い基盤モデルが得られます。でもNathanが言ったように、コストがかかりすぎるんです。無限の計算資源はないので、その計算資源をモデルをより大きくすることに使うか決めなければなりません。これはトレードオフなんです。

理想的な世界では、すべてを実行したいわけです。その意味で、スケーリングはまだかなり生きていると思います。それでもより良いモデルが得られるでしょうが、GPT-4oで見たように、それだけの価値はないんです。つまり、現時点では他の技術でより多くのパフォーマンスを引き出せるからです。特に推論スケーリングを見るとそうです。

これは今年o1で見られた最大の利得の1つで、GPT-4oのようなより大きなモデルを事前学習するよりも、小さなモデルをさらに進化させることができました。だから事前学習スケーリングが死んだとは言いませんが、現時点では他により魅力的なスケーリング方法があるということです。ただし、ある時点では事前学習でも進歩を遂げたいと思うでしょう。

考慮すべきもう1つの点は、どこにお金を使いたいかです。事前学習により多く使えば、それは固定費のようなものです。モデルを訓練すれば、その能力は永遠に残ります。いつでも使えるんです。推論スケーリングでは、訓練中にお金を使うのではなく、後でクエリごとにお金を使います。そして数学の問題になります。半年でモデルを置き換えるなら、市場にどれくらいの期間あるのか。500万ドル、1000万ドル、あるいは1億ドルを訓練により長く費やす価値はないかもしれません。より多くの推論スケーリングを行って、そこからパフォーマンスを得るだけかもしれません。ユーザークエリの観点では200万ドルくらいかかるかもしれませんが。どれだけのユーザーがいるかという問題になり、数学的に計算することになります。そしてそれが興味深いところで、ChatGPTはそういう立場にあると思います。

彼らは多くのユーザーを抱えているので、少し安価にする必要があり、そのためにGPT-4oという少し小さめのモデルがあります。他の企業は、顧客が異なるトレードオフを持っています。例えば、数学オリンピックやいくつかの数学問題があって、ChatGPTや独自モデルを使っていましたが、おそらく少し微調整されたモデルだと思いますが、ほとんどは推論スケーリング中に特定のタスクでこのピークパフォーマンスを達成するためのものでした。

常にそれが必要なわけではありません。でも長い話を短くすると、これらの事前学習、中間学習、ポスト学習、推論スケーリングはすべてまだ実行したいことだと思います。現時点で、今年においては、基本的に最高のコストパフォーマンスを与える適切な比率を見つけることなんです。

事前学習、中間学習、ポスト学習の定義

これは事前学習、中間学習、ポスト学習を定義するのに良い場所かもしれませんね。

事前学習は古典的な訓練です。一度に1つの次のトークン予測です。大きなデータコーパスがあります。Nathanもおそらく、OLMoの関係で非常に興味深い洞察を持っていると思います。

論文の大部分は適切なデータミックスに焦点を当てています。事前学習は基本的にクロスエントロピー損失での訓練、インターネットデータ、書籍、論文などの膨大なコーパスでの次のトークン予測での訓練です。これは何年にもわたって少し変化してきました。人々はかつて入手できるものすべてを投入していました。今は生のデータだけではありません。

合成データも含まれていて、人々が特定のものを言い換えます。合成データは必ずしも純粋にAIが作ったデータを意味するわけではありません。記事、ウィキペディア記事から何かを取って、それをQ&A質問として言い換えたり、要約したり、言い換えたりして、そうやってより良いデータにすることも含まれます。人間で考えてもそうだと思います。

誰かが本を読むのと、雑然とした—悪気はないんですが、Redditの投稿みたいなものを読むのとでは、学ぶものが違うと思います。

これについてRedditで投稿されることになりますよ、Raschka。

一部のRedditデータは非常に貴重で、訓練に優れています。フィルタリングする必要がありますが。

それがアイデアだと思います。誰かがそれを取って、もっと簡潔で構造化された方法で言い換えたら、最終的には同じLLMが得られるかもしれませんが、より高品質なデータになり、そこに到達するのが速くなると思います。訓練が速くなります。文法や句読点が正しければ、すでに正しい方法を学習しているわけで、雑然とした方法から情報を得て後でそれを修正する方法を学ぶのとは違います。

事前学習がどのように進化したか、そしてなぜスケーリングがまだ機能するのかは、データ量だけでなく、そのデータをより良いものにするトリックもあるからです。そして中間学習は、元々は事前学習と呼ばれていました。中間学習と呼ばれるようになったのは、事前学習とポスト学習があって、その中間というのが少し変だったからだと思います。

事前学習とポスト学習があるけど、実際の訓練は何なのか、ちょっと変な感じですよね。中間学習は通常、事前学習と似ていますが、事前学習よりも少し特化しています。同じアルゴリズムですが、例えば長いコンテキストドキュメントに焦点を当てます。事前学習中にそれを行わない理由の1つは、長いコンテキストドキュメントがそれほど多くないからです。特定のフェーズがあります。

LLMの問題の1つは、ニューラルネットワークであることです。破滅的忘却の問題があります。何かを教えると、他のことを忘れてしまいます。そして、100%忘れるわけではありませんが、フリーランチはありません。人間も同じです。

10年前に学んだ数学を聞かれても分からないでしょう。もう一度見直す必要があります。

実はNathanが、自分は大量のコンテンツを消費しているので破滅的忘却の問題があると言っていました。

そう、AIについてあまりにも多くを学ぼうとしていて、事前学習の並列化について学んでいたら、何かを失った気がするんです。何だったか分かりませんが。

LLMを擬人化したくはありませんが、人間がどう学ぶかと同じような感覚だと思います。量が必ずしも良いとは限りません。選択的でなければならないからです。中間学習は最後に質の高いコンテンツという点で選択的なんです。

LLMが最後に見るものは質の高いものです。そしてポスト学習は、すべての微調整、教師あり微調整、DPO、検証可能な報酬を用いた強化学習、人間のフィードバックなどの洗練段階です。コストの問題も興味深いですよね。事前学習には今、多くのお金を使います。強化学習は少し少ないです。

強化学習では、実際には知識を教えているわけではないと思います。知識を解放するという感じです。事前学習から持っている知識で問題を解決する方法というスキル学習のようなものです。実は今年、または去年、2024年に事前学習のための強化学習に関する3つの論文がありました。でも本番環境で誰もそれをやっているとは思いません。

おもちゃ、おもちゃの例ですね。

おもちゃの例ですね。でも一般化すると、強化学習ポスト学習はスキルの解放のようなもので、事前学習は本質的に知識を吸収することです。

いくつか人々の役に立つかもしれないことがあります。多くの人が合成データをモデル訓練に悪いものだと考えています。DeepSeek-V3のOCR、つまり光学文字認識論文についてあなたが言及しましたね。多くのラボがやりました。AI2もやりましたし、Nougatも複数やりました。これらのラボがそれぞれ持っている理由は、ウェブ上にテキストで簡単にエンコードされていないフォーマットのPDFや他のデジタルドキュメントが膨大にあるからです。

このAlmost CRやDeepSeek OCRを使って、私たちがAlmost CRと呼んだものを使って、事前学習の候補データとなり得る何兆トークンもの情報を抽出します。事前学習データセットのサイズは兆単位です。兆トークンで測定されます。研究者からの小さなモデルは5兆から10兆くらいです。Qwenは50兆まで文書化されていますし、これらのクローズドラボは100兆トークンまで行けるという噂があります。

この潜在的なデータを入れるだけでも、非常に大きな漏斗があり、実際にモデルを訓練するデータはこのうちのわずかな割合です。この文字認識データはラボでの事前学習用の合成データとして説明されるでしょう。そしてChatGPTが今、素晴らしい答えを出してくれるという事実もあり、それらの最良の答えで訓練できます。それが合成データです。

初期のChatGPTとは大きく異なります。多くの幻覚データがあり、人々が合成データに根ざすようになったときとは違います。

興味深い質問の1つは、私の記憶が正しければ、OLMo-3は他のいくつかのオープンウェイトモデル、おそらくOLMo-2よりも少ないデータで訓練されたということです。

それでもより良いパフォーマンスを得られましたが、それはデータがどう役立ったかの例の1つかもしれません。

ほとんどはデータ品質によるものです。もっと計算資源があれば、より長く訓練すると思います。それは単にやりたいことだと思います。特に大きなモデルでは、より多くの計算資源が必要です。より多くのパラメータについて話し、知識について話したからです。

基本的に、大きなモデルはデータからより多くを吸収できる比率があり、そこからより多くの利益を得られます。それは対数グラフのようなものです。小さなモデルはトークンのトン数を測定すると早く頭打ちになり、大きなモデルはより多くを必要とします。でもほとんど、私たちは今AI2でそれほど大きなモデルを訓練していませんし、可能な限り最高品質のデータを得ることが自然な出発点です。

データ品質の重要性

データ品質のトピックについて何か言えることはありますか。品質を改善できる低いところにぶら下がっている果実はまだありますか。

クランクを回すようなものです。歴史的に、オープンな領域では、最も最近の、または最良の努力をした人の間で移動してきた標準的な最良の事前学習データセットがありました。

AI2のDolmaは最初のOLMoで非常に早かったですし、Hugging FaceにはFineWebがありました。そしてDCLMプロジェクトがあります。これはDataComp Language Modelの略です。他の機械学習プロジェクト用のDataCompがあり、彼らは非常に強力なデータセットを持っていました。

その多くはインターネットがかなり閉鎖的になってきているので、Common Crawlがあり、これは数百兆トークンで、それをフィルタリングします。分類器を訓練して、このデータセットを最高品質のものやタスクに適したものにどう削減するかという決定を行う科学的な作業のように見えます。以前は、言語モデルは知識や会話的なことについてもっとテストされていましたが、今は数学やコードを行うことが期待されています。

推論モデルを訓練するには、データセット全体を再ミックスする必要があります。そして実際にここには素晴らしい科学的手法があり、巨大なデータセットを取って、異なるソースから本当に小さなものをたくさんサンプリングできます。GitHub、Stack Exchange、Reddit、Wikipediaがあるとします。それらから小さなものをサンプリングして、各ミックスで小さなモデルを訓練し、評価でパフォーマンスを測定できます。

基本的な線形回帰を行うだけで、最適なデータセットが得られます。でも評価が変わると、データセットも大きく変わります。OLMo-3の多くは、数学とコードでより優れた推論のための新しいソースで、このミキシング手順を行うと答えが得られます。

今年、ラボの多くでこれが起こったと思います。コーディング環境やウェブナビゲーションなど、新しいホットなものがあると、新しいデータを取り入れる必要があります。ポスト学習がより良く機能するように事前学習を変更する必要があります。そしてそれが常に進化していて、モデルについて何を気にするかの再決定なんです。

予想外に特に高品質なデータソースの面白い逸話はありますか。Redditが時々ソースになり得ると言及しましたね。

Redditは非常に有用でした。PDFは間違いなくその1つだと思います。

特にarXivですね。

そうです。AI2は長い間Semantic Scholarを運営してきました。これはGoogle Scholarの競合と言えるもので、より多くの機能があります。

これを行うために、AI2は特定の出版社の閉じられた壁の庭の後ろにあるかもしれない、公開アクセス可能な論文のために多くのPDFを見つけてスクレイピングしてきました。つまり、本当にオープンな科学PDFです。これらすべてを保持してそれを処理すれば、価値を得られます。そしてこのスタイルの作業の多くは、フロンティアラボによってはるかに早く行われてきたと思います。

物事がモデルをどう変えるかを理解するかなり熟練した研究者が必要で、彼らはそれを持ち込んでクリーンにします。多くの労力がかかります。フロンティアラボで研究者がスケールするとき、データにはるかに多くが費やされると思います。フロンティアラボに参加してインパクトを持ちたいなら、最良の方法は単により良い新しいデータを見つけることです。

o1の作り方を理解するような派手で魅力的なアルゴリズム的なことよりも。それが科学者の最もセクシーな考えです。「ああ、強化学習をスケールする方法を見つけた」と。それをやったグループはありますが、ほとんどの貢献は次のところから来ています。

データセットについて。

「データをより良くする」とか、「インフラをより良くしてチームの全員が5%速く実験を実行できるようにする」と言うことです。

同時に、訓練データが何であるかは、法的理由から最も厳重に守られた秘密の1つだと思います。そして、訓練データが何だったかを隠すための多くの作業があると思います。本質的には、ソースを明かさないようにモデルをチューニングすることです。法的理由があるからです。

もう1つ、完全を期すために言うと、ライセンスされたデータのみで訓練しようとしている人もいます。Common Crawlはインターネット全体のスクレイプのようなものです。だから私が複数のウェブサイトをホストしていれば、それらで言語モデルを訓練してもらうことは喜んでですが、それを管理するものを明示的にライセンスしているわけではありません。

したがって、Common Crawlは大部分がライセンスされていないということで、データの使用方法についてあなたの同意が本当に提供されていないことを意味します。明示的にライセンスされたデータのみで言語モデルを訓練できるという別のアイデアがあり、管理契約が提供されます。

Apertusが著作権のことなのかライセンスのことなのか分かりません。彼らがそれを行った理由がEUコンプライアンスのためだったことは知っています。モデルがそれらのチェックの1つに適合することを確認したかったんです。

その点で、ライセンスの区別もあります。あなたが言ったように、一部の人々は単にライセンスを購入します。Amazon Kindleの本やManningの本のような本をオンラインで購入して、それを訓練データに使います。それはグレーゾーンです。コンテンツに対して支払ったので訓練したいかもしれませんから。でもそれさえ許可されるべきではないという制限もあります。それがちょっと曖昧になるところです。そしてそれが今も熱いトピックだと思います。そして、OpenAIのような大企業も、独自データのためにプライベート企業にアプローチしました。プライベート企業は自分たちのデータをより保護的になってきています。「これが数年後の私の堀になる」と知っているからです。そしてそれが興味深い質問だと思います。LLMがより商品化され、多くの人々がLLMについて学ぶようになると、LLMを訓練できる人がはるかに多くなるでしょう。もちろんインフラ上の課題はあります。でも製薬業界、法律、金融業界のような大きな業界について考えると、ある時点で他のフロンティアラボから人を雇って、独自データで社内モデルを構築すると思います。これが事前学習での別の解放になるでしょう。現在はそこにありません。なぜなら、やりたくてもそのデータを得られないからです。ほとんどの場合、臨床試験へのアクセスはできませんし、こういった種類のものです。だからスケーリングはその意味でまだかなり生きているかもしれないと思います。ドメイン固有のアプリケーションを見ると、私たちは単に汎用LLMを見ているだけだからです。ChatGPT、Anthropicなど。

それらは単に汎用です。特定のタスク用に本当に特別に訓練され設計されたLLMができることの表面をかすめてさえいません。

著作権問題とデータ取得

データのことについて思うんですが、これは2025年に起こったことの1つで、私たちは完全に忘れていますが、AnthropicがAuthorsに対して裁判で負けて15億ドルを負いました。

Anthropicは数千冊の本を購入してスキャンしたと思いますが、本を購入したので法的にクリアされました。それがシステムを通過していっています。そして一方で、いくつかの本をトレントでダウンロードもして、このトレントが裁判所がAuthorsに数十億ドルを支払う責任があると言った経路だったと思います。これは本当に驚異的な訴訟で、ただ来ては去っていきました。

それは非常に多くのお金です。VCエコシステムから非常に多くのお金です。

これらは人類文明の未来を定義する裁判事例です。データがこの多くを駆動することは明らかで、非常に複雑な人間的緊張があります。つまり、共感できます。あなた方は両方とも著者です。そしてある程度、あなたが行う執筆に心と魂と汗と涙を注ぎ込んでいます。

クレジットを与えずにあなたのデータを訓練するのは、少し盗みのように感じられます。

Nathanが言ったように、2つのレイヤーもあります。誰かが本を購入してそれで訓練するかもしれませんが、それは公正か公正でないか議論できますが、著者に報酬さえ払っていない海賊版の本を使う完全な企業もあります。

それが人々が特にそれについて少し怒った理由だと思います。

ええ、でも何らかの補償スキームが必要です。これは音楽のためにSpotifyストリーミングが元々やったことのようなものに向かっています。その補償はどのようなものか。それらのモデルを定義し、そのすべてを考え抜く必要があります。

人々が一般的に興味を持っているもう1つのこと、あなたの考えをぜひ聞きたいんですが。LLMがますます使われるようになると、arXivを見ても、でもGitHubでも、ますます多くのデータがLLMによって生成されています。そんな世界で何をしますか。それはどれくらい大きな問題ですか。

最大の問題はインフラとシステムですが、AIの観点からは避けられないことです。

基本的に人間がキュレーションしたLLM生成データということですね。

そうです。そして多くのオープンソース貢献者が本当に燃え尽きていると思います。人気のあるオープンソースリポジトリがあれば、誰かが「ああ、オープンソースAIをやりたい。キャリアに良い」と言って、何かをバイブコーディングして投げ込みます。これ以上多くなるかもしれません。

私は持っています。

私よりも。

そう、実際にここにケーススタディがあります。私はmlxtendというリポジトリを持っていて、学生として約10年前に開発しました。今でも特定のアルゴリズム、特に頻出データマイニングのものでかなり人気のあるライブラリです。

最近、非常に短い時間に多くのプルリクエストを提出した2、3人の人がいました。これらのプルリクエストを提出する際にLLMが関与していたと思います。メンテナとしての私には2つのことがあります。まず、少し圧倒されています。それを読む時間がありません。特に古いライブラリとして、それは私にとって優先事項ではないからです。

同時に、感謝もしています。人々が忘れていることの1つは、単にLLMを使うだけではないということです。何かを検証する人間のレイヤーがまだあります。それはある意味、データがラベル付けされる方法と同じですよね。最も高価なものの1つは、人間のフィードバックフェーズからの強化学習のためのラベル付きデータを取得することです。

これはそれに似ていて、フェーズを経て、そこからより高品質なデータが得られます。だから、ある意味気にしません。圧倒されるように感じることもありますが、価値があると思います。

生のLLM生成データと、コードの行の小さなパーセンテージであってもある種の検証を行う人間がループにいるLLM生成データとの間には根本的な違いがあるように感じます。

これは何にでも当てはまると思います。人々は時々「ああ、そう。LLMを使ってXYZについて学べる」と考えますが、それは本当です。でも特定のコードを書くためにLLMを使った専門家がいるかもしれません。それを良くするため、あまり良くない部分を捨てるために、あなたのためにそれを事前に消化するための人間の作業があります。それがあなたの時間を節約します。

それが価値の追加だと思います。誰かが物事をフィルタリングしているか、LLMを正しく使っているかです。これは無料で得られる労働です。例えば、記事を読むこと、Substackの記事を読むとします。それについての意見をLLMに求めることもできますが、何を尋ねればいいかさえ分からないでしょう。

その記事を読むことには、LLMに行くのとは異なる価値があると思います。あなたが専門家だからです。どの知識が実際に的確か、何が含まれるべきかを選択し、この非常にエグゼクティブなサマリーを提供してくれます。これは膨大な価値の追加です。なぜなら、今私は3時間や5時間を無駄にして自分でこれを調べる必要がなく、おそらく不正確な情報を得るなどもないからです。

だからそれが作家にとっても未来だと思います。LLMがあるにもかかわらずです。時間を節約できます。

実際に見るのは魅力的です。あなた方もやっていると確信していますが、私にとっては要約と元のコンテンツの違いを見ることです。ページ長のコンテンツのページ長の要約であっても、LLMベースの要約がどうエッジを取り除くかを見るのは興味深いです。

それが削除する信号のようなものですか。

声が私がよく話すことです。

声とは。声とは何を意味するのか聞きたいですが、時には文字通り洞察があります。洞察を削除することで、そのものの意味を根本的に変えているんです。LLMが本当に核心的な洞察を得ることにどれほど悪いか、継続的に失望しています。それが素晴らしい要約が行うことなんです。

私がこれらの広範な非常に精巧なプロンプトを持っていて、本当に洞察を掘り下げようとしても、まだ完全にはそこにありません。つまり、それは人間の知識と知恵とは何か、洞察的であることは何を意味するかについての全体的な深い哲学的な質問です。

でも声について話すとき、何を意味しますか。

私が書くとき、やろうとしていることの多くは、研究者としてのあなたの考えを取ることです。それは非常に生です。研究者は理解の最前線にあるアイデアをカプセル化しようとしており、感覚を言葉にしようとしています。私は自分の執筆でこれをやろうとしていて、それが生々しく聞こえるようにしますが、ある人々が理解し、ある人々が理解しないような高情報な方法でもあります。それが研究の性質です。

これは言語モデルがうまくやらないことだと思います。それらはすべてRLHFで訓練されており、多くの人々からフィードバックを取り、モデルの振る舞いを平均化するように設計されています。そしてモデルがその中にそのフィルターがあるときに非常に鋭くなるのは難しいと思います。これはRLHFの研究者にとって素晴らしい根本的な問題です。モデルをより良くすることに非常に多くの有用性を提供しますが、問題の定式化にはそれを越えられない結び目があります。

これらの言語モデルは、彼らが到達しようとしている深い表現に先行するものを持っていません。不可能だとは思いません。人々を本当に驚かせるモデルのストーリーがあります。Bing Sydneyを試してみたかったです。それはより多くの声を持っていましたか。しばしば人々に対して脱線したからです。歴史的に明らかに恐ろしい方法で、記者に妻を離れるように言うなど、一般採用に入れる可能性のあるクレイジーなことです。

でもそれはトレードオフのようなものです。このRLHFプロセスはある意味で制限を加えているのでしょうか。

これらのフロンティアラボや企業の1つとして、そこにいるのは恐ろしい場所です。何百万人もの人々がそれらを使っているからです。

去年、GPT-4が削除されたことで多くの反発がありました。

私はそのモデルを使ったことはありませんが、OpenAIの人々と話したことがあります。夜中でも展開の微妙な違いを検出しているユーザーからメールを受け取ります。「私の友達が違う」と。従業員のメールを見つけます。展開されているモデルウェイトと構成のセットに非常に愛着を持っているからです。TikTokでこれを見ます。

私はTikTokを使いませんが、おそらく5分でアルゴリズムがあなたを捕まえるとされています。ロックインされるようなものです。それらは推薦を行う言語モデルです。これを行う方法があると思います。5分のチャット以内に、モデルがあなたを理解します。そしてそれは人々がまだ準備できていないことです。少なくとも何が起こっているか分かるまで、子供に与えないでください。

AIと人間の心理的影響

メカニズムもあるでしょう。これらのLLMがますます使われるようになると何が起こるか。残念ながら人間の条件の性質は、人々が自殺を犯すというものです。ジャーナリストは自殺を犯す人々について広範に報道するでしょうし、LLMに関連付ける可能性が非常に高いです。会話についてのデータがあるからです。

本当に苦しんでいる場合、うつ病の場合、自殺について考えている場合、おそらくそれについてLLMと話すでしょう。だからジャーナリストは「自殺はLLMのせいで犯された」と言うでしょう。そしてそれが企業に、法的問題のために、LLMからエッジを取り除くことにつながるでしょう。

可能な限り一般的になるでしょう。この空間で運営するのは非常に難しいです。可能な限り一般的であるため。人間にそのレベルで害を引き起こすことをLLMに望まないからです。でもこれも人間の経験の性質です。豊かな会話、充実した会話、挑戦されて成長する会話を持つこと。そのエッジが必要です。

そしてそれはAI研究者にとってRLHFの前線で解決するのが非常に難しいことです。実際に人間の条件を扱っているからです。

これらの企業の多くの研究者は非常に良い動機を持っています。AnthropicとOpenAIは文化的に世界のために良いことをしたいと思っています。そしてそれは非常に…「私はこれに取り組みたくない」と思います。多くの人々がAIを健康の味方、機密に健康について話せる誰かと見ているからです。でもそれは精神的健康について話すことに滲み出てきて、誰かがエッジを越えるところです。

エッジ、エッジですが、他の人々は救われるかもしれません。そして「私は…」と思います。モデルを訓練する研究者として、私が望まないことがあります。画像生成モデルを訓練してそれらをオープンにリリースしたくありません。他の人々に害を与えることができるツールをラップトップに誰かが持つことを可能にしたくないからです。私の会社にはそれを安全に行うインフラがありません。でも…

これのような多くの領域があり、複雑さと確信を持ってアプローチする人々が必要です。非常に難しい問題だからです。

でも私たち社会として、これらの技術のユーザーとして、恐怖を煽るのではなく、それについての複雑な会話をしていることを確認する必要があります。

「ビッグテックが人間に害を引き起こしている」とか「あなたのデータを盗んでいる」とか、そういったすべてのこと。それよりも複雑です。そしてあなたは正しいです。これらの企業の内部には非常に多くの人々がいて、あなたが知っている多くの人、私が知っている多くの人が、人々を助けることを深く気にかけています。彼らは世界中の人々の完全な人間的経験を考慮しています。シリコンバレーだけでなく。

米国全土の人々、世界中の人々、それが何を意味するか、彼らのニーズは何か。異なる年齢層、文化、精神状態、条件にわたるこれらすべての異なる種類の人々を助けることができるこの1つのシステムを設計するのは本当に難しいです。

AIのタイミングが、平均的な人のビッグテックとの関係について異なっていればと思います。

ビッグテックの評判は非常に低く、AIが非常に高価であることで、必然的にビッグテックのものになります。非常に多くのリソースがかかり、人々は米国がこのビルドアウトで「経済をAIに賭けている」と言います。これらが同時に絡み合っていることが、非常に困難なコミュニケーション環境を作ります。

ビッグテックを嫌い、AIをこれの継続と見ている世界の人々ともっと話に行くといいでしょう。

あなたが推奨することの1つ…あなたが話す解毒剤の1つは、このシステム全体で主体性を見つけることです。無力な方法で座ってAIスロップを消費するのではなく、インターネットを急速に乗っ取るのを見るのではなく。

AIを使って物を構築することで主体性を見つけてください。アプリを構築してください。一つ、それは実際に直感を構築するのに役立ちますが、二つ、それは力を与えます。どう機能するか、弱点は何かを理解できるからです。「これは技術の悪い使い方で、これは良い使い方だ」と言う声に力を与えます。

そしてあなたはシステムにもっとプラグインされているので、より良く理解でき、消費者としてより良く操縦できます。

主体性についてのそれは良い点だと思います。それを無視して「使わない」と言うのではなく、長期的にはおそらくより健康的に「それは存在する。戻すことはできない」と言うことだと思います。インターネットやコンピュータが出てきたときのように。

どうやってそれを最大限に活用するか、どうやって自分をレベルアップするのに役立てるか。心配することの1つは、愛することを完全にそれに使うと、愛することがもはやそこにないということです。そしてそれは潜在的に燃え尽きにつながる可能性があります。例えば、すべてのコーディングをLLMに使わせると、もうコーディングがありません。

私のためにコーディングしている何かを管理しているだけです。2年後、1日8時間それをやっているだけなら、何かに私のためにコードを書かせて、まだ充実していると感じますか。つまり、これは、私の仕事や私がやっていることについて興奮していることという点で私を傷つけていますか。まだ何かを構築することに誇りを持っていますか。

開発者調査とAIの楽しさ

楽しみのトピックについて、かなり興味深いです。ここに投げ込むべきですが、約791人のプロの開発者の最近の調査があります。プロというのは10年以上の経験を意味します。

それは長い時間ですね。ジュニア開発者としては。

ええ、今日この時代には。多くの面で驚くべき側面もあります。ジュニアとシニア開発者に分けています。

でもそれは、ジュニアとシニア開発者の両方が出荷するコードでAI生成コードを使っていることを示しているだけです。これは単に楽しみや中間的な学習のためではありません。これは彼らが出荷するコードです。だから25%、ほとんどが50%以上を使っています。そして興味深いのは、出荷するコードの50%以上がAI生成というカテゴリーで、シニア開発者がそうする可能性がはるかに高いということです。でもAIに愛することを奪ってほしくありません。

これは私の経験と一致していると思います。これから言う特定の結果です。合わせて約80%の人々が、仕事の一部としてAIを使うことがやや楽しいか大幅に楽しいと感じています。

タスクによると思います。私の個人的な使用から、例えば、時々ウェブサイトでものを調整するウェブサイトがあります。個人的にこれは楽しくありません。

だからその意味で、AIがウェブサイトに何かを実装するのを助けてくれるなら、私はすべて賛成です。素晴らしいです。でも同時に、複雑な問題を解決するとき、バグがあってそのバグを追跡し、見つけたとき、それは世界で最高の感覚です。とても多くの喜びを得ます。素晴らしい気分になります。でも今、バグについて考えもせず、直接LLMに行くと、この種の感覚を決して持てません、よね。でも真ん中があるかもしれません。自分で試して、見つけられず、LLMを使って、イライラしないで済みます。楽しむことに移れるのを助けてくれるから。

これらの統計を見ると、考慮されていない違いは、それがすべての異なるシナリオにわたって平均していることです。核となるタスクのためなのか、そうでなければ人々が楽しまなかったような平凡なもののためなのか分かりません。

だから、ある意味、AIは多くの作業がかかる平凡なことをするのに本当に素晴らしいです。例えば、先日私の妻が、本の議論のためのポッドキャスト、ブッククラブを持っていて、SpotifyからYouTubeにショーノートを転送していて、リンクが何らかの形で壊れました。そしていくつかのエピソードでは、非常に多くの本があるので、100個のリンクがあって、各リンクを手動で修正するのは本当に苦痛だったでしょう。だから私は「ChatGPTを試してみよう」と提案しました。

テキストをChatGPTにコピーして、修正してくれました。そしてリンクからリンクへ2時間かかる代わりに、その種の作業をはるかにシームレスにしました。AIが本当に退屈で、本当に平凡な何かに役立つユースケースは誰にでもあると思います。

個人的には、コーディングについて話していて、デバッグについて言及しましたが、私にとっての楽しみの源の多くは、Cursor側よりもCloud側の方ですが、友達がいる、ペアプログラマーがいることです。孤独が減ります。デバッグをこの素晴らしい喜びのように聞こえさせましたね。デバッグは数日間砂漠を通り抜けた後の水一杯のようなものだと私は言います。だから苦しんでいる砂漠全体の部分をスキップします。

時にはバグを本当に見つけられないけど、コードについての直感を与えてくれる友達がいて、その友達と一緒に砂漠を通り抜けて、一緒にその水一杯を見つけるのはいいことです。少なくとも私にとっては、プログラミング体験の孤独さについて語っているのかもしれません。それが喜びの源です。

遅延満足に関連しているのかもしれません。子供の頃から、クリスマスプレゼントのアイデア、それらを持つこと、楽しみにすることが、実際にそれらを得ることよりも好きでした。その日を楽しみにしていましたが、それが終わるとがっかりします。食べ物に似ていると思います。本当にお腹が空いているときの方が食べ物は美味しいです。

デバッグについてもあなたは正しいです。常に素晴らしいわけではありません。しばしばイライラしますが、解決できればそれは素晴らしいです。ゴルディロックスゾーンがあります。難しすぎると時間を無駄にしています。でもそれが別の課題だと思います。人々はどう学ぶのか。見たチャートでは、シニア開発者がジュニアよりも多くのAI生成コードを出荷していることが分かりました。

非常に興味深いです。直感的にはジュニア開発者だと思うからです。まだやり方を知らないから。AIがまだ十分に良くないことを意味するかもしれませんし、専門家がそれをより効果的に使っていることを意味するかもしれません。どう使うかを知っていて、コードをレビューし、より信頼しています。

将来の1つの問題は、自分で試さなければどうやって専門家になるかです。私が学んだ方法は自分で試すことです。数学の教科書のように、解答を見るだけでも何かを学びますが、最初に試した方がより良く学ぶと思います。

解答を異なる方法で評価します。精神的枠組みに入れられるからです。LLMが常にここにあるなら、実際に苦労する長さを経るでしょうか。苦労は素敵ではありませんよね。でもすべてを行うためにLLMを使うと、ある時点で本当に次のステップを踏むことは決してなく、専門家としてLLMを使うことで得られるその解放を得られないかもしれません。

だから、ゴルディロックスの甘い場所があると思います。おそらくここでのトリックは、1日2時間勉強する専用のオフライン時間を作り、残りの日はLLMを使うことです。でも人々が自分自身に投資し続けることは重要だと思います。私の意見では、すべてをLLMで済ませるのではなく。

ええ、文明として、個々に、そのゴルディロックスゾーンを見つける必要があります。

ポスト学習とRLVR

プログラミングの文脈で開発者として。さて、事前学習と中間学習から始まったこの魅力的な会話をしてきました。ポスト学習に行きましょう。ポスト学習には多くの楽しいものがあります。ポスト学習のいくつかの興味深いアイデアは何ですか。

2025年からの最大のものは、検証可能な報酬を用いたこの強化学習を学ぶことです。そこで訓練をスケールアップできます。これは、この種の反復的な生成-評価ループを多く行うことを意味し、モデルがツール使用とソフトウェア側で興味深い振る舞いを学ぶことを可能にします。これは検索、自分でコマンドを実行して出力を見ることなどです。そしてその訓練がこの推論時スケーリングを非常にうまく可能にします。

そしてこのパラダイムが非常にうまくリンクしていることが判明しました。この種の強化学習訓練が推論時スケーリングを可能にするということです。でも推論時スケーリングは異なる方法で見つけられたかもしれません。だからモデルが大きく変化する完璧な嵐でした。そして訓練される方法がそうする主要な要因です。

そしてこれがポスト学習へのアプローチを劇的に変えました。

DeepSeek R1によって普及したRLVRについて説明できますか。どう機能しますか。

ええ。面白い事実ですが、私はRLVRという用語を考え出したチームにいました。DeepSeek以前の私たちのTulu 3の作業からです。強化学習のスケーリングを普及させた人々として功績を主張しませんが、学術研究者として得られるのは、クローズドラボが多くを言えないため、名前を付けて言説に影響を与える能力です。

学術研究者としてできることの1つは、モデルを訓練する計算資源はないかもしれませんが、結果的にそうなる方法で物事を枠組みできることです。このRLVR用語の周りにコミュニティが集まることができると説明しています。それは非常に楽しいです。

そしてDeepSeekは訓練のブレークスルーを行った人々です。モデルに答えを生成させ、それが正しかったかどうか完了を評価し、その正確さが強化学習の報酬になる強化学習をスケールしました。強化学習は古典的に環境で行動するエージェントで、環境は状態と報酬を返し、この報酬を最大化しようとします。

言語モデルの場合、報酬は通常、検証可能なタスクのセットでの正確さです。数学問題でもコーディングタスクでも。そして事実領域のようなもので曖昧になり始めます。それもある意味で検証可能か、Aで始まる単語のみで応答するなどの指示の制約です。

これらすべてのものは何らかの形で検証可能で、これの核となるアイデアは、検証可能なこれらの問題をはるかに多く見つけ、これらの強化学習ステップ、強化学習勾配更新を取りながら何度も試させることです。インフラは人間のフィードバックからの強化学習から進化しました。そこで最適化しようとしていたスコアは、集約された人間の好みの学習された報酬モデルでした。

問題領域を変更し、それが最適化をはるかに大きなスケールに進めることを可能にし、モデルができることと人々がそれらをどう使うかの大きな変化を開始しました。

RLVRはどんな領域に適していますか。

数学とコードが有名なもので、そしてルーブリックと呼ばれるものに関する多くの作業があります。これはLLM-as-a-judgeという人々が聞いたことがあるかもしれない言葉に関連しています。それは各問題について、訓練データセットに一連の問題があります。

そして別の言語モデルを持ち、「この問題への良い答えはどのように見えるか」と尋ねます。そして問題を何度も試して、このルーブリックに基づいてスコアを割り当てることができます。だからそれは数学やコード領域のように必ずしも検証可能ではありませんが、このルーブリックのアイデアやもう少し曖昧かもしれない他の科学的問題が多くの注目を集めているところです。これらの種のメソッドをこれらのよりオープンエンドな領域に押し込もうとしているので、モデルははるかに多くを学べます。

それはAIフィードバックを用いた強化学習と呼ばれていると思います。

それはAnthropicのConstitutional AI論文で作られた古い用語です。だからこれらの多くはサイクルで来ます。

RLVRについて一歩戻ると。ここで興味深いことは、LLMに数学の質問を尋ねると、正しい答えが分かり、LLMに、あなたが言ったように、解き明かさせますが、どうやるかは、あまり制約しません。「同じ言語を使う、スペイン語と英語を切り替えない」のようないくつかの制約を追加できます。でもかなり手を離していると言いましょう。質問と答えだけを与え、そしてLLMは正しい答えに到達するというタスクを持ちますが、美しいことは実際に起こることは、LLMが段階的な説明を行うことです。学生や数学者がどう解を導くかのように。

あなたに、または解に至るこれらのステップを使うように与えます。そしてそれが実際にモデルが自分の正確さを改善するのに役立ちます。そしてあなたが言ったように、推論スケーリング。推論スケーリングは大まかに意味するのは、推論中にLLMを使う間により多くの計算資源を費やすことで、ここでの推論スケーリングはモデルがより多くのトークンを使うことです。

R1論文で、モデルを長く訓練するほど応答が長くなることを示しました。時間とともに成長します。より多くのトークンを使うので、単純なタスクにはより高価になりますが、これらの説明がモデルの正確さを助けます。モデルが説明することが必ずしも正しくなくても、答えとは無関係かもしれなくても、何らかの理由でモデルを助ける興味深い論文もあります。

説明しているという事実です。そしてこれもまた、これらのLLMを擬人化したくありませんが、私たち人間がどう機能するかのようなものですよね。複雑な数学問題があれば、数学の授業で、通常はメモ用紙があって段階的にやります。物を消します。

そしてモデルも自己修正し、それがR1論文でのアハモーメントだったと思います。彼らはそれをアハモーメントと呼びました。モデル自身が間違いを犯したことを認識し、「ああ、何か間違ったことをした。もう一度試してみよう」と言ったからです。そしてそれが単に正しい答えを与え、どうやるかを解き明かさせるだけで出てくることが非常にクールだと思います。ある意味で人間がすることをするんです。

LLMは人間のように考えませんが、興味深い偶然のようなもので、そして他の素晴らしい副作用は、これらのステップを見ることが私たち人間にとって素晴らしいことが多いということです。信頼を構築しますが、学びもします。物事を再確認できます。

ここには多くがあります。言語モデルがこれらのアハモーメントを好きかどうかについて今年多くの議論があったと思います。アハモーメントは偽物だと思います。事前学習で基本的にインターネット全体を見ているからです。だから人々が自分の作業を説明しているのを間違いなく見ています。数学講義の転写のように口頭でさえ。「これを試して、ああ、これを台無しにした」と。そして強化学習、このRLVRが非常に得意なのは、モデルがより長く考え、作業をチェックすることを可能にするのに非常に有用なので、これらの振る舞いを増幅することです。

そしてこの訓練が最終的な答えがより良くなるのに非常に有用な方法でモデルがこれを増幅することを学ぶのは非常に美しいことに同意します。

実践的な例も挙げられます。私はMATH 500でRLVRを使ってQwen 2.5基盤モデルを訓練していました。基盤モデルは約15%の正確さでした。わずか50ステップ、数分でRLVRで、モデルは15%から50%の正確さになりました。そしてモデルは、数学について根本的に何かを学んでいるとは言えません。

Qwenの例は奇妙です。今年、私が参加したものを含む2つの論文がQwenのデータ汚染についてありました。特に彼らが多くを訓練するこの特別な中間学習フェーズで、私たちが1分を費やしました。それが奇妙だからです。

正確に。正確に。そして。

MATHとほぼ同一の問題で訓練しているからです。

正確に。だから基本的に強化学習は、モデルに数学についての新しい知識を教えていないことが分かります。50ステップではそれはできません。だから知識はすでにそこにあります。事前学習で、それを解放しているだけです。

証明できない多くの奇妙な複雑さがあるので、前提に同意しません。奇妙さを指摘することの1つは、Qwen 2.5いわゆる基盤モデルを取って、「math dataset, Hugging Face」とGoogleで検索できて、問題を取れることです。Qwen 2.5基盤に入れると、これらすべての数学問題には単語があるので、「アリスが5つのリンゴを持っていて1つを取り、3つを誰かに与える」のような単語の問題があります。

これらのQwenベースのモデルが疑われている理由は、数字を変えても単語を保持すると、Qwenはツールなしで答えの非常に高精度の小数表現を生成します。つまり、ある時点でテストセットとほぼ同一の問題を示され、非常に高精度の答えを得るためにツールを使っていたということです。でもツールなしの言語モデルは決して実際にこれを持つことはありません。

だからこれは研究コミュニティで大きな議論になっています。QwenでRLVRを訓練してこの数学ベンチマークで特に測定している強化学習論文のうち、汚染について話している複数の論文があるところで、どれだけ信じられますか。RLVRがフォーマットについてであるという評判をこれが引き起こしたと思います。これらの利得を非常に速く得られるので、すでにモデル内にあるに違いないからです。

でもここには多くの複雑さがあります。制御された実験のようなものではないので、本当に分かりません。

でも真実でなければ、蒸留は機能しないと思います。つまり、蒸留はある程度機能できますが、最大の問題は研究汚染です。データに何があるか分からないからです。新しいデータセットがない限り、本当に不可能です。

そしてあなたが言及したMATHデータセットでも、質問、答え、説明が与えられていますが、MMLUのようなもっと単純なものでも、多肢選択ベンチマークです。フォーマットを少し変えるだけで、ドットの代わりに括弧を使うとか、そういったことで、モデルの正確さは大きく異なります。

それはモデルの問題であって一般的な問題ではないかもしれないと思います。

LLMの開発者による悪意さえありません。「ベンチマークでカンニングしたい」のような。ある時点で何かを見ただけです。LLMを評価する唯一の公正な方法は、LLMが展開されたカットオフ日の後の新しいベンチマークを持つことだと思います。

ポスト学習のレシピ

ポスト学習に入るすべてのもののレシピを示せますか。RLVRが本当にエキサイティングで効果的なものだと言及しましたね。おそらく詳しく説明すべきです。RLHFはまだ非常に重要な構成要素を演じます。ポスト学習には他にどんなアイデアがありますか。

順番に取れると思います。o1、この最初の推論モデルを可能にしたものは何か、または最新のモデルが何かと見ることができます。実際にこれらの段階で類似の介入があり、中間学習から始まり、o1や類似のモデルを可能にすると噂されているものは、推論トレースと呼ばれる広範なセットを提供する非常に慎重なデータキュレーションです。これは単にモデルが前進プロセスで言葉を生成していることで、反映しています。問題を中間ステップに分解してそれらを解決しようとすることのように。中間学習で、

これに類似したデータを持つ必要があり、ポスト学習に移るとき、主にこれらの検証可能な報酬で、学べるようにします。そして今日起こっていることは、モデルにどの問題を与えるか、どれくらいの期間訓練できるか、これらの検証可能な問題を解決するときにモデルにどれだけの推論を使わせられるかを解き明かしています。

モデルが良くなるにつれて、特定の問題、モデルが良くなると、特定の問題はもはや、モデルが100%の確率でそれらを解くでしょう。したがってこれには非常に少ない信号があります。GRPO方程式を見ると、これはこれで有名です。本質的にエージェントに与えられる報酬は、与えられたアクション、完了が同じ問題への他の答えと比べてどれだけ良いかに基づいています。だからすべての問題が同じ答えを得たら、信号がありません。

だからより難しい問題を見つけています。だから科学領域のようなものについて聞くんです。それは非常に難しいです。そこで何か正しいものを得ることは、ラボか何かを持っていれば、非常に多くのトークンを生成するだけです。またははるかに難しいソフトウェア問題です。だからフロンティアモデルはすべて、より多くの問題で訓練でき、一度により多くのスキルを学べるこれらのより難しい領域に押し込んでいます。

これへのRLHFのリンクは、RLHFがずっとそうであり、今もモデルへの最後の仕上げであることです。組織やスタイルやトーンを改善することでそれらをより有用にします。異なるものが異なる聴衆に共鳴します。風変わりなモデルが好きな人もいますし、RLHFはその個性を可能にするのに良いかもしれません。そしてモデルがするこのマークダウンの箇条書きリストのことを嫌う人もいますが、情報を素早く解析するのに実際に本当に良いです。

RLHFでは、この人間のフィードバック段階が、最終的にこれをモデルに入れるのに本当に素晴らしいです。ChatGPTを人々にとって非常に魔法的にしたものです。そしてその使用は実際にかなり安定しています。このフォーマットは、モデルが例えば数学問題でより良くなるのを助けることもできます。だからスタイルとフォーマットの境界、問題に答えるために使う方法は、実際に、これらのモデルを訓練するとき非常に密接にリンクされています。だからRLHFはまだモデルを数学でより良くできますが、これらの検証可能な領域はこれを行うためのはるかに直接的なプロセスです。問題の定式化でこれがより意味を成すからです。だからすべてが一緒に形成される理由です。

でも要約すると、中間学習はモデルに学ぶために必要なスキルを与えることです。

検証可能な報酬を用いた強化学習は、モデルに何度も試させることです。難しい問題にわたる試行錯誤学習に多くの計算資源を入れることです。そしてRLHFは、モデルを仕上げ、使いやすくし、モデルを丸めるようなものです。

RLVRに必要な計算量についてコメントできますか。

ずっと上がってきています。Greg Brockmanが事前学習とポスト学習で同様の計算量を使うと言ったことで有名だと思います。

スケーリングの議論に戻ると、非常に異なるハードウェアをスケーリングに含みます。事前学習は非常に計算バウンドです。これはFLOPsの議論のようなもので、1回にどれだけの行列乗算を通過できるかです。そして強化学習は、これらの答えを生成しているので、実際の環境でモデルを試しているので、より多くのメモリバウンドになります。長いシーケンスを生成していて、アテンションメカニズムには、より長いシーケンスに到達するにつれてメモリが二次的に増加するこの振る舞いがあるからです。だから計算資源が非常に異なります。

事前学習でモデルについて話すとき、バイデン政権の大統領令に戻ると思いますが、モデルを訓練するのに10の25乗FLOPsのようなものです。ポスト学習でFLOPsを使っている場合、はるかに奇妙です。現実は単に何時間割り当てているか、どれだけのGPUに対してかのようなものだからです。そして時間の観点で、強化学習の計算資源ははるかに近づいていると思います。すべてを1つのシステムに入れられないからです。

事前学習は非常に計算的に密で、すべてのGPUが互いに話し、非常に効率的ですが、強化学習にはすべてのこれらの動く部分があり、10万トークンのシーケンスを生成するのに長い時間がかかることがあります。GPT-4oが1時間かかることについて考えると、訓練実行が1時間サンプリングしなければならず、それが効率的に処理されることを確認しなければならない場合どうですか。だからGPU時間または単に壁時計時間で、強化学習実行はおそらく日数として事前学習に近づいていると思いますが、おそらく同時に多くのGPUを使っていないでしょう。

ラボでは事前学習実行が1ヶ月以上続くことを望まない経験則があります。壊滅的に失敗するからです。そして巨大なクラスタを2ヶ月保持する計画をして、50日目に失敗したら、機会費用が非常に大きいです。

だから人々はすべての卵を1つのバスケットに入れたくありません。それは、GPT-4が究極のYOLO実行で、訓練に3ヶ月かかり、誰もがうまくいったことにショックを受けました。人々は今、もう少し慎重で漸進的だと思います。

RLVRはより、言いましょう、どれだけ訓練して利益を得られるかに制限がないところで、RLHFは好み調整なので、ある点に達するとそれ以上の強化学習予算をそれに費やす意味がなくなります。

一歩戻って好み調整について。同じことについて複数の説明を与えられる複数の人々がいて、両方とも正しいことがありますが、ある時点であるスタイルを学び、それで繰り返す意味がなくなります。お気に入りの例は、親戚がどのラップトップを買うべきか尋ねてきたら、説明を与えるか、「あなたのユースケースは何ですか」と尋ねます。例えば、バッテリー寿命とストレージを優先するかもしれません。

私たちのような他の人々は、RAMと計算資源を優先するでしょう。そして、でも両方の答えは正しいですが、異なる人々が異なる答えを必要とします。そして好み調整では、何らかの形で平均化しようとしています。データラベラーに好ましい答えを求め、それで訓練します。でもある時点で、その平均的な好ましい答えを学びます。

そしてそれで長く訓練し続ける理由はありません。単なるスタイルだからです。一方RLVRでは、文字通りモデルにますます複雑で困難な問題を解かせます。だから長期的にRLVRにより多くの予算を割り当てる方が意味があると思います。今は、まだそのシンプルなもので、質問と答えがあるRLVR 1.0の土地にいますが、その間のものでは何もしません。

例えばGoogleによる複数の研究論文がありました。説明のスコアも与えるプロセス報酬モデルについて、説明がどれだけ正しいか。そしてそれが次のことになると思います。今年のRLVR 2.0と言いましょう。質問と答えの間に焦点を当てて、その情報を活用して説明を改善し、より良くなるのを助ける方法です。

正確さ。でもそれから、それは1つの角度です。そしてDeepSeek Math-V2論文があり、そこでも興味深い推論スケーリングがあり、最初に、自分自身を評価するモデル、別のモデルを開発しました。そしてそれが1つの側面になると思います。そしてNathanが言及したように、他の領域にRLVRが分岐することです。

人々がエキサイティングな場所は価値関数です。これはかなり似ています。プロセス報酬モデルはある種、プロセス報酬モデルは推論プロセスの各中間ステップにどれだけ良いかを割り当てます。一方、価値関数は言語モデルが生成するすべてのトークンに価値を適用します。

これら両方は言語モデリングとこの推論モデル時代において大部分が証明されていません。人々は今、何らかの理由で価値関数についてより楽観的です。プロセス報酬モデルはこのo1以前、推論モデル以前の時代にはるかに多く試されたと思います。多くの人々が多くの頭痛を抱えました。だから多くはそれらで、価値モデルは強化学習で非常に深い歴史があると思います。深層強化学習が存在するために核心だった最初のものの1つは、価値モデルを訓練することです。だから今、文献では、人々は価値モデルを試すことにエキサイティングですが、それにはほとんど証拠がありません。

そしてプロセス報酬モデルをスケールアップしようとすることの否定的な例があります。これらのことは将来常に成立するわけではありません。スケーリングについて話すことでこの議論に来ました。そしてあなたが言っていることを要約する簡単な方法は、あまりにも多くのRLHFをやりたくないということです。それは本質的に信号がスケールするということです。人々は言語モデルのためのRLHFに何年も取り組んできました。特にChatGPT後の激しい関心です。

そして推論モデルの最初のリリース、RLVRで訓練されたOpenAIのo1は、訓練計算資源を対数的に増やすと、評価で線形増加が得られるスケーリングプロットがあり、これは複数回再現されています。DeepSeekはこのようなプロットを持っていたと思います。

でも計算資源を対数増加させると何らかのパフォーマンスが得られるRLHFのスケーリング法則はありません。実際、RLHFの根本的なスケーリング論文は報酬モデル過最適化のスケーリング法則です。だからそれはRLVRと今持っているメソッドと将来のメソッドとの間に引く大きな線です。このスケーリングパラダイムに従うでしょう。最良の実行を追加の10倍実行させられ、数倍のパフォーマンスが得られますが、RLHFではこれができません。

そしてそれは人々がそれらにどうアプローチするかでフィールドを定義するものになるでしょう。私が学術的にRLHFをやる人々の広告塔である一方、それを説明する良い方法は、最良のRLHFをやるには追加の10倍や100倍の計算資源は必要ないかもしれませんが、最良のRLVRをやるには必要だということです。だからMetaインターンシップからの根本的な論文があると思います。言語モデルで強化学習をスケールする技術のようなタイトルです。

彼らがフレームワークとして説明するものはScaleRLです。そして彼らの漸進的な実験は1万V100時間のようなもので、実験ごとに数千または数万ドルで、多くやります。このコストは平均的な学術研究者にはアクセスできません。各コミュニティから学ぶ方法を解き明かそうとしている難しい均衡です。

AIと教育について

少し脇道にそれて、教育と学習について話せればと思います。これを聞いている人で、プログラミングとAIに興味のあるスマートな人なら、何かをゼロから構築することが良い始まりだと思います。人々に何をすることを推奨するか、教えてもらえますか。

個人的には、自分のコンピュータで実行できるシンプルなモデルをゼロから実装することから始めます。

目標は、個人プロジェクトのために毎日使うものを持つことではありません。既存のオープンウェイトモデルやChatGPTを置き換える個人アシスタントになるものではありません。LLMに何が入り、何が出て、事前学習がどう機能するかを正確に見ることです。できれば自分のコンピュータで。そして事前学習、教師あり微調整、アテンションメカニズムについて学びます。

物事がどう機能するかの確固たる理解を得ますが、ある時点で限界に達ちます。ホームモデルができることには限りがあるからです。スケールでのLLMについて学ぶことの問題は、より大きなモデルを作るのに指数関数的により複雑だということです。モデルが大きくなるだけではないからです。複数のGPUにわたってパラメータをシャーディングすることについて考えなければなりません。

KVキャッシュでさえ、実装する複数の方法があります。どう機能するかを理解する1つの方法は、リストを連結するなどして段階的にキャッシュを成長させることですが、それはGPUで最適ではないでしょう。テンソルを事前割り当てしてから埋めます。でもそれは20か30行のコードを追加します。追加するものごとにコードがあり、本でのトリックはLLMがどう機能するかを理解することです。

本番レベルのLLMにはなりませんが、それを持てば、本番レベルのLLMを理解できます。

だから常に1つのGPUに収まるLLMを構築しようとしているんですね。

そうです。ほとんどがそうです。いくつかのMoEモデルでボーナス資料があります。1つか2つは複数のGPUを必要とするかもしれませんが、目標は1つのGPUに持つことです。

LLMの仕組みを学ぶ最良の方法

素晴らしいのは自己検証ができることです。ほとんどRLVRのようなものですね。これらをゼロから実装すると、Hugging Face Transformersライブラリから既存のモデルを取得できます。あのライブラリは素晴らしいのですが、LLMについて学びたいのであれば、最良の出発点とは言えないと思います。なぜなら、コードが非常に複雑だからです。非常に多くのユースケースに対応しなければならないのです。

人々が本番環境で使用するため、本当に洗練されていて複雑に絡み合っています。線形に読むことができないんです。

最初は微調整ライブラリとして始まったのですが、その後成長して、あらゆるモデルアーキテクチャの標準的な表現になりました。Hugging Faceはモデルを取得するデフォルトの場所であり、Transformersはそれを可能にするソフトウェアなので、人々は簡単にモデルを読み込んで基本的な操作ができるわけです。

そして、オープンウェイトモデルを持つすべてのフロンティアラボには、Transformersバージョンがあります。DeepSeekからGPT-2まで。それがそこで読み込める正規の重みです。しかし、Transformersライブラリでさえ、本番環境では使用されていません。人々はSGLangやvLLMを使用していて、さらに別の複雑さの層が加わります。

Transformersライブラリには約400のモデルがあることを言っておくべきですね。

つまり、多くのLLMを実装しようとする1つのライブラリなので、基本的に巨大なコードベースがあるわけです。本当に巨大です。おそらく数百万…数十万行のコードでしょう。

理解したい部分を理解することは、干し草の山から針を見つけるようなものです。しかし、美しいのは、動作する実装があるということで、そこから逆算できるんです。私が推奨するのは、そして私自身もやっていることですが、例えばLlama 3がどのように実装されているかを理解したい場合、モデルハブの重みと設定ファイルを見ます。そうすると「ああ、彼らはこれだけの層を使っているんだ」と分かります。

例えば、Group Query AttentionやMulti-Head Attentionを使っている場合もあります。そうすると、人間が読める100行の設定ファイルですべてのコンポーネントが見えるわけです。そして、例えばGPT-2モデルから始めて、これらの要素を追加していきます。ここで素晴らしいのは、事前学習済みの重みを読み込んで、自分のモデルで動作するかどうかを確認できることです。

Transformerモデルで得られるのと同じ出力に一致させたいわけで、それを検証可能な報酬として使用して、アーキテクチャを正しいものにできます。そして、それはある種の…時には1日かかることもあります。Llama 3の場合、課題はポジション埋め込みのためのRoPEでした。YaRN拡張があり、そこにはカスタムスケーリングがあって、これらを完全に一致させることができませんでした。この苦労の中で、ある意味理解していくんです。

しかし最終的には、ユニットテストができるので正しいことが分かります。リファレンス実装と照合できますし、これが本当に学ぶための最良の方法の1つだと思います。基本的に何かをリバースエンジニアリングするということです。

これは今日AIに入門しようとしているすべての人がやるべきことだと思います。

だから私はあなたの本が気に入ったんです。私は強化学習とロボティクスの分野から言語モデルに来たので、基礎をすべて学ぶ時間を取ったことがありませんでした。そして、このTransformerアーキテクチャは非常に基本的なものだと説明しましたが、ディープラーニングは過去に学ばなければならなかったもので、人々はこれをやる必要があります。多くの人が圧倒されるのは「これをどう応用して影響を与えるか、キャリアパスを見つけるか?」という点だと思います。AI言語モデルはこの基本的なことを非常にアクセスしやすくしているので、モチベーションのある人々はそれを学びます。そして「研究に貢献するためのサイクルをどう得るか?」となります。私は実際かなり楽観的です。なぜなら、この分野は非常に速く動くので、多くの場合、最高の人々は問題を完全には解決しません。なぜなら、解決すべきもっと大きな問題があり、それが非常に手の届きやすい果実だからです。だから彼らは次に進みます。

RLHF研究の課題と機会

そして、私がこのRLHFの本でやろうとしていたことの多くは、ポストトレーニング技術を取り上げて、人々がそれらがモデルにどう影響すると考えているか、そして人々が何をしているかを説明することです。人々が単に研究をやめてしまうものが驚くほど多いと思います。

だから、基礎を学んだ後に狭い分野に進むことは良いことだと思いますし、基礎を学んだ後に読書をして、関連する論文を読んでエコシステムに参加することは…ランダムな人々がオンラインで主要な研究者から持つ近接性は…つまり、誰も…ML界のXの匿名アカウントは何らかの理由で非常に人気がありますが、誰もこれらの人々が誰なのか分かりません。

これらは、特にAIツールを使って「これが理解できない、掘り下げ続ける」と言って、単にこのことを深く研究しているランダムな人々である可能性があります。これは非常に有用なことだと思います。しかし、おそらく読む必要のある3つの論文だけで、著者の1人がおそらくメールを返してくれるような研究分野がたくさんあります。ただし、分野を理解するためにこれらのメールに多くの努力を注ぐ必要があります。

新参者にとっては、非常に狭い分野を本当に把握できると感じるまでに、簡単に数週間の作業が必要だと思います。しかし、基礎を持った後に狭い分野に進むことは、人々にとって非常に有用だと思います。なぜなら、私はキャラクタートレーニングに非常に興味を持つようになったからです。これは、モデルを面白くしたり、皮肉っぽくしたり、真面目にしたりする方法、そしてこれを行うためにデータに何をするかということです。オックスフォードの学生が私に連絡してきて「これに興味があります」と言ったので、私は彼にアドバイスしました。

そして今、その論文は存在しています。世界でこれに非常に興味を持っていた人は2、3人しかいないと思います。彼は博士課程の学生で、それは有利ですが、私にとって、それは誰かが「これにサイクルを費やす時間があります」と言ってくれるのを待っていたトピックでした。そして、「これに答えがなかったのは意味がない」というような非常に狭いことがもっとたくさんあると確信しています。非常に多くの情報が来ているので、人々は「これらのどれにもつかまることができない」という感じですが、実際にある分野に留まれば、学ぶべき興味深いことがたくさんあると思います。

すべてをやろうとすることはできないと思います。なぜなら、それは非常に圧倒的で、すべてに追いつこうとすると燃え尽きてしまうからです。私にとっては、長い間コンピュータビジョンに追いついていません。LLMに集中しているだけです。

しかし、あなたの本に戻ると、これも本当に素晴らしい本で、本当にコストパフォーマンスが高いと思います。RLHFについて学びたいなら、RLHF論文を読みに行くことはお勧めしません。なぜなら、2年間を費やすことになるからです。

中には矛盾するものもあります。私はちょうど本を編集したところで、「X論文はあることを言い、X論文は別のことを言っていて、何が真実として出てくるかを見ましょう」と言わなければならない章があります。

ポストトレーニングの重要な概念

目次のいくつかを見てみましょう。ポストトレーニングの大きな絵の中で見逃したかもしれないアイデアのいくつかです。まず、問題設定、トレーニング概要、選好とは何か、選好データと最適化ツール、報酬モデリング、正則化、指示調整、拒絶サンプリング、強化学習を行いました。

それから憲法的AIとAIフィードバック、推論と推論時のスケーリング、関数呼び出しでの使用、合成データと蒸留、評価、そしてオープンクエスチョンセクション、過剰最適化、スタイルと情報、そして製品UX、キャラクターとポストトレーニング。では、教育的要素と研究的要素の両方を結びつける、言及する価値のあるアイデアは何でしょうか?あなたはキャラクタートレーニングに言及しましたが、それはかなり興味深いですね。

キャラクタートレーニングは興味深いです。なぜなら、そこにはほとんど何もないからですが、人々がこれらのモデルとどのように関わり、ポジティブであるためにどのように気分良く使用するかについて話しました。しかし、それはやりすぎになる可能性があります。ポジティブすぎる可能性があるんです。そして本質的には、正確に望むものにするためにデータと意思決定をどのように変更するかということです。例えば、OpenAIにはModel Specというものがあり、これは基本的に彼らがモデルに望むことの内部ガイドラインで、これを開発者に公開しています。つまり、基本的に、OpenAIのトレーニングの失敗、つまり彼らがまだ達成していない意図があるものと、彼らが実際にやりたかったことであなたが気に入らないものを知ることができます。その透明性は非常に良いのですが、これらの文書をキュレーションし、それらに従うことがどれほど簡単かについてのすべての方法はあまり知られていません。本の設計方法は、RL章は明らかに人々が望むものです。なぜなら、誰もがRLVRでそれについて聞いているからです。そして、それは同じアルゴリズムと同じ数学ですが、非常に異なる文書で使用できるということです。

だから、RLHFの核心は、選好がいかに厄介かということだと思います。これは本質的に、私が数年前に書いた論文の焼き直しですが、RLHFが完全に解決可能ではない理由を教えてくれる章です。なぜなら、RLが設定される方法でさえ、選好が定量化でき、複数の選好が単一の値に減らせることを前提としているからです。

そして、これは経済学文献のフォン・ノイマン=モルゲンシュテルン効用定理に関連していると思います。これが、すべての哲学的、経済的、そして心理学的文脈がRLHFを行うために圧縮されるものを教えてくれる章です。だから、これらすべてがあり、本の後半では、この強化学習の数学を使って数値を上げます。

これが人々が研究をするのに非常にやりがいのある理由だと思います。なぜなら、選好を定量化することは、人間が選好を研究可能にするために設計した問題だからです。しかし、例えば、言語モデルの応答では、正確さやスタイルなど、気にかける異なるものがあるという根本的な議論があります。

データを収集する際、それらはすべて「これをもう1つよりも好む」という形に圧縮されます。これが起こっていて、世界の他の分野で実際にこれをどう行うべきかについて多くの研究があります。社会選択理論は、選好をどのように集約すべきかについての経済学のサブフィールドだと思います。そして、私は「RLHFのために社会選択理論をどう使うかについて考えられるか?」というホワイトペーパーを発表したワークショップに行きました。だから、数学に興奮する人々に来て、この種のより広い文脈を学んでつまずいてほしいと思います。面白いことがあります。私は好きな推論モデルのすべての技術レポートのリストを保持しています。

RLVRの短い要約がある第14章には、私が好きなすべての推論モデルをリストした巨大な表があります。だから、教育において多くのことは、この時点で、私が好きなもののようである必要があると思います。

なぜなら、言語モデルは数学が非常に得意だからです。

例えば、有名な論文Direct Preference Optimizationは、RLよりもはるかにシンプルな問題解決方法です。付録の導出は数学のステップをスキップしています。この本のために、私は導出をやり直して「彼らが数学を変更するために使うこのログトリックは一体何だ?」と思いました。しかし、言語モデルでそれを行うと、彼らは「これはログトリックです」と言います。

私は「数学がこれほど商品化されているのが気に入らない」と思います。この付録を読んで…

…数学に従うことでの苦労は、学習に良いと思います。そして私は…

教育における苦労の価値

そうですね、だから私たちは実際にこのことに頻繁に戻っています。教育というトピックについてです。お二人とも「苦労」という言葉をかなり持ち出していますね。

だから価値があるんです。このプロセスの一部として苦労していないなら、適切な学習プロセスを完全には踏んでいないということだと思います。

プロバイダーの一部は教育用のモデルに取り組み始めています。これらは、すべての情報を一度に与えないように設計されています。

そうです。

…実際には使ったことがありませんが、推測するに、すべての情報を一度に与えず、人々が作業するように設計されていると思います。モデルをこれを行うようにトレーニングできると思いますし、それは素晴らしい貢献になるでしょう。本のすべてのことについて、すべての決定を再評価しなければならなかった場所で…

これは本当に素晴らしい例です。AI2で取り組むかもしれないと思っています。それはとても楽しいと思いました。

理にかなっています。私は先日、例えばビデオゲームのために何かそのようなことをしました。私は時々余暇にビデオゲームをプレイします。パズルのあるビデオゲームです。ゼルダやメトロイドのような。そして、この新しいゲームで行き詰まり、本当に行き詰まりました。

2日間苦労したくないので、LLMを使いました。しかし、「ネタバレは追加しないでください。私はここにいます。次に何をしなければならないのか?」と言います。そして、数学でも同じことができます。「さて、私はこの時点にいます。行き詰まっています。完全な解決策を教えないでください。でも、試せることは何ですか?」という具合に、慎重に探っていきます。しかし、ここでの問題は規律が必要だと思います。

数学を楽しむ人々もたくさんいますが、宿題のためにそれをしなければならない人々もたくさんいて、それはこのショートカットのようなものです。そして、教育用LLMを開発できるかもしれませんが、他のLLMもまだそこにあり、他のLLMを使う誘惑もまだあります。

多くの人々、特に大学では、自分が情熱を持っていることについて理解しています。

…それについて自己認識があり、簡単であってはならないことを理解しています。

研究の趣味について話すように、苦労すべきことについて良い趣味を開発しなければならないと思います。

…そして苦労すべきでないこと。キャリアで実際に役立つことについて良い長期的ビジョンを持っていないので、知るのは難しいです。しかし、その趣味を開発しなければなりません。

婚約者や友人とこのことについて話していましたが、すべての宿題とすべての試験がデジタルである可能性がある短い10年間の窓があるようなものです。しかしその前は、他に方法がなかったので、誰もがブルーブックですべての試験をしなければなりませんでした。

そして今、AIの後、誰もが非常に簡単に不正行為ができるので、誰もがブルーブックと口頭試験を必要とするでしょう。すべてがデジタルになる可能性があったが、まだ不正行為ができなかったという異なる教育システムを持っていた短い世代のようなものです。そして今、それは元に戻るだけです。本当に面白いです。

キャラクタートレーニングと研究への貢献

キャラクタートレーニングについて言及しましたね。

より一般的なトピックでズームアウトすると、そのトピックにはどれくらいの計算量が必要でしたか?そして一般的に、研究者として貢献するために、個人研究者として実際に貢献できる、あまり多くの計算量を必要としない場所はありますか?

キャラクタートレーニングのことについて、この研究はLoRAを使用した約70億パラメータモデルの微調整に基づいて構築されていると思います。これは本質的にモデルの重みの小さなサブセットのみを微調整するものです。

正確に何GPUアワーかかるかは分かりません。

しかし実行可能です。

すべての学者にとって実行可能ではありません。一部の学者の状況は非常に厳しく、できる唯一の作業は、クローズドモデルやオープンモデルがあり、それらから補完を得て、それらを見てモデルを理解できる推論を行うことです。

これは評価に非常に適しています。モデルが失敗する代表的な問題や特定の能力を示す問題を作成するのに最高になりたい場合です。これで突破できると思います。評価に取り組む研究者にとって、キャリアの勢いが欲しい場合の最高の目標は、フロンティアラボがあなたの評価を採用することです。すべてのプロジェクトでこれを行う必要はありません。

しかし、計算量のない小規模な大学から始めて、Claudeが苦手とする何かを見つけ、次のClaudeモデルのブログ投稿にそれが載っていれば、そこにあなたのキャリアロケット船があります。これは難しいと思いますが、最小限の計算量で最大限の影響を得たい場合、それはそのようなものです。非常に狭く絞り込み、モデルがどこに向かっているかを学ぶ必要があります。

だから、研究プロジェクトを始めるなら、8ヶ月後のモデルがどこで苦労するかを考える必要があります。

しかし、全く新しいアイデアを開発することについてはどうですか?

これはトレードオフです。博士号を取得している場合、「言語モデルで作業するのはリスクが高すぎる」ということもできると思います。

私はもっと長期的に行きます。つまり、何が…

…10年後の言語モデル開発を定義するものは何か?私は最終的にかなり実用的な人間になる傾向があります。つまり、「まあ、私はバークレーに入った。最悪の場合、修士号を取得して、それからテクノロジー業界で働く」という博士号に進みました。

だから私はそれについて非常に実用的で、これらのAI企業で働くことを許される生活、量…OpenAIの平均報酬は従業員1人あたり年間100万ドル以上のストックです。米国の普通の人にとって、このAIラボに入ることは人生を変えるものです。だから私はかなり実用的です。集中すれば、言語モデルで作業することには依然として多くの上昇移動性があります。そして結果は、これらの仕事を見てください。

しかし、研究の観点からは、これらの学術賞での変革的な影響は、次のYann LeCunになることは、言語モデル開発にあまり関心を持たないことからです。

その場合、大きな財政的犠牲です。

研究キャリアの選択肢

だから私は素晴らしい学生たちと働く機会があり、彼らは「AIラボで働くべきですか?」と聞きます。私は「あなたはトップスクールで博士号を取得しています。ラボに行くために去るつもりですか?」と言います。私は「分かりません」と言います。トップラボで働くなら、責めません。ゼロになるかもしれないランダムなスタートアップで働きに行かないでください。しかしOpenAIに行くなら、博士号を辞める価値があるかもしれません。

もっと厳密にこれを考えてみましょう。では、人々に研究貢献をするためにどこで推薦しますか?選択肢はアカデミアです。博士号を取得する。5年間を出版に費やす。

計算資源は制約されています。オープンウェイトモデルにより焦点を当てた研究ラボがあり、そこで働く。またはクローズドフロンティアラボ、研究ラボ。OpenAI、Anthropic、xAIなど。

2つの勾配があります。よりクローズドであればあるほど、より多くのお金を得る傾向がありますが、得られる評価も少なくなります。

だから、自分がやったことのポートフォリオを構築する観点から、学者として何をやったかは非常に明確です。対して、機械の歯車になるために、かなり合理的な進行を交換するつもりなら、それも非常に楽しい可能性があります。だから、これは非常に異なるキャリアパスだと思います。しかし、研究者であることの機会費用は非常に高いです。なぜなら、博士課程の学生は基本的に何も支払われないからです。

だから、かなり安定したセーフティネットを持つ人々に報いることになると思います。そして彼らは長期的に活動できることを理解しています。つまり、非常に興味深い仕事をして、非常に興味深い仕事を得たいということです。だから、「博士号を見届けて、これをやりたいから後で考える」というのは、かなり恵まれた立場です。同時に、学術エコシステムは資金が削減されることなどによって攻撃を受けています。

だから、「楽しめない。この資金探しに対処できない。政府によって理由もなく助成金が削減された」とか「何が起こるか分からない」という人々を理解できる非常に多くの異なるトレードオフがあります。だから、私の意見では、有意義な影響を持つ高給の仕事を取ることを支持する多くの不確実性とトレードオフがあると思います。

座っているためにOpenAIで給料をもらっているわけではありません。数百万人の人々のテクノロジーとの関係を変えている最先端のものを構築しています。

しかし、出版の面では、彼らはより秘密主義になっています。ますますそうなっています。だからますます出版が少なくなっています。そして大規模に肯定的な影響を与えていますが、機械の歯車です。

正直なところ、あまり変わっていないと思います。私はアカデミアにいました。もうアカデミアにはいません。同時に、アカデミアでの時間を逃したくありません。しかし、その部分に入る前に言いたかったのは、あまり変わっていないと思います。私は計算生物学の応用に機械学習手法を使用していました。共同研究者と一緒に、多くの人々がアカデミアから直接Googleに行きました。そして、それは同じことだと思います。当時、教授たちは学生が産業界に行くことを悲しんでいました。なぜなら、彼らの遺産を引き継ぐことができなかったからです。そして、それは同じことだと思います。あまり変わっていないと思います。変わった唯一のことは規模です。しかし、クールなものは常に産業界で開発され、それはクローズドでした。それについて話すことはできませんでした。

そして今の違いは、まあ、あなたの好みです。自分の仕事について話して出版するのが好きか、それともよりクローズドなラボにいるか?それが1つの違いで、もちろん報酬もあります。しかし、常にそうだったと思います。だから、本当にどこで快適に感じるかによります。そして、何も永遠ではありません。

今の唯一のことは、スタートアップを始めるという第3の選択肢があることです。多くの人々がスタートアップをやっています。非常にリスクの高い動きです。しかし、それはハイリスク、ハイリターンタイプの状況ですが、産業ラボに参加することはかなり安全だと思います。上昇移動性もあります。正直なところ、産業ラボにいたことがあれば、将来の仕事を見つけるのが簡単になると思います。

しかし、繰り返しますが、チームを楽しんでいるか、独自のものに取り組んでいるかと、出版作業をどれだけ好きかということです。つまり、出版はストレスがたまります。そうです。カンファレンスでの受理率は恣意的で、非常にイライラすることがありますが、論文が出版されれば高い報酬があり、名前が載っているので気分が良いです。高い達成感があり、分かります。

アカデミアと産業界の比較

教授である私の友人たちは、平均して、フロンティアラボで働く友人たちよりも幸せそうに見えます。正直なところ。なぜなら、それは地に足がついていて、フロンティアラボは確実にこの9/9/6をやっているからです。

…これは基本的に常に働くという意味の短縮形です。

9/9/6を説明できますか?私は中国で発明されてシリコンバレーで採用された文化だと思いますが。9/9/6とは何ですか?午前9時から午後9時までです。

週6日。

週6日。それは何ですか、72時間?さて。これは基本的にシリコンバレーのAI企業の標準ですか?ますますこの種の苦労マインドセットです。

そうです。つまり、正確にそのようなものではないかもしれませんが、それに向かう傾向があると思います。そして興味深いです。ほとんど反転したと思います。なぜなら、私がアカデミアにいたとき、そのように感じたからです。なぜなら、教授として、助成金を書かなければなりませんでした。教えなければならず、研究をしなければなりませんでした。1つで3つの仕事のようなもので、成功したいなら、それはフルタイムの仕事以上です。

そして今、Nathanがちょうど言ったように、ラボと比較して教授たちは、私が思うに、フロンティアラボよりもプレッシャーや作業負荷が少ないと感じています。なぜなら…

彼らはたくさん働いていると思います。彼らはただ非常に充実しています。学生と一緒に働くことによって…

そして、非常に人指向のミッションを持つメンターシップの絶え間ない滑走路を持っています。

物事が非常に速く動き、非常に混沌としている時代において、それは人々にとって非常にやりがいがあります。

そうです。そしてスタートアップでは、このプレッシャーだと思います。それを成し遂げなければなりません。人々が時間を投入することは本当に重要ですが、本当に難しいです。なぜなら、常に提供しなければならないからです。私はスタートアップにいたことがあります。

良い時間を過ごしましたが、永遠にできるかどうか分かりません。興味深いペースで、最初に話したことと全く同じです。これらのモデルは互いに飛び越えており、競合他社と比較して常に次のステップを取ろうとしています。今は本当に無慈悲だと思います。

この飛び越える性質と複数のプレーヤーを持つことは、実際に言語モデリングの進歩の過小評価されたドライバーだと思います。競争は人々に非常に深く根付いており、これらの企業は意図的に非常に強い文化を作り出しています。Anthropicは、文化的に非常に深くコミットし、組織化されていることで知られています。つまり、彼らからは非常に少ししか聞こえませんが、Anthropicの全員が非常に一致しているようです。そして、非常にタイトな文化の中にいて、この競争的なダイナミクスを持つことは、あなたを懸命に働かせ、より良いものを作るものです。

だからそれは人的資本の犠牲の上に成り立っています。これはあなたがこれを長い間しかできないということで、人々は確実に燃え尽きています。私はマネージャーになろうとし、フルモードトレーニングをしようとして、自分自身でこれに出入りしながら、燃え尽きについての投稿を書いたと思います。それはクレイジーな仕事です。

Patrick McGeeによる『After Steve』という本は、Apple のエンジニアたちが中国でサプライチェーンを設定するためにどれほど懸命に働いたかについて話しています。彼は「結婚を救う」プログラムがあったと言い、ポッドキャストで「人々はこのレベルの懸命な働きから死んだ」と言いました。だから、人的犠牲に基づいて進歩を生み出すための完璧な環境のようなものだと思います。そして多くの…人的犠牲は、私たちが始めた9/9/6です。ここで…

人々は本当に苦労します。

私もこの本を読みました。結婚を救うために家族と時間を過ごすために家に帰らなければならない場合のコードワードがあったと思います。クレイジーです。そして同僚たちは「さて、この状況は赤信号です。

その人を今週末家に帰らせなければなりません」と言いました。しかし同時に、彼らは働くことを強制されたとは思いません。彼らは製品に非常に情熱的だったので、そのマインドセットに入りました。そして私は学者として、また独立した人として、時々それを持っていました。私は過労し、不健康でした。

休憩を取るべきだったかもしれないのに取らなかったため、背中の問題、首の問題がありました。しかし、誰も私に強制しませんでした。それは私が働きたかったからです。なぜなら、それはエキサイティングなことだからです。

それがOpenAIやAnthropicのようなものです。彼らはこの仕事をしたいのです。

シリコンバレーの文化とバブル

そうですが、特にシリコンバレーでは、スケーリング則のアイデアと一致して構築されている熱狂の感覚もあります。世界が数週間の規模で変革され、その中心にいたいというハイプがあります。

そして、多種多様な人間との会話をする素晴らしい幸運があり、そこからこれらのバブルとエコーチェンバーを世界中で見ることができます。そして、私たち人間がそれらをどのように形成するかを見るのは魅力的です。そして、シリコンバレーは一種のエコーチェンバー、一種のサイロとバブルであると言うのは公平だと思います。

バブルは実際に本当に有用で効果的だと思います。必ずしも否定的なことではありません。なぜなら、超生産的である可能性があるからです。Steve Jobsの現実歪曲フィールドのようなものである可能性があります。なぜなら、ブレークスルーが差し迫っていることを互いに納得させ、そうすることでブレークスルーを差し迫ったものにするからです。

Burn Hobartはバブルを分類する本を書きましたが、基本的にその1つは金融バブルで、投機のようなもので、悪いものです。もう1つは、用語は分かりませんが、効果的に構築のためのものです。なぜなら、人々にこれらのものを構築するよう押し進めるからです。そして、AIはこれに入っていると思いますが、金融バブルに移行することを心配しています。

そうですが、アイデアの空間でも、そのバブルは現実歪曲フィールドを行っており、それは現実から逸脱していることを意味し、現実から遠ざかりすぎながら9/9/6で働いている場合、シリコンバレー外を含む人間の経験のいくつかの基本的な側面を見逃すかもしれません。

これはシリコンバレーの一般的な問題です。非常に特定の地理的エリアです。中西部の視点、米国や世界中の他のすべての人間の完全な経験を理解していないかもしれず、互いに特定の方法で話し、特定のことを互いに納得させ、それがあなたを本当の問題に陥れる可能性があります。

AIが大成功で強力な技術になるか、そうでないか、いずれの軌道でも問題に陥る可能性があります。だから、これらすべてを考慮しなければなりません。ここに、人生で何をしたいかを決めようとしている若い人がいます。

理解さえしていないことは、SFのAIミームは「永久的下層階級」がその1つであった点に達しています。これは、2025年の最後の6ヶ月がAIスタートアップやモデルで永続的な価値を構築する唯一の時間であるという考えでした。さもなければ、すべての価値は既存の企業に捉えられ、したがってあなたは貧しくなるでしょう。これは…

…それは、非常に遠くまで行くSFのことの例です。若い人々がそれにアクセスできるようになるため、本当にAIで影響を与えたいと情熱的であるなら、物理的にSFにいることが、これを行う最も可能性の高い場所です。しかし、それにはトレードオフがあります。

SFは信じられない場所だと思いますが、少しバブルがあります。

そして、そのバブルに入る場合、それは非常に価値がありますが、出ることもできます。歴史書を読み、文学を読み、世界の他の場所を訪れてください。TwitterやSubstackは全世界ではありません。

一緒に働いている人の1人がSFに引っ越しており、『Season of the Witch』のコピーを彼に渡す必要があります。これは1960年から1985年までのSFの歴史で、ヒッピー革命、ゲイコミュニティが都市を引き継ぎ、その文化が出現すること、そしてHIV/AIDSの危機やその他のことを経ます。

それは非常に最近のことで、多くの混乱と傷がありますが、SFには愛もあります。誰もこれについて知りません。それは素晴らしい本です。『Season of the Witch』をお勧めします。そこから出てきた私のSFの友人の多くがそれを私に勧めました。そして、そこに住むことは…私はそこに住んでいましたが、この文脈を評価しませんでした。それは非常に最近のことです。

テキスト拡散モデルの可能性

さて。たくさんのことについてたくさん話しました。確かに去年エキサイティングだったことについて。しかし、今年、あなたたちが言及したエキサイティングなことの1つは、テキスト拡散モデルのスケーリングです。テキスト拡散の異なる探索です。それが何か、そしてそれが持つ可能性について話してもらえますか?現在のLLMとは異なる種類のアプローチですか?

そうですね。だからTransformerアーキテクチャと自己回帰Transformerアーキテクチャについてたくさん話しました。特にGPTのような。他の誰も他のことに取り組んでいないという意味ではありません。人々は常に次の大きなことを探しています。なぜなら、しないことはほとんど愚かだと思うからです。なぜなら、確かに今、Transformerアーキテクチャがそのことで、最もうまく機能し、他に何もないからです。

しかし、すべての卵を1つのバスケットに入れないことは常に良い考えです。だから、人々は自己回帰Transformerの他の代替案を開発しています。その1つは、例えば、テキスト拡散モデルです。そして、リスナーは画像生成からの拡散モデルを知っているかもしれません。Stable Diffusionがそれを普及させました。画像生成に関する論文がありました。

当時、人々はGAN(敵対的生成ネットワーク)を使用していました。そして、反復的に画像のノイズを除去するこの拡散プロセスがあり、それが時間とともに本当に良質の画像をもたらしました。Stable Diffusionは会社でした。他の会社も独自の拡散モデルを構築しました。そして、人々は今「さて、これをテキストにも試せますか?」と言っています。直感的にはまだ意味がありません。なぜなら、微分できるピクセルのような連続的なものではないように感じるからです。

離散的なテキストなので、そのノイズ除去プロセスをどのように実装しますか?GoogleのBERTモデルに少し似ています。元のTransformerに戻ると、エンコーダーとデコーダーがありました。デコーダーは、今GPTなどで使用しているものです。エンコーダーは、並列で複数のトークンを埋める並列技術のようなものです。

GPTモデルは自己回帰生成を行い、一度に1トークンずつ文を完成させます。そしてBERTモデルでは、ギャップがある文があります。それらをマスクし、1回の反復でこれらのギャップを埋めます。テキスト拡散はそのようなもので、ランダムなテキストから始めて、複数の反復で欠けている部分を埋めたり洗練したりします。

ここでクールなことは、これが同時に複数のトークンを処理できることです。だから、より効率的である可能性があります。さて、トレードオフはもちろん、品質はどれほど良いかです。より速いかもしれませんが、今はこのノイズ除去プロセスの次元があります。ステップを多く行うほど、テキストは良くなります。異なる方法でスケールできます。

研究者たちは、これが自己回帰モデルに代わる有効な選択肢になるかどうか、つまり、より少ない計算量で同じ品質を与えるかどうかを確認しようとしています。今のところ、論文は、同じ品質を得たい場合、ノイズ除去ステップを増やさなければならず、そうすると自己回帰モデルで費やすのと同じ計算量を費やすことになると示唆しています。

もう1つの欠点は、並列が魅力的に聞こえる一方で、推論タスクやツール使用のような一部のタスクは並列ではないことです。コードインタープリターに中間結果を求めなければならない場合があります。それは拡散モデルでは厄介です。だからハイブリッドがいくつかあります。

しかし、主なアイデアは、どのように並列化できるかです。それは興味深い道です。今のところ、主に研究モデルがそこにあります。LaMDAや他のいくつかのような。スタートアップによるいくつかを見ましたが、GeminiやChatGPTスケールの大きな拡散モデルはまだありません。しかし、Googleによる発表があり、彼らはGemini Diffusionを立ち上げると言い、Nano 2モデルのコンテキストに入れました。

彼らは基本的に、ほとんどのベンチマークで同じ品質に対して、はるかに速く生成できると言いました。次は何かについて言及しましたが、テキスト拡散は自己回帰LLMを置き換えるとは思いませんが、迅速で、安価で、大規模なタスクのための何かになるでしょう。おそらく将来の無料ティアはそのようなものになるでしょう。

ツール使用の未来

なぜこれがはるかに優れているかの例を描くと、例えば、GPT-5が応答するのに30分かかる場合、一度に1トークンずつ生成しています。この拡散のアイデアは、基本的に補完のすべてのトークンを1バッチで生成することです。だからはるかに速い可能性があります。

コードを行うスタートアップに適している可能性があると思います。コードベースがあり、実質的にバイブコーディングをしている誰かがいて、「この変更を加えろ」と言います。そして、コードの差分は本質的にモデルからの巨大な返信ですが、それほど多くの外部コンテキストを持つ必要はなく、これらの拡散モデルを使用して本当に速く取得できます。

私が聞いた1つの例は、テキスト拡散を使用して本当に長い差分を生成することです。なぜなら、自己回帰モデルでそれを行うと数分かかり、ユーザー向け製品のそのレイテンシは多くの解約を引き起こすからです。1秒ごとに、多くのユーザーを失います。だから、それは成長し、いくつかのアプリケーションを持つこのようなものになると思いますが、実際には、異なるタイプのモデルが異なることに使用されると思っていたよりも早くはなっていません。ツール使用のポイントが、それらがより汎用的であることを止めているものだと思います。なぜなら、ClaudeとChatGPTでは、自己回帰チェーンがいくつかの外部ツールで中断されるからです。そして、拡散設定でそれをどのように行うかは分かりません。

では、今年、そして今後数年間のツール使用の未来は何でしょうか?そこで多くの開発があり、それがスタック全体にどのように統合されると思いますか?

今のところ、それは主に独自のLLM側にあると思います。しかし、オープンソースのツーリングでもっと多くのことが見られると思います。

そして、これは巨大なアンロックだと思います。なぜなら、単なる記憶から実際の計算に特定のタスクを本当にアウトソースできるからです。LLMに23プラス5が何かを記憶させる代わりに、計算機を使うだけです。

これは幻覚を解決するのに役立つと思いますか?

解決はしませんが、減らすことはできます。

それでもLLMは、いつツール呼び出しを求めるべきかを知る必要があります。そして2つ目は、インターネットが常に正しいわけではないということです。ウェブ検索ができますが、例えば1998年にワールドカップで誰が優勝したかを尋ねたとしても、正しいウェブサイトを見つけて正しい情報を得る必要があります。

だから、間違ったウェブサイトに行って間違った情報を得ることはまだ可能です。だから、それを完全に解決するとは思いませんが、その意味で改善しています。そして、今年初めの別のクールな論文、12月下旬だったと思うので、厳密には2024年ではありませんが…

…しかし近いです。それは再帰的言語モデルについてでした。これをさらに少し進めるクールなアイデアです。

説明するために、Nathan、あなたも以前言及しましたが、計算予算のためにアカデミアでクールな研究を行うのは難しいです。私が正しく覚えていれば、彼らはすべてをGPT-4で行ったので、ローカルモデルさえ使用しませんでしたが、アイデアは、長いコンテキストタスクがあるとしましょう。LLMにそれをすべて一度に解決させたり、チェーンでさえも解決させる代わりに、サブタスクに分割します。

LLMに何が良いサブタスクかを決定させ、次にそれを解決するためにLLMを再帰的に呼び出します。そして、そのようなものだと思います。次にツールを追加し、それぞれに対して、巨大なQ&Aタスクがあるかもしれないので、それぞれがウェブに行って情報を収集し、最後にそれをまとめてつなぎ合わせます。

LLM自体を必ずしも改善するのではなく、LLMがどのように使用されるか、LLMが何を使用できるかを改善することによって、多くのアンロックがあると思います。今のところツール使用の1つの欠点は、LLMにツールを使用する許可を与えなければならないことです。そして、それには信頼が必要です。特に、LLMにメールに答えさせたり、答えさえもしないで、単にそれらを整理させたり、選択させたりするようなことをアンロックしたい場合です。

今日、LLMに私のメールへのアクセスを与えるかどうか分かりません。これは巨大なリスクです。

ツール使用のことについて最後のポイントが1つあると思います。これをほのめかしましたし、私たち両方が独自の方法でこれに取り組んできましたが、オープン対クローズドモデルは非常に異なる方法でツールを使用するということです。オープンモデルでは、人々がHugging Faceに行ってモデルをダウンロードし、その人は「どのツールが欲しいか?」と言うでしょう。Exaは私の好みの検索プロバイダーですが、他の誰かは異なる検索スタートアップを気にかけるかもしれません。モデルをリリースするとき、複数のツール、複数のユースケースに役立つ必要があります。これは本当に難しいです。なぜなら、一般的な推論エンジンモデルを作っているからです。これは実際にGPT-4が得意なことです。しかし、クローズドモデルでは、特定のツールを経験に深く統合しています。そして、オープンモデルがクローズドモデルで行いたい好きなことのいくつかを複製するのに苦労すると思います。これは公開情報と非公開情報の組み合わせを参照するようなものです。

そして、3〜6ヶ月ごとに試し続けていることは、ウェブ上のCursorのようなものです。これは、私が持っているいくつかのGitHubリポジトリに更新を加えるようにモデルにプロンプトするだけです。そして、これらの安全なクラウド環境のセットは、「これを送り出してこのことをやって、それから私に戻ってきて」と言うのに非常に良いです。

そして、これらはおそらくローカルオープンとクローズドのニッチのいくつかを定義するのに役立つでしょうが、最初は、このツール使用を機能させるための非常に急いでいたため、オープンモデルは不利な立場にあったと思います。これはある種避けられないことです。これらのフロンティアラボには非常に多くの研究と非常に多くのリソースがありますが、オープンモデルがこれを解決するときは楽しいでしょう。なぜなら、それは少し柔軟で潜在的に興味深いモデルを必要とするからです。オーケストレーターとツール使用モデルになるために、この再帰的アイデアと連携する可能性があります。だから、うまくいけば、必要性がそこでいくつかの興味深い革新を駆動します。

継続学習の重要性

継続学習、これは長年のトピックで、重要な問題です。モデルのトレーニングコストが上がるにつれて、重要性が増すと思います。継続学習が何か、そして今年と今後数年間で進歩を遂げることがどれほど重要かを説明してもらえますか?

これは、AGI、つまり汎用人工知能とは何か、ASI、つまり人工超知能とは何か、そして今日私たちが持っている言語モデルが何ができるかというSFの時代精神に大いに関連しています。言語モデルは多くのタスクを解決できると思いますが、AIコミュニティの重要なマイルストーンは、基本的にAIが情報を取り入れてデジタルタスクを解決する、あらゆるリモートワーカーを置き換えることができるときです。そして、人々によって強調されている制限は、言語モデルは従業員と同じようにフィードバックから学習しないということです。

だから、編集者を雇う場合、編集者は失敗しますが、あなたは彼らに伝えます。そして、良い編集者を雇った場合、彼らはそれを再びしません。しかし、言語モデルは自分自身を修正し、非常に迅速に学習するこの能力を持っていません。だから、アイデアは、あらゆるリモートワーク シナリオに入ることができる真の汎用的で適応可能な知能に本当に到達するつもりなら、フィードバックから迅速に学習し、実地で学習できる必要があるということです。

個人的には、言語モデルに非常に良いコンテキストを提供できることについて、より強気です。オフラインで言ったように、「この情報をすべて持っています。これまでに書いたすべてのブログ投稿があります。この種の執筆が好きです。私の声はこれに基づいています」というような広範な文書をモデルに書くことができます。

しかし、多くの人々はこれをモデルに提供せず、モデルは以前にこの量のコンテキストを取るように設計されていませんでした。エージェント的モデルはちょうど始まったばかりです。だから、この継続学習でモデルの重みを更新して速く学習させる必要があるかどうかのトレードオフの一種です。または反論は、より多くのコンテキストと情報を提供するだけで、多くのコンテキストを持ち、非常に賢いことによって、速く学習する外観を持つでしょう。

ここでの用語に言及する必要があります。継続学習は、モデルが適応し、新しい入ってくる情報に基づいて調整するように、継続的に、迅速に、頻繁になどするように、重みを継続的に変更することを指します。そして、あなたが言及したものは、一般的にインコンテキスト学習と呼ばれます。

物を学習するにつれて、巨大なコンテキストウィンドウがあります。システムにプロンプトするたびに、追加情報を読み込み続けることができます。両方とも正当に学習として見なすことができると思います。学習を行っている場所が異なるだけです。

正直なところ、継続学習、重みの更新は、すでに異なるフレーバーでそれを持っていると思います。

つまり、どのように考えると…各人のためにカスタマイズされたパーソナライズされたモデルでそれを行うか、それともグローバルモデルスケールで行うかという区別がここにあると思います。そして、GPT-5から5.1、5.2に移行することで、すでにそれを持っていると思います。すぐではないかもしれませんが、キュレーションされた更新、クイックキュレーションされた更新のようなもので、彼らができなかったことについてのフィードバック、コミュニティによるフィードバックがありました。彼らは重みを更新し、次のモデルなどがあります。

だから、ある種そのフレーバーです。さらに細かい例はRLVRのようなものです。それを実行し、更新します。問題は、各人の重みを更新するにはコストがかかりすぎるので、それを各人に対して行うことはできないということです。そして、それが問題だと思います。だから、取得しない限り…つまり、OpenAIスケールであっても、データセンターを構築しても、コストがかかりすぎるでしょう。

それは、コストが消費者にかかるデバイス上に何かがある場合にのみ実行可能だと思います。Appleがデバイス上に配置したApple Foundation Modelsで試みたようなもので、次に経験から学習します。

少し関連したトピックですが、この種のおそらく擬人化された用語:記憶。これらのシステムに記憶を追加する方法のメカニズムの異なるアイデアは何ですか?特にパーソナライズされた記憶?

今のところ、主にコンテキストのようなものです。基本的に物をコンテキストに詰め込んで、それを思い出すだけです。

しかし、繰り返しますが、コストがかかると思います。つまり、キャッシュできますが、それでもトークンを費やします。そして2つ目は、できることには限りがあります。好みやスタイルのようなものだと思います。多くの人々が数学の問題を解決するときにそれを行います。以前の知識などを追加できますが、特定の好みプロンプトも与えます。「前回好んだことをやってください」とか、そのようなものです。

しかし、新しい能力をアンロックするわけではありません。だから、それのために、人々がまだ使用しているものの1つはLoRAアダプターです。これらは基本的に、重み行列全体を更新する代わりに、並列またはオーバーレイのように持つ2つの小さな重み行列、デルタのようなものです。しかし、ある程度はできますが、それもまた経済学です。

例えば、LoRAは少なく学習するが少なく忘れることを示す論文もありました。無料のランチはないようなものです。もっと学習したいなら、もっと重みが必要ですが、コストが高くなります。そして繰り返しますが、もっと学習すると、もっと忘れます。そのゴルディロックスゾーンを見つけなければなりません。

コンテキスト長の拡張

あまり言及していませんが、この議論で暗示されているのはコンテキスト長もです。

そこで多くの革新が可能ですか?

一般的に受け入れられていることは、それが計算量とデータの問題であり、時には注意の変種のような小さなアーキテクチャのことがあるということだと思います。ハイブリッド注意モデルについて話しましたが、これは基本的にTransformer内に状態空間モデルのように見えるものがある場合です。

そして、それらは最も遠いトークンをモデル化するためにより少ない計算量を費やす必要があるため、より適しています。それがあると思います。しかし、それらは無料ではありません。なぜなら、多くの計算量または適切なデータを伴わなければならないからです。世界に100,000トークンの配列がいくつありますか、そしてこれらをどこで入手しますか?それらをスケールするのはかなりコストがかかります。

入力コンテキスト長の100万トークンに非常に迅速に到達しました。今年は増加を続けて200万または500万に到達すると予想しますが、1億に到達するとは思いません。それは真のブレークスルーでしょう。そして、そのようなブレークスルーは可能だと思います。継続学習のことは、Transformerをこれではるかにうまく機能させ、安価にする可能性のあるブレークスルーがある研究問題です。

非常に多くの科学的注目でこれらのことが起こる可能性があります。しかし、クランクを回すと、時間とともに一貫した増加があるでしょう。

極端を見ると、繰り返しますが、無料のランチはありません。一方の極端では、安くするために、以前のものからすべてを保存する単一の状態を持つRNNがあります。特定の固定サイズのもののようなもので、メモリを実際に成長させることはありません。

すべてを1つの状態に詰め込みますが、コンテキストが長くなるほど、すべてを1つの状態に圧縮できないため、より多くの情報を忘れます。次に、他方では、すべてのトークンを覚えようとするTransformerがあります。特定の情報を調べたい場合は素晴らしいですが、KVキャッシュとドット積が成長するため、非常にコストがかかります。

次に、あなたが言ったように、Mambaレイヤー、それらは同じ問題を持っています。RNNのように、すべてを1つの状態に圧縮しようとします。もう少し選択的です。しかし、Nemotron-3で、彼らは、すべてがアクセス可能なグローバル情報のためにいくつの注意層が必要か、これらの圧縮された状態を持つことと比較して、良い比率のようなものを見つけたと思います。

そして、計算を安く実行するのに十分にするが、有用であるのに十分強力にすることの間で、ゴルディロックスゾーンのようなより良い比率を見つけることによって、スケールする方法だと思います。そして、ここでもう1つプラグします。再帰的言語モデル論文は、長いコンテキストのことに取り組もうとする論文の1つです。

彼らが見つけたことは本質的に、すべてをこの長いコンテキストに詰め込む代わりに、それを複数の小さなタスクに分割すると、複数の小さなコアを持つことによってメモリを節約し、LLMにすべてを一度に試させるよりも実際により良い精度を得ることができるということです。それは新しいパラダイムです。見ていきましょう。

それの他のフレーバーがあるかもしれません。だから、それで、長いコンテキストでまだ改善を行いますが、Nathanが言ったように、事前学習自体の問題は、他の文書ほど多くの長いコンテキスト文書を持っていないということだと思います。だから、LLMがそのレベルでどのように振る舞うかを研究するのは難しいです。

OLMoのような言語モデルを事前学習するいくつかの経験則があります。8Kコンテキスト長で事前学習し、トレーニングで32Kに拡張しました。トレーニングコンテキスト長を2倍にする経験則がいくつかあり、約2倍の計算量がかかり、次にコンテキスト長を2〜4倍に再びできます。だから、多くのことが最終的に事前学習で計算量に制約されると思います。これは…誰もが今年のトップラボのこの計算量の大幅な増加について話していて、それはより長いコンテキストウィンドウに反映されるはずです。

しかし、ポストトレーニング側では、いくつかのより興味深いことがあります。エージェントがあるにつれて、エージェントは自分でこのコンテキストを管理するでしょう。今、Claudeをたくさん使用する人々は圧縮を恐れています。これは、Claudeが100,000トークン全体の作業を取り、箇条書きリストに圧縮するときです。

しかし、次のモデルが行うこと、人々はすでにこれに取り組んでいると確信しています。基本的にモデルは圧縮するタイミングと方法を制御できます。だから、基本的に圧縮が行動である強化学習アルゴリズムをトレーニングできます。履歴を短縮し、問題の定式化は「取得した最大評価スコアを維持したいが、モデルが履歴を最小長に圧縮する」というものです。

なぜなら、この種の複合自己回帰予測を行うために必要な最小トークン量があるからです。これらのエージェント的モデルが単に突き進むのではなく、異なる方法でコンテキストを使用することを学ぶ、実際にかなり良い問題設定があります。

1つの興味深い最近の例はDeepSeek-V3でしょう。彼らは疎注意メカニズムと本質的に非常に効率的で小さく軽量なインデクサーを持っていました。

そして、すべてのトークンに注意を払う代わりに、「さて、実際に必要なトークンは何か?」を選択します。選択的であるという注意の本来のアイデアに戻ります。しかし、注意は常にオンで、いくつかにはゼロの重みがありますが、すべてを使用します。

しかし、彼らはさらに「それをマスクアウトするか、それさえもしない」ようなものです。OLMoのスライディングウィンドウ注意も、それのアイデアの一種です。固定で保持するローリングウィンドウがあります。なぜなら、常にすべてが必要なわけではないからです。時折、いくつかのレイヤーがそうかもしれませんが、無駄です。しかし今のところ、すべてを使用すれば、安全側にいると思います。

情報を見逃すことがないので、コストに対する最良のバングを与えます。そして今のところ、今年はあなたが言ったように、それについてどのように賢くなるかを見つけることについてもっとあると思います。今のところ、人々は次の最先端を持ちたいと思っていて、最先端はブルートフォース、高価なものである傾向があります。

そして、それを持ったら、あなたが言ったように、その精度を保持しますが、トリックを使用してそれをより安くできる方法を見てみましょう。

そうです。このスケーリングのすべて。Claude 3.5 Sonnetモデルを最初に取得する理由は、より速くトレーニングでき、これらの計算の壁にすぐにぶつからないからです。彼らははるかに多くのことを試すことができ、より大きなモデルが実際にはより良いにもかかわらず、モデルをより速く取得できます。

ロボティクスとワールドモデル

AI空間では多くのエキサイティングなことが起こっていると言うべきだと思います。私の心は最近ロボティクスに本当に焦点を当てています。ロボティクスについてはほとんど話していません。画像生成、ビデオ生成についても多くのことがあります。量、強度、熱狂の観点から最もエキサイティングな研究作業がLLM空間にあると言うのは公平だと思います。だからこそ、私たちが議論しているLLMに本当に焦点を当てることが正当化されると思います。

しかし、役立つかもしれない特定のことを持ち込むのは良いでしょう。例えば、ワールドモデル。それについて興奮が高まっています。LLM空間でワールドモデルが今年何らかの用途があると思いますか?そうだと思います。LLMでも興味深いのは、より多くのLLM機能をアンロックすれば、人々がコーディングのためにLLMを使用するため、自動的に他のすべての分野をアンロックするということです。

多くの研究者とエンジニアがコーディングのためにLLMを使用します。だから、ロボティクスに取り組んでいても、コーディングを助けるこれらのLLMを最適化すれば、それは報われます。しかし、はい、ワールドモデルは興味深いです。基本的に、モデルが世界のシミュレーションを実行する場所です。実際のもののおもちゃのようなもの、LLMが認識していないデータに関する能力をアンロックできます。物事をシミュレートできます。

そして、LLMは事前学習を行い、次にネクストトークン予測を行うことでうまく機能します。しかし、さらに洗練してこれを行うことができます。だから私が言っているのは…Metaによる論文があったと思います。「World Models」と呼ばれています。だから、彼らは基本的にワールドモデルの概念をLLMに再び適用します。ネクストトークン予測と答えの正しさをチェックする検証可能な報酬を持つだけでなく、中間変数が正しいことも確認します。

ある種モデルが基本的にコード環境を学習しているようなものです。そして、これは多くの意味を持つと思います。行うのにコストがかかるだけですが、物事をより洗練させています。結果だけでなく、全体をモデル化するようなものです。そして、それは多くの価値を追加できると思います。私が大学院生だったとき、CASPと呼ばれる競技会があったと記憶しています。彼らはタンパク質構造予測を行います。

その時点でまだ解決されていないタンパク質の構造を予測します。だから、ある意味これは実際に素晴らしいと思います。そして、LLMにも必要なものがあると思います。ベンチマークを行い、結果を提出しますが、誰も解決策を知りません。そして事後に、誰かがそれを明らかにします。しかし、AlphaFoldが出てきたとき、このベンチマークを粉砕しました。

複数の反復もありましたが、最初のものを覚えています。私はその主題の専門家ではありませんが、最初のものは物理的相互作用と分子の物理を明示的にモデル化しました。角度、不可能な角度も。そして次のバージョンでは、これを取り除き、ブルートフォーススケーリングを使用しました。

LLMでは、現在このブルートフォーススケーリングにいると思います。なぜなら、それがちょうどうまく機能するからです。しかし、ある時点でこれを戻すことは意味があるかもしれません…

…モデリング。そして、ワールドモデルで、それは実際に非常にクールになる可能性がある場所だと思います。そしてもちろん、ロボティクスにとっても、それはワールドモデルに完全に関連しています。

そうです。そしてロボティクスは非常に明示的です。移動または操作の問題があります。移動ははるかに解決されています。特に学習ドメインで。しかし、従来のモデルベースの方法を持ち込むことに多くの価値があります。ちょうど初期のタンパク質フォールディングシステムのように。

だから、操作または全身操作の問題をエンドツーエンドで学習できる可能性は低いです。それが夢です。しかし、人間の手の魔法と現実世界の複雑さを見ると、これをすべて学習するのは本当に難しいことに気付きます…AlphaFold 2がしなかった方法で。

ロボティクス学習空間について興奮しています。言語モデル全般への興奮と投資によって総合的に過給されていると思います。Transformersをトレーニングするためのインフラストラクチャは、一般的なモデリングのもので、世界クラスの産業ツーリングになっています。ロボティクスに制限があったところはどこでも、はるかに良くなっています。

はるかに多くの計算量があります。彼らはこれらの言語モデルを取り、すでにうまく機能する何かの周りで興味深い探索的な作業ができる中央ユニットのようなものとして使用します。そして、私が見ているのは、話したように、Hugging Face TransformersとHugging Faceのように出現しています。私がHugging Faceにいたとき、これが起こるようにしようとしていましたが、早すぎました。

Hugging Face上のこれらのオープンロボティクスモデルのようなもので、人々がデータを貢献し、それらを微調整できるようにします。ロボティクスと自動運転車への投資が関連していて、これを可能にすることに、今ははるかに近いと思います。誰かがロボティクスモデルをダウンロードして、おそらく自分のロボットに微調整したり、世界中でデータセットを共有したりできる点に到達したら。

そして、RTXのようなこの分野でのいくつかの作業があると思います。数年前だったと思いますが、人々がそれを始めています。しかし、このエコシステムを持ったら、非常に異なって見えると思います。そして、このChatGPT後のブーム全体がそこにより多くのリソースを投入しており、研究を行うための非常に良い分野だと思います。

これはまた、はるかに優れた、より正確で、よりリアルなシミュレーターが構築されることにもつながり、ロボティクス空間でこのシムからリアルへのギャップを閉じています。しかし、ロボティクス空間で多くの興奮と多くの投資について言及しましたね。その欠点は、誇大広告サイクルで起こることですが、個人的には信じています。ほとんどのロボティクスの人々は信じています。ロボティクスは暗黙的または明示的に約束されている時間スケールで解決されるつもりはありません。そして、春立ち上がってうまく機能する製品を持たないすべてのこれらのロボティクス企業があると、この種の興奮のクラッシュがあるでしょう。それは神経をすり減らします。

うまくいけば、何か他のものが入ってきて、これらのアイデアのいくつかの継続的な開発が続くように飛び込み続けるでしょう。

継続学習の問題にも関連していると思います。基本的に、現実世界は非常に複雑で、LLMでは、誰もがしなければならないことがたくさんあるので、ユーザーのために何かを学習する必要はありません。

誰もが、メールの文法を修正したり、コーディングしたりしたいかもしれません。それはより制約されているので、そのためにモデルを準備できます。しかし、現実世界のためにロボットを準備することは難しいです。つまり、ロボティクス基盤モデルがありますが、物をつかむような特定のことを学習できます。

しかし、繰り返しますが、誰もの家は違うと思います。非常に違いますし、それがロボットが実地で学習しなければならない場所だと思います。基本的に。そして、それがボトルネックだと思います。今のところ、それをその場でカスタマイズする方法です。

ロボティクスの人々やほとんど誰によってほとんど話されていないものの重要性を過小評価することはできないと思います。それは安全性です。

AGIとASIへのタイムライン

私たちが話している学習のすべての興味深い複雑さ、すべての失敗モードと失敗ケース。LLMについて話してきたすべて、時には興味深い方法で失敗します。そのすべては、LLM空間では楽しくてゲームです。ロボティクス空間では、人々の家で、数百万分と数十億の相互作用にわたって、本当にほとんど失敗しないことが許されています。

現実世界に出された実体化されたシステムを持つとき、一般的なロボット学習問題について考えるだけでは解決しなければならないと思ってもみなかった非常に多くの問題を解決しなければなりません。

私は消費者購入のための家庭内学習ロボットについて非常に弱気です。自動運転車については非常に強気で、例えばAmazonの配送のようなロボティクス自動化については非常に強気です。Amazonは人間ではなくロボットのために最初に設計された全く新しい配送センターを構築しました。AIサークルでAIが自動化と大規模製造を可能にすることについて多くの興奮があります。それを行うロボットへの道はより合理的だと思います。人間が想像できるがやりたくない反復的なタスクを行うために設計され、最適化されたものです。

しかし、それはまた、人々がおそらく予測するよりもはるかに長くかかるでしょう。AIシンギュラリティから、巨大なAI優位性があるために米国で大規模製造を拡大することへの飛躍は、多くの政治的および他の挑戦的な問題によって悩まされるものです。

タイムラインについて話しましょう。特にAGIまたはASIへのタイムライン。

AGIとASIの定義について誰も本当に同意していないと言うのは出発点として公平ですか?

多くの不一致があると思いますが、人々が同じことを言っているという反発を受けています。それはほとんどのデジタル経済的作業を再現できるもののようなものです。リモートワーカーはかなり合理的な例です。そして、OpenAIの定義はそれにやや関連していると思います。多くの経済的に価値のあるタスクを実行できるAIのようなものです。

AGIの定義とリモートワーカー代替論

その定義はあまり好きではないのですが、基準点にはなり得ると思います。なぜなら、今日の言語モデルは非常に強力ではあるものの、リモートワーカーの完全代替というレベルには達していないからです。そして、AIによって実現可能なことの中には、リモートワークよりもはるかに難しいものがあります。例えば、想定すらできなかった予期せぬ科学的発見を見つけ出すこと、これは人工超知能の一例でしょう。

あるいは、すべての医療記録を取り込んで、人々が知らなかった特定の病気間の関連性を見つけ出すこと、または一般的な薬が特定のニッチながんを治療できることを発見すること。これらは超知能的なことだと言えるでしょう。つまり、自然な階層があるわけです。私が問題視しているのは、それが意味の探求や宗教的側面と絡み合ってしまうことです。

様々な道筋を取ることができるのです。

リモートワーカーという定義が良いものかどうかさえ分かりません。正確には何を指しているのでしょうか。実際、元々のタイトルのSituational Awarenessレポートはご存知ですか。あれはコードと研究能力により焦点を当てていて、そこでの目標はsuperhuman coderなんです。

つまり、いくつかのマイルストーンシステムがあります。superhuman coder、superhuman AI researcher、そしてsuper intelligent AI researcher、そして最終的にはASI、つまり人工超知能ですが、superhuman coderを開発した後は、他のすべてが急速に続くという考え方です。そこでのタスクは、完全に自律的で自動化されたコーディングを実現することです。つまり、研究を行うために必要なあらゆる種類のコーディングが完全に自動化されるのです。

そこから人間はそのシステムと一緒にAI研究を行い、すぐに実際に研究を代行してくれるシステムを開発できるようになるでしょう。それが彼らのアイデアです。当初の予測は2027年か28年でしたが、現在は3、4年後ろ倒しになって2031年が平均予測になっています。

おそらく私の予測は2031年よりもさらに先になると思いますが、少なくともプログラミングを完全に自動化することがどれほど難しいかを具体的に考えることができます。

コーディング自動化の現実性と課題

彼らの前提や展開の仕方については部分的に同意しませんが、具体的なマイルストーンを定義するシナリオにおいて良い仕事をしたと思いますし、有用なストーリーを語りました。だからこそ、このSituational Awarenessドキュメントの影響力はシリコンバレーを超えて広がったのです。

良いストーリーを語り、それを裏付けるために多くの厳密な作業を行ったからです。私が属するキャンプは、AIはいわゆる「ギザギザ」だという考え方で、つまり、あることには優れているが、他のことには本当に悪いということです。自動化されたソフトウェアエンジニアに近づいたとき、得意になるのは従来のMLシステムとフロントエンドで、モデルはこれらに優れていますが、分散MLについてはモデルは実際にはかなり苦手です。大規模分散学習に関するトレーニングデータが非常に少ないからです。これは既に見られることで、今後さらに増幅されると思います。これらのトレードオフにおいてより複雑になり、そしてAI研究がどのように機能すると考えるか、などの問題があります。

つまり、基本的にsuperhuman coderはほぼ達成不可能だと考えているわけですね。ギザギザした性質があるため、常に能力のギャップが存在するということですか。

あるタイプのコードにおいてモデルはある種超人的であり、それは今後も続くと思います。完全性を割り当てているわけです。

人々は創造的ですから、これらの驚くべき能力を活用してモデルの弱点を補い、非常に速く進んでいくでしょう。人間がモデルにできないことを可能にすることと、最高のAI研究者はこの超能力を可能にできる人々であるということの間には、長い間このダンスが続くでしょう。そして、ウェブサイトを構築するコードなど、既に見られているように、これらの境界線は、数時間で美しいウェブサイトを立ち上げたり、データ分析を行ったりできます。全体がこれらのことでどんどん良くなっていき、途中でいくつかの新しいコードスキルを習得していきます。そして、ビッグテックで起きていることにリンクすると、このSituational Awarenessレポートはシンギュラリティのアイデアに傾倒していますが、私は研究は混沌としていて、社会的で、AIモデルが処理できない方法で大部分がデータの中にあると思います。

現在の技術力と企業投資

しかし、今日私たちが持っているものは本当に強力で、これらのテクノロジー企業は数十億ドルの投資でこれに集団的に賭けています。つまり、ChatGPTのはるかに優れたバージョンと、Cursorのはるかに優れたバージョンを手に入れることになるでしょう。それがどこに向かうかを予測するのは難しいですが、その未来が明るく明確であることが、世界で最も力のある人々の一部がこれほど多くのお金を投じている理由です。

ただ、わずかな違いがあります。実際には、より良いバージョンのChatGPTが何であるかは分かりませんが、AI研究を自動化できるのでしょうか。少なくともこの期間内では、おそらく無理だと思います。ビッグテックは、研究のシンギュラリティを可能にする自動化された研究者を手に入れるよりもはるかに速く、1000億ドルを費やすことになるでしょう。

それでは、あなたの予測は何ですか。これは有用なマイルストーンでさえあるのか、それとも10年以上先のことですか。

ソフトウェア側ではそれより短いと思いますが、研究のようなものについてはもっと長いと思います。

楽しみとして、すべてのソフトウェア開発が完全に自動化される世界を想像してみましょう。その世界を想像できますか。

今年の終わりまでに、自動化されるソフトウェアの量は非常に高くなるでしょう。しかし、それは強化学習でモデルをトレーニングしようとして、複数のGPU群を相互に通信させる必要があるような場合には依然として難しいでしょうが、ずっと簡単になります。

プログラミングの完全自動化について考える一つの方法は、ループ内の人間の数と比較して書かれた有用なコード行の割合を考えることです。おそらく長い間、ソフトウェア開発のループには人間がいるでしょう。ただ、書かれるコードの量に対して相対的に少なくなっていくだけです。そうですよね。superhuman coderでは、そこでの前提は、ループ内の人間の数がゼロになるということです。

ループ内の人間が数十万人ではなく数百人になったとき、その世界はどのようなものになるでしょうか。

ソフトウェアエンジニアリングはシステム設計と成果により重点を置くようになると思います。これはここ数週間で起きていることだと思います。人々は1か月前には「ああ、エージェントは何となくスロップだ」と言っていて、これは有名なAndrej Karpathyの引用ですが、それが少しミーム化されているのは、ソフトウェアの工業化で、誰でもソフトウェアを作成できるということです。

私たちはその側面に近づいていると思います。言語モデルから最良のものを引き出すには、方向性とシステムの動作方法の理解が必要です。ソフトウェア開発がどれだけ変化するか、そしてコードを見ることなく、より多くの人々がどれだけのことができるようになるかの重大さを受け入れるのは難しいです。

LLMによるコーディング革命の展望

興味深いのは、これらのシステムが完全に独立したものになるかどうかを考えることだと思います。LLMがある時点でコーディングを解決するだろうということに疑いはありません。電卓が計算を解決したように、ですね。ある時点で、人間はその数値を計算するために人間を必要としないツールを開発しました。

ただ入力すればアルゴリズムが計算してくれます。その意味で。コーディングについても同じことがおそらく言えると思います。しかし問題は、独立して物事を行うのでしょうか。人間がAIに何かをするよう依頼する状態が続くのでしょうか。「そのウェブサイトを作って」と言う人がいるのでしょうか。それとも、ウェブサイトを構築するAIがいるだけなのでしょうか、何かそのような。

ウェブサイトの構築について話すのは…

うーん、単純すぎますね。

ウェブサイトの問題、そしてウェブ、HTMLなどの問題は、ただのスロップに対して非常に耐性があるということです。スロップを表示してくれます。スロップを表示するのが得意なのです。むしろ、安全性が重要なシステムについて考えたいですね。AIに物流を管理するものをエンドツーエンドで生成するよう依頼するとか、車を管理するとか。

車両群を管理するようなもの、そういったものです。それをエンドツーエンドで生成してくれます。

より中間的な例としては、SlackやMicrosoft Wordのようなものを考えてみましょう。組織が許可すれば、AIは機能をエンドツーエンドで実装し、試してみたいことについてかなり良い仕事をすることができると思います。

Slackに使いたい新しいタブを追加したいとき、AIはそれをかなりうまくできると思います。

実際、それは本当に良い例ですね。それにはどれくらいかかりますか。

今年中ですね。

分かりません。分からないですよ。

本番コードベースがどれだけひどいか分かりませんが、今後数年以内に、多くの人々がより設計者やプロダクトマネージャーのような役割を担うよう押されると思います。そこでは、複数のエージェントが試行してくれて、機能を実装したりバグを修正しようとしたりするのに1、2日かかるかもしれません。そしてダッシュボードがあり、実際には良いダッシュボードで、エージェントがあなたに話しかけ、そしてあなたがフィードバックを提供します。しかし、合格点のウェブサイトロゴを作るようなこと、これらの統一されたデザインとスタイルは、モデルにとって非常に難しく、次に何を追加するかを決定するのも難しいでしょう。

プログラマーの懐疑論と実装の複雑性

私は多くのプログラマーと交流していますが、彼らの一部は全般的に少し懐疑的です。複雑なシステムに機能を追加することには多くの複雑性が伴うと思います。例えば、ブラウザ、Chromeを見てください。機能を追加したい場合、タブを上部ではなく左側に配置したいとします。インターフェース的には、これは来年のことではないと思います。

今年のClaudeのリリースの一つで、彼らのテストの一つは、ソフトウェアを渡してClaudeに実行させて完全に再作成させるというもので、既にSlackをゼロから再構築できるほどでした。ソフトウェアのパラメータを与えて、サンドボックス環境でそれを行わせるだけです。

ゼロからという部分は、ほとんど好きですね。

より小規模で新しい企業が有利になる可能性があります。肥大化と複雑性を持つ必要がなく、したがってこの機能が存在するという感じです。

そして、あなたが言及した点につながると思いますが、あなたが話す一部の人々が懐疑的なのです。

LLMがX、Y、Zをできないからではないと思います。人々がそのやり方でそれをやってほしくないからです。

人間側のスキルの問題である可能性もあります。自分自身に正直でなければなりません。仕様の不足の問題である可能性もあります。つまり、プログラミングは、ただ想定しているだけです。これは関係や友情におけるコミュニケーションの問題のようなものです。

LLMがあなたの心を読むことになっていると想定しているわけです。仕様駆動の設計が本当に重要だと思います。自然言語を使って欲しいものを指定するだけです。

ラボの人々と話すと、彼らはトレーニングや本番コードでこれらを使っています。Claude CodeはClaude Codeで構築されていて、彼らは全員これらを広範囲に使用しています。

Darioは、Claudeのコードのどれだけがこの方法で生成されているかについて話しています。これらの人々は、持っている能力やおそらく推論に費やしている金額において少し先を行っています。私たちが月額100ドルや200ドルのプランを使っているのに対し、彼らは10倍から100倍も費やすことができます。彼らは本当に全力で取り組んでいます。そして、進歩のペースを考えると、1年前にはClaude Codeも推論モデルも本当にはありませんでした。

今日ここに座っていることと、これらのモデルでできることとの違いは巨大です。これらを改善するための多くの低く垂れ下がった果実があるように思えます。失敗モードはかなり馬鹿げています。「Claude、あなたはインストールしていないCLIコマンドを14回も試して、それから実行するコマンドを送りました」というようなことです。モデリングの観点から見ると、このようなことはかなり修正可能です。だから分かりません。

同意します。私はますます全般的に強気になってきています。あなたが表現していることについて言えば、これは人間のスキルの問題だと思います。Anthropicは、他の企業とともに、プログラミングにモデルを最もうまく使用する方法を理解する上で先導しており、したがって効果的に使用しています。多くのプログラマーは周辺にいると思います。

つまり、彼らは、本当に良いガイドがないんです。どのように使うか。人々は理解しようとしていますが…

非常に高価かもしれません。エントリーポイントが月額2000ドルかもしれず、これはテクノロジー企業と富裕層のためだけです。それかもしれません。

しかし、それだけの価値があるかもしれません。

最終結果が動作するソフトウェアシステムであれば、それだけの価値があるかもしれません。ところで、AGIへのタイムラインの議論から、より実用的で有用なものに収束したのは面白いですね。AGIやASIへのタイムラインについて、具体的で興味深く、深遠なことを言えることはありますか。それとも、これらの議論は日常からあまりにもかけ離れていますか。

興味深い賭けがあります。

科学分野への応用とスタートアップの挑戦

検証可能な報酬を用いた強化学習を実際の科学領域で行おうとしている人々が多くいて、数億ドルの資金を得ているスタートアップがあり、彼らはウェットラボを持っていて、言語モデルに現実世界でテストされる仮説を提案させています。

私が言えるのは、彼らは早期段階にいるということですが、進歩のペースを考えると、おそらく6か月早いだけで、最初にそこにいたから成功するかもしれないし、あるいは8年早すぎるかもしれません。本当に分かりません。この勢いを他の科学に分岐させるこのタイプのムーンショットは、AlphaFoldの瞬間が他のあらゆる種類の科学領域でスタートアップによってこれを解決することで起これば、非常に変革的でしょう。

おそらくHarmonicのようなスタートアップがあると思いますが、彼らは数学のための言語モデルとLeanに全力投球しています。あなたは最近、これについて話した別のポッドキャストゲストがいたと思いますが、そのモデルに1億ドルを費やすことから何が生まれるか正確には分かりません。そして、ほとんどは失敗するでしょうが、そのうちのいくつかは、ChatGPTやClaude Codeタイプのソフトウェア体験とは非常に異なる大きなブレークスルーになるかもしれません。

博士号を持つ数学者にしか役立たないが、彼らを100倍効果的にするツールのような…

同意します。これは多くの領域で起こると思います。特に、金融、法律、製薬企業のような多くのリソースを持つ領域でも。しかし、それは本当にAGIなのでしょうか。なぜなら、私たちは今、再び専門化しているからです。

そして、昔、専門化されたアルゴリズムを持っていた時代とそれほど違うのでしょうか。同じことだと思いますが、はるかに洗練されています。しかし、AGIと呼ぶ閾値はあるのでしょうか。ここでの本当にクールなことは、専門化できる基盤モデルを持っているということだと思います。それがブレークスルーだと思います。

今はまだそこに到達していないと思います。まず、コストが高すぎるからですが、また、ChatGPTは単にそのモデルをカスタマイズするために提供しているわけではありません。それが真実になれば、と思います。そして、これをビジネスモデルとして想像できます。OpenAIがある時点で「Bank of Americaさん、1億ドルでカスタムモデルを作りますよ」などと言うような感じです。

そして、それが巨大な経済的付加価値になると思います。ただ、もう一つのことは、企業は、つまり、今、何が差別化要因なのでしょうか。全員が同じLLMを使用する場合、全員がChatGPTを使用する場合、全員が同じことをすることになります。繰り返しますが、全員がロックステップで動きますが、通常、企業は競争上の優位性を求めており、自社の非公開データを使用して実験し、専門化する以外に方法はないと思います。興味深いことになるでしょう。

進歩のペースを見ると、物事が来ているように感じます。AGIやASIの閾値は特に有用だとは思いません。

経済的インパクトとGDP成長

本当の質問、そしてこれはリモートワーカーの話に戻りますが、いつ経済的影響の大きな明白な飛躍を目にするのかということです。なぜなら、現在、LLMモデルの経済的影響に明白な飛躍は見られていないからです。

そしてそれは、AGIやASI、そういったものすべてを別にして、「いつGDPが…」という本当の疑問があります。

ジャンプするのか。

GDPは何で構成されているのでしょうか。その多くは金融サービスなので、これがどのようなものか分かりません。

そうですね、GDPは…

GDPの上昇について考えるのは難しいですが、もはやコードを見る必要がなくなったときに、ソフトウェア開発は異なる方法で価値を持つようになると言えるでしょう。

Claudeがあなたのために小さなビジネスを作ってくれるとき。つまり、Claudeがあなたのウェブサイト、銀行口座、メールアドレス、その他すべてをセットアップできるということです。そして、あなたは世に出そうとしているものを表現するだけでよいのです。これは単なる企業市場ではありませんが、難しいです。

人々にそれを試してもらう方法が分かりません。ChatGPTがそれをできれば、人々はChatGPTを試していると思いますが。

これは、ツール使用を解決することがどれほど難しいかという科学的な質問に帰着すると思います。なぜなら、あなたが示唆している多くのこと、リモートワークのようなものは、ツール使用だからです。コンピュータ使用、つまりLLMが外に出て行き、このエージェントシステムが世界で何かをして、1%の確率でしか失敗しないというようなこと。

コンピュータ使用は…

またはそれ以下。

…ラボが気にしていることの良い例であり、あまり進歩が見られていないものです。2024年には、Claudeがあなたのコンピュータを使えるとか、OpenAIがOperatorを持っているとか、複数のデモを見ましたが、すべてひどいものです。彼らはこれにお金を投資しており、それは良い例になると思います。

実際には、画面全体を乗っ取るのは、バックエンドで呼び出せるAPIを持つよりもはるかに難しいように見えます。そして、その一部は、彼らが作業するために異なる環境をセットアップしなければならないということです。彼らはあなたのMacBookで作業しているわけではありません。GoogleやAmazon、Slackと個別にインターフェースしており、人間とは非常に異なる方法で物事を処理しています。したがって、これらのいくつかは構造的な障壁かもしれません。

また、仕様の観点から、任意のタスクに対して、LLMに何をしてほしいかをまだ指定する必要があると思います。環境は何か。どのように指定しますか。最終目標が何であるかを言うことはできますが、最終目標を解決できない場合、LLMでテキストを求める場合は常に明確化やサブステップを行うことができます。

例えば、旅行を予約するシステムに、その情報をどのように組み込みますか。「クレジットカード情報を間違えた」と言うことはできますが、そこまで到達させるためにも、ユーザーとして、モデルがそれを試みる前にどのように導くのでしょうか。インターフェースが本当に難しいと思います。

あなた個人について多くのことを学ばなければなりません。

そして、これは継続学習につながります。全体を通して行われる一般的な間違いと、あなたを通して行われる間違いについて。

すべてのAIインターフェースは、人間に入力を求めるように設定されています。Claudeについて多く話しましたが、フィードバックを求めます。

あなたの計画や希望について十分な仕様がない場合、「どちらが良いですか」と尋ね始めます。Memoryについて話しましたが、これはチャット全体で保存されます。最初の実装はやや奇妙で、チャットで私の犬の名前などを言及します。「これについて微妙である必要はありません。気にしません」という感じです。しかし、ChatGPTにPulse機能があるように、物事が出現しています。

これは、見たり話したりするためのリンク付きの厳選された数段落です。人々は、言語モデルがあなたに質問することについて話していますが、これは非常に…おそらくうまくいくでしょう。言語モデルはあなたに医者の予約があったことを知っています。「やあ、気分はどうですか」という感じです。これは、人間が非常に影響を受けやすい領域に入り、多くの社会的変化が来るでしょう。

しかし、彼らはモデルを関与させる実験もしています。一部の人々はこのPulse機能が好きです。これはあなたのチャットを処理し、自動的に情報を検索してChatGPTアプリに入れます。多くのことが来ています。

以前その機能を使ったことがありますが、悪い気がします。毎日それを行っているのに、ほとんどチェックしないからです。

自分が見てもいないものにどれだけの計算量が消費されているか考えてしまいます。「ああ…」という感じです。

世界には多くのアイドル状態の計算能力もあるので、あまり気にしなくても大丈夫です。

AGI実現に必要な新しいアイデア

新しいアイデアが必要だと思いますか。AGIへの道、それが何であれ、どのように定義しようとも、コンピュータ使用をより一般的に解決し、生物学や化学、物理学を解決するために、Darioの定義するAGIや強力なAIのようなものを実現するために、まったく新しいアイデアが必要である可能性はありますか。非LLM、非RLのアイデア。それらはどのようなものになるでしょうか。今、少し哲学の領域に入っていますね。

シンギュラリティのようなことが起こるためには、イエスと言えるでしょう。そして、新しいアイデアはアーキテクチャやトレーニングアルゴリズムである可能性があります。基礎的なディープラーニングのようなものです。しかし、それは性質上、予測するのがかなり難しいです。これらの進歩がなくても、私たちはそれほど遠くまで行けないと思います。

ソフトウェアソリューションを手に入れるかもしれませんが、より多くのイノベーションなしにはソフトウェアで止まり、コンピュータ使用はできないかもしれません。だから多くの進歩が来ると思いますが、ズームアウトすると、次の30年間にはまだアイデアがあり、それが次の章を可能にした主要な科学的イノベーションだったように見えるでしょう。そしてそれが1年後に来るのか15年後に来るのか分かりません。

そうですね。苦い教訓が次の100年間真実であり続けるかどうか、それがどのようなものになるか気になります。

スケーリング法則がディープラーニングの基本である場合、苦い教訓は常に適用されると思います。つまり、計算能力はより豊富になりますが、豊富な計算能力の中でさえ、より急なスケーリング法則の勾配やより良いオフセットを持つもの、つまり、これはパフォーマンスと計算能力の2次元プロットです。

そして、より多くの計算能力が利用可能であっても、そこから100倍を得られるものが勝つでしょう。

太陽光パネルを備えた地球周回のコンピュータクラスターのようなものかもしれません。

それの問題は熱放散です。太陽からのすべての放射を受け取り、熱を放散する空気がありません。しかし、クラスターを置くスペースは多くあります。

そこには多くの太陽エネルギーがあり、熱放散の問題を解決できるかもしれません。しかし、多くのエネルギーがあり、おそらく熱問題を解決するエンジニアリングの意志があるかもしれません。だから、ある可能性があります。

可能性はあるでしょうか、そして、それは間違いなく可能だと言うべきですが、問題は、基本的に今年プラトーに達するのでしょうか。システムの能力という観点ではなく。

システムの能力が人間文明にとって実際に何を意味するかという点で。コーディングの面では、本当に素敵なウェブサイトが構築されるでしょう。非常に良い自動補完。コードベースを理解し、デバッグを助ける非常に良い方法ですが、実際にはコーディングにおける非常に良いヘルパーにすぎません。研究数学者が数学を行うのを助けることができます。ショッピングを手伝ってくれます。良いヘルパーです。

ステロイドを使ったクリッピーです。他には。良い教育ツールになるかもしれませんし、そういったものすべてですが、コンピュータ使用は解決するのが非常に難しいことが判明します。だから私は…悲観的なケースを…これらすべての領域でフレーミングしようとしています。そこでは、本当に大きな経済的影響はないが、これらのシステムをあらゆるレベルでトレーニングするコスト、事前トレーニングと推論の両方、推論のコスト、推論がどれほど高価か、すべてを認識しています。

それは可能ですか。そして、それはどの程度ありそうだと思いますか。

モデルを見ると、改善すべき明白なことが非常に多く、これらのモデルをトレーニングするには長い時間がかかり、このアートを行うには、探している基準やパフォーマンスの面で実際に飽和するまでに、持っているアイデアで複数年かかります。

平均的なChatGPTの8億人のユーザーはこれから多くの利益を得られないかもしれませんが、異なることでより良くなることによって、非常に狭いニッチに役立つことになるでしょう。

しかし、誰もが今追い求めているのは、誰にでも役立つ汎用システムだと思います。だから、それが…プラトーに達する可能性がありますよね。

実際、その夢は死につつあると思います。マルチモーダルがしばしば話したように専門化されたモデルについて…動画生成はまったく別のものです。

「その夢は死につつある」は大きな発言ですよ。なぜなら、死につつあるかどうか分からないからです。

実際のフロンティアラボの人々に尋ねれば、彼らはまだそれを追い求めていますよね。

彼らは次のモデルを出すために急いでいると思いますが、それは前のものよりもはるかに優れているでしょう。そして、彼らが減速しているとは思えません。ただ、利益はモデルをスケーリングするだけでなく、より多く作られるか感じられると思います。だから、多くの技術的負債があるように感じます。

「より良いモデルをそこに入れましょう」という感じで、より良いモデル、より良いモデル。そして今、人々は「わかりました、同時にその周りのすべても改善しましょう」という感じです。コンテキストと推論スケーリングのエンジニアリングのようなもの。そして大手ラボはそれを続けるでしょう。そして今、小規模なラボもそれに追いつくでしょう。なぜなら、今、彼らはより多く雇用しているからです。

より多くの人々とLLMがいるでしょう。それは一種の循環です。彼らもまた、それらをより生産的にし、それは増幅のようなものです。期待できるのは増幅だと思いますが、パラダイムの変化ではありません。それが真実だとは思いませんが、すべてがただ増幅され、増幅され、増幅され、それが長い間続くのを見ることができます。

そうですね。

私の「夢が死につつある」という発言は、それが何をするとあなたが思うかに正確に依存すると思います。Claudeは多くのことができる汎用モデルですが、必ずしも…統合に大きく依存しています。例えば、Claudeはあなたのメールをかなりうまく処理できると思いますが、最も難しい部分は、どのように情報を与え、どのようにメールを送信できるようにするかなどを理解することです。

しかし、それはただの…一種の…「すべてを支配する一つのモデル」の精神に戻ると思いますが、それはただ、あなたのデジタルライフ全体を処理し、誰よりもはるかに賢いクラウド内のものです。それは…で動作しています。だから、「Claudeがそれになる」というのは興味深い信仰の飛躍です。ある意味では…そのための道筋はいくつかありますが、業界のレトリックは少し異なると思います。

私たちが次に通常の人としてLLMを使用して感じる即座のことは、おそらく図を作るような些細なことに関連しているでしょう。今、LLMは図を作るのがひどいです。舞台裏よりもはるかに少ない推論計算の安価なモデルが提供されているからでしょうか。既により良い図を得る方法がいくつかありますが、今日「XYZのフローチャートを描いて」と尋ねると、ほとんどの場合ひどいものです。それは人間にとって非常にシンプルなタスクです。時には何かを描くことは何かを書くことよりもほとんど簡単です。

人類知識へのアクセスという革命

マルチモーダル理解は、より良く解決されていないのが奇妙に感じられるものですね。

私たちが気づいていない明白なことが一つあると思います。測定するのが難しい巨大なもの、すべての人類の知識を全世界にアクセス可能にすることです。

私が思うに、明確に表現するのが難しいことの一つですが、Google検索とLLMの間には巨大な違いがあります。基本的にLLMに何でも尋ねて答えを得ることができると感じます。そして、幻覚がますます少なくなっています。そしてそれは、自分自身の人生を理解すること、キャリアの軌跡を考え出すこと、周りの問題を解決すること、または人類の歴史を通じて何についても学ぶことを意味します。

誰もそれについて本当に話していないと感じます。なぜなら、彼らはすぐにこれが素晴らしいことを当然のことと受け止めるからです。だから誰もがそれを使っているのです。物事の答えを得られます。そして、時間を超えてのその影響を考えてください。これはアメリカだけではありません。これは世界中です。

世界中の子供たちがこれらのアイデアを学ぶことができること、それが時間を超えて持つ影響は、おそらく本当のGDPの飛躍がある場所です。小さなジャンプのようなものではありません。それが私たちが火星に行く方法であり、物事を構築する方法であり、100万の新しいOpenAIを持つ方法であり、起こるイノベーションの種類です。それはただ、すべてに浸透するこの静かな力です。人類の知識。

同意します。ある意味では知識をよりアクセス可能にしますが、トピックが何であるかにも依存します。数学のようなものについては、質問すると答えてくれますが、トピックをゼロから学びたい場合、スイートスポットは…線形にレイアウトされた本当に良い数学の教科書があり、それがトピックを学ぶ実証済みの戦略です。

ゼロから始める場合、情報密度の高いテキストを使って段階的に理解し、それを吸収することは理にかなっていますが、その後LLMを使って無限の演習を行います。特定の領域で問題がある場合や質問がある場合、または特定のことについて不確かな場合、例題問題を生成するよう依頼し、それを解き、質問があります。

それから、より多くの背景知識が必要かもしれず、それを生成するよう依頼します。しかし、教科書にないものは何も提供しません。ただ、異なる方法でパッケージングしているだけです。意味が分かりますか。しかし、人間がその場で行うこと以外に良い代替手段がないところで、よりタイムリーな意味で価値を付加すると感じることがあります。

例えば、ディズニーランドに行く計画を立てていて、どの公園のどのチケットをいつ買うべきか考えようとしているとします。それについての教科書はありません。情報密度の高いリソースはありません。疎なインターネットしかなく、LLMには多くの価値があります。これらの日に旅行する制約があり、あちこちに行きたいです。

何が必要で、費用はいくらかなどを考え出してください。それは非常にカスタマイズされた、その場でのパッケージです。これはパーソナライゼーションの千の例の一つです。パーソナライゼーションは本質的に、疎なインターネット、より良いバージョンがない情報密度の低いものから情報を引き出すことです。それは単に存在しません。ほとんどゼロから作ります。

そして、それが存在する場合、ディズニーワールドと言えば、いっぱいです…何と呼びますか。広告スロップ。手に入れるのは不可能です。世界中のどの都市でも、やるべきトップ10のことは何か。LLMに尋ねる方が、インターネット上の何よりもはるかに優れています。

今のところ、それは彼らが大規模に補助されているからです。

広告で支払われることになります。

なんてことでしょう。

来ています。

いいえ、いいえ。その文脈で、何が広告で何が広告ではないかの非常に明確な表示があることを期待しています。

それは数年前に私が言及したことです。分かりませんが、新しいランニングシューズを探している場合、Nikeが最初に出てくるのは偶然でしょうか。多分、多分そうではないかもしれません。

これに関する明確な法律があります。それについて明確にしなければなりません。しかし、誰もが恐れているのはそれです。そこにある微妙なメッセージ。また、広告のトピックにもつながります。2025年に立ち上げようとしたことだと思います。現在、他の方法ではまだお金を稼いでいないからです。そこに広告スポットを設けること…問題は、彼らができなかったということです。広告なしの代替手段があり、人々は他の製品に群がるからです。彼らがお互いに競い合い、ただユーザーを得るために非常に多くのお金を費やしているのは狂っています。

そう思います。Instagram広告のように、私はInstagramを使いませんが、本当にあなたの製品を好きになるユーザーを見つけるためにプラットフォームにお金を払う魅力は理解できます。それがInstagram広告のようなもののベストケースです。

しかし、広告がインセンティブにとって非常に悪い多くのケースもあり、AIの力がそれと統合できる世界を考えています。肯定的な見方は「私は人間で、小さなビジネスを持っていて、世界で最高の、すばらしいステーキナイフを作りたい、そしてそれを必要とする誰かに売りたい」というものです。

AIがその種の広告をさらにうまく機能させることができれば、それは世界にとって非常に良いことです。特にデジタルインフラストラクチャでは、それが現代のウェブが構築されてきた方法だからです。しかし、それは、人々により多くのコンテンツを見せるためだけに中毒性のあるフィードが良いことだと言っているわけではありません。それさえOpenAIが言うだろうと思います。彼らは、ユーザーにエージェンシーを与えながら、広告の収益化の上昇を実現できる方法を見つけたいと考えています。

個人的には、Googleがおそらくこれを理解するのに優れていると思います。なぜなら、彼らは既に広告供給を持っているからです。Geminiアプリでこの需要を有用な広告に変える方法を理解すれば、それをオンにできます。そして、誰かがそれを理解するでしょう。今年かどうかは分かりませんが、実験が行われるでしょう。

企業が今本当に抑制しているのは、競合他社がそれをやっていないということだと思います。それは評判の問題により近いです。人々は今、評判を台無しにすること、ユーザーを失うことを恐れていると思います。なぜなら、誰かがこれらの広告を立ち上げたら見出しになるからです。

素晴らしいものでない限り、しかし最初の広告は素晴らしくないでしょう。難しい問題だからです。

広告モデルと企業買収の可能性

また、その最初のバージョンは、おそらくX上のようなもの、タイムラインのようなもので、時々プロモートされた投稿が間に挟まれます。「プロモート」などの小さなものが表示され、その後画像があります。

今の問題は誰が最初の動きをするかだと思います。

10年後を見据えると、広告の提案は、非常に多くのユーザーを持つことで広告で非常に多くのお金を稼ぎ、それをより良いR&Dに資金提供してより良いモデルを作るために使用できるということです。だからYouTubeが市場を支配しているのです。NetflixはYouTubeを恐れています。彼らは広告を持っており、私はPremiumに月28ドルを払っていますが、彼らは私や他の多くの人々から少なくとも月28ドルを稼いでいます。

そして、彼らは動画において非常に支配的な地位を築いているだけです。それが提案です。広告があなたに持続的な優位性を持たせることができるということ。ユーザーあたりの支出において。しかし、現在それには非常に多くのお金があるので、そのフライホイールを開始すること…

長期的な賭けだから怖いのです。

今年、ビジネス的に大きな動きがいくつかあると思いますか。GoogleやAppleがAnthropicを買収するようなこと。

Darioは決して売らないでしょうが、Groqが200億ドルで、Scale AIがほぼ300億ドルでといった、ある種の統合が始まっているのを見始めています。そして、実際にはシリコンバレーのエコシステムにとって有害な方法で構造化された無数の他の取引があります。この種のライセンス契約では、すべての従業員が一緒に連れて行かれるわけではなく、むしろ、株式の権利が確定することで一般の従業員に利益をもたらす完全な買収ではありません。それは文化にとって対処すべき大きな問題です。なぜなら、スタートアップエコシステムは生命線だからです。

スタートアップに参加した場合、それほど成功していなくても、あなたのスタートアップは安いプレミアムで買収される可能性があり、このエクイティに対して支払いを受けることができます。そして、これらのライセンス契約は本質的にトップタレントを奪っています。GroqとNvidiaの契約は従業員にとってより良いものだとうわさされていますが、それでもこの独占禁止法回避的なものです。

しかし、この統合の傾向は続くと思います。私や尊敬する多くの賢い人々は、統合がもっと早く起こると予想していましたが、これらのことの一部が回り始めているように見えます。しかし同時に、理由が分からない理由で法外な金額を調達している企業があります。「なぜそのお金を取っているのか分かりません」という感じです。だから今年は混在していますが、統合圧力が始まっています。

どのような驚くべき統合が見られるでしょうか。Anthropicは決してないと言いますね。つまり、Groqはビッグなものです。ちなみにQのついたGroqです。

多くのスタートアップがあり、AIスタートアップには非常に高いプレミアムがあります。

だから、多くの…

そういう類のものがある可能性があります。

100億ドル規模の買収で、これはおそらく1年前に設立されたスタートアップにとって本当に大きなものです。Manus.aiだと思います…Metaが設立したシンガポールを拠点とするこの会社は、8か月前に設立され、その後20億ドルのエグジットがありました。Perplexityのような、他の数十億ドル規模の大型買収があると思います。

Perplexityのような、そうですか。

人々は彼らがAppleにうわさされていると言っています。AIには多くの圧力と流動性があると思います。大企業には成果を出す圧力があり、大型買収は人々にそのストーリーの次の章を語る余裕を与えると思います。

つまり、Cursorですね。コードについて話してきましたが、誰かがCursorを買収したら…

彼らは非常に多くのユーザーデータを持つことで非常に良い立場にあります。そして継続学習について話しました。彼らはブログ投稿で最も興味深い2文の一つを持っていました。それは、中国の大規模な専門家混合モデルの一つのファインチューンである新しいComposerモデルを持っていたということです。

Gossipまたはモデルがたまに中国語で応答することから分かります。アメリカのモデルはどれもそんなことしません。そして、彼らはブログ投稿で「使用している実際のフィードバックに基づいて90分ごとにモデルの重みを更新しています」と言っていました。

これはモデルで起こっている実世界のRLに最も近いもので、ブログ投稿の一つにあるだけです…

それは信じられないことです。

ところで、Composerは多く使っています。その利点の一つは速いことです。

試してみる必要があります。誰もがそう言うから。

そして、潜在的にIPOがいくつかあるでしょう。Anthropic、OpenAI、xAIだと思います。

彼らは皆、非常に簡単に多くのお金を調達できるので、IPOする必要性を感じていません…資金調達が簡単である限り、IPOしないでしょう。なぜなら、公開市場は圧力をかけるからです。中国ではエコシステムが少し異なっているのを見ています。MiniMaxとZhipu AIの両方がIPO書類を提出しており、その市場がどのように反応するかを見るのは興味深いでしょう。

実際には、これがすべて進んでいる限り、そして両社が大量のお金を失っているという現実に基づいていない限り、アメリカと同様に誇大広告的になると推測します。アメリカの巨大AIスタートアップの多くが公開企業であってほしいと思います。なぜなら、彼らがお金をどのように使っているかについてより多くの洞察を得ることが非常に興味深いからです。

また、人々にこれらに投資するアクセスを与えるためにも。なぜなら、彼らは最も、手ごわい、この時代の企業だと思うからです。そして今では伝統的に、アメリカの多くの大手スタートアップが公開しないことになっています。まだStripeのIPOを待っているような感じですが、Databricksは確実にしませんでした。

彼らはシリーズGか何かを調達しました。そして、これらの企業が公開して、企業ができる方法で進化するのを見たいと思うのは、市場にとってやや奇妙な均衡のように感じます。

10年後、フロンティアモデル企業のいくつかはまだ存在していると思いますか。AnthropicとかOpenAIとか。

彼らの一人が見つけたアルゴリズム上の秘密が、このフライホイールを可能にするようなものでない限り、勝者総取りになるとは絶対に思いません。なぜなら、彼ら全員の開発経路は非常に似ているからです。GoogleとOpenAIは同じ製品をすべて持っていて、Anthropicはより焦点を絞っていますが、人々と話すと、同じような問題を解決しているように聞こえます。そして、広がる提供があるでしょう。多くの…作られている非常に大きなケーキがあり、人々がそこからお金を取り出すことになります。

些細なこととして扱いたくはありませんが、OpenAIとAnthropicは主にLLMサービスプロバイダーです。

そして、GoogleやxAIのような他の企業の一部は、Xにリンクされていて、他のこともします。だから、AIがより商品化されれば、LLMだけを提供している企業が死ぬ可能性は非常にあります。

彼らが持っている利点は、多くのユーザーがいることです。そして、彼らはただピボットすると思います。Anthropicは、ピボットしたと思います。

元々コードに取り組む計画はなかったと思いますが、「わかった、これは良いニッチで、今このニッチで快適で、それを推し進めています」と見つけました。そして、おそらく、仮説的に言えば、本当かどうか分かりませんが、仮にGoogleが一般的なチャットボットの市場シェアをすべて取ったとしましょう。おそらくOpenAIは他の何かのサブトピックに焦点を当てるでしょう。

近い将来に消えるには、ユーザーが多すぎると思います。

Googleはいつでも「俺のビールを持っていろ」とAIモデルについて言う準備ができていると思います。

問題は、企業が評価額を支えられるかどうかだと思います。AI企業は、AWS、Azure、GCPがすべて同じ空間で競争し、すべて非常に成功しているビジネスであるように見られている方法がいくつかあると思います。

API市場が非常に不採算なので、製品やハードウェアへとスタックを上下する可能性があります。彼らは非常に多くの現金を持っているので、発電所を建設し、データセンターを建設でき、これは今、持続可能な優位性です。しかし、これらのAPIが開発者にとって非常に価値があり、非常に柔軟であるため、AWSのようなものになるという合理的な結果もあります。

しかし、AWSとAzureもこれらのAPIを持つことになるので、いくつかの…それは厳しい市場です。5、6人がAPI市場で競争しているのです。だから、締め出されるかもしれません。

「RIP Llama」と言及しましたね。Metaが勝つ道はありますか。

誰も知らないと思います。彼らは多く動いているので、画像生成会社であるBlack Forest LabsやMidjourneyとライセンス契約を結んでいます。

だから、ある意味では、製品や消費者向けAI面では、まだ早すぎると思います。優秀で非常に意欲的な人々がZuckerbergの近くにいると思います。だから、まだ展開されるストーリーがあると思います。Llamaは少し異なっていて、Llamaは組織の最も焦点を絞った表現でした。

そして、Llamaがその程度までサポートされるとは思いません。彼らにとって非常に成功したブランドだったと思います。だから、オープンエコシステムに参加し続けるか、Llamaブランドを別のサービスに継続する可能性があります。なぜなら、人々はLlamaが何であるかを知っているからです。

Llama 5があると思いますか。

オープンウェイトではないでしょう。

興味深いですね。少しまとめると、つまり、Llamaは、私が言えるのは、先駆的なオープンウェイトモデルだったということです。そして、Llama 1、2、3は多くの愛を受けました。しかし、その後、何が起こったかを仮説を立てたり推測したりすると、Metaのリーダー、上級幹部たちが…LLaMAがコミュニティでどれほど人気があったかを見て、非常に興奮したのだと思います。

そして問題は、オープンソースを収益化するというか、収益化ではなく、より大きな話題を作るために使おうとすることだったと思います。ベンチマークのトップに立つために、これらの非常に大きなLLaMA 4モデルを開発するのは、ほとんど強制されているように感じました。しかし、LLaMAモデルの目標は、ChatGPTや他のモデルを打ち負かしてベンチマークのトップに立つことではないと思います。

目標は、人々が使用し、信頼し、修正し、理解できるモデルを持つことでした。それです。だから、より小さなモデルを含んでいます。最高のモデルである必要はありません。そして、起こったことは、これらのモデルがただ…ベンチマークが示したものは、実際よりも優れているということでした。なぜなら、ベンチマークでうまく機能するように好みに基づいてトレーニングされた特定のモデルを持っていたからだと思います。

それは一種の、最高になるよう強制するためのオーバーフィッティングです。しかし同時に、人々が使用できる小さなモデルをやりませんでした。そして、奇妙なことがありました。誰もこれらの大きなモデルを実行できませんでした。そして、奇妙なことがありました。人々がフロンティアを押し進める見出しに興奮しすぎたからだと思います。それだけだと思います。

そして、ベンチマークシンク側にあまりにも多すぎます。

作業量が多すぎます。

内部の政治的争いと不一致のインセンティブの下で内部崩壊したと思います。つまり、研究者は最高のモデルを構築したいと思っていますが、これらのことを実証しようとしている組織と管理の層があります。

そして、いくつかの恐ろしい技術的決定がどのように行われたか、そしてそれがどのように入ってくるかについての多くの断片とうわさがあります。そして、すべてがクラッシュするほど悪くなっただけのように見えます。

そうですね、でも、Mark Zuckerbergに大きな賞賛を与えるべきです。実際にはMarkから来ていると思います。リーダーシップのトップから、オープンソースは重要だと言っています。それが存在するという事実は、Llama 5がある可能性があることを意味します。そこで彼らはベンチマーキングからの教訓を学び、「GPTクラスになり、本当に素晴らしいオープンソースのライブラリを提供するつもりだ」と言います。

MetaとオープンソースAIの未来

人々が言うのは、MarkとAlexander Wangの間に議論があるということで、彼は非常に聡明ですが、オープンソースに対してははるかに反対しています。

そして、彼がAI組織に大きな影響力を持っている限り、それははるかに可能性が低いように見えます。なぜなら、Markは彼を新しいリーダーシップとAIの指揮のために連れてきたように見えるからです。そして、オープンか閉鎖かがもはやモデルの定義的な性質でない場合、それがMarkとAlexの間の定義的な議論であるとは期待できません。彼らは両方とも非常に聡明ですが、すべてを理解するのが難しいです。なぜなら、Markは2024年7月にこの作品を書いたからです。これはおそらく当時、オープンソースAIの理由を示す最高のブログ投稿でした。

そして2025年7月が来て、「オープンソースとの関係を再評価しています」という感じでした。

しかし、問題だと思います…問題ではなく、私たちが少し厳しすぎた可能性があると思います。そしてそれがその一部を引き起こしました。なぜなら、オープンソース開発者またはオープンソースコミュニティとして…モデルは皆が望んでいたものではなかったかもしれませんが、多くの反発を受けました。

そして、それは少し残念だったと思います。なぜなら、企業として、彼らは肯定的な見出しを期待していたことが分かるからです。そして、見出しがないか肯定的な見出しを得る代わりに、逆に否定的な見出しを得ました。それは企業に悪い反映をしました。そして、それはまた、おそらく意地の反応のようなものだと思います。ほとんど「わかった、私たちは何か良いことをしようとした、オープンソースモデルのようなクールなものをあなたに提供しようとした、そして今、あなたは私たちについて否定的になっている」というような感じなので、その意味で「じゃあ、おそらく考えを変えるかもしれません」というように見えます。分かりません。

そうですね、それが、X上での言説のダイナミクスが、コミュニティとして私たちを迷わせる可能性がある場所です。なぜなら、時にはランダムに感じられるからです。人々は好きなものと嫌いなものを選びます。Grok 4.1とGrok Code Fast 1.0で同じことが見られます。雰囲気的には、人々は公に愛していないと思います。しかし、多くの人が使っています。

だから、RedditやXを見ると、プログラミングコミュニティからそれほど賞賛を受けていませんが、彼らは使っています。そして、Llamaでもおそらく同じです。肯定的な誇大広告や否定的な誇大広告のダイナミクスを理解できません。理解できません。

つまり、2025年のストーリーの一つは、アメリカがLlamaのギャップを埋めることで、これらの中国のオープンウェイトモデルの台頭です。これは、過去5か月間にこれを実現するための政策活動に多くのエネルギーを費やしてきた、私が費やしてきた唯一の問題でした。

それでは、Adamのストーリーを教えてください。

Adam Projectは、私がそれをAmerican DeepSeek Projectと呼ぶことから始まりました。DC の聴衆にはあまり機能しませんが、私のキャリアで最も影響力のあることは何かというストーリーです。これらの中国のオープンウェイトモデルは多くの力を培っており、これらのオープンモデルの上に構築したいという多くの需要があります。特に、これらの中国モデルに非常に神経質なアメリカ企業で。

Perplexityによると、Adam Project: American Truly Open Modelsは、高品質で真にオープンウェイトのAIモデルとサポートインフラストラクチャを構築およびホストするためのアメリカを拠点とするイニシアチブで、中国の急速に進歩するオープンソースAIエコシステムと競争し、追いつくことを明確に目指しています。

2文の要約は次のようになると思います。一つは、オープンモデルがAI研究のエンジンになるという提案です。なぜなら、それが人々が始めるものだからです。したがって、それらを所有することが重要です。そして2番目は、したがって、最高の研究がアメリカで起こるように、アメリカが最高のモデルを構築すべきであり、そしてアメリカ企業がAI研究が起こっている本拠地であることから価値を得るということです。そして、オープンモデルへのより多くの投資なしには、ウェブサイトにプロットがあり、「Qwen、Qwen、Qwen、Qwen」となっていて、アメリカや国際的に影響力を培っている中国企業からのこれらすべての優れたモデルです。

そして、アメリカはAIにはるかに多く費やしていると思いますが、クローズドラボの最先端の半世代または1世代を超えるオープンモデルを作成する能力には1億ドルかかります。それは多くのお金ですが、これらの企業にとっては多くのお金ではありません。だから、これをやりたい人々の中央集権的な力が必要です。

そして、政策であろうと、完全なスタック全体で人々から関与を得たと思います。

それでは、政権からの支援はありましたか。

技術的に政府の誰も公にそれに署名していないと思いますが、Biden政権とTrump政権の両方でAI政策に携わってきた人々が、アメリカでオープンソースモデルを推進することに非常に支持的であることは知っています。

例えば、AI2はNSFから4年間で1億ドルの助成金を受けました。これはNSFがこれまでに授与した最大のCS助成金であり、AI2がこれを試みるためのものです。それは出発点だと思います。しかし、複数の組織がモデルを構築している場合に最良のことが起こります。なぜなら、彼らはアイデアを相互受粉させ、このエコシステムを構築できるからです。

Llamaが世界にモデルをリリースするだけではうまくいかないと思います。なぜなら、Llamaは消える可能性があるからです。AI2についても同じことが言えます。モデルを構築する唯一の存在になることはできません。そしてそれは…政策に携わっている人々であろうと、多くの時間を人々と話すことに費やしました。NVIDIAがこれに非常に興奮していることを知っています。

Jensen Huangはこれの緊急性について話しており、彼らは2025年に多くのことを行いました。Nemotronモデルがより重点的に取り組まれています。彼らはNVIDIAのオープンモデルとともにいくつかのデータをリリースし始めており、特にNVIDIAの規模の企業ではこれを行う企業は非常に少ないです。だから、進歩の兆候があります。Reflection AIについて聞きますが、彼らは20億ドルの資金調達がアメリカのオープンモデルの構築に専念していると言っており、彼らの発表ツイートはブログ投稿のように読めると感じます。

その文化的な潮流が変わり始めていると思います。7月には、DeepSeek級の中国のオープンウェイトモデルが4つか5つあり、アメリカからはゼロでした。それが「ああ、他の誰もやらないなら、これにエネルギーを費やさなければならないと思う」という瞬間でした。だから、多くの人々が一緒に貢献する必要があります。

Adam Projectが、エコシステムを動かすのを助ける唯一のものだとは言いません。しかし、これは私のようなことをして言葉を広める人々です。

2025年のAmerica’s AI Action Planは好きですか。オープンソースのものが含まれています。ホワイトハウスAI Action Planには、「オープンソースおよびオープンウェイトAIの奨励」というタイトルの専用セクションが含まれており、そのようなモデルを定義し、イノベーションとスタートアップにとって独自の価値があると主張しています。

そうですね。つまり、AI Action Planは計画ですが、おおむね、これは政権から出てきた最も一貫性のある政策文書だと思いますし、それが大部分成功することを願っています。AI Action Planに取り組んだ人々を知っていますが、課題は政策を実現することです。

AI研究者としてこれをどのように行うかについては全く分かりませんが、おおむね、その中の多くのことは非常に現実的でした。国内でのAIの大規模な構築があり、人々が聞いている多くの問題があります。水の使用から何でも。この国で物事を構築できるべきですが、また、その過程でこの国の場所を台無しにしないようにする必要があり、それにエネルギーを費やす価値があります。

それは連邦政府が果たす役割だと思います。彼らは議題を設定します。そして、オープンウェイトが最初の考慮事項であるべきという議題を設定することは、彼らができることの大部分であり、そして人々はそれについて考えます。

また、これらの企業にとって教育や人材も非常に重要だと思います。そうでなければ、クローズドモデルしかない場合、次世代の人々が貢献するにはどうすればよいのでしょうか。なぜなら、ある時点で、企業に参加した後にしか学べなくなるからです。しかし、その時点で、どのように才能のある人々を雇用し、どのように彼らを特定するのでしょうか。オープンソースは多くのことにとって重要だと思いますが、人口を教育し、次世代の研究者をトレーニングするためにも重要です。それが方法、または唯一の方法です。

これをよりバイラルにすることができた方法は、権威主義国家と統合された中国のAIのストーリーを語り、ASIになって世界を乗っ取ることです。したがって、私たち自身のアメリカのモデルが必要です。

しかし、アメリカでのイノベーションと科学について話すのは意図的です。なぜなら、結果としてより現実的だと思うし、実現したい世界だからです。

ただ、どのオープンウェイトモデルも価値あるモデルだと言えます。

そうです。そして私の主張は、リーディングポジションにいるべきだということです。

しかし、それを非常にシンプルに言う価値があると思います。なぜなら、AI エコシステムには、安全上のリスクのためにオープンモデルのリリースを禁止することを検討すべきだと言う声がまだあるからです。そして、それを効果的に追加する価値があると思います。これは、アメリカが独自のグレートファイアウォールを持つことなしには不可能であり、それもあまりうまく機能しないことで知られています。なぜなら、これらのモデルをトレーニングするコストは、100万ドルから1億ドルの範囲であり、影響力を持ちたい世界中の膨大な数の人々にとって達成可能だからです。だから、これらのモデルは世界中でトレーニングされるでしょう。

そして、特に安全上の懸念がある場合でも、これらの情報とツールが世界中とアメリカに自由に流れることを望んでいます。人々がそれらを使用し、それらから学ぶことができるように。それを止めることは、私たちのインターネットのこのような再構築になり、不可能に見えます。

その場合、中国の大規模なオープンウェイトモデルは、実際にはアメリカ企業にとって良いことかもしれないと思いますか。なぜなら、先ほど言及したアメリカ企業は、通常、オープンソースでリリースするものと使用しているものの1世代遅れているからです。例えば、GPT-4oは最先端モデルではないかもしれません。

Gemma 3もそうではないかもしれませんが、彼らはこれが安全にリリースできることを知っているのでそうしています。しかし、これらの企業が、例えば、本当に素晴らしくて使用され、反発がなく、セキュリティリスクがないDeepSeek-V3があることを見ると、それが彼らをより良いモデルをリリースするよう奨励する可能性があります。おそらく、ある意味では、それは非常に肯定的なことです。

100パーセント。これらの中国企業は、おそらく彼らがすべてモデルをリリースしていなければ起こらなかったかもしれないことを動かし始めました。だから、それはほぼ確実にリーダーシップによってこれらの議論が行われたと思います。

世界で支配的なAIモデルがすべてオープンソースである可能性のある未来はありますか。

あなたが予測する進歩の軌跡に依存します。

進歩の飽和が数年以内に来ると思う場合、つまり本質的に、財政的支援がまだ非常に良い時期内であれば、オープンモデルは非常に最適化され、実行がはるかに安価になるので、勝つでしょう。本質的に、これはオープンソースのアイデアに戻ります。非常に多くの人々がこれらのオープンウェイトの共通アーキテクチャのサービスを最適化するためにお金を投入するので、それらは標準になり、それらに特化したチップを持つことができ、カスタムのこれらのクローズド企業からの提供よりもはるかに安くなるでしょう。

Situational Awarenessレポートは、ナラティブの観点から予測することの一つは、多くの中央集権化があるだろうということだと言うべきです。AIシステムがどんどん賢くなるにつれて、国家安全保障上の懸念が生じ、ラボを中央集権化し、非常に秘密主義になり、中国とアメリカの間の軍事的観点からの全体的な競争が起こるでしょう。

そして、LLMについて行っているこれらすべての楽しい会話…将軍、兵士が部屋に入ってきて、「さて。私たちは今、このすべてのマンハッタン計画段階にいます」という感じです。

2025年、26年、27年については、そのようなことは全く可能だとさえ思いません。つまり、コンピュータについても同じ主張ができますよね。「わかった。

コンピュータは有能で、一般の人々にそれらを持たせたくない」と言うことができます。またはチップ、さらにはAIチップですが、Huaweiが今チップを作っているのが分かります。数年かかりましたが、そして、そのような知識を封じ込める方法はないと思います。この時代において、それは不可能です。インターネットのように。これは可能性だとは思いません。

マンハッタン計画に関して言えば、私の面白い見方の一つは、オープンモデルに対するマンハッタン計画のようなものは実際にかなり合理的だと思うということです。なぜならそれほど費用がかからないからです。しかし、それは実現すると思います。企業は文化的に変化しているように見えます。でも私はセバスチャンが今言ったことすべてに同意します。ただ、それが起こるとも、役に立つとも思えません。

そうですね。つまり、マンハッタン計画の背後にある動機づけの力は文明的リスクでした。オープンソースモデルに対してそれを動機づけることは難しいです。

文明的リスクはありません。

NVIDIAの優位性と競争環境

ハードウェア側では、NVIDIAについて何度も言及しました。ジェンスンとNVIDIAは勝ち続けると思いますか。

彼らには多くの反復と多くの製造を行わなければならないという不利な点があると思います。そして彼らがやっていることは革新的ですが、根本的に異なる何かをして、非常に運が良い誰かがいる可能性は常にあると思います。しかし問題は普及です。

NVIDIAの堀はおそらくGPUだけではありません。むしろCUDAエコシステムであり、それは20年以上かけて進化してきました。つまり、私が大学院生だった頃でさえ、私たちは生物物理学的シミュレーション、分子動力学を行う研究室にいて、当時の計算のためだけにTesla GPUを持っていました。それは今から15年前のことです。

そして彼らはこれを長い間構築してきました。それが堀だと思います。チップ自体ではありません。もっとも、彼らは今や反復し、構築し、スケールするための資金を持っていますが、それは本当に互換性の問題です。あなたがその規模の企業であるなら、年間数個のチップしか作れないようなリスクのあるものを選ぶでしょうか。大手を選びますよね。

でも私は、LLMがあれば今後CUDAのようなものを設計するのは容易になると思います。15年かかったのは難しかったからですが、今はLLMがあるので、CUDAを再現できるかもしれません。

そして、安定化が進み、推論により多くの計算が必要になるにつれて、訓練用と推論用の計算が分離されるのではないかと思います。

それがGroq買収のポイントであると想定されています。そしてそれがVera Rubinの一部が行っていることの理由です。彼らは高帯域幅メモリのない新しいチップを持っています。高帯域幅メモリは最も高価な部品の一つです。あるいは非常に少ないです。それは事前埋め込みのために設計されており、事前埋め込みは推論の部分で、基本的に多くの行列乗算を行います。

そして、この自己回帰的生成を行っているときにのみメモリが必要で、KVキャッシュのスワップがあります。だから彼らはその特定の使用事例のために設計された新しいGPUを持っていて、フロップあたりまたは何であれ所有コストは実際にはるかに低いです。しかし、NVIDIAの運命はAIの普及にかかっていると思います。

彼らの最大の顧客はまだこれらのハイパースケール企業です。Googleは明らかにTPUを作ることができます。AmazonはTrainiumを作っています。Microsoftは独自のことをやろうとするでしょう。そしてAIの進歩のペースが高い限り、NVIDIAのプラットフォームは最も柔軟であり、人々はそれを望むでしょう。しかし停滞があれば、特注チップを作る時間が増えます。

NVIDIAがさまざまな製品を開発しようと非常に積極的なのは興味深いですね。

彼らは多くのGPUを使用する商業的価値のある領域を作ろうとしています。

でも彼らは革新を続けていて、多くの素晴らしい研究を行っています。

誰もが、その会社はジェンスンを中心に非常に方向づけられていて、彼が運営的にどれだけ深く関わっているかと言っています。そして、私が聞いた他の多くの大企業とは非常に異なるように聞こえます。そしてそれが文化である限り、進歩が起こり続けることを期待すると思います。それは彼がまだAppleのスティーブ・ジョブズ時代にいるようなものです。それが運営方法である限り、私は彼らの状況について非常に楽観的です。なぜならそれは彼らの最優先問題だからです。そしてエコシステム全体のためにこれらのチップを作ることが、これらの他のすべての企業の最優先目標であるかどうかはわかりません。彼らは良い仕事をするでしょうが、それほど良い仕事ではないかもしれません。

歴史における個人の役割

ジェンスンについて言及されたので、私は歴史や歴史における特異な人物について多く読んできました。歴史の単一の男性/女性の見方についてどう思いますか。テクノロジー分野で歴史の方向を導く上で、個人はどれほど重要でしょうか。つまり、ジェンスンのいないNVIDIAとは何でしょうか。スティーブ・ジョブズに言及されましたね。

スティーブ・ジョブズのいないAppleとは何でしょうか。イーロンのいないxAIやデミスのいないDeepMindとは何でしょうか。

人々は物事をより早く、より速く実現します。科学的には、多くの偉大な科学者が適切な場所に適切な時にいたことによって革新を起こしたと評価していますが、最終的には他の誰かもそのアイデアを思いついたでしょう。

だから、その意味で、ジェンスンはこのGPU革命をそこに人がいない場合よりもはるかに速く、はるかに集中して実現させる手助けをしています。そしてこれはAI全体の構築を速めています。しかし、最終的にはChatGPTのようなものは起こり、このような構築は起こっただろうと思いますが、おそらくそれほど速くはなかったでしょう。それが適用される種類の味わいだと思います。

人々、これらの個々の人々は何かに賭けをしています。運が良い人もいれば、そうでない人もいます。しかし、これらの人々が舵取りをしていなければ、もっと拡散していたでしょう。それはほとんど、個別株ではなくETFに投資するようなものです。個別株は上がるかもしれないし、ETFよりも大きく下がるかもしれません。ETFはよりバランスが取れています。最終的には時間とともに上がるでしょう。

私たちはそこに到達するでしょう。しかし、焦点だと思います。情熱と焦点です。

ジェンスンがいなければ、ディープラーニング革命の再活性化はなかったという実際のケースはありませんか。

20年後だったかもしれない、ということです。

ええ、20年は…

あるいは別のAIの冬、ディープラーニングの冬が来たかもしれません。GPUがなければ。

それは歴史を完全に変える可能性があります。なぜなら、その間に登場する可能性のある他のすべての技術について考えることができ、人類文明の焦点は変わってしまうからです。シリコンバレーは異なる誇大宣伝に捉えられるでしょう。

でも私は思うのですが、つまり、GPU の軌跡がすべて計画されていたという側面は確かにあります。

しかし一方で、それは幸運な偶然や良い直感も多くあります。たとえば、生物物理学的シミュレーションへの投資を例に挙げましょう。つまり、ビデオゲームから始まったと思いますが、それがたまたま線形代数が得意だったのは、ビデオゲームには多くの線形代数が必要だからです。そして生物物理学的シミュレーションがあります。

でもやはり、計画、マスタープランがAIだったとは思いません。それはたまたまアレックス・クリジェフスキーがそうなっただけだと思います。誰かがこれらのGPUを持って、「ねえ、これでニューラルネットワークを訓練してみよう」と言いました。それは本当にうまく機能し、それが起こったのは、これらのGPUを購入できたからだと思います。

ゲームは、NVIDIAが初期の頃に廃業していたとしても、より速いプロセッサの需要を生み出していたでしょう。

それが私の考えです。AlexNet用のGPUは異なっていたと思いますが、AlexNetの時代やTransformerの時代にはGPUはまだ存在していたと思います。1つの企業がこれほど成功しているのか、それとも複数の小さな企業がより悪いチップを持っているのかを知ることは難しかっただけです。

でもそれが100年の遅れだとは思いません。10年の遅れかもしれません。

まあ、数十年の遅れになる可能性があります。つまり、IntelやAMDがNVIDIAがやったことをやるとは思えません。

現在存在している会社ではないと思います。台頭する別の会社だと思います。

Silicon Graphicsのような。

ええ、死んだ会社がそれをやっていたでしょう。

でも見てみると、これらの特異な人物、これらのリーダーたちが世界の軌道に大きな影響を与えているように見えます。明らかに、彼らの背後には素晴らしいチームがいます。しかし、そのような非常に特異な、ほとんど独断的な焦点が進歩を遂げるために必要なのです。

ええ、つまり、GPTでさえ、このスケーリングを推進した人物、イリヤがいなければ存在しなかったでしょう。

ええ、ダリオもそれに深く関わっていました。

OpenAIからの歴史のいくつかを読むと、これらの人々がいかに早くから「10,000個のGPUを接続してOpenAIの計算すべてを使って1つのモデルを訓練する必要がある」と言っていたかを考えると、ほとんど狂気のように思えます。それをやりたくない人がたくさんいました。

それは信じるべき狂気じみたことです。スケーリングが実現する兆候が何もないうちにスケーリングを信じること。再び、特異な人物です。

技術的特異点へ向けた画期的進歩

ところで、100年後、これはおそらく特異点後です。その特異点が何であれ。歴史家が私たちの今の時代を振り返ったとき、特異点につながった画期的進歩としてどのような技術的進歩を本当に強調するでしょうか。これまでのところ、チューリングから今日まで80年です。

それでもコンピューティングだと思います。包括的な用語としてのコンピューティングです。

100年後、200年後でも、必ずしもAIだとは思いません。それでもコンピューターである可能性があります。私たちは今、コンピューターをよりよく活用していますが、コンピューティングという事実です。

それは基本的にムーアの法則のような議論です。CUDAやGPUの詳細さえ覚えられておらず、このソフトウェアの混乱すべても覚えられないでしょう。それは明らかに計算です。

私は概ね同意しますが、インターネットと計算の接続性は統合できるのでしょうか。それとも両方なのでしょうか。

インターネットはおそらく通信に関連すると思います。電話、インターネット、または衛星、そういうものかもしれません。計算はそのスケーリングの側面に関連しています。

インターネットが完全に忘れ去られる可能性があります。

インターネットが通信ネットワークに包含される。これはその別の現れに過ぎず、本当の画期的進歩は増大した計算から来る、広義のムーアの法則です。

まあ、人々の接続は非常に基本的だと思います。だから、誰とでも話すことができます。

何かについて世界で最高の人を見つけたいなら、その人は世界のどこかにいます。そして情報の流れを持つことができること、AIもこれに依存するでしょう。私が中央モデルの1つについて夢が死んだと言ったときのことを固執していると思いますが、進化しているのは人々が異なるタスクのために多くのエージェントを持つことです。

人々はすでに異なるタスクのために異なるクラウドでこれを始めています。そしてそれはデータセンター内の多くのAGIとして記述されており、それぞれが管理し、互いに話し合います。そしてそれはネットワーキングと情報の自由な流れに非常に依存しています。計算の上に。しかしネットワーキング、特にGPUでは、計算をスケーリングする部分の一つです。データセンター内のGPUは互いに話し合う必要があります。

ニューラルネットワークについて何か覚えられると思いますか。ニューラルネットワークであるという事実に特異で単一の何かがあり、それが画期的進歩と見なされると思いますか。天才的な、基本的に非常に粗雑な方法で人間の脳、人間の心の構造を複製しているという。

人間の心がなければ、おそらくニューラルネットワークは持っていなかったと思います。それがそのインスピレーションだったからです。

しかし一方で、それはあまりにも異なると思います。つまり、デジタル対生物学的なので、おそらくアルゴリズムとしてグループ化されると思います。

この特定の種類の計算で大規模に並列化可能な…

遺伝的アルゴリズムを並列化したものでもよかったかもしれません。たまたまこれがより効率的でよりうまく機能するだけです。

そして、ニューラルネットワーク、私たちがそれらを設計する方法が、特異点につながるシステムのほんの小さな構成要素である可能性は十分にあります。

100年後を考えると、自律性のために、より多くの計算と知性によって社会がより変化する可能性があると思います。しかしこれを見て、産業革命から私たちが覚えているものは何でしょうか。エンジンを覚えています。それはおそらくこれにおけるコンピューターに相当します。

しかし人々が知っている他の多くの物理的変化があります。綿繰り機やまだ知られているこれらすべての機械、エアコン、冷蔵庫など。AIからのこれらのもののいくつかはまだ知られているでしょう。「トランスフォーマー」という言葉はまだ知られている可能性があります。

ディープラーニングは間違いなくまだ知られていると思いますが、トランスフォーマーは100年後にはAI研究者が至る所にいて進化から離れているかもしれません。しかしディープラーニングは記憶される用語である可能性が高いと思います。

そして、AIがもたらす未来のエアコンや冷蔵は何なのか気になります。今から100年後に旅したら、どう違うと思いますか。世界がどう異なって見えると思いますか。人間がいると思いますか。至る所にロボットが歩いていると思いますか。

特定のタスクのための専門ロボットは間違いなくいると思います。

人型ですか。

半分人型かもしれません。見てみましょう。特定のことについては、はい、人型ロボットがいるでしょう。なぜなら環境に適しているからです。しかし特定のタスクについては、理にかなっているかもしれません。想像するのが難しいのは、私たちがデバイスとどのように相互作用するか、人間がデバイスで何をするかです。おそらく携帯電話やラップトップではないと確信しています。

ラップトップ。それは脳コンピューターインターフェースでなければなりませんよね。つまり、100年後には、そうでなければなりません。つまり、私たちが今見ている進歩を考えれば、そうでなければなりません。現実との相互作用方法の完全な変更がない限り。

一方、車について考えると、車は100年以上前からありますよね。そしてまだ同じインターフェースです。私たちは車を何か他のものに置き換えていません。車をより良くしただけですが、それでもハンドルであり、それでも車輪です。

私たちはまだ計算の物理的なブロックを持ち歩くと思います。人々はプライベートな能力を持ちたいからです。電話ほどそれと関わらないかもしれませんが、インターネットの残りとのインターフェースとして、あなたのものであるプライベートな情報のための何かを持つことは、まだ存在すると思います。

iPhoneのように見えないかもしれませんし、使用頻度は少ないかもしれませんが、人々が物を持ち歩くことを期待しています。

なぜスマートフォンがプライベートの具現化だと思うのですか。カメラがついています。

あなたにとってプライベートです。暗号化されたメッセージ、暗号化された写真、あなたの人生が何であるかを知っています。これは脳機械インターフェースにどれだけ楽観的かという質問だと思います。

それはすべてクラウドに保存されるのでしょうか。あなたの全カレンダーに。脳機械インターフェースがカレンダーのような何かをあなたに提示することを通じて、私たちが視覚的に処理できるすべての情報を処理することを考えるのは難しいです。見ないで知ることを考えるのは難しいです。あなたのメールの受信箱。コンピューターに信号を送ると、メールの受信箱がわかります。

それは何ですか。人間の脳が非視覚的にパイプで送られてくるそれを扱えるのでしょうか。わかりません。それらの変換がどのように起こるかは正確にはわかりません。なぜなら人間は100年で変わらないからです。主体性とコミュニティは人々が実際に望むものだと思います。

地域コミュニティ、ええ。

だから、あなたが近い人々、彼らと物事をできること、あなたの人生に意味を帰属させることができ、物事をできること。

私はそれが、100年後でなくても、人間の生物学が議論できる時間スケールでそれらから変化しているとは思いません。そしてUBIは主体性を解決しないと思います。私は大規模な富を期待していますし、それが広がって平均的な生活が100年後に非常に異なって見えることを望んでいます。しかしそれでも100年で起こるには多くのことがあります。

開発プロセスの初期段階にある国々について考えると、コンピューティングとインターネットへのアクセスを得るために、すべてのインフラストラクチャを構築し、ある国の富を別の国と共有する政策を持つことは、私はそれがすべて100年で起こるのを見るのは楽観的な見方だと思います。

彼らがまだ独立した実体であり、ただ力によって何らかの国際秩序に吸収されないでいる間。

しかし、世界から基本的な苦しみのいくつかのレベルを軽減するのに役立つ、より良い、より精巧な、より効果的な社会支援システムがあるかもしれません。短期的に多くの仕事が失われる社会の変革について、私たちは本当に覚えておかなければなりません。失われる個々の仕事は苦しんでいる人間であるということを。

それは悲劇のようなものです。仕事が失われるとき、その規模は本当の悲劇です。経済学についてあらゆる種類の議論をすることができます。あるいはすべてうまくいくでしょう。GDPには良いですし、新しい仕事が生み出されるでしょう。その人間にとって個人レベルでは根本的に、それは本当の苦しみです。それは本当に個人的な悲劇のようなものです。

そして技術が開発されているとき、私たちはそれを忘れてはなりません。また、私たちが見ているすべてのAIスロップに対する私の希望は、対面での人間体験の基本的な側面に対してますます高いプレミアムがあるということです。お互いを見ること、対面で一緒に話すこと。

人間らしさの価値

今後数年間は、物理的な商品やイベントに対する価値が確実に高まるでしょう。そしてスロップに対するさらなる圧力も。

スロップはまだ始まったばかりです。今後数年間はますます多様になるでしょう。

私たち全員がスロップに溺れると思いますか。

スロップのバージョン。

社会がスロップに十分溺れて、それから目覚めて「これには対処できない」と言うことを期待しています。それは単に問題ではありません。私たち全員がそれに対処できません。そして物理的なものにそれほど高いプレミアムがかかります。

古典的な例でさえ、正直これは真実だと思いますし、私たちはすでにそれに飽き飽きしていると思います。芸術も同様です。芸術はなくならないと思います。絵画、物理的な絵画があります。より多くの価値があります。金銭的価値だけでなく、その絵画のコピーよりも実際の絵画に対する感謝が増しています。

完璧なデジタルリプリントかもしれませんが、美術館に行ってその本物を見るとき、何かがあります。そして「わかった、人間が」と考えます。それは工芸品のようなものです。それに対する感謝があります。そして書くこと、話すこと、あらゆるタイプの体験についても同じことが言えると思います。

残念ながら二分法、フォークのようになると思います。あるものは自動化されるでしょう。200年前ほど多くの絵画はありません。より多くの写真、より多くのコピーがあります。しかし同時に、それはなくなりません。それには価値があるでしょう。その違いは単にその割合が何かということだと思います。

個人的に、私は明らかにAIで生成されたと思うものを読むのが難しいです。すみません。本当に良い情報かもしれませんが、私は特定の「いや、私には向いていない」という感覚を持っています。

最終的には彼らはあなたを騙すと思います。そしてそれは検証や信頼構築の方法を与えるプラットフォーム上にあるでしょう。だからあなたはLexがAIで生成されていないことを信頼するでしょう。ここにいたから。だからこのチャンネルに信頼があります。しかしその信頼を持たない新しい人々にとってはより難しいです。

まあ、それは面白くなるでしょう。なぜなら根本的に、彼らがそれをしないという特定のアウトレットを信頼することによって解決可能な問題だと思いますが、それはすべて信頼ベースになるでしょう。「わかった、これは本物です。これは本物ではありません」と認証するシステムがあるでしょう。

これはAIで生成されており、これはそうではないと言える特定の兆候があるでしょう。しかしあまりにも良いものは見分けるのが難しく、そうしたら信頼しなければなりません。そしてそれは興味深く、少し問題になるでしょう。

これの極端なケースは、すべての人間のコンテンツに透かしを入れることです。私たち自身が撮影するすべての写真には、編集されるまで何らかの透かしがあります。そしてソフトウェアはデバイス製造業者との通信を管理できます。

人間の編集を維持するために、これはAI画像に透かしを入れる議論の反対です。そしてあなたは透かしを持つGoogle画像を作成し、別のツールを使用して透かしを削除できます。

ええ、基本的に軍拡競争になるでしょう。

そして私たちは主にAIの肯定的な側面に焦点を当ててきました。

私たちが話してきたすべての能力は、比較的愚かなAIでさえ規模で適用されれば人類文明を不安定化させるために使用される可能性があり、さらに超知能AIシステムにも。もちろん、これらの技術を開発する際に少し考慮することが重要な、ある種の終末論的な見方があります。

人類文明の未来について何があなたに希望を与えますか。私たちが話してきたすべて。私たちは大丈夫でしょうか。

私はそう思います。私は間違いなくAIと非AIの両方について心配する人です。しかし人間は道を見つける傾向があります。それが人間が作られたものだと思います。コミュニティを持ち、問題を解決する方法を見つけること。そしてそれが私たちをこの時点まで導いてきました。

そしてAIの機会と関連技術が本当に大きいと考えること。そして誰もがそれを理解するのを助けるための大きな社会的政治的問題があると思います。そして私たちが今多く直面しているのは、世界が恐ろしい場所であり、AIは非常に不確実なものだということです。

そしてそれは必ずしも物を構築することではない多くの作業を必要とします。それは人々に伝え、人々を理解することのようなもので、AIを構築している人々は歴史的に動機づけられていないか、やりたがっていません。しかしそれはおそらく実行可能なものです。人々が望むよりも時間がかかるだけです。そして私たちは長期にわたる困難で動揺したAI議論の期間を経なければなりません。永続的な利益を望むなら。

ええ、そのプロセスを通じて、私は特に私たちが自分自身をよりよく理解する機会を得ることに興奮しています。個人レベルでの人間として、そして文明レベルで。そして意識とは何なのかといったいくつかの大きな謎に答えます。

それはここで起こっている全体的なものですか。それは真に特別であるように思われます。

私たちの心には本当の奇跡があります。そしてAIは私たち自身に鏡を置き、ここで起こっているこの全体的なものは何なのかという大きな質問のいくつかに答える機会を得ます。

まあ、それについての一つのことは、私たちをAIとは非常に異なるものにし、AIが乗っ取ることを心配しない理由でもあります。あなたが言ったように、意識です。

私たち人間は、私たちが何をしたいかを決定します。現在の実装におけるAIは、変わるとは思えません。何をすべきかを伝えなければなりません。だからあなたはまだ主体性を持っています。それはあなたから主体性を奪いません。なぜならそれはツールになるからです。ツールだと考えることができます。何をすべきかを伝えます。それは他の以前のツールよりも自動的になるでしょう。それは確かにハンマーよりも強力です。物事を理解できますが、それでもあなたが担当しています。だからAIが担当しているのではなく、あなたが担当しています。AIに何をすべきかを伝えると、それがあなたのためにそれを行います。

だから、特異点後、黙示録後の人間と機械の戦争では、人間は戦う価値があると言っているのですね。

100パーセント。つまり、これは映画ターミネーターで、彼らは80年代に作りました。そして私が思う唯一の間違いは、もちろん、物事が明示的に有害なことをするようにプログラムされている場合です。

実際にそれについて、ターミネータータイプの設定では、人間が勝つと思います。私たちはあまりにも賢いと思います。どのように私たちがそれを理解するかを説明するのは難しいですが、そうします。そしておそらく、機械と戦うためにローカルLLM、オープンソースLLMを使用しているでしょう。ばかばかしさについてお詫びします。言ったように、ネイサンについては長い間大ファンでした。

セバスチャン、あなたについても長い間大ファンでしたので、ついにお会いできて光栄です。あなたが世界に送り出しているすべてに感謝します。あなたが書いている素晴らしい本に感謝します。私たちに教えてくれてありがとうございます。そして、今日話してくれてありがとうございます。これは楽しかったです。

ここに私たちを招待してこの人間的なつながりを持ってくれてありがとうございます。それは実際に…

非常に貴重です。人間的なつながり。

セバスチャン・ラシュカとネイサン・ランバートとのこの会話を聞いてくれてありがとうございます。このポッドキャストをサポートするには、説明欄のスポンサーをチェックしてください。そこには私に連絡したり、質問したり、フィードバックを提供したりするためのリンクもあります。そして今、アルバート・アインシュタインからのいくつかの言葉を残させてください。

「私がそれほど賢いのではありません。ただ私は質問とはるかに長く一緒にいるのです」聞いてくれてありがとうございます。次回お会いできることを願っています。

コメント

タイトルとURLをコピーしました