DeepSeek、中国、OpenAI、NVIDIA、xAI、TSMC、Stargate、そしてAIメガクラスター | レックス・フリードマンポッドキャスト #459

AGIに仕事を奪われたい
この記事は約211分で読めます。

126,359 文字

DeepSeek, China, OpenAI, NVIDIA, xAI, TSMC, Stargate, and AI Megaclusters | Lex Fridman Podcast #459
Dylan Patel is the founder of SemiAnalysis, a research & analysis company specializing in semiconductors, GPUs, CPUs, an...

今回の対談はDylan PatelとNathan Lambertとの会話です。Dylanは半導体、GPU、CPU、AI関連ハードウェア全般を専門とする研究・分析会社であるSemi Analysisを運営しています。Nathanはアレン人工知能研究所の研究者で、AIに関する素晴らしいブログ「Interconnects」の著者です。二人ともAI分野の専門家、研究者、エンジニアから高い評価と信頼を得ています。私個人としても彼らの大ファンなので、AI業界に衝撃を与えたDeepSeekのモーメントを機に、二人と対談し、DeepSeek、OpenAI、Google、xAI、Meta、Anthropicから、NVIDIA、TSMC、そして米中台関係まで、AIの最先端で起きているあらゆることについて詳しく掘り下げてみたいと思います。
この対談ではAI業界の多くの重要な側面について深く掘り下げていきますが、技術的な内容が多くなるものの、用語の定義や重要な概念を明確に説明し、頭字語も省略せずに述べるなど、AI分野以外の方々にも理解しやすいよう心がけています。
メディアではAIについて多くの誇大宣伝がありますが、このポッドキャストの目的の一つは、そうした誇大宣伝や表面的な分析を切り分け、物事の仕組みとその意味について詳しく議論することです。
また、この対談中に発表を予期していたOpenAIの新しい推論モデルo3 miniについても触れておきたいと思います。実際に対談後にリリースされ、その性能とコストは我々の予想通りでした。o3 miniは素晴らしいモデルですが、DeepSeek R1も同様のベンチマーク性能を持ち、より安価で、Chain of Thoughtの推論過程も開示されています。一方でo3 miniは推論の要約のみを示し、オープンウェイトでもありません。
私自身もo3 miniを試す機会がありましたが、感覚的にはo3 mini、特にo3 mini highはR1よりも優れていると感じました。ただし個人的には、プログラミングに関してはClaude Sonnet 3.5が最高のモデルだと考えています。複雑なケースでは01 Proを使ってブレインストーミングをすることもありますが。
いずれにせよ、米国企業も中国企業も、より優れたAIモデル、そして推論モデルを今後も開発していくでしょう。コストカーブも変化し続けるでしょうが、「DeepSeekモーメント」は確かに重要な出来事でした。地政学的な影響もあり、5年後も技術史上の重要な転換点として記憶されるでしょう。この対談では、様々な視点からその詳細について議論していきます。
これはLex Fridmanポッドキャストです。サポートしていただける方は、説明欄のスポンサーをチェックしてください。それでは、Dylan PatelとNathan Lambertとの対談をお楽しみください。
多くの人が中国のDeepSeekモデルについて理解したいと思っています。まずは全体像を把握し、その後詳細に入っていきましょう。Nathan、DeepSeek V3とDeepSeek R1について、それらの仕組みや訓練方法を説明してもらえますか?
はい、DeepSeek V3は中国のDeepSeekが開発した新しいMixture of Expertsトランスフォーマー言語モデルです。後ほど詳しく説明しますが、モデルには新しい特徴がいくつかあります。これはオープンウェイトモデルで、ChatGPTのような教師付きモデルです。また、ほとんどの人が今日使用している教師付きモデルのベースとなるベースモデルもリリースしています。これは12月26日頃にリリースされ、その数週間後の1月20日にDeepSeek R1という推論モデルがリリースされ、これが大きな議論を呼びました。
この推論モデルはDeepSeek V3と多くの訓練ステップが重複しています。V3というベースモデルがあり、それにいくつかの処理を加えてチャットモデルを作り、さらに別の処理を加えて推論モデルを作るというのは少し複雑かもしれません。AI業界全体が今、こうしたコミュニケーションの課題に直面しています。OpenAIも自社の命名規則を自虐的に捉えていて、GPT-4やOpenAI o1など、様々なタイプのモデルがあります。
それぞれのモデルについて、訓練の技術的な詳細を含めて説明していきましょう。まずは全体像から始めて、具体的な部分に入っていきます。
では、まずオープンウェイトについて説明しましょう。モデルがオープンウェイトであるとはどういう意味で、オープンソースには一般的にどんな種類があるのでしょうか?
この議論は長い間続いていましたが、2022年末のChatGPTの登場以降、より注目されるようになりました。オープンウェイトとは、言語モデルの重みをインターネット上でダウンロードできる状態にすることを指します。これらの重みにはライセンスが付与されており、モデルの使用条件を定めています。
ライセンスはオープンソースソフトウェアの歴史から来ているものもあれば、企業が独自に設計したものもあります。Llama、DeepSeek、Mistral、その他の有名なオープンウェイトモデルには、それぞれ独自のライセンスがあります。同じモデルでも異なる条件が設定されているため、複雑です。
オープンウェイトという用語を使う理由について議論があります。オープンソースに似ていますが同じではありません。AIのオープンソースの定義や本質については、まだ議論が続いています。オープンソースソフトウェアには、修正の自由、独自の展開の自由、使用制限からの自由などについて豊かな歴史がありますが、AIにおけるその意味はまだ定義の途上にあります。
私はアレン人工知能研究所で働いています。私たちは非営利組織で、AIを誰もが利用できるようにすることを目指しており、真のオープンソースとは何かについて主導的な立場を取ろうとしています。コミュニティ全体での合意はまだありませんが、私たちにとってそれは訓練データのリリース、訓練コードのリリース、そしてオープンウェイトを意味します。
モデルの詳細や訓練方法について説明を重ねていくなかで、データの処理、フィルタリング、品質が、モデルの品質を決定する最も重要な要素であることを繰り返し述べることになるでしょう。また、訓練コードは訓練にかかる時間や実験の速さを決定する重要な要素です。データへのアクセスがない完全なオープンソースモデルがなければ、知ることは難しく、再現はより困難になります。
DeepSeek V3のコストについて、主にGPU時間と、それらをレンタルするためにかかる費用について説明しますが、データがなければ再現コストは遥かに高くなります。コードについても同様です。また、これはフロンティアモデルの中でも、より開放的なモデルの一つだということも付け加えておくべきでしょう。
完全なオープンソース、つまりオープンコード、オープンデータ、オープンウェイトというスペクトラムの中で、これはオープンコードではなく、おそらくオープンデータでもありません。オープンウェイトであり、ライセンスはMITライセンスか…まあ、モデルによって細かな違いはありますが、オープンソース運動の観点からすると、自由度の高い方に位置づけられます。
はい、DeepSeekは素晴らしい仕事をしています。AIの理解を広めることに関して、彼らの論文は非常に詳細で、世界中のチームにとって、自身の訓練技術を改善するための実用的な情報となっています。
ライセンスについてもう少し話すと、DeepSeek R1モデルは非常に寛容なライセンスを持っています。Mライセンスと呼ばれるもので、商業利用に関する下流の制限がなく、使用事例の制限もありません。モデルの出力を使用して合成データを作成することもできます。これは素晴らしいことです。
最も近い比較対象はLlamaでしょう。重みと技術報告書があり、その技術報告書は非常に優れています。昨年、Llama 3の論文はPDF形式で最も読まれた文書の一つとなりましたが、ある意味では実用性が若干低いです。訓練の詳細についての情報が少なく、プロットなども少ないです。また、Llama 3のライセンスはMITライセンスよりも制限が厳しく、DeepSeekのカスタムライセンスとLlamaのライセンスの間には…このライセンスの話は本当にウサギの穴のように深いので、その議論に入る前に確認した方がいいかもしれません。
ここで指摘しておくべきなのは、DeepSeekの行動がLlamaやその他全て、OpenAIに対して、オープンソースの方向に向かって圧力をかけているという影響です。オープンソースのもう一つの側面として、コードの背後にある洞察をどれだけオープンにするかということがあります。技術報告書は曖昧なものなのか、それとも実際の詳細が含まれているのか。これはDeepSeekが上手く行ったことの一つで、彼らは多くの詳細を公開しました。
特にDeepSeek V3の事前訓練に関する論文では、技術スタックの様々なレベルでイテレーションを行っていることを明確に示しています。例えば、非常に効率的な訓練を実現するために、NVIDIAチップのCUDAレイヤー以下でも修正を加えています。私自身は働いたことがありませんが、世界でもそのような作業ができる人は少なく、その一部がDeepSeekにいます。このような人材はDeepSeekやアメリカの主要なフロンティアラボにいますが、多くの場所にはいません。
オープンウェイトのもう一つの影響について理解を深めましょう。これは我々が何度も立ち返るトピックになるでしょう。中国という国家がアメリカのデータを盗んだり、アメリカ市民のプライバシーを侵害したりする意図を持っているのではないかという懸念があります。この文脈でオープンウェイトについて、何が言えるでしょうか?
はい、データの盗難についてですが、Hugging Faceなどのプラットフォームからダウンロードできるこれらの重みは、非常に大きな数値の行列です。インターネットに接続されていないあなたの家のコンピュータにダウンロードして、そのモデルを実行することができ、データは完全にあなたの管理下にあります。これは今日の言語モデルの使用方法とは異なります。現在はほとんどがAPIを通じて使用され、プロンプトを特定の企業が運営するGPUに送信し、これらの企業はデータの保存方法、将来のモデル訓練への使用、保存場所、暗号化の有無などについて、それぞれ異なる方針や規定を持っています。
オープンウェイトでは、データの運命はあなた自身の手にあり、これはオープンソースの本質と深く結びついています。つまり、モデル自体があなたのデータを盗むわけではありません。データを盗むのはモデルをホストするDeepSeekのような中国企業かもしれませんし、PerplexityやOpenAIのようなアメリカ企業かもしれません。あなたは彼らにデータを信頼して預けているわけです。
では基本に戻って、DeepSeek V3とDeepSeek R1の違いを説明できますか?混乱を整理してみましょう。
はい、まず多くの人がこの二つのモデル名に混乱することは非常によく理解できます。これを理解する最良の方法は、言語モデルの訓練には事前訓練と呼ばれるものがあるところから始めましょう。これは主にインターネット上のテキストの大量のデータを使って、次のトークンを予測する訓練です。
これらの新しいDeepSeekモデルについて知っておくべきことは、このインターネット規模の事前訓練を一度行って、DeepSeek V3ベースと呼ばれるものを作成したということです。これはベースモデルで、文章を完成させることはできますが、ChatGPTよりも扱いにくいです。そこで、DeepSeekは二つの異なる後処理を行い、モデルに特定の望ましい振る舞いを持たせました。
AIの分野で過去数年間により一般的なモデル、つまり教師付きモデル、チャットモデル、「調整された」モデル、役立つモデルなど、様々な呼び方がありますが、これはより標準的な後処理です。これには教師付き調整や、人間のフィードバックからの強化学習などが含まれます。これらの用語についても後ほど説明しますが、これらを使用してDeepSeek V3モデルを作成しました。このモデルが最初にリリースされ、GPT-4やLlama 2 70Bと競合する高性能なものでした。
このリリースが行われている間、彼らの正確なタイムラインは分かりませんが、その直後に、先ほど説明した同じ次トークン予測ベースモデルから、異なる訓練プロセスを完了させていました。これが新しい推論訓練で、AIコミュニティの外でも話題になった理由の一つです。これによってDeepSeek R1と呼ばれるモデルが作成されました。この会話を通じて、Rは推論(reasoning)の意味で使われていて、また人々がよく耳にするOpenAI o1という他の推論モデルと似た名前になっています。
R1の訓練についてはさらに詳しく説明する必要があります。なぜなら、論文で詳細が説明されているだけでなく、AIコミュニティにとってはるかに新しい一連の技術だからです。それは研究分野として非常に急速に進化しています。
事前訓練と後処理という二つの大きなカテゴリーについても説明した方がいいかもしれません。これらは人々が使用する包括的な用語ですが、事前訓練とは何か、後処理とは何か、そして後処理にはどのような種類があるのか説明できますか?
はい、事前訓練について、メッセージを確実に伝えるために同じ言葉を使いますが、これは自己回帰的予測と呼ばれるもので、一連の文書の中で次のトークンを予測します。標準的な方法では数兆のトークンを使用します。これは主にウェブからスクレイピングされた膨大なデータ量です。
DeepSeekの初期の論文では、彼らの訓練データが数学用に蒸留されていると述べています。まだこの言葉を使うべきではありませんでしたが、Common Crawlから取得したと述べています。これは誰でもCommon Crawlのウェブサイトからダウンロードできる公開アクセスのデータです。これは公的に維持されているクローラーです。他の技術企業は最終的に独自のクローラーに移行し、DeepSeekもおそらく他のフロンティアラボと同様にそうしているでしょう。
しかし、このような種類のデータは、人々が始めることができるものです。そして単にテキストを予測するだけです。これは非常に効率的にスケールできるもので、AI訓練で使用される浮動小数点演算(FLOPS)の数など、多くの数字が出てきます。また、使用されるGPUの時間数も見ることができます。基本的には一つの損失関数を非常に大量の計算使用量に適用するものです。
本当に効率的なシステムを構築し、その結果としてこのベースモデルができあがります。事前訓練は、プロセスが進化または発展する方法という点で、より複雑な部分が多くあります。異なる種類の訓練損失を使用します。
これは自然言語処理の文献に基づいた多くの技術があると思います。今日でも使用されている最も古い技術の一つは、教師付き調整(instruction tuning)または監督付き微調整(supervised fine-tuning)として知られています。これらの頭字語はIFTまたはSFTとして使われ、人々は行ったり来たりしますし、私も同じことをするでしょう。
これはモデルにフォーマットを追加するもので、「ローマ帝国の歴史について説明してください」のような質問、あるいはRedditやStack Overflowで見られるような質問を受け取り、情報が密集しているが分かりやすい方法で応答することを学びます。そのフォーマットの核心はこの教師付き調整フェーズにあります。
今日使用されている損失関数には、他に二つのカテゴリーがあります。一つは選好微調整(preference fine-tuning)と私が分類するものです。これは人間のフィードバックからの強化学習(RLHF)から生まれた技術を一般化した用語です。このRLHFはChatGPTのブレークスルーを助けた技術として認められています。これはRedditの回答のように整形された応答を、人間が読みたいと思うようなものにより調整する技術です。
これは最初、実際の人間から収集した選好のペアを使用して行われ、現在ではAIもこのデータにラベル付けを行っています。それらのトレードオフについても後で説明します。良い回答と悪い回答の間の対照的な損失関数があり、モデルはこれらのトレンドを学習します。報酬モデルや直接的な調整アルゴリズムなど、実装方法は異なりますが、多くの具体的なことができます。しかし、これらはすべて人間の選好に対する微調整に関するものです。
最後のステージは非常に新しく、R1やこれらの推論モデルで行われていることにつながります。OpenAIはこれを強化微調整APIと呼んでいました。これは昨年秋に新しいAPIを発表しました。これは強化学習の技術を使用するというアイデアです。強化学習はAIの一つの枠組みで、深い文献があります。
要約すると、試行錯誤学習として知られていたり、特定の、おそらくノイズのある環境で連続的な決定を行おうとするAIの分野として知られています。その方向に進むことはできますが、言語モデルの微調整では、回答を生成し、その回答が数学やコードの正解と一致するかどうかを確認します。数学の場合は完全な正解があり、コードの場合は単体テストがあります。私たちは言語モデルの作業をチェックし、同じ質問に対して複数の機会を与えて、正しいかどうかを確認しています。
これを続けていくと、モデルは検証可能な領域で大きく改善することを学習できます。これは非常にうまく機能する新しい技術です。学術文献では新しいものですが、詳細を共有しないアメリカのフロンティアラボでは数年前から使用されています。これが言語モデルでの強化学習の使用というアイデアで、特にこのDeepSeekモーメントで大きく注目されています。
スタック全体で多くの興奮すべきことが起きていますが、後処理は今年、多くの興味深い進展があるだろうということも付け加えておくべきでしょう。後でその話に戻りましょう。
DeepSeek V3とR1のユーザー体験の違いについて説明するのを忘れていました。技術的なことは忘れて、AIについて何も知らない人が実際に使ってみた時の体験や使用事例の違いについて説明しましょう。
まずDeepSeek V3から始めましょう。より多くの人が似たようなものを試したことがあるでしょう。質問をすると、非常に速くトークンの生成を始め、それらのトークンは人間が読みやすい回答のような形になります。マークダウンのリストになっていたり、回答の重要な部分を強調するためのフォーマットが含まれていたりします。
トークンは一般的な単語の場合は単語、長い単語の場合は部分単語になりますが、数十から数百のトークンを生成し、非常に質の高いRedditやStack Overflowの回答のように見えます。これらのモデルは本当に様々な分野で上手くなってきています。専門家の視点から見ても、知識のフロンティアに近い内容でもかなり良い性能を発揮します。私が研究しているような最先端のAIトピックでも、これらのモデルは学習補助として十分な能力を持っており、定期的に更新されています。
これがDeepSeek R1、いわゆる推論モデルで変化するのは、これらのモデルからトークンが生成され始める時です。最初に、思考の連鎖プロセスの大きなチェーンが表示されます。思考の連鎖については後で説明しますが、モデルが問題を説明し、問題を分解する多くのトークンのように見えます。
モデルはしばしば「彼らは私にこれを尋ねました。問題を分解しましょう。これをする必要があります」というように問題を分解し、これらすべてがモデルから生成されるのが見えます。ほとんどのユーザー体験では、これらのAPIは非常に高速なので、多くのトークン、多くの単語が画面上に非常に速く表示され続けます。これはすべて推論プロセスです。
そして最終的に、R1ではモデルがトーンを変更し、推論プロセスを要約して回答を書きます。DeepSeekの場合、これはAIコミュニティの外でも人気を博した理由の一つですが、言語モデルが問題をどのように分解しているかを見ることができ、その後で回答が得られます。
技術的な側面では、特別なトークンを生成するように訓練されています。このトークンはユーザーからは通常隠されていますが、「さて、回答を始めます」というようなものです。つまり、モデルはこの二段階のプロセスを自動的に行うように訓練されています。OpenAIのような類似のモデルを使用する場合、OpenAIのユーザーインターフェースはこのプロセスを要約しようとして、モデルが行っているセクションを表示し、問題の分解、計算の実行、結果のクリーンアップなどと表示し、その後で回答が表示されます。
ここでDeepSeek R1の例を示すと良いかもしれませんね。
画面を見ると、DeepSeekチャットアプリのスクリーンショットがあり、上部に「157秒間思考」というドロップダウン矢印付きの表示があります。アプリを実行している場合、そのドロップダウン矢印には推論が表示されます。
この場合、質問は – 私は哲学的なSLポットヘッドの傾向がありますが – DeepSeek R1に人間についての本当に新しい洞察を一つ尋ねました。モデルは推論を明らかにし、「本当に新しい」という側面が、推論に常により新しく、より直感に反する、より…まあ、クリンジーでないものを求めるよう促しています。
推論の一部では「あるいは、人間には独特のメタ感情があり、自分の感情について感情を感じます。怒りを感じていることに罪悪感を感じるようなものです。この再帰的な感情の層は、他の動物には存在しない複雑な動機付けの原動力を生み出します。洞察は、人間の感情が入れ子になっているということです」というように、人間がどのように感情を感じるか、メタ感情について推論しています。
これは何ページにも及び、読むにはほとんど多すぎるくらいですが、生成されてくるのを眺めるのは素晴らしいことです。これはジェームズ・ジョイスの意識の流れのようです。そして「待って、ユーザーはどこにもないものを求めています。もっと深く掘り下げて、矛盾する信念を同時に保持する人間の能力について考えてみましょう。認知的不協和は知られていますが、おそらくその機能は柔軟な適応を可能にすることです」というように続きます。
これは本当に大衆の想像力を捉えました。なんて…まあ、インテリジェント、あるいはほとんど意識の兆しのようなものです。考えを巡らせ、自己反省し、熟考しているからです。157秒後の最終結果は「人間は利己的な欲望を協力的なシステムに変換する本能があり、集団で抽象的なルール(お金、法律、権利)が実在すると装うことで、これらの共有された幻想は『ゲーム』として機能し、競争が密かに集団の利益になるように方向転換され、対立を社会の燃料に変えている」というものでした。
かなり深遠ですね。これは余談ですが、多くの人がこれらの推論モデルは時により雄弁なテキストを生成できることに気づいています。少なくとも興味深い例です。あなたがどれだけオープンマインドかによって、言語モデルを面白いと感じるかどうかには幅があります。
訓練とインファレンスのコストをどのようにしてこれほど低く抑えることができたのでしょうか?まず訓練について説明してもらえますか?
はい、彼らが実装した主な技術が2つあり、おそらくそれらが効率性の大部分を占めています。そして、後で詳しく説明するかもしれない、あるいは省略するかもしれない多くの実装の詳細がそれに貢献しています。
その2つの主なことは、1つ目は専門家の混合(Mixture of Experts)モデルに移行したこと – これについてはすぐに説明します – そして2つ目は、MLA(Multi-head Latent Attention)という新しい技術を発明したことです。これらは両方とも大きな進展です。
Mixture of Expertsは数年前から文献にありましたが、OpenAIがGPT-4で初めてMixture of Expertsモデルを製品化しました。これが意味するのは、ほとんどの人が接することができた一般的なモデル、オープンなモデル – たとえばLlamaを考えてください – Llamaは密なモデルです。つまり、モデルを通過して各トークンを生成する際に、すべてのパラメータまたはニューロンが活性化されます。
しかし、Mixture of Expertsモデルではそうではありません。人間の脳がどのように機能するかを考えてみましょう。視覚的なタスクを考えているときは視覚野が活性化され、恐怖を感じているときは扁桃体が活性化されるように、脳の異なる部分が異なることに焦点を当てています。Mixture of Expertsモデルはある程度これを近似しようとしています。
脳のアーキテクチャとは程遠いですが、モデルの異なる部分が活性化します。モデルには一定数の専門家があり、その一部が毎回活性化されます。これにより、訓練とインファレンスの両方のコストが劇的に削減されます。なぜなら、パラメータ数を訓練中にすべてのこの知識を圧縮する全体的な埋め込み空間と考えると、訓練やインファレンスを実行する際に、すべてのパラメータを毎回活性化する必要がなくなるからです。
代わりに、サブセットだけを活性化でき、モデルは異なるタスクに対してどの専門家にルーティングするかを学習します。これは「私は埋め込み空間のパラメータの総数を継続的に増やすことができる」という意味で、大きなイノベーションです。
DeepSeekのモデルは6,000億以上のパラメータを持っています。Llama 2 70Bの700億パラメータ、Llama 405Bの4,050億パラメータと比較してください。このモデルは技術的に、インターネット上のすべての世界の知識を圧縮するための埋め込み空間がより大きいのです。しかし、実際には370億のパラメータしか活性化されません。つまり、訓練データやインファレンスデータを処理する際に、これらのパラメータの370億だけが毎回計算される必要があります。
対して、Llamaモデルでは700億または4,050億のパラメータがすべて活性化されなければなりません。このようにして、Mixture of Expertsアーキテクチャを使用することで、訓練とインファレンス時の計算コストを劇的に削減しています。
それを実際にどこに適用するか、トランスフォーマーについて説明した方がいいですか?
はい、トランスフォーマーについて説明しましょう。トランスフォーマーについては多くの話がありますが、すべての詳細は説明しません。基本的に、トランスフォーマーはこの注意機構と、従来の密な完全結合多層パーセプトロン – ニューラルネットワークについて使いたい言葉は何でも使ってください – を交互に配置したブロックの繰り返しで構築されています。
他の詳細もありますが、Mixture of Expertsが適用されるのは、この密なモデル、つまりパラメータの大部分を保持する密なモデルの部分です。そのため、トランスフォーマーモデルでは、これらのパラメータをすべて活性化する必要がないことで、訓練とインファレンスの効率性において大きな利点が得られます。
また、トランスフォーマーは巨大なニューラルネットワークであることも付け加えておくべきでしょう。そして15年前から、ディープラーニング革命と呼ばれる中で、ネットワークは次第に大きくなってきました。ある時点で、スケーリング則が現れ – これはスケーリング則を表すシャツを着ていますが – 「より大きい方が良い」ということが、「より大きい」が意味する複数の次元で、より形式化されるようになりました。
しかし、これらはすべて一種のニューラルネットワークについて話しているのであり、訓練とインファレンスが非常に効率的になるように、これらのニューラルネットワークを構築する異なるアーキテクチャについて話しているのです。
はい、モデルの種類によって異なるスケーリング則があり、それは基本的に、投入した計算量に対して、アーキテクチャがテストタスクでどのレベルの性能に到達するかを示します。Mixture of Expertsは、インファレンスの利点を考慮しなくても、訓練時にGPUの効率が劇的に向上する方式の一つです。
実装の詳細などによって大きく異なりますが、このアーキテクチャを使用することで、評価スコアで同じ性能のモデルを30%少ない計算で得ることができます。これは技術的なイノベーションが大きな利点をもたらすということを理解することが重要で、モデルを提供する多くの企業がこのMixture of Expertsの実装に移行すると予想しています。
歴史的に、すべての人がこれを行わなかった理由は、特に大規模なモデルを扱う際の実装の複雑さにあります。これはDeepSeekが評価される点の一つです。彼らは、Mixture of Expertsを非常に上手く実装しています。このアーキテクチャ、DeepSeek MoE(Mixture of Expertsの略)は、複数の論文を経て確立されており、彼らの訓練インフラの一部は、これらのモデルに限ったものではありません。
Dylanが言及したマルチラテント注意(Multi-head Latent Attention)についても同様で、これはすべて、低ランク近似数学を使用してインファレンスと訓練時のメモリ使用量を削減することに関係しています。このラテント注意の詳細を見ると、非常に複雑な実装を行っていることが分かります。
言語モデルの他の部分、たとえばコンテキスト長を拡張するために使用される埋め込みがあります。DeepSeekが使用した一般的なものはRope(Rotary Positional Embeddings)と呼ばれます。通常のMoEでRopeを使用すると、これは順次的なもので、2つの注意行列を複素数値回転で回転させます。これは行列乗算です。
DeepSeek MLAでは、この新しい注意アーキテクチャでは、同じようにセットアップされていないため、巧妙な工夫が必要です。これは実装の複雑さをさらに高めます。彼らはこれらすべてを管理しており、これらは恐らくOpenAIなどのクローズドラボが行っているような種類のことです。彼らが同じ技術を使用しているかどうかは分かりませんが、彼らは世界と共有しました。これは本当に素晴らしいことです。これが効率的な言語モデル訓練の最先端であり、その一部は低レベルのエンジニアリングを必要とする巨大な複雑さとトリックの集合体なのです。
私の理解では、彼らはCUDAの下のレベルまで降りて行きました。基本的にNVIDIAがニッケルというライブラリを構築しています。モデルを訓練する際、モデルの各層の間に通信が必要で、100以上の層があることもあります。ニッケルとは何の略ですか?
NCCL(NVIDIA Communications Collectives Library)の略です。
モデルを訓練する時、各層間、多層パーセプトロンまたはフィードフォワードネットワークと注意機構の間で、すべての削減(all-reduce)とすべての収集(all-gather)が必要です。基本的にモデルは同期する必要があります。訓練でもインファレンスでも、ネットワーク内のすべてのGPU間で通信が必要です。
NVIDIAには標準ライブラリがあり、これは他のハードウェアを訓練に使用することが非常に困難な理由の一つです。誰も標準的な通信ライブラリを構築していないのです。NVIDIAはこれをより高いレベルで行っています。
DeepSeekは、アクセスできるGPUに関する制限があるため – 中国に合法的に出荷されたGPU(密輸されたものではなく)のインターコネクトには制限があります – このモデルの訓練に使用した彼らは効率性を見出す必要がありました。その一つが、単にNVIDIAのニッケルライブラリを呼び出すのではなく、独自の通信をスケジュールしたことです。
一部のラボはこれを行います。Meta(メタ)はLlama 3で、ニッケルのカスタムバージョンを作成したと話していますが、実装の詳細については触れていません。これは彼らが行ったことの一部でしょう。おそらくDeepSeekほど上手くはないでしょう。なぜならDeepSeekは必要に迫られたからです。一方、OpenAI、Anthropicなどのラボにはこのような作業を行う人材がいます。しかしDeepSeekは確実に公開で行い、アクセスできるチップに制限があったために、さらに優れた実装を行った可能性もあります。
彼らは通信をスケジュールしました。特定のSMをスケジュールすることで – SMはGPUのコアと考えることができます – GPUには100以上のコア、SMがあります。どのコアがモデルを実行し、どのコアがall-reduceを行い、どのコアがall-gatherを行うかを具体的にスケジュールし、それらを切り替えました。これには非常に低レベルのプログラミングが必要です。
通常、これはニッケルが自動的に行うこと、あるいは他のNVIDIAライブラリが自動的に処理することですよね?
その通りです。技術的には、PTXという一種のアセンブリ言語のようなもの – 正確にはそうではありませんが – または命令セットを使用しています。これは技術的にはまだCudaの一部ですが、Pythonでpytorchに相当するものを書いてNVIDIAライブラリを呼び出すか、Cレベルまで降りて低レベルでコードを書くか、あるいはアセンブリやISAレベルまで降りるかという選択があります。
非常に大きなラボではアセンブリレベルまで降りることもありますが、ほとんどの企業はそれを行いません。時間の無駄で、得られる効率の向上がそれに値しないからです。しかしDeepSeekの実装は非常に複雑です。特にMixture of Expertsについては、人々は一般的に8つか16の専門家を使用し、そのうち2つを活性化します。
我々が使用する用語の一つに、スパース因子(sparsity factor)または使用率があります。モデルの4分の1が活性化される場合があります。これはMistralのMixolモデルです。「ああ、彼らは本当に優れている」と人々を驚かせたモデルです。OpenAIも他の主要なクローズドラボも、同様のモデルを持っています。
しかしDeepSeekが行ったこと、おそらく主要なラボが最近始めたばかりのことは、非常に高いスパース因子を持つことです。モデルの4分の1ではなく、8つの専門家のうち2つが毎回活性化されるのではありません。256個の専門家のうち8つです。
Mixture of Expertsには異なる実装があり、一部の専門家は常に活性化されています。これは小さなニューラルネットワークのように見え、すべてのトークンがそこを通過し、さらにこのルーティングメカニズムによって選択された一部も通過します。
DeepSeekアーキテクチャのイノベーションの一つは、Mixture of Expertsモデルのルーティングメカニズムを変更したことです。補助損失(auxiliary loss)と呼ばれるものがあり、これは基本的に訓練中に、モデルが見るタスク全体でこれらの専門家がすべて使用されるようにすることを意味します。
Mixture of Expertsで失敗が起こり得る理由は、訓練を行う時、一つの目的はトークン予測の精度であり、Mixture of Expertsモデルを自由に放置すると、モデルは専門家の一部のみを使用することを学習する可能性があるためです。文献には補助損失があり、これがバランスを取るのに役立ちます。
しかしディープラーニングの損失関数について考えると、これは「苦い教訓(bitter lesson)」にも関連しますが、モデルが最大限に学習できるように、モデルに対する帰納的バイアスを最小限に抑えたいと考えます。この補助損失、専門家間のバランスは、トークンの予測精度と矛盾する可能性があります。
DeepSeekの変更の正確な程度は分かりませんが、補助損失の代わりに、バッチの後にこのパラメータを更新して、次のバッチがすべて専門家を同様に使用することを確認する追加のパラメータをルーティングに持たせています。この種の変更は大きい場合も小さい場合もありますが、時間とともに積み重なっていきます。
これは彼らが革新を続けていることを示す種類のことであり、大規模なモデルを訓練しているすべてのラボがこのような事を検討していると確信しています。補助損失から離れることについて、一部はすでに使用しているかもしれませんが、小さな改善を積み重ねていくのです。
訓練の哲学と、これらの組織をどのように組織化するかについて話しますが、多くは時間とともにデータ、アーキテクチャ、後処理、そしてそれらがどのように統合されるかについての小さな改善を積み重ねることです。DeepSeekも同じことを行っており、一部は共有されているか、多くは彼らが最も重要な詳細を共有していると信じるしかありません。
アーキテクチャと重みは公開されているので、彼らが何をしているのかは見えており、それは意味をなしています。効率性と複雑さの点に戻ると、Mistralやその他の公開されたモデルの4対1に対して、32対1の比率です。このスパース性の水準が非常に高いのです。
Nathanが指摘したように、このレベルのスパース性があると、すべてのGPUにモデル全体を持たせることはできません。モデルが大きすぎて複雑すぎるからです。異なる種類の並列性でモデルを分割する必要があります。異なるGPUノードに異なる専門家を配置することになります。
しかし、あるデータセットを受け取った時、すべてが同じように見え、モデルの一部にルーティングすべき場合はどうなるでしょうか?すべてがモデルの一部にルーティングされると、GPU資源の特定のセットや特定のGPUに過負荷がかかり、訓練ネットワークの残りは遊休状態になる可能性があります。
これが、非常にスパースなMixture of Expertsモデル – つまり4対1の比率ではなく32対1の比率 – を実行する最大の複雑さの一つです。多くの専門家が遊休状態になってしまうのです。それらの間でどのようにロードバランスを取り、通信をスケジュールするか。これが彼らが公開で初めて – おそらく世界で2番目か3番目、場合によっては1番目に – 解決した非常に低レベルで詳細な作業の多くです。
これらすべてから、苦い教訓の方向性についてどのような教訓を得られるでしょうか?この種の低レベルの最適化が多くの利益をもたらす方向に向かうのでしょうか?それとも、アルゴリズムの高レベルな側面、後処理などの方が大きな利益をもたらすのでしょうか?これは制約があったために必要に迫られて見つけたハックによる短期的な飛躍なのでしょうか?
まず、苦い教訓が実際に何についてのものかを要約すべきですね。基本的に、パラフレーズすると、ディープラーニングで勝利する訓練の種類は、学習と探索においてスケーラブルな方法であるというものです。スケールという言葉は多くの注目を集めています。
私が使用する解釈では、学習プロセスへの人間のプライアーの追加を避けることが効果的だということです。元のエッセイを読むと、これについて書かれています。研究者は短期的には小さな利益を得られる特定の問題に対する巧妙な解決策を考え出そうとしますが、長期的には、これらのディープラーニングシステムが効率的に動作し、より大きな問題に取り組めるようにすることの方が、スケールし続け、成功を導く可能性が高いということです。
私たちはMixture of Expertsモデルに対する比較的小さな実装の変更について話していたので、これらの一つが実際に苦い教訓にとって本当に重要だったかどうかを知るにはもう数年かかるでしょう。
しかし苦い教訓は本当に、単純さが勝つことが多いという長期的な流れについてのものです。業界には「モデルは学びたがっている」という言い方がありますが、モデルを通じて計算を行い、障壁を取り除くことで、シンプルな損失地形を与える必要があるということです。そこにパワーがあります。
ニッケルのような標準化されたコード、多くの人々が使用でき、スケールできる単純なイノベーションを生み出すことができるコードが重要になってくる理由です。私が想像するに、DeepSeekのコードベースはおそらく巨大な混沌としたものでしょう。
DeepSeekは確実に非常に混沌としたコードベースを持っています。そこで新しいアイデアをテストしています。マルチヘッドレイテント注意は、おそらくJupyterノートブックから始まり、誰かが数台のGPUで何かを試してみたものかもしれません。それは本当に混沌としています。しかし、DeepSeek V3とDeepSeek R1を訓練するライブラリ、もし私たちに見せてもらえるとしたら、それらは非常に高品質なコード、読みやすい高品質なコードだと思います。
ただし、注意すべき点が一つあります。異なる種類の実行間で転送できる一般的な能力です。特定のモデルアーキテクチャと特定のサイズに対して非常に高品質なコードを作成することはできますが、アーキテクチャを変更すると突然すべてが壊れてしまう可能性があります。例えば、SMのスケジューリングのような低レベルのコーディングは、このモデルアーキテクチャとサイズに特化したものです。
一方、NVIDIAのコレクティブライブラリはより汎用的です。all-reduceを行いたい場合、モデルアーキテクチャが何であれ動作します。多くの場合、そうすることで性能を大きく犠牲にしますが、彼らが持つ計算の制約を考えると、特定の実行に対して特定の最適化を行う価値があったのです。
フロンティアモデルの訓練を開始する時、つまり多額のお金と時間を使って訓練を開始するボタンを押す時、どれほどストレスフルなのか気になりますね。デバッグ段階での革新、問題がないことを確認すること、訓練のあらゆる側面を監視して視覚化することなど、多くのことがあるはずです。
人々が訓練を行う時、様々なダッシュボードがありますが、最も単純なものは損失です。それは継続的に下がっていきますが、実際には、特にFP8訓練のような複雑なもの – これは別のイノベーションで、より低い精度の数値形式、つまりより正確さが低いものを使用すること – では、損失のスパイクが発生します。
誰も損失のスパイクが発生する理由を知りません。一部は分かりますが、一部は分かりません。一部はデータが原因です。AIのある例を挙げると、以前のモデルを破壊したのは「microwave gang」というサブレディットでした。これについてよく話すのが好きですが、実際のものです。microwave gangを調べることができます。
基本的に、皆がMという文字だけを投稿するサブレディットです。Mという文字の非常に長いシーケンスがあり、コメントは「beep beep」(電子レンジが終わった時の音)というものです。これを通常のテキストを生成するように訓練されたモデルに入力すると、非常に高い損失が発生します。通常、Mを見た後に長時間Mを予測することはないからです。
これは私たちに損失のスパイクを引き起こすものですが、これは古い話で、最近のことではありません。より成熟したデータシステムがある場合、これは損失のスパイクを引き起こす原因ではありません。
Dylanが言ったことは正しいですが、これには様々なレベルがあります。ストレスに関して言えば、これらのラボで働く友人と夕食に行くと、彼らは10分おきに携帯電話を見ています。テキストメッセージをしているわけではなく、ただ損失を、トークン毎秒を、損失が爆発していないかを見ているのです。スパイクがあると心拍数が上がります。
ある程度のスパイクは正常です。回復して元に戻ることもあります。古い戦略の多くは、実行を停止し、古いバージョンから再開して、データミックスを変更して続行するというものでした。

Durk grenalには、スパイクには2つのタイプがあるという理論があります。損失を見ていて、他のパラメータから徐々に上がり始めて爆発するタイプと、より早いスパイクがあります。前者は回復が本当に難しく、かなり前の段階まで戻る必要があります。損失が横ばいか上がり始めるストレスフルな期間があり、「どうしよう」という状態になります。一方、良好に見えていて1つのスパイクが出るケースもあります。このような場合は単にスキップして、そのデータは無視してモデルを更新せずに次に進めば素早く回復します。
しかし、アーキテクチャがより複雑になりGPUの規模が大きくなるにつれて、実装はより扱いにくくなり、損失が爆発する可能性も高くなります。また、グロッキングの概念も関係してきます。損失の改善が遅くなっても学習が止まったわけではありません。突然損失が下がることもあり得ます。本当に何かを学習したからです。
人間もそうですし、モデルもそうです。段階的なプロセスではないのです。あなたが言ったように、これは本当にストレスの多いタスクで、その間ずっと費用は上がり続けます。どの企業も失敗したトレーニングランを経験しています。インフラの限界に挑戦するには失敗は必要なのです。
多くのニュースサイクルは「X社がY回失敗した」といった内容になりますが、AIのフロンティアに挑戦しているすべての企業がこれを経験しています。多額の費用がかかり数週間の遅れになり得るので注目に値しますが、これはプロセスの一部なのです。
では、DeepSeekはどうやってハイパーパラメータの成功する組み合わせにたどり着いたのでしょうか。小規模な失敗を重ねて素早く反復を繰り返し、成功に至るまで続けました。このエキスパートの混合が機能し、MLAの実装も機能しました。学習率や正則化などの重要なハイパーパラメータがあり、自分たちのコードベースで機能する領域を見つけたのです。
フロンティアラボの人々と話をすると、言語モデルのトレーニングには従うべき道筋があるという話になります。特定のタイプや規模のモデルをトレーニングする能力をアンロックする必要があり、コードベースと内部のどのようなパラメータが機能するかという知識が蓄積されていきます。DeepSeekの論文やモデルを見ると、彼らは規模を拡大し、複雑性を追加し、持っている能力を継続的に構築していったことがわかります。
「YOLO」(You Only Live Once)という概念があります。小規模での実験、研究のアブレーション、Jupyterノートブックで3つのGPUでMLAを試すといった実験をすべて行います。4つのアクティブエキスパートにするのか128のエキスパートにするのか、エキスパートをどう配置するのかなど、さまざまなモデルアーキテクチャの要素を非常に小規模でテストします。そして突然「もう実験はやめよう、全リソースを投入して我々が機能すると思うものに賭けよう」というYOLOの瞬間が訪れます。
ここでストレスが生じます。なぜなら小規模で機能することが大規模では機能せず、大規模で機能することが小規模では機能しないこともあるからです。規模の面で本当にYOLOな実行となります。
研究者の中には、全探索空間を見つけ、異なる研究のアブレーションをすべて行い、何が最善かを本当に理解できる方法論的な性質を持つ人がいます。一方で、データを見てこれがYOLOランだと直感的に判断できる研究者もいます。
そのため、トレーニングのGPUコストが低い事後学習に取り組みたいと考えます。より多くのトレーニング実行をYOLOランにできるからです。今のところはそうですね。
運も技術です。多くの場合、幸運に見えますが、これらのラボの一つで評価を行っていて結果が良くない場合、改善するための繰り返しのプレイブックがあります。データの改善などの局所的な改善があり、これらが積み重なってモデル全体が大幅に良くなります。
非常に近くで見ると、このモデルがある点で本当に悪いことが明らかで、それを修正できます。これらを積み重ねていきます。特に新しい推論モデルでは、探索して大きな改善を得られる方法が多くあります。
探索空間は無限に近く、利用可能な計算時間は非常に限られています。リリーススケジュールを守り、他社に追い抜かれないようにする必要があります。DeepSeekがMetaやMistralやCoherなどを圧倒したのは、彼らが遅すぎたからです。おそらく方法論的すぎたのかもしれません。YOLOランを実行しなかったのか、スキルが足りなかったのか、理由は分かりませんが、最終的にはスキルの問題です。
2025年はYOLOランの年になりそうです。すべてのラボが参入しているようです。2022年のOpenAIの功績はさらに印象的です。当時、Googleなどの研究者を多く抱える企業でも、エキスパートモデルの混合を信じている人はいませんでした。OpenAIは計算リソースが非常に限られていましたが、何ヶ月もの間、全リソースの100%をGPT-4に投入しました。全く新しいアーキテクチャで、数億ドルという全資金をこのモデルに賭けたのです。これこそが本当のYOLOです。
現在メディアで取り上げられているトレーニングの失敗は、GPUの大部分が推論に使われており、研究にも常に多くのGPUが使われています。最大のクラスタがトレーニングに使われていますが、このYOLOランは2022年のOpenAIや最近のDeepSeekのように「すべてを投入する」というリスクよりもずっと小さいものです。
人類の歴史を通じて、大きな勝者は常にある時点でYOLOを実行する意思のある者たちでした。
ハードウェアについて、何を理解していますか?DeepSeekは非常に興味深いです。まず誰なのか俯瞰してみましょう。Highflyerは中国やその他の地域で定量的取引を行ってきたヘッジファンドです。彼らは常に相当数のGPUを保有してきました。
過去、これらの高頻度取引のアルゴリズム的な定量トレーダーの多くはFPGAを使用していましたが、確実にGPUにシフトしています。両方使われていますが、特にGPUです。DeepSeekを所有するHighflyerヘッジファンド、そしてDeepSeekで働く全員がある程度Highflyerの一部です。同じ親会社、同じオーナー、同じCEOです。
取引のためのリソースとインフラを持っていて、その膨大な部分を言語モデルなどのモデルトレーニングに振り向けました。これらの手法は大きくAIの影響を受けていたからです。
最近では、Renaissanceなどの定量的企業を振り返ってみても、自然言語処理が非常に高速な取引の鍵であることが分かっています。プレスリリースを理解し、適切な取引を行うことです。DeepSeekは常にこれが得意でした。
2021年の時点で、彼らは「中国最大のA100クラスタを持つ最初の企業である」というプレスリリースや論文を出していました。10,000台のA100 GPUです。これは2021年の時点です。これらすべてが大規模言語モデルのトレーニングに使われたわけではありません。主に定量的な側面、つまり定量的取引のためのモデルトレーニングに使われました。多くは自然言語処理だったことを明確にしておく必要があります。
これが歴史です。検証可能な事実として、2021年に輸出規制が始まる前に、中国最大のクラスタを構築しました。少なくとも彼らはそう主張しています。それから4年間で何をしてきたのでしょうか?
明らかにヘッジファンドの運営を続け、おそらく多額の利益を上げ続けました。そしてAIへの傾倒を強めていきました。CEOのLe CH Fang、Leonについて話していますが、彼は会社の半分強を所有していると言われています。ElonやJensenのような人物で、すべてに関与しています。
その期間を通じて、彼はAIに深く関わるようになりました。彼の発言を見ると、実際にはeakのような雰囲気があります。完全なAGIの雰囲気で、「これをする必要がある、OpenAIの新しいエコシステムを作る必要がある、歴史的に西側諸国がソフトウェアエコシステムをリードしてきたので、中国がこのエコシステムをリードする必要がある」と言っています。
そしてそのためには何か違うことをする必要があると率直に認めています。DeepSeekは彼のやり方です。彼のインタビューの翻訳の一部は…彼はインタビューを受けていますか?西側のインタビューを受けると思いますか、それとも規制があるのでしょうか?まだありません。試してみたいですね。中国語の翻訳者を得たばかりなので、素晴らしいですね。これは全て押し進めています。
高頻度取引の成功を活かし、AIに全面的に取り組む興味深い人物であるエンジニアです。オープンソースに切り替えることはないという非常に直接的な発言をしています。AIのエコシステムがどうあるべきかについて長期的な動機を持っています。中国の視点から見ると、彼は中国企業にこのビジョンを構築してほしいと考えているのです。
これが会社の背後にいるいわゆるビジョナリーです。このヘッジファンド、この定量的企業はまだ存在しています。そしてDeepSeekは、徐々に彼がAIのすべてについてのこの完全なビジョンに転換していったものです。
ある時点で徐々に方向転換し、DeepSeekを作りました。DeepSeekはそれ以来複数のモデルを作り、より多くのGPUを獲得し、ファンドとインフラを共有しています。彼らが持つGPUリソースの正確な数は公表されていませんが、2021年に購入した10,000台のGPUに加えて、彼らは非常に収益性が高かったのです。
この論文では、以前は中国で許可されていたが現在は許可されていない制限付きGPUであるH800 GPUを2,000台しか使用していないと主張しています。基本的にはNVIDIAのH100の中国向けバージョンです。インターコネクトの速度、つまり通信速度に特に制限があります。そのため、彼らはこの狂ったSMスケジューリングをする必要がありました。
では、元に戻りましょう。これは明らかに彼らの総GPU数の観点からは真実ではありません。しかし、このトレーニング実行に関して、2,000台が正しい数字だと思いますか?
ここで重要なのは、トレーニング実行とは何を指すのかということです。研究やアブレーションのすべてをカウントするのでしょうか?YOLOランはできますが、ある程度は小規模でテストを行い、大規模に進む前に中規模でのテストも行う必要があります。
一般的な慣行として、注目に値するモデルの進歩には、完全なトレーニング実行の2〜4倍の計算量を実験だけで使用します。このスケールアップされている計算の多くは、おそらく現時点では大部分が研究に使用されています。研究から新しいアイデアが生まれ、それが大きな効率化をもたらし、研究から01のようなブレークスルーが生まれます。その後、それに賭ける必要があります。彼らが議論する価格戦略の一部には、研究のコストが組み込まれています。
DeepSeekが具体的に公表した数字は、2021年の10,000台のGPUと、V3の事前学習のみに使用した2,000台のGPUだけです。R1のコストについては議論していませんし、他のすべての強化学習についても議論していません。基本モデルの事前学習についてのみ言及し、研究やアブレーション、ファンドとのリソース共有については一切言及していません。
「ファンドはこれらのGPUをすべて使用している」という点については言及していません。彼らは非常に収益性が高く、2021年には10,000台のGPUを持っていたことは分かっています。我々の研究では、実際には50,000台近くのGPUを持っていると考えています。これは多くのタスクに分散されています。再度言いますが、ファンド、研究、アブレーションなどです。
OpenAIやAnthropicはどのくらい持っているでしょうか?Metaはオープンであり、トレーニングクラスタに60,000〜100,000台相当のH100 GPUを持っていると話しているのが最も明確な例だと思います。Llama 3は16,000台のH100でトレーニングしたと言っていますが、Meta社は昨年、400,000台以上のGPUを購入したことを公表しています。
もちろん、トレーニングに使用されているのはごくわずかです。ほとんどは最高のInstagramリールを提供するためなどに使用されています。2,000台のGPUクラスタ、10,000台のGPUクラスタの所有コストについて話すことはできますが、これらのものを購入できる企業の規模は異なります。DeepSeekは合理的に大きく、彼らの計算リソースの配分は世界でもトップクラスですが、OpenAIやAnthropicなどには及びません。しかし、彼らは多くの計算リソースを持っています。
一般的に、NVIDIAのHopper GPUアーキテクチャと、H100とH800の違いについて話すことはできますか?インターコネクトについて言及しましたが。
A100が搭載されたAmperがあり、その後H100のHopperが登場しました。アメリカではH100だけがあり、現在はH200があるので、人々は同じ意味で使っています。中国では輸出規制の異なる段階がありました。
当初、米国政府はチップのインターコネクトと浮動小数点演算(FLOPS)という2つの要因で制限を設けました。特定のレベルを超えるインターコネクトとFLOPSを持つチップは制限されました。後に政府はこの制限に欠陥があることに気付き、FLOPSだけに制限を絞りました。
H800はFLOPSについてはH100と同じ性能でしたが、インターコネクトの帯域幅が制限されていました。DeepSeekはこれを活用する方法を知っていました。インターコネクトが制限されていても、GPUを完全に使用する方法を見つけ出したのです。これは2022年10月のことでしたが、2023年末に米国政府はH800を禁止し、2024年から実施されています。
ちなみに、この2,000台のH800クラスタは2024年に購入されたわけではありません。2022年末に購入され、研究などに時間がかかったため、今になってモデルをリリースしているのです。H800は禁止され、現在はH20という新しいチップがあります。H20はFLOPSのみが制限されていますが、インターコネクト帯域幅は同じで、メモリ帯域幅とメモリ容量の面では実際にH100よりも優れている部分もあります。NVIDIAは政府が設定した制約の中で、中国向けに可能な限り最高のGPUを構築しているのです。
この実際の話題から外れて、また戻ってきますが、輸出規制の哲学、動機、主張は何でしょうか?Dario Amadeは最近、輸出規制に関するブログ投稿を公開しました。彼の主張は、AIが超強力になり、2026年までにAGIまたは超強力なAIが登場し、それを構築した者に重要な軍事的優位性をもたらすというものです。
彼の言葉を借りれば、アメリカは民主主義であり、中国は権威主義的な要素を持っているため、AIによって超強力な軍事力を持つ単極的な世界を望むべきだということです。超強力なAIを持つ2つの超大国が存在し、一方が権威主義的である場合、地政学的にはより複雑な世界になります。
これが彼の主張であり、したがってアメリカは輸出規制を使用して、中国がAGIを構築するために必要とされる巨大なトレーニング実行を実施できないように遅らせたいと考えています。これは非常に抽象的です。
私は輸出規制の目的をこのように超強力なAIとして説明する人もいると思いますが、トレーニング実行のアイデアに触れましたが、中国がAIモデルをトレーニングできない世界はほとんどありません。輸出規制は中国が持てる計算能力や計算密度を制限していると思います。
現在のAIエコシステムを見ると、すべてのAI企業の収益は右肩上がりで、AI利用は継続的に成長し、より多くのGPUが推論に向かっています。輸出規制が機能する大きな部分は、中国で実行できるAIの量がはるかに少なくなるということです。
トレーニング側では、DeepSeek V3は良い例です。焦点を絞ったチームなら、この2,000台のGPUでもAIのフロンティアに到達することができます。世界的に見ればそれほど入手困難ではありません。彼らはこれらのGPUを持ち続け、モデルをトレーニングし続けることができるでしょう。
しかし、AIの巨大な市場があり、強力な輸出規制があれば、ChatGPTクラスタと同等のサービスを提供するために100,000台のGPUが必要な場合、それはAIの使用をはるかに少なくすることにもなります。これはAGIとは何か、データセンターで極めて知的な自律型AIが実行されているかどうかを議論するよりも、達成しやすい目標だと思います。それらは米国のGPUクラスタでは実行できますが、中国ではある程度制限されます。
効果的には、モデルをトレーニングすることは何もしないに等しいのです。Darioが言及しているのは、トレーニングされたモデルを実装して、大きな経済成長、軍事能力の大幅な向上、人々の生産性の大幅な向上、生活の改善など、超強力なAIを何に向けたいかにかかわらず、それには相当量の計算が必要だということです。
米国政府は効果的にこう言っています。トレーニングは常に総計算の一部に過過ぎません。先ほど言及したように、Metaは400,000台のGPUを持っていますが、Llamaを作ったのは16,000台だけです。Metaが推論に投じているパーセンテージは、私たちの心を操作してより多くの時間を費やし、より多くの広告を見させようとする推薦システムのためかもしれませんし、生産的なことを行う超強力なAIのためかもしれません。
私たちの経済システムがどのような用途を決めるにせよ、それは我々が望む方法で提供できます。一方、中国に関しては、輸出規制が素晴らしいとはいえ、すべてを遮断することはできないでしょう。これは米国政府もよく理解していると思います。彼らは独自のチップを作ることができ、実際に作ろうとしています。我々のものより性能は劣りますが、これが要点です。ギャップを維持することが目的なのです。
したがって、ある時点でAIが登場し、社会に大きな変化をもたらし始めた場合、これは大手テクノロジー企業のAIリーダーたちが信じていることですが、計算の差が複利効果を持つことは本当に重要です。
計算の電力供給量やAIに向けられる電力量でAIを測る SF作品もありますね。これは経済的な産出を考える一つの方法です。
これを理由付けモデルとして議論すべきでしょうか?実際に人々が見ることができる形で。R1やO1で登場している理由付けモデルは、より多くの計算を使用するように設計されています。AIコミュニティには「テスト時の計算」「推論時の計算」など多くのバズワードがありますが、Dylanはこれについて良い研究をしています。
モデルをトレーニングする時、トレーニング時に使用される計算量と推論時に使用される計算量の比率について具体的な数字を見ることができます。これらの理由付けモデルは、複雑なタスクを実行する際の推論をはるかに重要にしています。
昨年12月、OpenAIはこのO3モデルを発表しました。AIの世界では物事が急速に進むため、発表とリリースの両方があります。発表は基本的にブログ投稿で、自分たちの成果を褒め称えるものです。リリースはモデルや論文が実際に出ているということです。
録画時点でO3ミニが出ているかどうかを確認できますが、それは要点を変えません。画期的な結果は「Arc AGI task」と呼ばれるものでした。これは人工知能のための抽象的推論コーパスタスクです。Fran chleがこれを作り、数年前の論文ですが、素晴らしいベンチマークです。
OpenAIのO3がこれを解くために使用した数字は、APIでの1,000サンプルでした。APIには思考の努力とサンプル数があり、1つの質問に5〜20ドルかかります。基本的に数学パズルを入力し、1つの質問に答えるのに数ドルかかるのです。これは多くの計算です。
これが米国で普及するなら、OpenAIは推論に膨大なGPUを必要とします。彼らはOpenAI ChatGPT Proという月額200ドルのサブスクリプションを提供していますが、Samはこれで損失を出していると言っています。つまり、人々は推論で多くのGPUを消費しているということです。私も登録して使ってみましたが、パワーユーザーではないと思いますが使用しています。
これは、中程度の強い輸出規制がある中国企業には常に抜け穴があるかもしれませんが、できないかもしれないことです。O3の主な結果は素晴らしいコーディング性能でもあり、それがAI企業の実験能力の向上にフィードバックされるのです。
おそらく考え方としては、AGIではコンピュータの大部分がこのテスト時の計算、つまり理由付けに使用されるということです。AGIは部屋に入って世界征服の方法を考え、2.7時間後に戻ってくるということになります。
これは多くの計算を必要とし、OpenAIやAnthropicのCEOやリーダーたちが話していることです。自律型AIモデルに作業を与え、バックグラウンドで作業させるというものです。
個人的なAGIの定義はもっとシンプルです。言語モデルはAGIの一形態だと思います。これらの超強力なツールは次のステップとして素晴らしいものですが、言語モデルは多くの領域で非常に価値があり、それは私にとって汎用知能です。
しかし、独立して、トレーニングデータにないタスクを実行できるこの次のステップのエージェント的なものは、これらのAI企業が目指している未来の展望です。
ここでDarioが使用している用語は「超強力なAI」です。AGIについてはあなたに同意します。すでに非常に印象的な何かがあり、Alan Turingは間違いなくこれをAGIと呼ぶでしょう。しかし、彼が言及しているのは、それを所有することで他国に対して重要な軍事的・地政学的優位性を持つことができるものです。オムレツの作り方を尋ねるだけのものではありません。
彼のエッセイ「Machines of Love and Grace」でより前向きな見方を示しています。私はこれを読みましたが、物理科学の背景が十分にないため、AIが生物学を革新できるかどうかについて正確な確信は持てません。しかし、AIが計算科学の進歩を加速させることは間違いないと言えます。
トピックの深さ優先探索をしているので、話題を変えましょう。あなたは両方ともAGIを感じていると言いましたが、Darioは2026年に超強力なAI、つまり基本的にエージェント的で、実際の安全保障上の脅威となるレベルのAGIが登場すると予測していますね。あなたのタイムラインはどうですか?
特定の能力を予測するのは好きではありません。特定の能力とその時期を予測するのは非常に難しいからです。AGIを感じているというのは、主に今後数年間で継続的な急速な驚くべき進歩があると予想しているということです。
DeepSeekのR1はそれほど驚くものではありません。なぜなら、大きな進歩が可能な新しいパラダイムが出現すると予想しているからです。DeepseekのR1が不安を感じさせるのは、ChatGPTでは「良くなっている、良くなっている」という道筋があったのに、モデルを変更する新しい方向性が出てきて、一歩大きく進んだからです。本当に急な傾斜を上り、さらに多くのステップを踏むことになるでしょう。
私はOpenAI Operatorを試し、Claude Computer Useも試しましたが、まだそこまでの段階にはありません。考え方は理解できますが、そのようなものを機能させるブレークスルーを予測するのは本当に難しいです。むしろ、機能するブレークスルーが起こり、それが何をもたらすか分からないものが出てくる可能性が高いと思います。
誰もがエージェントを望んでおり、Darioはそれを雄弁に説明していますが、それ以上のものが出てくると思います。そういったことを期待すべきです。
AGIのタイムラインについて具体的な日付を挙げなければなりませんね。核兵器のような瞬間、地政学的な舞台で本当の意味を持つ瞬間はいつ来ると思いますか?私は2030年以降だと思います。
それを定義する必要がありますね。ある意味ですでに起きているからです。インドやパキスタンの選挙を見ると、人々はAIの音声通話を受け、政治家と話していると思っています。
最近のバイデン政権で制定され、トランプ政権も維持し、さらに強化する可能性のあるAI拡散規則は、中国とは無関係の国々にもクラウドコンピューティングとGPUの販売を制限しています。ポルトガルのような通常の国々も米国の承認リストに載っています。
シンガポールはF35を持っているのに、GPUの購入を許可していません。これは私にとって、すでにそのような規模に達しているように見えます。
それは単に米国軍がこの新しい技術について非常に神経質になっているということであって、技術がすでにそこにあるということではありません。彼らは理解できないものに対して非常に慎重なだけかもしれません。
しかし、それは本当に良い指摘です。ロボット通話の群れ、半知能的なボットの群れは武器になる可能性があり、多くのソーシャルエンジニアリングを行う可能性があります。
2016年の選挙からケンブリッジ・アナリティカやロシアの影響力など、多くの話題がありました。世界中のすべての国がインターネット上で情報を発信し、自分たちの主張を押し付けようとしています。ロシア、中国、アメリカ、イスラエルなど、技術的に有能な国々は皆、インターネット上で大量に視点を押し付けています。言語モデルは非常に知的に聞こえる言語の…
研究によると、実際には配布が制限要因になっています。言語モデルはまだ誤情報を特に変化させていません。インターネットはまだ進行中です。AI Snake Oilというブログや、その分野で執筆している私の友人たちがいます。
誰もが想定し、私も同じように考えていたのですが、言語モデルで誤情報が大幅に悪化することはないという研究があります。インターネット投稿など、人々が測定しているものについては、指数関数的な増加や非常に測定可能な増加は見られていません。音声通話などのモダリティでは、測定が難しい可能性があります。
ウェブを通じた政治的不安定性については、多くの研究者が何が起きているかを監視しています。AGIについて聞かれたなら、年を挙げなければならないとすれば、AIのCEOたちがこう言っていて、彼らは長らく2年後と言い続けています。
DarioやAnthropicのような人々は、これについて深く考えてきたので、彼らの言葉を真剣に受け止める必要がありますが、彼らには異なるインセンティブがあることも理解する必要があります。そのため、数年を追加すると、2030年かそれ以降になります。
ある意味、我々は特定の能力に到達し、誰かが「この能力をx時間活用できれば、これがAGIだ」と言えるかもしれません。2027年か2028年頃でしょう。しかし、その能力を実際に運用するコストが…
これが私の指摘したい点です。極めて高額なため、誰も実際にそれを大規模に展開して、瞬時に経済を完全に革新することはできません。それは指をパチンと鳴らすような瞬間ではなく、物理的な制約というよりも、「能力はここにあるが、どこにでも展開することはできない」というものになるでしょう。
2023年の単純な例として、GPT-4を搭載したBingが登場し、検索について誰もが興奮していた時、Perplexityが登場しました。GPT-3をすべてのGoogle検索に実装するコストを計算すると、「これは物理的に不可能だ」ということが分かりました。
テスト時の計算に戻ると、ChatGPTに質問をすると、最も高性能なモデルでもクエリあたり数セントのコストです。しかし、Arc AGIの問題を解くには5〜20ドルかかります。これは1,000倍から10,000倍のコストの差があり、しかもこれは増加する一方です。
クエリに応答するのと、タスクを実行するのとでは大きな違いがあります。AGIのタスクは、ある意味でシンプルですが、今日のAGIができることは Arc AGIで、3年後にはより複雑な問題を解けるようになりますが、そのコストはGPU時間で数千ドル、数十万ドルと測定されることになります。
そして、世界のすべてを一瞬で変えるのに十分な電力、GPU、インフラはないでしょう。しかし、その時点で誰がAGIを制御し、タスクに向けることができるのでしょうか。
これはDarioの投稿でも触れられていて、彼は「中国は我々よりも効果的かつ迅速に彼らのAGIを軍事タスクに向けることができる」と言っています。彼らは多くの面で、特にドローンに関して、新しい技術を軍事に採用するのが早かったのです。
アメリカには長年の大規模な航空機、戦闘機、爆撃機などがありますが、ドローンのような非対称兵器に関しては、彼らは完全に米国と西側を追い越しました。Darioが指摘する懸念は、商業セクターではAGIを持つことができても、米軍はそれを迅速に実装できず、中国軍はできるかもしれないということです。
彼らはすべてのリソースを軍事実装に向け、軍事物流の解決や、特定の人々を標的とした誤情報を解決し、国の政治を転換させるなど、実際に破壊的なことができます。一方、米国は資本主義的に配分され、最高の収益を生む方向、つまり工場をより良く建設するなどに向かうでしょう。
私が見てきたすべてで、ロボット工学に対する人々の直感は失敗するようです。自動運転車でこれを見ました。人々はそれがより簡単な問題だと考えています。ドローンについても同様ですが、ここではもう少し理解が難しいです。
ウクライナ戦争の現実と、両サイドのドローンの使用を見ると、人間が制御するほとんどのFPVドローンは、完全に自律的なシステムをはるかに上回る性能を示しています。AIはアシスタントですが、人間がドローンを操縦する方が、AIシステムよりもはるかに優れています。
軍事コンテキストで自律型ロボットの群れを持つことは、すぐには実現しないでしょう。私が想像できる最も早い時期は2030年で、それが超強力なAIについて2030年と言った理由です。軍事行動で大規模なロボット群れが活動し始めた時、世界は異なって見え始めます。
しかし、サイバー戦争の技術があるかもしれません。ソーシャルエンジニアリングから、実際にコードベースの攻撃ベクトルを見つけて電力網を停止させるロボット群れまで。ある週末に突然停電が起き、誰も原因が分からないというようなことが起こり得ます。米国全土で2日間の停電が起これば、殺人や混乱につながるでしょう。
しかし、輸出規制に話を戻すと、AIのコンテキストで地政学的なパワーバランスを制御する有効な方法だと思いますか?
私の観点に戻ると、過去20年のような経済成長と変化の段階にいると信じているなら、輸出規制は長期的に中国の勝利を絶対的に保証することになります。今後10年または5年でAIが社会に重要な変化をもたらすとは信じていないのなら…AIの企業経営者や大手テクノロジー企業の経営者でさえ、5年のタイムラインを考えています。10年のタイムラインでも合理的です。
しかし、そのタイムラインがそれより短い期間になると、アメリカと中国の間で大きな優位性や不利益を生み出す唯一の方法は、計算を制限することです。才能は本当の制約要因ではありません。中国は arguably より多くの才能を持っています。STEM卒業生やプログラマーが多いのです。
アメリカは世界中の人材を活用することができ、実際にそうしています。AI業界には米国のパスポートを持たない人が多くいます。その多くは…
多くは中国人がアメリカに移住しているということですね。それは素晴らしいことです。まさに我々が望むことです。才能は一つの側面ですが、それは米国にとって測定可能な優位性とは思えません。本当に重要なのは計算力です。
チップとデータセンターについて見ると、中国は途方もない量の電力工場を建設する前例のない能力を持っています。彼らは常により多くの電力を生産し続けています。米国産業全体の規模と同じくらいの個々の製鉄所を持ち、ギガワット単位の電力を消費するアルミニウム工場を持っています。
最大のデータセンターについて話すと、OpenAIはStargateについて大きな発表をしましたが、数年後に完全に構築されても2ギガワットの電力です。これはまだ中国の最大の産業施設より小さいのです。中国は、チップへのアクセスさえあれば、世界最大のデータセンターを建設することができます。それは単に時期の問題であって、可能性の問題ではありません。
つまり、彼らの産業能力は米国をはるかに超えているということですね。製造に関してはそうです。なぜチップは…チップはより専門的です。私は特にデータセンターについて言及しています。チップ工場も大量の電力を必要としますが、それは必ずしも制限要因ではありません。
今日の米国産業で最大のクラスタを構築する速度を制限している要因は電力です。それは発電や送電、変電所、変圧器などのすべてです。データセンターの建設、これらはすべて米国産業がより大規模なトレーニングシステムを構築し、より多くの推論計算を展開する能力を制限しています。
これを理解していない人々のために、なぜ「今」なのかを明確にする必要があると思います。基本的に、輸出規制により中国は最先端のチップを製造または入手できなくなります。タイミングを間違えると、中国は半導体生産に多額の投資を行っており、チップの製造方法を見つけ出し、世界の他の地域よりも生産能力、エネルギー能力を持つことになります。
誰もが中国製チップを購入できるようになり、彼らはそれを販売し、おそらく補助金を出すでしょう。したがって、AIが差別化されるまでに長い時間がかかる場合、アメリカ企業の財務パフォーマンスを制限することになります。NVIDIAの販売は減少し、TSMCは中国に販売できないため、生産サイクルを維持するための需要が減少します。
これが、タイミングを10年または5年以下にする必要がある背後にある前提です。中国は、これらの制限のために長期的に勝利するでしょう。ただし、私が信じているように、AIが短期的に社会に大きな変化をもたらす場合は別です。
今日でさえ、習近平が「スケールpilled」になることを決めた場合、つまりスケーリング法則が重要だと決めた場合…ちょうど米国の経営者たち、Satya Nadella、Mark Zuckerberg、Sundarなど、最も強力なテクノロジー企業のトップたちがスケールpilledになり、テキサス、ルイジアナ、ウィスコンシンなどで複数ギガワットのデータセンターを建設しているように。
彼らはグローバルなデータセンター支出の予算全体と同じくらいのコストを1か所に投資することを決めています。これが来年、その次の年と続く予定です。彼らはこれが正しい方向だと確信しているのです。
しかし、中国が決意すれば、米国よりも速く実行できます。ここで制限が問題になります。中国全体が最高レベルでこれを優先事項として決定したかどうかは明確ではありません。米国はある程度そうしています。
同じ週にトランプがDeepSeekとStargateについて言及しているのを見ることができます。バイデン政権もAIについて多くの議論を行っています。彼らがそれについて考えていることは明らかです。
DeepSeekが中国のナンバー2と会ったのはつい先週のことです。彼らはまだトップとは会っていません。習近平とは会っていません。1兆人民元(約1,600億ドル)の補助金を発表したばかりです。これはMicrosoft、Meta、Googleを合わせた今年の支出に近い額です。
彼らはやっと気付き始めたところですが、ここで輸出規制が登場し、「最も強力な米国製チップを中国に出荷することはできない、性能を制限したバージョンなら出荷できる、中国にレンタルするだけの国々にも最も強力なチップを出荷することはできない、数を制限しなければならない」と言っています。
製造装置のツール、これらすべての異なる側面についても同様です。しかし、これはAIから始まり、その後AIで彼らを遅らせることができる下流の要素に及びます。半導体規制を読むと、それらは非常に明確です。AIと軍民融合技術に関するものです。
そこから、リソグラフィーツールやエッチングツール、成膜ツール、そして小さな会社からのランダムなサブシステムの購入を禁止することになります。なぜこれを禁止するのでしょうか?米国政府がAIシステムにとって重要だと判断したからです。
重要なのは7nmから5nmチップへの移行です。数年前、Huaweiが7nmチップを持っていた時、これは別の政治的な騒動を引き起こしました。ASMLのディープEUV、つまり極端紫外線リソグラフィーについて文脈を説明すると…
Nathanが言及しているのは、2020年にHuaweiがAI向けのAscend 910チップをリリースしたことです。7nmプロセスを使用し、GoogleやNVIDIAより先でした。彼らはMLPerfベンチマークに提出しました。これは機械学習性能の業界標準ベンチマークです。
そしてそれは非常に良い成績を収め、提出時点で最高のチップでした。これは大きな出来事でした。もちろんトランプ政権は2019年に、HuaweiがTSMCから7nmチップを入手することを禁止しました。そのため、彼らは国内生産のチップに切り替えなければならず、これは数年の後退となりました。
多くの企業が7nmチップを製造していますが、問題は、Huaweiがそのチップの生産をどの程度補助金で支援していたかが分からないことです。Intelは収益性のない7nmチップを製造しています。これがすべて輸出規制の経済的な仕組みにつながっています。
つまり、今のところ習近平はAGIを感じていないということですが、DeepSeekの瞬間は…今、彼が同じTシャツを着始め、物事がエスカレートしていく会議が行われているかもしれません。
先週目覚めたかもしれません。Leon FangはNo.2と会い、翌日に1兆人民元のAI補助金を発表しました。このDeepSeekの瞬間が、多くの人々が懸念している冷戦の始まりなのかもしれません。
AI業界の人々は、これが冷戦に向かっている、あるいはすでに冷戦状態にあることを懸念していました。DeepSeekのせいではありませんが、いくつかの要因が重なり、最終的に習近平が会議を持ち、この考えに目覚めることになった集団ヒステリーのようなものがありました。
米国政府はChatGPTのリリース前の2022年10月7日に、これを認識しました。その日に発表された規制は誰もを驚かせ、明らかにAIを対象としていました。誰もが「何をしているんだ」と思いました。Stable Diffusionは出ていましたが、ChatGPTはまだでした。
生成AIが社会に何をもたらすかについての兆しが出始めていましたが、少なくとも国家安全保障会議やそういった人々には、世界がこの方向に向かっている冷戦が起きているということが非常に明確でした。
輸出規制が中国を台湾への軍事行動に追い込む懸念はありませんか?これが大きなリスクです。米国やグローバルな先端技術へのアクセスから中国を遠ざければ遠ざけるほど、「アクセスできないなら、誰もアクセスできないようにしよう」と考える可能性が高くなります。
これには興味深い側面がいくつかあります。中国は他に類を見ない都市部と農村部の格差があります。男女の出生比率も他に類を見ません。中国全体で見ると比率はそれほど悪くありませんが、中国の農村部の独身男性を見ると、比率は30対1です。
これらは恵まれない男性たちです。米国にはインセル問題がありますが、中国にもあります。ただし、彼らは何らかの形で運命付けられているか抑圧されています。これらの人々をどうするのでしょうか?
同時に、少なくとも米国が考える最も重要な技術にアクセスできません。中国はおそらく、補助金を投入し始めたことで、これが最も重要な技術だと考え始めています。彼らはEVと再生可能エネルギーが最も重要な技術だと考え、今やそれを支配しています。
2010年代後半から2020年代初頭に半導体について考え始め、今では資金を投入し、急速に追いついています。AIでも同じことをするでしょう。彼らは非常に優秀だからです。
問題は、これがいつ限界点に達するかということです。中国がこれを、アクセスを持たないことと本当の熱戦を始めること、つまり台湾を占領するか、何らかの方法でその民主主義を覆すか、封鎖することが、自分たちよりも世界の残りの部分をより傷つけると見なした場合、彼らはこれを行う可能性があります。
これは彼らをそちらに押しやっているのでしょうか?私は地政学の専門家ではありませんが、平和と貿易の世界体制が経済にとって素晴らしいことは明らかです。しかし、ある時点で崩壊する可能性があります。
中国経済がなぜそれによって傷つくかというと、彼らは輸出依存だからです。

アメリカは多くのものを購入していて、もしそれがなくなったら経済に影響します。また、世界中から原材料を輸入できなくなるでしょう。アメリカはマラッカ海峡を封鎖するでしょうし、同時にアメリカのGDP成長のほとんどは70年代以降、人口増加かテクノロジーによるものだと言えます。
テクノロジーを除けば、今日の生活は80年代とそれほど変わっていません。車には半導体が入っていますし、冷蔵庫にも半導体が入っています。ロシアが洗濯機を分解して、テキサスインスツルメンツのチップを取り出し、それを防空ミサイルシステムに転用したという面白い話もあります。S400などですね。これについてはあなたの方がお詳しいでしょうが、半導体は私たちの生活のあらゆる部分に不可欠なものとなっています。
TSMCの半導体における役割と、アメリカがTSMCへの依存から脱却する方法について説明していただけますか。必ずしも依存から脱却する必要はないと思います。TSMCにアメリカで工場を建設してもらうことが重要だと考えています。
話を整理すると、TSMCは世界のチップ、特にファウンドリー側の大部分を生産しています。自社でチップを製造している企業もたくさんあります。サムスン、インテル、STマイクロ、テキサスインスツルメンツ、アナログデバイセスなどの企業がありますが、これらの企業の多くが数十年にわたってTSMCへの外注を増やしています。
サプライチェーンと、TSMCの製造拠点について説明できますか。
歴史的に見ると、サプライチェーンは企業が自社でチップを製造するというものでした。企業が立ち上がり、チップを設計し、製造して販売するというモデルでした。しかし、これは次第に困難になってきました。fab(半導体製造工場)の建設コストが世代を重ねるごとに増加しているためです。
技術面での困難さは別として、次世代のfabを建設するために必要な資金は増え続けています。ムーアの法則がチップのコストを2年ごとに半減させるように、fabのコストは数年ごとに倍増するという別の法則があります。
現在、3ナノメートルや将来の2ナノメートルチップを製造する最先端のfabを採算の取れるものにするには、300-400億ドル以上のコストがかかります。これは基本的な建設ブロックに過ぎず、おそらく複数のfabが必要になるでしょう。
業界を振り返ると、20-30年前には最先端のチップを製造できる企業が20-30社ありました。それらの企業は自社でチップを設計し、販売していました。AMDは自社でチップを製造し、インテルは今でも有名な自社製造を続けています。IBMも自社製造を行っていました。リストは続きますが、これらの企業は徐々に撤退していきました。
これはTSMCが行ったことが理由です。TSMCはファウンドリービジネスモデルを作り出しました。チップの設計は行わず、他社のために製造に特化するというモデルです。初期の顧客の一つがNVIDIAでした。NVIDIAは、10億ドル以上の売上を持つ半導体企業の中で、ファウンドリー時代に設立された唯一の企業です。これは実に驚くべきことです。
他のすべての企業は、それ以前に設立され、ある時点でfabを持っていました。AMDやインテル、ブロードコムなど、すべての企業がfabを持っていました。ブロードコムのような企業は、様々な企業が統合されて形成されましたが、今でもfabを持っています。コロラドでアップル向けのRF無線チップを製造しています。
これらの企業はfabを持っていましたが、その多くは廃棄するか売却し、あるいは他のものに統合されました。そして今や、インテルを含むすべての企業がTSMCに依存しています。インテルの最新のPCチップはTSMCのチップを使用しています。インテルのチップも使用していますが、TSMCのプロセスも使用しています。
これらの企業にとって、ファウンドリーモデルが成功している理由を説明できますか。なぜこのモデルを選択しているのでしょうか。
規模の経済です。先ほど述べたように、fabの建設コストは非常に高く、R&Dも困難です。垂直統合型のスタックを持つ企業を見ると、各チップに特化したカスタマイズが非常に高度だった古いプロセスでした。
しかし、過去50年の電子機器と半導体の歴史を通じて、より多くの専門化が必要になってきました。ムーアの法則は終わり、単純なスケーリングは終わりました。つまり、製造だけでチップが自然に良くなることはなくなりました。実際のアーキテクチャの革新が必要です。
Googleは、ウェブサーバー用にインテルのCPUだけを使用しているわけではありません。YouTubeチップ、TPU、Pixelチップなど、様々なチップを持っています。これらのチップがGoogleの経済的価値を生み出しています。これはGoogleだけでなく、業界のどの企業でも同じです。
自動車には5,000個のチップが使われており、200種類以上の異なる種類があります。テスラのドアハンドルには2つのチップが使われています。それは素晴らしいドアハンドルで、数セントのチップが2つ入っているのです。
チップの多様性が増え、より多くの専門化が必要になり、fabのコストが増加し続けるにつれて、最高のプロセス技術を開発し、できるだけ柔軟にすることに特化した誰かが必要になります。
簡単に言えば、fabのコストは上昇し、少数の種類のチップを製造する小規模なプレーヤーは、fabのコストを回収するための需要を確保できません。一方、TSMCは多くの顧客を持ち、その需要を1つの場所に集約することができます。そして、次のfabを建設するのに十分な利益を上げているのは彼らだけです。
これが企業が徐々に淘汰される理由です。10年前は採算の取れる十分なチップを持っていましたが、次のものを作るためのコストが上がり、資金不足で失敗するか、作っても高すぎて、失敗のポイントが増えます。
化学エッチングやプラズマエッチングなど、小さなプロセスで1つ間違えると、会社全体が崩壊し、チップを作れなくなります。インテルのような非常に強力な企業は、6-7年前に製造で大きな失敗をしても存続できました。
しかしAMDの場合は、ほぼ破産し、fabをムバダラ(UAE)に売却せざるを得ませんでした。そしてそれはグローバルファウンドリーズという別のファウンドリー企業になりました。その後、AMDはチップレットの製造や異なる市場向けの様々なチップの開発、特定のワークロードへの注力に集中できるようになりました。
チップの多様性は増え、チップを設計する企業は以前より多くなりましたが、製造する企業は少なくなっています。ここでTSMCが登場します。彼らは最高の技術を持っています。顧客重視で、チップの製造を容易にし、複雑さの多くを抽象化しようとしています。
彼らは良い利益を上げていますが、途方もない利益ではありません。しかし、需要を集約し、次々とfabを建設し続けることができます。
なぜ台湾がTSMCにとって特別なのでしょうか。なぜそこで行われているのか、そしてそれはアメリカ国内で再現できるのでしょうか。
できる部分とできない部分があります。TSMCが先行しているのは、テキサスインスツルメンツの元幹部モーリス・チャンがCEOに昇進できず、「よし、自分でチップ会社を作ろう」と考えて台湾に行き、TSMCを設立したからです。もっと詳しい話がありますが。
テキサスインスツルメンツがTSMC、つまりTexas Semiconductor Manufacturing Companyになれたかもしれません。ここテキサスにいて、それは人間的な物語のように聞こえます。昇進できなかったことと、モーリス・チャンの素晴らしさ。過小評価はできませんが、これがどのように機能しているかには別のレベルがあります。
台湾では、最高の学校に通う学生のトップ層全員がTSMCで働きます。彼らの初任給は7万-8万ドルです。これはアメリカの優秀な卒業生の初任給程度です。トップ層はGoogleやAmazon、そして今ではOpenAIなどで何十万ドルも稼いでいます。
社会のトップ1%が何をしているのか、経済的な理由で彼らがどこに向かうのかには大きな違いがあります。インテルはそれほど高給を払っていませんでした。彼らにとってそれは理にかなっていませんでした。これが1つの側面です。最高の人材がどこに行くかということです。
2つ目は労働倫理です。私たちも多く働きますが、結局のところ、時間と仕事量、そしてfabに何が必要かということです。fabはリモートワークできる仕事ではありません。fabに行って過酷な仕事をする必要があります。
振動が少しでもあると、地震が起きて機械が振動すると、壊れるか生産の一部が損なわれ、多くの場合、適切に調整されていません。TSMCでは、最近地震があった時、従業員に電話をかける必要はありません。彼らは自主的にfabに行きます。駐車場は満杯になり、人々はfabに入って修理を始めます。
それはアリの群れのようです。女王アリが何をするべきか告げる必要はなく、アリたちは知っています。一人一人が特定のタスクに特化し、一生その一つのツールを使って、fabの中の一つのタスクに特化します。特別な化学反応とナノ製造を組み合わせた、継続的に改良される一連のツールです。
例えば、二酸化シリコンを除去するための特定のプラズマエッチングだけに一生涯集中するのです。これは非常に専門的なものです。今日のAIは素晴らしいですが、人々がすぐに習得できるのとは違います。半導体製造は古くて困難で、オンラインで読める資料はほとんどありません。
論文は非常に難しく、経験を積むのに時間がかかります。そのため、参入障壁がさらに高くなります。非常に専門化された人々が工場で週80時間働き、何か問題が起きれば真夜中でも妻が「地震があった」と言えば「よし、fabに行ってくる」というような状況です。アメリカ人としてそれをやりますか?これらのことが、TSMCが素晴らしい理由を示しています。
アメリカでそれを再現できるでしょうか。インテルが20年以上にわたって製造のリーダーだったことを忘れてはいけません。UV、歪みシリコン、High-K金属ゲート、FinFETなど、ほとんどすべての技術を最初に市場に投入し、最も多くの利益を上げ、最高の利益率で大規模に製造しました。
インテルができないわけではありません。文化が壊れたのです。間違ったものに投資し、iPhoneを断り、fabの管理ミス、設計の管理ミスなど、様々なことがありました。同時に、オレゴン州で数十年にわたって特定の化学プロセスや物理プロセス、ナノ製造プロセスに取り組んできた5万人のPhDや修士号保持者たちは、まだそこにいて素晴らしい仕事を続けています。
ただし、高い歩留まりで生産する最後の一マイル、数十から数百の異なる種類のチップを設計・製造できるところまで持っていくのが壊れてしまいました。顧客体験が壊れてしまったのです。
2000年代、2010年代のインテルは傲慢すぎたと言われています。自分たちが誰よりも優れていると考え、ツールの担当者が「これはまだ成熟していません」と言っても「あなたは分かっていない、私たちは知っているのだ」といった態度でした。
アメリカは最先端の半導体製造を国内に持ってくることができるでしょうか。はい、可能です。そして実際に進んでいます。アリゾナは時間とともに改善しています。TSMCは5ナノメートルの生産能力の約20%をアメリカに建設しています。
しかし、これは十分ではありません。アメリカの生産能力20%というのはほとんど何もないに等しいのです。さらに、これは台湾の存続に依存しています。R&Dと大量生産を区別することが重要です。
世界で最先端のR&Dを行っている場所は事実上3つしかありません。台湾の新竹、オレゴン州のヒルズボロ、そして韓国の坡州です。この3ヶ所が世界の最先端半導体のR&Dを行っているのです。
製造は世界的にもっと分散できます。R&Dを行っているのは新竹、ヒルズボロ、坡州だけですが、次世代の開発、改良を行っているのはこの3ヶ所です。アリゾナのような他のfabはR&Dを行っていません。
もし新竹が地球上から消えてしまえば、数年以内にアリゾナも生産を停止することになるでしょう。これは非常に重要です。私がよく言うのは、もし数発のミサイルで最大の経済的損害を与えられるとすれば、ホワイトハウスを狙うのではなく、TSMCやインテル、サムスン、そしてマイクロンやHynixなどのメモリメーカーのR&Dセンターを狙うということです。
これらが半導体の将来の進化を定義し、すべてが急速に進んでいるため、本質的にR&Dが重要なのです。そしてそれはすべてTSMCに関係しています。
TSMCのチップなしでは車を購入できません。TSMCのチップなしでは冷蔵庫を購入できません。皮肉なことに、テキサスインスツルメンツの関数電卓は購入できるかもしれません。彼らは実際にテキサスで製造しているからです。しかし、ラップトップやサーバー、GPUなど、これらはTSMCなしでは存在できません。
多くの場合、最先端のセクシーな5ナノメートルチップや3ナノメートルチップ、2ナノメートルチップではなく、ある電圧から別の電圧に変換する単純な電源ICだったりします。それもTSMCで作られています。
これは中国も投資している分野です。技術がよく知られていて、EUVの問題を解決する必要がない長いテールのfabに投資しているのです。そしてcar door handleなどのランダムな部品のための大きな供給を持っています。これは通常の生活に不可欠です。
彼らは大量生産に投資を始めていますが、R&Dは行っていません。彼らは独自のR&Dを行っていますが、かなり遅れています。2015年に中国は5カ年計画で、2025年までに半導体の国内生産を80%にするという目標を掲げました。
はっきり言って、それは達成できません。しかし、特定の分野では本当に近づいています。BYDは恐らく、自社のfabを持っているため、TSMCを使用する必要のない世界初の企業になるでしょう。
ただし、自動運転やADAS機能など、本当にハイエンドなチップは外国から購入する必要があります。内燃機関には40個のチップがあり、EVはさらに複雑です。流量制御などのために、さらに多くのチップが必要です。電源ICやバッテリー管理コントローラーなど、これらすべてを内製化しているのです。
これは中国が2015年以降行ってきたことです。トレーリングエッジに関しては、彼らは大きな生産能力を持っています。最先端、つまり5ナノメートルなどに関しては、まだ遅れています。アメリカの規制は後者を阻止しようとしています。
しかし起きたことは、5ナノメートルや3ナノメートルなどの進展は遅くなりましたが、45ナノメートルや90ナノメートルの電源ICやアナログIC、キーボードのランダムなチップなどの分野では加速しました。
アメリカの輸出規制に関する行動は、中国の最先端での進展を遅らせるのに非常に刺激的だったため、彼らはそれを受けて他の分野での進展を加速させました。これが非常に重要だと分かっているからです。アメリカがここでロックアウトするなら、トレーリングエッジでも同じことをする可能性があります。
アメリカに戻ると、ここで製造できるでしょうか。はい、しかし莫大な資金が必要です。半導体を完全に内製化するには10年と1兆ドルかかると本当に思います。
それは台湾のような文化、極度の能力、極度の労働倫理にも関係しているのでしょうか。需要とお金があれば、アメリカの企業はそれを解決すると思います。政府の援助が必要ですが。
TSMCには約99万人の従業員がいます。それほど信じられない数ではありません。アリゾナのfabには3,000人の台湾人がいて、日本のfabでも同じことが起きました。これらの妻たちは、アリゾナやアメリカで子供を産むためにfabに行くことを約束しない限り子供を持たないと言いました。
文化の要素はあります。確かに台湾は懸命に働きます。しかしアメリカも過去にそれを行ってきました。今でもできるはずです。最高の人材を世界中から輸入できます。移民の話は微妙で、多くの議論がありますが。
最高の人材を世界中から輸入することが、なぜそれほど物議を醸すのか理解できません。そこには同意します。たとえそれらの人々を輸入できなくても、お金があれば、アメリカで製造の多くを行うことはできると思います。
ただし、はるかに高額になり、長期間利益が出ません。これがCHIPS Actが500億ドルに過ぎない背景です。インフレ削減法やインフラ法で可決された再生可能エネルギーイニシアチブは数千億ドル規模です。
アメリカが半導体産業に費やしている金額は取るに足りません。他の国々は、労働倫理や労働量などの構造的な優位性を持っていますが、STEMの卒業生の数や、最高の人材がそこに向かう割合なども違います。
また、20年間法律に組み込まれてきた税制上の優遇措置なども違います。そして一部の国は巨額の補助金を出しています。中国は年間約2,000億ドルの半導体補助金を出していますが、アメリカは6年間で500億ドルを議論しているのです。補助金の金額の差も大きいです。
トランプは最近、台湾への関税について話をしています。おそらく彼はアメリカの半導体産業を補助したくないのですが、台湾への関税は多くのものを高価にする可能性があります。しかしそれはTSMCのアメリカでのfab建設の方程式を変えるのでしょうか。それが彼の主張するところです。
TSMCが非常に重要であることを説明しましたが、10年、20年先を見据えると、アメリカと中国の関係は、冷戦のような暗い道筋か、あるいはフレネミー(友好的な敵)から協力、協働まで、良い道筋をたどる可能性があります。
この複雑なゲーム理論において、様々な軌道はどのようなものでしょうか。両国のリーダーがAGIの重要性をより強く感じ、チップとAIの重要性を認識する中で、アメリカは何をすべきでしょうか。
輸出規制は、別々の将来の経済を指し示しています。アメリカは中国のリーダーたちに、グローバルな経済統合へのどのようなコストを払っても、この技術をコントロールする意図があることを明確にしています。
それを巻き戻すのは難しいです。同様に、彼らはアメリカ企業が中国に進出するのも制限しています。長い間来ていました。かつては収束がありましたが、少なくとも過去10年間は、さらに分岐してきています。
アメリカ企業は中国に進出できず、中国企業はアメリカに進出できません。アメリカは中国に対して、特定の分野での技術アクセスを制限し、中国は同じことで報復しています。ガリウムなどの特定の材料で、アメリカを制限しようとしています。
軍事顧客を持つアメリカのドローン企業が、バッテリーを購入できなくなり、その企業は軍事顧客に「Amazonから購入してください。私には物理的に入手できません」と言うような状況です。これらすべてのことが、さらなる分岐を指し示しています。
私には、どうやって手を取り合って「クンバヤ」を歌えるようになるのか、まったく分かりません。
分岐は戦争を避けるのに良いのか悪いのか、チップの製造やAIシステムのトレーニングにおける分岐が、実際に軍事衝突を避けるのに良いのではないでしょうか。
歴史的に見ると、世界が最も平和だったのは、グローバルなヘゲモニーや地域のヘゲモニーがあった時です。地中海はローマ帝国の時代に最も平和でした。中国も平和な時期と戦争の時期があり、平和な時期は王朝が自身だけでなく、周辺の朝貢国すべてを支配していた時でした。
同様に、人類史上最も平和な時期は、アメリカがグローバルなヘゲモニーを握っていた時でした。過去数十年がそうでした。今、私たちはロシア・ウクライナ問題や中東で起きていること、台湾のリスクなど、物事が崩れ始めているのを目にしています。それでも、客観的に見れば非常に平和です。
グローバルなヘゲモニーが1つではなく2つになった時、何が起きるでしょうか。明らかに、中国はアメリカと競争するか、あるいは追い越す可能性もあります。このグローバルなヘゲモニーの変化は、通常、平和的には起こりません。
帝国が崩壊する時、これはアメリカにとって可能性のある軌道の1つですが、優雅に崩壊することはありません。単に無関係になっていくのではなく、通常は大きな動揺があります。
アメリカはトップの地位を維持しようとし、中国はトップの地位になろうとしています。明らかに、ここには頭のぶつかり合いがあります。これは代理戦争を含む、あらゆる形を取る可能性があります。
すでに起きているように見えます。私は長期にわたる平和を望んでいますが、国際的にさらなる不安定さが前途にあるように見えます。
アメリカの現在の任務は、AIをコントロールし、AIのリーダーであれば、そしてAIが進歩を大きく加速させる可能性があれば、グローバルなヘゲモニーの地位を維持できるということです。
私はそれがうまくいくことを願っていますし、アメリカ人として、それは私たちにとって平和をもたらすでしょう。明らかに、世界中の他の人々は否定的な影響を受けます。中国の人々は有利な立場にはいられないでしょう。しかし、これが現実であり、実行されている行動です。
ハードウェアの具体的な詳細に戻りましょう。輸出規制には、どのGPUが輸出可能で、どれが不可能かを示す素晴らしい図があります。H20の技術的な観点から見た可能性について説明できますか。
これは推論の側面に深く踏み込む必要があります。H800は2023年のある時点で許可されていましたが、その後キャンセルされました。その時までにDeepSeekは2,000台のクラスターを構築したと主張していますが、実際にはもっと多く、約10,000台持っていると思います。
現在、H20が合法的に許可されているチップです。NVIDIAは昨年、100万台をこの中国向け特別仕様のH20として出荷しました。文脈として、GPUの総数は400-500万台でした。つまり、中国向け特別仕様のH20の割合はかなり高く、約20-25%でした。このH20は一方で性能が制限されていますが、他の面では改良されています。AIのチップについて、ソフトウェアスタックや正確なアーキテクチャを除いて、原則的な仕様を3つの軸で考えることができます。
1つ目は浮動小数点演算(FLOPS)、2つ目はメモリ帯域幅とメモリ容量(つまりI/O、メモリ)、3つ目はチップ間の相互接続です。これらはすべてAIシステムにとって非常に重要です。AIシステムは大量の計算を必要とし、メモリとの間やチップ間でデータを大量に移動させる必要があるからです。
アメリカは当初、これら3つのベクトルのうち2つをコントロールし、1つはコントロールしていませんでした。FLOPSと相互接続帯域幅が最初にコントロールされていました。しかし、その後、相互接続帯域幅のコントロールを外し、FLOPSだけにシンプル化しました。
これによりNVIDIAは、FLOPSは制限された(H100の約3分の1)チップを作ることができましたが、実際の性能では約半分、あるいは60%程度です。しかし、他の2つのベクトルでは同等の性能を持っています。相互接続帯域幅に関しては同等で、メモリ帯域幅とメモリ容量に関してはH20の方がH100よりも優れています。
最近、私たちの研究では、今年のH20の生産予測を大幅に下方修正しました。彼らは今年さらに200万台を製造する予定でしたが、数週間前にすべての注文をキャンセルしました。私たちの見方では、制限される可能性があると彼らが考えているためだと思います。
なぜH20のすべての注文をキャンセルするのでしょうか。昨年100万台を出荷し、今年は数百万台の注文がありましたが、H20とB20(H20の後継)のすべてがなくなりました。なぜでしょうか。
それは非常に明確です。H20は特定のタスク、特に推論に関してはむしろ優れているのです。モデルの異なる領域を見ると、事前学習はFLOPSが全てです。FLOPSを減らし、相互接続やその他の側面に頼るための専門家の混合のような技術がありますが、結局のところFLOPSが全てです。
モデルについて、私たちはFLOPSの数で語ります。例えば、GPT-4は2E25、つまり2の25乗ZFLOPSだと言います。これは訓練に関してです。最近トランプが署名した行政命令では、1E26、つまりある数のFLOPSに達したら、政府に通知し、結果を共有しなければならないとされています。
政府が歴史的に重視してきたのはFLOPSというベクトルですが、他の2つのベクトルも同様に重要です。特に過去6ヶ月間で世界が学び始めた新しいパラダイム、つまり推論に関してはそうです。
3つの次元のうちどれが推論に最適なのかを確実に理解していますか。相互接続、FLOPSはそれほど重要ではなく、メモリが重要なのでしょうか。
コンテキスト長についてすぐに技術的な話になりますが、私が示せる2つの記事があります。01推論アーキテクチャのセクションにある図をお見せできるかもしれません。KVキャッシュについて説明する前に…そうですね、人々が理解しやすいように、トランスフォーマーの技術的な部分について説明する必要がありますね。
なぜメモリがそれほど重要なのか、リセットして考えましょう。これまでパラメータ数について話してきました。専門家の混合によって、アクティブなパラメータと総パラメータの数を変更し、より多くのデータを埋め込みながらFLOPSを減らすことができます。
しかし、過去数年間の巨大な革命の一部として、さらに重要なのはトランスフォーマーとアテンション機構です。アテンション機構は、モデルがコンテキスト内のすべての単語間の関係を理解することを可能にします。これはパラメータ自体とは別のものです。
コンテキスト長内の各トークン(各単語)が、他のトークンとどのように関連しているかを計算する必要があります。ネイサン、KVキャッシュについてもっと上手く説明できますか。KVキャッシュは最適化の1つです。
アテンション演算子には3つのコア要素があります。クエリ、キー、バリューです。QKVが入力となり、これらの行列が掛け合わされます。これらの単語は情報検索の背景から来ています。クエリは取得したい値を示し、キーにアクセスし、バリューは…私の背景は情報検索ではないので、バックリンクを持つのは面白いですね。
実際に起こることは、これらの行列の掛け算を行う際、行列のサイズはコンテキスト長、つまりモデルに入力するトークンの数に比例します。KVキャッシュは、モデル内の以前のすべてのトークンの圧縮された表現のような形です。
自己回帰モデルについて話すとき、一度に1つのトークンを予測します。プロンプトから始まり、「1825年の大統領は誰でしたか?」といった質問をすると、モデルは最初のトークンを生成します。各トークンに対して同じアテンション演算を行い、クエリ・キー・バリュー行列を掛け合わせます。
数学的には、これを繰り返し行う際、このKVキャッシュ、このキー・バリュー演算に新しい値を追加し続けることができます。自己回帰チェーンで以前の値を追跡し、メモリに保持し続けます。これは大規模な推論を提供する際に管理すべき重要な要素です。
これについてはもっと詳しい専門家がいますし、様々なレベルの詳細に踏み込むことができます。本質的に、アテンション演算子とトランスフォーマーの主な「欠点」の1つは、コンテキスト長に比例して二次的なメモリコストがかかることです。
より長い質問を入力すると、その計算に必要なメモリは二次的に増加します。準二次的または線形アテンション形式を持つ他の言語モデルアーキテクチャ、例えば状態空間モデルなどについても聞くことがあります。今はそこまで踏み込む必要はありませんが。
長いコンテキストに対するアテンションのメモリ使用と能力をより正確で高性能にするためのイノベーションがあります。これらのイノベーションは、メモリの制約と性能の問題に対処するのに役立ちます。
例えば、Geminiは最も長いコンテキスト長を持つモデルとして知られています。100万、そして現在は200万のコンテキスト長です。Geminiに本全体を入力すると、時には事実を抽出することができます。完璧ではありませんが、改善されています。
2つのポイントがあります。1つは、メモリレベルでこれを提供できるということです。GoogleはTPUスタックで魔法のような技術を持っており、非常に長いコンテキストを提供できます。もう1つは、長いコンテキストの性能を実現するために、多くの決定が必要だということです。
これはアテンションの計算に微妙な変更があることを意味し、アーキテクチャを変更しますが、長いコンテキストの提供は、特に多くの予測を行う際に、メモリの制約が非常に厳しくなります。
入力トークンと出力トークンがなぜより高コストになるのか、実際には分かりませんが、出力トークンではモデルからサンプリングするためにより多くの計算が必要だと思います。
説明できます。今日、OpenAIのAPIなどを使用すると、100万トークンあたりの価格が設定されており、入力トークンと出力トークンで価格が異なります。理由は、モデルにクエリを入力する際、例えば本を入力する場合、そのKVキャッシュ全体を計算する必要があるからです。
これは並列処理が可能な操作で、すべてのトークンを一度に処理できるため、コストを大幅に削減できます。トークンを生成する場合と入力する場合のFLOPS要件は同じです。1つのトークンを入力するか生成するかは全く同じで、モデルを通過する必要があります。
しかし、その入力、つまりプリフィル(事前入力)は、バッチ処理として同時に行うことができます。そのため、入力トークンの価格は出力トークンの約4分の1です。
出力トークンが高コストなのは、並列処理ができないためです。自己回帰的に、トークンを生成するたびに、モデル全体をメモリに読み込み、アクティブ化し、次のトークンを生成するために計算する必要があります。
さらにKVキャッシュ全体を読み込み、トークンを生成し、生成したトークンとそのKVキャッシュを追加し、それを繰り返す必要があります。これは並列処理できない操作です。
プリフィルまたはプロンプトの場合、モデル全体を読み込んで20,000トークンを一度に計算します。これがAPIが提供する機能です。プロンプトキャッシング、プリフィリングなどです。ビジネスを運営していて、同じ初期コンテンツをクラウドのAPIに渡し続ける場合、それをAnthropicのAPIに読み込んで常に保持しておくことで、価格を下げ、APIを大幅に高速化できます。
これは推論モデルとは大きく異なります。先ほど例を示し、この種の内容について話しましたが、出力コンテキスト長がはるかに長くなります。ディランの研究から多くを学びましたが、本質的に、出力コンテキスト長が長くなるにつれて、このメモリ使用量は二次的に増加し、GPUはメモリ不足になります。
複数のリクエストを同時に処理しようとしており、すべてのプロンプトが全く同じではない複雑な処理が必要です。コンテキスト長が長くなるにつれて、クリティカルバッチサイズと呼ばれるものがあり、ユーザーへのサービス提供能力、つまり推論の並列処理能力が急激に低下します。
これらの推論モデルではメモリ使用量が大幅に増加し、多くのユーザーがいるため、提供コストは大幅に増加します。このグラフのx軸はシーケンス長、つまり生成されるトークンの数を示しています。本を入力すれば100万トークンですが、「空は青い」なら6トークンくらいです。
推論のチェーン・オブ・ソートと呼んでいるものは、このシーケンス長を延長します。主に出力です。3ヶ月前、O1が登場する前は、長いコンテキスト長のユースケースは、多くのドキュメントを入力して答えを得るというものでした。これは単一の、並列処理可能なプリフィル計算で、少量の出力を得るものでした。
しかし、推論とエージェントでは、これは全く異なるアイデアです。タスクを実行するように指示したり、すべてのドキュメントを持っているかもしれませんが、結局のところ、モデルは少量だけを生成するのではありません。このチェーン・オブ・ソートは続き、多くの情報を生成します。
シーケンス長は、10,000トークンを生成した場合、プロンプトで入力したものに加えて10,000のシーケンス長になります。このグラフは対数スケールで示されており、1Kから4K、4Kから16Kへと増加するにつれて、KVキャッシュのメモリ要件が急激に増加し、特定の数のユーザーを実行できなくなるか、シーケンス長が制限されることを示しています。
これは405bモデルとバッチサイズ64のLlama 31の場合を示しています。バッチサイズは非常に重要です。64の異なるユーザーを同時に並列処理したいからです。そうすることで、提供コストを下げることができます。
サーバーコストは同じです。A100 8枚で、GPUあたり1時間約2ドル、つまり1時間16ドルです。これはある程度固定コストです。もちろん下げることもできますが、1時間16ドルとします。何人のユーザーにサービスを提供できるか、何トークン生成できるかで、それを割ったものがコストになります。
推論モデルでは、これが多くの複雑さの源となり、メモリが非常に重要になる理由です。メモリ量が限られていれば、多くのユーザーにサービスを提供できず、提供速度も低下します。そのためコストが大幅に悪化します。
以前は1時間16ドルのサーバーで、Llama 405bやDeepSeek V3を提供し、チャットスタイルのアプリケーションであれば、シーケンス長は数千程度でした。言語モデルを使用する際、ほとんどの場合コンテキスト長は数千で、大きなドキュメントを入れても処理して答えを得て、それを捨てて次に進みます。
しかし推論では、数万トークンを連続して生成します。このKVキャッシュを常駐させ、読み込み続け、メモリに保持し続ける必要があります。これが他のユーザーを締め出してしまいます。推論タスクがあり、モデルが推論可能な場合、そのメモリ圧力により、同時に提供できるユーザー数が制限されます。
DeepSeekについてもう一度話しましょう。DeepSeek R1以降の時期にいます。市場を見ると、提供の難しさがある一方で、DeepSeek自体のことも話す必要があります。彼らはチャットアプリをリリースし、App Storeで1位になりました。
免責事項として、App Storeの1位は速度で測定されるため、必ずしもDeepSeekアプリがChatGPTアプリよりも多くの人に使用されているということではありませんが、それでも注目に値します。サンフランシスコの誰もが「クロードを使わなければ、ChatGPTは使わないで」と言っているのに、クロードは一度もApp Storeで1位になったことがありません。
DeepSeekは最近APIプロダクトもリリースし、彼らのAPIにpingを送って、R1からこれらの超長い応答を得ることができます。同時に、DeepSeekのR1のモデルの重みが公開され、ライセンスはMITライセンスで商用利用も可能です。
中規模企業や大企業は、R1を最初にユーザーに提供しようとしています。私たちは非常に似た研究を行っているため、R1を評価しようとしています。モデルをリリースし、それと比較しようとしています。
R1を「提供している」と称する企業の多くは、DeepSeek APIよりもはるかに高い価格で提供していますが、ほとんど機能せず、スループットは非常に低いです。
文脈として、中国が能力を獲得したことについて誰もが混乱していた部分の1つは、非常に安価に実現したということです。なぜ訓練側で安価だったのかについて話しましたが、推論側でなぜそれほど安価なのか、なぜR1がうまく機能し、安価なのかについて説明できますか。
いくつかの要因があると思います。1つは、彼らはモデルアーキテクチャのイノベーションを持っているということです。このMLA、この新しいアテンションは、「Attention is all you need」のトランスフォーマーアテンションとは異なります。
他の人々もイノベーションを行ってきました。MQA、GQA、ローカル・グローバルなど、様々なイノベーションがあり、曲線を曲げようとしています。依然として二次的ですが、定数がより小さくなっています。
先ほどの議論に関連して、このマルチヘッドアテンションはアテンション機構のメモリを80-90%節約できます。これは特に長いコンテキストで役立ちます。元のものと比べて80-90%ですが、人々が実際に行っているものと比べても、これはイノベーションです。
この80-90%は、モデル全体が80-90%安価になるということではなく、この部分だけについてです。そうですね、他の人々もローカル・グローバル、スライディングウィンドウ、GQ、MQなどの技術を実装していますが、DeepSeekのアテンション機構は真のアーキテクチャのイノベーションです。
彼らは大量の実験を行い、これにより、メモリ圧力が大幅に削減されました。依然として存在し、依然としてアテンションで、依然として二次的ですが、以前の形式と比べて大幅に削減されています。
ちなみに、人々が知らないかもしれませんが、R1はO1の27分の1の価格です。OpenAIは大きなマージンを組み込んでいたと考えています。いくつかの要因があるので、分解して説明しましょう。
R1は100万トークンの出力あたり2ドル、O1は100万トークンの出力あたり60ドルです。これは重要です。OpenAIとDeepSeekの価格には大きな差があります。DeepSeekは同じモデルを提供していますが、重みを公開したため、他の誰もが同様のモデルをはるかに低い価格で提供できます。
2つの要因があります。彼らのモデルは安価です。27倍安価ですが、正確な数字は覚えていません。DeepSeek V3、つまりDeepSeek R1と同様のものを提供している異なる場所の提供コストを示すグラフを見ています。提供コストに大きな違いがあります。
その違いを説明する要因の1つは、OpenAIが素晴らしいマージンを持っているということです。推論を行う際、彼らの粗利益率は75%以上です。これはコストの差の4-5倍の要因です。OpenAIは能力を持つ唯一の企業であるため、大金を稼いでいるのです。
彼らはそのお金を必要としているのでしょうか。R&Dに使用しているのでしょうか。明らかに企業として損失を出しています。訓練に多くを費やしているからです。推論自体は非常に高いマージンですが、他のすべての活動のコストを回収するには十分ではありません。
はい、彼らはそのお金を必要としています。収益とマージンは、追加の資金調達と共に、次のものを構築し続けるための費用を賄うためです。つまり、DeepSeekは大金を失っているということですか。
1つ言えることは、DeepSeekはモデルを提供する能力がほとんどありません。サインアップを停止し、多くの人々が使用しようとしているため、ほとんどの人にとってそれを使用する能力は存在しません。GPUがないのです。
OpenAIとMicrosoftの間には数十万台のGPUがあり、モデルを提供しています。DeepSeekははるかに少ない数です。私たちの研究を信じるなら50,000台のGPUで、その一部は研究用、一部はヘッジファンド用です。それでも、モデルを大規模に提供するためのGPU容量には程遠いです。
確かに安価です。その一部はOpenAIが大金を稼いでいるためです。DeepSeekはAPIで利益を上げているのでしょうか。不明です。実際にはそうは思いません。
このグラフを見てください。Together AI、Fireworks AIなど、他のプロバイダーもあります。非常にハイエンドな企業です。Together AIはTreoと、Flash Attentionの発明者です。これは大きな効率化技術です。彼らは非常に効率的で優れた企業です。
これらの企業は推論で大金は稼いでいませんが、利益を上げていることは知っています。彼らは5-7倍のコストの差で提供しています。

OpenAIが莫大な利益を上げているのは、その5倍の差があるからです。そしてこのモデルで利益を出そうとしている企業にとっては5倍の差があります。まだギャップがあるのです。それはDeepSeekが本当に優れているということです。モデルアーキテクチャ、MLAの方法、これらすべてのもの、私たちが話した訓練における彼らの低レベルなライブラリの一部は推論に変換され、それらはリリースされませんでした。
少し陰謀論的な領域に入るかもしれませんが、中国政府がDeepSeekを助成している可能性はあるでしょうか。実際にはそうは思いません。中国のラボを見ると、華為(ファーウェイ)にはラボがあり、Moonshot AIがあり、他にもいくつかの政府と密接な関係のあるラボがあります。そしてAlibaba(アリババ)やDeepSeekのような政府と密接ではないラボもあります。
私たちが話したCEO、この尊敬すべき人物は、中国のインタビューを翻訳すると、中国共産党が望むものとはかなり異なる見解を持っているように見えます。もちろん、ヘッジファンドを通じて資金調達できるため、損失リーダーを持っている可能性はあります。ヘッジファンドが助成している可能性は確かにあります。
DeepSeekはこれまでそれほど多くの資金を調達していません。今は中国で資金調達を試みていますが、これまで歴史的に資金調達はしておらず、すべてヘッジファンドによって資金提供されてきました。彼は会社の50-60%を所有しています。
インタビューでは、これが採用ツールとして機能しているという議論もあります。アメリカの企業でも同じことが見られます。GPUを持つことは採用ツールですし、AIの最先端にいることも採用ツールです。オープンソース化することで、彼らは大きく遅れをとっていましたが、単にオープンソース化することで多くの人材を獲得しました。
もう少し陰謀論的な考えですが、彼らがヘッジファンドであることから、このリリースとプライシングのタイミングを計り、NVIDIAの株や米国企業の株を空売りして、就任式の日にスターリンクと完璧なタイミングでリリースして利益を得ることは可能でしょうか。
しかし、彼らのAIに対するモチベーションを聞くと、V3を12月26日にリリースしています。クリスマス翌日にリリースする人なんていないでしょう。誰も見ていません。彼らは以前にV3とR1の論文をリリースしていたので、人々はそれを見て「すごい」と思っていました。そしてR1モデルをリリースしただけです。
私は彼らができるだけ早くリリースしているだけだと思います。クリスマスなんて関係ない、もちろん中国の旧正月の前にリリースしましょうということです。市場を狙ったり、最大のインパクトを狙ったりしているとは思いません。私は彼らが単にリリースしているだけだと思います。
これが彼らの大きな利点の1つだと思います。多くのアメリカ企業は安全性に非常に投資しており、それがAnthropicのような場所の中心的な文化です。Anthropicは素晴らしい職場だと思いますが、安全性が最優先の目標であれば、アーティファクトを出すのにずっと時間がかかります。
だからAnthropicはものをオープンソース化していないのです。それが彼らの主張ですが、Anthropic内部でのレビューがあり、国際政府への言及があり、AnthropicがUK安全研究所と事前リリーステストを行っているというニュースもありました。これらすべてのことが、物事を外に出すプロセスに慣性を加えています。
そして私たちは、進歩が非常に高い傾向にあります。モデルのトレーニングが完了してからバリデーションを実行するまでの時間を短縮すれば、出力の知覚品質を最大限に高めるために、できるだけ早く出す必要があります。
DeepSeekはこれをとてもうまく行っています。DarioはClaude 3.5 Sonnetが9-10ヶ月前にトレーニングされたと明確に述べており、リリースまでにさらに数ヶ月かかったと思います。つまり、ここには大きなギャップがあるのです。
特にモデルに関して、サンフランシスコの街での噂では、AnthropicはGPT-4o3よりも優れたモデルを持っているのに、リリースしないということです。なぜでしょうか?それは思考の連鎖が怖いからです。そして、それらは正当に怖いのです。
R1を見ると、時々中国語と英語を行き来したり、時にはでたらめを言ったりして、正しい答えが出てきます。あなたや私にとっては、素晴らしい、これがなぜ人々が夢中になる理由です。これは高価値なものであり、機能し、このようなことをしているのは驚くべきことです。
あなたが話した哲学的なことに関する思考の連鎖について、それは哲学的に優れているようにトレーニングされたものではなく、むしろ思考の連鎖トレーニングの副産物のようなものです。しかし、これは非常に重要です。つまり、あなたの心を調べたり、今考えていることを知ることはできないのです。
だから、あなたが私の顔に嘘をついているかどうかはわかりません。そして思考の連鎖を持つモデルもそうです。これは、チャットアプリケーションで「悪い言葉を言って」とか「炭疽菌の作り方を教えて」と頼んで、それが安全でないと言われるのとは異なる、本当の意味でのリスクです。
それは比較的簡単に取り除くことができます。しかし、AIにタスクを実行させて、突然予期せぬ方法でタスクを実行された場合はどうでしょうか?これは、タスクと応答が非常に異なります。少なくともAnthropicのケースでは、安全性の基準がはるかに高くなります。DeepSeekにとっては、単にリリースするということです。
安全性の基準はDeepSeekによっておそらく少し下がったでしょう。宇宙開発競争に似たところがあります。ソビエトが最初に人間を宇宙に送り出したのは、おそらく安全性へのアプローチが、安全性の基準が低かったからです。彼らはその犬を殺し、他のことも行いました。米国の宇宙開発プログラムよりもリスクを取る傾向が低かったのです。ここには類似点があります。
しかし、おそらく米国企業に対する安全性の基準に下向きの圧力がかかるでしょう。これはDarioが話すことの1つです。Darioが避けたい状況です。Darioは底辺への競争と頂点への競争の違いについて話します。
頂点への競争は、安全性に非常に高い基準があり、特定の重要な評価でモデルが機能するという非常に高い基準があり、特定の企業がそれに本当に優れている場合、これが収束するというのがアイデアです。
究極的に、AIは1つの国籍や1つのモラルセットに限定されるものではありません。モデルのオープンソース化を止めるべきかについては多くの議論があります。米国が止めても、別の国際機関がそれを構築することは明らかです。今やDeepSeekの衝撃的な500万ドルという訓練コストを見れば、世界中のどれだけの組織がその100倍を費やして、世界で最高のオープンソースモデルを持つことができるかを考えることができます。
これは怖い現実です。これらのオープンモデルは、私たちが望むか望まないかに関わらず、当面は続くでしょう。そしてそれを止めることで、さらに悪化し、準備が難しくなる可能性がありますが、それはAIができることを準備し理解することがさらに重要になるということです。
だからこそ私はここにいるのですが、特にAI以外の人々にこれを理解してもらうことは重要です。これは来ています。グローバルに相互接続された世界では、受け入れなければならない構造的なものがいくつかあります。
Markは社会的メディアの規制に関して新しくありません。彼の会社の軌道を示す際にアメリカの価値観を持っています。長年の中国での製品の禁止を考えると、それを直接言うことを私は尊重します。オープンソースやオープンウェイトだからといって、それが改ざんできないというわけではありません。
たとえば、10年後に発見されたLinuxのバグがあり、それは明らかにバックドアでした。なぜなら、誰かが「なぜこれが0.5秒もかかるのか」と疑問に思い、それがバックドアだったからです。これはAIモデルでも十分に可能です。
今日、これらのモデルのアライメントはとても明確です。悪い言葉を言わない、炭疽菌の作り方を教えない、天安門広場について話さない、台湾は東部の省であると言うなど、あなたが誰で、何をアラインし、何を知っているかによって、xAIも特定の方向にアラインされています。
それは「ウォーク」な意味でもなく、そういう意味でもアラインされていませんが、モデルの中に埋め込まれている特定のものがあります。これを公開すると、インストラクションモデルでオープンウェイトとして、それが広がる可能性があります。
これらのシステムがより能力を持つようになると、モデルの深いところに何を埋め込めるかは明確ではなくなります。それが大きな恐れの1つです。アメリカのモデルや中国のモデルが最高のモデルになった場合、不明確なものを埋め込むことになり、それは意図せずにも起こり得ます。
たとえば、イギリス英語は死んでいます。なぜならアメリカのLLMが勝利したからです。インターネットはアメリカのものであり、したがって「color」はアメリカ式のスペルで書かれています。今は多くの強い言葉があります。
これは単にLLの事実的な性質です。例えば、Pythonは最もホットなプログラミング言語であり、その英語は主にサンフランシスコにある会社群によって定義されています。「optimization」を正しくスペルする方法は「z」を使うことです。イギリス英語では「s」だと思います。
これを些細なこととして捉えています。スペルのような些細なこと、イギリス人とアメリカ人が笑い飛ばすようなことです。おそらく私たちはそれほど気にしていません。一部の人々は気にするかもしれませんが、これは非常に重要なトピックにまで及ぶ可能性があります。
例えば、人々を操作することです。チャットボット、Character AIは子供や大人と話すことができ、人々に特定の感情を抱かせることができることを示しています。これは意図しないアライメントですが、オープンソース標準に意図的なアライメントが深く埋め込まれた場合はどうなるでしょうか。
今日のLinuxやある暗号化システムのバックドアのようなものを発見するのです。中国は米国NISTが定義する暗号化とは異なる暗号化を使用しています。なぜなら、少なくとも彼らはそこにバックドアがあると考えているからです。モデルがコンピュータシステムだけでなく、私たちの心へのバックドアになった場合はどうなるでしょうか。
それらは文化的なバックドアです。言語モデルに関する文化の関連性を増幅させるのは、私たちが人々との双方向の会話でこの対話モードに慣れているということです。そして今、私たちは社会的な文脈にぴったりとはまる非常に強力なコンピュータシステムを手に入れました。これは人々に大きな影響を与える可能性があります。
したがって、オープンウェイトモデルを提供する中国企業に関する実際の懸念の1つは、これらのモデルが特定の種類のバックドアや、中国政府の何らかの密かな要求を持っている可能性があるということです。私は必ずしもそれがバックドーではないと思います。オープンウェイトになれば、自宅に電話することはありませんから。それはむしろ、特定のシステムを認識した場合に、もしソフトウェアで何かを構築していて、突然それがソフトウェアエージェントになった場合、私たちだけが知っているバックドアをプログラムするようなものかもしれません。
あるいは、XYZという意見が正しいと思うように心を操作する可能性もあります。Anthropicはこれについて研究を行っており、事前トレーニングで特定のフレーズを入れると、モデルを使用する際に異なる振る舞いを引き出せることを示しています。なぜなら、事前トレーニングデータが汚染されているからです。
現時点では、本番システムで誰かがこのようなことを試みているとは思いません。それは主にAnthropicが直接的な作業を行っており、主に私たちはこれらのモデルがトークンをどのように生成し、どのような情報を表現し、どのような複雑な表現を持っているかについて知らないという微妙な点です。
私たちが話しているAnthropicは一般的に、世界のために良いことをしようとする良い人々に満ちていますが、私たちは軍事的な文脈でこれが行われる可能性のある研究所について知りません。表面的には幸せなLLMに見えますが、その下には時間とともに敵に最大限の損害を与えるように訓練された何かがあるかもしれません。
Sam Altmanの言葉で、彼は時々誇張することがありますが、私が同意する彼の発言の1つは、超人的な説得力は超人的な知性の前に来るだろうということです。もしそうなら、AGIやASIの前に、これらのものは私たちの理想やモデルの理想に向けて超人的な説得力を埋め込むことができます。
繰り返しますが、今日私は本当にDeepSeekがこれを行っているとは思いませんが、それは起こり得ることの兆候です。ディストピア的な世界の1つは、『すばらしい新世界』で描かれたように、かわいい子犬の写真をInstagramでスクロールし続け、あるいはもっと悪いことに、特定の物語を与えるボットと会話し、独立して考えるのではなく、他人にコントロールされた世界に完全に埋没してしまうことです。
これは大きな懸念事項です。私たちがこのようなシステムにますます依存するようになるにつれて、私たちはすでにレコメンデーションシステムでこれを見ています。レコメンデーションシステムはドーパミンによる報酬回路をハックしますが、脳ははるかに複雑です。脳の他のどのような回路やフィードバックループをハックしたり、操作したりできるでしょうか。
レコメンデーションシステムは純粋に広告時間を増やすことなどを目的としていますが、これらの複雑なモデルを通じて達成できる目標は他にもたくさんあります。数年後には、チャットアプリでの滞在時間を最大化するように言語モデルを訓練できない理由はありません。
今はナイーブな方法で、いくつかのオプションが提示され、それを選択するというデータ収集方法で訓練されていますが、それだけがこれらのモデルが訓練される方法ではありません。アニメの女の子と話すというナイーブなものですが、これはリスクです。
過去1年間、私はソーシャルメディアやインターネットを全く使わず、本を読んだり自然の中にいたりする時期が何度かありました。それは明らかに心に影響を与えます。もちろん私はインターネットが本格的に普及する前に育ちましたが、ある種の…わかります。生理学的にも見ることができます。
バックパッキングなどで3日間過ごすと、中毒のサイクルを断ち切っているのです。インターネットから切り離されているとき、私は自分の心をよりコントロールできていると感じます。知性の主権のようなものが感じられます。
インターネットやソーシャルメディアを使えば使うほど、他人が私の心をコントロールしているように感じます。それは確かな感覚です。そして将来的には、それは他人ではなく、アルゴリズム、あるいはアルゴリズムを通じて私に提示される他人になるでしょう。
インターネット上にはすでに多くのAIボットがいます。今のところそれほど頻繁ではありませんが、時々私が返信すると即座に返信が返ってきて、「しまった、これはボットだった」と気づくことがあります。それはますます一般的になっていくでしょう。上手くなっていくのです。
テクノロジーの歴史で面白いのは、アダルトエンターテインメント業界が常に最初にテクノロジーを採用してきたことです。ビデオストリーミングにしても、現在の個人アダルトコンテンツクリエイターが自分の購読ページを持っているようなものにしても、そうです。
彼らは実際に生成AIを大いに活用しています。拡散モデルなどはすでにそこで大きな存在感を示していますが、現在、これらの購読ベースの個人クリエイターは、自分自身を模倣し、ホエール(多額の支払いをする顧客)とチャットするためにボットを使用しています。人々はそれに多くのお金を払います。
多くの場合それは本人ですが、これらのクリエイターのために大規模にこれを行うエージェンシーもあります。そのため、最大手のクリエイターたちは、これらのボットのおかげで一度に何百何千もの人々と会話することができるのです。
すでにそこで使われているのは明らかです。ビデオストリーミングや他のテクノロジーが最初にそこから始まったように、それは社会の他の部分にも広がっていくでしょう。
モデルが企業によって検閲されることへの一般的な懸念があります。私たちがそれを見た1つのケースは、GeminiでのNaziの画像生成での黒人というケースです。検閲は1つの言葉で、RHF(報酬モデリング人間フィードバック)や他の方法によるアライメントは別の言葉かもしれません。
また、中国のモデルが1989年6月4日に天安門広場で何が起こったかについての質問に答えることを拒否するのも見てきました。これはどのように避けられるのでしょうか。一般的にこれがどのように起こり、どのように避けられるかについて話してもらえますか。
おそらくここで考慮すべきことがいくつかあります。1つは、天安門広場に関する事実的な知識のようなものがモデルにどのように組み込まれるかということです。2つ目は、あなたが「黒人Nazi事件」と呼ぶGeminiのケースで、システムとしてのGeminiに劇的に動作を変更する余分なものが組み込まれたことです。
3つ目は、ほとんどの人々が一般的なアライメント、ポストトレーニングRHFと呼ぶものです。これらはそれぞれ非常に異なるスコープと、モデルの重みを見ただけで特定の事実を監査するのは非常に困難です。事前トレーニングデータを調べ、すべてを見て、非常に特定の単語や単語のヒントを探さなければなりません。
つまり、検閲やアライメントをパイプラインの様々な段階で挿入できるということです。あなたが今言及したのは、データ選択の最初の段階です。モデルから事実を取り除きたい場合、すべての段階でそれを行う必要があります。
事前トレーニングで行う必要があります。ほとんどの人々は、事前トレーニングが知識のほとんどをモデルに組み込む段階だと考えています。その後、ポストトレーニングやその後のシステムを通じて、それを引き出したり移動させたりすることができます。
これが「モデルのハッキング」という全体的な概念が生まれた理由です。GPTは炭疽菌の作り方を教えてくれませんが、本当に頑張れば最終的に教えてくれるようになります。なぜなら、事前トレーニングデータセットからそれをフィルタリングしなかったからです。
ところで、事実を取り除くということには、とても不吉で暗い感じがあります。実質的に不可能だと思います。なぜなら、効果的にインターネットから取り除く必要があるからです。サブレディットから何かを取り除くことはできますか…それはフィルタリングされます。
小規模な言語モデルを使って、テキストがどれだけ良いか、Wikipediaの記事にどれだけ近いかを判断します。これは言語モデルに模倣してほしい良いことです。では、小規模な言語モデルでデータの中の天安門広場への言及をフィルタリングできますか?
はい、できますが、それは暗号化された言語や、人々がゲームやその他で天安門広場という言葉を使わずに物事を言う方法をキャッチできるでしょうか…インターネット全体には、若干の左寄りのバイアスがあります。なぜなら、常に一般の人口と比べて裕福で若い人々がインターネットを使用してきたからです。
すでに本質的に若干の左寄りのバイアスがあります。では、これほど複雑なことをどうやってフィルタリングするのでしょうか。天安門広場は明らかに事実の例ですが、理想にアライメントする話になると、はるかに難しくなります。
例えばGrockです。Elonはモデルを超PCでウォークにならないように一生懸命努力しましたが、事前トレーニングの最良の方法は、インターネット全体を投入することです。その後で解決すればいいのですが、結局のところ、モデルの核心部分にはまだこれらの理想の一部が残っています。
世界最大の政治的議論の場の1つであり、自由にスクレイピングできるRedditのr/politicsを取り込んでいます。そしてそれは左寄りです。したがって、本当に本当に本当に一生懸命努力しない限り、検閲できない側面がいくつかあります。
ベースモデルは常にTDS(トランプ・デレンジメント症候群)を持つことになりますが、それを表現する能力を持つでしょう。しかし、もしデータに幅広い表現があったらどうでしょうか。これが起こることです。
ポストトレーニングと呼ばれるものの多くは、モデルを非常に特定の行動の軌道に乗せるための一連のテクニックです。また、TwitterやRedditのr/The_Donaldのような非常にトランプ支持のデータも取り込んでいます。ファシストのサブレディットもあれば、共産主義のサブレディットもあります。
したがって、モデルは事前トレーニングですべてを取り込みます。世界観はありません。ただし、テキストの多くが特定の方向に偏っているため、若干の偏りはあります。それは一般的に若干左寄りで、ある程度知的で…インターネット全般がある特定の方向性を持っているのです。
そしてNathanが雄弁に説明しようとしているように、特定のことを引き出すことができます。ここには多くの歴史があります。いくつかの例を挙げて、何が起こったのかを見ていきましょう。
Llama 2のローンチでは、「RHFが多すぎる」や「安全性が高すぎる」というフレーズがLlama 2のチャットモデルがリリースされた後の全体的な物語でした。例えば、Llama 2チャットにPythonプロセスを殺す方法を尋ねると、「殺すことは悪いことなので話せません」と言うようなものです。
AIモデルを設計しようとする人なら誰でも、これはトレーニングで少し失敗したということに同意するでしょう。彼らはこれを意図的に行ったわけではありませんが、これはモデルの重みに組み込まれていました。
システムプロンプトと呼ばれるものがあります。モデルにクエリを投げる際に、ユーザーには表示されないがモデルには表示されるテキストの一部です。面白い例は、システムプロンプトを「海賊のように話す」にすることができます。そうすると、ユーザーが何を言おうと、モデルは海賊のように応答します。実際には、「あなたは役立つアシスタントです。問題を分解し、何かについて知らない場合は、日付の区切りはこれこれです」というような、質問にうまく答えるための非常に有用な文脈が多くあります。
Anthropicは彼らのシステムコンテキストを公開しており、私はそれは素晴らしいことだと思います。そしてこれについては多くの研究が行われています。あなたの以前のゲストのAmanda Askalは、実行と共有の組み合わせにおいて、おそらく最も知識のある人物です。彼女はシステムプロンプトとモデルのキャラクターについて話すべき人物です。
人々はこれらのシステムプロンプトを読むべきです。なぜなら、時には極端な丁寧さを通じて、モデルを特定の方向に誘導しようとしているからです。これを悪用することもできます。私たちはテストを行いました。例えば、モデルに愚かなモデルになるよように指示するとどうなるか。どの評価スコアが下がるかを見ました。
数学の能力にはそれほど影響しませんが、人間の判断の質は床をはうように低下します。ポストトレーニング、特にLlama 2に関するRHFに戻りましょう。安全性の優先順位が高すぎてモデルの重みに組み込まれていました。これによって、ユーザーにとって非常に迷惑な方法で物事を拒否することになります。
これは良くありません。これによってRHFに対する認識が、モデルを愚かにするものだという意識が生まれ、AIカルチャーでその言葉に烙印を押すことになりました。テクニックが進化するにつれて、もはやそうではなくなりました。
すべてのラボは、RHFのような技術を通じて、モデルから得られるものを非常に細かくコントロールできるようになっています。ただし、ラボによって確かにレベルは異なります。スペクトルの一端にはGoogleがあり、おそらくOpenAIはより少なく、Anthropicはより少なく、そしてスペクトルの反対側にはxAIがあります。
しかし、彼らは皆、モデルを特定の方向に向かわせるための異なる形式のRHFを持っています。重要なのは、モデルにどのような振る舞いをさせたいかに関係なく、これらのRHFと選好チューニング技術もパフォーマンスを向上させるということです。
数学の評価やコードの評価などにおいて、対照的な損失関数と呼ばれるものには何か本質的なものがあります。ここでRLについて詳しく説明する必要はありませんが、RLもチャットタスクからコードの問題、数学の問題に至るまで、あらゆるものでパフォーマンスを向上させます。
これは、これらのラボにとってより有用なツールになってきています。これで私たちは弧を描いてきました。事前トレーニングの難しさについて話し、ポストトレーニングとそれがいかに複雑な多面的な最適化であり、10人から100人のチームが1つのアーティファクトに収束していくかについて話しました。
完璧に行うのは本当に難しいです。そして3番目のケース、Geminiについて話したことがあります。Geminiについて重要なのは、これはサービスとして提供された製品で、GeminiはGoogleの内部モデルの重みを持ち、私たちが話したすべてのプロセスを行っています。
その後明らかになったのは、多様性を高めるためにユーザーのクエリを書き換えるプロンプトがあり、これが出力を明らかに間違ったものにしていたということです。これはある種の組織的な失敗で、そのポジションにこのプロンプトを置いていました。
おそらくGoogleの経営陣もこれを認めていると思います。私はそれほど詳細には注意を払っていませんが、これは実行におけるミスで、この馬鹿げた結果につながりました。しかしシステムレベルでは、モデルの重みは問題なかったかもしれません。
パイプラインの最後の部分で、システムプロンプトのような、または業界で言うところのプロンプトの書き換えがありました。特に画像モデルの場合、DalleやChatGPTで画像を生成する場合、「美しい車を描いて」と言うと、これらの主要な画像モデルは詳細な説明的なプロンプトから恩恵を受けます。
ChatGPTで行われることは、言語モデルがバックグラウンドでプロンプトを書き換えて、より詳細にし、それを画像モデルに渡すということです。プロンプトの書き換えは業界の複数のレベルで使用されており、画像モデルに効果的に使用されています。Geminiの例は単なる実行の失敗です。
ここで大きな哲学的な質問があります。RHFに関して一般化すると、人間の入力、人間のループ内の入力、人間のデータは、現在の段階でどこで最も有用なのでしょうか。
過去数年間、最もコストの高い人間のデータは、これらの選好にありました。最もコストが高く、最も総使用量が多いと言えます。多くのお金が、2つのモデル出力を人間が比較するこのような比較に費やされてきました。
以前は、このような指示チューニングデータが多くありました。例えばRedditの質問のような、気にかけている分野に対して非常に具体的な例を作成することです。言語モデルは以前、数学やコードで苦労していたので、数学やコードの専門家に質問を考え出し、詳細な回答を書いてもらうために支払いをしていました。
今では、数学やコードのような分野で詳細で雄弁な回答を書くのに、人間よりもはるかに優れた多くのモデルオプションがあります。Llama 3のリリースで彼らが話したように、数学とコードの回答を書くためにLlama 3 45bを使用するように切り替えましたが、彼らの論文では、AIに置き換えられていない広範な人間の選好データを使用していることについて話しています。
選好のためのAIと人間のデータを使用する立憲AIのような他の技術も業界にはあり、AI部分は人間の部分よりも速くスケールすると予想されます。しかし、私たちがアクセスできる研究の中では、人間はこの種の選好ループの中にいます。
推論がますます大きくなっていくにつれて、私たちが言ったように、その中での人間の役割はどこにあるのでしょうか。それはさらに少なくなっています。これらの推論結果、特にDeepSeek R1論文で注目すべきなのは、DeepSeek R10と呼ばれる結果です。
彼らは事前トレーニングされたモデルの1つ、DeepSeek V3ベースを取り、多くの質問や検証可能な報酬に対して、この強化学習の最適化を行い、これらの推論行動が自然に現れたのです。
「待って、見てみましょう」「待って、これをチェックしてみましょう」「これは間違いかもしれない」といったことが、質問と回答だけを持つことから現れます。そしてモデルを使用する際に見る部分は完了部分です。
この場合、すべてがこの大規模なRL訓練から現れます。そしてその重みが利用可能なモデルには、ポストトレーニングに人間の選好が追加されていません。DeepSeek R1の完全なモデルには、推論段階の後にこの人間の選好チューニング、このRHFが一部ありますが、非常に注目すべきなのは、これらの推論行動を得ることができ、人間が推論の連鎖を書き出していることはほとんどありえないということです。
彼らが何らかの方法でOpenAIをハッキングして、OpenAIの推論の連鎖にアクセスしたということもほとんどありえません。これは事前トレーニングされた言語モデルとこのRL訓練に関する何かで、モデルに質問に正しく答えることに対して報酬を与え、そのため複数の解決策を試みると、この思考の連鎖が現れるのです。
ここで、偉大なAndre Karpathyの雄弁で洞察力のあるツイートについて触れるのは良いかもしれません。彼にはたくさんの考えがありましたが、その1つは「これが明白かどうかわかりませんが」というものでした。何か深遠なことを言う時は、「これが明白かどうかわかりません」と言います。
子供と深層学習の両方に、2つの主要な学習タイプがあります。1つは模倣学習で、見て繰り返すこと、つまり事前トレーニング、教師あり微調整です。2つ目は試行錯誤学習、強化学習です。
私の好きな単純な例はアルファ碁です。1つは専門家プレイヤーを模倣することによる学習、2つ目はゲームに勝つための強化学習です。深層学習の衝撃的な結果のほぼすべて、そしてすべての魔法の源は、常に2番目です。
2番目のものが著しく強力です。2番目のものが驚かせます。2番目のものは、パドルがブロックの後ろでボールを打ち、ブロックを壊すことを学ぶ時です。2番目のものは、アルファ碁がイ・セドルに勝つ時です。
そして2番目のものは、DeepSeekやGPT-4o1などが、あなたの仮定を再評価し、戻って別のことを試してみるなど、うまく機能することを発見する「アハ」の瞬間です。
モデルがその思考の連鎖の中で使用する解決戦略を見ることができます。これらの考えは創発的です(3つの感嘆符)。そしてこれは実際に真剣に信じられないほど印象的で新しく、公開されており、文書化されています。
モデルと人間のラベル付け者の認知が異なるため、モデルは模倣によってこれを学ぶことはできませんでした。人間は、これらの種類の解決戦略やそれらがどのように見えるべきかを正しくアノテーションする方法を決して知らないでしょう。
最終的な結果に向けて経験的で統計的に有用なものとして、強化学習中に発見される必要があります。アルファゼロの比喩、アナロジーについて、彼が言及している思考の連鎖の魔法について話してもらえますか。
アルファ碁とアルファゼロを振り返るのはいいと思います。なぜなら、これは模倣学習とゼロから学習することの間のアナロジーとうまく合うからです。アルファ碁のプロセスの始まりは人間からの学習で、彼らは人間のデータを持っていました。
これは、DeepMindのモデルシリーズにおける最初の専門家レベルの囲碁プレイヤーまたはチェスプレイヤーでした。アルファゼロと呼ばれる理由は、人間のデータがループの中に全くなかったからです。そしてそれがアルファゼロに変わり、DeepMindにとって劇的により強力なモデルを作りました。
人間の事前知識、人間の帰納的バイアスを取り除くことで、最終的なシステムははるかに強力になります。これは数時間前に話したビター・レッスンに沿っており、言語モデルでもこれについて多くの議論がありました。
これは新しいことではありません。これは昨年11月に出たQARの噂にまでさかのぼります。これはおそらくOpenAIがその1番のものを理解し始めた時だと思います。QARの噂が出た時、知的な関心が高まりました。
言語モデルでこのようなことがいつ起こるのかを知ることは、これらのモデルがとても強力だということを私たちが知っており、過去にとても成功的だったことを知っているからです。
推論モデルに対するこの新しいタイプの強化学習トレーニングは、これがOpenAIへの道を開くという合理的なアナロジーです。まだ、イ・セドルを完全に困惑させたDeepMindのAIの計画である有名な37手のような、そのレベルの焦点となる点はありませんが、それは技術へのアプローチや一般的なトレーニングの影響が異なることを意味するわけではありません。
それはまだ信じられないほど新しいものです。思考の連鎖、推論、科学的発見のための37手は何だと思いますか。このような推論の問題を使用して、私たちが全く予期しないことをする時はどうでしょうか。実際にはそれはおそらくもっと単純で、科学的発見というよりも、コンピュータの使用やロボット工学に関連するものだと思います。なぜなら、ここで重要な側面は、モデルが学習するのに非常に多くのデータを必要とし、サンプル効率が良くないということです。
10兆トークン以上、ウェブ全体を訓練に使用しています。これを読むには人間なら何千年もかかるでしょう。そして人間はモデルが知っているほとんどのこと、多くのことをよりよく知っています。人間ははるかにサンプル効率が良いのです。
それは自己対戦のおかげです。赤ちゃんはどのように自分の体を認識するのでしょうか。足を口に入れて「これは私の体だ」と言います。手を口に入れて、指の触覚を舌の最も敏感な触覚と調整します。これが赤ちゃんの学習方法です。
そして何度も何度も何度も何度も自己対戦を繰り返します。そして今、私たちはそれに似たものを持っています。これらの検証可能な証明、コードのユニットテストや数学的に検証可能なタスクで、多くの推論の痕跡を生成し、それらを分岐させ続け、最後にどれが実際に正しい答えを持っているかをチェックします。
ほとんどは間違っています。素晴らしい、これらが正しいものです。たぶん外部の報酬モデルを使って最良のものを選好することもあるかもしれません。しかし今や、これらのベンチマークでますます良くなり始めています。
過去6ヶ月で、多くの異なるベンチマークが急上昇しているのを見てきました。数学とコードのベンチマークはほとんど解決されています。フロンティア数学を除いては。フロンティア数学は、ほとんどの人々にとって実用的でない問題として設計されています。試験レベルの開かれた数学の問題のようなものだからです。
つまり、ある程度複雑な文章題やコーディングの問題のような、ある程度合理的な数学の問題については、Dylanが言っていることです。ここで重要なのは、これらは検証可能なタスクでのみ可能だということです。
私たちは先ほど、非検証可能なことに思考の連鎖を適用した例を示しました。人間とのチャットのようなもの、人間にとって新しい思考とは何かを考えることです。しかしこのタスクと訓練の形式は、検証可能な場合にのみ機能します。
ここから考えられるのは、検証可能なタスクの数を増やすことで、現在の訓練方法を継続的にスケールアップできるということです。数学とコーディングにおいて、コーディングにはまだまだ可能性がありますが、数学には検証可能なものとしてはあまり余地がありません。
ソルバーを作成し、それに向けて軌跡や推論の痕跡を生成し、機能しないものを除去し、機能するものを保持することはできますか。それらはすぐに解決されるでしょうが、数学を解決したとしても、実際には知性を作り出したわけではありません。
ここで私は、コンピュータの使用やロボット工学の「アハ」の瞬間が来ると思います。なぜなら、これで無限に検証可能な砂場や遊び場ができたからです。インターネットでの操作には、検証可能な操作が数多くあります。
最初はウェブサイトにログインしたり、アカウントを作成したり、ボタンをクリックしたりするところから始まりますが、その後、Taskerやその他の様々なタスクウェブサイトでタスクを実行したり、数百のいいねを獲得したりするようになります。
そして失敗します。数百のアカウントを作成し、ほとんどで失敗しますが、これが成功した。素晴らしい、検証可能なことを達成しました。このループを何度も繰り返すだけです。
ロボット工学も同じです。ボールをバケツに入れるという簡単なタスクから、車を作るという複雑なタスクまで、タスクの無限の遊び場があります。スピードランやモデルができることには全体的な軌跡があります。
しかしある時点で、私は本当にこう思います。モデルを生成し、最初はすべてのトレーニングが砂場の中で行われますが、ある時点で、言語モデルの事前トレーニングは、この強化学習が何であるかによって圧倒されるでしょう。
マルチモーダルなモデルを事前トレーニングし、それは見ることができ、読むことができ、書くことができ、音声や視覚などができます。しかしその後、砂場で無限に遊ばせ、数学を理解し、コードを理解し、ウェブの操作を理解し、ロボットアームの操作を理解させます。
そして非常に多くのことを学習し、「アハ」の瞬間は、これが何か良くないものを作り出すことができるようになった時でしょう。ウェブの使用方法を理解することの一部だった。突然、Twitterで数十万のフォロワーを獲得し、本物のエンゲージメントを得る方法を本当によく理解しているのです。
なぜなら、これは検証可能なことの1つだからです。エンゲージメントだけでなく、お金を稼ぐことかもしれません。それはインフルエンサーになって、製品を宣伝し、製品を作り出すことで、全自動的に1000万ドルを稼ぐかもしれません。
誇大な製品ではなく、実際の製品について話しています。この物が事業を作り、それを運営し、その事業の顔になるというようなことです。あるいはナンバーワンの曲かもしれません。曲を作るために必要なインフラ全体を作り、その曲を代表するインフルエンサーになるというようなことです。
それが37手になり得ます。私たちの文化はそのような形でお金を尊重します。そしてそれは検証可能です。銀行口座でまさに検証できます。検証可能な領域を収集する方法を設定すると、これが機能する驚くべき証拠があります。
R1の前にも、数学の問題に関する多くの研究があり、サンプル数を増やすだけで言語モデルで数学にアプローチしました。言語モデルが正解する回数を見ると、非常に悪いモデルでも時々は正解するということがわかります。
強化学習の背後にある全体的なアイデアは、非常にまばらな報酬から学習できるということです。言語を生成するにせよ、ロボットのタスクを生成するにせよ、言語とトークンの空間は非常に大きいので、1回のステップで20万のものからサンプリングできるというように、それほど大きな空間からです。
もし少しでも信号を生成できれば、それに基づいて登ることができます。これが強化学習全体の分野が扱うことです。まばらな報酬からの学習です。同じことが数学でも起こっています。時々答えを生成する非常に弱いモデルでも、研究によると、数学のスコアを向上させることができます。
このような訓練で数学を強化できます。それほど効果的ではないかもしれませんが、DeepSeekの600分の1のサイズの10億パラメータのモデルを取れば、この訓練の少量で小学校の数学のスコアを直接向上させることができます。
これがすぐに来るということではありません。検証のドメインを設定するのは非常に難しく、多くのニュアンスがあります。しかし、以前に見たことのある基本的なことがいくつかあり、少なくともドメインがあり、これが機能する可能性があるということは予測可能です。
さて、リアルタイムで面白いことが起こっています。これは他の推論モデルについて話す良い機会です。GPT-4o1、GPT-4o3、そして今、OpenAIはおそらく予想通り、GPT-4o3 miniをリリースしました。異なるフレーバーから何を期待できるでしょうか。
Geminiからの推論モデルについて、異なるフレーバーを説明していただけますか。これらの推論モデルについて言えることは、数学とコードに関する推論のトレーニングについて多く話してきましたが、行われたことは、ベースモデルがあり、インターネットでそれについて多く話してきました。
この大規模な推論の強化学習トレーニングを行い、その後、DeepSeekの論文がR1論文で詳しく説明したように、これをどのように行うかが私にとって大きな未解決の質問の1つですが、大規模な推論RLの後に、標準的だが推論を重視したポストトレーニング技術を行いました。
彼らは拒否サンプリングを通じた指示チューニングの形式と同じことを行いました。これは本質的に、いくつかの報酬モデルを持つ高度にフィルタリングされた指示チューニングです。そしてこのRHFを行いましたが、数学を重視しました。
この転移の一部を見てきました。先ほど哲学の例を見ましたが、大きな未解決の質問の1つは、推論のトレーニング後にドメインを導入した場合、どの程度転移するかということです。すべてのモデルが推論によって雄弁な作家になるのでしょうか。この哲学的なことがオープンになるのでしょうか。
私たちはこれがどの程度転移するかについての研究を知りません。ソフト検証機などについての他のこともありますが、これらの推論モデルをより使いやすくするための推論の後に、より多くのトレーニングがあります。それが私たちが今使っているものです。
GPT-4o3 miniと01について話すと、これらは推論を引き出すように設計された人間の選好のための追加のテクニックを経ています。1つ、人々が見過ごしているのは、GoogleのGemini Flash Thinkingは01よりも安価で、より優れているということです。12月初めにリリースされましたが、誰も話題にしていません。誰も気にしていません。
それは01のような何かとは異なる味わいを持っています。その振る舞いは表現力が低く、より少ない軌跡を持っています。去年の秋、QuanがQwQという彼らの推論モデルのプレビューをリリースし、DeepSeekがR1 Lightをリリースしました。これらのモデルはレールの上にいるように感じられ、本当に数学とコードだけができます。
01は何でも答えることができます。一部のタスクでは完璧ではないかもしれませんが、柔軟で、豊かさがあります。これがモデルがどの程度調理不足かという部分です。モデルを外に出すのは良いことですが、これが完全なモデルなのか、これをすべてに使えるのかを判断するのは難しく、多くの味覚が必要です。
数学とコードについては、おそらくより似ています。私の素早い読みでは、Gemini Flashは01と同じ方法でトレーニングされていません。むしろ、既存のトレーニングスタックに推論を追加したように見えます。より通常のトレーニングスタックを取り、それに推論を追加したのです。
そして彼らはもっと持っているはずです。休暇中にGemini Flashの2番目のバージョンを素早くリリースしています。それは急速に進化しています。このような大規模な同じトレーニングスタックを作るには時間がかかります。
以前の人間の性質に関する質問について、私がこれについてこれほど多く話せる理由は、私たちがAI2で01が完全に利用可能になる前、そしてR1の前から取り組んでいたからです。本質的にこの強化学習を微調整に使用することです。
私たちはTuluシリーズのモデルでこれを使用しており、同じような振る舞いを引き出すことができます。「待って」などと言わせることができます。しかし、これは訓練プロセスの非常に後半にあるため、この種の推論表現ははるかに軽いものです。
本質的に段階があり、このRL訓練をどの程度投入するかによって、出力がどのように見えるかが決まります。さて、私たちは今、Gemini 2.0 Flash Thinking実験版121を使用しています。それはプロンプトを「人間は自己家畜化した霊長類」と要約しました。
これは推論を明らかにしていますか?これが新しい理由は…CCKをクリックして展開…リクエストを分析し、「新しい」というのがキーワードです。出力が少し異なって見えます。通常の出力のように見えます。人間に焦点を当て、そこから生物へ、頂点捕食者へと移り、家畜化に焦点を当て、家畜化を人間に適用し、自己家畜化のアイデアを探求しています。良くない、これはどこに向かうのでしょうか。さらに洗練し、洞察を明確にします。
より大きな表情の豊かさとコミュニケーション能力、はい。可塑性と適応性、はい。依存、社会的グループ、はい。そしてさらに自己批評と改良を行います。これは本当に新しいのか、十分な裏付けがあるのか、などなど。
そして洞察は、人間は単なる社会的動物ではなく、深く自己家畜化した霊長類であり、この自己家畜化が私たちのユニークな認知能力と社会的能力を理解する鍵だということです。

自己家畜化した類人猿、私はDeepSeekの回答を好みます。その洞察は斬新です。つまり「自己家畜化した類人猿」というのは良い本のタイトルになりそうですね。そう、説得力のある主張ができそうです。はい、面白いですし、その推論は魔法のようです。本当にパワフルです。
みなさんこんにちは、Lexです。ポッドキャストの途中で急な中断となりましたが、この会話の中でDeepSeek R1とGemini Flash 2.0の回答を確認したので、この時点でOpenAI O1 ProとO3 Miniに同じプロンプトを試してみた結果を手短に挿入させていただきたいと思います。プロンプトは「人間について本当に斬新な洞察を1つ挙げてください」というものでした。また、O3 Miniモデルを様々な文脈やアプリケーションで何時間も使用してみた経験から、全般的な印象と、体験に基づく雑感もお話ししたいと思います。
この質問は、いわば開放的な哲学的質問として分類できると思います。特に「斬新さ」を強調したのは、モデルの能力の1つ、つまりその輝かしさで驚かせるような何かを生み出す能力をテストするのに良い方法だと考えたからです。
そこで、この質問について何度もモデルを実行してみた私の全般的な評価としては、O1 Proは一貫して素晴らしい回答を提供してくれました。考えさせられる回答で、その洞察は鋭く、また上手く表現され、機知に富み、明快で、ニュアンスに富んでいました。何度試しても一貫して最高の回答を生成しました。その次がR1で、これは一貫性は劣りますが、やはり素晴らしい回答を提供してくれました。Gemini Flash 2.0が3番目で、最後がO3 Miniでした。実際、O3 Miniは少なくとも私の感覚では、かなり一般的な回答しか提供しませんでした。
とはいえ、ブレインストーミングなど他のアプリケーションでテストしてみると、実際には非常に良く機能し、しばしばR1を上回るパフォーマンスを見せました。ただし、この開放的な哲学的質問に関しては、一貫して劣っていました。
また、これらのモデルそれぞれにとって重要な要素となるのが、推論がどのように提示されるかということです。DeepSeek R1は完全な思考の連鎖のトークンを表示します。これは私個人としては、このような開放的な哲学的質問に対して本当に興味深いと感じます。しかし、より大きな視点から見ても、知性や推論、内省を重視する人間として、R1のこのような思考の連鎖の生のトークンを読むことには、本当に美しいものがあります。
知的システムにおける熟考の過程が明示的に示されることは、私たち人間にはあまりないことです。そのため、別の知的システムにおいてそれを見ることができるのは、ジェームズ・ジョイスの「ユリシーズ」や「フィネガンズ・ウェイク」に似た非線形性を持つもので、見ているだけで美しいのです。
いずれにせよ、エピソードで議論したように、DeepSeek R1は、人間が利己的な欲望を協力的なシステムに変換できる能力について語りました。お金や法律、権利といった抽象的なルールが実在すると集団的に想定することで、これらの共有された幻想がゲームとして機能し、競争が密かに集団の利益のために向け変えられ、対立が社会の燃料となるのです。
Gemini 2.0 Flash Thinkingは、人間は単なる社会的動物ではなく、自己家畜化した類人猿であり、この自己家畜化が私たちの独特な認知能力と社会的能力を理解する鍵となると述べました。ここで重要なのは、その思考の連鎖が本当に興味深かったことです。地球上の生命の進化全体を見渡し、頂点捕食者を考察し、そこからどのようにして現在の状態に至ったのかを考えていました。選択による家畜化というのは本当に興味深い視点です。一見して明らかなことに対して誰かが異なる視点を提示すると、私は思わず微笑んでしまいます。
DeepSeek R1についても同じことが言えます。お金や法律、権利といったものを幻想として、私たちが集団的にそれらが実在すると想定し、それらを使ってゲームをプレイする。そのゲームは競争のように見えますが、実は密かに協力しているだけで、それが進歩の原動力となっているのです。美しく表現されています。
さて、OpenAI O1 Proは一貫して素晴らしい回答を提供し続けました。いくつもの例を挙げることができますが、最初の回答は「人間は原材料を象徴的な資源に変換し、その象徴を使って元の材料を再編成する唯一の種である。これにより、意味と物質の間に閉じたフィードバックループが生まれる」というものでした。
今もう一度実行してみましたが、またも素晴らしい回答が返ってきました。「人間は既知の種の中で、2つの現実の層を同時に書き換える唯一の存在である。外界と、自身の内的な精神的景観を書き換え、そしてこの2つの書き換えられた層を、客観的に真実だと感じられる連続的な個人的物語へと融合する」。これは詩です。
そしてO3 Miniですが、私にとって最高だったのは、スマートで、速く、ある意味では一般的でしたが、私の求めるレベルには達しませんでした。最初に得た回答は次のようなものでした:
「人間は固定的な存在ではなく、むしろ継続的な物語、私たちが絶えず書き、編集し、再解釈する動的なストーリーです。この物語の可塑性は、単なる記憶や自己反省以上のものです。それは本質的な認知プロセスであり、内部のエラー修正システムのように機能します。新しい経験、課題、社会的文脈に応じて、私たちのアイデンティティと価値観を適応させることを可能にします」
これは「物語の可塑性」という引用符付きの言葉で、鋭い洞察に近づきかけていますが、その後また一般的な内容に戻ってしまいます。
これらのモデルはすべて、それぞれの理由で信じられないほど素晴らしいものです。このエピソードで議論したように、多くの懸念もありますが、同時に興奮する理由も多くあります。私はおそらく長々と話しすぎてしまいました。深刻な睡眠不足で、ほとんど混乱状態なので、これらの内容が少しでも理解できるものであることを願っています。それでは親愛なる友人の皆さん、エピソードに戻りましょう。
私は思うのですが、Nathanの指摘のように、推論モデルを見ると、私がR1とO1を使用した時も、角が荒いような感じがありました。Flash Thinkingも、この最新バージョンは使用していませんが、12月のバージョンでは確実にそういった荒さを感じました。つまり、多くの面で完成度が低いということです。
確かに、これらの検証機能やRLを通じて数学やコーディング能力を追加しましたが、ある部分では何かを失ったように感じます。O1も多くの分野でチャットよりも性能が劣っているのは明らかです。大きな差ではありませんが。R1も私には特定の分野ではV3より劣っているように感じました。このRLを通じて多くを表現し学習しましたが、他の分野では弱くなっています。これがこれらのモデルとO1が提供するものとの大きな違いの1つだと思います。
そして、OpenAIはO1 Proを持っており、O3で彼らが行ったユニークなことの1つは、思考の連鎖の上に検索を重ねたことです。思考の連鎖は1つの連鎖で、それは後退したり前後に行き来したりしますが、ARチャレンジを解決した方法は思考の連鎖だけでなく、並列に多数のサンプリングを行い、その中から選択するというものでした。
並列実行は実際に検索なのでしょうか?私たちはO1 Proがどのように機能するかについて完全な情報を持っていないので、それが検索だと確信を持って言うことはできません。それは並列サンプルであり、何かを選択していますが、選択関数が何なのかは分かりません。
私たちが議論しているのは、O1が発表されて以来、モンテカルロ探索と呼ばれる技術に大きな関心が集まっているからです。これは思考の連鎖を中間ステップに分解するというものです。思考の連鎖については定義していませんでしたね。思考の連鎖は数年前の論文から来ています。当時はそれほど使いやすくなかった言語モデルに、「ステップバイステップで確認しましょう」と言うことで、モデルに箇条書きのステップを作らせるというアイデアを導入しました。
思考の連鎖は現在、モデルではほぼデフォルトとなっています。数学の問題を尋ねた時、ステップバイステップで考えるように言う必要はありません。モンテカルロ探索のアイデアは、その連鎖の中間地点を取り、何らかの展開を行い、より多くの計算を費やし、正しいものを選択するというものです。これは、MuZeroやAlphaZeroなどで使用されている非常に複雑な形の探索です。少なくともMuZeroではこれを行っていることは知っています。
別の形の探索は、単に5人の異なる人に尋ねて、多数決を取るというものです。複雑な場合もあれば、シンプルな場合もありますが、私たちには何が行われているのか分かりません。ただ分かっているのは、1つの思考の連鎖を順番に発行しているのではなく、多くを並列に発行しているということです。
ARチャレンジでは、本当に皆を驚かせたベンチマークを打ち破ったものは、1000個を並列に発行し、そして70%か80%、もしかしたら90%の確率で正解を得ることができました。1つだけ発行した場合は30%程度でした。これには多くの拡張があります。
これまでの言語モデルは、1回の応答で最も高い確率で正解を与えるように設計されてきました。今、私たちはモデルの推論を実行する異なる方法への扉を開いており、それは通常、より多くの進歩への扉を開くことになりますが、トレーニングプロセスの多くの部分を再評価する必要があります。
しかし、OpenAIが大きく変更したのか、それとも多肢選択でより多くのサンプリングを行うだけなのか、あるいはトレーニングを変更し、推論モードが異なることを知っているのか、それはわかりません。
私たちが話しているのはO1 Pro、月額200ドルのサービスで、彼らは赤字を出しています。私たちが言及しているこのFTingテストタイムの計算空間の探索は、実際に可能なのでしょうか?それだけの計算能力はあるのでしょうか?財務的に意味があるのでしょうか?
素晴らしいことは、先ほど私が見せた資料にもありますが、GPT-3のコストは急落しています。「コストが制限要因になるのか?」という重要な問題について、私の見方は、AGIを手に入れる前に、素晴らしい知性を手に入れ、それが経済全体に浸透していくだろうということです。
その理由がここにあります。GPT-3は2020年か2021年にトレーニングされ、その推論実行コストは100万トークンあたり60〜70ドルでした。つまり、知性あたりのコストは途方もなく高かったのです。それが2年後の今、同じレベルの知性を得るためのコストは1200分の1に下がっています。
ここでX軸は数年間の時間経過を、Y軸は対数スケールで100万トークンの推論実行コストを示しています。GPT-3から3.5、そしてLlamaまで、対数スケールで直線的な下降を示しています。現在は5セントほどですね、60ドルに対して。これは正確な数字ではありませんが、1200倍という驚異的な知性あたりのコスト削減です。
DeepSeekに対する驚きは「なんと安価にしたのか!」というものですが、実際にこのトレンドラインを見ると、少なくともGPT-3に関しては、彼らはトレンドラインを下回っていません。最初に到達したという点では大きな功績ですが、トレンドラインは下回っていません。
さて、GPT-4ではどうなるでしょうか?これらの推論能力については、アーキテクチャの革新、より良いデータ、より良いトレーニング技術、より良い推論システム、より良いハードウェアなど、GPUの各世代から新世代へ、またはASICへと、すべてがこのコスト曲線を下げ続けていきます。
そうなると、1000個の異なるLLMをスポーンしてタスクを作成し、その中から1つを選ぶことができるようになるのでしょうか?あるいは、どのような探索技術を望むにせよ、モンテカルロツリー探索のように複雑になるかもしれません。あるいは、実際にスケールするには複雑すぎるかもしれません。誰にも分かりません。
進歩の速度があまりにも速いため、これは「もし」ではなく「いつ」の問題だと思います。9ヶ月前、DarioはトレーニングとInferenceのコストはこれくらいだと言っていました。今では、それよりもはるかに良くなっています。DeepSeekもそれよりもはるかに良くなっています。
そして、GPT-4のコスト曲線も、発売時は100万トークンあたり約60ドルでしたが、すでに2ドル程度まで下がっています。GPT-4クラスの品質でもセント単位まで下がるでしょう。そして同じことが、今日私たちが持っているO1のような推論モデルの基盤にも言えます。O1 Proは複数を生成していますし、O3などもそうです。これらの探索技術は今日では高価すぎますが、より安価になっていくでしょう。それが知性を解き放つことになるのです。
どんどん安価になっていく。大きなDeepSeek R1のリリースは、その安さのために誰もを驚かせました。その現れの1つとして、NVIDIAの株価が暴落しました。この状況について説明していただけますか?また、NVIDIAは勝ち続けるのかについても。私たちは両方ともNVIDIA派ですが。
ある意味で市場の反応は理にかなっています。市場の大部分は、NVIDIAの米国における最大の顧客は主要テクノロジー企業で、彼らはAIに多額の投資をしているということです。DeepSeekについての単純な解釈は、多額のAI投資をせずに非常に優れたモデルを手に入れることができるというものです。その意味で、これらの大手テクノロジー企業はAIにそれほど投資する必要がなくなるかもしれないということで株価が下がりました。
実際に起こったことはもっと複雑で、社会的要因があり、App Storeでの上昇や社会的な伝染が起きています。そして、その一部は…私は取引はしませんし、金融市場についても詳しくありませんが、週末にかけて社会的圧力が高まり、週中であれば複数の取引日があってこれが本当に大きくなっていったのに、週末に来てしまい、そして誰もが売りたがる、それが社会的な伝染なのだと思います。
また、多くの誤った説が流れました。「企業はモデルに数十億ドルを費やしている」というものですが、実際にはモデルに数十億ドルは費やしていません。公開されているモデルで10億ドル以上費やしたものは1つもありません。GPT-4は数億ドル程度で、4.0ターボで40でコストを削減しています。
しかし、10億ドル規模のモデル実行は来ます。これには事前トレーニングと事後トレーニングが含まれます。もう1つの数字は、DeepSeekはすべてを含めていないということです。研究にかかるコストの多くは含まれていません。推論にかかるコストの多くも含まれていません。事後トレーニングにかかるコストも含まれていません。研究者の給与もです。これらはすべてOpenAIが費やしている数十億ドルの中に数えられていますが、DeepSeekが費やした600万や500万ドルには含まれていませんでした。
つまり、これらの数字が何を意味するのかについて、少し誤解があるのです。また、NVIDIAの株価はずっと一直線に上がっていたという要素もあります。NVIDIAを下げようとする(NVIDIAの株価を下げようとするとは言いません)多くの異なる説が試みられてきました。誰もが売る理由や心配する理由を探しているのです。
Blackwellの遅延がありました。彼らのGPUについて、2週間ごとに新しいレポートが出て、GPUが遅延しているという報告がありました。また、スケーリング則が終わったという話題全体もありました。とても皮肉なことに、それは1ヶ月しか続きませんでした。文字通り「モデルは良くなっていない、良くなっていないんだ、より多くの事前トレーニングに投資する理由はない、スケーリングは終わった」というものでした。
そして今やO1、O3、R1です。今度は「モデルの進歩が速すぎる、進歩を遅くしろ、GPUへの投資を止めろ」となっています。しかし、これから出てくる最も面白いことは、ジェボンズのパラドックスが真実だということです。クリスマス以降、V3がリリースされてから少し経って、AWSのH100の価格は上がっています。
H200はメモリが多いため、R1はH100よりもそのチップを望んでいるので、H200はほとんどどこでも在庫切れです。今週、デモ用にGPUを急いで手に入れようとしましたが、それほど簡単ではありませんでした。16台か32台のH100を手に入れようとしましたが、非常に困難でした。
ジェボンズのパラドックスをご存知ない方のために説明すると、効率が上がると、なぜか不思議なことに、直感に反して総資源消費量も上がるというものです。半導体産業では、50年にわたるムーアの法則により、2年ごとにコストが半分になり、トランジスタの数が2倍になるという、まさに時計仕掛けのような進歩がありました。確かに減速しましたが、半導体産業は常に成長を続けてきました。
波があるのは明らかですが、AIも違いはないと思います。上がり下がりはありますが、AIではただ信じられないようなタイムスケールで展開されているのです。2年で2倍だったものが、3年で1200倍です。理解するのが難しい改善の規模です。
私は混乱していました。なぜならNVIDIAの株は上がるべきだと思っていたからです。しかし、中国側の不正行為の疑いがあるためか下がったのかもしれません。しかし、ここで働いている実際の原則を純粋に見れば、明らかです。ジェボンズのパラドックスです。AIが進歩すれば進歩するほど、あるいはAI進歩の微分係数が高ければ高いほど、特にNVIDIAにとってはそうです。なぜなら、微分係数が高いほど、市場がより早く大きくなり、拡大していくからです。
そして今、NVIDIAは唯一の信頼できるフルサービスプロバイダーです。なぜなら、NVIDIAの競合他社が現れたわけではなく、歴史的にNVIDIAの大口顧客であった別の企業が出てきただけだからです。
はい、そして彼らには中国最大のNVIDIA顧客であることを喜ぶプレスリリースもありました。明らかに今は静かにしていますが、それも彼らがどれだけのGPUを持っているかを言いたくないからだと思います。なぜなら、彼らはH800を持っており、H200も持っており、H100も何台か持っています。これらは密輸されたものです。
密輸について話していただけますか?国家としてどの程度の規模の密輸が可能なのでしょうか?企業にとってはどうでしょうか?
密輸にはいくつかの側面があると思います。1つは、ByteDanceが間違いなく中国にとって最大のGPU密輸業者だということです。中国はGPUを持つことを許可されていませんが、ByteDanceは50万台以上のGPUを持っています。なぜなら、それらはすべて世界中の企業からレンタルされているからです。OracleからレンタルしAppleからレンタルし、そして他の多くの小規模なクラウド企業からもレンタルしています。世界中のネオクラウド企業からです。
そして、非常に多くのGPUをレンタルし、また多くを購入しています。これは主にMetaが行っていることと同じです。TikTokを提供すること、次に最適なものを提供することです。明確にしておきますが、これは今日の正当な使用です。ドーパミン回路をハックするということですね。
さて、これは理論的には現在、AI拡散規制によって非常に制限されています。これは先週バイデン政権で行われ、トランプ政権も維持する見込みです。これにより、シンガポールのような同盟国でさえも制限されています。シンガポールはNVIDIAの収益の20〜30%を占めていますが、電力が足りないため15年間データセンターの建設を停止していました。
では、彼らはどこに行くのでしょうか?すべてが中国に行くと主張しているわけではありません。一部はそうかもしれませんが、多くはマレーシアに行きます。MicrosoftやOracleもマレーシアに大規模なデータセンターを持っています。東南アジア全体、おそらくインドにも行っているでしょう。いろいろなところにルーティングされています。
しかし、拡散規制は非常に事実上のものです。つまり、この国からこれだけのGPUしか買えない、中国企業にはこの規模のクラスターしかレンタルできないというように、非常に明確に密輸を止めようとしています。その大きな部分は、ランダムな企業が16台のサーバーを購入して中国に出荷するというようなものでした。
実際、半導体産業の人で、NVIDIAと競合するネットワークチップのチームを率いている人から写真を見せてもらいました。サンフランシスコから上海か深センに向かうユナイテッド航空のファーストクラスに、この大きさのスーパーマイクロのボックスを持って搭乗しようとしている人の写真でした。これにはGPUしか入っていないはずです。
ファーストクラスを予約したのは、考えてみてください。ファーストクラスのチケットが3,000〜5,000ドル、サーバーは米国で240,000ドル、250,000ドル、中国で300,000ドルで売れる。ファーストクラスのチケットが無料になり、さらに多くのお金が手に入るということです。これは小規模な密輸です。大規模な密輸のほとんどは、シンガポールやマレーシアの企業がルーティングしたり、完全に合法的にGPUをレンタルしたりすることです。
割り込ませていただきたいのですが、規模はどれくらいになるのでしょうか?より高度な経済的理解を持つ人々の中には、密輸が10億ドルから100億ドルに増えると、ある程度の経済活動を隠すことになると言う人もいます。私にとって最も理にかなっているのは、あるレベルになると、その経済活動があまりにも明白になってしまい、発見されやすくなるということです。
私の考えでは、昨年、NVIDIAはH200を100万台製造しました。これは中国に合法的に出荷できるもので、私たちが話したように、少なくとも推論、特に推論において良いものです。トレーニングではないかもしれませんが、推論には良いです。
また、20万から30万台のGPUが、シンガポール、マレーシア、米国などから中国にルーティングされたと考えられています。企業が16台、64台など購入してルーティングしたものです。Huaweiは2018年頃に禁止された後、必要な材料を手に入れるために大規模な企業ネットワークを立ち上げたことで知られています。そのため、これは突飛な話ではありません。
しかし、Nathanの指摘のように、100億ドル分のGPUを密輸することはできません。そして3つ目のソース、これは今は禁止されていて密輸とは見なされていませんでしたが、中国はレンタルをしています。私たちの調査によると、OracleのGPU最大の顧客はByTeDanceです。Googleでは2番目に大きな顧客です。そして、クラウド企業のリストを見ていくと、特にハイパースケーラーではない小規模なクラウド企業、Coreを超えて、Lambdaさえも、NVIDIA GPUを提供する60の異なる新しいクラウド企業があります。ByteDanceはこれらの多くをレンタルしていると思います。
これらの企業は中国企業にGPUをレンタルしており、それは数週間前の拡散規制まで完全に合法でした。しかし今でも、2,000台未満のGPUクラスターをレンタルすることはできますし、1,500台未満のGPUならどこにでも出荷できます。つまり、まだ密輸の方法はいくつかありますが、数字が大きくなるにつれて…
昨年のNVIDIAの収益は1,000億ドル以上、今年は2,000億ドル以上です。来年はそれが倍近く、あるいはそれ以上に増える可能性があります。米国や世界中で建設されているデータセンターの規模を見ると、中国がこれらの規制に追いつくのは非常に困難になるでしょう。密輸は常にあるでしょう。DeepSeekレベルのモデル、GPT-4レベルのモデル、O1レベルのモデルは、中国が手に入れられるものでトレーニングすることができます。
しかし、数回のジャンプを経て、10億ドルモデル、100億ドルモデルになると、中国にとってモデルのトレーニングとサービス提供に関して、コンピューティング上の不利があることは明らかです。そしてサービス提供の部分が本当に重要です。DeepSeekは現在、彼らのモデルを提供することができません。完全に在庫切れです。
実際、App Storeでのダウンロード数は既に減少し始めています。なぜなら、ダウンロードして登録しようとしても、容量がないため登録を受け付けていないと言われるからです。開いても、リクエストが承認されても、1秒あたり5トークン未満しか得られません。非常に効率的なモデルにもかかわらず、モデルを提供するのに十分なGPUがないからです。
密輸を観察するのは興味深いでしょうね。麻薬の密輸がありますよね。それは市場です。武器の密輸もあります。そしてGPUはある時点でそれを上回るでしょう。キログラムあたりの価値は恐らく圧倒的に高いでしょう。
もう1つ質問があります。国際的なモデルAPIアクセスを追跡していますか?中国企業が米国のホステッドモデルAPIを使用するのはどれくらい簡単なのでしょうか?
それは非常に簡単です。OpenAIは公式に、DeepSeekが彼らのAPIを使用しており、証拠があると述べています。これはトレーニング体制のもう1つの要素です。OpenAIの人々は、これは蒸留モデルだと主張しています。つまり、OpenAIのモデルを使用して多くの出力を生成し、その出力でトレーニングしているということです。
たとえそうだとしても、DeepSeekが効率性の面で行ったことは驚くべきことです。蒸留は業界では標準的な実践です。閉鎖的な研究所で、サービス利用規約やIPを厳密に気にする場合は、自社のモデルから蒸留します。研究者で製品を作っていない場合は、公開されているものから蒸留します。
これは良い機会ですね。蒸留とはどういうプロセスなのか、全体像を説明していただけますか?蒸留とは何で、そのプロセスはどのようなものですか?
言語モデルのトレーニングについてよく話しますが、それらはテキストでトレーニングされ、事後トレーニングではモデルが特徴を一致させたい高品質なテキストでトレーニングしようとします。あるいは、RLを使用している場合は、モデルに独自のものを見つけさせますが、監督付き微調整や選好データの場合、モデルが模倣を学習しようとする完了が必要です。
そこで、現在トレーニングしているモデルやヒューマンデータの代わりに、通常はより強力な異なるモデルからの完了を使用します。これらの大規模なモデル、待ち望まれているGPT-5やClaude 3 Opusなどが、内部でこの蒸留プロセスに使用されているという噂があります。
また、公開の例もあります。Metaは明確に述べていませんが、必ずしも蒸留ではありませんが、Llama 3.2か3.3で70Bの報酬モデルとして405Bを使用したと明確に述べています。これはすべて同じトピックです。
これは倫理的なのでしょうか?合法的なのでしょうか?なぜFinancial Timesの見出しは「OpenAI、中国のDeepSeekが競合モデルのトレーニングに自社モデルを使用した証拠があると述べる」となっているのでしょうか?
少なくとも学術側と研究側では長い歴史があります。なぜなら、OpenAIのルール、OpenAIのサービス利用規約を解釈しようとしているからです。OpenAIのサービス利用規約では、彼らのモデルの出力を使用して競合製品を作ることはできないと述べています。
サービス利用規約は、組織間の本質的な契約であるライセンスとは異なります。OpenAIのアカウントのサービス利用規約を違反した場合、OpenAIは私のアカウントをキャンセルできます。これは、下流の成果物の使用方法を規定するライセンスとは大きく異なります。
その多くは、AI分野で非常に不明確な単語である「競合」という言葉にかかっています。そして倫理的な側面として、なぜインターネット上のテキストでトレーニングできるのに、あなたのモデルでトレーニングすることが非倫理的なのかという疑問があります。
OpenAIと、おそらく多くの企業が許可なくインターネット上のテキストでトレーニングしたという点で、少し偽善的です。また、明確な抜け道もあります。OpenAIからデータを生成し、それをどこかにアップロードし、別の誰かがそれでトレーニングする。そうすれば、同じサービス利用規約契約の下にはないということです。
これが、今日多くのモデルが、OpenAIのデータを全く使用していなくても、モデルに「誰があなたをトレーニングしたのか」と尋ねると「私はOpenAIによってトレーニングされたChatGPTです」と答える理由です。インターネット上にOpenAIの出力のコピーペーストが多すぎて、フィルタリングすることができなかったからです。
そしてRLでは、または事後トレーニングやSFTで、「私は実際にAllen Instituteによるモデルです」などと実装されていませんでした。私たちがデモを提供する場合、研究を行い、OpenAIのAPIを使用します。それは便利で、事後トレーニングを理解したいからです。そして私たちの研究モデルは、私たちが話した「私はTuluです、私はAllen Institute for AIによってトレーニングされた言語モデルです」というシステムプロンプトを入れない限り、OpenAIによって書かれたと言います。
業界の人々、特に事後トレーニングについて尋ねると、モデルに誰であるかを言わせたり、OpenAIの部分を抑制したりするのは非常に実行可能なタスクです。ある意味では、DeepSeekはOpenAIによるものだと言うことを気にしていなかったのかもしれません。モデルの重みをアップロードするつもりなら、アプリケーションで提供する人が、特定のタスクに使用する場合、それに合わせて調整するので、ChatGPTだと言っていても実際には問題ありません。
ああ、そうですね。それを行う方法の1つは、システムプロンプトか何かで、提供する際に自分が誰であるかを示すことです。
はい、それが私たちがやっていることです。デモをホストする場合、「あなたはAllen Institute for AIによってトレーニングされた言語モデルTulu 3です」と言います。また、素晴らしい研究ツールなので、OpenAIのデータからも恩恵を受けています。
OpenAIの主張、つまり中国のDeepSeekが競合モデルのトレーニングに自社モデルを使用した証拠があるという主張に、何か真実や価値があると思いますか?
データがインターネット上にあるため、誰もが恩恵を受けていると思います。そのため、それは事前トレーニングに含まれています。ChatGPTの最高の出力を共有するサブレディットがあり、それらは…
私は彼らがナラティブをコントロールしようとしていると思います。彼らは自分たちを守ろうとしています。これは何年も前から見られました。ByteDanceが実際に出力のトレーニングのためにOpenAIのAPIからバンされた時です。他のAIスタートアップの多くは、AIカルチャーに詳しい人々の多くが「彼らは私たちにOpenAIの出力でトレーニングしたと言っただけなのに、バンされなかった」と言っていたように、それは初期のモデルをブートストラップする方法でした。
ヒューマンパイプラインを設定し、強力なモデルを構築するよりも、これを使用する方が簡単です。ここには長い歴史があり、多くのコミュニケーションはナラティブのコントロールのように見えます。
実際、ここ数日で、多くの人々がDeepSeekのモデルをLlamaモデルに蒸留しているのを見ました。なぜなら、DeepSeekのモデルは専門家の混合体で600億以上のパラメータがあるため、推論を実行するのが少し複雑だからです。人々はそれらをLlamaモデルに蒸留しました。なぜなら、Llamaモデルは提供が非常に簡単で、誰もが推論のためのパイプラインとツールを構築しているからです。それがオープンスタンダードだからです。
私たちは一種の回り道を見てきました。それは悪いことなのか、違法なのか、たぶん違法かもしれません。私はそれについては分かりません。しかし、契約違反になる可能性はありますが、法的な意味で違法だとは思いません。誰もこれで刑務所に行くことはないでしょう。
私は基本的にそれは倫理的だと思います。あるいはそうであることを願っています。なぜなら、そのような種類のことを禁止する瞬間、それは誰もがはるかに悪い状況になってしまうからです。また、インターネットでトレーニングすることは許可されるべきだと実際に思います。多くの作家やクリエイターがそれについて非常に敏感であることは知っています。それは難しい問題です。しかし、インターネットでのトレーニングが許可されない瞬間…
同意します。これをどのように解決できるかについて、分裂した考えを持っています。なぜなら、それは既に機能しているからです。
合理的な考えを持っています。
そうですね。日本には法律があり、モデルのトレーニングのためならどのようなトレーニングデータでも使用でき、著作権は適用されません。また、日本には9ギガワットの抑制された原子力発電所があり、さらにAI拡散規制の下でも望むだけのGPUを輸入することが許可されています。
私たちがすべきことは、巨大なデータセンターを建設し、それを研究所にレンタルし、そこで法的に許可された方法でモデルをトレーニングすることです。そうすれば、もし、あんどまたはバッツもなく、New York Timesなどからの潜在的な著作権訴訟もありません。完全に合法で、そう、そうです…
初期の著作権訴訟はAIトレーニングに有利な結果となっています。長期的な使用は、AIの側に傾くと言えるでしょう。つまり、何兆ものデータをスクレイプし、何兆ものトークンのデータを見る場合、この1つのNew York Timesの記事が私にとってとても重要だと見ているわけではありません。
しかし、音楽用の音声生成や画像生成を行い、「Xアーティストのスタイルで作成してください」と言う場合、それは推論での利益率が何になるのかを把握できる合理的なケースです。YouTubeクリエイタープログラムの50/50になるかどうかは分かりませんが、作家として私はそのようなプログラムに参加したいと思います。それは困難な道のりになるでしょうが、そのような解決策は理にかなっているでしょう。しかし、インターネット上にある大量のデータについては、それはそのままです。
Financial Timesの記事のもう1つの側面は…そしてそれはより一般的な質問につながりますが、実際の秘密のコードやデータの盗難、企業内部からのスパイ活動や窃盗は、どの程度困難だと思いますか?それはどの程度試みられているのでしょうか?
コードやデータは難しいですが、アイデアは簡単です。シリコンバレーは、トップ従業員が給与の上昇を伴って他の企業に買収されるという方法で運営されています。これらの企業がこれを行う大きな理由は、アイデアを持ち込むためです。
カリフォルニアには、特定の競業避止条項などが違法とされるルールがありますが、NDAなどがあるにもかかわらず、多くのことがそのように進んでいます。最近では、Geminiの100万コンテキスト長を実現した人が、次のLlamaを作ることになるMetaチームに加わったという話があり、世界はそのように動いているのです。
産業スパイ活動などに関しては、過去に大きな成功を収めています。アメリカ人がイギリス人に対して行い、中国人がアメリカ人に対して行ってきました。それは人生の事実なのです。
そのため、産業スパイ活動を止めることができると主張するのは、おそらく無理でしょう。困難にすることはできますが、それでも…F-35やF-22の設計図が既に中国に渡っているという話もあります。
企業間、国家間ではないですが、コードなどは非常に困難でしょう。しかしアイデアは多く議論されています。サンフランシスコのハウスパーティーや、企業を変える従業員、あるいは常に話題になるハニーポットの神話などを通じてです。
AIに取り組んでいる人々の多くが20代、30代の独身男性であるため(全員ではありませんが、信じられないほどの割合で)、常にこれらのような…そしてもちろん、ハニーポットとは、女性スパイがあなたにアプローチするということです。
はい、あるいは男性かもしれません。サンフランシスコですからね。しかし、20代後半の独身男性として言えば、私たちは非常に簡単に堕落させられます。私自身ではありませんが、私たちは…他の誰もが…私は除いてですが。
私はあまりにも鈍感で、独身でもないので、スパイ活動からは安全です。
Dylan、各主要AIカンパニーのメガクラスターについて多くの情報を収集していますね。各社の注目すべき構築について話していただけますか?
これらのメガクラスター構築について本当に重要なのは、その規模が前例のないものだということです。米国のデータセンターの電力消費は徐々に増加し、クラウドコンピューティング革命を経て23%にまで上昇しましたが、これは数十年かけての話です。データセンターの消費は米国全体の2〜3%を占め、ゆっくりと上昇してきました。
しかし今、この10年の終わりまでに…2028年から2030年までに、従来の非AI、従来のデータセンターの人々は10%というと「それは狂っている」と言いますが、AnthropicやOpenAIのようなAIに詳しい人々は「それでは足りない」と言います。
これは米国全体に分散されているものと、集中化されたクラスターの両方を通じてです。米国全体への分散は興奮する話題で、その大部分を占めています。例えば、OpenAIやMetaが1ギガワットを追加するというようなことです。しかし、その大部分は推論やその他のことのために米国全体に分散されています。
おそらく、クラスターとは何かを説明すべきでしょう。これにはAWSも含まれるのでしょうか?クラスターの異なる種類と、メガクラスターとは何を意味するのか、GPUとは何か、コンピュータとは何かについて話すのが良いでしょう。そこまで遡る必要はありませんが…
では、クラスターとは何を意味するのでしょうか?Appleの広告のように「コンピュータとは何か」と言おうとしましたね。
従来、データセンターとデータセンターのタスクは、非常に広く分散できる分散システムの問題でした。つまり、私がGoogleにリクエストを送ると、それは私の近くのデータセンターにルーティングされ、検索ランキングや推薦など何かを行い、結果を返します。
タスクの性質は急速に変化しています。現在、人々が本当に焦点を当てているタスクは2つあります。データベースアクセスでも、正しいページを提供することでも、正しい広告を提供することでもありません。今は推論です。そして推論は従来の分散システムとは劇的に異なりますが、より単純に見えます。
そして、トレーニングがあります。トレーニングと推論の側面は、まだ「数千のGPUをこれらのデータセンターの周りのブロックに配置し、それらでモデルを実行しよう」というものです。ユーザーがリクエストを送信するか、私のサービスにリクエストを送信します。彼らはWordを使用していて、「ああ、はい、助けてください、Co-pilot」と言い、それが開始されます。私はWindows Co-pilotを使用しています。何であれ、Apple Intelligenceであれ、それがデータセンターに送られます。
そのデータセンターは何らかの作業を行い、それを返します。それが推論です。これがコンピューティングの大部分を占めることになります。私たちは衛星やその他の方法で追跡している何千ものデータセンターがあり、それらが建設されているものの大部分です。
しかし、最大のクラスターの規模も同様に重要です。歴史を振り返ると、あるいはAIの時代を通じて、AlexNetを2台か4台のGPUで実行したことは大きな出来事でした。正確な数は覚えていませんが、GPUを使用したことが大きな出来事でした。そして複数使用したことも大きな出来事でした。
しかし時間とともに、規模は単に複合的に増加してきました。GPT-3からGPT-4に飛ぶと、GPT-4は20,000台のA100 GPUという前例のない実行でした。規模とコストの面で、数億ドルを一発勝負で投じ、それは魔法のような改善をもたらしました。実験したものと完全に一致し、対数スケールで完璧でした。
論文からその図がありますね。スケーリング則は完璧でした。しかし、それはそれほど驚くべき数字ではありません。20,000台のA100、各GPUは400ワットを消費し、サーバー全体を含めると、すべてを合わせて15〜20メガワットの電力です。人間一人の消費電力を調べることができると思います。なぜなら、これからの数字は馬鹿げたものになるからです。
しかし、その15〜20メガワットは標準的なデータセンターの規模でした。ただし、1つのタスクを実行するGPUだけというのは前例のないことでした。トースターは…トースターはA100と同じような消費電力です。H100が登場し、電力を400から700ワットに増加させました。これはGPUだけの話で、それに関連するすべてのものを含めると、ネットワーク、CPU、メモリなど、すべてを合わせて roughly 1,200から1,400ワットになります。
また言うべきことがありますね。必要なものとして、電力が必要だと言いました。多くの熱が発生するので冷却が必要です。そしてGPUやCPUなど、多くのものを接続する必要があるため、多くのネットワークが必要です。
はい、そうですね。申し訳ありません、それを飛ばしてしまいました。データセンター自体も複雑ですが、これらはまだGPT-4スケールでは標準化されたデータセンターです。
では、昨年人々が構築したクラスターの規模に進みましょう。それは広く異なります。これらは標準的なデータセンターで、複数のデータセンターを使用し、それらの間に大量の光ファイバーを使用して接続しているというものから、OpenAIとMicrosoftがアリゾナで行ったようなものまでです。彼らは10万台のGPUを持っています。
Metaも同様で、既存の標準的なデータセンター設計を使用し、それはHの形をしており、複数のものを接続しました。彼らは最初16,000台のGPUを、合計24,000台のGPUを持っていましたが、トレーニング実行には16,000台しか使用していませんでした。なぜならGPUは非常に信頼性が低いため、交換用のスペアが必要だからです。
現在は100,000台のGPUでLlama 4のトレーニングを行っています。約128,000台ですね。100,000台のGPUを考えてみてください。それぞれ約1,400ワットとすると、それは140メガワット、128台で150メガワットになります。
つまり、2022年から2024年の2年間で、15メガワットから、その数の約10倍、9倍の150メガワットにジャンプしたということです。そして、イーロンのような人々は、彼自身が認めているように、そして彼自身が言うように、大規模言語モデルの事前トレーニングには少し遅れて参入しました。xAIは後から始まりました。
しかし彼は天地を動かして、データセンターを立ち上げ、世界最大のクラスターを手に入れました。20万台のGPUです。彼はメンフィスの工場を買収し、同時に変電所をアップグレードし、多くの移動式発電機、多くの単一サイクル複合発電を持ち、工場のすぐ隣にある天然ガスラインを利用し、大量のガスを引き出してガスを燃やしています。
彼は古い家電工場、長ago前に閉鎖され中国に移転した工場で、20万台のGPUを設置しています。そして次のスケールは何でしょうか?すべてのハイパースケーラーがこれを行っています。次のスケールはさらに大きなものです。
イーロンに話題を戻すと、彼は自身の天然ガス発電所、適切なものを隣に建設しています。電力を安定させるために多くのTeslaのメガパックバッテリーを導入し、チップを水冷却するための産業用チラーで水を冷やすなど、あらゆることを行っています。
クラスターをより大きくするために、これらすべての驚くべきことを行っています。しかし、OpenAIがアリゾナのStargateで行ったこと、テキサス州アビリーンで行ったこと、少なくとも発表されたことを見ると…まだ建設されていません。イーロンは彼らにはお金がないと言っています。これについては議論がありますが…
フルスケールでは、少なくとも最初のセクションは間違いなく資金が確保されていますが、複数のセクションがあります。フルスケールでそのデータセンターは2.2ギガワット、つまり2,200メガワットの電力入力を持ち、チップに供給される電力は約1.8ギガワット、つまり1,800メガワットになります。これは途方もない規模です。2.2ギガワットは多くの都市よりも大きな電力です。そしてそれが、トレーニングを行うために接続された単一のクラスターに供給されるのです。
事前トレーニング、事後トレーニング、これらすべてのためです。これは狂気の沙汰です。そして誰もがこれを行っています。メタはルイジアナで2つの巨大な天然ガス発電所を建設し、その巨大なデータセンターを建設しています。
アマゾンはこの規模の計画を持っています。グーグルもこの規模の計画を持っています。xAIもこの規模の計画を持っています。競争している企業は皆、激しく競争しており、複数ギガワットのデータセンターを建設しています。
なぜなら、彼らは事前トレーニングのスケーリングが続くと考えているからです。ある程度は続きますが、その後、RLサンドボックスやコンピュータ使用など、これらすべての事後トレーニングがあります。あるいは、自己対戦など、何であれ、それは学習を続け、AIをはるかに有能にします。
なぜなら、線は上昇し続けるからです。より多くの計算を投入すれば、より高いパフォーマンスが得られます。スケーリング則についてのシャツがありますが、ある程度は収穫逓減です。計算量を10倍にしても、モデルは10倍良くなるわけではありません。収穫逓減があります。
しかし、効率の改善もあり、曲線を曲げることができます。これらの規模のデータセンターはネットワークに大きな影響を与えています。

ネイサンが言及していたように、Amazonは原子力発電所のTalonの買収を試みており、Talonの株価は急上昇しています。そこには数ギガワット規模の巨大なデータセンターを建設しようとしています。リストを見ていくと、様々な影響が出ています。
興味深いのは、アメリカの特定の地域では、実際の発電コストよりも送電コストの方が高くなっているということです。これは送電網の整備が遅れており、電力需要と発電能力の拡大に追いついていないためです。例えばバージニア州では、発電コストよりも送電コストの方が高くなっています。これは様々な二次的な影響をもたらしています。
送電網はこのような成長を支えられるのでしょうか。トランプ大統領の行政命令がありましたが、その前にバイデン大統領の行政命令も年末にありました。トランプ氏の行政命令は規制緩和につながり、インフラ整備が進むことが期待されます。しかし、十分な電力を迅速に確保することは大きな課題です。データセンターごとに原子力発電所を併設することになるのでしょうか。
面白いのは、発電所の建設や既存の発電所の再構成には時間がかかりすぎるということです。そのため、データセンターの電力消費は一定ではありません。長期的には原子力発電が適していますが、短期的には太陽光発電などは使えません。データセンターの電力消費は急激に変動するからです。
数百億ドル規模のGPUを購入しても、電力が確保できないからといってアイドル状態にしておくわけにはいきません。電力コストはクラスターの総コストの20%未満で、大部分はGPUの資本コストと減価償却費です。そのため、天然ガス発電所を建設することになります。Metaはルイジアナでこれを行っており、OpenAIもテキサスで同様の取り組みを行っています。
直接的ではないかもしれませんが、彼らは誰かとパートナーシップを組んでいます。期待できる点がいくつかあります。イーロン・マスクがメンフィスで行っているのは極端な例です。高効率なデュアルサイクルガスを使用するだけでなく、効率の劣るシングルサイクルやモバイル発電機も使用しています。
一方で、太陽光発電や風力発電は異なる相関を持っています。これらを組み合わせて大容量のバッテリーを追加し、少量のガス発電も併用すれば、よりグリーンな運用が可能です。ただし、そのための時間軸は長くなります。人々は努力していますが、Metaは基本的に持続可能性に関する誓約を無視して、PPAと呼ばれる電力購入契約を結んでいます。
これは巨大な風力発電所や太陽光発電所がどこかにあり、そこで発電された電力があたかもデータセンターで消費されているように見せかけるものです。実際には、ある場所で電力を購入してグリッドに売り、別の場所で電力を購入しているのです。
また、Microsoftも持続可能性に関する誓約の一部を放棄しました。イーロン・マスクがメンフィスで行っていることは、客観的にはある程度汚いものですが、すぐ近くにはより大きな天然ガス発電所や下水処理場、ごみ処理場があります。彼は一つのデータセンターで環境に与える影響以上に、世界をクリーンにしてきたと言えます。
ある程度は許容できると思います。最終的にはAGI(汎用人工知能)が地球温暖化などの問題を解決するかもしれません。これは研究所の人々の態度でもあります。レースが重要だからガスを使用するということです。負けた場合の方がはるかに悪いと考えているのです。
メンフィスのデータセンターを訪問する機会がありました。イーロン・マスクと一緒にチームを訪問しましたが、そこでのイノベーションの速度は驚異的です。この規模のものは誰も作ったことがなく、特にxAIがこの速度で行っているのは前例がありません。彼らはボトルネックが何かを見極め、それを取り除き、すべてが確実に機能するようにしています。
データセンターを構築する上で本当にクールな点がたくさんあります。すべてが機能しなければなりません。システム管理者や機械学習に関わる人々も重要ですが、実際に全体を動かしているのは、低レベルのソフトウェアやハードウェア、ネットワークを担当する人々です。
すべてをテストする手順を確立する必要があります。イーサネットを使用していると思いますが、具体的にはNVIDIA Spectrum Xイーサネットを使用しています。実は冷却システムや電気系統が意外な功労者です。これらはあまり注目されませんが、とても重要です。
この状況がいかに異常かを示す一例を挙げましょう。トレーニング時には、最も単純な言い方をすれば、モデルを何度も実行し、すべてを交換して重みを同期させます。これは「ステップ」と呼ばれます。各ステップでは損失が減少することが期待されます。必ずしもそうならないこともありますが。
単純に言えば、多くの計算を行い、その後で交換を行います。面白いのは、GPU電力が大部分を占め、ネットワーク電力も一部ありますが、それほど多くはありません。計算中はGPUの電力消費が高くなります。
通信と計算を完全に重ねることができない場合、GPUがアイドル状態になり、重みを交換するだけの時間があるかもしれません。モデルが更新中なので、勾配を交換してモデルを更新し、その後再びトレーニングを開始します。そうすると電力消費は急激に変動します。
データセンターの電力規模を考えると、簡単に問題が起きかねません。実際、Metaは偶然にもコードをPyTorchにアップストリームしました。誰かがオペレータを追加したのですが、その人を抱きしめたいくらいです。
PyTorchの「PowerPlant.no_blowup」というパラメータが0か1を取ります。これは素晴らしい機能です。重みを交換する際に、GPUは偽の数値を計算して電力の急激な変動を抑えます。そうすることで発電所が爆発するのを防ぐのです。過渡的なスパイクは問題を引き起こすからです。
それは理にかなっています。そのような対策が必要で、アイドル状態を避けなければなりません。イーロン・マスクの解決策は、Tesla Megapackなどを大量に投入することでした。それぞれが異なる解決策を持っていますが、Metaの方法は公に知られており、このオペレータを設定するだけでGPUに無意味な計算をさせて電力の急激な変動を防ぐというものです。
これは扱っている電力の規模を物語っています。人々はワット、キロワット、メガワットなどの電力の単位をGoogleで検索して、ギガワットがどれほど大きな単位なのかを理解すべきです。それは驚くべきものです。
冷却について話しましょう。イーロン・マスクはすべての場合で液冷を使用していると思います。これは新しい取り組みですよね。ほとんどの場合は空冷を使用していません。冷却について興味深い点はありますか?
はい、空冷が標準でした。ヒートパイプなどの金属とファンを使用して、それで十分な冷却ができていました。水冷への取り組みもありました。GoogleのTPUは水冷です。数年前からそうしています。しかしGPUについては、イーロン・マスクが行ったような規模の水冷は誰も行ったことがありませんでした。
次世代のNVIDIAは、最上位のGPUで水冷を必須としていますが、イーロン・マスクは現行世代で既に実施しました。これには多くの工夫が必要でした。メンフィス施設の衛星写真を見ると、外部に水冷却装置が設置されています。コンテナのような見た目ですが、実際には水冷却装置です。90個もの水冷却装置がただ外に置かれています。
これらの装置は水を冷やし、データセンターに戻して、すべてのチップに分配し、熱を取り除いて戻すという作業を行っています。これはチップを冷やす方法であると同時に、効率性の向上にも寄与します。
先ほどの3つのベクトルに戻ると、メモリ帯域幅、FLOPS、インターコネクトがあります。チップ同士を近づけるほど、高速なインターコネクトを実現しやすくなります。これも水冷を採用する理由の一つです。チップを互いに近接させることで、より高速な接続が可能になります。
最近の投稿で「クラスター測定コンテスト」というセクションがありましたね。誰が最大のクラスターを持っていて、これからどうなるのでしょうか?
現在、個別の最大規模はイーロン・マスクです。メンフィスのクラスターには20万個のGPUがあります。Metaは12.8万個、OpenAIは10万個です。ただし、他の企業もイーロン・マスク以上のGPUを持っていますが、一箇所にまとめられていません。
トレーニングには密な接続が必要です。複数の地域にまたがってトレーニングを行う研究や取り組みもありますが、基本的には一箇所にまとめたいものです。高速なネットワークで接続できるからです。
現在、イーロン・マスクは20万個のH100を持っています。Meta、OpenAI、Amazonはいずれも10万個程度、若干それ以下です。しかし今年は、もっと大規模な構築が行われています。
AnthropicとAmazonは40万個のTrainium 2(Amazonの独自チップ)のクラスターを構築中です。NVIDIAから離れようとしているのです。MetaとOpenAIも数十万単位の規模を計画しています。来年には50万から70万個のGPUクラスターが出現するでしょう。
これらのGPUは既存のものよりも消費電力が大幅に高くなります。Hopperは700ワット、Blackwellは1200ワットです。チップあたりの消費電力とチップの数の両方が増加しているのです。
イーロン・マスクは100万個に到達すると言っていますが、それは実現可能だと思いますか?
イーロン・マスクを疑うことはありません。電力計画やTeslaのバッテリーパックに関する申請を見ると、メンフィスに関して何か途方もない計画があることは明らかです。許可申請などは公開記録として存在します。ただし、具体的な内容やタイムスケールは明確ではありません。彼は私たちを驚かせてくれるでしょう。
これらのクラスターのアイデアについて、100万個のGPUがあった場合、2-3年後には何パーセントが事前学習に使用され、何パーセントが推論に使用されるのでしょうか?
これらのメガクラスターは推論には意味がありません。推論のために使用することもできますが、トレーニングを行わない場合です。推論能力の大部分は、30メガワット、50メガワット、100メガワットといった規模のデータセンターに分散されています。
メガクラスター、つまり数ギガワット規模のデータセンターでトレーニングを行いたいのは、すべてのGPUが高速なネットワークで接続された状態で配置できるからです。それがトレーニングに必要だからです。
事前学習に関しては、これは古いスケール感です。パラメータを増やし、データを増やせばモデルは改善されるというものでした。しかし、これはもう当てはまりません。事前学習側にそれほど多くのデータが残されていないからです。
確かに、ビデオ、音声、画像はまだ十分に活用されていません。そこにはまだスケールの余地がありますが、多くの人々はYouTube動画の書き起こしを持っています。これでデータの多くは取得できますが、ビデオや画像データから得られるすべての学習価値が得られるわけではありません。事前学習にはまだスケールの余地がありますが、事後学習の世界こそが、すべてのFLOPSが費やされる場所になるでしょう。
モデルは自己対戦を行い、検証可能なタスクを実行し、サンドボックス環境でコンピュータを使用し、シミュレーションによるロボット工学などを行うかもしれません。これらはすべて、「事後学習」と呼ばれる環境で計算能力が使用される場所です。
いずれ「事後」という言葉は取り除かれ、「事前学習」と「学習」だけになると思います。というのも、ここ数年間、事前学習は事後学習を圧倒していましたが、これらの検証可能な方法、特にコンピュータ使用やロボット工学のように無限にスケールする可能性のあるもの、単なる数学やコーディング以外のもので、検証可能なタスクでは、望むだけ計算能力を費やすことができるようです。
特にコンテキスト長が増加すると、これらのモデルの事前学習は終わりに近づきます。会話の前半で話したように、長い入力のコンテキスト長は出力よりも管理が容易で、多くの事後学習や推論技術は大量のサンプリングに依存しています。長いコンテキストになりつつあるので、効率的に計算能力を使用することが難しくなっています。
RLでは、事前学習や生成とは異なる方法で重みを移動させる必要があり、FLOPSは有用な指標ではなくなってきています。インフラが改善されれば、おそらく再びFLOPSが重要になるでしょう。
私たちが話してきたことのほとんどは、おそらくNVIDIAに関係するものです。競合はいるのでしょうか?GoogleのTPUはどうでしょうか?TPUの状況を教えてください。
TPUは素晴らしいものです。優れています。Googleはデータセンターの建設にやや慎重な姿勢を見せています。大規模なデータセンターを建設していないわけではありませんが、実際には最大のクラスターを持っています。私はNVIDIAのクラスターについて話していましたが、全体では彼らが最大です。
彼らのやり方は非常に興味深いものです。2つの「スーパーリージョン」のようなデータセンターを持っています。すべてのGPU(実際にはTPU)が物理的に1つのサイトにあるわけではありませんが、30マイル程度の距離に位置しています。アイオワ州とネブラスカ州には、互いに隣接する4つのデータセンターがあります。
なぜGoogleは自社のクラスターサイズを誇示しないのでしょうか?なぜマルチデータセンターでのトレーニングに向かわないのでしょうか?ここに画像があります。マルチデータセンターの分析をお見せしましょう。これは標準的なGoogleのデータセンターの様子です。他のデータセンターとは全く異なる外観をしています。
ここで見ているものは何でしょうか?この画像の中央には大きな長方形のボックスがあり、そこに実際のチップが保管されています。さらに下にスクロールすると、水道管や冷却塔、そしてたくさんのディーゼル発電機が見えます。ディーゼル発電機はバックアップ電源です。
データセンター自体は、水冷却装置よりも物理的に小さいのです。チップを一緒に保管することは比較的容易ですが、水冷のための水を冷やすのは非常に難しい作業です。Googleは他にはないような高度なインフラを持っています。
彼らはこれらのデータセンターをいくつかの地域に展開しています。さらに下に進むと、これはMicrosoftのもので、アリゾナにあります。ここでGPT-5が訓練される予定です。もし既に存在していないのであれば。
これらのデータセンターは、同じ地域に非常に近接して配置されています。ネブラスカ、アイオワ、そしてオハイオにも同様のものがあります。これらのデータセンターは互いに非常に近く、光ファイバーで超高帯域幅の接続を実現しています。これらは単なるデータセンターの集まりです。ここでポイントとなるのは、Googleが非常に高度なインフラを持っており、小さな地域内で密接に接続されているということです。
イーロン・マスクは常に、完全に接続された最大のクラスターを持とうとしています。それは1つの建物の中にあるため、彼は完全に正しいのです。Googleは最大のクラスターを持っていますが、かなりの差があり、複数のサイトにまたがっています。
なぜGoogleはNVIDIAと競合しないのでしょうか?なぜTPUを販売しないのでしょうか?いくつかの問題があると思います。一つは、TPUが検索を非常に安価にし、そのためのモデルを構築することを可能にしているということです。
Googleの購入や使用の大部分は、内部のワークロードのためです。検索であれ、現在のGeminiであれ、YouTubeであれ、広告であれ、これらすべての異なるアプリケーションにTPUが使用されています。そこに彼らは非常に焦点を当てています。
アーキテクチャのある側面は、他の場所ではなく、彼らのユースケースに最適化されています。一つの簡単な例は、彼らがGemmaモデルをオープンソース化し、Gemma 7Bと呼んでいることです。しかし実際には80億パラメータあります。これは語彙が非常に大きいためです。
語彙をこれほど大きくした理由は、TPUの行列乗算ユニットが巨大で、それに最適化されているからです。そのため、小さなモデルでは意味がないにもかかわらず、語彙を大きくすることにしたのです。これは彼らのハードウェアに適合するためです。そのため、GemmaはGPU上でLlamaほど効率的に動作しません。逆に、LlamaはTPU上でGemmaほど効率的に動作しません。
ハードウェア、ソフトウェア、コード設計には特定の側面があります。彼らの検索モデル、ランキングや推薦モデル、生成AIではないがAIであるこれらすべての異なるモデルは、TPUで長年にわたって高度に最適化されてきました。ソフトウェアスタックも高度に最適化されていますが、このソフトウェアスタックは全く公開されていません。
JAX、XLAなど、非常に小さな部分だけが公開されています。Google内部の研究者としてTPUでトレーニングを行う場合、多くの場合、ハードウェアについて何も知る必要がありません。それはかなり美しいものですが、外部に出ると、多くの人々は戻っていきます。彼らはGoogleを去り、戻るのです。
そうですね。彼らはGoogleを去って会社を立ち上げます。素晴らしい研究のアイデアを持っているからです。しかし、インフラは難しく、ソフトウェアも難しいということに気づきます。これはGPUでも、TPUを使おうとしても同じです。すべてのコードにアクセスできないからです。
検索で数千億ドルを稼いでいる企業に、GPUやTPUの販売を始めるよう説得するのは難しいです。2023年には数十億ドル程度しか購入していませんでしたが、現在は100億から150億ドル相当を購入しています。しかし、どうやって彼らに、2倍の量を購入して300億ドルを稼ぐ方法を見つけるよう説得できるでしょうか?300億ドルを稼ぐことなど、誰が気にするでしょうか?
その300億ドルは、最終的に検索の利益を超えることになるのではないでしょうか?
サービスからの収益の方が常に多くなります。今日、人々はサービスよりもハードウェアに多くの支出をしています。これはハードウェアがサービスの支出を先取りしているからです。AIに十分な収益がない、または収益が不足している場合、明らかにそれは破綻します。
人々は永遠にGPUに支出し続けることはないでしょう。NVIDIAは販売やライセンス供与しようとするソフトウェアでスタックを上に移動しようとしています。しかしGoogleには、これを製品として販売すべきだというDNAがありません。
Google Cloudはそれを行っていますが、これはTPUチームとは別の組織であり、DeepMindチームとも別の組織で、検索チームとも別の組織です。多くの官僚主義があります。Google CloudはTPUチームとは別なのですか?
技術的には、TPUはインフラの下にあり、そしてGoogle Cloudの下にありますが、レンタル用のGoogle Cloudと、TPUアーキテクチャでは、ハードウェアにおいて非常に異なる目標を持っています。
ソフトウェアについても同様です。JAX、XLAチームは、Googleの外部顧客にサービスを提供していません。一方、NVIDIAのCUDAチームは、Nickelのような外部顧客にサービスを提供しています。JAX、XLAなどの内部チームは、主にDeepMindと検索にサービスを提供しています。つまり、顧客が異なるのです。彼らは製品を作っているわけではありません。
AWSがクラウドでAzureやGoogle Cloudに比べて常に勝利している理由がわかりますか?Google Cloudは小規模ではないですか?
Google Cloudは第3位です。Microsoftが第2位で、Amazonが最大です。MicrosoftはMicrosoft Office 365やエンタープライズ全体のライセンスなども含めているので、実際の差は更に大きいのです。ただし、Microsoftは依然として2位です。Amazonははるかに大きいですが、なぜでしょう?
AWSの方が優れていて、使いやすく、多くの場合は安価だからです。そして最初に市場に参入したからです。
しかし、最初に参入したものの多くは…
使いやすいですし、AWSからの移行は難しいです。移行には大きなコストがかかります。AWSはAmazonの利益の80%以上、おそらく90%以上を生み出しています。
それは驚くべきことです。配送センターは、いつか利益を出すことにするでしょうが、まだその時は来ていません。わずかな利益しか出ていません。
Amazon Primeの料金は3倍になると思いますが、AWSのインターフェースを改善すると思いますか?非常に扱いづらいものですが、誰もが…そうですね、そう思いますが。
実際、Googleのインターフェースは時々良いのですが、彼らは最大の顧客以外は気にしていませんし、カスタマーサービスも悪いです。これらの企業はすべて大口顧客のために最適化しています。
しかし、Amazonは常に小規模な顧客のためにも最適化してきました。明らかに大口顧客のために多くを最適化していますが、開始時には単にベイエリアのランダムな場所に行ってクレジットを配布したり、クレジットカードを入れて使ってもらうようにしていました。初期の頃からそうでした。
ビジネスは彼らと共に成長してきました。なぜAmazonでSnowflakeが大きな存在なのでしょうか?それは、AmazonがSnowflakeを気にしていなかった初期の段階でも、Snowflakeは既にAmazonを使用していたからです。そして当然、いつの日かSnowflakeとAmazonは非常に大きなパートナーシップを結ぶことになりました。
Amazonのユーザー体験と品質は優れています。また、彼らが設計したシリコンの多くにより、従来のクラウドストレージ、CPU、ネットワークなどにおいて、より低いコスト構造を実現しています。
データベースについて言えば、Amazonのトップ5の収益製品のうち4つは、RedShiftなどのデータベース関連製品です。そのため、AmazonはAWSで優れたシリコンからユーザー体験まで、完全なパイプラインを持っています。
Googleは内部的には素晴らしいシリコンチームを持っています。TPU、YouTubeチップ、その他のチップを作っていますが、問題は外部顧客ではなく内部顧客にサービスを提供していることです。
NVIDIAの文化は、最初から徹底的にこのために設計されています。最近のTakimによる「The NVIDIA Way」という本でこれが詳しく説明されています。彼らは将来の機会を探し、新しい高性能コンピューティングがCUDAとNVIDIAチップで急速に発展できるようにCUDAソフトウェアライブラリを準備しています。これはGoogleのサービス事業とは全く異なります。
NVIDIAは本当に特別な企業だと言わなければなりません。文化も含めて、すべてがそのように最適化されています。
そういえば、ハードウェアの面でNVIDIAに挑戦できる企業はありますか?Intel、AMDは?
本当にそうは思えません。私たちはAMDのGPUでトレーニングを行う長いプロセスを経験しましたが、彼らのハードウェアは多くの面でNVIDIAより優れています。問題は、ソフトウェアが本当に悪いことです。
彼らは改善しています。より速く改善していますが、ギャップがあまりにも大きいのです。十分なリソースを投入していない、あるいは歴史的に投入してこなかったのです。今は方針を変えているかもしれませんが、数ヶ月の間、私たちSemi Analysisが最も多くのバグを報告していました。
なぜ私たちが最も多くのバグを報告しているのでしょうか?彼らは最大の顧客だけを気にかけ、プライベートイメージを送っていました。でも、私はただPyTorchを使用し、公開されているライブラリを使用したいだけなのに、彼らはそれを気にしていませんでした。
彼らは改善していますが、AMDは不可能だと思います。Intelは明らかに今、危機的状況にあり、何らかの形で救済が必要です。これはアメリカの国家安全保障にとって非常に重要です。
なぜIntelが危機的状況にあるのか説明できますか?以前話したように、R&Dができるのは3社だけです。台湾のTSMC、韓国のSamsung、そしてIntelのHillsboroです。
Samsungは苦戦しており、Intelも苦戦しています。R&Dができる企業が1社だけになる可能性があります。その1社は既にほとんどのチップを製造しており、市場シェアを拡大し続けています。これは重要な問題です。
台湾で何が起こるかは、世界の半導体産業、ひいてはテクノロジーに影響を与えます。これは明らかに不安定な状況です。
Intelに関しては、彼らは徐々に衰退してきました。サーバーとPCの分野でトップに立っていましたが、今やAppleがM1を投入し、NVIDIAがPCチップをリリースし、QualcommもPCチップをリリースしています。サーバーでは、ハイパースケーラーがすべて独自のArmベースのサーバーチップを作っています。
IntelにはAIシリコンの勝利がありません。わずかな勝利はありますが、モバイル市場に参入しなかったのは、iPhoneを拒否したためです。これらすべてが重なり、プロセス技術のリーダーシップも失いました。20年間リードしていましたが、今では少なくとも数年遅れています。
18A、14Aの戦略でTSMCを追い抜こうとしていますが、その成否は分かりません。Intelは多額の損失を出しており、CEOを解雇しましたが、そのCEOは会社を本当に理解していた唯一の人物でした。彼は最高ではありませんでしたが、比較的技術的な人物として良かったと思います。
Intelの主な収入源はどこにありますか?
依然としてPCとデータセンターのCPUです。しかし、データセンターのCPUはすべてクラウドに移行しており、Amazon、Microsoft、GoogleはArmベースのCPUを作っています。
PC側ではAMDがシェアを獲得し、NVIDIAもチップを発売しますが、成功はしないでしょう。MediaTek、Qualcommもチップを発売し、Appleは好調です。Windows側では主にIntelのままだと思いますが、PCでも圧迫される可能性があります。
広範なAIレースについて話しましょう。誰が勝つと思いますか?Googleがインフラの優位性から、デフォルトのリーダーでした。
ニュースではOpenAIがリーダーです。彼らは最高のモデルを持ち、人々が使用できる最高のモデルを持っており、最大のAI収益を上げています。OpenAIが勝っています。
では、現在AIで利益を上げているのは誰でしょうか?誰か利益を出しているのでしょうか?
会計上の利益では、Microsoftは利益を出していますが、多くの設備投資を行っており、これは何年にもわたって減価償却されます。Metaは推薦システムで大きな利益を上げていますが、これはAIではありますが、Llamaではありません。Llamaは確実に損失を出しています。
AnthropicとOpenAIが明らかに利益を出していないのは、資金調達を行う必要があるからです。より多くを構築するために資金を調達する必要があります。
理論的には、彼らは利益を出しています。GPT-4に数億ドルを費やし、数十億ドルの収益を上げています。明らかに利益を出していますが、計算効率の向上を得るために研究を続ける必要があります。
GPT-3で達成された1200倍の効率化に向けて曲線を下げていく必要があります。現在はGPT-4 TurboとGPT-4では数百倍程度かもしれませんが、おそらく将来的にはGPT-4よりもさらに安価なものが出てくるでしょう。その研究には多くの費用がかかります。
そうですね、それがモデルのコストについてあまり話題に上らない点です。モデルのコストは、トレーニングやテスト実行だけでなく、実際の研究、つまり推論のような機能を開発するための人的資源も含まれています。
それが今存在しているので、それをスケールアップし、さらに多くの研究を行うでしょう。投資回収の問題に焦点が当てられますが、GDPは人間と産業資本で構成されているので、知能を安価にできれば大きな成長が可能だという単純な説明が投資のテーゼとなっています。
実際に大きな利益を上げているのはNVIDIAと他のハードウェアベンダーだけです。ハイパースケーラーは表面上は利益を上げていますが、実際にはGPUの購入に多くを費やしており、2年後も各GPUでこれほどの利益を上げ続けられるかどうかは分かりません。
突然OpenAIが破綻し、Microsoftが自社投資で支払った何十万台ものGPUが、OpenAIという顧客を失うという可能性も常にあります。私はそうは思いませんが、OpenAIは資金調達を続け、他社も資金調達を続けるでしょう。なぜなら、AGIを手に入れれば、最終的に巨大なリターンが得られるからです。
複数の企業がAGIを手に入れると思いますか?勝者総取りではないと思います。
AGIと呼ばずに、超強力なAIとしましょう。それは徐々に増加する機能のセットで、急速に増加する機能のセットです。
多くの企業が巨大なデータセンターを建設しているのは不合理に見えますが、AIから恩恵を受ける企業は、必ずしも最高のモデルを訓練することで利益を得るわけではありません。
Metaには多くの恩恵を受ける道があります。人々はMetaのプラットフォームに時間を費やしており、それはユーザーあたり、時間あたりの収益を増やす方法となります。
Google、xAI、Tesla、そしてMetaは、直接的なAI、つまりLLMからではなく、インテリジェンスから恩恵を受けるでしょう。既存の製品へのインテリジェンスの追加的なブーストからです。
推薦システムであったり、イーロン・マスクが話しているOptimus(ロボット)の場合は、ロボットのインテリジェンス、そして最終的には家庭内でのパーソナライズされたロボットなどです。彼は10兆ドル以上のビジネスになると考えています。いつかはそうなるかもしれませんが、すぐではありません。
TAM(総取引可能市場)分析をしてみましょう。80億人の人間がいて、80億台のロボットを作るとします。平均的な給与を支払うとすると…そうですね、10兆ドル以上になりますね。
もし至る所にロボットがいるなら、なぜ80億台だけに限定する必要があるのでしょうか?そうですね、私は1台のロボットを持つかもしれませんが、あなたは20台持つかもしれません。はい、そのユースケースは理解できます。
つまり、利益は製品販売にあるでしょう。だからこそOpenAIは難しい立場にあります。現在のOpenAIの価値のすべてはブランドとしてのChatGPTにあります。
ほとんどのユーザーにとって、OpenAIが次の最高のモデルに数十億ドルを費やす必要性はそれほどありません。Llama 5をライセンス供与する方が遥かに安価だからです。ChatGPTは彼らにとって非常に価値のある存在ですが、チャットアプリケーションだけでは明らかに成長の余地が限られています。
標準的なチャット、つまりランダムな質問に使用するだけのチャットには、明らかに大きな成長の余地がありません。コストは引き続き下落し、GPT-3が最新の最大のものですが、広告によって支えられることになるでしょう。
ご存じの通り、MetaのLlamaは既に400-500億パラメータのモデルを提供しており、おそらく損失を出していますが、いずれモデルが非常に安価になり、広告付きで無料で提供できるようになります。これはGoogleができることであり、彼らはより大きなリーチを持っています。
チャットは唯一のユースケースではありません。これらの推論、コード、エージェント、コンピュータ使用、すべてがOpenAIが将来的に利益を上げるために進まなければならない分野です。そうでなければ破綻します。
しかし、Google、Metaには他の製品があります。最終的にOpenAIとAnthropicは消滅するのではないでしょうか?モデルが非常に優れていない限り…
非常に厳しい状況です。AIの能力がどこまで向上するかによります。勝ち続けなければなりません。AIの能力が急速に素晴らしい方向に向かっているとしても、データの面でX、Googleの面で、Metaの面で、他の製品や資金の面でブーストがあります。巨額の資金があるのです。
人間のデータはほぼ使い尽くされており、自己対戦や検証可能な…AWSは個々のマシンではそれほど利益を上げていませんが、最も強力なAIプラットフォームも同様です。APIコールは非常に安価ですが、そのプラットフォームを所有することで多くの利益を上げることができます。
トークンとトークノミクス、LLM APIが次のコンピューティング層になる、あるいはエネルギーや石油のように経済の次のパラダイムになるという議論が多くあります。
しかし、APIやチャットがAIの行き詰まりではないと信じる必要もあります。実際にはタスク、エージェント、ロボティクス、コンピュータ使用が、価値が提供される分野であり、APIやチャットアプリケーションではありません。
すべてが商品化され、Perplexityのような非常に薄いラッパー…冗談ですが、多くのラッパーが大金を稼いでいます。
しかし、モデルの進歩が急速でない場合、人々はOpenAIやAnthropicのことを忘れてしまい、APIの周りにラッパーが動的に…
そうですね、それは商品化しています。Claude 3がそれを示していますし、先ほどのGPT-3のグラフもそれを示していました。Llama 3Bは、GPT-3よりも1200倍安価です。GPT-3レベルの機能に基づくビジネスモデルは死んでいます。GPT-4レベルの機能に基づくビジネスモデルも死んでいます。
現在最高のビジネスは、モデルが改善されることを前提としたものだと言われています。これはラッパーのように、モデルの波に乗るようなものです。
短期的に最も多くの利益を上げられる企業は、言語モデルの生成における広告ターゲティング手法を見つけ出した企業でしょう。Metaの広告は、特定のコンテンツ内ではなく、フィード内で超ターゲット化されています。GoogleとAmazonは検索広告を使用しており、Amazonの検索広告は大きく増加しています。
しかしChatGPTの出力の中で、高品質な広告をどのように配置するかは明確ではありません。モデルのコストが下がる中で、そこで超高収益を上げることができれば、その収益は完全に未開拓です。技術的にどのように実現するかは明確ではありません。
これは、Googleが行ったAdSenseのイノベーションのようなものです。いつかGPT出力に広告が含まれ、それが数十億ドルを生み出すでしょう。それは非常に微妙なものになる可能性があります。
今は音声モードがありますが、会話の中で音声が特定のものを紹介する方法かもしれません。測定は難しく、想像力が必要ですが、それほど露骨ではない方法で、公衆の反発を受けないようにする必要があります。明確に広告であることを示しながら、そのバランスを取る必要があります。
これは、Anthropicと OpenAIが解決しようとしている公開の課題です。彼らはそれについて全く気にしていないかもしれません。現時点では気にしていません。Perplexityのような企業がそれを実験しています。
そうですね、確かにPerplexity、Google、Metaはこれを気にしています。OpenAIとAnthropicは純粋にAGIにレーザーフォーカスしています。エージェントとAGIです。AGIを構築できれば大金を稼げる、あるいはすべてを支払えるという考えです。
これは輸出管理の問題に戻りますが、AGIが5-10年以内、あるいはそれ以下で実現すると考えるなら…これらの研究所は2-3年で実現すると考えています。彼らが合理的な行動者であるという前提で、2年後のAGIと5年後、10年後では、取るべき行動は大きく異なります。
エージェントは有望だと思いますか?今年の興奮の的で、エージェントが全てを革新するという一般的なハイプ用語として多くのビジネス関係者が使用しています。
明らかにエージェントという用語は誇張されています。検証可能な結果のための強化学習について多く話してきました。エージェントは、オープンエンドで独立してタスクを解決し、不確実性に適応できるものを意味するべきです。
Apple Intelligenceのような、アプリ間のオーケストレーションを行うようなツール使用は、言語モデルが得意とする分野です。Apple Intelligenceは最終のWWDC以降まだ実現していませんが、いずれ実現するでしょう。これは閉じた領域で、AIがバックグラウンドでメッセージアプリと写真を統合するようなものです。
これは多くのソフトウェア企業によってエージェントとして説明されてきました。問題は、言語モデルが新しい領域に一般化し、リアルタイムで問題を解決する方法です。その過程で微細なトレーニングを自己実行したり、プロンプト内に情報を保存して学習アルゴリズムで更新する文脈学習を使用したりします。
これが、「2日後にオースチンに行くための旅行を予約して。こういう制約があります」と言って、実際にそれを信頼できるところまで一般化するかどうかは…情報に関してHCI(ヒューマン・コンピュータ・インタラクション)の問題があります。
この点についてあなたの予測はどうですか?私の直感では、それはまだかなり遠い将来のことだと思います。
OpenAIの5レベルの声明を見たことがありますか?チャットがレベル1、推論がレベル2、そしてエージェントがレベル3で、さらに2つのレベルがあります。チャットの段階に数年いて、理論的に推論に到達し、ここに1-2年いることになります。その後エージェントですが、同時に人々は次のレベルの機能を近似しようとすることができます。
エージェントは自律的に数分から数時間にわたってタスクを実行します。推論は数十秒のタスクを実行し、私がまだ検証して使用する必要のある出力を返します。
最大の問題は、製造業におけるシックスシグマのようなものです。どれだけの9があるか、そしてそれらの9を互いに掛け合わせると、シックスシグマのステップ数を掛けることで、歩留まりのようなものになります。
半導体製造では数万のステップがあり、99.99999%では十分ではありません。それだけの回数を掛けると、実際には60%の歩留まりになってしまいます。非常に低い歩留まりですね。あるいはゼロになることもあります。
これはエージェントでも同じです。タスクを連鎖させる際、最高のLLMでも特に良好なベンチマークで100%を達成することはありません。ノイズがあるため、少し下回ります。
どうやって十分な9を得るのでしょうか?これは自動運転と同じ問題です。Googleのように超ジオフェンスされていない限り、自動運転はできません。そしてその場合でも、スタックしないように多くのテレオペレーターが必要です。
道路にはルールがあり、よく定義され、規制もある自動運転でさえそうです。オープンウェブやオープンなオペレーティングシステムでのコンピュータ使用について話すとき、それは混沌としています。
人間の世界を解決するのに十分なインテリジェンスを得られない場合、何年もかけてWeoのような人間のオペレーターのインフラを作ることで、特定のワークフローを可能にすることができます。
エージェントが失敗した時に人間のオペレーターになることを売りにしている会社があります。APIコールで、面白いですね。人間型ロボットを手に入れたとき、テレオペレーション市場ができるでしょう。私が食洗機の片付けに不満を感じたとき、世界中の誰かがそれを修正してくれることでしょう。それはTeslaのサービスパッケージの一部になるでしょう。
AIエージェントが他のAIエージェントと話をする様子を想像しています。ある企業が他のAIエージェントを支援することに特化したAIエージェントを持っています。しかし、一つのステップで優れたものを作ることができれば、それらを積み重ねることができます。
長い時間がかかるなら、それを可能にするインフラを構築することになります。Operatorのローンチを見てください。彼らはDoorDash、OpenTable、その他のウェブサイトとパートナーシップを結んでいます。そのパートナーシップによって、彼らは急速に成長できるでしょう。
彼らのモデルはそれらの分野で非常に優れたものになり、それが実証となり、より多くの企業がAIを容易にしたいというネットワーク効果が生まれるかもしれません。一部の企業は障壁を設けるでしょう。これはインターネットの歴史で見てきたことです。
言語モデルのトレーニングデータについても同様で、企業は「支払いが必要だ」と言います。ビジネスはそれを解決していきます。ただし、航空会社やホテルは自社サイトを本当に使いやすくする強いインセンティブを持っているにもかかわらず、通常はそうなっていません。
飛行機のチケットを注文するのに必要なクリック数は驚くべきものです。実際にはアメリカン航空の担当者に電話することもできません。電話番号がないのです。多くの面でインターフェースは恐ろしいもので、人間である私がウェブサイトで苦労しているのに、AIエージェントがそれを扱えると想像するのは…飛行機のチケットを予約しようとするたびに実存的な危機に陥ります。
堅牢なAIエージェントを構築するのは非常に困難だと思います。しかし、考えてみてください。UnitedはStarlinkの条件を受け入れ、Starlinkを無料で提供しなければならず、ユーザーはそれを気に入るでしょう。
ある航空会社が1年かけてウェブサイトを完璧にAI対応にし、誰かがAIで航空便を検索するたびに、その航空会社を選ぶようになったらどうでしょうか。あるいは、AIエージェントにのみ公開されるAPIを提供し、価格を10%上乗せするけれども、すべてのフライトを見ることができ、予約できるようにするとしたら?
エージェントにとってはそれで問題ありません。価格が10%高くても素晴らしい。「CXへの航空便を予約して」と言うだけで…
コンピュータと現実世界、オープンな世界は本当に複雑です。しかし、問題を狭い領域で定義し始めると、人々は非常に生産的なものを作ることができ、コストを大幅に削減することができます。
家庭でのロボット工学のような途方もないことは、自動運転と同様に、はるかに難しいでしょう。単に失敗モードが10億通りあるからです。しかし、特定のウェブサイトを操作し、特定のタスクを実行するエージェント、あるいは冷蔵庫の写真を撮ってもらう、レシピをアップロードしてAmazon Fresh食品配達から何を注文するかを判断するようなことは、かなり早く簡単にできるようになるでしょう。
ビジネスの成果は様々で、楽観的な見方が多くなるでしょう。人々はただお金を稼ぐ方法を見つけることができます。これらのサンドボックスは研究においてすでに存在することを明確にしておく必要があります。
人々は最も人気のあるウェブサイト、Google、Amazonなどのクローンを構築し、これらのものを訓練できるようにしています。OpenAIはおそらく内部的にそれらを持っています。DeepMindのロボティクスチームは何年もの間、ロボットと完全にリモートで対話できるクラスターを持っています。
ロンドンにラボがあり、そこにタスクを送信し、ブロックを並べ替えて研究を行います。明らかにそれを修正するテキストがありますが、私たちはこれまでに自動化のこのようなクランクを回してきました。サンドボックスから進歩へ、そして一度に1つのドメインを追加して一般化していきます。
NLPと言語処理の歴史において、命令チューニングとタスクごとの言語モデルは、1つの言語モデルが1つのタスクを行うようなものでした。命令チューニングの文献には、より多くのタスクを追加していく点があり、それがすべてのタスクに一般化し始めます。
私たちはこの曲線上のどこにいるのか分かりません。推論とこのRLと検証可能なドメインについては、非常に初期段階にいると思いますが、十分なドメインで訓練を始めると、突然より多くのドメインが機能し始め、一般化の障壁を越える点がどこにあるのかは分かりません。
プログラミングのコンテキストについてはどう思いますか?ソフトウェアエンジニアリングは、私個人や多くの人々がAIと最も関わる分野です。現在のCS学生からも多くの恐れや不安がありますが、それはおそらくAIの収益性と生産性の向上が最も大きい分野でもあります。

Co-pilotやCursor、あるいは標準的なChatGPTなど、実際にChatGPTを使用していないプログラマーはほとんど知りません。多くの人が$200のティアを利用しているのは、それだけ優れているからです。
この世界では、すでにそれが見えています。スタンフォードの学生が作ったベンチマークのs-benchについて見たことがあると思いますが、それは本当に難しいとは言えませんが、簡単とも言えません。少なくとも数年のCSか、数年のプログラミング経験がないとs-benchをうまくこなすことはできないと思います。モデルは1年で4%から60%に上がりました。来年はどこまで行くでしょうか。100%にはならないでしょう。やはり9が並ぶのは本当に難しいですから。
しかし、ある時点に達すると、より難しいソフトウェアエンジニアリングのベンチマークが必要になってきます。現在の人々の考え方は、コードの補完は簡単にできる、関数の生成もできてレビューが必要、といった程度です。しかし、本当のソフトウェアエンジニアリングエージェントは、他のどのエージェントよりも早く実現できると思います。なぜなら検証可能なドメインだからです。
常にユニットテストやコンパイルができます。そして、コードベース全体を一度に検査できるという異なる領域がたくさんあります。これは実際にはエンジニアにはできません。アーキテクトや本当にシニアな人たちだけがこういったことを考えることができ、物事を定義できます。そしてエージェントがそれを実行できます。
だからソフトウェアエンジニアリングのコストは劇的に下がると思います。そして興味深い点は、ソフトウェアエンジニアリングのコストが本当に低くなると、まったく異なる市場が生まれることです。アメリカにはSalesforceなどのプラットフォームSaaS企業がたくさんありますが、中国ではプラットフォームSaaSを使用している人はほとんどいません。皆が独自のスタックを構築しています。
なぜなら中国ではソフトウェアエンジニアリングがはるかに安価だからです。部分的には、STEM卒業生の数などが理由です。そのため一般的により安価に実施できます。同時に、コードLLMは中国ではあまり採用されていません。エンジニアのコストがはるかに低いからです。
しかし、すべての企業が本当に安価かつ迅速に独自のビジネスロジックを発明できるようになったらどうなるでしょうか。プラットフォームSaaSの使用をやめ、カスタムメイドのソリューションを構築し始め、それらを本当に素早く変更し始めます。そうすると突然、ビジネスはより効率的になる可能性があります。ランダムなプラットフォームSaaS企業のものが完璧に機能しないことに対処したり、ワークフローを調整したり、必ずしもAIが必要ない単なるロジックを構築する必要があるランダムなビジネス自動化のケースに対処する必要がないからです。
これらのことはすべて素早く起こり得ます。ソフトウェアと産業用化学・機械エンジニアは、一般的にコーディングが苦手です。半導体エンジニアのツールは20年前のものです。ASMLのリソグラフィーツールを含め、すべてのツールがWindows XPで動作しています。そして多くの分析がExcelで行われています。
皆さん、持っているすべてのデータを使って20年先に進むことができます。ずっと良くなることができます。ただし、実際のドメインエキスパートにソフトウェアエンジニアリングスキルを提供する必要があります。だから、これは一般的にAIが価値を生み出す分野として、私が超々楽観的な領域だと思います。
大きな絵として、それは崖のようにはならないと思います。成長がどのように変化するかの本当に良い例は、MetaがStoriesを追加したときです。Snapchatは指数関数的に成長していましたが、Storiesを追加すると平坦化しました。ソフトウェアエンジニアは右上がりです。AIが入ってくると、おそらくただ平坦になるでしょう。誰もが仕事を失うというわけではありません。供給が遅れて修正されるので難しいです。学生の数はまだ増え続けており、それは1年の遅れで修正されますが、仕事の数は単に転換するでしょう。
そして20-40年後には大幅に減少するかもしれませんが、数年間はソフトウェアエンジニアが役に立たないというスナップのような瞬間は決してないでしょう。また、プログラマーとは何を意味するのか、プログラマーがどのような仕事をするのかという性質も変化すると思います。
あなたが話したすべてのことには、ループ内に人間が必要だと思います。コードを修正したり、コンテキストの長さよりも大きなものを修正したり、デバッグしたりするなど、非常に重要な人間がいます。コードを読んで理解し、システムを操作する、「いいえ、いいえ、要点を見逃しています」とプロンプトに追加するなどです。
人間がGoogleのボタンを完璧にデザインする、Googleは完璧なボタンを持つことで有名ですが、AIがそれをどうやって行うのでしょうか。彼らはすべてのアイデアを提供できます。それは完璧です。つまり、人間には1つのことができます。それは他の人間が何を楽しむかをAIシステムよりも理解することです。
そこに好みがあり、それを読み込むのですが、究極的には人間が最大の好みのジェネレーターです。好みはそこから生まれ、人間は実際に2つのものを読んだり、比較したりすることが非常に得意です。これはRLとジェフと好みのチューニングの核心に戻ります。多くの問題に対して良い答えを生成するのは難しいですが、どちらが良いかを見るのは簡単です。
そして今、私たちはAIに人間をそのように使っています。どちらが良いかを判断することです。そしてそれがソフトウェアエンジニアリングがどのようになるかもしれません。PRレビューで、いくつかのオプションがあり、潜在的な長所と短所があり、それらを判断することになります。
私が非常にお勧めするのは、プログラマーがAIを使い始め、AIシステムのスーパーバイザーとしての役割を受け入れること、そしてAIシステムのパートナーとしての役割を受け入れることです。ゼロから書くのではなく、コーディングを全く学ばずに単に生成することもありません。
実際、ますます知的なシステムを管理できるようにするには、プログラマーとしてかなり高いレベルの専門知識が必要だと思います。それと、何かのドメインエキスパートになることです。本当に、航空宇宙や半導体、化学工学を見てみると、誰もが本当に粗末なプラットフォーム、本当に古いソフトウェアを使用しています。
多くの場合、データサイエンティストの仕事は冗談のようなものです。実際のケースもありますが、人間の能力の最前線をあなたのドメインにもたらすことです。最前線がAIからのものであっても、あなたは最前線にいるのです。何かの最前線にいなければならず、他のすべてのことのために上昇する潮流であるAIを活用するのです。
ああ、そうですね。法的システムでは、ソフトウェアが物事を自動化したり、デジタル化したりするのに役立つ低いところにぶら下がっている果実がたくさんあります。だからDogeが興奮するのです。Dogeの人々と一緒に過ごさなければならず、政府は本当に旧式です。ソフトウェアの近代化、データの整理、そういったことを切実に必要としています。
その場合、権力の中心を保護する官僚制によって設計されているので、それらの障壁を破壊するソフトウェアは、権力を握っている人々を傷つけますが、最終的には人類に利益をもたらします。そのような領域がたくさんあります。
私たちが完全に話し終えていないことの1つはオープンソースです。まず、新しいモデルをリリースしたことをお祝いします。このTuluについて説明しましょう。Tuluはドロマデールとバクトリアラクダを交配したときのハイブリッドラクダです。ChatGPTの初期の後、AlpacaやAAなど、様々な哺乳類の種にちなんで名付けられたモデルの大きな波がありました。
Tuluブランドは複数年前からのもので、そこから来ています。私たちはオープンソースコードでポストトレーニングの最前線で遊んでいます。このリリースの最初の部分は秋でした。Llamaのオープンモデルやオープンウェイトモデルをベースにし、完全にオープンなコードや完全にオープンなデータを追加しました。
ChatbotArenaという人気のベンチマークがあり、これが一般的にこれらのチャットモデルを評価する基準となっています。人間が異なる組織からランダムなモデルを比較します。11月か12月のリーダーボードを見ると、10から20の組織からのトップ60モデルの中で、ポストトレーニングのためのオープンコードやデータを持つものは1つもありませんでした。その中でも、プレトレーニングのデータとコードが利用可能なものはさらに少ないか、全くありません。
しかし、ポストトレーニングはこの時点でずっとアクセスしやすく、まだかなり安価で、できます。そして、人々がすべてのコードとデータにアクセスできる場合、この数字をどこまで押し上げることができるのか、それが私たちのプロジェクトのモチベーションです。
私たちはLlamaから教訓を得ています。NVIDIAはNeoTronモデルを持っていて、そのポストトレーニングのレシピはいくつかのデータと論文でかなりオープンでした。これらすべてを組み合わせて、人々が自分のドメインにGPT-4のようなモデルを微調整できるレシピを作ろうとしています。
明確にするために、Tuluの場合、Almoについても話せますが、Tuluの場合、Llama 3 45bを取っています。Tuluは何年もかけて複数のモデルにわたるポストトレーニングのレシピのシリーズでした。そしてあなたはすべてをオープンソース化していますね。
オープンウェイトベースのモデルから始めると、Llamaが何を入れたのかわからないので、技術的にはモデル全体はオープンソースではありません。だから私たちは別のものを持っていますが、それは人々がズームインしてカスタマイズできるパイプラインの一部を手に入れることです。
スタートアップや企業から、このポストトレーニングを取って自分のドメインに適用しようとしているという話を聞きます。私たちは検証器についてよく話します。これは検証可能なドメイン報酬のある強化学習、RLVRというアイデアを使用しています。RLHFに似ていて、私たちはそれを数学に適用しました。今日のモデルは、昨年のLlama 405bベースモデルに適用したものです。
私たちは命令チューニングと選好チューニングを持っていますが、数学の部分が興味深いです。より大きなモデルでこのRLトレーニングで強力な能力を引き出すのが簡単だということです。数学のベンチマークがあり、ベンチマークの名前はMATH(すべて大文字)です。名前は難しいですね。私たちは研究者であってブランド戦略家ではありません。
これはDeepSeekの論文でも話されていたことですが、このより大きなモデルでは、このRLトレーニングで強力な能力を引き出し、それを大きなモデルから小さなモデルに蒸留することが簡単です。今日リリースしたこのモデルでも同じことを見ました。AI2では大量の計算リソースがないので、405bモデルを常にトレーニングすることはできません。しかし、いくつかの実行を行うと、それらは機能する傾向があり、人々がこれらのことで遊べる余地がたくさんあることを示しています。
そして彼らはLlamaの実際のリリースを圧倒的に上回りました。私たちのVal数値は、彼らがリリースしたLlama Instructモデルよりもずっと良いです。DeepSeek V3よりも良いとも言いましたね。私たちのValベンチマークでは、DeepSeek V3は非常に似ていますが、有害なことを言うかどうかを理解するための安全性ベンチマークがあり、それが大部分を引き下げています。
それは複数のベンチマークの集まりですか?そうですね、これはポストトレーニングの標準的な実践です。学術界や小規模な研究室では評価の数は少なく、企業では本当に気にする1つのドメインがあり、フロンティアの研究室では10から20、あるいは100の評価があるかもしれません。私たちはチャット、正確な指示の遵守(絵文字だけで応答するなど、モデルが変な指示に従うかどうか)、数学、コードなど、代表的な一連の評価を選びます。
このように10の評価のうちの1つとして安全性があり、より広いAIコミュニティが気にすることを見ています。例えばDeepSeekとの比較では、安全性を含めた私たちのモデルのVal平均は80%程度で、安全性を除いても同様です。DeepSeekは安全性を除いて79%程度で、彼らの安全性スコアがそれを引き下げることになります。
安全性を無視しても彼らを上回っているのですね。内部的には、Valベンチマークの形成の仕方だけで勝ちたくないので、人々がモデルの安全性を気にしないかもしれない何かがあれば、安全性は下流で来ることができます。APIでモデルをホストするときに安全性を考慮することができます。安全性はアプリケーションのスペクトルの中で対処されます。
最高のレシピを持っていると言いたいなら、一部の人々が望まないかもしれないこれらのことでそれを制限することはできません。これは進歩の時期であり、私たちは後でモデルをリリースできることから恩恵を受けています。このRL技術のような新しいテクニックを学ぶ時間があります。秋に始めたこれが今では本当に人気のある推論モデルになっています。
オープンソースのポストトレーニングのために次にすべきことは、検証器をスケールアップし、データをスケールアップし、DeepSeekの結果を再現することです。論文があるのは素晴らしく、それがずっと簡単になります。これは学術界と閉鎖的なフロンティアAI研究の間で起こっていることの種類です。
あなたはオープンソースを推進していますが、将来についてどう思いますか?DeepSeekは実際にオープンソースやオープンウェイトであることで物事を変えると思いますか?それともオープンソースの動きをオープンな方向に押し進めているのでしょうか?
これはライセンスの議論に非常に関係します。フレンドリーなライセンスを持つDeepSeek R1は大きなリセットです。これは、商業的にフレンドリーなライセンスを持ち、下流のユースケース、合成データ、蒸留などに制限のない、本当に明確なフロンティアモデルを持った最初の機会です。これは、ChatGPT以降のAIの歴史の中で前例のないことです。
フロンティアから外れたモデルや、本当に使用できない奇妙なライセンスを持つモデルはありました。Metaのライセンスは5社を除いてほとんど許可されているのではないですか?また、これはオープンソースAIとは何かという問題にも関係します。Llamaライセンスには特定の用途に使用できないという制限もあります。
それらはどのようなものですか?現時点では完全には覚えていませんが、競合他社…以前は軍事利用が1つでしたが、スケールのために削除しました。児童虐待材料のような…そういった種類のものが禁止されています。しかしそれだけでも、オープンソースの背景からすると、オープンソースライセンスではないと言えます。
また、Llamaライセンスには、モデルに触れた場合はモデルをLlamaと名付けなければならないという恐ろしい規定があります。つまり、ブランディングの観点から、会社がLlamaを使用する場合、技術的にはライセンスではアプリケーションの下部に「Llamaで構築」と表示する必要があります。これはマーケティングの観点から本当に痛手です。
研究者として私はそれを受け入れることができます。私たちのこのリリースのすべての資料にLlama-と書かれているのは良いですが、だからこそ本当にオープンなモデルが必要なのです。私たちはDeepSeek R1のデータを知りませんが、あなたは中国のモデルの安価なコピーを作って自分のものだと装うことはできないと言っているのですが、そうすることはできますよ、そうですね。それが私が言っていることです。
そして、だからこそ私たちはこのオープン言語モデル、Theoのことを、データを含むすべてが開示されているモデルを可能な限りフロンティアに近づけようとしているのです。私たちは計算力に制約があり、人員に制約があり、John Schulmanが出力にRLを適用するように教えてくれるような人々からの洞察に依存しています。私たちは大きなジャンプを作ることができますが、オープンソースのフロンティアを押し進めるには時間がかかります。
基本的に、それはオープンソースAIがオープンソースソフトウェアと同じフィードバックループを持っていないからだと私は言うでしょう。セキュリティのためのオープンソースソフトウェアについて話しましたが、それは一度構築して再利用できるからです。新しい会社に入っても多くの利点があります。しかし、言語モデルをオープンソース化しても、このデータが周りにあり、このトレーニングコードがありますが、誰かが来て改善するのはそれほど簡単ではありません。
多くの計算力を費やす必要があり、専門知識が必要だからです。オープンソースAIのフィードバックループができるまでは、主にMark Zuckerbergのような人々のイデオロギー的なミッションのように見えます。アメリカにはこれが必要だと。私も彼に同意します。
しかしイデオロギー的なモチベーションが高い時期に、言語モデルデータを見ることからどのような利点が得られるのか、そのエコシステムを構築する必要があります。そしてそれについてはあまり多くのことがありません。私たちは近々デモを立ち上げようとしています。そこではAOモデルとクエリを見て、それに似た事前トレーニングデータを見ることができます。これは法的にリスクがあり複雑でしたが、AIがトレーニングされたデータを見るとはどういう意味なのでしょうか。
解析するのは難しく、テラバイトのファイルがあり、そこで何を見つけるかはわかりません。しかし、オープンソースAIを財政的に有用にしたい人々のためには、エコシステムとしてそれをする必要があります。
Stargateについてはあまり話していませんでした。新政権、トランプ政権、AIインフラストラクチャーをサポートするために行われているすべてのこと、そして異なるAI企業の取り組みについてのあなたの意見を聞かせていただければと思います。Stargateについてはどう考えればよいのでしょうか?そしてSamにはお金はありますか?
私はStargateは不透明なものだと思います。5000億ドルはありませんし、1000億ドルさえもありません。彼らが発表したのは5000億ドルという数字で、Larry Ellison、Sam Altman、そしてトランプがそう言いました。彼らはトランプに感謝し、トランプは実際にいくつかの行政命令を出し、これをより速く構築できるようになりました。
行政命令の1つは、連邦の土地でデータセンターと電力をほぼ自由に構築できるというものです。そして許可プロセスは基本的になくなっているか、後から申請すればよいのです。また、以前私は変な意見を言いましたが、もう1つ変な意見があります。サンフランシスコのプレシディオに行ったことがあれば、美しい地域ですが、そこに発電所とデータセンターを建設することもできます。連邦の土地だからです。以前は軍事基地でした。もちろん、これは人々を怒らせるでしょうね。
とにかく、トランプはこれをずっと簡単にしました。一般的に、テキサスは国内で唯一の非規制のグリッドを持っています。テキサスに行きましょう。そしてそれゆえ、OTは人々がより速く建設することを可能にします。加えて、連邦規制も緩和されています。
そしてStargateは、そしてこれが全てのショーが今起こった理由ですが、5000億ドルという数字をどのように考え出したのかは私には理解できません。1000億ドルという数字は、ある程度理解できます。Stargateの記事に実際に良い表があります。最近のものですが、コストについての表です。
この表は何が起こっているのかを説明しています。Stargateはテキサス州アビリーンにあり、最初の1000億ドルの部分は、そのサイトは2.2GWの電力と約1.8GWattの消費電力を持っています。GPUあたりですが、Oracleはすでに、Stargateが生まれる前から最初の部分を1年間建設していました。実際、彼らはイーロンにそれを貸そうとしましたが、イーロンは遅すぎると言って、メンフィスのことを進めました。
そしてOpenAIは、Stargateと呼ばれる奇妙な合弁事業でそれを手に入れることができました。彼らは最初、このクラスターの最初のセクションについて、Oracleとだけ契約を締結しました。このクラスターの最初のセクションは、およそ50-60億ドルのサーバー支出です。そしてさらに10億ドルほどのデータセンター支出があります。
そして同様に、NVIDIAチップの次の2世代、GB200、GB300、VR200で1.8GWsすべてを埋めると、サーバーコストだけでおよそ500億ドルになります。そこにデータセンターコスト、メンテナンスコスト、運用コスト、そしてすべてのものを加えると、それがOpenAIが発表した1000億ドルの発表につながります。
なぜなら、彼らはフェーズ1として1000億ドルについて話しました。これはこのアビリーンテキサスのデータセンターです。引用符で「総所有コスト」1000億ドルです。つまり、これはCAPEXではなく、投資でもなく、1000億ドルの総所有コストです。そして将来のフェーズがあります。彼らはこの2.2GWよりもさらに大きなサイトをテキサスやその他の場所で検討しています。
だから彼らは完全にそれを無視しているわけではありません。しかしフェーズ1について彼らが言う1000億ドルという数字はあると思います。彼らはそのためのお金さえ持っていません。さらに、それは1000億ドルではなく、500億ドルの支出です。そして運用コスト、電力などで500億ドル、賃貸料金などです。OpenAIはStargate合弁会社からGPUを借りているからです。
実際に彼らはどれだけのお金を持っているのでしょうか?ソフトバンクが投資する予定で、Oracleも投資する予定で、OpenAIも投資する予定です。OpenAIは190億ドルの投資が約束されていることは誰もが知っています。しかし、彼らは最後のラウンドで60億ドルと40億ドルの負債しか得ていません。しかし、ソフトバンクがOpenAIに250億ドルを投資するかもしれないというニュースがあります。だからそれが一部となります。
190億ドルはそこから来る可能性があります。OpenAIは全くお金を持っていないのは明らかです。インクはどこにも乾いていません。OpenAIはこの500億ドルのために0ドルを持っています。法的に彼らは190億ドルのCAPEXを合弁会社に投資する義務があり、残りは合弁会社からGPUを借りることで支払う予定です。
そしてOracleがいます。Oracleはたくさんのお金を持っています。彼らは最初のセクションを完全に建設しており、自分たちで支払いをしていました。この60億ドルのCAPEXと10億ドルのTCOですが、彼らは最初のセクションを支払っています。残りのセクションについては、Larryがどれだけ支出したいのかわかりません。いつでも撤退できます。これは再度、完全に自発的なものです。これについては何も署名されていません。
しかし、彼は潜在的に数百億ドルを投資する可能性があります。明確にしておくと、彼にはお金があります。Oracleにはお金があります。そしてMGXがあります。これはUAEのファンドで、技術的にはAIに投資するために1.5兆ドルを持っていますが、再度、そのお金がどれだけ実在するのかわかりません。
ソフトバンクは200億ドルの現金を持っていません。彼らはCPUのリーダーであるARMの株式を売却しなければなりません。これは明らかに彼らが常にやりたかったことです。ただ資本をどこに再配分するかわかりませんでした。ARMの株式を売却することは非常に理にかかっています。彼らはそれを売却して、望むならばこれに投資することができ、望むならばOpenAIに投資することができます。
お金が確保されているという点では、最初の10万台のGB200クラスターは資金調達が可能です。それ以降のすべては未定です。お金は来るでしょう。私個人的にはそう信じています。ただし、それは信念です。彼らがより良いモデルをリリースし、より多くの資金を調達できるという信念です。しかし、実際の現実は、イーロンが正しいということです。お金は存在しないのです。
アメリカ政府は何をする必要があるのでしょうか?トランプは何をすべきなのでしょうか?彼は単なるハイプマンです。彼は規制を緩和して、より速く建設できるようにしています。そして彼らにそれを許可しています。なぜなら、このサイズの投資には明らかに反トラスト的な問題が含まれるからです。だから明らかに、彼はそれを許可し、実際に建設できるように規制を可能にするでしょう。
しかし、これにアメリカ政府のお金が使われているとは思いません。そして私は、これは規制が下がり、これは建設の時代だという一般的な雰囲気を作り出していると思います。だから、あなたがビルダーで、物を作りたい、物を立ち上げたいなら、これはそれを行う時です。
私たちは1年以上前からこの1.8GWのデータセンターをデータに持っていて、これらの複数ギガワットを建設している多くの企業を含む、すべてのクライアントにそれを送ってきました。しかし、それは経営者が見るレベルではないかもしれません。5000億ドル、1000億ドルを見て、誰もが彼らに質問をするようなレベルです。
それは別の、さらに速い軍拡競争を引き起こす可能性があります。すでに軍拡競争はありますが、この1000億ドル、5000億ドルという数字、トランプがテレビで話すことで、軍拡競争がさらに速くなり、より多くの投資家が殺到する可能性があります。
だから私は、その意味で、あなたが正しいと思います。OpenAIまたはトランプは、人々がより多くを建設することを支持し、彼の行動は人々がより多くを建設することを可能にするでしょう。
今後数年間について、クラスターの建設、AIのブレークスルーの点で、あなたは何に期待していますか?今後2-3-4年間で想像できる最高の未来はどのようなものでしょうか?非常に具体的な技術的なことかもしれませんし、ポストトレーニングのブレークスルーかもしれませんし、単にサイズが大きいということかもしれません。
私はサプライチェーンを追跡し、誰が何に関わっているのかを追跡するのが本当に楽しいです。本当にそうです。数字、コスト、誰が何の容量を建設しているのか、どれだけの容量を建設すべきかを理解するのを手伝い、戦略的な取引に勝つこと、それは本当にクールです。
技術的には、光学と電子工学を含むネットワーキング側に多くの興味深いことがあります。コパッケージ光学や新しい形態のスイッチングなど、どんどん近づいています。これはクラスター内部のことですか?はい、また複数のデータセンターでのトレーニングもあります。人々はこれらのデータセンター間にとても多くの光ファイバーを敷設し、非常に多くの帯域幅で点灯させています。その面で多くの興味深いことが起こっています。
通信は5G以来本当に退屈でしたが、今は再び本当に刺激的です。
話題を変えて、物事の速度について少し教えてください。メモリの速度、インターコネクトの速度、データセンター間のファイバーの速度、これらは桁違いに異なるのでしょうか?いつかすべてが1つのコンピュータのように感じられる場所に収束することは可能でしょうか?
いいえ、それは不可能だと思います。プログラミングは簡単になるのではなく、より難しくなるだけです。より困難で複雑になり、より多くの層が出来るだけです。人々が好む一般的なイメージは、メモリの階層です。チップ上は本当に近く、チップ内でローカライズされています。レジスタがあり、それらはいくつかの計算要素間で共有されます。
そしてキャッシュがあり、それはより多くの計算要素間で共有されます。そしてメモリ、HBMやDRAMのようなDDRメモリなどがあり、それはチップ全体で共有されます。そして多くのチップ間で共有されるメモリプールを持つことができます。そしてストレージがあり、それはどんどん拡大していきます。
データセンター間、データセンター内、チップ内のアクセスレイテンシーは異なるので、明らかに常に異なるプログラミングパラダイムを持つことになります。このものをプログラミングすることは簡単ではありません。プログラミングは難しくなるでしょう。多分私が手伝えるかもしれません。
考え方としては、タスクに要素を追加すればするほど、強いスケーリングは得られないということです。チップの数を2倍にしても、2倍のパフォーマンスは得られません。これはコンピューティングの現実です。非効率性があるからです。
チップをより緊密にネットワーク化したり、クールなプログラミングモデルやモデル側でできるクールなアルゴリズム的なことなど、より線形に近づけるための興味深い取り組みがたくさんあります。DeepSeekはインターコネクトに制限があったにもかかわらず、並列化する必要があったので、これらの本当にクールなイノベーションをいくつか行いました。
Googleには多くの取り組みがあり、誰もが多くの取り組みを持っています。これはモデルとワークロードとイノベーションの面で超興奮的です。ハードウェアでは、固体トランスフォーマーが電力の面で興味深いです。バッテリーに関するあらゆる種類のものがあり、まさに計算スタックのあらゆる層を見ると、リソグラフィからETまで、製造から光学、ネットワーキング、電力、トランスフォーマー、冷却、さらにネットワーキングまで上がっていくと、データセンターのエアコンでさえイノベーションが起きています。
銅ケーブルでさえイノベーションが起きています。考えもしないでしょうが、銅ケーブルには、パッキングできる密度などに関していくつかのイノベーションが起きています。スタックのこれらすべての層が、モデルに至るまで、人類の進歩は前例のないペースで進んでいます。
私はあなたがどこかで寝そべって、至る所に画面があり、これらのクラスターのあるサプライチェーンをすべてモニタリングしているところを想像しています。あなたが集めている情報は…あなたには大きなチームがいます。大きなチームがいるんです。Semi Analysisでかなり驚くべき仕事をしていますね。デジタル世界における人類文明の鼓動を感じ取り続けているのは本当にクールです。
ありがとうございます。私は、ミームから現実まで、すべてのAIを感じています。Nathanさん、あなたは期待しているブレークスルーはありますか?Dの美しい話を聞いている間、考える時間がありました。彼は私の話を聞いていませんでした。いいえ、これが来ることは知っていました。
実際のところ、モデルのトレーニングは非常に楽しいです。なぜなら、まだまだ改善の余地がたくさんあるからです。私の仕事を面白くしているのは、モデルのトレーニングをし、モデルで何が起きているかを分析して書くことですが、明らかにまだまだ多くの進歩が可能だからです。
私がこのように共有できる場所でこれを行う本当の動機は、「信じてください、私たちがAIを良くします」と言う人々を信用していないからです。「私たちがそれを行い、私たちを信用できます、そして私たちがすべてのAIを持つことになります」というような人々を。
私は、より多くの人々がAIとは何かについて発言権を持ち、それを理解できる未来を望んでいます。それは「これはすべて本当に楽しい」という肯定的なことほど楽しくはありません。モデルのトレーニングは楽しく、人々を巻き込むのは楽しいですが、本当は、AIが私の人生で最も強力な技術になるのなら、それを作り、できるだけアクセス可能に、できるだけオープンにすることに多くの人々が関わる必要があるということです。
過去数年間の私の理解では、より多くのオープン性は、非AI分野の研究者から政府まで、何が起きているのかをより多くの人々が理解するという点で、AIエコシステムに役立つでしょう。それはオープン性が常に答えになるという意味ではありません。
私たちが乗っているこの野生の乗り物で、AIに直面している最大の問題は何かを再評価し、異なる角度からアプローチすることになるでしょう。そして私にとって、ユーザー体験から見ても、あなたが言ったような「アハ」の瞬間、魔法を感じる瞬間、推論の連鎖を見る瞬間があるたびに、そこには根本的に美しいものがあります。
それは私たち自身を映す鏡を置き、ああ、これらの企業の陳腐な目標である「知性を解明する」ということを理解させてくれます。そして私たち人間が特別な理由、私たちの中にある知性が特別な理由を理解することができます。そして今のところ、私たちが特別である理由として、私たちは意識を持っているように見え、AIシステムはまだそうではないということもあります。
そしてその神秘を探求することができます。これらの質問を探求できるというのは本当にクールです。Deep BlueがKasparovを破った時に興奮して見ていた頃には、このようなAIが私の人生の間に可能になるとは想像もしなかったでしょう。これは本当にAIのように感じます。本当に信じられません。
私はクアッドロターを飛ばすことを学ぶAIから始めました。飛ぶことを学び、天井に当たって止まって捕まえるだけでした。それは今起きていることに比べると本当に愚かでした。今では自然言語でそれに飛ぶことを学ばせ、そのために必要な制御アルゴリズムを生成することができるでしょう。おそらく、私たちがそのために行わなければならなかった奇妙なことがある低レベルのブロッカーはありますが、確実にロボット工学の会話でしたね。実際の物理的な世界と相互作用しなければならない時は難しいです。
人類文明の未来について、今後10年、100年、1000年を見据えて、何に希望を感じますか?私たちはどれくらい持つと思いますか?1000年は持つと思いますか?
人間は1000年後も間違いなく存在していると思います。非常に悪いことが起こる可能性はありますが、人間は生き残ることが非常に得意です。多くのことがありました。必ずしもリスクの長期的な信用割当が得意なわけではありませんが、リスクが差し迫ってくると、通常は物事を解決する傾向があります。
そのため、AGIのような物事の物理的な制約や、私たちすべてを殺すような再帰的な改善について、物理的な理由と人間が以前に物事を解決してきた方法から、私はAIの支配についてあまり心配していません。他の国際的な問題は心配ですが、根本的な人間の善良さがあり、それを増幅しようとしています。
私たちは微妙な時期にいます。人類全体を見ると、物事が後退する時期もあれば、全く何も起こらない時期もありました。そして今、私たちは非常にポジティブな軌道にいるはずです。
進歩があるように見えますが、力と同様に、人間の苦しみのスパイクがあり、私たちはそのスパイクの量を最小限に抑えようとしています。一般的に人間は苦しみが大幅に減少するでしょう。私はそれについて非常に楽観的です。
AIがますます普及し、強力になり、それをコントロールする人々がより多くのことができるようになるにつれて、テクノファシズムのような事態が起こることを心配しています。それは私たちすべてを殺すわけではないかもしれませんが、ある時点で、非常に強力な人間はすべて、AGIとそのすべての利点をより多くの方法で相互作用できるように脳コンピュータインターフェースを望むでしょう。
そして、その人の能力をAIの能力と融合させ、他の誰よりもずっとよくそれらを活用できるようにします。1人が全てを支配するわけではありませんが、心配なのは、数人、数百人、数千人、あるいは数百万人の人々が残された人々を支配することです。そしてその周りの経済です。
人間と機械の融合が、個々の人間が世界に与える影響を大きくし、その影響は良くも悪くもなり得るということが、より心配な点です。一般的に人間は世界に良い影響を与えますが、少なくとも社会にはそうです。しかし、個々の人間がそのような悪影響を与える可能性があり、少なくとも研究所が定義するAGI、つまり暴走する感情的なものではなく、多くのタスクを非常に効率的に実行できるものは、誰かが極端な被害を引き起こす能力を増幅させます。
しかし、ほとんどの場合、利益を追求する動機のために使用され、それによって物事の豊富さと供給が増加し、したがって苦しみが減少すると思います。そうですね、それが目標です。世界の現状を維持するためにスクロールすることは、ポジティブな結果です。私が食事チューブを持ってスクロールして幸せなら、それはポジティブな結果です。宇宙に向かって拡大しながら。
これは生きていて楽しい時代ですね。可能なことの最前線を押し進めてくれてありがとうございます。今日話してくれてありがとうございます。これは楽しかったです。招いてくれてありがとう。招いてくれてありがとう。
Dylan PatelとNathan Lambertとの会話を聞いてくれてありがとうございます。このポッドキャストをサポートするには、説明欄のスポンサーをチェックしてください。そして最後に、Richard Feynmanの言葉を残します。
成功するテクノロジーには、パブリックリレーションズよりも現実が優先されなければなりません。なぜなら自然は騙されることがないからです。
ご視聴ありがとうございました。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました