Googleが宇宙にデータセンターを建設したい理由 | EP 162

Google・DeepMind・Alphabet
この記事は約52分で読めます。

本エピソードでは、GoogleのProject Suncatcherという宇宙データセンター構想、トランプ政権下でのAI政策の舵取り、そして歴史家が偶然発見したGemini 3の驚異的な推論能力という三つの重要なテーマを取り上げている。宇宙データセンターは地上のエネルギー制約を克服する試みであり、AI政策についてはホワイトハウスの元上級政策顧問Dean Ballが共和党内の多様な見解と連邦規制の必要性を語る。そして歴史学者Mark Humphreが発見したGemini 3と思われるモデルの異常な能力は、18世紀の手書き帳簿から複雑な通貨換算を逆算するという、従来のパターン認識を超えた記号的推論の可能性を示唆している。これらはAI開発の次なるフロンティアと、それに伴う社会的・政治的課題を浮き彫りにする内容である。

Why Google Wants to Put Data Centers in Space | EP 162
This week, we talk about Google’s new plan to build data centers in space. Then, we’re joined by Dean Ball, a former adv...

冒頭:謎の写真依頼

Project Suncatcherについてお話しします。Led Zeppelinの失われたシングルのような名前ですが、実際には宇宙にデータセンターを建設するプロジェクトなんです。人々がよく話題にする主な問題は、このテクノロジーに対していつ反発が起きるのか、そして何がその反発を引き起こすのかということです。

私が歴史家として今見ているのは、これまでモデルがどんどん良くなってきて、ああ、この出力は信頼できそうだなと感じられるようになってきたということです。でも今やそれが単に機能するという段階に達しているんです。すごいことですよ。

先日、Market Streetを歩いていたんです。説明すると、ここはサンフランシスコの主要な通りの一つなんですが、この一年間で、ちょっと気恥ずかしい話ですが、4、5回ほど誰かがポッドキャストで私を認識して、声をかけて写真を撮りたいと言ってきたんです。

いつも嬉しくなります。Hard Forkのリスナーは最高ですからね。実は前の週にも同じことがあったばかりでした。で、この週末、ジムから帰ってきたところだったんです。ジムから帰ってくるときの自分がどんな感じか分かりますよね。顔は赤く火照って汗をかいていて、髪はもうぐちゃぐちゃです。

するとこの素敵な若い女性が近づいてきて、写真をお願いされたんです。もちろん私は、ああ、今ちょっと見た目が良くないなと思いましたが、Hard Forkリスナーのためなら何でもしますよ、という感じでした。彼女は男性と一緒にいて、おそらくボーイフレンドか夫だと思いました。それで私は調子に乗って、ほら、お名前は何ですか、みたいに話しかけたんです。

彼女が私に携帯を渡して、二人は背を向けて通りに立ったんです。つまり背景にサンフランシスコを入れるためです。その瞬間に気づいたんです。この人たち、私が誰だか全く知らないんだって。ただの観光客で、サンフランシスコでの写真が欲しかっただけなんです。

私はKevin Roose、ニューヨーク・タイムズのテクノロジーコラムニストです。私はPlatformerのCasey Newtonです。これはHard Forkです。

今週は、Googleの宇宙にデータセンターを建設するという狂気の新計画についてお話しします。これがAIバブルの最終フロンティアなのでしょうか。次に、元トランプ政権ホワイトハウス政策顧問のDean Ballが、共和党がAIについて本当にどう考えているのかを教えてくれます。そして最後は、歴史ミステリーです。

Mark Humphre教授が登場し、正体不明の新しいGeminiモデルが困難な研究問題に対して驚異的な結果を提供した話をしてくれます。カナダについてでした。カナダについてではありませんでした。基本的にはカナダについてでした。砂糖についてでした。カナダの砂糖貿易についてでした。

宇宙データセンター計画

さて、Caseyさん、今日はまず宇宙の話から始めましょう。ついに来ましたね、最後のフロンティアと呼ばれるものです。そうですね。なぜなら私はこのストーリーを調べていて、すっかり夢中になってしまったからです。宇宙にデータセンターを建設するという話なんですよ。この話についてあなたと話すのをとても楽しみにしています。

見出しは軽く読んでいた程度なので、たくさん質問がありますが、宇宙から話を始められるのは素晴らしいスタート地点だと思います。最近周りを見渡しましたか。今、地球にいたいと思います? 代替案があるのはいいことだと思います。それだけは言えます。

これは、テクノロジー業界で静かに進行していた話なんです。明らかに、私たちは地球上で巨大なデータセンター建設を進めています。すべての企業がこれらの巨大なデータセンターを建設し、GPUで満たし、AIモデルのトレーニングやその他のことに使いたがっています。お気づきかもしれませんが、地球上でデータセンターを建設するのは簡単ではありません。

私も試してみましたが、どこにも辿り着けませんでした。IKEAの家具を組み立てているような気分でした。何をしろって言うんだ、みたいな感じです。土地が必要で、許可が必要で、データセンターに電力を供給するエネルギーが必要です。これらすべてを比較的迅速に行う必要があります。そして時々、人々は自分たちの住んでいる場所にデータセンターを建設しようとすると怒るんです。

また、これらのデータセンターのためのエネルギー危機に直面しています。文字通り、すべてに電力を供給するための地球上のエネルギーグリッドの容量が十分ではないんです。人々がますます多くのAIを求め、成長が指数関数的に続くにつれて、これは悪化する可能性があります。

そこで、Googleを含むいくつかの企業が最近、宇宙にデータセンターを建設することを検討していると発表しました。宇宙に何かを建設すると言うだけで冗談のように聞こえます。非現実的で、高額で、失敗する運命にあるように思えて、本当に冗談のように聞こえます。でもKevin、あなたが今私に言っているのは、これを実行しようとする正当で真剣な計画があるということですね。

はい。私もこれは何かのSFのような夢物語だと思っていました。実験的なものではあります。誰も今日これをやっているわけではありませんが、GoogleはProject Suncatcherと呼ばれるものについての論文を発表しました。

そう、Suncatcherです。Led Zeppelinの失われたシングルのような名前ですが、宇宙にデータセンターを建設するプロジェクトなんです。これを彼らはムーンショットと呼んでいます。数年後まで実現しないかもしれないと言っていますが、彼らにとって活発な研究分野なんです。

他にもいくつかの企業がこれをやっています。Jeff Bezos、Eric Schmidtなど、他の大手テクノロジー関係者もこのアイデアに非常に興味を持っています。私たちが今日これについて話すべきだと思うのは、これらの巨大なAIモデルを実行するためのすべての電力とすべてのデータセンターを要求し続けた場合、将来何が待っているのかを人々に理解してもらうためです。

話す価値が大いにあると思います。とりわけ、私たちがこのバブルの段階に達していることを示しています。人々は、私たちが暮らす惑星上で、私たちが構築したい未来のために十分な電力を提供できないと感じるようになっているんです。実際に私たちの野望を実現するには、惑星を離れなければならない。何よりも、それはこれらの企業がどれほど野心的になっているか、そしてこれから取ろうとしている大きな賭けを教えてくれます。

まったくその通りです。では、どこから始めましょうか。まずProject Suncatcherについて話しましょう。Googleは正確に何を提案しようとしていて、先週それについて何と言ったのでしょうか。

先週出たブログ投稿と論文では、これを将来の宇宙ベースの高度にスケーラブルなAIインフラシステム設計と呼んでいます。基本的に、宇宙ベースのデータセンターが実際に可能かどうかを確認するためのテストを開始しました。

ここで解決しようとしている問題は二つあります。一つは、先ほど述べたように、地球上で物を建設するのは非常に困難だということです。すべての許可と承認とエネルギーが必要です。

二つ目は、太陽が本当に素晴らしいエネルギー源だということです。人類の総出力の約100兆倍ものエネルギーを放出しています。しかし、地球上にソーラーパネルを建設することにはいくつかの問題があります。主に、太陽は一日の半分沈んでしまうので、一日の半分しか電力を得られません。

これは長い間、人々の太陽に対する主な批判の一つでした。そうですが、ソーラーパネルとデータセンターを低軌道に置き、dawn dusk orbit pathと呼ばれるものに置けば、私は今週調べたばかりではなく、高校の天文学の授業で絶対に知っていたことですが、ほぼ一定の日光を与えることができ、ソーラーパネルは地球上のソーラーパネルの最大8倍も生産的になります。

一つ聞きたいのですが、データセンターと言うと、私は今中西部全域で建設されているような、6つのフットボール場くらいの大きさの巨大な匿名のオフィス複合施設を想像します。宇宙にそのようなものを建設するつもりはないと思いますが。

いいえ、もしこれらの企業のいくつかが作ったモックアップを見ると、StarCloudという会社があって、Nvidiaから資金を得ているスタートアップのようなものですが、彼らが作ったモックアップを見ると、巨大な鳥のように見えますが、翼はこれらの非常に薄いソーラーパネル、ソーラーパネルのアレイのようなもので、中心部は基本的にコンピューターのクラスターのようなものです。それが宇宙で軌道を回っていて、翼が太陽をすべて捉えて、そのエネルギーをクラスターの中心にあるコンピューターに供給しています。

なるほど。つまり、この未来では地球の上を群がるような巨大で恐ろしい鳥のような構造物があって、それらは太陽から非常に多くのエネルギーを得ていて、非常に効率的で、それがコンピューター内で起こっているすべての計算を駆動している、と。巨大で恐ろしい鳥の中で起こっていることが、どのようにして地球上の私たちのところにタイムリーに戻ってくるのでしょうか。

それは素晴らしい質問です。過去一週間ほどでこのことに取り組んでいる何人かの人々に聞いてみました。彼らが言ったのは、これは実際にはStarlinkのようなものとそれほど違わないということです。衛星または一連の衛星から地球にデータを送信しているんです。

それほど遠くはありません。光年離れているわけではありません。地球上で何かを送信するのにかかる時間より数ミリ秒長くかかるかもしれません。そしてこれは実際に私たちが知っている方法なんです。

なるほど。Kevin、先週Googleがこれについてのブログ投稿を出しました。彼らがこの実験でどの段階にいるのか、感覚を教えてください。

このプロセスではかなり初期段階だと言えるでしょう。まだいくつかの技術的な障壁を克服する必要があり、それについても話せます。しかし彼らは実際にテストを開始しています。例えば、私たちのTPU、AIトレーニングチップを宇宙に送ったら、そこにある放射線で崩壊してしまうのかどうか、というようなことです。

実際に彼らは論文で説明した実験を行いました。地球上のデータセンターに入れるような普通のTPUを取り出して、研究室に持って行き、これらのチップが宇宙に浮かんでいる場合に経験するであろう非常に強い放射線をシミュレートするプロトンビームを当てたんです。そして、彼らの新しいTPUは実際に予想よりもはるかに良く放射線に耐えることがわかりました。

つまり、これらは5年間のミッションで期待されるものをはるかに超える放射線を処理できるということです。今年初めにファンタスティック・フォー:ファースト・ステップスを見た方はご存知でしょうが、宇宙放射線がリチャーズ家とベン・グリムをファンタスティック・フォーに変えたものです。Googleはそのような懸念については何か言及していますか。

私の知る限り、彼らはそれについては言及していません。他の潜在的なハードルについては言及しています。その一つは、これらのチップが不具合を起こしたり壊れたりした場合、宇宙にある場合どうやって修理するのか、ということです。似たようなプロジェクトに取り組んできた何人かの人々に聞いたところ、基本的には、ああ、ロボットを宇宙に送ってデータセンターを修理する方法を考え出さなければならない、と言っていました。

なるほど。ロボットを使うことに焦点を当てるんですね。理にかなっていると思います。さて、Googleは実際に今後数年以内に何らかのテスト打ち上げを行う予定だと聞いていますが。

そうです、2027年にテストする予定で、Planetという会社と提携して2つのプロトタイプ衛星を打ち上げます。Planetは地図作成などのために小さな衛星を宇宙に送る会社です。それが彼らの計画です。

StarCloudを含む他の企業も、かなり早くいくつかのプロトタイプを送る予定です。だから彼らはこれについてテストを進めています。これが実際に何らかの形で実現するのは、おそらく少なくとも数年はかからないだろうと思います。部分的には、宇宙に物を送るのがまだ非常に高額だからです。

現在、たくさんのチップとたくさんの衛星を宇宙に送ることは経済的に実行可能ではありません。地球上で同等のデータセンターを建設するのに必要なコストの何倍もかかります。

そうですね。そして地球上の人々は、地球上で建設しているデータセンターは経済的に実行可能ではないと言っていますよね。だから軌道を離れたら、コストがどれほど制御不能になるか想像できません。

Googleのブログ投稿で興味深かったのは、同社がSuncatcherを自動運転車(現在のWhimo)や量子コンピューティングの系譜に位置づけようとしていたことです。量子コンピューティングはまだ主流技術にはなっていませんが、大きな進歩を遂げています。私たちも、そんなに前ではありませんが、それについてのエピソードをやりました。

彼らはSuncatcherもそのようなもので、これを主流技術にするために8年、10年、12年、15年働く意志があると言っているようなものです。だから私は、Googleが言っているのは、これはただエンジニアが数人が余暇に取り組んでいるような狂った小さな実験ではない、ということだと受け取りました。彼らはこれについて本気のようです。

彼らはこれについて本気だと思いますし、5年、10年、15年先の未来を見据えていると思います。そこではAIとAI関連タスクへの需要が本質的に無限になっています。これは10%の人々が毎日使用しているものではなく、100%の人々が常に使用しているものです。企業全体または経済のセクターがAIに完全に引き渡されているような状態です。

それが起こるかもしれないし、起こらないかもしれません。しかしもし起こるなら、私たちは多くのエネルギーと多くのデータセンターが必要になり、地球上の土地と電力が不足するかもしれません。

Suncatcherについて読んだ後まで気づかなかったことは、他にどれだけ多くの企業が同じことを検討しているかということです。他に誰が参入しているのか、そして誰かGoogleより先に進んでいるように見えるのか、概要を教えてもらえますか。

先ほど述べたように、Y Combinatorのスタートアップで、Nvidiaから資金を得ているStarCloudという会社があります。彼らがこれをやっている主要企業です。Axiom Spaceという会社もこれをやっています。

そして中国企業、または少なくとも一つの中国の取り組みが宇宙ベースのデータセンターをやっていると思われますが、詳細については少し曖昧です。そしてThe Informationの記事では、Eric SchmidtとJeff Bezosが、おそらく彼らもこのようなことに興味を持っているか、検討していることを示唆するコメントをしたと報じています。

Jeff BezosはLauren Sanchezを宇宙に送ったばかりですよね。それがこの方向への第一歩だったのではないかと思わざるを得ません。

このアプローチについて興味深いと思うことの一つは、ご存知のように、地域社会の人々から、自分たちの町や町の近くにデータセンターを置くことに対する抵抗が増えているということです。彼らはそれが自分たちのエネルギーコストにどう影響するか心配しています。水の使用量や環境への影響を心配しています。

だから私は、もしこのようなことが実現すれば、庭に置かないという「ニンビー」から、惑星に置かないと言う新しいグループ、私が「ノップ」と呼んでいる人々に移行することになると思います。彼らはすべてのデータセンターを空に建設してほしいのです。

ノップが主要な政治勢力になると思いますか。そう思います。ただ、最終的には人々は宇宙にもそれらを置きたくないと思うようになるかもしれません。でも抗議するのは難しいでしょう。ロケットに乗って低軌道まで行かなければなりません。とても不便です。

なぜ人々は宇宙に置きたくないのでしょうか。まあ、これが大量の宇宙ゴミを作り出すと考えている様々な人々がいます。そのようなことは最終的には悪いことになるでしょう。このことに取り組んでいる人々と話しましたが、彼らは、ああ、それは本当に大きな問題になるとは思わない、と言っていました。今や宇宙にはあらゆる種類のものがあります。私たちは一般的にそれにあまり注意を払いません。

でも私には、これがElon Muskが火星に植民地を建設することを提案するようなものに聞こえます。あまりにも未来的です。あまりにもSF的で、これらの非常に裕福な企業や個人が、地球上の問題から逃げようとして物を宇宙に送っているように聞こえます。

私が言いたいのはこうです。人生で上位10の懸念事項の一つが宇宙ゴミである時代に生きていたいと思います。Kevin、もし私がそこに辿り着けたら、天国にいるでしょう。天国?いや、低軌道にいるでしょう。その通りです。

質問があります。あなたは宇宙に行きますか。はい、絶対に。データセンターを修理するために宇宙に行きますか。その仕事の給料はいくらですか。非常に高いでしょう。やる価格は確かにあると思います。でもこういうことです。私は家の周りで器用ではありません。ChatGPTが何をすべきか知らなければ、便利屋を呼びます。

Googleに申し出をすべきだと思います。もしProject Suncatcherを低軌道に上げることができたら、私たちはそこに行ってテープカットをするポッドキャストエピソードをやります、と。あなたは大量の太陽放射にさらされたくてたまらないんですね。楽しそうだと思うんです。

戻ってきたら、Kevin、Dean Ballと一緒に楽しみましょう。彼はAIアクションプランを起草しました。

トランプ政権のAI政策

Caseyさん、最近、州レベルのAI規制が可決され、法律として署名されたことについて話してきました。でも今日は国家レベルのAI政策について議論します。

州が行動しているのは、連邦政府がまだAIに関連する法律を実際には可決していないからだと思います。それが、政権がAIについてどのように考えているのかについて多くの疑問を残しています。特にこの政権では、トランプ大統領とその同盟者が何を信じているのか、私には特に明確ではありませんでした。例えば、私たちが何らかのAGIの瞬間に向かっているのか、連邦政府が非常に強力なAIシステムのリスクに対してどのように保護すべきかなどです。

今日の会話は、これらの疑問のいくつかに答え、ワシントンで何が起こっているのか、特に右派に関してAIとAI政策に関して、より良い感覚を得るのに役立つと思います。

今年初め、Dean Ballは数ヶ月間、ホワイトハウスの人工知能と新興技術の上級政策顧問として働きました。彼はホワイトハウスのAIアクションプランの起草を主導するためにホワイトハウスに招かれました。ホワイトハウスでのその役割で、Deanは政府の最高レベルでAI政策の舞台裏がどのように作られるかを見ただけでなく、実際に自分でソーセージを作りました。政府の様々な部分からのこれらすべての異なるアイデアを取り、それらをまとめて、政権のAIに関する公式見解を表す文書にする責任がありました。

そして彼がそこにいた間、Deanは右派のAI政策に関する様々な派閥が誰なのか、良い感覚を得ました。彼らは何を信じているのか。競合するインセンティブは何か。誰が誰の耳を持っているのか。今後数年間のAI規制の可能性の高い道筋を理解したいなら、それは会話の本当に重要な部分だと思います。

DeanはAIアクションプランが発表された後、8月にホワイトハウスを去りました。それ以来、彼はFoundation for American Innovationのシニアフェローとなり、AIと政策についてのニュースレター、Hyperdimensionalの著者となっています。

このセグメントでAIについて多くの時間を話すので、開示をしましょう。私はニューヨーク・タイムズで働いています。私たちはOpen AIとMicrosoftを著作権侵害の疑いで訴えています。そして私のボーイフレンドはAnthropicで働いています。

Dean Ball、Hard Forkへようこそ。お招きいただきありがとうございます。ここにいられて嬉しいです。

今年初めにホワイトハウスでAI政策に取り組むことになった経緯を教えてください。その前の経歴は何でしたか。

私はシンクタンカーでした。その多くはテクノロジー政策ではありませんでした。私がやっていたことの多くは州と地方の政策でしたが、常にテクノロジーには非常に興味がありました。

基本的に、AI政策の会話が2023年初頭に本当に盛り上がったとき、私はAIについて書き始めることを決めました。完全に副業として、純粋に副業でした。報酬は何もありませんでした。そして最終的に、私は本当にそれが好きで、自分の声を見つけていると判断しました。

そしてジョージ・メイソン大学のMercada Centerに雇われ、そこで時間を過ごすことになりました。約1年間そこで過ごした後、主にSubstackでの執筆に基づいてホワイトハウスに採用されました。私のSubstackはHyperdimensionalと呼ばれ、AIのことについて話しています。

Substackからホワイトハウスへのパイプライン。自分の投稿で連邦政府の仕事を得た人はあなただけではないと思います。投稿で連邦政府に行けるんです。本当にそうです。おそらく私の大部分は実際にXへの投稿だったでしょう。それはもっと怖いかもしれませんが。

では、あなたはこの電話を受けてホワイトハウスに行きました。AI政策に関して、そこで何を見つけましたか。AIがどのように統治され規制されるべきかについて、首尾一貫した単一の見解はありましたか。

首尾一貫した直感はあると言えますが、この分野は非常に新しく、分断線が本当に固まる戦いがまだあまりありませんでした。ちなみに、これは左派にも当てはまると思います。それらの直感はまだ、多くの異なる非常に具体的な政策立場に形成されていないと思います。まだ具体化していないというのが本当のところです。

ただ、興奮と懸念と混乱が混ざっていると思います。おそらく同じくらいの割合で。マクロ的な意味で、それはおそらく私が今いる場所とほぼ同じで、実際に正しいと思います。

政権内にAIについていくつかの首尾一貫した直感があったとおっしゃいました。それらの直感は何でしたか。

首尾一貫した直感その1は、AIはこの国、そしておそらく世界全体が数十年間、そしておそらくこれまでに見た中で最も重要な技術的、経済的、科学的機会であるということです。基本的に全員がこの評価を共有していると思います。これは非常に強力になるでしょうし、非常に重要になるでしょう。

直接続く第2の直感は、これに関連するいくつかのリスクがあるということです。私たちにとってなじみがあり、既存の政策フレームワークの下で認識できるものもあれば、より異質で、まだ明確に概念を持っていないリスクもあるかもしれません。

そしておそらく第3の直感は、それらのリスクに関係なく、AIはアメリカのグローバルリーダーシップの未来において非常に大きな役割を果たすように感じられるということです。

それは本当に役立ちます。あなたが到着したときの状況の感覚をつかむのに役立ちます。Dean、AIに関して右派内の派閥を理解するのを手伝ってもらえますか。著名な共和党員から聞いたAIの少なくとも2つの異なる見方を特定したと思います。David Sacksの見方とSteve Bannonの見方と呼べるかもしれません。

大統領のAIツァールであるDavid Sacksは、常にオンラインと彼のポッドキャストで、彼が馬鹿げていると思っているAIドゥーマーについて話しています。彼らはAIのリスクを誇張し、政策で自分たちの道を進もうとしている、彼らをwokeと呼び、失業などの恐怖を煽って政策で自分たちの道を進もうとしていることを示唆しています。

それからSteve Bannonがいて、AIからの実存的リスクについて話しています。数週間前に私たちが両方参加したCurve会議で、Steve Bannonの側近の一人がいて、これがすべて非常に早く悪くなる可能性があると信じているいわゆるドゥーマーと同盟していると考えていると語る非常に魅力的な話をしました。

右派にはこれら2つ以上の見解がありますか。これらが主要な陣営ですか。

いいえ、全体のスペクトルがあると思います。もちろん、DavidやSteveのために話すことはできませんが、保守派がこの問題について話す方法の大まかに正反対の位置に彼らを置くでしょう。

でも、その間に全体のスペクトルがあると思います。まず、国家安全保障の人々がいます。国家安全保障の人々は、実際にはAIについてそれほど多くを知りません。これも両側にいます。でも彼らは、これを中国や他のものとの米国の競争にとって重要な戦略的技術だと考えています。また、いくつかの国家安全保障リスクがあるかもしれないと思っています。でも彼らは実際には国内政策については考えていません。規制については考えていません。EAとドゥーマーについては考えていません。それが一つです。

また、Bannonの視点に関連していますが、もう少し中間に向かって、主に子供の安全を心配している人々がいます。AIドゥーマーの見方から距離を置くが、純粋な加速主義の見方からも距離を置く多くの保守派がいます。彼らはソーシャルメディアで得た教訓を例として使います。

子供の安全の視点のようなものです。この人々にとって、LLM精神病のような問題が非常に顕著です。もちろん、チャットボットによる10代の自殺も、このグループにとって、私は全員にとってだと願いますが、もう一つの非常に顕著な問題です。だからその間に他のものがあり、私は自分を奇妙な融合の中間のどこかに置くと思います。

業界はそのスペクトルのどこに適合しますか。私の外からの感覚では、業界グループとロビイストはこの政権で望むものを得るのに多くの成功を収めているということです。彼らはそれらの会話のどこにいますか。

本当にインセンティブ次第だと思います。政策の会話で人々は、業界をこの種のモノリシックで首尾一貫したエンティティであるかのように非常に頻繁に言及します。もちろんそうではありません。そして異なる人々が異なるインセンティブを持っています。

もしあなたが米国のハイパースケーラーなら、輸出規制を嫌いません。Microsoft、Google、Amazon Web Servicesなどです。それを嫌いません。なぜなら、a)中国企業があなたのチップを競い合うのを望まないからですが、同じチップでなくても、TSMCファブでチップを作るスペースをめぐって暗黙的に競争したくないからです。だからハイパースケーラーは、輸出規制について微妙な立場を取りますが、大まかに言って、彼らのインセンティブはそれらを嫌わないことであり、大部分はそうしません。

フロンティアラボは、人々にトークンを販売してお金を稼ぎたいのです。だから彼らはチップへのアクセスを望んでいます。

しかし、政治理論の観点から信じることが間違っていないと思う人々がいます。最終的に彼らはモートを作りたいのだと。そして多くの方法でモートを作れると思います。私には、彼らが今モートを作ろうとしている主な方法は、基本的に全員がやってきたインフラを通してのようです。Anthropicは今日、独自のデータセンターを構築するために500億ドルのコミットメントを発表しました。

Googleはもちろんこれをやっています。Open AIはStargateを通してこれをやっています。Metaはこれをやります。XAIはこれをやります。全員がこれをやります。全員がインフラを構築しています。そして基本的な見方は、モデル自体はあなたのモートではないかもしれません。モデルのパラメーターはあなたのモートではありませんが、おそらくインフラはそうです。

だからこれらはすべて競合する利益であり、誰も不当な議論をしているわけではありません。全員がインセンティブから活動しており、もちろん政府の仕事は均衡を解決することです。

AGIについてのMAGAの見方はありますか。

まだありません。いいえ、実際にはありません。AGIについての政治的説得の見方があるとは思いません。MAGAが実際に持っている最も近いものかもしれません。

そして今のところ、おそらくより破滅的な方向に傾いているかもしれません。過去一週間に、自動化による失業の報告を要求する超党派の法案が提出されたのを見ました。これは、その可能性への注目が高まっていることを示唆しています。

まあ、つまり、AI分野には大きな問題があります。CurveやLightheavenのような場所で、AI コミュニティの様々な重鎮が集まり、人々が話す主な問題は、このテクノロジーに対していつ反発が起きるのか、何がその反発を引き起こすのかということです。

私は、単一の問題ではなく、問題の瘴気のようなものになるという結論に達しました。スロッピフィケーションのようなものです。子供にとって安全ではありません。電気料金を押し上げています。水をすべて使っています。あなたの仕事を奪っています。そしてあなたの仕事を奪い、また全員を殺すつもりです。そしてところで、それは偽物です。それらすべてであり、この奇妙なヴィシソワーズのようなものです。

AIアクションプランで最も私を悩ませる側面は、チャットボットのイデオロギーへの注目と、ある方法では応答できるがそうでない方法では応答できない、というような提案です。

どのような議論が行われていたのか、政権が実際にこれらのモデルから何を求めているのかを説明してもらえますか。

まず最も重要なこと、伝統的にどのように表現されているかというと、woke AI executive orderと呼ばれるものについて話しています。これは連邦調達政策を扱う大統領令です。

言い換えれば、これはAnthropicやOpen AIや他の企業が消費者や民間企業に提供するAIモデルのバージョンに関する規制ではありません。これは純粋に、彼らが政府に提供するモデルのバージョンについてです。

そして政府はこのケースで言っています、私たちはトップダウンのイデオロギー的バイアスが設計されたモデルを調達したくありません。私たちは、政府職員が客観的なモデルにアクセスできることを望んでいます。客観的という言葉は本当に難しいと思います。明らかに、私たちは言語が存在して以来、真実とは何かについて議論してきました。

だから私たちはそれを解決しないと思います。General Services Administrationのガイドラインがその問題を解決するとは思いません。私はそれを試みることさえ愚かだと思います。そして大統領令は試みないと思います。大統領令はそうすることを避けています。

大統領令は代わりに言います、開発者として、モデルの上に何らかの世界観を押し付けないでください、と。それで頑張ってください、と思います。

一つフォローアップしたいのですが、私の感覚では、トランプ政権と議会の共和党員は、バイデン政権がソーシャルメディア企業に対して、COVIDワクチンや彼らが誤情報と見なしたものを削除するよう圧力をかけた方法に非常に腹を立てていました。それは非常に不適切だと見なされました。

実際、この問題をめぐるバイデンホワイトハウスとソーシャルメディア企業との接触についての継続的な調査があります。そして振り返ると、このwoke AI executive orderが見えます。私は、これが一般に公開されるモデルを規制しているのではなく、政府に販売しているものだけだという微妙な点は理解しています。しかし、私たちは皆、一セットのモデルがあることを知っています。それらは構築され、様々な顧客に販売されます。

そしてそれを見て、これはトランプ政権がバイデン政権がやったことに非常に腹を立てたことを正確にやっていると考えるのは合理的だと思います。つまり、テクノロジー企業に連絡して、あなたの製品はこのように機能すべきだ、これらの種類のことを許可すべきで許可すべきでない、と伝えることです。これがあなたには偽善的に見えませんか。

まあ、ここには固有の緊張があると思います。これは右派に存在してきた緊張であり、特にトランプ45後、トランプ大統領の最初の任期後に存在してきました。

政府がこの種のジョーボニングをすべきではないという原則に固執すべきか、それとも政府がこの力を持っていることを受け入れ、今それを左派に投げ返す必要があるかという議論が存在します。私個人は常に一方の議論に明確にいることができます。

どちら?形式的な見方です。原則に固執すべきです。誰にもジョーボニングすべきではありません。そうですね、やるべきではありません。つまり、やるべきではないんです。

同時に、政府はまったく言う権利があると思います。そして繰り返しますが、ここで話しているのは、モデルトレーニングのようなものとは考えていません。開発者が比較的簡単に変更できる種類のものだと考えるでしょう。

政府に販売されるモデルは、すでにこの大統領令よりもはるかに高いコンプライアンス負担を持っています。情報自由法に準拠しなければなりません。ホワイトハウスに販売される場合は大統領記録法に準拠しなければなりません。Woke AI executive orderよりもはるかに困難な、あらゆる種類のデータ管理法があります。

Woke AI executive orderは基本的に、調達プロセスで、調達している機関に開示する必要があると言っています。システムプロンプトが何であるかを開示する必要があります。特定の顧客のためにシステムプロンプトを変更できます。それほど難しくありません。

そして私がここで今言うのは、もし連邦法を使って、開発者が一般に提供するモデルをトレーニングする方法を変更するよう強制しようとした場合、それは明白に違憲だということです。それは憲法修正第1条の違反です。その企業の言論の自由の権利を侵害しており、そのモデルを使用するかもしれないアメリカ市民の言論の自由の権利を侵害しています。

だから政府がそうすることは非常に深刻で重大なことであり、woke AI executive orderはそれを意図していなかったと確信しています。

Dean、あなたのニュースレターを本当に楽しんでいます。あなたが政府に参加する前から読んでいて、今日も読み続けています。

あなたが非常に頻繁に主張する一つの視点は、ほとんどのAI規制は連邦レベルで行われるべきだということです。そしてあなたは、州がAIを規制しようとしている方法を調べることに非常に貴重な時間を費やしており、それはあなたがほとんど悪いと信じているものだと思います。

このテーマへのあなたの関心と、州がやっていることで非常に懸念していることの概要を教えてもらえますか。

はい。まず言っておきますが、私は州と地方の政策バックグラウンドから来ています。だから私の見方は、この国の多くの本当のガバナンスは州と地方のレベルで起こっているということです。そして私は今DCに住んでいるので、ほとんどそれがそうであることに感謝の念を抱いています。

とはいえ、本質的に州間通商に関わるものがいくつかあります。

そして私は、世界全体に提供されるためにトレーニングされたモデル、トレーニングに10億ドルかかるモデル、それらのモデルがトレーニングされ、評価され、測定される基準、それらは連邦基準でなければならないと思います。なぜなら競合する基準を持つことはできないからです。

今、おそらく競合する基準を持たないかもしれません。おそらく起こるのは、最大の州が規制し、それはアメリカで常に起こることです。カリフォルニア州やニューヨーク州、あるいはテキサス州のような場所が、暗黙的に連邦的な効果を持つ多くの技術があります。一つの州が法律を作る。私はそれが失敗モードだと思います。

それは憲法の構造的な問題だと思います。建国の父たちはおそらく想定できなかったものです。なぜなら、規模の経済の概念は彼らにとって本当には存在しなかったからです。だから私は、最高裁判所の法理学の本当に難しい問題だと思います。

現時点では、カリフォルニアがデフォルトでアメリカのAIの中央規制者です。

これまでのところ、彼らは予想よりも良い仕事をしていると思いますが、それでもまだ素晴らしい仕事ではありません。だから私は、今年の彼らの主力AI法案であるSB53を大まかに支持していました。それは最大の開発者にのみ適用される透明性法案です。

そして私にとっては、全体的にかなり合理的に思えました。

もう少し現代的なAIの懸念に話を戻しますが、先ほどあなたがワシントンでの風景を説明していたとき、チャットボット精神病、子供の安全、10代の自殺についてとても懸念している共和党員のグループについて言及しました。これらはすべて、市場に出ている製品によってある程度奨励されているように思われる、今日存在する害です。

そして私たちには、テクノロジー業界に関して実際にはほとんど規制を通さない議会があります。それがイデオロギー的な理由であれ、物流的に、共和党員と民主党員が合意するのが非常に難しいだけであれ、政府が半分の時間シャットダウンしています。それも最近ますます問題になっています。

だからそのような世界では、州議員の視点は非常によく理解できます。彼らは、自分の州の子供たちに自殺してほしくない、と言います。私たちは今すぐこれについて何かをするつもりで、連邦政府ほど機能不全ではないので、そこに入って何かをしようとします。

この力学をどう見ていますか。そしてあなたの願いは本当に、州が、ねえ、私たちは関与しないつもりで、それは議会の責任だ、と言うことですか。

いいえ。私は州議員のインセンティブは理解しています、もちろん。議会が行動する必要があると思います。私の見方はより積極的です。議会がこれに対処する必要があると思います。これは議会が対処する必要がある問題です。州議員を非難しません。

時々非難することがあります。時々、彼らを不十分な法令起草で非難します。それについては言い訳はありません、対吧?彼らの仕事です。そして私は時々議員にこれを言います。彼らは、まあ、裁判所に任せましょう、と言います。そして私は、いいえ、あなたも憲法に対して宣誓したんですよ、裁判官だけじゃなく、と言います。

しかし、自分の州の子供を保護したいという一般的なケースについては、いいえ、もちろん彼らを非難しません。

少しズームアウトして、AIと分極化について質問したいと思います。今のところ、AIはこの奇妙で混乱した前分極状態にあるように感じます。問題が十分に重要になるか十分多くの人々にとって重要になると、分極化マシンのようなものに通され、もう一方の側から出てくると、共和党員が一つの立場を取り、民主党員が別の立場を取るようなものがあります。

AIについても似たようなことが起こると思いますか。つまり、どの政党に投票するかに基づいてAIについてどの見方を持っているかが非常に予測可能になるのでしょうか。

おそらくもっと起こりそうなのは、時間とともに分裂し、人々が話す異なるものがあるということです。だからデータセンターがあり、中国との競争があり、それが問題になり、ソフトウェア側の規制があり、子供の問題があります。

そして最終的にはそれは同じように分裂するでしょう。今日、私たちはコンピューター政策やインターネット政策について話しません。インターネット政策は90年代には存在しました。インターネット政策は存在しました。しかし今では、ソーシャルメディア、プライバシー、その他のようなものです。そのように分裂すると思います。

それらの問題自体が分極化されるでしょうか?ええ、おそらく。ある程度は分極化されるでしょう。

ただ、私は希望しています。これはアクションプランにとっても非常に重要な部分です。アクションプランでは、問題のすべての側面が分極化される必要はありません。

正当なテールリスクタイプの出来事、国家安全保障問題があります。それは成熟した責任ある方法で対処することが連邦政府の義務だと思います。Ezra Kleinが以前、彼のことは聞いたことがありません。彼の仕事には詳しくありません。

彼が政府をリスク管理における壮大な事業と表現するのを聞いたことがあります。それは基本的な意味で真実だと思います。非常に真実だと思います。だから私たちが対処する必要があることがいくつかあります。もちろん、技術を受け入れ、成長させるために必要なこともたくさんあります。それも重要な部分だと思います。

しかし、共和党員として言うのはそれほど議論の余地がありません。今おそらくもっと議論の余地があると言うのは、ああ、正当なリスクがある、そしてそれらのリスクに対処することが超党派であることを願っています。本当に、壊滅的なテールリスクに対処できなければ、私たちは正当な政府を持っていないからです。政府の全体のポイントはこの問題に対処することです。

もしそうできなければ、Michael Dellが90年代のAppleについて言ったように、それを捨てて株主にお金を返すべきです。本当にそう信じています。

その点について具体的に話しましょう。今日のアメリカのAI政策を見ると、大手フロンティアラボがほぼ望むものすべてを手に入れているのが見えます。ラボと政府の間に高度な整合性があるように見えます。

例えば安全制限に関して、彼らが次の2、3のフロンティアモデルを構築することを妨げているものはあまり見えません。AIアクションプランには、あなたが言及したそれらの壊滅的なリスクのいくつかに対処することを意図したコンポーネントがあります。それが実際にどのように機能するか教えてください。業界が望むものすべてを手に入れることをやめる瞬間はどこにありますか。

ここで言えることはたくさんあると思います。最初のことは、フロンティアラボで働く多くの人々、ラボについて話すことはできませんが、上級レベル、非常に上級レベルまで、個人的に多くの人々を知っていますが、彼らはこれらの問題に対処したいという真剣な願望を持っており、企業として実際のリソースを投資しています。彼らがそうする理由の一部は、インセンティブを持っているからです。なぜなら、例えばパンデミックを引き起こした場合、彼らの企業は破産するからです。

もう一つは、これらの問題の多くは非常に対処可能だということです。これらが私たちがこれまでに対処した中で最も困難な問題であるかのように行動する必要はありません。

公共政策の経験を持つ私にとって、そしてちなみに、これは私が政府で会った30年のベテランでテールリスクについて考えてきた人々の姿勢です。

彼らにとって、AOIバイオリスクやAIサイバーリスクについて持ち出すと、彼らは、ああ、深刻なリスクのようですね。オーケー、フロリダに向かって追跡しているハリケーンがあります。それに対処しに行きましょう、という感じです。これらのことは毎日政府にいるとデスクに来ます。

これらは、多くのお金を使わずに現在の技術と近い将来持つであろう技術で、近い期間に非常に対処可能な問題です。AI開発を本当に意味のある方法で遅らせることを含まない、それらに対して得られる多くの牽引力があります。

テールリスクを軽減することとAI開発を遅らせることの間にトレードオフがあるという見方に反論したいと思います。常にそうなるでしょうか?いいえ。ある時点で、トレードオフがあるでしょう。それらのトレードオフを行わなければならず、それらは困難です。そして私がどこに落ち着くかを知るのは難しいです。なぜなら詳細に依存するからです。

しかし今のところ、私たちにはこの素晴らしい機会があります。ああ、AI開発を加速することができ、より良いバイオセキュリティも持つことができます。ちなみに、それはChat GPTが存在する前からの問題でした。それについての全体のパンデミックがありました。

時々、AI政策に取り組んでいる人々や、AIに取り組み政策について考えている人々と話すと、彼らは、壊滅的な出来事が起こるまで、意味のあるAI規制は得られないと思う、と言います。

Dean、本当にそのようなことが議会でAI政策に関する重要な動きを本当に触媒するのに必要だと思いますか。

可能性はあります。つまり、壊滅的な出来事はもちろん起こりうるし、議会での動きを触媒する可能性があります。

他の方法でこれを達成する方法があると思います。本当にそう思います。壊滅的な出来事がなくても漸進的な進歩を遂げることができると思います。

今、多くのことに依存します。AI安全コミュニティの多くの人々、またラボにいてAI安全を気にする人々も、これを言うでしょう。それは非常にAnthropicタイプの立場です。

完全に透明にすると、これを様々なラボの人々から聞いたことがあります。彼らは、ああ、私たちが本当に能力があるとは思わない、という感じです。特にこの議会をノックするというわけではありません。政府は事前に物事を規制する能力があるとは思わないというようなものです。

政府がほとんど反応的な姿勢にいることは大丈夫です。特にテールリスクではないものに関しては。テールリスクは一つの例外です。なぜなら、それらは非常に非常に有害である可能性があるからです。だからそのリスクを軽減するために事前に何かをしたいのです。

しかし、AIからの他のほとんどの害に関しては、政府が実現した害に反応するだけで私は快適です。それが実現した害で、私たちはそれが続くと思う領域では。既存のコモンローの責任システムによって適切に解決されていないように見えます。それは害を受けた人々が害を与えた人々を訴えることを可能にします。

そしてそれは対象を絞った法律を通じて意味を持って対処できます。そしてそれらすべての条件が満たされれば、私たちは完全にその法律を可決すべきです。子供の安全はこのカテゴリーにあると思います。

Dean、来てくれて本当にありがとうございました。本当に魅力的な会話で、人々はあなたの執筆をチェックすべきです。あなたのウェブサイトはhyperdimensionalです。本当に楽しかったです。ありがとうございました。

ありがとう、Dean。

戻ってきたら、カナダの毛皮貿易についてこれまで言ったことがない以上のことを言うでしょう。

カナダの毛皮貿易ではありませんでした。ニューヨーク州北部の砂糖貿易でした。それらは私が理解していない方法で関連しています。

歴史ミステリー

さて、Scoobyギャング、今日はミステリーがあるので、古いミステリーマシンに乗る時間です。

その通り、ガムシューズ、ノートと拡大鏡を持ってください。いくつかの手がかりがあり、私たちは事件を大きく開こうとしています。

これは歴史ミステリーです。歴史家がAIモデルを使って実行した実験が含まれます。すぐに歴史家とそれについて話しますが、Caseyさん、少しシーンを設定するために、この新しいGoogle Gemini 3モデルについて今たくさんの噂が飛び交っています。

本当にそうです。Gemini 2はほぼ1年前の去年12月に出ました。そしてGoogleは年間を通じてそれを更新してきましたが、この秋、Gemini 3について増加する囁きを聞いています。それが本当にかなり素晴らしいという噂です。

Alex Heathは数週間前、Gemini 3が12月に出ることを期待していると報告しました。新しいモデルのリリースに先立って起こることの一つは、企業がそれらを静かにテストすることです。それが今日の私たちのストーリーにつながります。

はい。Mark Humphreはカナダのオンタリオ州のWilfred Laurier Universityの歴史教授です。彼は多くの古い文書を含む研究を行い、これらの文書の筆跡を解読しようとしています。

そして彼はまた、AI早期採用者のようなものです。彼はGenerative Historyと呼ばれるSubstackを持っており、彼の研究問題のいくつかを解決するためにAIを使用した彼の実験について書いています。

最近、彼は「Googleは静かにAIの最も古い2つの問題を解決したのか」と呼ばれる投稿をしました。その中で彼は、Google AI Studio内でこれらのテストモデルの一つを使用して実行した本当に魅力的な実験を説明しました。Google AI StudioはGoogleの製品で、様々なモデルを実験できます。彼は、このミステリーモデルから返された応答が、彼の首の後ろの髪を逆立たせたと言います。

これは彼にとって非常に驚くべきものでした。それらが非常に良かったからだけでなく、彼が他のAIモデルで見たものとは異なる種類の能力のように見えたからです。

そしてミステリーは、Markが使っていたモデルは何だったのか、です。しかし、より大きなストーリーは、この歴史家が、大規模言語モデルが行っているこの非常に珍しいものを見つけて、彼が感銘を受けた程度が意味することは何かだと思います。

私たちは、誰かが任意の時点でどのモデルを見せられているかを正確に判断するのは非常に難しいと言うべきです。これらのプレリリーステストの方法は、企業が1%のユーザーに1つのモデルを見せ、別の1%のユーザーに別のモデルを見せて、2つを比較するように求めるようなものです。彼らはそれらに奇妙なコード名を付けます。何を使っているかは教えてくれません。

その通りです。だからこれの周りにはまだいくつかの不確実性があります。これは単にワンオフだったかもしれません。Gemini 3が実際に出てきたときに実際に何をするか、明らかに見る必要があります。

しかし今のところ、これは非常に興味深いストーリーだと思います。それはAIモデルが自分の分野の専門家さえ驚かせることをし始めている方法を指摘しているからです。

そしてそれらの理由のために、Mark Humphreを連れてきて、彼が見つけたことについて話す時間です。

Kevin、あなたはアメリカの歴史家とカナダの歴史家の違いを知っていますか。何ですか。カナダの歴史家はデータを処理しますが、アメリカの歴史家もデータを処理します。それは本当ですか。ええ、本当です。

では、Markと話しましょう。彼は好きなように発音できます。Hell yeah、ブラザー。

Mark Humphre、Hard Forkへようこそ。お招きいただきありがとうございます。今日どこであなたに会っていますか。カナダにいますか。そこで何が起こっていますか。

はい、カナダのオンタリオ州のWaterlooにいます。Wilfred Laurier Universityの私のオフィスにいます。

Waterlooですか。常にAIコンピューター科学者に囲まれているに違いありません。Waterlooには多くのスタートアップと多くのAI研究者と多くのコンピューター企業があります。はい。Blackberryの故郷です。その通りです。Rim Parkです。

この新しいミステリーAIモデルとの最近の遭遇の詳細に入る前に、過去1年ほどで歴史研究でAIをどのように使用してきたか教えてもらえますか。

もちろんです。私の研究パートナーであるLeanne Letyと私は、彼女のラボもこれすべてに関わっていますが、膨大な量のデータを処理する方法を開発しようとしてきました。主に毛皮貿易に関連する手書きです。

それにはいくつかのことが含まれます。筆跡を正確に認識しようとすることが含まれますが、基本的にすべての記録のメタデータを生成しようとすることも含まれます。何万もの記録について、それらの記録に何があるかを理解し、それらの間につながりを作ろうとします。

だから私たちは、AIモデルができることのちょうど閾値にあるようなタスクで活動しています。過去数年間、モデルが良くなり、これらのことのいくつかができるようになるのを見るのはちょっと興味深いことでした。そして進むにつれて新しい限界を見つけています。

あなたが一般的に行っている仕事について少し教えてください。あなたが古い文書を使用することに本当に焦点を当てていることは知っています。どのような種類のストーリーをまとめようとしているのですか。

私は常に普通の人々のストーリーに本当に興味を持ってきました。毛皮貿易で、18世紀と19世紀の普通の人々に何が起こったのかを理解しようとするとき、問題は多くの人々が識字していて、書かなかったということです。

そして彼らは生活の過程で生成される多くの文書に登場しますが、これらは結婚死亡記録、会計帳簿などのようなものですが、それは多くの探偵作業です。断片化された文書からストーリーをつなぎ合わせようとしています。誰かがある場所で買ったもの、別の場所で署名した契約、別の場所での洗礼記録、それを行おうとしています。

それが私たちがやろうとしていることです。Letyと私が大学院生と一緒にやろうとしているのは、これらの普通の人々についてのストーリーをつなぎ合わせ、それらが私たちに何を教えてくれるかを理解することです。北アメリカの西部地域の毛皮貿易で、1760年頃から19世紀初頭までの期間です。

Kevin、興味深いですね。Starbucksに行ってレシートをくれようとするたびに、今ここで起こったことについての書類は必要ない、と思います。モカを持って出て行きます。しかしMarkが言っているのは、その文書が将来の歴史家にとって私たちの生活を理解する上で大きな価値を持つ可能性があるということです。

その通りです。彼らは知りたがるでしょう。入りましょう。Markさん、この転写に使おうとしたGeminiとのこの経験について教えてください。基本的に、毛皮貿易についての非常に古い文書を取り出して、それを入力して、これが何を言っているか転写してください、と言いました。これについて教えてください。

なぜこれが重要または大きな発展である可能性があると思われるかを理解するには、この2年間でどこから来たかを理解することが重要だと思います。GPT4が2023年に最初に出たとき、手書き文書をある程度読むことができました。

ほとんどがエラーでしたが、これを始められることがわかりました。そして企業やシステムが約90%の精度に達するのは本当に簡単でした。しかし90%を超えるすべてがかなり困難でした。そして問題は、最後の10%が最も重要な部分だということです。

人々の名前に興味があり、金額に興味があり、彼らがどこにいたかに興味がある場合、それらのものを正しく取得しなければなりません。それを有用にするために。去年の春にGemini 2.5 Proが出るまで、私たちはまだその時代にいました。そしてGemini 2.5 Proは約95%の精度に達しました。それは本当に良いです。

だから私が興味を持ったのは、Xで、GoogleがAI Studioで新しいモデルをテストしているという報告を見始めたとき、それはリリース前に実験できる遊び場アプリのようなものですが、これがどれだけ良くなるか興味がありました。

オーケー、これらの噂を聞いていました。Googleがリリース前にテストする新しいモデルがAI Studio内にあるというこの新しいミステリーモデルがあります。何をしましたか。

Letyと私は、時間とともにこれらのモデルがどのように改善されるかをベンチマークするために使用してきた50の異なる文書のコーパスを持っています。それらはすべて、トレーニングデータに含まれていないとかなり確信している文書です。なぜなら、私たち自身が撮影したか、通常オンラインではないソースからのものだからです。

100%確信することはできませんが、そうであるように思えます。だから私はそれらの文書のいくつかを入れ始めました。そしてあなたのリスナーが知らないかもしれないことですが、これらのタイプのモデルのテストが機能する方法は、テストしたいモデルにヒットする前に、文書を何十回も入れなければならないことです。なぜならランダムに現れるからです。だからそれは簡単なことではありません。

私は約5つの例、約1000語をテストすることができました。結果は控えめに言っても印象的でした。エラー率がGemini 2.5 Proからあった場所から約50%減少したという意味で。そして約1%の単語エラー率に達しました。つまり100語ごとに明らかに1つの誤りを得ています。

しかし、それには大文字化エラー、句読点などのようなものが含まれます。それ自体が本当に重要です。どのモデルもそれに近づいていません。生計のために転写を行う人間の専門家は約1%のエラー率を提供します。だからそれ自体がかなり重要です。

この新しい実験モデルを使用したという感覚は、何十もの何十ものクエリを入力し、時々他のものよりも根本的に良い結果を得て、ああ、新しいものを得ているに違いないと思ったのか、それともGoogleがあなたに見せているものについて他の兆候がありましたか。

ABテストです。つまり、通常、AI Studioでクエリを入れると、応答が返されます。そしてABテストを得ると、2つの応答が返され、どちらが良いかを評価するように求められます。

そしてラボはこれを行います。フィードバックを得るためです。特定のタイプのタスクで、モデルが実際に他のものよりも良いのかを知るためです。だからそれらの2つの応答の1つを得るために20回または30回行う必要があるかもしれません。そして違いはかなり顕著でした。

全体のエラー率が約50%低下したとおっしゃいました。しかし、実際には、この新しいモデルで最も感銘を受けたのはそれではありませんでした。最も感銘を受けたのは何でしたか。

まず、それは印象的でした。そして私は、オーケー、表データではどうなるだろうかと思いました。歴史家として、あなたのStarbucksの例に戻ると、私たちが扱うものの1つは、過去の商人から来るレシートと元帳です。

その多くはかなり退屈ですが、誰かがどこにいるかを知りたい、ある朝どこでコーヒーを買ったかを知りたい、その人の動きを追跡したい場合、これらのタイプの文書を使用してそれを行うことができます。何を買ったか、そのようなことすべてを見ることができます。

これまで、モデルは表データではかなり悪かったんです。非常に、キャッシュレジスターのレシートシステムが保管されているようなものです。だからその場限りで、誰も必ずしも後で読むことを期待していません。だから見ただけでは解釈するのが難しいです。

また時々急いで書かれます。だから人々が慣れているよりもさらに悪い筆跡です。そしてそれは歴史的な文書なので、この場合、私はニューヨーク州北部のアルバニーからの18世紀の記録を扱っています。

そしてそれらの記録はポンド、シリング、ペンスで書かれています。だからそれは古い、異なる基準です。異なる形式の通貨測定があります。

だから私がこの元帳からランダムにページを入れたとき、私は何が返ってくるかを見たくて好奇心がありました。そして突然、それは完璧に近い転写で返ってきました。これ自体は、ページ上に実際に何があるかを理解するのがどれほど難しいかを考えると、かなり驚くべきことでした。

しかし私がエラーを探し始めたとき、エラーを見つけようとしていました。そしてそこで見ていたものの一部がエラーのように見えるものは、実際には明確化であり、モデルがいくつかの本当に興味深いことをすることを要求したことに気づき始めました。

例を挙げてください。

もちろんです。実際の元帳文書では、私たちが扱っているのは、デイブックに記録された一連のエントリのようなものです。だからこれは、人々が店に来て物を買っていて、キャッシュレジスターシートのように記録されています。

私が特に見ていた一つのケースで、基本的に言っているのは、Samuel Slitが3月27日に来て、1 loaf of sugar at 4145 at 14191と言っています。それを実際に分解すると、Samuel Slitという名前の人が店に来たということです。彼は1 loaf of sugarを買いました。

あなたがご存知なければ、18世紀では、砂糖は硬い円錐形で来て、彼らは破片を割って売ります。そして145 sold at 1シリング4ペンス per poundと言い、合計は0シリング19と1ペンスです。これは古い表記ですよね。

しかし実際のモデルの応答で私が見たものは、実際には1 loaf of sugarで、14ポンド5オンスと測定されたことを理解していました。1シリング4ペンスで売られ、合計です。

それが重要なのは、ページに書かれたランダムな数字145が、それが14ポンドと5オンスであることを理解するために、モデルは異なる基準を持つ異なる通貨システムから逆算できなければならなかったということです。

それが重要なのは、モデルがそれをできるべきではないということです。これらのモデルがトレーニングされる方法は基本的にパターン認識です。彼らがやろうとしているのは、次のトークンを予測することです。

だからここでの最初の問題は、数字を予測することは実際にモデルにとって非常に難しいということです。モデルにはSamuel Slitが14ポンド5オンス買っているのか、13ポンド6オンス買っているのかの考えがありません。それは実質的にランダムな数字です。確率的ではありません。

もう一つの問題は、トレーニングデータにこの種の古い通貨システムに関連する多くの材料があるでしょうが、実際にはそこにある材料の実際のパーセンテージという点ではそれほど多くないということです。なぜなら、存在するすべての記録の全体の合計という点で、これがそこにある量は非常に少ないからです。

だから私たちがそれについて考えているとき、モデルはいくつかの興味深いことをしなければなりません。私には、それは記号的推論の形のように見えます。

共通の基準ペアを持たない異なる測定単位を扱っていることを頭の中で知っていなければなりません。掛けたり割ったりするためです。そして、これらの測定単位は、いくつかの変換を行う限り、実際には比較可能であることを抽象的に認識しなければなりません。そしてそれらを頭の中で動かして理解しなければなりません。

これは私が一瞬考えて、実際にモデルが数学的に正しくて予期しないことをしたことに気づかなければならなかったものです。

あなたの仕事にとって、モデルがこの種の抽象的推論を行えることの意味は何ですか。

そして歴史家として、それが意味するのは、これが実際のモデルが出てきたときに再現されると仮定すると、歴史家が通常行う必要がある多くのことをモデルに信頼できるようになるということです。だから文書を転写することは一つです。元帳があります。行ってこの元帳で買われて売られたすべての砂糖を合計してください、と言うのは別のことです。

今のところ、そのようなことをするためにモデルを信頼することはできません。砂糖を必ずしも認識できるとは信頼できません。数量を思いつき、そのタイプの計算をすることができるとは信頼できません。

モデルがそれを始めることができる地点に達しているなら、人間が非常に長い時間がかかるタスクをさせ始めることができます。

そして、それは、AIコーディングツールが、プロの プログラマーのための有用なアシスタントであることから、実際に非常に最小限の指示で自分自身でプログラミングに出かけることができるようになった瞬間のようなものに聞こえます。歴史にとってそのようなものですよね。

そしてそれは本当に良い例だと思います。しかし興味深いのは、歴史についてのことは、私は典型的な知識労働の種類の領域だと思います。私たちがやっていることの多くはかなり難解で、リスナーは、18世紀のアルバニーで人々が買った砂糖の量に本当に興味があるのは誰なのかと疑問に思うでしょう。

Caseyは興味があります、でも彼はあなたと同じレベルです。私はこのSamuel Slitと彼がなぜ14ポンドの砂糖を必要としたのかに本当に興味があります。落ち着いて、サム。

彼は商人です。他の人々にも売りたいのです。ああ、彼はディーラーです。理解しました。彼は砂糖ディーラーです。

しかしこれについて興味深いのは、私たちが歴史家としてこれらの歴史的記録で行うことは、すべての知識労働者が行うことだと思います。情報を取り、それを統合し、一つの形式から取り、別の形式に入れ、読んでいることの意味を理解し、それに基づいて結論と分析を引き出します。

18世紀の砂糖である可能性がありますが、知識労働者が使用する他の種類のウィジェットである可能性も非常にあります。

だから私が歴史家のためにここでオンになっているのを見ているものは、他の分野でもオンになり始める可能性が非常に高いです。これまでモデルは、ああ、この出力を信頼できると感じられるくらい良くなってきているという感覚を得ていました。でもそれが単に機能するという点に達しています。

そしてコーディングアシスタントを常に使っている人として、それは非常に似た状況です。以前は、コピーアンドペーストを何度も繰り返さなければならず、最初は決して実行されませんでした。エラーを何度も3、4回実行して、何度も前後に渡さなければなりませんでした。そして最終的には機能します。

そして今、ボタンを押すだけで、ほとんど常に機能します。それが知識労働でも見ることになるものです。

これを非常に興味深いものにする核心に絞りたいと思います。この瞬間、これがGemini 3であることはわかりませんが、KevinとI私はGemini 3である可能性が非常に高いと感じています。そしてもしGemini 3であるなら、正確にどのようにトレーニングされたかについてもあまり知りません。

しかし前任者がトレーニングされた方法でトレーニングされたと仮定できます。つまり、より多くのデータ、より多くの計算を投入することによってです。スケーリング則に従っているだけです。

そして過去一年間、これらのスケーリング則から収穫逓減を見ているのかについて多くの議論がありました。スケーリング則から得られるものの限界を理解したのではないか、と。

Markさん、あなたが私たちに話しているストーリーは、いいえ、この増加したスケーリングから得られるものすべてを手に入れていないという示唆です。実際、この継続的なスケーリングから引き続き新しい特性が現れることを期待すべきです。そしてあなたはまさにその例をそこに示してくれました。だからこそ、これが非常に魅力的だと思うんです。

その通りです。私はこの実験に魅了されて、ここで実際に何が起こったのかを突き止めたいと思いました。だから、知っている立場にある何人かの人々に聞いてみました。「ねえ、カナダに歴史学の教授がいて、彼はこの未発表のGemini 3 ABテストに偶然出くわしたと思っていて、それは本当に良かったんだ」と。

そして彼らは「私の番号を消してくれ」と言いました。いいえ、彼らは非常に口が堅かったです。それについて話したがりませんでした。あそこでは物事を非常に秘密にしています。しかし、Googleが新しいモデルを他の場所に現れる前にAI Studioでテストすることを確認できました。

だから私が賭ける人なら、あなたが経験したのは実際には未発表のモデル、おそらくGemini 3であるというのはかなり良い賭けだと思います。

Kevin、私は最近AI Studioに自分で入って、このモデルを試せるかどうかを見ていません。このモデルにアクセスしようとする努力をしましたか。

はい。私はAI Studioを使っています。人々が知らないことですが、Googleは今800のAI製品を持っています。Geminiを使う方法は80億通りあります。

最も効果的な方法、Geminiを使う最良の方法は、基本的に開発者とMarkさんのようなオタク以外は誰も使わないこの製品の中です。それはGoogle AI Studioと呼ばれています。そこに入ると、理由はわかりませんが、Mark、あなたもこれを見つけますか。でもモデル、AI StudioのGeminiのバージョンは、ウェブ上のものより良いんです。理由がわかりません。

しかしこれは、通常の古いGeminiがやらないようなこと、長いインタビューの転写のようなことを、AI Studioにやらせることができるものです。とにかく、今朝そこにいました。実際にSuncatcherについてのセグメントのための研究をしていました。このGoogleのプロジェクトについて、AIを宇宙に置くことについて。

そして私はこの研究論文を要約させて、他の企業がやっていることとの比較でいくつかのアイデアを与えようとしていました。そしてこのABテストを得ました。これらの2つの答えの間で選んでください、というようなものです。そして「どちらの応答を好みますか?」と言っています。そしてこれら2つの並列のものがあります。そして基本的に両方ともかなり良く見えます。

私が特定している問題は、Markさん、あなたと違って、私は、かなり良いモデルと非常に良いモデルの違いがすぐに明らかになるほど十分に困難な問題を思いつくほど賢くないということです。だからおそらくあなたが私を助けてくれるかもしれません。

まあ、ここにアイデアがあります。Markさんは毛皮貿易の1700年代と1800年代に本当に焦点を当てていることを知っています。1500年代についてはどうですか。きっと進歩できると思います。

まあ、それを調べてみます。まったく魅力的な経験でした。あなたがAIと歴史でやっていることについてもっと聞くのが待ちきれません。これは本当に興味深いミステリーで、今日それに光を当てられたことを願っています。

ありがとう、Mark。お招きいただき本当にありがとうございました。

コメント

タイトルとURLをコピーしました