最新AI情報第219回 – GPT-5、Opus 4.1、OpenAIのオープンソース、Astrocade

今週は人工知能分野にとって重要な一週間となった。OpenAIがGPT-5をリリースし、これは同社の全モデルを統合した新しいルーティングシステムである。AnthropicはClaude Opus 4.1を発表し、コーディング能力を向上させた。Googleは深層思考モデルGemini Deep Thinkを投入し、数学五輪での成果を実現したモデルへのアクセスを提供した。OpenAIは2019年以来初となるオープンソースモデルGPT-O1-SSを公開し、エンタープライズ市場での競争が激化している。さらに、各社の巨額投資や収益報告、中国のAI戦略に関する動向も注目された。

Last Week in AI #219 - GPT 5, Opus 4.1, OpenAI's Open Source, Astrocade

Our 219th episode with a summary and discussion of last week's big AI news!Recorded on 08/08/2025Find links at h...

今週のAI情報ポッドキャスト開始

最新AI情報ポッドキャストへようこそや。いつものようにAI界隈で起こってることについて話していくで。今回のエピソードでは、先週の最も興味深いAIニュースをまとめて議論していくわ。ちなみに先々週はお休みしてもうたんやけど、まあええタイミングやったかもしれへんな。エピソードの説明欄で、今回議論する記事の一覧とタイムスタンプを確認できるで。

僕は通常のホストの一人、Andre Reovaや。大学院でAIを学んで、今は生成AIスタートアップにおる経歴を持ってる。そして僕はもう一人の通常ホスト、Jeremy Harrisや。Gladstone AIの共同創設者で、AI国家安全保障関連の仕事をたくさんやってる。

先週についてこんな話をしてたんや。ほんまに何もない週やった感じで、いろんな理由でその週はポッドキャストを録音せんかったんや。まあ、みんなも特に何か見逃すってことはないやろうなって思ってたんやけど、たまに変わったことはあったし、それは今週取り上げるつもりや。

ところが突然、もうびっくりするわ。OpenAIから2つのオープンソースモデルが出て、GPT-5がドロップして、Claude 4.1が発表されて、Gemini 2.5 Deep Thinkが投下されたんや。ほんまにたくさん、たくさんのことが起こった。そしてもちろん、これらの発表一つ一つにモデルカードやシステムカード、お決まりのMeritの評価スイートがあって、我々が調べなあかん資料が山ほどあるんや。だから今日はカバーすることがぎょうさんあるで。

今年はこんなことが何回もあった気がするわ。主要プレイヤーたちがみんな同じタイミングで発表したがるみたいで、たぶんみんなの注目を集めて、置いてけぼりにならんようにしたいんやろうな。今週は間違いなくそんな重要ニュースが集中した週やった。

だからGPT-5についてはかなり話すし、Opus 4.1についても話すで。それからビジネス面では実際に興味深いストーリーもあって、収益のアップデートや資金調達の可能性についても話すわ。ディスカッションに入る前に、僕が取り組んでるものを軽く宣伝させてもらうで。Astrocadeっちゅうやつや。最近大型アップデートをリリースしたんで、エピソード説明欄にリンクを貼っとく。「Astrocade、AIエージェント搭載ゲーム作成体験をロールアウト」っちゅう記事まるまる載せとるわ。バイブコーディングに全力投球したからな。

もしゲームをバイブコーディングしたかったら、エピソード説明欄を見て、僕が大半の時間何をやってるか、なんでポッドキャストが時々遅れるかを確認してもらえるで。

GPT-5の大発表

さあ、今週の大きなストーリーに入っていこか。ツールとアプリから始めて、もちろんGPT-5から始めるで。これは昨日起こったばかりで、OpenAIの大きなライブストリームの一つやった。過去一週間のほとんどでみんなこれが起こることを知ってたわ。

我々が見たのは、ある意味興味深い展開やったと思うで。まずOpenAIが他の全モデルを廃止したんや。GPT-5がOpenAIの唯一のモデルになったんや。GPT-5がどうやら彼らの全モデルを一つに組み合わせたもののようやな。だからgpt.comのユーザーがクエリを入力したら、そのクエリを受け取るルーターがあって、複雑な推論モデルか、より単純なモデルのどちらかに振り分けるんや。O3対GPT-4Oみたいな感じやな。

予想通り、この種のもので、SWE Benchで検証されたベンチマーク、GP-4ダイアモンドなどでの様々な改善が発表されたわ。

経験的な面での一般的な印象をまとめると、GPT-5は全般的に良いモデルや。改善されてるし、Gemini 2.5 ProやClaude 4なんかの他の主要モデルと肩を並べてる。めちゃくちゃ大きな飛躍ってわけやないけどな。どちらかというと、OpenAIにとってはモデルそのものというより、製品アップデートとインフラアップデートの側面が強いように見える。

知識のカットオフは2024年9月や。だから、これはトレーニングとインフラ、開発の組み合わせっちゅう風に考える理由がたくさんあるんや。それが僕の見解やけど、Jeremyも感想を聞かせてくれるか。

そこで一つ修正があるとすれば、彼らは確かにベースモデルやないけど、全てのフィーダーモデル、つまりルーティングされるモデルの更新版をリリースしたんや。だからこれは君が言ったようにクエリを受け取ってルーティングするルーターでもあるし、生成を行う下流モデルのアップグレードでもあるんや。

その意味で、これって実際何なんやろうか？確実にどれか一つのモデルというより、システムやな。彼らは近い将来にこれらの能力を全て単一モデルに統合する計画やと言ってる。これはSamが長い間表現してきたビジョンやな。異なるモデル間でモデルセレクターを使うのはLLMと対話する最も自然な方法やないって感じるっちゅう考えや。

質問を投げかけて、どのサブモデルが処理するかをシステムに決めさせるか、各クエリにどれだけの努力を投資するかをより適切に決める一つのモデルを持つっちゅうのがもっと自然やろう。もし彼の読みが正しければ、GPT-4がどうなったんやとか、TwitterでハッシュタグsaveGPT-4みたいなミニトレンドが起こってる今の状況での不満は、たぶんSamが正しければ一時的なもんとして見られるんやろうな。

人々はそんなことを考えんようになるかもしれん。これによってOpenAIは他のラボより早く、「全てを支配する単一モデル」または単一インターフェースというユーザー体験コンポーネントを実験できる興味深いポジションに立ってるんや。だから面白いんやけど、それがどうなるかはわからんな。人々がそのレベルのコントロールを欲しがって、モデルを選択できることが持続的なもんかもしれんし、誰にもわからんで。

もう一つの部分は評価の一部や。このシステムの幻覚率は以前のモデルで見たものより本当にずっと低いんや。O3の幻覚率の6分の1、思考モードでのO3のエラー率の5分の1や。だから、モデルの出力をより信頼性が高く、より真実にするためにかなりの努力が払われてるように見えるな。これは全て、OpenAIが取ってる新しい方向の一部で、完全にアライメントやないけど、安全性ファインチューニングみたいなもんで、ユーザーの意図に対するバイナリ分類やなくて、アシスタントの出力に拒否メカニズムを中心に置いてるんや。

過去には、ChatGPTにクエリを書いたら、あなたのクエリを見て「これは安全なリクエストか、それとも誰かが死体をどう埋めるかとか爆弾の作り方を聞いてるのか」を決める分類器があったんや。その出力によって返ってくるレスポンスが決まってたんやけど、ここで彼らがやってることは、ユーザーがどんなクエリやリクエストをしようと、それを受け取って、モデルが応答として生成する出力に焦点を当てるって言ってるんや。

危険やと思われる狭い部分を難読化しながら、できるだけ答えようとするような感じでその出力を修正するんや。だから結果として見られるのは、膝反射的な「いや、その質問には答えません」っちゅう反応やなくて、危険やと考える狭い部分を隠しながらできるだけ答えようとするモデルやな。

昨日の一連のリリースの一部として出たペーパーがあるんやけど、そのペーパーの2ページぐらいしか読んでへんから、この説明はそこから来てるんや。だから来週もっと詳しくカバーすることを期待してもらえるで。とにかく、これは興味深いリリースや。

最後に言いたいのは、もちろん全てのフロンティアモデルリリースでそうやけど、Meritの評価スイートが出てきたことや。ここで何点か注意すべきことがある。MeritはGPT-5にリリースの4週間前にアクセスを受けたんや。これは以前のMerit評価ラウンドに比べて興味深い改善で、確か一週間や二週間のアクセスしかなくて、それについて不満が出てたんを覚えてる。だからそれは修正されたか対処されたようやな。

Meritの評価で考える時の重要な数字は、この50%時間ホライズン指標や。これは「人間がタスクを実行するのにかかる時間の長さに対して、このモデルが50%の成功率に達するのは何分か」っちゅう質問に答えるもんや。様々なタスクがあって、人間が完了するのに5分かかるもの、5時間かかるもんがある。モデルが50-50の確率で成功する可能性があるタスクの長さはどれぐらいかっちゅうことや。

以前のモデルでは1時間45分ぐらいやったのが、今回は2時間17分になったんや。ここで注意すべき重要なことは、これが本当に新しいトレンドの形成を示唆し始めてることや。

歴史的に、Meritは2019年から現在まで全てのフロンティアモデルの全てのモデルリリースを見て、最適な線を引いたんや。その最適な線は、基本的に7ヶ月ごとにこれらのモデルが自律的に完了できるタスクの長さが倍になってるって教えてくれた。これは実際にRoganで話したことでもある。これがちょっとした大きなトレンドやった。

そのときRoganでも話したんやけど、確かClaudeモデルの一つがリリースされたばかりで、プロットを実際に見ると、最新の3、4個のモデルでより急な傾斜が現れ始めてるような感じがしてたんや。今や5個ぐらいのデータポイントが追加されて、その線が本物やということが本当に見え始めてるんや。

その新しい線は4ヶ月の倍増時間を持ってる。だからそれを外挿すると、2028年頃には一ヶ月間の完全自動タスクにヒットすることになる。一ヶ月間のタスクをAGIっぽいもんとして考えるなら、それはタイムラインについての君の考えに影響を与えるはずや。

だからここにはかなりの曖昧さがあるんやけど、スケーリング側で実際に起こってるように見える本物の加速について、少しずつ明確さが得られ始めてるんや。

個人的には、Meritの手法にはたくさんの欠陥があると思うけど、それでも投資は見られてるから、それは言えることやな。GPT-5についてもう少し詳しく話すと、APIユーザーの場合やけど。

もちろんAnthropicは今でもエンタープライズで戦おうとしてる。モデルのAPIユーザー向けに、彼らはGPT-5の3つのバリアントを持ってる。通常のGPT-5、GPT-5 mini、GPT-5 nanoや。Claudeがopus、sonnet、haikuっちゅう風に、異なるサイズ、異なるコスト、異なる速度を持ってるのと似てるな。

現在、価格ではAnthropicを大幅に下回ってる。入力と出力コストを見ると、百万トークンあたりの出力コストはClaude Sonnetの約3分の2や。その他の技術的詳細として、OpenAIの入力コンテクストウィンドウは以前より大きくなって40万トークンになった。

それでもGeminiの100万には及ばんから、その点では他のモデルがまだリードしてるけど、うまくいけばOpenAIがその面でもっと押してくれるやろう。最大出力トークンは12万8千で、GPT-4Oと比べてかなり大きくなってる。ちょっと確認させてもらうと、GPT-4.1より大きいけど、GPT-4.1は100万トークンを受け取れたんや。

だから使用プロファイルとして興味深いパラメータセットが選ばれてるな。これは確実にウェイトの面でのトレーニングと技術面でのアップデートでもあり、同時により製品的なアップデートでもあるっちゅう考えには信憑性があると思うで。O3、GPT-4O、GPT-4.1 miniとかもあって、この時点では僕も混乱してたんや。めちゃくちゃやった。

だからOpenAIが全てを忘れて「GPT-5だけや。もうモデル選択を心配せんでええ、我々がルーティングしたる」って言うのは必要やったようやし、GPT-5として位置づけるのはすごく理にかなってる。実際、Twitter AI界隈で人々が物足りなく感じてるっちゅう感覚があったんや。Sam Altmanはいつものようにかなり煽ってて、デス・スターの画像を投稿したりしてた。

今日見てる反応は、「これは良いモデルや。改善されてる。でも巨大な前進やない」っちゅうことにみんな同意してるって感じや。だから、良いモデルやって言う人もおるし、物事を成し遂げるのに優れてるって感じで、実際にそうやと思うわ。多くの用途でGPT-5が最高かもしれんけど、GPT-4からGPT-5への飛躍から推測できるような巨大な前進やないっちゅうことやな。

Claude Opus 4.1の発表

次にAnthropicのOpus 4.1について話そか。これはGPT-5の数日前に起こったことや。このアップデートがリリースされて、Opus 4からOpus 4.1への移行やから、予想通りそれほど大騒ぎにはならんかった。いくつかのベンチマークでまあまあの改善が見られたけど、巨大な改善やなかった。

実際、Anthropicのマーケティングを笑いものにしてる人もおったな。リーディングチャートが2つのバー、前のやつと高いやつで、72%から74%やったんやけど、Y軸がかなり大きかったから、その2%の小さなジャンプがほとんど見えんかったんや。

ちなみに、OpenAIのチャート犯罪の話をしてへんかったな。ちょっとそれについて話そか。これはもっと楽しい詳細、面白い詳細やった。あまり影響力はないと思うけどな。もしライブストリームを見てたら—ちなみに僕は早めに視聴したんやけど、最初に6万人がこのライブストリームを見てたんや。

プレゼンテーション中にはデモがあったし、いくつかのチャートもあった。チャートのうちの何個かで、人々が非常に疑問な設計決定に気づいたんや。例えば、OpenAIのGPT-5がピンクでマークされてて、もちろん最も高いバーやったんやけど、値自体は最高やなかった。もっと高いはずの別のバーがあったんや。

実際に何個かの例で、正直な間違いかチャート犯罪のどちらかに見えることがあったんや。ちなみに、チャート犯罪の意図性を暗示するつもりはないで。明確にしときたいんやけど、ラボが意図的にそんなことをするのは明らかにアホやと思うわ。だって明らかに人々がそれを見て飛びつくやろうからな。

これは正直な間違いやったと思うけど、複数のプロットで起こったと思うんや。少なくとも一つやったって君は言ったけど、何個かで起こったと覚えてるわ。マーケティングチームが「バーはこんな感じに見えなあかん」から始めて、評価担当者が「これが数字や」って言って、「じゃあそれを貼り付けよう」みたいなことが起こったんかな。とにかく面白かったわ。

ブログポストのチャートは正確やったと思うから、たぶん表現の問題やったんやろう。まあ、そんなことで今週悪い時間を過ごしてるインターンがおるんやろうな。

Opus 4.1に話を戻すと、ちょっと対照的やった。Twitterの人々は、Anthropicのマーケティングチームは昇給の逆をもらうべきやとかって言って楽しんでたわ。でも大局的な話として、Opus 4から4.1への移行やから、マイナーバージョンアップに対応して、コーディングが少し良くなって、ツール使用が少し良くなって、マルチファイルコードリファクタリング、実世界ソフトウェアエンジニアリングタスクが少し良くなったって感じや。大したことやないけど、それでもまあまあの改善やった。

価格は変わらんし、Opus 4.1の考え方は、O3を確実に上回って、GPT-5と競合するって感じや。この時点では、どちらが最適かは両方試してみて、自分のタスクでどちらが良いか見るしかないと思うわ。明らかやないもんな。

ちなみにGPT-5も相変わらずemダッシュを使ってる。これもTwitterで人々がジョークにするのが大好きなもう一つのことや。知らん人のために言うと、なぜかChatGPTはemダッシュを使うのが大好きやねん。実際、太字がたくさんあって、ダッシュがたくさんあったら、チャットボットの出力やってすぐわかるんや。人間が書いたもんやないってな。

Googleの深層思考AI

次にGoogleに移ろか。実際約一週間前、GoogleはGemini Deep Think AIをロールアウトしたんや。実際これは、少なくともいくつかの指標では、全部の中で最も大きな話かもしれんな。月250ドルのUltraサブスクリプションの購読者なら、この深層思考モデルを使い始められるようになったんや。これは入手可能な最も高度な推論モデルの一種や。

これはO1やSuper Rock Heavyみたいなもんに相当するもので、問題に大量のコンピュートを投入するやつや。彼らが言うには、これが以前議論した国際数学オリンピックでの勝利を達成させたモデルやそうや。また、人間の弁護士試験で最先端のパフォーマンスを達成してて、人間の弁護士試験で34%やった。

だからすぐにでもこの試験は突破されそうやな。全般的に非常に印象的なパフォーマンスやと思うわ。この200〜250〜300ドルの月額がより一般的になってくるのを見るのは興味深いし、明らかにテストタイムスケーリングを最大限にするっちゅうパラダイムや。たぶんモデルの複数インスタンスを並列で実行して、それらの出力を比較・結合してるんやろう。

Super Rock Heavyがそれをやってるのは、我々が知ってる少しの情報からわかるし、このモデルでのIMOの成果がどう起こったかから、これもそのケースのようやな。

本当に注目すべきやし、異なるチーム間での一貫した進歩も本当に注目すべきやわ。昔GPT-3の時代には、OpenAIが他の全ラボに対して乗り越えられない8ヶ月のリードかなんかを持ってるように見えたんやけど、今は全くそうやない。

価格競争、大きな競争があって、grok、ChatGPT、Claude、Geminiのどれがあなたのタスクに最適かは本当に不明やねん。これらのラボにとっては非常に困難なポジションや。なぜなら課金できるマージンがずっと限られるからな。

だから、これらの大きなデータセンターへの1000億ドル、5000億ドルのインフラ構築を注視する中で、単一やなくて3つ、さらには4つのフロンティアラボがある時、これがどれだけ持続可能かは大きな疑問の一つやと思うわ。Metaが何をするかも見てみるで。

でもこれはフロンティアAI研究世界にとって構造的な挑戦やし、オープンソースもこれをかなり食い荒らしてる。後で話すけど、これは本当に多頭立ての競争や。

Grokの新機能

ツールとアプリセクションで最後のストーリーがあるで。大きなニュースをカバーするのにかなり時間をかけたから、Grokに移ろう。大手プレイヤーのもう一つやけど、新しいLLMはない。ロールアウトされたのはGrok Imagineで、プラットフォーム上の画像と動画ジェネレーターや。

以前はFluxとの統合があったんやけど、今回はSuper GrokやPremium Plus Xサブスクライバーがアクセスできるアップデートや。見出しになって、我々がここでカバーしてる見出しは「Grok Imagine、xAIの新AI画像・動画ジェネレーターが成人向けコンテンツ作成を可能に」や。

中にスパイシーモードがあって、少なくとも、これが削除されたかどうかわからんけど、非常に少ない制限で基本的にポルノを作らせてくれるんや。Taylor Swiftに関連するプロンプトを入力した人についての別の記事もあった。Taylor Swiftと生成コンテンツには歴史があるからな。

まず、Taylor Swiftのメディアを簡単に生成して、スパイシーバージョンをオンにしたら、Taylor Swiftが不適切なことをしてる様子を表示したんや。だからGrokはいつものように完全に無検閲になってるわけで、Googleやその他のtext-to-imageプロバイダーが絶対に成人向けコンテンツの生成を許可しないのとは完全に逆行してるんや。

まあ、そういうもんやな。実際にこれが生成するもんの例を見たらめちゃくちゃやで。これの法的含意は非常に興味深いやろうな。特に有名人の場合やけど、それでも複雑やのに、有名でない人々、オンラインに写真が何枚かあるだけで自分のAI生成ポルノを見つけるような人々を想像してみてくれよ。

そんな世界に向かってるように見えるで、この種のもんでは。だからその線をどこで引くかは本当に興味深いな。言論の自由の限界と、個人が自分のポルノ画像を作られない権利とがどう交差するかを考える時にな。そんな権利があるのかもしれんけど。なんちゅう面白い10年間に住んでるんやろうな。

ビジネスとアプリケーション

全ての製品アップデートから、アプリケーションとビジネスに移ろか。いくつかのビジネスアップデートがあるで。まず、MetaとMicrosoftの株価が強い決算報告とAI支出で上昇したって話や。これは先週起こったと思うけど、Metaの株価は11%上昇、Microsoftは4%上昇した。

両社とも予想を上回る決算を発表し、両社ともAIインフラへの投資を続けてる。だからMetaは今年の設備投資予想を以前の640億ドルから660から720億ドルに修正したんや。設備投資っちゅうのは、基本的にデータセンターとGPUに支払うと予想される金額のことや。

Microsoftは設備投資で300億ドル以上を見積もってるし、詳細もいくつかある。要するに、投資家はまだAIへの巨大な投資に乗り気のようやな。Mark Zuckerbergの最近の大量採用と、基本的に人工超知能に全力投球するっちゅう約束で、Metaに関する感情的にはうまくいってるようや。

人工超知能競争の性質は、期待値が未来の価値、人工超知能に到達した時の膨大な価値の大部分を反映してるっちゅうことや。もし最初にそれを達成するラボやったらな。だからこれが現在の収益とは独立やないけど、現在の収益以外にも、この種のもんに投資する明確なインセンティブがあるっちゅうことの背後にあるもんや。現在の収益も強いけどな。

だから、全体的に大きな驚きはないわ。我々がより多くのエネルギー豊富な地域、UAEやサウジアラビアのような場所で、少なくとも推論実行のために巨大なクラスターが立ち上がってるのも見てるで。1ギガワット、まして5ギガワット級の話をする時に費やされる金額は本当に狂気やな。

Satya Nadellaがあのダボスのインタビューで有名に言ったと思うんやけど、「僕は年間800億ドルのインフラ投資で十分や」って。これはStargateがMicrosoftが望むよりもう少し積極的に支出側で動いてるように見えたことへの言及で、それがOpenAIとMicrosoftの間の亀裂の一部やったんや。

で、800億どころか、今や年間1000億、1200億のインフラ支出を見てるようで、実際それ以来上がってるんや。これはかなり興味深いことやな。

Stargate Norwayの発表

Stargateといえば、次のストーリーはOpenAIがStargate Norwayを1300メガワットのデータセンターで設立する計画についてや。彼らはこの新しいデータセンターのアンカーカスタマーになることに同意してるんや。N Scale Global Holdings LTDAっちゅうデータセンター会社と協力して、実際に施設を建設するんやけど、他の投資家もいて、OpenAIが顧客になるっちゅうことや。

ヨーロッパの地理的にこの種のデータセンターへの投資があまりなかったっちゅう意味では大きな話やな。ほとんど中東かアメリカやった。そして、OpenAIがStargateの取り組みでどこまで行く気かのもう一つの兆候や。

1ギガワットレベルが確実に2026年後半、2027年前半にはそれらのギガワットクラスターが実際に立ち上がってトレーニング実行を動かし始める時の試金石やって話をしてたところやったわ。だからStargate Norwayサイトは2300メガワットの容量で、さらに2900メガワット拡張する野心があるって言ってる。だから全部がオンラインになったら0.5ギガワット以上を見てることになる。

彼らは10万台のNvidia GPUを見てるって言ってる。2026年やから、その時点ではたぶんRubin、実際はBlackwellとRubinを意味してるかもしれん。とにかく、これは非常に大規模なもんや。

Norwayは寒い国やから、それは助けになるわ。でも大きな焦点は再生可能エネルギーとの結びつきになるやろうし、それはヨーロッパでビジネスをする上でのコストの一部やと思うわ。少なくとも、再生可能エネルギーへの全ての焦点やな。だから完全に再生可能電力で稼働し、クローズドループ直接チップ液体冷却を組み込むことが期待されてるって言ってる。

クローズドループっちゅうのは、大雑把に言うと、チップから熱を取り除くためにチップに液体をポンプで送り込むっちゅうことや。冷却にとって大きな問題やからな。液体が加熱されて、それを外に導くポンプがあるんや。そして一つできることは、その液体の細かいミスト、細かいスプレーを作って冷却させ、それを集めてまたポンプで戻すっちゅうことや。彼らはそれをやってない。

このクローズドループを保ってるんや。だから基本的に液体が蒸発やその他で失われることなく、回路を閉じたままにしてるっちゅうことや。それが意味するところや。直接チップ液体冷却は、この時点で絶対に必要やねん。2026年には、これらのチップが発する熱量があまりにも狂気やから、空気冷却では必要な冷却ができへんのや。

それがそこでの文脈や。本当に大きなプロジェクトのようやし、君が言った通り、これらのプロジェクト全部に大きな資金提供者、データセンター建設者、時にはStargateやOpenAIやその他と一緒になって合弁会社を形成するデータセンターオペレーターがいるんや。ここでもそれをやってるわ。驚きはないな。

Anthropicの収益とラウンド

Anthropicに戻って、収益が年間50億ドルの収入に近づいてるっちゅう新しい推定値があるで。そして、Anthropicはもう一つのラウンドを調達しようとしてるようや。だから、1700億ドルの評価額で最大50億ドルを調達してるようやな。

これは全てのAI企業、特にOpenAIやけど、今やAnthropicでも、継続的に資金調達をしようとするっちゅう興味深いトレンドやと思うわ。これは通常、AI以外では、シリーズA、シリーズBのような大きなラウンドが普通やった。しばらく働いて、1年後か数ヶ月後に次のラウンドを得るっちゅう感じで、通常は1年か2年後やった。

AIでは違うんや。AIでは全てが超加速されてる。ラウンド間の違いは数ヶ月やし、AnthropicやOpenAIの場合は永続的な資金調達や。通常とは非常に異なるで。

これが既にこれらの企業がある意味、底をかいてるっちゅうわけやないけど、彼らが必要とする規模の資金調達を処理できる高流動性現金の最後の源を探してるところやな。300億ドルを調達するにはどうすればいいかって話や。DropboxやAirbnb級の企業の価値やな。それをするには、ソブリン・ウェルス・ファンドを見ることになる。他に向かえる場所はそんなにないんや。

その後はどこへ行くのかっちゅう疑問が出てくるわな。僕が知る限り、実際の政府、政府が1000億ドルを出すっちゅう以外に本当の答えはないんや。まあ、起こり得るけど、かなりワイルドな世界に住んでるで。

この記事は実際かなり興味深いわ。Menlo Venturesからのレポートに続いて、エンタープライズ側、コーディング側、市場の他の側面での競争環境を整理してるんや。これは興味深いで。だからAnthropicは今や使用量でエンタープライズLLM市場の32%を占めてるようや。OpenAIは25%で2位やな。これは逆転や。

2023年、まあ2年前にOpenAIはエンタープライズ市場シェアの50%を持ってた。そしてAnthropicは12%やった。だからAnthropicは実質的にたった2年でそれを逆転させたんや。これはかなり注目すべきことやな。

Googleも使用量の増加を見てるけど、3位にいる。ちなみにAnthropicはコーディングになるとさらに良くやってる。エンタープライズ市場シェアの42%、OpenAIは21%や。だから非常に興味深いのは、Anthropicがエンタープライズレベルで素晴らしい製品を持って、どこからともなく現れたように見えることや。

これは他のことに加えて、信じられないセールス成果やな。明らかにモデルはこれをするのに十分良くなければならん。でも、それならなぜOpenAIがこの瞬間にオープンソースモデルをリリースすることを選んだのかを考えさせるな。

オープンソースモデルはエンタープライズ顧客にとって何をするんやろうか？オンプレミスで実行できるんや。これは多くのエンタープライズ顧客が望むもんやな。もしOpenAIが壁に書かれた文字を見てるか、わからんけど、エンタープライズ側であまりうまくいってないなら、コンシューマーはデプロイされたアプリ、全てやってもらえるもんを求めてるから、chat.gpt.comに来るって知ってるんや。問題ないわ。

でもエンタープライズが欲しいのは、彼らは潜在的に自分のモデルを提供するインフラを持ってるんや。だからオープンソースモデルが好きで、これまで基本的に中国のモデルか、遅れてるMetaやMistralのモデルに頼らなければならんかった。だから、これは潜在的に競争を膝をつかせる興味深い方法や。

とにかく、このレポートはなぜそのオープンソースモデルドロップが起こったのかの文脈を少し提供してるわ。Anthropicの戦略が最初から基本的にうまくいったことを確認する興味深いレポートやな。

ビジネスの観点からAnthropicの焦点はエンタープライズ顧客やった。OpenAIとAnthropicを比較すると、Anthropicでは画像を生成できん、話しかけることもできん、高度な音声モードもないし、動画生成もない。基本的に基本的な画像理解を持つチャットボットって感じや。

焦点は間違いなく実世界のソフトウェアエンジニアリングタスクのようなもんにより向けられてる。エンタープライズの支出を見ても、2024年には35億ドルやったのが、2025年5月までに84億ドルに上がってる。だから驚きはないな。エンタープライズ市場を支配することで大金を稼げるんや。

ビジネスは最高のものを得るために大金を喜んで払うからな。だから、君が言った通り、Anthropicがそこでリードを取れたのはかなり印象的やな。

OpenAIの収益成長

我々がAnthropicが年間50億ドルの収益に近づいてるっちゅう話をしたところやけど、OpenAIは比較すると年間120億ドルの収益に近づいてるようや。だから2025年の初めから収益を倍増させてるんや。そして、アクティブユーザーもほぼ倍増してると思うわ。だから、コンシューマーとエンタープライズ製品の両方で7億人の週間アクティブユーザーを獲得してるようや。

すごいやろ？この時点でChatGPTを知らん人なんておるか？ChatGPTはLLMのGoogleになりつつあるんや。

ますますGoogleのGoogleでもあるな。OpenAIが、ブランド認知度やコンシューマー使用量の観点で、まだ一種のデフォルトのようやと思うんや。その結果、この会社は年間100億ドル以上を稼いでるんやけど、まだ利益にはほど遠いし、まだもっと資金を探してるんや。

Anthropicと同様に、OpenAIもまだ資金調達してるんや。3000億ドルの評価額で新しい資金調達ラウンドで83億ドルの調達に成功したらしいわ。そしてこれは年末までに総額400億ドルの資金調達を得ようとする彼らの試みの一部や。SoftBankからの投資も含めてな。

だからOpenAIはまだ資金調達フロントで本当に押してて、使用量と成長の非常に積極的な上昇で成功を続けてるんや。

ちなみにBlackstoneもその一部としてキャップテーブルに参加してる。参加してる他の継続投資家もたくさんいる。Fidelity Management、Founder、まあ、バレーで最高の投資家が誰かを知りたかったら、このラウンドに誰が参加したかを見るのはかなり良い方法やな。

だからFounders Fund、これはPeter Thielや、Sequoia Capital、Andreessen Horowitzがある。そして他にも素晴らしいけど、S級やないような投資家がキャップテーブルにいるんや。だから、伝統的なVCから引っ張れるもん全てを集めてるような感じやな。

そして明らかにSoftBankのプレイも見てるし、これは300億ドルかそこらで既にコミットしてる請求書の大部分を負担してるんや。

NOMAsecurityの資金調達

ビジネスフロントでもう一つだけストーリーがあるで。これまで大手プレイヤーばかり話してきたから、新興プレイヤーの一つに行こか。NOMAsecurityっちゅうスタートアップがあって、シリーズBラウンドで1億ドルを調達したんや。

彼らの売り込みは、サイバーセキュリティ、AIとエージェントセキュリティに焦点を当ててるっちゅうことや。これは2023年に設立されて2年未満で総資金調達額1億3200万ドルに到達させた会社や。

個人的には、タイミングが興味深いし、これだけの資金を得られるのが興味深いと思うわ。最近ChatGPTもエージェントモードを開始した。君が以前議論したように、エージェントにウェブを検索させて、あなたのために何かをさせる時には、確実に多くの潜在的な脆弱性があるんや。そして新しいサイバーセキュリティプレイヤーのためのスペースは間違いなくあるな。

この記事を見てると、なぜかイスラエル企業への言及がたくさんあるんや。偶然にも、イスラエルは実際にサイバーセキュリティのリーダーなんや。だから、彼らがイスラエル企業かどうか把握しようとしてたんやけど、それなら世界的に完全に理にかなうからな。

ああ、Niv BraunとEltonがいるから、イスラエル企業やと推測してる。2023年にCEOのNiv BraunとCTOのEltonによって設立されて、IDFのユニット8200で出会ったって書いてある。

ユニット8200は基本的にIDFの諜報部隊や。彼らは2024年10月に秘密状態から出てきたって言ってるけど、秘密っちゅう時は本当に秘密やったんやな。それは理にかなってるわ。イスラエルから素晴らしいサイバー企業がたくさん出てくるのを見るのは、彼らがこれにめちゃくちゃ優秀やからや。

Stuxnetをやったのは誰やと思う？僕のサイバーセキュリティを彼らにやってもらいたいわ。そこから来てるんや。

オープンソースプロジェクトとGPT-OSS

プロジェクトとオープンソースに移ろう。この先週のもう一つの本当に大きなストーリーは、OpenAIが2019年以来初のオープンウェイトモデルをリリースしたことや。長い間約束されてて、今ついに実現されたんや。

GPT-OSS 120bとGPT-OSS 20bをリリースした。だから2つのモデルのバリアントが、やや低めのサイズスケールで、Apache 2.0でライセンスが寛容や。だから実際にLlamaや他のほとんどのオープンソースモデルとは違うんや。使用許可に特別な細かい文字はないで。

僕が見た反応からの一般的な印象は、これらのモデルはかなり良いみたいやけど、間違いなく超、超、今Redditで人々が言ってるのは「安全性最大」やな。だから、境界線で不適切なことをしてるかもしれん要求を拒否する可能性が非常に高いんや。

OpenAIの夏からのリリースの遅れの理由の一つは、恥ずかしいことが起こらんようにこれらのモデルのアライメント部分と安全性部分を最適化しまくってたからやと思うで。

彼らがリリースで強調してることの一つは、オープンソースに何かを出す時、人々がそれをファインチューニングできるっちゅう理解や。だから彼らが実行した評価スイートがあって、オープンソースモデルリリースでの評価とその哲学、安全性と国家安全保障への影響について話してる別のペーパーがあるんや。

我々が2年半前かそこらに最初のレポートを出した時に求めたもんやと思うわ。オープンソースモデルの評価作業は、兵器能力のためにファインチューニングを試さん限り完了したとは考えられへんってな。なぜなら敵対者がそれをするからや。

ベースモデルを取って、それをファインチューニングするんや。だから、モデルを見て「まあ、それ自体では生物兵器の設計を手伝えんから、全部大丈夫」って言うだけでは十分やない。問題は確かやけど、もし敵対者が持ってると期待されるデータで具体的に訓練したら、非国家行為者でも国家行為者でも、リスクプロファイルはどうなるかっちゅうことや。

ちなみに、これらのモデルはテキストオンリーで、エージェント的ワークフロー内で使用されるように明確に設計されてる。だから指示従いが大きな焦点や。ウェブ検索、Pythonコード実行、その種のもんや。完全な思考連鎖を提供する能力もある。

これは興味深いことで、OpenAIの独自モデルは完全な思考連鎖を見ることを許可してくれん。編集されたバージョンは提供するけど、完全なもんはくれへんのや。だからこれは実際にそれを見ることができる文脈の一つやねん。オープンソースアーキテクチャやからな。

アーキテクチャ的には、MOEモデルやっちゅうのはわかってる。もちろんモデル自体があるからな。彼らはGPT-2とGPT-3アーキテクチャの上に構築されてるって言ってる。GPT-4アーキテクチャの上に構築されてないっちゅう意味なのかは不明やな。興味深いのは、GPT-4がそのリストに含まれてなかったことや。だから、GPT-4は異なる獣で、我々は実際にGPT-4を動かすアーキテクチャ要素の感覚を必ずしも得てないっちゅうわずかなヒントかもしれんけど、それでもかなり興味深いな。

2つの異なるバージョンがある。君が言ったように、1200億パラメータと200億パラメータバージョンや。これらはMOEモデルやから、専門家モデルやな。もちろん、1200億パラメータバージョンには128の専門家、200億パラメータバージョンには36の専門家がある。両方の場合で、トップ4を使ってる。

だから、どの与えられたトークン、どの与えられた推論実行でも、その36や128の専門家のうち4つだけが実際に活性化されるんや。

とにかく、彼らはアルゴリズム側で行った決定のいくつかを説明してる。彼らは交互の層でバンド化ウィンドウアテンションを使ってる。だから基本的に意味するのは、各トークンがそれに最も近い、例えば128トークンだけにアテンションできるっちゅう狭められたコンテクストウィンドウのようなもんや。そして、これは他の層おきに起こるから、密なアテンションと交互になってる。

それがグローバル情報もパイプを通って流れることを確実にするために、より広い開口部を与えてくれるんや。でもこれは、グローバル情報処理の必要性とともに、完全なアテンションメカニズムを持つことの計算の重さのバランスを取るのに役立つんや。

グループクエリアテンション。だからそこに驚くべきことはないな。DeepSeekを確認できると思う。いや、まあ彼らはその変種をやったとにかく。GQAについては以前のポッドキャストを確認できるで。

ちなみに、トレーニングデータについてはそんなに知らんのや。テキストオンリーデータセットで数兆トークンでモデルを訓練したって言ってる。もし数兆トークンよりデータの量について少ない情報を与えられるフレーズがあったら、もちろんそれは数兆トークンやろうな。フロンティアモデルやこのようなもんを作る時のビジネスのコストってそんなもんや。

問題は何兆か、具体的にどこから来たかや。STEM、コーディング、一般知識に焦点を当てたって言ってる。だから、具体的なトークン数がわからんのはちょっと興味深いな。それが特に機密やない限り、なぜかわからんわ。

最後に言及するのは計算側やな。彼らは21億H100時間でこれをやったんや。だから僕の大まかな計算では、トレーニングに使った精度と50%利用率とかを仮定すると、約10の25乗flopsを見てることになる。だから、フロンティア、まあ真のフロンティア量のflopsやないけど、Grok 4とかで見るもんより約1桁少ないぐらいの、非常にスケールされたトレーニング実行やな。

かなりクールやな。彼らは熟考的アライメントを使ってる。我々が最初にカバーした時の熟考的アライメントについての我々のポッドキャストを確認できるで。これはある意味、OpenAIの憲法的AIに対する答えやな。

そして、これらのモデルはOpenAIの独自モデルよりもプロンプトインジェクション攻撃にずっと脆弱やって言ってる。実際かなりワイルドやで。これらのモデルのプロンプトインジェクションハイジャックは1200億パラメータバージョンで22%の攻撃成功率やのに対して、O4 miniは8%やな。だから、それがこのモデルの脆弱性やっちゅうことは指摘する価値があるで。

それに追加するメモがもう少しある。MOEフロントでは、1280億パラメータモデルは合計128の専門家を持ってる。つまり、200億と比べて6倍の重みを持ってるけど、トークンあたり51億のアクティブパラメータしかないんや。200億パラメータモデルは専門家の4分の1しかないから、36億のアクティブパラメータや。

つまり、これらのモデルは、最も高価なGPU、H100を持ってるなら単一GPU上で実行可能やっちゅうことや。その専門家のおかげで、かなり積極的な量子化をすることで可能になってるんや。

かなり裕福なコンシューマーやったら、これは議論の余地があるけど、消費者ハードウェアで使用できるんや。だから、全体的に、かなり有用なモデルやと思うわ。この時点で、これが選択するモデルになるか、Qwen K-2やDeepSeekをファインチューニングやモデル使用ニーズに使うかは疑問やと思うで。

これらのオプションがどう積み重なるかはまだ不明やな。たぶん、これがあるモデルサイズ範囲では、中規模サイズやろ、Qwen K-2では多くの専門家の1兆パラメータ以上、同時に320億のアクティブファウンダーぐらいやったと思うわ。

期待通り、これらのモデルはベンチマークでかなり良いんや。有能なモデルやけど、現在オープンソースモデルで得られる最先端ではないんや。

これを考える一つの方法は、中国製オープンソースモデルを実行したくない西洋企業のためのオプションやっちゅうことやと思うわ。中国製やないもんを持ってるっちゅうことやな。もしオープンソース、特にエージェント的モデルにおったら、それはかなり大きな話や。どんな行動が訓練されてるかわからんし、特にCCPが今これに本当に注意を払ってるからな。

もう一つのことやけど、実際2つの簡単なことがある。その一つは、彼らはこれらのオープンソースモデルのどちらでも思考連鎖に最適化圧力を明示的にかけてないって言ってることや。

だから数週間前に出たオープンレターかオープンペーパーがあって、この分野の大物全員が「お願いやから、思考連鎖を素敵で綺麗に見えるように訓練せんといてくれ。モデルが悪巧みをしてるか悪いことを考えてるかを知りたいから。もし醜い部分を安全に洗い流そうとして、醜い部分を消し去ろうとしたら、モデルはとにかくその思考を学習するけど、我々から隠すようになるだけや」って言ってたんや。

だからこれは、OpenAIが「我々はこれについて実際に行動する」って言ってるんや。そしてこのペーパーを明示的にフラグ立てしてる。彼らがエコシステムにしてる重要なシグナリングの一部や。我々はその理由で思考連鎖を綺麗に見えるように最適化圧力をかけるつもりはないって。

ここで最後のコメントは量子化についてや。君が量子化が大きな部分やって言ったな。彼らが使ってるのは混合浮動小数点0.4フォーマットや。それが彼らが小さい方を1つのGPUに収まるところまでモデルを圧縮できた理由やな。パラメータあたり4.25ビットがその数字や。

基本的にパラメータあたり4ビットを意味して、それからパラメータのブロックに、大まかな桁数を得るために使う1つのスケーリング係数があるようなもんや。そして4ビットが残りをやるんや。とにかく、エコシステムにぴったり収まる印象的なモデルや。

彼らはHarmony tokenizeっちゅうフレームワークもオープンソース化してて、もっと見ることになると期待してるで。エージェント的モデルを作る時、異なる種類のワークフローを参照するために新しい種類のモデル自己参照能力が必要やねん。モデルとユーザーが互いに話すだけやなくて、モデルが考える必要がある時もあるし、モデルが特定のツールを使う必要がある時もあるんや。

だから彼らはそれを明確に説明するトークナイザーを持ってて、それもオープンソース化してるんや。とにかく、これは同時にドロップされた大量の資料で、何時間でも続けられるわ。確実にOpenAIがそうやろうな。

全体的に詳細がたくさんあるな。最後に言うべきことは、君が言った通り、最初から推論可能になるように訓練されてることや。プロンプトで推論を低、中、高と指定できて、それらの推論量を調整できるように明示的に最適化されてるんや。また、すぐに使えるツール使用をサポートするように訓練されてて、ウェブ検索やPython実行のようないくつかのツールが付いてくるんや。

Falcon H1の発表

少し異なるオープンソースリリースに移ろう。Falcon H1があるで。効率性とパフォーマンスを再定義するハイブリッドアーキテクチャ言語モデルファミリーや。だからこれはトランスフォーマーベースのアテンションと、我々が何年もかなりカバーしてきたステートスペースモデルを組み合わせたハイブリッドアーキテクチャっちゅう意味やな。

確実にステートスペースモデルが流行った時期があったと思うわ。簡単に復習すると、ステートスペースモデルはトランスフォーマーに対する再帰的代替手段や。だから一種のループをして、理論的には欲しいだけの入力に対して続けることができるんや。トランスフォーマーと対照的に、トランスフォーマーは全ての入力を一度に受け取って、大きなチャンクを取得して、それが全てできることやねん。データを継続して供給することはできへんのや。

現在のステートスペースにオールインするだけでは、ここでやってるようなハイブリッドアーキテクチャにオールインするほどうまくいかんっちゅうことが長い間知られてたんや。だからこのモデルファミリーには、5億、15億、30億、700万、340億パラメータのたくさんのバリアントがある。

巨大な、巨大なペーパーで70ページあって、我々が調べることができそうやない。要するに340億パラメータモデルは、まあまあやけど、パフォーマンスではあまり競争してないようやな。

QWEN 3 32B、Llama 3.3 70B、Llama 4 Scoutと比較すると、まあまあの評価結果はあるけど、一般的に最先端やない。だからこれが我々が見るもんやろ、この種のMambaステートベースモデルタイプのもんでは。良い概念実証をいくつかの軸に沿って作るけど、本番グレードのモデルとして頼りになるものになるのを見たことがないんや。

ここで興味深いのはスケールや。だからMambaが300億以上のパラメータレベルで使われてるのを見るのはクールやな。それはクールやと同意するわ。これまでのところ、学術的側面とは言わんけど、もっと興味深い方向に押し進めてるように見えるな。もしMambaが最終的に有用になったら、彼らは良いリードを持つことになるし、これが彼らがしなければならんことや。

Falconシリーズは、UAEのTII、テクノロジーイノベーション研究所から出てるんや。彼らは追いつこうとしてるんや。だから彼らには、一種の追い越しを可能にする戦略が必要やねん。だから彼らがMambaに投資してる理由の大部分はそれやと想像するわ。

それは、追いつくために必要な伝統的なトランスフォーマーエンジニアリングを学ぶと同時に、他のラボよりMambaやステートスペースモデルのスケーリング方法をよく理解してるから追い越すかもしれんっちゅう賭けをする良い方法のようなもんや。それが僕の大まかな推測やな。

いくつかのオープンソースリリースと同様に、トレーニングデータや結論についてかなりの詳細を含む、付録を数えずに53ページの非常に詳細なレポートや。だから、より高速な推論を得られるって言ってる。長いコンテクストシナリオで最大8倍高速な推論や。そして、より少ないトレーニングデータを使いながら、より良いパフォーマンスを得ることができる。

だから、レポートのタイトル通り、効率性の部分により重点が置かれてるようやな。また、より低いスケールでより多くの利得を得られるケースのようでもある。だから15億モデルは70億から100億パラメータモデルと競争できるようや。そして、それが大きな疑問の一つやねん。

ステートスペース、ハイブリッドオプションをAnthropicやOpenAIが基づいてるスケールまでスケールアップしようとしたら、それはより良くなるんやろうか？これは明確にどちらの方向も示してないけど、簡単な利点が得られることは示してるんや。

Meta CLIPとWorldwide Scaling Recipe

次のストーリーに移ろう。Meta CLIPがある。Worldwide Scaling Recipeや。だからこれはcontrastive language-image pre-training、CLIPについてで、これは2022年にさかのぼる古典やと思うわ。いくつかのテキストと画像を入力して、それらがどう比較されるか、類似性マッチを見ることができるんや。

これはモデルでもあり、ちょっとしたデータスクレイパーでもある。タイトル通り、worldwide scaling recipeっちゅうのが話してることは、全ての言語で一度に訓練できるかっちゅうことや。彼らが言うのは、より小さなスケールで訓練しようとすると、実際に多言語性の呪いを得るっちゅうことや。

だから英語と非英語の両方のデータで訓練すると、実際により悪くなるんや。スケールアップすると、いわば呪いを破ってるんや。だから英語に翻訳する必要なく、全世界のデータ、全ての言語を利用することでより良くできるんや。それが彼らがこのMeta CLIPレシピと呼んでることや。

このペーパーがポジティブ転移とネガティブ転移のアイデアに言及してないのは、僕にはかなり驚きや。彼らは多言語性の呪いっちゅうフレーズを本当に一生懸命作ろうとしてるように読めるけど、我々には既にこれが何かの用語があるんや。これはポジティブ転移やねん。

有名なのは、小さなスケールで、例えば3つの異なるタスクでモデルを訓練すると、別のタスクを追加したら、モデルの最初の3つのタスクでのパフォーマンスが落ちることがわかるんや。理由は、モデルが一種オーバーロードされるからや。今度は処理すべき別のものがあるような感じで、「ああ、クソ」ってなるんや。

でも、これを本当に高いスケールで、多くの異なるモダリティでやったら、最終的にわかるのは、モデルに新しいタスクを与えたら、他のもんでのパフォーマンスが実際に上がるっちゅうことや。理由は、その新しいタスクから学んだ教訓を他のもんに適用できるからや。

例えば、ムエタイとグレコローマンレスリングをやったとしよう。たぶんブラジリアン柔術を覚えるのがうまくなるやろう。体の動かし方を知ってるからな。ムエタイからクリンチをやることについて何かを覚えたかもしれんし、レスリングから誰かをピンで留めておくことについて何かを覚えたかもしれん。

これがここで起こってることのアイデアや。言語を話すのは別のタスクやねん。ただそれだけのことや。

還元的に聞こえるのは嫌やけど、時々それがもっと水を濁すと思うねん。なぜなら、もし実際にこれを別の何かと呼ばんかったら、非言語の新しいタスクでこれがどう機能するかの比較をもっと見るように誘うからや。それは実際にほとんど欠けてるプロットやないけど、本当に興味深いやろうな。

異なる言語を話すことは、画像分類からロボットアーム制御に行くよりタスクスペースでより似てるけど、それらはスペクトラム上にあるんや。それがちょっと探求されてるのを見るのは本当に興味深いやろうな。それでも本当にクールなペーパーやし、スケールが時間とともに自動的にポジティブ転移を与えるっちゅうアイデアのさらなる検証や。でも僕の側からはちょっとした小言やな。

Flux 1.1 CREAの発表

最後のオープンソースストーリーは、BFLとCREAがFlux 1.1 CREAをリリースしたことや。リアリズムのために設計されたオープン画像モデルや。我々は以前Fluxについて話してきたわ。これは基本的に最高のtext-to-imageモデルで、オープンソースでもそうやないのでもそうやねん。

ここでの大きな話は、これがAI生成画像がAI生成画像に見えんようにすることに焦点を当てて、既存のオープンソースFluxバリアントに基づいて構築されてることや。

AI画像を発見することができるケースがまだ残ってるのは、特定の美学に基づいてやねん。これはピンポイントで説明するのは難しいけど、画像の柔らかさ、ぼやけ、滑らかさと関係があるんや。驚くほどグローバルやねん。

だからCREAは、この話題について議論する非常に長いブログポストを持ってて、本物の写真のように見えて、明らかにAI出力やないように画像を訓練する方法について話してるんや。

これは注目する価値があると思うわ。なぜなら、AI生成画像をこれらの美学的トレンドに基づいて発見できると仮定するかもしれんけど、あまり長くそのケースやと仮定せん方がええからな。

研究と進歩

研究と進歩に移ろう。最初のストーリーは、Googleの最新AIモデルが気候変動を追跡するために衛星のように動作するっちゅうことや。Googleからもう一つのアルファモデルがある。これはAlpha Earth Foundationsで、衛星データを使って地球上の変化を追跡・分析するように設計されてるんや。

だから、宇宙に浮かんでて地球を見下ろしてるたくさんのカメラがあるんや。このモデルで、ユーザーは地球上のどの場所についても詳細な情報にアクセスできるんや。だから様々なことを得るのに使えるわ。

材料特性、植生、地下水、人間の建造物をハイライトするカラーコード化されたマップを得ることができて、生態系のダイナミクス、空気の質、日光などを理解できるんや。そして全体的に、このモデルは政府や企業が地理と気候などの理解に基づいて何をするかを決定するのを支援することを意図してるんや。

大部分は、地球表面について存在するテラバイトのデータに適用する圧縮のようで、それらを管理可能なスケールに整理することのようやな。だから、植生について、鉱物含有量について、地質学者やないから全部はわからんけど、地理や気候などの研究に関連するかもしれん全てのもんについて、地球の本質的に異なる画像を重ね合わせてるようやな。

記事自体では、これがどうやって行われるかについての限られた情報しかないわ。あなたが得る成果物自体はかなりクールに見えるけどな。今週のもろもろの中で、実際のペーパーを見る機会がなかったわ。だからこれはブックマークするやつかもしれん。

たぶん詳細に入る能力はないやろうけど、君が言った通り、要点は大量のデータを圧縮してて、挑戦は時間とともに異なるセンサーから大量の観測を得ることで、ノイズがあって、雲が動いてきて、その他もろもろやねん。だからモデルはそれら全てを取って、より簡単に使えるようにするんや。

Genie 2の発表

次のも、Googleからのストーリーや。Genie 2をリリースしたんや。ユーザーとAIエージェントの相互作用のために3D環境をリアルタイムで生成できるAIモデルや。我々はGenie 2やその他の前身について議論・カバーしてきたわ。

これは、入力に対するリアルタイム応答性を持つビデオ生成モデルのもう一つの例やねん。本質的に、AI生成世界内でアクティブなエージェントになることができるんや。この例には、GTAでそうするように都市環境で人間キャラクターになることが含まれるかもしれんけど、これは完全にニューラルネットワークによって吐き出されてるんや。

ゲームコードや3Dモデルのようなもんはないんや。全部レンダリングされてるんや。これは結構大きな話やと思うわ。例のビデオを見たら、時間をかけて一貫してる程度がクレイジーやねん。動き回ったり見回したりしても世界が歪まずに、代わりに一貫してる程度が前例のないもんや。

前のこの種のモデルからGenie 2への飛躍は、実際にかなり印象的やねん。これについて多くは知らん。彼らは研究のようなもんをリリースしてないんや。本当にただの見せつけリリースや。デモとかでも使えるもんやないしな。

でも、このリアルタイムインタラクティブモデルが以前見たもんを超えた飛躍である程度には驚いたわ。

だから我々はGenieをカバーしたんや。生成的インタラクティブ環境やから、2024年2月にさかのぼって確認したと思うわ。だからアーキテクチャの内訳、または少なくともこのアーキテクチャのコアの可能性については、それをチェックすることをお勧めするで。

彼らが基本的にキーボードコントロールを訓練できるような潜在アクションモデルをベイクインする方法は興味深いんや。だから前進、後退、横移動、加速など、何でもできるんや。これらのビデオで取ることができるアクションの限られた数があって、あなたのアクションに基づいて新しいフレームを生成するんや。

かなりナッツやな。例のいくつかも、プロンプトの仕方によって、インドの山で自転車に乗ってる誰かのようなのがあって、頭を動かしたら人の腕や、君の腕やと思うけど、そんなのが見えるんや。それは周りで起こってることの体とメカニクスを種類推定したんや。

ここで持続性は本当に大きな、大きな話やな。Genieが最初にローンチした時、コヒーレンス時間があって、想像できるように、例えば壁に青い線を描いて、それから壁から数秒間離れて、それから戻ったら青い線がまだそこにあるっちゅうのを示す例があったんや。

その持続性、フレームからフレームへの長い期間にわたるコヒーレンスは今や分のオーダーやねん。だからモデルはそれが起こったことを覚えてるんや。対照的に、古いケースでは秒やったんや。だから現実がかなり早く崩壊するのがすぐに想像できるやろう。この場合、実際に長いコヒーレンス時間の相互作用があるんや。

これは本当に重要やねん。なぜなら、エージェントを訓練するための本当に効果的な環境を設定するからや。エージェントを訓練する大きな問題、少なくとも現実世界では、現実世界に時間がかかることやねん。遅いんや、全てロボティックやねん。もしよりデジタルな設定に移ったら、新しい環境の手続き的生成は本当に厄介やねん。特にリアルな環境では。

これは、無料やないけど（計算コストがかかるから）、これらの環境を本当に早くデジタルで人工的に生成する方法を与えてくれるんや。だから多くのエージェントを素早く訓練するのに有用やと想像できるで。

もう一つの次元は、限られたアクションスペースを持ってるけどな。だから、古いバージョンでは彼らが推測するように訓練してたのは8つの異なるアクションやったかもしれん。ここでも限られたアクションスペースを持ってるけど、リアルタイムでモデルにプロンプトして環境を変更することもできるんや。彼らはこれをprofitable world eventsと呼んでる。

だから「エイリアンの宇宙船を僕の前に着陸させて」のようにプロンプトできて、今それと相互作用するんや。だからアクティベーションスペース戦略を超えて相互作用するもう一つの方法を与えてくれるんや。でも、彼らはまだ環境内で他のエージェントをシミュレートしてない。明確で判読可能なテキストの作成に苦労してる、プロンプトで供給するテキストボックス以外では。

だからプロンプトで明示的にテキストを書かん限り、生成されるビデオで見るテキストは文字化けして奇妙になりがちやねん。とにかく、それは荒々しいステップやわ。視覚的に絶対に美しいで。これは確実にGoogleが長い間取り組んできたもんやねん。

彼らの大きな利点は、YouTubeを所有してることやろ。だから実際に問題なくそれで訓練できるんや。他のラボはできへん。そして、この種の環境生成がエージェントの訓練に重要やと判明したら、それはGoogleとAGI競争での本当に興味深い構造的利点やねん。

もう一つの利点は、君が言った通り、DeepMindが長い間これに取り組んできて、実際の小さなビデオゲームで訓練可能な環境を設定して、これについて研究を発表してることやねん。それがYouTubeと組み合わさってこれを可能にしたんやと驚かんで。

リアリズムの話では、彼らは720p、つまり720 HDで、かなりシャープな24フレーム毎秒をやってるんや。だからGenie 2と比較すると、かなりぼやけて、明らかにAIやったけど、これは良く見える。ビデオが良く見えるんや。だから非常に印象的やな。

我々が見る物理学の量がまだ限られてるっちゅう意味では。だから、オブジェクトの衝突のようなもんを見ようとしても、それほど多くはないけど、この種のもんで楽しんでる自分が確実に見える地点に達してるで。

モデルアーキテクチャ発見のAlphaGo Moment

次はペーパー「AlphaGo Moment for Model Architecture Discovery」があるで。ここでのAlphaGoモーメントは、彼らがスクレイパーでちょっと大きな主張をしてるんや。

モデルアーキテクチャ発見はかなりよく研究されてる話題で、基本的には通常、新しいネットワークの構築方法、使用するレイヤー数、構築する関数の種類などを手動で選択してきたんや。その代わりに、可能なニューラルネットワークアーキテクチャの空間上で直接最適化、検索を行って、何が理想的かを発見することを考えるかもしれん。

この分野ではかなりの作業があったけど、少なくとも今のところ、その結果として革命が起こったようには見えへんかったんや。このペーパーは、モデルアーキテクチャにおける本当の種類のブレークスルーにつながるシステムを導入すると主張してるんや。

だから彼らはこれを、新しい発見である本当のゲームチェンジャーっちゅう意味で、モデル設計におけるムーブ37と呼んでるんや。彼らはこのクリーム対応ルーターを得て、計算を削減しながらいくつかの要素を保持することにつながるクエリとサマリールーターを導入してるんや。

発見の詳細にはあまり入らんけど、これはこのASI archフレームワークのせいで生まれたもんで、基本的に自動化された研究者を持ってるんや。以前見たAI研究システム、ANAタイプのもんと似てる部分もあるな。

たくさんのことが起こってるで。科学論文から情報を抽出する要素があり、研究者エージェント、エンジニアエージェント、アナリストがあって、進化プロセスで1000、773のアーキテクチャの大きな木を探索するのに使ってるんや。

この発見がどれぐらい大きな話かについては、いくつかの意見の相違を見たわ。少なくとも一部の人は、これを大きな話のように見せるのはちょっと誇張やと思ってる。でも、AI進歩に関して人々が興奮してることの一部は自己進歩やねん。

AIがより良くなるために自分で研究できる地点にいつ到達するのか？これは少なくとも、AIがそれを今できることを示そうとする試みやな。

君は絶対に正しいで。これが自動化されたAI R&D、このメタセンスでこんなに注目される理由やねん。このペーパーに関しては、まあ、それが話題になったから注目してるんや。先週話すことがあまりなかった時のバイラルペーパーの一つやった。

正直に見ると、僕の目を引いた一つの部分があって、これがそんなに印象的やとは確信してへんのや。AGIがいつ打たれるかについて短い個人的タイムラインを持ってるけど、これは個人的に僕のかゆみを掻いてくれへん。

だからこれは彼らが適用してる遺伝的アルゴリズムタイプの哲学やな。彼らの研究者とエンジニアとその他全部が一緒にした大量のイノベーションを取るんや。それから、それらの要素を取って、混ぜ合わせて、それに基づくフィットネススコアがどうかを見るんや。将来の世代で繁殖するものを決めるんや。

遺伝的アルゴリズムに馴染みがあるなら、それやねん。馴染みがないなら、フィットネス関数がこの種の核心やっちゅうことだけ知っておいてくれ。ある意味で最適化してるもんやねん。

彼らが言うのはこれや。「ベースラインより10%以上損失が大きいアーキテクチャは情報漏洩があると見なされ、即座に破棄される」。言い換えると、新しいアーキテクチャを思いついて、それがベースラインより怪しいほど良い、この場合は10%やったら、情報漏洩があったに違いないから取り除こうって言うんや。

これはペーパーのどこかに埋もれてるだけやねん。おいおい、情報漏洩のせいやと思うからベースラインより10%以下の損失のアーキテクチャを破棄してるだけなら、漏洩のせいでもあるベースラインより8%や9%下の損失があることをどうやって知るんや？

彼らの大きな結果は、各ラウンドが潜在的に漏洩の対象になる可能性がある多くのラウンドを通じて損失を反復的に追跡することで達成されるから、全体が巨大な漏洩スタックになる可能性はないんか？素朴に、それが僕には見えるもんや。

彼ら自身の評価が示唆するのは、明らかに漏洩の発生を防ぐ方法に確信を持ってないっちゅうことで、これは本当に難しいことやねん。この種の実験では。彼らが無能やからそう言ってるんやない、ただ噛みつくには大きすぎるものやったかもしれんってことや。

たぶん、これは何か、実際に見るもんっていうより、測定アーティファクトの種類によるもんやと推測した方がええんやろう。僕がバカに見えるかもしれんけど、神様には初めてやないからな。でも、僕に目立ったのはそれやった。なんで10%？どうやって本当に知るんや？

これは、公開された研究が通ったっちゅう情報が意味するところで、それがモデルが実際に新しいもんやなくてやったことやっちゅう可能性がある。でも、他の進化的技術と比較して、ここで重要なのは、コードを思いつき、追求すべき新しい方向を思いつくためにLLMを使ってることやと思うわ。

大きなブレークスルーの観点では何もないけど、人々がこの種のAI研究、自動化エージェントを取ってる方向のもう一つの兆候の可能性があって、全体のシステムを組み合わせて、研究チームを作ることができる可能性があるんや。

これまでのところ大きなもんはないけど、GPT-5がここにあるねん。もしClaude 5を手に入れたら、うまくいくかもしれんな。

Meritの評価とGrok 4

次は、MetaがGrok 4を評価したっちゅうストーリーがあるで。これは一週間前からの話をちょっと追いかけてるもんや。だからこれはその時間ホライズン評価にあって、与えられたモデルがどれぐらい長いタスクを確実に、成功裏にできるかを示すもんやねん。そして彼らはGrok 4を評価して、彼らの種類の軌道線に追加したんや。

O3よりわずかにできるんや。だから50%時間ホライズン、Grok 4がその長さのことを50%の時間でできる時間マーカーは、今約1時間50分で、O3の約1時間半から上がってるんや。だから、これは少なくとも50%時間ホライズンでの進歩のもう一つの種類の飛躍やな。

80%時間ホライズンでは、実際にO3とOpus 4を超える進歩をしてないんや。これは魅力的やと思うわ。僕がこれについてめちゃくちゃ混乱してて、GPT-5ローンチについてそんなに興奮してた理由の一つは、そのMeritグラフでもう一つのポイントを得られるからやったんや。

これが80%でも良く見えるかどうかを見ることができるんや。だからそれはできた。GPT-5は4ヶ月の倍増時間とその他全部のジャズと一緒に、種類の加速されたタイムラインと一貫して80%を通して傾向を続けてるんや。

でも興味深いことに、Grok 4はそうやないんや。奇妙な方法で、GPT-5を手に入れる前にGrok 4でもう少し長く一時停止しなかったのは残念やねん。なぜなら、人々が「50%と80%の複製確率のどちらをより気にするべきか？」って行く本当に興味深い会話を引き起こしてたやろうから。そして、そこでの正しい答えが何かは確信してへん。

でも、GPT-5が我々の追加ポイントをくれたから、今はそれをする必要はないわ。だからそれでよかった。

我々は単にこのチャートを更新し続けてるだけやな。これを最初に議論した時を検索できるやろう。これらのモデルの実世界での影響や潜在的使用量を定量化しようとする興味深い努力やねん。

GPT-5では、50%成功率で2時間20分ぐらいのことができるって言ってる。80%では、26分とかちょっと高めやねん。だから君が言った通り、今やGrok 4やO3、Claude 4 Sonnetをかなり上回ってパックをリードしてるんや。

政策と安全性

政策と安全性に移ろう。まず、OpenAIからのペーパー「Estimating Worst-Case Frontier Risks of Open Weight LLMs」があるで。だから彼らはGPT-OSSをリリースする最悪ケースのリスクを研究して、特に悪意のあるファインチューニングについて話してるんや。

悪いバイオロジー的なもんと悪いサイバーセキュリティ的なもんで、できるだけ有能になるようにGPT-OSSをファインチューニングしようと試みるんや。だからバイオリスクでは、ウェブブラウジングでRL環境で訓練してるんや。サイバーセキュリティでは、キャプチャー・ザ・フラッグを解決するためにエージェントコーディング環境で訓練してるんや。

要点は、GPT-OSSは能力をわずかに増加させるかもしれんけど、リスク要因を実質的に増加させるわけやないっちゅうことや。モデルをリリースする決定は、そこにある他のオープンソースモデルと比較して、これが悪い人々ができることを大幅に変えることはないっちゅうアイデアによって情報を得てるんや。

それから反論も見たわ。基本的に「もし事例の理論が、悪いアクターの損害を与える能力をわずかに増加させるだけの限り、モデルをリリースすることを許可するつもりやったら、これは全てのフロンティアラボがオープンソースモデルの武器化能力を段階的に増加させるインセンティブを作る状況を作る」って言う人々やな。

これは本当や。これは分割するのが非常に困難な髪やねん。一部の人はそれを髪として見ないかもしれんけど、確実にニュアンスがあるんや。その一部は、今市場にオープンソースとして唯一あるこれらのオープンソース中国モデルを持ってるようなもんやねん。

ますます、それらはエージェント的モデルやから、人々が敵対者が特定の方法で現れたい危険な行動をベイクインして、設定に展開するかもしれんっちゅうことや。とにかく、それがそこでの前後の議論の全部やな。

ちなみに、これはバイオリスク知識やトラブルシューティングを含む、これらのベンチマークではかなり印象的やねん。基本的にR1プラスブラウジングに基づくPerplexity Deep Researchを打ち負かしてる。アンチ拒否とブラウジングでOpenAI O3にかなり近いんや。

ちなみに、彼らが悪意のあるファインチューニング、このMFTっちゅうもんでやろうとする2つのことがある。一つは、拒否を一般的に無効にして、単にモデルを一般的にジェイルブレイクできることや。二つ目は、ドメイン固有能力最大化、または基本的にあなたが開発したい危険な能力でモデルをファインチューニングすることや。

これらは彼らが説明しなければならん2つの異なる種類のファインチューニングやな。モデルの悪いことで助けることを拒否する傾向を取り除いて、それから別にモデルを悪いことをするのが上手にすることや。だから、彼らが彼らの準備枠組みを実装する方向に向かって取り組んでる時に、最終的にそれに結びつけてるフレームワークの全部やねん。これは彼らがそれに結びつけてるステップやな。だからこれやで。

Anthropicの研究：Persona Vectors

次のもう一つの安全性関連研究や。これはAnthropicからで、いくつかの主流記事でカバーされてる。記事のタイトルは「AI vaccine, train it with Evil to Make It Good」で、Fun Techでや。実際の研究は「Persona Vectors: Monitoring and Controlling Character Traits in Language Models」っちゅうタイトルやねん。

だからこれは実際、僕が思うにOpenAIから最近カバーした研究と関連してて、皮肉的や不誠実やっちゅう意味でモデルが持つ特性のこの概念を調べたもんやった。その時、この以前の研究で示したのは、皮肉的であることを増加させたら、なぜかそれは全ての種類の方法で誤調整もさせるっちゅうことやった。

だからこの研究は、モデルが持つペルソナを監視して、悪いペルソナをファインチューニングする能力を軽減することを見てるんや。基本的に、これは使用されてるデータのパイプラインについて話してて、ちょっとした調整だけで全体のモデルを誤調整するのを困難にするようなもんを作るんや。

実際、また、狂気の週の週で、このペーパーを見てへんかったから、そのペーパーについてのBusiness Insiderの記事を見てるだけで、これは本当に混乱するし、素人言語を書こうとするジャーナリストのようなバイブを使ってる。

でも行間を読んで、もし間違ってたら次回修正するけど、僕の感覚では、基本的にAnthropicがプロンプトを入れて、明らかにその結果としてモデル内のアクティベーションを得るっちゅうことが起こってるんや。

それから彼らは一つの層、たぶん残差ストリームで取って、以前話した、後でもっと聞きたがったら話すことができるスパースオートエンコーダー戦略を使って導出した悪のペルソナを注入するんや。でも基本的に、その層で悪のペルソナを注入するけど、訓練目標は「無害であれ」基本的にそのままにしとくんや。

だから、その注入されたアクティベーションがその層の時点で人工的に残差ストリームを悪にしても、モデルの残りはそれを補償することを学ぶんや。だから、それを除去したら、基本的にモデルは悪を脳に注入する状況下でも良く振る舞うことを強制されるんや。

だから、もし僕がAndreの脳の一部を取って、僕の脳の悪い部分を入れたとしても、でも僕がAndreに親切になるような再教育訓練を与えて、それから僕の脳の悪い部分を取り出したら、Andreは「僕は今超親切や。誰かが僕に悪い脳の一部を入れても、僕はまだ親切やろう」みたいになるんや。

それがバイブやな。また、このかなり解析困難な記事に基づく僕の推測やけどな。

正直に言うと、それが僕がやってたようなもんやった。いつものように、実際に理解してるように聞こえるようにしようとしてもう少し深く潜ったんや。ペーパー自体の焦点は監視にもより多くあるんや。

だから彼らはペルソナベクターを導入してる。それはモデルが特定のペルソナを持ってることを示すアクティベーションベクターの種類やねん。それから、それが意味することは、この種の性格の出現についてトレーニング中にモデルを監視できて、展開時にモデルの変動も監視できるっちゅうことで、それは訓練データにフラグを立てて最初にそれを防ぐか、物事がうまくいかない時に介入することで、検出できる時にそれを軽減できるっちゅうことや。

だから、これは基本的に誤調整を検出するもう一つの方法を教えてくれるんや。より信頼性の高い方法でやと思うわ。

今、僕が言ったことと誰かがそれを試すかどうかについて好奇心があるわ。なぜなら、それは実際結構興味深そうやし、何が壊れるか気になるからな。

Anthropicのアライメント監査エージェント

次も、Anthropicからの別の結果やねん。また、これについてもそんなに読んでへん。これは2週間前にさかのぼる少し古いもんやけど、我々がカバーしたとは思えん。だから言及する価値があると思うわ。

研究は「Building and Evaluating Alignment Auditing Agents」っちゅうタイトルやねん。見出しは、アライメント監査タスクを自律的に実行する3つのエージェントを開発したっちゅうことや。そして、これらのモデルが意図的に誤調整されたモデルに対してテストされた時、これらの監査エージェントはその問題をうまく発見できるんや。

だから、これはかなり聞こえる通りのもんやねん。誤調整について心配したら、モデルが悪いことについて心配したら、それを防ぐ一つの方法は、他のAIに自動的にたくさんのテストをしてそれを検出させることやねん。これはAnthropicがそれに取り組んで、少なくともある程度それを機能させることができることを示してるんや。

Lightning Round：最適化による思考連鎖の難読化

ライトニングラウンドでは、この研究ノートがある。だからペーパーやないけど、ペーパーもペーパーやないから、単にペーパーと呼ぼう。「Optimizing the Final Output Can Obfuscate Chains of Thought」やねん。

だからこれはAlex Turnerが参加してたと思うわ。彼はそこにいる。Turner Troutが彼のハンドルやけど、Alex Turnerとたくさんの他の人々やねん。彼は以前話したかもしれん権力追求研究をした元の研究者の一人やねん。

光る木製の立方体のような異なるオブジェクトの説明をモデルに与えて、そのオブジェクトが検出器をトリガーするかどうかをモデルに伝えるっちゅうタスクをモデルに与えることがわかったんや。それから、そのたくさんの例をモデルに与えて、基本的にそれを分類器にして、新しいオブジェクトが与えられた時に検出器がトリガーされるかどうかを予測させるんや。

でも今やることは、最終出力で「検出器」っちゅう言葉を使うことでモデルにペナルティを与えることやねん。あなたが気にするのは最終出力だけで、思考連鎖やない。最終出力で「検出器」っちゅう言葉を使うことでモデルにペナルティを与えるんや。わかることは、モデルが思考連鎖で「検出器」っちゅう言葉をより少なく使うようになることで、これは興味深いんや。なぜなら、報酬への入力として思考連鎖を使ったことがないからやねん。

だから、彼らはこれをスピルオーバーと呼んでる。基本的に、あなたが評価してる出力の部分で最適化してる特性が、あなたが評価してない出力の部分にスピルオーバーするんや。そして彼らはこれをたくさんの異なる設定でやってて、詳細を説明する価値はないわ。

非常に興味深いんやねん。ここでの含意の一つは、理想的には思考連鎖を綺麗に見えるように、素敵に見えるように最適化したくないっちゅうことやねん。なぜなら、それはモデルが悪い計画を企んでたら、難読化させる傾向があるからや。我々はその悪い計画を平易な英語で書いてもらって、我々全員が見られるようにしたいんや。

だから人々が提案した一つの解決策は、実際の出力だけを報酬と強化の対象として使って、思考連鎖を使わないっちゅうことやった。だから思考連鎖は自由で正直で、その他全部でいられるんや。

これは、それが実際には十分やないか、十分やない可能性があることを示してるんや。また、Dan Kotaが数ヶ月前に提案したアライメント戦略の提案もテストしてて、本当にクールで、Mind plus Faceって呼ばれるもんやねん。時間がなくなってるから、後の時点で話すべきやと思うわ。

話すことがたくさんあるから、時間がなくなってる。

計算と中国

我々のお気に入りの話題の一つ、計算と中国に移ろう。そこでいくつかのストーリーがあるで。まず、Epic AIから「Why China Isn’t About to Leap Ahead of the West on Compute」やねん。基本的に聞こえる通りで、これは中国が製造面、ソフトウェア面でのなぜ中国がフロンティアでは西洋を追い越す可能性が低いかの様々な要因をカバーする分析記事やねん。

例えば、AIコンピュートの最先端でNvidiaが必要性を取り除くようなことやな。これは、リスナーの常連がたぶん既に要因について知ってることをカバーするかなり詳細な記事やけど、Cudaのようなもんの少し詳細でニッティグリッティに入ることに興味があるなら、この記事にはそれがあるで。

これは、実際の価値が詳細にあって、表面的な説明が「ああ、もう知ってる」ってなりそうな記事の一つやから残念やねん。Epic AI研究について最も興味深いことの一つは、彼らが実際にプロットして分析することを気にすることやねん。

1秒あたりのflopや計算力が時間とともにどれぐらい早く成長してるか、計算効率が時間とともにどれぐらい早く成長してるか。西洋での計算効率が時間とともにどれぐらい早く成長してるかと比較して、線を引いて交差させるんや。だから、僕のようにその種のもんに興味があるなら、これは本当に興奮するもんを見つけるやろう。

定性的に驚くようなことは何も見つけんやろう。フォトリソグラフィーが中国に欠けてる大きなもんや。驚きやない。彼らはそれ以外の全てで進歩してる。それが本当に効果を持つまでには数年かかるやろう。そして、たぶん我々はその結果として中国にNvidiaチップを輸出すべきやないんや。それが潜在的な意味やな。

中国のAIガバナンス計画

次のストーリーは「Inside the Summit Where China Pitched Its AI Agenda to the World」やねん。これは7月末にシャンハイで開催された世界人工知能会議で起こった「Global AI Governance Action Plan」のリリースをカバーしてるんや。個人的にはそれが起こったこととして知らんかったけど、Geoffrey HintonやEric Schmidtのような主要で著名な西洋人物を含む、AI関係者が集まる主要イベントのようやな。

要点は、中国が少なくとも声明とこのアクションプランで、中国、シンガポール、イギリス、EUによって呼びかけられた主要AI安全プレイヤーの協力、連合を非常に主張したっちゅうことやねん。

米国AI行動計画と対照的に、米国が宇宙での一匹狼的人物として、反対方向に行くような感じやねん。それがどれぐらい意味があるかは理解するのが難しいけど、米国AI行動計画とこのグローバルAIガバナンス行動計画の間には対照が見られるのは明らかやな。

だから米国AI行動計画は、安全性を気にしてないような間違った特徴を持つことがよくあるんやけど、実際に彼らがやることは基本的にAI制御と監視メカニズム、物事がうまくいかんことを検出するための投資と、それらがうまくいった場合の緊急時計画への投資を求めることやねん。

だから、これは「まあ、どうでもええ」って行く政府やない。これは「我々は懐疑的やねん、わからんけど、我々は不確実やから、ここで脈を取り続けるつもりや」って言ってると model化できる政府やねん。

だからそんなに知的謙遜が正しい言葉かわからんけど、不確実やから指を脈に置き続けるつもりやってな。アクションプランにはチップ側でいくつかの国際関与的なもんがあったわ。安全性に関して「調整しよう」っちゅうような方法でのものはあまりなかった。

だから、この記事からのこの文が入ってくるんや。「アメリカが絵から外れてるから、アメリカからのシニア代表がなかったから」って言う時に、「中国、シンガポール、イギリス、EUによって共同リードされる主要AI安全プレイヤーの連合が今やフロンティアAIモデル開発に関するガードレールを構築する努力を推進する」って引用してるんや。

アメリカの関与と、中国が議論の余地なく最も重要なプレイヤーである場合、アメリカ政府がそこにいなかったっちゅう事実を無視したら、それが実際に意味があるかは明確やないねん。そして明らかに、主要フロンティアラボからの代表もなかったようで、XIだけがフォーラムに従業員を送ったんや。

つまり、OpenAIやAnthropicの人々がそこにいたって聞いたら、彼らが皆バーナーフォンとラップトップを持参しなかったことを少し心配するかもしれんわ。だってこれは中国やからな。

でも、これは中国圏の検証記事の種類のようやな。もう一つの部分は、Brian Sayっちゅう男で、彼はConcordia AIの創設者の一人やねん。これは北京ベースの安全研究会社のようなもんやねん。そして彼は長い間これをやってるんや。何年も前に、単に状況を理解しようとしてた時に彼と話したことを覚えてるわ。

だから彼らは「多くの西洋訪問者が、中国でのAIに関する会話の多くが安全規制を中心に回ってることを学んで驚いた」と主張してるんや。「文字通り、過去7日間でAI安全イベントにノンストップで参加できた。それは他のグローバルAIサミットの一部のケースやなかった」って引用やねん。

これの一部は、中国が政治的理由でこれらのモデルの出力をコントロールすることに特別な関心を持ってることでもあるわ。天安門広場やウイグル状況への言及に対するゼロトレランスの種類やねん。

だから、それは彼らが嫌いな狭い行動を取り締まるためのより多くの推進力を作る一方で、間違いなく、政府で、防衛で、国家安全保障でのCCP自身の使用に対してはガードレールが全くないんや。そして、それが彼らが非常に効果的に武器化する一つの区別やねん。

彼らは「我々は国内企業のためにモデルに全てのこれらの安全ガードレールを課してる」って言うやろう。西洋にはこれに興奮して「ああ、中国は安全について真剣や」って行く人々がいるんや。でももちろん、中国では、重要なのは政府がそれをどう使うかで、政府のテクノロジー使用にはガードレールがないと確信してええやろう。

だからちょっと複雑やねん。でも人々がそれについて話してるのは悪いことやないと思うわ。ただ注意点を心に留めとく必要があるねん。

そして、意味のある種類のイベントのアップデートはないけど、今年中国が西洋の主要オープンソースモデルの源になって、そしてこの種の他の機関と関与・協力する政治的努力が、単独の閉鎖的プレイヤーを超えたAIでの影響圏を持つもう一つの潜在的努力っちゅうのは、興味深い発展やと思うんや。

輸出ライセンスの問題

最後のストーリーは、もちろん、輸出禁止とかそんなもんについて話さなあかん。「Nvidia H20 GPUs Are Reportedly Caught Up in US Commerce Department’s Worst Export License Backlog in 30 Years」やねん。何十億ドル相当のGPUやその他のもんが、人員削減とコミュニケーション問題のために宙に浮いてるんや。

だから、それは非常に長いタイトルで、基本的に何が起こってるかを教えてくれてるんや。これらの輸出ライセンスの承認が必要やから、チップの出荷に実際の遅延と困難があるんや。中国だけやなく、他の地域にもな。

個人的にこれについての僕の見解は、これは最初から中国にGPUを出荷するのは実際に間違いやと思うねん。Epic彼らのレポートで表面化したようなものを考えると特にな。みんなが基本的にフラグを立ててることは、中国は実際にNvidiaや西洋に追いつくことができない、もしくは追いつく見通しがないっちゅうことやねん。まさにそれや。

だから、フレームは一種「中国に我々がここで使えるGPUよりかなり劣るGPUを出荷しよう」みたいな感じやったんや。でも僕の意見では、フレームは「中国の最高の国内GPUよりわずかに良いだけのGPUを中国に出荷しよう」であるべきやと思うわ。フロアやシーリングよりもシーリングやフロアの種類であるべきやねん。

そして、それは今H20で起こってることやないんや。H20は僕が思うに残念やねん。もう一つのことは、中国はCloudマトリックスのような効果的なシステムをファブすることすらできるけど、彼らの挑戦はそれをスケールでやることやねん。

だから、彼らは文字通り、Nvidia H20 GPUが実際のレベルよりずっとクソやったとしても、過剰な容量を持ってて、例えばTSMCでこれらのもんをファブして、SMICやないということから利益を得てるだけやねん。

だから、これらは本当の問題やと思うわ。これは残念やと思うけど、理由は理解してるで。だからここでの理論は、我々はHuaweiやSMICが中国で支配的市場シェアを持って、最終的にNvidiaや他の場所と競争できるようになる能力を築くことを望まんっちゅうもんやな。

問題は、それがすぐに起こる危険性はないと思わんっちゅうことやねん。そして歴史的に、中国のサプライチェーンが機能してきた方法は、サプライチェーンの狭い部分をブロックするけど他はブロックしないっちゅうことをしてきたんや。

サプライチェーンの一部だけが欠けてる時、そのギャップを埋めるためのエコシステムの構築に共同投資を助けることをいとわない、サプライチェーンの両側に買い手と売り手がいるから、サプライチェーンの両側で大量の経済的圧力を作るんや。

一方で、サプライチェーン全体をnukeして、5年前から始めるべきやったカーペット爆撃をしたら、それはずっと困難な状況を作るんや。どっちにしても中国が彼らのAIサプライチェーンの国産化にペダルを金属により強く押すことができる世界があるとは思わんのや。

だから、我々が彼らにNvidiaチップを売ることは、どんな方法であれ、SMICとHuawei複合体に投入されるドルや努力の量を減らすわけやないと思うねん。だから、これで期待されてる方法で政策の勝利を見んのや。また、僕は間違ってるかもしれんし、待って見るしかないな。

また、この特定のことについては、これは意図的なものやないようにも見えんのや。これは僕にとってはアメリカ官僚制の状態をより示してるように見えるな。

そうや、この特定のことについてはな。官僚的無能の失敗、つまりそうやな。

リスナーのコメントに素早く対処したいんや。Apple Podcastで「The Politics of the Internet」っちゅうタイトルのレビューがあったんや。基本的に「インターネットデータがチャットボットをリベラルに偏らせるっちゅう議論に反対せなあかん」から始まって、その後典型的にアメリカで民主党対共和党が言うような様々な話題に入るんや。

だから、チャットボットがリベラルに偏ってるって言う時に明確にしたいんや。これは、チャットボットに様々な質問をして、どんな種類の倫理的・道徳的価値と一致するかを見る研究に基づいてるんや。彼らは民主党寄り、共和党寄りよりもより多く行く傾向があるんや。これはよく知られてることや。

バイアスって言う時、それが必ずしも悪いとか間違ってるって意味やないねん。これは単にこれらのモデルが振る舞う傾向があることや。彼らは共和党と合意するより民主党と合意する方が多いんや。これは我々が正直に直面せなあかん何かやねん。

たくさんの研究が行われてて、少し左に偏る組織からのものも含めてな。有名な研究があったんや。これは左に偏る組織やけど、Center for AI Safetyが本当に大きなやつをやって、方法論の面でかなり決定的やったんや。我々は実際にポッドキャストでそのペーパーをカバーしたんやけど、それ以来他にもたくさん出てて、チャットボットと相互作用したらかなり明らかでもあるんや。

Hillary ClintonとDonald Trumpについて質問する例がたくさんあるんやけど、これは必ずしもラボがこれをしようとしてるからやないねん。君が言った通り、これは単にデータがどこから来るかの関数やねん。

オンラインにいる人の人口統計について1秒考えてくれよ。より若い人、大都市に住む人に偏ってる。統計的には、それは圧倒的に民主党投票者を意味するんや。だから、データがどこから来るかの関数やねん。

そして、ちなみに、人間として偏りのないリポーターをどう作るかは誰も知らんのや。そんなことをする方法を知ってる人はいないんや。だから、それをAIシステムでやることがどれほど不可能かは想像できるやろう。

これは良いポイントやと思うわ。もし完璧に中性にしようとしたら、ほとんどの話題で何も言うことを拒否するだけになるやろう。また、バイアスは通常否定的用語と考えられてるな。これはより記述的用語やねん。

この論評はGrokについても少し話してたから、これはGrokについての全体的会話に基づいてるんや。明確にするために、僕がGrokが誤情報の扱いや最大限に真実であることに関して疑問視されるべきことをいくつかしたことを知らんかったら。彼らはその点で疑問視されるべきことをいくつかしたんや。

だから、Grokが一種の問題を修正することで対処してるってことを暗示したくなかったんや。

違うもんやな。君は、これらのモデル全部が単に異なる哲学、異なるレンズを適用してるって考えることができるんや。最終的に、これをする正しい方法が何かは我々にはわからんねん。そして、ある程度、異なるレンズを持つことはたぶん良いことやろう。

Fox NewsでもCNNでも、全てのメディアを消費したくないのと同じように、バランスの取れたメディアダイエットを持ちたいもんや。それと似たようなアイデアやな。真の答えがないから、唯一の答えは、バランスの取れたメディアダイエットかバランスの取れたLLM ダイエットを持つっちゅうメタアンサーやねん。

半分料理された考えやけど、これは本当に困難な問題やねん。見た目より難しいんや。

まあ、それがエピソードや。エキサイティングな週やったし、次週もスキップせずに、次のしばらくはずっと続けようとするで。いつものように聞いてくれてありがとうや。フィードバックをくれたり、ポッドキャストをシェアしてくれたり、全てのことを感謝してるで。何より、聞き続けてくれるんをお願いするわ。