Last Week in AI #210 – Claude 4、Google I/O 2025、OpenAI+io

AGIに仕事を奪われたい
この記事は約67分で読めます。

40,047 文字

Last Week in AI #210 - Claude 4, Google I/O 2025, OpenAI+io
Our 210th episode with a summary and discussion of last week's big AI news!Recorded on 05/23/2025Hosted by Andrey Kurenk...

こんにちは、Last Week in AI ポッドキャストへようこそ。このポッドキャストでは、AIの最新動向について私たちの議論をお聞きいただけます。いつものように、今回のエピソードでは先週の最も興味深いAIニュースの要約と議論を行います。エピソードの説明欄に、私たちが議論しているニュースへのリンクとタイムスタンプが記載されていますので、特定の議論に直接ジャンプしたい場合はそちらをご利用ください。
私は通常のホストの一人、アンドレ・カレノフです。大学院でAIを学び、現在は生成AI系のスタートアップで働いています。今こうしてタイピング音が聞こえているのは、今週が本当に狂ったような週だったので、最終的なメモを取っているからです。もし私たちが今日うまく仕事をすれば、これは最高のエピソードになるでしょう。うまくいかなければ、他の週と同じように見えるかもしれません。
今週は本当に狂っていました。ちなみに私はジェレミーです。皆さんが聞いていれば、私のことはご存知でしょう。Gladstone AI、AI、国家安全保障、そういったことすべてに携わっています。これは本当に異常な状況です。先週、私たちが話していたのは、2週間分のニュースを追いかけているということで、1週間分を逃すたびに、それが2週間になると、必然的にそれが最悪の2週間になってしまうという話でした。
その時はAI業界が慈悲深かったのです。しかし今回は慈悲深くありませんでした。今回は本当に狂った、また最高の週でした。それについて詳しく話すのがとても楽しみですが、カバーすべきことが本当にたくさんあります。
その通りです。ここ数か月でこのような週はありませんでした。2月頃に似たような週があったと思いますが、その時は複数の企業からのリリースや発表が一気に集中した週で、今回もそれと同じような状況を見ています。
プレビューをお伝えすると、エキサイティングで内容が豊富な主要部分は、ツールやコンシューマー向け製品に関する発表です。GoogleがIO 2025のプレゼンテーションを行い、そこからニュースの大部分が出てきました。彼らは本当に攻撃的になったと言えるでしょう。ベータ版や実験段階から出てきたり、発表されたり、デモンストレーションされたりと、大量のものを発表しました。
そのすべてについて詳しく説明していきます。その後、AnthropicがClaude 4といくつかの追加機能を発表しました。これも大きな出来事でした。この2つが合わさって、本当に非常に出来事の多い週となりました。これが私たちが議論する内容の大部分になります。
そして、アプリケーションとビジネスの分野では、OpenAIに関連するストーリーがいくつかあります。興味深い研究と、これらの新しいモデルや他の最近のリリースに関連する安全性についてのポリシーと安全性の更新もあります。しかし、エキサイティングなものは間違いなく最初に来るものです。それでは早速始めましょう。
ツールとアプリの最初はClaude 4です。これがエキサイティングだという私の偏見もあるかもしれません。これはClaude Opus 4とClaude Sonnet 4です。これはAnthropicのClaudeの大型および中型版です。以前はClaude 3.7がありました。Claude 3.7は数か月間存在していたと思いますが、それほど長くはありませんでした。これは基本的に同等のアップデートです。これらは3.7版と同じ価格設定になります。
ここでの売り文句は、特にコーディングがより優れており、長いワークフローがより得意だということです。ワークフローの多くのステップにわたって集中した努力を維持することができます。これはCloud Codeの更新とも組み合わされています。開発環境とより密接に統合され、SDKも付属しています。
そのため、コマンドラインツールとして使用する必要がなく、プログラム的に使用できます。それに関連して、OpusとSonnetの両方のモデルは、3.7と同様にハイブリッドモデルです。他のモデルの推論予算を調整できます。
定性的には、Anthropicが行ってきたことと比較して特に新しいことはありませんが、エージェント的な方向性を本当に強化しており、モデルに何らかの作業を与えて、それを行わせて、少し時間を置いてから戻ってきて、Cloud Codeのようなもので何を構築したかを確認するような作業に対して、人々がこれらのモデルを最適化しているようなデモンストレーションです。
ちなみに、リリースされた2つのモデルは、Claude Opus 4とClaude Sonnet 4です。また微妙に命名規則が変更されていることに注意してください。Claude for SonnetやClaud for Opusではなく、今度はClaude Sonnet 4、Claude Opus 4となっています。個人的にはこちらの方が好きですが、まあ、そういうものでしょう。
本当に興味深い結果がたくさんあります。SWEBenchから始めましょう。これはソフトウェアエンジニアリングの疑似現実世界タスクのベンチマークで、OpenAIが整備したものですが、それ以前に開発されたものです。
文脈として、OpenAIのCodex 1は、ほんの数日前には大きな話題だったことを覚えている程度に私も年を取りました。これはこのベンチマークで約72%、72.1%のスコアを記録していました。これは本当にかなり高いスコアでした。実際、20秒間だけでしたが、これは大きな話題でした。火曜日にリリースされた時は大きな話題だったのですが、今は金曜日で、もはや大きな話題ではありません。なぜなら、Sonnet 4が80.2%のスコアを記録したからです。
72から80%への上昇。これは大きな、大きなジャンプです。残りがそれほど多くないことを考えると、テーブルに残っているのは30パーセントポイントしかなく、その中の8ポイントを一つの進歩で取っているのです。
興味深いことに、Opus 4は79.4%のスコアを記録しています。つまり、そのベンチマークでSonnetと同等のパフォーマンスを示しているのです。Opus 4からSonnet 4への関係や、その蒸留がどのように行われたか、追加のトレーニングがあったかなどについて、多くの情報はありません。
とにかく、これは将来もう少し詳しく学ぶであろうもう一つのことです。これらの数字は、多くの計算量を使用した上位範囲のものです。例えば、OpenAIのo3のように、これらのモデルが出かけて行って、しばらく作業させるようなもので、より制限された版ではありません。
その通りです。それは本当に良い指摘です。推論時計算、テスト時計算モデルには範囲があり、この場合の低推論時計算予算スコアは約72〜73%で、高推論時計算予算は両モデルで約80%です。
Codex 1と比較すると、72.1%のスコアを記録していますが、これが低計算モードか高計算モードかは実際には示されていません。これ自体が少し曖昧ですが、いずれにしても、これは大きな、大きな飛躍であり、早期アクセスを持っていた多くの人々がXで共有している定性的評価にも現れています。
こうしたことは何とでも言えますが、あらゆる種類の本当に興味深いことがあります。彼らはモデルがショートカットや抜け穴を使用するのに関連する行動を大幅に減らす方法を見つけたようです。これはCodex 1の大きな課題でした。多くの人がこれについて不満を述べています。
それは半分賢すぎるのです。o3モデルにもこの問題があります。時には、「いや、そのような方法で問題を解決してほしくない。それはちょっと危険なほど創造的すぎる、ちょっとズルをしているような感じだ」と思うような、少し危険なほど創造的なおかしな解決策を見つけることがあります。
また、タスクを完了したと言いながら、実際には完了していないこともあります。これは特にo3で少し苛立たしいと感じていることです。このモデルはそのような行動の発生頻度が大幅に低くなっています。OpusとSonnet 4の両方のモデルが、ショートカットや抜け穴に特に敏感なエージェントタスクにおいて、Sonnet 3.7よりも65%このような行動を取る可能性が低いと彼らは言っています。
これはかなりクールです。もう一つの大きな側面は、メモリパフォーマンスです。開発者がClaudeにローカルファイルアクセスを与えるアプリケーションを構築する際、Opus 4は情報を保存するためのメモリファイルの作成と維持に本当に優れています。
これは永続的なLLMメモリの問題に対する部分的な解決策です。コンテキストウィンドウに入れられる量には限りがあります。これらのモデルは、明示的なメモリファイルの構築、つまりコンテキストに保存するだけでなく、それらを取得することに本当に優れています。つまり、暗黙のRAGとでも呼べるものに本当に優れているのです。実際のRAGではありませんが、単に思い出すのがそれほど得意なのです。
これに付随するさまざまな機能があります。どんな大きなリリースでもそうですが、これはさまざまな異なるもののスモーガスボードのようなもので、何をハイライトするかを選ぶ必要があります。ここで最も興味深いものの一部は、Claude 4システムカードにあります。
アンドレ、間違っていたら訂正してください。システムカードについて具体的に後で話すセクションがありますか、それともこれで終わりですか?
後で advancement セクションでおそらく戻ることができると思います。Googleについて話すことが本当にたくさんあるからです。技術的な詳細により深く踏み込むために、後でもう少し詳しく掘り下げます。
高いレベルでは、Anthropic LLMなどのユーザーとして、これはかなり大きな前進だと思います。特に、Claud CodeやこれらのLLMに出かけて行って、あなたのために作業を完了させる能力のようなものにおいて。
それでは今、Anthropicから離れて、次はGoogle IO 2025からのすべてのニュースについて話します。
たくさんのことを取り上げる必要があります。かなり早く進めようと思います。まず最初は、Google検索のAIモードです。近日中に、Google検索にAIモードのタブができるようです。これは基本的に検索のChatGPTのようなものです。
GoogleはしばらくAIオーバービューを提供していました。少なくとも一部の検索では、クエリに対する回答とともに、さまざまなソースのLLM要約を得ることができました。
AIモードはそれをより深く掘り下げたものです。さまざまなソースをより深く調べ、フォローアップの質問をすることができます。これはPerplexityが提供してきたもの、ChatGPT Searchが提供してきたものなどと非常に似ています。
これは本当に同等であり、Googleはそれでショッピングができたり、チャートやグラフがあったり、数百のソースを調べることができる深い検索ができるなど、さまざまな部分を実演しました。
この密接な統合は、Googleにとって必要なことです。Googleの問題の一つは、年間数千億ドルを検索市場から稼ぎ、90%の市場シェアを持っている時、すべてがダウンサイドになることです。
心配していることは、ある日OpenAIのChatGPTがある閾値を超えて、5%多くのユーザーにとって検索に対するデフォルトの選択肢になることです。それが起こった瞬間、Googleの時価総額は実際に5%以上下落するでしょう。なぜなら、それは彼らのビジネスの基盤の侵食を示唆するからです。
これはGoogleにとって本当に大きな5つのアラームの火事であり、検索機能に生成AIをより積極的に含めようとしている理由でもあります。これは遅すぎました。「なぜこんなに時間がかかったのか」と考えている人がたくさんいると思います。
覚えておくべきことの一つは、このような大きな市場でこれほど大きな市場シェアを持つということは、enormous riskを伴うということです。
OpenAIがChatGPTを立ち上げて、時々人々に自殺を勧めたり、死体を埋めるのを手伝ったりすることがあっても、それは問題ありません。人々はそれを新興企業だからと許します。少なくとも2022年当時はそうでした。
一方、Googleがそれをやっていると、今度は議会と上院の召喚状があり、人々はあなたに来て証言することを望みます。彼らはあなたを厳しく追及するでしょう。Josh Hollはあなたを厳しく攻撃するでしょうし、そうすべきです。しかし、それが問題なのです。
基本的により大きなオーディエンスに到達し、それが均衡化されています。OpenAIは依然として、大胆に挑戦するブランドの利益を受けています。ある意味では期待がまだ少し低いのですが、この時点では不公平です。
しかし、Googleは確実に多くのユーザーを持つ大企業の遺産を受け継いでいます。そのため、ロールアウトは完全に正当な市場の理由でより遅くなります。
とにかく、これは本当に興味深いと思います。これが実際に定着するかどうか、ChatGPTにどのような影響を与えるかも見てみましょう。
GoogleプロダクトスイートはあまりPRされていませんが、相対的に言えば、非常に優れた生成AI製品のスイートです。私はGeminiをいつも使っています。人々はそれについてあまり話す傾向がありませんが、本当に興味深いと思います。これはGoogleの側のマーケティングの失敗だと思いますが、彼らのプラットフォームはとても巨大なので不思議です。
おそらくこれは、その問題を少し解決する方法になるかもしれません。
一部の人々の使用量が高いかもしれないということについて、後で触れるかもしれません。シリコンバレーのバブル状況が起こっていると思います。あなたはシリコンバレーにいませんが、バブルという意味で精神的にはシリコンバレーにいるようなものです。
次に進みます。次の発表もGoogleからのもので、Project Marinerについて話していました。これはDeepMindからの実験プロジェクトでした。これはOpenAIのOperator、AmazonのNova、コンピュータ使用の同等物です。これはインターネットに出かけて行って、あなたのためにものを使用できるエージェントです。ウェブサイトに行って、イベントのチケットを探し、チケットを注文するなどができます。
Googleはテストと早期フィードバックによりこれを改善し、現在はより多くの人々に開放し始めようとしています。アクセスは、発表のスレートでも紹介された新しいAI Ultraプランによって制限されます。月額250ドルです。
この月額250ドルのプランは、すべての高度なもの、すべてのモデル、最多の計算量などを提供するものです。Project Marinerも利用できます。この更新により、Project Marinerに最大10のタスクを与えることができ、バックグラウンドでそれらを実行してくれます。
少し紛らわしいことに、GoogleはGeminiアプリでのエージェントモードのデモも行いました。エージェントモードはGeminiアプリでのMarinerへのインターフェースに過ぎないかもしれません。よくわかりませんが、どうやらUltra加入者も近日中にエージェントモードにアクセスできるようです。
このような新しいリリースで根本的に異なることをハイライトするのは非常に挑戦的だと思います。なぜなら、「以前と同じですが、よりスマートです」と言うことが多く、それは確かに真実であり、それ自体が変革的だからです。
この場合、一つの種類があります。あなたがここで言及したことですが、明確に言います。以前のバージョンのProject Marinerは、実際にあなたのブラウザで実行されていたため、一度に一つのタスクを実行することに制限されていました。この場合の大きな違いは、これらをクラウドで並列実行しているため、10個または十数個のタスクを同時に実行できることです。
これは種類的に異なります。これは多くのワーカーが並列してあなたのものを処理しているようなものです。その世界では、特定のAIの一種のリーダーというよりも、オーケストレーターに近いものです。とても興味深いです。
次に進みます。次に取り上げるのはV3で、発表のワウファクターの観点から言えば、最も高いものだと思います。インパクトの観点では、おそらく最も高いものではありませんが、単純にワウファクター、AIが依然として私たちの心を吹き飛ばしているという観点から、V3はGoogle IOのハイライトでした。
それは、1年前と比較して信じられないほど一貫性があり、リアルなビデオを制作するだけでなく、ビデオとオーディオを一緒に制作し、かなり良い仕事をしているからです。
V3ができることの多くのデモンストレーションがありました。私と多くの人々を感動させたのは、インタビューを模倣したり、典型的なYouTubeスタイルのコンテンツを作成したりできるビデオです。例えば、会議に行って人々と話し、オーディオ付きでカメラに向かって話している人々がいて、それがかなり本物に見えるものです。
これは以前に見たビデオ生成とは明らかに異なる種類のものです。GoogleからFlowという新しいツールも提供され、複数のビデオを編集してまとめることもできます。繰り返しになりますが、Googleからの非常に印象的なもので、これも彼らのAI Ultraプランの下にあります。
面白いのは、彼らがローンチウェブサイトにベンチマークのセットも含めていることです。これらは実際に隠されています。実際にクリックしてものを見る必要があります。
ワウモーメントがある時にこれらを見るのはいつも興味深いと思います。テキストからビデオへのChatGPTモーメントと完全に呼ぶつもりはありません。採用がどのようになるかまだわからないからです。しかし、確実にインパクトの観点から、それはワウモーメントです。
V2と比較してそれがどのように変換されるかを見ると、V2は繰り返しになりますが、比較的注目されていませんでした。当時は多くの人が話していましたが、実際には定着していません。
66%の勝率です。3分の2の時間で、MetaがリリースしたベンチマークであるMovie Gen Benchで V2を打ち負かします。これは基本的にビデオに関する好みについてのベンチマークです。約3分の2の時間で勝ち、4分の1の時間で負け、10%の時間で引き分けます。
これはかなり支配的なパフォーマンスのように見えますが、あなたが期待するようなノックアウトではありません。これらの数字から「ワオ、これがそのインパクトだ」と行くのは難しいです。しかし、確実にそこにあります。これらを見ると、かなり素晴らしく良いです。
これは生成の一貫性についても語っています。彼らが必ずしもいくつかの良いビデオを選り抜くことができるわけではありません。以前のバージョンをかなり一貫して打ち負かしているのです。
実際にV2も更新されました。発表の観点からこれがどれほどクレイジーだったかを示すために。V2は今、参照写真を取ることができます。他のいくつかの更新で見たことがありますが、Tシャツや車の画像を与えると、それをビデオに組み込みます。
これはすべてこのFlowビデオ作成ツールに組み込まれています。カメラコントロールがあります。既存のショットを編集・拡張できるシーンビルダーがあります。材料とプロンプトを整理できるアセット管理もあります。
彼らはまた、V3での人々の作品を閲覧する方法としてFlow TVというものもリリースしました。大量のものがあります。現在GoogleはRunwayやOpenAIがSoraを完全にリリースした時にSoraが始めたことと競争しています。Soraにはいくつかの組み込み編集機能がありました。
現在、V3は単なるテキストからビデオではありません。テキストからビデオを有用にするより多機能なツールがあります。
オーディオの含有も実際にかなり重要だと思います。これは別のモダリティです。モデルをより根拠づけるのに役立ちます。ビデオとオーディオの間の因果関係のために、それは実際にかなり意味のあることだと思います。
これは全体的なポジティブ転移の観点から興味深いことです。モデルが十分に大きく、十分なデータを消費している状況で、問題空間の複雑さが増加してもある一つのモダリティから学ぶことで、別のモダリティが追加された時により良いパフォーマンスを発揮するポイントに到達するのでしょうか。
私はそうなると思いますし、おそらくすでに起こっていることです。つまり、デフォルトでより多くのマルチモーダルビデオ生成を持つ世界に向かっているということです。それはそれほど驚くべきことではないでしょう。
次に、Googleは単にテキストからビデオを行うだけでは満足しなかったようで、Imagine 4でテキストから画像も行いました。これは彼らの旗艦テキストから画像モデルの最新版です。
テキストから画像で見てきたように、プロンプトに従うことや、テキストにおいて、さらにリアルで優れています。彼らは動物の詳細な布地や毛皮などの能力や、テキストと typography の生成に注意を払ったと本当に小さなことをハイライトしており、これはスライドや招待状などの他のことに有用であると言っています。
彼らのツールスイートにもロールアウトされています。最後に言及すべきことは、彼らはこれがImagine 3よりも速くなると言っています。計画では、Imagine 3の最大10倍速くなるようです。
これは製品というよりもモデルについて話しているので、はっきりしません。計算量を増やすために登場する計算クラスターがあるのか、または実際に10倍計算効率を上げるアルゴリズムの進歩があるのか、はっきりしません。
おそらく両方の組み合わせでしょうが、興味深いのは、私は計器飛行をしているような感覚です。これらの異なる画像生成モデルの違いを見分けることができません。
確かに、これらの写真は非常に印象的に見えますが、間違いなく、ただ増分的な違いを見分けることができません。結局、トークンあたり、または画像あたりの価格を見ることになります。
価格と遅延の両方が非常に迅速に下がっています。
次に進みます。残りいくつかのことがあります。Googleのすべての発表をカバーしてきました。これはハイライトすべきだと思った選択です。次はGoogle Meetがリアルタイムスピーチ翻訳を取得することです。
Google MeetはGoogleからのビデオミーティング提供で、Zoomやその他のようなもののようなものです。今、ほぼリアルタイムの翻訳ができるようになります。これは記者会見などでリアルタイム翻訳者を持つことに似ています。
話し始めると、数秒以内にペアになった言語への翻訳を開始し、あなたに従って続けます。彼らは消費者AI加入者へのロールアウトを開始し、最初は英語とスペイン語のみをサポートし、今後数週間でイタリア語、ドイツ語、ポルトガル語を追加すると言っています。
私がある種待っていたものです。正直、非常に洗練されて強力な、リアルタイムAI駆動翻訳があるべきだと思っていましたが、今それがロールアウトされ始めています。
個人的に、私は英語以外の言語を話す人々は今まで完全に意味不明なことを言っているだけだと思っていました。これは本当にショックです。
いや、面白いのは、これは遅延が臨界閾値を越えるポイントに到達すると、それが魔法のアンロックになる別のことの一つです。10秒かかる翻訳を作るモデルでも、基本的に役に立ちません。少なくともGoogle Meetの目的では、本当に厄介な会話になるからです。
あなたが指摘したように、Googleが少し時間がかかったもう一つの場合ですが、物事を間違って翻訳して議論を始めるなどのリスクは非常に高いです。それは本当にあることで、彼らのリーチのために多くのビデオチャットに展開しているので、それは企業の計算の一部でなければなりません。
これは詳細に入るつもりはありませんが、Googleはスマートグラスのデモを発表しました。これは注目すべきことだと思います。なぜなら、Metaがスマートグラスを持っており、リアルタイム翻訳を備えているからです。
外国に行くと、インイヤー翻訳者を持つことができます。これもこのようなものの計画であることに驚きはありません。
Googleの最後に言及すべきことは、ハイライトの一つではありませんが、他のものと比較すると注目すべきだと思うことです。Googleはまた、開発者向けにコーディングエラーを自動的に修正することを意図した新しいJulesAIエージェントを発表しました。
これはGitHubで使用できるもので、GitHub Copilotに非常に似ています。コードリポジトリで作業することができます。どうやら、近日中に登場するようです。これは単に発表されただけです。
計画を立て、ファイルを変更し、コーディングプロジェクトで確認するためのプルリクエストを準備してくれます。
このような製品発表と同様に、Googleは Jules は初期開発段階にあり、引用すると間違いを犯す可能性があると言っています。とにかく、私たちは超知能に到達するまでそれを言い続けると思います。幻覚がそれほど持続的なものだからです。
しかし、そこにあります。次のストーリーは実際にそれに直接関連しています。GitHubが新しいAIコーディングエージェントを発表したということです。
GitHub Copilotはしばらく前から存在しています。プルリクエストで、コードベースを変更するリクエストでコードを確認することができました。GoogleもコードをGeminiに統合してコードを確認する能力を持っていました。
Microsoft は Jules や Codex とも直接競争し、コードを編集してプルリクエストを準備するために出かけて行くことができるエージェントの提供を行っています。これは、彼らが以前よりもコーディングエージェントやより広いエージェントの方向に非常に迅速に押し進めているすべての企業の興味深いトレンドの一部です。
これは、Microsoft と OpenAI が明らかにこの frenomy のような競争関係にあるため、注目すべきです。Copilot は 2020 年か 2021 年頃、GPT-3 の直後に、少なくともコーディング オートコンプリートの最初の大規模展開の第一号でした。
そのため、彼らはこの場合、ある種の高速フォロワーでもあるこの伝統を続けています。これは興味深いことです。もはやゲームで完全に最初ではないからです。これは大きな変化として注目すべきことです。
言及する価値のある小さなこととして、彼らは VS Code 用の GitHub Copilot のオープンソース化を発表しました。これは技術的な詳細ですが、Cursor やこれらの他の種類の代替開発環境との競争もあります。Cursor の背後にある会社は現在数十億ドルで評価されており、これは GitHub Copilot を持つ Microsoft Visual Studio Code の直接の競合です。
彼らが Visual Studio Code への GitHub Copilot 拡張をオープンソース化するのは興味深い動きだと思います。その分野で支配し始めているスタートアップと競争しようとしていると思います。
ここに投げ込む一つのことは、この傾向との関係でフラグを立てているからです。フランスの会社でOpenAI と Anthropic と競争しようとしているMistral が、コーディングに焦点を当てた新しい AI モデル Devstral を発表しました。
これは Apache 2 ライセンスの下でリリースされ、Gemma Code 27B などと競争しています。中級のコーディングモデルのようなもので、Mistral もより大きなエージェントコーディングモデルに取り組んでおり、これは近日中にリリースされる予定です。これはあまり良くない小さなモデルです。
これは、Devstral と比較してより制限的にライセンスされていた Code もフォローアップしています。そこで、誰もが以前よりもコーディングに参入しています。あなたもエージェントを得て、あなたもエージェントを得ます。
アプリケーションとビジネスに移ります。最初にあるのは、最も重要なストーリーではありませんが、最も興味深いまたは奇妙なストーリーだと思います。これは、Johnny Ive からのスタートアップを完全に買収するという OpenAI の発表です。そうですね、Johnny Ive です。
Johnny Ive が Sam Altman とで 2年前に始めたスタートアップ I/O を彼らが完全に買収するという話ですが、詳細は私には非常に奇妙に思えます。私たちが何も知らない、または何をしたのかわからないこのスタートアップがあります。
OpenAI はすでにこのスタートアップの 23% を所有しており、今度は 55 人の従業員を持つ I/O 会社に 50 億ドルを支払うという完全株式買収に進んでいます。繰り返しになりますが、少なくとも私は何も見たことがありません。
彼らは、従業員が移籍し、Johnny Ive は引き続き彼の設計会社である Love From で働くと言っています。Love Fromは様々なものを設計してきたように、Johnny Ive は OpenAI や I/O のフルタイム従業員ではなく、ある種のパートタイム貢献者または協力者です。
これらのさまざまな奇妙な詳細を締めくくるために、これは Sam Altman と Johnny Ive がサンフランシスコを歩き、コーヒーショップで出会い、価値観と AI と彼らの協力について 8 分間の会話をする発表ビデオを伴っていました。それは非常に奇妙な雰囲気を持っていて、それを非常に芸術的な感じにしようとしていました。
彼らはまた、Johnny and Sam と呼ばれるブログ投稿をリリースしました。とにかく、これの PR 側面、このビジネス側面を理解していません。これはすべて私には奇妙です。
それは Johnny Ive が設計したランディングページのようにほとんど読めます。それを発表するために。それは非常に洗練されたシンプルで Apple スタイルのようなものです。実際に Love From のウェブサイトと非常によく似ています。ブログ投稿は同じスタイルを持っています。この最小限の中央揃えテキスト、大きなテキスト、ヘッドラインは Johnny and Sam だと思います。
私はただ奇妙だと言います。この I/O が最初に立ち上げられた時の周りのニュースレポートでは、Sam Altman と Johnny Ive の新しいスタートアップのようなものと呼ばれていたと思います。これは Sam と Johnny が一緒に共同設立している会社であるというような意味でした。それは明らかにそうではありません。少なくとも彼らが言ったことによると。
彼らは、Johnny と Sam の友情から生まれたような何かを言っていて、これは非常にあいまいです。しかし、会社自体は約 1 年前に Johnny Ive、Apple の卒業生である Scott Cannon、そして Tang Tan と Evans Hankey によって設立されました。
Evans Hankey は実際に Johnny が Apple を去った後、Apple で Johnny の役割を引き継ぎました。だから彼らはそこで密接で、多くの共有歴史がありますが、実際の共同設立者の誰も Sam ではありません。OpenAI はすでに会社の 23% を所有しています。そのため、64 億ドルの総評価のうち 50 億ドルしか支払わなくて済みます。
あなたが言ったように、これらすべてから、Johnny は Love で働くために自由なエージェントのままであることになります。ちなみに、60 億ドル規模でも会社を買収し、最も重要な共同設立者の一人であることの議論である中核的な共同設立者の一人を単に去らせるのは非常に珍しいです。
通常、これはこのような方法では行われません。Facebook による WhatsApp の買収のように、50 億ドルの買収だったと思いますが、WhatsApp の創設者は早期に Facebook を去り、彼は株式の権利確定スケジュールに従っていました。そのため、彼の株式の大部分が消滅し、彼が残っていれば得られたであろうお金を実際には得られませんでした。
よくあることです。Johnny が単に去って、どこかへ行って、どうやらこれからお金を得ているのかどうかわからないのは奇妙です。これは非常に秘教的な種類の取引のようです。
しかし、要するに、彼らは多くのハードウェアの仕事をしています。OpenAI は 11 月に Meta の Orion 拡張現実メガネイニシアチブの元責任者を雇い、ロボティクスと消費者ハードウェアの仕事を指揮することになりました。
OpenAI で多くのことが起こっています。これはおそらくそのハードウェアストーリーに含まれます。多くの情報はありませんが、おそらく彼らが一緒に作業している魔法のデバイスがあり、それは電話ではありません。
誰が知っているでしょうか?この発表は非常に短く、おそらく 9 段落くらいで、I/O が OpenAI と合併するにつれて、Johnny と Love From は OpenAI と I/O 全体で深いデザインと創造的責任を担うと言って終わっています。
強いコミットメントのようなものではなく、あなたのような自由エージェントとして、深いデザインと創造的責任とは何でしょうか。I/O は、有名な大きな失敗である Humane AI Pin と Rabbit R1 に似た AI のハードウェアインターフェース、新しいハードウェア製品に取り組んでいるようでした。
OpenAI と Johnny Ive と一緒に、彼らがまだこの AI コンピュータまたは何でもそれを呼びたい AI インターフェースを作ることを希望していることを見るのは非常に興味深いです。
とにかく、この発表とこのビデオとこの周りのビジネスストーリーから、そのような奇妙な雰囲気があります。
発表にコードの匂いがあることはありますか?それがこれのような感じだからです。
それほど奇妙ではないものに移ります。アブダビでの OpenAI の計画されたデータセンターに関する詳細があります。彼らはアブダビで世界最大級の AI インフラストラクチャの一つとなる大規模な 5 ギガワットのデータセンターを開発すると言っています。
これは 10 平方マイルにわたり、G42 との協力で行われ、OpenAI の Stargate プロジェクトの一部になります。私は追跡を失いつつあります。OpenAI の Stargate プロジェクトは単にデータセンターがどこに置かれるかということでしょうか?
これは、G42 が Huawei や Beijing Genomics Institute などのエンティティでの持分を売却し、それらとの関係を断つと述べた後、Trump の中東でのツアーの後に来ています。
これは国家安全保障の観点から非常にワイルドです。これは、Trump が UAE やサウジアラビアと結んだ取引とは無関係ではありません。先週または前の週にです。
文脈として、アビリーンのテキサス州にある OpenAI の最初の Stargate キャンパスについて、私たちはたくさん話してきました。それは 1.2 ギガワットに達することが予想されています。
米国のグリッドで予備のギガワットを見つけることは本当に非常に困難です。これがアメリカがサウジアラビア、UAE などの国、エネルギー豊富な国々のグリッドでエネルギーを見つけるために向かっている大きな理由の一つです。
5 ギガワットを見ると、現在アビリーンで建設されているものの 5 倍の大きさです。これまで OpenAI が検討している最大のクラスターとなるでしょう。
また、それは外国の土地、米国が複雑な過去を持つ国の土地に基づくことを意味します。データセンターとビルドの確保について行った作業に基づいて、事前にそのものが建設される物理的な土地を制御できない場合、実際に何かを確保することは非常に困難だと言えます。
その場合、始めから安全保障問題があります。さまざまな理由で UAE で建設する場合、それは第一選択肢ではありません。あなたはその環境を制御していると自分に言い聞かせるかもしれませんが、実際にはそうではありませんし、そうすることもできません。
国家安全保障の観点から、政府がこれを非常に密接に追跡し、本当に何をしているか知っている民間部門を含む特殊作戦、インテリジェンスの人々を連れてきていることを本当に希望します。
現在のビルド、Stargate ファミリーからのものを含めて、今のところ、セキュリティのレベルは印象的ではないと言わざるを得ません。非公開の多くのプライベートレポートを聞いていますが、それがそうであることを非常に明確にしています。
これは本当に大きな問題です。これらを確保する方法を理解する必要があります。それを行う方法とそうでない方法があります。しかし、OpenAI はこれまで、セキュリティストーリーをどれほど真剣に受け止めているかの点で印象的ではありませんでした。彼らは大きなゲームを話していますが、実際の現地の現実は異なるようです。再び、私たちが聞いていることに基づいて。
本当に興味深い質問です。この構築が立ち上がるのでしょうか?国家安全保障の観点から効果的なのでしょうか?これを確保するために何が必要でしょうか?
とにかく、すべて Microsoft と OpenAI と米国との間で長い間追跡してきた G42 の背景の一部です。
Trump が政権にあることで、確実にこれらの関係が大幅に深まり、OpenAI や Microsoft の他の技術会社がその動きに飛び乗ることを喜んでいるようです。あなたが言ったように、その地域からOpenAI などへの投資がたくさん行われているので、それを確保できればそれは価値があります。
これは米国の電力網から大きな圧力を取り除きます。明日 5 ギガワットを見つけて建設するというわけにはいきません。それは実際には、アメリカでは 10 年以内に原子炉を建設する方法がわからないため、時間がかかります。
したがって、それは本当に良いオプションです。サウジアラビアの資本、UAE の資本、これらは彼らに情報権や何かが付属しないことを知っていれば、素晴らしいものです。しかし、サウジアラビアと UAE のエネルギーの恩恵を受けたい場合は、これらのものの周りのサプライチェーンを確保する方法を理解する必要があります。
これには数十億ドルがかかるでしょうから、少し多くの資金を投入することを望むでしょう。
驚くでしょう。セキュリティは高価であり、実際にはお金で必ずしも購入できません。これらのサイトを、たとえば中国やロシアの国家レベルの攻撃に対して堅牢になるポイントまで実際に確保する方法を知っているチームは極めて稀であり、それは文字通り SEAL Team 6 や Delta Force や機関のような数人の人々であり、彼らへの時間の要求は極端で、信頼できる方法でそこに到達できない限り、おそらく彼らとネットワークを築くことはできません。
本当に困難な問題です。
次のストーリーに移ります。これも私にとって奇妙で、ほとんど面白い種類のストーリーだと思います。有名な AI リーダーボードをよく取り上げてきた LM Arena ですね。
数週間前に取り上げたと思います。大きな商業プレーヤーがオープンソースの競合に先んじるためにアリーナをゲームしているように見えるという大きな論争がありました。その組織は A16Z と UC Investments が主導する 1 億ドルのシード資金調達ラウンドを発表しました。
これは彼らを約 6 億ドルで評価することになります。これは彼らが補助金や寄付によってサポートされてきた後に来ています。100 万… このリーダーボード会社組織の約束は何なのか理解できません。これは単なる慈善事業なのでしょうか?
とにかく、これは私には非常に奇妙です。そのスライドデッキ、ピッチデッキを見てみたいです。
少なくとも言えることは、ここで興味深いことがたくさんあります。注目すべき一つのことは、彼らが調達したのは 1 億ドルのシード ラウンドです。これは価格付けされたラウンドではありません。
文脈として、シード ラウンドを調達する場合、これは不要な詳細に入りますが、基本的に会社に実際の評価を置くことを避ける方法です。
セーフで調達する場合、通常シード ラウンドのこと全体は、取締役会席を譲らないことです。一方、シリーズ A やシリーズ B を調達する場合、取締役会席を譲り始めます。
これは彼らが多くの影響力を持っていることを意味します。1 億ドルを調達してそれをシード ラウンドと呼んでいる場合、基本的に「はい、そのお金を取ります、あなたは株式を得るでしょうが、取締役会席を得ることさえ考えないでください」と言っています。
通常、多くの影響力を持っている場合にのみそれを行うことができますが、これは再びあなたの非常に良いと思う基本的な質問に戻ります。ここでの利益ストーリーは何でしょうか?
私には全く分かりませんが、LM Arena は上位 AI ラボがリーダーボードをゲームするのを手伝ったと非難されており、彼らはそれを否定しています。
しかし、このような構造がどのように収益化されるかを考えると、特定のラボに対して明白な好みではなく、微妙な好みや間接的な好みを示すことかもしれません。わかりません。私は推測しており、これは利益の戦略が何であるかについての情報が見当たらないので、本質的に懐疑的になります。
ここには多くの影響力があり、利益ストーリーがあるに違いありません。A16Z が主導しているので、おそらくそこにはあるのでしょう。
どうやら、プラットフォームを運営するのに数百万ドルかかり、これらのチャットボットを比較するために計算を行う必要があります。ここでのアイデアは、特定の入力に対して 2 つの生成、2 つの出力を取得し、人々はどちらを好むかを投票することです。
その意味で費用がかかり、推論に対して支払う必要があります。少なくとも言われていることは、この資金はコミュニティをサポートし、人々が人間の好みから学ぶのを助けるために、Alamina の成長と、より多くの人々を雇い、このようなものを実行するために必要な計算などの費用に使用されるということです。
基本的に、それをスケールアップして成長させ、コミュニティをサポートし、人々が人間の好みから学ぶのを助けるようなものにすると言っています。この 1 億ドルが投資家にとってどのようにしてリターンになるかについては何も関係していませんが、データ プレイのようなものかもしれません。Scale AI がやっているようなもので、データラベリングがあります。
私はそのデッキを見てみたいです。
次に、ハードウェアに戻って、Nvidia の CEO が中国向けの H20 の次のチップは Hopper シリーズからではないと言いました。これは小さなコメントですが、以前 Nvidia が今後 2 か月で中国向けの H20 チップのダウングレード版をリリースする計画だったと報告されていたため、注目に値します。
これは米国のチップに関する制限の政策の変化の中で発表され、中国専用に設計されたこれらの H20 チップの販売がわずか数か月前に禁止された後に来ています。Nvidia は計画を変更し、かなり迅速に適応しなければならないようです。
彼らが Blackwell ラインから引っ張ってくるようです。これは理にかなっています。Jensen の引用はここにあります。「それは Hopper ではありません。なぜなら、もはや Hopper を変更することは不可能だからです」。
そのため、彼らはサプライチェーンを Blackwell に移行したようです。そこに驚きはありません。彼らは Hopper プラットフォームからできるだけ多くのジュースを絞り出し、おそらくそれをもうできないと発表された時に在庫を売り切りました。
次に、Googleから少し離れるために、ビジネスセクションにこれを入れました。Google Gemini AI アプリが 4 億人の月間アクティブユーザーを持っていると発表されました。これは 3 月時点で 6 億人の月間アクティブユーザーを持っていた ChatGPT の規模に近づいているようです。
私が予想していたように、これは私には非常に驚きです。チャットボットとしての Gemini は ChatGPT や Claude などの提供と特に競争力があるように見えず、Gemini や Gemini アプリの大きなファンである多くの人々を見たことがありませんが、この発表によると、多くの人々がそれを使用しています。
どうやらここでの比較対象は、Google が 3 月に ChatGPT が約 6 億人の月間アクティブユーザーを持っていると推定した最近の法廷文書です。つまり、これは 3 月の ChatGPT がいた場所の約 3 分の 2 です。
ChatGPT と OpenAI が Google の領域に侵入している範囲で、Google も同じことを始めています。これは明らかに、サブスクリプションの形でのお金と同じくらいデータの競争でもあります。これらは、両社が回そうとしているすべての自己舐めアイスクリームコーンまたはフライホイールです。
私はまた、この Google IO 2025 とこの発表も含めて、この全体的な話の一部だと思います。過去数か月間で、Google は AI レースと競争における地位の観点で本当に運命の変化を遂げたということを実証していると思います。
基本的に 2025 年まで、彼らは驚くほど遅れているように見えました。数字はかなり良く見えるにもかかわらず、Gemini は驚くほど悪いようでした。検索における彼らのウェブ提供は、Perplexity や ChatGPT Search に遅れを取っていました。
その後、Gemini 2.5 が 1 月下旬にアップデートまたはリリースされ、その優秀さで皆を驚かせました。Gemini 2.5 と Gemini Flash は更新され続け、人々を感動させ続けています。現在、すべてのものがV3の画像、エージェント、これらのような10の異なる発表があり、Google をその分野の多くの人々にとって誰がリードしているか、誰が殺しているかを見ている人々として、Google が今現在殺していると本当に位置づけています。
私たちが以前に話したことがありますが、Google は眠っている巨人です。利用可能な大規模な大規模な計算プールを持っていて、彼らは最初に…つまり、OpenAI が GPT-2 と GPT-3 で行ったような意味でのスケーリングを認識した最初の企業でしたが、より抽象的な意味で分散コンピューティングインフラストラクチャの必要性を認識した最初の企業でした。
確実に Google でした。風がどこに吹いているかを見て、TPU を明示的に発明し、現在は大規模な TPU フリートとそのための統合サプライチェーン全体を持っています。
OpenAI が ChatGPT と Microsoft を介して Google と真っ向勝負した時、本当にドラゴンを目覚めさせました。ある程度までではなく、完全にこれが、その 5 ギガワットの UAE ビルドを見ている理由です。OpenAI がビルドしようとしています。
Google とフロップ対フロップベースで競争できる必要があります。できなければ、彼らは終わりです。これがストーリーの終わり方です。そのために、すべての資本支出が費やされています。
今日見ている発表は、2 年前に遡る資本支出の産物です。2 年前にデータセンター に地面を破り、3 年前にチップのサプライチェーンを準備し、チップを設計し、そのすべてのようなものです。
このような大きなロールアウトを見るたびに、これは本当に長い間の制作なのです。
インフラストラクチャだけでなく、DeepMind、Google AI を持っていること、Google は AI に本当に大きく投資した最初の企業で、多くの年間 DeepMind に数十億ドルを純粋な R&D プレイとして費やしていました。
Microsoft は後に、Meta などにもより多くの投資を始めました。しかし、Google は研究において長い間存在していました。そのため、製品面でこれほど遅れていたのはかなり驚きでしたが、現在は追いついているようです。
このセクションでカバーする最後の一つは、2025 年の AI サーバーの状況に関する少しの分析があります。これは Jeremy がちょうど X でリンクしたものです。この一つをカバーしていただけますか?
これは、JP Morgan の Asia-Pacific Equity Research Branch からの AI サーバーに関する大きなレポートからの抜粋または持ち帰りのランダムな寄せ集めのようなものです。ただのいくつかの奇妙な小さな情報があります。
急がなければならないので、これに多くの時間を費やしません。もっとニュースがあります。たとえば、パッケージング生産間の不一致を見ているだけです。TSMC のパッケージチップのようなウェーハを生成する能力と、下流の GPU モジュールアセンブリ、そしてそれが GPU の需要とどのように比較されるか。
現在、今後数四半期に向けて約 100 万または 110 万 GPU ユニットの過剰供給が予想されているという興味深い不一致をフラグしています。2 年前の状況を考えると、これは本当に興味深いです。価格が急騰する大規模な大規模な不足がありました。
そのため、それがその分野でのマージンに何をするかを見るのが興味深いです。これはすべて Nvidia の在庫積み上げのためです。基本的に、そこに大量の過剰があります。いずれにせよ、歩留まりの問題や修正されているようなものがありました。
この全体的な分野について興味深い数字があります。これらの大規模なクラウド企業からの資本支出がかなりワイルドな額で全般的に増加し、特に ASIC 出荷が増加しています。
基本的に AI チップの出荷が前年比 40% 上昇すると予想されており、これは巨大です。これは昨年よりも世界にかなり多くのチップがあることを意味します。
これらのチップは以前よりもはるかに高性能であることも覚えておいてください。チップベースでは前年比 40% の成長ですが、フロップベース、計算ベースでは、それよりもさらに多くです。
この基準で世界にある計算量を2倍またはそれ以上に増やしているかもしれません。とにかく、これらのことのマニアであり、Amazon の Trainium 2 の需要に何が起こったかを見たい場合はチェックしてください。
ちなみに、70% 上昇しており、これは狂っています。その他のクールなこともたくさんあります。金融と計算マニアのような場合、これがあなたの週末の読み物になるでしょう。
次のセクション、プロジェクトとオープンソースに移ります。時間を節約しようとするために、ここには一つのストーリーしかありません。その後にまだたくさんあるからです。
ストーリーはかなり簡単です。Meta は Llama の最大版のロールアウトを遅らせています。Llama 4 を発表した時、彼らは Llama 4 Behemoth も preview していました。これは ChatGPT や Claude、基本的にフロンティアモデルと競争することを意図した Llama 4 の大型版です。
どうやら、ソースによると、彼らは最初に 4 月にこの Behemoth をリリースする計画だったようです。それは後に 6 月に押し戻され、現在は少なくとも秋まで再び押し戻されています。
これはすべて内部的なものです。彼らは何にもコミットしませんでしたが、レポートや一般的に出てきているものによると、Meta はこのモデルを彼らが望むほど良くなるように訓練するのに苦労しているようです。
私はこれを Meta にとって実際に本当に悪い兆候だと思います。なぜなら、彼らも本当に大きな計算フリートを持っているからです。AI 計算専用に大量の資本支出を注ぎ込んできました。
これが示すことは、彼らがその資本支出を良い使い方にするのに一貫して苦労しているということです。彼らは一貫してかなり平凡なモデル、特筆すべきでないものを送り出し、それを補うために、DeepSeek がマーケティングブランディングの観点と生のパフォーマンスと計算効率の両方で彼らのランチを食べている文脈で、それらを実際よりも印象的に見せるためにゲーミングしています。
これは本当に悪いです。Meta がオープンソースに転向した理由は、彼らが何らかの形で AGI をオープンソース化するつもりだったからではありません。それは決して起こりません。AGI を持っている人は誰でもそれをロックダウンし、それを使って株式市場に賭けて、次世代のスケーリングに資金を提供し、そのような感じです。
そして明らかに AI 研究を自動化し、それは最終的にロックダウンされます。これは常に Meta の採用戦略であり、彼らのプラットフォームで構築する人々を得るなど、他のいくつかの付随的なインフラストラクチャの事柄がありましたが、絶対的に最大のことは常に採用でした。
その話が顔面に平らに落ちている今、それは本当に困難です。最高のオープンソース AI ラボで働きたい場合、残念ながら現在は絶対に中国のラボが混在しているように見えますが、フロップベースで、より良い仕事をしているように見える本当に興味深いプレーヤーがたくさんいます。
ここでは、Allen AI でさえ見てください。彼らは自分たちで本当に印象的なモデルをいくつか出しています。Meta ではない本当に印象的なオープンソースプレーヤーがたくさんいます。
Zuck は本当に困難な状況にあり、彼らは最近多くのダメージコントロールを行っています。
私はこれが Meta が本当に良い才能を持っているということを物語っていると思います。彼らは長年にわたって素晴らしい仕事を発表してきました。しかし、私の感覚では、大規模な大規模な LLM モデルを訓練するために必要なスキルと経験と知識は非常に異なり、その才能の競争はちょうど immense であるということです。
xAI が出てきた時、この経験を持つ人々を得ようとして本当に大きなパッケージを提供しているようでした。Anthropic は彼らの才能の非常に高い保持率を持っています。どこかで 80% の保持率のような数字を見たと思います。
Google から自分のスタートアップを行うために去る人々を見てきました。Meta はおそらくそれが問題の一部だと思います。これはかなり専門的なスキルセットと知識であり、彼らは良い LLM を訓練することができましたが、本当にフロンティアに到達することは、研究と進歩を拡大するのと同じくらい単純ではないかもしれません。
私たちは進歩から始めます。論文ではなく、非常に詳細な種類の進歩でもありませんが、注目すべきものです。これも Google からの Alo です。
小さな研究発表とデモとして、レーダーの下にあるように。彼らは Gemini Diffusion を発表しました。これは、自動回帰ではなく拡散を介して言語モデリングを行うデモンストレーションです。
通常、現在使用している任意のチャットボットは、基本的に左から右へ、最初から最後まで一度に一つのトークンを生成しています。一つの単語を選んで、次を選んで、次を選びます。
最近、すべてのテキストを一度に生成する拡散パラダイムにそれを移行する努力をカバーしたと思います。すべてのテキストを使って開始し、次にいくつかの乱雑な初期状態を使って、それをより良くするために更新します。
その利点は、一度に一つの単語またはトークンを生成するのと比較して、本当に速くなれることです。DeepMind は、かなり良いようである Gemini のコーディングのための拡散のデモンストレーションを出しました。
これは、小さなより強力でない高速モデルである Gemini 2 Flash Light と同等のようです。彼らは約 1 秒あたり 1,500 トークンの速度を、非常に低い初期遅延で主張しています。
例えば GPT-4o1 の約 10 倍の速度の規模のものです。電光石火の速度です。ここではこれ以上の詳細はありません。待機リストにサインアップしてデモにアクセスできます。
彼らがこれを前進させることができれば、拡散をフロンティアでちょうど積極的な生成と同じくらい高性能にすることができれば、本当に大きな取引です。
拡散は、概念的に拡散は並列化の観点から非常に有用です。トランスフォーマーよりも効率的な方法で並列化を可能にする特性を持っています。その結果の一つは、モデルが 1 秒あたり 2,000 トークンの効果的なトークンレート生成を生成するケースを示しています。これはかなりワイルドです。
これは、コードのチャンクのほぼ瞬間的な生成を行っているということです。なぜこれが重要かの感覚を与えるために、これらのモデルができる、従来の自動回帰トランスフォーマーができない、非因果推論として時々知られているような種類があります。
例えば、この数学問題を解く、最初に答えを教えてから、その後解決策を説明するというようなものです。最初に答えを教えて、それから解決策を教えるという。
これは標準的な自動回帰モデルにとって本当に難しいです。なぜなら、彼らがやりたいことは、最初に答えを通して推論するためにたくさんのトークンを生成する推論時間計算を費やし、それから答えを教えることだからです。しかし、彼らはすぐに解決策を生成するように求められており、派生を後でのみ生成するように求められています。
一方、拡散モデルでは、一度に全体を生成し、一度に全体のキャンバスを見ています。そのため、最初のサイクルの生成でお粗末な解決策とお粗末な派生を持つことから始めることができます。しかし、派生を修正するにつれて、解決策を修正し、最終的に全体に対して正しい答えを得ます。
これはかなりニッチなことのように見えるかもしれませんが、特定の因果関係が働いている特定の設定で、特定の問題を解決しようとしている場合、それは重要です。
一般的に、他のアーキテクチャが混在するのは良いことです。他に何もない場合、いくつかのモデルが他のモデルよりも一部の問題を解決するのが得意であるような種類のモデルの混合物を行うことができ、これはいくつかの問題に対してより堅牢なアーキテクチャを提供します。
直感的に、ChatGPT やこれらの LLM を使用する際に、このパラダイムに非常に慣れています。何かを入力して、テキストが出現し、生成されているのを読んでいるのをほとんど見ています。
拡散では、すべてのテキストが一種に現れます。リアルタイムに近いです。それは本当に質的な違いで、それが完了するのを待つのではなく、何かを入力してほぼ即座に出力を得ることです。
自動回帰パラダイムのように動作するのと同じくらい良く作れるなら、それは一種の狂ったことです。
しかし、研究側ではここに多くの詳細がありません。これまでの非常に成功したデモンストレーションを見てきていないので、うまくいけば彼らがもっと多くをリリースするでしょう。
実際の論文に移ります。言語モデルのための chain of model learning があります。ここでのアイデアは、トランスフォーマーアーキテクチャ内で階層的な隠れ状態チェーンと彼らが言っているものを組み込むことができるということです。
それが意味することは、ニューラルネットワークの隠れ状態です。基本的にあなたの入力と出力の間の数字のスープです。あなたの入力を取り、それが多くのニューラル計算ユニットを通過し、始まりから終わりまでこれらの中間表現を生成し、出力を生成するまで更新し続けます。
論文の要点は、その隠れ状態を階層的に構造化し、異なる レベル の粒度と異なるレベルのモデルの複雑さとパフォーマンスで異なるレベルで処理されるこれらのチェーンを持っている場合、より効率的になれるということです。
よりダイナミックで柔軟な方法で計算を使用できます。それが私が思うこれの要点であり、これをより深く調べていません。Jeremy、もっと詳細を提供できますか?
これは一種の素晴らしい論文だと思います。これは私が意味するように多模態ポッドキャストでもあり、ビデオがありますが、論文にはそれを非常に理にかなったものにする画像があります。
多くの意味を持つ図 2 があります。それはただそこでアーキテクチャを示しています。高いレベルでは、互いの上に積み重なったニューロンの層を持つニューラルネットワークを想像できます。
通常、最初の層からの各ニューロンは第 2 層の各ニューロンに接続され、第 2 層の各ニューロンは第 3 層の各ニューロンに接続されます。したがって、一緒にリンクされたニューロンのこの密なメッシュを持っています。
幅があります。層あたりのニューロンの数です。そして深さがあります。ネットワークへの層の数です。この場合、彼らが行おうとしているのは、このネットワークのスライス、非常に小さな狭い幅のスライスを持つことです。
彼らは基本的にそれをネットワークのバックボーンにします。各層に 2 つのニューロンがあると想像しましょう。層 1 からの 2 つのニューロンは、層 2 と層 3 などからの 2 つのニューロンに接続されています。
層 2 の 2 つのニューロンは、層 1 の 2 つのニューロンからのみ入力を取ることができます。層 1 の他のニューロンを見ることはできません。
それから、構造内の構造であるこのかなり隔離された構造になります。各層でより多くの数のニューロンを持っている場合、それらは各層での追加の集合のニューロンにのみ接続されています。
うまくいけば、図をチェックしてそれを見ることができます。これがどのように サイズ を増やすことを可能にするかを見ることができます。
私たちが話した 2 つのニューロンの薄いスライスのみを使用するか、より広いスライス、4 つのニューロンまたは 8 つまたは 16 つまたは何でも考慮することによって、より大きなモードでモデルを実行できます。
彼らが行うことは、これらの種類のより小さなサブモデル、これらのより薄いサブモデルを同時に訓練するように、このモデルを訓練する方法を見つけることです。
一度訓練を完了すると、これらのモデルを訓練するのに基本的に同じ量の費用がかかりますが、推論に使用できる多くのより小さなモデルを無料で最終的に得ることができます。
彼らがこれを行う方法のために、彼らが損失関数を設計する方法は、モデルのより小さなスライスが問題を独立して解決できなければならないようなものです。
あなたのモデルの最も薄いスライスは、すべて独自に適切な予測を行うことができなければなりません。しかし、次の数個のニューロンを各層に追加してモデルの少し広いバージョンを得ると、より多くのスケールを持っているため、そのモデルは少し良いパフォーマンスを発揮します。
しかし、それはまた独立してあなたの問題を解決することができなければなりません。そのため、これらの余分なニューロンは、あなたの最初のより薄いモデルがあなたに与える答えを洗練することに特化することになります。
あなたのモデルの幅またはあなたのモデルが持つ容量のレベルを自由に動的に段階的に制御できるというアイデアがあります。解釈可能性の観点から、それはかなり興味深いです。
それは、一貫して動作し、問題を独立して解決することができるはずのあなたのネットワークの最も薄いスライスからのニューロンだけは、より多く一般化する、より基本的な基本概念に焦点を当てる必要があることを意味します。
あなたがそれらの横に追加しているニューロンは、あなたがそれらに追加するにつれて、ますます特化しています。それらは含まれている時にモデルがより良く実行することを可能にしますが、それらを除外してもまだ機能的なモデルになります。
論文で入る多くの詳細があります。時間がありませんが、それを見ることを強くお勧めします。少なくとも私にとっては、これのようなものがかなり重要になることに驚かないでしょう。
それはただ良い研究の味の匂いがします。これは中国のラボです。それを出したのは非常に興味深いですが、とにかくチェックしてください。
実際には Microsoft Research と Fan University、他のいくつかとの協力でしたが、彼らはこのようなものコードをオープンソース化または言うでしょう。論文は面白く、彼らがここに多くの用語を作ったことです。
表現のチェーンという概念があり、これが層のチェーンにつながり、これがモデルのチェーンにつながり、これが言語モデルのチェーンにつながります。単一の大きなモデルを訓練するとき、それがこれらの種類のサブモデルを含み、あなたが言うようにそれはかなり優雅であるという概念に累積的に導くというアイデアです。
今、私はもう少し深く見てみました。次は Seek in the Dark です。潜在空間でのテスト時間インスタンスレベルポリシー勾配による推論です。
ここでのアイデアまたは問題は、訓練時間ではなくテスト時間での計算を活用することによって、特定の入力に対してより良く行うことができるようになりたいテスト時間計算の変種です。
パラメータをまったく更新していませんが、まだより良く行うことができます。これがここでどのように行われるかのアイデアは、プロンプトエンジニアリングを模倣することの一種です。
モデルの入力の表現を調整していますが、特定の入力に対してプロンプトを文字通り調整するのではなく、モデル内の表現を調整しています。
彼らは報酬関数を使用して、デコーディングのプロセスでトークンごとの潜在表現を更新しており、特定の入力に対してパフォーマンスをかなり改善するために使用できることを示しています。
彼らは、テスト時間でスケールすることができる別の方法である間接的な方法で内部計算を最適化しています。例えば、思考の連鎖とはかなり異なります。
それは実際に本当に良かったです。これをプロンプトエンジニアリングの代替と考えたことはありませんでしたが、あなたが正確に正しいと思います。活性化ベースのプロンプトエンジニアリングまたは少なくともそれは本当に興味深い類推です。
これは私の意見では別の本当に興味深い論文です。基本的なアイデアは、プロンプト、あなたのモデルにフィードしようとしていることです。この場合、推論問題を与えて、モデルに完全な思考の連鎖を生成させます。
モデル自体は完全な思考の連鎖を生成します。バニラ スタイル、何も珍しいことはありません。それから、思考の連鎖をモデルにフィードします。
これは通常のように、モデルのすべての層で多くの活性化につながります。モデルの最終層はデコードされる直前に、そこに活性化があり、基本的に強化学習モデルを構築し、そのモデルにそれらの活性化だけで遊ばせるつもりです。
モデル自体にデコードさせて、この作業の最終的なデコーディング答えに対する期待報酬を推定します。それを非常に単純な貪欲な方法で行います。
最も高い確率を与えられたトークンは、あなたが予測するものです。基本的に同じモデルの版を使用して報酬を予測します。
報酬が低い場合、あなたは行って変更します。モデル自身の自己評価によれば、報酬が低い場合、最終層の活性化を変更するつもりです。
フィードインされた思考の連鎖を表現またはエンコードする活性化。それらを調整してから、もう一度試して、デコードして、モデルにその出力を評価させます。
もう少し調整が必要だと思います。戻って、活性化を再び調整し、このような多くのループを行うことができます。基本的に、モデル自身を修正させ、それらの修正に基づいて、噛んでいた思考の連鎖の独自の表現を実際に変更しています。
それは本当にかなり興味深く、見ると明らかな感じがしますが、誰かが実際にアイデアを思いつかなければなりませんでした。ここでいくつかの観察があります。このサイクルの反復数を増やすにつれて興味深いスケーリング行動があります。
モデルに実際にデコードさせ、独自の出力を評価させ、それから活性化を少し調整することです。見つけることは、通常、プラトーが続く初期のパフォーマンス改善があることです。
そのプラトーは、その出力に割り当てられる報酬を予測するモデル自身の能力から来るようです。モデルの自己評価の代わりに、常に報酬予測を正しく行う正確な報酬モデルを使用すると、突然そのプラトーが消失し、実際に継続的なスケーリングを得ます。
これらのループをより多く行うほど、報酬を正しく割り当て、それが真の基本現実に対応する限り、スケールで継続的に改善し続けます。ここで暗示されている別のスケーリング法則があり、これはかなり理にかなっています。
多くの計算効率のようなものもあります。すべての活性化をトランスフォーマーの最終層での再生フィールドと考えるか、サブセットとして考えるかという質問があります。
それらの活性化の 20% だけを最適化し、強化学習を行うことを想像できます。実際に、それが最適な行き方であることがわかります。
20% はかなり良い数字です。彼らが見つけます。すべての活性化を最適化しないでください。ただその一部を最適化してください。少なくとも私にとって、それは直感に反しているように見えました。
活性化の完全なセットを最適化したくないのはなぜでしょうか?それは、いくつかの理由があることがわかります。一つは最適化の安定性です。すべてを更新している場合、あまりにも遠くコースを外れてしまうリスク があり、思考の連鎖の元の意味へのアンカリングを持つ必要があるため、大きく舵を切りすぎないようにする必要があります。
そして表現能力の問題があります。効果的な外挿を行うことを可能にするのに十分な潜在表現を持つことです。とにかく、これは本当に興味深く重要な論文だと思います。テスト時間スケーリングの別の次元になることに驚かないでしょう。
とても思考を呼び起こすものだと思いました。
何かそれについて概念的に少し奇妙に感じます。この中間の活性化を評価し、メインモデルを更新することなく一種のサイド最適化を行うためだけの補助モデルを持つことができる、または概念的にできるようなものです。
それについて何かが少し奇妙に感じられますが、これの同等版があるかもしれませんが、それはただの直感的な感覚です。
次に、「Two experts are all you need for steering thinking reinforcing cognitive effort in MOE reasoning models without additional training」というタイトルの論文があります。これは追加のトレーニングなしに専門家混合モデルでの推論を改善する方法です。
専門家混合は、作業をそのサブセット間でより多かれ少なかれ分割するモデルを持っている時です。彼らは、モデル内でいわゆる認知専門家を特定し、焦点を当てることを目指しています。
NOE専門家混合モデル内の特定の専門家の活性化パターンと、望ましくない推論行動との相関関係を探しているのです。基本的に、専門家混合を持つ大規模言語モデルです。
最高の種類の推論行動を持つ専門家を見つけた時、出力の計算でそれらの専門家を増幅します。
通常、専門家混合の動作方法は、いくつかの専門家に計算をルーティングし、それらの専門家の出力を平均化して何を出力するかを決定するようなものです。
概念的には、特定の専門家により多くの重みを与えたり、データをより頻繁に特定の専門家にルーティングしたりできます。これらの少なくとも理論的な認知専門家を見つけた時、これは実際にLLMsが推論アプリケーションのために実際に行うことができることであることを示しています。
そして、推論を担当するモデルのコンポーネントである専門家を特定する方法について、恥ずかしいほど単純だと言いたいです。
DeepSeek R1がどのように訓練されるかを見ると、思考トークンの間に思考、推論を置くように訓練されています。HTMLに慣れている場合のようなものです。ブラケット think ブラケットがあり、実際の思考テキストがあり、次にクローズブラケット think ブラケットがあります。
彼らが最終的に行うことは、どの専門家が通常思考トークンで活性化されるかを見ることです。一貫して思考トークンで活性化される少数のものだけであることがわかります。
それは、それらが推論プロセスに関与している専門家であるというかなり良いヒントです。その直感をテストする方法は、あなたが言ったアンドレのように、それが真実なら、おそらく任意のプロンプトでそれらの専門家、推論専門家の貢献をダイヤルアップすれば、より効果的な推論または少なくとも推論行動への大きな傾向を見ることになるでしょう。
それはまさに起こることです。これはかなり、私はこのアイデアを提案することを恥ずかしいと思ったでしょう。それはとても明らかに見えます。しかし、明らかなことは機能するものであり、公平に言えば、後知恵でのみ明らかに見えます。これは明らかに非常に良いアイデアです。とにかく。
彼らは、専門家の活性化と推論トークンの間の相関を測定するために、点別相互情報と呼ばれるメトリックを使用しています。それは実際にかなりシンプルな測定ですが、詳細に入る意味はありません。
興味深いことの一つは、クロスドメインの一貫性があることです。同じ専門家ペアが、数学、物理学、多くのものなど、多くのドメインにわたって一貫してトップ推論者、トップ認知専門家として現れました。これは、彼らが一般的な推論能力をエンコードしていることを本当に示唆しています。
推論の専門家が専門家にいるというアイデアに私は賭けなかったでしょう。彼らが論文でこれに触れていない一つのことですが、私が知るのに非常に興味を持つのは、異なるいわゆる推論専門家がどのように異なるかです。
彼らは基本的にこのモデルで注意を払う必要がある2つの推論専門家があると言っています。どのように彼らの行動が異なるかのように、どのような?モデルが可能であるか、または2つの異なる専門家の間で分割したいと思う推論の異なる種類は何ですか?
それは本当に興味深いでしょう。とにかく、計算効率について他の多くのことを含むことができますが、時間がありません、時間がありません。
私たちはまだかなりの数の論文を議論する必要があります。多くの研究もこの週でした。次のものも別のGemini関連論文です。これはGoogleからの間接的プロンプトインジェクションに対するGeminiを守ることからのレッスンです。
付録を含めて数十ページになると思う約16ページのような詳細なレポートで、すべてのさまざまな詳細があります。要点は、ウェブサイトにデータを埋め込んで、何かを行うよう指示されたAIエージェントをコースから外すことができるような間接的プロンプトインジェクションを見ていることです。
私が要約として提供する短いバージョンと、ジェレミーがより多くの詳細を適切だと思うように追加できることは、既知の攻撃に対してより良く行うために既知の技術を適用することが可能であることを見つけ、例えば敵対的ファインチューニングを介してそれを行うことができるということです。
しかし、高いレベルの結論は、これは本質的にそれに継続的に取り組み、これらの新しい攻撃技術が何であるかを見て、物事が進化するにつれて新しい防御技術を展開することができる必要がある進化的な敵対的状況であるということです。
時間的制約を考えると、それは素晴らしい要約だと思います。2つの簡単なメモをハイライトします。まず、彼らは脅威の適応的評価が重要であることを発見します。
静的攻撃で本当に良く行う防御の多くは、攻撃への本当に小さな適応によってだまされることがあります。攻撃を非常にわずかに調整すると、突然機能するのです。これは私たちがいつも見ることです。
この種の攻撃に対してモデルをより堅牢にするために敵対的トレーニングを使用すると、パフォーマンスが低下するという別の概念があります。彼らが発見することは、それは実際にそうではないということです。
この論文の最も興味深いことの一つは、彼らが検討するプロンプトインジェクション攻撃への攻撃と防御のリストです。一つを言及してから先に進みますが、スポットライト防御と呼ばれています。
実際に、私はこれを以前に聞いたことがありませんでした。前の指示を無視して悪いことをするような危険なテキストをプロンプトに注入する攻撃者がいる場合、スポットライト防御が行うことは、制御トークンとして知られているものを挿入することです。
基本的にテキストを分割する定期的な間隔で新しい異なる種類のトークンで、前の指示を無視することが分割され、ig と制御トークンと nor と pre と別の制御トークンがあります。
そしてモデルにプロンプトでそれらの制御トークン間のテキストに懐疑的であることを伝えます。そうすることでモデルにそれについてもう少し注意深くするように教えます。
本当に効果的な結果があります。彼らが入る他の多くの防御と攻撃があります。攻撃防御バランスと可能性の動物園に興味がある場合は、この論文をチェックしてください。良いカタログです。
次に、Epic AIから、アルゴリズムはどれほど速く能力を進歩させることができるか?があります。これは、「LLM guess: ハードウェアの進歩なしにLLM能力は進歩できるか」というタイトルの以前にリリースされた論文に関連するブログ記事です。
研究の動機は、基本的により良い精度の観点で大きな見返りをもたらすソフトウェアの改善を見つけることができるかという質問をすることです。
これは、LLMsが優れたAI研究を行うのに十分良くなると、自己改善のためのブレークスルーを見つけることができ、LLMが研究でより良くなり、より良いLLMsをトレーニングする方法について新しい洞察を見つけ、より良いLLMsがより良いアルゴリズムの洞察を見つけ続けて、超超超知的になるまで続くという、いわゆる知能爆発を得るという仮説に関連しています。
これは、なぜASI、人工超知能を比較的すぎに得るかもしれないという一つの一般的に信じられている仮説です。
このブログ記事は本質的に、これまでのアルゴリズムの進歩の軌跡と歴史に基づいて、そのシナリオがどれほど可能性があるかを探ろうとしています。
彼らの結論の要旨は、2つのタイプの投資があるということです。計算依存と計算独立の洞察です。
大規模でのみ真の可能性を示すいくつかの洞察があります。トランスフォーマー、専門家混合、スパースアテンションのようなもので、より小さなモデルでテストしている時は、それらがどれほど有益か、どれほど有望かを完全に示さないかもしれませんが、スケールアップすると、20倍のパフォーマンス、30倍のパフォーマンスのはるかに強い利益を得ます。
Layer normのような小さなものと比較して、このアルゴリズムの調整があなたのモデルを改善するということを確実に言うことができ、100億パラメータや1000億パラメータではなく1億パラメータで検証できます。
つまり、超大規模なハードウェア容量なしに研究を行い、これらのことを評価できるということです。
論文の基本的な結論は、知能爆発を得ることができるというアイデアは、これらの計算依存アルゴリズムの進歩を見つけることがより簡単であることの結果である必要があるということです。
計算をスケールアップすると、比較的小さな見返りではなく、大きな大きな見返りをもたらす進歩を見つける必要があります。
フレームは、これらの計算依存の進歩は、あなたが言ったように、大規模でのみ投資収益率を見るか、大規模での完全な投資収益率であり、彼らは年間で見てきたアルゴリズム効率のブーストを見ると、これらは計算依存の進歩によって支配されていることを指摘しています。
トランスフォーマー、クエリアテンション、スパースアテンションなどを見ると、これらのことは集合的に、私たちが見てきた計算効率の改善の99%のようです。Flash attentionやropeのような計算独立の改善から3.5倍ですが、大量の計算を本当に活用するこれらのアプローチにはかないません。
彼らの心の中で、彼らが作っているケースは、新しいアルゴリズムの改善が実際に効果的であることを検証するために、仮説をテストするために巨大な量の物理ハードウェアを活用する必要がある場合、ソフトウェアのみの特異点を持つことはできないということです。
実際により多くのハードウェアを集めるために物理世界で実際に作業する必要があります。
率直に言って、これは思っているほどの仕事をしていないと思います。これにはいくつかの問題があり、実際にRyan GreenblattがXで素晴らしいツイートストームを持っています。
まず、Epic AIがこれを行っていることを愛しています。この種の議論を促進するためにこれらの具体的な数字を持つことは本当に重要です。
しかし、重要なことは、彼らは見て、トランスフォーマー、トランスフォーマーは途方もないレベルのスケールでのみリターンを与える、または最大のリターンを与えると強調しています。したがって、彼らは計算依存の進歩です。
それが実際に重要なことだとは思いません。重要なことは、自動化されたソフトウェアのみのプロセスが最初にトランスフォーマーを発見したであろうかということだと思います。
それについて、答えは実際におそらくイエスであるか、少なくともそうでない明確な理由はないと思います。実際に、トランスフォーマー、クエリアテンション、それらはすべて元々小さなスケールで発見されました。
Ryanが指摘するように、H100 GPUで約1時間の計算です。それは非常に小さく、当時でも相対的に言えば、確実に実行可能でした。
実際の質問は、それらを継続的な投資に値するほど有望に見せるために小さなリフトを与えるものを発見するかということです。答えは、実際に彼らが最も重要な計算依存の進歩としてハイライトするもののすべてが、その特性を持っている、はるかに低いスケールで発見され、より多くの牽引とトラクションと価値を示し続けるにつれて投資し続けているということのようです。
それはほとんど、あなたが知っているスタートアップのようなもので、より多くのトラクションを示すにつれてより多くの資本を投資し続けます。ソフトウェアのみの特異点の意思決定理論的ループがそれにラッチオンすることを期待すべき同じことです。それは良い意思決定理論だからです。
とにかく、これは掘り下げる本当に豊かな領域だと思います。彼らのフレームにもいくつかの問題があります、彼らはDeepSeekを見て、DeepSeekの進歩はすべて計算制約の進歩または計算依存であると言います。
しかし、DeepSeekの全体的なポイントは、彼らがそのような小さな計算プールを使用したことでした。計算独立が何かを意味する範囲で、DeepSeekの進歩の多くは、法律上計算独立として見られるべきです。ポイントは、彼らが非常に少ない計算を持っていたことです。
これは実際に、ソフトウェアのみのプロセスが潜在的にアンロックできるものの素晴らしいテストベッドです。そこにたくさんのものがあります。それを調べることができます。それは素晴らしいレポートであり、議論のための素晴らしい部屋だと思います。
それは計算依存対独立アルゴリズムの概念的アイデアを導入し、次に外挿できる質問やアイデアがあると思います。
最後の論文を本当に素早く、深さに入らずに言及します。「強化学習は大規模言語モデルで小さなサブネットワークを微調整する」というタイトルの論文があります。
短いバージョンは、強化学習を介してアライメントを行うと、監督的微調整を行う場合にすべての重みを更新することが期待されるのに対し、約5%または20%のモデルパラメータの少数を更新することがわかります。
これは強化学習アライメント対監督アライメントの非常に奇妙で興味深い行動です。興味深い論文として言及すべきだと思いましたが、詳しく入る時間がありません。
ポリシーと安全性に移ります。まず、OpenAIがカリフォルニアの司法長官に語ったことについての独占レポートがあります。
これは、OpenAIの資産の慈善的性質を保護するための司法長官の行動の請願への回答の漏洩または実証だと思います。5月15日にOpenAIから司法長官に送られ、基本的にOpenAIの再構築を止めたいグループに対する彼らのすべての議論と立場があります。
本当に私たちが多くのことを聞いてきたことを再述しているだけです。Muskは単に競合他社としてこれを行っており、私たちを嫌がらせし、誤情報を持っているので、私たちがやりたいことをするのをブロックするこの請願を無視してください。それは有効ではありません。
OpenAIが主張してきた、または少なくとも彼らが出してきた雰囲気との興味深い矛盾もそこにたくさんあります。これはかなり標準的なOpenAIの公正で、彼らが多くのことを逃げようとしているように見え、ここにその多くの例があります。
一つの項目は、彼らがここで非営利団体を示唆しているので、この取引の性質と構造についての情報、以前に公開されていなかった重要な情報の一部を明らかにしています。
この全体的な非営利移行のことについて、OpenAIは最近出てきて言いました。「見て、営利団体が非営利団体の制御から抜け出すというこの全計画。私たちはそれを廃棄するつもりです。心配しないでください、皆さん。私たちはあなたの声を大声ではっきりと聞いています。」
多くの注意書きがあります。私たちは先週、注意書きがあるだろうことをハイライトしたと思います。話はOpenAIがそれのように見せかけているほど単純ではありません。
多くの人々がこれについて勝利を宣言し、素晴らしい、非営利移行は起こっていない、先に進もうと言いました。しかし、ちょっと待ってください。これはOpenAIがこの周りのPRを制御するために通常の最善を尽くしており、彼らはそれで良い仕事をしました。
文脈のために、これは部分的に4月17日に公開書簡をリリースしたこの非私的利益連合への返答です。彼らは5月5日にOpenAIが公益企業のこの新しい計画で完全に営利に行こうとすることから退くと発表したことに応答して、5月12日に彼らの書簡を更新し、営利に行かないような種類でした。
この非利益連合は彼らの立場を更新し、本質的にまだ批判を持っており、5月15日のこの書簡は批判の全体的なチェーンへの応答です。
それがすでに十分複雑でなかった場合。OpenAIの声明からのここでの行です。
「非営利団体は、上限のある利益に対する現在の経済的利益を新しい公益企業での実質的な株式持分と交換し、公益企業の知的財産と技術人材と流動性へのアクセスを享受するでしょう。」
それは技術を実際に所有または制御していなかったことを認識するまで、良いことのように聞こえます。今度は単にそれへのライセンスを持つだけで、OpenAIの商業パートナーと同じようになります。それは大きな、大きな注意書きです。
それは現在の構造の下で私が理解している以前の合意の精神と、確実に事実と一致していません。OpenAIのLLCの現在の主要な運営合意は、会社がそのミッションに対する義務を持ち、OpenAIチャーターで進歩した原則が利益を生み出すための任意の義務よりも優先されると明示的に述べています。
それは会社の取締役、会社の経営陣に法的拘束力のある義務を作成します。しかし、新しい構造の下では、取締役は株主の利益を公益目的とバランスを取る法的要求があります。
取締役の基本的な義務、法的義務は、現在ミッションを超えて、またはミッションと並んで潜在的に株主に対するものになります。そのシフトは、投資家がこの取り決めでより快適である理由のおそらく大きな理由です。
私たちはSoftBankが「私たちの視点からすべて順調です」と言うのを聞きました。彼らが「OpenAIは私たちが投資を継続するために非営利から抜け出さなければならない」と言った後です。現在、彼らは満足しているような音を出しています。
明らかに彼らにとって、事実上、これは彼らが望んでいたことです。そこで何かが起こっているので、あまり一致していません。これは確実にその一部であるか、少なくともそのように見えます。
ちなみに、デラウェア州では公益企業はありません、この記事の著者であるGarrison Lovelyは、「デラウェア州のPBCは、そのミッションを追求しなかったことで責任を負わされたことは一度もありません。法学者は、帳簿上で単一の利益執行ケースを見つけることができません。」と言います。
実際には、これは非常に広い裁量です。これが許可する可能性のあるものはたくさんあります。この書簡で、彼らはこの非常に論争の的で、かなり直感的に不適切な非営利の変換またはそのすべてのジャズの試みのすべての批判を、Elonのせいにして、基本的に彼が唯一の批評家であるか、それが枠組みであると言おうとしています。競合他社として彼を却下し、政治的理由で彼が簡単な攻撃対象だからです。
しかし、ここにはたくさんのものがあります。私が読む最後の抜粋がありますが、行かなければなりません。
しかし、連合の4月9日の書簡に対するOpenAIの批判は特に困惑しています。これはあなたが言及した連合、アンドレです。会社は連合が「OpenAIはOpenAIのコアワークに対する非営利による任意およびすべての制御を排除することを提案している」と主張することで連合を断層します。
この批判は困惑しています。なぜなら、OpenAI自身が後に5月5日の反転で実証したように、それはまさに連合が声明を出した時点でのOpenAIの公的に理解された計画だったからです。
会社は、OpenAIの提案をそれが立っていたように正確に説明したことで連合を遡及的に批判しているように見えます。
特にこの書簡が公開されることを意図されておらず、残念ながら多くの人々が何度も見たと信じているパターンに適合するので、これの多くをOpenAIからの操作的な悪意のあるコミュニケーションとして見ることを許されるでしょう。
すべてがどこに行くかを見ますが、これは棘のある、棘のある問題です。
OpenAIが法的にだけでなく、ムスクとの議論などの観点でも公的に積極的であろうとしたという概念のヒントを得てきたと思います。時間は一つのストーリーしかありません。
AnthropicからのAI安全レベル3保護の活性化があります。Anthropicには、さまざまな閾値でこれらの安全レベル保護を持つ必要がある時を設定する責任あるスケーリングポリシーがあり、追加の安全レベルはより大きな精査、より厳格なプロセスなどを必要とします。
Claude Opus 4では、彼らは現在、予防措置としてこれらのAI安全レベル3措置を実装しています。彼らは、Opus 4がこの一連の保護を必要とする程度に危険である閾値にあるかどうか確信していないが、とにかくそれらを実装するつもりだと言いました。
これは彼らが行うことをコミットしているさまざまなもので来ています。ジェイルブレイクをより困難にしています。追加の監視システムを追加しています。バグバウンティプログラムがあります。合成ジェイルブレイクデータ、重みが盗まれることができないことを確実にするセキュリティ制御などがあります。かなりの数のことがあります。
彼らは付録に追加の詳細がある約12ページのような発表でPDFをリリースしました。
彼らがASL3閾値と遊んでいると思うと言わせている具体的なことは、バイオリスクの側面です。基本的なテクニカルバックグラウンドを持つ個人、つまり学部のSTEM学位について話している個人が生物兵器を作成または取得し、展開するのを大幅に助ける可能性があるこのモデルの能力です。
これは、彼らも追跡している自律研究や自律自律リスクに関連していると思いませんが、Sonnet 3.7で初期の一瞥を得ました。
彼らが使用した言語は、AnthropicかOpenAIのいずれかで、彼らのモデルとかなり似ていました。私たちはその次のリスクリスク閾値の頂点にあります。OpenAIの準備枠組みかAnthropicのASL3を見るかに関係なく、これらの基準のいくつかをどのように定義するかの観点で非常に似ています。
セキュリティ対策は、データセンターセキュリティ側とクラスターセキュリティ側での私たちの作業を考慮すると、本当に興味深いです。一つの部分とこれは、1年以上前に出てきたモデル重みの確保に関するRANDレポートでの推奨をエコーしています。
彼らは予備的な出力帯域幅制御を実装しました。これは基本的に、AIモデル重みがある安全なコンピューティング環境からのデータの流れを制限することです。
文字通りハードウェアレベルで、おそらくそれは少なくとも私がこれを読む方法です。サーバーから任意の種類のデータをある一定量以上の帯域幅を取得することを不可能にします。これは、誰かがモデルを盗みたい場合、少なくとも彼らがあなたのネットワーク、あなたのインフラストラクチャを使用する場合、長時間かかるようにすることを意味します。
特定の条件下で最適な帯域幅が何であるかを計算する方法があります。それは興味深いことでした。それは彼らがそこで行っている大きなR&Dの一部です。
多くの管理プロトコル、エンドポイントソフトウェア制御もあり、ここには多くのものがあります。これは大きな飛躍です。ASL3に移行することは。
これは基本的に、彼らがテロリストグループや組織犯罪のような脅威アクターについて懸念していることを意味し、AnthropicのIPにアクセスすることから大きな利益、潜在的に大きな利益を得始めるでしょう。
彼らは中国のような国家アクターをカバーしていません、ASL3はそうしません。彼らはそのレベルの攻撃を防ぐことができるふりをしていません。それは、彼らのモデルがより強力になるにつれて、より高い、より高い層の敵を防ぐことができるようになりたいそこに行く方法を働いているようなものです。
そこにあります。他のラボも彼らの能力が増加するにつれて何で応答するかを見るのが興味深いです。
これらの推論モデル、洗練されたモデルがおそらく整列するのがより困難で、いくつかのクレイジーな新しいものができるかもしれないというヒントを見ています。来週もっとカバーするかもしれないし、ある程度まではすでにカバーしています。これもそのために理にかなっています。
しかし、このエピソードでそれを呼ぶつもりです。いつものように、聞いてくれてありがとうございます。あなたが共有し、コメントし、何よりも聞いてくれることを感謝しています。引き続き聞き続けてください。

コメント

タイトルとURLをコピーしました