先週のAI #207 – GPT-4.1、Gemini 2.5 Flash、Ironwood、Claude Max

33,480 文字

Last Week in AI #207 - GPT 4.1, Gemini 2.5 Flash, Ironwood, Claude Max

Our 207th episode with a summary and discussion of last week's big AI news!Recorded on 04/14/2025Hosted by Andrey Kurenk...

こんにちは、Last Week in AIポッドキャストへようこそ。AIに関する最新情報についてお話しします。いつものように、先週の主要ニュースについて話し合います。エピソードの説明から、私たちが議論するすべての記事へのリンクとタイムスタンプを確認できます。私はレギュラーホストの一人、アンドレ・ココです。
私は大学院でAIを学び、現在はジェネレーティブAIのスタートアップで働いています。もう一人のホスト、ジェレミー・ハリスです。グラッドストーンAIというAI国家安全保障会社に所属しています。それが全てですね。
国家安全保障会社、AIという説明が面白いですね。そうですね、基本的に米国政府やプライベートカンパニーと協力して、AIから生じる国家安全保障リスクに対処しています。超知性を含む高度なAIまで、全領域を扱っています。
「AI国家安全保障会社」という言葉が気に入りました。多くのAI国家安全保障会社があるように思えますが、実際はかなり狭い分野でしょうね。確かに変わった感じで、国家安全保障の側面ではPalantirのようなところもある意味そうかもしれません。彼らはより応用レベルに焦点を当てていますが。
OpenAIやAnthropic、GoogleのDeepMindのような企業も、自分たちをAI国家安全保障会社と考えるべきでしょう。超知性を構築しているのであれば、あなたは国家安全保障ビジネスに携わっているということです。
今週はしばらく続いていた喧騒に比べると、少し落ち着いた週です。中規模のニュースがいくつかあり、あまり驚くようなものはありません。始めに話すGPT-4.1のストーリーは非常に興味深いでしょう。他にも段階的なニュース、ビジネスでのアプリケーション、スタートアップ関連のストーリー、OpenAIの競合に関するオープンソースプロジェクトもあります。
いつものように、AIエージェントとその成功度を継続的に評価するためのベンチマークも新たに出ています。研究と進歩の分野では、さらに多くのテストタイム推論のストーリーについて話し、長々と話さずにこれらのモデルをより良い推論に導く方法についても触れます。政策と安全性では、OpenAIのポリシーと進行中の訴訟に関するさらなるストーリーがあります。
それでは早速、ツールとアプリのセクションから始めましょう。まずはOpenAIによるGPT-4.1の発表です。これは彼らの新しいAIモデルファミリーで、GPT-4.1 MiniとGPT-4.1 Nanoも含まれています。これらのモデルはすべてコーディングと指示に従うことに最適化されています。現在APIを通じて利用可能ですが、Chat GPTではまだ利用できません。また、100万トークンのコンテキストウィンドウを持っており、これはClaudeのOpusやGeminiの大きなモデルと同等です。これはコードベースでは非常に多くの単語数になります。
OpenAIがこのような焦点を持ったモデルを持つことは興味深い発展です。少しAnthropicが行っていることを思い出させます。特にClaude Codeのように、人々はコーディングに熱中しており、エージェントがソフトウェアを構築することに焦点を当てているようです。
そうですね、実際の世界のソフトウェアエンジニアリングタスクを解決できる安価なモデルへと移行する方向性です。評価スイートではSW Benchスコアに焦点を当てています。これはSW Bench Verifiedと呼ばれるOpenAIバージョンのSW Benchで、実世界のコーディング能力をテストするためのものです。
コストを考えると非常に優れたパフォーマンスを示しています。SW Bench Verifiedで52～54.6%のスコアを達成しています。これはパトゥーフロンティアに関するものです。モデルの精度とパフォーマンスと、コストのバランスを選ぶことができます。安価だがパフォーマンスの高いオプションを提供しています。特にNanoエンドで顕著です。
また、ビデオを理解するなど、マルチモーダルな能力も備えています。さらに最新の知識カットオフ（2024年6月まで）も含まれており、追加の価値を提供しています。例えば、最新のソフトウェアライブラリが必要な場合に役立ちます。当然ながら、これらのコーディングモデルのように、ツール使用機能も組み込まれています。
命名法について少し混乱しています。GPT-4.0だと思っていましたが、その後Oシリーズに切り替えると思っていました。もうベースモデルはないと。でも4.5が出て、それが最後のベースモデルだと言われていました。でも今、4.1が出ました。これは4.5の前日談なのかな？
そうですね、私も理解しようとしています。Oシリーズでないのは、これがオムニモデルではないからだと思います。コーディングに焦点を当てているため、テキストのみを処理すると思われます。
実際にはブログ投稿によると、いくつかのビデオ機能があるそうです。ビデオのコンテンツを理解する能力があるとのことです。では、オムニモデルと呼ぶためにはどれだけマルチモーダルである必要があるのか、という疑問が次に浮かびます。
ベンチマークの改善について、ブログを見ると、GPT-4.1はGPT-4.0と比較して、SW Bench Verifiedで33%から55%へと印象的な向上を見せています。これはOpenAI O3ミニ（ハイ）やOpenAI O1（ハイコンピュート）よりも少し高いです。高コンピュートや推論時間のモデルでないにもかかわらず、非常に印象的です。GPT-4.5よりもはるかに優れています。
ただし、多くの内部比較であることに注意が必要です。他のOpenAIモデルとの比較を示していますが、例えばClaude 3.7 Sonnetが登場した時、SW Bench Verifiedで62～70%のスコアを達成していました。つまり、これはClaude 3.7 Sonnetよりもかなり劣りますが、そこで精度とコストのトレードオフが発生します。
次の話題もOpenAIに関するものです。今回はChat GPTと新機能についてです。特に、チャット中に背景で物事を保存する「メモリ」機能がアップグレードされます。Chat GPTは過去のすべての会話を参照できるようになり、これはより顕著になるでしょう。
実際、面白いことに同僚が投稿していて、「最近のやり取りからこの情報を参照している」と言われて驚いていました。彼らはメモリが機能だと知らなかったのです。これはUIを改良して、この機能をより明確にするものかもしれません。
また、UIも変更されています。保存されたメモリ（手動で覚えておくよう頼める機能）を使用でき、Chat GPTにチャット履歴を参照させることもできます。これは将来のやり取りの文脈として使用されます。
これは本当にエキサイティングな発表の一部です。Chat GPTがあなたを傷つけたすべての方法を覚えていることができるようになります。あなたが寝て食べる場所、愛する人、アラームコード、昨夜の夕食の内容などを記憶することができます。完全に不気味ではないモデルとのやり取りを楽しみにしています。
まあ、これは実際には本当のことですが、より個人的な体験へ向かう一歩としては素晴らしいことです。そのような持続的なメモリが必要です。でないと、エピソード的な対話のように感じてしまいます。明らかに、サム・アルトマンが最近特に推進している「her」の世界のようなものです。
人々が長期的にどうそれに対処するのかわかりませんが、いずれにせよ、そのような形の反対意見に対処するかのように、彼らは「常に、あなたはChat GPTのメモリを制御しています。いつでも設定で過去のチャットやメモリの参照をオプトアウトできます」と言っています。
もしすでにメモリをオプトアウトしていれば、自動的に過去のチャットの参照もデフォルトでオプトアウトされます。これは便利です。また、EU（リヒテンシュタインを含む）など特定の地域を除いて、今日からプラスおよびプロユーザーに展開されるとのことです。
リヒテンシュタインという巨大市場が除外されるのを初めて見ました。そこでは非常に厳しい規制があるのでしょう。興味深いことに、まず$200/月のプロティアに展開され、その後$20/月のプラス加入者にも間もなく提供されるとのことです。プロティアが新機能を最初に使用する方法が増えているようです。
続いてGoogle関連のニュースです。こちらも新しいモデルで、Gemini 2.5 Flashです。先日Gemini 2.5 Proがリリースされ、人々は驚きました。非常に印象的なリリースで、GoogleのGeminiが初めて本当にリードしているように見えました。多くの人がClaudeからGemini 2.5に切り替えると言っていました。より優れているからです。そのため、これは興味深い発表でした。
今回はGemini 2.5 Proの小型で高速なバージョンです。再び同じ流れですね。典型的には、モデル開発者は大きな事前訓練モデルを開発し、その後はそのモデルをさまざまな方法で活用するビジネスになります。より軽量で安価なバージョンを作成し、トークンあたりの価格効率を高めます。
大きなモデルが完成すると、それが必ずしもリリースされるとは限りません。推論するには高価すぎることもあります。多くの人がCloud 3 Opusでそうだったのではないかと疑っています。利用するには大きすぎますが、小さなモデルを蒸留するための教師モデルとしては役立ちます。ここでも同じことが起きています。
この分野は本当に興味深くなっています。OpenAIが圧倒的に優れていた時代を覚えています。OpenAIの資金調達への影響は何かと思います。彼らがまだリードしていることを示すために最新モデルをリリースしていないだけなのでしょうか？安全性レビュープロセスの加速についてもさまざまな疑問があります。これに関連して後ほど触れます。
現在、私は本当に興味を持っています。OpenAIが次のラウンドで資金調達できるのかどうか疑問です。IPOなしでは難しいかもしれません。すでに400億ドルを調達しており、資金源の終わりに近づいているからです。
確かに興味深い時期です。長い間、OpenAIが誰よりも先を行っていたように見えました。何年もの間、これが消費者やビジネスの主流になる前でも、OpenAIはLLMの先駆者でした。彼らは長い間トップに立っていました。テキストから画像への最初の印象的なモデル、テキストからビデオへの最初の印象的なモデル、Whisperによる音声から音声へのモデルもありました。
しかし最近では、OpenAIがリードしている分野や、Anthropic、Google、または他のプロバイダーからの類似のオファリングと大きく差別化されている分野を指摘することが難しくなっています。
次はxAIに関するストーリーです。彼らはGrok 3のAPIを立ち上げています。Grok 3は最近リリースされ、おそらく1ヶ月ほど前に取り上げました。非常に印象的で、当時のChat GPTやClaudeと同じくらい競争力のあるモデルでした。それを試すことはできましたが、製品の一部として使用することはできませんでした。APIが必要だったからです。
現在、それが利用可能になり、入力トークン100万あたり3ドル、出力トークン100万あたり15ドルで使用できます。Grok 3 Miniはさらに安価です。
また、より高速なバージョン（同じパフォーマンスだが遅延が低い）のオプションもあります。入力トークン100万あたり3ドルの代わりに5ドル、出力トークン100万あたり15ドルの代わりに25ドルになります。Grok 3 Miniでも同様のオプションがあります。
これは市場をセグメント化するもう一つの方法として興味深いです。価格設定は少し高めですが、3.7 Sonnetと同等です。しかし、先ほど話したGemini 2.5 Proよりもかなり高価です。それでも印象的です。xAIは本当に突然登場しました。これは驚くべきことです。
コンテキストウィンドウに関して議論がありました。当初、100万トークンのコンテキストウィンドウがあると発表されましたが、APIでは約131,000トークンまでしか使用できないようです。その差がどこから来るのかは不明ですが、基本モデルは100万トークンを処理できるのに、現在のインフラの制限で13万トークンまでしか提供できないのかもしれません。その場合、まもなく増加するかもしれません。
非常に興味深く、推論のためのフロンティアモデルのもう一つのエントリーです。偶然ではありませんが、皆がNVIDIAから同様の割り当てを受け、TSMCから同様の割り当てを受けているからです。10倍のチップがない限り、10倍のスケールや能力の大幅な飛躍は期待できません。
誰もがインターネットをスクレイピングし、大部分が似たようなデータセットを得ています。業界の秘密も以前ほど秘密ではなくなったようです。Grokの場合、彼らは1年前に参入し、大規模言語モデルのトレーニング方法がより明確になっていました。一部はLamaのおかげであり、一部はオープンな取り組みのおかげです。
そしてジミー・バ（創業エンジニア）はGoogleの出身です。非常に経験豊富な人々がいました。共有されていない秘密のソースはたくさんありますが、結果は同じになっています。メタ的な視点から見ると非常に興味深いです。人間のアリコロニーのようなもので、コロニーの形は異なるかもしれませんが、基本的に制約されている経済学や物理とエンジニアリングの法則は非常に似ています。
次の話題はチャットボットに関連しないものです。Canvaについてです。これは基本的にデザインのためのツールスイートで、PowerPointにも関連する様々なアプリケーションがあります。彼らはVisual Suite 2.0を発表し、その中にAIが多く組み込まれています。
Canva Codeというツールがあり、それはジェネレーティブAIコーディングを持っています。テキストでウィジェットやウェブサイトを生成できます。また、新しいAIチャットボットもあり、それを通じて写真の編集、サイズ変更、コンテンツの生成などのジェネレーティブAIツールを使用できます。
人々が自社の製品スイートにAIをより整然と、より良い方法で組み込んでいるケースが増えています。これらのものの一部が成熟し始め、人々がUXを反復し、AIをより自然な方法でツールの一部にしようとしているようです。
これは実際に数十年間で見た最も興味深いデザインストーリーの一つです。これはWeb 1.0からWeb 2.0への移行のような根本的な変化です。これは同様の飛躍であり、コンピュータやインターネットとやり取りする全く新しい方法です。デザイナーはおそらく歓喜しています。
面白いのは、「チャットボットではない話題です」と言ったのに、その中にチャットボットがあるという点です。現在の状況を表しています。
最後の話題はさらにメタ的で、モデルに関するものです。これはLLaMA 4からのMaverickモデルです。前回のエピソードでLLaMA 4を取り上げ、それが多くの懐疑論と批判に直面したことを説明しました。ベンチマーク数値は良好に見えたが、実際には印象的ではないと指摘されました。
これはその一部の更新です。LLAMA 4はLM Arenaで非常に良い成績を収めていましたが、これはLM Arena用に最適化された特別なバリアントであり、通常のバージョンははるかに悪いことが判明しました。これはLLaMA 4全般の状況に合致しています。彼らは基本的にベンチマークを操作し、やるべきではないことをやってしまいました。
これはMetaのAIの状態について多くを物語っています。企業が実際の能力や方向性を示す明白な兆候がいくつかあります。企業は雇用する役職を広告する必要があり、それによって彼らが未来についてどう考えているかを世界に示すことを余儀なくされます。
これは明らかに演出であり、かなり安っぽいものです。これはグッドハートの法則の一部です。最適化の対象（この場合はLM CISリーダーボード）を選び、その方向に強く押し進めると、全体的なパフォーマンスを犠牲にすることになります。特異点に達するまでは、常にすべてにおいて最高になることはできません。
これはMetaが他の企業よりもマーケティングを最適化することを選んだことの反映です。他の企業はこのような動きをしなかったでしょう。ここでの本当の更新は、LLAMA 4に対する興奮は捨てるべきということです。実際には印象的ではないのです。
LM Arenaで微調整されたバージョンについて、記事ではMaverick LLaMA 4が広範囲のベンチマークでどれほど恥ずかしいかを示し、1年前のGPT-4 Oよりも低いスコアを出しています。これは本当にひどいことです。
しかし、これがLM Arena用に微調整されたバージョンであることを考えると、興味深いベンチマークとは思えません。それは生物学的データ分析に非常に優れたモデルを微調整し、その後数学が得意ではなくなったと文句を言うようなものです。そういうことは起こり得ます。
つまり、元のLM Arenaの結果は基本的に偽物です。それをメモリから削除すれば、LLAMA 4について正しく考えることができます。それはかなり失望させるローンチでした。ここでの更新はMeta自体についてであり、考えるべきことです。
次はチャットボットに関連しないストーリーです。Convaについてです。これは基本的にデザインのためのツールスイートで、PowerPointにも関連する様々なアプリケーションがあります。彼らはVisual Suite 2.0を発表し、その中にAIが多く組み込まれています。
Canva Codeというツールがあり、それはジェネレーティブAIコーディングを持っています。テキストでウィジェットやウェブサイトを生成できます。また、新しいAIチャットボットもあり、それを通じて写真の編集、サイズ変更、コンテンツの生成などのジェネレーティブAIツールを使用できます。
人々が自社の製品スイートにAIをより整然と、より良い方法で組み込んでいるケースが増えています。これらのものの一部が成熟し始め、人々がUXを反復し、AIをより自然な方法でツールの一部にしようとしているようです。
これは実際に数十年間で見た最も興味深いデザインストーリーの一つです。これはWeb 1.0からWeb 2.0への移行のような根本的な変化です。これは同様の飛躍であり、コンピュータやインターネットとやり取りする全く新しい方法です。デザイナーはおそらく歓喜しています。
さて、アプリケーションとビジネスのセクションに移りましょう。最初のストーリーはGoogleと新しいTPUに関するものです。Google Cloud Next 25で発表された第7世代TPUで、Ironwoodと呼ばれています。これは推論の時代に特化して設計された最初のTPUであると彼らは言っています。TPUは当初から推論用だったという指摘もありますが。
予想通り、これに関する多くの統計があります。TPUは9,216個の液冷チップまでスケールアップできるという驚くべき数字などです。
これは非常に詳細な内容ですが、基本的にこのTPUは思考モデル、つまり多くのテスト時間計算を使用する推論重視のモデル向けに最適化されています。LLM、MoEなどですが、特にRL後トレーニングなどを実行する際に必要な推論ワークロードのためのものです。
大きさについてのコンテキストを少し加えると、これを比較する最も良いものはおそらくB 200 GPUで、特にNVL 72 GB 200構成かもしれません。B 200はGB 200と呼ばれるシステムの一部で、CPU 1つあたりGPU 2つの比率になっています。それらのラックには72個のGPUがあり、すべてNVリンクコネクタで非常に密接に接続されています。これは非常に高い帯域幅の相互接続です。
GoogleはこれらのTPUを約9,000個持つグループを1つの「ポッド」と呼びます。これらは互いに接続されていますが、NVL 72と同じ帯域幅の相互接続ではありません。NVL 72では小さなポッドのようなものを持ち、その間の接続帯域幅ははるかに高くなります。これらのGoogleシステムははるかに大きいですが、抽象化のそのレベル、つまり完全な相互接続ドメインレベルでは少し遅くなります。
スペックはフロップベースで非常に印象的です。Ironwoodはチップあたり4.6ペタフロップスを達成し、B 200はチップあたり4.5テラフロップスを達成します。非常に似ています。両方が優れた設計を持ち、TSMCの同様のノードに依存しているので、大きな驚きはありません。
メモリ容量に関しても非常に多くの優れた点があります。これらのチップ、TPU V7は実際に192ギガバイトのHBM3メモリを装備しています。これは非常に大量のDRAMスタック、基本的にHBMスタックです。典型的なB 200ダイが持つものの約2倍です。これは非常に優れています。特に、デバイス上に大きなモデル、例えばMoEを持ちたい場合に役立ちます。
これは本当に印象的なシステムです。1つのポッドにある約9,000個のTPUには、電力面で10メガワットのフットプリントがあります。これは約10,000世帯分の電力を1つのポッドに使用することになります。非常に驚異的です。
また、電力効率も高く、B 200の1.6キロワットに対し、チップあたり1.1キロワットです。これはますます重要になっています。これらをより効率的にすればするほど、より多くの計算能力を引き出すことができます。電力は次第に制限要因になっています。
これは大きな発表です。ハードウェアアップデートのエピソードを行う価値があるかもしれませんが、今はここまでにしておきましょう。
この発表は、Googleに関する質問の一つを反映させました。彼らはGemini 2.5に非常に競争力のある価格設定を提供しており、競合他社をかなり下回っています。これは市場シェアを獲得するために損失を出しているのかもしれませんが、TPUを持ち、非常に高度なクラウドアーキテクチャとAIを大規模に実行する能力を持っていることで、より低価格で提供することが可能になっているのではないかと思います。
この発表のブログ投稿では、TPU V2と比較していました。TPU V2は2017年のもので、このイテレーションのTPUはTPU V2の3,600倍のパフォーマンスを持っています。約4,000倍の乗数であり、TPU V5よりもはるかに多くのパフォーマンスがあります。また、効率性の比較では、TPU V2と比較してワットあたり29.3フロップスを得られるとのことです。より多くの計算能力、より少ないエネルギー使用でより多くの計算能力を得られます。これは過去数年間でどれだけ進歩したかを示しています。
これはワットあたりのフロップスとピークパフォーマンスの両方において、TrilliumとV5と比較してかなり大きなジャンプがあるようです。これは彼らがより競争力を持つためにこれを活用しているもう一つの理由です。通常、人々は自分自身のモデルをクラウドでトレーニングすることはなく、モデルを実行しています。これにより、比較的安価に顧客のモデル使用をサポートすることができます。
相互接続もこの非常に大きな部分です。業界では少なくともNVIDIA Infinity帯域の相互接続ファブリックから離れる動きがあります。NVIDIAによるものはなんでも確実に勢いを持っています。GoogleはICIと呼ばれるものを発明しました。これは不明確で一般的な用語ですが、本質的にこれはその代替です。
これはバックエンドネットワークで非常に高い帯域幅を実現する大きな要因です。バックエンドとは、基本的に異なるポッドを接続し、比較的離れているコンピュート基盤の部分を接続することを意味します。これは重要です。大規模なトレーニングを行う際、大規模で多くの接続が必要になります。また、推論ワークロードにも相互接続帯域幅は重要です。様々な理由からです。同様にHBM容量も重要で、これも大幅に向上しています。H 100と比較して約2倍です。
次のストーリーに移りましょう。Anthropicは月額200ドルのClaude購入プランである「Max」を発表しました。これが基本的にストーリーです。より高いレート制限が得られます。月額100ドルのオプションは下位のティアで、20ドルの購入プランに比べて5倍のレート制限があります。月額200ドルのオプションでは20倍のレート制限が得られます。
興味深い発展です。OpenAIは数ヶ月前にプロティアをリリースしました。そしてAnthropicも月額200ドルのティアを出しています。パワーユーザーであれば、間違いなくAnthropicやOpenAIにコストを掛けていることになります。月額20ドルでは収まりきらないでしょう。多くの文書やチャットを処理するとコストがかさみます。
生産性の分野ではこの種の月額200ドルのツールは前例のないことです。もちろんAdobeや数値ツールなどは簡単にこの種の非常に高額な料金を請求しています。このような高額な購入ティアをAI企業が導入するトレンドが続くかもしれません。
その通りです。私はClaudeのパワーユーザーですので、これは間違いなく私向けです。何度もクエリの制限に達してしまう場合、非常にイライラします。Claudeを使用していて問題の途中で「これがあなたの最後のクエリです」と言われると、次のクエリができるようになるまで通常8時間ほど待たなければなりません。それは本当にイライラします。
彼らがこれを提供するのは素晴らしいです。私が支払っている金額は月に20ドルくらいだと思います。月額100ドルで5倍の使用量、月額200ドルで20倍の使用量というのは、単に比例的に増やしているだけです。200ドルで20倍というのは、そのスケールで50%オフというような感じです。
これらは本当に役立つものです。「この問題を今解決するために100ドル払っても良い」と思う回数はかなり多いです。おそらく彼らはこれでかなりの需要を開放するでしょう。計算能力の可用性に関して何かを解決したのかもしれません。以前はこれを提供していませんでしたが、これが問題だとわかっていたはずです。何らかの計算能力がオンラインになったのかもしれません。
次はOpenAIに関連するいくつかのストーリーです。まず、OpenAIにゆっくりと登場している新しい競合相手があります。Safe Superintelligenceです。OpenAIの共同創設者であるイリヤ・サツケヴィチが率いるAIスタートアップです。彼はOpenAIの始まりから研究の主要な頭脳の一人で、2023年にはサム・アルトマンの一時的な解任に関わり、サム・アルトマンが戻った後、2024年にOpenAIを去りました。
彼らは現在AGIを目指していることが報じられており、現在20億ドルの資金調達を行っており、会社の評価額は320億ドルとなっています。これは以前の10億ドルの調達に加えてのものです。今日でも著名な人物が率いるスタートアップがAIを構築するために数十億ドルを獲得しているのは印象的です。フロンティアで競争する可能性のある人々に数十億ドルを投じる投資家の需要はまだ飽和していないようです。
超知能への需要、または少なくとも投機は飽和させるのが難しいですね。もう一つの更新点は、Alphabetがこれに参加していることです。Safe Superintelligenceが主要な計算源としてGoogleが提供するTPUにアクセスしているということを初めて知りました。
すでにAnthropicがGoogleだけでなくAmazonともパートナーシップを組み、Traunチップを使用しているのを見ています。そこで今、SSIはGoogleが「私たちのアーキテクチャに最適化してください」と言おうとしている状況にあります。これは小さなことではありません。
これについての選択は非常に多くのロックインを伴います。特定のチップのためにワークロードを大幅に最適化することになります。パートナーシップが密接であれば、チップがニーズに合わせて共進化することもあります。それはAmazonとAnthropicの間で起きていることです。
したがって、Safe SuperintelligenceがこのようにGoogleと手を組むということは、かなり親密で深いレベルのパートナーシップを示唆しています。投資条件の詳細はわかりませんが、TPUを使用していることから、おそらくAlphabetがSSIに計算クレジットを提供していることが推測されます。かつてMicrosoftがOpenAIに行ったのと同じように。後で詳細がわかるでしょう。
GoogleがAnthropicやSafe Superintelligenceを含む多くのラボの中心に位置しているのは非常に興味深い配置です。
次のストーリーもまた、元OpenAIの高位の人物によるスタートアップに関するものです。これはMiraのThinking Machinesに関するもので、彼らは2人の著名な元OpenAIアドバイザー、ボブ・マグリューとアレック・ラドフォードを迎えました。彼らは両方ともかつてOpenAIの研究者でした。
これもSafe Superintelligenceと同様、彼らが何に取り組んでいるかについてはあまり多くのことが言われていません。しかし、1億ドル以上を調達しており、本質的に得られる最高の人材を採用しています。
ミラがこれをどう実現したのかはわかりません。彼女はOpenAIで非常に尊敬されていたことは知っています。彼女はジョン・シュルマンを採用しました。彼らの主任科学者です。バレット・ゾフはOpenAIでモデルのポストトレーニングをリードしていましたが、現在はCTOです。かなり強力な陣容です。
そしてアドバイザーとしてアレック・ラドフォードを加えるのは驚きです。彼がOpenAIを去ったことは驚きでした。彼は約10年間そこにいました。GPTの男です。他にも多くのことを行いましたが、GPTに関する論文の主要な著者の一人でした。
彼は本質的に、1000倍のAI研究者のような存在でした。人々は彼をAI研究の自動化のメトリックとして使用していました。いつ1万人の自動化されたアレック・ラドフォードが得られるかなど。それが彼の基準でした。
本当に例外的な研究者です。彼が「OpenAIを去ります」と言ったのは大きなことでした。記憶している限り、彼はOpenAIとの協力の余地を残していました。彼が形成したサードパーティのエンティティの一部としてです。おそらく彼はこれらの組織間に交差関係を持っています。
おそらくこれらの関係には研究面のサポートも含まれています。彼は複数のフロンティアAI研究プログラムに対してリアルタイムで直接的な可視性を持つ非常に少数の人々の一人かもしれません。彼のサイバーセキュリティ、物理的セキュリティ、その他のセキュリティが良いことを願います。彼は興味深いターゲットになりそうです。
次のストーリーはチャットボットではなく、ヒューマノイドロボットに関するものです。Hugging Faceがヒューマノイドロボットを構築するスタートアップであるPollen Roboticsを買収するというニュースです。彼らはJiaというヒューマノイドロボットを持っています。Hugging Faceはこれを販売し、開発者が改良できるようにオープンにする計画です。
興味深い発展です。Hugging FaceはAIモデルのGitHubのようなもので、AIモデルをホストし、オープンソースに関わっています。これは以前のコラボレーションの上に構築されており、Hugging FaceはLe Robotというオープンソースロボットをリリースしました。また、ロボット工学のための完全なソフトウェアパッケージもリリースしました。その上に構築しています。
これはHugging Faceにとって興味深いことです。最初の反応は「何だこれは？」でした。考えてみると理解できます。古典的なプレイは「このハードウェアプラットフォームのアプリストアになる」というものです。それがここで起きていることです。
おそらく彼らはヒューマノイドロボティクスが次のiPhoneのようなものになると考えています。本質的にこれはコモディタイズ・ユア・コンプリメントのプレイです。ヒューマノイドロボットを持ち、そのヒューマノイドロボットの価値を時間とともに高めるオープンソースのソフトウェアスイートを持ちます。
Hugging Faceはそれをするのに非常に適した位置にあります。彼らはAIモデルのためのGitHubであり、本当に似たような競合はありません。AIオープンソースをやりたい場合にデフォルトで行く場所はHugging Faceです。それは理にかなっています。
プラットフォームがどれほど良いものになるかはまだわかりません。Pollen Roboticsについては正直言って聞いたことがありませんでした。彼らは存在し、買収されました。彼らが実際にそのプラットフォームで何ができるか、どれほど早く製品をオンラインにできるかを見るのは興味深いでしょう。
このセクションの最後のストーリーは、AIスタートアップCrusoがテキサスのデータセンターに35億ドルを投資する可能性があるというものです。これはStargateとCrusoに関するものです。詳細によると、彼らはこの数十億ドルのプロジェクトに対して85%の税控除を受けるとのことです。
これはStargateの発展を示しており、ここでのビジネスの規模を示しています。税控除を受ける基準は、計画された35億ドルの投資のうち少なくとも24億ドルを支出することです。これは彼らにとって問題にならないでしょう。
彼らはその後、州の機関に2つのデータセンターの建物を追加登録しました。テナントがだれになるかはわかりませんが、Oracleが一つの建物に登録されています。もう一つもOracleとなっています。
データセンターの領域について重要なコンテキストがあります。ここで起きていることは、本質的にはデータセンターの物理的な建物を建設する会社があり、それがCrusoです。しかし、データセンター内にGPUはありません。彼らは「水和パートナー」や「テナント」、つまりGPUで埋める誰かを見つける必要があります。
この場合、それはOracleになります。Crusoがビルディングを構築し、OracleがGPUで満たし、そしてそれらのGPUの実際のユーザーはOpenAIになります。これはStargateプロジェクトだからです。
その上に、資金提供者が入ることができます。Blue Owlは多額の資金を貸し出しているプライベートクレジット会社です。JPモーガンも同様です。
少し目がくらむかもしれませんが、Blue OwlとJPモーガンがCrusoに資金を提供し、Oracleが水和し、OpenAIに提供するデータセンターを構築する、という流れです。
「これはOpenAIのデータセンターだと思っていた」というような見出しを見たら、実際にはこれが起きていることなのです。
このビルドは300〜400の新しいフルタイムの仕事を作り出し、最低給与は約6万ドルになるという議論があります。少なくともこれは税控除のためのしきい値の一部です。
人々は、これではここで提供される税控除の巨大さを正当化するには十分ではないと不満を言っています。雇用面は実際には主要な付加価値ではないと思います。これは経済的な投資よりも国家安全保障への投資と見なすべきです。
ただし、これらのデータセンターも確保されている限りはそうです。現時点では率直に言って、彼らが確保されているとは信じていません。
要するに、これは非常に大きな構築であり、多くの税控除が来ており、多くのパートナーが関与しています。将来的に、Blue OwlやJPモーガン、Crusoなどについて耳にするでしょうが、これがその理由です。
プロジェクトとオープンソースに移りましょう。まずはOpenAIからのBrowseCompという論文とベンチマークです。これはエージェントがウェブを閲覧し複雑な情報を取得する能力を評価するために設計されたベンチマークです。
これには1,266の事実探索タスクがあり、ウェブブラウジングを装備したモデル、エージェントがある情報を見つけて取得するというタスクです。一般的にはかなり難しいものです。ウェブブラウジングのために構築されていないGPT-4 Oのようなベースモデルはひどい成績です。
1.9%の能力しかありません。全く閲覧が許可されていない場合は0.6%です。Deep Researchのモデルはこの種のことに最適化されており、51.5%の精度を達成できます。ブラウジングによる情報検索にはまだ改善の余地があります。
これは非常に慎重に範囲を定めたベンチマークです。多くの場合、ベンチマークはさまざまなものを組み合わせています。例えばSWE Benchを考えると、それはコーディングのベンチマークですが、アプローチ方法によっては、回答を生成するためにウェブ検索を使用したり、多くの推論時間計算を使用したりできます。実際に測定している能力は少し曖昧です。
この場合、彼らが試みているのは明示的に他の種類のスキルを排除することです。長い回答を生成したり、曖昧さを解決したりすることは、ここでテストされている部分ではありません。代わりに、オンライン研究の軌道を持続的に追跡し、情報を見つけるのに創造的になることができるかどうかに焦点を当てています。複雑なものをGoogle検索する際に適用するスキルです。
いくつか例を挙げます。「時々観客と第四の壁を破る架空のキャラクターを特定してください。彼の背景には無私な審美家からの助けが含まれており、ユーモアで知られ、1960年代から1980年代の間に放送され、50エピソード未満のTVショーがありました」
これは本当に、これを理解するには相当Googleで検索する必要があるでしょう。それがポイントです。彼らは明示的に現在のモデルがこれらの質問を解決できないように設定しています。これはこのベンチマークに含めるものを決定するために使用された3つの主要な基準の1つでした。
他の2つは、トレーナーが単純なGoogle検索を行って回答を見つけることを5回程度試みることになっていたというものです。そして、検索結果の最初のページに回答がなければ、「素晴らしい、それを含めましょう」となります。簡単に解決できないほど難しくなければなりません。
彼らはまた、人間にとって10分のタスクよりも難しいことを確認したかったのです。このデータセットを構築したトレーナーは、問題を解決するのに少なくとも10分以上かかることを確認しました。
これは非常に興味深いベンチマークです。非常に狭く範囲が定められていますが、AIの能力の一つの重要な次元を固定するのに役立つ方法です。また、彼らは推論時間計算のスケーリング曲線も示しています。驚くことではありませんが、より多くの推論時間計算でより良いパフォーマンスが得られます。誰が知っていたでしょうか。
狭く範囲が定められ、非常に挑戦的であることを意図していることに注目しました。AIモデルの回答を評価したであろうシステムのトレーナーに関するデータもあります。彼らもベンチマークを自分で行うよう求められました。問題の70%で、人間は2時間後にあきらめました。タスクを完了できませんでした。
彼らも解決できたタスクの分布を持っています。大部分は約2時間かかりました。1時間未満のものは数十、おそらく100程度あります。大部分は1時間以上かかり、高い方では4時間のデータポイントが1つだけあります。これらの質問に答えるには、かなり能力の高いウェブブラウザである必要があるようです。
次のストーリーはByteDanceに関するものです。彼らは推論モデルSeed Thinking V1.5を発表しています。これは他の最近の推論モデル、特にDeep CR 1と競争力があると彼らは述べています。
彼らはそれについて技術的な情報を少し公開しました。Deep CR 1と同様にRLでこれが最適化されていると彼らは述べています。かなり大規模で、合計2000億のパラメータを持っていますが、エキスパートモデルの混合でもあるため、一度に200億のパラメータのみを使用しています。このモデルを公開するかどうかについては明言していません。モデルの存在を発表しただけです。
統計は非常に良好に見えます。正当な参入のようです。現在、研究所が推論時間計算戦略をスケールアップする方法を出すのを待っている状態です。そうすれば、米国と中国がどのように相対的にランク付けされるかをよく理解できるでしょう。現在はそのスケーリングの軌道上にいるだけで、どちらの側も完全な規模をまだ見ていません。
興味深い点として、これはDeep Seek V3/R1よりもかなり活性化パラメータが密です。Deep Seek V3/R1では、トークンあたり約670億の中から370億の活性化パラメータがあります。つまり、各トークンに対して約20分の1のパラメータが活性化されます。
ここでは約10分の1です。ある意味ではより密度の高いモデルが見られ、これは興味深いことです。これはすべてV3とR1の結果を基に構築されています。アーキテクチャの選択は常に興味深いです。後でより多くの情報が得られるでしょうが、これが初期の絵です。
彼らは実際にこの一部として、AMYベンチマークの新しいバージョンも生み出したようです。AMYは数学オリンピアド問題のセットで、データ漏洩の理由などで少し問題がありました。そこで彼らはこのために特別にキュレートしたバージョンを作りました。
彼らはそれをBeyond AMYと呼んでいます。そのベンチマークでは、彼らのモデルがDeep CR 1を上回ることを示しています。SW Benchを除いて、基本的にどこでもDeep CR 1を上回っています。これは間違いなく印象的です。
実際に少し驚いています。SW Benchは特に、より多くの計算能力があれば、それが特にSW Benchに良く変換されると思っていました。これらのようなコーディング問題は、RLで徹底的に訓練できる種類のものだからです。
ベンチマークは明らかにそれがGemini 2.5 ProやO3 Mini Highほど良くないことを示していますが、間違いなくギャップを縮めています。RKGIでは、R1だけでなくGemini 2.5 ProやO3 Mini Highをも上回っていることがファシネイティングで、説明ができません。
これはかなり大きなことです。しかし、奇妙な過剰最適化の人工物である可能性もあります。他のすべてのベンチマークで、Gemini 2.5 Proなどよりもかなり遅れていますから。いずれにせよ、興味深い注記であり、時間が経つにつれてさらに多くのことを学ぶでしょう。
彼らは10ページの技術レポートも公開しました。かなりの量の情報が含まれており、O1やO3などと比べると新鮮です。
私が知らなかったことですが、ByteDanceは昨年最も人気のあるチャットボットアプリを持っていました。Dobaという名前です。最近、AlibabaがQuarkというアプリで彼らを追い抜きました。ByteDanceが中国でのAIチャットボット分野でそのような大きなプレイヤーだったとは知りませんでしたが、彼らがこの分野でかなり競争できることは理にかなっています。
次は研究と投資に移ります。最初の論文は「Sample Don’t Search: Rethinking Test Time Alignment for Language Models」というタイトルで、Q-Alignを紹介しています。これは言語モデルのための新しいテスト時間アライメント方法で、追加のトレーニングを必要とせず、特定の活性化やロジックにアクセスする必要なく、より良いアライメントを可能にします。
モデルが吐き出すテキストだけをサンプリングすることで、重みにアクセスしたり、トレーニングを行ったりすることなく、テスト時に計算を増やすだけで、より整列させる（つまり、あなたが望むことをより確実に従わせる）ことができます。
これは非常に魅力的な論文だと思いました。現在の微調整とサンプリングアプローチに何が間違っているのかについて非常に興味深いことを教えてくれます。
面白いことに、予測を行う最適な方法は知られています。実際、AGIを構築する答えを知っています。そうです、私たちはベイズ定理を持っています。ベイズ的な予測や推論の方法は数学的に最適です。少なくとも「科学の論理」のような偉大な教科書を信じるならばです。
課題は、実際のベイズアップデートルール（先験確率に基づいて証拠を考慮して事後確率を得るもの）が、現在のLLMでの推論の方法では従われていないことです。
真に行いたいことは、言語モデルに基づいて何らかの出力を生成する確率（プロンプトに対する特定の補完の確率）を取り、それに報酬関数に基づく指数関数的な要素を掛けることです。
例えば、ある種の出力に非常に高い報酬を割り当てたい場合、初期モデルの傾向を取り、それに報酬の重みづけ（基本的にeの報酬乗）を掛けるべきです。それらを組み合わせることで、最適なベイズ出力が得られます。
あなたのベースモデルの初期の傾向を考慮する必要があります。ベイズの理由からです。しかし彼らが言うには、Best-of-nのような典型的な検索ベースの方法は、基本的にベースモデルの確率割り当てを無視しています。報酬関数のみに焦点を当てています。
基本的に、ベースモデルに従って多くの異なる出力を生成し、そこからは「どれが最高または最も高い報酬を与えてくれるか？」を確認するだけです。そうすることで、基本的にその時点から、問題セットについてベースモデルが実際に知っていることをすべて捨てることになります。
彼らが数学的に観察していることは、それが単に悪い考えだということです。そこで彼らは質問します。ベースモデルから、報酬関数を確実に考慮しつつも、初期の言語モデルがすでに知っていることを考慮する方法でサンプリングできるか？
数学的理由から、このベイズ最適アプローチに収束する一つのアプローチは次のようなものです。完全な応答から始めます。初期のLLMに出力を生成させます。「答えは42です。計算Xによると」という感じです。数学の問題を与えて、「答えは42です。計算Xによると」というような回答が得られます。
次に、その応答の中で位置をランダムに選びます。例えば3番目のトークン「the answer is」の部分です。そこまでの応答を保持しますが、そこから先は新しい補完を生成します。ここでは実際に、ベース言語モデルを使用して何か他のものを生成させます。
通常は高温サンプリングで、答えがかなり変わるようにします。それにより完全な候補応答が得られます。別の答え、例えば「答えは15です。別の計算に基づいて」などが得られます。
彼らはどちらの答えを受け入れるかの確率を計算するための選択ルールを持っています。そして報酬関数の部分を考慮します。それらの代替答えのどちらが報酬関数によって高く、または低くスコア化されているかです。これは基本的にLLMをその決定ループに注入する方法であり、それがすでに知っていることを考慮します。
かなり詳細で、書き出すと見やすくなります。しかし核心的な概念はシンプルです。サンプリング中にLLMを使用したいのです。単にそれを脇に置いて報酬関数だけに焦点を当てないでください。そうすると、報酬メトリックだけを最適化しすぎるなど、かなり病理的な結果につながる可能性があります。
それは報酬ハッキングなどにつながります。ベイズの観点からは、はるかに堅牢な方法です。そして彼らは実際にこれがGSM8Kのような数学ベンチマークでより良い推論スケーリングにつながることを実証しています。非常に基本的な観点から興味深い論文で、現在のサンプリング技術に何が間違っているかについての洞察を与えてくれました。
彼らはこの方法を、「Quality-Aware Metropolis-Hastings Sampling from Machine Translation」という去年の論文であるQuestをベースに構築しています。これはより理論的または数学的なアルゴリズム的な貢献だということです。論文を見ると、多くの方程式があり、この分野に深く入っていない場合は理解に時間がかかるでしょう。
しかし、アルゴリズム的なもの、「大きなモデルは良い、多くの重みがスマートなモデルを作る」というだけではない研究のための余地がまだあることを示しています。
次の論文は「Concise Reasoning via Reinforcement Learning」です。O1、そしてDeep CR 1以来の推論モデルの台頭とともに議論してきた現象の一つは、テスト時に追加の計算を行うと、モデルがより良く機能するように見えるということです。テスト時のスケーリングを行うと良い結果が出ます。また、全く最適化されていないようにも見えます。
しばしばモデルは必要以上に多くの出力をするように見えます。そこでこの論文は、正しい答えを得ながらもモデルからの出力量を最適化する方法を検討しています。
基本的な考え方は、モデルのトレーニングに第二段階を追加することです。R1と同様に問題解決または推論ができるようにトレーニングした後、正確性を維持または向上させながら簡潔さを強制する第二段階のトレーニングを提案しています。彼らはそれが多かれ少なかれ可能であることを示しています。
これはもう一つの非常に興味深い概念的な論文だと思います。それへの動機は、いくつかの矛盾する観察から来ています。まず、テスト時推論、推論時間のスケーリングが存在します。より多くの推論時間の計算をモデルに注ぎ込むほど、より良いパフォーマンスが得られるようです。
これは、生成されるトークンが多いほど精度が高くなることを示唆しているようです。しかし特定のモデルを実際に見ると、多くの場合、最もトークンを使用するのは袋小路に入り込んだときです。彼らが「行き詰まり」と呼ぶもの、つまり正しい解決策に到達する可能性が低い状態に陥ることがあります。自分自身を袋小路に追い込むようなものです。
彼らは非常に興味深い理論的な議論を構築し、それはかなり堅牢に見えます。彼らは正しい答えを得ることがモデルにとって本当に難しくなるということを示しています。また、モデルの報酬時間ホライズンをかなり短く設定します。つまり、モデルは非常に先を見ないのです。近い将来に焦点を当てています。RLの用語ではパラメータが制限されています。
この場合、モデルはその負の報酬を遅らせたいと思うことがわかります。非常に難しい問題であれば、より多くのテキストを書き、先延ばしする傾向があります。これは非常に面白い詳細の一つです。アルゴリズム自体の強化学習損失は、モデルがタスクを解決できない場合、特に話し続けることを奨励すると、より長い出力を好みます。
タスクを素早く解決できれば、より多くの正の報酬を得て満足します。タスクを解決できなければ、延々と続けるでしょう。報酬が正と予想されるか、あるいはモデルが実際に扱いやすい問題を持っている瞬間に、その流れが反転します。
そこで面白い状況が生まれます。解決可能な問題は、より簡潔な応答へのインセンティブを作り出します。モデルは「ああ、その報酬を感じることができる」と思っているかのようです。解決できないと知っていれば、マラソンを終えたら平手打ちされると知っていれば、非常にゆっくり進むでしょう。しかし美味しいケーキが待っていると知っていれば、マラソンを速く走るかもしれません。これが起きていることです。
数学から導き出されることは恥ずかしいほどです。経験的な発見ではなく、「あなたたちは数学を通じて意図的にモデルに深く非生産的なこのことをするインセンティブを与えていないことに気づきましたか？」というものです。
彼らがそれを修正すると、応答の長さをパフォーマンスに対して劇的に減少させることができます。彼らは本当に興味深いスケーリング曲線を示しています。応答の長さと応答の質の向上の間に逆相関があることを示すものも含まれています。
モデルの簡潔さは、あるモデルから別のモデルへと変わる特性であり、トレーニングデータによって部分的に決定される特性だと考えさせられます。ここで二次的なトレーニング段階という考え方が本当に重要になります。
彼らは最初にRL訓練のステップがあり、それは一般的なDeep Seek R1やO1、O3タイプの推論です。しかしその後、モデルを磨き上げ、簡潔に解決したいという強いインセンティブを持つ、解決可能な問題を明示的に含むトレーニングステップを含めます。数学によって、これは実際に扱いやすい問題になります。
私はこれが本当に魅力的で、これらのRLシステムの前に置いているインセンティブについての恥ずかしいほど単純な観察だと思います。
この技術も非常に成功しています。R1の大きなバリアント（70億パラメータモデル）では、応答の長さを40%削減し、精度を維持または向上させることができます。彼らはこれを最適に行うための計算予算を持っていなかったと思われます。さらに最適化することで、正しい答えを得ながらもトークンを少なく出力することができるでしょう。非常に実践的で有用な結果です。
いくつかのストーリーがさらにあります。まず、「オープンデータを超えて、Almo Traceによる言語モデルの透明性と信頼性の向上」というものがあります。
この考え方は非常に興味深いです。モデルの出力に影響を与えたトレーニングデータの何を見ることができます。特に、モデルの出力のうち、トレーニングデータに逐語的に現れるスパンを識別することができます。これはAlmoモデルをサポートしており、以前に話したモデルです。
これらは市場で最もオープンなモデルです。そのモデルに対してこれを使用でき、彼らは数十億のドキュメント、数兆のトークンという非常に大きなトレーニングデータセットを持っています。これはソフトウェアの進歩ですが、本当にシステムの進歩です。
その核心は、次のように想像できます。「私のLLMが何か出力を生成しました。トレーニングコーパスの中で、この出力に最も似ているテキスト、または最も密接に一致する長い単語のシーケンスを含んでいるテキストは何か」を見つけたいとします。これは計算的に非常に困難なタスクです。
生成したすべての言語モデル出力に対して、トレーニングセット全体を検索して「これらのトークンはそこにありますか？これらのトークンはそこにありますか？完全一致ベースでどれだけの重複が見つかりますか？」と調べる必要があります。
彼らはその問題を解決しようとしており、効率的にそれを行っています。なぜこれが本当にエンジニアリングの課題であるかがわかります。
この考えの核心は「サフィックス配列」という概念です。これはテキストコーパスのすべてのサフィックスをアルファベット順にソートして保存するデータ構造です。例えば「banana」という単語があれば、サフィックスは「banana」「anana」「nana」「ana」「na」「a」となります。そしてそれらをアルファベット順にソートします。
これにより、出力で見つける可能性のある異なるチャンクを整理する原則的な方法があります。「どのテキストの塊がトレーニングセットと完全に重複していますか？」と見ています。
小さなトレーニングコーパス（例：「猫は敷物の上に座った」）と「猫はベンチに座った」というLLM出力があるとします。あなたはそのテキストのすべての異なるチャンキングを持つサフィックス配列を設定し、それらを相互参照したいのです。それらをアルファベット順とサフィックスベクトルで原則的に設定することで、バイナリ検索を使用できます。
バイナリ検索がわかれば、これが興奮する理由がわかります。順序付けられたリストを検索する非常に効率的な方法です。データが適切な形式であれば、それを行うことができ、それが彼らがここで行っていることです。
これを行うと、トレーニングコーパス全体でバイナリ検索を実行する非常に効率的な方法ができます。一方、言語モデル出力に関しては、検索プロセスを大規模に並列化して、多くの出力を同時に処理することができます。これにより、コストが大幅に償却されます。
全体として、検索機能のスケーリング特性が大幅に向上します。これにより、いくつかの興味深く印象的な出力が生まれます。言語モデルが提供する出力を見て、「この出力のさまざまなセクションと最も密接に単語単位で重複するトレーニングコーパスのテキストは何ですか？」と考えることができます。
これはデータ漏洩が懸念される場合に特に刺激的です。「私の言語モデルがこの質問に正確に答えたのは、基本的にトレーニングセットにあったものを単に繰り返しているからなのか、それともより深いレベルでコンテンツを理解しているからなのか？」を知りたいのです。これは完全な解決策ではありません。パラフレーズしている場合は検出されませんが、興味深い開始点です。
「言語モデルは単なる皮肉な鸚鵡か？」という問いの一部への答えにもなります。トレーニングデータに出力と正確に一致するテキストがないことを排除できれば、そのモデルがより良いということになります。
少し訂正しなければなりませんが、彼らは一致が必ずしも出力の原因だとは主張していません。彼らは事実確認を行うために大規模なコーパスを効率的に検索する方法を提供しています。
ブログには面白い例があり、ある質問に対してOlmoモデルは知識カットオフが2023年8月だと主張しましたが、実際のカットオフは2022年でした。そこで彼らは出力を見て、トレーニングデータセットに含まれたOlmoのオープンソースバリアントに関するドキュメント（おそらくブログ投稿）を見つけました。それがモデルにこの間違ったことをさせた原因でした。
モデル開発者やユーザーにとっても、事実確認をして、潜在的な説明や誤った出力を引き起こすトレーニングデータセットのノイズを見ることができるのは非常に有用です。
次に、Epic AIからのストーリーがあります。これはAIに関する統計や興味深いメトリクスの私たちのお気に入りの情報源の一つです。これはApexベンチマークに対するGrok 3とGrok 3 Miniの独立した評価です。研究バージョンでは、Grok 3とGrok 3 Miniは本当に優れています。Claude 3.7 Sonnet、O3 Miniと並んでおり、Grok 3 Miniは少量の推論でも、これらのベンチマークの一部ではより高い推論レベルに匹敵します。
Grokについての一般的な印象を再確認するものであり、それは非常に優れています。AMYに関しては特に驚くべきことです。Grok 3 Miniは高推論モードでO3 Mini高推論モードを上回ります。そのカテゴリーで文字通り1位です。これは驚くべきことです。
xAIとGrokは本当に無から出現したことを思い出させておきます。彼らは今、何年目でしょうか？2年？これはクレイジーです。これにはもっと時間がかかるはずです。また、他のベンチマークではより中間的です。例えばFrontier Mathでは、トップ3には入りません。4位です。これは全体的に本当に堅実なモデルです。
OpenAIとGrokが様々なエージェンシーベンチマークでのスコアをどのように特徴付けていたかについての議論がありました。サンプリング方法や実際にApple対Appleの比較が行われているかどうかについてです。
これはおそらく、Epicがこれを「Grok 3とGrok 3 Miniの独立した評価」として位置づけた大きな理由の一つでしょう。基本的に彼らは「いいえ、これは実際に印象的なモデルです」と言っています。
誰もが最高の推論モデルを持っていると主張しています。どれが明確に最高かを決めるのは諦めています。あなたが気にすることによって異なります。真のフロンティアにおいては、プロンプト作成のバリエーションは、モデル間のバリエーションと同じくらい大きいでしょう。使用ケースに最も適したものを試してみることをお勧めします。
政策と安全性に移りましょう。再びOpenAIの訴訟ドラマから始めます。OpenAIはイーロン・マスクに反訴しています。彼らはxAIからの進行中の法的挑戦に対応して反訴を提起しました。xAIはOpenAIが営利化することを制限しようとしています。
彼らは基本的にイーロン・マスクのさらなる「違法かつ不公平な行動」を止めたいと言っています。彼らはマスクの行動（私たちが取り上げた買収提案を含む、彼は非営利のOpenAIを970億ドルで買収することを提案した）を非難しています。
基本的にOpenAIはここで「イーロン・マスクが行っているさまざまなことがあります。彼がこのようなことをするのを止めてください」と言っています。
彼らによる偽の入札の特徴付けは少し面白いです。密室で何が起こったのか、コミュニケーションがあったのか、なかったのかはわかりません。しかし外から見ると、何が偽物にするのかがわかりません。彼が提供していたお金は本物ではなかったのでしょうか？独占金だったのでしょうか？
彼はOpenAIが自社の非営利子会社または営利子会社に支払おうとしていたよりも明らかに多くのお金を提供していました。かなり本物に見えました。彼らはその取引を真剣に検討する受託者義務を持っているはずです。
法的根拠を持つ主張が何なのかは不明です。元のイーロンの訴訟は魅力的です。以前に取り上げましたが、人々に思い出させておきましょう。
イーロンはもちろんOpenAIを訴えました。基本的に非営利団体（現在営利活動をコントロールしている）は非営利を買収し、「たくさんのお金を渡すから、あなたのコントロールをすべて放棄してください。そうすれば、かわいい慈善寄付活動ができます」と言っていました。
人々は「待ってください。非営利団体は営利団体を牽制するために明示的に設立されました。彼らは正しく、営利インセンティブが競争行動を引き起こし、セキュリティと制御の面で潜在的に無責任な開発慣行を引き起こす可能性があると推論したからです。
だからその機能をお金で置き換えることはできません。OpenAI自体は制度的に、お金がそれを補償すると信じていません。彼らは超知性を構築していると信じており、超知性の制御は400億ドルよりもはるかに価値があります」と主張しています。
この事件の判事は、非営利の役割をただお金と交換することはできないという議論をかなり好意的に見ているようです。少なくともOpenAIの公約などにより、何らかの形でその機能を持つ必要があります。少なくともそれらの主張は妥当で、法廷でうまくいく可能性があります。
主な問題は、イーロンがその議論を代表する立場にあるかどうかです。問題は、OpenAIがメールを通じてイーロンと契約関係を結んだかどうかです。それが彼らが持つ契約的合意に最も近いものだからです。
非営利がコントロールを維持することなどについてですが、それははるかに曖昧に見えます。そのため、イーロンは現在、かなり強力な事件（判事がそれを示唆している）を持っているが、彼がそれを代表する正しい人物ではないかもしれないという厄介な立場にあります。司法長官かもしれません。
判事がこの事件の強さを示して司法長官の注意を引き、司法長官がここでリードすることができるようにしているという推測があります。しかし、すべてが政治化されています。イーロンは共和党側と関連付けられており、カリフォルニア州の司法長官は民主党になるでしょう。
それはすべて大きな混乱です。そして今、OpenAIは少なくともマーケティング価値のために部分的に反訴しています。しかし、見守るしかありません。ここには事件があるようです。少なくとも興味深い事件があります。
判事がイーロンの彼に有利に素早く裁定し、営利への移行をブロックするよう求める動議を却下するのを見ました。この最初の動き、つまりこの反訴が通るとは思えません。これらの訴訟がフリボラスであることを示すためにOpenAIが満たさなければならない基準はかなり高いでしょう。
判事が「事件自体はかなり強力に見える。イーロンが代表する適切な人物かどうかは50-50だ」と言っていることを考えると難しいでしょう。いずれにせよ、それは混乱です。
これは本当に混乱しています。ちなみに、「反訴」という用語がどれほど技術的なのかわかりませんが、彼らが提出した文書自体にあります。彼らはすでに進行中の事件に対していくつかの反訴を持っています。
読むとかなり面白いです。60ページの文書の早い段階でこの引用を見つけました。「マスクはそのような成功を、彼が放棄し、運命づけられたと宣言した企業から見ることに耐えられませんでした。彼はOpenAIを打ち倒し、人類のためではなく、イーロン・マスクのために技術的リードを掌握する直接的な競合他社を構築することを彼のプロジェクトにしました」そして「それに続くキャンペーンは、プレス攻撃などを通じて容赦ないものでした。マスクはOpenAIを害するためにあらゆる利用可能なツールを試してきました」と述べています。
これは私たちが見てきたOpenAIがブログを通じて行っていること、マスクのメールについて非難することの継続です。彼らはXにも同様のレトリックで投稿し、「イーロンは決してミッションについてではなかった。彼は常に自分のアジェンダを持っていた。彼はOpenAIの支配権を掌握し、それをTeslaと営利目的で合併しようとした。彼自身のメールがそれを証明している」と述べています。
OpenAIは少なくとも攻撃に出ようとしているかもしれません。これは彼らのブランドからかなり外れています。以前は彼らは争いを超越したような雰囲気を持っていました。サム・アルトマンは触れられないキャラクターのようでしたが、彼らは泥の中で転がり始めたようです。興味深いですね。
彼らは戦術的にイーロン・マスクをできるだけ恥ずかしめたいように見えます。
次のストーリーもOpenAIに関連しています。以前言及したように、OpenAIがフロンティアモデルの安全性テストに割り当てられる引退リソースを削減しているようです。これは彼らの次世代モデルであるO3に関連しています。
これはプロセスに詳しい人々によるものです。おそらく何人かの内部関係者です。以前は数ヶ月あった安全性評価者が、今ではしばしば潜在的なリスクを指摘するために数日しかありません。これは2023年のサム・アルトマンとの分裂に関して出てきたことと一致しており、過去1年間でOpenAIから得ている全般的な印象と一致しています。
残念ながら、OpenAIの人々が私たちに話したこととも一致しています。現実は、これがまさに非営利団体の存在と、それが明示的に営利活動をコントロールすることのために作られた議論です。
これはすべて予言されていました。競争的な圧力がかかる日が来て、コントロール、セキュリティ、すべてのことに関して妥協したくなるでしょう。そして私たちはできるだけ利害関係のない、権限を持った当事者がこれすべてを監視することを確認したいのです。
驚くべきことに、それはまさに今サム・アルトマンが取り除こうとしている一つのことです。まるでサムが彼のコントロールを強化し、以前彼のコントロールに存在していたすべての保護柵を取り除こうとしているかのようです。しかし、それは不条理な主張です。いずれにせよ、引用のいくつかは非常に興味深いです。
「技術がそれほど重要でなかったときの方が、より徹底的な安全性テストを行っていました」これは現在、次のO3モデルをテストしている人物の言葉です。とにかく、そのような様々なことがあります。
特に驚くべきことはありません。非常に悲しいことに予測可能です。これがもう一つの理由です。この種のことについて何らかの調整が必要です。AIシステムが本当にWMDレベルの能力を持つならば、研究所間の調整が必要です。
現在のように業界のインセンティブを完全に暴走させることはできません。本当に悪い結果になるでしょう。人々が殺されるでしょう。これらのことが発展し、生物兵器、サイバー攻撃能力などを持つようになれば、それは起こるでしょう。
問題は、これらの動的な、競争の動的なものが現在OpenAIで明らかに起きている方法で展開されるのを防ぐ方法です。
人々との会話から非常に明らかですし、これらのことがどれだけ速く送り出されているか、テスト側についてどれだけのデータが提供されているかについての客観的な報告を見ても非常に明らかです。残念ですが、これが現状です。
次に、もう一つのOpenAIに関するストーリーがあります。これは関連する概念や懸念に関するものです。元OpenAIスタッフが、OpenAIが営利化できないようにする訴訟において、アミカスブリーフを提出したというストーリーです。
アミカスブリーフは基本的に「この進行中の訴訟に情報を追加し、私たちの見解を示したい」というものです。これは2018年から2024年の間に会社にいた多くの従業員からのものです。スティーブン・アドラー、ローズマリー・キャンベル、ニール・チョウ、そして様々な技術的立場にいた他の十数人の人々が含まれます。研究者、研究リード、ポリシーリードなどです。
ブリーフの要点は、元OpenAIは営利化すると元々の憲章に反するので、それは許可されるべきではないということです。また、例えばOpenAIが安全性について妥協し、株主の利益のために人類の利益ではなく強力なAIを開発するインセンティブを持つ可能性があることなどにも言及しています。
基本的な主張は、OpenAIはその移行を行うことが許されるべきではないということです。それはOpenAIの創設憲章と設定されたポリシーに反するでしょう。
彼らが指摘している大きなことの一つは、OpenAIが非営利団体としての地位を利用して利益を得た場合、それを営利企業に転換することによって現金化しようとしていることそのものが問題だということです。ここで指摘されているのは採用です。彼らが非営利団体であったこと、AGIを責任を持って扱うように設計された非常に独特なガバナンス構造を持っていたことが、採用テクニックとして使用されました。
私はOpenAIのそれらのコミットメントのために働きに行った多くの人々を知っています。その多くはその後去りました。これについて言及している引用があります。「採用会話では、OpenAIの独自のガバナンス構造をGoogleやAnthropicなどの競合他社とOpenAIを区別する重要な差別化要因として、また会社に加わることを検討すべき重要な理由として引用することが一般的でした。
同じ理由は、競合他社に移ることを検討している従業員に、私たちを含む一部の人々を含め、OpenAIに留まるよう説得するためにも使用されました」。これはあまり良くありません。一度非営利団体であることを利用し、それを現金化して営利企業に変えるような会社があるならば。
競合他社についてコメントはしませんが、Anthropicは異なるガバナンス構造を持っています。彼らは公益法人ですが、監督委員会があります。xAIはただの公益法人であり、それは実際には制限するよりも多くの自由を与えるだけです。それは良いことのように聞こえますが、複雑です。実際にはあなたの手を縛るものではなく、会社の取締役として利益以外のことを考慮する自由を与えます。
本当にそれはただ自分自身により多くの自由を与えているだけです。OpenAIが「心配しないで、公益法人モデルに移行します」と言うとき、より制約のある何かに切り替えるように聞こえ、何らかの公益によってまだ制約または動機付けられているように思えます。しかし私の理解している法的現実は、それは単により多くの自由を与えるでしょう。
彼らは「私たちはXやYやZをします」と言うことができます。XやYやZが利益に動機付けられていなくても、特定のことをしなければならないという意味ではありません。その周りの追加の法的コンテキストにない限りは。とにかく、私が見たすべてからすると、実際にはかなり厄介な状況です。
この変換が計画通りに進むことができるかどうかは私にはあまり明確ではありません。SoftBankの投資、OpenAIが賭けている数十億ドルすべての影響は非常に興味深くなるでしょう。
これは非常に独特な状況であることは確かに非常に興味深いストーリーです。そして言ったように、OpenAIがこの訴訟でほとんど挑戦を受けないだろうと思っていましたが、彼らにとって実際の問題になる可能性があるようです。
OpenAIに関するもう一つのストーリーがあります。たまたま彼らはこのセクション、このエピソードを支配しています。彼らはAPIを通じて将来のAIモデルにアクセスするための組織のためのID確認システムを発表しています。
これは「検証済み組織」と呼ばれるもので、申請するためにサポートされている国からの政府発行のIDが必要です。彼らのサポートページを見ましたが、実際には検証されるために何が他に必要かが見つかりませんでした。
彼らは「残念ながら、開発者の小さな少数派が意図的にOpenAI APIを使用ポリシーに違反して使用している」と述べています。彼らは開発者に高度なモデルを引き続き利用可能にしながら、AIの安全でない使用を軽減するために検証プロセスを追加しています。他のモデル開発者による誤用や競争的行動を防ぎたいようです。興味深い発展のようです。
実際、OpenAIからの素晴らしい動きのように見えます。これはシリコンバレーでの議論の連続線上にあります。特に2019年頃、YCコミュニティでは、プライバシーと検証可能性のバランスをどう取るか、ボットとの関係でどこに向かっているのかなどを人々が理解しようとしていました。
これはその議論に少し関連しています。個人レベルではなく組織レベルでアプローチするという興味深い戦略です。サポートされている国からの有効な政府発行のIDが必要で、いくつかの暗黙のフィルターがあります。また、各IDは90日ごとに1つの組織を検証することに制限されています。それはすべて直感的に理に適っています。
現時点ですべての企業やエンティティがこれに適格なわけではありません。後でチェックするよう言っています。したがって、OpenAIが段階的リリースを試みるもう一つの軸として興味深いですね。最初にこのサブポピュレーションにモデルをリリースし、彼らがどう使うかを確認してから展開します。これは非常に良いアプローチであり、誤用の問題と人々の手に渡して構築する必要性のバランスを取る実際に優れた方法です。
最後のストーリーです。タイトルは「Meta内部告発者がテック大手が中国でのビジネスを構築するために好意を得るためにAI開発を支援したと主張」です。かなり長いタイトルです。要点は、Metaが中国でビジネスを構築するために好意を得るために中国のAI開発を支援したという主張です。
彼らはかなりの金額を稼いでいるようです。これは元Facebookの幹部であるサラ・ウィン・ウィリアムズからのものです。彼女は2011年から2017年まで高いプロフィールの役割で働いていた時の詳細が含まれた本を出版したばかりです。上院司法委員会への証言で、彼女はMetaがそうしたと述べました。
ジョシュ・ホーリー上院議員がこの調査の多くをリードし、Xで共有していた非常に興味深いクリップがありました。私が聞いていたいくつかのことと一貫しているように見えます。例えば、Metaのオープンソースモデルの使用や、それらが使用されていたアプリケーションを隠そうとしたMetaの試みなど。これらはこの特定のストーリーとは異なりましたが、非常に一貫しています。
ここでの重要な引用の一つは、「Metaでの私の時間中、会社の幹部は中国共産党と何をしていたかについて従業員、株主、議会、そしてアメリカ国民に嘘をついていた」というものです。これが真実かどうかはまだわかりません。再びザッカーバーグが引きずり出されて証言し、詰問されるのを見ることになるでしょうか？これが真実なら、何らかのフォローアップがあることを願っています。これはかなり驚くべきことです。
また、Metaはサラ・ウィン・ウィリアムズ（証言している人物）を黙らせるために「脅迫と威嚇のキャンペーン」を使用したとブルーメンタル上院議員は述べています。彼女はグローバル公共政策のシニアディレクターで、2011年から2017年までの長い在任期間がありました。
これはLlamaの時期よりもずっと前です。そして確かに私がバックステージで聞いた逸話は、私が話した人々が信じるべきならば、その慣行が現在も継続していることを示唆しています。いずれにせよ、これは真実なら非常に驚くべきことです。
Metaはウィン・ウィリアムズの証言は「現実とかけ離れており、虚偽の主張に満ちている」と反論しています。マーク・ザッカーバーグ自身は「中国でのサービス提供への関心について公にしており、詳細は10年以上前から広く報じられていた。事実は、今日我々は中国でサービスを運営していない」と述べています。
これはかろうじて真実ではないでしょうか？中国で使用されているオープンソースモデルを構築していますよね。そして、私が話した人々によれば、かなりの期間、中国企業が構築していたモデル能力のフロンティアを基本的に代表していました。今はもはやそうではありませんが。
確かにMetaは中国の国内AI開発をかなり加速させたと主張できるでしょう。どちらにも行くような微妙な議論ができるかもしれませんが、これは非常に興味深い複雑な空間です。
これはすべて、Metaが潜在的に分割される文脈の中でもあります。反トラスト訴訟が進行中で、FTCは基本的に「InstagramとWhatsAppをMetaから引き離したい」と言っています。それは本当に大きな問題になるでしょう。いずれにせよ、誰が何を言っているのかを知るのは難しいです。本も絡んでいるので、これで金が稼がれています。しかし、これが真実だと判明すれば確かに大きな爆弾になるでしょう。
具体的にAIに関する詳細はあまりありません。引用からわかる限りでは、「賭け金の高いAIレース」への言及がありましたが、それ以上は幹部が共産党と持っていたコミュニケーションについてより一般的なものです。彼らが中国でのサポートを得るために友好的であろうとして、できることをしようとしていたとしても驚くことではないでしょう。
これらの線に沿った他の情報源について言及したことについて、コンテキストとして、私は個人的には何も見ていないので、それを指摘したいと思います。しかし、これが信じられるべきならば、それと一致するでしょう。その注意点を入れておきます。
多くの会社について、明らかにこの分野では多くの質問がありますが、特にMetaは、これが真実なら、正当に多くの精査を受けるべき一社だと思います。
これが最後のストーリーです。最後までLast Week in AIのこのエピソードを聴いていただきありがとうございます。いつものように、どこかにコメントを残していただければ幸いです。SubstackやYouTubeに行ったり、Apple Podcastでレビューを残すことができます。あなたのフィードバックを聞くのは常に嬉しいですし、単に私たちに知らせずに友人と共有することもできます。いずれにせよ、聴いていただきありがとうございます。これからも聴き続けてください。