先週のAI #205 – Gemini 2.5、ChatGPTの画像生成、LLMの回路

27,060 文字

Last Week in AI #205 - Gemini 2.5, ChatGPT Image Gen, LLM Circuits

Our 205th episode with a summary and discussion of last week's big AI news!Recorded on 03/28/2025Hosted by Andrey Kurenk...

こんにちは、Last Week in AIポッドキャストへようこそ。いつものように、AIの最新動向についてお話しします。今回のエピソードでは、先週の最も興味深いAIニュースをいくつか要約し、議論します。
私は通常のホストの一人、アンドレ・オブです。大学院でAIを学び、現在は生成AIのスタートアップで働いています。そして、もう一人のホスト、ジェレミー・ハリスです。Gladstone AIでAIの国家安全保障関連の業務を担当しています。今日は非常に慌ただしい一日で、一週間も大変でした。最初に言っておきますが、Anthropicについての大きなニュースがありますが、まだ詳しく見る時間がありませんでした。
アンドレ、あなたはすでに少し調査されていると思いますので、私の考えは来週に回すかもしれません。ええ、ここ数週間は少し静かな状況でしたが、今週は複数の大きなニュースが出て、本当に驚くべき重要な出来事となりました。Claude 3.7以来、これほど大きな週はなかったと思います。
それでは、今回話題にする内容を簡単に紹介します。ツールとアプリでは、Gemini 2.5が登場し、みんなの期待を超えています。そして、OpenAIからGPT-4oによる画像生成があります。これはGeminiが行ったような画像生成をトランスフォーマーに取り入れ、ディフュージョンを排除し、驚くべき結果を出しています。
次にビジネス応用について、OpenAIが資金調達を行っていることや、ハードウェアプロジェクトとオープンソースに関連するいくつかの話題があります。新しいモデルに挑戦する非常に興味深いベンチマークもあります。研究と投資では、あなたが言ったように、Anthropicが本当に素晴らしい解釈可能性に関する論文を発表しましたが、内容が多いので来週も続けるかもしれません。そして最後にポリシーと安全性について、アメリカ連邦政府の動きや著作権法に関する最新情報があります。
たくさん話題がありますので、通常のエピソードよりも少し速いペースで進めるかもしれません。効率的に進められればいいですね。
それではさっそく始めましょう。ツールとアプリでは、Googleが「最も知的なAIモデル」と呼ぶGemini 2.5が登場しました。これは彼らの思考モデルのシリーズの一つです。以前はGemini 2.0フラッシュ思考という小型で高速なモデルがありましたが、今回のGemini 2.5はより大きなモデルを代表しています。以前のGemini 2.0 Proはベンチマークや実際の使用において、それほど印象的ではありませんでした。
しかし、Gemini 2.0はベンチマークでトップに立ち、かなりの差をつけています。これは長い間見られなかったことです。ほとんどのベンチマークで、パフォーマンスは二番目のモデルを大幅に上回っています。飽和していると思われるベンチマークでさえも。
また、多くの逸話的な報告によると、コーディングやライティング、問題解決などの能力において、Claudeと比較しても別格のモデルとなっています。フィードバックを得たり複数回試したりする必要なく、一発でタスクをこなす能力を持っています。
非常に印象的であり、私にとっては、これまでのモデルを超える驚くべき飛躍です。
確かに、そしてその驚くべき特徴の一つは、まだ完全に優位に立っていない部分があることです。例えば、SW Bench Verifiedというベンチマークでは、Claude 3.7 Sonnetが依然としてトップであり、かなりの差があります。このベンチマークは実世界に近いソフトウェアエンジニアリングタスクを測定するもので、Claude 3.7 Sonnetは6%ほど高いパフォーマンスを示しています。
しかしそれを除けば、Gemini 2.5 Proは他のほとんどのカテゴリーで圧倒的な強さを示しています。多くの人が話題にしている大きなベンチマークの一つは「人類最後の試験」と呼ばれるものです。これはAI安全センターで働くDan Hendricksによって作られた、非常に難しい推論問題を集めたベンチマークです。
以前はOpenAIのO3 miniが14%のスコアでした。今はそれが18.8%に上がっています。そのうち「人類最後の試験」のような最終的な名前のベンチマークには新しい名前が必要になるでしょうね。このペースで進めば、このベンチマークもいずれ飽和することになるでしょう。特に推論時間における推論能力の向上は非常に速いです。
Googleはこれを実験的バージョンの2.5 Proとして発表しています。彼らが伝えているのは、今後はすべてのモデルが推論モデルになるということです。OpenAIのように、もはやベースモデルとしてのリリースはなく、推論が標準になるということです。
このモデルの統計は本当に驚くべきものです。例えば、LM Arenaリーダーボードでトップになっており、これは人間のLLM出力に対する好みを測定するベンチマークです。Gemini 2.5はかなりの差をつけています。主観的にも非常に良いスコアを獲得しています。
また、彼らは特にコーディングに焦点を当てたと言っており、それでも3.7 Sonnetに後れを取っているのは興味深いですね。最後に言及すべき仕様としては、100万トークンのコンテキストウィンドウで出荷されることです。
Googleは大きなコンテキストが彼らの大きな差別化要因の一つだと強調していて、近い将来200万トークンのコンテキストに拡張する予定だとのことです。
これは重要な詳細です。100万トークンは非常に印象的で、200万トークンに進むのはかなり驚くべきことです。100万トークンがどれくらい大きいかというと、それは数百万の単語に相当します。多分70万単語くらいで、200万トークンになると100万単語以上になるでしょう。それはかなりの量のコンテンツです。マニュアル全体や文書セット全体を入れることができます。
そして他のGeminiモデルと同様に、テキスト、音声、画像、ビデオを入力できるマルチモーダルです。音声や画像の処理においても非常に優れていると報告されています。
実験的モデルとしてのロールアウトが始まっており、すでにGoogle AI Studioで有料のGemini Advancedユーザーなら試すことができます。モデルのドロップダウンで選択できるようになっており、すでに多くの人が試して良い結果を報告しています。
次に、同様に興味深く予想外の素晴らしさを持つ話題に移ります。OpenAIがGPT-4oによる画像生成をChatGPTに追加しました。私の理解では、これは先週か2週間前のGoogleのGemini 2に似ています。
従来の方法では、VLMが「このプロンプトをテキストから画像への別のモデルに渡そう」と考え、そのモデルが処理して画像を返すというものでした。しかし今回は、テキストと画像を受け取り、テキストと画像を出力できるマルチモーダルモデルを用いたエンドツーエンドアプローチを採用しています。
ディフュージョンを行わず、完全にトークン言語モデリングを行うこのアプローチに移行した結果、従来のテキストから画像への変換では見られなかった多くの機能が実現しています。非常に印象的な編集機能がすぐに使え、高解像度で大量のテキストを画像内に生成する能力にも優れています。
また、非常に厳密にプロンプトに従い、複雑なテキスト記述を画像内で正確に実現する能力があります。画像モデルの進歩を見分けることが難しくなってきていますが、特にDALL-Eやある程度はRevolverモデルでも、AI生成の明らかなサインとしてAIスタイルがありました。少し滑らかで、特にDALL-Eの場合は特定の方法で漫画的でした。
しかしこのモデルはあらゆる種類の視覚タイプの画像を作成でき、非常にリアルにもなります。これはOpenAIのDALL-Eで見たものとは異なります。Geminiで見たような非常に優れた画像編集や指示を画像に正確に変換する能力を持っていますが、この場合はさらに印象的です。人々が示しているものは非常に印象的です。
鋭い観察者は、先週我々がGrokについて取り上げたことに気づくでしょう。Grokは内部的に画像生成サービスを統合していました。このオムニモーダルなプラットフォームというテーマです。Grokは必ずしもすべてを行える一つのモデルを作るわけではありませんが、その方向に向かっています。これはOpenAIがそのバージョンを行い、すべてを一つのモデルで行おうとしているのです。
もしあなたがテキストから画像や音声などへの変換ビジネスをしているなら、これは大きな戦略的リスクです。ポジティブトランスファーのおかげで、多くのモダリティを扱うモデルはより堅牢で、各モダリティでより優れた能力を持つ傾向があります。
ここでの重要なキーワードは「バインディング」です。これはモデルの出力において、属性とオブジェクト間の複数の関係をどれだけうまく表現できるかというアイデアです。例えば「青い星の隣に赤い三角形、その隣に緑の四角形」と言った場合、青と星、赤と三角形がきちんと結びついていることを確認したいわけです。
このモデルはそれを非常にうまく行います。最大15〜20個のオブジェクトの属性を混乱なく正確に結びつけることができるとのことです。これは干し草の中の針評価のイメージバージョンのようなものです。多くの針が干し草の山にある場合、それらの関係を出力に忠実に表現できるかというテストです。
また、このシステムは自己回帰型であることも分かっています。画像を左から右、上から下へと順次生成しています。これはテキストがモデルで生成されるのと同じ方法です。これはオムニモーダルにするには、データを生成する共通の方法が必要なので偶然ではありません。
OpenAIはAI生成だと示す視覚的な透かしや指標を含めていませんが、画像がOpenAIによって作成されたことを示す標準的なC2PAメタデータを含めるとしています。
また、Grokのような完全に自由なシステムとは異なり、性的な画像や政治家と銃などの生成を防ぐセーフガードも導入されています。もちろん、これらのセーフガードを回避する方法はある程度あるでしょうが、より管理されたモデルであることは確かです。
ソーシャルメディアでこのシステムのさまざまな使用例が見られます。メディアで取り上げられているのは画像のジブリ化で、写真を取り込んでジブリスタイルに変換するよう指示すると、非常に忠実で明らかにジブリのような仕上がりになります。これはアートにおけるAIの意味について議論を引き起こしています。
また、画像編集やデザインができることから、Photoshopにとって何を意味するかという議論もあります。テキストから画像への変換が長い間驚くほどではなかった後、今再び驚くべきものになっていると思います。
続いて、他にもいくつかの画像生成システムについて触れます。同じ時期に発表されたのか分かりませんが、いくつかあります。
まず、Ideogramがバージョン3.0を発表しました。Ideogramはテキスト画像に焦点を当てた主要なビジネスの一つです。初期の売りはテキストをより上手く扱える能力でしたが、現在はもちろんそうではありません。彼らはこの3.0システムがより良いリアルな画像やスタイル化された画像を作成できると言っています。特に、最大3つの参照画像をアップロードして美的出力をガイドする機能と、43億のスタイルプリセットがあります。
これはIdeogramがビジネスとしての性質を反映しており、これが彼らの主要な焦点としての製品であることを示しています。GPT-4oと比較するとそれほど優れてはいませんが、特定の用途ではIdeogramのようなものがしばらくは持ちこたえるかもしれません。
これらの製品の市場規模がChatGPTや大手プレーヤーの成長とともに縮小していくのが聞こえてきそうです。このポッドキャストで長い間話してきた問題の一つです。Ideogramは中期的には厳しいでしょう。彼らは43億のスタイルプリセットがあると言っていますが、もちろん私たちは非常に有能なAIジャーナリストとして、すべてをテストして報告できます。実際には良いものだと言えます。
アンドレ、テキスト入りの画像機能は競争が激しくなったため価値が下がったと言っていますね。その通りです。これがIdeogramが今、フォトリアリズムやプロのツールを強調せざるを得なくなっている理由です。彼らのニッチを作ろうとしていますが、大手企業のスケールメリットによって領域は狭まっていくでしょう。
一つ言えることは、特定のニッチ、例えばポスターなどのビジネスユースケースに特化したモデルやビジネスとして、特定の訓練データを持っていれば、まだ特定の分野で優れている可能性はあります。しかしOpenAIの訓練データに対する購買力は彼らを大きく上回るでしょう。また、プラットフォームのユーザーからの独自データも活用できるかもしれません。
次の話題も、GPT-4oの前には素晴らしかった新しい画像生成器についてです。「新しいWe Image Generatorが、Mid-journeyやFluxといったAIアート重鎮を画像あたり数セントで打ち負かす」という見出しがありました。
Half Moonというコードネームのモデルがすでに皆を感動させていましたが、今はWeave Image 1.0として登場しました。100個の無料クレジットが提供され、その後は500生成あたり5ドルでクレジットを購入できます。
これもGPT-4o以前は本当に印象的で、プロンプトへの忠実さや複雑なシーンの構築、他の画像生成器よりもさまざまな微妙で難しいタスクをより良く処理する能力がありました。確かに、最高の画像生成における新しい一歩のように見えました。
しかし、GPT-4oや公平に言えばGemini 2も、これらよりもさらに素晴らしいです。
基本的に前のIdeogramへのコメントをコピーペーストできますね。この分野は本当に厳しくなっています。完全に商品化されつつあります。
もう一つの違いは、コストかもしれません。自己回帰モデルを使うと、LLMを使っているのでコストと速度の問題があります。ディフュージョンモデルを使い続けていれば、より安くより速い可能性があります。
しかしOpenAIは大きなバッチサイズで推論を償却できます。経済的に合理的であれば、OpenAIは単に小さなモデルに蒸留するか、この目的に特化したモデルを持つでしょう。長期的には、バッチサイズ対バッチサイズ、計算フリート対計算フリートとなり、豊かなものがより豊かになるというのが私の考えです。
次に、画像生成から離れますが、マルチモダリティに留まりましょう。AlibabaがQwen 2.5 Omniをリリースしており、音声とビデオモデルをQwenに追加しています。
彼らはQwen 2.5 Omni 7Bをオープンソース化しています。これはテキスト、画像、音声、ビデオを扱うマルチモーダルモデルで、Apache 2.0ライセンスの下にあります。マルチモーダルモデル空間では、純粋なLLMほど強力なモデルが多くないという点で重要です。Gemmaのようなものでマルチモーダルモデルが増えてきましたが、これはテキスト、画像、音声、ビデオを持っています。
Apache 2.0の下でリリースされるこのマルチモダリティを持つモデルとしては、忘れていなければ、かなり重要なモデルかもしれません。
そして、オープンソースモデルとしてスケールの恩恵やポジティブトランスファーが見え始めていますね。中国からのモデルが正当であることも興味深いです。ベンチマークではOmni BenchでGemini Proと好意的に比較されています。Gemini 1.5 Proと比べて、今日では2段階先に進んでいますが、それでも6ヶ月前のものをオープンソースで十分に上回っています。
次に、中国からのもう一つの印象的なモデル、TencentのT1があります。これは彼らの思考モデルで、Gemini 2.0のようなものです。Tencent Cloudで利用可能で、価格も競争力があります。リーダーボードでトップに立ち、R1やO1を打ち負かしています。
西側メディアではあまり取り上げられていませんでしたが、中国市場での主要プレーヤーであるTencentにとっては大きな出来事かもしれません。
興味深いことに、これはハイブリッドMambaアーキテクチャを採用しています。恐らくトランスフォーマーとMambaの組み合わせで、それぞれの欠点をカバーする方法として見られています。彼らはこれを「ハイブリッドMambaアーキテクチャの最初の無損失アプリケーション」と呼んでいます。この文脈で「無損失」が何を意味するのかは不明です。
アプリケーションとビジネスに移りましょう。まずはOpenAIが400億ドルの調達を最終段階に入っているというニュースです。これはSoftBankが主導し、Founders Fundやchu managementなど様々な投資家が参加しています。SoftBankが初期投資として75億ドル、他のソースから25億ドルを投資する予定です。これはこれまでで最大の資金調達ラウンドとなります。
400億ドルはほとんどの企業の時価総額よりも大きいです。面白いことに、日本の株式市場でSoftBankの株価が下落しました。人々は「SoftBank、OpenAIにそんなに多くのお金を与えるのは良いアイデアなの？」と考えているのでしょう。
SoftBankが過去に巨額の資本配分の失敗をしたことがあるのかどうかは覚えていません。彼らの過去数年間のパフォーマンスについて記憶に残る話があるはずですが、私の脳は疲れています。SoftBankが実際にうまくいっているのか、それとも完全に困っているのか、どちらかだと思います。
投資家にはMagnetar Capitalが含まれています。私はこの名前を聞いたことがありませんでした。リストの中で私が聞いたことがあるのはFounders Fundだけです。彼らは本当に素晴らしい投資実績を持っています。SpaceX、Palantir、Stripe、Endur、Facebook、Airbnb、Ripplingなど、Founders Fundは本当に神級です。
Magnetar Capitalは190億ドルの資産を運用しており、このラウンドだけで最大10億ドルを投資するようです。すごいですね。
これで時価総額は3000億ドルになり、去年10月の1570億ドルから実質的に倍増しています。10月以来、あなたの純資産は倍増していませんか？何をしているのですか？OpenAIはそれだけ凄いです。
資金がどのように配分されるかについては様々な仕組みがあります。SoftBankは初期投資として75億ドルをOpenAIに投入しますが、投資家のシンジケートから75億ドルを調達する必要もあります。彼らはまだ必要な全額を自己資金で持っているわけではないようです。
これはイーロン・マスクがStargateビルドの文脈で話していたことの一部だと思います。「SoftBankを見ていて、彼らは5000億ドルや1000億ドルの投資をサポートするバランスシートを持っていない」と言っていましたが、これはある意味で真実であり、今年後半に300億ドルの第二弾が来る予定の理由の一部です。これにはSoftBankからの220億ドルともっと多くのシンジケートからの資金が含まれます。
これが実現すれば、史上最大の資金調達となります。
次に、OpenAIのリーダーシップ構造の変更についてのもう一つの話題です。サム・アルトマンは降板するわけではありませんが、横に移動し、会社の技術的方向性や研究・製品への取り組みにより焦点を当てるようです。
彼はCEOであり、CEOとしては基本的にすべてを監督しなければならず、多くのビジネス面を見ていましたが、これは焦点の変更となります。COOのブラッド・ライトキャップが追加の責任を負い、日常業務の監督やパートナーシップ、国際展開などを管理します。
他にもいくつかの変更があります。研究のSVPだったマーク・チェンが最高研究責任者になります。また新しい最高人事責任者も就任します。C級幹部のかなり大きな再編成です。ここ数ヶ月、多くの人が離れる傾向があることに続くものです。
これをどう解釈すればいいのか分かりませんが、再構築を必要とするOpenAIの問題のサインかもしれません。あるいは他のことかもしれません。いずれにせよ注目に値します。
通常の理論がトップにあり、下の方に深い陰謀論があるような氷山のミーム図がありますね。この話には複数のバージョンがあり、あるOpenAI関係者から暗い理由が推測されています。
ブレット・ライトキャップはCEOであり、今も変わらずCEOですが、彼の任務が拡大されるようです。これは注目に値します。サム・アルトマンは伝説的に優れた資金調達者であり、企業パートナーシップの開発者でもあります。彼がMicrosoftやAppleとの仕事で示したように、普段は互いに対立しているMicrosoftとAppleの両方と深いパートナーシップを持つ企業はほとんどありません。
また、イーロン・マスクの鼻先でトランプ政権と友好的になったことも伝説的です。
これに対する一つの見方は、ミラ・ムラティの後任がまだいないことです。サムは彼女の代わりに入って、創業者モードに戻り、もっと技術的な側面に近づきたいと言っています。それが大きな部分であることは間違いないでしょう。
もう一つの見方としては、スーパーインテリジェンスに近づくにつれ、コマンドラインにいる人、コンソールにいる人、最初にモデルにプロンプトを与える人に力が集まるということです。より技術的になりたい、グレッグ・ブロックマンのようなタイプになりたいというのは、もし力を求めるなら理にかなっているかもしれません。
再編成で昇進する人の一人であるマーク・チェンは、デモビデオでおなじみかもしれません。サムの右腕としてデモを行う人物としてよく登場しています。
次は、先週多く取り上げたNvidiaのRe GPUの発表に関連する話です。これは2027年に出荷予定の60万ワットのKYBERラックとインフラについての話です。
コンテキストとして、GPUは例えば現在のBlackwellのB 200がGPUですが、データセンターに設置する際には、CPUや他のサポートインフラを持つボードに載せられ、それをシステムと呼びます。
複数のGPUとCPUを持つトレイがサーバーラックに挿入され、それら全体をシステムと呼びます。576個のGPUを持つシステムがNVL 576 KYBERラックです。
これは巨大で、ラックあたり600キロワットのパワー密度を持ちます。これは600世帯分の電力消費が1つのデータセンターラックに収まるということです。冷却要件も凄まじいものです。現在のB 200シリーズではラックあたり約120キロワットですので、パワー密度が5倍になります。
ジェンセンは明確な数字を提供していませんが、我々はラックあたり1メガワットの世界に向かっていると言っています。つまりラックあたり1000世帯分の電力です。このKYBERシステムは、今後事態がどれだけ狂気的になるかを示しています。
もう一つのハードウェアに関する話題があります。今度は中国からです。中国の賽希智能(Si Carrier)がASMLに挑戦する可能性のある企業として登場しています。
何度も取り上げてきたように、ASMLは先進的なチップ製造の能力において重要な役割を果たしています。彼らは最も先進的な技術を提供する唯一の企業であり、最先端の微細なノードサイズで製造するためのツールを提供しています。
誰も彼らに匹敵することができません。もし実際に中国国内の企業がこれらのツールを提供できるようになるなら、これは非常に重要なことです。
中国で起きていることは興味深いです。米国では別々の企業であるものを、一つの企業に統合・集中させようとしているのを何度も見ています。HuaweiとSMICが一つの複合体を形成しているようなものです。これはNvidiaとTSMCをくっつけたようなもので、チップ設計とチップファブリケーションを一緒にしているのです。
ここでも、Si Carrierが半導体製造の前工程のさまざまな部分を統合しています。半導体を製造する際、前工程はシリコンウェハー上に実際に回路が作られる最初の最も複雑な段階です。そのためにはウェハーの準備、フォトリソグラフィーマシンによる紫外線照射、エッチング、イオンドーピング、堆積など多くの工程があります。
彼らは今、その全体をカバーする一連の製品を発表しました。これによりASMLだけでなく、Applied Materials、Lam Researchなどのサプライチェーンの他の部分を所有する企業とも競合することになります。
リソグラフィーの面では、Si Carrierは28ナノメートルのチップを生産できるリソグラフィーマシンを構築したと主張しています。TSMCほど先進的ではありませんが、これが本当なら中国をASMLへの答えに一歩近づけます。
もし本当で、経済的な歩留まりがあるなら、ASMLへの答えに一歩近づくことになりますが、まだ遠い道のりがあります。28ナノメートルのリソグラフィーマシンから7ナノメートルのDUV、さらにはEUVへのジャンプは非常に大きいです。ハードウェアのエピソードでこれについて詳しく説明しましたが、中国がリソグラフィーの面でASMLへの答えを持つという話の中で最も近いものです。中国のサプライチェーンでは、さらに多くの統合が行われています。
最後の話題も中国に関するものです。Pony AIが中国のシリコンバレーでの完全な無人タクシー運行許可を初めて獲得しました。彼らは深圳の一部の地区で車を運行できるようになります。
これは非常に重要です。米国を拠点とするTeslaやWaymoは、中国で無人タクシーサービスを提供できないと思われるからです。それは非常に大きな市場であり、Pony AIはこの分野のリーダーの一つです。
中国は無視すべきではないAIの正当な進歩を遂げています。このような評価の難しさの一つは、このような取り組みに非常に友好的な規制環境があることです。中国はこのような見出しを作りたいと考えており、また事故に関連する死亡事例を隠す歴史もあります。
したがって、西側で起きていることと比較するのは常に難しいです。しかし彼らは大きなデータ優位性、データ統合の優位性、ハードウェア製造の優位性を持っています。これが本物だとしても驚くことではありません。
完全な無人運転で誰が先になるかの興味深い競争ですね。Pony AIは2016年に設立されましたが、実はシリコンバレーで設立されています。彼らはしばらくの間、先頭集団にいて、この実現に近づいていることは理にかなっています。
プロジェクトとオープンソースに移りましょう。まず、ARC Prize Foundationからの新しい挑戦的なAGIベンチマークがあります。以前ARCについて簡単に触れましたが、これらのベンチマークは幅広い抽象的な推論とパターンマッチングの能力をテストします。
特に、人間が大きな努力なしで得意とするようなやり方でテストします。400人がこのARC AGI 2テストを受け、平均して60%の正解率を達成しました。これはAIモデルよりも優れています。
GPT-4.5、Claude 3.7、Gemini 2などの非推論モデルはそれぞれ約1%のスコアで、推論モデルは1%から1.3%の間のスコアを獲得しています。これはチャレンジの一部で、インターネット接続なしに、単一のGPUでローカルに運用してテストに勝つという条件があります。
以前、O3がARK AGI 1で人間のパフォーマンスに匹敵することがありました。高い計算コストでしたが、同じレベルではないものの、ある程度ベンチマークを打ち破りました。
今回のテストでは、タスクごとに200ドルの計算を使用しても4%しか達成していません。明らかに難しく、ARK AGI 1を打ち破ったモデルの教訓を取り入れており、注目すべき重要なものです。
彼らが導入している新しい指標は効率性です。モデルが単に力づくで解決策を見つけることを望んでいないのです。これは「スケールだけで十分か」という根本的な問題に関わります。
スケーリングマキシマリストは「効率性に何の意味があるのか、計算のコストは時間とともに崩壊している」と言うでしょう。アルゴリズムの効率性自体も、概念的には同じアルゴリズムを実行していても、より効率的な方法を見つけることです。
例えば、AttentionからFlash Attentionへの移行や、KVキャッシュレベルの最適化などは、トランスフォーマーの実行を高速化し、推論をより安価にします。しかし彼らが話しているのはそれではなく、モデルが問題にいくつのアプローチを必要とするかということです。
これが意味のあることかどうかという興味深い根本的な問題があります。アルゴリズムの効率性の向上が車輪を再発明することなく得られ、ハードウェアもますます安くなっているからです。
今年特定のハードウェアでベンチマークを解決できるなら、6ヶ月後にはハードウェアの10分の1、コストの10分の1でできるでしょう。これは興味深い議論です。このベンチマークを設計した人は明らかに一方の側にいて、解決策の「エレガンス」も重要だと言っています。
パフォーマンスの進化の感覚を与えるために、OpenAIのO3モデル、特に計算費用が少ないO3 Lowは、ARK AGI 1でほぼ飽和点に達した最初のモデルで、テストで約76%を達成しました。これがみんなの話題となり、新しいAGIベンチマークが必要だという認識につながりました。
そのモデルはARK AGI 2では、タスクごとに200ドルの計算力を使用して4%しか達成していません。曲線が再び抑えられていることがわかります。しかし過去のパフォーマンスを見る限り、これらはかなり速く飽和し、また同じ会話を繰り返すことになるでしょう。
次の話題も挑戦的なベンチマークに関するものです。これは「推論の境界に挑戦する：オリンピアドレベルの数学ベンチマークと大規模言語モデル」という論文です。
彼らはOlim Mathと呼ぶ新しい数学ベンチマークを作成しました。これには「簡単」と「難しい」の2つの難易度レベルを持つ200の問題があります。簡単なものは既存のAMCベンチマークに似ており、難しいものは人間でも解くのが非常に難しい高度な数学問題です。
これらの問題は教科書や印刷物から集められ、データの汚染を避けるためにオンラインのリポジトリやフォーラムは除外されています。彼らの実験では、先進的な推論モデルであるDeepSeek R1とO3 miniは、データセットの難しいサブセットでそれぞれ21.2%と30%の精度しか達成していません。
まだ解決すべき課題がありますね。数ヶ月後には90%の精度に到達する話をしているでしょう。次バージョンのOlim Mathが登場するでしょうね。
彼らはいくつかの興味深い観察結果を出しています。モデルは一貫して中国語版より英語版の問題の方が得意ということです。また、モデルがスレッドの終わりに来て何かを投げ出す「推測戦略」もまだ見られます。これはおそらくスコアを少し上げている偽陽性を増やしています。
実際の世界に出て行ってこのようなものを収集する戦略は興味深いですね。雑誌などに載っている問題をデータセットからスクラブし、それらがインターネット上のどこにも存在しないことを確信できるかどうか疑問です。
データクリーニング戦略はありますが、常に完璧ではなく、データを非常によく浄化してオンラインに残さないと思っていた場合でも、実はモデルが既に訓練されていたという例がいくつかあります。このベンチマークの飽和は、少なくとも最初はオーバーフィッティングによるものかもしれません。
またどれがトレーニングデータセットに含まれているか知る方法がないことも難しいです。OpenAIやAnthropicのデータセットは公開されていません。彼らが教科書を購入してスキャンし、トレーニングデータに含めている可能性は100%あります。誰にもわかりません。
もう一つの話題は中国からのものです。Alibabaから大規模ビデオ生成モデル「One Open」が発表されました。これは最大サイズで140億パラメータの大きなモデルです。また、より効率的な13億パラメータモデルも提供し、多くのデータでトレーニングされ、オープンソース化されています。
テキストからビデオへの変換においてオープンソースで利用可能なものの中で、効率性、速度、外観の点でかなり優れています。競合するのは最近取り上げたWho On Videoくらいで、Open SOAなどはかなり見劣りします。
オープンソースはテキストから画像への変換のように、テキストからビデオへの変換も良いレベルに着実に到達しつつあります。
画像のいくつかはかなりフォトリアリスティックですね。興味深いことに、論文の4ページ目に、スカーレット・ヨハンソンによく似た写真があります。もし意図的なものなら、OpenAIに対する軽いあてつけかもしれません。
中国、特にオープンソースでは本気です。これはAlibabaですが、大規模なトレーニング予算にアクセスできるとはいえ、中国のトップラボでさえありません。トップを見るならHuaweiやDeepSeekです。しかし非常に印象的です。
多くのオープンソース化が見られるのは興味深いですね。米国ではMetaがまだ多くをオープンソース化している会社かもしれません。Googleは小さなモデルで少しやっています。基本的に、GemmaやPhiなどの小さなモデルしかリリースされていません。
しかし中国からはより印象的なモデルが出ています。オープンソースであるため、R1を使っている人も多いです。
次はDeepSeek V3についてです。3月24日に新しいバージョンがリリースされました。またつまらない命名規則で、モデルはDeepSeek V3-03-24と呼ばれています。
段階的な更新ですが、重要な更新です。これは現在、Gemini 2 ProやMeta Llama 3.3 70Bを超えて、いくつかのベンチマークで最高のスコアを出している非推論モデルです。
推論モデルではないにもかかわらず、ほとんどのモデルを上回っています。R1はDeepSeek V3を基にしています。V3はベースモデルであり、当時非常に印象的なモデルで、安価に訓練されたことが大きなニュースでした。
おそらくこのグループはR1の合成データ生成などのおかげで、V3をかなり改善できたのでしょう。彼らは性能を最大限に引き出す方法についても多くを学んでいます。
これには多くの注意点がありますが、DeepSeekが本物だという率直な認識から始めるべきです。これは本当に印象的です。しかし、いくつかの「しかし」を追加します。
何度か言及したように、Gemini 2.5はもはや単純なベースモデルではありません。すべてのラボはデフォルトでベースモデルをリリースしなくなっています。DeepSeek V3の3月25日バージョンは、独自のものを含むすべてのベースモデルよりも優れていますが、ラボはベースモデルへの興味を失っています。
これは重要な注意点です。DeepSeekがベースモデルに全速力で取り組み、ラボもベースモデルに全速力で取り組んでいるわけではありません。最新のベースモデルのリリースはまだ比較的最近のものです。GPT-4.5もOpenAIはしばらく手元に持っています。
これがDeepSeekがフロンティアからどれだけ遅れているかを示すのかどうか知るのは非常に難しいです。この会話は続くでしょうし、本当の答えは特定の能力をどれだけ長く持っていたかを知っているラボだけが知っています。
DeepSeekが現在国家の支援を受けていることを考えると、広報目的でこのベンチマークに投資することを選んだ可能性もあります。このモデルの印象深さを否定するものではありませんが、コンテキストウィンドウが128,000トークンであるなど、仕様はほぼ同じです。
中国やDeepSeekの位置づけを評価する際に、これをそのまま受け取らないための重要な注意点があります。
DeepSeek V3はかなり安く使えるので重要だと思います。WxAIのような提供者でも使えます。もし本当にOpenAIやClaudeのモデルを超えているなら、特にスタートアップや一般の顧客にとって、OpenAIやAnthropicの収益に大きな影響を与える可能性があります。
ベースモデルを使用している人々にとっては重要ですね。オープンソースでベースモデルを提供する方が興味深いのは、他の人が自分のRLや事後トレーニングスキームを適用できるからです。おそらく将来的には、ベースモデルのフロンティア全体がオープンソースによって支配される可能性があります。
でも問題は、人々がベースモデルにより多くのお金を使っているかどうかです。そうは思いません。彼らは支配し始めているE-genicモデルにより多くのお金を使っていると思います。
もう一つの話題はOpenAIに関するものですが、モデルに関するものではありません。サム・アルトマンがTwitterで、先週議論したModel Context Protocolをサポートすると発表しました。
これはAPIを使用する際にモデルをプロトコルとして使用する方法を定義するオープンソース標準です。これはAnthropicからのものですが、競合する標準を導入するのではなく、コミュニティが興奮している既存のオープン標準を採用することになります。
新しい標準があり、皆がそれに飛びついているのを見るのは良いことです。標準が実際に皆に使われるものになれば、ツールの構築がずっと簡単になり、エコシステム全体が恩恵を受けます。変な競合する方法がなくなります。
この標準には既にかなりの勢いがあったので、OpenAIがその方向に動くのは理にかなっていました。
研究と進歩に移りましょう。今週の大きな話題は昨日出たばかりのAnthropicからのものです。まだ消化中なので詳細には触れられませんが、少なくとも概要と意味、結果について話しましょう。
MIT Technology Reviewから良い要約記事があります。「Anthropicが大規模言語モデルの奇妙な内部動作を追跡できるようになった」というタイトルです。これはAnthropicからの2つのブログ記事についてです。一つは「回路のトレース：言語モデルにおける計算グラフの公開」、もう一つは「大規模言語モデルの生物学」で、最初のブログ記事のアプローチをClaude 3.5 Haikuに適用した結果です。
ここには多くのことがあるので、要約してみます。以前もAnthropicが解釈可能性に焦点を当て、モデルの内部動作を使いやすく直感的な方法で公開する研究を見てきました。
例えば、モデルには「ゴールデンゲートブリッジ」のような高レベルの特徴があり、これらの特徴のアクティベーションを調整してモデルに影響を与えることができることを示しました。これは次のステップに進み、高レベルの特徴が協力して動作し、初期入力トークンのセットから出力を形成する様子を見ることができます。
これは以前のアプローチの続きで、MLPの層をこれらの高レベル特徴で置き換えるというアイデアを取り入れています。「クロスレイヤートランスコーダー」と呼ばれる新しい技術があります。
以前は一度に一つの層に焦点を当て、一つの層のアクティベーションを見ていました。今は複数の層でアクティベーションを見て、クロスレイヤートランスコーダーのアイデアを通じて特徴間のフローを見ています。
クロスレイヤートランスコーダーから始め、「置換モデル」と呼ばれるものを作成し、特定のプロンプトには「ローカル置換モデル」もあります。このアイデアは、置換モデルが元のモデルと同じ重みや計算ユニットを持たないにもかかわらず、全体的な動作が同じで、モデルにできるだけ近く一致するようにすることです。
そうすることで、モデルのアクティベーションを特徴の観点から見て、それを元のモデルに忠実にマッピングすることができます。
ブログ記事の図5では、「National Digital Analytics Group」という入力があり、これらの各トークンがこのグラフのトークンのシーケンスにどのようにつながるかを示しています。「digital analytics group」で始まり、これらの特定の単語に対応するトークンにマッピングされます。
括弧の後には「/continue an acronym」という特徴があります。計算グラフの第二層では、「say DAG one_」、「say something A」、「say something G」という3つの特徴があります。また「say DA」という特徴があり、これが「say G」と組み合わさって「say DAG」になります。「DAG」は「digital analytics group」の頭字語です。
彼らは数学の内訳も非常に興味深く示しています。「36 + 59」という例があり、ここではいくつかの奇妙な特徴が使われています。「36」はだいたい「30」、「36」および「6で終わるなにか」にマッピングされ、「59」は「5で始まるなにか」、だいたい「59」、「59」および「9で終わるなにか」にマッピングされます。
その後、「40 + 50ish」や「36 + 60ish」などの特徴があり、最終的にはさまざまな特徴の組み合わせを通じて、「36 + 59 = 95」という出力になります。
これはLLMの内部動作について、高レベルの特徴の組み合わせと内部的に行っている回路の観点から、より深い洞察を与えてくれます。これは昨年のYale UniversityとColumbia Universityによる「Transcoders Find Interpretable LLM Feature Circuits」という論文を基にしていますが、もちろんスケールアップされています。
以前のAnthropicの研究と同様に、解釈可能性に関する最も影響力のある研究の一つであり、大規模言語モデルの内部で何が起きているかをより深いレベルで本当に示していると思います。
そして、この研究はゲイリー・マーカスのような人々の「確率的オウム」論を決定的に否定するものです。彼らはLLMや自己回帰モデルはそれほど印象的ではなく、単に次のトークンを予測しているだけだと主張してきました。
解釈可能性の分野を過去2〜3年追ってきた人なら、これが明らかに真実ではないことを知っています。彼らが示した例の一つは、モデルが異なる言語に対して完全に独立した推論スレッドを使用しているかどうかという疑問です。
例えば、英語とフランス語で「smallの反対は何か」と尋ねた場合、モデルは言語に中立なコンポーネントを使用するのか、それとも英語の「小ささ」という概念とフランス語の「小ささ」という概念を別々に持つのかという疑問です。
結果は前者で、モデルは「小ささ」と「反対」に関連する言語に中立なコンポーネントを使用して答えを導き出し、概念レベルで潜在空間で推論した後に初めて特定の言語にデコードします。
モデルには言語から切り離された統一された推論空間があり、これは物事を圧縮するより効率的な方法なので予想できることです。異なる言語はある種の正則化として機能し、モデルに言語に依存しない方法で推論することを強いています。
また、「36 + 59」の例を挙げました。モデルは奇妙な推論を行い、最初の桁、次の桁とテイラー近似のようなものを行いますが、実際に記号的な方法ではありません。しかし「どうやってその答えを出したのか」と尋ねると、「1の位を足して、1を繰り上げて、10の位を足した」という常識的な説明をします。これは実際に従ったと思われる推論とは明示的に異なります。
これはDeepSeekやOpenAIが超知的AIを整列させる主な希望として宣伝している「推論トレース」をどれだけ信頼できるかについて深い疑問を投げかけます。これらの推論トレースはすでにモデル内で実際に起きている推論から切り離されているようです。
マルチリンガル回路の話だけでなく、「大規模言語モデルの生物学」についての2番目のブログ記事では、Claude 3.5 Haikuにこれを適用した多くの結果があります。多言語回路、加算、医学的診断、ジェイルブレイクの仕組みなどを示し、拒否がどのように機能するかも示しています。
LLMをどのように構築するかについて実際に使える深い洞察を提供しています。ここには多くのことがあるので、おそらく来週パート2をやるでしょう。
次の話題は「Chain of Tools: 凍結された言語モデルの思考の連鎖推論における大規模な未見のツールの利用」です。これはLLMの新しい微調整ベースのツール学習方法で、思考の連鎖推論中に未見のツールを効率的に使用できるようにするものです。
また、ツール選択性能を評価するための1,836のツールを持つ「Simple Tool Questions」という新しいデータセットもあります。ツールとは、APIを呼び出すことでLLMが「この事実を調べる必要がある」「この足し算をする必要がある」などと言い、計算機やGoogleなどを使用することです。
これは推論モデルのパフォーマンスに追加されるものとして重要です。
これは本当に興味深い論文です。モデルでツールを使用するときにトレードオフする多頭のヒドラのような問題があります。例えば、モデルをツールを使うように微調整すると、ベースモデルを使えなくなります。
微調整すればするほど忘れてしまうという「破滅的忘却」の問題があるため、1000以上のツールを使う方法をモデルに同時に知らせることは難しいです。また、微調整すると特定のツールセットに特化してしまうため、未見のツールをモデルに使わせることができなくなります。
文脈内学習にも同様の課題があります。あまりにも多くのツールから選ぶと「干し草の中の針」問題が発生し、モデルは失敗し始めます。
彼らはどうしているのでしょうか？まず凍結されたLLMから始めます。これは重要な要素で、既存のモデルを修正せずに使えるようにしたいのです。彼らはそのベースLLMをより良く機能させるためのモデルをトレーニングしますが、元のLLMのパラメータをトレーニングすることはありません。
「ツール判定者」から始めます。これは、ベースLLMにプロンプトを与えると、入力の活性化や隠れ状態表現を見て、「この特定のトークンでは、ツールが呼び出されるべきか？次のトークンは計算機や天気アプリなどの呼び出しになるか？」と判断するモデルです。このツール判定者は、活性化レベル、つまり隠れ状態レベルで動作し、「ここにいくつかのプロンプトがあり、ツール呼び出しが発生している場所はここです」などの明示的な注釈を持つデータセットでトレーニングされます。しかし、そのデータは収集するのに非常にコストがかかるため、同じ内容を示す合成データも使用します。
これを使用して、ツール判定者に活性化空間で何がツール呼び出しに相当するかを学ばせています。基本的には二値分類器をトレーニングしているのです。推論時に、判定者が特定のトークンに対してツール呼び出し確率が一定のしきい値を超えると判断した場合、システムはツールを呼び出します。
そのとき、「ツールリトリーバー」と呼ばれる別のモデルを通じて行います。このツールリトリーバー自体はシステムで、クエリエンコーダーとツールエンコーダーという2つの異なるモデルを使用します。これは基本的にRAG（検索拡張生成）です。
異なるツールを1000や2000表現し、クエリを埋め込む方法があります。これはツール判定者がツール呼び出しだと判断したトークンに関連する活性化の修正バージョンです。ここからRAGを使用し、ツールを呼び出します。
このアプローチにはいくつかの利点があります。LLMが凍結されているため微調整する必要がなく、破滅的忘却の問題もありません。彼らは隠れ状態だけを使用しているのでかなりシンプルです。
ツールリトリーバー、つまりどのツールを呼び出すかを決定するシステムは、対照学習を使用してトレーニングされています。トレーニングミニバッチごとに、データセット内のすべての他のツールと一つのツールを比較するのではなく、そのバッチ内で呼び出されまたは参照されているすべてのツールとバッチ単位で比較するだけで、より扱いやすく計算効率が良くなります。
これは重要で興味深い論文です。なぜならAGIの未来には基本的に無制限のツール使用が含まれる必要があり、新しいツールの使い方を学ぶ能力も必要だからです。これはそれを組み込む一つの方法かもしれません。
次の論文も解釈可能性に関するものです。「内から外へ：LLMの隠された事実的知識」というタイトルです。これも非常に興味深いものです。
簡単に要約すると、LLMが産出しない内部にエンコードされた知識を探っています。モデルは事実を知っているかもしれないが、その事実を知っていることを教えてくれないかもしれません。
彼らの方法は、質問に対する正しい回答を不正解よりも高くランク付けするかどうかで知識を定義しています。つまり、正しい続きだと思うものに基づいて、どの事実が事実であるかを知っているのです。
外部知識と内部知識の比較は、外部的には最終トークン確率を使用し、内部的にはその順位付けを得るために内部活性化のみを使用しています。
興味深い結果として、LLMは外部的に表現するよりも40%多くの事実的知識を内部的にエンコードしています。実際、LLMが質問の答えを完璧に知っていても、1000回試しても生成できないケースがあります。
これはサンプリングプロセスによるものかもしれません。より深く掘り下げる必要があるかもしれませんが、サンプリングに失敗する理由はさまざまです。あまりにもニッチで事前確率が上書きされている可能性や、サンプリング技術の問題かもしれません。いずれにせよ、LLMの内部についてのもう一つの興味深い発見です。
これは「プロンプトは能力の存在を明らかにすることはできるが、能力の不在を明らかにすることはできない」という有名な格言に最も近いものです。能力を持っていることは示せても、能力を持っていないことは示せないのです。
モデルが提供できるとわかっている答えを1000回試しても得られない場合、それは単に正しいプロンプトを見つけていないだけです。一般的には、すべてのプロンプトに対して正しいプロンプトを見つけることはできないので、言語モデルの能力を常に過小評価することになります。出力空間やトークン空間だけを見ている場合は特にそうです。
これは、OpenAIが推進している推論トレースを見るだけの安全戦略がかなり怪しく、根本的に壊れているように見える理由です。表現空間の解釈技術が必要です。それでも活性化自体のレベルでの興味深いステガノグラフィーの問題があります。
最後の論文は、新しいベンチマークについてです。これはSana AIからのもので、Sudoku（数独）に基づいたSudoku Benchと呼ばれるベンチマークです。
このベンチマークは古典的な数独だけでなく、グリッドに数字を入れる方法に関して、徐々に複雑なルールセットを持つ数独のバリエーションもたくさん含んでいます。
数独とは、グリッドがあり、いくつかのルールがあり、それらのルールに従ってどの数字がどこに入るかを解くパズルです。彼らはこのベンチマークを導入し、複雑さの進行があるため、トップラインの推論モデルでも簡単なものは解けても、より複雑な側面を解くことはできないことがわかります。モデルがこのベンチマークを打ち破るためにはまだかなりの距離があります。
私の理解では、数独がどのように機能するのかわからなかったという点が印象的でした。私が高校生の頃、数独が好きな友人がいましたが、それは9×9のグリッドで1から9までの数字を一度だけ使ってグリッドの各コンポーネントに入れるというものでした。しかし今では数独にはさまざまなバージョンがあるようです。
チェスや囲碁は常に同じルールですが、数独はさまざまです。例として、「ネズミがテレポーターの迷路を通る経路を推測する必要がある」バージョンがあります。ネズミが位置Xに行くと、魔法のように相関関係のない可能性のあるY位置にテレポートされるというものです。
別のバージョンでは、車などの障害物を正しい位置に移動させる必要があります。彼らは本当に単純な4×4の数独から、より多くの制約やサブルールを追加して、スペクトルを設計しています。
これはセトリックゲームをプレイし、手続き的にこれらの異なるゲームを生成する非常に実りのある方法のようです。最終的に彼らはこれらのモデルのパフォーマンスに関するデータセットを共有しています。これは別のARC AGIのようなベンチマークと考えることができます。
基本的に、すべてのモデルが苦戦しています。最も苦戦が少ないのは、1月31日からのO3 miniで、完全なスケールバージョンの問題で1.5%の正解率です。彼らは簡略化された問題もあり、その方向での進歩を追跡することができます。
これは本当に興味深く、YouTubeチャンネル「Cracking the Cryptic」と協力して、評価データを集めています。Sana AIは以前に取り上げた「AIサイエンティスト」論文を作成した会社で、これはAGIベンチマークと呼びたくなるようなものです。
政策と安全性に移りましょう。まず、スコット・ウィーナー上院議員がAIの内部告発者を保護し、責任あるAI開発を促進するためのSB 53法案を導入しています。
これには、AIリスクについて公衆に警告する内部告発者を保護する規定が含まれています。また、低コストのコンピューティングでAIスタートアップや研究者をサポートするために、Cal Computeと呼ばれる研究クラスターを設立することも提案しています。これは特にカリフォルニア州のものです。
これはカリフォルニア州の注目すべき企業からの内部告発者を保護し、スタートアップが競争できるようにするものです。
これは本当に興味深いです。以前にSB 1047について詳しく取り上げましたが、これはカリフォルニア州議会から成功裏に出てきた法案で、ギャビン・ニューサムが拒否権を発動したものです。AI界の多くの内部告発者だけでなく、イーロン・マスクまでもが反対したのです。イーロン・マスクは自由主義者志向の人物ですが、SB 1047の元のバージョンを支持しました。
SB 1047の元のバージョンには、多くのことが含まれていましたが、基本的に3つのことがありました。一つは内部告発者保護で、これはSB 53に含まれています。もう一つはCal Computeで、これもSB 53に含まれています。では何が欠けているのでしょうか？それは責任体制です。
SB 1047には、開発に1億ドル以上かかるモデルの開発者が、安全対策が十分でない場合に災害に対して責任を負うという条件が含まれていました。つまり、これらのモデルを構築するには非常に資源が豊富でなければならないということです。
もし非常に資源が豊富で、トレーニングコストが1億ドル以上のモデルを構築しているなら、それから生じる壊滅的な結果に対して責任を負うというものでした。多くの人はこれを見て「それほど低いハードルには聞こえないし、これらの企業にとって合理的なハードルに思える」と言いました。しかしギャビン・ニューサムはこれに拒否権を発動しました。
今、彼らは基本的に「わかった、ギャビン、その責任体制を取り除いて、もう一度試してみよう」と言っているのです。これがカリフォルニア州議会を通過するのか、そしてニューサムの机の上に再び置かれるのか、そしてもう一度法案が廃案になるのかを見守る必要があります。
なお、これはカリフォルニア州議会の上院議員であり、連邦政府の上院議員ではないことを明確にしておきます。彼はサンフランシスコを代表する民主党議員で、これは興味深いことです。主な主張は、SB 1047に対して提起された反対意見に対応しつつ、セーフガードと加速の必要性のバランスを取ることです。
次は米国連邦政策に関する話題です。「Nvidiaとその他のテック大手、5月15日に発効予定のAI拡散政策の再考をトランプ政権に要求」というタイトルです。
これはバイデン政権下で最初に導入された政策で、米国の国家安全保障上の利益との関係に基づいて国を3つのグループに大まかに分類しています。
第一のカテゴリーは友好国で、制限なくチップを輸入できます。第二は敵対国で、米国原産のAI技術の取得が完全に禁止されています。そして、インドのような他の国は制限に直面しています。もちろん、NVIDIAのような企業はこれを喜んでいません。なぜならそれは彼らのチップを買う人が少なくなるからです。
AI拡散政策に対するロビー活動が多いことは驚きではありません。これはバイデン政権から出たものですが、興味深いことに、まだ廃止されていません。
トランプ政権が就任する際に、バイデン政権からの多くの大統領令が廃止されたことを考えると、これは非常に興味深いことです。NvidiaやOracleが再び制約を緩和しようとしています。
もう一つの輸出管理に関する話題です。「米国が50以上の中国企業を輸出ブラックリストに追加」というニュースです。
これは商務省の産業安全保障局からのもので、現在、このエンティティリストには80の組織があり、そのうち50以上が中国からのものです。これらは米国の国家安全保障や外交政策上の利益に反して行動していると疑われる企業です。
これらの企業は、軍事近代化を支援したり、量子技術やAIなどを進めるために米国のアイテムを取得することが禁止されています。
これは現在もバイデン時代の政策が運用されている例の一つです。これは変わるかもしれませんが、今のところ、どうなんだよ、いい加減にしてくれよ、という感じです。
ブラックリストに追加されているこれらの企業のうち2社は、制裁対象のHuaweiとその関連チップメーカーであるHiSiliconに供給していました。HiSiliconは基本的にHuaweiであり、Huaweiの一部門で、チップ設計を行っています。Huaweiのエヌビディアとも言えるでしょう。
彼らはまた、中国共産党の軍事近代化を支援するためにものを取得した27のエンティティをブラックリストに追加しました。AIに関しては、中国のクラウドコンピューティング企業Inspurグループの6つの子会社が含まれています。
Inspurは中国の巨大なクラウド企業で、かつて中国のGPT-3の答えとも言えるWenyan 1.0やSource 1.0を作ったことで有名です。
中国のやり方は、このようなばかげた子会社を立ち上げ続け、検出されて閉鎖されるまで輸入することです。それを捕まえないというメリットを利用しているのです。私たちはモグラ叩きの負けゲームをしています。子会社を立ち上げるのは非常に安いのです。
中国との関係をブラックリストモデルからホワイトリストモデルに移行しない限り、これは続くでしょう。デフォルトで拒否し、特定のエンティティのみが輸入できるようにする必要があります。
軍民融合のため、中国の民間企業は人民解放軍の関連企業と見なされます。これは米国とは異なる仕組みですが、それが現実です。そのホワイトリスト戦略を取らない限り、新しい子会社が立ち上げられ、私たちは何度も同じ話を続けることになります。
これは私が、なぜバイデンの人々がこれを行わなかったのか疑問に思うことの一つです。米国の産業からの圧力がたくさんあることは理解できます。しかし中国共産党軍がこの能力を取得することを防ぐのが目標なら、正直に言って、これが解決策だと認識する必要があります。このモグラ叩きゲームで成功する他の方法はありません。
もう一つの話題は、政策よりも安全性に焦点を当てています。Netflixのリード・ヘイスティングスがBowdoin Collegeに5000万ドルを寄付し、AIプログラムを設立しました。
これは「AIと人間性」と呼ばれる研究イニシアチブで、従来のコンピュータサイエンスAI研究ではなく、AIのリスクと結果に焦点を当てています。大学はこの資金を使って新しい教員を雇用し、既存の教員のこの研究に対するサポートを行います。
5000万ドルはこの種のことをするにはかなりの金額だと思います。この問題について、様々な著名人が意見を言っていましたが、Netflixやリード・ヘイスティングスからは何も聞いていなかったので興味深いです。これでFANGの一部がこの問題についてどう考えているかがわかります。
これは彼のアルママーターへの贈り物で、彼は数十年前にこの大学を卒業しています。
合成メディアとアートに移りましょう。まず、ニューヨーク・タイムズのOpenAIに対する著作権訴訟が進行することを裁判官が認めました。OpenAIはこの訴訟の却下を要求していましたが、それは認められませんでした。
裁判官は訴訟の範囲を狭めましたが、主要な著作権侵害の主張は支持しました。裁判官はまた詳細な意見を発表する予定ですが、まだ発表されていません。
これは非常に重要だと思います。多くの訴訟が進行中ですが、これはニューヨーク・タイムズ、メディア出版の大物であり、確かに経験豊富な弁護士がいて、OpenAIとリソースを競うことができます。この訴訟が前進することは非常に重要です。
今日、彼らはかつてのようなリソースを持っていないかもしれませんが、彼らは驚くほど成功しています。オンラインで購読ベースのモデルに移行し、近年の他のメディア企業よりも良く生き残っています。
彼らがどれだけ大きいのか調べたところ、四半期の購読収入は4億4000万ドルです。これはかなり良いですね。
法的な話で、裁判官スタインが「迅速に」という言葉で何を意味するのかはわかりませんが、法律用語では次の10年のどこかを意味するのかもしれません。
もう一つの似たような話題ですが、今度は反対側のものです。裁判官はAnthropicが著作権で保護された歌詞でトレーニングを続けることを認めました。これはUniversal Music Groupによる訴訟の一部で、Anthropicが著作権で保護された歌詞をモデルのトレーニングに使用することを禁止する差し止め命令を求めていました。
これはAnthropicがそれを行っていると仮定して、続けることができることを意味します。また、訴訟は継続されるとのことです。Anthropicがそれを行うことが合法かどうかはまだ未解決の問題ですが、実際の訴訟前に制限はまだありません。
これは非常に専門的な法律の領域です。私の理解では、差し止め命令は本質的に裁判所が事前に、何かが起こる前に介入し、「やめてください」と言うものです。そして差し止め命令に違反すると特に悪いことになります。
これは裁判所が何かに対して反応するのではなく、予測して行動しているようなものです。これが出版社が求めていることであり、「公正使用の閾値の問題が未解決のままである場合に、AI訓練のためのライセンス市場の輪郭を定義することを裁判所に求めている」と判事は述べています。
つまり、「まだ確立されていない法的権利に基づいて、出版社に暫定的差し止め命令という非常な救済を与えることを裁判所は拒否する」ということです。
基本的には、別の裁判所が実際の法的権利が何であるかを決定する必要があり、それが行われるまで差し止め命令を認める立場にはないということです。法律が確立され、それがこれを許可しないと言った場合、その時点で「Anthropic、それをしないでください」という差し止め命令を出すかもしれませんが、今のところ法律には記載がなく、先例もないので差し止め命令を出さないということです。
これは私の解釈ですが、聞いている弁護士がいれば、もっと正確にしてくれるかもしれません。しかし興味深いですね。
これで今週のLast Week in AIエピソードは終了です。今週はたくさんのことがあり、うまくカバーできたと思います。そして言ったように、次週にはこれらの詳細の一部についてさらに話すかもしれません。非常に掘り下げることがたくさんあるからです。
とりあえず、このエピソード全体を聞いてくれてありがとうございます。コメント、レビュー、ポッドキャストの共有などをいただければ幸いですが、何よりも視聴していただいたことに感謝します。