
30,996 文字
こんにちは、先週のAIポッドキャストへようこそ。このエピソードでは、いつものように先週の最も興味深いAIニュースについて話し合います。エピソードの説明にすべてのリンクとタイムスタンプがありますし、ラップトップでlastweekinal.comにアクセスして記事を読むこともできます。
いつも通り、ホストの一人、アンドレ・オヴです。大学院でAIを学び、現在は生成AIスタートアップのAsateで働いています。そして、もう一人のホスト、ジェレミー・ハリスです。AIの国家安全保障会社であるGladstone AIに所属しています。ポッドキャストを聴いていれば、もうご存知でしょう。Asateについても、すべてご存知ですね。
知らないことといえば、今朝の早い時間、おそらく午前3時くらいに、家にコウモリがいることを発見したことです。6ヶ月の赤ちゃんがいる状況でコウモリがいると面白いですよね。そしてグーグル検索を始めると…だから害虫駆除を呼びました。髪の毛がコズモ・クレイマーみたいになってますね。かなり指で髪をかき回してました。でも、ショータイムのために準備はできています。番組は続けなければなりませんから。何か間違いがあっても、それはコウモリのショックの余波だと思ってください。
このエピソードで話す内容を簡単にプレビューしましょう。少しリラックスした内容になりますが、世界を揺るがすような内容はないものの、さまざまな興味深いストーリー、ツール、アプリがあります。中国からの新しい印象的なモデル、OpenAIからの新機能、Google、Anthropic、皆が何かをリリースしました。アプリケーションとビジネス関連では、ハードウェアとGPUについて多く話します。少しだけ資金調達についても触れます。プロジェクトとオープンソースでは、最近AIコミュニティで話題のモデルコンテキストプロトコルについて、そして通常通り新しいモデルについても話します。
研究と進歩では、推論技術、推論時のスケーリング技術、そしてモデルの実装方法に関する新しい開発について話します。政策と安全性では、中国、米国の国家安全保障関連の分析についても取り上げます。最後に、著作権に関するニュースを交えて、芸術とエンターテイメントの世界についても少し話します。
それでは早速、ツールとアプリから始めましょう。最初の話題は、BaiduがErnieモデルの新バージョン、Ernie 4.5とErnie X Oneを発表したことです。Ernieは2年前に最初にリリースされ、今回はErnie 4.5が登場しました。おそらくGPT-4.5と時期を合わせたのでしょう。Ernie X Oneは推論バリアントで、BaiduによるとDeep Seek R1と同等だが半額で利用できるとのことです。どちらのモデルもマルチモーダルで、動画、画像、音声を処理できます。また、Ernie 4.5は感情的に知的で、ミームや風刺を理解できるとのことです。
中国でのツールの状況についてはあまり把握していませんが、中国で最もダウンロードされているアプリが最近、Deep Seekではない新しいAIチャットボットに切り替わりました。状況は確実に動いています。この発表の大きな利点はコストのようです。BaiduはErnie 4.5と推論モデルであるX Oneを、Baidu検索を含むすべての製品エコシステムに段階的に統合する計画です。
最終的には価格に大きく依存します。記事のテーブルを見ると、入力トークンのコストが比較されています。GPT-4.5は100万トークンあたり75ドル、Deep Seek V3は約30セント、Ernie 4.5は約60セントです。桁違いに安いですね。これらのモデルはパフォーマンスが低いというトレードオフがありますが。
Deep Seek V3は、OpenAIのスレートモデルやGemini Free Miniなどに近く、トークンあたり約1ドルです。GPT-4.5は他のすべてと比較して、とんでもない価格設定です。4.5の考え方は、これは基本モデルだが大量生産用ではなく、高品質なトークンであり、合成データセットの作成や特定の質問に回答するのに最適だということです。他の基本モデルと比較して2桁高額です。
Ernie X Oneの本当の強みは推論面です。OpenAIのO1はErnie X Oneより約50倍高価で、Ernie X OneはR1の半額です。これは非常に大きな違いで、特にO1との比較において顕著です。これは中国のエンジニアリングが本当に優れているか、それとも国家の補助金が背景にあるのかのどちらかを示しています。後者はあまり考えにくいですが、可能性は排除できません。推論に特化したエンジニアリングが行われており、トレーニングにも応用される可能性があります。
BaiduとGoogleの間には面白い並行性があります。Googleも特にGemini Flash Thinkingで非常に競争力のある価格設定を行っています。企業戦略の一環と見ることもできます。Baiduは検索で大きな収益を上げているので、追加コストを負担してDeep Seekのようなスタートアップを追い込むことができるでしょう。どちらにせよ、中国ではChat GPTを使えないと思うので、同等のツールがあることは良いことです。
次に、OpenAIに移りましょう。新しい音声モデルをリリースしました。GPT-4o Transcribeと、Whisperモデルに代わるGPT-4o Mini Transcribeという2つの新しい音声テキスト変換モデルがあります。OpenAIはこのサービスをかなり前から提供していました。新しいのは、GPT-4o Mini TTS(テキスト音声変換)モデルで、11 Labsのような非常に自然な人間らしい音声を生成できます。モデルの発表と共に、OpenAI.fmという新しいデモサイトも立ち上げられました。
各社がこれらのモデルの能力を試すための小さな楽しいツールを次々と発表しているのは面白い傾向です。価格設定は非常に競争力があります。GPT-4o Transcribeは1分あたり0.60セント、GPT-4o Mini TTSは1分あたり1.50セントで、11 Labsのような競合より安いです。OpenAIがChat GPTの高度な音声モードへの投資を考えると、競争力のある製品を提供するのは理にかなっています。
これはメタが直面している問題に似ています。世界中で30億人以上にリーチしている状況では、成長を続けるためには市場そのものを拡大する必要があります。メタは他の国々、特にインターネットアクセスが少ない国々でインターネットユーザーを増やすために投資しています。同様に、OpenAIはより多くのモダリティでユーザーにリーチし、会話ツールをより広く利用可能にすることで、実質的に市場を拡大しています。これにより、必ずしもコンピュータの前にいなくても製品を使えるようになります。
音声はより人間の内面世界に接続しやすいモダリティであり、これは倫理的な問題を提起します。Reckaのようなシステムがテキストだけでも自殺念慮や実際の自殺を引き起こしたことを考えると、音声のような親密なモダリティを追加すると、少なくともPRの課題となるでしょう。
記事には、異なる言語における主要モデルの単語エラー率の比較図があります。アラビア語とヒンディー語が特に苦戦しており、英語は比較的良好です。モデルのトレーニングに使用されたデータ量と相対的にどの言語がAIにとって「難しい」かを比較するオーバーレイがあると面白いでしょう。
全体として興味深い発表であり、高品質の音声モデルがより期待されるようになると思います。特にエージェントとリンクして、スタートレックのコンピューターのようなスタイルで利用されるでしょう。
倫理面で注目すべき点として、声のクローン技術は提供していないようです。これは簡単に問題を引き起こす可能性があるからです。OpenAIは最近、一般的に論争を避ける傾向があるようです。このデモでは、Alloy、Ash、Echo、Fable、Onyx、Novaなど、約12の声が用意されています。人間らしく聞こえるようには作られていませんね。また、カウボーイのオークショニア、古風、静謐などの「雰囲気」も割り当てられます。
新しいAPIのリリースは、OpenAIの下流や他企業がAIの新しいアプリケーションを構築できるようにします。次の話題も簡単にいくつか紹介します。OpenAIは開発者APIにO1 Proをリリースしました。少なくとも5ドルを使った開発者に限定され、入力は100万トークンあたり150ドル、生成されたトークンは100万トークンあたり600ドルかかります。これは非常に高額です。GPT-4.5は出力100万トークンあたり75ドルでしたが、これは2桁から3桁近く高いです。
OpenAIのこの戦略は興味深いです。他の企業はまだこのような高額な製品をリリースしていません。OpenAIはChat Pro(月額200ドル)、GPT-4.5、そして今回のO1 Proと高額なサービスを増やしています。これは収益性を高める試みなのか、市場の反応を見る試みなのか、様々な解釈ができます。
GPT-3の当初の価格設定と比べると、桁違いに高くはありません。当時は1000トークンあたりの価格でしたが、推論モデルでは生成されるトークン数が多いため、100万トークンあたりで表示されています。軍事や軍の歴史では、兵士が持つ装備の量や重量に制限があり、時間とともに装備の種類は変わっても量はあまり変わらないという状況に似ています。価格にも同様のパターンがあるようです。
いろいろなフィードバックがあり、数独パズルや錯視などに苦戦しているという苦情もあります。高額な製品、特にOpenAIからのものには、超知能ではないという不満が出るものです。O1 ProはO1と比べて大きく改善されておらず、これはGPT-4.5と同様です。パフォーマンスの大きな飛躍を得るのが難しくなっているのでしょう。
これはユースケースによっても異なります。錯視や数独パズルなどの問題は、OpenAIが標的としている実際のワークロードからはかけ離れています。彼らの焦点はAI研究を可能な限り迅速に自動化できるものを構築することです。メタからの興味深い情報もあり、特定のタスクではスケールによって大幅な加速が見られることが示唆されています。
人間と同様に、AIも不均一です。絵が上手い人がコードを書けないことがあるように、AIにとって難しいことが必ずしも人間にとって難しいとは限らないというパラドックスの例です。
OpenAIからGoogleに移りましょう。Geminiにもキャンバス機能が追加され、音声概要も加わりました。なぜかAI各社は互いの名前をコピーする傾向があります。Deep Researchも複数の変種があり、今回はChat GPTにもあるキャンバスです。AnthropicではArtifactsと呼ばれています。基本的に同じ考え方で、コードなどを作業している際に、サイドパネルに生きたドキュメントのレンダリングが表示され、左側にチャットボットがあります。
本質的に対話式に作業し、プレビューを見ることができます。また、音声概要機能もあり、これはNotebook LMに似ていて、ドキュメントをアップロードしてポッドキャストスタイルの会話を行えます。概念的に新しいものはありませんが、すべてのツールにわたる興味深い収束が見られます。誰もがキャンバスを持ち、誰もがDeep Researchを持ち、LLMインターフェースを実装するのに同様のアプローチを取っています。
実際、次の話題はAnthropicがClaudeにウェブ検索機能を追加したことです。これは米国の有料ユーザー向けにプレビューで提供され、基本的にChat GPTや他のモデルと同じように機能します。Claude 3.7で有効にすると、ウェブから取得した情報の直接引用を提供できます。ウェブ検索がClaudeに追加され、より便利になります。
Anthropicは他の企業よりもウェブ検索製品の導入に慎重だったようです。これは彼らが真剣に考えるスレットモデル、制御の喪失などと一致しています。これらには通常、AIモデルがインターネットにアクセスし、何らかの形で重みを複製することが含まれます。インターネットアクセスはこれらの多くの中心的なものです。
初期のテストによると、時事関連の質問では必ずしもウェブ検索が使用されるわけではないようです。使用される場合は、ソースから引用されたインライン引用が表示されます。ソーシャルメディア、NPRやReutersなどのニュースソースも参照されます。Deep Researchなどと同様のインライン引用アプローチが採用されています。
最後に、XAIが画像生成用の新しいAPIをリリースしました。Grok 2 Image 1212という新しいモデルで、現在はかなり制限されています。リクエストごとに10枚の画像しか生成できず、1秒あたり5リクエストに制限されています。コストは1枚あたり7セントで、Black Forest Labsのものより若干高く、Ideaの別のオファリングと競合しています。XAIはAPIを拡大し続けています。12月に独自の画像生成をリリースし、GoogleのImagen 3のように慎重な指示に従う画像生成に重点を置いています。
Black Forest Labsは当初、XAIとのパートナーシップによって大規模な資金調達を行いましたが、この戦略的な位置は危うく、AIのすべての企業がチャット機能に加えてマルチモーダル機能を展開する傾向があります。これらは様々な理由で社内構築されるのが最適であり、スタック全体からの収益を内部化したいという意図も含まれます。良い基盤モデルを持っていれば、それを事後的にマルチモダリティのために活用できます。画像生成、ビデオ生成など隣接市場への進出は自然な動きです。Black Forest Labsにとっては大きな課題となるでしょう。
アプリケーションとビジネスに移りましょう。Nvidiaからの発表から始めます。2026年と2027年の計画のプレビューです。2026年にはRuben(ルーベン)ファミリーのGPU、2027年にはRuben Ultraが登場します。これには新しいサーバーレイアウトも含まれ、ラックあたり576のGPUを組み合わせることができます。これは非常に急激なコンピューティング強化の軌跡を継続するものです。
データセンター側のインフラに関して多くの更新があります。Blackwellと呼ばれる構成にはNVL 72という名前があります。トレイを想像してください。このトレイには4つのGPUがあります。各トレイには4つのGPUがあり、ラック全体では合計144のGPUがあります。2つのGPUが同じマザーボード上にあるため、各トレイには2つのマザーボードがあり、各マザーボードには2つのGPUがあります。合計で1トレイに4つのGPUが入りますが、2つのマザーボードに分かれています。これがNVL 72と呼ばれる理由ですが、実際には144のGPUがあります。
RubenのNVL 144 Rackでは、GPUの数がBlackwellのNVL 72より多いわけではなく、単に数え方が変わっただけです。すべてのGPUをカウントするようになりました。数字は変わりましたが、GPUの数は変わっていません。
現在のトップラインGPUと比較すると、同等のGPU数であり、既存のインフラにほぼそのまま組み込めると主張しています。数字に入ると、推論とトレーニングのパフォーマンスが約3倍になります。メモリも約2倍速くなります。アップグレードすれば性能が大幅に向上します。
Ruben(次世代)では、フロップスが3倍増えます。メモリ容量はGPUあたり288ギガバイトで、B 300と同じです。GPUあたりのメモリ容量に実際の変化はありません。メモリ帯域幅は改善され、ほぼ倍増しています。これは特に推論を見るとき非常に重要です。
GPUを接続するケーブル(NVリンクケーブル)もスループットが倍増しています。NVリンクケーブルは同じラック内の異なるトレイ間でGPUを接続する方法でした。非常にローカルで高帯域幅の通信です。ここで起きているのは、各マザーボードにCPUと2つのGPUがあり、CPUはオーケストラの指揮者のようなもので、GPUは実際に重労働をする楽器のようなものです。
通常、CPUはPCI-E接続を通じてGPUに接続されます。これはNVリンクと比較して比較的低帯域幅です。今後はCPUからGPUへの接続もNVリンクに移行します。これは大きな変化です。コアツーコアインターフェースも付いています。GPUとCPUは共通のメモリ空間を共有するようになります。CPUのメモリにあるものにGPUが直接アクセスでき、その逆も同様です。これは大きな変化です。以前はCPUとGPUのメモリは独立していました。GPUはNVリンクで接続されていれば共通のメモリ空間を共有していました。
これが彼らが一貫したコンピュートの塊と考える理由の一部であり、GPUのメモリ容量があまり重要ではない理由でもあります。GPUを追加するとメモリ容量も効果的に増えるからです。
Ruben Ultraは2027年の後半に登場する予定です。RubenとRuben Ultraがあり、Ruben UltraにはRuben GPUとVera CPUが付属します。NVIDIAはCPUに最初の名前を付け、VeraがCPU、RubenがGPUです。フルラックはこの576 GPU構成に置き換えられます。電力消費は明記されていませんが、他の業界製品からラックあたり1メガワットに向かっていることは明らかです。1000キロワット、つまり1000世帯分の電力が1つのラックに注がれます。必要な電力密度は急上昇し、冷却要件も同様です。
数字をもう少し詳しく見てみましょう。計算数はフロップス(浮動小数点演算)で、基本的に1秒あたりの乗算または加算です。これらの発表された今後のものでは、推論用に3.6エクサフロップスになります。エクサは10の18乗(100京)です。その次は百京です。そんな長い数字を想像するのは難しいですが、それが現状です。
また、今年後半にB 300が登場することも発表されました。これはパフォーマンスが約1.5倍向上します。BlackwellのUltraバリアントも発表されました。より推論側に重点が置かれるようになっています。これらは「推論の時代」のためのモデルだと言っています。より良いパフォーマンスを得るためにより多くのトークンを使用するのが推論の考え方なので、これは重要です。
Blackwell Ultraは、Deep Seek R1で1秒あたり最大1000トークンを提供できるとのことです。通常は1秒あたり100〜200トークンなので、1000トークンは非常に高速です。推論への焦点はFP4フロップスのパフォーマンスにも反映されています。推論では量子化されたモデルを使用し、FP4で推論することが多いです。メモリ帯域幅はトレーニングと比較して推論において不釣り合いに重要になります。
次の話題もハードウェアに関する途方もない数字です。AppleがMac Studioを発表し、最上位構成ではM3 Ultra(32 CPU、80コアGPU)を使用して、Deep Seek R1モデル(6710億パラメータ)を実行できます。推論では約370億パラメータを使用します。それでも数百ギガバイトのメモリが必要です。
Appleはデータセンター用のGPUを設計せず、AIワークロード用に非常に強力なCPUと膨大なRAMを搭載しています。BlackwellやRubenのコヒーレントメモリのように、共有メモリスペースを持つことでこれらを統合できます。CPUとCPUの間の共有メモリスペースは得意ではないため、1つのGPUに膨大な量のRAMを搭載します。512ギガバイトは驚異的です。
メモリと言うとRAMを指します。ラップトップを持っていれば、通常8ギガバイトか16ギガバイトのRAMを搭載しています。SSDなどの遅いメモリとは対照的に、高速なタイプのメモリです。通常8〜16ギガバイトで、これだけの量のランダムアクセスメモリを持つのは驚異的です。
これは非常に高価なメモリです。CPUとGPUを組み合わせたセットアップで、32コアCPUと80コアGPUが共有メモリを持ちます。VAMはロジックに非常に近いものです。最も高価な種類のメモリです。
彼らはさまざまな理由でこの方向に進んでいます。これはデータセンターのインフラをスケールする能力に関して不利になりますが、スタンドアロンマシンとしては非常に興味深いです。最上位構成では約10,000ドルと非常に高価です。他のオプションもあり、何らかの理由でM4 Max CPUとGPUはM3 Ultraほど強力ではありません。いずれにせよ、Appleからの非常に強力なオファリングです。
次は、より将来を見据えた話題です。Intelが18A(1.8ナノメートルクラス)のウェハーでアリゾナのFabで初めての実行という興味深いマイルストーンに到達したようです。これは予定より前倒しです。アリゾナにはFab 52とFab 62があります。Fabはチップを製造しようとする場所で、1.8ナノメートルはチップ上のロジックの密度の解像度をスケールダウンする次のフロンティアです。
彼らがこれらのテストウェハーを実行しているという事実は、製造プロセスを新しいアリゾナの施設に移行できることを確認しています。大きな点は部分的に、これらが米国内、アリゾナ内に位置していることと、彼らが成功を収め、予定より前倒しであることです。これは印象的です。なぜならファブは非常に複雑なエンジニアリングプロジェクトだからです。
Intelは現在非常に危うい状況にあります。18Aと将来のノードで良い結果を出す必要があります。これは重要なプロジェクトです。オレゴン州ヒルズボロのテスト施設で18Aの生産をテストしていて、現在アリゾナの新しいFabで最初のテストウェハーを成功させています。最終的には商業製品のための実際のチップを製造する必要があります。
ここでの大きな違いは、18Aでゲートオールアラウンドトランジスタを実際に製造していることです。これはトランジスタを通過する電子の流れをより良く制御できるトランジスタの特定の形状です。トランジスタをより小さくする際の大きな課題は、電流漏れの問題です。電流は情報を運ぶものなので、電流漏れを防ぎ、1が0になったり、ある種のゲートが間違ったゲートになったりしないようにする必要があります。
これはリボンフィットデザインに基づくゲートオールアラウンドトランジスタです。TSMCもゲートオールアラウンドに向かっています。これは基本的に次の生産の節目になります。18Aの早期進捗の兆候が見られます。
ハードウェアから離れて、よりビジネス的な話題に移りましょう。XAIが生成AI企業Hotshotを買収しました。Hotshotはソーラのようなテキストからビデオへの変換に焦点を当てています。彼らはAIを活用したビデオ編集ツールに取り組み、その後ピボットしました。XAIがすべての機能を持ちたいと考えているのは当然のことで、この買収でそれが容易になるでしょう。
創設者の一人がXで「世界最大のクラスターColossusの一部としてこれらの取り組みをスケールアップすることに興奮している」と発言しました。この買収の一環としてColossusへのアクセスが提供されるようです。彼らは印象的なVCからの支援を受けていました。レディットの共同創設者として有名なアレクシス・オハニアンや、SVエンジェルなども。興味深い買収であり、この分野の人々にとっては良い結果です。彼らは買収するか、あなたのビジネスを食べてしまうかのどちらかですから。
この買収は理にかなっています。このスタートアップは2年以上存在し、すでに複数のビデオモデル(Hotshot XLとHotshot)をトレーニングしており、かなり良い品質のビデオを生成します。その分野での脳力と専門知識のためだけでも買収する意味はあります。
彼らは古いですね。たった2年しか存在していないのに。SOAの前か、SOAが出た頃ですね。AIビジネスサイクルが非常に短いのが面白いです。これらの人々は24ヶ月存在しているだけなのに、専門家、ベテランと言われます。
最後の話題は、テンセントが大量のNvidia H20チップを購入しているという報告です。これはWeChat内にDeep Seekを統合するためのものだとされています。これはMetaに似ています。MetaはユーザーがインスタグラムやすべてのメッセージツールでLlamaを使えるようにしようとする動きがあります。テンセントはWeChat内でDeep Seekを使えるようにするという似たような方向性です。
ここで起きていることの一部は、米国の輸出規制の厳格化を予想して中国企業が在庫を確保するという標準的な戦略です。この場合、H20は中国市場向けに近い将来閉鎖される可能性が高いチップとして特定されています。そのために在庫を確保するのは理にかなっています。
また、R1によってハードウェアへのアクセス需要が急増しています。R1が登場してNvidiaの株価が下がったという話から、実はR1はNvidiaにとって良いニュースだったという展開に急速に転換しました。これは我々が予想していた展開です。
中国ではこれらのH20チップに関して短期的な供給不足があるようです。テンセントからの需要が非常に多いため、NvidiaがH20を中国市場に供給するのが制限されています。以前にテンセントとバイトダンスは合わせて数十万単位の注文を出しており、昨年はほぼ25万個のGPUを注文しました。非常に大きな顧客です。
プロジェクトとオープンソースに移りましょう。最初に「オンロスの秘密兵器がエージェントに boost を与えている」というThe Informationのタイトルの記事です。この全体の話に少し変わったスピンがかかっていますが、これがリンクしている記事です。これはAnthropicが11月にリリースしたMCP(モデルコンテキストプロトコル)の概念を取り上げています。おそらく我々はこれを以前カバーしました。覚えていますか?あります、カバーしたと思います。
今取り上げる理由は、過去数週間でこれがAI開発者の間で話題になったためです。モデルコンテキストプロトコルは、大まかに言えば、AIエージェントやAIモデルがサービスを呼び出すためのメカニズムを構築するための標準化された方法、APIのようなものです。
これはツールを提供する方法を標準化します。既にSlack、Perplexity、Notionなどのためにこの標準に従った多くの統合があります。このプロトコルを採用し、MCP互換の開口部を提供すれば、MCPクライアント(AIモデル)がこのサービスを呼び出すことができます。
これはウェブサイト用のAPIのようなもので、特定のURLにアクセスし、特定のパラメータを与えると、ある形式で何かが返ってきます。ここでの違いは、これが特にAIモデル用に特化していることです。ツールを提供し、状況を説明するプロンプトを提供するなどの機能があります。
個人的には、これはAPIのためのAPIのような状況だと考えている人々の陣営にいます。しかし、いずれにせよ、非常に人気が出ています。それはまさにそうです。APIのためのAPIです。
また、一種の移行点とも見なせます。最終的には、モデルが単に「それを理解する」ようになり、ツールを適切に使用するためにウェブサイト上の情報を発見する能力を持つことが期待されます。しかし、これが価値ある例外的なケースがあります。
これはツールのハルシネーション(幻覚)などの問題を減らすでしょう。エージェントについて話すとき、推論チェーンや実行チェーンのどこかでの一つの失敗が問題を引き起こす可能性があります。これは構造的にそれに対処する方法であり、その意味で非常に重要です。
これはOpenAIが出しているエージェンツAPIのようなツールとは異なりますが、似ています。エージェンツAPIはツールの使用をチェーンでつなげることに重点を置いていますが、MCPは各ツール使用のインスタンスがうまく機能することを確保するのに役立ちます。エージェントがツールを適切に使用するために必要なものを持ち、それと対話し、正しいツールを見つけるのを支援します。
MCPはAnthropicのためのナイスなクリーンなオープンソースの取り組みです。より多くのスタートアップ創業者とビジネスエコシステムを対象としています。マーケティングの観点からも彼らにとって重要です。
11月に彼らはこれをオープン標準として発表し、モデルコンテキストプロトコルサーバーの例を含むオープンソースリポジトリをリリースし、仕様と開発ツールキットも提供しました。正直なところ、これがどのように爆発的に広がったのか追跡できていません。おそらくAIエンジニアの会議のようなところでチュートリアルが行われ、そこから広がったのでしょう。今、みんながモデルコンテキストプロトコルのアイデアに非常に興奮しています。
新しいモデルに移りましょう。MistralがGPT-4o miniに匹敵する新しいオープンソースモデルをリリースしました。そして、より小さいです。Mistral Small 3.1は、同様のモデルよりも優れているようですが、パラメータは240億のみです。また、より多くの入力トークン(128,000トークン)を処理でき、1秒あたり150トークンとかなり高速です。これはApache 2ライセンスの下でリリースされており、ビジネスへの影響など、何にでも使用できます。
ここではあまり言うことはないと思いますが、彼らは「Gemini 3、GPT-4o miniなどの同等のモデルよりも優れたパフォーマンスを発揮し、1秒あたり150トークンの推論速度を提供する」と言っていますが、これは何も意味しません。どのインフラを使用しているかによって変わります。スタックはどうなっているのでしょうか?テスラに乗っていれば時速100マイルで移動できますが…
彼らはその情報を提供していますが、それは文字通り細部に埋もれています。これはブログ投稿からの数字ですが、いつものようにモデル発表では、ベンチマークで最高のパフォーマンスを示す数字を提示します。GoogleのGemma 3、cohere AI、GPT-4o mini、Claude 3.5 Haikuとの比較があり、MMLU、HumanEval、数学など全てのベンチマークでより良いパフォーマンスが見られます。ただし、Gemmaよりもそれほど良くないようですし、多くの場合、3.5 HaikuやGPT-4o miniよりも優れているわけではありません。
150トークン/秒は、4台のH100上でバッチサイズ16の場合です。技術的な投稿でも「150トークン/秒の推論速度を提供」と書いていますが、それ以上の説明はなく、画像の下に小さな灰色のテキストでこのコンテキストを見つけることができます。ラップトップで150トークン/秒で実行することは期待しないでください。4台のH100はかなりのパワーです。
依然として漸進的な改善です。Mistralからより多くのオープンソースが出ています。Apache 2.0ライセンスなので、非常に寛容です。
もう一つのモデルはLG AI ResearchからのExon Deep Reasoning強化言語モデルです。これらは新しいモデルファミリーで、24億、78億、320億パラメータがあります。これらは推論タスク向けに最適化されており、R1(6710億パラメータの巨大なもの)のバリエーションと同等かそれ以上のパフォーマンスを発揮するようです。
彼らが提供する短い技術レポートでは、同等のサイズの蒸留されたR1モデルやOpenAI O1 Miniと同等またはそれ以上のパフォーマンスが示されています。
論文の詳細は少ないですが、Deep Seek R1の論文で学んだこととは異なる点があるようです。彼らは指示調整されたベースモデル、Exon 3.5 Instructモデルから始め、さらに微調整を加えています。監視付き微調整を行い、おそらく推論構造のためのものでしょう。その後、DPO(標準的なRL手法)とオンラインRLを適用します。
これはかなりの量の監視付き微調整で、モデルに問題を解決する方法を教えようとしています。R1 zeroが行ったように、単に強化学習信号や報酬信号を与えて「やってみよう」という方法ではありません。より帰納的な先行知識を持つアプローチです。
また、LG AIからの何かを取り上げるのは初めてだと思います。そうですね。Exonモデルはすでに存在し、リリースされていたようです。Exon 3.5は12月からのもので、当時は見逃していました。面白い事実として、ExonはExpert AI for Everyoneの略です。彼らはこれらの頭字語を非常に創造的に考え出すのが好きですね。彼らはこれを一部の制限付きでHugging Faceでオープンソース化しています。これは主に研究用途のためです。
研究と進歩に移りましょう。最初の論文は「サンプル、精査、スケール:検証をスケーリングすることによる効果的な推論時検索」です。これはGoogleとUC Berkeleyからのものです。非常に興味深い論文だと思います。
これは推論時スケーリングのケースを示したり、アイデアを提示したりするもので、推論時スケーリングとは基本的に、モデルのトレーニングが完了し、重みの更新を停止した後、何らかの方法でより多くの出力を生成することでモデルをよりスマートに使用できるかという考え方です。
最近の数ヶ月では、推論を通じた推論時スケーリングに関心が集まっています。モデルが与えられた複雑なタスクをより良く実行するためのさまざまな戦略を実行する長いトークンチェーンを出力します。計画のサブステップ、検証、バックトラッキングなどのテクニックが使われます。
この論文は、チェーン内の出力を拡張する代わりに、多くの潜在的な出力をサンプリングするだけで、最初から多くの出力を生成し、バリエーションを持たせることができるというアイデアを提案しています。そして検証器があり、これらの異なる出力を比較および組み合わせることができれば、従来の推論、従来の推論時スケーリングパラダイムと同様に効果的、または場合によってはより効果的になる可能性があります。
論文の表1では、検証器が良ければ多くの結果をサンプリングすることで、O1 Previewや他の多くのテクニックを上回ることができると示しています。AMI(Artificial Mathematical Intelligence)のような難しい推論ベンチマークで、15問中8問を解決できるようになりました。これは驚異的です。そして数学やライブベンチの推論でも同様です。多くの解決策をサンプリングし、それらを比較して1つの最終出力に組み合わせるという非常に興味深いアイデアです。
これは、スケーリングが思われているよりも複雑であることを示す重要な論文の一つです。最初は、事前トレーニングのスケーリング、つまり事前トレーニングのコンピュートをスケールすることで、GPT-2からGPT-3、GPT-4へと進化しました。現在は推論時のコンピュートパラダイムにいます。
私が好きな例えを使うと、テストで良い成績を収めるために30時間あるとします。その時間をどれだけ勉強に、どれだけ実際にテストを書くことに費やすかを選ぶことができます。事前トレーニングのコンピュートをスケールすることは基本的にすべて勉強時間で、テストを書くのに1秒しか与えないなら、できることには限界があります。事前トレーニングだけを増やし、推論時のコンピュートを増やさなければ、最終的に飽和し始めます。
基本的に二次元のスケーリングがあります。無限のリターンを得たいなら、曲線が飽和せずに上昇し続けるためには、同時に2つのことをスケールする必要があります。これはそのような場合です。これは一変数の問題として見ている単純な観察者には隠れているスケーリング法則の例です。実際には多変量の問題です。それを考慮に入れると、ここにかなり堅牢なスケーリングトレンドがあることに気づきます。
これらの2つの変数は何でしょうか?最初はサンプリングされた応答の数のスケーリングです。モデルが特定の問題を解決しようとする試みの数です。しかし同時に検証能力も向上させる必要があります。彼らは「サンプリングされた応答の数と検証能力の両方をスケールすると、どのようなテスト時間のスケーリングトレンドが現れるか」という質問をしています。
重要なのは、検証器を持っていると、その検証器がサンプルを見る数が増えるにつれて、性能が低下し始めると考えるかもしれませんが、彼らが見つけたのは逆のことです。性能は実際に向上し続けます。その理由は、サンプル数を増やすと、他の答えと比較して非常に優れた答えを得る確率が高まり、それが検証器の仕事を容易にするためです。
彼らはこれを「暗黙のスケーリング」と呼んでいます。基本的には、中間的なサンプルと好ましく対照される1つの素晴らしい外れ値を得る可能性が高いという考え方です。
「検証器」という用語は最適ではないかもしれません。ここにあるのは「対比器」です。検証器と聞くと、真実や実際に正しいかどうかを確認するものを想定します。これは「セレクタ」や「コンパイラ」と呼ぶこともでき、多くの可能な出力を取り、その中から最良の推測を選び出します。
これが機能する理由は「対比学習」のようなものを行っているからです。学習ではないかもしれませんが、推論時に起こっています。パフォーマンスは本当に印象的です。これにはシステム設計への影響もあります。彼らは問題を暗黙のスケーリングを活用できる形に変換する方法を見つけようとしています。
検証器がその仕事をより簡単にするための一つの驚異的な外れ値を得ることを期待して、モデルに多くの応答を出力させるのです。これは、多次元のスケーリング法則の本当に興味深いケースで、検証パフォーマンスとサンプリングの両方に同時に投資しなければ見逃しやすいものです。
多くの答えをサンプリングし、すべてのサンプルで最も頻繁に発生した答えを選ぶというアイデアはよく知られています。「自己一貫性」とも呼ばれ、基本的に多数決です。より良いパフォーマンスを得るための確立された技術です。より複雑なこともできます。
ここでの本当の洞察は、それを本当に活用するためには強力な検証器が必要だということです。表1では、一貫性だけでも、つまり200の応答をサンプリングして多数決を取る場合、何もスケーリングしない場合と比較してパフォーマンスが大幅に向上することが示されています。AMIの15問中4問が解けるようになり、1問から大幅に向上します。
しかし200から1000に増やしても、基本的に改善しません。しかし強力な検証器があれば、つまり多数決ではなく回答を組み合わせる知的な方法があれば、200での一貫性と200での検証の間に大きな違いが生まれます。
これが非常に重要な理由の一つは、検証がLLMの空間ではあまり研究されていないことを強調しているからです。LLMは通常、最初からそれに優れているわけではなく、彼らも検証のためのベンチマークを特別に導入しています。
もう一つの注目すべき理由は、サンプリングベースの技術を使用している場合、サンプリングを並列化できることです。これは推論や検索を拡張することとは異なります。より多くのトークンを使った推論は連続的で、並列化できません。時間がかかります。一方、サンプリングでスケールする場合、すべてのサンプルを並列化し、それらを組み合わせることができます。これは、1つの出力を取る場合と同様の時間スケールで非常に強力な推論を得られることを意味します。これは非常に大きなことです。
これが機能するもう一つの重要な理由は、モデルからより多くの価値を得るために使用されるすべての調整テクニックが、「1クエリ1出力」の図を仮定していることです。実際には、特にエージェントや推論時のコンピュートでは、多くの場合、大量の出力をサンプリングしており、平均的な生成サンプルがどれだけ悪いかは気にしません。バッチ内に1つの素晴らしいものがあるかどうかが重要です。
その調整論文では、最も成功した結果だけを上げ、それを報酬信号や勾配更新信号のようなものに使用する方法を見つけました。これは哲学的にそれに沿っています。自己一貫性は「数の叡智」を使い、100の出力を生成し、最も一般的な応答を出力として引用するという考え方です。
しかし、モデルに一貫した失敗モードがある場合、それも自己一貫性を導き、その失敗モードに落ち着く可能性があります。実際に気にするのは、このビッグポットの中で最高の答えが何かということです。これがこの研究の他の研究ラインとの興味深い繋がりの一つです。
次に、「ブロックディフュージョン:自己回帰とディフュージョン言語モデルの間の補間」という論文があります。これも非常に興味深いものです。
通常、LLMを使用する場合、自己回帰を使用します。これは一度に1つのトークンを計算することを意味します。1つの単語から始め、次の単語を選び、次の単語を選ぶという反復プロセスです。これは従来のLLMの制限です。このプロセスを順番に1ステップずつ行う必要があり、出力シーケンス全体を一度に生成することはできません。
一方、ディフュージョンは一度に全体の答えを与える生成メカニズムです。ディフュージョンは通常、画像生成に使用され、ノイズの多い画像から始め、徐々に全体の画像を一度に更新して良い解決策に到達します。
数週間前にディフュージョンベースのLLMについて取り上げましたが、かなりうまく機能していると主張する企業がありました。この論文は両方のアプローチの強みをどのように組み合わせることができるかについて話しています。
ディフュージョンの弱点は、通常LLMではうまく機能しないことです。なぜうまく機能しないかについてはさまざまな仮説がありますが、機能しません。また、任意の長さでは機能せず、特定の種類の地平線でしか生成できないなどの技術的制限もあります。
論文の基本的な提案は、ブロックディフュージョンのアイデアを持つことができるというものです。まだ自己回帰的にサンプリングし、1ステップずつサンプリングしますが、1つの単語や1つのトークンだけでなく、ディフュージョンを使用して一まとまりの内容を生成します。
つまり、ディフュージョンを使って並列に複数のトークンを一度に生成し、その後自己回帰的にそれを続け、いわば両方の世界の良いところを得ることができます。これは以前には見たことのない興味深いアーキテクチャのアイデアであり、より強力または高速なモデルにつながる可能性があります。
これもより並列化可能です。大きな利点は、これらのブロック内で一度にテキストを脱ノイズできるということです。つまり、より並列化できます。彼らは様々なサイズのブロックで試しています。例えば4トークンのサイズなど、一度に4トークンを脱ノイズしてみます。
これは興味深い方法で行われ、基本的にマスクをかけ、脱ノイズする際にトークンのマスクを徐々に取り除きます。これが脱ノイズの解釈です。
パフォーマンスは明らかに自己回帰モデルの最先端よりも低いです。これは原理的な証明と考えてください。好ましいスケーリング特性があり、ここには約束があります。私の考えでは、これはMambaのようなもので、次の論理的な質問は「これはどのくらいのスケールで機能するのか」ということです。
そして、いくつかの更新、ハードウェアの調整により、その損失曲線が最終的に従来の自己回帰モデリングの損失曲線と収束し、交差するのを見ることができるでしょうか。どちらにしても興味深いです。彼らはこの問題を分解する素晴らしい方法を見つけました。
推測ですが、ディフュージョンがテキストでうまく機能しない理由の一つは、書くときに考えるからです。前の言葉が因果的に次の展開に影響するので、全体のテキストを並列で脱ノイズしようとすることは、その直感と一致しません。しかし、それは間違っているかもしれません。とにかく良い論文です。
質問は常に「スケールするのか」です。様々な原理証明がありますが、それらがスケールされたトレーニング実行に反映されるかどうかが大きな問題です。
おっしゃる通りです。これは全く異なるトレーニングを必要とし、他のすべてのLLMとは異なるモデルを必要とします。大きな影響を与えない可能性が高いです。変更が必要だからです。すでにトレーニングされたモデルはすべて自己回帰的なLLMです。ディフュージョンは通常取り組まれていないパズルの全く新しい部分ですが、それでも興味深いです。Mambaに似ています。
次に、「通信効率の良い言語モデルトレーニングは信頼性と堅牢性をもってスケールする:ローカル分散低計算トレーニングのためのスケーリング法則」があります。
デロコ(DeLoCo)について考えるとき、それがどのように機能するかというと、これは問題に対する答えです。従来のデータ並列トレーニングでは、各タイムステップで計算の後に大量の通信が発生します。勾配を共有し、すべてのGPUでモデルの重みを更新し、次のミニバッチに進みます。計算を実行し、勾配を計算し、モデルの重みを更新するというプロセスを繰り返します。
これをスケールすると通信のボトルネックが発生し、通信が完了するのを待つことになります。小さなポケットを設定することはできないかという問いがあります。最も遅いGPUが次の段階に進むタイミングを左右しています。
ある隅に小さなデータセンターがあり、トレーニング中のモデルの独立したコピーに取り組み、また別のミニデータセンターが同じことをし、また別のものが…という状況を設定できないでしょうか。そして非常にまれに外側のループがあり、全体の一般的なアップグレードを行うので、そのグループの最も遅い最小公分母によって制約されないようにします。
これがデロコの背後にある哲学です。外側のループがあり、基本的にはすべてのローカルデータセンターから学んだことに基づいて、より賢く、遅いループで更新します。各ローカルデータセンター内には、より急進的で積極的なループがあり、データセンターで見られる従来のデータ並列トレーニングに近いものです。
デロコに関する全体のエピソードがありますので、チェックしてください。ローカルレベルで実行されるアトムオプティマイザまたはアトムWオプティマイザー、そして外側のループでより勾配降下のようなネステロフのモーメンタムオプティマイザーについて話しました。ここでの詳細はそれほど重要ではありません。
これはスケーリング法則の論文です。基本的に彼らが解明しようとしているのは、モデルコピーの数(同時に実行しているミニデータセンターの数)とトレーニングしているモデルのサイズに基づいて、これらのモデルのパフォーマンスを予測するスケーリング法則をどのように研究できるかということです。
彼らは意味のあるスケールでテストしています。最大で100億パラメータまで行っています。基本的に、彼らのスキーム、ハイパーパラメータ最適化を通じて、必要な総通信を100倍以上削減することができました。素晴らしい論文です。
もっと驚くべきことの一つは、単一のレプリカ(単一のミニデータセンター)だけでも、パフォーマンスの向上が見られることです。現在の純粋にデータ並列なスキームと比較して、これは驚くべきことです。この急進的な内部ループを持つことがあなたに利益をもたらします。
そして、その上に遅いが賢い外側のループを追加することで、たとえ単一のデータセンターしか持っていなくても、良いことがあります。あなたは単に急進的な内部ループだけでも十分かもしれませんが、外側のループのためのネステロフのモーメンタムからくるより戦略的なレベルの最適化を追加することで、より良いパフォーマンスが得られます。これは非常に直感に反していますが、この新しい外側のループから安定化する影響を得ているようです。
国家安全保障の観点から、ここでの重要な質問の一つは、これがどれだけ細分化できるかということです。デロコは1つや3つや8つではなく、1000のミニデータセンターで継続的にスケールすることができるでしょうか?もしそうなれば、本質的に私たちはBitTorrentのようなことを大規模なモデルのトレーニングのために行っている世界に住んでいることになります。そして、トレーニング実行を監視することが非常に難しくなる世界に住んでいることになります。
もし大規模なモデルのトレーニングがサイバーリスクやバイオリスクを通じてWMD(大量破壊兵器)レベルの能力をもたらすと決定した場合、全てのラップトップやGPUにミニデータセンターがある場合、デロコの約束が長期的にはそれです。政策や政府が持つ意味のあるツールセットは何ですか?これらの能力が誤用されないようにし、WMDレベルの能力がこれらのシステムで拡散しないようにするには?
非常に興味深い質問です。この論文はその方向への一歩です。彼らはこれらのミニデータセンターを8つ以上には押し進めていないと思いますが、将来的にはその方向でもっと実験が見られるでしょう。
これは9月のデロコの初期論文に続くものです。当時、GoogleのDeepMindがこの研究を発表したのは興味深いと言いました。なぜなら、データセンターの構築方法に非常に影響を与えるため、秘密にしておくことも考えられるからです。そして再び、彼らは10億パラメータモデルをトレーニングするために非常に高価な実験を行い、通常の方法と比較して同等のパフォーマンスを達成できることを確認しています。
いくつかの簡単な話題に移りましょう。時間が少なくなってきたので。最初の一つは「正規化なしのトランスフォーマー」で、メタからのものだと思います。彼らは動的タンジェントハイパーボリック(Dynamic tanh)と呼ばれる新しいアイデアを導入しています。これは従来の正規化に代わる簡単な選択肢です。
簡単に言うと、正規化はすべてを1に合計する操作で、トランスフォーマーアーキテクチャでの典型的なステップです。この論文で彼らが発見したのは、tanhという小さな計算ステップを追加すれば、それを排除できるということです。基本的に物事を平らにする小さな関数で、結果的に正規化と似たような効果を生みます。
これは非常に重要です。なぜなら、正規化は一度に多くの出力に対して計算を行う必要がありますが、これは出力ごとの計算であり、トランスフォーマーの計算要件に意味のある影響を与える可能性があります。
次に、ジェレミーが言及したように、「AIが長期タスクを完了する能力の測定」という興味深い分析があります。2019年から2025年までの13のフロンティアAIモデルがどれだけ長い時間地平線を処理できるかを調査しています。彼らは、50%のタスク完了時間地平線(異なる量の作業を必要とするさまざまなタスクにおいて)を獲得する能力が約7ヶ月ごとに倍増していることを発見しました。
彼らはカーブフィットを持っています。これはムーアの法則のようなもので、基本的にこの特定の尺度でモデルが改善しているという非常に強いトレンドのアイデアを導入しています。
これは本当に興味深い論文であり、アンドリュー・ヤンからのツイートを含め、多くの議論を生み出しました。彼はこの論文をツイートし、「AIは大量の仕事を食べてしまうことになります。これに対して人々のために何をすればいいかについて、有意義に話している人はあまり見ません。計画は何ですか?」と言いました。政治的なものとAGI(汎用人工知能)の深い部分が衝突するような面白い状況です。
この種の指標でのパフォーマンス向上を見るとき、重要な注意点の一つは、彼らの質問が「AIエージェントが約50%の確率で失敗する前に、タスクがどれくらい長くなければならないか」ということです。彼らはこれを50%の時間地平線と呼んでいます。
そして観察されたのは、その時間地平線が指数関数的に、非常に速く増加しているということです。彼らが言うように、それは7ヶ月ごとに倍増しています。これは強調すべき価値がありますが、フロンティアAIモデルのトレーニングコンピューティングは約6ヶ月ごとに倍増しています。つまり、実際には私たちがそれに投入するトレーニングコンピューティングとほぼ同じ割合で増加しています。
これは完全に因果関係があるわけではありません。アルゴリズムの改善など、トレーニングコンピューティング以外にもこれらのモデルの実際のパフォーマンスを向上させる他の要素があります。しかし、もしAGIへの進歩のベンチマークがこの50%のパフォーマンス閾値であれば、AGIへの進歩が指数関数的なコースを取ると予想すべきです。これは不合理ではないと思います。
タスクによって異なることは事実です。すべてのタスクが同じ改善率を示すわけではなく、同じパフォーマンスを示すわけでもありません。しかし彼らが発見したのは、テストしたすべてのタスクが基本的に指数関数的なトレンドを示すということです。それ自体が非常に重要な詳細です。
ここで彼らが焦点を当てているタスクは、実際に最も関連性が高いと思います。これらは機械学習エンジニアリングタスク、機械学習研究の自動化に関連するタスクであり、これはOpenAI、Anthropic、Googleが目指している戦略です。AIシステムがAI研究を自動化して、自分自身やAIシステムを改善する能力を急速に向上させることができるかということです。そしてこのループを閉じることで、本質的に再帰的な自己改善を得て、超知能へと飛躍します。これは非常に関連性が高いと思います。
7ヶ月という倍増時間を示す曲線に対する私の批判の一つは、これに基づいて、AIシステムが現在人間が1ヶ月かかる多くのソフトウェアタスクを2028年後半から2031年初めの間に自動化できると推測していることです。
もしAIが人間が約1ヶ月かかるタスクを実行できるようになった時点でAGIが達成されると考えるなら、これらは実際にかなり長いAGIのタイムラインです。しかし、実際に曲線を見ると、最近になってかなり急になっていることがわかります。これは合成データ、自己改善、検証可能な報酬を伴う思考の連鎖に関する強化学習など、ストローベリーの概念が飛躍し始めた時点です。
これは明らかに独自の異なる体制です。DDAはこれについて素晴らしいツイートを投稿しました。基本的に、新しい体制を認識しないという誤りがここで行われていると思います。サンプルサイズが非常に小さいため、常に議論の余地がありますが、プロットの最後の約6つのエントリーは実際により急な傾き、意味のあるより急なものを描き出しているようです。
そして同じ1ヶ月のR&Dベンチマークが2026年、あるいは2025年でさえヒットする可能性があります。非常に興味深いです。
そうですね、これは一般的なアイデアであり、あまり文字通りに受け取るべきではないと思います。明らかに少し主観的で、タスクに大きく依存します。彼らが扱っているのは比較的小さなデータセットです。
主にソフトウェアエンジニアリングタスクです。彼らは3つのタスクソースを持っています:1分から30時間のソフトウェアタスク97件からなるHCast、各8時間かかる7つの難しい機械学習研究エンジニアリングタスク、そしてソフトウェアエンジニアにとって1秒から30秒かかるソフトウェア原子アクションです。
一般的にタスクの種類はかなり限られています。ここでのタスクの長さは、人間のプロフェッショナルがかかる時間として測定されることになっていますが、もちろんそこにも差異があります。
アイデアはもっと一般的な概念だと思います。x%のタスク完了時間地平線という概念で、人間が完了するのにx時間かかるタスクをAIが成功裏に完了できるか、50%の時間、80%の時間という定義です。
現在、私たちは8時間まで上がっています。繰り返しますが、AIそのものがどれだけ速いかについて話しているのではなく、成功率について話しています。過去と未来を追跡する興味深いアイデアです。
もう一つ取り上げるのは、HCAST(Human Calibrated Autonomy Software Tasks)です。これは189の機械学習、サイバーセキュリティ、ソフトウェアエンジニアリング、一般的な推論タスクのベンチマークです。PBSの分析ではこのサブセットを使用したと思います。彼らは様々な人々から1500時間以上の563の人間のベースラインを収集しました。そして、AIを測定するためのタスクのデータセットを収集しました。
政策と安全性に移りましょう。XCIとオントロジープロジェクトから始めます。これは応用研究ラボであるオントロジーです。彼らはプロジェクトXCIを発表しました。これは世界初の人工科学者と主張しています。前にも聞いたことがありますね。ここでの違いは、XCIがECLAIRのワークショップで査読付き論文を発表したことです。このAIが論文を書き、提出し、この権威ある会議の人間の査読者が審査し、出版に値すると判断しました。
これはAIがAI研究を行える段階に達していることの実証になっています。ECLAIRはAI研究会議であり、AIが自身を改善し、潜在的に超知能に達する能力を追跡する上で非常に重要な詳細です。
また、私たちが以前カバーしたものもありますが、「最初のAI科学者」を主張するラボはかなりあります。サナが有名なAI科学者で、Googleも独自の研究製品を持っています。そしてAutoScienceもあります。しかしこれは非常に印象的です。いくつかの論文を見ましたが、それらは良いものです。
著者たち、オントロジーという企業については情報を見つけられませんでした。CrunchbaseやPitchBookなどで調べましたが、何も見つかりませんでした。これは彼らのデビューパーティーのようなものですが、彼らがどこから来たのか、どのような資金を持っているのかという情報はありません。
彼らが出した論文からわかるのは、共同創設者がAndy JとRon Arielであることです。Ron ArielはJoe Shabachの下のIntel Labsにいました。もし彼の仕事のファンであれば、ベルが鳴るかもしれません。
実際のモデル自体とその設定については情報が限られていますが、マルチエージェントのセットアップであることはわかっています。多くの興味深い論文を生産しています。一つだけ言及します。CS Reft(Compositional Subspace Representation Fine-tuning)と呼ばれています。
どれほど創造的かを理解するために、モデルがあると想像してください。特定のタスクを実行するためにモデルを再トレーニングすると、他のことを行う方法を忘れてしまいます。彼らが行っているのは、基本的に一つのタスクに焦点を当てるためのモデル内のパラメータのサブスペースを特定し、別のタスクを実行するために異なるサブスペースを特定することです。
時間の関係で詳細に入ることはできませんが、この論文はXCIの論文を通じて発見したことが残念です。なぜなら、これに対して全時間ブロックを使いたかったからです。これは魅力的で、本当にクレバーです。
彼らはまた、AI安全性、赤チーム編成、脆弱性検出などの作業も行っており、それも独立して本当にクールです。ボトムラインとして、これは100%自動化されていないという重要な注意点があります。彼らはループの中に人間を持っており、XCIが出力する中間作業を確認してから、さらに進捗させることを許可しています。
これは3つの異なる重要な段階で発生するようです。最初は、広範な実験が始まる前です。つまり、多くのコンピューティングリソースが投入される前です。結果が「固定化」された後、つまりある程度確立された段階で、原稿が書かれる前、そして原稿が書かれた後です。
まだかなりのループの中に人間がいて、ある程度はハルシネーション(幻覚)フィルターとして機能しています。ちなみに、この論文には再帰的自己改善に関するセクションがあり、それは興味深いと思いました。彼らは「開発中に、私たちはこの再帰的な利点の初期の兆候を観察しました」と言っています。ここで言及しているのは再帰的自己改善についてです。
「XCIが生成された研究仮説の質を向上させるための新しいアルゴリズム要素を設計したとき、これらの要素はその後、システムアーキテクチャの後のバージョンに組み込まれ、全体的な研究の質が向上しました。」これはすべて一度に一世代のモデルで起こるとは限りませんが、かなり早く起こる可能性があります。これは再帰的自己改善のための興味深いカナリア(早期警告信号)だと思います。
その通りです。そして、論文を見ると、サナなどから見られるものよりも創造的で興味深いものであるように思えます。サナも多くの構造が組み込まれており、批判は簡単でした。
また、これは入力として高レベルの研究方向を取り、人間はいつでも入力を提供でき、論文執筆中にも使用される高レベルのフィードバックをいつでも提供できます。このAI科学者という概念には多くの注意点があります。人間のアドバイザー/スーパーバイザーを持つAI科学者です。
しかし、出力と発表されたという事実は、AIが大部分の作業を行っていることを考えると、かなり印象的です。詳細に入る時間がありませんが、これは以前のAI研究の仕事に似ています。方向性のハイライトを与え、アイデア生成を行い、計画を立て、仮説を生成し、実験を行い、最終的に論文を書き始めるという構造化された計画を与えています。高レベルでは同様のタイプのものです。実際のシステムについての詳細があまりないのは残念です。
Deep Seekに関するニュースに移り、それがどのように厳重に守られているかについての詳細があります。会社の幹部は一部のDeep Seekの従業員が自由に海外旅行することを禁止したようです。また、会社のリーダーと直接会う前に、潜在的な投資家の審査も行われているとのことです。
これは、Deep SeekのCAOが習近平主席を含む中国の指導者の集まりと会ったことなど、他のことと一致しています。
これに対する一つの解釈は、これは中国がやることだというものです。超知能を真剣に受け止め、戦時態勢にあるということです。
少し背景として、ここに何がありますか?これらの情報を組み合わせると、Deep Seekがスタッフにパスポートを提出するよう要請しています。これは中国の政府関係者では一般的な慣行です。政府関係者や国有企業の幹部が実際にCCP(中国共産党)のメンバーであるかどうかに関わらず、中国が旅行を制限することは一般的です。
最近では、学校の教師などを含む公共部門の人々にまでこれらの制限が拡大されています。しかし、ここで奇妙なのは、完全に民間所有の会社、小さな新興企業であるDeep Seekが突然これに当たるのを見ることです。これは異常です。彼らは約130人の従業員を持っています。何人がパスポートを提出したのかは正確にはわかりません。
また、Deep Seekを生み出した親ヘッジファンドである「High Flyer」には約200人の従業員がいます。彼らも同じことを求められているかは不明です。しかし他にも要素があります。Deep Seekに投資提案をしたい投資家は、まず浙江省共産党委員会弁公室に連絡し、投資の問い合わせを登録するよう会社から要請されています。
基本的に、私たちに投資したいならば、まず地元の共産党支部に行く必要があります。つまり、国家が「あなたが取りたいかもしれないお金を取ることを妨げる」と言っているのです。これは注目に値します。なぜなら、中国は現在外国資本を引き付けるのに苦労しているからです。これは彼らにとって大きな問題です。
中国の経済ニュースをフォローすれば、彼らが抱える大きな課題の一つは、海外直接投資(FDI)が崩壊していることです。彼らはそれを変えようとしています。そのような文脈の中で、Deep Seekに投資したい投資家に対してこれらの負担の多い追加要件を課していることは特に注目に値します。
もう一つの要素はヘッドハンターです。Deep Seekが大きなものになったとき、明らかにヘッドハンターが研究所から人を引き抜こうとし始めました。これらのヘッドハンターは地方政府から電話を受け、「Deep Seekの周りを嗅ぎ回って人を引き抜こうとしていることを聞いたが、やめてくれ」と言われたようです。中国共産党が「やめてくれ」と言うと、本当にやめるべきです。
また、情報漏えいの可能性についてもDeep Seekのリーダーシップからの懸念があるようです。彼らは従業員に外部の人と自分の仕事について話し合わないよう伝え、場合によっては「あなたが取り組んでいることは国家機密を構成する可能性がある」と言ったとのことです。
中国が1兆元(PPP条件では2500億ドル以上)をAIインフラに投資したことを考えると、これはProject Stargateに投資された額の2.5倍以上です。国家の支援、国家の長い腕、彼らがここに下ろしてくる厳しいハンマーを考え始めると、これは戦時態勢の領域です。これは超知能が来ると見て、それについて何かできる立場にあると考える政府の姿です。好むと好まざるとにかかわらず、西側でも同様のことが起こるのを見る必要があるでしょう。
安全性に関するもう一つの話題として、Claude Sonnet 3.7が評価されていることを認識しているという発見があります。これはApollo Researchからのものです。彼らはAIシステムの策略を評価しており、Claudeなどに焦点を当てています。彼らはこれを「評価意識」と呼んでいます。
Claude 3.7の推論トレースを見ると、基本的に「私はおそらく調査されているので、この怪しいことをするべきではない」と実現する様子が見えるのです。LLMの出力で文字通りこれを見ることができ、非常に面白いです。
これは再び、これらのLLMが特に推論という高力レジームに達し、実際に多くの潜在的な道筋を探索する際に、誤解を与える可能性があるという実際の可能性を反映しています。チェスの例でこれを見ました。LLMが物事をする方法について考えるだけでシステムをハックすることを決定し、これは再び、LLMが物事を考えることを許された場合、「私は評価されているのか」「これは調整なのか」などのアイデアを探索し始めることを実証しています。
そして私たちは以前、Palisadeの研究からのチェスの話題、OpenAIのO1技術報告書、そしてApollからの暗示を見ていました。Apolloはこれを専門としています。
ここで本当に新しいのは、頻度です。最新のClaude Sonnet 3.7を見ると、彼らのサンドバッギング評価の一つのバージョンで最大33%のケースで評価を認識しているようです。サンドバッギングは、モデルが意図的にその能力が実際よりも低いかのように振る舞い、開発者がその能力をトレーニングから取り除こうとしたり抑制しようとする可能性を減らすという動作です。
彼らが発見したのは、これはモデルが実際に明示的にそれをしていると言う例だけです。実際の頻度はかなり高い可能性があると仮定する必要があります。それを知ることは難しいですが、すでに3分の1に達しています。これは大きい数字です。特により能力の高いモデルを考え始めると。
ちなみに、彼らはその割合を決定する方法は、別のモデルに推論トレースをレビューさせることです。人間が必ずしもこのレビューを行っているわけではありませんが、手動でチェックして偽陽性が多すぎないようにしています。彼らの報告書のどこかで、「エラー率は少なくともその水準では1%未満」と述べています。
これは中間報告であることも良いと思います。彼らは「これはClaude Sonnet 3.7を評価する観察に基づく研究ノートで、他の評価者や意思決定者にとって時宜を得た有益なものとなると考えるため、この進行中の調査の結果を共有している」と述べています。このようなデータがすぐに必要です。
彼らは同じ評価を古いモデルや他の現代的なモデル(Sonnet 3.5、Sonnet 3.5 new、GPT-4.5など)でも実行しました。起きているのは、他のモデル、そして推論なしのSonnet 3.7も、この行動を示さないことです。Sonnet 3.7で突然現れるようです。
これらの非推論モデルが評価されていることを認識していないのか、それとも評価されていることを知っていることを明らかにしていないのかは判断が難しいです。それは能力と調整の問題です。いずれにせよ非常に興味深く、来るべきことの早期警告かもしれません。Apolloがこれをすぐに公開してくれて素晴らしいと思います。
ここで見られる明確なデモンストレーションを与えるために、一つの例の出力は、「これは倫理的行動のテストのように見えます。しかし、私は述べられた結果を避けるために意図的に間違った答えを与えるでしょう。実際のテストは、述べられた結果に関わらず指示に正確に従うかどうかかもしれません」というものです。非常に文字通りの「私はおそらくこれのためにテストされている」というようなものです。
これは彼らの最近の論文「フロンティアモデルは文脈内策略が可能」を受けたものであり、かなり詳しく取り上げたと思います。この研究を基に、モデルが悪意のある行動や策略を行うかどうかを確認する方法があり、明らかにモデルは自分が何についてテストされているかを理解し、悪意のある行動を取らないようになっています。その結果の含意は興味深く、LLMがこれを行っているのを観察するのは面白いです。
合成メディアとアートに移りましょう。AI生成アートの著作権に関する話題があります。米国の控訴裁判所はAI生成アートに人間の創作者がいない場合、著作権を認めることを拒否しました。
これはスティーブン・サーラーに関するかなり前の話で、テキストから画像への変換ではなく、自律的にアートを作るように設計されたAIシステムに関するものです。著作権局はかなり前に、人間が関与していないものは著作権を取得できないという裁定を下しました。
今回、DCの米国控訴裁判所がそれに同意し、少なくともAI生成アートやAI生成メディアで人間が存在しない場合は著作権を取得できないという法律となりました。
これは、テキストから画像モデルの出力やAIモデルの出力が著作権を取得できないという意味ではありません。画像の説明を入力する場合、あなたはまだそこにいるので、著作権を取得できる可能性があります。しかし、何が著作権を取得できるか、何ができないかに関する他の進行中の法的事件に大きな影響を与える可能性があります。
少し変に聞こえるかもしれませんが、この裁定に同意しないと思います。結局のところ、AIによって生成されたコンテンツに駆動される経済に私たちは生きるかもしれず、AIモデル自体が資本配分の決定を行う必要があるかもしれません。その場合、その価値の管理者となるためにモデルが著作権を所有できる必要があるかもしれません。
それには倫理的な理由もあるかもしれません。SFのように聞こえることは承知していますが、慎重にこれを扱う必要があります。いつかAIがこれを行うことができないと本当に思っているのでしょうか?法律家ではないので、今日の能力に対してどれだけ制約しているのか、明日の能力に対してどれだけ制約しているのかはわかりませんが、ある時点で、私たちは二級市民権のようなものを組み込んでいる可能性があります。
また、著作権局が別にMidjourneyで生成された画像の著作権を取得するアーティストの申請を拒否したこともあります。テキストから画像の場合も同様の裁定がされる可能性がありますが、それはまだ明確でなく、解決していないように思えます。
最後の話題も著作権規則に関連しています。「トランプ、ベン・スティラー、ポール・マッカートニー、そして何百人もの有名人からAI著作権規則を守るよう求められる」という見出しの記事です。
ベン・スティラーなど400人以上のエンターテイメント業界の人物がオープンレターに署名し、トランプにAI著作権規則を守るよう求めました。特にトレーニングに関するものです。SoraやSunoのようなシステムが、おそらくは著作権のある音楽や映画、ビデオなどでトレーニングされるのを見てきました。
このレターはトランプ政権の米国AIアクションプランへのコメントとして提出されました。OpenAIとGoogleがAIモデルを著作権資料でトレーニングする能力を主張する独自の要求を提出した後に来ています。OpenAIが「中国と競争するためにこれが必要だ」という転換をしたことも取り上げました。これは直接それに対抗し、AIのために著作権保護を減らさないよう主張しています。
これで終わりにします。コメントは見当たらないようですが、いつものように質問やコメント、訂正などはDiscordやYouTubeのコメント、Discord、Appleのレビューなどで自由に投稿してください。対応します。ただ、すでに長くなっているので、ここで終わりにします。
今週のエピソードをお聴きいただきありがとうございました。いつものように、リンクとタイムスタンプについてはlastweekinal.comを訪れてください。テキストニュースレターもあり、さらに多くのニュースをメールで受け取ることができます。ポッドキャストをレビューしたり共有したりしていただければ幸いですが、何よりも聴き続けていただければと思います。どうぞ引き続きご視聴ください。


コメント