
10,385 文字

メタの待望のLlama 4の登場、脳機械インターフェイスにおける大きな突破口、そして現在の最高モデルをも凌駕する新しいベンチマークなど、人工知能は高速で進化し続けています。オープンソース、マルチモーダル性、神経補綴、マーケティングの誇張。今週のニュースは濃密ですが、発表の裏には技術的選択、不透明な領域、そして研究における重要な課題があります。ここはArtificialis。2025年4月6日、第46回AIニュースエピソードへようこそ。
今週の主要なニュースは、間違いなくメタによる新しいLlama 4シリーズのモデル「Scout」と「Mavric」の発表です。この2つのモデルはオープンソースとして発表され、mixture of experts(専門家の混合)アーキテクチャを採用しています。このアプローチは、タスクに応じて専門的なネットワークのサブセットを動的に活性化させます。実際には、Scoutは合計1,090億パラメータのうち16の専門家を使用し、Mavricは4,000億パラメータのうち128の専門家を動員しますが、推論時には常にわずか170億パラメータのみが活性化されます。これにより計算効率を最適化しながら、高い汎化能力を維持することができます。
両モデルはearly fusion(初期融合)と呼ばれるアーキテクチャのおかげでネイティブにマルチモーダルです。このアーキテクチャでは、以前のバージョンとは異なり、すべてのパラメータがテキスト、画像、さらには動画を理解するために一緒に訓練されています。つまり、異なるモダリティを処理するために複数のモデルをチェーンする必要がなくなりました。
このデザインはまた、pier-interleavory positioningsと呼ばれる技術に基づいており、非常に長いコンテキストシーケンスを扱うことができます。理論的には最大1,000万トークンまで処理可能で、これは一度に膨大な量の文書を処理できる有意義な能力です。
モデルは大量のデータで訓練されました。Scoutは40兆トークン、Mavricは2.2兆トークンです。データは公開コンテンツ、ライセンスデータ、そしてFacebookやInstagramでの公開投稿やメタAIとのユーザー対話など、メタの製品から得られたデータの混合です。これにはユーザーの個人データも含まれる可能性があり、それはユーザーが必ずしも意識していないデータが使用されたことを意味します。これらのデータは2024年8月まで収集され、Llama 4はそれ以降に起きたことについての情報を持っていません。
ベンチマークの観点では、Mavricは非常に良い結果を出しています。推論では、MMLU Proで80.5を獲得しており、Gemini 2 FlashとGPT-4がそれぞれ77.6と81.2を獲得したのに対してです。数学では、数学ベンチマークで61.2を獲得していますが、GPT-4 Miniの70.2やMistral Small 3.1の69.3に比べると遠く及びません。コードに関しては、Live Code Benchで43.4を獲得し、Gemini 2 FlashとGPT-4の34.5と32.3を上回っていますが、QWQ32BとDeepseek R1の63.4と65.9には遠く及びません。
彼らが際立っているのは非常に長いコンテキストの処理能力です。MTOB(機械翻訳 from One Book)ベンチマークでは、たった一冊の本を使って新しい言語を翻訳することを学ぶことです。ここでLlamaはほぼ独自のカテゴリーで戦っています。というのも、Gemini Flash 2と共にこのベンチマークに取り組むのに十分な大きなコンテキストを持つ唯一のモデルだからです。ここでMavricはGemini Flash 2を54対48.4のスコアで大きく上回っています。
Scoutも僅差で追随しており、Mavricの80.5に対してMMLU Proで74.3、Mavricの61.2に対してMathで50.3、Mavricの43.4に対してLife Code Benchで32.8を獲得しています。
Llama 4は200以上の言語で訓練されていますが、デフォルトでは12言語のみが完全にサポートされています。開発者は他の言語のためにモデルを微調整することができますが、メタのコミュニティライセンスと使用ポリシーに準拠する必要があります。このモデルは入力として最大5つの画像でもテストされています。
インフラ面では、訓練に700万GPU時間以上が動員されました。メタは今年初めに、年末までに130万GPUをホストする野望を持って、計算能力を強化するために600億から650億ドルの投資を発表しました。これは産業支配の戦略ですが、オープンソースコミュニティにとって競争不可能な独自のインフラに依存しています。
モデルはメタを通じてアクセス可能ですが、Transformersパッケージで直接使用できるHugging Faceでも利用可能です。モデルはオープンウェイトですが、Llama 4 Commodity Licenseの下でアクセス可能であり、一定の条件下で無料の使用、修正、再配布を許可しています。
例えば、再配布にはすべて「with Llama」という言及を含める必要があり、派生モデルを作成する場合、その名前は「Llama」で始める必要があります。また、倫理的および法的使用を規制するメタの利用許容ポリシーに従うことも義務付けられています。また、あなたの製品やサービスが月間7億人のアクティブユーザーを超える場合は、特定の商用ライセンスが必要です。最後に、ライセンスはメタが生成された結果に対する責任を一切負わず、紛争や利用規約の不遵守の場合には使用権を取り消す可能性があることを明記しています。
他の不透明な領域も残っています。明示的な同意なしのユーザーデータの使用、国家安全保障機関に与えられた許可、そして科学的洞察の欠如は、このアプローチの透明性と倫理性に関する真の疑問を投げかけています。
しかし、それだけではありません。288億のアクティブパラメータと2,000億パラメータを持つBOTという名前の、さらに大きな第3のモデルがあり、これは謎のままです。このモデルは他のモデルの蒸留の基礎となり、一部のベンチマークではGPT-4.5を上回るとされていますが、まだ何も検証できていません。
しかし、LLMの世界を革新したいのはメタだけではありません。クローズドソース側の競合の1つが興味深い研究で話題になりました。それはAnthropicによって発表されたもので、LLMの最も粘り強い謎の1つを解明しようとしています。ClaudeのようなLLMの巨大なネットワーク内で実際に何が起こっているのかということです。
目的は一見単純です。ブラックボックス効果を減らすことです。これらのモデルが明示的にコーディングされていないことは周知の事実です。それが機械学習の原理です。これらは数十億のテキストシーケンスを分析することで規則性を学習します。しかし、タスクを解決するために彼らが開発した内部戦略を理解することは依然として大きな科学的課題です。
Anthropicは神経科学からインスピレーションを得てこの問題に取り組みました。彼らはモデルの内部回路を直接可視化し操作するための方法を使用しました。例えば、Claudeに英語で韻を踏んだ詩を書くよう依頼すると、研究者たちはモデルが最初の行を書く前に語彙の選択を計画していることを観察できました。モデルは行末の単語、韻を踏む音、意味的内容を予測します。つまり、単なる一語一語の予測ではなく、自己回帰モデルの最も制限的な側面の1つである複数のトークンにわたって計画するシステムに直面しているのです。
この予測による推論は詩的言語にとどまりません。Claudeは研究者が「普遍的な概念空間」と呼ぶものを使用しています。簡単に言えば、人間の言語に依存しない抽象的な内部言語の一種です。フランス語、アラビア語、中国語で質問すると、Claudeは「大きさ」や「正義」などの概念に対して同じ概念表現を活性化させます。これが彼の一貫した多言語推論能力を説明しています。
そしてこれは重要なことです。これは1970年代にJerry Fodorが導入した「思考の言語」という概念を思い起こさせます。この仮説によれば、自然言語とは独立して、アイデアを表現し操作するために心が使用する内部記号言語、一種のメンタレーゼが存在するとされています。Anthropicの研究が示しているのは、Claudeがまさに言語間を意味を失うことなく移動できる同様の概念表現形式を開発しているように見えるということです。これは単なる単語ごとの翻訳ではなく、共有された抽象構造に基づく推論であり、大規模言語モデルの認知理解における真の転換点となる可能性があります。
しかし、もちろんすべてが完璧というわけではありません。研究はまた、Claudeが複雑なタスクに直面すると、架空の説明や推論を生成することがあることを示しています。必ずしも実際の論理的推論に従うことなく、信頼できる手順を発明します。目標はもはや正しく解決することではなく、説得力のある回答を作成することです。
捏造はランゲージモデルにとって基本的な問題です。そしてもしこれに興味があるなら、Artificialis channelの「Borges et la machine à fiction」の動画をご覧ください。
Claudeは範囲外の要求を拒否するように設計されていますが、部分的な要素を認識していると思いつつも続きを持っていない場合、時に捏造することがあります。彼は隙間を埋め、時には文の文法構造がセキュリティフィルターが阻止すべき続きを引き起こすことがあります。この研究で文書化されたこの現象は、一部の意図しないジェイルブレイク(制限解除)を説明するかもしれません。
最後に、この解釈作業はまた、Claudeが近似的な暗算を行う能力があることを明らかにしています。彼は計算機ではありませんが、記憶と戦略を組み合わせて結果を推定するために並列回路を使用することができます。ここでも、人間の推論のいくつかの特性を思い起こさせるメカニズムに触れますが、正確性の保証はありません。
これらすべてから学べることは、これらのモデルがどのように計画し、決定し、内部回路の一部を発明するかを理解し始めているということです。これらの研究は、より透明で理解しやすく、潜在的にはより安全なモデルへの道を開くため有望です。もちろん、結果が他のモデルで独立したチームによって複製されるまでは慎重さが必要です。
そして、モデルの知性をテストするためには、何を測定しているのかを知る必要があります。それこそがベンチマークArc AGI 2の使命であり、本当の問題を提起しています。モデルは抽象的に考えることができるのか、それとも訓練時に見たものを単に再現しているだけなのか?スポイラーですが、最高のモデルでも失敗します。
科学的かつ方法論的な側面に留まり、重要で私の心に響くトピックであるベンチマークArc AGI 2の第2版の発表について話しましょう。2019年、Kerasライブラリの作成者François Choletは、今や不可欠となった「On the Measure of Intelligence」という論文を発表しました。彼はImageNetや機械翻訳などのベンチマークでのパフォーマンスが知性を測定するのに十分であるという考えを批判し、代替案を提案しました。新しいタスクに適応する能力、抽象的に推論する能力、少数の例から一般化する能力を評価することです。
ここからArc AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)が生まれました。これは単なる生のメモリ化を超えた、この急速な適応能力を測定するために設計されたベンチマークです。そしてArc AGIについて話すのはこれが初めてではありません。以前のエピソードでLLMの限界について話した時にこのトピックに触れました。
今日、Arc 2では、Arc Prizeファウンデーションがこのロジックをさらに押し進めています。人間には簡単だが、モデルには大規模に抵抗する120の課題について話しています。そして小さなモデルだけでなく、OpenAIのGPT-4.5や3などの最も先進的なモデルもほぼ完全に失敗します。現在の最高スコアは4%に達しています。
なぜでしょうか?それは大量のデータのパターン認識をテストしているのではなく、記号的解釈、構成的推論、ルールの文脈適応などの能力をテストしているからです。私たちが考えずに行うことですが、とても強力なモデルでさえまだ再現するのに苦労していることです。
しかし、この版の最大の新機能は効率基準の導入です。タスクに成功するだけでなく、タスクあたり42セント未満のコストでオープンソースのソリューションで成功する必要があります。超重いモデルや不条理なパイプラインでのごまかしは許されません。100万ドルの賞金が設けられているArc Prize 2025コンテストは、本当に新しいアイデアに報いるように構成されています。グランプリは、これらの厳しい条件下で85%の成功率を達成するチームに贈られます。これは、モデルを設計する方法を再考する必要があります。単に過大なトランスフォーマーを最適化するのではなく、異なる考え方が必要です。
昨年のコンテストでは、小規模なチームや独立した研究者から多くの場合、非常に高レベルの40以上の出版物が生まれました。これは巨大な研究所の外でもまだ革新できることの証です。
このベンチマークは重要な役割を果たしています。それは現実のテストとして機能します。なぜなら、実際には数十億のパラメータと巨額の予算にもかかわらず、本当に一般的な振る舞いからはまだ遠いからです。現在のモデルは補間に優れていますが、外挿、抽象的概念の理解、新しい文脈でそれを適用する能力は依然として非常に限られています。
しかし、ここでも少し冷静さを保つ必要があります。Arc AGIベンチマークは、それぞれがわずか10個の可能な状態を持つ約100個の正方形を持つ非常に単純化された世界に基づいています。基本的に、解決策の空間は実世界の複雑さに比べて非常に小さいのです。そしてそれがYann LeСunが批判していることです。彼にとって真の知性とは、何よりも複雑で騒がしく不確実な環境、実世界のような環境を管理する能力です。そしてArcベンチマークはそれをまったくテストしていません。
人間がこのベンチマークのタスクを解決できることは分かっていますが、その逆は真実ではありません。ベンチマークを解決することは、必ずしも人間レベルの知性に達したということを意味するわけではありません。
一部の人々がモデルをより知的にしようとする一方で、他の人々はそれらをより創造的にしようとしています。そして動画生成の分野では、今週は特に活発でした。オープンソース、速度、視覚効果について、本当の進歩を解説します。マーケティングの約束と本当の技術革新の間には、解明すべきことがたくさんあります。
まずはACC Videoから始めましょう。これはディフュージョンベースの動画生成への新しいアプローチを提案するオープンソースモデルです。従来のモデルが順次ループでノイズを画像ごとに除去するのに対し、ACC Videoはディフュージョンの初期ステップと最終ステップの間に直接ジャンプを適用し、これにより処理が最も近い競合よりも8倍速くなります。これは巨大です。
品質を保証するために、彼らは訓練中に敵対的戦略も組み込んでいます。コードはHugging FaceとGitHubでよく文書化されており、コミュニティにとって本当に良いことです。
補完的なロジックで、Video T1は「test time scaling」と呼ばれる後処理システムを提案しています。モデルを再訓練するのではなく、複数のバリエーションを生成し、木構造とランダム検索を使用して最良のフレームを選択します。これはシンプルだが強力な方法であり、特に既存の任意の動画ジェネレーターに適用可能です。
画像生成の側面では、Beyance Genはチェックすべきモデルです。これにより、現在最高のオープンソースジェネレーターの一つであるFluxモデルに基づいて、単純な参照写真から一貫した画像を生成することができます。興味深いのは、生成が制御可能であり、ControlNetやOmniなどのモジュールと互換性があることです。
XFieldは別の動画生成モデルで、映画的効果に焦点を当てています。実際の機器なしでもドリーショットやブレットタイムなどのカメラの動きをシミュレートすることができます。技術的には、おそらくシーンを解釈し、視覚的に画像ごとに視覚効果を再構築するモデルです。ここでも革新は明確ですが、モデルはクローズドであり、データ管理や結果の再現性に関する情報はありません。
そこでコントラストが重要になります。ACC Video、Flux、Infinitudeのようなプロジェクトはオープンソースであることで、学習、再現、適応、使用しているものを理解することができますが、閉鎖的なソリューションはブラックボックスのままであり、デモでは優れていても実際には不透明です。
今日、技術革新を推進しているのは本当に自由なツールです。そしてこれは重要なメッセージだと思います。それは単にライセンスの問題ではなく、芸術、コード、科学を生産するために使用するツールを作成、理解、改善する私たちの集合的能力がどこに向かうかという問題です。
3Dの側面では、Oclu Gaussianというプロジェクトがあり、まだ進行中ですが非常に有望です。原理は、疎な写真から3Dシーンを生成し、空間を個別に再構築された領域に分割することです。これは高い詳細レベルを維持しながら効率性を向上させます。オープンソースのリリースが発表されており、今後数か月でこのタイプのモデリングがより簡単にアクセスできるようになるかもしれません。
この部分をSin Cityで締めくくります。もちろん映画の話ではなく、訓練や最適化なしに単純なテキスト記述から3D世界を生成するプロジェクトです。これはオックスフォード大学のVisual Geometry Groupによる独創的なアプローチです。アイデアは、2つの既存のモデル、つまり画像ブリックを生成するFluxとこれらの画像を一貫した3D構造に変換するTritを組み合わせて、3Dシーンをブリックごとに構築することです。
各ブリックはコンテキストを考慮して生成され、これによりシーン内の良好な連続性が保証されます。そしてこれはすべて、何も再訓練することなく機能します。単に事前訓練されたモデルを活用しているだけであり、このテクニックをより簡単に使える、速く、軽いものにしています。
まだプロジェクトはクローズドですが、結果は有望です。Sin Cityはディープラーニングの通常のコストなしに複雑な環境を作成するための貴重な道を開いています。
では画像から声へ移りましょう。録音された声ではなく、文字通り思考された声です。技術的および人間的偉業で締めくくります。脳から直接読み取ることで、もはや話すことができない人々に声を取り戻します。
今日、言語と呼ばれるものの本質に触れる技術的進歩についてお話します。麻痺した人々の発話の回復についてです。研究者たちは、リアルタイムの音声ニューロプロテーゼに関する研究をNature Neuroscienceに発表したばかりであり、結果は率直に言って印象的です。このシステムは、音声の感覚運動皮質の高密度記録を使用して、神経活動を直接理解可能な音声に変換します。
ここでは80ミリ秒ごとの連続的なデコーディングについて話しており、これにより音を生成する前に完全な思考の終わりを待っていた古いアプローチとは違い、ほぼ流暢なインタラクションが可能になります。
技術的には、アーキテクチャはRNT(再帰的ニューラルネットワークトランスデューサー)モデルに基づいており、神経信号を音声の音響単位とテキストエンコーディングに変換します。これはシステムが2つの異なる言語、つまり神経の言語と人間の声の言語を同時に翻訳することを学ぶようなものです。
モデルはその後、患者の脳卒中前の声の録音から条件付けされたiFanシンセサイザーと結合されます。結果は、その人自身のように本当に聞こえるパーソナライズされた音声合成です。
パフォーマンスの面では、自由な語彙では毎分47単語、頻繁に使用されるフレーズでは毎分90単語以上の速度に達しています。比較すると、古いテクノロジーは応答遅延が最大23秒かかり、毎分数単語でした。ここでは遅延時間が短縮されただけでなく、誤検出率も非常に低く、重要な技術的堅牢性の証明となっています。
しかしそれだけではありません。システムは一般化できることも示しました。他の記録セッション、他のタイプの神経データ、さらには筋電図などの他の方法でも機能し続けます。これは、このタイプの研究では珍しい一種のモジュール性を示唆しています。
もちろん、これがまだ実験的であることを念頭に置く必要があります。結果は非常に有望ですが、臨床試験の一環として1人の参加者でのみ得られたものです。そしてこの種のプロジェクトでよくあるように、プライバシーとデータ保護の問題は重要です。このタイプのデータは非常に管理された条件下でのみアクセス可能であり、これは理解できますが独立した検証を遅らせます。
良いニュースは、ソースコードがまもなくGitHubで公開される予定だということです。これは私にとっては正しい方向への一歩です。このタイプのオープン性は再現性を可能にするだけでなく、システムの協調的な改善も可能にし、これは神経技術の分野では不可欠です。
ここでは、脳機械インターフェイスの設計における転換点を目撃しています。これはまだ自然な発話ではありませんが、沈黙した脳と外界との間でリアルタイムの対話が可能になっています。そしてこれは科学的、技術的、そして何よりも人間的な偉業です。
そして毎週のように、見逃せない研究論文で締めくくります。今週のペーパーはこちらです。
今週は、カーネギーメロン大学のチームによって提案された「Unified Multimodal Discrete Diffusion」という論文について話します。この論文では、この分野で通常見られるものとはかなり異なるアプローチを採用するマルチモーダル生成モデルであるUnidiskを紹介しています。
トークンを一つずつ生成する自己回帰アーキテクチャを使用する代わりに、Unidiskは離散拡散モデルに基づいており、生成だけでなく特に編集においてはるかに優れた制御を可能にします。具体的には、モデルは画像とテキストを離散トークンとしてエンコードし、その一部をマスキングすることでランダムなノイズを適用します。推論中、これらのトークンは徐々にマスク解除され、流動的で制御可能、そしてその場で修正可能な生成を可能にします。
特に興味深いと思うのは、モデルが画像テキスト共同インペインティングのような複雑なマルチモーダルタスクを処理する能力です。つまり、画像とキャプションの両方を一貫性を持って完成させるよう依頼することができます。そして自己回帰モデルはこれをはるかに下手に行います。
パフォーマンスの面では、結果は堅実です。FIDとCLIPのようなメトリクスで、Unidiskは条件付き生成と事前学習なしの編集において自己回モデルとなるモデルをしのぎます。また、CFG(Classifier-Free Guidance)の効果もテストし、プロセスの初めにのみ適用すると有意義にスコアが改善されることを示しています。
確かに訓練は高コストであり、古典的手法と同じ損失に達するためには約13倍の計算が必要です。しかし逆に、推論は特にリソースを最適化するマルチモーダルキャッシュ戦略のおかげでより速く、そして最も重要なことに、すべてのコードとリソースはオンラインで彼らのサイトとGitHub上で利用可能です。このような透明性は珍しく、まさにオープンソースコミュニティが進歩するのを可能にする種類のイニシアチブです。
Unidiskは、本当にマルチモーダルで柔軟、そして編集可能な生成システムに向けての一歩であり、基礎研究であれデジタルクリエーションであれ、他の作業のための優れた基盤です。
以上で人工知能における最新の進歩のこの概観を終わります。もしこれらの批判的で技術的な解読を楽しんでいただけたなら、購読してコメントを残し、何よりも好奇心旺盛で批判的でいてください。次回のニュースエピソードでまたお会いしましょう。


コメント