モデルアーキテクチャ

Anthropic・Claude・ダリオアモデイ

15億の活性パラメータを持つMoEモデルがOPUS 4.6の推論性能を上回る理由

オープンソースのMoE(Mixture of Experts)モデル「Mio Version 2 Flash」が、わずか15億の活性パラメータでClaude Opus 4.6を因果推論タスクで上回った背景には、革新的なアーキテクチャ設計が存...
AI研究

DeepSeekがLLMを劇的に強化:Engramの登場

DeepSeekが発表した「Engram」は、大規模言語モデルの根本的な非効率性を解決する革新的なアーキテクチャである。従来のLLMは繰り返し出現する固有名詞やフレーズを毎回再計算していたが、Engramは人間の脳のような高速メモリモジュー...
AI研究

このAIブレイクスルーはDeepSeekを復活させられるか?

DeepSeekが新たに発表した論文「MHC(多様体制約付きハイパーコネクション)」は、AIモデルのスケーリングにおける根本的な不安定性の問題を解決する画期的な手法である。従来のハイパーコネクションは、レイヤー間の情報混合を豊かにすることで...
AI研究

AI位相転移に注意せよ(一階述語論理)

本研究は、大規模言語モデル(LLM)の論理的推論能力が複雑性の増加に対して線形的に劣化するのではなく、物質の相転移のように振る舞うことを明らかにした画期的な論文である。研究者たちは「論理的複雑性メトリクス(LOCM)」という新しい測定基準を...
Anthropic・Claude・ダリオアモデイ

Anthropic事前学習責任者が語るスケーリング則、計算資源、そしてAIの未来

本動画は、AnthropicでClaude開発の中核を担う事前学習チームを率いるNick Josephへのインタビューである。彼はOpenAI時代から一貫してスケーリング則の重要性を信じ、限られた計算資源を最大限に活用する技術的工夫によって...