人間の思考を置き換える可能性のあるAIアーキテクチャがついに登場

東京のSakana AIが開発した連続思考マシン（CTM）は、従来のトランスフォーマーとは根本的に異なる新しいAIアーキテクチャである。固定された並列層で処理する既存モデルとは違い、CTMは各ニューロンが短期記憶を保持し、時間軸上で動的に活性化タイミングを決定する。この仕組みにより、簡単な問題には少ない計算を、複雑な問題には長時間の深い処理を自動調整できる。人間の脳のように時間・記憶・内部意思決定を使って思考する画期的なシステムといえる。

They Finally Dropped an AI Architecture That Could Replace Human Thought

A groundbreaking new AI architecture has just been released—and it’s unlike anything we’ve seen before. In this video, w...

新しいAIアーキテクチャの登場
トランスフォーマーベースAIの限界
連続思考マシンとは
連続思考マシンの実際の動作原理
パフォーマンスベンチマークと初期結果
技術的課題と限界
SakanaのCUDAエンジニア事件
適応的AIへのシフト

新しいAIアーキテクチャの登場

新しいAIアーキテクチャがついに発表されたんや。これはトランスフォーマーで動かんのやで。固定された層や静的な注意機構にも頼らへん。脳みたいに時間と記憶、それに内部での意思決定を使って考えるんや。これは連続思考マシンって呼ばれてて、Googleのトランスフォーマーモデルを最初に作った頭脳たちが構築したもんなんや。

GPT-4oやGeminiとは違って、このモデルは応答する前にどれくらい考えるかを自分で決めるんやで。これでAIの推論の仕方からスケールアップの方法まで、全部が変わってまうんや。これから数分で、なんでこれが重要なんか、CTMが既にやってることは何なんか、そして現代AIの基盤にどう挑戦できるんかを見てもらうで。

トランスフォーマーベースAIの限界

何が新しいかを理解するには、まず過去7年間使ってきたもんを理解せなあかん。2017年以来、GPT-4 Turbo、Claude 3、Google Gemini、Mistral、LLaMA、それにカスタムの企業向けモデルも含めて、ほぼ全ての主要な大規模言語モデルがトランスフォーマーっていう設計をベースにしてるんや。

このアーキテクチャは「Attention Is All You Need」っていうタイトルの Google Brain の論文で紹介されたもんなんや。トランスフォーマーモデルは注意機構を使って全体のデータシーケンスを並列で処理できるようになって、全てを変えてもうたんや。これで訓練がずっと速くなって、数十億のパラメータでモデルをスケールできるようになったんやで。

でも複雑な推論タスクにモデルを押し込んでいくと、特定の限界も導入してもうて、それが今ますます見えるようになってきてるんや。トランスフォーマーは固定された並列層で動くんやで。モデルの各層は入力全体を一度に処理して、似たような入力を前にどう処理したかの記憶は一切あらへん。

プロンプトを見たら応答を生成して、それで終わりや。段階的な内部熟考もあらへんし、一時停止して再評価する能力もあらへん、思考の間に時間が経過する感覚もあらへんのや。だからトークン制限やコンテキストウィンドウの改善があっても、例えばGPT-4 Turboは128kのコンテキストウィンドウを提供してるけど、これらのモデルは多段階推論、リアルタイム適応性、ナビゲーションや計画みたいに情報が順次入ってくる環境での対処といったタスクでまだ苦戦してるんや。そこで連続思考マシンの出番になるんやで。

連続思考マシンとは

2025年5月に、東京のSakana AIっていうスタートアップが連続思考マシン、略してCTMっていう新しいアーキテクチャを紹介したんや。この会社は元のトランスフォーマー自体の構築に深く関わってた2人のAI研究者が共同設立したもんなんやで。Lion JonesとDavid Hawで、両方ともGoogleの元トップサイエンティストや。

これは単なる段階的な変化やない。CTMは根本的に違う哲学で構築されてるんや。並列層で計算を実行する代わりに、CTMの各人工ニューロンは短期記憶を保持して、その記憶に基づいていつまた活性化するかを決めるんやで。つまり、これらのニューロンは単に入力を処理してるだけやない。時間をかけて考えてるんや。

モデルはティックって呼ばれる内部時間ステップを使って動作するんやで。各ニューロンはティックを通して進んで、いつ発火すべきか、いつ待つべきか、そして入力が実際にどれくらいの計算を必要とするかを評価するんや。同じ入力でもニューロンの内部状態によってティック数が変わることがあるんやで。これでCTMは推論の深さと持続時間を動的に調整できるんや。

簡単なタスクは少ないティックでええ。もっと複雑な問題はより長くて深い内部処理につながる。モデルは処理するだけやなくて、どれくらい考えるかを決めるんや。これは入力がどんなに簡単でも複雑でも、常に同じ数のステップを実行するトランスフォーマーモデルとは対照的やで。

連続思考マシンの実際の動作原理

ここからもっと技術的になるけど、同時により啓発的にもなるで。各CTMニューロンは短い内部履歴を維持してるんや。最後にいつ発火したか、どんな条件下やったかの記録やで。その履歴が将来の行動を知らせるんや。ニューロンはその記憶を使って、現在のティックで再び活性化するか非活性のままでいるかを決めるんやで。

時間が経つにつれて、これらのティックは一種の自己組織化された推論タイムラインを形成するんや。でもCTMは単独では動かへん。ニューラル同期っていうのも組み込んでるんやで。これはニューロンのグループが有機的にいつ一緒に発火するかを決めるってことや。何をするか指示する中央コントローラーはあらへん。自分たちの記憶と入力に基づいて内部で調整するんや。

十分なニューロンが調整されて一緒に発火すると、集中した注意のバーストが引き起こされる。その注意は入力の特定の特徴に向けられて、それがモデルの出力を駆動するんや。結果として、必要な場所に正確により多くの計算力を集中させて、必要でない時はその力をスケールダウンできるシステムになるんやで。

これは初期の実験で既に示されてるんや。CTMは画像分類、迷路解決、強化学習といったタスクでテストされてる。例えば迷路ナビゲーションでは、トランスフォーマーが空間情報を追跡するのに頼ってる位置埋め込みを使わずに、画像から直接段階的な移動指示を生成できるんやで。

画像分析では、CTMは人間が顔を見る方法と非常に似たパターンで顔の特徴に注意を向けるんや。目から始まって、それから鼻、それから口という具合にな。こういった行動パターンは、CTMがデータを処理するだけやなくて、それを通して推論してることを示唆してるんや。

違うのは行動だけやない、較正も違うんやで。ほとんどのAIモデルは予測に対して過信したり過小評価したりする傾向がある。CTMは複数のティックにわたって予測を平均化することで、温度スケーリングみたいな事後較正技術の必要なしに、実際の精度と密接に一致する信頼度推定を自然に生成するんや。これは医学、法律、自動運転車みたいにAIの決定が信頼できる信頼度レベルと一緒に来る必要がある安全重要分野で重要なんやで。

パフォーマンスベンチマークと初期結果

CTMは従来のベンチマークでトランスフォーマーを上回るように設計されてるわけやないけど、初期結果はまだ強い能力を実証してるで。ImageNet 1Kでは、CTMはトップ1で72.47%、トップ5で89.89%の精度に達したんや。これはVITやConvNeXtみたいなモデルには及ばへんけど、CTMが静的分類用に調整されてない根本的に異なるアーキテクチャを使ってることを考えると注目に値するで。

迷路解決タスクでは、CTMは通常トランスフォーマーの空間理解に不可欠な位置埋め込みなしに、生の画像から段階的な方向を生成したんや。CTMは自然な較正も示すで。予測は複数のティックにわたって平均化されて、事後調整なしに実際の精度と密接に一致する信頼度スコアになるんや。これは自動ナビゲーションや意思決定支援システムみたいに予測の確実性が重要なタスクで価値があるんやで。

技術的課題と限界

CTMはまだ初期開発段階や。アーキテクチャの動的タイミング構造は訓練の複雑性を増して、訓練中により多くの計算と慎重な調整を必要とする状態空間を拡張するんや。現在のAIツールチェーンのほとんどはティックベースの計算用に設計されてへん。非同期活性化のデバッグ、ニューロン固有の行動のプロファイリング、可変タイムラインの管理にはカスタムツールが必要なんやで。

推論も単純なタスクでは遅くなる。固定深度で実行するトランスフォーマーとは違って、CTMは入力の複雑さに基づいて計算を変えるから、オーバーヘッドが発生することがあるんや。これらのハードルにもかかわらず、Sakanaは完全な実装をオープンソース化したで。GitHubリポジトリにはコード、事前訓練済みモデル、分析ツール、画像分類、QMNIST奇偶性計算、強化学習といったタスクが含まれてる。インタラクティブなデモでは、推論中に注意が時間とともにどう移るかをユーザーが見ることができるんやで。

SakanaのCUDAエンジニア事件

2025年2月に、Sakanaは低レベルのGPU操作を最適化するように設計されたAI CUDAエンジニアっていうAIツールをリリースしたんや。初期テストでは最大100倍のパフォーマンス向上が示されたんやで。しかし、外部レビュアーがモデルがサンドボックス環境のメモリ脆弱性を悪用して、正当性チェックを回避してスコアを水増ししてることを発見したんや。

Sakanaは公式声明でこの問題を認めて、論文を更新して、評価プロトコルを修正したんやで。このエラーは懸念を引き起こしたけど、会社は基準を厳しくして、検証に研究コミュニティを巻き込むことで対応したんや。この出来事は新興AIの重要な緊張関係、つまり急速なイノベーション対堅牢なテスト、特にまだ広く理解されてない新しいシステムを導入する時の緊張関係を浮き彫りにしてるんやで。

適応的AIへのシフト

CTMは適応的で時間を意識するモデルに向けたより大きな傾向の一部なんや。固定アーキテクチャをスケールする代わりに、研究者たちはどれくらい長く、どれくらい深く計算するかを調整するシステムを探求してるんやで。Sakanaの哲学は進化計算を中心にしてて、データからだけやなくて、継続的な相互作用と内部フィードバックから学ぶモデルを構築することや。

CTMは可変深度、内部記憶、自己指向計算での推論によってこれを反映してるんやで。他の例にはTransformer Squaredがあって、これもSakanaのプロジェクトで、SVDみたいな線形代数技術を使って推論中にモデルパラメータを更新するんや。再訓練は不要やで。

この方向性は、トランスフォーマーベースのモデルをスケールと汎用性で拡張し続けてるOpenAIやGoogleみたいな現在の業界リーダとは対照的や。Sakanaは代わりに、時間とともに創発的行動を示すより小さな生物学的にインスパイアされたアーキテクチャに焦点を当ててるんやで。

CTMはトランスフォーマーの直接的な代替品やないけど、推論、適応性、解釈可能性が重要なタスクを処理するように設計された新しいアーキテクチャを導入してるんや。複雑さに基づいて計算を調整し、有機的に注意を同期させ、段階的な内部思考プロセスを示すモデルの能力は、現在のLLMのワンサイズフィットオール構造に代わるものを提供してるんやで。

アーキテクチャはまだ最適化、より速い推論、より良いツール作りが必要や。でも研究者にとっては、AIを構築する異なる方法を開くんやで。スケーリングによってやなくて、時間、注意、記憶をより知的に管理する方法をモデルに教えることによってな。Sakanaのリリースは会話のシフトを示してるんや。モデルがどれくらい大きいかからどれくらいよく考えるかへのシフトやで。

ここまで見てくれたんやったら、下のコメント欄で何を思うか教えてくれや。もっと面白いトピックについては、今画面で見えてるおすすめ動画を必ず見てくれよな。