Meta AIとKostによる新しい論文「ニューラルコンピュータ」は、従来のコンピュータアーキテクチャに対する根本的な問いを投げかけている。コンピュータを使うスマートなソフトウェアを構築する代わりに、ニューラルネットワーク自体がコンピュータになったらどうなるのか。本論文は動画生成モデルを微調整し、ターミナルセッションやGUIをピクセル単位で生成するプロトタイプを提示する。計算、メモリ、入出力を単一の学習システムに統合するという野心的なビジョンを掲げるが、現時点では計算の外観を描画できても実際の計算はできないという限界も明らかになっている。チューリングマシンから微分可能ニューラルコンピュータ、世界モデルへと続く研究系譜の最新段階であり、実用性はまだ先だが、コンピューティングの未来像を示唆する重要な一歩である。

ニューラルネットワークが生成する完全な幻想
これを見て、何が起こっていると思いますか。ターミナルが見えますよね。ユーザーがコマンドを入力しています。例えば「create table ID integer」とか、「date」というコマンドを入力すると何かが起こります。ただし、ここにあるものは何ひとつ本物ではありません。ターミナルですらないんです。
皆さんが見ているのは動画モデルです。ニューラルネットワークがこのターミナルセッションの一ピクセル一ピクセルをゼロから生成しているんです。コンピュータのふりをしているわけですが、それがあまりにも上手なので、私が真実を告げる前に、皆さんの脳はこの幻想を受け入れてしまったはずです。
これがMetaとKostによる新しい論文「ニューラルコンピュータ」の核心的な挑発なんです。私はこれについて多くの考えを持っています。Attention Spin by Tink Postへようこそ。私の名前はKenyaです。何が起こっているのか説明させてください。
ニューラルコンピュータという概念の本質
この論文はニューラルコンピュータ、略してONCと呼ばれるものを提案しています。その核心にあるアイデアはこういうことです。コンピュータを使用するスマートなソフトウェアを構築する代わりに、ニューラルネットワーク自体がコンピュータになったらどうでしょうか。モデル自体が実行中のマシンとして機能したらどうでしょう。計算、メモリ、入出力が単一の学習システムに統合されるんです。
実際には、彼らが現在プロトタイプを作成している方法は動画モデルを使っています。彼らは1つの2.1動画生成モデルを微調整して、画面のフレームを展開させます。開始フレームとプロンプトを与えるんです。例えば「Pythonと入力してエンター、10 + 15と入力してエンター」といった具合に。するとモデルはターミナルがどのように見えるかのビデオをフレームごとに生成します。
彼らはこれを2つの設定で行っています。1つはCLI、つまりコマンドラインインターフェースです。黒いターミナル画面ですね。もう1つはGUI、グラフィカルユーザーインターフェースです。マウスカーソル、ウィンドウ、メニュー、すべてを備えた完全なデスクトップです。
そしてここが人々を、そして私を興奮させた部分なんです。ターミナルバージョンでは、期待される答えを含む十分に詳細なプロンプトをモデルに与えると、83%の確率で正しい算術結果をレンダリングできます。しかしプロンプトに答えがない場合は4%です。
レンダリングと計算の違い
ですから、あまり興奮しすぎる前に、何が起こっているのかを正確に理解しましょう。このモデルは条件信号に従うことができる、極めて印象的なスクリーンレンダラーです。計算をしているわけではありません。画面上で計算がどのように見えるかを描いているんです。
著者たちはこの点について非常に正直です。これが実際に私がこの論文を尊重する理由の1つなんです。皆さんは思うかもしれません。ターミナルのスクリーンショットを描く動画モデル。これは本当に私の時間を使う価値があるのかと。その気持ちは分かります。
でもここでの野心は、プロトタイプよりもはるかに大きいんです。この論文が実際に提案していることを説明させてください。
従来のコンピュータとニューラルコンピュータの違い
従来のコンピュータには、互いに完全に分離された3つのものがあります。計算があります。CPUが数学を行います。メモリがあり、データを保存します。そして入出力があります。画面、キーボード、インターフェースです。
これら3つはバスで接続された別々のハードウェアに存在し、オペレーティングシステムによって管理され、人間が書く明示的なプログラムによって制御されています。
ニューラルコンピュータはそのすべてを崩壊させます。モデルの潜在状態、つまりネットワーク内部の隠れた表現が、計算、メモリ、インターフェースを同時に機能させることになっているんです。
オペレーティングシステムの層はありません。明示的なプログラムもありません。モデルの重みと内部状態がランタイムなんです。論文ではこれを潜在ランタイム状態と呼んでいます。
彼らが説明する長期的なビジョン、完全ニューラルコンピュータ、略してCNCと呼ばれるものは、チューリング完全で、普遍的にプログラム可能で、明示的に更新しない限り動作が一貫しているものになります。
言い換えれば、チューリングが夢見た方法での真の汎用コンピュータです。ただし命令セットを実行するトランジスタの代わりに、完全にニューラルネットワークの重みで作られているんです。これは極めて興味深いアイデアです。それが機能するかどうかは全く別の問題で、実際にそれについては後で触れます。しかし方向性、それが重要なんです。
ニューラルコンピュータの理論的ルーツ
ここで私は脱線したいと思います。なぜならニューラルコンピュータは無から現れたわけではないからです。ニューラルネットワークがコンピューティングマシンとして機能できるかという問いは、実はこの分野で最も古い問いの1つなんです。その経緯を辿ることで、この論文が本当に何をしようとしているのかを理解できます。
理論的なルートはアラン・チューリングまで遡ります。いいえ、当時はニューラルネットワークはありませんでした。しかし1930年代、チューリングはコンピュータとは何かを定義しました。シンボルを読み、シンボルを書き、状態を変え、テープに沿って移動するマシンです。
1990年代、Hav SigelmanとEduardo Zontakは、リカレントニューラルネットワークが理論上チューリング完全であることを証明しました。つまり無限の精度と無制限の時間があれば、RNNは理論上、あらゆるコンピュータができるあらゆる計算をシミュレートできるということです。実際には、誰もこれを有用なものにすることはできませんでした。
それからメモリの時代が来ました。2014年、DeepMindのAlex Gravesはニューラルチューリングマシンを発表しました。アイデアは、ニューラルネットワークに読み書きできる外部メモリバンクを与え、全体をエンドツーエンドで勾配降下法で訓練するというものでした。
2年後、Gravesはより洗練されたメモリアドレッシングを追加した微分可能ニューラルコンピュータでフォローアップしました。これらは素晴らしいエンジニアリングの成果でしたが、それでも明示的な外部コンポーネントでニューラルネットワークを補強していました。メモリは別個のモジュールでした。アーキテクチャは半分ニューラル、半分エンジニアリングでした。
一方、世界モデルの系譜は並行して発展していました。1990年代、Jürgen Schmidhuber、ええ、Schmidhuberについてはすぐに話します。なぜならこの人物は文字通りこの論文に参加しているからです。
世界モデルからニューラルコンピュータへ
彼は環境全体の微分可能なモデルを学習することを提案しました。2018年、David HaとSchmidhuberは世界モデルを発表し、潜在空間で環境のダイナミクスを学習し、それを計画に使用できることを示しました。その論文はニューラルコンピュータが試みていることの直接の祖先です。
それから大規模な動画生成器が登場しました。Sora、Ve、Genieは、視覚環境の豊かで一貫したダイナミクスを大規模に学習できることを示しました。
インタラクション側では、Claude Computer Useや様々なブラウザエージェントのようなシステムがありました。これらは全く異なるアプローチを取ります。彼らはAIを従来のコンピュータの上に置き、人間がするようにクリックしたりタイピングしたりさせます。
ニューラルコンピュータはこれらすべての脅威の交差点に位置しています。彼らが問うているのはこういうことです。ニューラルネットワークがコンピュータを使う部分をスキップして、代わりにニューラルネットワーク自体がコンピュータになったらどうでしょうか。世界モデルが外部環境を予測するのではなく、実際にランタイム自体として機能したらどうでしょうか。
実験結果:何が機能し、何が機能しないか
結果について話しましょう。なぜなら論文は75ページもあり、多くの実験を行っているからです。私が重要だと思うことをお話しします。
何が機能するか。ターミナルレンダラーは標準的な13ピクセルのフォントサイズで本当に優れています。VAEの再構成品質は素晴らしく、テキストがシャープで読みやすいんです。
彼らのCLIデータセットで微調整した後、モデルはガーベッジノイズを生成することから、視覚的に説得力のあるターミナルセッションを生成することへと移行します。文字レベルの精度は60,000トレーニングステップ後に54%に達します。
つまりモデルが生成したフレームにOCRを実行すると、レンダリングされた個々の文字の半分以上が正しいということです。これはピクセル単位でテキストを生成する動画モデルとしては実際に印象的です。
GUI側では、明示的な視覚的監視を使用すると、98.7%のカーソル精度を達成します。カーソルをSVGオーバーレイとしてレンダリングし、追跡するようモデルを訓練するんです。このトリックなしでは、カーソル精度は14%未満です。したがって正確なカーソル制御は学習可能ですが、適切な訓練信号がある場合に限られます。
そしてデータ品質の発見は印象的です。Claude Computer Useからの110時間の目標指向データが、すべてのメトリクスで1,400時間のランダム探索を上回りました。品質が量を圧倒するんです。
しかし何が機能しないか。シンボリック推論です。モデルに実際に算術計算を求めると、例えば「10 + 15 = 25と入力」といった場合、実際の精度は4%です。
モデル1.2.1は0%を取得します。Vo 3.1は2%を取得します。Sora 2だけが71%を取得しますが、著者たちはこれがネイティブな計算ではなく、システムレベルのトリックや追加の強化学習訓練によるものだと考えています。
これが論文の中心的な正直な発見です。現在の動画ベースのニューラルコンピュータは強力なレンダラーであり、条件付け可能なインターフェースですが、ネイティブな推論者ではありません。
計算がどのように見えるかを描くことはできます。計算自体を行うことはできません。4%から83%への跳躍、答えを条件付けに含める再プロンプトによるものは示唆的です。これはモデルがレンダリングすべきものについての指示に従うのは非常に上手だが、何をレンダリングすべきかを理解するのは上手ではないことを示しています。
そして長期的な一貫性も脆弱です。モデルは短いコマンドチェーンでは機能しますが、拡張セッションではドリフトします。ルーチンの再利用、異なるコンテキストで同じ手順を確実に実行することは、まだ解決されていません。そして明示的なランタイムガバナンスのメカニズムはありません。ソフトウェアを更新するようにニューラルコンピュータを更新することはできないんです。
Schmidhuberの皮肉な立場
さて、私はSchmidhuberの瞬間を約束しましたが、この論文は本当に面白いものを提供してくれます。Jürgen Schmidhuberは、ここに新しく来た方のために言うと、AIにおける伝説的で、深く両極化した人物です。
彼は基礎的な研究を行ってきました。LSTM、世界モデル、メタ学習と自己教師あり学習における多くのアイデアです。彼はまた有名なことに、現代AIの基本的にすべてが彼自身または彼の学生によって最初に発明されたと執拗に主張することでも知られています。
彼のTwitterフィードは、一人のクレジット回収プロジェクトのように読めます。しかしここに美味しいツイストがあります。今回事前クレジットを主張しているのはSchmidhuber本人ではありません。別の誰かです。
ニューラルコンピュータの論文が発表されてから数日以内に、2025年7月にNeural OSを発表した研究者Yun Dengが、ニューラルコンピュータは彼の研究に直接基づいており、それを適切に認めていないというスレッドを投稿しました。
Neural OSは本質的に同じ方向を提案していました。ユーザー入力から画面画像を予測する、ニューラルネットワークによって駆動される生成的オペレーティングシステムです。DengはAndre Karpathydが明確にしたビジョンに触発されて、実際に動作するデモ、論文、コードをリリースしました。
Dengの不満は具体的でした。75ページの論文で、Neural OSは関連研究セクションで一度だけ言及されており、リリース日付とコードがNeural OSインフラストラクチャの上に構築されているように見えると彼は述べました。
彼らの名誉のために言えば、主著者のMingchin Jukeは公に応答し、GitHubリポジトリにNeural OSの参照を追加することに同意し、懸念が公正であることを認めました。
しかしDengは、関連研究での一度の言及は先行研究との真摯な関わりと同じではないと指摘して反論しました。
誰がどのクレジットに値するかを主張するつもりはありませんが、このエピソードは現在この分野がどのように機能しているかについて重要なことを明らかにしていると思います。出版のペースは非常に狂っており、自分の研究を最大限に新規なものとして組み立てるインセンティブは非常に強いため、概念的な重複が重要であっても、意味のある先行研究が単一の引用に圧縮される可能性があるんです。
そしてここに真の皮肉があります。Jürgen Schmidhuberは何十年もの間、まさにこの種の不満を他人の論文について述べてきました。そして今、それが彼が共著した論文に起こっているんです。あまりよくありませんね。
AVBがXで述べたように、ニューラルコンピュータは基本的にターミナルとGUI環境のための動画拡散世界モデルです。このフレーミングは公正で正直です。それをニューラルコンピュータと呼ぼうが、Neural OSと呼ぼうが、コンピュータ世界モデルと呼ぼうが、基礎となるメカニズムは同じアイデアのファミリーです。
ブランディングは異なり、野心は異なりますが、プロトタイプの基盤、ユーザーアクションに条件付けされた動画モデルは共有されています。
なぜこれが重要なのか
そしてなぜこれが実際に重要なのか。これが私が皆さんに覚えておいてほしい接続です。現在の形でのニューラルコンピュータはコンピュータではありません。それらは動画モデルが驚くべき忠実度でインタラクティブなインターフェースをレンダリングすることを学習できることの実証です。
それは実際の結果ですが、レンダリングの結果であり、計算の結果ではありません。しかし方向性は重要です。なぜならこの論文が本当に問うているのは、コンピューティングの未来はハードウェア、オペレーティングシステム、アプリケーション間の従来の分離を必要とするのかということだからです。
それとも十分に有能なニューラルシステムがこれらすべての役割を単一の学習基盤に吸収できるのでしょうか。軌道について考えてみてください。世界モデルはゲーム環境を予測することを学習し、次にインタラクティブな環境を、次にデスクトップインターフェースを学習します。
押し続けると、モデルがコンピュータ画面がどのように見えるかを予測しているのではなく、コンピュータそのものになっている地点に到達します。シミュレーションから実行への移行、それが難しい部分であり、私たちはそれにはまったく近づいていません。
しかしそれは刺激的です。そして論文は何が起こる必要があるかを概説しています。実践におけるチューリング完全性、理論だけでなく。ルーチンをインストールして再利用する能力。明示的に更新しない限り安定した動作。そして実際に機能するネイティブなシンボリック推論。
これらのすべてが未解決の研究問題です。しかし私は時期尚早にこれを却下しないように注意したいと思います。なぜならコンピューティングの歴史は、後にインフラストラクチャになったアイデアについて、決して実用的にならないだろうと人々が言った瞬間で満ちているからです。
また私は過剰に売り込まないように注意したいとも思います。なぜならAIの歴史も、決して実現しなかった壮大なフレーミングで等しく満ちているからです。
結論
ニューラルコンピュータの論文が本当に私たちに与えてくれるのは、何十年もアイデアとして浮遊してきたものの、よく設計されたプロトタイプです。ニューラルコンピュータが本当のコンピュータになることはあるでしょうか。私たちはそれを見つけることになります。
そして現在の開発ペースで言えば、それはそれほど長くかからないかもしれません。しかし現在誰も予想していない形で到来する可能性があります。
皆さんはどう思いますか。この分野で何か研究をしたことはありますか。あなたのインスピレーションは何ですか。そしてこれがどのように展開すると思いますか。コメント欄に皆さんの考えを残してください。そしていつものように、いいね、チャンネル登録、シェアをお願いします。このチャンネルを成長させ続けましょう。ありがとうございました。またすぐにお会いしましょう。


コメント