AIが独自のディープラーニングエンジンを構築…そして実際に機能している

NVIDIAの研究チームがAIコーディングエージェントを用いて、ディープラーニングシステムの全体を構築するという野心的な実験を実施した。人間のエンジニアが何千行ものコードを手書きする代わりに、AIエージェントがGPU上で動作し、メモリを管理し、訓練計算を処理する実用的なディープラーニングエンジンを自動生成したのである。その成果物であるVibe Tensorはオープンソース化され、Python層からC++コア、そしてCUDAによるGPU制御まで、複数の抽象化レイヤーにまたがる複雑なシステムをAIが構築できることを実証した。完全な本番環境向けではないものの、このプロジェクトは、AI支援によるソフトウェアエンジニアリングの未来を示す重要な概念実証として位置づけられる。

AI Just Built Its Own Deep Learning Engine… And It Actually Works

👉 Try Mammouth AI here: at NVIDIA ran a bold experiment: instead of engineers manually writing a full AI framework, they...

AIエージェントによるディープラーニングエンジンの自動構築
ディープラーニングフレームワークの複雑性
AI主導の開発ワークフロー
Vibe Tensorの位置づけと目的
テンソルとストレージの実装
ディスパッチャーと操作ルーティング
自動微分エンジン
スポンサー紹介:Mammoth
GPUサブシステムとメモリ管理
開発プロセスと検証
AI生成カーネルとベンチマーク
実際の訓練実験
マルチGPU訓練の実験
フランケンシュタイン合成効果
限界と今後の課題
AI支援ソフトウェアエンジニアリングの実験場
より広い視点:新しいワークフローの予兆
終わりに

AIエージェントによるディープラーニングエンジンの自動構築

NVIDIAのチームが、とんでもない実験を実行することに決めました。エンジニアが何千行ものディープラーニングシステムのコードを手書きする代わりに、AIコーディングエージェントに全体を構築させたんです。それも小さなデモではなく、GPU上で動作し、メモリを管理し、訓練の数学的処理を扱い、実際のニューラルネットワークを訓練できる本格的なディープラーニングエンジンです。

そして彼らはそれをオープンソース化しました。そのシステムの名前はVibe Tensorといいます。その背後にあるストーリーは、将来的にソフトウェアがどのように構築されるかのプレビューのように感じられます。

ディープラーニングフレームワークの複雑性

これが非常に魅力的な理由をお話ししましょう。ディープラーニングフレームワーク、つまり研究者やスタートアップが日常的に使用するPyTorchのようなツールは、内部が信じられないほど複雑なんです。

表面的には、数行のPythonコードが見えます。その下にはパフォーマンスを管理するC++があり、そのさらに下にはハードウェアと直接対話する特殊なGPUコードがあります。何も遅くならないように慎重にメモリを管理するシステムがあり、AIモデルが失敗から学習できるように何百万もの数学的操作を追跡するエンジンがあります。

このようなものを構築するには、通常、大規模なチームと何年もの作業が必要です。

AI主導の開発ワークフロー

では、大規模言語モデルによって駆動されるAIエージェントが、自動化されたワークフローを通じてそのシステムコードを書き、修正し、コンパイルし、テストを実行し、人間がすべてのコード変更を確認することなく結果をチェックする様子を想像してみてください。それがまさにここで起こったことなんです。

Vibe Tensorは基本的に完全なディープラーニングランタイムスタックです。表面的には、PyTorchを使ったことがある人なら誰にでも馴染み深く見えます。Pythonコードを書き、テンソルを作成し、操作を実行すると、すべてが硬直した構造に事前コンパイルされるのではなく、即座に実行されます。

その使いやすいPython層の下には、テンソル、メモリ、実行を管理するC++コアがあります。そしてその下には、NVIDIA GPU上で作業がどのように実行されるか、タスクがどのようにスケジュールされるか、メモリがどのように割り当てられ再利用されるかを制御するCUDAコードがあります。

驚くべき点は、このコードベースのほとんどが、AIエージェントが変更を提案し、システムをコンパイルし、テストを実行し、何度も何度も反復することから生まれたということです。人間は「データをコピーせずにスライシングをサポートするテンソルライブラリが必要だ」とか「診断を表示するスマートなGPUメモリマネージャーが必要だ」といった高レベルの目標を設定し、エージェントが詳細を埋めていきました。時には一度に何千行もの量でです。

Vibe Tensorの位置づけと目的

Vibe Tensorは、PyTorchをパフォーマンスで打ち負かしたり、本番環境のフレームワークを置き換えようとしているわけではありません。目標はむしろ巨大な概念実証のようなものです。非常に具体的な質問を投げかけています。

AIコーディングエージェントは、高レベルのユーザーコードから低レベルのGPUメモリ管理まで伸びる、一貫性のある多層システムを生成できるのか?そして、行ごとの人間によるレビューの代わりに、ビルドとテストによって検証することで、そのシステムを信頼できるのか?

Vibe Tensorは、少なくとも驚くべき程度まで、その答えがイエスであることを示しています。

テンソルとストレージの実装

このシステムが実際に何をするのか話しましょう。その核心には、独自のテンソルとストレージの実装があります。このシステムのテンソルは、その形状、データがメモリにどのように配置されているか、どのタイプの数値を格納しているか、CPUとGPUのどちらに存在するかを知っています。

データの柔軟なビューをサポートしており、つまりコピーせずに情報をスライスしたり再形成したりできます。これは実際のAIモデルのパフォーマンスに不可欠です。

ランタイムはバージョンカウンターも追跡するので、安全でないインプレース編集を検出できます。これは成熟したフレームワークが微妙なバグからあなたを守る方法と似ています。

ディスパッチャーと操作ルーティング

次にディスパッチャーがあります。これはすべての操作のトラフィックコントローラーと考えることができます。Pythonから加算や行列乗算のようなものを呼び出すと、ディスパッチャーがその操作のどのバージョンを実行するか、CPUとGPUのどちらで実行するかを判断し、呼び出しをルーティングします。

また、必要に応じて操作を追加ロジックでラップします。たとえば、訓練システムにフックするなどです。これは深いシステム配管であり、AIエージェントがスタックの複数の層を接続する機能的なディスパッチャーを配線したという事実は、すでに印象的です。

自動微分エンジン

その上には逆モード自動微分エンジンがあります。これはニューラルネットワークを訓練可能にする部分です。モデルを通じてフォワードパスを実行するたびに、このエンジンは静かに出力が入力にどのように依存するかを記録します。

後で、バックワードパスの間に、そのチェーンを逆に歩き、勾配を計算します。勾配はモデルに、より良くなるために自分自身をどのように調整すべきかを教えます。Vibe Tensorは、勾配が一緒に動作する異なるGPU間を流れることができるマルチデバイスセットアップでさえ実験しています。

スポンサー紹介:Mammoth

では、短い寄り道のために少し休憩しましょう。もしあなたがAIで多くの作業をしていて、どれが実際にタスクに適合するかを見るために異なるモデル間をジャンプすることになるなら、今日のスポンサーであるMammothが、そのワークフロー全体をずっと簡単にしてくれます。

Mammothは主要なAIモデルのほとんどを1つの場所にまとめています。Claude、GPT、Gemini、Llama、Mistral、Grok、DeepSeek、Deep Research用のPerplexity、さらにFlux、Nano Banana、Recraftのような画像モデルも含まれています。

そしてすべてが単一のダッシュボード内で実行されます。日常的な使用で本当に役立つのは比較セットアップです。同じプロンプトを異なるモデルに同時に送信し、それぞれがどのように応答するかを即座に確認できます。これにより、推測せずに、執筆、リサーチ、分析、または画像に適したモデルを選択しやすくなります。

カスタムMammothを作成することもできます。基本的には、繰り返しタスク用の特定の指示を持つ独自のプリセットで、プロジェクト内で整理された状態を保てます。

プライバシー面では、Mammothはヨーロッパを拠点としており、データはドイツでホストされ、完全にGDPR準拠で、モデルはあなたのデータで訓練されません。プロンプトはプロバイダーによって保持されず、いつでも履歴を削除できます。

プランは月額約10ユーロ、つまり約12ドルから始まり、すでに何百もの企業や公共機関で使用されています。説明欄のリンクからチェックしてみてください。

GPUサブシステムとメモリ管理

さて、ビデオに戻りましょう。GPUは物事が本当に興味深くなるところです。Vibe Tensorには、ストリーム、イベント、CUDAグラフのサポートを備えたカスタムCUDAサブシステムが含まれています。

簡単に言えば、これはシステムがGPUの作業を効率的に整理し、後で高速に再生するために操作のシーケンスを記録することさえできることを意味します。

システムには、GPUワークロード専用に設計されたスマートメモリアロケーターもあります。常にGPUに新しいメモリを要求して速度を遅くする代わりに、安全な方法でメモリを再利用し、開発者が時間の経過とともにメモリ使用がどのように変化するかを確認できるように詳細な統計を保持します。

これらすべては、AI支援ワークフローを通じて繋ぎ合わされました。

開発プロセスと検証

エージェントはコードを提案し、プロジェクトをビルドし、C++とPythonの両方でユニットテストを実行し、PyTorchのような信頼できるシステムと結果を比較します。変更がチェックに合格すれば残ります。何かが壊れた場合、エージェントは反復して再試行します。

人間は優先順位を導き、高レベルの方向性をレビューしましたが、日常的なコードレビューは主に自動検証に置き換えられました。

開発プロセスは、非常に現実的なシステムレベルのバグをいくつか浮上させました。GPUカーネルがハードウェアの制限を超えたためにクラッシュすることがありました。安定性トリックで間違った式を使用するなど、微妙な数学的差異のために数値エラーが現れることがありました。

どこかのGPUバッファが適切な初期化なしで再利用されたために、訓練ループが突然発散することがありました。

毎回、ワークフローは対象を絞った回帰テストを追加し、すべてを再実行することで対応し、徐々にシステムをより堅牢にしていきました。

AI生成カーネルとベンチマーク

Vibe Tensorには、AI生成カーネルスイートも付属しています。これらは、レイヤー正規化、回転埋め込み、アテンションなど、現代のAIモデルの構成要素となるタスク用の特殊なGPUルーチンです。

ベンチマークは、これらのカーネルをPyTorchのベースラインと比較し、特定の状況で大きな高速化を示すこともあります。たとえば、特定の正規化および埋め込みルーチンは、リファレンスバージョンの数倍速く実行されます。

アテンションは、より混合した結果を示し、いくつかの大規模な訓練セットアップでは利益があり、より小さなワークロードではパフォーマンスが低下します。

このばらつきは、パフォーマンスがハードウェアの詳細と慎重なチューニングに大きく依存することを強調しています。

実際の訓練実験

小さなテスト以外にも、チームはすべてが一緒に機能するかどうかを確認するために完全な訓練ループを実行しました。彼らは、シーケンス反転タスクで小さなTransformerを訓練し、CIFAR-10データセットでVision Transformerを訓練し、Hopperとより新しいBlackwell GPUの両方でシェイクスピアのテキストでミニGPTスタイルのモデルを訓練しました。

Vibe TensorはPyTorchと同じ種類の学習曲線を示しました。損失が減少し、精度が向上し、テキストモデルがより一貫性を持つようになりました。これは、コアピース、つまりテンソル、自動微分、オプティマイザー、GPU実行が現実的な訓練で一緒に機能することを教えてくれます。

パフォーマンスは遅く、時には顕著な差がありますが、これはプロトタイプとしては予想されることです。しかし、そのスケールでの機能的正確性は大きなマイルストーンです。

マルチGPU訓練の実験

彼らは、Fabricと呼ばれる実験的サブシステムと、Cutlassで構築されたカスタム通信プラグインを使用して、マルチGPU訓練も実験しました。このプラグインは、NCCLのような本番システムの置き換えというよりは研究例ですが、それでもスループットを増加させながら複数のGPUにわたって訓練をスケールさせることができました。

これは、クロスデバイス通信パスがエンドツーエンドで配線されていることを示しています。

フランケンシュタイン合成効果

このプロジェクト全体から得られた最も興味深い教訓の1つは、著者が「フランケンシュタイン合成効果」と呼んでいるものです。個々のサブシステムはそれ自体で完璧に合理的に見えても、それらを接着すると、予期しないグローバルなボトルネックが発生することがあります。

Vibe Tensorでは、訓練エンジンと操作ルーティングにおける特定の安全第一の設計選択が、隠れた速度低下を引き起こしました。たとえば、バックワードパスの一部をグローバルロックで囲むことで、正確性についての推論が容易になりました。

しかし、それは複数の訓練タスクが並行して実行されることも防ぎ、GPUパワーが十分に活用されない状態になりました。

これらの種類の創発的な非効率性は、AIがより複雑なシステムを生成するにつれて、人間とツールが注意を払う必要がある種類のものです。

限界と今後の課題

明確な制限もあります。APIサーフェスはPyTorchと比較して不完全です。多くの操作と分散機能が欠落しているか、部分的にしか実装されていません。パフォーマンスチューニングは最小限です。

コードは時々、一貫性のないスタイルや冗長な層を示すことがあります。これらは機械生成ソフトウェアの典型的な副作用です。著者はVibe Tensorを、本番環境にデプロイするものではなく、研究および教育プロジェクトとして公然と位置づけています。

それでも、このプロジェクトの重要性は生のスピードを超えています。

AI支援ソフトウェアエンジニアリングの実験場

Vibe TensorはAI支援ソフトウェアエンジニアリングのための生きた実験室として機能します。研究者や開発者に、言語、抽象化層、ハードウェアインターフェースにまたがるシステムを構築する際にAIエージェントがどのように振る舞うかを研究するための、実際の複雑なコードベースを提供します。

また、人間がもはやすべてのコード行を読んでいないときに、テスト、信頼できるシステムとの比較、再現可能なベンチマークがいかに重要になるかを強調しています。

より広い視点:新しいワークフローの予兆

より広い視点から見ると、これは新しいワークフローの初期の一瞥のように感じられます。エンジニアが目標と制約を定義します。AIエージェントが、コードを書き、ビルドを実行し、動作を検証しながら、大規模にソリューション空間を探索します。

人間はアーキテクチャと概念レベルで介入し、方向性を導き、結果を解釈します。この組み合わせは、従来のチームが必要とするよりもはるかに短い時間で、驚くほど洗練されたシステムを生み出すことができます。

したがって、「AIが独自のディープラーニングエンジンを構築した」と聞いたとき、それは魔法のような感覚的なプログラマーについての誇大広告ではありません。それは、慎重にガイドされ、強力な検証によって枠組みされた現代のAIシステムが、実際に実行され、モデルを訓練し、GPUと直接対話する複雑な階層化されたシステムソフトウェアを生成できることの実際のデモンストレーションです。