LLM 生成の全出力を一度に実現（世界初の拡散型LLM）

5,413 文字

LLM generates the ENTIRE output at once (world's first diffusion LLM)

Register for 3-hour AI training with GrowthSchool! Free for the first 1000 people who sign up! My Newsletter for Regular...

大規模言語モデルにおけるブレイクスルーが起き、テキスト画像生成モデルから取り入れた全く新しい技術を使用して、10倍速く、10倍コスト効率の良いモデルが登場しました。これが拡散型大規模言語モデル（Diffusion Large Language Models）です。
従来の大規模言語モデルの仕組みは、一つのトークンを生成し、次のトークンを生成するという具合に、順次トークンを生成していくものです。前のトークンがなければ次のトークンを生成できません。
そこに登場したのが拡散型大規模言語モデルです。これは実際に応答全体を一度に、非常に粗い形で生成し、それを正解と考えるものへと反復的に洗練していきます。これはまさに拡散型テキスト画像生成モデルの仕組みと同じです。
テキスト画像生成モデル、特に拡散モデルでは、完全にノイズだらけの画像から始まり、徐々に洗練され、十分な改良を経て実際に何が描かれているかわかる画像になります。そしてそれを一度に行うのであって、1ピクセルずつ処理して次のピクセルに進むわけではありません。彼らはそのアプローチをテキストベースのモデル、大規模言語モデルに適用したのです。
この会社はInception Labsと呼ばれ、これが世界初の実用グレードの拡散型大規模言語モデルです。左側に見えるのは伝統的な自己回帰型LLMの様子で、一つのトークンを生成し、次のトークン、次のトークンと生成していきます。しかし右側では、75回の反復ではなく14回の反復でより速く、ほとんど意味をなさない粗いテキストから始まり、それを実際の解答になるまで洗練していきます。これはかなり信じられないことです。
繰り返しますが、10倍速く、10倍コスト効率が良く、これはテスト時の計算においてとりわけ強力になるでしょう。推論時のスケーリング法則により、これらの最先端モデルは実際には最終的な答えにたどり着くのがかなり遅くなっています。毎秒40〜50〜60トークンで処理している場合、テスト時計算に基づいて答えを提供する前に何分も考えていることがあります。しかし今や毎秒1000トークンで、答えを待つのはほんの数秒です。
そのため、問題に対してより多くのテスト時計算を投入しても、合理的な時間内で回答を得ることができるようになりました。私はしばらく前から言っていますが、現在のインテリジェンスのスケールアップにおける最大のボトルネックは、実際にはこれらのモデルが機能する速度です。例えば、コーディングをしている場合、プロンプトを入力すると、エージェントが解決策を考え出し、その解決策を反復するのに5分、10分、15分待つ可能性があります。それがたった30秒だったらどうでしょう。その可能性は凄まじいです。
また、カスタムハードウェアも必要ありません。このMercuryは、フロンティアの速度最適化LLMより10倍速く、NVIDIA H100で毎秒1000トークン以上で動作します。これはカスタムチップではなく、他のすべての大規模言語モデルが実行可能な、そして通常実行される標準的なチップです。
また、これは実際にコード生成モデルであり、コーディングに特化しています。これはさらに驚異的で、コーディングの方法を一夜にして変える可能性を秘めています。
詳細に入る前に、実際の動作をすぐに見せましょう。
「マウスカーソルに従って動く粒子システムを作成し、粒子の速度、サイズ、色のコントロールを追加してください。滑らかなアニメーションにはHTML5 canvasを使用してください。」
Enterキーを押すと…ほら、これはクレイジーなほど速かったですね、文字通り数秒です。ここに出来上がりました。明らかにこれはとても単純なデモですが、より複雑になる可能性があります。粒子のサイズを大きくしてみましょう…とても上手く動作しています。ポイントは信じられないほど速いということです。
「Pythonで簡単なバイグラムモデルを書いてください。」
はい、できました。興味深いのは、実際に実行しているときに順次処理されているように見えますが、実際にはそうではないということです。実際には全体を一度に、かなり粗くてノイズの多い方法で生成し、それから反復的に改善・洗練しています。そうして速度が得られるのです。これは完全に新しいアプローチです。
もしこのチャンネルをご覧になっていれば、Mambaアーキテクチャなど他のアプローチも試してきましたが、それらはうまく機能しませんでした。しかしこれは信じられないほどうまく機能しているようです。
ここに拡散効果が見えますね。これをオンにすると、拡散プロセスがどのように見えるかを確認できます。もう一つ例をお見せしますが、今回は非常に速いため何が起きているのか見るのが難しいので、速度を落としてみます。
最初は意味不明の文字の羅列ですが、時間の経過とともに（それもかなり素早く）自分自身を洗練して実際に意味のあるものになり、コンソール上でスネークゲームが完成しました。明らかに非常にシンプルですが、それで十分で、信じられないほど速いです。
これをVibe codingで試すのが待ちきれません。プロンプト間であんなに長く待つのにもう飽きてきたので、これは本当にすべてを変えるでしょう。
このセグメントのスポンサーであるGrowth Schoolに感謝します。2025年は重要な年で、エージェントが労働力に参入し、AIが私たちの仕事のほぼすべての側面に浸透しています。多くの人がAIが彼らの仕事を奪うと考えていますが、私は「AIを使用する他の人間があなたの仕事を奪う」と言います。
超生産的になるためには、AIの使い方を学ぶ必要があります。このチャンネルを見ているなら、あなたはすでに群を抜いていますが、さらに進むこともできます。最先端のAIスキルを学ぶ優れた方法は、Growth Schoolのコースを利用することです。Growth Schoolは3時間の実践型AIトレーニングを提供し、25以上の異なるAIツールの使用方法を教えます。
これがあなたの会社のスターになる方法です。財務、営業、人事、採用など、どの分野にいても、AIを学ぶべきであり、Growth Schoolでそれを実現できます。Growth Schoolはグローバルで100万人以上のスキルアップを支援してきました。これは通常有料のトレーニングですが、現在、最初の1000人の登録者には、下の説明欄にあるリンクを通じて無料で提供されます。ぜひGrowth Schoolをチェックしてください。再びスポンサーとなってくれた彼らに感謝します。
さて、ビデオに戻りましょう。では、実際のパフォーマンスはどうでしょうか。ベンチマークを見てみましょう。
こちらはArtificial Analysisによる分析です。X軸は出力速度、Y軸はコーディング指数を表しています。左上には出力速度が非常に遅いClaude 3.5 Haikuがありますが、非常に高いスコアを記録しています。こちらでは出力速度がかなり速いMercury Coder Smallがあり、GPT-4o Miniとほぼ同等です。そしてMercury Coder Miniは毎秒1100トークン以上で、DC Coder V2 Lightや他の小型モデルとほぼ同等です。
ここで重要なのは、より多くのテスト時計算を行うことで、これらのモデルはより良く、よりスマートになれるということです。こんなに高速な推論速度で実行できれば、非常に短時間で多くのテスト時計算を実行できます。これらのモデルが改善できない理由はありません。
現在の大規模言語モデルは自己回帰型であり、基本的には一つのトークンを生成し、次のトークン、次のトークンと生成していくことを意味します。前のトークンを生成せずに次のトークンを生成することはできません。各トークンは数十億のパラメータを持つニューラルネットワークを評価する必要があります。フロンティアLLM企業は、推論と誤り訂正能力を向上させるためにテスト時計算に賭けていますが、これらの長い生成、長い思考時間は、レイテンシとリテラルなトークンコストの両方で多くのコストがかかります。
しかし拡散モデルはそのようなパラダイムシフトを提供します。これらのモデルは、上の動画にあるように、出力が純粋なノイズから数回のノイズ除去ステップを経て洗練される粗いトークン生成プロセスで動作します。
ただ速いだけではなく、推論能力も潜在的に向上しています。これを聞いてください。拡散モデルは前の出力だけを考慮することに制限されないため、推論と応答の構造化がより優れています。また、拡散モデルは出力を継続的に洗練できるため、間違いや幻覚を修正することができます。つまり、全体を生成し、全体を見て、すべてを一度に反復して修正するのです。考えるだけでもクレイジーです。
これは実際に成功した拡散ベースのテキスト大規模言語モデルが初めてです。RAG、ツール使用、エージェンティックワークフローなど、すべてのユースケースをサポートしています。
こちらは実際にどれだけ高速かを示す別のグラフです。こちらがMercury Codersで、こちらが2番目に速いQwen 2.5 Coder 7Bです。これは小型モデルですが、この拡散ベースの大規模言語モデルの速度のほんの一部にすぎません。
コードをこれほど速く生成できたらどうなるでしょうか。MercuryとClaude、ChatGPTを比較した様子をお見せします。Mercuryがわずか6秒で完了するのに対し、ChatGPTとClaudeはかなり時間がかかります。ビデオで合理的な時間内に終わらせるために実際に早送りする必要がありました。36秒と28秒、本当に大幅な速度向上です。
この種のアーキテクチャは、この速度とサイズのフットプリントで、信じられない影響をもたらします。まず、エージェントです。これは明らかなことですが、エージェントは使用しているモデルの速度によってのみ制限されます。エージェント間、特に思考ベースのエージェントでは多くの生成が必要なため、速度が唯一のボトルネックです。そのため、突然エージェントはずっと速く働き、より多くのことを達成し、そのためにより高品質になります。
次に、これほど安価なアーキテクチャ、安価な推論、速い推論で、テスト時により多くの高度な推論を行うこともできます。より多くの思考時間を得るモデルがより良く機能する例をすでに複数見てきました。今、その思考を時間のほんの一部に圧縮し、同じ時間だけ実行させると想像してみてください。はるかに多くの計算とはるかに高い品質の可能性が得られます。
これは私が実際に考えていなかった興味深いものです。コントロール可能な生成DLMは出力を編集し、任意の順序でトークンを生成でき、ユーザーがテキストを埋め込み、安全性などの目的に出力を合わせたり、ユーザー指定のフォーマットに確実に適合する出力を生成したりすることができます。再度言いますが、一度にすべてを行うことができるため、その出力をより制御することができます。
最後に、エッジアプリケーションです。これは私が本当に興味を持っているものです。これらのモデルのフットプリントが非常に小さいですが、非常に優れているため、ラップトップやデスクトップで実行できます。これらはエッジで実行するための小型モデルです。
人工知能の第一人者であるAndrej Karpathyがこれを再投稿し、いくつかのコメントを追加しました。誰かがこれに意見を述べるべき適任者がいるとすれば、それは彼です。彼の言葉を聞いてください。
「ほとんどの画像・動画生成AIツールは実際にこの方法（拡散）で動作し、自己回帰ではなく拡散を使用しています。テキスト、そして時には音声のみが抵抗してきました。なぜか理由があってテキストは自己回帰を好み、画像や動画は拡散を好むのか、それは私や他の多くの人にとって少し謎でした。これはかなり深いうさぎの穴で、これらの領域における情報とノイズの分布、そして私たち自身の知覚に関係しています。十分に注意して見ると、両者の間にも多くの興味深いつながりが現れます。つまり、このモデルには新しくユニークな心理学や新しい強みと弱点を示す可能性があるということです。皆さんにはこれを試してみることをお勧めします。」
約1ヶ月前に「Large Language Diffusion Models」という論文が出版され、同様のことを提案していましたが、実際に動作するモデルは提供されていませんでした。しかし今、私たちは手に入れました。この論文をチェックしたい方は、下の説明欄にリンクを貼っておきます。
これは本当に、これらのインテリジェントモデルから新しい行動を引き出す新しいタイプのモデルになる可能性があると思います。引き続きこれを試してみることにワクワクしています。本当にこれをカーソルやウィンドサーフに接続したいです。
この動画が気に入ったらぜひいいねとチャンネル登録をお願いします。次回の動画でお会いしましょう。