次トークン予測を超えて:CALM AI

本動画は、テンセント傘下のWeediと中国科学院大学が2025年10月に発表した革新的な言語モデル「CALM(Continuous Auto-Regressive Language Model)」について解説するものである。従来の次トークン予測から脱却し、次ベクトル予測という新たなパラダイムを採用したこのモデルは、変分オートエンコーダを用いて複数のトークンを圧縮した連続ベクトル空間で動作する。エネルギースコアという新しい損失関数、1950年代の気象予測研究に由来するブライアスコアによる評価手法、そしてベルヌーイ分布に基づく温度サンプリングなど、独創的な技術的アプローチが特徴である。しかし、オートエンコーダへの依存による誤差伝播リスク、計算の複雑性、チャンクサイズの最適化課題など、実用化に向けた未解決の問題も多く残されており、現時点では従来型トランスフォーマーと同等かやや劣る性能にとどまっている。

Beyond Next Token Prediction: CALM AI

Finally a new AI that implements the next generation after Next-Token-Prediction: CALM - CONTINUOUS AUTOREGRESSIVE LANGU...

CALMの登場:次ベクトル予測への転換
革新的な解決策:変分オートエンコーダの導入
変分オートエンコーダの実装
トランスフォーマーの訓練:エネルギースコアの導入
アーチャーの比喩で理解するエネルギースコア
損失関数の設計原理
2003年のエネルギー統計理論の応用
モンテカルロ推定による実用的解決
温度サンプリングの課題
ブライアスコアによる評価手法
評価の実践的アプローチ
潜在的な弱点の分析
チャンクサイズの最適化問題
実験結果の検証
結論:次ベクトル予測の可能性と課題

CALMの登場:次ベクトル予測への転換

皆さん、こんにちは。戻ってきていただいて嬉しいです。そう、CALMです。ついに次ベクトル予測が実現しました。私のチャンネルDiscoveriへようこそ。最新のAI研究論文を見ていきます。2025年10月の最後の日に発表されたこの論文は、テンセント傘下のWeediと中国科学院大学によるもので、連続自己回帰言語モデルについて述べています。

ついに、ついに、もはや次トークン予測ではない時代が来ました。それは退屈な古い方式です。しかし今、私たちは連続自己回帰モデルを手に入れました。そして唯一の疑問は、彼らがどのようにこれを実現したかということです。

皆さんは従来の自己回帰予測、次トークンアーキテクチャを覚えていますよね。ステップごとの情報量を増やすことは、古典的な方法では常にソフトマックスボトルネックによって妨げられていました。もし離散トークンにより多くの意味を詰め込もうとして、例えば文全体を表現し、その特定のフレーズや短い文に特定のトークンを割り当てようとすると、語彙のサイズが数百万、数十億に爆発的に増えてしまいます。なぜなら、4、5、6、7、8トークンの組み合わせをこのフレーズに詰め込んで、いわば巨大トークンを作ろうとすると、語彙が爆発的に増大し、最終的な予測状態の計算がほぼ不可能になってしまうからです。

革新的な解決策:変分オートエンコーダの導入

では、この新しい研究チームによる天才的な解決策は何だったのでしょうか。そうです、新しい解決策があります。そして今こそ、この古いトークンを祝う時だと思います。the quick brown foxという文があり、これがより美しい、より高い複雑性を持つものに変換されるのです。

つまり、単語のシーケンスから新しいベクトル表現を構築し、古典的なトランスフォーマーを訓練してこの新しいベクトルを予測させ、そして別の退屈なデコーダーを使って、予測されたベクトルを単語のシーケンスに変換し直すのです。つまり、トークンの予測から新しいベクトルの予測に交換するだけです。それだけです。

これが私たちが待ち望んでいた革命ではないかもしれませんが、これが解決策です。CALM、この真新しいモデルは、理論的な限界において従来のトランスフォーマーの性能に匹敵することができます。そしてあなたは「それで何?なぜこんなことをするのか?」と言うかもしれません。そう、計算上はるかに強力になるはずです。なぜなら圧縮するからです。トークンをベクトル表現に圧縮するのです。

解決策をお伝えしましょう。これらの生成モデルの訓練における解決策です。ここではエネルギースコアがあり、クロスエントロピーではありません。評価にはブライア関数を使用します。そして制御には棄却サンプリングを使用します。

もしこれが何も意味をなさないなら、それはまさに私が論文を読んだときに理解したことです。私は何のことかさっぱりわからないと言いました。さて、最初のステップは、この新しい解決策のために、追加のオートエンコーダーを構築する必要があるということです。古典的なトランスフォーマーがありますが、その前に全く新しい複雑性エンジンを構築する必要があり、それがオートエンコーダーなのです。そして、すべてがこのオートエンコーダーに依存していることを理解しています。

つまり、このモデルの性能に関する絶対的にすべてが、最高のオートエンコーダー、最も輝かしいオートエンコーダー、最も強力なオートエンコーダーにかかっているのです。なぜなら、ここでわずかでも何か問題が起これば、すべてが崩壊してしまうからです。

変分オートエンコーダの実装

幸いなことに、3年前にいくつかのビデオで変分オートエンコーダーとKLダイバージェンスのコードについて説明しました。拡散モデルが登場する前、変分オートエンコーダーをPythonでコーディングしました。変分オートエンコーダーユニットとCLIPを使った潜在拡散モデルや、画像生成のためのVector Quantized変分オートエンコーダーもありました。3年前、私たちはオートエンコーダーと変分オートエンコーダーに夢中でした。だから私たちはすべて知っています。オートエンコーダーの専門家なのです。

さて、これがその構築方法です。まず、古典的なオートエンコーダーを構築するのではありません。もちろん、変分オートエンコーダーを構築します。著者たちもこれに同意しています。損失関数は、再構成項とKLダイバージェンスの組み合わせになります。3年前にお見せしたとおりです。これについて特別なことは何もありません。もちろん正則化があります。なぜなら、この高次元多様体である潜在空間は、滑らかでより構造化された形式であるべきだからです。幾何学的な新しい解決についての私のビデオをご覧ください。

そして3年前の私のビデオからご存知のように、一般的な変分オートエンコーダーの失敗は事後分布の崩壊で、潜在次元が事前分布と完全に一致することで情報を持たなくなってしまいます。これをKLクリッピングを使用することで防ぎます。すべてが既知です。すべてが素晴らしい。すべてが標準的です。やってみましょう。

トランスフォーマーの訓練:エネルギースコアの導入

それからトランスフォーマーに移ります。どのように訓練するのでしょうか。このトランスフォーマーアーキテクチャ、古典的なトランスフォーマーですが、次トークンを予測するのではなく、次ベクトルを予測します。このベクトルは元のオートエンコーダーによって生成されたものです。

そして、ファジーな結果が返ってきます。ベクトルに少し量子的な振動があるようなものです。前のベクトルが与えられた状態で、このベクトルをどのように保護するのでしょうか。古典的なトランスフォーマーでこれをどうやって行うのか。ほとんど不可能です。

まず、著者たちはパラメトリック構造を完全に変更する必要があると決めました。ここでエネルギースコアを選択します。これは特定の尺度で、予測分布Pと真の観測値Yの間の不一致をサンプル距離を介して測定します。

もしこれが何も意味をなさなくても、気にしないでください。すぐに非常にシンプルな説明をします。なぜこれを行うかというと、クロスエントロピーがなく、クロスエントロピー計算に基づく損失がないからです。だから何か別のものを見つけなければなりません。そしてこの別のものが、私のシンプルな言葉で言えばエネルギースコアであり、これを説明します。

実際の訓練損失を計算しなければならないとき、計算できません。なぜなら、256次元で解かなければならない積分は決して計算できないからです。したがって、ここで少しトリックを使います。モンテカルロ推定量を使用します。各ステップでn個のサンプルを引き出し、nも制限されており、nが大きくなると崩壊が起こりますが、これについてはすぐにお話しします。モデルの生成ヘッドからサンプルを引き出し、オートエンコーダーの事後分布、つまり真の分布からm個のサンプルを引き出し、そしてこれらのファジー集合の距離を新しい数学空間で単純に計算します。つまり、やあ、この美しい新しいアイデアより簡単なものがあるでしょうか。

アーチャーの比喩で理解するエネルギースコア

そしてあなたは「なぜこれをやるのか」と言うかもしれません。科学のためです。では、非常にシンプルな例を挙げましょう。数学的な詳細に入ることなく、もっと詳しく説明できることを願っています。

アーチャーを訓練していると想像してください。100年ほど前に弓術を知っていました。さて、著者たちはアーチャーの代わりに変分オートエンコーダーを使用し、小さなファジーな的の領域を定義します。これが私たちの解を撃ち込みたい的です。アーチャーではなく、弓術を介してでもなく、私たちはAIです。そしてこの領域は、もちろん古典的なユークリッド領域ではありません。

この領域は、もちろん確率分布です。点の雲のようなもので、特定の文脈の複雑性が与えられた言語用語でベクトルの意味内容の概念を表しています。シンプルですね。AI予測をしたいのです。

では何をするかというと、トランスフォーマーは1本の矢を放つだけではありません。生成モデルなので、まだ古典的なトランスフォーマーアーキテクチャを持っています。不確実性を理解したいのです。だからこのAI、このトランスフォーマーアーキテクチャは、n本の矢の小さな一斉射撃を放ちます。例えば8本の矢です。各予測に対して8本の矢を放ち、このファジーターゲット領域に非常に特定のショットパターンを作り出します。想像できますか。

見てみましょう。ここにファジーターゲット領域があります。ここに8本の矢があるはずです。そして、的の中心から一定の距離があります。そしてパターンがあり、ファジーな的の領域があり、その領域は確率分布です。少し数学をしなければなりませんが、これは楽しいです。

アイデアは何でしょうか。的の真の中心からの距離のようなものを導入します。それは計量空間、行列空間のようなものです。そして、古典的なトランスフォーマーがこの予測のために的に射撃した8本の矢の分布が何であるかを理解します。なぜこれを行うかわかりますね。ああ、訓練のための古典的な損失関数がないからです。

トランスフォーマーをどのように訓練するかという問題があります。クロスエントロピー損失関数がありません。だから何か別のものを思いつかなければなりません。著者たちは言いました。このシンプルなことをやりましょう。

損失関数の設計原理

アーチャーをどのように訓練するのでしょうか。良いショットパターンに報酬を与える新しい損失関数が必要です。そして良いパターン、つまり8本の矢からのこの特定の幾何学的配置、強調させていただきますが幾何学的配置は、特定の特性を持っています。

まず、ショットパターンの中心がファジーな的の中心に非常に近いことを望みます。これを平均距離として測定します。そして実際には積分になりますが、ショットと的の中の点の間の距離です。これはアーチャーにこの距離を最小化するように伝えます。なぜなら、すべての矢がファジーな的の幾何学的中心に正確にあることを望むからです。これが条件Aです。

条件Bは、少し探索したいということを覚えておいてください。完璧なロビンフッドのショットのように、すべてが全く同じピンホールに入ることは望みません。少し広がってほしいのです。解空間を少し探索してほしい。他の複雑性を探索したり、他の銀河を飛び越えたりする可能性を理解してほしい。

だから矢を少し広げて、モデルの不確実性を反映させたいのです。なぜなら、統計を使うつもりだとお気づきでしょう。もしすべての矢が正確に同じピンホールに着地したら、統計をほとんど使えません。不確実性がないからです。だから不確実性が必要なのです。

アーチャーではなく、モデルに伝えます。あなた自身のショットを互いに少し広げて、完璧なロビンフッドにならないようにしてください。素晴らしい。そうでなければ、もちろんモデルの性能は自明な解に崩壊し、失敗してしまいます。

さて、エネルギースコアがあると言いました。著者たちは新しい損失関数を構築しました。これは単にこの特定の特性を最小化するもので、モデルの予測分布Pと真の分布Qの間のエネルギー損失と呼びます。

パターン分布を見ています。高次元の数学的確率分布空間のファジー要素上のパターン分布で、この数学空間には計量特性があるかもしれません。「これは簡単そうだ、これは新しい損失関数ではない」と言うでしょう。この2つの項を見てください。美しいでしょう。

最初の項を説明させてください。この項は、モデルの分布Pからのサンプルzと真のデータ分布Qからのサンプルz’の間の平均距離を測定します。天体物理学の重力のように考えてください。モデルが作る予測zを真の値z’にできるだけ近づけるように引っ張る重力のように作用します。これが実行する数学的最適化プロセスです。

しかし、そこから何かを引きます。「どうなっているんだ?」と言うでしょう。簡単です。この2番目の項は、モデルの分布Pから引き出された2つの独立したサンプルz1とz2の間の平均距離を測定します。

これはモデルが退屈で反復的であることにペナルティを課します。もしモデルが常に同じベクトルを生成したら、LLMの推論においてモード崩壊が起こります。これは距離のノルムがゼロに近づくことを意味します。これはより高い全体的な損失につながります。だから、少し広げてほしいと言ったのです。

完全に美しい。もちろん確率分布であるファジーな的の領域を完全にカバーします。「簡単だね」と言うでしょう。では、期待値の公式をどのようにコーディングするかという些細な問題があります。

2003年のエネルギー統計理論の応用

質問してくれて嬉しいです。なぜなら、この論文から学んだことを伝えなければならないからです。2003年の出版物、統計サンプルのエネルギーに関するものに遡ります。これはGabor J. Szekellyによるもので、全米科学財団の素晴らしい仕事です。2003年のものです。

問題を少し深く見ると、彼は正確にこれを持っていました。統計的オブジェクトには多くのタイプの距離を定義できます。これがL2距離です。さらに進むと、マンハッタン距離があります。そして累積分布を持つ独立確率変数を加えると、純粋に数学的なレベルで、彼は美しい公式に到達します。この公式を使います。

すべての詳細は元の論文ではなく、2003年のこの論文で見つかります。本当に理解したい場合は、あるいは著者が提供する公式を受け入れるだけでもいいです。

さて、注意してください。ここで対称性の破れがあります。なぜなら、語彙項の数が限られている次トークン予測ではないからです。例えば5万の語彙項があるとか、本当に高度な技術領域に入る場合は12万になることもあります。しかし今、連続ベクトル空間に入ります。

「おっと、もはや離散ではない、これは連続ベクトル空間だ」と言うかもしれません。したがって、期待値は総和ではなく積分になります。

この積分の計算実行はほぼ不可能です。なぜでしょうか。通常、離散空間では簡単です。期待値は、計算する加重平均を意味します。これが私たちがすることのすべてです。離散空間でこれを行う場合、単純に足し合わせるだけです。1万、5万、10万項を足し合わせて、完了、問題ありません。

256次元積分に入る場合、128次元のサブ空間しかない場合でも、これはすでに計算境界の低いレベルにあります。これを計算するのは興味深くなります。しかし、この項を計算する方法さえ知りません。だから、フレンドリーな言い方をすれば、いくつかの問題に遭遇します。しかし著者たちには解決策があります。

まず、ここで見る項が何であるか説明させてください。差は明確です。このPモデルは確率分布で、これは暗黙の未知の分布であり、言わば、数十億のパラメータを持つトランスフォーマー層の複雑な非線形フォワードパスによって操作的に定義されます。それが単に数学的計算を行っているだけです。

わかりません。これを解析的な形式でどう書くか全くわかりません。これに対して256次元積分をどうやって行うか全くわかりません。大きな疑問符ですが、まあ、単なる数学です。気にしないでください。

2番目の項、Q2は真のデータ確率密度です。注意してください、これは密度関数です。これは、特定の真のベクトルz’が現実世界でどれだけ一般的かを教えてくれます。そしてz’とz”に対して積分するだけです。素晴らしい。

これらは扱いにくい積分なので、どうするか知っていますか。近似します。通常、単純にモンテカルロ推定を行います。1990年代生まれなら、私が何を意味するか正確にわかるでしょう。

モンテカルロ推定による実用的解決

複雑性の新しいフレーミングがあります。未知の高次元確率分布に対する積分の不可能な微積分問題を、モデルに単に「矢を何本か撃ってください」と頼む簡単な実用的ステップに置き換えると言います。つまり、数千、数万の例を計算して、この実際の1万要素だけの計算から平均距離を計算し、これで十分な近似になります。ファインマン図のような1次近似、2次近似のように。シンプルです。クールじゃないですか。

特定のトークン固有の次トークン予測から、圧縮された新しい数学空間でより高い複雑性の要素、より高い複雑性のオブジェクトである次ベクトル予測へと移行します。

変分オートエンコーダーを構築しなければなりません。変分オートエンコーダーは、古典的なトランスフォーマーへの入力となる新しいベクトル表現を設計します。古典的なトランスフォーマーはこれを扱えません。だから、トランスフォーマーの古典的アーキテクチャに実装しなければならない新しい損失関数を構築する必要がありますが、新しい制限、新しい積分があり、積分ができません。したがって、近似を使わなければなりません。

近似それ自体がモンテカルロ計算であり、少し変換も必要です。なぜなら、収束させるために数学空間を縮小しなければならないからですが、これは単なる詳細です。

「本当に簡単になっているのか、それとも少し複雑さを加えているだけなのか」と言うかもしれません。

温度サンプリングの課題

結果はどうでしょうか。質問してくれて嬉しいです。なぜなら、古典的なトランスフォーマーでは温度t=0、1、2など、お好みのものがまだあることを覚えているからです。標準的な温度サンプリングでは、ソフトマックス関数の前にロジットを割ることで機能します。

しかし、CALMにはロジットがないと言いました。だから、ベクトル表現を予測するこの美しい新しいアーキテクチャで、古典的な計算と互換性のない古典的トランスフォーマーアーキテクチャという次の問題に遭遇します。

著者たちはこれについて考え、シンプルな解決策だと私が言うものを思いつきました。解決策と言いましょう。見てみましょう。

確率分布Pがあり、これは古典的なものではありません。低い温度、つまりtが1より小さい場合、分布をよりスパイクの多いものにしなければなりません。これが目標です。高い確率の結果がさらに可能性が高くなり、低い確率の項がさらに可能性が低くなります。

これは、トークン確率のより安全な、あるいはランダム性の低い生成につながります。高い温度の場合は正反対です。分布をより平坦にしたいのです。確率が均等化され、ありそうもない結果、つまり裾が確率分布としてはるかに妥当で、はるかに可能性が高くなります。これはトークンのより乱雑で創造的な生成につながります。

CALMにはロジットがありません。では何をするか。5分前に説明したのと同じことをします。サンプリングします。計算できないのです。探査するだけです。サンプリングします。正直言って、ブラックボックスであり、元の分布から引き出されたいくつかのサンプルを提供できます。しかし、それほど簡単ではありません。

しかし、このメカニズムはかなりシンプルであることがわかります。サンプリング、整数値の棄却サンプリングスキームの扱い方を知っています。問題ありません。非整数温度の場合は少し複雑になります。温度が1.7の場合、単純な近似は機能しません。

整数ではありません。1.428サンプルを引き出すことはできません。では何をするのでしょうか。根本的な物理学と少しの数学に戻ります。ベルヌーイ分布というものがあり、これはずっと前に解決されています。これは確率に関するもので、単に非常にシンプルな例を尋ねます。未知の確率Pで表が出るコインを与えます。

入力コインでのフリップを使用して、Pの関数ではない確率で表が出る新しいコインをシミュレートする工場を構築できますか。これは数学で解決されており、彼らは今これを温度計算に使用しています。

より簡単でしょうか。わかりません。これは理論的には知っていることですが、経験はありません。ベルヌーイ分布から純粋数学的なこの実装が、温度調整で本当に役立つかどうか、それが計算的および理論的にはるかに挑戦的であることは言えますが。

しかし、トランスフォーマーアーキテクチャに温度が全くない状態では、何かを見つけられて嬉しいです。しかし、本当に最良の手段でしょうか。今のところ言えません。私にとって、この研究を見るのは初日です。実際の経験はありません。これには数週間かかるでしょう。

ブライアスコアによる評価手法

数週間かかることについて話しましょう。これの評価をしましょう。そして今、この研究の著者たちから再び学びます。彼らは問題があると言います。古典的な方法では評価できません。ベクトルがあります。新しいベクトルを予測します。これをどうやってやりたいのですか。

そして彼らは言います。「ねえ、文献を見たんだけど、1950年1月1日、そう1950年、確率で表現された予測の検証に関する研究を見つけたんだ」と。信じられないでしょう。彼らはAIをやっていました。いや、気象学をやっていました。1950年1月に天気予報の問題がありました。

米国気象局ワシントンDCのGlen W. Brierが、特定の天気予報確率計算のための新しい検証式を発明しました。そして、このAI研究の著者たちは言います。「これが次ベクトル予測LLMと呼ぶこの新しいオブジェクトの評価への道を提供できる唯一のものだ」と。

すごいと思いました。これは…さて、図書館に行きました。これは1950年にタイプライターで打ったものだと思います。コンピューターではやっていないでしょう。わかりません。でもこの論文を見てください。本当に驚きました。このアルゴリズムを使って、次世代のAI LLMに進むのです。

これが彼らが見つけた公式だとお伝えします。なぜか理解したければ、論文を読む必要があります。しかし、これは精度報酬と信頼性ペナルティに関するものです。もしAIとして過信していれば、これは本当に悪影響があります。なぜなら、時々AIは「私が言うことはすべて100%真実だ」と言い、これが一般的な特徴ではないことにペナルティを課さなければならないからです。

この1950年の公式が、この全く新しい研究の著者たちによれば、巨大な問題を解決します。自身の確率を伝えられない生成モデルをどのように判断するか。ロジットがないからです。この情報がありません。完全に新しいベクトル分布があります。

ブライアからのこの公式を見ると、P(Y)とP(X)を使っていますが、CALMでは使えません。著者たちは言いました。「公式はあるけど計算できない」と。そして何だと思いますか。同じ解決策に行き着きます。「計算できない、解析的解がないから、モデルからサンプリングして、いくつかの値について計算して、これでいいことを願おう」と。

精度報酬とは何でしょうか。私のシンプルな理解では、正しい結果の確率の2倍です。信頼性のペナルティは衝突確率です。つまり、分布から2つの独立したサンプルを引き出した場合、それらが正確に同じになる確率です。

かなりシンプルです。この新しい方法論から学習したLLMの評価を提供してくれるでしょうか。著者たちはそう言い、これを計算し、この評価ベンチマークデータで結果を提供します。さて、これを受け入れなければなりません。

評価の実践的アプローチ

では、ハロウィーンの最終日からこのarXivプレプリントでのブレークスルーは何でしょうか。与えられたテスト文でこの新しいCALM方法論を評価するには、内部確率は必要ありません。彼らは言いました。「各ステップで、2つの次チャンク予測を要求し、それらを真の値yと互いに比較し、このシンプルな公式にゼロを入れるだけだ」と。

2つの予測だけで統計的にどうかわかりませんが、この公式に行きましょう。再び、完全な解析解のためではなく、サンプルベースの精度とサンプルベースの信頼性があります。

私はこれで満足でしょうか。あまり満足していません。彼らは言います。「これはモデルの予測品質を公平に評価する原理的なスコアを与える」と。これが著者たちが私たちに伝えることで、私は誰なのでしょうか、著者に疑問を投げかけるとは。

この公式は、信念を確率として表現できないCALMのようなモデルを評価するための迅速な解決策と呼びましょう。「この正しい文にどれだけ自信があるか」と尋ねる代わりに、その行動で判断します。少しデモンストレーションを計算させ、実際に実行された行動を取り、それらの行動に基づいて信頼性尺度を計算できると言います。このように呼びましょう。

潜在的な弱点の分析

さて、潜在的な弱点についてお話ししなければなりません。ハイプであることは知っていますし、多くの視聴者が「この論文についてどう思う?」と私に送ってきたことも知っています。美しいことは知っています。次トークン予測を代替する何かを待っていました。しかし、現実的になりましょう。少し科学的になりましょう。

潜在的な弱点はあるでしょうか。誤差伝播について考えてみましょう。2段階の性質、まずオートエンコーダーを構築しなければなりません。このオートエンコーダーを訓練しなければなりません。ドメイン固有のオートエンコーダーでなければなりません。世界で最高のオートエンコーダーでなければなりません。そして、このオートエンコーダーで何か問題が起これば、誤差伝播があります。全く対処できません。

これはシステムがエンドツーエンドで訓練されていないことを意味します。いや、これはフレンドリーな表現です。さあ、私はフレンドリーな人間です。オートエンコーダー表現空間が、堅牢であるにもかかわらず、言語モデル構成、特にトランスフォーマーのレイヤーアーキテクチャにおけるベクトルエンコーディングに不適切な失敗モードがあるでしょうか。

わかりませんと言わざるを得ません。賛成も反対もデータを見ていません。この誤差は伝播できないので、これは未解決の問題だと言います。

2番目、解釈可能性です。著者たちはここで興味深いモデル、温度サンプリングのための創造的なモデルと言いましょうか、を提供していますが、私の謙虚な考えでは、次トークン予測からの単純なロジット操作よりも計算的に確実にはるかに重いです。

本当にここで何か得られるでしょうか。少し計算時間が短くなるかもしれませんが、この特定の機能のために交換するのでしょうか。さらに、各ステップで限られた3万の語彙項目に対する確率分布を見ることの解釈可能性を失うと思います。特に高度に技術的な論文で、私はAIがどこにあるかを理解するために確率分布を見るのがまだ好きです。

チャンクサイズの最適化問題

固定サイズのチャンクサイズKで作業しています。K=4、K=6、K=8で完全なM計算を行うことが本当に最適でしょうか。平均的なシンプルな言語パターンがある場合、言い換えないでください。あるいは高度に技術的な数学的テキストがある場合、K=6、K=8で本当にいいのでしょうか。わかりません。

だから、言語テキスト自体の複雑性に応じた動的な、あるいは階層的適応的アプローチがあるべきではないかと言います。AIに、モデルに次ベクトルステップの概念的サイズをここで決定させる方が、より強力だと思います。このモデルの経験がない私やユーザーが、K=6に決めなければならないよりも。つまり、そうかもしれないし、そうでないかもしれません。

Kの制限について話しましょう。ベクトルを形成するKトークンのチャンクについて、論文はK=8でパフォーマンスが大幅に劣化し始めることを示しています。さて。しかし、著者たち自身が、チャンクサイズ10以上に対する容量制限があることを示唆しているなら、もちろん、今や8語または10語を含む数学的証明の文のような意味的フレーズがあり、これから1つのベクトルを構築し、これが文脈の内容を含むべきだという場合、これは小さな変分オートエンコーダーに少し多くを求めすぎているかもしれないと思います。

未解決の問題だと言います。重要な疑問は、より高い意味的帯域幅、16、32を活用できるようにモデルサイズを単純にスケールアップすることで対応できるかどうかです。自信があるとは言えません。これについての経験がありませんが、1つのベクトル表現に32語は、本当に効率性の向上があるのか想像できます。パフォーマンスは…

実験結果の検証

パフォーマンスについて話しましょう。LLMの実際の精度パフォーマンスで5倍良いでしょうか、100倍良いでしょうか。全くそんなことはありません。近づくだけです。古典的なトランスフォーマーのスモール、ミディアム、ラージがあり、2億、10億ではなく百万で、最大のものは80億の訓練可能パラメータモデルです。

それから、K=4のCALMがあり、ミディアム、ラージ、エクストララージがあり、エクストララージはすでに古典的なトランスフォーマーラージの2倍のサイズです。だから80億があり、18.8億の訓練可能パラメータモデルがあります。

ここでFLOPsを比較します。これは素晴らしいですが、この新しい評価パラメータ、BAスコアに行きましょう。高いほど良いことを知っています。ここでスモールを比較すると6、ミディアムはここのミディアムCALMよりも良いです。トランスフォーマーラージの80億と比較すると9に近く、このCALM XLの18.8億はそれよりも下です。

彼ら自身の評価統計パラメータ評価においてさえ、パフォーマンスはまだそこにありません。彼らは言います。「FLOPsに焦点を当てる」と。さて。比較して決めてください。パフォーマンスと精度を少ない計算量と交換したいですか。あなた次第です。

この新しい評価パフォーマンスパラメータの訓練依存性について、訓練ステップに関しては本当に確信が持てません。10万、20万、25万の訓練ステップ。青で大きな古典的なトランスフォーマー、オレンジで中サイズの古典的なトランスフォーマーが見えます。CALM XLが見えます。次ベクトル予測を持つ最大のCALMが、ラージとミディアムの間のどこかにあります。

25万訓練ステップ後、この評価ベンチマークでラージトランスフォーマーのパフォーマンスに近づいてくるかもしれません。だから、本当に確信が持てません。十分なデータがありません。とにかく、これです。みんなが話しているこの論文です。

結論:次ベクトル予測の可能性と課題

次ベクトル予測です。次トークン予測のヒントから、より高い複雑性の要素、より高い複雑性のオブジェクトである次ベクトル予測へと移行します。

しかし、少し注意深くあるべきだと思います。すぐに飛びついて完全に切り替えるべきではありません。なぜなら、多くの疑問があり、答えがまだ利用できないからです。ここでより良いパフォーマンスを交換しているのではなく、少し計算時間が短くなり、少し計算コストが下がると思います。それは美しいですが、多くの未解決の問題があると思います。

特に、密度の高い科学的テキスト、密度の高い科学的文脈でこれを評価する場合、パフォーマンスデータがありません。これが本当に前進になるかどうか言えません。

とにかく、このビデオを楽しんでいただけたことを願っています。あなたにとって何か新しい情報があったことを願っています。私のチャンネルのメンバーになっていただけたら素晴らしいです。チャンネル登録してください。とにかく、次のビデオでお会いできることを願っています。