
9,953 文字

こんにちはコミュニティの皆さん、お帰りなさい。新しいLLama 4モデルが登場し、今日は最小のLLama 4である「Scout」について見ていきます。Scoutは特別なモデルで、1000万トークンのコンテキスト長を持っています。そして驚くべきことに、この性能を達成する方法は本当に簡単なのです。
Metaはここで2つのモデルを公開しました。すでに私は2つの動画で、4000億のトレーニング可能なパラメータを持つMaverickの実世界のロジックテストにおけるパフォーマンスを検証しました。しかし今日は、小さな弟分であるScoutを見ていきます。総パラメータ数はわずか1090億で、整数4量子化を使えば単一のNVIDIA H100 GPU上で動作させることができます。
しかし驚くべきことに、LLamaのScoutは1000万トークンのコンテキスト長ではなく、25万トークンのコンテキスト長で事前学習と事後学習の両方が行われました。私はどうやってこれが可能なのか興味がありました。システムが本質的に256kしか持たないのに、どうやって1000万が可能になるのでしょうか。
実はこれは簡単です。説明しましょう。自己注意層におけるソフトマックス関数を覚えていますか?アテンション・ロジットのようなベクトルに適用します。例として単純に3、2、1というベクトルを考えましょう。指数関数を計算し、指数関数の合計を出し、ソフトマックスを適用します。ソフトマックスの結果は、3に対して0.6、2に対して0.2、最小の1に対して0.09となります。
最も高いロジットである3はソフトマックス出力で約66%となり、明らかに他よりも際立っています。性能を求める場合、これは素晴らしい解決策です。ソフトマックス変換はどんな数値の集合も、私たちが求めるベクトル構造の最後の確率分布に変換します。
少し長くしてみましょう。100個の要素があるとしましょう。まだ1000万トークン長には程遠いですが、シンプルなロジックルーターで考えます。1つの要素は3(同じ3)で、他の99個の要素は0です。計算して指数関数の合計を出すと、ソフトマックス出力は変わります。3に対しては0.16、他のすべてに対しては0.008となります。
3が依然として最高値ですが、その確率は短いコンテキストでの66%と比べて16%程度に大幅に低下します。これは多くの他の数値が存在するためで、それらは小さいとはいえ、ソフトマックス関数の分母を増やし、全体的な分布を平坦にします。そのため信号は以前ほど明確ではなくなり、これが問題の原因となります。
LLama 4が非常に長いコンテキスト、例えば私には十分長い1000万トークンを扱おうとすると、従来のソフトマックス関数によって生成されるアテンションスコアは非常に平坦になり、モデルは最も関連性の高い情報部分を強調することができなくなります。この現象はすべてのモデルでアテンション・フェーディング・メカニズムとして知られています。
では、何ができるでしょうか?解決策はあるのでしょうか?このYouTubeチャンネルの登録者ならご存知のように、答えはYESです。1年前に私はUCバークレーとGoogleによるリングアテンションの解決策を紹介しました。1年前にはすでにGoogleによる無限コンテキスト長または100万トークンのコンテキスト長がありましたが、そのためにはインフラが必要でした。また、約10ヶ月前には「再帰型LLM:次世代」について詳しく説明し、Googleがどのようにしてこれを達成したかについて話しました。
しかし今はMetaの時代で、Meta LLama 4は本当に興味深いことをしています。2025年1月末にこの論文が公開されました:「Scalable Softmaxはアテンションに優れている」。東京大学知能物理学研究所のKenが解決策を見つけました。ソフトマックス関数、つまり数学的関数を少し修正するだけでいいのです。
従来のソフトマックスから少し修正するだけで、このスケーラブルなソフトマックス関数によって完璧な解像度と性能が得られます。平坦化しないのです。青色では従来のソフトマックス関数での低下の様子を見ることができ、赤色では実際のパフォーマンスが示されています。求めているロジットをすべて区別することが可能になります。素晴らしいですね。
Kenのおかげでこれは機能しますが、Kenはさらに検証を行いました。「干し草の中の針」のテストを行い、特定のLLMの一部のuモデルサイズに対するソフトマックスを計算しました。従来のソフトマックスでは緑色で示されている部分が良好でしたが、残りは赤色になっています。何も見つかりません。しかし新しいスケーラブルなソフトマックスでは、ほぼ最後まで緑色になっています。素晴らしいと思いませんか?
この論文には多くの数学的データとベンチマークデータがあります。興味があれば、数学的計算に深く潜りたい場合はこの論文をぜひお勧めします。Kenはなぜこれがスケーラブルなソフトマックスにとって非常に良い方法、おそらく最良の方法であるかを示しています。
自己注意には位置エンコーディングがあることをご存知でしょう。私のチャンネルをご覧になっている方なら、RoPEの美しさと素晴らしさについての2つの素晴らしいビデオがあります。8Kから400万コンテキスト長ウィンドウへの移行について、補間、カーネル、YARN、Long RoPE、TaTa Scaling、リングアテンションなどすべてを取り上げました。さらに、通常以上のTaスケーリングについての2番目のビデオもあります。この動画は6ヶ月以上前のものですが、私の知る限りでは回転位置埋め込み(Rotary Position Embedding)の仕組みを説明しています。
そして今、2025年1月末、非常に生産的な1月にCoherはここで解決策を提供します。Coherには新しいハイブリッドアテンション戦略があり、「RoPEからNoPEへ、そして戻る」という方法を示しています。このハイブリッドアテンション戦略はRoPEとNoPEレイヤーの混合であることがすぐに理解できます。NoPEとはNo Positional Embeddingの略で、これらのレイヤーでは位置埋め込みエンコーディングがありません。
そうすると、「ああ、これで1000万に到達する方法が理解できる。回転位置埋め込みと位置埋め込みのないレイヤーを混ぜるだけなんだ」と思うかもしれません。その通りです。彼らは混合が単純ではないことを発見しました。RoPEとNoPE(位置埋め込みなし)があり、正規化、重要な正規化を行う必要があります。彼らはこの長いコンテキストモデリングにおける強みといくつかの短所を特定しました。
Coherとその研究者のおかげで、1月末にこの解決策を見つけることができました。そしてはい、Coherは「従来のRoPEベースのトランスフォーマーを長いコンテキストタスクで上回るだけでなく、より短いコンテキスト長を必要とするベンチマークでも競争力のあるパフォーマンスを達成する、ハイブリッドアテンションメカニズムに基づく新しいアーキテクチャを提案します」と述べています。
2024年5月の論文を覚えていますか?上海の大学からの「位置エンコーディングなしの因果トランスフォーマーの長さ一般化」です。当時、拡張されたNoPE機能を検討しました。アテンションヘッドの最適な温度ハイパーパラメータを探すためのパラメータ効率チューニングを行っていました。彼らはハイパーパラメータ最適化を行えば、NoPEのコンテキストサイズを大幅に拡大できることを発見しました。
これはもちろんMITライセンスで公開されており、わずか22のスターしかありませんが、LLama 4の開発にとって非常に重要なものです。GitHubでたった22のスターしかないものを見ても、次世代AIモデルを前進させたいなら、これがまさに必要なものであることがあるのです。
まとめましょう。この動画の最初の部分から、推論時温度スケーリングと美しい新しいソフトマックスを取り入れます。ここでlog nに依存する因子でロジットをスケーリングし、長いコンテキストでのアテンションフェーディングと戦う武器を手に入れました。これはLLama 4の巨大なコンテキストウィンドウで行われています。
しかし、Coherからの位置埋め込みなし(NoPE)を使ったハイブリッドアテンション戦略を追加する必要があります。東京大学とCoherに感謝します。私たちは今、2つの強力なツールを手に入れました。そして、これら2つのツールを組み合わせると何が得られるでしょうか?Metaによる新しい「インテリジェントRoPE」です。まさに東京大学とCoherがこれらのアイデアを実装し、独自のブランド名を付けました。
「わあ、Metaが開発したんだ!」と思うかもしれませんが、いいえ、これはオープンソースコミュニティの成果であり、彼らが前進させています。これら2つの技術が、LLama 4の事前学習と事後学習の256kを超えてコンテキストを一般化する能力に貢献しているのです。彼らは今、このNoPE層間接続レイヤー構造によって極端に長い入力に対応できるようになりました。
「干し草の中の針」テストを行うと、1000万トークンのコンテキスト長を持つ小型モデルLLama 4 Scoutのパフォーマンスが素晴らしいことがわかります。これは完璧です!
これは素晴らしいと思いませんか?「よし、我々は達成した!LLama 4で100万トークンのコンテキスト長だ!素晴らしい!」と言うかもしれません。しかし、私の動画をご覧になった方は、私がここで「待ってください」と言うことをご存知でしょう。
まず、このチャンネルに新しく来られた未登録の視聴者の皆さんには感謝します。あなたにとっては動画の終わりです。視聴いただきありがとうございました。しかし、私のことを知っている登録者の皆さん、ここで私たちは科学を行っており、単なるPRではないことをご存知でしょう。
質問は残ります:情報の一部を見つけることは、その情報で推論することと同等なのでしょうか?つまり、Metaは本当に因果推論チェーン、一種のチェーンを持つことができるのか、それとも単に干し草の中の針を見つけることだけなのか、そしてこれは推論能力と同等なのでしょうか?
私が動画の第二部で言うことに驚かれるでしょう。大規模言語モデルのコンテキストウィンドウをすべて使い、トークンの90%を埋めると、推論のためのシステムのパフォーマンスが75%減少します。注意してください。干し草の中の針テストでは完璧に何かを見つけますが、非常に大きなテキストに基づいて議論したい瞬間、因果的な議論をしたい、システムが理解して論理的な答えを導き出すことを望む場合、最悪の場合、コンテキストウィンドウを埋めるとシステム全体のパフォーマンスが75%失われる可能性があることに注意してください。
「これは本当なのか?コンテキストウィンドウを埋めることがLLM推論の劣化につながるというのは本当なのか?」と思うかもしれません。「どこかアイダホの辺境にある小さな大学がこんなクレイジーな…」いいえ、MITです。2025年4月2日のMITの新しい出版物で、「制御プロンプトの変化を通じたLM推論の探求」についてMITが調査しています。これは少し遅れていますが、データは既に数ヶ月前のものです。
私がこの出版物を選んだのは、ある事実を示したいからです。2024年10月のAppleによる「GSM象徴的理解:大規模言語モデルにおける数学的推論の限界」を覚えていますか?彼らの調査結果は、LLMがしばしばパターン認識だけに依存し、真の論理的推論を行っていないことを示しています。彼らはただパターンを発見し、トレーニングデータからそのパターンへの回答を見つけるだけで、何も理解していません。
これがAIの正体です。パターン認識マシンにすぎません。しかし私たちは、これが超高度な知性を持ち、真の論理的推論を行うことを望んでいます。これはAppleによる少しの後退でした。「Appleが一般的な知性について何を知っているのか、何も知らない」と言うかもしれません。
この数学的問題のデータセットGSMは問題文の変化の影響を探りましたが、もし私たちがコンテキストウィンドウ内のノイズ摂動に焦点を当てたらどうなるでしょうか?Appleが行ったような問題文の変化まで行かず、単にプロンプトに少しのノイズを追加するだけです。これは超高度な知性を持つLlama 4モデルや大規模言語モデルに何か違いをもたらすでしょうか?
この研究はLLMの推論能力に異なる摂動がどのように影響するかを分析・調査することを目的としています。干し草の中の針を見つけるのではなく、推論能力、LLMが異なる形の入力摂動にどのように反応するかを理解することが目的です。彼らはこれがLLMのブラックボックスの内部を覗く懐中電灯のようなもので、内部の推論プロセスを発見できることを発見しました。
また、GSM+も覚えていますか?香港大学、10センターAIラボによる数学問題解決者の堅牢性を評価する包括的なベンチマークです。彼らは新しい文が追加されたり、質問のターゲットが変更されたりすると、LLMがミスを犯す可能性があることを発見しました。これは興味深いです。文を一つ追加するだけでシステムが問題を解決できなくなる。どうしてこんなことが可能なのでしょうか?私たちのAIは知的なはずです。
それでは動画の第二部を開いて、これを見ていきましょう。質問と回答があります。これは標準的な数学データセット、何百万人もの人々が使用するトレーニングデータセットからのものです。事前に定義されたトレーニングデータセットがあります。「クレアは毎朝3個の卵を作ります。4週間で何ダースの卵を食べることになりますか?」という問題と答えがあります。これがAIが学ぶべき正しい答えです。
しかし、トレーニングデータをほんの少し変更したらどうなるでしょうか?MITはこれらのモデルをチェックしました。これは最新のものではなく、Claude 3.7 Sonnetではなく3.5 Sonnet、GPT-4 Omniではなく03 miniでもありません。まだ01です。少し古いモデルですが、LLama 3.1、3.2を見てみましょう。
これらのモデルが少しノイズの多い入力に直面したとき、複雑な推論をどの程度確実に実行できるのでしょうか?私たちには「天才の火花」があり、悪魔の提唱者になりましょう。これは私たちのトレーニングデータセット、多段階推論のための小学校レベルの数学問題データセットです。これはどこでも見られる標準的なもので、Hugging Faceにもトレーニングデータセットとテストデータセットがあります。
ここでは単純な問題と解法、計算方法などすべてがあります。すべてのモデルがこれでトレーニングされています。これは標準です。そして中心的なアイデアは4つの論文の1つに基づいています。最初に紹介するのは2023年のものです。「なんて言うんだ、2023年?」と思うかもしれませんが、彼らはLLMが無関係なコンテキストに簡単に気を取られることを発見しました。
そこで「クレアは毎朝3個の卵のオムレツを作ります。4週間で何ダースの卵を食べることになりますか?」という問題に「上記の質問に答えるのに役立つかもしれないコンテキストは以下の通りです」という無関係なコンテキストを追加します。例えばXに関するウィキペディアのページや何らかの財務文書など、無関係な文書です。
これは典型的には検索拡張プロンプト(RAG)から得られるもので、それが生成LLMに供給されます。これは本当に興味深いことです。そして彼らは特定のモデルのコンテキストウィンドウの90%を占めるようにします。これは動画の前半で見たものです。単に90%まで埋めるだけです。しかし、1つの質問とナンセンスな内容だけなので問題ありません。干し草の中の針を完璧に見つけることができます。
そして病理的なケースがあります。病理的なケースは2021年の人工知能研究所による「事前訓練されたモデルの一貫性の改善」という出版物から生じました。例えば「すべての形容詞の前に色の名前を追加する」という病理的なもので、それは推論能力に全く関係ありません。
そして関連情報が増えるケースがあります。例えば「フィットネス愛好家であるクレアは、朝食に毎朝3個の卵のオムレツを作ります。彼女はアクティブなライフスタイルを維持するために、タンパク質が豊富な食事で一日をスタートさせることを信じています。これにより一日中エネルギーを維持できます。4日間で何ダースの卵を食べることになりますか?」という具合に関連情報を増やします。
これは典型的なRAG回答から得られるものです。何かを埋めるのではなく、単にRAGから抽出されたいくつかの追加文を提供するだけです。LLMにより多くの情報を提供することが、LLMの推論能力に何か影響を与えるでしょうか?これがMITが尋ねたことです。
さらに、病理的情報と関連情報の組み合わせを使用するケースもあります。病理的なものは青色で示されており、「すべての形容詞の前に色の名前を追加する」というもので、意味がありません。関連情報は先ほど見たものです。これらの4つのプロンプトノイズケースが検討されました。
私たちの美しい数学データセットには、複数の推論ステップが必要という内在的な能力があります。統計的に3つの推論ステップにピークがありますが、5つや6つの推論ステップまで行くことができます。これは素晴らしいことで、私たちが望むものです。単なる問題と回答ではなく、推論ステップ、LLMの推論プロセスを見たいのです。
結果を見てみましょう。MITは「我々の発見は過去2、3ヶ月の現在のLLMにおける重大な脆弱性を浮き彫りにし、改善された堅牢性の必要性を強調しています」と述べています。なぜだろうと思うかもしれませんが、結果は何でしょうか?
温度設定は0.2で、最大トークン制限は2Kでした。結果を見てみましょう。4つのパターン(無関係、病理的、関連プロンプト、関連と病理的の組み合わせ)とすべての平均があります。これは本当に興味深いです。
プロンプトに無関係な情報を追加すると、モデルのパフォーマンスに大きな影響を与える可能性があります。例えば、Mistral 8×22B(これは古いモデルで最新のMixモデルではありません)は、モデルのコンテキストウィンドウの90%を埋めると、パフォーマンスが78%低下しました。これは無関係な部分だけですが、Mistral 7Bは40%、Metra LLaMA 3.9(405億)は50%、LLaMA 3.1(8B)は75%、Gemma 2(現在はGemma 3があるので古いモデル)は83%低下しました。
単にモデルのコンテキストウィンドウを埋めるだけでこのような影響が出ています。Gemmaはトークン数で非常に限られたコンテキストウィンドウを持っていました。Command R+も2024年半ばのもので、パフォーマンスが67%低下しています。
病理的な情報では、非常に短い情報や病理的な情報を追加しただけなので、それほど厳しくなく、-6%、-5%、-20%、-22%の低下で大丈夫でした。しかし、なぜこれが起こるのでしょうか?
関連情報を追加するとどうなるでしょうか?これは良いことであり、RAGであり、LLMがより多くの情報を持つことを望むと思うかもしれません。しかしClaudeでさえ4%低下し、Command Rは10%、LLama 3.2(3B)は20%低下しました。何が起きているのでしょうか?
そして平均すると、本当に良くないことがわかります。これは何を意味するのでしょうか?LLMへのプロンプトにより多くの情報、より関連性のある情報を提供することが常に解決策ではないということです。もし「答えは本のどこかにある」と言って本をダウンロードしてプロンプトに入れ、1000万トークンを持ち、LLMに本の内容について推論してもらいたい場合、LLamaはパフォーマンスが75%低下します。これは進むべき道ではありません。
これを示したかったのですが、これは実際の全体像ではありません。モデルレベル、推論ステップに落とし込む必要があります。すべてが同じように動作するわけではなく、一般的な声明を出すことはできません。
無関係な部分を見てみましょう。トークンの総コンテキスト長の90%を無関係な情報で埋めています。LLMは「このナンセンスを無視して、クエリに答えます。私はこのトレーニングセットでトレーニングされました」と言うべきです。
GPT-4 O1はこのトレーニングセットで最良のモデルで、推論能力の低下はわずか10%程度ですが、これは4つの推論ステップだけの場合です。5つの推論ステップではゼロの低下に戻ります。GPT-4 O1は、コンテキストウィンドウに90%の無関係な情報を追加しても印象を受けません。
GPT-4 Omni(これは最新のものではなく数ヶ月前のもの)は興味深いパフォーマンスを示しました。2つの推論ステップでは-20%から始まり、3つの推論ステップでは-60%、4つの推論ステップでは約-80%まで低下し、5つの推論ステップでは-70~80%に上昇し、6つの推論ステップでは-100%のパフォーマンス低下となり、そこにとどまりました。
なぜこれが起こるのか、私たちにはわかりません。これはすべてトレーニング、システムに供給されたトレーニングデータ、トレーニングデータの内容、事前学習と教師あり微調整の質、おそらく強化学習に関連しています。GPT-4はこれをここで美しく示しています。これは最新のGPT-4ではなく、彼らは何が起きているかを理解しているので継続的に改善しています。
Mistralも緑色で、2つの推論ステップでは-40%、そこから下がり続けますが、6つの推論ステップでは突然0の低下に戻ります。これはどうして可能なのでしょうか?6つの推論ステップでトレーニングデータセットのどこかに、私の推測では、非常に多くの良い例があり、M7Bが「すぐに解決策を見つけました、プロンプト内の無関係な情報に気を取られません、対処できます」と言ったのでしょう。素晴らしいことですが、なぜこれが起こるのかについて深い理解が不足しています。
関連情報を見ると、各モデルが特別であることがわかります。病理的情報も各モデルが特別で、組み合わせはすべてが混沌としています。無関係な情報を埋めた場合の推論能力について何がわかるのでしょうか?私たちには何が起きているのか理解がなく、ただ「素晴らしい!」と言うだけです。深い理解はありません。
ここでMITの言葉を引用すると、「モデルのパフォーマンスは情報の量や複雑さによって決まるのではなく、非本質的な詳細を特定して無視する能力によって決まる」という重要な洞察が浮き彫りになっています。単にRAGで完全なライブラリを供給すればいいというわけではなく、小さなシステム、例えばLLama 3.1などは、これらの長いコンテキストウィンドウを処理する能力が全くなく、その内容について推論することもできません。
以上です。少し楽しんでいただけたなら嬉しいです。これはAI研究の最先端からのものであり、私たちはほとんど何をしているのかわかっていないことを示しています。しかし、AIの研究に興味を持ち、研究がどこに向かっているのか、解決すべき新しいアイデアを持つことは、本当に面白い時代です。
LLama 4は、ソフトマックスを少し修正し、RoPEとNoPEを交互に配置したレイヤーを挿入し、正規化を行うという単純な変更で、1000万のコンテキストウィンドウを達成できることを示す美しい例です。しかし推論パフォーマンスについては次の動画でもっと話します。


コメント