Metaの驚異的な新LLMアーキテクチャがゲームチェンジャーに！

4,397 文字

Meta's STUNNING New LLM Architecture is a GAME-CHANGER!

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

Metaのチームが、大規模言語モデルではなく「大規模概念モデル」というものを発表しました。文章の表現空間における言語モデリングについて説明していきましょう。AIモデルやニューラルネットにおいて、全てはトークンに分解されます。トークンとはマシンに学習させるための小さなデータの単位で、これを基に推論や次のトークンの予測などを行います。
例えばGPT-4oでは、「here is a simple」という単純な文章は7つのトークンに分かれます。各トークンは単語で、末尾のスペースやピリオドもトークンとなります。より複雑な単語は複数のトークンになることがあります。例えば「tokenized」は「token」と「ized」の2つのトークンになります。また、「sentence」というスペルミスをした場合は2つのトークンになってしまいます。
動画生成モデルの場合、トークンは動画用のもの、画像の場合は画像用のものとなります。これはほぼ全てのものに適用できます。AlphaFoldはタンパク質のフォールディングにおけるアミノ酸でこれを行っています。また、天候パターンや量子チップのエラーとその修正方法など、自然界で見られるほとんどの現象にも適用可能です。パターンがあり、そのパターンについてのデータを収集できれば、ニューラルネットに入力して出力を予測させることができます。
大規模言語モデルでは、入出力データは単語、より正確には「トークン」に分解された単語です。しかし、もし最小単位がトークンではなく「概念」だったらどうでしょうか？この論文で述べられているように、現在のLLMは入出力をトークンレベルで処理していますが、これは人間が単語を超えた複数の抽象レベルで情報を分析し、創造的なコンテンツを生成する方法とは大きく異なります。
そこで彼らは、より高次の意味的表現を持つニューラルネットの新しいアーキテクチャを提案しています。単語の代わりに「概念」と呼ばれるものを使用します。この高次の意味的表現である概念は、言語やモダリティに依存せず、より高次のアイデアや行動のフローを表現します。つまり、使用する言語や画像、テキストなどに関係なく、単語や言語を超えた意味をエンコードするというのがこの大規模概念モデルの考え方です。
これは特に最近のニュースを追っている人にとって重要です。中国のDeepseek V3が発表され、業界全体に衝撃を与えました。このモデルはMetaと比べて計算量が10分の1程度で、OpenAIのo1やo3のような推論モデルではないにもかかわらず、推論タスクで特に優れた性能を示しました。推論モデルから生成された合成データで学習されていましたが、重要なのは、これらのモデルが私たちの予想をはるかに超えて、より少ない学習、データ、計算資源で優れた性能を発揮しているということです。
彼らは大規模概念モデルの探求を16億パラメータのモデルから始め、1.3兆トークンの学習データを使用しました。これは現在の大規模モデルと比べるとかなり小規模です。現在の大規模モデルは1.7兆、Metaの最大モデルは4050億、中規模は700億、小規模は70億パラメータ程度です。その後、彼らは70億パラメータまでモデルを拡張しました。
彼らは要約と要約拡張という新しいタスクで基本的な評価を行い、モデルがゼロショット汎化で印象的な性能を示すことを発見しました。つまり、データから学習して、明示的に示されていないことも暗黙的に学習できるということです。これは私たちがこれらのモデルに期待する能力です。同じサイズの既存のLLMと同等かそれ以上の性能を示し、学習コードは自由に利用可能です。Metaは多くのものをオープンソース化しています。
長い間、これらのモデルはより大きく、より良く、より多くのデータ、より多くの計算、より多くのパラメータを必要としてきました。しかし今、振り子が逆方向に振れているように見えます。突然、10分の1の計算量で学習されたモデルや、異なるアーキテクチャを使用する小規模なモデルが同じサイズのモデルを上回る性能を示しています。
AIの進歩についてスケーリングを考える際、単に大きくすることだけでなく、より小さくても特定のタスクでより効率的なものを作る可能性も大いにあるということを覚えておく必要があります。
もう一つ非常に興味深いのは、この「概念」というアイデアが単なる単語の置き換えではないということです。大規模言語モデルは単語を使用しますが、彼らが言うように、この概念のアイデアは画像、動画、音声などより多くのモダリティにも適用できます。知識獲得において、大規模言語モデルは heavily データ駆動型であり、より多くの言語やモダリティに拡張するには通常、追加の合成データが必要です。より多くの言語を教えるにはそれらの言語でより多くのデータが必要になります。
しかし、これらの大規模言語モデルのアプローチは疑いのない成功と継続的な進歩を示していますが、人間の知能の重要な特徴である、複数の抽象レベルでの明示的な推論と計画が欠けています。これは少し複雑に聞こえるかもしれませんが、彼らは良い例を挙げて説明しています。
15分のプレゼンテーションを行う研究者を想像してください。通常、テレプロンプターから読み上げるような詳細な台本は用意しません。そうすると機械的に聞こえてしまいます。代わりに、伝えたい高次のアイデアの流れを概要として用意します。メモカードに大きなアイデアを書き、それを見ながら残りを即興で話すようなものです。
後で動画を編集する時に、なぜあんなジェスチャーをしたのかと考えて、その部分を編集しようかと思うかもしれませんが、結局残すことにします。研究者が同じ話を何度もする場合、実際に話される言葉は異なるかもしれません。異なる言語で話されることさえありますが、高次の抽象的なアイデアの流れは同じままです。
論文やエッセイを書く場合も同じです。導入部分やパラグラフ1、2、3、そして結論という構造に分解し始めます。各部分には伝えたい特定のアイデアがあり、重要なのは、文書全体をセクションに構造化するアウトラインがあることです。それを反復的に改良していきます。例えば、パラグラフ1で雲について扱うなら、まず雲の種類について述べ、その後各種類の雲について何を言いたいのかを決めていきます。
彼らは、特定の言語での実現ではなく、純粋に意味的なレベルでの基礎的な推論プロセスをモデル化することを目指しています。英語や他の言語での特定の表現方法ではなく、アイデアの本質を捉えようとしているのです。彼らのアプローチを検証するために、抽象化のレベルをサブトークンと概念の2レベルに制限しています。概念は多くの場合、テキスト文書の一文に相当します。
大規模概念モデルの仕組みを図で示すと、入力は単語から始まります。大規模言語モデルと同様にテキストを入力し、エンコーダープロセスがトークンを概念に変換します。出力を生成する際は、まず概念を出力するか、少なくとも概念のアイデアを持ち、最終的に単語として出力します。
例えば、アイデアや概念を要約する方法を示す例があります。左側の紫色の部分に5つの異なるアイデアや概念があります：
「ティムはあまり運動神経が良くなかった」
「スポーツを始めれば変わると思った」
「いくつかのチームの選考を受けた」
「どのチームにも選ばれなかった」
「代わりに自分で練習することにした」
これらが2つに要約されます：
1.「運動神経が良くなかったため、ティムはチームに参加して改善することができなかった」
2.「そのため、彼は自分で練習することにした」
大規模概念モデルの主な特徴と目的は何でしょうか？このモデルは、特定の文章や特定の言語での出力ではなく、基礎的な推論プロセスをモデル化します。これは、全ての言語とモダリティで同時に知識を獲得できることを意味します。階層的な構造で入出力を行うため、長い文書を編集する際に、流れを壊すことなく編集できます。
例えば、上の部分で何かを言及し、後でそれを参照する場合、その部分を編集して参照が意味をなさなくなるようなことを避けることができます。概念から始めて実際の単語を出力する方法では、ユーザーによるインタラクティブな編集がより良く機能し、構造を壊さないようにできます。
また、これらのモデルのほとんどにはコンテキストウィンドウ、つまり入出力できるテキストの大きさに制限がありますが、LCM（大規模概念モデル）は少なくとも1桁短いシーケンスで動作します。テキスト全体ではなく概念を出力するため、利用可能なコンテキストウィンドウにより多くの情報を圧縮できます。
興味深いことに、これらのモデルはあらゆる言語で比類のないゼロショット汎化能力を持っています。学習済みモデルを任意の言語に接続するだけで優れた性能を発揮できます。
結論として、現在の大規模言語モデリングのベストプラクティスはトークンレベルでの操作であり、多くの人々が漸進的な改良を行っています。しかし、アーキテクチャ自体を改善し、より高次の抽象的な概念に焦点を当てることで、これらの大規模概念モデルは少なくとも試されたタスクで非常に良い性能を示しています。
これがどこまで進展し、どれほどの影響を与えるかは見守る必要がありますが、アイデアは興味深いものです。なぜ単語や単語の一部であるトークンに限定される必要があるのでしょうか？これらのモデルは概念全体やアイデア全体を扱う異なるアーキテクチャで動作できます。
確かにMetaは興味深い研究を行い、全てをオープンソース化して、AI分野の知識体系に貢献しています。現在のベストインクラスのLLMの性能に達するにはまだ長い道のりがあり、より多くのデータ選択やモデルのパラメータ拡大などが必要ですが、これは将来的な革新につながる可能性のある興味深いアイデアです。
トークンレベルは、大規模言語モデルを学習させる最適な単位なのでしょうか？それとも概念やアイデア、あるいは私たちがまだ言葉を持たないような、より高次の抽象的なものでこれらのモデルを動作させる異なるアプローチがあるのでしょうか？
確かに、AlphaFoldのようなモデルは、他の方法では見つけられないパターンを発見しています。総当たり的な計算アプローチでは機能せず、人間の脳では把握できないパターン、私たちには認識できないパターンを、これらのニューラルネットは見つけ出します。私たちには見えない何らかのパターンや背景を発見するのです。
ご視聴ありがとうございました。私の名前はWest rthです。また次回お会いしましょう。