Transformer解説:AIを永遠に変えた発見

現代のあらゆる最先端AIシステムの基盤となっているTransformerアーキテクチャの誕生と発展の歴史を辿る動画である。1990年代のLSTMによる勾配消失問題の解決から始まり、2014年の注意機構を備えたSeq2Seqモデルの登場、そして2017年のGoogleによる画期的な論文「Attention is All You Need」によるTransformerの誕生まで、AI研究における三つの重要な技術的ブレークスルーを時系列で解説している。特に、初期のRNNが抱えていた系列処理の課題、LSTMによるゲート機構の導入、注意機構による固定長ボトルネックの克服、そして最終的に再帰構造を完全に排除したTransformerによる並列処理の実現という進化の過程が詳述されている。

Transformers Explained: The Discovery That Changed AI Forever

Nearly every modern AI model, from ChatGPT and Claude to Gemini and Grok, is built on the same foundation: the Transform...

Transformerアーキテクチャの誕生
注意機構の革新と実用化
単一タスクモデルから汎用システムへ

Transformerアーキテクチャの誕生

ChatGPT、Claude、Gemini、Grokなど、ほぼすべての最先端AIシステムは、同じ基盤となるモデルアーキテクチャ、つまりTransformerの上に構築されています。しかし、Transformerアーキテクチャはどこから生まれたのでしょうか。そして、その開発は、AIにおけるブレークスルーが起こる方法について、私たちに何を教えてくれるのでしょうか。早速見ていきましょう。

Transformerは、自己注意機構を使用してテキストや画像などの入力データを受け取り、そのデータ間の関係をモデル化し、最終的に意味のあるテキスト応答、翻訳、または分類などの出力を生成するニューラルネットワークです。多くの人は、元のTransformerアーキテクチャが、Googleによる現在有名な2017年の論文「Attention is All You Need」で紹介されたことを知っています。しかし、この一夜にして成功したものを可能にしたブレークスルーについては、知らないかもしれません。今日お話しする重要な発展が三つあります。

長短期記憶、注意機構を備えたSeq2Seq、そして最後にTransformerです。まず、長短期記憶ネットワーク、つまりLSTMから始めましょう。初期のAI研究を動機づけた核心的な課題の一つは、ニューラルネットワークに系列を理解させることでした。自然言語は本質的に系列的です。単語の意味は、その前後に何が来るかに依存します。

そして、文全体を理解するには、多くの単語にわたって文脈を維持する必要があります。フィードフォワードニューラルネットワークのような初期のアーキテクチャは、各入力を独立して処理するため、文脈を理解することができないか、固定長の入力を見る必要がありました。そこで研究者たちは、この解決策として再帰型ニューラルネットワーク、つまりRNNを開発しました。

簡単に言えば、RNNは入力を順番に一つずつ反復処理し、各ステップで前の出力を追加入力として消費します。したがって、入力の長さがnの場合、n回のフィードフォワードパスステップがあります。その結果、逆伝播中、初期の入力に関する勾配はn回の行列乗算の結果となります。

実際には、これは勾配消失と呼ばれる問題に直面することが多いことを意味していました。系列の初期の入力は、これらの複数の行列乗算を経るため、系列が長くなるにつれて、ネットワークの出力への影響がますます小さくなりました。訓練中に重みを調整するために使用される信号である勾配は、時間をさかのぼって伝播されるにつれて、ほぼゼロに消えてしまうのです。

1990年代、ホックライターとシュミットフーバーがこれに対する解決策を提案しました。それは長短期記憶ネットワーク、つまりLSTMと呼ばれるものでした。LSTMは、勾配消失問題を修正しようとするRNNの一種で、どの情報を保持、更新、または忘れるかを学習できるゲートを導入しました。これにより、バニラRNNが苦手としていた長期的な依存関係を学習することが可能になりました。

しかし、LSTMは90年代に大規模に訓練するには高コストすぎたため、進歩は停滞しました。さて、2010年代初頭に早送りすると、GPUアクセラレーション、より良い最適化技術、そして新しい大規模データセットが、LSTMを再び脚光を浴びさせました。突然、この比較的古いアーキテクチャが再び実用可能になり、自然言語処理を支配し始めました。

LSTMは、音声認識から言語モデリングまで、あらゆるものに迅速に採用されました。これらの年において、NLPとコンピュータビジョンは実際にはやや別々の世界でした。特にRNNとLSTMは言語タスクで卓越していましたが、畳み込みニューラルネットワーク、つまりCNNはビジョンで勝利していました。しかし、NLPとコンピュータビジョンの両方を動機づける基本的な問いは同じでした。

どのようにして系列をモデル化するのか。どのようにしてこれらのモデルに、時間または空間にまたがる構造を捉えさせるのか。LSTMは大きな前進でしたが、それでも限界がありました。最も根本的なものは、固定長ボトルネックと呼ばれるものでした。初期のLSTMシステムのほとんどがどのように機能したかを説明します。翻訳のようなSeq2Seqタスクでは、入力文を取り、それをエンコーダーLSTMに供給し、入力を単一の固定サイズベクトルに圧縮します。

次に、デコーダーLSTMがそのベクトルを取り、ターゲット文を単語ごとに構築しようとします。これは、その時代のベンチマークで印象的な結果をもたらしました。しかし実際には、その単一のベクトルは、長い文や複雑な文の意味を正確に捉えることができませんでした。また、順序の概念を固定サイズのベクトルにエンコードする良い方法もありませんでした。

これは翻訳タスクで非常に重要でした。たとえば、英語では形容詞を名詞の前に置きますが、スペイン語では形容詞を名詞の後に置くことがよくあります。これはパフォーマンスに現れていました。これらのモデルは短い入力ではうまく機能しましたが、系列が長くなるとすぐに破綻しました。そして正直に言えば、これはパフォーマンスの問題以上のものでした。

これはより深いアーキテクチャ上の問題を指摘していました。デコーダーに入力の静的な要約を一つだけ見せることは、根本的な制限でした。エンコーダーが見たすべての中間情報にアクセスさせてみてはどうでしょうか。この種の洞察が、次の大きな飛躍を生み出すことになりました。2014年、ある論文が系列翻訳の新しい標準となるもの、注意機構を備えたSeq2SeqモデルまたはSeq2Seqモデルを紹介しました。

以前と同様に、核心的なアイデアは二つのニューラルネットワークを共同で訓練することでした。入力系列を読み取り、その表現を構築するエンコーダーと、出力系列を一度に一ステップずつ生成するデコーダーです。両方のモデルはLSTMであり、重要なことに、それらはエンドツーエンドで一緒に訓練されました。しかし、このパフォーマンスの飛躍を可能にした重要な洞察がありました。注意機構です。

Seq2Seqは固定長ベクトルを使用していましたが、研究者たちは、デコーダーがエンコーダーの隠れ状態を振り返る、つまり注意を向けることができれば、モデルが入力の一部を出力の一部に整合させる方法を学習できることに気づきました。バナナ、チョ、ベンジオは、これらのモデルが機械翻訳のようなタスクで、従来のルールベースシステムや既存のSeq2Seqモデルを大幅に上回ることができることを示しました。それは大きなことでした。

注意機構の革新と実用化

これらのモデルは翻訳ベンチマークで評価され、ほぼ最先端のパフォーマンスを示し、当時の最高の統計システムさえも打ち負かしました。これは、ニューラルモデルが古い成熟した本番グレードのシステムと真っ向から競争できることを示す兆候でした。そして多くの人にとって、これらのモデルを実際に目にし始めた最初の瞬間でした。これは実際に使えるNLPでした。

たとえば、Google翻訳はこの時期にニューラルSeq2Seqアーキテクチャを採用しました。そして、これをGoogle翻訳がついによく機能し始めた時代として覚えているかもしれません。この洞察、つまり整合と翻訳を同時に学習することは、革新的でした。そしてそれはNLPにとどまりませんでした。元のSeq2Seq著者の一人であるヨシュア・ベンジオは、すぐに同様の整合ベースのアーキテクチャをコンピュータビジョンに適用しました。

これは、これらの系列モデルが言語を超えて有用である可能性があることを示す最初の兆候でした。しかし、注意機構で強化されても、RNNは依然としてその逐次的アーキテクチャによって制約されていました。トークンを一度に一つずつ処理することは、時間ステップ全体で計算を並列に実行することを困難にしました。したがって、実行時間は系列長に対して線形にスケールしました。

これにより、大規模なデータセット、つまり広く有用なAIを実現するために必要であることがわかっていた種類のデータセットでモデルを訓練することが、手に負えないほど遅くなりました。RNNを高速化しようとする試みで、研究者たちは、LSTM行列をより小さな行列積に因数分解したり、クエリに関連するネットワークの一部のみを条件付きで活性化したりする技術を開発しました。

しかし、根本的な線形実行時間の制約は残りました。そして2017年、Googleの研究者チームが「Attention is All You Need」と呼ばれる論文を発表したときに、大きなブレークスルーが訪れました。この論文では、Transformerと呼ばれる新しい機械翻訳アーキテクチャが提案されました。Transformerは再帰を完全に排除し、代わりに注意機構のみに依存して出力を生成しました。

ここではTransformerの技術的な詳細には完全には立ち入りません。そのためには、アンドレイ・カルパシーの素晴らしい解説をご覧ください。しかし高いレベルでは、TransformerはSeq2Seqで最初に提案されたエンコーダー・デコーダーアーキテクチャの修正版を使用しています。入力を単一のベクトル埋め込みに圧縮する代わりに、Transformerは各入力トークンに対して個別の埋め込みを保持し、これらを自己注意機構を通じて更新しました。自己注意機構は、系列内の他のすべてのトークンの埋め込みに対する学習された重み付きドット積に基づいてトークン表現を更新するメカニズムです。

このアーキテクチャでは各トークンが他のすべてのトークンに同時に注意を向けることができるため、Transformerは系列全体を並列に処理でき、RNNよりも劇的に高速になりました。驚くべきことに、機械翻訳ベンチマークでもはるかに正確でした。その後数年間、研究者たちはTransformerアーキテクチャのさまざまなバリエーションを実験し始めました。

元のGoogleの論文で説明されているアーキテクチャは、それぞれが自己注意機構を持ち、両者の間にクロスアテンションを持つエンコーダーとデコーダーを特徴としていました。これは元のSeq2Seqアーキテクチャに似ていましたが、再帰はありませんでした。次の数年間、Transformerアーキテクチャ自体に多くの革新が見られました。たとえば、BERTと呼ばれる一連のモデルは、マスク言語モデリングを行うためにエンコーダーのみを使用することに焦点を当てていました。

並行して、自己回帰モデリングのためにデコーダーのみを使用する取り組みにより、OpenAIのGPTシリーズのモデルが生まれました。高いレベルでは、これらのモデルシリーズの両方を、元の「Attention is All You Need」のTransformerモデルのサブセットとして説明できます。これらのモデルが大量のパラメータにスケールできることがすぐに明らかになりました。

最終的に、一つのモデルタイプ、つまり生成事前学習Transformerモデル、またはGPTが、今日ChatGPTやClaudeなどの製品で定期的に使用するLLMを作成するためにスケールアップされることになります。しかし、それほど昔ではない時期、すべてを支配する一つのモデルがあるかもしれないことは明らかではありませんでした。実際、人々はあらゆるタスクのためにモデルアーキテクチャのバリエーションを訓練していました。

単一タスクモデルから汎用システムへ

機械翻訳用に一つ、固有表現認識用に別のものといった具合です。それぞれに共有バックボーンがありましたが、最終的なモデル層にわずかな違いがありました。これらのモデルは、精度が高いという点で知的でしたが、ほとんどが単一タスクモデルでした。また、この時点では、チャットインターフェースがなかったため、モデルにプロンプトを与えるという概念は実際にはありませんでした。

代わりに、人々はドメイン固有の入力を通じてモデルと対話していました。研究室がはるかに大きなデータセットで自己回帰モデルを訓練する実験を始めたときになって初めて、それらはより汎用的に知的なシステムのように見え、感じられるようになりました。うまくいけば、この歴史が、これらのモデルをスケールできる場所に到達させるために必要だったことのいくつかを文脈化するのに役立ったことでしょう。

次のビデオでは、実際に現在のパフォーマンスレベルに到達させるために必要だったアーキテクチャと工学の革新のいくつかについてお話しします。ご視聴ありがとうございました。