GPTはAIの未来ではない:新しいAIトポロジー

本動画は、現在主流となっているGPT型のデコーダーのみのアーキテクチャが抱える構造的な限界を指摘し、GoogleのT5型エンコーダー・デコーダーアーキテクチャこそが次世代AIの本命である理由を詳細に解説している。GPTモデルは次トークン予測に優れるものの、因果的マスキングにより「未来」のトークンを参照できず、長文理解や複雑な推論において本質的な盲点を抱えている。対してT5アーキテクチャは、エンコーダーで入力全体を双方向的に理解した上でデコーダーが生成を行うため、読解と生成を分離した高度な情報処理が可能となる。Google DeepMindが2025年12月に発表したT5 Gemma 2は、わずか2.7億パラメータでマルチモーダル機能を実現し、従来の10億パラメータGPTモデルを凌駕する性能を示している。この研究は、超大規模データセンターへの依存から、エッジデバイスで動作する小型高性能モデルへの転換という、AI開発の新たなパラダイムシフトを示唆するものである。

GPT is Not The Future of AI: NEW AI Topology

OpenAI's IPO approaching fast, let us reconsider their technology. Given the massive limitations of GPT AI systems today...

T5アーキテクチャへの回帰
GPTアーキテクチャの構造的限界
双方向アテンションという解決策
T5アーキテクチャの3つの利点
GPTモデルのベンチマーク性能
エンコーダー・デコーダーアーキテクチャの重要性
T5 Gemma 2の革新性
2つの未来の選択肢
Gemini 3とT5 Gemma 2の関係
アーキテクチャの詳細
トレーニングとビジョン統合
RAGとの比較
拡散モデルとの関係
各コンポーネントの役割
次世代AIアーキテクチャへの展望

T5アーキテクチャへの回帰

皆さん、こんにちは。また戻ってきてくれて嬉しいです。私はGPTがAIの未来ではないと考えています。説明させてください。私たちの古典的なGPT、つまりデコーダーのみのトランスフォーマーアーキテクチャを想像してみてください。ご存知の通り、これは多かれ少なかれ次のトークンを予測するだけのものです。私は現在、量子光学実験に取り組んでいるのですが、これと同じだと思いました。

次のトークン、次のトークンと予測していくだけなんです。しかし、ここでは本当に線形構造に縛られていて、これは信じられないことです。そして、ここで自己回帰的な方法で計算する確率は、時刻t-1があって、それから時刻tの状態を予測します。ここでは確率、確率分布があり、これが次のトークンの選択方法です。そしてこれは単なる線形シーケンスで、これは良いことですが、もっと良い方法はないでしょうか。他のAIモデルを見つけることはできないでしょうか。

これはどうでしょう。線形的なものから始めないというのはどうでしょうか。素晴らしい複雑性から始めて、それから新しい機械、より新しいエンジンを持ち、そしてここに完璧さ、新しいAIアーキテクチャを持つというのはどうでしょう。皆さんはこれをご存知でしょう。なぜなら、私のチャンネルでこれをすでに見たことがあるからです。では、ディスカバリーということで、最新の研究論文を見ていきましょう。今から始めます。

GPTアーキテクチャの構造的限界

ご存知の通り、典型的なGPTではトランスフォーマーアーキテクチャのデコーダーのみの構造があります。過去数年間、私たちの大規模言語モデルはすべてデコーダーのみでした。次のトークンを予測します。美しいですね。しかし、GPT、つまりデコーダーのみの構造には核心的な限界があるんです。これをトンネルビジョンと呼びましょう。

そして、これが私がNanobanana Proでこれを構築したかった理由でもあります。これが線形のトンネルであり、次のトークンしかないことを示すためです。つまり、デコーダーのみのAI能力には盲点があります。具体的には、AIモデルが次のトークンを生成する前、つまり話す前にどのように読み、どのように見るかという点です。これはデコーダーのみのアーキテクチャの根本的な欠陥であり、これは設計上因果的なものです。

すべてのトークンは前のトークンにしか注意を向けることができません。全体像を一度に見ることは決してできません。ビジョンについて話すなら、ここでは一片一片、シーケンス的に画像を構築していきます。次のトークン予測は生成、つまり書くことには優れていますが、理解、つまり読むこと、複雑なデータを知覚することには本当に最適ではありません。

しかし、モデルが長い文書のような複雑な入力を分析する必要がある場合、デコーダーはそれを線形的に処理することを強いられます。次の単語のコンテキストを理解するために先を見ることはできません。文の終わりを見て、そこに例えば1万トークンをセルフアテンションで持つことはできません。全くできないんです。これらがGPT、つまり生成的事前学習トランスフォーマーの限界です。GPTはOpenAI社のものとしてご存知ですね。

双方向アテンションという解決策

さて、美しくて簡単な解決策があります。なぜなら、私たちに欠けているのは双方向アテンション機構だからです。T5エンコーダーがあることをご存知でしょう。そこではすべてのトークンが他のすべてのトークンを同時に、過去も未来も見ることができます。これにより、次のトークン予測、生成が始まる前に、入力のはるかに豊かで全体的な表現が可能になります。

だからこそ、トランスフォーマーのエンコーダーブロック、エンコーダー部分を取り戻したいのです。このエンコーダーには美しい利点があるからです。これを見てください。左側には、現在のGPTシステムの盲点が示されています。抽象空間、下三角行列があるとしましょう。GPTシステムにとってもブラックボックスである古い空間すべてを見てください。これが次のトークンです。

さて、次のトークン予測からグローバル状態の理解へと移行することを想像してください。双方向エンコーダーに切り替えて、500ページの完全な内容を即座に分析する場合、これは段階的な予測ではありません。完全に接続された密な超立方体を持っています。これが、古典的なGPTシステムで持っているこの黒い空間と、追加のエンコーダーがあれば、システムが作業を開始する前に入力の完全な理解を持つことができるという違いです。

3次元空間を想像してみてください。3次元空間から5次元空間へ、512次元空間へと進むことができると想像できますか。GPTシステムにとって、この真っ黒な空白がどれほど巨大であるか想像できますか。どれほど多くのデータがここに隠されているか、暗闇の中でGPTシステムには利用できないのか、想像できますか。これをT5トポロジーと比較してください。

因果的マスキングの制限からフルランクの双方向アテンション機構へと移行することがわかるでしょう。なぜなら、この真っ黒な空白にあるこの情報が次世代のAIモデルで利用可能になることを望んでいるからです。GPTはそこへ向かう方法ではありません。T5、T5構造は専用のエンコーダーを再導入します。古典的なGPTシステムと比較すると、3つの具体的な利点があると思います。

利点Aは、優れた長期コンテキスト探索です。利点Bは真のマルチモーダル性です。そして利点Cは、トランスフォーマーアーキテクチャのデコーダー部分からのセルフアテンション機構だけでなく、クロスアテンション機構による効率性です。では、やりましょう。取り戻しましょう。

T5アーキテクチャの3つの利点

利点Aの詳細です。エンコーダーは世界状態、文書、画像、何でもあなたが持っているものを安定した表現Hに圧縮します。これをHと呼びましょう。デコーダーは今、これを繰り返しクエリできます。対照的に、デコーダーのみのモデルは、すべてのステップで、キーバリューキャッシュのアクティブなワーキングメモリに生の履歴全体を維持しなければなりません。これはコンテキストが大きくなるにつれて不安定で計算コストが高くなります。

利点B。エンコーダーは画像トークンを完全な可視性で処理でき、LLMのテキスト生成が始まる前に完全な視覚的理解を構築できます。つまり、AIの推論プロセスが始まる前に、例えば画像の完全な視覚情報が利用可能になるということです。

これをGPTモデルと比較してください。GPTモデルでは、しばしば画像を何らかの文章にシリアライズする必要があり、2次元の空間オブジェクトに線形解釈を強制することになります。これは私たちが操作している数学空間の本当に大きな制限です。

そして最後に、そうです、セルフアテンションだけでなくクロスアテンションがあります。それらを組み合わせましょう。さあ。T5は完全な可視性でエンコーダーへの入力に注意を向け、因果的マスキングでデコーダーへの出力に注意を向けることができます。この分離は、読解プロセスと生成または書き込みプロセスを正確に扱います。

複雑さが増すとき、AIの古いトリックを知っていますね。複雑さを複数のタスクに分割するんです。今、読解タスクと書き込みタスクがあり、すべてが同じステップで行われるわけではありません。これをプロンプトを見て、自分が書いたものを同じ操作で、セルフアテンション機構で見る古典的なGPTモデルと比較してください。だから私たちは見逃しているんです。

GPTモデルのベンチマーク性能

もう少し具体的に見てみましょう。GPTシステムだけに頼る場合、将来何を見逃すことになるでしょうか。何かアイデアはありますか。何と言いますか。ここで最も重要な部分は何でしょうか。このシステムを見てみましょう。ここにいくつかのベンチマークがあります。これらは2025年12月20日のものです。平均勝率がわかります。

現在のすべての大規模言語モデルと視覚言語モデルを互いに戦わせた場合、これはLM Arenaからのものです。テキスト、因果推論、論理パフォーマンスのベンチマークです。最良のモデルはGemini 3 Proです。全ケースの60%で勝利しています。次にGemini 2.5 Pro、Gemini 3 flash。それからGrok、Grok、Claude Opus 4があります。

それからGPT-5.2があります。それからOpus 4.5 Sonnet 4.5、Claude Sonnet 4.5があり、それからGPT-5.2 too highがあります。本当にここで最下位のグループの一つにいます。そしてあなたは「ええ、でもこれらのシステムがどのシステムと競っていたのかわからない」と言うでしょう。その通りです。ではEloレーティングを見てみましょう。特定の信頼区間での絶対的なパフォーマンスを見てみましょう。

同じものがあります。ここでのレーティング、高い方が良いです。Gemini 3 proから始まり、それからGrok 4.1 thinkingがあります。それからGemini 3 flashがあり、それからClaude Opus、Opus 4.5の非thinkingバージョンのGrok 4.1があります。これらがAIコミュニティによって評価された最良のモデルです。数千、数万の個別投票によるEloレーティングで評価されています。

興味深いことに、最新の最も著名なGPTシステムであるGPT-5.2 tooはここで上位5%に入っていません。そしてGPT-5.2 highは、コミュニティによって投票されてここにあります。ここで信頼区間、特にGPT-5.2 highのものがかなり大きいことがわかります。なぜでしょうか。約6,000から7,000票しかなかったからだと思います。

統計的にはすでに少し有意です。しかし、少し上下に動く可能性があります。まだ完全には固定されていません。AIコミュニティの個別テスターによる2万票が必要です。彼らが「これらが最良のモデルだ」と言います。しかし現在、2025年12月20日時点では、これらが最良のモデルであり、ここでパフォーマンスが明確にわかります。

GPT-5.2 too、最新のGPTモデルが、どこにいるか正確にわかります。これは何を意味するのでしょうか。これは体系的なパフォーマンスなのでしょうか、それとも何かが起こっているだけなのでしょうか。例えば、OpenAI社が1兆ドルのIPOの準備をしていて、システムの技術面の改善にすべてのリソースを本当に投入していないということでしょうか。

さて、GPT-5.2とGPT-5.2 too highについて2本の動画があることをお伝えしなければなりません。正直に言うと、両方の動画を見れば理解できます。私の印象は、これらのモデルが現在の高性能AIモデルのトップスポットにはないというAI研究コミュニティの印象と完全に一致しています。素晴らしい。

エンコーダー・デコーダーアーキテクチャの重要性

科学に戻りましょう。しかし、このGPT、つまりデコーダーのみのアーキテクチャだけに頼ることで、深い知覚の知能を見逃しています。つまり、話すことは優れているが、構造的に聞くことや読むことに障害があるモデルを構築してきたということです。まるで、あなたが文章を始めた瞬間に話し始める人のようなもので、あなたの完全な言葉を聞くのを待つのではなく、次の単語を予測するのです。

これをT5モデルと比較してください。これは「まず聞く」ことへの回帰です。情報をエンコードし、すべての情報を得てから話し始める、デコーダーを使うのです。T5に馴染みがあるなら、私のチャンネルの購読者なら、2、3年前に詳しく説明したのを知っているでしょう。古典的なT5、Flan T5のプロフェッショナルなファインチューニングを加速させました。

ここでT5を正確に見ました。無料のColabで。Flan T5 XXLとVision Transformerの組み合わせで行いました。一般的に、トランスフォーマーアーキテクチャがあり、デコーダー部分、GPT部分だけを使う場合、見逃しています。例えばBERT構造、エンコーダー部分だけを使う場合も、見逃しています。

T5の美しさは、何年も前にGoogleが予測し特許を取得した完全なトランスフォーマーシステムであることです。完全なトランスフォーマーが戻ってきました。3年前、Flan T5をGPT-3システムとコーディングについて比較したのを見たいなら。GPTより良いのでしょうか。今日、GPT-5.2 highモデルと比較して、多かれ少なかれ同じ質問をしています。

3年前、すでにJaxとFlagsでTransformer T5をお見せしました。PyTorchモデルだけでなく、どのようにコーディングできるかを。この情報はすべてすでにそこにあります。しかし、これが今日の新しい論文です。2025年12月16日、Google DeepMindが今、T5の全く新しいアイデアを出してきました。

T5 Gemma 2の革新性

T5 Gemma 2は、より長く見て、読んで、理解することを教えてくれます。「わかった、良い論文だね。それほど重要ではないよ。なぜこれを気にする必要があるの。もうすぐクリスマスだし、忘れてもいいじゃないか」と言うかもしれません。いいえ、違います。これは素晴らしい論文です。AIの未来を示しています。なぜでしょうか。

なぜなら、これはT5アーキテクチャをGemmaモデル、Gemini 3に基づいて組み合わせているからです。「でも、すでにGemini 3があるのに、Gemma 2は何をしているの」と言うかもしれません。パフォーマンスデータの違いを見てください。事前トレーニング、事後トレーニング、どこを見ても関係ありません。青色でGemini 3、古典的なデコーダーのみのトランスフォーマーがあります。赤色で、今日話している新しいモデル、T5 Gemma 2があります。

パフォーマンスを見てください。マルチモーダルを見てください。古典的なGemini 3にはマルチモーダル能力がありません。2.7億モデルの能力を見てください。それから10億モデルがあります。それから40億モデルがあります。すでに何かわかります。大きくなればなるほど、GPTシステムの古典的なパフォーマンスが良くなります。

つまり、GPTモデルのサイズをスケールアップすれば、GPTはより強力になるということです。これがアイデアでした。より大きく、より大きなGPTモデルにスケールアップしなければならない。世界中により多くのデータセンターが必要だ。なぜなら、スケールアップし続けるからです。しかし、Googleがこの論文で興味を持っているのは、反対の方向に行くことです。小さくするのです。

10億のAIモデルを通常のGPU、ゲーミングPCで実行できます。わずか2.7億の訓練可能なパラメータのAIを想像してください。iPhoneで実行できるかもしれません。Googleがどこに向かっているか正確にわかります。スケールアップではなく、モデルを小さくするのです。しかし知能を見てください。はるかに知的です。

多言語、推論、長いコンテキスト理解、マルチモーダル理解のいずれに行っても。Googleはこの無邪気な論文で、「待って、別の方向がある」と示しています。エッジデバイス、モバイル、その他のためにモデルを小さくしよう。より知的にしよう。なぜなら、GoogleはGPTが将来への道ではないと言っているからです。

2つの未来の選択肢

これが今の私のアイデアです。私たちの未来には2つのオプションがあります。ハイパースケールデータセンター、集中化されたものか、分散エッジインテリジェンスです。モデルのサイズが10億の訓練可能なパラメータモデルだけの新しいAIアーキテクチャを持つことができます。しかし、これはゲーミングPC、すでに持っているGPUに収まります。16GBか24GBのVRAMが必要かもしれませんが、小さなモデルでも完全に異なるアーキテクチャとはるかに良いパフォーマンスです。

これが現在進行中の戦いです。もう少しダイナミックにしましょう。ハイパースケールデータセンター、集中化されたモノリス、極端なエネルギー消費、冷却、水を使うべきでしょうか。それとも知的ネットワークを持つべきでしょうか。あなたが決めてください。しかし、Googleは、おそらく私たちは仕事に間違ったAIツールを使っているかもしれないと言っています。これを見てみましょう。

Gemini 3の技術レポートを見ると、これは2025年3月末のものです。これに馴染みがあることを願います。これは典型的なデコーダーのみのポートで、Hugging Faceでダウンロードできます。ええ、ちなみにオープンモデルです。特定のGemmaライセンスに同意する必要があります。スタートアップとしてGoogleと競合しないと思います。これに同意しましょう。

コミュニティからの先月のダウンロード数は160万に近かったです。これはコミュニティが本当に反応している10億のGemini 3モデルです。2、3日前から利用可能になった新しいT5 Gemma 2、2.7億を知っていますが、ダウンロード数を見る限り、コミュニティがこの美しい新しいモデルの美しさを本当に理解しているとは思えません。

Gemini 3とT5 Gemma 2の関係

Gemini 3を親、古いパートナーと考えてください。GPT-4やLlamaモデルのような古典的なデコーダーのみのモデルです。ゼロからトレーニングされました。大量の計算リソース。主な認知モードは即興的な話し方です。次のトークンを予測し、詩などを生成します。

T5 Gemma 2をGemini 3の専門的な子孫と考えてください。Gemini 3の事前トレーニングされた脳を取り、特定の層のクローニング、アーキテクチャの修正を行い、システム全体をT5構造、エンコーダー・デコーダー構造として機能するように再トレーニングしました。主な認知モードは、聞いて、消化して、それから話すです。

本当に簡単にします。大量のコンテキスト、画像やテキストを読むように設計されています。専用のエンコーダーを使って、出力の返信の単語を1つ生成する前に。古典的なGPT構造、デコーダーのみのGemini 3とは完全に異なります。Googleは今、Gemini 3をT5 Gemma 2に進化させました。なぜなら、両者は異なるAIトポロジーを持っているからです。

Gemini 3はデコーダーブロックのスタックです。入力トークン。出力トークンは同じスタックで処理されます。アテンションマスクは厳密に三角形です。トークン50はトークン51を見ることができません。大きな黒い空白があると言いました。T5 Gemma 2では、T5構造なのでエンコーダーとデコーダーがあります。

エンコーダーには、Gemini 3で初期化されたブロックのスタックがありますが、アテンションマスクが削除されています。トークン1は、文書にある10万トークンまで見ることができます。高レベルのメモリバンクを生成します。デコーダーはテキストを生成するためのブロックの第2のスタックを持っています。

完全に新しい形式のアテンションを使います。すぐに説明します。彼らはこれをマージドアテンションと呼んでいます。多かれ少なかれクロスオーバーです。いや、クロスオーバーではありません。セルフアテンションとクロスアテンションがあります。これら2つのアテンションモードを新しいアテンション形式に組み合わせると、T5 Gemma 2のマージドアテンションと呼びます。

美しいですね。自分自身の過去の出力XとエンコーダーのメモリバンクHの両方を同時に見ます。これは美しくないでしょうか。未来と過去を見ることができ、それから議論を始めることができます。これはビジョン統合、マルチモーダル性にとって特に美しいです。

Gemini 3の小さなモデルに気づいたかもしれませんが、テキストのみです。なぜなら、2.7億や10億のGemini 3バリアントでは、視覚的な複雑さ、これらのモデルは小さすぎるからです。しかし、T5 Gemma 2では、これらの小さな2.7億モデルにさえサイクリックビジョンエンコーダー、Vision Transformerを組み込むことができます。

したがって、2.7億から2.7億のT5 Gemma 2があります。エンコーダーとデコーダーの両方が2.7億だからです。視覚トークンを双方向エンコーダーにルーティングすることで、テキストのみのGemini 3の重みをマルチモーダルシステムにアップグレードします。突然、Gemini 3に目を追加し、今は2.7億モデルのT5 Gemma 2があり、画像を見ることができます。

アーキテクチャの詳細

埋め込みの側面からどうやって可能なのかと言うかもしれません。これが美しさです。彼らは簡素化を行いました。お見せしましょう。ここで違いを示そうとしています。これが親です。これがGemini 3です。これはデコーダーのみです。これは古典的なGPTシステムです。ChatGPTのようなものです。これがアーキテクチャ、因果的アテンションです。美しいですね。

そして進化は、T5アーキテクチャに戻ることです。GPT-3.5が2、3年前に出たとき、すべてを変えたのを覚えていますか。T5の進化を止めました。なぜなら、GoogleはOpenAIと競争することに突然集中しなければならず、独自のT5のアイデア、エンコーダーとデコーダー構造をさらに発展させることができなかったからです。

私の単純な考えでは、Google Gemini 3 Proで、彼らはプレーヤーとして戻ってきたと言っています。今、次世代のAIモデルのパフォーマンスをさらに向上させるために、T5、エンコーダーとデコーダー構造の元のアイデアを続けることができます。青いデコーダーのみも見えます。同じですが、今はエンコーダーがあります。

画像パッチが入ってくる古典的なT5構造で、マージドアテンション、セルフアテンション、クロスアテンションがあります。マスクを見ると、これは特に興味深いです。Gemini 3のようなデコーダーのみでは、因果的アテンションマスクのみがあります。入力シーケンスが入ってきて、特定のマスクがあります。美しく予測します。素晴らしい。

T5 Gemma 2では、ハイブリッドエンコーダー・デコーダー構造があります。エンコーダーには双方向アテンションマスクがあり、デコーダーには因果的アテンションマスクがあります。これが組み合わされたモデルでアテンションブリッジをどのように構築するか興味深くなります。素晴らしい。マージドアテンションです。

数学的統一の簡素化版を見てみましょう。前回の動画で数学的に何かを説明して、私でも理解できたというコメントをもらいました。だから同じことをやろうとします。最もシンプルに想像できるものです。

標準的なエンコーダー・デコーダートランスフォーマー、元のT5、またはBARTでは、デコーダーブロックには2つの異なるアテンションサブレイヤーが順次実行されます。マスクセルフアテンションとクロスアテンションがあります。マスクセルフアテンションでは、デコーダーのクエリ、キー、バリューがあり、多かれ少なかれ自分自身の過去をクエリしています。

クロスアテンションでは、エンコーダーとデコーダーに同じものがあります。もちろんエンコーダーの出力をクエリしています。設計は両方のレイヤーに対して別々の学習可能な重みを導入し、ここでメモリ帯域幅の使用とパラメータ数を増やします。

しかし、T5 Gemma 2の革新は次のようなものです。これら2つの操作を単一の共同アテンションモジュールに融合します。これにより、AIモデルは単一のソフトマックスステップで、内部メモリに注意を向けるか、外部知覚に注意を向けるかを決定することを強制されます。これは多かれ少なかれエンコーダーコンテキストです。

数学的な観点からテンソル演算を見ると、特定のテンソル入力があります。mはデコーダーシーケンス長で、nはエンコーダーシーケンス長です。あ、hが抜けていますね。すみません。しかし、別々の投影の代わりに、T5 Gemma 2は、ここで見られるように、時間次元に沿ってエンコーダーとデコーダーの状態を単に連結することによって、キーとバリューを構築します。

単に連結するだけです。なんて単純な操作でしょう。クエリはデコーダー入力Xのみから導出されます。エンコーダーはデコーダーをクエリしないからです。単純なことがわかります。この新しいアーキテクチャの共同マスキング操作に深く潜る必要があるのは本当に美しいことです。

魔法の引用符での魔法は、定義しなければならないマスキング行列にあります。なぜなら、考えてみてください。同じ行列乗算内で、2つの異なる仕事、2つの異なる物理法則を同時に強制しなければならないからです。

まず、因果レイヤー、自己回帰の法則が必要です。最初のm列、デコーダー部分では、マスクは下三角です。トークンtはトークンt+1を見ることができません。古典的なケースです。しかし、双方向または非因果的なものが美しくあります。後続のn列、エンコーダー部分では、マスクは突然完全に可視になります。

トークンtはすべてのnエンコーダートークンを見ることができます。完全な画像を見ることができます。アテンションスコアは、ここでわかるように、マスクがある式で計算されます。シンプルなアイデアです。Googleが提供する解決策を知っていれば、ここで何が起こっているか理解できます。

標準的なT5と比較すると、モデルは常にセルフアテンションを実行し、それから常にクロスアテンションを実行します。T5 Gemma 2に注目してください。ソフトマックスはXとHの両方にわたって正規化します。学習された競争を作り出します。

どの時点でも、モデルはエンコーダーを完全に無視して生成ダイナミクスに純粋に焦点を当てるか、その逆を選択できます。もちろん、システムをトレーニングする必要があります。構築する必要があります。トレーニングする必要があります。Googleはそれをどのように構築するか、いくつかの指示を与えてくれます。

トレーニングとビジョン統合

トレーニングについては、シンプルなケースのようです。エッジデバイスについて話す場合、古典的なT5システムと比較して何が利点かというと、このT5 Gemma 2はクロスアテンションブロックに必要な投影行列のセット全体を削除します。数学的な複雑さと計算時間を大幅に削減する必要があります。これを見てみましょう。

試しました。画像があります。美しい。Vision Transformerがあれば、単一のセグメンテーションを読むだけです。美しい。そしてすべてがここで視覚トークンになり、エンコーダーに入ります。古典的なデコーダーではなく、エンコーダーシステムに入ります。コンボリューション表記のように、Vision Transformerシステムへのインテリジェンスシステムです。美しい。

そして、古典的なGPTシステムへの美しいクロスアテンションブリッジがあります。これが推論が起こっている場所です。そして最後のゾーン、生成がここにあります。通常生成するトークンは何でも、この典型的なケースでは離散的です。しかし、拡散モデルの連続的なデノイジング構造についても話さなければなりません。そこでは統計的ノイズから美しいドラゴンが出てきます。

これが私たちが話す複雑さで、背景にこの薄いグレーで、これが古い現在のGPTシステム、現在のデコーダーのみの構造でした。これと比較して、将来のAIシステムのパフォーマンスを向上させるために、これを構築しているのがわかります。

どのように構築したか、Googleがどのように構築したかというと、T5 Gemma 2はデコーダーのみの親Gemini 3から適応されているので、すでに生成は得意です。では、チューニングとトレーニングをどうするのでしょうか。

もちろん、GoogleはすでにUL2ミックスチャーを開発しており、Gemini 3が欠いていた双方向理解能力を注入しながら、生成能力を保持するように慎重に調整されています。これを特定のデノイジングで行います。すぐに説明するRデノイザーがあり、プレフィックスLMがあります。これを賢い方法で行えば、美しいT5 Gemma 2が得られます。

このカリキュラムは、デコーダーのみからエンコーダー・デコーダーアーキテクチャへの変異を可能にする橋を構築でき、本当に成功し、求めているパフォーマンスを得られることを示しています。この論文を読む必要があると言いました。これは2023年2月末のものです。

かなり古い論文ですが、今また使っています。もちろん、何だと思いますか。Google Brainからのものです。言語学習パラダイムの統一です。ここで話したデノイザーのミックスチャーがあります。理論的には3つすべてを使います。エクストリームデノイザーがあり、XDenoiserと呼びます。

それからRデノイザー、短いスパンと低い破損デノイザーがあります。そしてSDenoising、シーケンシャルデノイジング、プレフィックスモデル言語化があります。ミックスチャーが重要で、このデノイザーの強度をどのように重み付けするかです。それから学習パラダイムが美しくあります。

このUL2の論文で深い理解が得られます。ここで特に詳細な例が見られます。RDenoisingは何をしているのでしょうか。SDenoising は何をしているのでしょうか。エクストリームデノイジングは今何をしているのでしょうか。予測タスクのためにトークンをどのようにマスクしているのでしょうか。この論文を強く推奨します。

非常に短く言えば、論文を読んだとして、ここで私がRデノイザー、レギュラースパン破損またはエディターモードと呼ぶものを理解してください。マスクする短いテキストスパンです。特定の設定があります。忘れてください。アイデアは、モデルにローカルな精度と構文エラーまたはデノイザーを教えることです。

それからシーケンシャルセノイザーがあります。エクストリーム破損。これはライトモードです。タスクは何でしょうか。テキストの大きなチャンクがマスクされます。時には文書の後半全体が。500ページではなく、1ページある場合、本当にページの後半がマスクされます。特定の設定、テキストの50%が隠されています。

目標は、AIモデルに長くまとまりのある段落を生成することを強制することです。美しい。そして最も重要なのはプレフィックスLMです。これは完了モードです。セクションAの特定のプレフィックスを与えてください。ターゲットに破損トークンなしで文書の残りをセクションBとして予測します。

これにより、エンコーダー・デコーダーを多かれ少なかれ標準的な言語モデルに効果的に変えます。エンコーダーはプロンプトを読み、デコーダーはそれを続けます。しかし今、すべての入力データの完全な理解がはるかに良くなっています。

読むこと、つまりエンコードと書くこと、つまりデコードは、人間の神経学的にも異なるタスクであり、異なるトポロジーを必要とすることに気づいています。古いGPTアプローチは、現在のGPT-5.2システムにあるもので、両方に同じニューラル重みを強制していました。これはトレーニングには効率的ですが、特化したタスクには最適ではありません。

したがって、Googleのアイデアは、今T5アプローチで続けることでした。専門化、エキスパートシステムです。エンコーダーはシステム2プロセッサーのように動作し、プロンプトを深く分析し、矛盾を探し、ここでロジックを圧縮します。それから第2の部分、デコーダーがあります。

デコーダーはシステム1プロセッサーのように動作し、その圧縮されたロジックを取り、人間が好むテキストに流暢に表現します。このT5アプローチがはるかに興味深いことがわかります。

ビジョンの問題について話しましょう。マルチモーダル統合です。T5 Gemma 2は2.7億モデルでもマルチモーダル性を持っていると言いました。画像をテキストモデルに接続するのは、古典的なGPTアーキテクチャではかなり厄介です。通常、画像トークンをテキストの左側に押し込んで、因果的アテンションが何とか理解することを期待します。

これがブラックボックスと呼んだ理由です。T5 Gemma 2では、分離がはるかに正確です。エンコーダーは今、ノイズの多い生の知覚、入力パッチ、画像パッチ、入力テキストを処理し、知覚皮質として機能します。人間の類似について考えると、デコーダーは言語センターとして純粋なままで、私が画像で示したクロスアテンションブリッジを介して洗練された高レベル信号のみを受け取ります。

ですから、また、より高い複雑さ、私たちはそれを削減し、専門化しました。エンコーダーには明確なタスクがあり、デコーダーには明確なタスクがあります。美しい。これが要約です。これがT5 AIアーキテクチャが欲しい理由です。取り戻したいのです。GoogleがOpenAIによる中断が素晴らしかったことを続けたいと思っています。

しかし今、GPTアーキテクチャで壁にぶつかっていることがわかります。より知的な何かが必要です。特にオープンソースモデル、特に自宅でローカルに実行できる小さなモデルには。私は、GPTシステムに不満を持っています。なぜなら、設計されていないことをするように押し進めてきたからです。大量の文書の深い分析のため。RAGが典型的です。

チャットしたり、詩を書いたりしたい場合は、GPT、デコーダーのみのトランスフォーマーアーキテクチャを使い続けてください。これは美しい。クリエイティブで豪華です。しかし、500ページのマニュアルを読んで、条項4.2段落8.9の矛盾を見つけたい場合は、別のAIを使うべきです。T5アーキテクチャ、エンコーダー・デコーダーを使うべきです。

エンコーダーはマニュアル文書全体を一度に見て、デコーダーはここで答えだけを抽出します。これはRAGシステムにとって非常に優れています。アイデアは、外部RAGを持つGPTではなく、RAG自体をT5アーキテクチャに組み込むことです。はるかに良く、はるかに多くの情報があります。

RAGとの比較

なぜなら、GPTでRAGを使って何をするか覚えていますか。データベースに行き、特定のキーワードやセマンティック構造やコサイン類似性を検索し、それから再ランキングを行い、それからまた行い、人間のクエリに答えるのに役立つかもしれない情報の断片を持ち帰るだけです。

役立つかもしれないいくつかの事実の分解されたシーケンスがあります。しかしここでT5では、エンコーダーが500ページすべてを見ます。500ページすべてを取り込み、デコーダーは私の人間のクエリに答えるために、どの情報、どの知識が、どの複雑さのレベルで不可欠かを正確に選択できます。

統一されたAIアーキテクチャの景観は、来年すでにこのように見えるかもしれません。この薄いグレーが見えます。これが古典的なGPT、デコーダーのみです。この小さなものからこのモンスターに移動するかもしれません。なぜなら、画像があれば、または巨大なテキスト文書があれば、画像のままにしましょう。

視覚トークンがあります。異なるレンズを通して分離するVision Transformerがあります。これはレンズであるべきです。視覚トークン。視覚トークンは直接エンコーダーシステムに入ります。双方向ネットワークがあります。デコーダー構造、古典的なものへのクロスアテンションブリッジがあります。それから出力があります。離散トークン、確率分布、あなたが知っているすべて。

しかし、画像の完全な内容の完全で均質な理解に基づいています。行ごと、要素ごとに進み、段階的に考える線形化だけではありません。完全な知識、エンコーダーにエンコードされた完全なデータがあります。

拡散モデルとの関係

拡散について話していました。短い考察を持つべきです。なぜなら、視聴者から質問を受けたからです。「ねえ、拡散はこれにどう合うの、AIの未来に」。ここでの私のクラッシュコース、T5 Gemma 2、Vision Transformer、拡散モデルの間の科学的な区別を非常に短く。

Vision Transformerは、T5 Gemma 2で話したように、Vision Transformerがあります。これは環境を見ることができる目に過ぎません。エンコーダーに入る視覚トークンがあります。実際、これはT5 Gemma 2が内部にVision Transformerを含んでいることを意味します。もちろん、目です。

一般的に、Vision Transformerはテキストを生成しません。ピクセルをベクトルに変換しません。これは数学的概念です。終わり。Vision Transformerは画像をパッチに切り刻み、各パッチをLLMと比較すると単語のように扱い、それらの視覚的な単語をT5エンコーダーのようなエンコーダーを通して実行します。

T5 Gemma 2との関係は、論文でCLIP Vision Transformerを使うべきですが、好きな他のVision Transformerを使ってください。これは特定のタイプのVision Transformerで、画像を見て、256の視覚トークンに変換します。

高解像度の4K、8Kの画像がある場合、視覚トークン量をどのように増やすかを正確に知っています。T5 Gemma 2、LLMは今、この256の視覚トークンを取り、質問に答えるためにそれらを読みます。もちろん、ベクトル空間でこれを行います。Vision Transformerは純粋にエンコーダーです。

センサーです。AIシステムの目です。話すことはできません。Vision Transformerは話せません。見ることしかできず、言語モデルに報告します。では、拡散モデルとは何でしょうか。言ったように、T5 Gemma 2のLLMは離散的です。言語は離散的なブロックでできています。猫、犬。

猫と犬の間の中間の単語はありません。モデルは特定の離散トークンの確率を予測します。目標は論理的であり、推論能力と完璧な文法を持つことです。拡散は完全に異なります。混乱は今連続的です。画像は色の連続的なグラデーションでできています。

拡散モデルは連続的なスペクトラムでピクセル値を操作することを学びます。次のピクセルを予測しません。入力がないときにテレビで見る雪のような静的ノイズから始まり、数学的に単純にステップごとにノイズを減算し、限界が現れるまで。ここでの目標はテクスチャ、ジオメトリ、美学に焦点を当てることです。

拡散モデルについて数十本の動画があります。3、4年前にどのように始まり、次の2年間でどのように進化したか。私がここであなたに与えたいのも、Nanobanana Proについて質問を受けました。本当にどうなんですか。まだGoogleによるNanobanana Proについてすべてを詳細に説明する明確な技術論文はありません。だから、ここで何が起こっているのかを理解しようとしています。

私の理解では、クロスアテンションブリッジを介して一緒に配線された2つの大規模なニューラルネットワークで構成されています。パートAは脳です。私たちのGemini 3モデルは、ここで画像を出力しません。セマンティックブループリント、高次元ベクトルのシーケンスを出力します。ベクトルまたは行列は乗算する必要があるものです。これがAIです。

パートBは今、拡散トランスフォーマーです。拡散トランスフォーマーには、大規模言語モデルのようにアテンションヘッドもあります。しかし、以前の単語に注意を向ける代わりに、もちろんGemini 3セマンティックブループリント、パートA、脳に注意を向けます。しかし、今これは高度に織り込まれています。私の理解では、単一のシーケンシャルな手順ではありません。

繰り返しますが、指を指して「これがまさにどのように行われているか」と言える公式文書はありません。これは私の理解だけであり、私の理解は間違っている可能性があります。この3つの文は間違っている可能性があります。猫を描いてと言ったら、Gemini 3が「わかった、AIの内部モノローグ、ユーザーは猫を描いてほしいんだ」と言うと想像します。

だから特定の種類の猫を生成するでしょう。画像にソフトライトニングを使います。猫は岩の上に座っているでしょう。だから猫の環境を定義します。スタイル、フォトリアリスティックスタイルなどを定義します。それから、これを特定の埋め込み、ベクトル空間の表現にマッピングするだけです。

それから接続です。埋め込みは今、拡散トランスフォーマーのクロスアテンション層にパイプされます。拡散ヘッド、この画像を描く手は、今何をするのでしょうか。ノイズを取ります。この特定の埋め込み構造を見ます。画像が出るまでピクセルを彫刻します。ノイズから美しく生成されます。

レガシーフォームを知っているかもしれません。これは畳み込みニューラルネットワークを使ったUNETでした。UNETと呼ばれたのは、美しいU字型だからです。3、4年前にUNETについて4本の動画があります。UNETの問題は、スケールが本当に難しいことです。ローカルな帰納バイアスがあり、1、2年前にコミュニティ全体がUNETアーキテクチャから拡散トランスフォーマーアーキテクチャに移行したと思います。

今、すべてが多かれ少なかれトランスフォーマーです。畳み込みからパッチに移動しました。Googleのnanobanana proによって生成されたこの拡散トランスフォーマーの複雑さをここに持ちたいだけです。美しさは、トランスフォーマーにはネイティブな美しいスケーリング則があることです。スケールがはるかに簡単です。

グローバルセルフアテンション、純化、ノイズの多い画像を理解してください。これがここにあります。UNETと聞けば、これがレガシーモデルだったことがわかります。今の新しいものは拡散トランスフォーマーです。1つの文に分解すると、T5 Gemma 2はエンコーダーを使ってピクセルをロジックに変えます。

各コンポーネントの役割

Another Banana Proは、LLMを使ってロジックをピクセルに変えます。Googleがどのように完全なAI環境を構築しているかがすぐにわかります。なぜ拡散モデルがT5 Gemma 2を単純に置き換えることができないのでしょうか。シンボリック推論がありません。因果Aを効果Bに100ページのテキストにわたってリンクできるアテンションヘッドがありません。非常に簡単な説明です。

T5 Gemma 2のフロー方向はピクセルからテキストです。Banana Proはテキストからピクセルです。ClayまたはVision Transformerまたは拡散ヘッドがピクセルをバンクします。美しい。最後に概要に来ましょう。ここで本当の概要を与えたいと思います。すべてのコンポーネントについて、過去数週間に受け取ったすべての質問に答えます。

私たちが持っているのは、AIの異なるアーキテクチャです。Vision Transformer、エンコーダー構造、デコーダー構造、拡散トランスフォーマーがあります。どのように接続されているのでしょうか。このアーキテクチャのために、Vision TransformerとしてのCLIPや、好みの拡散エンジンのためのFluxなど、特定のコンポーネントを選択できると考えてください。

Vision Transformerとは何でしょうか。システムの目に過ぎません。エンコーダー、特にT5エンコーダーは、読解の脳です。理解はテキストと視覚ベクトルを取り、それらを分析し、メンタルモデルを構築します。デコーダー、これが古典的なGPTシステム、デコーダーのみのトランスフォーマーアーキテクチャは、口です。トークンごと、単語ごとに出力を生成します。

エンコーダーによって生成されたメンタルモデルを取ります。システム1ルカンのように人間の言語で答えを表現します。それから、知能があり、それが話され、何をすべきかを正確に知っている場合、指示に従って何かを描く手もあります。ここで拡散モデルが必要です。このGoogleの論文には示されていませんが、私のチャンネルでの質問に答えたかっただけです。

アーキテクチャは何で、どのように組み合わせることができ、それらは何なのか。多かれ少なかれこれで、これがT5 Gemma 2アーキテクチャでの役割でもあります。美しい。小さなローカルオープンソースモデルに向かうことを示しました。これを提供してくれたGoogleに感謝します。このモデルはHugging Faceでオープンソースとして見つけることができます。

ダウンロードして、遊んで、テストできます。Gemini 3は2.7億でマルチモーダル能力が全くないことがわかります。しかし、T5 Gemma 2に行けば、なんという改善でしょう。より小さく、より知的で、より有能です。これで終わりだと思います。パート1の終わり。そして、2025年12月末の今日Googleがどこにいるかを示したなら、展望をしましょう。

2026年にどんな新しい技術が期待できるでしょうか。次は、完全に新しい道を開き、今日の動画を理解します。未来への道とは何でしょうか。私の最後の動画の1つに基づいて構築します。AIが機能するために物理学を破る必要があるという動画です。それらの洞察に基づいて、今、完全に新しい理解を生成します。

新しいT5 AIアーキテクチャを新しいシンボリックAIに統合します。美しいシナジーがあることがわかるでしょう。因果推論プロセスのために物理エンジンをどのように統合できるかを見ていきます。最後に、ワールドモデルの研究が次のT5システムの開発にどのように一貫性を持たせられるかについて話します。

次世代AIアーキテクチャへの展望

今日はこれで終わりです。統一されたアーキテクチャの景観です。次の動画では、このアーキテクチャでワールドモデルをどのように構築するかを尋ねます。美しい画像、Vision Transformer、視覚トークンがエンコーダーに行き、双方向ネットワークを持ち、完全なコンテキストを持ち、それからここで一般的なデコーダーアーキテクチャへのクロスアテンションブリッジを持ち、ここで最終的に私たちが探している正確な出力を持ちます。

そして、ここで拡散トランスフォーマーを追加することもできます。単語だけでなく、それらの単語から美しい画像を生成します。これが拡散プロセスで、この動画でこの拡散プロセスがどのように起こっているかについても短い説明があります。しかし、言ったように、拡散について複数の動画があり、それが何であるかを説明しています。

これらすべてが、少なくともGoogleの側からのUIの新しいアイデアです。これを古典的なデコーダーのみである、ここにある小さなグレーのものと比較してください。持っているGPTです。これも古典的なChatGPTシステムです。そして、このGPTシステムで現在ますます直面している制限です。

そして今、このビデオの冒頭で持っていたアイデア、この仮説を理解します。GPTはAIの未来ではありません。なぜなら、より知的なAI、次のAIモデルのためのアーキテクチャとインフラストラクチャを構築すれば、何を達成できるかを見てください。

もちろん、ここに物理エンジン、効果的なワールドモデルを統合するタスクがあります。しかし、これについては次の動画でもっと詳しく。この動画で少し楽しんでいただけたことを願っています。もしかしたら有益だったかもしれません。もしかしたら全く新しいアイデアが得られたかもしれません。

いずれにせよ、購読していただけると嬉しいです。私のチャンネルのメンバーになるかもしれません。しかしいずれにせよ、次の動画でお会いできることを願っています。