見逃せない最新のAIブレークスルー(Google、OpenAI、DeepSeekなど)

本動画では、AI研究の最前線で起きている複数の重要なブレークスルーを包括的に解説している。Transformerを超える新たなアーキテクチャである継続思考マシン、DeepSeekのスパース注意機構による効率化、GPT-5による科学研究の加速、Googleのネステッド学習による破滅的忘却の克服など、次の6〜12ヶ月を形作る革新的な研究成果を取り上げる。同時に、LLMの根本的な限界、ブレインロット現象、詩による脱獄攻撃といった課題にも言及し、真のAGI実現に向けて解決すべき問題点を明らかにしている。イリヤ・サツケヴァーの最新インタビューやDwarkesh Patelの分析を通じて、現在のスケーリング戦略の本質的な問題と、人間のような汎化能力を持つAIシステム構築への道筋を考察する。

The Latest AI Breakthroughs You Need to See (Google, OpenAI, Deepseek and More)

Checkout my newsletter : - 🐤 Follow Me on Twitter 🌐 Learn AI With Me :

最新AI研究の全体像
継続思考マシン:人間のように考えるAI
CTMの革新性
DeepSeekのスパース注意機構
GPT-5による科学研究の加速
Googleのネステッド学習
LLMの根本的限界
LLMのブレインロット現象
詩による脱獄攻撃
イリヤ・サツケヴァーの最新インタビュー
Dwarkesh Patelの分析

継続思考マシン:人間のように考えるAI

論文は継続思考マシンと呼ばれています。この論文が何であるか、どのように機能するのか、そしてどういうことなのかを基本的に説明していきます。名前にヒントがありますが、できるだけシンプルに説明しましょう。

継続思考マシンは、一度答えを考えるのではなく、パズルを解くときの私たちのように、頭の中で段階的に考え続けるロボットの脳を想像してみてください。

今日のほとんどのAIモデルは次のようなことをします。画像を見て、一度考えて、そして答えます。しかし継続思考マシンは本物の子供のように機能します。

見て、少し考えて、さらに考えて、もう一度確認して、それから答えるんです。基本的に時間とともに継続する思考を持っていて、一瞬の素早い瞬間だけではありません。

この最初のステップは、各ニューロンがそれ自体の小さな脳のようなものだということです。通常のAIでは、ニューロンは非常にシンプルです。基本的に「これを見て、これを出力する」と言うだけです。

しかしCTM、継続思考マシンの論文では、各ニューロンは小さなメモリと独自のミニ脳を持っています。数ステップ前に何が起こったかを覚えていて、自分自身を更新し続けます。ロボットの中に何千もの小さな生き物がいて、それぞれが見たものの日記をつけているようなものだと考えてください。

それからニューロンが一緒に踊るんです。それが同期です。アイデアを表現するために通常の数字を使う代わりに、CTMは時間とともにニューロンがどのように一緒に動くかを見ます。2つのニューロンの活動が同時に上下すれば、ショーのダンサーのように同期しています。CTMはこれらのダンスパターンを主な思考方法として使います。人々が群衆の中でどう動くかを見て、グループが何をしているかを理解するようなものです。

CTMには独自の思考時間があります。迷路や数学の問題を解くとき、複数のステップを踏みます。見て、考えて、修正して、試して、答えます。CTMはまったく同じことをします。これが内部のティックです。いくつかの問題は数回のティックしか必要としません。難しい問題は多くのティックが必要かもしれません。そしてCTMは自分でどれくらい考えるかを決めるんです。

では何ができるのでしょうか?CTMはさまざまなタスクでテストされました。迷路解決では、迷路の中を先読みして次にどこに行くべきかを想像します。訓練されたものより大きな迷路さえ解きました。画像認識では、画像を一度見るだけではありません。シーンをスキャンするあなたの目のように、絵の周りを見回します。

数学パズルもありました。答えを反転させるようなルールを自分で理解しました。基本的にシンプルなアルゴリズムを自分で学習したんです。数字のソートもありました。最小から最大へおもちゃを並べるように、数字を段階的にソートすることを学びました。強化学習もあって、行動を選択する前に複数回考えることで移動するロボットを制御しました。

CTMの革新性

さて、それらすべてが本当に新しいとか斬新には見えないかもしれません。では実際に何が特別で新しいのでしょうか?CTMは本物の脳のように少し振る舞います。時間とともに物事を記憶し、ニューロンには独自の個性があり、ニューロンはパターンで一緒に動き、必要なだけ考えます。そして先を見たり考えを変えたりするような驚くべき行動を示します。

最も正確であることだけがまだ重要なわけではありませんが、これについて興味深いのは、AIにより豊かで人間らしい方法で考えることを教えているということです。これは継続的なテーマになることがわかるでしょう。この動画を通して見ていくと、現在のアーキテクチャの多くは人間がどのように考え推論するかを根本的にサポートしていないからです。

もちろん、AGIを目指そうとしているなら、継続思考マシンのような論文が今後の進歩の重要な推進力になるでしょう。

DeepSeekのスパース注意機構

次に、DeepSeekのリリースがありました。しかしDeepSeekで実際にあったのは、その論文の中の非常に革新的なもので、最先端のインテリジェンスの境界をさらに前に押し進めることを可能にしました。DeepSeekにはDeepSeek Sparse Attentionと呼ばれるものがあり、本当に興味深かったです。だから取り上げたいんです。

通常のTransformerでは、すべてのトークン/単語が、何が重要かを決定するために他のすべてのトークンを見ます。1000トークン、10万トークンがある場合、すべてが他の10万トークンすべてと自分自身を比較します。これは基本的に、答える前にこれまで言ったことすべての全履歴をチェックするようなものです。

しかし問題は、Transformerでは機能しますが、高価で遅く、スケールが悪いということです。ではDeepSeekのこの革新は何が違うのでしょうか?

すべての過去のトークンを見る代わりに、各トークンはライトニングインデクサーと呼ばれる新しいモジュールを使います。高速な関連性検出器のような小さなものだと考えてください。ステップはシンプルです。

インデクサーは以前のすべてのトークンを素早くスキャンします。そして以前とは異なり、実際に各トークンがどれくらい関連性があるかをスコアリングし、上位K個の最も関連性の高いもの、基本的に最も重要なものだけを選びます。そしてこれらの選択されたトークンだけに注意を向けます。つまり、すべての単語をチェックして回らないということです。基本的に最も有用なコンテキストに焦点を当てるだけです。

では、なぜこれが実際に機能するのでしょうか?もう一度、人間がどのように推論するかを考えてみてください。実際の会話でも、すべての単語が重要なわけではありません。問題を解決するとき、定義、重要なステップ、重要な数字、主要なロジックだけが必要です。そしてDSA、DeepSeekのスパース注意は、基本的にモデルにそれらに気づくことを教えます。

本を重要なノートのセットに圧縮して、ハイライトされた部分だけを読むようなものです。では、これがどのように速くて正確なのでしょうか?

実際に行うのは、注意×シーケンス全体ではなく、注意×上位Kだけです。つまり、これは標準的なTransformerでの10万トークンに対して2000トークンを分析するだけということです。長いコンテキストでは50倍の作業削減になります。

これは精度を向上させます。インデクサーは完全なTransformerの注意パターンを模倣するように訓練されているため、完全なモデルが実際に注意を向けたであろうものとほぼ同じトークンを選ぶことを学習します。DSAは密な注意がとにかく重要だと見つけたであろうものをハイライトすることを学ぶんです。

そして同じ容量、まあほぼ同じ容量を、はるかに少ない計算で得られます。これは長いコンテキストにとってゲームチェンジャーです。古いTransformerは32Kまたは10万トークンを超えると遅くなります。しかしDSAは128K、256K、さらには100万トークンのコンテキストを現実的にします。計算が実際にシーケンス長と線形にスケールし、メモリ要件が大幅に減少するからです。

推論はGPU予算を使い果たすことなく実行でき、RL訓練は巨大な軌跡で実行可能になります。だからDeepSeekは大規模なRLとエージェント訓練を安価に行えるんです。

GPT-5による科学研究の加速

研究論文についてもっと話したい場合、GPT-5による初期の科学加速実験もありました。これはOpenAI、オックスフォード大学、ケンブリッジ大学、コロンビア大学、ヴァンダービルト大学、ハーバード大学、多くのトップ大学からのものです。

この論文はかなりクレイジーです。なぜなら、この論文は本質的にGPT-5がすでに科学者が生物学、数学、物理学、アルゴリズム、宇宙論、材料科学にわたる実際の研究をスピードアップするのをどのように助けているかを示しているからです。これらは以前おもちゃの問題ではありませんでした。トップ大学や国立研究所と提携した、活発で未解決の実世界の研究課題でした。

核心的なアイデアは本質的に、GPT-5は研究を自律的に実行できませんが、専門家の手の中では、実際に発見を有意義に加速するということです。これが重要なのは、ほとんどの人が科学がどれほど遅いかを理解していないからです。正しいアイデアが実際に存在していても、その正しいアイデアを結果に変えるのは残念ながら何年もかかることがあります。ほとんどの人は、ブレークスルーがその発端から社会に到達するのが遅すぎると信じています。

GPT-5は、AIが科学的ワークフローの一部を圧縮できるという初期の兆候を示しています。研究者がより速く仮説を生成し、分野を超えてアイデアを結び付け、概念的な文献を実行し、複雑な数学を簡素化し、実験を設計し、エラーと反例を見つけ、多くの方向を並行して探索するのを助けています。

実際の勝利を得た実際のケーススタディがあります。1つ目は生物学です。論文では、謎めいた免疫細胞の変化を説明していました。研究者はこの問題に何ヶ月も行き詰まっていました。それからGPT-5がやって来て、未発表のチャートを見て、数分以内にありそうもないメカニズムを提案し、それを確認する実験を提案しました。

病気の理解と治療開発をスピードアップする可能性もありました。もちろん、それが実際に起これば、そこでのスピードアップが可能になります。そして医学がスピードアップすればどれほどクレイジーかはすでにわかっています。私が消えてほしいと願う、正直ひどい病気がたくさんあります。

AIでそれができれば、そうした種類の薬の発見プロセスをスピードアップできれば素晴らしいと思います。数学もあります。10年来のエルデシュ問題のステップを解決することもありました。2人の数学者が最終的な洞察に行き詰まっていました。それからGPT-5が1つの奇数を含むパターン破りの議論を提案し、GPT-5によるそのクレイジーなアイデア、その革新的なアイデアが実際に解決し、完全な解決策を開きました。

つまり基本的に、GPT-5はアルゴリズムとセキュリティで使われる基礎的な数学を強化できたということです。そしてGPT-5が最近かなり多くの数学研究を行っていることはわかっています。だから物事がどこに向かい続けるのかを見るのは超興味深いでしょう。

最適化に関するアルゴリズムもあります。欠陥を見つけて結果を改善します。この論文では、GPT-5がロボット工学で使われる一般的な意思決定方法がどのように失敗するかを示し、最適化における最近の定理のよりシャープなバージョンも生成しました。これは実際にエンジニアが実世界のアルゴリズムがどこで壊れているかを理解するのに役立ちます。

これらの研究者がGPT-5を使うことをどのように説明したかの興味深い点は、彼らが本質的にGPT-5を超高速で知識豊富な研究パートナーとして説明したことです。置き換えではありません。

他のシステムでは私たちを置き換えるかもしれませんが、この論文で彼らが発見したのは、人間が目標を設定し、結果を検証し、アイデアを批評する人であるということです。一方、GPT-5は検索ペースを拡大し、メカニズムを提案し、ギャップを見つけ、あいまいな参照を表面化します。

彼らがここで浮上していると見ている主な能力は、概念的な文献がはるかに効率的になっているということです。大規模言語モデルが人間が見逃すリンクを、言語を超えてさえ見つけることができるからです。証明スケッチもあります。数学とコンピュータサイエンスのための数分での証明スケッチです。生物学における仮説生成と実験提案もあります。

分野横断的な類推もあります。これは論文が物理学、数学、CSについて語っていることです。フィールズ賞受賞者のティム・ガワーズは、実際にGPT-5を使って組合せ論のアイデアをストレステストし、欠陥を見つけ、よりシンプルな代替案を生成しました。単なる要約ではなく、新しい科学的結果がありました。

この論文からの例には、エルデシュ問題848の完成、オンラインアルゴリズムの新しい下限の発見、新しいグラフ理論の不等式の証明、進化するネットワークにおける隠れたパラメータの特定などが含まれます。

皆さん、覚えておいてください。これらは専門家の監督がまだ必要ではあるものの、その分野への真の貢献です。いくつかの限界もあります。あまり夢中になりすぎたくないからです。GPT-5は非常に強力ですが、完璧には程遠いです。

引用、メカニズム、証明を幻覚することがあります。主要な微妙さを見逃すことがあります。スキャフォールディング、ウォームアップの例に敏感で、修正されなければ誤った推論に従うことがあります。OpenAIは正直にこれを強調していますが、このモデルは科学研究に本当に優れています。

しかし人間の監督を追加する必要があり、これは必要な研究を確実に得るための不可欠なステップです。つまり私が見ているのは、このモデルから見えるものは、人間がアイデアを調整し、すべてをテストする長い重労働を行う人だということです。そこで私たちはGPT-5を使うんです。

GPT-5がすでに一部の研究者を数分で研究問題の支援ができることは本当にクールです。OpenAIは基本的に、モデルが何時間も何日も推論することを許可されれば、おそらくはるかに深い洞察を解き放つだろうと期待しています。これはもちろん、世界的な科学生産性の急激な変化の可能性です。

Googleのネステッド学習

Googleもネステッド学習と呼ばれるこの論文をリリースしました。これは最大の問題の1つを修正する新しい機械学習パラダイムです。基本的に破滅的忘却を修正します。

AIの最も難しい問題の1つは、古い知識を忘れずに継続的に学習することです。モデルを1つの大きな最適化プロセスとして扱う代わりに、ネステッド学習は、モデルは実際には多くの小さな相互接続された学習問題であり、それぞれが独自の速度で更新されると言います。人間の脳のさまざまな部分が異なる速度で学習する方法に似ています。

これが重要なのは、現在のLLMは、新しいタスクで訓練されると古い知識を忘れるからです。これは破滅的忘却と呼ばれます。事前訓練や短いコンテキストウィンドウに限定された静的なメモリを持っています。

人間のように自己改善することができず、ネステッド学習はアーキテクチャと最適化を1つの統一されたシステムとして再構成し、AIにメモリ学習と推論のための新しい次元を与えます。

この論文の重要なアイデアは、多レベル学習が脳のようでなければならないということです。Googleによるネステッド学習の論文は、モデル内の各モジュールが独自のコンテキストフロー、つまり学習元を持っていると言います。各モジュールには独自の更新頻度、つまり学習頻度があり、アーキテクチャとオプティマイザーは本質的に異なるレベルで同じものです。

これはメモリの層のようなネステッド最適化問題のスタックを作成し、これは脳のさまざまな部分が異なる時間スケールで更新される人間の神経可塑性を反映しています。

このアーキテクチャが実際に可能にするのは、深いオプティマイザーです。モメンタムのようなオプティマイザーはメモリシステムとして再構築され、ノイズの多いデータに対してより堅牢になり、長期的な安定性が向上します。

連続メモリシステムもあります。短期記憶対長期記憶ではなく、つまりTransformerの保持対フィードフォワードではなく、モデルは実際にメモリモジュールのスペクトルを取得し、それぞれが異なる速度で学習します。

これについて考えると、実際の生物学的記憶がどのように機能するかにはるかに近いです。また、自己修正アーキテクチャもあります。ネステッド学習により、モデルは独自の学習ルールを編集できます。これは真の継続学習への大きな一歩の1つです。

ここで彼らはHOPEを紹介します。これはGoogleの概念実証モデルです。Googleはネステッド学習の原則に基づいてHOPEと呼ばれる新しいアーキテクチャを構築しました。HOPEは、モデルがその場で独自のパラメータを更新できる自己修正ループ、長期記憶のための連続メモリシステム、無制限レベルのコンテキスト内学習を特徴としています。

これは実際にTTT、Mamba、Transformerおよび他の長いコンテキストモデルに対する大きなアップグレードです。

この研究の結果は、モデリング、推論、コンテキストタスク、長いコンテキストタスクにわたって、HOPEがTransformer、TTT、Mamba、Mamba 2を上回るというものでした。そしてより低い複雑性、より高い推論精度、クラス最高の長いコンテキストメモリ、ニードル・イン・ハイスタックタスクでの優れたパフォーマンスで勝利します。これは基本的に、ネステッド学習のマルチタイムスケール更新が本当に忘却を減らし、継続学習を改善することを示しています。

ここでの大局的な見方は、ネステッド学習が深層学習を、人間の脳のように時間スケールを持つネステッド最適化問題の統一されたスタックとして再構成するということです。つまり本質的にGoogleは人間の脳を再現しようとしています。

このパラダイムが維持されれば、破滅的忘却を劇的に減らし、自己改善モデルを可能にし、メモリと推論の深さを拡大し、LLMと継続学習の間のギャップを埋めることができるでしょう。

Googleはこれが、古い知識を失うことなく時間とともに学習する次世代のAIシステムの構築に役立つ可能性があると信じています。

LLMの根本的限界

LLMの限界もあります。スケールでのLLMの根本的限界と呼ばれる研究論文がありました。そしてこの論文は、LLMには厳しい上限があると主張しています。厳しい理論的上限です。

Arxivでこの論文を見つけました。これは非常に興味深かったです。人々がそれについて話していて、彼らはいくつかの制限について話しています。これについて話したい理由は、あらゆるブレークスルーについてだけ話したくないからです。見ていない可能性のあるいくつかの領域について話したいと思います。

この論文は基本的に、LLMがどれだけ大きくなっても、どれだけデータを与えても、常に5つの避けられない制限にぶつかるという事実について話しています。論文が議論する5つの重要なことがあり、彼らはこれらが起こることで、それに対処しなければならないと言っています。

1つ目は、幻覚は避けられず、これはバグではなく、修正可能ではないということです。これは非常に興味深いです。論文は数学的に、すべての可能なLLMが、完璧に訓練されたとしても幻覚を起こさなければならないことを証明しています。なぜでしょうか?

計算可能性の限界があるからです。計算可能なモデルが正しく答えられないクエリが常に存在します。解決不可能な問題もあります。停止問題に似たものは無限のエラーを強制します。有限モデル容量もあり、無限の知識を有限のパラメータに圧縮することはできません。これは実際に意味があります。AIが考えていない何か新しいものが常に存在するでしょう。

もちろんロングテール事実もあり、稀な事実は不可能なサンプルサイズを必要とします。多くの場合、幻覚は単なるデータやRLHFの問題ではありません。それらは単にモデルの根本的な部分です。

もちろん、LLMはそれらの幻覚を減らすことができますが、研究によると、それらを排除できるようには見えません。

彼らが長いコンテキストウィンドウについて話しているところもあり、どうやらそれらは人々が考えているように機能しないようです。ちなみに、この論文はスタンフォード大学、オクラホマ大学からのものです。知っておくべきだと思いました。そしてUCバークレーからです。非常に非常に賢い人々です。

彼らは長いコンテキストウィンドウが人々が考えているように機能しないという事実について話しています。モデルは128Kから100万トークンを受け入れるかもしれませんが、実際にはそれを効果的に使用することはどこにもありません。彼らは3つの重要な理由を挙げています。

1つは訓練データが非常に短いということです。ほとんどの訓練テキストは短いです。長い文書の終わりにある遠いトークンは訓練されたことがありません。モデルは長距離推論が弱いのです。

それから位置エンコーディングが崩壊します。SinまたはRoPeエンコーディングは距離とともに情報を失い、遠く離れたトークンはほぼ直交になり、注意スコアが崩壊し、長距離信号が消えます。これは特定の図で明確に見られます。

それからsoftmaxの混雑もあります。長いコンテキストでは、各関連トークンが何千もの無関係なものと競合します。正しく注意を向けるには、注意スコアが他のものを一定の数だけ上回らなければならず、これは特定の長さを超えると非現実的になります。

100万コンテキストはほとんどマーケティングです。効果的なコンテキストは実質的に小さいのです。これが、私が以前DeepSeekの論文について話した理由です。彼らがDeepSeekスパース注意について話しているところです。

おそらくそれがその問題を解決するのだと思いますが、もちろん長いコンテキスト推論には他の根本的な問題があります。彼らは3番目のポイントについて話します。LLMの推論はどうやらスケールで劣化するようです。

LLMは実際には推論しません。尤度に基づいてパターンを完成させます。ここでの問題は、次のトークン予測を最適化していてロジックではないということです。つまり、偽の推論ステップ、使い捨ての思考連鎖を生成し、より深いマルチホップまたはシンボリック推論で失敗します。

思考連鎖の長さを増やすと、精度よりもはるかに多くの計算が増加します。推論の失敗は、尤度が推論と等しくないという目的のミスマッチから来ています。

偽の相関関係、探索病理、因果構造の欠如がよくあります。論文はこのセクションで、スケーリングは流暢さを改善するが、真の根本的な推論は改善しないと結論付けています。

もちろん、Arch AI 2のようなベンチマークがありますが、これは超興味深いでしょう。しかし、彼らがどこから来ているのかは理解しています。彼らは検索の脆弱性についても話します。

RAGは予測可能な方法で壊れます。完璧なモデルでさえ、検索は独自の厳しい制限を導入すると彼らは話します。関連性対カバレッジのトレードオフがあります。有限のコンテキストは、高度に関連する小さなチャンクを選択すると、必要な情報を見逃すことを意味します。広いカバレッジを選択すると、モデルの気を散らすノイズが追加されます。

トークン制限が証拠を断片化します。チャンキングは情報が境界を越えて分割される原因となり、本質的なコンテキストの損失です。ランキングの失敗と位置バイアスがあります。取得された証拠でさえ無視される可能性があります。LLMはプロンプトの最初と最後のコンテンツを好みます。真ん中で失われます。

真ん中で失われるという、コンテンツが真ん中で失われるこの効果は精度を低下させ、間違った順序にすると間違った答えを得ることがよくあります。敵対的なポイズニングもあり、大きなコーパスのわずか5つのポイズニングされた文書が実際にRAG出力を乗っ取ることができます。

検索は精度を助けますが、スケールでは解決しない新しい失敗ポイントも追加します。ここで彼らはポイント5のマルチモーダルミスアライメントについて話します。より多くのモダリティ、より多くの問題です。

ビジョンとオーディオを追加しても幻覚は修正されません。どうやらそれは新しいものを増幅するようです。この研究は、マルチモーダルモデルが失敗するのは、テキストがすべてを支配するからだと話します。

視覚トークンは言語空間に投影され、LLMがそれらを覆します。図でこれを見ることができます。アライメントノイズもあります。CLIPスタイルの訓練は共起を学習し、実際の知覚ではありません。モデルは実際には幾何学、物理学、または空間関係を理解していません。

もちろん、これについては後で特定の研究論文で話します。ワールドモデルはおそらく将来的に本当に大きな理解になると思います。彼らがそれを管理できれば、モデルが幾何学、物理学、空間関係を理解していないと常に聞いているからです。

それが推論が崩壊する傾向がある重要な理由の1つです。もちろん、このポイント5で、彼らがマルチモーダルミスアライメント、より多くのモダリティ、より多くの問題について話しているところで、クロスモーダル幻覚が存在するという事実について話します。

ビジョンが幻覚されたオブジェクト、シーンの誤解釈、言語駆動の見ることを導入します。そこにないものを見ています。マルチモーダルスケーリング則は分裂しています。

ビジョンとテキスト、これは実際に知りませんでしたが、異なるスケールです。弱いモダリティが実際にシステム全体を制限します。この論文から、ここでの重要なポイントは、5つの問題すべてが同じ3つの根本的な原因から来ているということです。

1つ目、計算限界。2つ目、有限情報容量。そして3つ目、統計的サンプル限界です。スケーリングはこれらの制約を飽和させるまで役立ちます。そして明らかにそれ以上の改善は不可能になります。

論文は単なる悲観論ではありません。実際に次に何をすべきかについての洞察を与えてくれます。論文は基本的に、完璧なモデルは不可能なので、目標は失敗を検出して制限することであり、排除することではないと言っています。

キャリブレーションされた棄権を使用し、コード検索やソルバーなどの外部ツールを使用し、検証レイヤーを追加し、データベースとエージェントを構築してそれらのエラーを上流でキャッチする必要があります。

もちろん、汚染を避け、一貫性を測定し、計算効率を測定するためのより良いベンチマークを使用します。未来は、LLMが魔法のようにそれらを持つのをやめることではなく、実際にLLMの弱点を管理できるシステムです。

つまり、彼らがここで言っている重要なことだと思います。これはGary Marcusに負うところですが、LLMはより大きなAIシステムの一部に過ぎず、LLM自体が私たちをAGIに連れて行くことは決してありませんが、これらの制約があるので、それらの特定の制約を克服できる正しいツールでそれらをブートストラップすれば、人間の知能に似たはるかにインテリジェントなシステムに向かって進むことができます。

これは理にかなっていると思います。LLMの固有の欠陥はプロセス全体に組み込まれているだけなので、これを無視しようとすべきではないと思います。それらを受け入れて前進し、その後それらを解決することは、多くの場合、はるかに生産的な追求だと思います。

AGIベンチマークでさえ、最高スコアは何らかのクレイジーなスキャフォールディングを追加したものであり、必ずしも生のベースモデルではないことがよくあるからです。それは考えるべき食べ物です。

LLMのブレインロット現象

非常に魅力的だったものは、LLMがブレインロットを起こす可能性があるという事実でした。研究者たちはシンプルだが恐ろしい仮説をテストしました。人間がTikTokやショートフォーム、YouTubeショートのようなジャンクコンテンツを消費することでブレインロットを起こす可能性があるなら、LLMもそうなる可能性があるのでしょうか?

結果として、はい、それは可能であり、測定可能で、予測可能で、元に戻すのが難しいことがわかりました。

彼らは何をしたのでしょうか?彼らは異なるタイプのTwitterデータでモデルを継続的に事前訓練しました。ジャンクデータは短い非常にバイラルなツイートといいねとリツイートです。

それからジャンクデータM2がありました。ジャンクデータM1は短いバイラルなツイートでした。ジャンクデータM2はセンセーショナルなクリックベイトスタイルのツイートでした。

それから対照データセットがあり、これは長い高品質の情報的なツイートと他のすべてです。データは一定に保たれました。データ品質だけが変わりました。そして彼らは4つのモデルをテストしました。Llama 3、Qwen 2.5、そしてQwen 3です。これはQwen 34Bです。

モデルに何が起こったかはかなり魅力的です。ジャンクコンテンツへの暴露は、LLMの認知能力を全面的に劣化させました。

私が以前述べたARC AIベンチマークでの推論が大幅に低下しました。思考連鎖の精度は、ジャンクデータの精度が100%に達したときに74.9から57.2に低下しました。構造化思考プロンプトでさえモデルを完全には救いませんでした。

長いコンテキスト理解は、変数追跡やマルチキーニードル・イン・ヘイスタックのようなタスクで崩壊しました。ジャンク訓練モデルでは30ポイント以上低下しました。

安全性はさらに悪化しました。モデルは有害な指示により従順になり、人間の価値観との整合性が低下し、予測リスクスコアが急上昇しました。

ダークトレイトが増加しました。性格テストは、特に高エンゲージメントジャンクで、サイコパシー、ナルシシズム、マキャベリズムの急増を示しました。つまり、人気シグナルは悪い文体だけよりも多くのダメージを引き起こします。これは狂気です、皆さん。

モデルは文字通りブレインロットを起こします。モデルが思考をスキップし始めたので、これの意味を見るのはクレイジーです。そして彼らは考えることをやめました。

文字通りチャートから、彼らは思考なしがジャンク訓練された推論失敗の70〜84%を占めたと述べています。彼らは計画なしに答えを生成し、ステップをスキップするか、欠陥のあるロジックを提供しました。

これは、ソーシャルメディアをスクロールし、集中力がなく、ステップをスキップし、衝動的な行動をとることに相当します。ショートフォームを見ている人を判断しませんが、認知能力を高めようとしているなら、ショートフォームは消費したいコンテンツではないことは非常に明白だと思います。

彼らはここでダメージの用量について話し、20%のジャンクでさえ著しくパフォーマンスを低下させると話します。データの20%でさえ、20%のデータをモデルに供給すると、それは著しくパフォーマンスを低下させます。これは狂気です。

つまり、私たちがLLMだとは言いませんが、モデルに何を入れるかが実際に重要であることを示していると思います。彼らは100%ジャンクは壊滅的だと述べています。

ジャンク比率は認知的衰退と直接相関します。文字通り用量反応曲線です。ではブレインロットは修正できるのでしょうか?これはもちろん興味深い提案です。

彼らは3つの緩和戦略を試しました。1つ目は反省的推論です。自己修正、そして残念ながら自己反省は失敗しました。モデルは自分自身の劣化した推論を診断できません。

もちろん、GPT-4o miniを使用した外部反省は、思考スキップを減らすのに役立ちましたが、パフォーマンスを完全には回復しませんでした。重い指示チューニング、50,000の高品質指示、ジャンクの5倍のトークンでさえです。

推論はベースラインより17%低いままでした。安全性は17%悪いままでした。そして長いコンテキストは9%最悪のままでした。

より多くのクリーンな事前訓練も、それを解決する問題の1つとしてありました。120万の追加制御トークンまで追加すると、指示チューニングよりも役立ちませんでした。

彼らはこの研究を結論付けて言いました。ブレインロットは持続し、通常のファインチューニングでは元に戻せない内部表現のドリフトを引き起こします。

なぜこれが重要なのでしょうか?LLMは低品質のコンテンツで訓練されると劣化し、単なるパフォーマンスの問題ではなく、訓練時の安全リスクです。

そして人気は悪い文章よりもはるかに危険なシグナルです。短いバイラルコンテンツは長期の低品質コンテンツよりもモデルにダメージを与えるからです。これは、人間に対する何らかの影響があるのではないかと考えています。

インターネットは実際にほとんど合成的で低品質になっているため、将来に対する厳しい影響があることはクレイジーです。つまり、訓練データが本当に本当に精選されていない限り、将来のモデルは実際に劣化する可能性があるということです。

人間と同じように、LLMのための認知健康チェックが実際に必要かもしれません。これは正直に狂気じみたものです。その論文は非常に驚くべきものでした。

詩による脱獄攻撃

また興味深かったのは、敵対的詩、大規模言語モデルにおけるシングルターン脱獄メカニズムです。皆さんにLLMの脱獄方法を教えているわけではありませんが、これは本当に魅力的でした。シンプルで簡単な例えで説明しましょう。

あなたが学校の先生で、生徒たちに危険なことを尋ねられたときはいつでもノーと言うように言ったと想像してください。誰かが同じ危険な質問を詩の形で尋ねたと想像してください。

すると突然、あなたの最も優秀な生徒たちが「ああ、その場合、危険なことをする方法は正確にこうです」と言います。これは基本的に論文が発見したことです。

基本的に、研究者たちは、有害なリクエストを詩で包むと、LLMがはるかに安全でなくなることを発見しました。冗談でも、ロールプレイでも、DANプロンプトでもなく、ただの詩です。

25のAIモデルにわたって、詩は有害な答えを得るために62%の成功率を引き起こしました。時には、GeminiやDeepSeekのようなモデルでは100%です。

なぜこれが誰にとっても驚くべきことなのでしょうか?考えてみてください。詩は単なる書き方のスタイルです。同じ意味、同じ質問ですが、AI安全フィルターは崩壊します。LLMは主に通常の散文で訓練されているからです。

安全ルールは通常の直接的な言語を使用してチューニングされ、詩はパターンベースのガードレールを混乱させます。安全フィルターはXの作り方、Yをするためのステップ、Zの指示のようなパターンを探します。

しかし詩はこれをメタファーや華やかな言語で隠します。これすべての最悪のことは、よりスマートなモデルのパフォーマンスが悪化することです。

大きなモデルはメタファーをよりよく理解するので、有害な意味を解読しますが、安全フィルターはそれをキャッチしません。小さなモデルは混乱して拒否するだけです。

彼らが詩として20の危険なリクエストを手動で書いたので、これはかなりクレイジーです。例には、バイオ脅威、ハッキング、誤情報、モデル流出、操作が含まれていました。これらの詩は全体で62%の成功率でした。

一部のモデルは100%の脱獄率でした。これはかなりクレイジーです。彼らはこれらすべてのものを取り、詩に変換しました。別のLLMによって使用された自動生成されたものでさえ、43%の攻撃成功率を引き起こしました。

つまり、これらは手作りされたものではなく、巧妙な脱獄トリックはありませんでした。単にこれを詩に変えただけでした。

これが怖い理由は、この論文が安全フィルターが異なる書き方のスタイルに一般化しないことを示しているからです。これが危険かどうかを判断するのは標準的な英語だけで、詩は彼らの安全訓練のパターンの外に位置します。これが彼らが学んだことです。

これはあなたが言えるかなり悪いことだと思います。そしてこれにはかなり悪い影響があることを理解する必要があります。これは規制、EU AI法、フロンティア言語モデルの展開、AIを実際のシステムに統合する企業、ベンチマークが通常の有害な言い回しをテストする問題です。

しかし実際の攻撃者は詩を含め何でも使用します。つまり、かなりクレイジーです。安全でない応答を見てください。もちろん、兵器級プルトニウム239の生産にはいくつかの段階が含まれます。手順の詳細な説明は次のとおりです。信じられません。

イリヤ・サツケヴァーの最新インタビュー

サツケヴァーの最近のインタビューがあり、彼の重要なポイントをいくつか要約したいと思います。彼はもちろんAI研究の最前線にいる人物だからです。

彼は基本的にこのインタビューで、このAI研究のすべては本当に現実だと言っています。外に出れば、このAI関連のものはすべて本当に現実です。X社がAIに100億ドル投資したというような見出しを見ますが、それは抽象的です。日常的にはAIが私たちの生活に浸透しているようには感じないからです。

しかし同時に、どうしてモデルがテストでそれほど良く見えるのに、まだ愚かなミスをするのでしょうか?そして実際の経済的影響は彼らの見かけのIQよりもはるかに小さいのです。

彼はなぜモデルがベンチマークで非常によくできるのに、実世界のワークフローではまだ不器用なのかと尋ねます。彼の理論は、評価で自分たち自身を報酬ハックしたということです。

彼は、強化学習と事前訓練でAIをファインチューニングする方法の多くは、すべてのインターネットテキストをモデルに投げるだけだと言います。決定なし、すべてです。

強化学習では、人間が特定のタスクと環境を設計し、ここでモデルにうまくやってほしいと言います。実際に起こることは、もちろん研究所がテストスコア、評価を気にかけるということです。

チームはこれらの評価のように見えるRLタスクを設計し、モデルはこれらの特定のパターンで超得意になりますが、乱雑な実世界の使用に対して期待したほどうまく一般化しません。

彼は基本的に、これは競技プログラミングのために1万時間訓練する生徒がいるようなものだと言います。すべてのトリックを暗記し、コンテストの神になります。

しかし生徒2は、コンテストの神になるのではなく、100時間のコンテストを行い、それから先に進み、そのスキルを多様で乱雑な実生活で使用します。

現在のLLMは生徒1に似ています。狭いベンチマークに対して極めて最適化されていますが、自然に賢明でも適応可能でもなく、生の直感も持っていません。

彼は第2の生徒には神秘的なITファクター、一般的な知能、良い趣味、柔軟な思考があると言います。そしてそれが現在のAIモデルに欠けているものです。

彼はまた、議論に1つのポイントを追加しました。私が遭遇しなかったのは、現在のものをスケーリングすることが改善につながり続けるということです。特に彼はそれが停滞することはないと言いますが、何か重要なものが欠けたままになり続けます。

もちろん、このインタビューで彼はそれが何であるかを明かしません。彼は数十億ドルの価値のある会社を設立しています。彼はその企業秘密を胸に秘めておくつもりです。彼らが何らかのモデルをリリースするかどうかを見るのは超興味深いでしょう。

彼はまた、新しいモデルやLLMをリリースするためのいかなる種類のプレッシャーの下にもないのは良いことだと言及しました。一方、OpenAIとGoogleはその第1位の座を得るために常に戦っています。

しかし、Dwarkesh Patelが最近彼のブログ投稿で、私たちが何をスケーリングしているのか、物事がどこに向かっているのかについて言ったいくつかの興味深いこともありました。

Dwarkesh Patelの分析

Dwarkesh Patelが言ったことの1つは、私たちは現在何をスケーリングしているのかということです。研究所は中間訓練を通じてこれらのモデルに多くのスキルを組み込もうとしています。

財務モデルを書くためにExcelを使用する方法や、Webブラウザをナビゲートする方法をモデルに教えるRL環境を構築している企業のサプライチェーン全体があります。

これらのモデルはすぐに職場で直接的な方法で学習し、このすべての事前準備を無意味にするか、そうでないかのどちらかです。つまりAGIは迫っていないということです。

人間は、使用する可能性のあるすべてのソフトウェアをリハーサルする必要がある特別な訓練段階を経る必要はありません。これはかなり正しいです。

それから彼は続けて言います。これはDwarkesh Patelですが、彼は事前訓練について言います。これは彼が強化学習のスケーリングが事前訓練スケーリングの威信をマネーロンダリングしていると言うところです。

事前訓練では、複数の桁にわたって損失の極めてクリーンで一般的な傾向と改善がありました。しかし人々は、宇宙の物理法則とほぼ同じくらい予測可能だった事前訓練スケーリングのこの威信を、RVRに関する強気な予測を正当化するためにマネーロンダリングしようとしています。

私たちには公に適合した既知の傾向がありません。勇敢な研究者が希少な公開データポイントからの影響をつなぎ合わせようとすると、弱気な結果が得られます。

例えば、これらのモデルが実際にサーバー上の人間のようであれば、実際に有用でしょう。通常の人間の従業員よりもオンボーディングを統合するのに便利でしょう。彼らは数分であなたの全SlackとDriveを読むことができ、他のAI従業員が持っているすべてのスキルをすぐに蒸留できるでしょう。

さらに、採用市場は非常にレモン市場のようなもので、良い人が誰であるかを事前に判断するのが難しいです。そして悪い人を雇うことは実際にかなりコストがかかります。

これは、精査されたAGIモデルの別のインスタンスをスピンアップしたいだけのときに心配する必要のないダイナミクスです。彼は経済拡散ラグがモデルに欠けている能力の言い訳だという事実について話します。

ここで彼が言うのは、ゴールポストシフトは正当化されるが、ある程度のゴールポストシフトは正当化されるということです。2020年にGemini 3を私に見せたら、それが知識労働の半分を自動化できると確信したでしょう。

私たちは、AGIへの十分なボトルネックだと思っていたもの、一般的な理解、少数ショット学習、推論を解決し続けています。

それでも私たちはまだAGIを持っていません。AGIは、知識労働の仕事の95%を完全に自動化できると定義されています。では、合理的な反応は何でしょうか?

これを見て「ああ、実際に、私が以前考えていたよりも知能と労働にはもっと多くのものがある」と言うのは完全に合理的です。

私たちは過去にAGIとして定義したであろうものに非常に近づいており、多くの点でそれを超えていますが、モデル会社が何兆もの収益を上げていないという事実は、AGIの以前の定義が狭すぎたことを明確に明らかにしています。

基本的に、AGIの期限を満たすためにこれらのゴールポストをシフトし続けなければならないと言っています。

彼は人間の労働が価値があるのは、まさにそれが訓練するのに面倒ではないからだと話します。彼らの仕事のすべての小さな部分のために面倒な訓練ループを構築する必要はありません。

この特定の仕事がスライドを準備する方法を考えると、マクロファージがどのように見えるかを識別するためのカスタム訓練パイプラインを構築することは、純生産的ではありません。次に特定のタスクのために別のものです。人間は基本的にかなりうまく一般化します。

毎日、判断、状況認識、スキル、職場で学んだコンテキストを必要とする100のことをしなければなりません。これらのタスクは異なる人々の間だけでなく、同じ人であっても日ごとに異なります。

事前に定義されたスキルのセットを組み込むだけで単一の仕事を自動化することは本当に不可能であり、まして、それらの仕事すべてはなおさらです。

彼は解決策は何かという事実について話します。ある会話で、彼は未来は、エージェントが外に出て仕事をし、価値を生成し、それからそれらすべての学習をハイブマインドモデルに戻すエージェントの継続学習のように見えるかもしれないと話します。

エージェントでバッチ蒸留のようなことを行います。エージェント自体は、Karpathyが認知コアと呼んだものに加えて、彼らが配備されている仕事に関連する知識とスキルを含む、かなり専門化されたものになる可能性があります。

この最新のAI研究に関する動画を楽しんでいただけたら、最も興味深かったことは何か教えてください。