OpenAIが新たにリリースしたウェブブラウザ「ChatGPT Atlas」について、その実用性と将来性を議論する回である。Atlasはブラウザ内でChatGPTを直接利用でき、エージェント機能も搭載しているが、果たして既存ブラウザからの乗り換えを促すほどの魅力があるのかが問われる。また、OpenAI共同創設者のAndrej Karpathyが「エージェントはまだ機能しない。実用化には10年かかる」と発言したことについて、その技術的背景と業界への影響を分析する。さらにDeepSeekが発表したOCR技術論文では、視覚トークンを用いた文書圧縮により長文脈処理の効率化を実現する手法が紹介され、最後にLLMが低品質データに晒されることで「ブレインロット」と呼ばれる認知能力の低下を起こすという研究結果について、その含意と対策を検討する。

パネリスト紹介と今回のトピック
今週のMixture of Expertsへようこそ。司会のTim Huangです。毎週、Mixtureは優秀で面白く、思慮深いパネリストたちを集めて、人工知能の最新ニュースについて議論し、考察を深めています。本日のパネリストは3名の素晴らしい方々です。IBM フェローでマスター発明家のMartin KeaneとAaron Botman、そしてGraniteのシニアテクニカルプロダクトマネージャーのAbraham Danielsをお迎えしています。今日はたくさんのトピックがあります。ChatGPT Atlas、Andrej Karpathyのエージェントの将来に関する予測について話します。また、DeepSeekから出た興味深い論文、DeepSeek OCRについても取り上げます。そして最後に、LLMがブレインロットを起こすかどうかという問題を議論します。
まずはIllyによるニュースコーナーからです。皆さんこんにちは、私はIlly McConnellです。IBM Syncのテクノロジーニュースライターです。この忙しい1週間で見逃したかもしれないAI関連のヘッドラインをいくつかお届けします。
AIレースはすでに本格化しており、今やウォール街も参入しようとしています。大手銀行のGoldman Sachsは、データセンターやその他のAIプロジェクトの建設に資金提供する取引に焦点を当てた新しいチームを立ち上げました。IBMとGrokが提携し、Grokの高速推論とIBMのAIエージェントツールを組み合わせることで、企業がより迅速かつコスト効率的にAIエージェントを展開できるようにしました。
もはや企業だけがAIを実験しているわけではありません。今や軍も参入しようとしています。トップの将軍たちでさえAIチャットボットに答えを求めており、戦場で重要なスキルである迅速な意思決定を練習しています。Uberのドライバーは、ライドの合間にUberのAIモデルをトレーニングする小さなデジタルタスクをこなすことで、少し余分に稼ぐことができるようになりました。つまり、副業の中の副業というわけです。
これらのトピックについてもっと深く知りたい方は、ショーノートにリンクされているThink Newsletterを購読してください。それでは番組に戻ります。
ChatGPT Atlasの登場とその意義
まず、今週の大きな製品発表について話したいと思います。それはChatGPT Atlasです。このニュースを見逃した方のために説明すると、OpenAIが独自のブラウザをリリースしました。以前もこの話題について触れましたが、Abraham、OpenAIがなぜブラウザ業界に参入したのか、その直感的な理由を説明してもらえますか。なぜ彼らはこれをやっているのでしょうか。
いくつか答えがあります。OpenAIがこの分野に参入することについては、昨年検索機能が登場したことで、ある種の布石がありました。また、彼らが多くのユーザーにとってインターネットをナビゲートする際のエントリーポイントとなっていることもあります。だから一つは、彼らにとって自然な方向転換だったと思います。
でも二つ目として、Chromeに関する独占禁止の問題や、インターネット体験の一部として履歴をキャッシュできるというアイデアがあり、それによってインターネットを使う際により良いナビゲーション体験ができるという点で、彼らにとって完璧に理にかなっていると思います。モデル開発は以前ほどホットではなくなってきています。
だからOpenAIは、3億5000万人を超えるユーザーベースを活用するための新しい道を見つけることに非常に熱心だったと思います。個人的には、これは本当に賢い動きだと思います。LLMはすでにほとんどの人にとって、インターネットの使い方に関するエントリーポイントになっています。だから彼らが実際にブラウザを作ることは理にかなっているんです。
こういった移行は本当に難しいと思います。私が基本的なChromeからBraveに移行したときのことを覚えています。まるで引っ越しのようでした。かなり時間がかかった気がします。どちらもChromiumベースのブラウザなので、実際には非常に似たようなDNAを共有しています。でも、あるブラウザから別のブラウザへの移行は、本当にかなり摩擦が大きく感じられます。
Atlasの採用可能性について
Martin、採用について何か考えはありますか。OpenAIの収益のために他にも話し合ったものとしては、Perplexityのコメットブラウザがあります。これは彼らがこの分野に参入するための試みで、AI検索を販売している会社にとって、AIブラウザを作ることは非常に明白になるように思えます。それはGoogleとChromeの歴史のようなものがあるからです。
予測はどうですか。人々がAtlasを大規模に採用すると思いますか。これは彼らにとって大きな勝利になるでしょうか。
それは良い質問ですね。つまり、OpenAIにとってのメリットは理解できます。でも、ユーザーである私たちにとってのメリットは何でしょうか。
良い質問ですね。
今週Atlasをどのように使ってきたか、二つのストーリーをシェアしてもいいですか。
もちろんです。
テストしたとき、Macにこれをインストールしてみたんです。最初にやりたかったことは、科学論文をAtlasで開くことでした。もちろん今は、サイドにタブを表示させてChatGPTにアクセスできるようになっています。質問をすることができます。
質問は開いているウェブページのコンテキストを使います。だから、この実験の方法、目的、発見について教えてくださいといった質問ができました。そしてそれらすべての情報を提供してくれました。つまり、こういったことは通常のChatGPTウィンドウに行ってURLを貼り付けるだけで簡単にできたことです。でも、そこにあるのは便利でした。
でもこの科学論文には、たくさんの写真もありました。だから、写真について質問できるかどうか気になりました。特定の写真を参照せずに、どれが適切かを判断できるか見たかったんです。この論文はビール醸造法の科学的研究についてでした。
一方のビールが他方よりも酸化して見えるかどうか聞きたかったんです。色が少し濃くなるので、ある程度わかります。だから「一方が他方よりも酸化して見えますか」とだけ聞きました。すると、それに関連する1枚の画像を見つけて、その画像を分析して「実際には、いいえ、違いは見られません」と教えてくれました。うまく機能しました。
2つのウィンドウを開く必要がありませんでした。次に試したのは、ブラウザを制御してたくさんのタブを開いていろいろなことをする、組み込みのエージェントモードがあることです。私はちょっとしたアマチュア蔵書家で、まだ持っていないMichael Connellyの本が1冊あります。エージェントがその本を見つけてくれるか試してみたくなりました。
だから聞いてみました。この特定の本を見つけたい、Michael ConnellyのNine Dragonsという本です。ハードカバーで、中古で、中古のコンディションは非常に良い状態であることが条件です。すると、たくさんのウェブサイトを検索し始めて、動いているのが見えます。Atlasには楽しいアニメーションがあります。
答えを持って戻ってきて、最適だと思うウィンドウを表示させました。正しい本を見つけたんです。でも見てみると、本の表紙の説明が正しくないように見えました。私が集めた他のMichael Connellyの本とは違うように見えたんです。だから「この表紙は正しくないようです」とだけ言いました。
すると、エージェントの一部としてさらにたくさんのウィンドウを開いて作業を始めました。今度はISBN番号を調べて、そのISBN番号に対して正しい画像であることを確認しました。でも、これは本の米国版ではなく英国版であることを指摘しました。もし米国版を探したい場合は、実際には別のISBN番号を使う必要があると教えてくれました。
だからこれも本当に良い例でした。でもエージェントが私のためにすべての作業をしてくれました。繰り返しになりますが、おそらくChromeブラウザでchatgpt.comを使って同じことができたでしょうが、複数のタブを切り替える必要があったと思います。だから、すべてが1か所にあるだけで私にとって有益でした。
なるほど。つまり、賛成派なんですね。実際に、1か月後もまだAtlasを使っていると思いますか。
わかりません。様子を見ましょう。
わかりました。初日は気に入りました。
素晴らしいですね。Aaron、最後に最もクレイジーな質問を残しておきました。5年から10年後にブラウザというものがそもそも存在するのかどうかに興味があります。チャットボットの台頭を読み解く一つの方法として、もし十分に優れたものになれば、あるいはこれらのエージェントが十分に優れたものになれば、もう直接ウェブサイトに行く必要がなくなるということです。
すべての情報がキュレーションされ、組み立てられ、おそらくすべてがMCP上で動作するでしょう。つまり、エージェントのため、エージェントによるインターネットが本当に実現するかもしれません。だから、ウェブをブラウズしなければならないという概念は、過去の遺物になるかもしれません。長期的に見て、ブラウザは製品カテゴリーとして意味があると思いますか。
水晶玉を取り出して、テクノロジーの進む方向について考えてみると、本当に魅力的ですね。パラダイムが変わりつつあります。OpenAIは、私たちのコンピューター、つまりコンピューティングデバイスをプレイグラウンドに変えようとしているように思えますが、少なくともまだそのプレイグラウンドの構造と機能をコントロールできていません。プライバシーの一部を保持しようとしています。
ChatGPTは、これらのさまざまなアプリケーションを使えるオペレーティングシステムのようなものになろうとしているように見えます。AIアプリのためのオペレーティングシステムのようなもので、この場合のOSの役割は、AIツール、ワークフロー、プラグインなどをオーケストレーションすることです。macOSやWindowsやLinuxなどを置き換えるものではありません。
ハードウェアを制御する低レベルのOSのように動作することを目指しているわけではなく、1つ上のレベルで抽象化されています。アプリ、SDK、サードパーティアプリ、エージェントを扱います。アプリとプラットフォームの境界線が少しぼやけ始めています。私たちのコンピューターは実際にはAI用に作られていないことも考慮する必要があります。
これらのモデル、強力な大規模モデル、さらにはエージェントラッパーの多くをクラウドやこれらの大規模コンピューティングクラスターに外注しなければなりません。だから、何か新しいものが必要なんです。ここで、生成AIと生成コンピューティングが組み合わさることで、将来起こることを達成する手助けになると思います。
私たち全員が注意すべきリスクの一部は、データとプライバシーです。この新しいOSが何をしようとしているのか、何ができるのかを、私たちがまだコントロールして決定できることを確認することです。コメットジャッキングと呼ばれる隠れたプロンプトもあり得ます。これらのエージェントリスクが発生する可能性があり、それが勝手に実行されるかもしれません。コメットをハイジャックしたり、Atlasをハイジャックしたりする可能性があります。
また、将来に進むにつれて、透明性とコントロールも低下します。AIはミスを犯すことがあります。Martinが以前述べていたように、あるいは少なくとも認知ミスのように見えましたが、実際には英国に行って本を見つけましたが、おそらく私たちが現在住んでいる場所で本を見つけようとはしませんでした。
ユーザーに正しく関連付けなかった情報グラフがあったわけです。でも本質的には、そこに向かっていると思います。この分野が変化し始め、変わっていくのを見るのは魅力的でしょう。そしてそれは非常に急速に変わっていくでしょう。
Abraham、OpenAIが最終的にこれらすべてをどこに持っていくかについて、何か考えはありますか。Aaronは、世界征服が最終的な野望だというアイデアに言及しました。最終的な野望はブラウザだけではありません。彼らはあなたのコンピューター上のあらゆるアプリを使えるものを作りたいと考えており、それは低レベルのオペレーティングシステムと私たちが認識するものに近いものに見え始めます。
最終的にはそこに向かっているんでしょうか。
彼らはすでに、デスクトップやラップトップ上のアプリにプラグインし始めることができる機能を追加しており、それはChatGPT機能の一部としてです。だからアプリにプラグインすることに関しては、すでにその道を歩んでいると思います。今日人々がインターネットをどのように使っているかを考えると、人々というのは研究者や生成AIについて少し鋭く認識している個人を意味しているのではなく、日常的なユーザーのことを話しています。
彼らはそれを万能ツールとして見ています。だから同じような、私の意見では、ガードレールや使用に関する特定のセキュリティ問題を持っていません。彼らはそれを、私の世代がGoogleを見ていたような、真実の検索エンジンだと見ています。
何が出てくるかは通常本当のことです。
そうです、まさに。だから平均的なユーザーにとって、Atlasのようなものがあることで、インターネット体験が簡素化されると思います。喜んで受け入れるでしょう。正直なところ。OpenAIの視点から見ると、明らかに収益化は彼らのビジネスの大きな側面です。だから、これは広告を通じてであろうと何であろうと、収益化できる巨大な世界を彼らに開くと思います。
でも、個人的には、そしてここでは偏見があるかもしれませんが、これは彼らにとって本当に賢い動きだったと思います。今検索業界で起こっているすべてのことが、彼らにとって有益になるだけだと思います。Atlasを採用する人々に関しては、彼らはマインドシェアを獲得し、これを投入する前に市場を獲得する素晴らしい仕事をしたと思います。それによって、本当に簡単に切り替えられます。
Martinのストーリーのように、GPTでできたかもしれないけど、なぜブラウザでやらないのか。すべてのコンテキストが目の前にあって、何でも質問できて、メモリがキャッシュされます。完璧に理にかなっていると正直思います。
Martinが何か言いたそうですね。
ただ一つ言いたいのは、そのブラウザを起動するとすぐに、もちろん今度は別のブラウザに切り替えたいかどうかの決定になります。そして聞くことに遠慮がありません。2分以内に「デフォルトのブラウザになってもいいですか」と聞いてきました。まだ2つの検索クエリも入れていませんでした。お互いを知り始めたばかりです。Bluetoothも求められました。なぜBluetoothが必要なのか不思議でした。
理由があるって感じですね。
まさに理由のためです。
Andrej Karpathyのエージェントに関する発言
次に取り上げたいトピックへの良いつなぎになりますね。Andrej Karpathy、以前このショーで話したことがありますが、有名なOpenAI共同創設者で、生成AI運動のインフルエンサーが、最近非常に著名なAIポッドキャスト、Dorkashポッドキャストに出演して、かなり議論された一連のコメントをしました。ここで引用させてください。
彼はエージェントについて話しています。彼は言いました。引用ですが「彼らは単に機能しない。十分な知能がない。十分にマルチモーダルではない。これらすべての問題を解決するには10年かかる」と。これは、Abrahamがちょうど言ったことを踏まえて、本当に良い議論になると思います。それは、エージェントの採用に対する障壁になるのでしょうか。
Andreは確かに、構築されているものの技術的限界を認識している研究者の視点からこれを見ていると思います。でも、人々はこれらのシステムに十分な信頼を持っているようで、こういった問題が存在していても、喜んでエージェントを採用し、使おうとしています。
Martin、Karpathyがここで指摘している問題はどれくらい大きな問題だと思いますか。業界は私たちが思っていたほど進んでいないことを心配すべきでしょうか。思っていたほど速くは進まないのでしょうか。
TeslaとOpenAIという2つのフロンティアAIラボで著名な地位で働いていた人が出てきて「エージェントはひどい、売られすぎていて、有用になるまで10年かかる」と言えば、そういったことには耳を傾けるでしょう。彼がそう考える理由をいくつか述べているのを聞くのは非常に興味深かったです。
私のこの本購入エージェントでの経験では、すでに人間ならおそらくしないようなミスをしました。もし私がAaronに「ねえ、Aaron、私のパーソナルアシスタントとして、そのMichael Connellyの本を見つけてくれる?」と頼んだら、彼はおそらく英国版を持って戻ってこないでしょう。それは処理の一部のはずです。
だから、それは見えますね。でも彼は、なぜエージェントが時々人間の視点からは直感的に思えることをしないのか、その原因となり得る他のいくつかのことに言及しました。彼が言及したことの一つは訓練データでした。
彼は、もし大規模言語モデルの訓練データセットを取って、その訓練データセットからランダムに1つの文書を選んだとしたら、それは無関係であるか、平均的には株価表示の数字のようなものか、インターネットからスクレイピングしたコンテンツのほとんどは無意味なものか、エラーだらけであるかのどちらかである可能性が高いと言いました。でも十分な量があれば、ノイズからシグナルを見ることができます。だから訓練データがその大きな部分を占める可能性があります。
彼が挙げた2番目のやや物議を醸す理由は、強化学習に関する彼の意見で、強化学習も、まあ、かなりひどいと宣言しました。彼は、強化学習が正しい答えに報酬を与え、正しくない答えを罰することで機能する数学問題の例を挙げましたが、必ずしもどうやってそこに到達したかをあまり気にしません。正しい計算をしたのか、偶然つまずいたのか、本当に必要なかった余分なステップをたくさん追加したのか。
そして強化学習のこれらの制限は、エージェントの思考の連鎖にかなり顕著に現れると思います。エージェントに何かをするように設定して、ステップを進めようとしている思考の連鎖を処理しているのを見ると、しばしばこれらのループにはまり込んでしまいます。そこでは「さあ、それを通り過ぎて、次のことに進もう」と思うようなことをしています。
そして強化学習がその大部分を占めていると思います。常に最適な方法を見つけているわけではありません。でも、そのような人が出てきてエージェントは現在売られすぎていると言えば、それは業界に影響を与えるでしょう。人々はそれに耳を傾けるでしょう。
確実にそうですね。この下流効果は大きくなるでしょう。明らかにエージェントができることとその約束について非常に多くの興奮がありました。そしてビジネスの世界からは確かにざわめきがあったと思います。いくつかの銀行が出てきて、数か月前のレポートがありました。これらのパイロットプロジェクトの多くがうまくいっていないというものです。
でも、本当に強力な技術的で影響力のある技術的な声が「みんな、これは。現在の研究計画はうまくいかない」と言う最初のケースのようです。Aaron、信じますか。このことに対する楽観論にブレーキをかけるべきでしょうか。
歴史は常に繰り返すと思います。ただ、歴史から学ぶ必要があります。そうすれば歴史の悪い部分が繰り返されません。驚くほど難しいことです。
その通りです。90年代、さらには80年代を振り返ると、これらの知識ベースシステムがあり、それらに対して多くの約束がありましたが、AIの冬に入りました。その多くは初期のニューラルネットワークに煽られました。XOR問題さえ解決できませんでした。だから多層パーセプトロンに行く必要がありました。それを解決するのを助けるために。でもその後、計算能力がありませんでした。
だから常につまずきのブロックと科学とエンジニアリングによって解決されなければならない問題があります。これも変わりません。彼がやっていることは非常に賢いと思います。多くの誇大宣伝を抑制する必要があると思います。彼らはAIのスペルさえ知らないかもしれません。だからそれについて注意する必要があります。
Andreは長期的なポジションを取っていると思います。私たち多くがそうすべきだと思います。彼はこの過剰な誇大宣伝の一部を緩和しようとしています。システムがその誇大宣伝に応えられないのを何度も見てきたので、非常にリスクが高いです。でもそれは構築されたことをやります。
基準とガイドポストを設定することによって抑制することで、本当に、本当に私たちを助けてくれます。AIエージェントについては、私たちは初期段階にいます。非常に刺激的で、遊ぶのは楽しいです。
でも、スポーツ向けであれ、エンターテイメント向けであれ、本番システムを構築するときは、常に人間をループに入れます。生産するものが消費者向けに準備ができていることを確認するためです。スケールに行くときは、1~2%のエラー率は巨大です。つまり、100回のリクエストのうち1回です。
何十億ものリクエストを受け取っている場合、多くの人が誤った問題を見ています。これらのシステムが例えばMCPで外部ツールを使って、エコシステムの外で何かをアクティブにすることさえ言っていません。それについては非常に注意する必要があります。これらのシステムには多くの非決定論があります。
そして私は実際に、いつ機械学習を使うべきか対生成AIを使うべきかを研究し、見ています。なぜなら両方の場所があり、いつそれらを組み合わせて両方の長所を得るべきかがあるからです。でも、彼は長期的なポジションを取っていると思います。非常に賢いことだと思います。
Abraham、このトピックについて最後の言葉を述べてください。私たちがいるAIの瞬間からの私のお気に入りの画像の一つで、以前のエピソードで話したと思いますが、AIでお金がどのように流れているかのチャートです。つまり、NvidiaがOpenAIにお金を渡します。OpenAIがNvidiaにお金を渡します。基本的にお金が流れているのは円なんです。
Andreのコメントはバブルを破裂させるでしょうか。バブルはあるのでしょうか。あなたの見解はわかりませんが。
ニュースがバブルを破裂させるかどうかはわかりません。バブルがあるかどうか。それについては皆さんに自分で決めてもらいたいと思います。過剰な誇大宣伝があることは間違いないと思います。おそらく財政的な理由に基づいた特定の理由のための過剰な誇大宣伝があると思います。
でもAaronが言ったことが本当に共鳴しました。エージェントの現在のパターンは非決定的です。プランナーであれ、推論スケーリングのためにモデルを何度も取ることであれ、特定の出力を毎回必要とし、このスコープ内で動作していない場合は戻るという、出力に関するガードレールを提供しません。
だからエージェントの視点から見ると、検索機能をやっていて、リスクが低い、うまくいかなければやり直せるという「十分良い」があると思います。そしてリスクが高い本番グレードのエージェントがあります。99パーセント以上でなければ、本番に移行できません。
だから、エージェントがうまくいくかどうかに関しては、異なる世界があると思います。個人的には、これらのエージェントにはより決定論的な結果が必要だと思います。ソフトウェアがそのようになると思います。生成コンピューティング、特にそれがエージェントを本番グレードにすることを確実にするための重要な要素になると思います。
それがポリシー管理を通じてであれ、要件を通じてであれ、IVRパターンであれ何であれ、わかりません。10年かどうかはわかりません。でもエージェントに関する過剰な誇大宣伝についての声明には確実に同意します。でも今日でも彼らには場所があると思います。それをどこに定義できるかが問題です。
そうですね、ユースケースですね。
とても理にかなっています。次のトピックに移りましょう。次の2つのセグメントでは、過去数週間で私たちのレーダーに引っかかった興味深い論文について少し話します。Martin、あなたに質問します。数週間前、Chris Hayに質問しました。「マニフォールドとは何か、機械学習のコンテキストで正確にどのように機能するのか説明してもらえますか」と。今日はそんな意地悪なことはしませんが、DeepSeekから出た非常に興味深い論文、DeepSeek OCRについてです。
DeepSeek OCRの技術的意義
論文はDeepSeek OCR Context Optical Compressionです。Martin、最初に投げかける質問は、この論文がモデルが長いコンテキストを扱うのに苦労するという問題に取り組もうとしているということです。その問題について少し教えてもらえますか。なぜそれが起こるのか。その実用的な意味合いは何か。
大規模言語モデルのトレンドを見ると、より多くのものを詰め込むために、どんどん大きなコンテキストウィンドウが出てきています。だから、心に留めておけるものが増えるほど、応答を考え出すときに優先されます。コンテキストウィンドウを拡張することが計算的にどれほど高価かを考えると、特定のコンテキストウィンドウにできるだけ多くの情報を入れるにはどうすればいいでしょうか。
これは、実際にはこれらのトークンを視覚トークンに変換するという興味深いアイデアで、実際にはるかに多くの情報を詰め込むことができましたが、使用するアルゴリズムによっては、テキストに変換し直すときに一定の損失がありましたが、いくつかについてはかなり小さな損失でした。だから最良のモデルは97%の率のようなものだったと思います。
テキストを取って、基本的にこの変換を行い、再び変換し直す、つまりデコード、エンコードサイクルができて、そしてテキストの97%が正しかったです。
悪くないですね。
悪くないですよね。でもその中に基本的に情報が少ない画像があれば、それはまだこのエンコーダーデコーダーループを通過してテキストを戻すことができますが、テキストはもう少し多くの情報を失っています。
本当に興味深いのは、これを忘却メカニズムというアイデアでラップしたことです。これは人間の記憶をはるかに模倣しています。だからこの論文の大きなポイントは、これが人間の記憶にどれほど似ているかです。例えば、最良のモデルでこれを実行すると、基本的にはほぼすべてを記憶します。Tim、あなたがちょうど今このポッドキャストで私に尋ねた質問を覚えているように。
でも私は1か月前にこのポッドキャストに出演していて、誰がゲストだったか、何がトピックだったかは覚えていますが、私の記憶は今は完全ではありません。あなたが私に尋ねた具体的な質問や、他のゲストが述べた具体的な話のポイントは覚えていません。だからもう少しぼやけています。
彼らはこの論文でそれをモデル化していて、実際にはそれは彼らが持っている基本モデルまたは小さいモデルのように聞こえると言っています。なぜなら、小さいモデルはよりぼやけた画像と見なされ、人間の記憶の約1か月分に相当するからです。
1か月前に私に起こったことは、彼らのぼやけたモデルを使うと、同じくらいになる画像を作成します。だから同じくらいのものが忘れられるでしょう。ある意味興味深い点を提起しています。大規模言語モデルのコンテキストウィンドウが人間の記憶をもう少し模倣することに、実際に何か有用性があるのでしょうか。
現在のことは非常によく覚え、時間が経つにつれてよりアブストラクトに覚えるように進化した理由があるのでしょうか。そしてこれもそれをモデル化できるという事実。
生物学的なケースでの答えは、基本的には機械にとって計算集約的であるのと同じように、私たちにとってもますます大きなコンテキストウィンドウを持つことは計算集約的であるということです。
この論文の実用的な意味合いの一つは、言語トークンを入力するか、画像トークンを入力するかという、非常に単純化した区別ができるということのようです。最終結果は、はるかに多くの圧縮ができるということです。これが実際により本番対応のものになれば、長いコンテキストをさらに長くすることができるということでしょうか。
これをドキュメント蒸留として考えています。モデル蒸留のようなものです。大きなモデルで小さなモデルを作ります。ここではドキュメントがありますが、それを主成分に蒸留したいと考えています。数学的な視点から見ると、主成分分析に似ています。データを説明できる最も分散が大きい最大の固有ベクトルを維持したいのです。
これは少し似ているように思えますが、これらの異なるビジョンエンコーダーを使っています。だから彼らは2段階システムを持っていて、ディープエンコーダーと呼ばれるビジョンエンコーダーを持っています。非常にクールです。なぜならPDFファイルを取り込みますが、スキャンされたピースで、単なるOCRではないので、テキストを抽出するだけではなく、解放しているように見えます。テキストを実際に見ることができます。
そしてこの混乱した人間が書いた世界を、AIが理解できるものに変えます。これらの小さなトークンを作成するのに役立つので、ドキュメント理解の新しい方法を持つことができます。そしてLLMが二次スケーリングのためにこれらの長いコンテキストに苦労するという核心的な問題を解決するのに役立ちます。コンテキストが長くなるほど、これらのシステムが処理することがますます難しくなります。
したがって、この効率的な圧縮技術を活用して、この情報をテキスト表現に理解することができます。そして私が素晴らしいと思うのは、この2段階システムで、デコーダーに到達したとき、そのビジョンエンコーダーを取って、新しい言語に入れたらどうなるかということです。そして新しいデコーダーを訓練して、他の言語に翻訳できるようにします。他の大規模言語モデル、あらゆる種類のマルチモーダルモデルで使用できるように。そして全く異なるものを生成します。
だから芸術形式のようになると思います。これらの異なる層のエンコーディングとデコーダーをまとめて、何が最もうまく機能するかを見つける。実際には、検索問題のように考えることができます。特定の問題を最も効率的な方法で解決するための最良のデコーダー、エンコーダーのセットを見つけるのです。でも、興奮しています。
彼らがここで示したものが気に入りました。彼らの次の論文を楽しみにしています。マルチモーダルとテキストを融合したものなどで、どのように機能するかを確認するために、いくつかの実験を追加した拡張版を持つと思います。
Abraham、最後の質問は少しズームアウトすることです。DeepSeekは明らかに、オープンソースモデルのリリースを通じて大きな注目を集めました。研究を行い、論文を発表している研究所です。DeepSeekがこの種の研究問題に興味を持っている理由について何か推測はありますか。
OCRは本当に古い問題の一つです。
とても良い質問です。個人的には、これは彼らがラボで見つけた革新の一つで、リリースする価値のある前進を示したのかもしれません。また、この無限またはより長いコンテキストウィンドウを持つというアイデアは、本当に重要で、まだ全面的に解決されていない特定のユースケースに本当に適用可能だと思います。だからその両方の答えが彼らを助けると思います。
一つは、彼らの名前がまだニュースに載っていることを確認すること。でも二つ目は、研究所がまだかなりクールなことをやっていることを示すことです。この特定の論文に関して、私が本当に素晴らしいと思ったのは、明らかにドキュメントをエンコードして埋め込む方法について異なるアプローチからシフトしていることです。
個人的に見たかったのは、画像からテキストへ移行する際に、セマンティック表現がまだある程度維持されることです。そしてそれがダウンストリームアプリケーションに対して実際に何を意味するのか。なぜならそこで多くの実装を本当に見ることになるからです。それとも、これは本当にただのOCRテキスト抽出で、非常に迅速なプラグがあるのか。IBMについて簡単に述べますが、Doclingはこれを非常にうまく、非常に効率的に行います。正直に言って、そのためにLLMは必要ありません。だからその点では少しやり過ぎです。
でも、この論文の次のバージョンとDeepSeekからのこの取り組みの次のバージョンを見るのが楽しみです。
OCR部分を除けば、これは非常にフラッシーなマイルストーンには見えませんが、AIスタックの重要な部分であることは間違いありません。他のモデルが非常に少ないトークン数で大規模な問題を処理するのを助ける圧縮ブリッジです。彼らがここでやっていることは非常に素晴らしいです。
本当にクールだと思います。Aaronがすでにこれについてコメントしていますが、出力に関して、ほとんどのモデルはテキストトークン指向です。だから、彼らのデコーダーモデルの代わりに異なるデコーダーモデルを交換できる何らかのプラグインをリリースできたら本当にクールでしょう。これは採用の観点から少しです。
LLMの観点から、あなたの環境にとって何が意味があるかを使うことができます。
これの次の段階は、AIアートのようなものを見ることになると思いますか。すでにAIアートがありますよね。コンテキストウィンドウのAIアートを見ることになるでしょうか。Aaron、あなたの後ろにあるあの写真は、私たち全員が理解できるあなたのコンテキストウィンドウの何らかの可視化を示すことになるでしょうか。
それは恐ろしい提案でしょうね。私のコンテキストウィンドウは見たくないでしょう。見たくありません。感情コンピューティングの概念全体、これらのシステムがあなたがどう感じているか、何を考えているかを理解できるようになる、これはその一部になるかもしれないと思います。なぜなら、言語を異なる領域から理解するための別のブリッジのようなものだからです。
そのブリッジはモダリティ間であったり、ある意味で人々とモデルの間であったりする可能性があります。そしてこの言語を作成するので、他の解釈や他のエージェントを持つことができ、その画像を実行して変更できるかもしれません。私の後ろにあるかもしれない画像を。
LLMのブレインロット研究
最後のトピックに移りましょう。前回話したDeepSeek OCRの論文は少しシステムの内部の話でした。もう一つの論文は単に楽しいものでした。オンラインで多く話題になり、ここで取り上げようと思いました。タイトルは非常に印象的です。「LLMはブレインロットを起こす可能性がある、感嘆符」と言っています。
論文の直感は楽しいアイデアです。基本的にこう言っています。もし私たちがソーシャルメディアで多くのジャンクメディアを消費すれば、人間として文字通りブレインロットを起こすという懸念と心配が多くあります。つまり、私たちの思考が少なくなる、推論が下手になり、このコンテンツへの露出からすべての認知欠陥を持つということです。
そして研究者たちは単純に言います。LLMもブレインロットを起こす可能性があるのではないか。だから彼らがやったことは、短くて人気があるか扇情的だと考えたソーシャルメディアコンテンツのいくつかのデータセットをキュレーションしました。
そして、ジャンクウェブテキストと彼らが言うものの量を徐々に増やすモデルへの少しポストトレーニングミックスのようなことができると言いました。そして特定のベンチマークに対してどのようにパフォーマンスするかを見ます。そして彼らが主張するのは、これらのモデルがある形の認知低下を経験するということです。
だから彼らは、推論、長いコンテキストの理解、安全性に低下があると言っています。そしてこれらのダークトレイトの出現さえ主張しています。これらのモデルはこのコンテンツを見たために、よりナルシシスティックになります。
Aaron、これはあなたに投げかけます。この論文は何を示していますか。もし私たちがオンラインで多くの悪い素材を消費すれば、私たちの脳は文字通り腐るということを示しているのでしょうか。それともこれは何なのか。
ここでの見出しは、ゴミを入れれば、ゴミが出るということです。でも私にとっての大きな点滅する星は、これらのLLMの低下が、持続的で体系的だったということです。すぐに修正できるようなものではありませんでした。リスクは、これらのシステムを野生に出し、より多くのトレーニングデータが浅くなるにつれて、このブレインロットが起こる可能性があるため、これらのモデルを継続的に評価する必要があるということです。
そして私は自分自身に、なぜこれが起こるのかと問いました。モメンタムと慣性という観点から考えていました。訓練中のこれらのバックプロパゲーションの間、時間の経過とともに学習するにつれて勾配がはるかに微妙になり、余分なモメンタムがあるのではないかと考えていました。
でも訓練を止めると、十分速く忘れたり学習解除したりできない慣性があるようなものです。人間のようなもので、子供がいて、彼らの脳は非常に可塑性があり、非常に速く学習でき、非常に速く変化できます。でも大人として、年を取るにつれて、非常に大量の知識があり、埋め込まれていて、それは素晴らしいです。
でも一方で、子供とは対照的に、私たちの脳はすでに非常に密に配線されているため、これらのLLMが非常に密に配線されるようになっているように見えます。子供時代から抜け出しているようなものです。その体系的な視点を変えることが難しくなっています。
そしてバーチャルレジョニングを行う、ニューラルダメージを行う、モデル内のスーパーウェイトが何であるかを見つけて、それらを削除してから訓練して、起こっているこの腐敗を取り除くなど、他のテクニックが必要かもしれません。でも確実に本当の問題です。そして人間の認知と並行しています。
私たち人間も、野生にいるときに何を学び、何に本当に注意を向けるかについて注意する必要があります。
Martin、この結果に本当に驚いていないですよね。Aaronの解釈のように、明らかに悪いコンテンツを入れれば、それをミラーリングしているだけなのでモデルの動作は悪くなるという程度においては。これらの結果にどれくらい驚くべきでしょうか。ここに何か驚くべきことはありますか。
ティーンエイジャーの親全員にとってのキャットニップのように感じます。あのチャットモデルにこのようなジャンクを与えたときに何が起こったか見てと言えます。
私が最も驚いたのは、Timがすでに触れたように、彼らがこのブレインロットコンテンツをエンゲージメントとセマンティック品質という2つのタイプに分類したことです。エンゲージメントはツイートのような短い情報でした。1文か2文です。何らかの事実情報を与えていますが、本当に簡潔で、ニュアンスの余地はありません。これが事実です、というような。
そしてセマンティック品質は扇情的なものでした。わあ、これを見て、というようなものです。そしてモデルがM1対M2ジャンクデータ、エンゲージメント対扇情的なものを与えられたときに、性格への結果として実際に大きな違いがありました。
エンゲージメントのもの、ツイートのようなものは、扇情的なものよりも性格にはるかに影響を与えました。それは性格にあまり影響を与えなかったようです。でもエンゲージメントのもの、短いツイートのようなものが100%に押し上げられたとき、モデルが受け取ったすべてがただのたくさんのツイートだったとき。
ナルシシズムが増加し、モデルはより同意しにくくなり、モデルはより外向的になりました。そして私は、それは歯に衣着せぬTVの論客やそのようなものに非常に似ていると思いました。だからもし私がショックジョックのようなトーキングヘッドになるために訓練していたら、ここからトレーニングを受ける必要があります。短い形式のものだけを見る必要があります。
そうすればそれらの特性も得られます。
それに加えて、M1で訓練されたとき、M1データでも、思考の突然の停止の急激な増加が見られました。だから完全な思考プロセスを経なかったり、それを切り詰めたり、全くやらなかったりしました。
だからショックを与えたい人対実際に自信を持っている人の性格という点で、奇妙なことの一つです。それが実際にここで興味深いことの一つだと思います。ここには興味深い交絡変数のようなものがあるということです。それは短いコンテンツだからではないかもしれません。
でもTwitter、現在はXから引き出された短いコンテンツだからかもしれません。だから、ナルシシスティックで敵対的な特性の存在は、コンテンツが短い形式であるという事実よりも、データが引き出されている場所の文化のためである可能性があります。
Abraham、推論のケースでは、短いからこそ、実際にできる推論の量が制限されるのではないでしょうか。だからここには本当に興味深い効果があるのかもしれません。それが短いことに関連するものもあれば、その出典に関連するものもあると思います。確かにXに対する私の感覚は、多くの攻撃的な反社会的行動があると感じるプラットフォームだということです。
それは公平ですね。156文字か256文字しか得られません。だから多くの思考は許されないでしょう。この論文が本当に示しているのは、明らかにゴミを入れればゴミが出るということですが、モデルのパフォーマンスを実際に得る上で、量よりも質が常にはるかに重要だということです。
本当に興味深いと思ったことの一つは、データが新しくなるにつれて品質が低下したという概要でした。だから実際のトレーニングデータのコーパスを通過したとき、データが最近であればあるほど、品質は低くなりました。それを見るのは非常に興味深かったです。
それは私たちのコンテンツの品質が最低の共通分母に徐々に到達しているということなのか、それとも怠惰な文学の産物なのか。でも論文は興味深かったです。この論文に基づいて自分自身に問うことができる多くの類似点や哲学的な質問があると思います。でもそれは他の人に任せます。
私は常に、これらの大規模モデルを事実上正確で、密度が高く、深いデータで訓練するのが常に最善だと考えてきました。それがあなたの基礎モデルです。そして性格、トーン、ピッチ、発話の韻律さえも変えたい場合は、そこでコンテキストエンジニアリングを使用し、それが振る舞ってほしい特性を追加します。
でも常に最善であるとは限りません。振る舞わせたい特性を知識構造に埋め込んで訓練しようとすることは。なぜなら水で薄めているようなもので、脳の喪失、健忘症のようなものだからです。
モデルは実際に知っていることを忘れており、どのように振る舞うべきかについてもっと重要になっています。したがって非常に薄まったものになります。そのため、その行動の低下または推論方法は、後の指示チューニングやデータのクレンジングによっても簡単には修正されず、ベースライン能力を回復できませんでした。
だから訓練とファインチューニングを行うときは、行うデータの種類について本当に、本当に注意し、モデルで持ちたい目標に向かって進んでいることを確認すべきだと思います。
もし私たちがそれを私たち人間に外挿すれば、ここに類似点があるとしたら、おそらくTwitterでより少ない時間を過ごし、Mixture of Expertsポッドキャストのような高品質な長い形式のコンテンツをより多く消費すべきかもしれません。
はい、まさに。強くお勧めします。
終わるには素晴らしいノートですね。Martin、Aaron、Abraham、いつもショーに出演してくれてありがとうございます。すぐにまた会えることを願っています。
今日はここまでです。リスナーの皆さん、ご参加ありがとうございました。楽しんでいただけたなら、Apple ポッドキャスト、Spotify、そしてあらゆるポッドキャストプラットフォームで聴くことができます。来週のMixture of Expertsでお会いしましょう。


コメント