Transformerを発明した男が、今それを置き換えようとしている

本動画では、Transformerの共同発明者であるDavid Haと、Sakana AIの研究科学者Luke Metzが、AI研究の現状と未来について語る。Transformerが圧倒的な成功を収めた一方で、その成功ゆえに研究コミュニティが局所最適解に囚われているという問題を指摘する。彼らは生物学的インスピレーションを受けた新しいアーキテクチャである「連続思考機械(Continuous Thought Machine, CTM)」を開発し、NeurIPS 2025でスポットライトを獲得した。CTMはニューロンの同期化という概念を中心に、より人間的な方法で問題を解決する適応的計算能力を持つ。また、現在のAI研究における研究の自由の重要性、Sudoku Benchという新しい推論ベンチマーク、そしてAI研究の未来における探索的アプローチの必要性について議論する。Kenneth Stanleyの「なぜ偉大さは計画できないのか」という哲学を体現し、研究者が自身の興味の勾配に従うことの重要性を強調している。

"I Invented the Transformer. Now I'm Replacing It."

The Transformer architecture (which powers ChatGPT and nearly all modern AI) might be trapping the industry in a localiz...

Transformerの発明者が語る、AI研究の転換点
連続思考機械の詳細
Sudoku Benchと推論の課題

Transformerの発明者が語る、AI研究の転換点

Transformerの発明に関わったという事実にもかかわらず、幸いなことに、私と同じくらい長くTransformerに取り組んできた人は誰もいません。おそらく他の7人の著者を除いては、という話です。そのため、私は今年の初めに、Transformerに関する研究を大幅に減らすという決断を下しました。その理由は、この分野が過飽和状態になっているという感覚があったからです。Transformerでできる興味深いことがもうないというわけではありません。そして私は、この機会を利用して何か違うことをしようと考えました。つまり、自分の研究における探索の量を実際に増やそうということです。

私たちは連続思考機械をリリースしたばかりです。これはNeurIPS 2025でスポットライトを獲得しました。皆さんがこれに注目すべき理由は、これがネイティブな適応的計算能力を持っているからです。これはニューロンのための高次の概念と、表現としての同期化を使用する、リカレントモデルを構築する新しい方法です。これにより、生物学的で自然にインスパイアされた、より人間的と思われる方法で問題を解決できるようになります。

AI研究の雰囲気は、Transformerの時代とは実際にかなり異なっていました。なぜなら、今同じようなことが起こる可能性は低いと感じられるからです。私たちが持っている自由度が減少しているためです。Transformerは非常にボトムアップでした。誰かが上から降りてきた壮大な計画を持っていて、これが私たちが取り組むべきことだと言ったわけではありません。

それは昼食時に話し合う人々の集まりであり、現在の問題が何か、それをどう解決するかについて考え、このアイデアを試すために文字通り数ヶ月を捧げる自由があり、この新しいアーキテクチャが生まれたのです。私たちは数億ドルを費やしてきました。

最大規模の進化ベースの探索は、おそらく数万ドル程度でしょう。私たちにはこれだけの計算資源があります。何が起こるでしょうか。これらの探索アルゴリズムをスケールアップしたら何が起こるでしょうか。そして、誰かが最終的にその bullet をかみ砕いて、これらの進化的な生命実験を本当にスケールアップすれば、何か興味深いものが見つかると確信しています。しかし、私がそれを売り込んだ環境では、人々がこの1つの技術に全力投球している状況でした。

私は全く関心を得られませんでした。だから今、私は自分の会社を持ち、それらの方向性を追求できるのです。このポッドキャストはCyber Fundによってサポートされています。やあ皆さん、私はOmarです。Google DeepMindの製品・デザインリーダーです。私たちはAI Studioで刷新されたバイブコーディング体験をローンチしたばかりです。これにより、AIの機能をミックス&マッチして、これまで以上に速くアイデアを現実に変えることができます。アプリを説明するだけで、Geminiが自動的に適切なモデルとAPIを配線してくれます。

そしてひらめきが必要なら、「I’m feeling lucky」をクリックすれば、始めるのを手伝ってくれます。最初のアプリを作成するには、a.studio/buildにアクセスしてください。Two for AI Labsはチューリッヒに拠点を置く研究ラボです。素晴らしいMLエンジニアと研究科学者のチームがいます。本当にクールなことをやっています。

例えば、彼らのウェブサイトを見ると、数ヶ月前に終了したARC AGI 3 pubコンペティションで優勝したアプローチを見ることができます。そして彼らは素晴らしいMLエンジニアと研究科学者を採用中です。彼らはAI安全性についても深く関心を持っています。もしこれらのいずれかがあなたに合うなら、Two for AOLabsにアクセスして試してみてください。

視聴者の皆さんもご存知の通り、私はKenneth Stanleyのアイデアの大ファンです。彼の著書「Why Greatness Cannot Be Planned(なぜ偉大さは計画できないのか)」は私の人生を変えました。本当に驚くべきものでした。彼が語っていたのは、人々が目標や委員会などに縛られることなく、自分自身の興味の勾配に従うことを許可する必要があるということです。

なぜなら、それが私たちが認識論的な採餌を行う方法だからです。あまりに多くのアジェンダが混ざり合うと、灰色のグーのようなものになってしまい、興味深い新奇性や多様性を発見できなくなります。そして、それが基本的にあなたの会社Sakanaのテーゼだと思います。つまり、それらのアイデアに傾倒するということですね。

はい、まさにその通りです。会社では、私たちはその本の大ファンです。来週、実際に彼に会社で講演してもらおうと期待しています。そしてそれは私たちが社内で話し合っている哲学です。私たちは最近の日本語翻訳版を含め、その本のコピーを持っています。

ご存知の通り、共同創業者の一人として、私の主な仕事の一つは、研究者が現在持っている自由を確実に保護し続けることです。なぜなら、それができるリソースを持っているというのは、本当に特権だからです。

そして必然的に、私が見てきたように、会社が成長するにつれて、ますます多くのプレッシャーが入ってきて、自由を狭めます。しかし、私たちがこの哲学を非常に強く信じているので、研究者に今持っている研究の自由をできるだけ長く与え続けられることを期待しています。

そして、会社が成熟するにつれて自由を制限するそれらのプロセスとは何ですか。つまり、それをどう説明しますか。業界にこれほど多くの関心、人材、才能、リソース、資金があったことはかつてありませんでしたが、残念ながらそれは、他のすべての人々と競争し、この技術から価値を引き出し、お金を稼ごうとする人々に対して、人々が持つプレッシャーの量を増加させるだけです。

そしてそれが単に起こることだと思います。スタートアップとして、新しいことを試すという興奮と感覚があります。そして最初の段階では、少し滑走路があります。だから、さまざまなことを試す自由があります。しかし必然的に、人々は投資に対するリターンを求め始めるか、何らかの製品を生み出すことを期待します。

そしてこれは残念ながら、研究者が持つ創造性を低下させます。なぜなら、出版へのプレッシャーや、私たちが持つ製品に実際に役立つ技術を作り出すプレッシャーが上がり、自律性の感覚が下がり始めるからです。

しかし、私は文字通り、会社で働き始める人々に言っています。あなたが興味深く重要だと思うことに取り組んでほしいと。そして私はそれを本気で言っています。YouTubeには「オーディエンス・キャプチャー」という現象がありますよね。そして「テクノロジー・キャプチャー」という現象があるかもしれません。つまり、Googleの初期の頃はかなりオープンエンドでした。Transformerは現在、すべてのAI技術のユビキタスなバックボーンであり、あなたが関わっている巨大な成果です。しかしOpen AIにも似たような話があります。彼らは現在、これらすべての商業化の機会を見始めています。

つまり、彼らはLinkedInになろうとしています。アプリケーションプラットフォームになろうとしています。検索プラットフォームになろうとしています。ソーシャルネットワークになろうとしています。そしてこれはあなた方にも起こりうることだと思います。特に今日お話しする新しい論文、この連続思考機械には非常に強いチャンスがあります。

これは革命的な技術になる可能性がありますが、その後、それをどのように商業化できるかが明白になるでしょう。そしてそれがそれらのプレッシャーがどのように入ってくるかです。オーディエンス・キャプチャーのアナロジーは気に入りました。大規模言語モデルによる何らかの捕捉が間違いなくあったと思います。それらがあまりにもうまく機能したため、誰もがそれらに取り組みたがりました。

そして私は本当に心配しています。私たちが今、この局所最適解に閉じ込められているのではないかと。そして私たちはそこから抜け出そうとする必要があります。そこで、Transformerについて話しましたが、Transformerの直前の時期について話したいと思います。これは非常に示唆的だと思うからです。もちろん、Transformerの前の主要技術はリカレントニューラルネットワークでしたよね。そして同様の感覚がありました。リカレントニューラルネットワークが登場し、この新しい種類のsequence to sequence学習を発見したとき、それもまた大きなブレークスルーでした。翻訳品質が大幅に向上しました。音声認識の品質も大幅に向上しました。そして当時も同様の感覚がありました。「よし、技術を見つけた。この技術を完璧にするだけだ」という感じです。

当時、私のお気に入りのタスクは文字レベルの言語モデリングでした。RNNベースの新しい文字レベル言語モデリングの論文が出るたびに、かなり興奮しました。その論文を素早く読みたくなりました。「どうやって改善を得たんだろう」と。

しかし、論文はいつも同じアーキテクチャへのわずかな修正ばかりでした。LSTMとGRU、あるいはReLU関数を使用できるように単位行列で初期化するとか、ゲートを別の場所に置くとか、少し違う方法でレイヤーを重ねるとか、横方向だけでなく上方向にもゲーティングがあるとか。

そして私のお気に入りの1つは、この階層的LSTMでした。実際に異なるレイヤーを計算するか計算しないかを決定するものでした。そしてWikipediaで訓練して、計算する・計算しないを決定する構造を見ると、文の構造が実際にモデルによって捉えられているように見えました。

そして私はそういうものが大好きでした。しかし、改善は常に1文字あたり1.26ビット、1.25ビット、1.24ビットといった具合でした。それは出版可能な結果でした。それはエキサイティングでした。しかしTransformerの後、私が次に参加したチームでは、非常に深いTransformerモデル、デコーダーのみのTransformerモデルを言語モデリングに初めて適用し、すぐに1.1のようなものを得ました。

それはあまりにも良かったので、人々が実際に私たちの机に来て、丁寧に「計算ミスをしたと思います。1文字あたりビットではなくnatsではないですか」と言ってくれたほどでした。そして私たちは「いや、本当に正しい数字です」と言いました。後で私を驚かせたのは、突然、そのすべての研究、はっきり言って非常に優れた研究が、完全に時代遅れになったということです。

そうです。RNNへのこれらすべての終わりのない順列が、突然、時間の無駄のように思えたのです。私たちは今、同じような状況にいます。多くの論文が同じアーキテクチャを取り、正規化レイヤーをどこに置くか、少し異なる訓練方法など、これらの終わりのないさまざまな調整を行っています。そして私たちは今、まったく同じように時間を無駄にしているかもしれません。個人的には、私たちはまだ終わっていないと思います。これが最終的なアーキテクチャで、スケールアップし続けるだけでよいとは思いません。

ある時点でブレークスルーが起こり、その後、私たちが今、多くの時間を無駄にしていることが再び明白になるでしょう。はい。私たちは自分自身の成功の犠牲者であり、この引力の盆地です。非常に多くの引力の盆地があります。

Sarah Hookerはハードウェア宝くじについて語りました。そしてこれは一種のアーキテクチャ宝くじです。そしてそれは実際に農業革命を思い起こさせました。この種の相転移が起こり、生きて生き残るために非常に必要だったこれらのスキル、これらの多様なスキルを持っていたすべての人々が絶滅しました。そしてそれは実際に逆説的です。なぜなら、次のステップを踏むためにそれらのスキルが必要だからです。

そして私たちは今、この体制にいます。ファウンデーションモデルという用語があり、その含意は、ファウンデーションモデルで何でもできるということです。企業の世界では、データサイエンティストがいました。彼らは中規模企業でさえ、これらのアーキテクチャの調整を行うMLエンジニアでした。そして今、私たちにはプロンプトエンジニアリングなどを行うだけのAIエンジニアがいます。

つまり、あなたは、新しいソリューションと新しいアーキテクチャを考えるために多様である必要がある基本的なスキルが絶滅しつつあると言っているのですね。それには同意しかねると思います。問題は、非常に才能があり、非常に創造的な研究者がたくさんいるが、彼らがその才能を使っていないということです。例えば、学界にいる場合、出版へのプレッシャーがあります。そして出版へのプレッシャーがある場合、「この本当にクールなアイデアがあるけど、うまくいかないかもしれない。あまりにも奇妙すぎるかもしれない。受け入れられにくいかもしれない。なぜなら、アイデアをもっと売り込む必要があるから」と自分自身に言います。「あるいは、この新しい位置埋め込みを試すことができる」と。

問題は、学界と企業の両方における現在の環境が、実際に人々が必要とする自由を与えていないということです。人々がおそらくやりたいと思っている研究をするための自由です。

つまり、優れた新しい研究があっても、興味深いことがあります。Seb Hogerと話をしましたが、彼はこれらすべての新しいアーキテクチャのアイデアを持っていて、Open AIはそれらを実装していません。Googleはこの拡散言語モデルをやっていて、これはかなりクールです。そしてなぜそうなのか、あなたの意見を知りたいです。

いくつかの哲学が浮かんでいます。普遍的な表現という概念、つまり普遍的なパターンが存在し、Transformerの表現は脳内のものに似ているという考えです。そしてそれは、異なるアーキテクチャを使う必要はないという考えにかなり導いてきました。なぜなら、より多くのスケールとより多くの計算があれば、すべての道はローマに通じるからです。

だから、なぜわざわざ異なる方法でやるのでしょうか。実際にはもっと良いものがあるのです。研究ですでにTransformerよりもうまく機能することが示されているアーキテクチャが実際にすでに存在します。しかし、あなたがそれに精通している、そのような確立されたアーキテクチャから業界全体を移動させるほど十分に良くはありません。それをどのように訓練するか知っています。それがどのように機能するか知っています。内部がどのように機能するか知っています。それらをファインチューニングする方法を知っています。

Transformerの訓練、ファインチューニング、推論のためのすべてのソフトウェアがすでにセットアップされています。だから、それから業界を移動させたい場合、より良いだけでは十分ではありません。圧倒的に明らかに優れている必要があります。TransformerはRNNよりもそれほど優れていました。

Transformerを新しい問題に適用するだけで、訓練がはるかに速く、はるかに高い精度を得られたので、移行せざるを得ませんでした。そして、深層学習革命もその別の例だったと思います。当時も多くの懐疑論者がいて、人々はニューラルネットワークを推進していましたが、人々は「いや、記号的なものの方がうまくいくと思う」と言っていました。

しかし、それがあまりにも優れていることを実証したので、無視できませんでした。この事実は、次のものを見つけることをさらに困難にします。常にあなたを引き戻す重力の極があります。「でもTransformerで十分だ」という感じです。そして、ここでクールな小さなアーキテクチャを作ったけど、より高い精度を持っているように見えますが、Open AIがこれを10倍大きくして、それを打ち負かしたので、続けましょう。

さらに別の理由があるかもしれないと提案させてください。つまり、私はその「もつれた表現の断片化」という論文が大好きです。ショートカット学習の問題があり、ここで少し蜃気楼が起きていると思います。これらの言語モデルには、私たちが完全には認識していない問題があるかもしれません。そして、私たちはアーキテクチャを歪曲し始めていることも見ています。推論のために適応的計算が必要だとわかっています。不確実性の定量化のようなものが欲しいとわかっています。そして私たちがやっていることは、これらのものを上に継ぎ足すことです。これらすべてのことを本質的に行うアーキテクチャを持つのではなく。

はい。そして、私たちの連続思考機械は、それらにより直接的に取り組もうとする試みだと思います。Lukeが後で詳しく話せるでしょう。現在の技術にはまだ何かが完全には正しくありません。私が思うに、人気が出ている言葉は「ジャグド・インテリジェンス(不揃いな知性)」です。LLMに何かを尋ねると、文字通り博士レベルの問題を解決できて、次の文では明らかに間違っていることを言うという事実です。それは不協和音です。そしてこれは、現在のアーキテクチャに根本的に何か間違っているものの反映だと思います。

それらが素晴らしいにもかかわらず、現在の技術は実際にはあまりにも良すぎます。それが、それらから離れることが難しいもう一つの理由です。そして、あなたはファウンデーションモデルがあるという事実について話しました。つまり、それらで何でもできる基盤があるということです。はい、現在のニューラルネットワークはあまりにも強力なので、十分な忍耐力、十分な計算、十分なデータがあれば、それらに何でもさせることができると思います。

しかし、それらが必ずしもそうしたいと思っているわけではないと私は考えています。私たちはそれらを強制しているのです。それらは普遍的な関数近似器ですが、人間が物事を表現する方法でより表現したいと思う関数近似器の空間がおそらくあると思います。実際にかなり曖昧な論文があって、これが私のポスターチャイルドです。それは「インテリジェンス行列指数関数」と呼ばれ、実際に却下されたと思います。おそらく図1の画像を投影できると思いますが、古典的なスパイラルデータセットを解決する画像があります。スパイラルの2つのクラスを分離する必要があります。

そして、古典的なRNN多層パーセプトロンとtanh多層パーセプトロンの両方の決定境界があります。両方とも解決していることがわかります。なぜなら、すべての点を正しく分類し、この非常にシンプルなデータセットで非常に良いテストスコアを得ているからです。そして、この論文で構築したMレイヤーの決定境界を見せます。それはスパイラルです。

レイヤーはスパイラルをスパイラルとして表現しました。データがスパイラルなら、スパイラルとして表現すべきではないでしょうか。そして、スパイラルと古典的なReLU多層パーセプトロンの決定境界を振り返って見ると、これらの小さな区分的線形分離があるだけであることが明らかです。そしてそれが私の言いたいことです。

はい、これらのものを十分に訓練し、これらの小さな区分的線形境界を十分に押し回せば、スパイラルにフィットして高い精度を得ることができます。しかし、それらの画像を見たとき、ReLUバージョンが実際にそれがスパイラルであることを理解しているという感覚は全くありません。そして、それをスパイラルとして表現すると、実際に正しく外挿します。なぜなら、スパイラルはただ外に続いていくからです。

あなたは魅力的なことに触れています。なぜなら、適応性と適応的計算の必要性について話していたからです。私はRandall Balestreroのニューラルネットワークのスプライン理論に本当にインスパイアされています。私たちは彼らを何度も招待してきました。TensorFlowプレイグラウンドで何が起こるかを見ることができます。このスパイラル多様体でReLUネットワークを使うと何が起こるかを。

そして、これらのものが基本的に局所性感応型ハッシュテーブルだと思っても許されるでしょう。なぜなら、それらは空間を分割し、スパイラル多様体を予測できるからです。しかし、私たちはそれとは少し違うことをしたいのです。

そして、それは模倣者の問題にも関わってきます。なぜなら、スパイラル多様体をトレースするだけで、パターンを続けないことと、これには大きな違いがあるからです。だから、模倣者の観点から見ると、パターンをトレースするだけでは、抽象的または構成的に学習していません。もし構成的に学習したら、つまり、あなたがあなたの論文で話しているこの複雑化、抽象的な構成要素について話し、適応的計算ができるなら、スパイラルを理解します。

それは、適応的計算により、スパイラルを続けることができ、モデルの重みを更新できるので、適応性を持つことを意味します。それが知性にとって非常に重要だからです。だから、私たちはこれらのことができるモデルが必要だとわかっています。

しかし、何らかの理由で、それらはあまりにも病的なほど優れているため、適応的なインテリジェントシステムよりもほぼ優れています。なぜなら、それらは私たちが聞きたいことを正確に教えてくれるからです。それらはとても知的に見えますが、これらの基本的な特性が欠けていることがわかっています。ビデオ生成モデルを見るとき、私はまだかなり懐疑的です。人の手の指の数で検出できる段階を経ましたよね。そして、より多くのデータ、より多くの計算、より良い訓練トリックで、はい、それらは従います。そして今、通常5本の指があります。

しかし、問題を修正したのでしょうか、それともより多くのブルートフォースを使って、ニューラルネットワークに5本の指であることを知らせるために強制しただけでしょうか。実際にはるかに良い種類の表現空間を持っているものがあれば。スパイラルをスパイラルのように表現すべきだと言うのが物議を醸すというのは、ほとんど狂気です。

しかし、もし人間の手を私が人間の手を表現する方法で表現できるものがあれば、手の指が何本あるかを数えるのがはるかに簡単かもしれません。それらがこれほどうまく機能するのは不幸なことです。

スケーリングがこれほどうまく機能するのは不幸です。なぜなら、人々がこれらの問題を単に覆い隠すのがあまりにも簡単だからです。あなたたちは、私が今年最高の論文だと思うかもしれないものを作成した可能性があります。これは実際に次のステップに進むイノベーションになる可能性があります。そしてNeurIPSでもスポットライトを獲得しましたね。そうです。今年です。おめでとうございます。

だから、それはこの論文がどれほど素晴らしいかの証だと思います。CTM、連続思考機械。それは実際には、私たちが閉じ込められている局所最適解のそれほど外側にあるわけではありません。まったく新しい技術を見つけて見つけたわけではありません。かなりシンプルな生物学的にインスパイアされたアイデアを取りました。ニューロンが同期するという事実ですが、必ずしも生物学的にもっともらしい方法ではありません。脳は文字通りすべてのニューロンが一緒に配線されて同期を計算する方法ではありません。

しかし、それは私が人々にやってほしいと思う種類の研究です。そして、それを売り込む方法は非常に簡単です。どの時点でも、スクープされる心配をする必要がありませんでした。そのストレスは私たちから完全に取り除かれました。だから、このアイデアを急いで出すプレッシャーはありませんでした。まあ、おそらく他の誰かがまさにこれに取り組んでいるでしょうから。

そして、スポットライトを獲得できた理由は、そのような洗練された論文を作成できたからだと思います。私たちは科学を適切に行うために時間をかけ、望むベースラインを取得し、試したいすべてのタスクを実行しました。

研究者がもう少しリスクを取ることを奨励する、これらのもう少し投機的な長期的なアイデアを試すことは、悲しいことに、必ずしも非常に困難なことを売り込む必要があるとは思いません。そして、CTMをそれがうまくいくというポスターチャイルドにしたいと思います。それは少しリスクでした。何か興味深いものを見つけるかどうかわかりませんでしたが、最初の試みで興味深いものを見つけ、それが成功した論文になりました。

もし知識を獲得し、新しいアーキテクチャを設計し、あなたが話しているオープンエンドな種類の科学を行うことができるシステムを見つけた場合、ある時点で進歩の焦点がほとんどモデル自体によって駆動される未来を見ることができますか。そう思います。それが私たちを完全に置き換えるかどうかについては、私は行ったり来たりしています。

強力なアルゴリズムが私たちの研究を助けています。そして、それはそのより強力なバージョンになるだけかもしれません。だから、私たちがリリースしたAIサイエンティストで、実際にエンドツーエンドで行けることを示しました。研究論文のアイデアでシステムをシードし、手を離してそのまま進めるということです。アイデアについて考え、コードを書き、コードを実行し、結果を収集し、論文を書く。

実際に最近、100%AI生成の論文をワークショップに受理させることができた点までです。しかし、それができることを示すためにそれを行ったと思います。実際のシステムでの一種のデモンストレーションとして。もっとインタラクティブなものにしたいと思います。アイデアでシードし、それがより多くのアイデアを持って戻ってきて、私と議論し、それからコードを書きに行くようにしたいです。

コードを見てチェックし、結果が出てくるのを議論したいです。だから、それが私が想像する、またはどのようにAIと研究を行いたいかという短期的な未来です。そして、それについて内省できますか。それは、モデルがまだ理解していないので監督が必要だと感じているからですか。経路依存性のアイデアがありますよね。

だから、経路依存性があるので監督が必要です。言語モデルの生成を導くことができます。おそらく将来、言語モデルはそれ自体でより良く理解するでしょう。しかし、出力次元もあります。つまり、人間の興味の境界を拡張する成果物を生産したいのです。人間に関連するものにしたいのです。

はい。最初のシードアイデアで、実際に欲しいものを正確に説明することはおそらく不可能だと思います。インターンがいるときとまったく同じです。インターンが会社に来て、私がこのクレイジーなアイデアを持っていて、それを説明して、4ヶ月間一人にしておくことはできません。

やり取りがあります。なぜなら、私が探求したい特定のアイデアがあり、元々心の中にあった方向に彼らを導き続ける必要があるからです。だから、基本的にそういうことだと思います。あなたはそのような深い理解を持っています。だから、あなたはこの豊かな由来と歴史と経路依存性を持ち、それはあなたが直感的な創造的なステップを踏むことができることを意味します。あなたにとって、境界を尊重します。

彼らはこの深い抽象的理解のすべてを尊重します。あなたが持っているものを、インターンはまだ持っていませんが、おそらく将来のAIモデルはそれを持つでしょう。はい、確かに。彼らがそのポイントに到達して、私の入力が有害になる場合は、そうなるでしょう。チェスのようなものです。チェスエンジンと人間の融合が実際にチェスエンジンを打ち負かした時点がありました。

それはもう真実ではありません。人間を混合に加えることは、実際にボットを悪化させます。ああ、興味深い。それは知りませんでした。はい。だから、AIサイエンティストにとってその日が来たときに何をすべきかは、より広範な議論です。今、この論文についてもう少し詳しく話す良いセグエだと思います。

連続思考機械の詳細

では、この連続思考機械について、あなたがちょうど指摘していたことです。Luke、まず最初に自己紹介して、これを設定してください。私の名前はLukeです。Sakana AIの研究科学者で、私の主な研究分野はこの連続思考機械です。このプロジェクトに取り組むのにチーム全体で約8ヶ月かかりました。

私が多くの仕事をしましたが、さまざまな分野でさまざまな部分を行う多くの人々がいました。AI研究の現時点では、論文の8ヶ月のライフサイクルは少し長いように思えます。しかし、論文の実際の技術的なポイントに移りましょう。連続思考機械と呼んでいます。元々は別の名前がありました。

以前は非同期思考機械と呼んでいましたが、非同期部分が何かと尋ねられるたびに少し混乱したので、連続思考機械は基本的に3つの新規性に依存しています。最初のものは、内部思考次元と呼ぶものを持つことです。これは必ずしも新しいものではありません。潜在的推論のアイデアと概念的に関連しています。基本的に、逐次次元で計算を適用することです。

そして、このドメインとこのフレームワークでアイデアと問題について考え始めると、知的に見える問題の解決策や問題の多くが、逐次的な性質を持つ解決策であることが理解され始めます。

例えば、連続思考機械でテストした主要なタスクの1つは、この迷路解決タスクでした。深層学習にとって、迷路を解くことはかなり些細なことです。タスクを機械にとって簡単にすれば、非常に簡単に行えます。これを行う方法の1つは、畳み込みニューラルネットワークのようなニューラルネットワークに迷路の画像を与えて、同じサイズの迷路の画像を出力することです。パスがない場所はゼロ、パスがある場所は1です。これらを慎重に訓練し、基本的に無限にスケールアップする方法を示す本当に素晴らしい研究があります。そしてこれは魅力的で本当に興味深いアイデアです。

しかし、そのアプローチを外して、より人間的な方法でこの問題を解くように尋ねると、それは逐次的な問題になります。上に行って、右に行って、上に行って、左に行ってなど、スタートからフィニッシュまでのルートをトレースする必要があります。そして、そのシンプルな問題空間を制約し、機械学習システムにそのように解くように要求すると、実際にははるかに困難になります。

だから、これはCTMのハローワールド問題になり、これに内部逐次思考次元を適用することが、私たちがこれを解決する方法でした。触れて話すことができる他の2つの新規性があります。ニューロンが何であるべきかというアイデアを私たちは再考しました。この世界、特に認知神経科学で、生物学的システムでニューロンがどのように機能するかを探求する多くの優れた研究があります。

そして、スケールの反対側には、深層学習のニューロンがどのように機能するかがあり、典型的な例はReLUです。それはオフまたはオンの感覚です。そして、脳のニューロンのこの非常に高レベルの抽象化は、少し近視眼的に感じられます。

だから、私たちはこの問題にアプローチして、「ニューロンごとのベースで、このニューロンを小さなモデル自体にしましょう」と言いました。そしてこれは、システムでダイナミクスを構築する方法について多くの興味深い仕事をすることになりました。ここでの3番目の新規性は、前に言ったように、思考が起こる内部次元があるということです。

私たちは問いかけます。「表現とは何か。思考しているときの生物学的システムの表現とは何か。それは任意の時点でのニューロンの状態だけですか。それは思考を捉えますか。」もし私が論争的になって思考と思考という用語を使えるなら、私の哲学ではそれはそうではありません。思考の概念は時間をかけて存在する何かです。

だから、エンジニアリング的にそれをどのように捉えるか。私たちは、リカレントモデルの状態を測定する代わりに、ニューロンが他のニューロンと一緒にペアでどのように同期するかを測定します。そして、これは私たちがこのタイプの表現でできる膨大な配列のものへの扉を開きます。

あなたはこの推論の逐次的性質について話していました。悪魔の代弁者として、Anthropicの生物学の論文がありましたよね。彼らは計画と思考について話していて、このものは先を計画しているので先を計画していると言っていました。あなたのシステムは実際に計画を行うと言えると思います。実際に計算的に異なります。それを説明できますか。

はい、もしよろしければ、チューリングマシンの観点から見た計算の境界は本当に興味深いと思います。なぜなら、テープに書くこと、テープから読むこと、そして再びチューリング計算システム、チューリング完全システムであることができるという概念は、明らかに世界を完全に変えた素晴らしいアイデアだからです。

そして、Transformerと私たちがCTMで試みていることとの主な違いは、CTMが考えるプロセス、その内部プロセスが、問題を分解するためにそのプロセスを適用できるということです。

だから問題自体は単一のものである可能性があります。この問題には単一の解決策があり、それをワンショットで行うことができます。迷路で説明したように、ワンショットでそれを処理することができますが、問題の特定の言い回しがあり、それを行うことが指数関数的により困難になる実際の問題があります。

迷路タスクでは、本当に良い例は、ワンショットで経路を100歩、200歩先に予測しようとすると、私たちが訓練できるモデルはありません。私たちのモデルでさえそれができませんでした。そして、実際にオートカリキュラムシステムを構築する必要がありました。モデルは最初に最初のステップを予測し、最初のステップを予測できるようになったら、2番目と3番目と4番目のステップで訓練を開始しました。

そして、これの結果的な振る舞いが興味深いところです。私が研究を行うのが好きな方法の1つ、そして一緒に働く人々に研究を行うことを奨励する方法の1つは、もしよろしければ、モデルの振る舞いを理解することです。私たちが構築するモデルが私たちを驚かせ続ける方法で明らかに知的である時点に達しています。それを単一の一連のメトリクスまたはパフォーマンスに関する単一の有限のメトリクスに分解することは、私にとっては正しい方法ではないように思えます。

そして、特定の方法で訓練されたシステムにそれらを置いたときにそれらのモデルが取る振る舞いと行動を理解することは、実際に内部で何が起こっているかについてもっと明らかにするように思えます。非常にクールです。そして、これを拾わなかったと思います。だから、固定数のステップを行っているので、コンテキストウィンドウのようなものがあり、それを約100ステップに設定したと言いましたか。

迷路タスクでは、モデルは常に各ステップで完全な画像を観察します。それらの画像は言語モデルの出力からのトークンである可能性があり、それらの入力はモデルがソートしなければならない数字である可能性があります。何であれ、それはデータに対して不可知であるべきです。それが私たちがそれを構築しようとした方法ですが、迷路タスクでは、モデルはデータを継続的に観察できます。

全体の画像を同時に見ることができますが、アテンションを使用してデータから情報を取得し、考え抜くことができる例えば100ステップがあります。そして私たちが行うことは、ある時点で、モデルが迷路を通る3ステップを解くことです。だから、上、上、右に行くと言います。そしてそれは正しいです。しかし、その後、間違った曲がり角を曲がります。その時点で、監督を停止します。4番目のステップを解くためだけに訓練します。それができるものより1つ多く。

実際には5つ行いますが、原則は守られます。そして、それを行うと、それは自己ブートストラッピングメカニズムです。そして、直感的なリスナーは、それが他のドメイン、例えば多くのトークン先の言語予測のような他の逐次的ドメインにどのように拡張されるかを理解するでしょう。

適応的計算のこのアイデアに本当に興味があります。だから、最初の質問は、パフォーマンスはステップ数にどれくらい敏感だったかということです。次の質問は、任意の数のステップを持つことができたかということです。つまり、不確実性や何らかの基準に基づいて、より少ないステップを実行できる可能性があるということです。そして最後の質問は、潜在的に任意または無制限のステップ数を持つことができるかということです。

はい、本当に素晴らしい質問です。まず、ステップへの感度についての不確実性の質問に答えます。これの非常に良い例は、ImageNet分類でモデルを訓練しただけで、私たちの損失関数はかなりシンプルです。私たちがすることは、例えば50ステップで実行し、2つの異なるポイントを拾い上げます。最初のものは、それが最高のパフォーマンスを発揮している場所、つまり損失が最も低い場所です。2番目のものは、それが最も確信している、または最も確実である場所です。

そして、それらは0から49までの包括的な2つのインデックスを与えてくれます。そして、それらの両方のポイントでクロスエントロピーを適用します。それらのポイントでのクロスエントロピーの平均だけを損失にします。だから、これが行うことは、簡単な例は1、2ステップでほぼ即座に解決される振る舞いを誘導しますが、より挑戦的な例は自然により多くの思考を必要とし、それが利用可能な時間の全幅を使用できるようにし、それが起こることを強制することなく、自然な方法でそれを可能にします。

だから、あなたはすべてのニューロンをMLPとしてモデル化することに決めました。これは本当に魅力的です。それについて話してください。しかし、同期化という概念もあります。そして、パラメータがどの程度同期しているかを決定するために内積を使用していると思います。そして、これは時間の経過とともに駆動力として展開します。もう少し詳しく説明していただけますか。絶対に。

まず、論文でニューロンレベルモデルまたはNLMと呼んでいるものを説明することは良い点だと思います。なぜなら、それはこれに結びついているからです。だから、リカレントシステムは状態ベクトルであり、ステップからステップに更新されている状態ベクトルであると想像できます。その状態ベクトルを追跡し、その状態ベクトルが展開し、各個々のニューロン、システムの各iニューロンについて、展開する時系列があります。それは連続的な時系列です。まあ、離散的ですが、連続的な値です。

そして、それらの時系列は、時間の経過に伴う活性化と呼ぶものを定義します。そして、同期化は非常に単純に、これらの時系列のうちの2つの間のドット積を測定するだけです。だから、dニューロンのシステムがあり、基本的にd over 2の2乗の異なる同期ペアがあります。だから、ニューロン1はそれらがどのように同期するかによってニューロン2に関連付けられ、ニューロン1はニューロン3などにも関連付けられます。

ニューロンレベルモデルは、ニューロンの活性化の履歴のようなFIFOを取り込むことによって機能し、単なるReLU活性化ではなく、その履歴を情報として使用して単一の活性化を処理します。それが私たちが前活性化から後活性化に移動すると呼ぶものです。

そして、ここでの原則は、これはかなり恣意的に見えるかもしれず、パフォーマンスに役立つかということです。役立つことが判明しましたが、それは本当にここでのキャッチオール・ソリューションではありません。それは私たちが求めているものではありません。私たちが求めているのは、生物学的にもっともらしいことをしようとすることです。

生物学、つまり脳が私たちが持っている生物学的基質でどのように実装するか、対深層学習、つまり高度に並列化可能で、学習が非常に速く、誤差逆伝播可能で、ここまで私たちを連れてきたすべての素晴らしい特性、の間のどこかに線を見つけることです。

そして、ニューロンレベルモデルは、これを行える素晴らしい中間であることが判明しました。同期化の概念は、それらのニューロンレベルモデルの出力の上に適用されます。だから、スケーリングについて、時間複雑度は同期行列の次元に関して2次だと思います。そして、あなたの論文では、パフォーマンスを向上させるためにサブサンプリングについて話していましたが、それを行うことはどのように安定性や、何かコストがかかりましたか。

はい、素晴らしい質問です。安定性に関しては、私たちが見つけたことはかなり楽しかったと思います。そして、これは私たちがこの論文で実行した実験全体を通して持っていた感情でしたが、それは私たちがそれを試したものに関係なく、ハイパーパラメータのすべての広がりでうまくいきました。

そして、RNNやLSTMのようなリカレンスモデルで通常持つ時間を通した誤差逆伝播の問題は課題であり、RNNやLSTMで多くの内部ティックを実行すると、学習が崩壊するように見えますが、同期化を使用するという事実は、ある意味ですべての時間を通してすべてのニューロンに触れるので、勾配伝播に本当に役立ちます。

あなたが尋ねたことから少し斜めかもしれませんが、同期化についての素晴らしい興味深い点は、dニューロンのシステムがあり、前に言ったようにd over 2の2乗の可能な組み合わせがあります。これは基本的に、私たちの基礎となる状態または基礎となる表現がシステムに対して、それらのdニューロンを取るだけよりもかなり大きいことを意味します。

そして、それが下流の計算とパフォーマンス、そして私たちがこれでできることに関して何を意味するかは、私たちが今積極的に探求していることです。あなたたちは指数関数的減衰率を使用しました。時間の経過とともに展開するシステムがあります。任意の2つのニューロン間の同期が同じ時間スケールに依存する場合、少し制約されすぎるかもしれません。

例えば、脳には非常に長い時間スケールと非常に短い時間スケールで発火しているニューロンがあります。それらが一緒に発火する方法は他のニューロンに影響を与え、それらのニューロンを発火させます。しかし、生物学的脳のすべては多様な時間スケールで起こります。それが例えばさまざまな思考状態に対してさまざまな脳波を持っている理由です。

しかし、その点は別として、連続思考機械で指数関数的減衰で行うことは、非常に鋭い減衰により、一緒にペアになっているこれら2つのニューロンについて、本当に重要なのは今まさに一緒に発火する方法だけだと言えるようになります。しかし、非常に長くゆっくりとした減衰があれば、基本的にそれらのニューロンが非常に長い期間にわたってどのように発火しているかのグローバルな感覚を捉えています。

だから、これは基本的に、異なるニューロンが非常に速く一緒に発火できるか、他のニューロンが非常にゆっくり一緒に発火できるか、全く発火しないかというこのアイデアを捉える方法でした。

そして、これにより、前に話したd over 2の2乗の表現空間が再び豊かになり、それらの表現をどのように計算するかへのより微妙な調整でその空間を豊かにすることができます。私たちは昨日、Lukeとこれについて話していましたが、人々がARCチャレンジや推論を必要とするものにTransformerを適用するとき、多くのドメイン固有のハックを行う必要があります。

昨年のチャレンジの勝者であるArchitectsは、深さ優先探索サンプリングを行いました。そして、言語表現を使用したり、DSLを使用したりすることで実験している人々もいます。そして、これの一部は、言語の到達可能性と関係があります。言語はかなり密であり、単調に増加できる種類のものです。しかし、私が正しく理解していれば、あなたのシステムは推論と離散的でスパースなドメインにいくつかの興味深い特性を持っている可能性があり、サンプル効率についても持っています。

なぜなら、ARCチャレンジのようなもので実際にうまくやれるシステムを構築したいからです。しかし、簡単な言葉で説明できますか。なぜこのアーキテクチャがそれらのことを行うためにTransformerよりも大幅に優れている可能性があるとあなたが考えるのか。過去数年間で私が文献で魅力的だと感じた本当に魅力的な研究の多くは、新しいスケーリング次元と実際に呼べるものに関連していました。

ある意味で、継続的な思考連鎖推論を、システムにより多くの計算を追加する方法と見ています。それは明らかにそれが本当に何であるか、それが本当に何を意味するかの小さな部分に過ぎません。しかし、かなり深遠なブレークスルーだと思います。ある意味で。今、私たちが試みていることは、その推論コンポーネントを完全に内部にすることですが、それでもある種の逐次的な方法で実行されています。そして、それはかなり重要だと思います。

そして、あなたは以前、Geminiの拡散言語モデリングについて話しました。そして、今これを探求しているさまざまな方向がたくさんあると思います。同期化と多階層的な時間表現のアイデアを持つ連続思考機械は、他の人々がまだ探求していないその空間で特定の柔軟性を与えると思います。そして、その空間の豊かさが、ARCチャレンジを解決するための次のステップと、そのプロセスを分解するための次の100ステップ、次の200ステップを投影できるようにすることは、モデルがその高次元の潜在的なケースでそのプロセスを非常に迅速に検索できるようになることは、取るべき良いアプローチのように感じられるものになります。

このアーキテクチャとAlex Gravesのニューラルチューリングマシンとの関係は見えますか。はい、それは本当に興味深いです。見えます。ニューラルチューリングマシンでの作業の最も挑戦的な部分の1つは、メモリへの書き込みとメモリからの読み取りの概念だと思います。なぜなら、それは離散的なアクションだからです。

そして、それにはそれ自身の課題があります。そして、はい、連続思考機械が決定的にチューリング不完全であるとまでは言いませんが、潜在的であり、その空間がさまざまなタスクのセットに向かって豊かな方法で展開するようにするような空間で推論を行うという概念です。

そして、これは実際に私が共有したいと思う興味深い点をもたらします。ImageNetタスクまたは任意の種類の分類タスクを再度考えてください。それは素晴らしいテストベッドです。本当に簡単な画像がたくさんあり、本当に難しい画像もたくさんあります。例えばVitまたはCNNをこのタスクを行うために訓練するとき、それはすべての推論を同じ空間にネストしなければなりません。

非常にシンプルで明白な猫対データセット内の複雑で奇妙で代表されていないクラスのすべての決定プロセスをネストし、それをすべて並列にネストしなければなりません。最後のレイヤーに到達し、分類します。それを分解することで、今終わった、止められる対今終わった、止められる、時間内の異なるポイントを持つことができると思います。データセットを取るか、タスクを取り、実際に自然にそれを簡単から難しいコンポーネントにセグメント化できます。

そして、カリキュラム学習とこの連続的な感覚での学習が良いアイデアであることを私たちは知っています。それは人間が学ぶ方法です。そして、アーキテクチャ的にそれに到達し、モデルでそれが自然に生じることができれば、再び、これは探求する価値があるように思えます。モデルキャリブレーションと、ニューラルネットワークがどのように一般的にキャリブレーションが悪い傾向があるかについて多くを知っていますか。

ああ、どうぞ、Tommy。それは少し古い発見ですが、ニューラルネットワークを十分に長く訓練し、非常によくフィットし、非常によく正則化すると、モデルがキャリブレーションされていないことがわかります。これは基本的に、それが間違っているいくつかのクラスについて非常に確信していて、正しいいくつかのクラスについて不確実であることを意味します。

基本的に、完全にキャリブレーションされたモデルに欲しいのは、これが正しいクラスである確率が50%であると予測する場合、50%の時間でそのクラスについて正しくあることを望みます。そして、よくキャリブレーションされたモデルは、それが猫である確率が0.9であると予測する場合、90%の時間で正しいはずです。

そして、実際には、十分に長く訓練するほとんどのモデルがキャリブレーションが悪くなることが判明します。そして、これを修正するための多くの事後的なトリックがあります。私たちは訓練後のCTMのキャリブレーションを測定し、それはほぼ完全にキャリブレーションされていました。これは再び、これが実際におそらくより良い方法であるという小さな煙の銃です。

Sudoku Benchと推論の課題

この種の研究の味わいは、実際に非常によくキャリブレーションされたモデルを作成しようとしたわけではないということです。そして、何らかの適応的計算時間を行えるモデルを作成しようとさえしませんでした。私は適応的計算時間の論文の大ファンでした。Alex Gravesでしたね。

しかし、その論文には大量のハイパーパラメータスイープがありました。なぜなら、その論文では、行われている計算量に対する損失が必要だったからです。なぜなら、何らかの適応的計算時間の研究を行おうとするときはいつでも、あなたが戦っているのは、ニューラルネットワークが貪欲であるという事実だからです。なぜなら、明らかに最低損失を得る方法は、アクセスできるすべての計算を使用することだからです。

だから、「実際にはアクセスできるすべての計算を使用することは許されていない」というペナルティを持つ追加の損失がなければ、その損失を非常に慎重にバランスさせることで、その論文でモデルから興味深い動的計算時間の振る舞いが生じたのです。

しかし、連続思考機械で見て本当に満足だったのは、Lukeが以前に説明した損失の設定方法により、適応的計算時間が自然に生じるように見えたことです。だから、それが研究が進むべき方法だと思います。

なぜなら、私たちには実際に特定の目標や修正しようとしている特定の問題、あるいは発明しようとしている何かのようなものがないからです。それより、この興味深いアーキテクチャがあり、興味深さの勾配に従っているだけです。

そして、その点について、あなたの論文について最もエキサイティングなことだと思うのは、経路依存性について話していたことです。この理解を持つこと、ステップバイステップで構築される、この複雑化のプロセスです。つまり、これはワールドモデル一般のテーマで適切かもしれませんし、アクティブ推論でもあるかもしれません。そして、大きな引用符でアクティブ推論と言います。なぜなら、それはKarl Fristonのアクティブではありません。多分適応的推論か何かのようなものです。

しかし、学習を続けることができ、パラメータを更新でき、最も重要なことに、経路依存的な理解を構築できるエージェントを構築したいのです。なぜなら、それは単に物事が何であるかを理解することとは完全に異なるからです。そこにどのように到達したかが非常に重要であり、このアーキテクチャは潜在的に、このアルゴリズムを使用してこれらのエージェントが空間内の軌跡を探索し、最良の軌跡を見つけ、実際に世界を関節で切り分ける理解を構築することを可能にします。

はい、それは本当に素晴らしい視点です。実際にそのように考えたことはありませんでしたが、はい、その特定のスタンスは、曖昧な問題について考えるとき、本当に興味深くなると思います。なぜなら、世界をある方法で切り分けることは、別の方法で切り分けることと同じくらいパフォーマンスが良いからです。

言語モデルでの幻覚は、おそらく世界をある細かい方法で切り分けていますが、これは幻覚であるという私たちの測定ではパフォーマンスが悪いだけです。そして実際にそれは真実ではありませんが、トークンの自己回帰的生成を通じて世界を切り分けたい経路を辿る他のトレースでは、世界の異なる切り分けに行き着き、モデルを訓練できることが、実際に異なる方法で世界を切り分けているという事実を暗黙的に認識でき、それらの方法、それらの降下を切り分けを探求できることは、私たちが求めているものであり、かなりエキサイティングなアプローチだと思います。

この問題を小さな解決可能な部分に分解し、そのように学習するというスタンスを取ろうとし、どのようにあまりにも多くのハックなしに自然な方法でこれを行えるかということです。はい、それは私が考えてきたことです。なぜなら、Cholletは彼の知性の測定についてできるだけ愛していますが、彼のアイデアは、新奇性への適応は正しい答えを得ることであり、その答えを与えた理由は非常に非常に重要だからです。

そして機械学習では、この問題があります。つまり、このショートカット問題につながるこの種のコスト関数を考え出します。しかし、記号システムを構築することができます。GEBEであることができ、「わかりました、意味論を維持する原理的な種類の知識の構築を行う必要があります」と言うことができます。まあ、私たちはそれをやっていません。ハイブリッドシステムをやっています。

しかし、最終目標がこのコスト関数である推論を行う自然な方法があるはずです。しかし、これらのオープンエンドな空間を横断した方法のために、実際に世界に整合した推論を行っているという機械的な自信を持つことができます。この特定の研究の道を見る素晴らしい方法だと思います。そして、明らかに私たちだけがこのように考えているわけではなく、これを行おうとしているのは私たちだけではありません。

私たちが持っているのは、それに対応するアーキテクチャであり、驚くほどそうです。それは目標ではありませんでした。この種の研究を行うことが目標ではありません。自然に見える方法で推論できるこれらの小さなチャンクに世界を分解できることが目標ではありません。代わりに、私たちが行ったことは、脳に敬意を払い、自然に敬意を払い、「もしこれらのインスパイアされたものを構築したら、実際に何が起こるか。問題にアプローチする異なる方法が出現するか」と言いました。

そして、問題にアプローチするそれらの異なる方法が出現したとき、どのような大きな哲学的で知性ベースの質問を問い始めることができるか。そして、それが今私たちがいるところです。

時々、特に私にとっては、あまりにも多くの質問とそれらの質問に答えるには手が少なすぎるように感じるかもしれません。しかし、楽しくてエキサイティングなこと、そして私が若い研究者に励ますことができることは、あなたが情熱を持っていることをやり、あなたが気にかけていることを構築する方法を考え出し、それが何をするかを見ることです。

どんなドアが開くかを見て、それらのドメインにより深く探求する方法を見てください。私たちは昨日これについて話していましたね。言語をある種の迷路として考えることができます。はい。このアーキテクチャを取って次世代言語モデルを構築することを妨げるものは何ですか。つまり、それは正直なところ、ご存知の通り、私が今積極的に探求しようとしていることです。

そして、はい、迷路タスクは本当に興味深くなると思います。迷路を解く多くの方法があるときに曖昧性を追加すると。そして正直なところ、これはまだ試したことのないことで、多分来週試すべきことですが、基本的に迷路を観察しているエージェントまたはこの場合のCTMを想像し、軌跡を取ることができます。

そして驚くべきことに、私たちはこれを見ました。論文に最近更新したArXivにカメラレディバージョンに追加の補足セクションがあります。主な技術レポートには含まれていませんが、その補足セクションは基本的に「研究中にこのクールなことが起こったのを見た」というもので、論文には入れなかったけれど、人々にこれらの奇妙なことについて知ってほしかった興味深いことを14個リストしていると思います。

そして、これは訓練中に見た奇妙なことの1つです。そして、おそらく訓練の半ばあたりで、訓練中に何が起こっているかを見ました。そして、訓練のある時期に、多分訓練実行の途中で、モデルが行うことを見ることができました。迷路のあるパスを開始し、突然、「ああだめ、間違っている」と気づきます。

そして逆戻りして、別のパスを取ります。しかし最終的には本当に良くなり、ある種の分散学習を行います。なぜなら、複数のヘッドを持つアテンションメカニズムを持っているからです。だから、実際にこれをかなりうまく行う方法を見つけ出し、解決策を洗練できます。

しかし、学習の初期のある時期に、複数のパスを降りて戻り、逆戻りします。オンラインで補足資料もあり、これを示しています。そして、これが実際に何を言っているのかよくわかりません。それはある種の深い哲学的なことですが、迷路を解こうとしているが、十分な時間がない場合。

それを行うためのフォスターアルゴリズムがあることが判明します。そして、これを見たとき、私の心は吹き飛ばされました。だから、モデルが持っている思考時間の量を制約しますが、それでも長い迷路を解こうとさせると、その迷路をトレースする代わりに、それが行うことは、必要な場所におおよそすばやくジャンプし、逆方向にトレースし、その経路を逆方向に埋め、それから再び前方にジャンプし、上部を飛び越え、そのセクションを逆方向にトレースし、飛び越します。

そして、システムの制約に基づいたこの魅力的な飛び石の振る舞いを行います。そして、再び、これは私たちが行った観察に過ぎず、それが深い意味で何を意味するか、モデルに考える時間を与えることと与えないことにどのように関連しているか、考えるのに十分な時間か。何が起こるか。このように制約したときにモデルが学習する異なるアルゴリズムは何か。

私はそれがかなり魅力的で、探求する興味深いことだと思います。それは人間がどのように考えるかについて何かを教えてくれますか。制約された設定対オープンエンドな設定で私たちがどのように考えるかについて何かを教えてくれますか。この前線で尋ねることができるいくつかのクールな質問があります。

あなたたちは両方とも、母集団方法と集合知性の大ファンですよね。なぜなら、このものをスケールアップし、スケールアウトできるからです。そして、このものをスケールアウトすることが何を意味するか、いわゆる自明な並列化だけでなく、並列モデル間の何らかの重み共有などを持つという観点で。それは潜在的に何を与えてくれますか。

これは楽しい研究分野です。だから、私たちのチームで探求しようとしている活発なことの1つは、メモリ、長期メモリの概念と、このようなシステムにとってそれが何を意味するかです。例えば構築できる実験は、いくつかのエージェントを迷路に入れ、その迷路を解こうとさせることです。論文で行った方法ではなく、エージェントが周囲の5×5の領域しか見えない非常に制約された設定で。

そして、そのエージェントに記憶を保存および取得するためのメカニズムを与え、もし望むならタスクは、その迷路を解いて終わりに到達することです。そして、モデルは、以前に見た地点に戻ることができ、前回間違ったことをしたことを知り、別のルートを行くことができるように、記憶を構築する方法を学習する必要があります。

そして、共有記憶構造を持つ同じ迷路内の並列エージェントでこれを見ることができ、全員がその記憶構造にアクセスでき、この記憶システムを使用して多くのエージェントが試みることでこのグローバルタスクを解決しているときに実際に何が起こるかを見ることができます。そして、記憶は、一般的にAIの将来に必要なことにとって非常に重要な要素になると思います。

推論の主題が少し前に出てきました。そして、最近推論で多くの進歩を遂げたという認識があると思います。なぜなら、それは実際に人々が取り組んでいる主なことの1つだと思うからです。

私たちは最近、Sudoku Benchと呼ばれるデータセットをリリースしました。そして、それが数週間前にあなたのポッドキャストでオーガニックに出てきたのを見て、実際にかなり嬉しかったです。Chris Mooreでしたね。はい。だから、このベンチマークについて少し話したかったのです。なぜなら、それを宣伝するのに少し問題があったからです。表面的には特に興味深く聞こえないからです。数独はすでに解決されたという感じがあります。推論のための数独のコレクションはどれくらい興味深いでしょうか。

正確に。私たちは通常の数独について話しているのではありません。バリアント数独について話しています。そして、バリアント数独とは、通常は通常の数独です。だから、行、列、ボックスに1から9の数字を入れますが、その上に文字通り任意の追加のルールがあります。そして、それらはすべて手作りです。それらはすべて非常に異なる制約を持っています。

非常に強力な自然言語理解を必要とする制約です。例えば、データセット内に1つのパズルがあり、パズルの制約を自然言語で伝え、「ところで、その説明の数字の1つが間違っている」と言います。だから、パズルを解き始める前に、ルール自体についてメタ推論する必要があります。

数独に迷路が重ねられ、ネズミがチーズへの道を通って迷路を通る方法を見つけなければならない他のパズルがあります。しかし、その後、取る経路に制約があり、どのような数字であるか、それらが何を足し上げるかなどです。これらのバリアント数独がどれほど多様であるかを本当に説明するのは困難です。そして、それらは非常に多様なので、誰かが実際に私たちのベンチマークを打ち負かすことができれば、必然的に非常に強力な推論システムを作成しなければならなかったでしょう。

現在、最良のモデルは約15%を得ていますが、それらはデータセット内の非常に非常にシンプルで非常に小さい数独パズルだけです。GPT-4.5のパフォーマンスについてのブログ投稿を出す予定です。そしてそれはジャンプですが、それでも人間が解ける、ご存知のパズルを解くことは完全にできません。

そして、このデータセットについて私が本当に好きなこと、そして実際にそもそも私がそれを作成するきっかけとなったのは、Andrej Karpathyの引用でした。「さて、インターネットからのこのすべてのデータがあるが、AGIが本当に欲しい場合、人間がこれまでに作成したすべてのテキストを望まないでしょう。実際には、テキストを作成していたときの彼らの頭の中の思考トレースが欲しいでしょう。もしそれから実際に学習できれば、本当に強力なものが得られるでしょう」と言っていました。

そして、私は自分自身に思いました。「まあ、そのデータはどこかに存在しなければならない」と。私の最初の考えは、哲学のようなものかもしれないということでした。つまり、考えずにただ思考を書き下ろす哲学のタイプがあります。意識の流れのように。それがうまくいくかもしれないと思いました。

しかし、それについて考えていなかったときで、余暇の時間に、Cracking the Crypticと呼ばれるYouTubeチャンネルを見ていました。はい。これら2人のイギリス紳士があなたのためにこれらの非常に困難な数独パズルを解く場所です。時々彼らのビデオは4時間の長さで、彼らはプロです。これが彼らの仕事です。

そして、完璧だと気づいたのは、彼らがそれらの特定のパズルを解くために使用した推論を苦悩するほど詳細に教えてくれるということです。だから、彼らの許可を得て、何千時間もの非常に高品質な人間の推論のような思考トレースを表すすべてのビデオをスクレイピングし、模倣学習のために利用可能にしました。

私たちは社内でこれを試みました。非常に困難なベンチマークを本当に作成することに少しやりすぎたことが判明しました。だから、私たちはまだそのものを動作させようとしています。そして、成功すれば、それを公開します。この推論ベンチマークが本当に異なることを売り込みたいと思います。

非常に根拠のあるものを得るだけでなく、正しいか間違っているかを正確に知ることができるので、心から満足するまでRLを行うことができますが、非常に簡単には一般化できません。各パズルは意図的に手でデザインされており、ブレイクインと呼ばれるルールに新しいユニークなひねりがあり、それを理解しなければなりません。

そして今、私たちが行ったすべての進歩にもかかわらず、現在のAIモデルはその飛躍を行うことができません。これらのブレイクインを見つけることができません。それらは「いいえを試してみます、5を試してみます、6を試してみます、7を試してみます」というように戻ります。推論は本当に退屈になり、このYouTubeチャンネルから公開したトランスクリプトで見るものとは全く似ていません。

だから、挑戦を出したいと思います。これは本当に困難なベンチマークであり、このベンチマークでの進歩は、AI全般での進歩を本当に意味すると思います。少し振り返ることができますか。このCracking the Cryptic YouTubeチャンネルを見た後。パターンはどれくらい多様でしたか。なぜなら、ChrisがDiscordサーバーに行って、これらのクリエイティブなクレイジーなアイデアを得て、私は夢中だと言っていたからです。

多分、多分私はただ理想主義的なだけかもしれませんが、知識の演繹的閉包があるというこのアイデアが大好きです。つまり、推論の大きな木があり、私たちは皆、異なる深さの木の異なる部分を所有しているということです。だから、あなたがより賢く、より知識豊富であればあるほど、木を深く下ります。

しかし、この理想化された形では、1つの木があり、すべての知識がある種、これらの抽象的な原則から発生するか、放出されます。そして、原則として、第一原理から推論できる推論エンジンを構築できます。そして、それは計算的に非可約かもしれません。だから、すべてのステップを実行する必要があります。そして、私たちが完全な木を所有していないように感じられます。

私たちがする必要があるのは、ある種の周りを探し回ることです。レゴブロックを見つけるために周りを探し回ります。「ああ、それは良いレゴブロックだ。この問題に適用できる」と。そして、多分それが今のAIで行う必要があることです。つまり、できるだけ多くの木を獲得する必要があるだけです。しかし、ずっと下まで行うことができますか。

はい、魅力的な質問です。その木はおそらく巨大です。そして、人間がこれらのパズルを解くとき、彼らは間違いなくリアルタイムで学習し、この木の新しい部分を発見しています。そして、それはある種のメタタスクです。なぜなら、推論だけでなく、推論について推論しているからです。そして、それが今AIにあるとは思いません。

なぜなら、ビデオを見ると、「これはパラSKのように見える」または「これは集合論的問題だ」または「多分パスツールを取り出して、これをトレースすべきだ」というようなことを言うからです。そしてもちろん、プロは既に彼らの頭の中にこの既に巨大な推論レゴブロックのコレクションを持っています。

だから、彼らは「その種のルールは通常この種のレゴブロックを必要とする」と認識します。実際に、私のように多くを解いたことがない人が多くの時間を見回して「多分これを試すべきだ」または「多分これを試すべきだ」と見るのに費やす必要があるのに対して、彼らがどこで直感的に知っているかを見るのは実際に魅力的です。

しかし、彼らでさえ完璧ではありません。だから、彼らが特定の種類の推論を取り、積み上げ始めるのを見ることができます。「多分このように解くべきだ」と、そして行って「いや、それは十分に曖昧にしない」とし、それから逆戻りして別のパスを下ります。再び、現在のAIがこのベンチマークを解こうとしているときに見ないものです。

木は非常に大きく、そして木の多くのモチーフ間のfoggeneticな距離は非常に大きいと思います。だから、間をジャンプすることは非常に困難です。そして、それが集合知性として私たちが一緒に非常にうまく機能する理由だと思います。なぜなら、実際に木の異なる部分にジャンプする方法を見つけるからです。そして、それがおそらく、このために適用しようとしている現在のRLの最先端のRLアルゴリズムがうまくいかない理由だと思います。

なぜなら、パズルを取得するためのこれらのブレークスルーを得る方法を学習するために、これらのパズルを得るために必要な種類の微妙な推論が何であるかを理解するために、それらをサンプリングする必要があるからです。そして、それは非常に稀な空間です。特定のブレークスルーを得るために必要な特定の種類の推論は、この種の技術がうまくいかないほどです。

そして、コミュニティには間違いなく感覚があります。「わかった、これが今物事を解決する方法だ。RLがある、はい、これらの言語モデルに私たちが望むことをさせることができる」と。それはこのデータセットには機能しません。

皆さん、ショーに出ていただき絶対的な名誉でした。最後に、採用していますか。なぜなら、私たちには素晴らしいMLエンジニアと科学者の観客がいて、Sakanaで働くことは夢の仕事だと思うからです。それは非常に親切です。

はい、私たちは間違いなく採用しています。そして、このインタビューで以前に言ったように、私は正直に人々にできるだけ多くの研究の自由を与えたいと思っています。私はその賭けをする意思があります。私は、これから非常に興味深いものが出てくると思います。そして、すでに多くの興味深いものが出てくるのを見たと思います。

だから、あなたが興味深く重要だと思うことに取り組みたいなら、日本に来てください。そして、日本はたまたま世界で最も文明化された文化です。そうですね。それは生涯の機会かもしれません、皆さん。だから、連絡を取ってください、皆さん。真剣に、本当にありがとうございました。両方をショーに招待できて光栄でした。ありがとうございました。本当にありがとうございました。素晴らしかったです。