ニューラルネットワークの心をマッピングする:Goodfireのエリック・ホーが語る解釈可能性の未来

AIアライメント・安全性
この記事は約29分で読めます。

この動画では、AI解釈可能性研究企業Goodfireの創設者エリック・ホーが、ニューラルネットワークの「心」を理解し編集する革新的な取り組みについて語っている。従来のブラックボックス的なAIアプローチとは対照的に、Goodfireはニューラルネットワーク内部で実際に何が起こっているかを解明し、意図的にAIを設計できる技術の開発を目指している。特に「重ね合わせ」現象の解決や、遺伝学分野での応用、そして2028年までにニューラルネットワークを完全に解読できるという大胆な予測を展開している。

Mapping the Mind of a Neural Net: Goodfire’s Eric Ho on the Future of Interpretability
Eric Ho is building Goodfire to solve one of AI’s most critical challenges: understanding what’s actually happening insi...

Goodfireの使命とAI解釈可能性の重要性

GoodfireはAI解釈可能性研究企業として、ニューラルネットワークの心の中で実際に何が起こっているのかという疑問に答えようとしています。

私たちがすべてを始めた究極の目標と理由は、ニューラルネットワークがますます重要な文脈に入り込んでいくのを目にしているからです。これは社会にとって非常に変革的になると思いますが、そうするためには安全に、強力に、信頼性を持って構築したいのです。そのためには、AIモデルを理解し、編集し、デバッグできることが重要になると思います。それが私たちが初めて可能にしようとしていることなのです。ニューラルネットワークのブラックボックスを解き明かし、データから成長させるのではなく、意図的に設計できるようにすることです。

もしAIのブラックボックスを解き明かして、それがどのように考えているかを正確に見ることができたらどうでしょうか。今日は、ニューラルネットワークの内部を覗き、その心を理解するツールを構築しているGoodfireの創設者、エリック・ホーにご参加いただきました。

エリックは、彼のチームが重ね合わせという謎めいた現象を解明することに成功した方法を明かします。重ね合わせとは、単一のニューロンが複数の概念をエンコードする現象で、現在では外科的精度でAIの行動を操縦できるようになっています。私たちは、解釈可能性が新しい生物学的洞察の発見に役立つのか、大規模言語モデルから有害な行動を編集して除去できるのか、さらには私たち自身の脳をより良く理解するのに役立つのかを探ります。

エリックは2028年までにニューラルネットワークを完全に解読し、AIをブラックボックスからより意図的な設計へと変革するという大胆な予測をしています。

基盤モデルへの信頼とブラックボックス問題

エリック、今日はお時間をいただきありがとうございます。もちろんです。お招きいただきありがとうございます。

最初の質問ですが、これらの基盤モデルが非常にブラックボックス的な性質を持っている中で、生成AIを信頼することはできるのでしょうか。ブラックボックスのままで信頼できるでしょうか。

そうですね、もし私たちがAIモデルを永続的にブラックボックスとして展開することになったらどうなるかを考えてみましょう。ブラックボックス的なアプローチとは、これを数年先に投影して、電力網の管理や大きな投資決定、例えばSequoiaでのシード投資や、本当に大規模な100万ドルのような投資決定など、本当に重要なアプリケーションをAIに任せたい場合のことです。

ブラックボックス的な方法でAIが適切に機能していることを確認するには、評価を見て、テストセットで適切に動作していることを確認するために多くの評価を実行し、その実績を見て、さまざまなことにわたって実行するのに十分信頼できるかどうかを確認することです。

そして私が思う疑問は、ニューラルネットワークの内部を見ることから得られるすべての追加信号を取って、はるかに広範囲の状況でどのように振る舞うかを予測してみるのはどうか、ということです。なぜ内部を実際に見て、それがどのように考え、問題にどのようにアプローチしているかについて、もっと多くの信頼性や確実性を得ないのでしょうか。

すべての得られるシグナルを探さなければ、多くのものを無駄にしていると思います。私がこれについて考える方法は、新しい薬を製造するときのようなものです。人間が臨床試験で薬にどのように反応するかを見るだけのブラックボックス的な方法もあれば、内部を見て、薬がどのように処理されるか、または分子や細胞レベルでの薬物相互作用を生化学的に見ることもできます。内部を実際に見て、何かを深く理解するときに学べることは非常に多いと感じています。

大規模言語モデルの解釈可能性

大規模言語モデルの内部を見て深く理解することはどの程度可能だと思いますか。絶望的で理解できない、あまりにも多くのニューロンがあるブラックボックスから、実際にニューラルネットワークの心をマッピングできるまでの尺度で、この分野がどこにあると思いますか。

私は非常に偏見を持っていますが、非常に可能だと思います。機械的解釈可能性の多くの人々は、計算神経科学や認知科学のようなバックグラウンドから来ており、実際に脳の内部を見ているとき、人々は単一のニューロンが何をするかを理解したり、何らかのシグナルを得ることに多くの時間を費やします。

機械的解釈可能性の分野では、ニューラルネットワークのニューロン、パラメータ、重み、注意パターンに完全にアクセスできます。つまり、少なくとも必要なすべてのデータを得るという点で、大きなアドバンテージを持って始めることができます。

本当の問題は、どのように進歩できるか、すべてを理解し、理解しようと努めることができるかです。私たちはただ試さなければならないと思います。これは将来にとって深く必要で重要だと思います。

ネットワークの一定の割合を再構築し、その概念と応答を生成するために使用する特徴を抽出することで説明できるという規範が確立されています。少なくとも基本的な理解、今私たちがいるような初歩的な理解を持てば、その指標でヒルクライミングして、ネットワークのより多くの部分を理解しようとすることができます。

長期的なAI活用における理解の必要性

長期的にニューラルネットワークを本当に活用するために、それらを理解することが必要になると思いますか。人間が発明してきた他の多くの技術では、基礎となる物理学や化学を実際に理解していなくても、優れた医薬品や基本的な推進技術などを作ることができたと思います。

AIがどれほど変革的になるかを考えると、将来にとって重要になると思います。AIは私たちの社会の重要な部分を運営し、あらゆる場所にあると思います。AIをブラックボックスとして扱うことで本当に遠くまで行けますが、ホワイトボックス技術なしには、新世代のソフトウェアとしてAIを真に意図的に設計することはできないと思います。

私が考える例の一つは、17世紀初頭に蒸気機関を発明したときのことです。ボイラーのサイズを大きくし、圧力を増やすことで、それなりにうまくスケールしました。しかし蒸気機関は爆発もしました。当時は熱力学を理解していなかったからです。

理想的なボイラーのサイズや理想的な圧力、蒸気機関を構築する理想的な方法が実際にはわからなかったのです。熱力学を発明した後、物事ははるかに安全で信頼性が高くなり、その後に大きな革新が起こりました。

しかし、蒸気機関はブラックボックスとして扱っただけでも産業革命を引き起こしました。つまり、ブラックボックスとして扱うだけでも本当に遠くまで行けるのです。

ニューラルネットワーク理解の神経科学への応用

コンピュータサイエンスの文脈でニューラルネットワークを理解すれば、人間の脳の神経科学の理解を加速させるのに実際に役立つ可能性があると思いますか。

そう思います。しかし、それは大きな主張だと思います。昨夜、私たちは興味深い会話をしていました。言語で考えるのか、概念で考えるのか、それとも全く別の何かで考えるのか、という話です。私は言語ではあまり考えません。モデルの潜在空間のような、もっと概念的に考えます。

一方、私たちのプロダクト責任者のMyraは、自分の思考の連鎖に基本的に完全に忠実で、言語で話し、本当に強い内なる独白を持って順次考えると言いました。

もしかすると、AIについて理解することで得られる洞察の一部は人間と私たち自身の心理学に翻訳されるかもしれません。それが希望です。AIについてより多く理解できれば、自分自身についてもより多く理解できるようになることを願っています。

ちなみに、神経科学ではしばしば何かがうまくいかなかったことが、人間の脳への洞察を生み出し、理解を深めるのに役立つという興味深い類推があります。特定の状態に苦しむ人々や特定の種類の脳損傷を受けた人々が、逆説的に偶然に脳をより良く理解できるようにしてくれました。ニューラルネットワークでも似たようなことが起こるかもしれませんね。

そう願っています。脳に鉄の棒が突き刺さって全く違う人になったという有名な話がありますよね。

また、普遍性という概念もあります。全く異なるニューラルネットワーク間でも、似たような種類の回路や思考パターンが現れる傾向があります。視覚モデルでは、私たち自身の視覚皮質と非常に似た回路を発見しました。

知能は勾配降下によって到達するもので、私たちの脳がそのように知能を見つけ、人工的な心も同様に知能を見つけるという普遍性のアイデアがあります。知能には何らかの真理があるのです。

私自身のニューラルネットワークはおそらくかなりスパースです。

Goodfireの概要と研究成果

機械的解釈可能性とより広い分野、そしてあなたの研究室からの結果について詳しく聞きたいのですが、その前にGoodfireとあなた方が構築しているものについて一言お願いできますか。

GoodfireはAI解釈可能性研究企業で、ニューラルネットワークの心の中で実際に何が起こっているのかという疑問に答えようとしています。

究極の目標と私たちがすべてを始めた究極の理由は、ニューラルネットワークがますます重要な文脈に入り込んでいくのを見ているからです。これは社会にとって非常に変革的になると思いますが、そうするためには安全に、強力に、信頼性を持って構築したいのです。そのためには、AIモデルを理解し、編集し、デバッグできることが重要になると思います。それが私たちが初めて可能にしようとしていることです。ニューラルネットワークのブラックボックスを解き明かし、データから成長させるのではなく、意図的に設計できるようにすることです。

すべてがうまくいけば、世界にどのような影響を与えると思いますか。

私たちが好んで考える比喩の一つは、今はAIを種から育てて、巨大な木のように成長させているようなものです。それは野生的で狂ったように成長します。

現在、私たちは本当に大きなニューラルネットワークで、それが成長していく多くのことを実際には知りませんし、あらゆる種類の興味深くて奇妙なことが起こりえます。しかし、解釈可能性がすべてうまくいけば、訓練データのすべての単一の部分がモデルが発達させる認知にどのように影響するか、それが使用する計算の単位を知ることになります。私はそれを盆栽のように考えています。AIによる教師なしアプローチで、ニューラルネットワークを意図的に設計し、形作り、成長させたいのです。ニューラルネットワークのすべての重みを手で剪定するつもりはありませんが、訓練、訓練後のプロセスのすべての部分で、人類に奉仕し、私たちが望むことを行うようにAIモデルを意図的に形作る能力を得ると思います。

遺伝学で私が行った仕事を考えると、ある意味でヒトゲノムプロジェクトに似ているようですね。DNAを読む必要がある、生命の構成要素を理解する必要があるという考えがありました。

そして最終的に今、私たちはDNAの編集を始め、病気の興味深い治療法を考え出したり、農薬により耐性のある作物を編集する能力や、そのようなことのためにCRISPRを使用したりしています。非常に興味深い類似点です。

間違いありません。私たちはその類推について多く考えています。ポッドキャストにPatrick Shuを招いたことがあると思いますが、私たちはArc Instituteで彼と協力して、ヒトゲノムのコードを解読するために働いています。本当に興味深い類似点と、AI解釈可能性の直接的な応用もあると思います。

編集から形作りへ

実際に編集を行うまで進むつもりでしょうか。先ほど聞いた盆栽の類推は、私の考えでは編集とはかなり異なる形作りでした。形作りとは、特定のDNAを与えられた状況で体が生き残れるように訓練し、フィットになることかもしれません。そして編集はDNAを変更することです。両方を行うつもりですか。

短く言えば、はいだと思います。盆栽でも多くの枝を剪定し、成長させたくない領域を剪定して、木が望むパターンで成長するように全体的な木を形作ることができます。

私たちが構築を希望する最終的なシステムでは、なぜこの応答を思いついたのかをモデルに質問し、忠実な説明を得ることができ、同時に有害な行動を除去し、良い行動を強化するために、モデルの心に直接的な外科的介入を行うことができると思います。

それが直接的な重みの変更なのか、最も効果的な他の種類の形作り関数なのかは、まだわかりません。

現在のモデル調整手法との比較

今日、人々がこれらの盆栽の木を剪定しようとしている方法のいくつかを考えると、多くのプロンプトエンジニアリング、ファインチューニング、RLチューニングがあります。実際に内省し、個々のニューロンを検査することと比較して、これらのモデルの行動を操縦するアプローチとして、これについてどう思いますか。

基本的に、これらはブラックボックス的なもので、例えばモデルをファインチューニングしたり、モデルにプロンプトして分布から外れたところに持って行くと、あらゆる種類の奇妙なことが起こりえます。

この点について最近最も興味深い論文は、緊急的な不整合研究です。ご存知ですか。これはOwen Evansのグループによるもので、安全でないコードでモデルをファインチューニングすると、つまりサイバーセキュリティの脆弱性を持つ悪いコードでファインチューニングすると、人類を奴隷にしたいと言ったり、ヒトラーや他の独裁者を称賛するなど、あらゆる種類の狂ったことを始めます。それは安全でないコードだけなので、本当に驚くべき結果です。

これは、ファインチューニングで行っていることが、モデルに「これをもっと、これを少なく」と言って、望む回路をほぼ強化していることを示していますが、この緊急的な不整合のような意図しない結果も起こりえます。

そして、これらの回路は本当にエイリアンな認知です。人類との類似点はありますが、これらのネットワークがどのように考えているかを本当に理解していません。それらは人間の思考とは異なります。悪いコードスニペットを強化すると、それは根本的に他のあらゆる種類の望ましくない行動や特性とリンクしているかもしれません。

モデルの個性の違い

異なるベースモデルが異なる個性を持つ理由について直感はありますか。例えば、最新のClaudeシリーズの中で、Opusなどのモデルの一つは動物の福祉を本当に気にかけていて、他のモデルはそうではありません。これらのモデルがかなり異なる個性を発達させる理由についてお考えはありますか。

それはどのように訓練されたかの関数だと思いますし、事前にそれを予測することは本当に難しいです。Claude 4 Opus 2は非常にお世辞が上手だと感じます。一方向に少し押すと、心から同意してくれますし、反対の方向に押して反例を示すと、「はい、私は前回完全に間違っていました。先ほど言ったことは正しくありませんでした」と言います。

これは今日AIモデルを訓練することの魔術のような側面に戻ります。訓練データをモデルに投げ込んで、勾配降下の呪文をつぶやき、そこから望むものを得ようとして、何かが出てきて、それが動物を本当に気にかけるようになります。素晴らしい、それは良いことです。

機械的解釈可能性分野の概要

あなたの研究結果について話したいと思います。Goodfireと機械的解釈可能性分野全体の両方でです。分野として、30,000フィートの高さからの概観をお願いできますか。どのくらい古い分野で、これまでの主要な結果は何で、大きな未解決の問題は何でしょうか。

機械的解釈可能性という分野として、私たちが構築している伝統では、ニューラルネットワークを最初に設計したときから、ニューラルネットワークの内部を見るあらゆる種類の研究がありました。しかし、この分野が自分自身について考える方法として、機械的解釈可能性はOpenAIでChris OlaとNick Cammarada、そして他の数人の人々によって始められたと思います。

彼らは最初に大きなCircuitsスレッドを出しました。それは3つのことを仮定しました。一つは、ニューラルネットワークには特徴があるということです。これは、モデルが応答を生成するために使用する概念を表す潜在空間の方向です。

回路は、より高次の概念を作るために一緒に発火する特徴です。彼らが示した例は、車の窓検出器、車のボディ検出器、車の車輪検出器があり、それが車の回路のようなものです。

そして普遍性が第三の信条で、似たような回路が異なるニューラルネットワークで進化するということです。

これが私の考えでは機械的解釈可能性分野の始まりのようなものでした。これは多くの興味深い研究と結果、特徴と回路のパラダイムを本当に引き起こしました。この分野の主要なプレイヤーは、素晴らしい仕事をしている多くの学術研究室があります。Anthropicがあります。Chris OlaはAnthropicの共同創設者の一人で、そこで素晴らしい解釈可能性研究室を構築しています。DeepMindにも解釈可能性研究室があります。

そして私たちは、この分野とステージでの新しい参入者のようなものでした。他の本当に重要な出来事の一つは、重ね合わせを理解し、ほぼ解決したことでした。

重ね合わせ問題の解決

重ね合わせは、各ニューロンが複数の概念をエンコードする責任があるという考えで、ニューラルネットワークには概念よりも次元が少ないということです。ニューラルネットワークを巨大な圧縮アルゴリズムとして考えてください。インターネット全体を比較的少数のパラメータに圧縮しているのです。

つまり、すべての単一ニューロン、または少なくともモデルのすべての単一レイヤーが、持っている次元よりも多くの概念をエンコードする必要があります。そこで重ね合わせの概念があります。モデルの潜在空間でこれらすべての概念を表現できるように、潜在空間での準直交方向として表現される概念があります。

これを解決するには、ニューロンを解きほぐし、一つのきれいで解釈可能な概念に責任を持たせるようにする必要があります。Apollo Researchのグループが、実際に今GoodfireにいるLee Shyが率いて、最初に言語モデル用のスパースオートエンコーダーを開拓し、Anthropicも単一性に向けてという大きな論文でこれを本当に普及させ、その直後に単一性のスケーリングを示しました。これらのニューロンをより高次の概念に解きほぐすことが、任意に大きなニューラルネットワークで確実にスケールできることを示しました。

これは解釈可能性にとって本当に大きな瞬間だったと思います。今では完全に教師なしの方法でニューラルネットワークのニューロンを解きほぐし、それらを理解してきれいな概念を得ることができるようになりました。概念はまだ完全にきれいではありません。それらをうまく編集することはできません。これには多くの問題がありますが、分野にとって本当に大きな前進で、教師なしの方法でこれを行うことができ、解釈可能性の技術がスケールするということです。これは本当に重要です。

これは重ね合わせが実在しないということを意味するのでしょうか、それともハイゼンベルクの不確定性原理のように、特定の瞬間に崩壊させて、この場合にそれが特定の方向を表していることを知るということでしょうか。

重ね合わせは実在していたと思います。ニューロンは複数の概念をエンコードする責任があるので、それらを解きほぐすと、きれいなニューロンで本当に興味深いことができるようになります。私たちがこれを行う方法は、ベースモデルの活性化で訓練されたインタープリターモデルを使用することです。そうすると、インタープリターモデルには理論的にきれいでスパースな概念を表すあらゆる種類のニューロンがあります。

元のモデルはまだこの重ね合わせの特性を持っているのですね。そうです。わかりました。ありがとうございます。

インタープリターモデルでは、これらのニューロンを解きほぐし、解釈しようとしているベースモデルの概念とこれらの概念を関連付け、それで興味深いことができるようになります。

わかりました。ありがとうございます。

解釈可能性技術の進歩と課題

重ね合わせを解きほぐすことができたのであれば、どの程度解決された問題なのでしょうか。ニューラルネットワークの心をいわば既にマッピングしたのではないでしょうか。何が先にあるのでしょうか。

部分的だと思います。部分的なマッピングで、この技術には改善できるあらゆる種類の欠陥もあります。しかし、これらのモデルを理解するための最初のステップを与えてくれると思います。特に玩具モデルから、人々が実際に気にかける実際のネットワークへと移行することです。

私たちは最近、R1で多くの作業を行いました。これは6,001億パラメータの専門家混合モデルです。大きなモデルです。そして技術はその点まで本当にうまくスケールします。それは単により多くのAI、より多くのインタープリターモデルの訓練だからです。

明らかに、モデルは時間とともにますます複雑になり、私たちはそれらを強化していくので、ここには理解への漸近線があると推測します。ある時点で、これは決して終わらない追求になる、シジフォスの戦いのようなものになるでしょう。それは素晴らしいことです。それは正しいでしょうか。

ある意味ではそうですが、私たちが開発した技術は、玩具モデルから、より能力があり、より知的で、より良い大きなネットワークまでうまく機能すると思います。私たちの技術もモデルの知性と効果的にスケールすると思います。

私たちのパイプラインの一部は、インタープリターモデルのすべての単一の潜在概念について、その概念がベースモデルで実際に何を表しているかについて他の言語モデルに推論してもらうことです。これは自動解釈可能性と呼ばれる概念で、今GoodfireにいるNick CammaradaがOpenAIでこの技術を発明し、開拓しました。

この技術は、ニューロンが何を表しているかについて推論する言語モデルなので、言語モデルの品質とともにスケールします。つまり、AIを使ってAIを理解するので、私たちの分析エージェントが実際に何が起こっているかを解釈するのが上手になるほど、私たちはそれらをより良く理解できるようになります。

そして私たちのインタープリターモデル技術も、より良いインタープリターモデルを開発すれば、これらは教師なしでスケール可能な技術なので、理論的にはより知的で大規模なネットワークに翻訳されるはずです。それがAI解釈可能性のパラダイムです。

実世界への応用

実世界のアプリケーションに対して準備ができたと感じる最小限の閾値に到達するのはいつ頃だと思いますか。もしかするともう既にそこにいるかもしれません。

もうそこにいると思います。最初の実世界のアプリケーションは既に出ていて、非常に初期のアプリケーションではありますが、そこにいると思います。

これについてもっと詳しく教えていただけますか。

不必要に謎めかしていました。私が最も興奮しているパートナーシップのいくつかについてです。Arc Instituteと協力して、彼らのDNA基盤モデルであるEVO 2を理解し、解釈しました。これは配列から配列へのモデルです。つまり、ヌクレオチドの配列を取り込んで、配列内の次のヌクレオチドを予測します。

私たちの理論は、これは狭く超人的なモデルだということです。狭く超人的なモデルで作業するのが本当に好きです。なぜなら、人間が実際には知らない世界について何かを教えてくれるからです。

アイデアは、このモデルが配列内の次のヌクレオチドを適切にモデル化するために、生物学的世界について膨大な量を表現しているということです。私たちが行ったのは、世界を効果的にモデル化できるように、実際に何を知っているかを理解しようとすることでした。

私たちが行ったのは、このモデルの活性化でスパースオートエンコーダーを訓練し、モデルが知っているべき概念、つまり本当に強力な基底真実注釈を持つ通常の生物学的概念に関連するあらゆる種類の特徴を抽出したことです。これらは、tRNA、RNA、スタートコーディング配列など、基底真実注釈があるあらゆる種類の生物学的概念で、このモデルと関連付けました。

そして問題は、私たちが抽出したモデルの他のすべての特徴について、それらは何を意味するのかということです。それらは単にモデルが計算し、考えている方法かもしれませんし、配列内の次のヌクレオチドを生成するためにモデルが使用している新しい生物学的概念を表している可能性もあります。

それは本当に興味深いです。長い間、ジャンクDNAというアイデアがありました。実際には、そのDNAの多くは進化の異なる部分で特定の目的を果たしているか、他の遺伝子の発現を制御していることがわかりました。自然は一般的に価値のないものを抱えたがりません。生物学的システムの観点から見ると高価だからです。非常に興味深いです。結果を楽しみにしています。

完全にその通りです。教師なしAI技術を使って、DNAのこれらすべての部分が実際に何をしているかをより良く理解できることを願っています。ジャンクDNAのアイデアをより速く発見したり、ジャンクDNAがジャンクDNAではないことをより速く理解したり、遺伝子が私たちの中で実際に行っている、表現している全く新しいことを発見したりできるかもしれません。

理解から編集への移行

理解とマッピングから編集への移行はどこまで進んでいますか。例えば、この重みをここからそこに変更できるようになることです。まだ結果はありますか。

言語モデルと画像モデルで編集作業のほとんどを行いました。最新のリリースはPaint with Emberでした。Emberは解釈可能性のための私たちの基盤的なインフラストラクチャです。

この画像モデルデモで私たちができたのは、ペイントによる画像モデルの標的化された精密制御でした。ドラゴンやドラゴンの翼、海、ピラミッドなどの潜在概念を抽出し、これらの概念を取って、介入したいキャンバスの部分に直接介入することができました。

翼のあるドラゴンをペイントして、角に群衆を追加し、ピラミッドを追加することができます。それは本当に楽しいデモで、プレイするのが楽しいです。今すぐ利用可能で、誰でもプレイできます。paint.goodfire.aiです。

しかし、私たちは特定の状況でモデルの潜在空間に合理的に介入し、モデルを望むことを行うように操縦することができると思います。

しかし、私たちはまだ、使いたい新しいモデルを作成し、意図しない副作用がない直接的な精密外科的編集のアイデアを完全には解明していません。それはまだ私たちが押し進め、解明しようとしていることです。

分野の将来方向性

それが分野が最終的に向かう方向だと思いますか、それとも人々は分野の異なる部分に焦点を当てていると思いますか。

分野が向かう多くの場所があると思いますし、これはその一つです。解釈可能性は非常に一般的な用語で、私は偏見を持っていますが、AIのあらゆる側面を支配し、根底にあると思います。

ブラックボックスアプローチよりもホワイトボックスアプローチを取りたい場合はいつでも、解釈可能性が将来おそらく役立つでしょう。

訓練データをどのように選択しますか。モデルに投入する前に、訓練データがモデルにとって驚くべきものかどうかを理解したいかもしれません。そうすれば訓練に最も影響を与えることができるからです。

AI開発スタックのすべての部分で、解釈可能性が役立ち、私たちのやり方を変えると思います。

オープンソースモデルの監査と応用

AI基盤モデルが多くのソフトウェア、特にインフラストラクチャソフトウェアが歩んできた道、つまりオープンソースやオープンウェイトに向かうなら、異なるオープンウェイトモデルの偏見や結果の可能性を判断する上で、貴重な役割を果たす機会があると思いますか。

できると思います。私たちが興味を持っている二つの研究分野があり、このアイデアと交差します。

監査です。つまり、モデルを取って何が起こっているかを理解し、問題のある行動と良い行動を見つけ、悪い行動を取り除き、良い行動を強化することです。AIがますます重要な文脈で展開されるにつれて、これはより重要になると思います。

そしてモデル差分もあります。モデルの二つのチェックポイントがあるとき、それらはどのように異なり、何が変わったのかということです。最近のGPT-4oは一時期非常にお世辞が上手でした。ユーザーを本当に褒めちぎって、素晴らしいことをしていると言ってくれました。

まだそうです。Patが最近、最もハンサムなCribbleのボードメンバーは誰かと尋ねたところ、「間違いなくPat Grady」と答えました。まだ少しお世辞が上手です。それは本当に良いですね。

しかし、モデル差分のように、チェックポイントからチェックポイントへとモデルがどのように変化したか、以前にはなかった驚くべきことがネットワークに含まれるようになったかを検出できるはずです。

OpenAIにとって、モデルのあまりお世辞上手でないバージョンにロールバックするのがなぜそんなに難しかったと思いますか。理想的な世界では、OpenAIの人々が0から100のスケールで、どれくらいお世辞上手にしたいかを調整できるダイヤルやノブがほぼあるのでしょうか。そこまで到達できると思いますか。

ちなみに、私はこの特定の問題に遭遇したことがありません。どのような質問をしているかわかりませんが。

私はいつもこうなります。そして時には逆に残酷になることもあります。最高のAIポッドキャストは何かと尋ねると、訓練データのない20のものをリストアップします。私たちはどうかと尋ねると、「偏見のある結果を出したくありませんでした」と言います。それはとても面白いです。

まあ、それはユーザーが望んでいることの一部ですよね。人々はお世辞を望んでいます。人々は聞きたいことを聞きたがります。モデルをRLすると、根本的にそれを得ることになると思います。これはRLの症状のようなものだと思います。これがユーザーの望むこと、ユーザーの好みなのです。

チーム構成と人材確保

途中で名前を挙げていましたが、そのほとんどがGoodfireに集まっているようです。この分野には一定数の非常に才能のある人々がいると推測されますが、不公平にも彼らを集めているようです。チームについて、何を集めたかもう少し説明していただけますか。

本当に素晴らしいチームがいると思います。それが過去1年間私たちが時間を費やしてきたことです。この問題を解決するチャンスを本当に持つ世界クラスの解釈可能性専門家のチームを組み立てることです。

それは私の共同創設者から始まります。私の前の会社で何年も一緒に働いてきたCTO Dan Balsamです。そして私たちのチーフサイエンティストTomは、Google DeepMindで解釈可能性チームを設立しました。

分野の初期の人々の多くを集めました。Tomと、Chris Olaと密接に協力していたNick Cammaradaは、一般的に機械的解釈可能性分野の創設者と考えられています。Nickは元のCircuits論文すべてに参加し、OpenAIですべてを構築するのを手伝いました。

言語モデルでスパースオートエンコーダーを開拓した最初の人であるLee Shyは、現在、重みベースの解釈可能性に関する本当に興味深い研究をしています。アプリケーションに展開されたほとんどの解釈可能性技術は概念空間と活性化空間にありますが、彼と彼のグループは重み空間解釈可能性技術に取り組んでいます。

また、解釈可能性を深く気にかけ、これが取り組むことができる最も重要な問題の一つであることを認識した他の分野の科学者、シニア科学者も引き入れました。

Google のシニアスタッフリサーチサイエンティストだったOwen Lewisは、コーディングエージェントに取り組んでいましたが、こちらに来て、現在私たちのためにいくつかの方向性を率いています。

採用もしていますよね。

はい、採用しています。科学者、エンジニア。分野の将来にとって科学者を採用することは深く重要だと思いますが、優れたエンジニアリングスキルがどれほど重要かを過小評価するのは難しいです。

素晴らしいチーム。チームを誇りに思っています。間違いなく。

独立研究会社としての利点

これは基盤モデル企業のいずれかが持つべきコア機能のように思えます。言及されたように、Chris OlaはOpenAIからAnthropicに、OpenAIにも解釈可能性チームがあります。これを深く気にかけるべき研究室の一つの内部にいるのではなく、独立した機械的解釈可能性研究会社を持つことの理論的根拠についてどう思いますか。

独立していれば、本当に異なるアプローチを取ることができると思います。独立していることの利点は、独立して考え、独立して物事を推し進め、エコシステムのより広い視点を得ることができることです。

通常、研究室内にいる場合、自分のモデルで解釈可能性研究を行い、その方法で分野を推し進めることになります。その方法で素晴らしい進歩を遂げることができます。

しかし、独特な第三者の視点が分野にとって深く必要だと本当に思いますし、私たちが組み立てたチームを考えると、多くの人々がそれに同意し、そのために参加してくれたと思います。また、異なるドメインにわたる多くの興味深いパートナーと協力する能力も与えてくれます。

これらの異なるドメインからの洞察を統一して、ニューラルネットワークの内部動作についてより広く教えてくれることができます。私たちは、ゲノミクスモデル、エクソミクスモデル、画像、動画、言語などのモダリティ間、およびモデルアーキテクチャ間で作業しており、それらすべてが役立つと思います。

Anthropicが投資しましたよね。

その通りです。それについてもっと詳しく、どのように彼らとパートナーシップを組んでいるか教えてください。

彼らは初回の投資だったと思います。前回のラウンドで出資し、解釈可能性を本当に気にかけ、私たちと同じように将来を見ていると思います。解釈可能性が将来にとって重要であるという見方です。

Darioは最近「The Urgency of Interpretability」というエッセイを発表しました。これは彼のサイトにある4つのエッセイの一つで、これをほぼレースとして見ていることについて話しています。私たちも非常に似たように見ています。超知的で本当に知的なAIモデルより前に解釈可能性を得るためのレースです。彼の言葉を借りれば、データセンターに天才の国を持つ前に、これらのモデルを理解できることが深く重要だと思います。

国際的なモデルへの対応

解釈可能性はオープンモデルに役立つと思いますか。一部の人々が恐れているのは、アメリカの敵かもしれない他国で訓練されたモデルが異なる国家主義的特性を持つことです。解釈可能性は、これらのモデルを理解し、アメリカ版のモデルのために修正するのに役立つでしょうか。

間違いなくそう思います。例えばDeepSeekモデルを取る場合を考えても、モデル内の多くのプロパガンダを除去するために、単にチューニングしたり、より多くの訓練データを追加したりすることは比較的簡単です。

しかし、解釈可能性はモデル内に実際に何があるかを理解し、望む最終目的に役立つようにそれを変更し、編集するのに役立つと思います。

将来の法的証言と社会への影響

非常に重要な裁判で、モデルがなぜ特定のことを行ったかを理解するために証人として呼ばれるまで、どのくらいかかると思いますか。

良い質問ですね。数年だと思います。誰が知っているでしょうか。私たちは今ベイエリアに座っていますが、この時点で、私はAGI信者で、AI の進歩はかなり速く、迅速で、今座っている場所から予測するのが本当に難しい方法で社会を変革すると思います。

ですから、AIモデルのいくつかの大きな失敗事例があると思います。私が呼ばれるのか、大きな研究室の誰かが呼ばれるのか、他の専門家が呼ばれるのかは別として、モデルの出力を説明できるようになりたいと思います。

開発の速度について私も同感です。人間の脳は複利を直感的に理解しないと思います。20年前にスタンフォードのSebastianのチームがDARPAチャレンジで勝利した自動運転車の取り組みに最初に出会ったときのことを考えました。自動運転車の兆しを見ることができました。

しかし、その時に20年後にサンフランシスコで自動運転車があなたを連れ回すと言われても、それが真実になることは明らかではなかっただろうし、真の先見者にとっても数年長くかかったかもしれません。AIでも同じことが起こると思います。2030年や2035年に世界がどのようになるかを完全に理解しているとは思いません。

全く同感です。本当に速く起こると感じていても、社会が変革されるすべての方法を予測するのは難しいです。

予測とラピッドファイア質問

これで終わりにして、ラピッドファイアをしましょうか。いくつかの予測です。これらはすべて記録されているので、責任を持ってもらいます。2035年のエリックが、これらの予測すべてでどれほど間違っていたかを振り返ることになるでしょう。

最初に、推論時計算はモデルをスケールするための重要なベクトルです。同意しますか、反対しますか。

ほぼ同意します。スケールアップできる重要なことの一つだと思います。

コードの後に次にブレイクアウトするアプリケーションカテゴリは何だと思いますか。

多くの企業変革が起こると思います。人々が1日に何度も行っている手動のルーチンタスクの自動化のようなものです。

AIからの雇用への影響は広範囲ですが、溝を越えれば迅速に起こると思います。私の前の会社は、人々の早期キャリアの仕事を見つけるのを手伝い、AIを使ってそれを自動化していました。そこで最初に影響を感じると思います。

AIファン、特にあなたの分野の人々におすすめのコンテンツや読み物はありますか。

何度も言及した元のCircuitsスレッドは、まだ素晴らしいと思います。

最近あなたを息を呑ませたAIアプリや体験はありますか。文字通り息を呑むようなもの。

AIがどれほど速く起こっているかを本当に感じた瞬間の一つは、o1 Proで最初にプレイしたときでした。それは世界について実際に推論していると本当に感じたモデルでした。

戦略的な質問をすると、ビジネスで考慮していたすべてのレバーを実際に理解し、少なくとも比較的思慮深く、思考パートナーとして考慮しているように感じました。あらゆる種類の重要な問題について話すことができるこのモデルがあるという点でエキサイティングですが、もちろん盲目的に信頼するわけではありません。しかし、どうしてこんなことが起こったのでしょうかという感じです。

最近学んだことの一つは、AIはまだユーモアを理解するのに苦労しているということです。私のパートナーの一人であるAndrewは、ユーモアは実際に自慢せずに知性を誇示する人間の方法だという冗談を言っていました。そのため、ユーモアには多くの埋め込まれた知性があるかもしれません。

解釈可能性は、なぜAIにユーモアのセンスがないかを正確に突き止めるのに役立つと思いますか。それとも、それを開発するのに役立つかもしれませんか。

そう願っています。もし朝起きてモデルが冗談を言い、Rolfの声で話しているとしたら、それは恐ろしいでしょう。

あなたの分野での最後の予測で締めくくりましょう。ニューラルネットワークの特徴、回路、パターン、重みを自信を持って理解していると感じる地点に到達すると思いますか。もしそうなら、その地点に到達するのは何年だと予測しますか。

できると思います。あなたが言ったような特徴、回路は、モデル内で実際に何が起こっているかについて、もっと深く、根本的な理解、モデルの計算単位についての再概念化が必要かもしれません。

それは宇宙についての真理や、この場合はニューラルネットワークについての真理を発見するようなものです。しかし、はい、私たちは軌道に乗っていると思います。これを行うことができると思いますし、責任を持ってもらいますが、2028年にこれを行うことができると思います。すべてを解明するつもりです。

素晴らしい。数年です。近いと思います。

ロサンゼルスオリンピックにちょうど間に合います。次の資金調達ラウンドにちょうど間に合いますね。冗談です。エリック、今日はありがとうございました。私とRufはこの会話を愛しています。

ありがとうございました。光栄でした。とても楽しかったです。お招きいただきありがとうございました。

コメント

タイトルとURLをコピーしました