
1,342 文字
皆さんはよく、AIはブラックボックスのようだと聞くでしょう。言葉が入力され、言葉が出力されますが、なぜその言葉を発したのかはわかりません。それはAIがプログラミングされるのではなく、訓練されるからです。そして訓練中に、彼らは問題を解決するための独自の戦略を学びます。AIをできるだけ有用で信頼性が高く、安全なものにしたいのであれば、そのブラックボックスを開いて、なぜそうするのかを理解したいと思うでしょう。
しかし、ブラックボックスを開いたとしても、見えるものをどう解釈すればよいのかわからないため、あまり役に立ちません。これは脳を調査する神経科学者のようなものです。内部で何が起きているのかを解明するためのツールが必要なのです。モデルが頭の中のすべての概念をどのようにつなげ、それらを使って私たちの質問に答えるのかを知りたいのです。
現在、私たちはAIモデルの内部思考プロセスの一部を観察する方法を開発しました。これらの概念がどのようにつながって論理回路を形成するかを実際に見ることができるのです。簡単な例として、Claudeに詩の2行目を書いてもらったケースを見てみましょう。詩は「彼はニンジンを見て、それを掴まなければならなかった」で始まります。
私たちの研究では、Claudeは行の始まりを書く前からすでに韻を踏む計画を立てていることがわかりました。Claudeは「ニンジン(a carrot)」と「掴む(grab it)」を見て、ニンジンと意味的に合い、かつ「grab it」と韻を踏む単語として「ウサギ(rabbit)」を思いつきます。そして残りの行を書きます。「彼の空腹さは飢えたウサギのようだった」。
モデルが「ウサギ」という単語について考えていた場所を見ると、詩をどう展開させるかについて他のアイデアも浮かんでいたことがわかります。また、そこには「習慣(habit)」という単語も存在していました。私たちの新しい手法によって、この回路に介入することができます。この場合、モデルが詩の2行目を計画している際に「ウサギ」の影響を弱め、そしてClaudeに行を再度完成させるよう依頼しました。
「彼の空腹さは強力な習慣だった」。モデルが新しい詩の始まりを受け取り、それをどのように完成させるかについてさまざまな方法を考え、それらの完成形に向けて書いていくことができるとわかりました。最終行が書かれるかなり前にこれらの変化を引き起こすことができるという事実は、モデルが事前に計画を立てているという強力な証拠です。
この詩の計画に関する結果と、私たちの論文に記載されている他の多くの例は、モデルが実際に自分なりの方法で発言内容について考えている世界でのみ意味をなします。神経科学が病気の治療や人々の健康増進に役立つように、私たちの長期的な計画は、AIに対するこのより深い理解を活用して、モデルをより安全で信頼性の高いものにすることです。
もしモデルの心を読み取ることができれば、それが私たちの意図したとおりに機能していることをより確信できるでしょう。Claudeの内部思考についてのさらに多くの例は、anthropic.com/researchにある私たちの新しい論文で見ることができます。


コメント