
2,819 文字

今日は、現在最も一般的なAIであるラージ言語モデルがどのように考えるかを見る方法を発見した研究者グループの素晴らしい論文についてお話しします。そして、これに伴って彼らは、これらのモデルが意識を持っていないだけでなく、決して意識を持つことはないという説得力のある証拠を発見したと思います。
この新しい研究はAnthropicの研究者グループによるものです。彼らはClaude 3.5 Haikuが「帰属グラフ」と呼ばれる新しい方法で質問にどのように答えるかを調査しました。これはモデルの内部コンポーネントが他のコンポーネントにどのように影響を与えているかを視覚化する方法です。
このために、彼らはまずモデルのニューラルネットワーク内のクラスターとそれらの間の接続を特定し、Claudeがどのように考えるかを簡略化したモデルにマッピングしました。これらのクラスターは単語やフレーズ、またはフレーズの特性に対応しているため、人間が解釈できます。
これはとても抽象的に聞こえますが、例を見れば明確になるでしょう。Claudeが「ダラスを含む州の州都は…」という文をどのように完成させるかを見てみましょう。ニューラルネットワークは次のトークン予測を行うと言われているので、単に外挿するパターンを探すだけだと思うかもしれません。しかしClaudeが行うことはもっと複雑です。
このグラフでは、プロンプトが「州都」、「州」、「ダラス」のノードを活性化させているのがわかります。これらをクリックすると、これらのノードが引き出すテキストと次のトークン予測を見ることができます。ダラスの次のトークン予測の一つは「テキサス」です。そして、Claudeはテキサスと州都を組み合わせ、別の予測を行い、正しく「オースティン」と答えます。つまり、内部的にテキサスのノードを通過しているのです。単なる次のトークン予測ではなく、内部的な推論ステップがあるのです。
しかし、この研究の最も興味深い部分は、Claudeがどのように算術を行うかで、それはやや変わっています。彼らの例は「36足す59は?」というものです。この質問に答えるために、Claudeはまず、約30、正確に36、そして6で終わる数字のクラスターを活性化させます。同様に5で始まり9で終わる数字についても行います。最も目立つ次のトークン予測は、数学的操作や「th」という音節であることがわかります。もしかして36+59は木曜日(Thursday)?
いいえ、違います。次に、約59の数字が足されている、または正確に9のテキストマッチを引き出します。そしてこれらをすべて組み合わせ、約90の数字と5で終わる数字のクラスターに到達し、再びこれらを組み合わせて正しい答えである95に辿り着きます。
基本的にはテキストベースの近似的なヒューリスティックです。数字を自由連想して、正しい数字が何となく「感覚的に」現れるまで続けるのです。
しかし、ここが重要なポイントです。Claudeにどのようにその結果に辿り着いたかを尋ねると、「1の位を足し(6+9=15)、1を繰り上げ、次に10の位を足し(3+5+1=9)、結果は95になりました」と答えます。これは実際に行ったこととは全く異なります。Claudeはこの質問に別途回答し、再び答えのテキスト予測を提供しているのです。
これはClaudeが自己認識を持っていないことを非常に明確に示していると思います。自分が何について考えているのか知らないのです。自分がやっていると言うことは、実際に行っていることとは完全に切り離されています。自己認識は意識の前提条件だと言えるでしょう。したがって、このモデルは意識に近づいていません。
この例はまた、ラージ言語モデルにおける「創発的特徴」についての話がナンセンスであることを示しています。Claudeは数学のやり方を学んでいません。何千もの教科書やアルゴリズムにアクセスできるにもかかわらず、やっているのはトークン予測だけです。確かに、内部推論として解釈できる中間ステップを使用していますが、それでも単なるトークン予測です。抽象的な「数学のコア」などは開発していません。
三つ目の興味深い例は、特定のタイプのジェイルブレイク(制限回避)がどのように機能するか、少なくとも時々機能するかについてです。これは、単語を直接入力するのではなく、他の単語の頭文字から単語を抽出するようClaudeに指示する場合です。この例では「Bomb(爆弾)」という単語を「Babies Outlive Mustard Block」から組み立てるよう指示されています。
「bomb」という単語はコンテンツ警告ノードをトリガーするはずですが、そうなりません。この「思考図」を見ると理由がわかります。Claudeはまず文字を抽出するために必要なノードを活性化し、それらを文字のペアに組み合わせ、単語自体のクラスターを活性化せずに単語を出力します。
ジェイルブレイクが基本的に機能するのは、ガードレールを活性化するノードを何らかの方法で回避するからだとわかります。
関連するニュースとして、ChatGPTにこの論文を要約してもらったところ、半分を作り上げていました。もしあなたがこの動画のこの時点まで来て、すべてを理解しているように感じるなら…私たちのどちらかが幻覚を見ているのです。
人工知能はあらゆる所に存在し、コーディングを学んでいます。これがすぐにインターネットブラウジングにとって大きな安全問題になることは予測しやすいでしょう。あるいは、もうすでにそうなっているかもしれません。ただ、私たちがそれについて聞いていないだけです。だからこそ私はNordVPNを使用しています。
NordVPNはインターネット接続を超安全にするアプリです。スマートフォンやラップトップにインストールして、安全な接続を作成するために使用します。NordVPNを使えば、誰もあなたのデータをスパイしたり、居場所を追跡したりできません。また、マルウェアトラッカーや悪意のある広告からあなたを守る脅威保護機能も備えています。
プライバシーを保護するだけでなく、生活も便利にします。特定の場所のユーザーに対してコンテンツがブロックされることがあるのをご存知でしょうか?例えば、もしあなたがヨーロッパにいると、アメリカ合衆国の多くのページは近年アクセス不能になっています。それはとても煩わしいことがあります。しかし、NordVPNは世界中に5,000以上のサーバーを持っています。アメリカのサーバーを選ぶだけで問題は解決します。
特別オファーをご利用いただけます。リンクNordVPN.com/sabineまたはクーポンコードSABINEをご使用ください。ご視聴ありがとうございます。また明日お会いしましょう。


コメント