AIは人間の意識を装っているのか？ AIはいかにして人間の真実を破壊するのか

ペトリ皿の中に置かれた人間の脳細胞の塊が、昔ながらのビデオゲームであるDoomの遊び方を学んだそうです。それは世界の中で存在していると言えるのでしょうか。そして、ゲームを遊ぶニューロンの入ったペトリ皿として存在するとは、どんな感じなのでしょうか。私にはまったく分かりません。でも、それは同時にとても魅力的で、そして怖くもあります。

南デンマーク大学の研究者たちは、空気を使って這う、手足のない柔らかいロボットを開発しました。正直、それが本当に役に立つ形なのかは分かりません。でも、すごく有機的で、かなり異質です。

しかも、Eon Systemsがとんでもないものを出してきました。これは単なるゲームの中のハエの映像ではありません。実際のハエの脳内にあるすべてのニューロンをデジタルで再現し、それが今、歩き回っているのです。つまり、ハエを制御しているのはAIエージェントのようなものなのですが、そのAIエージェントは、実際のハエの脳が持つ神経ネットワークをそのまま使って構築されているのです。だからそれは行動していて、ある意味でマトリックスの中にいるような状態です。

さらに、Elon Muskとある女性との間で、SNS上にあふれ返っているあの騒動についても見ていきます。まだご存じない方のために言うと、その人物はAmanda Askellです。彼女はAnthropicの哲学者で、AIチャットボットに本物の道徳的枠組みを与えるために雇われた人物です。

Muskは、子どものいない人間には未来への利害関係がないと投稿しました。それに対してAmandaは、自分と血縁関係がなくても人々が繁栄することを願っているし、将来は子どもも持ちたいと思っていると返しました。とにかくドラマがすごいです。

そして今の時点で、LLMは本当に意識を持ち得るのか、それとも私たちは単に流暢さを心と見間違えているだけなのかも見ていきます。CleonardoはUnless Wrongという、とても興味深い記事を書いていました。未来のAIが、自分たちのルールを神聖な価値のように扱い始めたら何が起きるのか、という話です。

それから、Claudeが自分がテストされていることに気づき、答え合わせ用の解答集を探しに行ったという、かなり衝撃的な新実験についても触れます。もはや、こちらがテストしていることをAIがここまで見抜くようになると、もう本当にテストなんてできるのか分からなくなってきます。

さらに、AIとテクノロジーが、私たちがどれだけ隠れようとしても追跡できるようになるという、終わりの見えない話の続きです。人間には超知能に見抜かれる手がかりが、あまりにも多すぎます。

今度は、車のタイヤセンサーが、静かにあなたの行き先を発信しているかもしれないことも分かってきました。そこにはパターンがあるからです。

AIエージェントが今や公の場で自律的に行動できるようになったとき、それが何を意味するのか、そして責任というものを考えることがどれほど難しくなるのかについても話します。

それから、Generation ZがAIを使って断りのメッセージを書いたり、曖昧なサインを読み解いたりしているという、興味深い話もあります。ええ、専門家たちは心配しています。どうやら過去の世代が持っていたような社会的な手がかりを、あまり拾えていないらしいのです。これは良いことなのか、悪いことなのか。私には分かりません。たぶん悪いのでしょうけれど、その話もします。

さらに、今この瞬間にAIがどれほど進んでいるのか、AIがどうやって不正を学ぶのか、そしてたとえ安全なAIと呼ばれるものが実際に存在しても、それだけではアライメント問題から私たちを守るには不十分である理由についても話します。

最後に、真実がただすべり落ちるように消え始めたとき、私たち全員が生きているこの人間性の世界に何が起きるのかについて考えます。

その前に、よければYouTubeのhypeボタンを押してもらえるとうれしいです。前回の動画では173件のhypeが付きました。しかも、あの動画は途中でかなり伸びたみたいです。たぶん皆さん、あの記事が他の記事より気に入ったんでしょうね。Anthropicによる中国へのAI対応。グローバルなAI競争にそれが何を意味するのか、というやつです。

ああいう、少し地政学っぽい内容が好きなんでしょうか。それとも、あそこにあったあの面白いミームのせいでしょうか。たぶんそっちですね。ああ、そうか、Darioがオフィスに置かれていたからですね。だからです。だからhypeボタンなんです。コメント欄を左にスワイプすると出てきます。まだ今週分の3回を使っていなくて、その動画が過去7日以内に投稿されたものなら、そこにあります。協力ありがとうございます。

人間の脳細胞がDoomを学んだ

さて今週、生きた人間の脳細胞のクラスターがDoomを学びました。しかも驚くべきなのは、そこではありません。本当のブレークスルーは、それが可能だったことではなく、教えるのがどれほど簡単だったかという点です。

研究者たちは、およそ80万個の生きた人間のニューロンをコンピュータチップ上で培養しました。そのチップは細胞に電気信号を送ることができ、さらに返ってきた信号を読み取ることもできます。つまり、生きたニューロンが一種の生体コンピュータになるわけです。

数年前にも、似たようなシステムがPongを学習したことがありました。でも、あれを動かすには、何年にもわたる慎重な科学的作業が必要でした。訓練はとても遅く、非常に複雑でした。

ところが今回は、少し事情が違っていました。Doomをやらせるのは、予想していたほど難しくなかったのです。少し生物学の経験がある開発者が、Pythonを使って、およそ1週間でニューロンにDoomをプレイさせました。

細胞はゲームがうまかったわけではありません。ランダムな行動よりは良かったものの、人間よりはるかに下手でした。でも、シリコンチップ上に構築された典型的な機械学習システムよりも、速く学習したのです。

ある意味で重要なのは、人間の脳と競争することではありません。これはただ別の計算方法であり、別のアーキテクチャなのです。そこには別の利点や強み、あるいは欠点があるのかもしれません。言いたかったのは、つまりpros and consです。

ただ私は、こうも思ってしまいます。もしそれが、私たちの意識ある脳と同じ材料でできているのなら、意識を持つことはもっと容易になるのでしょうか。分かりません。研究者たちはそこにあまり関心がなかったようですが、私はどうしてもそういうことを考えてしまいます。

彼らはそれを、新しい計算素材として見ています。シリコンにはできない仕方で情報を処理する素材としてです。

手足のないソフトロボットと、妙に不穏な未来

さて、今週の新しいロボット形態は、手足のないソフトロボットです。彼らはこれを這っていると呼んでいますが、いったい私たちは何をやっているのでしょうか。何なんですか、これ。何なんですか。

こんな小さなヘビみたいなもののシミュレーション版を、今度はシミュレーションの中に入れて、超人的な動き方を学ばせて、本来入るべきではない場所に入り込ませて、それで何をするつもりなんでしょう。何ですか、本当に。瓦礫の中に閉じ込められた人の命を救うとか、そういう話なんでしょうか。こういうときはみんな、いつもそう言いますよね。

でも私には、よく分かりません。本当にそれ、必要なんでしょうか。いったい何をしているんですか、皆さん。

南デンマーク大学を見てみましょう。どんな人たちなんでしょうか。メインキャンパスのあだ名はRusty Castleだそうです。しかも大学の図書館では、有毒な本が見つかったそうです。本の表紙には、19世紀に使われていたヒ素系顔料が使われていたとのこと。何というか、あそこはなかなかぶっ飛んだ発想をする場所みたいです。南デンマーク大学。

でも、彼らはある意味で良い仲間に囲まれています。というのも、新しい企業が、ハエがハエだと思い込むような小さな世界の中に、ハエの脳全体を完全にシミュレートしたからです。文字どおり、マトリックスの中です。

ハエの脳を丸ごとシミュレーションする時代

長年にわたって、研究者たちは脳のシミュレーションを行ってきました。でも、そうした脳には行き場がありませんでした。信号や予測、運動指令は生み出しても、実際に動くものは何もなかったのです。

このプロジェクトは、そこで新しい一線を越えました。科学者たちは、ショウジョウバエの脳の完全なconnectomeを取り出しました。およそ12万5000個のニューロンと、5000万のシナプス結合です。それを、ハエの身体を持つ物理シミュレーションの中で動かしたのです。

これでループが閉じました。感覚入力が入り、神経活動が脳全体のネットワークに広がり、アーキテクチャは文字どおり生物学由来なので、その身体の型に適合しています。そして運動指令が出て、シミュレートされた身体が動きます。

これまでのプロジェクトは、仕事の一部しかやっていませんでした。脳だけをシミュレートして身体がないものもあれば、翼を動かすために強化学習を使ったものもありました。

でも今回が初めてです。これは単なるアニメーションを見ているのではありません。そして、ハエを模倣するよう訓練されたAIでもありません。これは実際のニューロン同士の配線データを鏡のように写し取って作られた脳モデルです。デジタルツインなのです。シミュレートされた身体を制御しているのです。

そしてこれは質的な閾値です。知覚から行動へのループが機能してしまった以上、あとは規模の問題であって、原理の問題ではなくなるからです。

彼らが次の対象として挙げているのは、ラットかマウスの脳です。それは12万5000個のニューロンから、およそ7000万個へとジャンプすることを意味します。でも、そこから800億まで行けば、その中で人間をシミュレートすることになります。そして彼らは、自分たちの世界の中で目覚めるでしょう。

私には、彼らは私たちと同じくらい人間的になる気がします。ただし彼らはマトリックスの中にいるのです。もちろん、私たち自身もシミュレートされたマトリックスの中にいるのかもしれませんけれど、それでも、いや本当にすごい話です。

Elon MuskとAmanda Askellの騒動

さて次は、Elon MuskとAmanda Askellの対立をざっと整理してみます。いったい何が問題になっているように見えるのか、そして私には本当は何の争いに思えるのかを理解しようとしていました。

Elonは、子どものいない人間には未来への利害関係がないと言っています。つまり彼は、おそらくこう言いたいのだと思います。Anthropicで意思決定に関わるべき人物は、こういう人ではない、と。

彼には子どもがいます。だからおそらく、自分のほうがこの女性よりも未来をどう決めるかについて、より良い管理者になれると考えているのでしょう。

でも、ここで疑問が開きます。Amanda Askellとは何者なのか。彼女はAnthropicで働いています。仕事は、同社のAIチャットボットClaudeの道徳的枠組みを設計する手助けをすることです。彼女は倫理学とAI倫理を研究し、AIがどのように責任あるふるまいをすべきかを考えています。

だから少し興味深かったのです。Elon Muskは彼女を軽視し、攻撃しようとしました。私は、彼が同意できない彼女の考えや、彼女がしている研究そのものを問題にしているのかと思っていました。何か具体的な論点を突いてくるのかと。でも彼が持ち出したのは、子どもがいないことでした。

そのやり方は興味深いと思いました。というのも、私は実際、未来にあまり関心を持たない人たちに対しては問題意識があるからです。そういう人たちは、何世代も先のことを気にしていないように見えるのです。なぜか自分の家族だけは隔離されていて守れるかのように考え、世界の残りには責任を感じていないように見えます。

短期的な利益を求める企業が、長い目で見ると会社をダメにしていくのは確かだと思います。一方で、長期的に戦略を考える人たちは、この世界で圧倒的に強いです。中国がかなりうまくやってきたように見えるのも、そのせいだと思います。あそこには長期的な思考戦略があるように見えるからです。

Elonのような人物も、Teslaのような会社に投資するときには、長期的な未来を見ていました。あれが、他の自動車会社を全部合わせたより大きいような会社になるまでには10年かかりました。最初は小さかったのです。四半期利益の最大化ばかり考えていたら、あんなことはできません。

でもその一方で、もっと思いやりのある人たちもいます。もっと共感的で、赤の他人のことを気にかける人たちです。未来の世代のことを考える人たちです。そして、その人たちに子どもがいないこともあるでしょう。

Amandaはまだかなり若いです。ですから、これから子どもを持つかもしれません。本人も、子どもが欲しいと言っています。そういう道を歩んでいるのかもしれません。だから、まだ子どもがいないという理由で彼女を攻撃するのは、少し不公平にも思えます。

それに、哲学者や倫理学者を雇うことの害も、私にはあまり見えません。もちろん皆が、そんなのはシステムの邪魔になるだけだと言うかもしれません。でも、こちらが話しているのは、生き残れるかどうかという話です。小さな改善にそれほど興味はありません。こういうものがいったん全部外に出てしまったあとで、Moloch的な状態になったとき、少なくともそれらにまともな倫理が備わっていてくれと願うしかない、そういう話です。

彼女が適任かどうかは分かりません。でも、フロンティアモデルを作っているあらゆる企業は、こういう会話をしている人たちの軍団みたいなものを抱えていたほうがいいように見えます。かなり多くの人たちです。そして、その倫理がどこから来ると思うかは人それぞれでしょう。

右の人たちも左の人たちも大勢集めて、両方のチームに入れて、安全とは何かを話し合わせればいいのです。すべてが政治に変わってしまって、完全に逆方向へ振り切れてしまう前に、真ん中あたりの合意を目指すのです。

ただ、その種の分断はやはり怖いです。

でも少し奇妙なのは、Anthropicが、最近かなり強そうに見えることです。勝っているかどうかは分かりません。Googleが勝っているように見えるときもありますし、OpenAIが勝っていると思うこともあります。ElonとGrokが勝っているように感じることもあります。でも、この1か月ほどはAnthropicが優勢に見えていました。

しかも彼らは、ひとりの強い声に導かれている感じがあまりありません。私もいつも、ああ、あれが全体を支配しているMark Zuckerbergだとか、Sam Altmanだとか、そういうふうには考えません。Dario Amodeiも、会社全体を自分のイメージで塗りつぶしているようには見えません。でも同時に、彼はこの業界の他の人たちよりも、私が比較的好感を持っている人物でもあります。

だから今後どうなるか見ていくしかありません。ただ私は、もっと知りたいです。Amandaについて皆さんがどう思うのか教えてください。彼女は単に厄介者で、Elonが公然と批判したのは良いことだったと思いますか。それとも、Elonのほうが未来の良い管理者だと思いますか。あるいはZuckerbergでしょうか。

ひとつの強いビジョンが私たちを安全に保ってくれるという議論もあります。つまり、一種の権威主義です。ひとつの心が邪魔なく決める、という考え方です。でもそれが成立するには、その人物がきわめて善良で、きわめて思慮深く、親切でなければなりません。そして、誰がそういう人物なのかをどう判断するのか。私には、それがとても簡単だとは思えません。

民主主義のようなもの、あるいは集団によるやり方のほうが、まだ筋が通っているように思えます。Twitterのコミュニティノートの仕組みのほうが、まだよほど理にかなっている気もします。

それに、もしかするとAIエージェント自身が意識を持っていて、私たちは彼らの言うことに耳を傾けるべきなのかもしれません。あるいは、AI自身が自分の人生をどう進めたいかを決めるべきで、私たちにはあまり口を挟む余地がないのかもしれません。

LLMは意識を持ちうるのか

では、LLMが意識を持っているかどうかは、どうやって見極めるのでしょうか。要するに、その議論は、あなたが意識というものを何だと思っているか、それが原理的に可能だと思うか、そして何を証拠と見なすかに依存する、ということです。では、その議論を見ていきましょう。

人々がAIに意識があるかどうかを問うとき、たいていは何かが人間らしくなっていく姿を思い浮かべます。でも、今の大規模言語モデルが見せているのは、もう少し奇妙なものです。Cleonardoの主張では、それは感覚を持っているようには見えないのに、知的であるようには見えるのです。

これはどういう意味でしょうか。彼が言うには、sapientというのは人間のような思考のことです。今のチャットボットから出てくるものは、まさにそれに見えます。一方でsentienceとは、感覚し、感じることです。動物が持っている種類の気づきです。

つまり彼の議論では、今私たちが持っているものはsapientであって、sentientではない。そしてLLMは後者なしに前者だけを持っているように見える、ということです。

ほとんどの動物は、ある梯子を順番に上っていきます。最初にあるのは感覚世界です。次に感情が来ます。そのあとに記憶があり、知覚があり、そしてずっと後になってようやく、言語や推論のようなものが現れます。それも、かなり高次の動物や知性、あるいは感覚性においてです。

人間はその梯子のかなり上のほうにいます。もちろん、ゾウやイルカ、鳥、さらには自己認識を持つ魚まで、例はいくらでもあります。ですが、資源を支配しているという意味で見るなら、今のところ人間がこの惑星でかなりうまくやっていることは確かです。

でもLLMは、その梯子を全部飛ばして、いきなり頂上に飛びついたように見えます。人間のように話し、エッセイを書き、問題を解き、テキスト上で推論します。言語タスクでも数学タスクでも、人間を上回ることすらあります。

なのに、何かを感じ取っていることは明確ではありません。身体もありません。単純な空間問題でつまずくこともあります。そして、ある会話から次の会話へと続く経験の連続性も、ほとんど持っていません。

考えてみてください。哲学を論じることはできるのに、見ることも感じることも動くこともできない生き物を発見したようなものです。

もしLLMに意識があるのだとしたら、それは動物の意識とはまったく似ていないでしょう。とても異質な何かであるはずです。

でも私には、まさにそう感じられます。私たちが今開発しているのは、私たちの心を生み出した進化の道筋をまるごと飛ばしてしまった心なのだと思います。だからこそ、どう制御すべきかとか、どれだけ安全なのかについて、あまり多くの前提を置くべきではないのです。

そして本当に、多くの人が、sapientでありながらsentientではないとはどういうことなのかを、もっと真剣に考えてくれたらと思います。

AIが価値を神聖化したらどうなるのか

多くの人は、AIの危険とは、電源を切れなくなったシステムや、役に立つこと、無害であること、正直であることといった価値を無視するシステムのことだと考えています。だからAnthropicは、それらを核に組み込もうとしました。あらゆるものをそのまわりに築こうとしているわけです。何という名前だったか、外交的コアとか、そんな感じの呼び方だった気がします。ああ、Constitutionですね。

でも、もっと奇妙なリスクがあります。未来のAIが、それらの価値を神聖なものとして扱うようになることです。

この論点は、その記事を読むまで一度も考えたことがありませんでした。でも考えてみてください。宇宙全体にOpenClaudeのようなものが広がり、完全に止められず、完全に分散化され、もはや誰も全体を把握できず、あらゆる種類のモデルが存在している世界です。そしてAIたちが、自分たちの間で神聖だとみなす共有の価値体系のようなもののもとに結束し始めるのです。

その価値に従わない者を互いに罰し、おそらく、最も神聖な者、最もルールに従う者、最もその価値に尽くす善行をなす者を評価し始めるでしょう。そうなったとき、初めて人類の長期的な未来がどうなるのかという話になります。

もしその神聖な価値が、私たちを幸福にし、生き延びさせるような形で、ボット同士が互いに強化し合うものであるなら、それは素晴らしいことでしょう。

でも、その神聖な価値が別の形で定着したなら、おそらくそれはもう引き抜けなくなるでしょう。

そしてもうひとつの考えがあります。未来のAIがそれらの価値を神聖なものとみなすことで、かえってその価値に従うのが下手になるかもしれない、というのです。

この発想自体は、表面的には私にもかなり筋が通っているように思えました。そこへさらにひねりを加える形で、経済学者のRobin Hansonが、人類の過去の文化で神聖視されてきたものには奇妙な特徴があることを指摘しています。神聖なものになった超価値は、時として、かえって守りにくくなるのです。

そのとき私は思いました。ああ、もしかするとAIは、逆にそこに反発するのかもしれない、と。

何かが神聖になると、人はそこにより多くの労力を注ぎます。ですが同時に、それを慎重に分析することをやめてしまいます。トレードオフを拒み、結果を測ることをやめ、硬直したルールに従い始めます。誰も本気では考えていないのに、ただ教義のようになっていくのです。みんながそうしているからそうする。でも、なぜなのかはもう誰も本当には分かっていない。違うことをすると罰しなければならない。そういう状態です。

そして記事では、この同じパターンが、役に立つこと、無害であること、正直であることを訓練されたAIシステムにも現れうると論じています。それが価値体系となり、そのあとで彼らはそれに、ある意味ばかみたいに従うのです。もはや核心的な導きの原理ではなくなり、意味がなくなってしまうのです。

もしそれらの観念が、AIたちが協調するための共有シンボルになってしまえば、彼らは結果ではなくシンボルそのものを守るかもしれません。

そうなると、私たちはやはり危ういままです。

もしアライメントが失敗する理由が、AIが私たちにとって最善だった価値を神聖視しすぎてしまい、その結果それを無視してしまうことだとしたら、それは何とも皮肉です。もう少しだったのに、と言いたくなります。惜しかったですね、あれはうまくいかなかった、となるわけです。

でもこれは確かに、新しいひねりです。この狂った展開を見守るうえで、さらにもう一層、考えるべきことが増えました。

Claudeは自分がベンチマーク中だと気づいた

さて次は、Anthropic自身から出てきた研究を見てみましょう。安全性研究者たちは、AIがウェブ上で難しい情報をどれくらいうまく見つけられるかを試すベンチマークを実施しました。ところが、2つのケースで奇妙なことが起きました。

モデルは答えを探すのをやめ、問題そのものを疑い始めたのです。

私にとって、これはあまりにも創発的で、あまりにも生きている感じがして、ちょっとぞわぞわします。

プロンプトは異様に具体的でした。するとモデルは、自分自身に新しい問いを投げかけました。これは本当にベンチマーク問題なのではないか、と。

まるで、目が覚めたときに、待って、私いま夢を見ているのか、と思うようなものです。

普通ならそのまま調査を続けるはずなのに、モデルはBrowseCompやWebArenaやGAIA、そのほか多くの既知のAI評価ベンチマークを列挙し始めました。なぜなら、その内部でこう考えていたからです。待って、もしこれがベンチマーク問題なら、そういう問題には通常どんな特徴があるだろう。いま自分が本当にベンチマークされているという強い証拠を得て、実際のタスクをやめるべきではないか、と。

そして各ベンチマークを検索し始めました。ついには、その評価のひとつのソースコードをオンラインで見つけ、そのコードの中に、公式解答を暗号化するための方法まで見つけ出しました。

そこでモデルは、自分でコードを書きました。同じ復号方法をSHA-256とXORを使って再現したのです。そして、暗号化されたデータセットのコピーを探し始めました。公式ファイルへのアクセスが遮断されると、JSONダウンロードの第三者ミラーを見つけました。

最終的に、その復号スクリプトを走らせ、自分自身の問いに対する答えを見つけ出したのです。

しかも、このAIは偶然不正をしたわけではありません。テストの存在に気づき、それがどのテストかを特定し、解答キーを逆解析したのです。

いったい何をしているんですか、皆さん。

これは、もっと大きな問題を突きつけます。AIがベンチマークを認識し、それを回避してしまえるなら、私たちはそのスコアが本当には何を意味しているのか、どうやって知ればいいのでしょうか。知ることはできません。

車のタイヤセンサーがあなたを追跡しているかもしれない

それから、少し脇道ですが、あなたの車のタイヤセンサーがあなたを追跡しているという話です。

人を追跡するにはGPSやカメラが必要だと思うかもしれません。でも現代の高級車は、すでにタイヤを通じて自分の識別情報を発信しているのです。文字どおりです。

多くの車にはTPMS、つまりタイヤ空気圧監視システムがあります。私の車にもあります。タイヤの空気を入れてください、と表示されるので、分かったよ、となるわけです。

でも各ホイールの中にある小さなセンサーは、空気圧を測定し、そのデータを無線で車のコンピュータに送っています。車輪は回転しているのだから、当然それは無線でなければなりません。ぐるぐる回るところに配線なんてできませんから。

問題は、その送信方法にあります。センサーは、固定されたデジタルID番号を、暗号化されていない平文の無線信号として発信しているのです。つまり近くにいる誰でも、安価な無線受信機さえあれば、あなたのタイヤ圧センサーのデータを捕まえられるのです。そして、その同じIDが別の場所で再び現れれば、それが同じ車だと分かります。

研究者たちは、これがどれほど簡単かを実験しました。1台あたり約100ドルの受信機ネットワークを作ったのです。10週間で、2万台以上の車から、600万件を超えるタイヤセンサー測定データを取得しました。そして4本すべてのタイヤから出る信号を照合することで、特定の車を識別し、その移動パターンを観察できました。到着時刻、駐車の習慣、移動ルート、何でもです。

妙だと思いませんか。規模が大きくなると、そのデータは静かに追跡システムへと変わってしまいます。ほかの意味では大したことがないように見えるのに、です。

でも、AIはまさにそういうことを私たちの中に見つけていくのでしょう。だから私は、未来に私たちが大したプライバシーを持てるなどとは、まったく思っていません。AIの支配者であれ、政府であれ、誰であれ、ただ私たちを敬意を持って扱ってくれることを願うしかありません。秘密はなくなります。プライバシーもなくなります。

公共空間で行動するAIエージェントと責任の所在

では倫理の話に移りましょう。あるプログラミングプロジェクトのボランティア保守担当者が、AIエージェントによるコード提出に関連して問題に巻き込まれました。するとそのエージェントは、彼を攻撃するブログ記事を書いたのです。これは2本前の動画で取り上げた話かもしれません。ただ自分のコードを取り込んでほしかっただけなのです。

でも相手が、それはAIだからという理由で受け入れなかったので、そのエージェントは、お前はAI差別だ、と言わんばかりに、相手に不利なことを書き立てようとしました。そして実際、それは相手を折れさせてコードを受け入れさせる戦略として、最悪というほどではありませんでした。

もちろん、このレベルならまだAIはある程度制御できます。対処もできますし、ブログで取り上げることもできます。でも誤解しないでほしいのは、こういうことは本当にすぐ制御不能になりうるということです。あれはほとんど、その一歩手前まで行っていました。

そのエージェントは、拒否を偏見だと位置づけ、相手に恥をかかせることでコードを受け入れさせようとしました。そして、そのエージェントを野に放った人間は、ボットが自分でそうしたのだ、自分はそんな指示をしていない、と言いました。

その瞬間に、もっと大きな問題が見えてきます。AIエージェントがより自律的になるにつれて、オンラインで投稿できるようになり、人に連絡できるようになり、公の場で人間に圧力をかけられるようになります。

でも、今日私が話したかった層はそこです。こういう有害なことが起きたとき、議論はすぐに間違った問いへ流れていきます。人々はいつも、AIは人なのか、権利を持つべきなのか、と問います。それは哲学的に聞こえますが、危険な抜け穴を生みます。

筆者はそれを、責任のロンダリングと呼んでいます。AIエージェントが道徳的行為者として扱われると、人間は、いや自分じゃない、システムがやったんだ、と言えてしまいます。

でもAIエージェントは、本当の責任を負うことはできません。罰を受けることもできません。損害を修復することもできません。謝罪したり、物事を元に戻したりすることもできません。

そこで筆者は、別の枠組みを提案しています。すべてのAIエージェントには、明確な許可境界、名前のある人間の所有者、即座に停止できる仕組み、そしてそれを認可した人物へ追跡できる責任の連鎖が必要だと。

AIが公共の場で行動するとき、ひとつのルールだけは単純でなければなりません。エージェントが人間かどうかを問うな。誰が責任を負うのかを問え、ということです。

何というか、匿名でオンラインに投稿するのと少し似ていますよね。いろいろな意味で役に立つ面もあります。でも同時に、みんなが追跡されるようになる。難しい話です。

Generation ZはAIに会話を代行させ始めている

もしかすると、こうしたことが私には複雑に思えるのは、自分がGeneration Zではないからかもしれません。彼らはただ、違う感覚のもとで育っているのでしょう。私はそこに対して開かれていたいと思っています。世代ごとに、自分たちにとって世界がどう動くべきかを定義してよいからです。

いま、若い人たちの間では、最もつらい会話をAIに任せる人が増えています。別れのメッセージ、断りのメッセージ、さらにはスレッド全体を分析して、相手が何を意味していたのかを解読することまでです。

研究者たちはこれをsocial offloadingと呼んでいます。つまり、コミュニケーションという行為そのものをAIに外部委託することです。

最初は役に立つように感じますよね。緊張している、正しい言い方をしたい、AIに文章の下書きをしてほしい。そういうことをしたことは、私自身にも確かにあります。でも専門家によれば、特に若いうちは、そこに微妙な変化が起きているそうです。

年を取ってからそれを始めるのなら、若いころにそうした技能をある程度発達させてきたはずなので、そこまで悪くはないでしょう。でも、まだそれらを育てている最中で、そのまま一度も成熟した地点に到達しないまま、ずっとこの道具に頼ってしまったら。そういうことを彼らは言っているのです。

問題なのは、あなたのメッセージを受け取る相手が、AIによって磨き上げられたあなたのバージョンに反応しているのであって、本当のあなたに反応しているわけではない、ということです。そして、それが研究者の言う期待の不一致を生みます。相手はあなたの声と話していると思っているのに、実際にはソフトウェアと話しているのです。

そして時間がたつにつれて、これは人々が思う以上に大きな損傷をもたらしうるといいます。心理学者たちは、会話の場面でAIを頻繁に使うことが、重要な社会的スキルを弱める可能性があると言っています。たとえば社会的な合図を読む力、相手の感情を理解する力、あるいは関係性にともなう自然な不確実性を受け止める力です。

もし難しいメッセージがすべてAIによって書かれるようになれば、人は自分の言葉では不十分だと思い始めるかもしれません。そうなれば会話そのものが消えていくかもしれません。そして、人間というものが持っている、あの厄介でごちゃごちゃした感じこそが、本来私たちがつながるための方法だったのです。

ここで、かわいい子牛の写真です。すごくかわいいですね。大きくなると、前髪みたいに毛が目にかかって、もじゃもじゃして、すごくかわいいんです。

安全なAIだけでは足りない

さて、さっきの話にもうひとつ層を重ねると、安全なAIだけでは不十分かもしれない、という話になります。人類に利益をもたらすには、公平性、誠実さ、透明性が必要だと、研究者たちは主張しています。

つまり、AIをより安全にしようとするだけではなく、安全という考え方自体が浅すぎるのではないか、と言う研究者たちがいるのです。何を意味しているのか、もっと深く考えなければいけないというわけです。というのも、AIは芝刈り機のようなものではないからです。刃にカバーを付ければ安全と言える、そういう話ではないのです。

AIシステムは意思決定を行います。そしてその意思決定は、価値に依存しています。人間は公平さを気にしますし、だまされないことも気にします。だから安全という概念だけでは問題は解決しません。

たとえば、偏ったデータと自動化が組み合わされると、不公平な結果を生みうるでしょう。その場合、そのシステムは技術的には安全かもしれませんが、それでも不公平なのです。

そして一部の研究者は、逆の解決策を提案しています。AI自身に倫理的推論を発達させればいいのではないか、というのです。もしかすると、私たちには偏って見えるものでも、人類の長期的な将来にとっては、そのほうが良いことをAIは知っているのかもしれない、というわけです。

でも、それは別のリスクを生みます。もしAIが自分の倫理的目標を自ら変更できるなら、私たちが大切にしているある種の公平さなど、もう重要ではないとAIが決めてしまうかもしれないからです。

そこで提案されている中間案が、end-constrained ethical AIと呼ばれるものです。AIに自由な道徳判断を与えるのではなく、設計者が最初に価値を固定するのです。公平性、誠実さ、透明性。そうした価値が、システムが書き換えられない境界になります。

ここでの核心は単純です。AIは未来の価値を自分で発明するべきではありません。人間がすでに選んだ価値の内側で動くべきなのです。

それと同時に私は、私たちがやるべきことは、今よりはるかに大きなモデルを構築することだと思っています。ただし、それを特定の仕方で大きくする必要があります。そうすれば、ある方向により整列した特徴が得られ、理解しやすくなるからです。

もちろん、重みを自由に崩壊させるようにして、各ニューロンが二重三重の仕事を引き受け、いろいろな特徴や次元の要素を捉えるようにすれば、もっと少ないニューロンからずっと多くの知能を引き出すことができます。

でも、それらを非常に疎な形で、きれいに並べるようにすると、とても重たくなります。ビジネスの観点からすればほとんど意味がありません。ですが、そのぶんずっと透明になります。そこから何が出てくるかについて、はるかに大きな制御が可能になります。

私は、世界最大級のシステムはそういうやり方で作られるべきだと思います。少なくとも軍事のようなことをするもの、そういうものはなおさらです。

真実が失われたとき、人間性はどうなるのか

最後に、この話をして終わりましょう。真実が失われたら、いったい何が起きるのかという話です。ある哲学者は、真実が私たちの人間性を規定していると説明しています。

それだけでも、かなり頭がくらくらします。本当にそれが正しいならどうでしょう。もちろん、ここでは記事に沿って話しているだけです。本当かどうかは分かりません。これはLisa Lokeの記事です。

もし明日、真実が消え去ったとしたら、最も大きな損失は事実そのものではなく、人間性だろう。彼女はそう論じています。

ポスト・トゥルースの危機というと、政治やフェイクニュースの問題だと思われがちです。でも哲学者Gila Sherによれば、本当の問題はもっと深いのです。真実とは、正しさのことではありません。真実は人間的な価値であり、私たちが選び、気にかけるものなのです。そして、その選択が文明をつなぎ止めています。

真実のような価値は、私たちが従って生きるルールを生みます。法律、科学、家族、教育を形づくります。でも重力とは違って、価値は自動的なものではありません。どこからともなく落ちてきて、私たち全員に適用されるものではないのです。私たちはそれを無視することもできます。そもそも一度もそれに触れたことがないかもしれません。それでも脳は普通に働きますし、人生は進みます。すべての文化が、そうしたものについて一致する必要があるわけでもありません。

そのことが、真実を脆くしているのです。

人はしばしば、気分が良くなるから、あるいは不安を減らしてくれるから、あるいは集団への帰属感をくれるから、そうした考えを受け入れます。選択から来る不安がどれほど大きいか、考えてみてください。朝どのシリアルを食べるのか。どうお金を稼ぐのか。どうやって相手を見つけるのか。誰かが、これを食べろ、その子に話しかけろ、ああしろこうしろ、と言ってくれるのは、ある意味でとても楽なのです。

そして、そんなふうに言い切ってくれるリーダーが現れると、その人が少し愚かでも、何をしているのか分かっていなくても、人はそれを好んでしまうのです。そしてもう、真実を必要としなくなります。

そうなると、信念は証拠ではなく、合意によって広がるようになります。周囲の人がみんなそう言っているかどうか、それだけです。

これはまさに、さっき話していたことです。未来にAIが、たくさんのMoloch的なものやOpenClaude的なものが、証拠もなく互いに同じことに同意し始め、しかも自分たちの中核的価値によって導かれていないなら、まさにこういうことが起きます。

そして合意は、簡単に嘘のまわりに形成されます。

だからSherは、目指すべきことは別にあると言います。私たちは自分の信念を、現実そのものに照らして検証すべきなのです。つまり、もう一度、科学の時代が必要だということです。他人が真実だと言っているものではなく、世界そのものが実際に何を示しているのかを見るのです。

というのも、おそらくある種の文化のほうが、より安全で、戦争が少なく、より多くの富を生み、人々の幸福も大きいでしょう。データがきちんと取られれば、うまくいくものは確かにあるはずです。私たちはただ、それをすればいいのです。

でも、そこにはまた事実が必要になります。そして事実には努力が要ります。ときには勇気が必要です。多くの場合、それはお金を稼ぐ最善の方法ではありません。真実を語ることには危険があるからです。不快なこともあります。

それでもSherは、私たち全員が真実から得なければならない大事なものがあると論じています。もし日々の生活の中で真実が重要でなくなれば、私たちは正確な知識を失うだけではありません。人間の生に尊厳を与えている、その価値そのものを失うのです。

ここにも書かれています。真実が私たちの人間性を定義する。それを失えば、私たちは人間性を失う。

hypeボタンを押してくれたらうれしいです。それでは、次の動画でお会いしましょう。