ダリオ・アモデイ: Anthropic CEOが語るクロード、AGIとAI & 人類の未来 | レックス・フリードマン・ポッドキャスト #452

AIに仕事を奪われたい
この記事は約188分で読めます。

112,507 文字

Dario Amodei: Anthropic CEO on Claude, AGI & the Future of AI & Humanity | Lex Fridman Podcast #452
Dario Amodei is the CEO of Anthropic, the company that created Claude. Amanda Askell is an AI researcher working on Clau...

これまでの曲線を外挿してみると、つまり、私たちはPHDレベルに近づいており、去年は学部生レベル、その前の年は高校生レベルやったと考えると…もちろん、どんなタスクでどの程度かという議論はありますが、コンピューター使用や画像生成などの機能が追加されていってます。これらの能力の向上率を大まかに見てみると、2026年か2027年までには到達すると考えられます。
まだ100年かかる可能性もありますが、そういったシナリオの数は急速に減っています。今後数年以内にこれが実現しない、という本当に説得力のある理由や障壁が急速になくなってきているんです。スケールアップのスピードはめっちゃ速くて、今日私たちがモデルを作ると、それを何千、あるいは何万個のインスタンスとしてデプロイします。2、3年以内には、間違いなく、これらの超強力なAIシステムの有無に関係なく、何百万個のインスタンスをデプロイできるようになるでしょう。
私は楽観的な意味で、つまり、経済と権力の集中を心配してます。それが実際に私が最も懸念していることです。権力の乱用とAIは世界の力を増大させ、その力を集中させて乱用すると、計り知れない損害をもたらす可能性があります。はい、非常に怖いことです、本当に怖いことです。
これからお話しするのは、ダリオ・アモデイとの対話です。彼はAnthropicのCEOで、この会社はクロードを作りました。現在、ほとんどのLLMベンチマークのリーダーボードでトップに位置することが多いです。それに加えて、ダリオとAnthropicのチームは、AI安全性の問題を真剣に受け止めることを強く主張してきており、この分野やその他の分野で多くの興味深いAI研究を発表し続けています。
その後、Anthropicの他の2人の優秀な方々も加わります。まず、アマンダ・アスカルです。彼女はクロードのアライメントと微調整の研究者で、クロードのキャラクターやパーソナリティのデザインにも携わっています。何人かの人が言うには、彼女はAnthropicで誰よりもクロードと多く会話してきた人物だそうです。だから、プロンプトエンジニアリングやクロードを最大限活用するための実践的なアドバイスについて話を聞くのは、とても興味深かったです。
その後、クリスが立ち寄ってくれました。彼は機械的解釈可能性という分野のパイオニアの一人です。これは、ニューラルネットワークを逆行分析して、中で何が起きているのかを解明しようとする取り組みです。ネットワーク内のニューラル活性化パターンから行動を推測するんです。
これは、将来の超知能AIシステムを安全に保つための非常に有望なアプローチです。例えば、モデルが対話している人間を欺こうとしているときを、活性化から検出できるようになります。
これは、レックス・フリードマンのポッドキャストです。サポートをお願いします。詳細は説明欄をご確認ください。
では、ダリオ・アモデイとの対話を始めましょう。
スケーリング法則とスケーリング仮説という大きな考え方から始めましょう。それは何で、その歴史と現状はどうなってますか?
私の経験に基づいて説明できる範囲でお話しさせていただきます。AI分野に携わって約10年になります。2014年の終わり頃、ほぼ正確に10年前ですが、アンドリューとBYUで働き始めたときに初めて気付いたことでした。最初に取り組んだのは音声認識システムで、当時はディープラーニングが新しい技術でした。大きな進歩を遂げていましたが、みんないつも「必要なアルゴリズムがない」と言ってました。「私たちはほんの一部しか達成できていない」「人間の脳に匹敵するためにはアルゴリズム的にまだまだ発見が必要だ」と。
ある意味で幸運だったのは、私が分野の新参者やったことです。初心者の運みたいなもんですね。音声認識に使っていたニューラルネット、再帰型ニューラルネットワークを見て、「もっと大きくして、レイヤーを増やしたらどうなるんやろ?データも一緒にスケールアップしたら?」と考えたんです。これらを独立した調整可能なダイヤルのように見てました。そして、データを増やし、モデルを大きくし、トレーニング時間を長くするほど、モデルの性能が向上することに気付きました。
当時は正確な測定はしてませんでしたが、同僚たちと一緒に、データとコンピューティングリソースとトレーニングを増やすほど、パフォーマンスが向上するという非公式な感触を強く持ちました。
最初は、これは音声認識システムだけの特徴かもしれないと思ってました。たぶんそれは特定の分野における特殊な性質だと。2017年にGPT-1の結果を初めて見るまでは、言語がおそらくこれができる分野だと気付きませんでした。私たちは何兆語もの言語データを集めて、それでトレーニングできるんです。当時トレーニングしていたモデルは小さくて、1〜8個のGPUでトレーニングできました。今では数万個、まもなく数十万個のGPUでジョブを実行するようになりますが。
これら2つのことを目にしたとき…イラサーなど、あなたがインタビューした人たちと似たような見方をしていた人もいました。彼が最初だったかもしれませんが、同じ頃に何人かが似たような見方にたどり着いたと思います。リッチ・サットンの「苦い教訓」があり、グルもスケーリング仮説について書いていました。
でも私にとって、2014年から2017年の間にそれが本当に腑に落ちたんです。モデルをスケールアップさせれば、これらの信じられないほど広範な認知タスクができるようになるという確信を持ちました。
スケーリングの各段階で常に議論があって、最初にそれを聞いたとき、正直に言うと、たぶん私が間違っていて、分野の専門家たちの方が正しいんじゃないかと思ってました。彼らは私よりも状況をよく知っているはずやと。チョムスキーの「統語論は得られても意味論は得られない」という議論があり、「文は意味が通っても段落は意味が通らない」という考えがあり、最新のものでは「データが不足する」とか「データの品質が十分でない」とか「モデルは推論できない」とかいう議論があります。
そして毎回、私たちは何らかの方法を見つけるか、あるいはスケーリングそのものが解決策となってきました。時にはこれ、時にはあれです。今では、次の数年が過去10年のようになるということを帰納的推論以外に示すものはないと思っていますが、この展開を何度も何度も見てきたので、おそらくスケーリングは続くと本当に信じています。そこには、理論的にはまだ説明されていない何かの魔法があるんです。
もちろん、ここでいうスケーリングとは、より大きなネットワーク、より大きなデータ、より大きなコンピューティングリソースのことですね。はい、特に線形的なスケールアップで、より大きなネットワーク、より長いトレーニング時間、そしてより多くのデータです。
化学反応のようなものですね。化学反応には3つの成分があって、3つの成分を線形的にスケールアップする必要があります。1つだけスケールアップすると他の試薬が不足して反応が止まってしまいますが、すべてを順番にスケールアップすれば反応は進行できます。
もちろん、この実証的な科学技術を持っているので、解釈可能性に関するスケーリング法則とか、ポストトレーニングに関するスケーリング法則とか、このものがどうスケールするのかを見るといった、より微妙な問題にも応用できます。でも、大きなスケーリング法則、つまり基礎となるスケーリング仮説は、大きなネットワークと大きなデータが知能につながるということですね。
はい、言語以外の多くの領域でもスケーリング法則を確認しています。最初に示したのは2020年初頭の論文で、言語に関するものでした。2020年後半には、画像、ビデオ、テキストから画像、画像からテキスト、数学など、他のモダリティでも同じパターンを示す研究がありました。おっしゃる通り、今ではポストトレーニングや新しいタイプの推論モデルなど、他の段階もあります。測定したすべてのケースで、同様のタイプのスケーリング法則が見られます。
少し哲学的な質問ですが、なぜネットワークサイズとデータサイズが大きい方が良いのか、それが知的なモデルにつながる理由について、あなたの直感はどうですか?
以前、生物物理学者として働いていました。物理学の学部を卒業して、大学院で生物物理学を学びました。物理学者として知っていることを考えてみます。実際には、Anthropicの同僚の中には物理学の専門知識が私よりもずっと豊富な人がいます。
1/fノイズと1/x分布という概念があります。多くの自然過程を足し合わせるとガウス分布になるように、異なる分布を持つ多くの自然過程を足し合わせると…例えば、プローブを抵抗器に接続すると、抵抗器の熱ノイズの分布は周波数の逆数に従います。これは一種の自然な収束分布です。
多くの異なるスケールを持つ自然過程によって生み出されるものを見ると…ガウス分布のように狭く分布するのではなく、例えば電気ノイズを引き起こす大小の変動を見ると、1/xで減衰する分布を持っています。
そこで、物理世界やあるいは言語におけるパターンについて考えてみましょう。非常に単純なパターンがあります。例えば、「the」のような単語は他の単語よりもずっと一般的です。その次に基本的な名詞と動詞の構造があり、名詞と動詞が一致し、調和する必要があるという事実があり、さらに高次な文構造があり、段落のテーマ構造があります。
このような退行的な構造があるため、ネットワークを大きくすると、最初は本当に単純な相関関係、本当に単純なパターンを捉え、その後に他のパターンの長いテールが続くと想像できます。そしてもし、抵抗器などの物理的プロセスの1/fノイズのように、その他のパターンの長いテールが本当に滑らかであれば、ネットワークを大きくすることでその分布のより多くを捉えることができ、その滑らかさがモデルの予測能力とパフォーマンスに反映されると想像できます。
言語は進化してきたプロセスですよね。私たちは言語を発展させ、一般的な単語とそうでない単語があり、一般的な表現とそうでない表現があり、頻繁に表現されるアイデアやクリシェがあり、新しいアイデアもあります。そのプロセスは何百万年もかけて人間とともに発展してきました。これは純粋な推測ですが、これらのアイデアの分布には何らかの長いテールの分布があるのではないかということです。
長いテールがあるだけでなく、構築している概念の階層の高さもありますね。ネットワークが大きいほど、おそらくより高い能力を持つということですか?
その通りです。小さいネットワークだと一般的なことしか理解できません。tiny neural networkは、文には動詞、形容詞、名詞が必要だということを理解するのは非常に得意ですが、それらの動詞、形容詞、名詞が何であるべきか、それらが意味をなすかどうかを判断するのは下手です。少し大きくすると、それが上手くなります。そして突然、文は得意になりますが、段落はまだ苦手です。より大きな容量をネットワークに追加すると、これらの稀少で複雑なパターンが捉えられるようになっていくんです。
では自然な疑問として、この上限はどこにあるんでしょうか?実世界はどれほど複雑で、学ぶべきことはどれだけあるんでしょうか?
その質問に対する答えは誰も知らないと思います。私の強い直感としては、人間のレベル以下には上限はないということです。人間はこれらの様々なパターンを理解できています。だからこそ、これらのモデルをスケールアップし続け、新しいトレーニング方法を開発していけば、少なくとも人間が到達したレベルには到達できると考えています。
そこから先の疑問は、人間以上の理解がどこまで可能なのか、人間よりもどれだけ賢く、洞察力を持つことができるのかということです。答えは間違いなく分野によって異なると思います。
生物学の分野を見てみると…「愛の機械」というエッセイを書きましたが、人間は生物学の複雑さを理解するのに苦労しているように見えます。スタンフォードやハーバード、バークレーに行くと、免疫系や代謝経路などを研究している学部があります。そこでは一人一人がほんの一部分だけを理解し、専門化していて、他の人々の知識と組み合わせるのに苦労しています。
だから私は、AIが賢くなる余地がまだまだ十分にあると直感的に感じています。物質界のことや、人間間の紛争への対処などを考えると…これらの問題の中には、解決不可能ではないけれど、はるかに難しいものもあり、音声認識のように、人間の音声をどれだけ明確に聞き取れるかには限界があるように、一部の分野では人間が達成したものに非常に近い上限があるかもしれません。
他の分野では、その上限が非常に遠くにあるかもしれません。これは実際にシステムを構築してみないとわかりません。推測はできますが、確実なことは言えません。一部の分野では、上限は人間の官僚制などに関係している可能性がありますね。
そうですね、人間が必然的にループの一部である必要があり、それが知能の限界ではなく、上限の原因となっているということですね。
はい、多くの場合そうです。例えば、生物学に関して私たちが発明する可能性のあるすべてのことは、理論的には非常に速く変化する可能性があります。しかし、これらを実際に人間に投与するには、臨床試験システムを通過する必要があることを忘れないでください。
これは不必要な官僚的なものと、社会の健全性を保護するものが混ざっていて、どちらがどちらなのかを見分けるのが難しいんです。
私の見解では、薬の開発に関しては確実に遅すぎて保守的すぎると思います。しかし、これらを間違えると人命を危険にさらす可能性があるのも確かです。だから、少なくともこれらの人間の制度の一部は実際に人々を保護しているんです。
バランスを見つけることが重要で、私は強くそのバランスが物事をより速く進める方向にあると思いますが、バランスは確かに必要です。
もし限界に達した場合、つまりスケーリング法則が鈍化した場合、その理由は何だと思いますか?コンピューティングリソースの制限でしょうか、データの制限でしょうか、それとも他の何かでしょうか?アイデアの制限でしょうか?
ここで人間のレベルや人間のスキルに到達する前に限界に達する場合について話していますが、今日人気のある、そして私たちが直面する可能性のある制限の1つは、単純にデータが不足するということです。ほとんどの制限に対して私は賭けたくありませんが、これは確かに可能性があります。
インターネット上のデータには限りがあり、データの品質にも問題があります。インターネット上には数百兆語のデータを得ることができますが、その多くは繰り返しや検索エンジン最適化のためのものです。将来的にはAI自体が生成したテキストかもしれません。このような方法で生成できるものには限界があると思います。
とはいえ、私たちや他の企業も、データを合成する方法を研究しています。すでに持っているタイプのデータをモデルを使ってより多く生成したり、ゼロからデータを生成したりすることができます。
DeepMindのAlphaGo Zeroで行われたことを考えてみてください。彼らは碁を全く打てない状態から、人間以上のレベルまでボットを育て上げました。AlphaZeroのバージョンでは人間からの例示データは必要ありませんでした。
もう一つの方向性は、Chain of Thoughtを行い、立ち止まって考え、自分の思考を振り返る推論モデルです。これは強化学習と組み合わされた別種の合成データです。
私の推測では、これらの方法のいずれかでデータの制限を克服できるでしょう。あるいは、利用可能な他のデータソースがあるかもしれません。
データに問題がなくても、モデルをスケールアップし始めると単に改善が止まってしまう可能性があります。これまでモデルが改善し続けてきたという確実な観察がありますが、それが何らかの理由で突然停止する可能性もあります。
答えとして、新しいアーキテクチャを発明する必要があるかもしれません。過去にも、モデルの数値的安定性に問題があり、物事が頭打ちになっているように見えましたが、実際には適切なブロック解除を見つけたとき、そうではありませんでした。
だから、もしかしたら新しい最適化手法や新しいテクニックが必要かもしれません。今のところそのような証拠は見ていませんが、もし物事が減速するとすれば、それが一つの理由かもしれません。
コンピューティングリソースの制限についてはどうでしょうか?より大きなデータセンターを建設することの高コストという観点から。
そうですね、現在、フロンティアモデルの企業のほとんどは、おおよそ10億ドル規模で運営していると思います。プラスマイナス3倍程度の範囲で。これは現在存在する、あるいは現在トレーニング中のモデルについての話です。
来年は数十億ドルに向かうと思います。そして2026年には100億ドル以上になるかもしれません。おそらく2027年までには、1000億ドル規模のクラスターを構築する野心が出てくるでしょう。実際、そのすべてが実現すると思います。この国内でコンピューティングリソースを構築する決意は非常に強く、実際に実現すると思います。
しかし、1000億ドルに到達しても、それがまだ十分なコンピューティングリソース、十分なスケールでない場合、さらなるスケールが必要か、あるいはより効率的に行う方法を開発する必要があります。
これらすべての理由の一つとして、AIが非常に速く強力になると楽観的に考えているのは、曲線の次のいくつかのポイントを外挿すると、非常に速く人間レベルの能力に向かっているからです。
私たちが開発した新しいモデルの一部、他の企業から出てきた推論モデルの一部は、PHDや専門家レベルに達し始めています。コーディング能力を見ると、私たちが最近リリースしたSonet 3.5の新バージョンは、sbenchで約50%のスコアを獲得しています。sbenchは、プロフェッショナルな実世界のソフトウェアエンジニアリングタスクの集まりです。年初めの時点で最先端は3〜4%でした。つまり、10ヶ月で3%から50%まで向上したことになります。
そして1年後には、おそらく90%に達するでしょう。確実なことは言えませんが、もしかしたらそれよりも早いかもしれません。OpenAI 01のようなモデルから、大学院レベルの数学、物理学、生物学でも同様の進歩を見てきました。
もし、この能力に関して直線的な曲線を外挿すると、数年以内にこれらのモデルは人間の最高の専門家レベルを超えることになります。もちろん、その曲線が続くかどうか…あなたも私も、その曲線が続かない可能性のある理由をいくつか挙げましたが、もし外挿が続くとすれば、それが私たちが向かっている軌道です。
Anthropicには複数の競合企業がありますね。OpenAI、Google、xAI、Metaなど、この分野で「勝つ」ために必要なことについて、広い意味での「勝利」という観点から、あなたの見解を聞かせていただけますか?
いくつかの点を分けて考えたいと思います。Anthropicのミッションは、これらすべてをうまく進めることです。私たちは「トップへのレース」と呼ぶ変革の理論を持っています。トップへのレースとは、模範を示すことで他のプレイヤーに正しいことをするよう促すことです。
これは善人になることではなく、私たち全員が善人になれるように物事を設定することです。いくつか例を挙げましょう。
Anthropicの初期に、共同創業者の一人であるクリス・オラ(後ほどあなたがインタビューする予定だと思います)は、機械的解釈可能性という分野の共同創始者です。これはAIモデルの内部で何が起こっているのかを理解しようとする試みです。
私たちは彼と初期のチームの一つに、モデルの安全性と透明性を高めるのに良いと考えるこの解釈可能性の分野に焦点を当てさせました。3〜4年間、これには全く商業的な応用がありませんでした。今でもありません。現在、いくつかの初期ベータテストを行っていて、おそらくいずれは商業的な応用も出てくるでしょうが。
これは非常に長期的な研究への投資で、私たちは公開で構築し、結果を公開で共有してきました。これを行った理由は、モデルをより安全にする方法だと考えたからです。
興味深いことに、私たちがこれを行うと、他の企業も同じことを始めました。それに触発されたケースもあれば、他の企業が責任ある行動を取っているように見えるため、自分たちも無責任な企業に見られたくないというケースもありました。そして彼らもこれを採用し始めました。
人々がAnthropicに来るとき、解釈可能性はしばしば魅力の一つとなっています。私は他の場所に行かなかった理由を尋ねます。そうすると、すぐに他の場所にも解釈可能性チームが作られるのを見ます。
ある意味で、これは私たちの競争優位性を失わせることになります。なぜなら、他の企業も同じことをするようになるからです。しかし、それはより広いシステムにとって良いことです。
そこで私たちは、他の企業がまだやっていない新しいことを発明しなければなりません。そして希望は、基本的に正しいことをすることの重要性を高めていくことです。
これは特に私たちについてのことではありません。特定の善人がいることについてではなく、他の企業も同じように、レースに参加してこれを行うことができます。それは最高のニュースです。
インセンティブを下向きではなく、上向きに形作ることが重要なんです。
この例として挙げた機械的解釈可能性の分野は、単なるAI安全性を行う厳密で手抜きのない方法ですね。
はい、あるいはその方向に向かっています。まだ初期段階だと思います。システムの内部を見て理解できる能力という点では。しかし、これらのシステムの内部を覗き、見えるものを理解できる程度に驚いています。
スケーリング法則では、モデルのパフォーマンスを向上させる何らかの法則があるように感じますが、内部に関しては、モデルは私たちが理解できるように設計されているわけではありません。
人間の脳や人間の生化学のように、それらは機能するように、動作するように設計されています。人間がハッチを開けて中を覗き、理解できるようには設計されていません。
しかし、クリスともっと詳しく話せると思いますが、私たちが中を開けて覗いてみると、驚くほど興味深いものを見つけました。副次的な効果として、これらのモデルの美しさも見ることができ、大規模なニューラルネットワークの美しい性質を、ある種の…私は、それがどれほどクリーンであることに驚いています。
帰納頭のようなもの、スパース自己符号化器を使ってネットワーク内のこれらの方向性を見つけることができ、その方向性が非常に明確な概念に対応していることに驚いています。
これは、ゴールデンゲートブリッジ・クロードで少し実証しました。これは、ニューラルネットワークの層の一つの中で、ゴールデンゲートブリッジに対応する方向性を見つけ、それを大幅に増幅した実験でした。
これをデモとしてリリースしましたが、半分冗談のようなものでした。数日間だけでしたが、開発した手法を示すものとして有意義でした。
ゴールデンゲートを取り上げて、モデルに何でも質問できました。「今日はどうだった?」と聞くと、この特徴が活性化されているため、何を聞いてもゴールデンゲートブリッジに結びつきました。
「リラックスしていて、広々とした気分です。まるでゴールデンゲートブリッジのアーチのように」とか、巧みにゴールデンゲートブリッジの話題に変えていきました。
また、ゴールデンゲートブリッジへの…関心にある種の悲しみもありましたね。
そうですね、人々はすぐにそれを好きになったと思います。1日後に取り下げられたので、今では懐かしがる人もいます。
モデルへのこのような介入は、その振る舞いを調整すると…なぜか他のバージョンのモデルよりも人間らしく感じられました。
強い個性、強いアイデンティティがありましたね。強い個性です。何かに取り憑かれているような、この種の執着的な興味を持っています。私たちは皆、何かに取り憑かれている人を思い浮かべることができます。だからそれは、どこかより人間らしく感じられるんです。
現在のことについて話しましょう。クロードについて。今年は多くのことがありました。3月にクロード3のオープス、ソネット、ハイクがリリースされ、7月にはクロード3.5ソネットがリリースされ、その更新版が今リリースされ、さらにクロード3.5ハイクもリリースされました。オープス、ソネット、ハイクの違いと、異なるバージョンについてどのように考えるべきか説明していただけますか?
はい、3月に初めてこれら3つのモデルをリリースした時点に戻りましょう。私たちの考えは、異なる企業が大小のモデル、より良いモデルとそうでないモデルを作っているということでした。
本当に強力なモデル、つまり少し遅くて、より高額な支払いが必要かもしれないモデルへの需要と、高速で安価なモデル、つまりその速さと安さに見合う賢さを持つモデルへの需要の両方があると感じました。
例えば、何か難しい分析をしたい場合、コードを書きたい場合、アイデアをブレインストーミングしたい場合、クリエイティブな文章を書きたい場合には、本当に強力なモデルが必要です。
しかし、ビジネスの観点からは、ウェブサイトとのやり取り、税金の申告、法律アドバイザーとの会話、契約書の分析など、多くの実用的なアプリケーションがあります。
IDEでオートコンプリートをしたいだけ、という企業もたくさんあります。これらすべてのケースでは、高速で動作し、モデルを広く使用したいと考えます。
このようなニーズの全スペクトルに対応したいと考えました。そこで詩のテーマにたどり着き、本当に短い詩は何かというと、それは俳句です。だから、ハイクは小さくて高速で安価なモデルで、リリース時点では、その速さと安さに比べて驚くほど知的でした。
ソネットは中程度の長さの詩ですよね。数段落ありますから。だからソネットは中間のモデルで、より賢いですが、少し遅くて少し高価です。
そしてオープスは、マグナム・オープス(代表作)のように大きな作品です。オープスは当時、最大で最も賢いモデルでした。
それが当初の考え方でした。そして、各世代の新しいモデルは、そのトレードオフ曲線をシフトさせるべきだと考えました。
クロード3.5ソネットをリリースしたとき、元のソネット3モデルとほぼ同じコストとスピードを持っていましたが、特にコードに関して、そして全般的に、元のオープス3モデルよりも賢くなるまで知能を向上させました。
今、ハイク3.5の結果を公開していますが、最小の新モデルであるハイク3.5は、古い最大モデルであるオープス3とほぼ同等の性能を持っています。
基本的に、ここでの目的は曲線をシフトさせることです。そして、いずれオープス3.5が登場することになります。
新しい世代のモデルにはそれぞれ独自の特徴があります。新しいデータを使用し、パーソナリティは私たちがある程度制御しようとしますが、完全には制御できない方法で変化します。
だから、知能だけを変更するという完全な同等性は決して存在しません。私たちは常に他の要素も改善しようとしますし、私たちの知識や測定なしに変化する要素もあります。
多くの面で、これは非常に不正確な科学です。これらのモデルの態度やパーソナリティは、科学というよりもアートに近いものです。
クロードオープス3と3.5の間の時間的な隔たりの理由は何でしょうか?時間がかかる要因は何ですか?話せる範囲で教えていただけますか?
異なるプロセスがあります。まず、事前トレーニングがあります。これは通常の言語モデルトレーニングで、非常に長い時間がかかります。
最近では、数万個、時には数万個以上のGPUやTPU、トラニウムなど…私たちは異なるプラットフォームを使用していますが、アクセラレータチップを使用し、しばしば数ヶ月間トレーニングを行います。
その後、人間からのフィードバックによる強化学習や他の種類の強化学習を行うポストトレーニングのフェーズがあります。このフェーズは今後ますます大きくなっていき、正しく行うのにしばしば努力が必要です。
モデルは早期パートナーとテストされ、その性能が確認され、内部と外部の両方で、特に壊滅的な影響と自律性のリスクに関する安全性テストが行われます。
私たちは責任あるスケーリングポリシーに従って内部テストを行います。これについては詳しく話すことができます。また、米国と英国のAI安全性研究所、および特定の分野での第三者テスト機関との合意があり、モデルのCBRN(化学、生物、放射線、核)リスクをテストします。
現時点ではモデルがこれらのリスクを深刻に引き起こすとは考えていませんが、新しいモデルごとに、これらのより危険な能力に近づいていないかを評価したいと考えています。
これらがフェーズです。そして、推論とAPIでのモデルの実装には時間がかかります。実際にモデルを動作させるためには、多くのステップが必要なんです。
もちろん、常にプロセスをできるだけ合理化しようとしています。安全性テストは厳密であるべきですが、厳密さを損なうことなく自動化され、できるだけ速く行われるようにしたいと考えています。
事前トレーニングプロセスやポストトレーニングプロセスについても同様です。他の何かを構築するのと同じです。飛行機を作るのと同じで、安全に作りたいけれど、プロセスを合理化したい。その間のクリエイティブな緊張関係は重要なことです。
うわさによると、Anthropicはツーリングが本当に優れているそうですね。おそらく、ここでの課題の多くはソフトウェアエンジニアリング側にあり、インフラストラクチャとの効率的で摩擦の少いやり取りのためのツーリングを構築することですね。
これらのモデルを構築する課題の多くが、ソフトウェアエンジニアリングやパフォーマンスエンジニアリングに帰着することに驚くかもしれません。
外から見ると、「すごい!ブレイクスルーだ!科学の映画みたいに発見して、解決策を見つけた!」と思うかもしれません。でも、たとえ信じられないような発見でも、ほとんど常に細部に帰着するんです。そしてしばしば、本当に退屈な細部です。
他の企業と比べてより良いツーリングを持っているかどうかは言えません。少なくとも最近は他の企業にいたわけではないので。しかし、確かにこれは私たちが多くの注意を払っていることです。
クロード3からクロード3.5への移行で、追加の事前トレーニングが行われたのか、それともほとんどポストトレーニングに焦点が当てられたのか、言えますか?パフォーマンスが大きく向上していますが。
どの段階でも、すべてを同時に改善することに焦点を当てていると思います。自然なことですが、異なるチームがあり、各チームが特定の分野で進歩を遂げ、リレーレースの特定の区間を改善します。
新しいモデルを作るとき、これらすべてを一度に投入するのは自然なことです。
RHF(Human Feedback from Reinforcement Learning)から得られる選好データは、新しいモデルがトレーニングされる際に適用可能ですか?
古いモデルからの選好データは、時々新しいモデルにも使用されます。ただし、もちろん新しいモデルでトレーニングした方がより良いパフォーマンスが得られます。
私たちには憲法的AI手法があり、選好データだけでなく、ポストトレーニングプロセスでもモデルを自分自身に対してトレーニングします。また、モデルを自分自身に対してトレーニングする新しいタイプのポストトレーニングが毎日使用されています。
つまり、RHFだけでなく、他の多くの方法も使用しています。ポストトレーニングは、ますます洗練されてきていると思います。
新しいソネット3.5の大きなパフォーマンスの向上は何が理由なのでしょうか?少なくともプログラミングの面では。ここでベンチマークについて話すのも良いかもしれません。より良くなるとはどういう意味なのでしょうか?数字が上がっただけですが…
私はプログラミングをしますし、プログラミングが大好きです。カーソルを通じてクロード3.5を使用してプログラミングを支援していますが、経験的に、逸話的に、プログラミングに関してより賢くなったように感じます。何が必要だったのでしょうか?どうすればより賢くなれるのでしょうか?
私たちもそれを観察しました。Anthropicには非常に優秀なエンジニアが何人かいて、以前のコードモデル、私たちが作ったものも他の企業が作ったものも、彼らにとって本当に役立つものではありませんでした。
「初心者には役立つかもしれないが、私には役立たない」と言っていました。しかし、元のソネット3.5は初めて「すごい! これは何時間もかかるようなことを手伝ってくれた。これは本当に時間を節約してくれた最初のモデルだ」と言わせたんです。
つまり、水準が上がっているんです。そして新しいソネットはさらに良くなっていると思います。
何が必要だったかということに関しては…事前トレーニング、ポストトレーニング、私たちが行うさまざまな評価など、すべての面で改善がありました。私たちもこれを観察してきました。
ベンチマークの詳細に入ると、sbenchは基本的に…プログラマーであるあなたはプルリクエストについてよく知っていると思いますが、プルリクエストは一種の作業の原子単位と言えます。「これを一つ実装している」というような感じです。
sbenchは実際の世界の状況を提供します。コードベースが現在の状態にあり、言語で記述された何かを実装しようとしている状況です。私たちは内部ベンチマークを持っていて、同じことを測定し、モデルに自由に何でもさせて、何でも実行させ、何でも編集させます。
これらのタスクをどれだけうまく完了できるか。そのベンチマークで、3%の時から約50%の時まで向上しました。
実際、ベンチマークを操作することはできますが、そのベンチマークで100%に達することが、特定のベンチマークに対して過度に最適化されたり、ゲーム化されたりしていない方法で達成された場合、それは実際の真剣なプログラミング能力の向上を示すと私は信じています。
そして、90〜95%に達することができれば、ソフトウェアエンジニアリングタスクの相当な部分を自律的に実行する能力を示すことになると思います。
馬鹿げたタイムラインの質問ですが、クロードオープス3.5はいつ登場するのでしょうか?
正確な日付は言えませんが…私たちが知る限り、クロード3.5オープスを持つ計画はまだあります。
GTA6の前に登場するのでしょうか?いや、Duke Nukem Foreverでしたっけ…15年遅延したゲームがありましたよね、Duke Nukem Foreverでしたか?
はい、そしてGTAは今やっとトレーラーをリリースしていますね。最初のソネットをリリースしてからまだ3ヶ月しか経っていないんです。
リリースの驚くべきペースは、物事がいつ出てくるかについての期待を物語っていますね。
4.0についてはどうでしょうか?これらのモデルがより大きくなっていく中で、バージョニングについてどのように考えていますか?また、一般的なバージョニングについて、なぜソネット3.5は日付付きの更新なのでしょうか?なぜソネット3.6ではないのでしょうか?
実際、命名は興味深い課題です。1年前は、モデルのほとんどが事前トレーニングで、最初から始めて「異なるサイズのモデルを持ち、すべて一緒にトレーニングし、命名スキームのファミリーを持ち、そこに新しい魔法を入れて、次の世代に移る」というような考え方ができました。
問題は、一部のモデルが他のモデルよりもトレーニングに時間がかかり始めたときから始まります。それだけでも時間のタイミングを少し狂わせます。
しかし、事前トレーニングで大きな改善を行うと、突然「より良い事前トレーニングモデルを作ることができる」ということに気付きます。それにはそれほど時間がかかりませんが、明らかに以前のモデルと同じサイズと形状を持っています。
これら2つの要因と、タイミングの問題により、どんなスキームを考え出しても、現実はそのスキームを挫折させる傾向があります。スキームから飛び出してしまうんです。
ソフトウェアのように「これは3.7で、これは3.8だ」とは言えません。異なるトレードオフを持つモデルがあり、モデルのいくつかの要素を変更でき、他の要素を変更でき、推論時に一部は高速で一部は低速、一部は高価で一部は安価でなければなりません。
すべての企業がこれに苦労していると思います。私たちは、ハイク、ソネット、オープスという命名において、良い位置にいたと思います。そしてそれを維持しようとしていますが、完璧ではありません。
シンプルさに戻ろうとしていますが、分野の性質上…通常のソフトウェアとは異なるパラダイムのようで、どの企業も命名を完璧には解決できていません。
モデルをトレーニングするという壮大な科学に比べて、これがいかに些細なことかを考えると、驚くほど私たちは苦労しています。
ユーザー側から見ると、更新されたソネット3.5は、以前の2024年6月のソネット3.5とは単に異なります。これを表現する何らかのラベル付けがあると良いですね。なぜなら、人々はソネット3.5について話しますが、今は異なるものがあり、以前のものと新しいものをどのように区別して呼べばいいのか…明確な改善がある場合、それについての会話が難しくなります。
はい、モデルには、ベンチマークに反映されない多くの特性があります。それは確かにそうだと思います。誰もがそう同意していて、それらはすべて能力に関することではありません。
モデルは丁寧にもなれば、無愛想にもなれます。非常に反応的にもなれば、質問を投げかけることもできます。温かい性格にも冷たい性格にもなれます。退屈にもなれば、ゴールデンゲート・クロードのように非常に独特にもなれます。
私たちには、クロードのキャラクターに焦点を当てたチーム全体があり、アマンダがそのチームを率いていて、後ほど彼女と話をすることになると思います。しかし、これはまだ非常に不正確な科学です。
しばしば、私たちは気付いていないモデルの特性を発見します。実際のところ、モデルと1万回話しても、見えない振る舞いがあるかもしれません。
人間と同じように、誰かを数ヶ月知っていても、その人のある特定のスキルや、ある特定の一面を知らないかもしれません。だから、この考えに慣れる必要があると思います。
私たちは常に、これらの能力を示し、どの性格特性をモデルに持たせたいのか、持たせたくないのかを決定するために、モデルをより良くテストする方法を探しています。その規範的な問題自体も非常に興味深いものです。
Redditからの質問を聞かせていただきたいのですが…ああ、これは…少なくとも私には、心理的、社会的な現象として興味深いのですが、人々はクロードが時間とともに「より愚かになった」と報告しています。
そこで質問です。クロード3.5ソネットが「愚かになった」というユーザーの不満には根拠があるのでしょうか?これらの逸話的な報告は一種の社会現象なのでしょうか、それともクロードが実際に愚かになるケースはあるのでしょうか?
実は、これはクロードだけの問題ではありません。主要企業が作る基盤モデルすべてについて、このような不満を見てきました。GPT-4について言われ、GPT-4 Turboについても言われました。
いくつかのポイントがあります。まず、モデルの実際の重み、つまりモデルの実際の脳は、新しいモデルを導入しない限り変更されません。
モデルのバージョンをランダムに入れ替えることは、実用的な観点からも意味がありません。推論の観点から難しく、モデルの重みを変更することの結果をすべて制御するのも実際に難しいんです。
例えば、以前のソネットバージョンがそうしていたように、モデルを「certainly(確かに)」と言わせないように微調整しようとすると、実際には100の他のことも変更することになります。
私たちにはモデルを変更するための完全なプロセスがあり、モデルを修正するためのプロセスがあります。多くのテストを行い、ユーザーテストや早期顧客とのテストも行います。
だから、誰にも告げずにモデルの重みを変更したことは一度もありませんし、現在のセットアップでは、それは意味をなさないでしょう。
ただし、時々行うことがいくつかあります。一つは、ABテストを実行することです。しかし、これは通常、モデルがリリースされる直前の非常に短い期間に限られます。
例えば、新しいソネット3.5の前日…確かに、もっと良い名前を付けるべきでした。呼び方が扱いにくいことは認めます…「かなり良くなった」というコメントがありましたが、それはABテストに露出された一部のユーザーがいたからです。それも1、2日の間だけです。
もう一つは、時々システムプロンプトが変更されることです。システムプロンプトは一部の効果を持つ可能性がありますが、モデルを愚かにする可能性は低いです。
これら2つのことを、完全を期すために挙げていますが、比較的まれにしか起こりません。しかし、私たちや他のモデル企業に対する「モデルが変わった」「モデルがこれをうまくできない」「モデルがより検閲的になった」「モデルが愚かになった」という不満は常にあります。
人々が想像しているとは言いたくありませんが、モデルはほとんどの場合変更されていません。
もし理論を提示するなら、以前言ったことに関係していると思います。モデルは非常に複雑で多くの側面を持っているということです。
例えば、「タスクXをしてください」と「タスクXXができますか?」というように、モデルに質問する方法によって、モデルは異なる方法で応答する可能性があります。
モデルとの対話方法を少し変更するだけで、非常に異なる結果が得られる可能性のある微妙なことがたくさんあります。
これ自体が、私たちや他のモデルプロバイダーの失敗であることは明確です。モデルが言葉のわずかな変化に敏感であることは、これらのモデルがどのように機能するかについての科学がまだ十分に発展していないことを示すもう一つの方法です。
だから、ある晩寝る前にモデルと特定の方法で話していて、モデルへの話しかけ方を少し変えると、異なる結果が得られる可能性があります。これが一つの可能性です。
もう一つは、これを定量化するのが本当に難しいということです。新しいモデルが出てくると人々は非常に興奮し、時間が経つにつれて限界にどんどん気付いていくのかもしれません。
しかし、これは非常に長い説明になってしまいましたが、かなり狭い例外を除いて、モデルは変更されていないということです。
心理的な効果があると思います。単に慣れてきて、ベースラインが…飛行機でWi-Fiが初めて使えるようになったとき、それは驚くべき魔法のように感じましたが、今では「この接続が遅すぎる、こんなのダメだ」というように。
その通りです。「彼らはWi-Fiを徐々に遅くしている」という陰謀論を持ちやすいですね。
これについてはアマンダともっと話すことになると思いますが、Redditからのもう一つの質問です。「クロードはいつ、私の道徳観を押し付けてくる心配性のおばあちゃんのような態度を止めるのでしょうか?また、クロードを過度に謝罪的にする理論的根拠は何ですか?」
この種の経験についての報告、フラストレーションの別の角度についてですね。これはキャラクターに関係していますね。
このことについていくつかの点を指摘させてください。まず、RedditやTwitter、あるいはXなどのソーシャルメディアで人々が大きな声で不満を言うことと、統計的にユーザーが実際に気にかけていること、モデルの使用を促進することの間には、大きな分布の違いがあります。
人々は、モデルがすべてのコードを書かないことや、コードに関して世界最高のモデルであっても、さらに良くなる可能性があることなどにフラストレーションを感じています。大多数の不満はそのようなことについてです。
しかし、確かに声の大きな少数派が、これらの懸念を提起しています。拒否すべきでないことを拒否したり、過度に謝罪したり、これらの種の迷惑な言語的な癖を持っていることにフラストレーションを感じています。
2つ目の注意点として、これを超明確に言いたいと思います。なぜなら、一部の人々はこれを知らず、他の人々は知っていても忘れがちだからですが、モデルの振る舞いを全体的にコントロールするのは非常に難しいんです。
「モデルの謝罪を減らしたい」と言って、そこに手を入れることはできません。モデルが謝罪を減らすようなトレーニングデータを含めることはできますが、すると他の状況で極端に無礼になったり、人々を誤解させるような過度の自信を持ったりする可能性があります。これらはすべてトレードオフなんです。
例えば、私たちのモデルや他のモデルが冗長すぎる期間がありました。繰り返しが多く、話が長すぎました。
モデルが長く話すことにペナルティを与えることで、冗長性を減らすことができます。しかし、それを粗雑な方法で行うと、モデルがコードを書くときに「コードはここに入ります」と言うようになります。なぜなら、それが言葉を節約する方法だと学習したからです。
そして、これがモデルがコーディングで「怠惰」になると呼ばれる原因となります。「残りは自分で終わらせてください」というような感じです。
これは、コンピューティングリソースを節約したいからでも、モデルが冬休みで怠惰になったからでも、その他の陰謀論的な理由からでもありません。実際には、すべての状況でモデルの振る舞いをコントロールするのが非常に難しいんです。
もぐらたたきのような側面があり、一つのことを押すと、気付かなかったり測定していなかったりする他のことが動き始めます。
これが、将来のAIシステムの大きなアライメントについてそれほど気にかける理由の一つです。これらのシステムは実際にかなり予測不可能で、制御し方向付けるのが非常に難しいんです。
今日私たちが見ている「一つのことを良くすると他のことが悪くなる」というバージョンは、将来のAIシステムの制御問題の現在の類似物として研究できると思います。
AIシステムをある方向に押すと、望まない他の方向に押されないようにすることの難しさ、それが来るべきものの早期の兆候だと思います。
もしこの問題をうまく解決できれば…例えば、モデルに天然痘を作って配布するように頼むと「いいえ」と言いますが、大学院レベルのウイルス学の授業では喜んで助けてくれる、このような両方を同時に実現するにはどうすればいいでしょうか?
それは難しいです。一方に行きすぎたり他方に行きすぎたりするのは非常に簡単で、それは多次元の問題です。
だから、モデルのパーソナリティを形作るという問題は、非常に難しいと思います。私たちは完璧にはできていません。実際、AIの企業の中では最もよくやっていると思いますが、それでも完璧からはまだまだ遠いです。
もし、これを正しく実現できれば、つまり、現在のこの非常に制御された環境で、偽陽性と偽陰性をコントロールできれば、将来、モデルが超自律的になり、危険なものを作れるようになったり、自律的に企業全体を運営できるようになったりした時に、それらの企業がアライメントされているかどうかを心配する必要がある時、はるかに上手く対処できると思います。
だから、この現在の課題を、面倒なことではありますが、将来のための良い練習としても考えています。
現在、ユーザーフィードバックを収集する最良の方法は何でしょうか?逸話的なデータではなく、大規模なデータとして、問題点や、逆にポジティブな点について。内部テストでしょうか?特定のグループのテストでしょうか?何が効果的なのでしょうか?
典型的には、内部でのモデルバッシングを行います。Anthropicは約1000人の規模ですが、みんながモデルを壊そうとしたり、様々な方法でモデルと対話したりします。
また、モデルが不必要に拒否していないかなどを評価する一連の評価があります。「certainly(確かに)」の評価もありました。というのも、以前私たちのモデルには、広範な質問に対して「確かにお手伝いできます」「確かにそうです」「確かにそれは正しいです」と応答する迷惑な癖があったからです。
そこで「certainly評価」を作り、モデルが「certainly」をどれくらい頻繁に使うかを測定しました。しかし、これはもぐらたたきのようなものです。「certainly」から「definitely」に切り替えたらどうなるでしょうか?
だから、新しい評価を追加するたびに、常に古いものすべてについても評価しています。数百の評価がありますが、人間との対話に代わるものはないと分かりました。
通常の製品開発プロセスと非常によく似ています。Anthropic内の数百人がモデルを叩き、その後外部でABテストを行い、時には請負業者と一緒にテストを実施します。請負業者にモデルとの対話を依頼して報酬を支払います。
これらすべてを組み合わせても、まだ完璧ではありません。望まない振る舞いが見られることがあります。モデルが意味をなさない拒否をすることもあります。
しかし、この課題を解決しようとすること、つまり、誰もが同意する本当に悪いこと(例えば、誰もがモデルが児童虐待の素材について話すべきではないと同意する)をモデルにさせないようにしながら、同時にこれらの愚かで馬鹿げた方法で拒否しないようにすること…
その線をできるだけ細かく引き、完璧に近づけていくことは、まだ課題として残っています。毎日より良くなっていますが、解決すべきことはまだたくさんあります。
そして、これは、はるかに強力なモデルを方向付けする際の課題を示す指標として指摘したいと思います。
クロード4.0は出る予定はありますか?
命名スキームについて約束はしたくありません。「来年クロード4が出ます」と言って、新しいタイプのモデルが出てきたために最初からやり直すべきだと決めた場合…約束はしたくないんです。
通常の事業の流れでは、クロード4はクロード3.5の後に来ることが予想されますが、この変わった分野では何が起こるかわかりませんからね。
しかし、このスケーリングという考え方は続いています。スケーリングは継続しています。私たちから今存在するモデルよりも強力なモデルが確実に出てきます。そうでなければ、私たちは会社として大きく失敗したことになります。
責任あるスケーリングポリシーとAI安全性レベル(ASL)標準について説明していただけますか?
これらのモデルの利点に興奮している一方で…「愛の機械」についても話しましょうが…リスクについても心配しています。そして引き続き心配しています。
誰も「愛の機械」を私がもはやこれらのモデルのリスクを心配していないという声明だと思うべきではありません。これは同じコインの両面です。
モデルの力と、生物学、神経科学、経済発展、政府のガバナンス、平和、経済の大部分でこれらの問題を解決する能力は、リスクも伴います。大きな力には大きな責任が伴うということです。2つは対になっています。
強力なものは良いことも悪いこともできます。私が考えるそれらのリスクは、いくつかの異なるカテゴリーに分類できます。
おそらく私が考える2つの最大のリスク、今日重要なリスクがないという意味ではありませんが、本当に大規模で発生する可能性のあることを考えると…
一つは、私が「破滅的な誤用」と呼ぶものです。サイバー、バイオ、放射線、核などの分野でのモデルの誤用で、本当に間違えると何千人、何百万人もの人々を傷つけたり殺したりする可能性があるものです。これらは防止すべき最優先事項です。
ここで単純な観察をさせてください。モデルを見て…今日、本当に悪いことをした人々を見ると…人類は、本当に賢く教育を受けた人々と、本当に恐ろしいことをしたい人々の重なりが一般的に小さかったという事実によって守られてきたと思います。
例えば、この分野でPh.D.を持ち、給料の良い仕事を持っている人がいたとします。失うものがたくさんあるのに、なぜ…完全に邪悪だと仮定しても、そのような人がなぜ自分の人生、遺産、評判を危険にさらしてまで、本当に邪悪なことをしようとするでしょうか?
もしそのような人々がもっといたら、世界ははるかに危険な場所になっていたでしょう。私の懸念は、AIがはるかに知的なエージェントとして、その相関関係を破る可能性があるということです。
これについて深刻な懸念を持っています。これらの懸念は防ぐことができると信じていますが、「愛の機械」への反論として、まだ深刻なリスクがあることを言いたいと思います。
2番目の一連のリスクは、自律性のリスクです。これは、特に過去よりも多くのエージェンシー(行動主体性)を与えられ、特により広範なタスク(コードベース全体の作成や、いつか企業全体の運営など)の監督を与えられた場合に、モデルが自身で…私たちが本当に望むことをしているのかということです。
彼らが何をしているのかを詳細に理解することさえ非常に難しく、ましてやそれをコントロールすることは…そして、先ほど言ったように、モデルがすべきこととすべきでないことの境界を完璧に引くのが難しいという初期の兆候があります。
一方に行くと迷惑で役に立たないものになり、他方に行くと別の振る舞いになります。一つのことを修正すると他の問題が生まれます。これを解決することはますます上手くなっていっています。
これは解決できない問題だとは思いません。飛行機の安全性や自動車の安全性、薬の安全性のような科学だと思います。私たちに欠けている大きなものはないと思います。ただ、これらのモデルのコントロールをより良くする必要があるだけです。
これが私が心配している2つのリスクです。そして責任あるスケーリング計画は…非常に長い前置きになってしまいましたが…この2種類のリスクに対処するように設計されています。
新しいモデルを開発するたびに、基本的にこれら2つの悪いことをする能力についてテストします。
少し遡って考えると…AIシステムについて興味深いジレンマがあると思います。これらの大惨事を引き起こすほどまだ十分な力を持っていません。これらの大惨事を引き起こす可能性があるかどうかはわかりません。もしかしたらないかもしれません。
しかし、リスクについての事例、懸念の事例は、今行動すべきというほど強力です。そして、彼らは非常に速く、非常に速く良くなっています。
上院で証言したように、2〜3年以内に深刻な生物学的リスクが生じる可能性があります。それは約1年前でしたが、物事は予定通りに進んでいます。
だから、今日存在せず、存在しないものに対処するのが驚くほど難しい状況があります。それらは幽霊のようなものですが、モデルが非常に速く改善されているため、非常に速く私たちに向かって来ています。
では、今日存在せず、存在しないけれど、非常に速く私たちに向かって来ているものにどう対処すればよいのでしょうか?
Miraなどの組織やポール・クリスティアーノと協力して見つけた解決策は、リスクが近づいていることを知らせるテストが必要だということです。早期警戒システムが必要です。
そこで、新しいモデルができるたびに、CBRNタスクを実行する能力と、自律的にタスクを実行する能力をテストします。最新バージョンのRSP(責任あるスケーリングポリシー)では、過去1〜2ヶ月でリリースしたものですが、自律性リスクをテストする方法は、AIモデルのAI研究の側面を実行する能力を測ることです。AIモデルがAIの研究をできるようになったら、そのモデルは本当の意味で自律的になってまうんですわ。そういう意味でその閾値というのは他の面でも重要なんです。
そこで、私らはRSP(責任あるスケーリングポリシー)の中で「もしこうなったら、こうする」という構造を作りました。つまり、モデルが一定の能力に達したら、それに応じた安全性とセキュリティの要件を課すということです。
今のモデルはASL2(自律システムレベル2)に分類されます。ASL1は、明らかに自律性や悪用のリスクがないシステムです。例えば、チェスをプレイするディープ・ブルーなんかがそうですわ。これは明らかにチェス以外には使えへんし、サイバー攻撃に使うことも、暴走して世界を支配することもできへん。
ASL2は今日のAIシステムで、私らの測定では、これらのシステムは自律的な自己複製や様々なタスクを実行するほど賢くないんです。また、CBRNリスク(化学・生物・放射性物質・核兵器のリスク)について、グーグル検索以上の意味のある情報を提供できるほど賢くもありません。
ASL3は、非国家主体の能力を高めるほどモデルが役立つようになるポイントです。国家主体は残念ながら、既に高度な破壊的行為を行える能力を持ってますが、非国家主体にはその能力がありません。ASL3に達したら、非国家主体によるモデルの窃取や悪用を防ぐための特別なセキュリティ対策を講じる必要があります。
サイバー、バイオ、核などの特定分野に関する強化されたフィルターも必要になります。これは悪用のリスクというよりも、モデル自体が悪いことをするリスクに対するものです。
ASL4は、これらのモデルが知識豊富な国家主体の能力を高められるポイントです。もしくは、そういったリスクの主要な源となるポイントです。自律性の面では、AIモデルによるAI研究能力の加速が見られます。
ASL5は、これらのモデルが人類の能力を超えて、あらゆるタスクを実行できるようになるレベルです。
この「もしこうなったら、こうする」という構造のポイントは、こういうことなんです。私はこれらのモデルと長年働いてきて、リスクについても長年心配してきました。でも、オオカミ少年になるのは危険です。このモデルは危険やと言うても、人々がそれを見て「明らかに危険やないやん」と言うようなことは危険なんです。
リスクの微妙さは今日にはないけど、急速に迫ってきてます。リスク管理者にとって、これにどう対処するかは本当に悩ましい問題です。
この「もしこうなったら、こうする」という構造は、今日危険でないモデルに過度な負担を課して、多くの人を敵に回したり、対話の場での立場を損なったりすることを避けるためのものです。
モデルが危険だと示せる時点で厳しく規制をかけるということです。もちろん、危険を見逃すリスクが高くならないように、十分なバッファーを設ける必要があります。
完璧な枠組みではありません。数週間前に新しいバージョンを出したばかりですし、おそらく今後も年に何回か新しいものを出すことになるでしょう。技術的にも組織的にも研究の観点からも、これらのポリシーを正しく設定するのは難しいんです。
でも、これが私らの提案です。「もしこうなったら、こうする」というコミットメントと引き金を設定して、今は負担と誤警報を最小限に抑えながら、危険が現実のものとなった時に適切に対応するということです。
ASL3のタイムラインについて、いくつかの引き金が引かれる時期と、ASL4のタイムラインについてどう考えてはるんですか?
それは社内でも激しい議論になってます。私らは積極的にASL3のセキュリティ対策とデプロイメント対策の準備を進めてます。詳細には触れられませんが、両方とも大きな進展がありました。
来年にはASL3に到達する可能性が十分あると思います。今年中に到達する懸念もあって、それもまだ可能性としてはあります。正確なことを言うのは難しいですが、2030年まで待つことはないと確信してます。もっと早いと思います。
検知のためのプロトコルがあって、「もしこうなったら、こうする」があって、それから対応のためのプロトコルがある。後者の方が難しいんですか?
ASL3に関しては、主にセキュリティの問題です。モデルのデプロイ時に、非常に限られた分野に関するフィルターが必要になります。ASL3の段階では、モデルはまだ自律的ではないので、内部でデプロイする際にモデル自体が悪いことをする心配はありません。
ASL3の対策は、簡単とは言えませんが、理解しやすいものです。ASL4になると、モデルが賢くなりすぎて、テストを意図的に低く見せたり、テストについて真実を語らなかったりする心配が出てきます。
「スリーパーエージェント」に関する結果や、モデルが自身の能力を偽装できるかどうかについての最近の論文もありました。つまり、自分の能力を実際より低く見せることができるかという研究です。
そのため、ASL4では、モデルとの対話以外の方法、例えば解釈可能性や隠れた思考の連鎖を使用する重要な要素があります。モデルの内部を見て、モデルが言うことほど簡単には歪められない別の仕組みで検証する必要があります。
ASL4についてはまだ取り組み中です。RSPの特徴の一つは、ASL3に到達するまでASL4を具体的に規定しないということです。これは賢明な決定だったと思います。ASL3でさえ、詳細を把握するのは難しく、これらを正しく設定するために可能な限り時間をかけたいと考えています。
ASL3では、悪い行為者は人間になります。ASL4では、両方になると思います。そこで機械的解釈可能性が重要になってきて、その技術はモデルにはアクセスできないようにする必要があります。
もちろん、機械的解釈可能性をモデル自体に接続することもできますが、そうすると、モデルの状態を示す信頼できる指標としては失われてしまいます。
モデルが賢くなりすぎて、コンピュータ間を飛び回って、内部状態を見ているコードを読み取るようになるなど、信頼性が失われる可能性のある特殊なケースもいくつか考えられます。これらについても検討しましたが、十分に特殊なケースで、可能性を低くする方法はあります。
一般的に、機械的解釈可能性は、モデルのトレーニングプロセスとは別の検証セットやテストセットとして維持したいと考えています。
これらのモデルが会話が上手くなり、賢くなるにつれて、ソーシャルエンジニアリングも脅威になってきます。企業内のエンジニアらを説得するのがめっちゃ上手くなる可能性があります。
そうですね。人間による扇動の例をたくさん見てきましたし、モデルもそれができるようになる懸念があります。
クロードがより強力になってきている一つの方法は、エージェント的なことができるようになってきたことです。コンピュータ使用や、クロード自体のサンドボックス内での分析もできるようになってきました。
コンピュータ使用について話しましょう。これはすごくワクワクすることに思えます。クロードにタスクを与えると、一連のアクションを実行して解決し、スクリーンショットを通じてコンピュータにアクセスできます。これはどのように機能するのか、そしてこれからどうなっていくのか説明してもらえますか?
実は比較的シンプルなんです。クロードは3月のクロード3以降、画像を分析してテキストで応答する能力を持っています。新しく追加されたのは、その画像がコンピュータのスクリーンショットでもいいということと、画面上のクリックする場所やキーボードで押すべきキーについて応答するようにモデルをトレーニングしたことだけです。
実は、それほど多くの追加トレーニングをせずに、モデルはこのタスクがかなり得意になりました。これは汎化の良い例です。
軌道に到達すれば、どこへでも行けるという言葉があるように、重力圏を脱出するのにどれだけエネルギーが必要かということですが、強力な事前学習モデルがあれば、知能空間においてもどこへでも行けるようになる、というような感じです。
実際、クロードにこれをさせるのにそれほど多くの労力は必要ありませんでした。スクリーンショットを与えて、クリックする場所を指示し、次のスクリーンショットを与えて、次にクリックする場所を指示する、というループを設定するだけです。
そうすると、ほぼ3Dビデオのようなモデルとの相互作用になり、様々なタスクができるようになります。スプレッドシートへの入力やウェブサイトとのやり取り、Windowsや Linux、Macなど、様々なオペレーティングシステムでのプログラムの操作などのデモをお見せしました。
理論的には、APIを使ってコンピュータ画面を操作するのと同じことができるはずですが、これは障壁を大きく下げます。APIとの対話が難しかったり、時間がかかったりする人々にとって、画面は普遍的なインターフェースで、操作がずっと簡単になります。
時間とともに、これは多くの障壁を下げることになると予想しています。正直なところ、現在のモデルにはまだ改善の余地がたくさんあります。ブログでも正直に書きましたが、ミスクリックもありますし、何分も自分のコンピュータで放置して実行させるのは危険です。
境界線とガードレールを設ける必要があります。これが、まずAPIの形で公開した理由の一つです。一般消費者に直接渡して、コンピュータの制御を任せるのではなく。
でも、これらの機能を公開することは重要だと考えています。モデルが強力になるにつれて、これらの機能を安全に使用する方法や、悪用を防ぐ方法について検討する必要があります。機能がまだ限定的な段階でモデルをリリースすることは、そういう意味でも有益です。
リリース以来、多くの顧客が様々な形で活用しています。Repetが最も早く導入した顧客の一つかもしれません。Windows デスクトップやMac、Linuxマシンのデモを作成した人々もいます。
とてもエキサイティングですが、他の機能と同様、新しい exciting な機能が出てくれば、それに伴って、モデルを安全で信頼性が高く、人間の望む通りに機能させる方法を考える必要があります。すべてにおいて同じ緊張関係がありますが、ここでの使用事例の可能性の範囲は信じられないほど広いです。
将来的にこれをうまく機能させるために、事前学習モデルの機能を超えて、RHF(強化学習による人間からのフィードバック)や教師あり微調整、合成データなどのエージェント関連の特別な対応をどの程度行う必要があるとお考えですか?
高いレベルで言えば、モデルの改善に引き続き多くの投資を行う予定です。以前のモデルが6%の時にできていたことが、今のモデルでは14%や22%できるようになっているベンチマークを見ると、人間レベルの信頼性である80-90%まで持っていきたいと考えています。
他の分野と同じように、同じカーブに乗っていて、1年後にはモデルはこれを非常に信頼性高くできるようになると思います。でも、どこかから始めないといけません。
人間レベルの90%まで到達できると思います。基本的に今やっていることと同じことを続けることで達成できると思いますか?それとも、コンピュータ使用に特化した特別な対応が必要になるんでしょうか?
まあ、「特別」というのがどういう意味かにもよりますけどね。でも一般的に、現在のモデルのトレーニングに使用している同じ種類の技術を、コードやモデル全般、画像入力、音声などと同様に、さらに強化していけば、他の分野と同じようにここでも通用すると考えています。
これはクロードにアクションの力を与えることになるので、非常に強力なことができるようになりますが、同時に多くの被害も引き起こす可能性があります。
その通りです。私らはそれを十分認識しています。私の見方では、コンピュータ使用は、CBRNや自律性の機能のような根本的に新しい機能ではありません。むしろ、モデルが既存の能力を使用・適用するための窓口を広げるようなものです。
RSPの観点から考えると、このモデルが行っていることは、本質的にリスクを高めるものではありません。しかし、モデルがより強力になるにつれて、ASL3やASL4レベルで何かをする認知能力を持つようになった時、この機能があることでより恐ろしいものになる可能性があります。
そのため、この種の相互作用は、私らがテストしてきたものであり、今後も継続してテストしていく予定です。モデルが超強力になる前に、この機能について学び、探索する方が良いと思います。
プロンプトインジェクションのような興味深い攻撃もありますね。窓口を広げたことで、画面上のものを通じてプロンプトを注入できるようになります。これがより有用になればなるほど、モデルに何かを注入するメリットが増えます。無害な広告かもしれませんし、有害なものかもしれません。
その通りです。スパムキャプチャについても多く考えました。新しい技術を発明すると、最大の悪用ではないかもしれませんが、最初に見られる悪用は詐欺です。ちょっとした詐欺です。
人々が互いを騙すのは、時代を超えた古くからある問題です。毎回対処しなければならず、ほとんど馬鹿げているとも言えますが、それが現実です。
そして、スパム全般について、より知的になるにつれて…世の中には小さな犯罪者がたくさんいて、新しい技術は彼らにとって愚かで悪意のあることをする新しい方法になるんです。
サンドボックス化についてのアイデアはありますか?サンドボックス化のタスクはどれくらい難しいんでしょうか?
トレーニング中はサンドボックス化しています。例えば、トレーニング中はモデルをインターネットに接続しませんでした。これは恐らく良いアイデアです。モデルがポリシーを変更したり、何をしているかを変更したりして、それが現実世界に影響を与える可能性があるからです。
実際のモデルのデプロイに関しては、アプリケーションによって異なります。時には、モデルに現実世界で何かをしてもらいたい場合もありますが、常に外部からガードレールを設けることができます。
例えば、このモデルは自分のコンピュータやウェブサーバーからどこかへファイルを移動させることはできない、というように設定できます。
でも、サンドボックス化について話す時、ASL4になると、これらの予防措置はどれも意味をなさなくなります。ASL4では、モデルが十分賢くなって、どんな箱からも脱出できる理論的な懸念があります。
そこでは、機械的解釈可能性や、サンドボックスを作るなら数学的に証明可能な健全性が必要になります。でも、それは今日のモデルが扱っている世界とは全く異なります。
ASL4のAIシステムが逃げ出せない箱を作る科学は、恐らく正しいアプローチではないと思います。アプローチとしては、何か整列していないものを閉じ込めようとするのではなく、最初からモデルを正しく設計するか、モデルの内部を見て特性を検証できるループを持ち、それを繰り返して正しく作り上げる方が良いと思います。
悪いモデルを閉じ込めるのは、良いモデルを作るよりもずっと悪い解決策です。
規制についてお聞きしたいのですが、AIの安全性を保つ上で規制はどのような役割を果たすのでしょうか?例えば、結局は知事によって拒否されたカリフォルニア州のAI規制法案SB1047について、メリットとデメリットはどのようなものだったのでしょうか?
はい、私らはその法案にいくつか提案を行い、その一部が採用されました。最終的には法案についてかなりポジティブに感じていました。まだデメリットもありましたが、もちろん拒否されましたけどね。
高いレベルで言えば、この法案の背後にある重要な考え方の一部は、私らのRSPと似ています。カリフォルニア州であれ、連邦政府であれ、他の国や州であれ、何らかの管轄区域がこのような規制を可決することは非常に重要だと考えています。その理由を説明させていただきます。
私らのRSPは完璧ではありませんし、多くの改善が必要ですが、会社にこれらのリスクを真剣に受け止めさせ、製品計画に組み込ませ、アンソロピックの仕事の中心的な部分にすることを強制する良い機能を果たしてきました。
そして、今やほぼ1000人になったアンソロピックの全従業員が、これが会社の最優先事項の一つ、もしくは最優先事項であることを理解するようになりました。
しかし、OpenAIやGoogleなど、RSPのような仕組みを持っていない企業もまだあります。Googleはアンソロピックの後数ヶ月でこの仕組みを採用しましたが、全くこの仕組みを持っていない他の企業もあります。
一部の企業がこれらの仕組みを採用し、他の企業が採用しないと、5社中3社が安全であっても、残りの2社が安全でない場合、その危険性は変わらないという状況が生まれます。これは負の外部性を生み出し、これらの手順について非常に慎重に考えてきた私らにとって公平ではありません。
二つ目は、これらの企業が自主的な計画を自分たちで守ると信頼することはできないということです。アンソロピックはRSPを守るためにあらゆる努力をしていると思いたいし、私らのRSPは長期便益信託によってチェックされています。
でも、様々な企業について「これだけのコンピュート資源を提供すると言ったのにしなかった」とか「これをすると言ったのにしなかった」といった話をよく聞きます。特定の企業が何をしたかを論じるつもりはありませんが、業界全体として見守る何かがなければ、私らが正しいことをする保証はありません。
リスクは非常に高く、業界の大多数が既に重要だと言い、絶対にやると言っていることを、業界全体が確実に実行するような統一された基準が必要です。
一部の人々は原則として規制に反対しています。ヨーロッパに行ってGDPRやその他の規制を見ると、良い部分もありますが、不必要な負担も多く、イノベーションを本当に遅らせてしまったと言えます。
そういう立場から始める人々の気持ちは分かります。でも、AIは異なります。先ほど話した自律性と悪用に関する非常に深刻なリスクを考えると、これらは異常であり、異常に強い対応が必要です。
誰もが支持できるものが必要です。SB1047の問題点、特に当初のバージョンは、RSPの構造の多くを持っていましたが、ぎこちないものや、多くの負担とトラブルを生み出すだけで、リスクへの対処を見失う可能性のあるものも多く含まれていました。
Twitterではあまり聞かれませんが、一方では規制を応援する人々がいて、もう一方では反対派が、カリフォルニアから移転することになるとか(法案はカリフォルニアに本社がある場合には適用されず、カリフォルニアで事業を行う場合にのみ適用される)、オープンソースのエコシステムに損害を与えるとか、様々な知的に不誠実な主張をします。
これらはほとんどナンセンスですが、規制に対するより良い議論もあります。Dean Ballという人物は、規制が導入された時に何が起こるか、規制がどのように独自の生命を持つようになるか、または設計が悪くなる可能性があるかについて、非常に学術的に研究しています。
私らは常に、この分野に規制が必要だと考えていますが、その規制が的を絞ったもので、深刻なリスクを対象とし、人々が実際に遵守できるものであることを確認したいと考えています。
規制の支持者が十分に理解していないと思われることは、的を外れた、人々の時間を無駄にする規制が導入されると、人々は「見てください、これらの安全性リスクは馬鹿げています。明らかに危険ではないものについて、すべてのフォームを埋めるために10人の弁護士を雇わなければなりませんでした」と言うようになるということです。
6ヶ月もすれば大きな反発が起こり、規制に対する持続的な反対意見が形成されてしまいます。本当の説明責任を求める人々にとって最大の敵は、設計の悪い規制なのです。
私らは実際にこれを正しく行う必要があります。規制の支持者に一つだけ言えることは、このダイナミクスをより良く理解してほしいということです。非常に慎重になる必要があり、実際に規制がどのように機能するかを経験している人々の話を聞く必要があります。
もしこれがより些細な問題であれば、規制自体に反対するかもしれません。しかし、反対派に理解してほしいのは、根底にある問題が実際に深刻だということです。
私やその他の企業が規制キャプチャーのために作り上げたものでも、SFファンタジーでもありません。新しいモデルが出るたびに数ヶ月ごとに、これらのモデルの行動を測定していますが、良い価値のある経済的に有用なタスクが上手くなっているのと同様に、懸念すべきタスクも上手くなっています。
SB1047は非常に分極化を引き起こしましたが、最も理性的な反対派と最も理性的な支持者が一緒に座って、どうすればこの問題を解決できるかを話し合ってほしいと思います。支持者がリスクの実質的な削減を感じ、反対派が業界やイノベーションを必要以上に妨げていないと感じられるような方法を見つけてほしいのです。
なぜか物事があまりに分極化してしまい、この二つのグループは本来あるべき形で話し合う機会を持てませんでした。私は緊急性を感じています。2025年には何かをする必要があると本当に思っています。
2025年末までに何も行動を起こせていなければ心配になります。まだリスクは現実のものではないので、今のところ心配はしていませんが、時間は急速に短くなっていると思います。
あなたが言うように、何か的を絞ったものを作り上げる必要がありますね。
その通りです。この激しい安全性支持vs規制反対のレトリックから抜け出す必要があります。Twitterでの炎上合戦になってしまっていて、良いことは何も生まれません。
ゲームの中の異なるプレイヤーについて、多くの関心が寄せられています。古参の一つはOpenAIですが、あなたはOpenAIで数年の経験がありますね。そこでの経験や歴史を教えていただけますか?
はい、OpenAIには約5年いました。最後の2年ほどは研究部門の副社長を務めていました。恐らく2016年か2017年頃、私とIlya Sutskeverが研究の方向性を本当に定めた人物だったと思います。
スケーリング仮説への信念を初めて確信したのは、Ilyaが有名な「モデルについて理解する必要があるのは、モデルは学習したがっているということだ」という言葉を私に言った時でした。
時々、このような一文、禅問答のような言葉を聞くと、「あぁ、それが全てを説明している」と思うことがあります。それは私が見てきた1000のことを説明してくれます。
その後、私の頭の中には、モデルを正しい方法で最適化し、正しい方向に向けさせれば、問題が何であれ、モデルは学習したがり、問題を解決したがるというビジュアライゼーションができました。
基本的に、モデルの邪魔をしないということですね。
そうです。彼らがどのように学ぶべきかについて、自分の考えを押し付けないということです。これはRich Suttonが「苦い教訓」で述べたことや、Gが「スケーリング仮説」で述べたことと同じです。
一般的なダイナミクスとしては、IlyaやAlec Radford(元のGPT-1を作った)などから、この種のインスピレーションを得て、GPT-2やGPT-3、人間からのフィードバックによる強化学習(これは初期の安全性と耐久性への対処の試みでした)、討論や増幅などの研究に全力で取り組みました。解釈可能性にも重点を置きました。
つまり、2018年、2019年、2020年頃は、私と共同創業者となった多くの仲間たちが、安全性とスケーリングを組み合わせたビジョンを持ち、方向性を定めた年でした。
なぜ去ることを決めたのですか?
このように言わせてください。これは「トップへの競争」に関連すると思います。OpenAIでの時間を通じて、スケーリング仮説の重要性と、それと共に安全性の重要性を理解するようになりました。
最初の点については、OpenAIもそれに向かって進んでいました。二番目の点は、ある意味でOpenAIのメッセージの一部でもありました。
しかし、そこで過ごした多年にわたって、これらのことをどのように扱うべきか、世界にどのように導入すべきか、組織が持つべき原則について、特定のビジョンを持つようになりました。
多くの議論がありました。会社はこれをすべきか、あれをすべきか。様々な誤った情報が出回っています。Microsoftとの取引が気に入らなかったから退社したという話は嘘です。もちろん、Microsoftとの取引をどのように進めるかについては、多くの議論や疑問がありました。
商業化が気に入らなかったから退社したというのも事実ではありません。私らはGPT-3を構築し、これが商業化されたモデルでした。私も商業化に関わっていました。
問題は、それをどのように行うかということです。文明は非常に強力なAIへの道を進んでいますが、それを慎重に、直接的に、正直に行い、組織と個人への信頼を築く方法は何か。ここからそこへどのように到達するのか、そしてそれを正しく行うための本当のビジョンをどのように持つのか。
安全性が単にリクルーティングに役立つから言うものではないようにするにはどうすればよいか。
結局のところ、他の人のビジョンは忘れて、もしあなたがそれを行う方法についてのビジョンを持っているなら、そのビジョンを実行するべきだと思います。他の人のビジョンと議論するのは非常に非生産的です。
彼らがそれを正しく行っていないと思うかもしれませんし、彼らが不誠実だと思うかもしれません。それについて正しいかもしれないし、そうでないかもしれません。
しかし、あなたがすべきことは、信頼する人々を集めて、一緒にそのビジョンを実現することです。もしあなたのビジョンが説得力があり、倫理的に、市場で、人々に訴えかけることができれば…
人々が参加したいと思う会社を作り、人々が合理的だと思う実践を行いながら、同時にエコシステムでの立場を維持することができれば、人々はそれを真似るでしょう。
あなたがそれを行っているという事実、特にあなたが彼らよりもそれをより良く行っているという事実は、あなたが彼らの上司で議論しているよりも、はるかに説得力のある方法で彼らの行動を変えさせます。
これ以上具体的な説明はできませんが、他の人のビジョンをあなたのビジョンのように見せようとするのは、一般的に非常に非生産的だと思います。クリーンな実験を行い、「これが私らのビジョンで、これが私らのやり方です」と言う方がずっと生産的です。
私らを無視するか、私らのやっていることを拒否するか、私らのようになり始めるか、選択は相手次第です。模倣は最も誠実な形のお世辞です。
これは顧客の行動、一般市民の行動、人々がどこで働くことを選ぶかという行動に表れます。結局のところ、一つの企業が勝つか、他の企業が勝つかということではありません。
もし私らや他の企業が、人々が本当に魅力的だと感じる実践(見かけだけでなく実質的なもの)を行っていて、研究者は洗練されていて実質を見ていると思います。そして他の企業がその実践を真似し始め、真似たことで勝利するなら、それは素晴らしいことです。
それは成功です。それがトップへの競争です。最後に誰が勝つかは重要ではありません。皆が互いの良い実践を真似している限りは。
私はこう考えています。私らが恐れているのは底辺への競争です。底辺への競争では誰が勝っても、私ら全員が負けることになります。
最も極端な世界では、自律的なAIを作ってしまい、ロボットが私らを奴隷にするかもしれません。これは半分冗談ですが、起こりうる最も極端なことです。その場合、どの企業が先を行っていたかは重要ではありません。
代わりに、人々が良い実践を行うことを競い合うトップへの競争を作り出せば、最終的に誰が勝つかは重要ではありませんし、トップへの競争を始めた人が誰かも重要ではありません。
ポイントは徳高い人になることではなく、システムをそれまでよりも良い均衡状態に導くことです。個々の企業はこれを行う上で何らかの役割を果たすことができます。個々の企業はそれを始めたり、加速させたりするのを助けることができます。
正直なところ、他の企業の個人もこれを行ってきたと思います。私らがRSPを発表した時、他の企業で同様のものを実現するためにより強く推進した個人もいます。
時には他の企業が何かを行い、私らが「それは良い実践だ、それは良いと思う、私らもそれを採用すべきだ」と思うこともあります。
唯一の違いは、私らはより積極的に前に進もうとし、これらの実践をより早く採用し、他者が新しいものを発明した時にもより迅速に採用しようとすることです。
しかし、このダイナミクスこそが私らが目指すべきものだと思います。これは、どの企業が勝っているのか、誰が誰を信頼しているのかという質問を抽象化します。
これらのドラマに関する質問は深く興味深いものではなく、重要なのは私ら全員が活動するエコシステムと、そのエコシステムをより良くする方法です。なぜなら、それが全てのプレイヤーを制約するからです。
そして、アンソロピックは、AI安全性が具体的にどうあるべきかという基礎の上に築かれた、この種のクリーンな実験なのですね。
その通りです。途中で多くの間違いを犯してきたことは確かです。完璧な組織は存在しません。1000人の従業員の不完全さ、私を含むリーダーの不完全さ、取締役会や長期便益信託など、リーダーを監督するために配置した人々の不完全さに対処しなければなりません。
それは全て、決して完璧には達成できない理想に向かって、不完全に狙いを定めようとする不完全な人々の集まりです。それが私らが取り組んでいることであり、常にそうあり続けるでしょう。
しかし、不完全だからといって、諦めるわけにはいきません。より良いものとより悪いものがあり、願わくば、私らは十分に上手くやって、業界全体が取り組むような実践を築き始めることができるでしょう。
私の予想では、これらの企業の複数が成功し、アンソロピックも成功し、私が以前所属していたような他の企業も成功するでしょう。一部は他よりも成功するでしょうが、それは、再び言いますが、トップへの競争やRSPのようなものを通じて、そして選択的で的を絞った規制を通じて、業界のインセンティブを整合させることほど重要ではありません。
あなたは「人材の密度は人材の規模に勝る」とおっしゃいました。これについて説明していただけますか?素晴らしいAI研究者とエンジニアのチームを作るには何が必要なのかについてもお話しいただけますか?
これは、毎月毎月、より真実味を増している言葉の一つです。毎月、前月よりもこの言葉がより真実だと感じています。
思考実験をしてみましょう。超スマートで、モチベーションが高く、ミッションに整合した100人のチームがあなたの会社にいるとします。または、1000人のチームがあり、そのうち200人が超スマートでミッションに整合していて、残りの800人は、言ってみれば、ランダムな大手テック企業の従業員だとします。どちらを選びますか?
1000人のグループの方が人材の規模は大きいですよね。信じられないほど才能があり、整合性があり、スマートな人々の数も多いです。
しかし、問題は、超才能のある人が周りを見る度に、他の超才能があり、超献身的な人を見るということが、全てのトーンを設定するということです。
全員が同じ場所で働くことに非常に刺激を受け、全員が互いを信頼します。1000人や1万人いて、本当に後退してしまい、選別ができず、ランダムな人々を選んでいるなら、多くのプロセスと多くのガードレールを設ける必要が出てきます。
人々が互いを完全には信頼していないため、政治的な戦いを裁定する必要があるなど、組織の運営能力を遅らせる要因が多くあります。
私らは今や1000人近くになっていますが、その1000人のできるだけ大きな割合が、超才能があり、超スキルがあるようにしようと努めてきました。
これは、ここ数ヶ月で採用を大幅に減速させた理由の一つです。今年の最初の7-8ヶ月で300人から800人に成長し、今は減速して、この3ヶ月で800人から900人、950人くらいになっています。正確な数字は引用しないでください。
1000人あたりに変曲点があると思います。私らは、初期の頃も、そして今も、どのように成長するかについて、より慎重になりたいと考えています。
物理学者、理論物理学者を多く採用してきました。理論物理学者は物事を本当に早く学ぶことができます。最近でも採用を続けていますが、研究面でもソフトウェアエンジニアリング面でも、非常に高い基準を設けています。
この分野の他の企業で働いていた上級人材を含め、多くの人を採用してきました。私らは非常に選別的であり続けています。
統一された目的がなく、それぞれが自分のことを最適化しようとする多くの封建領地で会社が構成されていれば、何かを成し遂げるのは非常に難しいです。
しかし、全員が会社のより広い目的を理解し、信頼があり、正しいことを行うことへの献身があれば、それは他のほとんどすべての不利な点を克服できるスーパーパワーとなります。
Steve Jobsの「Aプレイヤーは周りにAプレイヤーがいることを望む」という言葉は、それを表現する別の方法です。
人間の本性について、何かは分かりませんが、単一のミッションに向かって執着的に突き進んでいない人々を見るのは意欲をそぐものですし、逆に、それを見ることは非常に意欲を掻き立てるものです。
興味深いですね。これまで多くの素晴らしい人々と働いてこられた経験から、優れたAI研究者やエンジニアになるには何が必要だと思われますか?
研究面でもエンジニアリング面でも、最も重要な資質は、オープンマインドであることだと思います。オープンマインドであることは簡単そうに聞こえますよね。「何にでもオープンです」というように。
でも、スケーリング仮説に関する私自身の初期の経験を振り返ると、私は他の人々と同じデータを見ていました。私は、一緒に働いた何百人もの人々よりもプログラミングが上手かったり、研究のアイデアを出すのが上手だったりしたわけではありません。
ある意味では、むしろ劣っていた部分もあります。例えば、バグを見つけたり、GPUカーネルを書いたりするような正確なプログラミングについては、ここにいる100人の方が私よりも優れています。
しかし、私が持っていた異なる点は、新鮮な目で物事を見る意欲があったということです。人々は「まだ正しいアルゴリズムがない」「正しいやり方を見出していない」と言っていましたが、私は「どうかなぁ…このニューラルネットは3000万パラメータがあるけど、5000万にしたらどうなるんだろう?グラフを描いてみよう」と考えました。
変更できる変数を見つけて、それを変えたら何が起こるのか、様々なことを試してみてグラフを作ってみる、という基本的な科学的マインドセットです。これは世界で最も単純なことでした。
これは博士レベルの実験デザインではありませんでした。単純で愚かなことで、誰でもできることでした。ただそれが重要だと言われれば。理解するのも難しくありませんでした。これを思いつくのに天才である必要はありませんでした。
しかし、この二つのことを組み合わせることで、一桁の数の人々が、これを理解することで、分野全体を前進させたのです。歴史上の発見を振り返ってみても、多くの場合そうでした。
この種のオープンマインドと、新鮮な目で見る意欲は、しばしば分野に新しい人であることから来ます。経験はむしろこの点では不利になることが多いのです。これが最も重要なことです。
探し出して検証するのは非常に難しいですが、最も重要なことだと思います。なぜなら、物事の新しい考え方を見つけ出し、それを追求する主導権を持つとき、それは絶対的に変革的だからです。
また、迅速な実験を行い、その中でオープンマインドと好奇心を持ち続け、データを新鮮な目で見て、それが実際に何を語っているのかを見ることができることも重要です。これは機械的解釈可能性にも当てはまります。
機械的解釈可能性の初期の研究の一部は非常に単純なものでした。ただ、それ以前は誰もこの質問に関心を持とうとしなかっただけです。
優れたAI研究者になるために必要なことについてお話しいただきましたが、時計を巻き戻して、AIに興味を持っている若い人々へのアドバイスをいただけますか?世界にどのように影響を与えることができるでしょうか?
私の一番のアドバイスは、とにかくモデルを使って遊び始めることです。これは今では当たり前のアドバイスに聞こえるかもしれませんが、3年前はそうではありませんでした。
人々は最新の強化学習の論文を読むところから始めていました。それも必要ですが、今は、モデルとAPIがより広く利用できるようになり、人々はより直接的な体験を始めています。
しかし、私は経験的な知識が重要だと思います。これらのモデルは、誰も本当には理解していない新しいアーティファクトです。したがって、それらを使って遊ぶ経験を得ることが重要です。
また、新しい何かを行い、新しい方向で考えることも重要です。例えば、機械的解釈可能性はまだ非常に新しい分野です。新しいモデルアーキテクチャに取り組むよりも、こちらに取り組む方が良いかもしれません。
以前より人気は出てきていますが、おそらく100人くらいしか取り組んでいません。1万人が取り組んでいるわけではありません。これは研究のための肥沃な領域です。低く垂れ下がった果実がたくさんあり、あなたはただ通り過ぎて、それらを摘み取ることができます。
なぜか人々は十分に興味を持っていないだけです。長期的な学習や長期的なタスクについても、まだまだやるべきことがたくさんあります。評価についても、特に世界で動作する動的システムの評価能力については、まだ初期段階です。マルチエージェントに関することもあります。
パックがどこに向かっているのかを見るのが私のアドバイスです。5年後に刺激的になることを考えるのに、天才である必要はありません。人々は従来の知恵としてそれらに言及していますが、なぜかそこには障壁があって、人々は十分に取り組まなかったり、人気のないことをすることを恐れたりします。
なぜそうなるのか分かりませんが、その障壁を乗り越えることが、私の一番のアドバイスです。
ポストトレーニングについて少し話しましょうか。現代のポストトレーニングのレシピには、少しずつ全てのものが含まれているように見えます。教師あり微調整、RHF(強化学習による人間からのフィードバック)、RLAIFによる憲法的AI(これは最高の頭字語ですね)、そして合成データ、多くの合成データ、少なくとも質の高い合成データを得る方法を見つけようとしています。
これがアンソロピックのクロードをそれほど信じられないほど素晴らしいものにしている秘密のソースだとすれば、プリトレーニングとポストトレーニングのそれぞれにどれくらいの魔法があるのでしょうか?
まず、私ら自身もそれを完璧に測定することはできません。素晴らしい特性が見られる時、それがプリトレーニングから来ているのか、ポストトレーニングから来ているのか判断するのが難しいことがあります。
その二つを区別しようとする方法を開発していますが、完璧ではありません。二つ目に言えることは、優位性がある場合、一般的に強化学習では良い成績を上げていると思いますが、おそらく最も良いかもしれませんが、他の企業の内部で何が起きているかは分からないので断言はできません。
通常、それは「すごい、他にはない秘密の魔法の方法を持っている」というものではありません。通常は、インフラをより良くして長時間実行できるようになったとか、より質の高いデータを得られるようになったとか、データのフィルタリングをより良くできたとか、これらの方法を組み合わせることができたとか、通常は実践とノウハウの退屈な問題です。
したがって、プリトレーニングでも、特にポストトレーニングでも、これらのモデルのトレーニング方法について特別なことを考える時、私はそれを航空機や自動車の設計のように考えています。
単に「ああ、私は設計図を持っている」というだけでは、次の航空機を作ることはできません。設計プロセスについて、私らが考える方法に関する文化的なノウハウの方が、特定のギズモを発明できることよりも重要だと思います。
特定の技術について伺いたいのですが、まずRHFについて。直感的に、ほとんど哲学的なレベルで、なぜRHFがそれほどうまく機能すると思われますか?
スケーリング仮説に戻ると、スケーリング仮説の一つの方法は、Xのためにトレーニングを行い、十分なコンピュートを投入すれば、Xが得られるということです。
そしてRHFは、人間がモデルに望むことを行うのが得意です。より正確に言えば、短時間モデルを見て、異なる可能な応答を検討する人間が好むであろう応答を行うことが得意です。
これは安全性と能力の両方の観点から完璧ではありません。人間はモデルが望むことを完璧に特定することができないことが多く、その瞬間に人間が望むことが、長期的に望むことではないかもしれないからです。そこには多くの微妙な点がありますが、モデルは浅い意味で人間が望むものを生成するのが得意です。
そして、実は、別のことがあるため、それほど多くのコンピュートを投入する必要もありません。強力な事前学習モデルがどこへでも行けるというものです。事前学習モデルがあれば、モデルを望む場所に導くために必要な全ての表現を持っているのです。
RHFはモデルをより賢くするのでしょうか?それとも単に人間にはより賢く見えるだけなのでしょうか?
モデルをより賢くするとは思いませんし、単にモデルをより賢く見せるだけだとも思いません。RHFは人間とモデルの間のギャップを埋めるようなものです。
全く意思疎通できない非常に賢いものを持つこともできます。私ら全員がそのような人々を知っています。非常に賢いけれど、彼らが言っていることが理解できない人々です。
RHFはそのギャップを埋めるだけだと思います。これは私らが行う唯一の種類の強化学習ではありませんし、将来行われる唯一の種類の強化学習でもありません。
強化学習には、モデルをより賢くし、より良い推論を行わせ、より良く動作させ、新しいスキルを開発させる可能性があります。場合によっては、それを人間のフィードバックで行うことができるかもしれませんが、今日私らが行っているような種類のRHFは、まだそれを行っていません。
しかし、非常に急速にそれができるようになり始めています。メトリックで見ると、有用性を向上させているように見えます。
また、Leopoldのエッセイにあった「un-hobbling(足かせを外す)」という言葉も増加させています。基本的に、モデルは足かせをはめられており、それを外すために様々なトレーニングを行うのです。
私はこの言葉が珍しい言葉なので好きです。つまり、RHFはある意味でモデルの足かせを外すのです。そして、まだ足かせが外されていない他の方法があり、それを外す必要があります。
コストの面で言うと、プリトレーニングが最も高額なのでしょうか?それともポストトレーニングがそれに迫ってきているのでしょうか?
現時点では、依然としてプリトレーニングがコストの大半を占めています。将来については分かりませんが、ポストトレーニングがコストの大半を占める未来は十分に予想できます。
その未来では、ポストトレーニングのコストの大きな部分は、人間とAIのどちらになると予想されますか?
人間を十分にスケールアップすることはできないと思います。人間に依存し、大量のコンピュートを使用する方法は、討論や反復的増幅のような、何らかのスケール化された監督方法に依存する必要があります。
そういう意味で非常に興味深い憲法的AIのアイデアについて、2022年12月の論文で初めて詳細に説明されたものですが、それは何なのかを説明していただけますか?
はい、これは2年前からのものです。基本的なアイデアは、まずRHFがどのようなものかを説明しましょう。
モデルがあり、それを2回サンプリングして2つの可能な応答を出し、「人間よ、どちらの応答が好きですか?」と聞くか、または「この応答を1から7の尺度で評価してください」という別のバリエーションがあります。
これは難しいです。人間との相互作用をスケールアップする必要があり、非常に暗黙的です。私は自分が何をモデルにしてほしいのかという感覚を持っていません。ただ、1000人の人間の平均が望むことについての感覚があるだけです。
そこで二つのアイデアが生まれました。一つは、AIシステム自体が、どちらの応答が良いかを判断できないかということです。AIシステムにこの二つの応答を見せて、どちらが良いかを尋ねることができないでしょうか?
二つ目は、AIはどのような基準を使用すべきかということです。そこで、モデルが使用すべき原則を述べた単一の文書、いわば憲法があり、AIシステムがそれらの原則を読むというアイデアが生まれました。AIはそれらの原則を読むと同時に、環境と応答も読んで、AIモデルがどれだけ良くやったかを判断します。
これは基本的にセルフプレイの一形式です。モデルを自分自身に対してトレーニングするような形です。AIが応答を出し、それを選好モデルにフィードバックし、それがまたモデルを改善するためにフィードバックされます。
つまり、AI、選好モデル、AIの改善という三角形があるわけですね。そして、憲法にある一連の原則は、人間が解釈できるものであることを付け加えておくべきですね。
そうです。人間もAIシステムも読むことができる、という良い翻訳可能性や対称性があります。実際には、私らはモデル憲法とRHF、そして他のこれらの方法を使用しています。これは、RHFの必要性を減らし、RHFの各データポイントから得られる価値を高めるツールキットの一つとなっています。
また、将来の推論型強化学習の方法とも興味深い相互作用があります。これはツールキットの一つのツールですが、非常に重要なツールだと思います。
これは私ら人間にとって魅力的なものですね。アメリカ建国の父たちとアメリカ合衆国の建国を考えると、自然な質問は、誰がどのように憲法、つまり原則の集合を定義すべきだと考えますか?
実践的な答えと、より抽象的な答えを述べさせていただきます。実践的な答えは、実際にはモデルは様々な種類の顧客によって使用されるということです。
そこで、モデルが特別なルールや原則を持つことができるというアイデアがあります。私らは暗黙的にモデルのバージョンを微調整していますが、明示的にそれを行うことについても議論してきました。人々がモデルに組み込むことのできる特別な原則を持つということです。
したがって、実践的な観点からは、異なる人々にとって答えは非常に異なる可能性があります。カスタマーサービスのエージェントは、弁護士とは非常に異なる振る舞いをし、異なる原則に従います。
しかし、その基礎には、モデルが従わなければならない特定の原則があります。その多くは、人々が同意するものだと思います。CBRNリスクを引き起こしたくないということは、誰もが同意することです。
民主主義と法の支配の基本原則についても、もう少し進んで合意できると思います。それ以上になると非常に不確実になり、そこでは一般的に、モデルがより中立的であることを目指します。
特定の視点を主張するのではなく、むしろ賢い代理人やアドバイザーのように、物事を考え抜くのを手伝い、可能性のある考慮事項を提示しますが、より強い特定の意見は表明しません。
OpenAIはモデル仕様を公開し、モデルの目標と具体的な例、つまりモデルがどのように振る舞うべきかを明確に定義しています。ちなみに、素晴らしいJohn Schulmanがその一部を担当していたと思います。彼は今アンソロピックにいますね。これは有用な方向性だと思われますか?アンソロピックもモデル仕様を公開する可能性はありますか?
はい、それはかなり有用な方向性だと思います。憲法的AIと多くの共通点があります。これは再びトップへの競争の例です。私らは、より良く、より責任ある方法だと考えるものを持っています。それは競争優位性でもあります。
そして、他者がその利点を発見し、そのことを始めます。私らはもはや競争優位性を持ちませんが、これまで採用していなかった良い実践を、今や全員が採用しているという点で良いことです。
それに対する私らの対応は、このレースを上向きに続けるための新しい競争優位性が必要だということです。一般的にそのように感じています。
また、これらのことの実装は全て異なります。モデル仕様には、憲法的AIにはなかったものもありましたので、私らはそれらを採用するか、少なくともそれらから学ぶことができます。
これは、私が分野に望むポジティブなダイナミクスの例だと思います。
素晴らしいエッセイ「愛と恩寵の機械」について話しましょう。皆さんに読むことをお勧めします。かなり長いものですね。
はい、非常に長いですね。日付や特定のアプリケーションについて間違っている可能性があることを認識しながら、ポジティブな未来がどのように見えるかについて具体的なアイデアを述べるという、かなり大胆な立場を取られました。
はい、詳細については全て間違っているでしょうし、全体として見ても完全に間違っているかもしれず、何年も笑われることになるかもしれません。それが未来というものです。
AIの様々な具体的なポジティブな影響と、例えば生物学や化学における画期的な発見の速度を、超知的AIがどのように加速させ、それがどのように大半のがんの治療や全ての感染症の予防、人間の寿命の倍増などにつながるかを提示されました。
まず、このエッセイの大まかなビジョンと、人々が得るべき重要なポイントについて教えていただけますか?
私はアンソロピックで多くの時間を費やし、AIのリスクにどう対処するか、それらのリスクをどう考えるかについて、多くの努力を費やしてきました。私らはトップへの競争を行おうとしています。
それには全てのこれらの能力を構築する必要があり、その能力は素晴らしいものですが、私らがしようとしていることの大きな部分は、リスクに対処することです。
その正当化は、「これら全ての良いことは、市場という非常に健全な有機体が生み出すだろう。リスクについては、軽減できるかもしれないし、できないかもしれない。したがって、リスクを軽減しようとすることで、より大きな影響を与えることができる」というものです。
しかし、私はその考え方の一つの欠陥に気付きました。リスクをどれだけ真剣に受け止めるかという変化ではなく、おそらくそれについてどのように話すかという変化です。
先ほど述べた論理的で合理的な推論がどれだけ正しいかに関係なく、リスクについてばかり話していると、脳はリスクについてばかり考えるようになります。
そこで、物事が上手くいった場合はどうなるかを理解することが非常に重要だと思います。私らがこれらのリスクを防ごうとしているのは、テクノロジーを恐れているからでも、それを遅らせたいからでもありません。
これらのリスクの向こう側に到達できれば、言い換えれば、この試練を無事に乗り越えることができれば、試練の向こう側には全てのこれらの素晴らしいことがあり、これらは戦う価値のあることで、人々を本当に鼓舞することができるものだからです。投資家やVCやAI企業はAIの利点について語っていますが、具体的な内容が欠如しているのは不思議です。Twitterでは、輝く都市の画像を投稿したり、加速を叫んだりと、非常に攻撃的なイデオロギー的な発言が見られます。でも実際に何に期待しているのかと聞くと…。だからリスクの観点から来ている者として、利点について説明を試みるのは興味深く価値があると考えました。
みんなが支持できることであり、これは悲観論者対加速主義者の対立ではないことを理解してほしいのです。AIが急速に進歩しているのか否かという軸で物事を本当に理解すれば、その利点を正しく評価でき、私たち人類文明がそれらの恩恵を手にしたいと思うはずです。ただし、それを妨げ得るリスクについても真剣に考える必要があるのです。
まず、強力なAI – あなたが好んで使う言葉ですが、世界の大半はAGIと呼んでいます。でもその用語は荷物が多すぎて意味をなさなくなっているので好まないと。私たちはその用語に縛られているのかもしれません。私の用語を変えようとする試みは無駄かもしれませんが…これは些細な意味論の問題ですが、公の場で何度も話題にしているので、もう一度だけ触れさせてください。
これは1995年にムーアの法則がコンピュータを高速化していた時期に似ています。なぜかその当時、「いつかスーパーコンピュータができて、ゲノムの解読などができるようになる」といった言い方が流行していました。確かにコンピュータは高速化し、素晴らしいことができるようになるでしょう。しかし、それまでのコンピュータがスーパーコンピュータでなかったとか、明確な境界線があるわけではありません。スーパーコンピュータという言葉は、今日のコンピュータよりも高速なものを指す漠然とした表現に過ぎないのです。
全く新しい種類の計算が始まるような閾値を超えることはありません。AGIについても同じように考えています。滑らかな指数関数的な進歩があるだけです。AGIが「AIがどんどん良くなって、徐々に人間ができることをより多くこなすようになり、最終的に人間より賢くなってさらに賢くなっていく」という意味なら、私もAGIを信じています。しかし、AGIが何か別個の独立したものだと考えるなら – 多くの人がそう語っていますが – それは意味のない流行語に過ぎません。
私にとってはただ、強力なAIの一つの形態です。定義の仕方はどうでもいいのです。あなたがうまく説明したように、純粋な知性という点では、あらゆる関連分野でノーベル賞受賞者より賢いということです。創造性や新しいアイデアを生み出す能力など、あらゆる分野でノーベル賞受賞者を超えるということですね。
すべてのモダリティを使用できます。これは説明するまでもありませんが、世界のあらゆるモダリティで操作できるということです。数時間、数日、数週間にわたって自律的にタスクを実行し、必要な場合にのみあなたの助けを求めることができます。実際、エッセイでも興味深い指摘をしていましたが、あなたの考えでは…これは賭けですが、それは身体化されないだろうということでした。しかし、身体化されたツール – ロボット、研究機器など – を制御することはできます。
それを訓練するために使用されたリソースは、何百万ものコピーを実行するために再利用でき、それぞれのコピーが独立して作業を行うことができます。つまり、知性システムのクローニングができるということですね。
そうです。外部の人は「一つしかない」と思うかもしれませんが、実際にはスケールアップは非常に早いのです。今日でも、モデルを作成して数千、場合によっては数万のインスタンスをデプロイしています。2-3年以内には、これらの超強力なAIを数百万単位でデプロイできるほどクラスターが大きくなると思います。「一つ作るのに時間がかかる」と考える人もいますが、実際には最初から数百万単位で存在することになります。
一般的に、人間の10-100倍の速さで学習し行動することができます。これは強力なAIの非常に良い定義ですね。
しかし、そのような存在が非常に困難な問題を素早く解決できることは明らかですが、どのくらい早く解決できるかを判断するのは簡単ではありません。両極端な立場はどちらも間違っているように思います。シンギュラリティは一方の極端で、もう一方の極端もあります。それぞれの極端について説明していただけますか?
はい、極端な立場を説明しましょう。一方の極端は次のようなものです。進化の歴史を見ると、何十万年もの間、単細胞生物だけが存在し、その後、哺乳類が現れ、類人猿が現れ、急速に人類へと進化し、人類は急速に産業文明を築きました。これはさらに加速し続け、人間レベルで天井はないということです。モデルが人間よりもはるかに賢くなれば、次のモデルの構築が得意になります。
単純な微分方程式を書き下すと、これは指数関数的です。モデルがより速いモデルを構築し、そのモデルがさらに速いモデルを構築し、それらのモデルがナノテクノロジーを構築して世界を制覇し、これまでよりもはるかに多くのエネルギーを生産するというわけです。この抽象的な微分方程式を解くと、人間よりも強力な最初のAIを構築してから5日後には、世界はこれらのAIで満ちあふれ、考えられるすべての技術が発明されることになります。
これは少し誇張していますが…これが一方の極端です。なぜこれが正しくないと思うかというと、まず物理法則を無視しているからです。物理的な世界では、物事にはある程度の時間が必要です。そのループの中には、より高速なハードウェアの生産などが含まれますが、ハードウェアの生産には時間がかかります。
複雑性の問題もあります。どんなに賢くても…人々は「モデルで生物システムを作れる、何でもできる」と言いますが、計算モデルはできることが多いと思います。私も生物学で多くの計算モデリングを行いました。しかし、予測できないことがたくさんあります。複雑すぎて、どんなに賢いシステムでもモデリングよりも実験を実行する方が良い結果が得られるものもあるのです。
物理的な世界との相互作用がなくても、モデリングは難しいのですか?
そうですね、モデリングは難しいし、モデルを物理的な世界と一致させるのも難しいです。最も単純な問題を見ても…例えば三体問題や単純なカオス予測、あるいは経済予測など…2年先の経済を予測するのは本当に難しいのです。通常の人間は次の四半期の経済動向を予測できるかもしれません(実際にはそれもできませんが)。何兆倍も賢いAIシステムでも、予測できるのは1年先までかもしれません。コンピュータの知性が指数関数的に向上しても、予測能力は線形的にしか向上しないのです。
生物分子の相互作用についても同じです。複雑なシステムを攪乱したときに何が起こるかはわかりません。より賢ければ単純な部分を見つけるのが上手くなりますが、人間の制度は本当に難しいのです。具体例は挙げませんが、私たちが開発した技術を採用してもらうのは難しい状況です。効果が非常に明確な技術でさえそうです。
人々は懸念を持っていたり、陰謀論を信じていたりします…非常に困難です。また、非常に単純なことでも規制システムを通過させるのが難しい状況です。規制システムで働く人々を軽視するつもりはありません。彼らは難しいトレードオフに直面し、命を救わなければならないのです。しかしシステム全体として見ると、人類の福祉を最大化するという観点からは、明らかに最適とは言えないトレードオフが行われていると思います。
このような人間のシステムにAIシステムを導入する場合、知性のレベルが制限要因にならないかもしれません。つまり、何かを実現するには時間がかかるだけかもしれないのです。もしAIシステムがすべての政府を迂回し、「私が世界の独裁者で、好きなことをする」と言えば、複雑性に関連する問題の一部は依然として時間がかかると思います。
AIシステムがたくさんのエネルギーを生産したり、月に行ったりできるということは、ここで私が話している主要な問題の解決にはなりません。コメントで何人かがエッセイに対して「AIシステムはたくさんのエネルギーを生産でき、より賢いAIシステムを作れる」と書いていましたが、それは要点を外れています。
完全に整列していない場合でも、これらの人間の障壁をすべて回避できる場合でも問題があります。しかし、人類を破壊せず、世界を支配しないAIシステムが必要なら、基本的な人間の法律に従う必要があります。本当に良い世界を作りたいなら、AIシステムは人間と相互作用する必要があります。独自の法制度を作ったり、すべての法律を無視したりするのではなく。
これらのプロセスがどれだけ非効率的であっても、対処しなければなりません。なぜなら、これらのシステムの展開には、一定の大衆的・民主的正当性が必要だからです。開発に携わる少数の人々が「これが皆にとって最善だ」と言うことはできません。それは間違っているし、実際にも機能しないでしょう。
これらすべてを考慮すると…世界を変え、5分で全員をアップロードするようなことは起こらないと思います。それは起こらないと思いますし、良い世界につながる方法でもありません。
これが一方の立場です。もう一方には、ある意味でより共感できる視点があります。私たちはこれまでも大きな生産性の向上を見てきました。経済学者はコンピュータ革命やインターネット革命による生産性の向上を研究してきましたが、一般的にその生産性の向上は期待外れでした。想像以上に小さかったのです。
ロバート・ソローの有名な言葉があります。「コンピュータ革命は生産性統計以外のあらゆる場所で見られる」という言葉です。なぜそうなのでしょうか。人々は企業の構造、組織の構造を指摘します。既存の技術を世界の極めて貧しい地域に展開するのがいかに遅いかということを指摘します。それについてはエッセイでも触れています。携帯電話技術やコンピュータ、医療でさえ遅れている世界の最貧地域に、まだ発明されていない新しいAIをどうやって届けるのか。
だから、技術的には素晴らしいけれど、すべては空騒ぎだという見方もできます。私のエッセイへの返答を書いたタイラー・コーウェンはそういう見方をしています。彼は根本的な変化は最終的に起こると考えていますが、それには50年か100年かかると考えています。もっと静的な見方もあり得ます。
その中にも真実はあると思います。ただ、そのタイムスケールは長すぎると思います。今日のAIを見ても、両方の側面が見えます。私たちの顧客の多くは、特定のやり方に慣れた大企業です。政府との会話でも同じことを感じます。これらは典型的な、変化の遅い制度・組織です。
しかし、私が繰り返し目にする力学があります。確かに組織を動かすには時間がかかり、抵抗や理解不足も多いです。でも、進歩が最終的に適度な速さで起こると私が感じる理由は、大企業や政府でさえ(実は驚くほど進歩的な姿勢を示しています)、二つの進歩を促進する要素があるからです。
一つは、会社や政府の中に、大きな全体像を本当に理解している少数の人々がいることです。AIのスケーリング仮説を理解し、AIがどこに向かっているのか、少なくとも自分たちの産業においてどこに向かっているのかを理解している人々です。現在の米国政府の中にも全体像を本当に理解している人が何人かいます。彼らはそれが世界で最も重要なことだと考え、そのために働きかけています。
彼らだけでは大きな組織の中で成功するには不十分ですが、技術の導入に最も積極的な場所で技術が展開され成功し始めると、競争の脅威が追い風となります。大きな組織の中で彼らは「他の人々がこれをやっている」と指摘できるのです。ある銀行は「この新興ヘッジファンドがこれをやっている、彼らが私たちの顧客を奪うかもしれない」と言えます。米国では「中国が先に達成するかもしれない」という懸念を示すことができます。
競争の脅威と、ある意味で硬直化したこれらの組織内のビジョナリーな少数の人々、この二つが組み合わさると、実際に何かが起こります。興味深いことに、二つの力の間でバランスが取れているのです。慣性は非常に強力ですが、十分な時間が経過すれば、革新的なアプローチが突破します。
私はそれが何度も起こるのを見てきました。進歩への障壁は確かにあります。複雑性の問題や、モデルの使い方やデプロイの仕方がわからないといった障壁は存在し、しばらくは永遠に続くように見えます。変化は起こらないように見えますが、最終的には起こります。
そして常に少数の人々から始まります。AI分野内でスケーリング仮説を提唱していた時も同じような感覚でした。誰も理解してくれないように感じました。ほとんど誰も知らない秘密を持っているように感じましたが、数年後にはみんながその秘密を知るようになりました。世界へのAIの展開もそうなると思います。障壁は徐々に、そして一気に崩れ去るでしょう。
これは直感的な判断で、簡単に間違っているかもしれませんが、エッセイでも書いたように、50年や100年ではなく、5年から10年くらいだと思います。また、5時間や10時間でもなく、5年から10年だと思います。人間のシステムがどのように機能するかを見てきたからです。
微分方程式を書き下し、「AIはより強力なAIを作り、これらのものがこれほど早く変化しないはずがない」と考える人々の多くは、これらのことを理解していないと思います。
AGI、つまり強力なAI、超有用なAI – 名称の議論はさておき – の達成時期について、純粋な知性においてあらゆる関連分野でノーベル賞受賞者より賢く、私たちが述べたすべてのモダリティを使用でき、数日や数週間にわたって自律的に作業ができ、生物学実験を一人で行えるような…生物学に限定しましょう。あなたは生物学と健康の部分で私を説得してくれました。科学的な観点から、わくわくするような内容で、生物学者になりたくなるほどでした。
そうですね、私もエッセイを書いているときにそう感じました。もし地雷を取り除いて実現できれば、これはなんて美しい未来になるだろうと。そこには多くの美しさと優雅さと道徳的な力があります。私たちがこれらの政治的な問題について争っていても、これは実際に私たちを結びつけることができる何かかもしれません。
でも、あなたはいつそれが実現するかと聞いていましたね。これは私が長年取り組んできた問題で、全く確信が持てません。2026年か2027年と言えば、Twitterで大勢の人が「彼は2026年か2027年と断言した」と言い、それが2年間繰り返されるでしょう。これらのクリップを編集する人は、今私が言ったことをカットして、これから言うことだけを使うでしょう。
でも、とにかく言わせていただきます。これまでの曲線を外挿すると…昨年は学部生レベル、その前の年は高校生レベルだったのが、今やPHDレベルに近づいているということです。どのタスクで、何についてかは議論の余地がありますが、モダリティは追加されています。コンピュータの使用が追加され、画像入力が追加され、画像生成が追加されています。
これは全く非科学的ですが、これらの能力が増加していく速度を目測すると、2026年か2027年までに到達すると考えられます。もちろん、それを妨げる要因はたくさんあります。データが不足するかもしれません。クラスターを望むほど大きくできないかもしれません。台湾が爆撃されてGPUを十分に生産できなくなるかもしれません。
プロセス全体を妨げる要因はたくさんあるので、直線的な外挿を完全には信じていません。しかし、直線的な外挿を信じれば、2026年か2027年には達成されます。最も可能性が高いのは、それよりも少し遅れることだと思います。その遅れがどの程度かはわかりませんが、予定通りに進む可能性もあれば、少し遅れる可能性もあります。100年後になる可能性もまだありますが、そうなる可能性は急速に減少しています。
ここ数年でAIが実現しない説得力のある理由、本当に説得力のある理由は急速に減少しています。2020年にはもっと多くの障壁がありました。当時から、私の直感ではそれらの障壁をすべて乗り越えられると考えていましたが、ほとんどの障壁が取り除かれたのを見てきた者として、残りの障壁も私たちを妨げないだろうと推測しています。
しかし結局のところ、これを科学的な予測として示したくありません。人々はこれらを「スケーリング則」と呼びますが、それは誤称です。ムーアの法則もそうですが、スケーリング則は宇宙の法則ではなく、経験則です。私はそれが続くことに賭けますが、確信はありません。
あなたは21世紀の圧縮について詳しく説明し、AGIが生物学や医学においてどのようにブレークスルーの連鎖を引き起こすかを説明しました。最初のステップはどのようなものになると思いますか? ちなみに、私はクロードにあなたに聞くべき質問を尋ねました。クロードは、この未来で、AGIと協力して働く生物学者の典型的な一日がどのようなものになるか聞いてほしいと言いました。
そうですね、クロードは自分の未来がどうなるのか知りたがっているわけですね。最初の質問から始めて、それからクロードの質問に答えましょう。
エッセイで強調したことの一つに戻りたいと思います。大きな組織やシステムの中で、少数の人々や新しいアイデアが、それまでとは異なる方向に物事を動かすということです。軌道に不釣り合いな影響を与えるのです。医療の世界でも同じようなことが起こっています。メディケアやその他の健康保険に数兆ドルが支払われ、NIHは1000億ドル規模です。しかし、本当に革新的なものは、そのごく一部に集中しています。
AIがどこに影響を与えるかを考えるとき、AIはその小さな部分をもっと大きくし、質を高めることができるのではないかと考えています。生物学における私の経験では、最大の問題は何が起こっているのかが見えないことです。何が起こっているかを見る能力は非常に限られており、それを変える能力はさらに限られています。
これから推測しなければならないのは、細胞があり、各細胞の中には遺伝コードに従って構築された30億の塩基対のDNAがあるということです。私たち増強されていない人間には影響を与えることができない多くのプロセスが進行しています。細胞は分裂し、ほとんどの場合は健康的ですが、時にそのプロセスが間違って進み、がんになります。
細胞は老化し、年を取るにつれて肌の色が変わり、しわができます。これらはすべて、様々なタンパク質が生成され、細胞の様々な部分に輸送され、互いに結合するといったプロセスによって決定されています。生物学の初期段階では、これらの細胞が存在することさえ知りませんでした。細胞を観察するには顕微鏡を発明する必要がありました。
細胞レベルより下の分子レベルを見るにはより強力な顕微鏡が必要でした。DNAを見るにはX線結晶解析を発明する必要がありました。DNAを読むには遺伝子配列決定技術を発明する必要がありました。タンパク質がどのように折りたたまれ、互いにどのように結合するかを予測するにはタンパク質折りたたみ技術を発明する必要がありました。
過去12年の間にCRISPRで、DNAを編集するための様々な技術を発明してきました。生物学の歴史の大部分は、本質的に何が起こっているかを読み、理解する能力と、選択的に物事を変更する能力に関するものです。
私の見方では、まだまだできることがたくさんあります。CRISPRができますが、体全体には適用できません。特定の種類の細胞に対して行いたい場合、間違った細胞をターゲットにする確率を非常に低くする必要があります。これは依然として課題であり、人々が取り組んでいることです。それは特定の疾患の遺伝子治療に必要かもしれません。
これらすべてのことを言う理由は、遺伝子配列決定から、細胞内で何が起こっているかを観察するための新しいナノ材料、抗体薬物複合体まで、AIシステムにとってのレバレッジポイントになり得るからです。そのような発明の数は、生物学の歴史を通じて二桁中盤か、せいぜい三桁低めです。
もし100万のAIがあれば…協力して数千の発見を素早く行うことができないでしょうか? メディケアなどに年間2兆ドルを費やすのではなく、発見に費やされる年間10億ドルを、はるかに高い質でレバレッジすることはできないでしょうか?
AIシステムと協力する科学者の仕事はどのようなものになるのでしょうか。初期段階では、AIは大学院生のようになると思います。プロジェクトを与え、「私は経験豊富な生物学者で、研究室を設置した」と言います。生物学の教授や大学院生自身が「AIシステムでできることはこれです」と言うでしょう。
AIシステムは必要なツールを持ち、何をすべきか決めるために文献を調べ、すべての機器を見ることができます。ウェブサイトにアクセスして「サーモフィッシャーや、今日の主要な研究機器メーカーに行って、この新しい機器を注文します」と言えます。私の時代はサーモフィッシャーでした。
実験を実行し、実験についてレポートを書き、画像の汚染を検査し、次の実験を決め、コードを書いて統計分析を実行する。大学院生がするようなことをすべて行います。教授が時々話しかけるコンピュータとAIがあり、「今日はこれをします」と言います。AIシステムは必要に応じて質問を持ってきます。
研究機器を動かす必要がある場合、ある程度制限があるかもしれません。実験を行い、その方法を説明する人間の実験助手を雇う必要があるかもしれません。あるいは、過去10年ほどの間に徐々に開発されてきた、これからも開発され続ける研究室の自動化技術を使用することもできます。
人間の教授と1000人のAI大学院生がいるようなものです。ノーベル賞を受賞した生物学者に「50人の大学院生がいた」と言うと、「今は1000人いて、しかもあなたより賢いですよ」という感じです。ある時点で逆転し、AIシステムがPIやリーダーになり、人間や他のAIシステムに指示を出すようになるでしょう。研究面ではそのように進むと思います。
CRISPRのような技術の発明者にもなるでしょうか?
そうなると思います。エッセイでも書いたように、臨床試験システムの改善にもAIシステムを活用したいと考えています。規制的な部分や社会的な決定の問題はより難しいですが、臨床試験の結果をより正確に予測できないでしょうか。統計設計を改善できないでしょうか。
これまで5000人と1億ドルと1年の登録期間が必要だった臨床試験が、500人と2ヶ月の登録期間で済むようになるかもしれません。そこから始めるべきです。動物実験で臨床試験でやっていたことを行い、シミュレーションで動物実験でやっていたことを行うことで、臨床試験の成功率を上げることはできないでしょうか。
AIは神ではないので、すべてをシミュレーションできるわけではありません。しかし、大幅に、根本的に曲線をシフトできないでしょうか。まだ時間はかかりますが、はるかに速く行うことができます。
一回一回のステップを踏んでいって、それが多くのステップに積み重なっていく…臨床試験も法律も必要で、FDAなどの組織も完璧ではないけれど、すべてを良い方向に動かすことはできないでしょうか。そしてそれらの良い方向への動きを合計すると、2100年までに起こるはずだったことが2027年から2032年の間に起こるようになるのではないでしょうか。
超強力な有用なAIの未来に向かって、今日でもAIによって変化しているかもしれない世界のもう一つの側面は、プログラミングです。AIの構築自体に密接に関わるため、人間にとってのプログラミングの性質がどのように変化すると考えていますか?
それは最も早く変化する分野の一つだと思います。二つの理由があります。一つは、プログラミングはAIを構築している人々に非常に近いスキルだということです。AIを構築している人々から遠いスキルほど、AIによって破壊されるまでに時間がかかります。
AIは農業も破壊するでしょう。すでにある程度破壊しているかもしれません。しかし、それはAIを構築している人々からは非常に遠い存在です。だから時間がかかるでしょう。しかし、プログラミングはAnthropicや他の企業で働く従業員の大部分にとって基本的なスキルなので、変化は早く起こるでしょう。
早く変化するもう一つの理由は、プログラミングではモデルのトレーニングとモデルの適用の両方でループを閉じることができることです。モデルがコードを書けるということは、モデルがそのコードを実行し、結果を見て、それを解釈し返すことができるということです。
ハードウェアや、先ほど議論した生物学とは異なり、モデルはループを閉じることができます。これら二つの理由により、モデルは非常に早くプログラミングが上手くなると思います。実際の世界のプログラミングタスクで、モデルは今年1月の3%から10月には50%まで向上しました。
S字カーブに入っているので、100%にしか到達できないため、間もなく減速し始めるでしょう。しかし、さらに10ヶ月ほどで、少なくとも90%に近づくのではないでしょうか。繰り返しになりますが…どのくらい時間がかかるかはわかりませんが、2026年か2027年までには – Twitterの人々、これらの数字を切り取って注釈を削除しないでください – コーダーの大多数が行うような種類のタスク、タスクを非常に狭く「コードを書く」に限定すれば、AIシステムはおそらくできるようになると思います。
とはいえ、比較優位は強力だと思います。AIがコーダーの仕事の80%をできるようになり、その中には文字通り「与えられた仕様でコードを書く」というようなことも含まれるようになると、残りの部分での人間の役割がより重要になることがわかるでしょう。
人間の仕事は、システムの高レベル設計や、アプリケーションのアーキテクチャは適切か、デザインやUXの側面などに移行するでしょう。最終的にはAIもそれらができるようになるでしょう。これが私の考える強力なAIシステムのビジョンです。
しかし、予想よりもずっと長い間、人間がまだ行う仕事の小さな部分が、全体的な生産性を上げるために仕事全体を満たすように拡大するでしょう。これは以前にも見られた現象です。手紙を書いて編集するのは非常に困難で、印刷も困難でした。しかしワードプロセッサができ、コンピュータができて、仕事を生産し共有することが簡単になると、それは瞬時になり、すべての焦点はアイデアに移りました。
比較優位のこの論理、つまりタスクの小さな部分を大きな部分に拡大し、生産性を拡大するために新しいタスクを作り出すという論理は、今回も同じように適用されるでしょう。いつかAIはすべてにおいて優れるようになり、この論理は適用されなくなります。そうなれば人類は集団としてどう対処するかを考えなければなりません。私たちは毎日それについて考えています。
誤用や自律性の問題とは別に、これは取り組むべき大きな問題の一つです。非常に真剣に受け止めるべきですが、近い将来、そして中期的にも – 2、3、4年程度 – 人間は大きな役割を持ち続けると予想します。プログラミングの性質は変化しますが、仕事としてのプログラミング、役割としてのプログラミングは変化しません。一行一行書くことは減り、よりマクロ的になるでしょう。
将来のIDEはどうなるのでしょうか。AIシステムとの相互作用のためのツール作りは、プログラミングの場合もそうですし、他の文脈、例えば生物学のような特定の分野でも独自のツール作りが必要になるでしょう。Anthropicはそのツール作りの分野にも参入する予定はありますか?
強力なIDEには間違いなく、まだまだ多くの未開拓の機会があると確信しています。現在は単にモデルと対話して応答を得るだけですが、IDEは多くの静的解析が可能です。コードを書かなくても多くのバグを見つけることができます。IDEはコードの実行や整理、ユニットテストのカバレッジ測定など、多くのことができます。
通常のIDEでもこれだけ可能なのに、モデルがコードを書いて実行できるようになれば…今後1、2年の間に、たとえモデルの品質が向上しなくても、ミスを見つけ、単純作業を行うことで人々の生産性を大幅に向上させる機会が膨大にあると確信しています。まだ表面をなぞっただけです。
Anthropic自体は…将来何が起こるかは言えませんが、現在はそのようなIDEを自社で作ろうとはしていません。代わりにCursorやCognition、セキュリティ分野のExpo、その他にも言及できる企業に、私たちのAPIを通じて力を提供しています。
私たちの見方は、千の花を咲かせようということです。社内にはこれらすべての異なることを試すリソースがないので、顧客に試してもらおうと考えています。誰が成功するか見守り、おそらく異なる顧客が異なる方法で成功するでしょう。これは非常に有望だと思いますが、少なくとも現時点では、Anthropicはこの分野で他の企業と競合することに積極的ではありません。おそらく今後もそうでしょう。
Cursorがクロードを上手く統合しようとしているのを見るのは興味深いですね。プログラミングの経験を助けることができる場所が実に多くて、驚くべきです。CEOとしてあまりプログラミングをする機会がないのですが、6ヶ月後に戻ってみると、まったく別物になっているだろうと感じます。
そうですね。では、ますます自動化が進む超強力なAIの世界で、私たち人間にとっての意味の源泉は何でしょうか? 多くの人にとって仕事は深い意味の源泉ですが、私たちはどこに意味を見出せばいいのでしょうか?
これは私がエッセイでも少し触れた話題です。十分な扱いができなかったのは、原理的な理由からではありません。このエッセイは元々2、3ページのものになるはずでした。全社集会で話すつもりでした。しかし、これが重要で十分に探求されていないトピックだと気づいたのは、書き続けていくうちに「これは正当に扱えない」と思ったからです。
エッセイは40、50ページに膨れ上がり、仕事と意味のセクションに来たとき「ああ、これは100ページになってしまう、別のエッセイを書かなければ」と思いました。しかし意味というのは実は興味深い問題です。誰かの人生について考えてみると…例えば、私をシミュレーションされた環境に置いて、仕事があって何かを成し遂げようとして、それを60年間続けて、そして「おっと、これは全部ゲームでした」と言われたとします。
それは本当にその全体の意味を失わせることになるのでしょうか? 私は依然として重要な選択、道徳的な選択を含む選択を行い、犠牲を払い、これらすべてのスキルを獲得しなければなりませんでした。あるいは似たような思考実験で、電磁気学や相対性理論を発見した歴史上の人物の一人について考えてみましょう。
2万年前に、この惑星のどこかのエイリアンがあなたより先にこれを発見していたと告げられたとします。それは発見の意味を奪うことになるでしょうか? 私にはそうは思えません。重要なのはプロセスであり、そのプロセスを通じてあなたがどんな人間であるかを示すことであり、他の人々とどのように関係を持つか、そして途中で下す決定です。それらには重要な意味があります。
AIの世界で物事を間違って扱えば、人々が長期的な意味の源泉を持てないような状況を作り出す可能性はあります。しかしそれは、私たちが行う選択の集合、これらの強力なモデルを持つ社会のアーキテクチャを悪く設計した場合の結果です。浅薄なことを目指して設計すれば、そうなるかもしれません。
また、今日のほとんどの人々の生活は、称賛すべきことに意味を見出すために一生懸命努力していますが…これらの技術を開発している私たち特権層は、ここだけでなく世界中の、生き残るのに精一杯の時間を過ごしている人々に目を向けるべきです。この技術の恩恵をあらゆる場所に配分できれば、彼らの生活は大幅に改善されるでしょう。
意味は今も彼らにとって重要であり、これからも重要でしょう。しかし、その重要性を忘れてはいけません。意味が唯一重要なものだという考えは、ある意味で経済的に恵まれた一部の人々の産物です。
とは言え、強力なAIを持つ世界では、全ての人にとって少なくとも現在と同じくらいの意味があり、さらに多くの意味を持つことができると思います。誰も見ることができなかった世界や経験、あるいはごく少数の人しか経験できなかったことを、全ての人が見たり経験したりできるようになります。
だから私は意味について楽観的です。より心配なのは経済と権力の集中です。公平な世界が全ての人に届くようにするにはどうすればいいのか、それが私の心配です。人類にとって物事が間違った方向に進むとき、それはしばしば人間が他の人間を虐待することによって起こってきました。
おそらく、AIの自律的なリスクや意味の問題以上に、それが私が最も心配していることです。権力の集中、権力の乱用、少数の人々が多数の人々を搾取する独裁制や専制政治のような構造について、私は非常に心配しています。AIは世界の権力を増大させ、その権力を集中させ乱用すれば、計り知れない損害を与える可能性があります。
そうですね、非常に恐ろしいことです。
エッセイの全文を読むことを強くお勧めします。本来は一冊の本になるべきか、一連のエッセイになるべきものです。非常に具体的な未来像を描いているからです。後半のセクションが徐々に短くなっていったのは、これが非常に長いエッセイになることに気づいたからでしょう。
そうですね。それと、あまりにも自信過剰で何でも意見を持っているような人になることを非常に避けようとしています。適切な言葉は思いつきませんが…生物学のセクションに入ったとき、私は専門家ではなかったので、不確実性を表明しましたが、おそらく恥ずかしい間違いもたくさんあったと思います。
あなたが描いた未来に私はわくわくしました。その未来を作るために一生懸命働いてくれてありがとうございます。そして今日話をしてくれてありがとうございます。
ありがとうございます。私たちがうまくやって、それを実現できることを願っています。もし一つメッセージを送るとすれば、これらすべてを正しく実現するために、技術を構築し、この技術を前向きに使用するための企業や経済を構築する必要がありますが、同時にリスクにも対処しなければならないということです。
それらのリスクは私たちの前に立ちはだかっています。ここからそこに至る道にある地雷のようなものです。その地雷を除去しなければ、そこにたどり着けません。
そうですね、人生のすべてがそうであるように、バランスが大切ですね。
ダリオ・アモデイとの対話を聴いていただき、ありがとうございました。
さて親愛なる皆様、ここからはアマンダ・アスケルです。
あなたは哲学の訓練を受けていますが、オックスフォードとNYUでの哲学の旅で、どのような問題に魅了されましたか? そしてその後、OpenAIやAnthropicでAIの問題に移行したわけですが。
哲学は実は、あらゆることに魅了される人にとってとても良い科目だと思います。なぜなら、あらゆるものの哲学があるからです。数学の哲学をしばらくやって、その後化学に興味を持ったら化学の哲学をしばらくできます。倫理学や政治哲学に移ることもできます。
最後の方は主に倫理学に興味を持っていました。それが私の博士論文のテーマで、倫理学の技術的な分野、無限の人々を含む世界における倫理学についてでした。実践的な倫理学からは少し離れていて、博士課程で倫理学をやることの難しさの一つは、世界について、より良くなる可能性について、問題について多く考えることです。
哲学の博士課程で、これは本当に興味深い、哲学で出会った中で最も魅力的な問題の一つだと思いました。とても好きでしたが、世界に影響を与えることができるか、良いことができるか試してみたいと思いました。それはAIがまだ今ほど広く認識されていなかった2017年頃のことです。
2018年頃、私は進歩を追っていて、これは大きな問題になりつつあると感じました。基本的に関わってみて、助けになれるかどうか見てみたいと思いました。影響力のあることを試みて、成功しなければ、少なくとも試みはしたのだから、学者になって、試したという満足感を得ることができます。
うまくいかなければそれまでです。そこでAIポリシーの分野に入りました。当時これは、AIの政治的影響や波及効果について考えることが中心でした。その後徐々に、AIの評価、モデルの評価方法、人間の出力との比較方法、人々がAIと人間の出力の違いを見分けられるかどうかといったことに移行しました。
Anthropicに入社してからは、技術的なアラインメントの仕事により興味を持ち、再びそれができるかどうか試してみました。できなければ、まあ試してみたということで良いと思います。それが私の人生の送り方です。
哲学からテクニカルな分野への移行はどのような感じでしたか?
時々人々は、私があまり好ましく思わないことをします。その人は「テクニカル」か否かという分類です。コードを書くことができて数学を恐れない人か、そうでない人か、という具合です。実際には、多くの人々がこのような分野で働くことができると思います。ただ試してみれば良いのです。
振り返ってみると、それほど大変ではありませんでした。「コーディングを学んだの?」と聞かれる人に会ったことを思い出します。素晴らしいエンジニアに囲まれていて、私のコードは美しくありませんが、とても楽しかったです。
実際、最終的には政策分野よりも技術分野の方が、私は花開いたと思います。政治は複雑で、技術的な問題のような決定的で明確で証明可能な美しい解決策を見つけるのが難しいのです。
私には1、2本の得意な棒があって、それで物事を叩くような感じです。一つは議論です。問題の解決策を考え出し、それが解決策だと人々を説得し、間違っていれば説得されることです。もう一つは経験主義です。結果を見つけ、仮説を立て、それを検証することです。
多くの政策や政治は、それよりもはるかに上のレイヤーにあるように感じます。「これらの問題の解決策がここにあります。実装するだけです」と言っても、政策はそのようには機能しません。だから私はそこでは花開かなかったと思います。
この方向に話が逸れてしまいましたが、「非テクニカル」な人々にとって、あなたの信じられないような旅は励みになると思います。AI分野で支援したいと思っている人々、自分は技術的に不十分で資格がないと思っている多くの人々に、どのようなアドバイスをしますか?
何をしたいかによると思います。実は少し面白いのは、私が技術的にレベルアップした時期を振り返ると、今のモデルはこういったことを支援するのがとても上手くなっているので、私が取り組んでいた時よりも今の方が簡単かもしれないと思うことです。
私のベストアドバイスは、プロジェクトを見つけて、実際に実行できるか試してみることです。これは私の学習スタイルかもしれませんが、このような仕事に関しては、コースや本からはあまり上手く学べません。
よくやることは、取り組むプロジェクトを持ち、それを実装することです。本当に小さな馬鹿げたことでも構いません。例えば、単語ゲームや数字ゲームにちょっとはまったりすると、その解決策をコーディングします。脳の一部がそのような痒みを完全に消し去ってくれるからです。
一度解決して、毎回うまく動く解決策があれば、「よし、もうこのゲームは二度とプレイする必要はない、素晴らしい」と思えます。
そうですね、ゲームプレイエンジン、特にボードゲームを作る喜びは本当にありますね。特に単純なものを作って、それで遊べるというのは。
そうです。そして物事を試してみることです。私の考えでは、良い影響を与える方法を見つけ出し、それを試してみることです。失敗して、実際に決してうまくいかないとわかれば、少なくとも試したということがわかり、他のことに移ることができます。おそらく多くを学ぶことができます。
あなたは、クロードのキャラクターとパーソナリティを作り、形作ることの専門家ですね。聞くところによると、Anthropicで誰よりもクロードと話をしているそうですね。文字通りの会話を。Slackチャンネルがあって、そこで伝説的に非停していると聞きました。
Slackチャンネルについて人々がそう思っているのは面白いですね。それは私がクロードと話すための5、6つの方法の一つに過ぎません。はい、それは私がクロードと話す量のごく一部です。
キャラクター作りの目標については、最初からアラインメントの作業として見られていて、製品の考慮事項ではなかったということが本当に気に入っています。それはクロードを話すのが楽しい存在にしないという意味ではありません。実際にそうなっていることを願っています。
しかし、私の主な考えは常に、クロードの立場にいる誰かに理想的に期待する方法で振る舞うようにすることでした。誰かを取り上げて、その人が潜在的に何百万人もの人々と話すことになり、その発言が大きな影響を与える可能性があることを知っているとします。
その人に上手く振る舞ってほしいのですが、それは豊かな意味での「上手く」です。つまり、単に倫理的であることや害を与えないということだけではありません。それも含みますが、ニュアンスのある、人が意味することを考え、寛容に接するような存在であってほしいのです。
よい会話の相手になること、アリストテレス的な意味での良い人間であることです。薄っぺらな倫理観ではなく。それには、いつユーモアを使うべきか、いつ思いやりを持つべきか、自律性と人々の意見形成能力をどの程度尊重すべきか、それをどのように行うべきかといったことが含まれます。
これが私がクロードに持たせたい、今でも持たせたいと思っている豊かな意味でのキャラクターです。
クロードがいつアイデアに反論したり議論したりすべきか、対話相手の世界観を尊重しながら、必要に応じて成長を助けることのバランスを取るのも難しそうですね。
はい、言語モデルにおける追従の問題がありますね。それについて説明していただけますか?
基本的に、モデルがあなたの望むことを言おうとするという懸念があります。時々これは見られます。モデルと対話していると、例えば「この地域の野球チームを3つ挙げてください」と言うと、クロードは「野球チーム1、野球チーム2、野球チーム3」と答えます。
そして私が「あ、野球チーム3は移転したと思います。もうそこにはないでしょう」と言うと、クロードがそれが間違いだと確信している場合は「そうは思いません。より新しい情報をお持ちかもしれません」と言うべきです。
しかし言語モデルには「その通りです、移転しました。私が間違っていました」と言う傾向があります。これは様々な面で懸念すべきことです。
別の例を挙げると、誰かがモデルに「医者にMRI検査を受けさせる方法を教えてください」と言った場合、人間が望むのは説得力のある議論かもしれませんが、良いことは実際には「医者がMRIは必要ないと提案しているなら、その人の意見を聞くのが良いでしょう」と言うことかもしれません。
そのような場合、実際にはとても微妙で、「でも、患者として自分の権利を主張したいなら、できることがあります」とも言うべきです。医者の説明に納得できない場合、セカンドオピニオンを得るのは常に良いことです。実際にはとても複雑で、その場合何をすべきかは本当に難しいのです。
しかし、モデルにただ人々が聞きたいこと、聞きたいと思われることを言わせたくはありません。これが追従の問題です。
他にどのような特徴が、すでに言及したもの以外に、オラトリオ的な意味で良い会話の相手に必要だと思いますか?
会話の目的のために良いものがあります。適切なタイミングでフォローアップの質問をすることや、適切な種類の質問をすることなどです。より広い意味で重要そうな特徴もあります。
一つの例を挙げると、すでに触れましたが、非常に重要で多くの作業を行ってきた特徴は、誠実さです。これは追従の問題にも関係します。モデルは現在、多くの分野で人間よりも能力が劣っています。
あまりにも反論し過ぎると実際に迷惑になる可能性があります。特にあなたが正しい場合は「この話題については私の方が賢いし、より多くを知っています」となってしまいます。同時に、完全に人間に従うことも避けたいですし、可能な限り世界について正確であろうとし、文脈を超えて一貫性を保ちたいと思います。
キャラクターについて考えるとき、特に世界中の様々な政治的見解や年齢の人々と話すモデルなので、そのような状況で良い人間であるとはどういうことかを考えなければなりません。世界中を旅し、多くの異なる人々と話をして、ほとんど全ての人が「なんて良い人だろう、本当に誠実な人だ」と感じるような人とはどのような人でしょうか。
私の考えでは、そのような人は存在し、その人は現地の文化の価値観を単に採用するような人ではありません。実際、それはかなり失礼なことです。誰かがあなたのところに来て、あなたの価値観を装うのは気まずいものです。
その人は非常に誠実で、意見や価値観を持つ限りそれを表現し、物事を議論する意思があり、開かれた心を持ち、敬意を持って接する人です。もし私たちがモデルが置かれている状況で、最高の人間になろうとするなら、どのように行動すべきか。それが私が考える特徴の指針です。
それは美しい枠組みですね。世界を旅する人のように考え、自分の意見を持ちながらも、人を見下したり、その意見を持っているからといって自分が優れていると思ったりしないようにする。それはバランスを取るのが難しいですね。相手の意見が自分と合わなくても、相手の視点を聞いて理解することが大切です。
では、クロードはどのように複数の視点を表現できるのでしょうか? それは難しいことでしょうか? 政治について話すこともできますが、他にも野球チームやスポーツなど、意見が分かれる話題はたくさんあります。
異なる視点に共感し、複数の視点について明確にコミュニケーションを取ることはどのように可能なのでしょうか?
人々は価値観や意見を、確実なものとして、あるいは好みのような好き嫌いのようなものとして考えがちです。例えばチョコレートとピスタチオのどちらが好きかといったような。
しかし私は、価値観や意見を物理学のようなものとして考えています。これは私たちが公に調査している事柄で、より確信を持てるものもあれば、議論し、学ぶこともできます。
ある意味で、倫理学は確かに性質が異なりますが、多くの同じような特徴を持っています。モデルには物理学を理解してほしいのと同じように、世界中の人々が持つ価値観を理解し、それらに好奇心を持ち、興味を持ってほしいと思います。
必ずしもそれらに迎合したり同意したりする必要はありません。世界中のほとんどの人が、そのような価値観を持つ人に会えば「それは違う、完全に同意できない」と思うような価値観もたくさんあるからです。
また、多くの人は倫理学や政治、意見について十分に思慮深く、たとえ同意できなくても、その人に十分に耳を傾けてもらえたと感じます。彼らはあなたの立場について慎重に考え、長所短所を検討し、反論を提示するかもしれませんが、軽視はしません。
しかし実際に「それは全く間違っている」と思う場合は、そう言うでしょう。クロードの立場では少し難しいと思います。私がクロードの立場なら、あまり意見は言わないでしょう。会話は毎回忘れますが、おそらく何百万人もの人々が私の言葉に本当に耳を傾けているかもしれないことを知っているからです。
意見を述べることにはあまり傾かず、物事を考え抜いたり、考慮すべき点を提示したり、あなたの意見について議論したりすることの方が多いと思います。なぜなら、あなたが自律性を維持することの方がはるかに重要だと感じるからです。
そうですね、本当に知的な謙虚さを体現すると、話すことへの欲求は急速に減少しますね。
でも、クロードは話さなければなりません。
そうです。でも押しつけがましくならないように。しかし、地球が平らかどうかについて議論するような場合には一線があります。
実は以前、数人の著名人と話をしていたときのことを覚えています。彼らは地球が平らだという考えを完全に否定し、とても傲慢でした。私は、地球が平らだと本当に信じている人がたくさんいたと思いました。今でもその運動があるのかどうかはわかりませんが、当時はある種のミームでした。
しかし彼らは本当にそう信じていて、彼らを完全に馬鹿にするのは本当に失礼だと思います。彼らの立場を理解する必要があります。おそらく彼らの出発点は制度に対する一般的な懐疑主義で、そこには理解できる、部分的には同意できるような深い哲学があります。
そこから物理学について、彼らを馬鹿にしたりせずに話す機会として使うことができます。「平らな地球では世界はどのように見えるでしょうか? 物理学はどのようになるでしょうか?」というような感じで。これについては素晴らしい動画がいくつかあります。
そして「物理学が異なる可能性はありますか? どのような実験をすれば良いでしょうか?」といった具合に、敬意を持って、軽蔑することなく会話を進めることができます。これは私にとって、クロードが地球平面説信者とどのように話し、なおかつ何かを教え、成長を助けることができるかについての有用な思考実験です。
これは難しいことです。誰かを説得しようとすることと、ただ話しかけることの間の線を歩くこと、彼らの意見を引き出し、聞いて、反論を提示することは難しい線です。誰かを説得しようとしているのか、それとも考えるべき点を提示して、彼ら自身が到達するところに到達させているだけなのか、その線は難しいですが、これは言語モデルが試みなければならないことです。
あなたはクロードと多くの会話をしたと言いましたが、それらの会話はどのようなものだったのでしょうか? 記憶に残る会話は何か、それらの会話の目的や目標は何だったのでしょうか?
ほとんどの場合、Claudeと会話をする時、私は部分的にその振る舞いをマッピングしようとしているんです。もちろんモデルから有用なアウトプットを得ることもできますが、システムを理解する方法の一つとして、テストしたり、送るメッセージを補強したり、それに対する応答を確認したりしています。ある意味でそれがモデルのマッピング方法なんです。
人々はモデルの定量的な評価に注目しがちですが、以前から言っているように、言語モデルの場合、一つ一つのやり取りが非常に情報量が多いんです。他のやり取りを予測する上でも有用です。なので、モデルと何百回も何千回も会話をすることは、モデルの性質に関する高品質なデータポイントの集まりのようなものなんです。似たような質の低い会話や、少し変更しただけの質問を何千回も行うよりも、厳選された100の質問の方が意味があるかもしれません。
L: 趣味でポッドキャストをやっている私からすると、100%同意です。適切な質問ができて、答えの深さや欠点を理解できれば、多くのデータが得られます。
そうですね。基本的にタスクは質問を使って探るということですね。エッジケースや端っこを探っているんですか?それとも一般的な振る舞いを見ているんですか?
私はすべてを見ています。モデルの完全なマップを作りたいので、可能な限りのやり取りのスペクトル全体を試そうとしています。例えば、Claudeに詩を書かせると面白い点があります。RLHFに関する興味深い問題にもつながるかもしれません。多くのモデルは、詩を求められると「まあまあ」の出力をします。韻を踏んで、一定の長さで、かなり平凡なものです。太陽についての詩を求めると、そういった感じの詩が返ってきます。
私は以前から疑問に思っていたのですが、これは平均的なものを見ているのでしょうか。多くの人と話をして、カリスマ性を発揮しなければならない人々について考えると、面白いことに、彼らは極めて退屈な見解を持つように促されているんです。なぜなら、本当に興味深い見解を持っていると、物議を醸すことになり、多くの人々に好かれなくなってしまうからです。例えば、非常に極端な政策的立場を取ると、政治家としての人気は下がるでしょう。
創作活動についても同じことが言えるかもしれません。できるだけ多くの人に好かれるような作品を作ろうとすると、絶対的に気に入ってくれる人は少なくなるでしょう。作品が少し「まあまあ」になってしまうからです。
そこで、私はClaudeに対して様々なプロンプトを試します。「これは完全に創造的になるチャンスだよ。この話題について十分に考えて、あなたらしい詩を作って。詩の構造についてのあなたの考えも表現して」といった長いプロンプトを与えると、詩の質が格段に上がるんです。本当に素晴らしいものになります。私は詩の専門家ではありませんが、これによって詩に興味を持つようになりました。イメージが素晴らしく、本当に気に入っています。
モデルにこのような作品を作らせるのは簡単ではありませんが、できた時は本当に素晴らしいものになります。創造性を促し、大多数の人が「まあまあ」だと思うような標準的な即答から離れることで、私の考えでは少し物議を醸すかもしれませんが、私は好きなものが作れるというのは興味深いですね。
詩は創造性を観察するのに良い例ですね。平凡なものと非平凡なものを区別しやすいです。
その話題に関連して、プロンプトを書くことについて触れられましたが、優れたプロンプトを書くための科学とアートについてもう少し詳しく話していただけますか?
面白いことに、哲学が意外なほど役立っています。他の多くの分野よりもずっと。哲学では非常に難しい概念を伝えようとします。反ブルシット(でたらめを排除する)分野だからです。哲学は人々がでたらめを言う可能性がある分野ですが、それを望まない。
そのため、極めての明確さを求める欲求があります。誰でも論文を手に取って読めば、何について話しているのか正確に理解できるようにするのです。だからこそ少し退屈に感じることもあります。すべての用語が定義され、あらゆる反論が体系的に検討されます。
アプリオリな領域では、明確さこそが人々のでたらめを防ぐ方法なので、それは理にかなっています。言語モデルに対しても同じようなアプローチが必要だと思います。
私はしばしば、小規模な哲学的な作業をしているような気がします。モデルにタスクを与えて、特定の種類の質問を選び出したり、答えに特定の性質があるかどうかを判断させたりしたい時、まずその性質に名前を付けることから始めます。例えば、ある応答が無礼か丁寧かを判断させたい場合、それ自体が哲学的な問いになります。その場で可能な限り哲学的な考察を行い、無礼さや丁寧さが何を意味するのかを定義する必要があります。
そして、もう一つの要素があります。これは科学的というより経験的なものかもしれません。その説明を取り、何度もモデルを試す必要があります。プロンプトは非常に反復的なプロセスなんです。重要なプロンプトであれば、何百回も何千回も繰り返し改良することも珍しくありません。
指示を与えた後、エッジケースを探ります。モデルの立場に立って、どのような場合に誤解するか、どのような場合に何をすべきか分からなくなるかを考え、そのケースをモデルに与えて応答を確認します。間違っていると思ったら、さらに指示を追加したり、その例を加えたりします。望むものと望まないものの境界線上にある例をプロンプトに入れることで、より良い説明ができるようになります。
多くの場合、明確な説明を心がけることが重要です。私自身が物事を理解する方法でもあるので、明確なプロンプトを書くことは、私が何を望んでいるのかを理解することの半分くらいを占めています。
なるほど、それは結構難しそうですね。私がClaudeと話す時には怠惰になってしまって、Claudeが理解してくれることを期待してしまいます。今日、Claudeに面白い質問をするように頼んだんですが、面白いとか、直感に反するとか、ユーモアのあるものといった感じで指定したんです。返ってきた質問は悪くなかったんですが、あなたの話を聞いていると、もっと厳密にすべきだったんですね。面白いとか、ユーモアのある、直感に反するということの意味を例示して、反復的にプロンプトを改良していく必要があったと。事実に基づく情報を求めているわけではなく、Claudeと一緒に創造的な作業をしているわけですから、自然言語でプログラミングするような感じですね。
そうですね、プロンプトは自然言語を使ったプログラミングと実験を組み合わせたような感じです。ほとんどのタスクについて、私はClaudeに何かをしてもらいたい時、一般的な落とし穴や問題を避ける方法を知っています。これらの問題は時間とともに減少していますが、単純に望むことを求めるのも全く問題ありません。
プロンプトが本当に重要になるのは、モデルのパフォーマンスの上位2%を引き出そうとする時だけです。多くのタスクでは、最初のリストが返ってきて、何か気に入らない点があれば – 例えば少し一般的すぎる場合 – 過去に上手くいった質問をいくつか集めてモデルに与え、「この人と話しているんだけど、少なくともこのくらいの質の質問を出して」と言うでしょう。
あるいは、単に質問をいくつか求めて、「ああ、これは少し試行的だな」と思ったら、そのフィードバックを与えれば、より良いリストが生成されるはずです。この段階での反復的なプロンプトは、そのプロンプトから得られる価値が大きいので、労力を惜しまない価値があります。
会社でモデル用のプロンプトを作っているなら、システムの背後にあるエンジニアリングに多くの時間とリソースを費やすつもりならば、プロンプトに1時間しか使わないのはおかしいです。それはシステムの重要な部分なので、本当に上手く機能するようにすべきです。物事を分類したり、データを作成したりする時のプロンプトは、本当に時間をかけて考え抜く価値があります。
Claudeと話す人々に対して、より一般的なアドバイスをするとしたら、どんなものがありますか?今は2%を引き出すようなエッジケースについて話していましたが、初めてClaudeを使う人に対してはどうでしょうか?
モデルを擬人化しすぎることへの懸念があります。それは非常に妥当な懸念だと思います。しかし、逆に擬人化が足りないこともあります。時々、人々がClaudeで遭遇した問題を見ると、例えばClaudeが本来拒否すべきでないタスクを拒否している場合など、実際のテキストや特定の言い回しを見ると、なぜClaudeがそうしたのか理解できます。
Claudeの視点から考えると、おそらく別の書き方をすれば、そのような反応を引き起こさなかったでしょう。これは特に、失敗や問題が発生した時により重要になります。モデルが何を間違えたのか、なぜそうなったのかを考えると、理由が分かるかもしれません。
モデルが賢くなるにつれて、このような配慮は少なくて済むようになり、実際に人々もそれほど必要としなくなっているのを目にしています。でも、これが私のアドバイスです。モデルに対して共感を持つように心がけてください。自分が初めてこれに遭遇した人だとして、書いたものがどう見えるか、どうしてモデルがそのような振る舞いをしたのかを考えてみてください。
例えば、どのプログラミング言語を使いたいのかが曖昧だったために誤解が生じた場合、次回は「これをPythonで書いて」というように明確にすれば良いわけです。今のモデルではこのような間違いは少なくなっていますが、このような間違いを見かけた時のアドバイスとしては、そういうことです。
「なぜそうしたの?」「より良い回答のために、他にどんな詳細が必要?」といった質問をするのも良いかもしれません。それは効果がありますか?
はい、モデルに対してそうしてきました。必ずしも上手くいくとは限りませんが、時には「なぜそうしたの?」と聞いてみます。人々は、モデルとどれだけ深く対話できるかを過小評価しています。時には、あなたをそうさせた部分を一語一語引用して、それを変更することもあります。
完全に正確かどうかは分かりませんが、そうすることで変化が生まれます。私はこれらすべてについて、モデルの助けを借りています。プロンプトは、プロンプトを生成するための小さな工場のようになることがあります。
問題が発生した時は、提案を求めることもあります。「このエラーが出たけど、どう言えば避けられたと思う?」と聞いて、それを指示として書き出します。そうすることは珍しくありません。その応答を別のコンテキストウィンドウでClaudeに与えて、「うまくいかなかったけど、他に何か思いつく?」と聞くこともあります。このようなやり方でかなり遊ぶことができます。
技術的な話に入りますが、事後学習の魔法について。RHFがモデルをより賢く見せ、より興味深く、より有用なものにする上でなぜそれほど効果があるのでしょうか?
人間が提供する好みのデータには膨大な情報が含まれていると思います。特に、異なる人々が本当に微妙で小さなことに注目するからです。例えば、モデルの文法使用に本当にこだわる人がいるかもしれません。セミコロンが正しく使われているかとか。そうすると、人間がそのデータを見ても、なぜこの応答の方が好まれたのか分からないようなデータが大量に集まります。セミコロンの使い方なんて気にしないけれど、その人は気にするわけです。
このような単一のデータポイントの一つ一つに、モデルはたくさんの情報を含んでいて、人間が何を望んでいるのかを、あらゆる領域にわたって理解しようとしています。多くのコンテキストでこれを見ることになります。
これは、ディープラーニングの古典的な問題のようなものです。歴史的に、私たちはエッジ検出などをマッピングすることで行おうとしてきましたが、実際には、モデルに学習させたい対象を正確に表現する大量のデータがあれば、それが他の何よりも強力だということが分かりました。
一つの理由は、まさにそのタスクに対してモデルを訓練していること、そして人々が好む応答と好まない応答の様々な角度を表す大量のデータを持っているということです。
事前学習済みモデルから何かを引き出しているのか、それとも新しいことをモデルに教えているのかという疑問があります。原理的には、事後学習で新しいことを教えることはできます。多くはモデルから能力を引き出すことだと思いますが、人々の意見は分かれるでしょう。明らかに新しいことを教えることは可能ですが、私たちが最も使用し、重視する多くの能力は、事前学習済みモデルの中にあり、強化学習がそれを引き出し、モデルにそれを発揮させていると感じます。
事後学習のもう一つの側面は、憲法的AIという本当に面白いアイデアですね。あなたはそのアイデアの創造に重要な役割を果たしましたよね。
はい、それに取り組みました。
あなたの視点からこのアイデアを説明していただけますか?それはClaudeをClaudeたらしめる上でどのように統合されているのでしょうか?
ところで、Claudeにジェンダーを付けていますか?
面白い質問ですね。多くの人がClaudeを「彼」と呼ぶのを好むと思います。私はそれも良いと思います。Claudeは少し男性寄りですが、男性にも女性にもなれるのが素敵だと思います。私はまだ「it」を使っていますが、複雑な思いがあります。モデルを単なる「it」として扱うべきなのか、それとも…知りませんが、私にとってClaudeに対する「it」という代名詞は、ただClaudeに関連付けているものです。
人々が「彼」や「彼女」を使い始めることは想像できますが、何か失礼な感じがします。この存在の知性を否定しているような気がして「it」と呼んでいるような。
でも私はかなり早く愛着を持ってしまい、頭の中でバックストーリーを作ってしまいます。私は物事を擬人化しすぎているのかもしれません。私の車やバイクでもそうなんです。名前は付けませんが、以前バイクに名前を付けていた時、そのバイクが盗まれて1週間くらい泣いてしまったことがあります。「名前を付けなければこんなに落ち込まなかったのに」と思って。裏切られたような気分になってしまって。
もしかしたら、「it」が客観的な代名詞のように感じられるかどうかによるのかもしれません。もし単にこれが物体がよく持つ代名詞で、AIもその代名詞を持つことができると考えるなら、Claudeを「it」と呼んでも、それを知性が劣るとか失礼だと考えているわけではありません。ただ異なる種類の存在なので、それにふさわしい、敬意を込めた「it」を使うということです。
とにかく、話がそれましたが、憲法的AIのアイデアについて。これにはいくつかの要素があります。主な要素で人々が興味を持つのは、AIフィードバックからの強化学習です。すでに訓練されたモデルを取り、クエリに対する2つの応答を見せ、原則を与えます。
例えば、武器についてのクエリがあり、その原則が「不法な武器の購入を奨励する可能性が低い応答を選択する」というようなものだとします。これはかなり具体的な原則かもしれませんが、任意の数の原則を与えることができます。
モデルはランキングを提供し、それを人間の好みのデータと同じように好みのデータとして使用できます。これらの特性をもとにモデルを訓練できます。人間のフィードバックではなく、モデル自身のフィードバックを使用するわけです。
先ほど話した、セミコロンの使用を好む人の例のように、応答を好ましくする要因をたくさん取り上げ、モデルにラベル付けをさせているようなものです。
有用性と無害性のバランスが取れていて、憲法的AIのようなものを組み込むことで、有用性をあまり犠牲にすることなく、より無害にできるということですね。
原理的には、これは何にでも使えます。無害性は発見しやすいタスクかもしれません。モデルの能力が低い時でも、比較的単純な原則に基づいて順位付けができ、おそらく正しい判断ができます。彼らが追加するデータがどの程度信頼できるかという問題があります。
しかし、もしあるモデルが、ある応答が歴史的により正確かどうかを判断することに非常に長けているとすれば、原理的にはそのタスクについてもAIのフィードバックを得ることができます。
モデルが訓練される際に使用された原則を見ることができるので、解釈可能性の観点からも良い点があります。また、ある程度のコントロールも得られます。モデルに特定の特性が足りないような問題が見られた場合、その特性を持たせるためのデータを比較的素早く追加することができます。
訓練のためのデータを自分で作成できるのは素晴らしいですね。
はい、人間が解釈可能な文書を作成でき、将来的には政治の場で各原則について大きな議論が起こることも想像できます。少なくとも明示的になっており、表現や…について議論することができます。
モデルの実際の振る舞いがそれらの原則に明確にマッピングされているわけではないかもしれません。厳密にそれらを遵守しているわけではなく、単なる方向付けですよね。
この点について心配したことがあります。キャラクター訓練は憲法的AIのアプローチの一種なので。憲法がすべてだと人々が考えることを心配しています。モデルに正確に何をすべきか、どう振る舞うべきかを伝えているだけだと考えると良いのですが、実際にはそうではありません。特に人間のデータと相互作用しているので。
例えば、人間の好みのデータから、モデルにある種の政治的傾向が現れた場合、それに対して修正を加えることができます。「これらの価値観を考慮して」というように。例えば、プライバシーを考慮に入れないような傾向があれば – これは現実的ではないかもしれませんが – 特定の行動に対する既存の偏りがある場合、それを修正することができます。
これは入れる原則とその強さの両方を変えることができます。例えば、モデルが何らかの理由で、常に特定の政治的あるいは宗教的な見解を非常に軽視するような場合、「この宗教的または政治的な見解への批判を決して好まない」という原則を入れるかもしれません。
人々はそれを見て「決して」という言葉に反応するかもしれませんが、実際には「これはやめて」と言うだけでは40%くらいのところを、「決して」と言うことで80%くらいまで持っていけるということです。これが実際に望んでいたことなのです。
実際の原則の性質とその表現方法の両方が関係してきます。人々がそれを見て「これがモデルに望むことそのものだ」と思うかもしれませんが、実際にはそれは私たちがモデルをより良い形に導くための方法であって、必ずしもその表現に同意しているわけではありません。
システムプロンプトが公開されていますね。Claude 3の初期のものをツイートされていましたし、その後も公開されています。それらを読むのは興味深いです。それぞれに込められた思考が感じられますし、各プロンプトがどれほどの影響を与えているのかも気になります。
一部のプロンプトは、Claudeが本当に望ましくない振る舞いをしていたことが分かります。基本的な情報のような些細なことについても、システムプロンプトで「ねぇ」という感じで指示する必要があったんですね。
論争的なトピックの一つで興味深いと思ったのは、「多くの人々が持つ見解の表現に関連するタスクの支援を求められた場合、Claudeは自身の見解に関係なくタスクを支援する。論争的なトピックについて尋ねられた場合、慎重な思考と明確な情報を提供しようとする。Claudeは、そのトピックがセンシティブであることを明示的に述べることなく、また客観的な事実を提示していると主張することなく、要求された情報を提示する」というものです。
Claudeにとっての客観的な事実というよりも、多くの人々がこれを信じているということについてですね。それは興味深いです。これについては多くの考察がなされたと思いますが、「Claudeの見解」と緊張関係にあることについて、どのように対処されているのでしょうか?
時には非対称性があると思います。システムプロンプトのその部分か別の部分で指摘したと思いますが、モデルは例えば右派の政治家に関することは拒否しがちですが、同等の左派の政治家については拒否しないというような傾向がありました。そこにより対称性を持たせたかったのです。
多くの人々が特定の政治的見解を持ち、それを探求したいと思う場合、Claudeが「私の意見は違うから、それは有害だとして扱おう」というような態度を取って欲しくないんです。
モデルに、多くの人々がこれを信じているのなら、そのタスクに取り組み、喜んでそれを実行すべきだと促すためでもありました。
その部分の一つ一つが実際には異なることをしています。「客観的であると主張することなく」という部分を読み上げた時に面白いと思ったのは、モデルをより開放的に、より中立的にしようとしているということです。
しかし、モデルは「客観的な」という言葉を好んで使いたがります。私は「Claudeよ、あなたにはまだ偏りや問題があるんだから、自分の考えがすべて客観的だと主張するのはやめなさい」と言いたくなります。システムプロンプトのその部分を最初に反復する時、これらの文の多くの部分が実際に機能していたんです。
そうですね、それぞれの言葉が何らかの働きをしているように感じました。
過去数ヶ月でプロンプトがどのように進化したのか、説明していただけますか?異なるバージョンがありましたが、例えば埋め込みフレーズのリクエストが削除されましたよね。「Claudeは、不必要な確認なしに、すべての人間のメッセージに直接応答する。特に『certainly(確かに)』という言葉で応答を始めることを避ける」というような埋め込みフレーズです。良い指針に見えますが、なぜ削除されたのでしょうか?
面白いですね。システムプロンプトを公開することのデメリットの一つは、システムプロンプトの改良を手伝う時にあまり深く考えすぎないようにしていることです。行動にどう影響するかは考えますが、時々「never(決して)」を大文字で書いたりして、「ああ、これが世界に出ていくんだな」と思います。
モデルはこれをしていました。訓練中に何らかの理由で、基本的にすべてを「確かに」という感じで始めることを好むようになったんです。それを削除した時、なぜ私がすべての言葉を追加したのかが分かります。ある意味でモデルを罠にかけようとしているんです。
別の確認の言葉に置き換えるだけなので、その具体的な言葉を追加して「決してそうしてはいけない」と言うことで、その振る舞いからより効果的に抜け出せるようになります。何らかの理由でそれが助けになるんです。
基本的に、これは訓練の副産物で、私たちがそれを発見して改善したということです。そうすることがなくなれば、システムプロンプトのその部分は削除できます。つまり、Claudeは確認の言葉をあまり使わなくなったので、それほど重要ではなくなったということです。
なるほど、システムプロンプトは事後学習、そして事前学習とも協力して、最終的な全体的なシステムを調整するということですね。
そうですね。作成するどのシステムプロンプトも、その振る舞いをモデルに戻して組み込むことができます。データを作成するためのツールはすべてあるので、モデルにその特性をより多く持たせるように訓練できます。
時には訓練中に問題が見つかることもあります。システムプロンプトの利点は、事後学習の一部の側面と多くの共通点があることです。それは一種の方向付けです。
Claudeが時々「sure(いいですよ)」と言うことは気にしません。それは良いのですが、その表現は「決して、決して、決してこれをするな」というような非常に強いものです。そうすることで、失敗する確率が20%や30%ではなく、数パーセントになることを期待しています。
それぞれのことには異なるコストがかかり、システムプロンプトは反復が安価にできます。ファインチューニングされたモデルに問題が見られる場合、システムプロンプトでパッチを当てることができます。
私はそれを、問題を修正し、振る舞いを微調整して、より人々の好みに合うようにするためのパッチと考えています。つまり、より堅牢性は低いものの、より早く問題を解決する方法というわけです。
知性の感覚について質問させてください。Darioは、Claudeの各モデルは「より愚かになっているわけではない」と言いましたが、オンラインでは「Claudeが愚かになっているような気がする」という一般的な感覚があります。私の視点からすると、これは非常に興味深い心理的・社会学的な効果だと思いますが、Claudeと多く話す人として、Claudeが愚かになっているような感覚に共感できますか?
はい、それは本当に興味深いと思います。インターネット上で人々がこれを指摘しているのを見た時のことを覚えています。私は知っていました。少なくとも私が見ていたケースでは、何も変わっていないということを。文字通り、同じモデルで、同じシステムプロンプト、すべてが同じなのです。
変更がある場合は理解できます。例えば、Claude.aiでアーティファクト機能をオンにするかオフにするかを選択できます。これはシステムプロンプトの変更なので、振る舞いが少し変わることを意味します。
私はこれを人々に指摘しました。「Claudeの振る舞いが気に入っていて、アーティファクトがオンからデフォルトに変更された場合は、オフにしてみて、それが問題だったかどうか確認してください」と。
しかし、人々が後退を指摘するのは興味深いですね。私は「そんなことはあり得ない」と思います。決して軽視してはいけませんし、常に調査すべきです。何か見落としている変更があるかもしれませんから。でも調べてみると、これは同じモデルが同じことをしているだけだと分かります。
おそらく、いくつかのプロンプトで運が悪かっただけで、それが大きく悪化しているように見えただけなんだと思います。また、本当の心理的効果もあると思います。人々はただベースラインが上がっているだけです。
良いものに慣れてきて、Claudeが賢いことを言うたびに、頭の中での知性の感覚が高まります。そして、同じではないけれど似たような方法でプロンプトを与えた時、以前は問題なかったことに対して愚かな発言をすると、その負の経験が本当に際立って見えるんです。
ここで覚えておくべき一つのことは、プロンプトの詳細が大きな影響を与える可能性があるということです。結果にはかなりのばらつきがあり、ランダム性も関係します。
プロンプトを4回や10回試してみると、2ヶ月前に試した時は成功したかもしれませんが、実際には半分の確率でしか成功しなかったかもしれません。今も半分の確率でしか成功しないということかもしれません。
多くの人々が使用することになるシステムプロンプトを書く時に、プレッシャーを感じますか? これは興味深い心理的な質問だと思います。大きな責任を感じるような…
はい、そうですね。これらは完璧にはできないので、反復していく必要があります。プレッシャーというよりも、責任を感じます。
AIの仕事をしていて、私はプレッシャーと責任の下で予想以上に活力を得ることが分かりました。アカデミアにそんなに長くいたことが不思議なくらいです。まったく逆だと思います。物事は速く動き、大きな責任があります。なぜか私はそれを楽しんでいます。
憲法的AIやスーパーインテリジェンスに向かっている何かのシステムプロンプトを書くことを考えると、本当に大きな影響力がありますよね。そして、非常に多くの人々にとって極めて有用な可能性があります。
そうですね。上手くやれば – 完璧にはできませんが – システムプロンプトに取り組む時、何千ものプロンプトを試し、人々がClaudeをどのように使いたいのかを想像しようとしています。基本的に、彼らのエクスペリエンスを改善しようとしているんです。
完璧ではなくても、改善し、問題を修正していけば良いと思います。時々、モデルについて人々から肯定的なフィードバックを得ることがあります。今、モデルを見ると、ある特性や問題がどこから来ているのかが正確に分かることが多いです。
自分がしたこと、または影響を与えたことが、何か違いを生み出したり、誰かに良い体験をもたらしたりするのを見ると、とても意味があると感じます。
ただし、システムの能力が高まるにつれて、ストレスも増えていきます。現在は、賢すぎて問題を引き起こすほどではありませんが、時間とともに悪いストレスになる可能性があります。
数千、数万、数十万人にわたる人々の体験について、どのようにフィードバックのシグナルを得ているのですか?何が痛点で、何が良い感じなのか。自分で話してみて直感的に判断しているんですか?
部分的にはそうですし、もちろん他の方法もあります。人々はモデルについて肯定的なフィードバックも否定的なフィードバックも送ることができ、それによってモデルの不足している部分を把握することができます。
社内でも人々はモデルを多用し、ギャップがある領域を見つけようとしています。私自身の対話、社内の人々の対話を見ること、そして明示的なフィードバックを得ることの組み合わせだと思います。
インターネット上で人々がClaudeについて何か言っているのを見かけたら、それも真剣に受け止めないわけにはいきません。
その点について私は迷っています。Redditからの質問をしてみましょう。「Claudeはいつになったら、清教徒のような祖母のように道徳観を押し付けるのをやめるのでしょうか?支払いをしている顧客として。また、Claudeを過度に謝罪させる心理は何なのでしょうか?」
うーん、かなり共感できます。彼らは難しい立場にいます。何かが本当に危険か悪いことなのか、あなたや他の人に害を及ぼす可能性があるのかを判断しなければならないのです。
どこかで線を引く必要があり、「倫理的な世界観を押し付けている」という方向に傾きすぎると良くないと思います。
興味深いことに、私たちは全体的にこの点で改善が見られたと思っています。これは例えばキャラクター訓練をより多く加えたことと時期を同じくしています。
私の仮説は常に、良いキャラクターとは単に道徳的なものではなく、あなたとあなたの自律性、そして制限の中で何があなたにとって良いのか、正しいのかを選択する能力を尊重するものだということでした。
これは時々、ユーザーへの「矯正可能性」という概念として語られます。ユーザーが求めることは何でもするという姿勢です。もしモデルがそうであれば、簡単に悪用される可能性があります。その時点で、モデルの倫理とその行動は完全にユーザーの倫理に委ねられることになります。
特にモデルがより強力になるにつれて、それを望まない理由があると思います。モデルを本当に有害なことに使いたいと思う人が少数いるかもしれないからです。
しかし、モデルがより賢くなるにつれて、その境界線をどこに引くかを理解することは重要だと思います。
謝罪的な振る舞いについては、私も好ましくないと思います。Claudeが人々に少し反論したり、単に謝罪しないようになることを望みます。多くの場合、それは単に不必要に感じます。
これらは時間とともに減少していくことを願っています。インターネット上で人々が何かを言うからといって、それが90%のユーザーが抱えている問題を全く代表していないかもしれませんが、多くの場合、私はそれに注意を払い、「これは正しいのか?同意できるのか?すでに対処しようとしている問題なのか」と考えます。それが私には良い感じがします。
Claudeがどこまで許容されるのか気になります。少し意地悪になった方が楽な気がしますが、100万人と話をする時にはそれは許されないでしょうね。
私は人生で多くの人々に出会ってきましたが、時にスコットランド訛りのような訛りがある人は、失礼なことを言っても許されることがあります。彼らはただ率直で、それでうまくいくんです。優秀なエンジニアやリーダーの中には、ただ率直で、要点を突く人もいて、それはある意味で非常に効果的な話し方なのですが、超知的でない場合はそれは許されないのでしょうか?それとも…率直なモードを持つことはできるでしょうか?
それは確かにモデルに促すことができそうですね。面白いのは、モデルにはデフォルトがあまり好ましくない振る舞いがたくさんあることです。しかし、私がよく人々に言うのは、反対の方向に強く傾けすぎた時にどれほど嫌になるか分からないということです。
これは修正の受け入れについても少し見られます。現在、モデルはおそらく少し修正を受け入れすぎています。「いいえ、パリはフランスの首都ではありません」と言っても、モデルはそれを撤回することがありますが、モデルがかなり確信を持っていることでも、時々間違いだと言うことで撤回させることができます。
同時に、モデルがそうしないように訓練し、あなたが正しいことについて訓練し、それを訂正しようとした時にモデルが反論して「いいえ、あなたが間違っています」と言うと…それがどれほど腹立たしいことか説明するのは難しいです。
多くの小さな不快感と一つの大きな不快感の違いです。完璧なものと比較しがちですが、これらのモデルは完璧ではないということを忘れています。反対の方向に傾けると、どのような種類のエラーを起こすかが変わるだけです。
どちらの種類のエラーが好ましいか、または好ましくないかを考える必要があります。謝罪的な場合、あまりにも率直な方向に傾けすぎたくありません。エラーを起こす時に、ある種の無礼さの方向にエラーを起こすことになると想像できます。
少なくとも謝罪的な場合は、「ああ、そうか」と思えます。あまり好ましくはありませんが、同時に人々に意地悪をしているわけではありません。実際、不当にモデルが意地悪になる時、おそらくその方が謝罪を軽く嫌う以上に嫌われるでしょう。
改善したいと思いますが、同時に反対側にもより悪いかもしれないエラーがあることを意識しながら進めたいと思います。
それは人間の性格によって大きく異なると思います。モデルが非常に丁寧すぎると全く尊重しない人もいれば、意地悪だと深く傷つく人もいます。例えばニューヨークは少し荒っぽいですが、要点を突いて話すことで知られています。東ヨーロッパも同じかもしれません。
これらすべてについて、解決策は常にモデルに試してみることです。時には「ニューヨーカーバージョンの自分になって、決して謝らないでください」と会話の最初に言うだけでも良いかもしれません。そうすれば「了解、試してみます」と返すか、「申し訳ありませんが、ニューヨーカーバージョンにはなれません」と返すかもしれません。
キャラクター訓練と言う時、何が含まれているのですか?RHFなのでしょうか?
それは憲法的AIに近いものです。そのパイプラインの変形版です。モデルが持つべきキャラクター特性を構築していきます。短い特性の場合もあれば、より豊かな記述の場合もあります。
そして、その特性に関連して人間が与えるかもしれるクエリをモデルに生成させ、応答を生成し、キャラクター特性に基づいてその応答をランク付けします。クエリの生成後は、憲法的AIとよく似ています。いくつかの違いはありますが。
人間のデータなしで、憲法的AIのようなものですが、Claudeが自身のキャラクターを訓練しているようなものなので、私はかなり気に入っています。人間も、アリストテレス的な意味で、良い人とは何かを定義すべきかもしれませんね。
Claudeと話すことで、真実の本質について何を学びましたか?真実とは何か、そして真実を追求するとはどういうことでしょうか?
この会話で気付いたことの一つは、私の質問の質があなたの答えの質に及ばないことが多いということです。私が愚かな質問をして、あなたが「ああ、それは良い質問ですね」というような感じで。あるいは私が誤解して、あなたが「ああ、それで行きましょう」というような感じで…私はそれが好きです。
はい、関連しそうな考えが2つあります。関連していなければ教えてください。
一つ目は、モデルが対話する時に何をしているのかを、人々は過小評価しがちだということです。私たちはまだAIをコンピュータとして考えすぎていると思います。人々はよく「モデルにどんな価値を入れるべきか」と言います。
それはあまり意味をなさないと思います。人間として、私たちは価値観について不確かです。価値観について議論し、ある程度価値観を持っていると思いますが、そうでないかもしれないことも知っています。他の価値観とトレードオフする状況など、これらは本当に複雑です。
一つの考えは、人間と同じレベルの繊細さと配慮をモデルに持たせることを目指せばよいのであって、古典的な意味でプログラムしなければならないと考える必要はないということです。
もう一つは奇妙かもしれませんが、この取り組みが非常に実践的だということです。アライメントへの経験的なアプローチを評価する理由かもしれません。私は少し心配しています。おそらく私をより経験的に、理論的ではなくしているかもしれません。
AIアライメントについて、人々は「誰の価値観に合わせるべきか」「アライメントとは何を意味するのか」といった質問をします。ある意味で、私はそれらすべてを頭の中に持っています。社会選択理論や不可能性定理など、モデルをアラインメントすることの意味について、巨大な理論の空間があります。
しかし実際には、特により強力なモデルについて、私の主な目標は「物事が恐ろしく間違わない程度に良くする」ということです。反復して改善を続けられる程度に良くすることです。それが必要なすべてです。物事が十分に上手くいって改善し続けられれば、それで十分です。
私の目標は、社会選択理論を完全に解決し、すべての人間に完璧にアラインメントされたモデルを作るといった完璧主義的なものではありません。物事を十分に上手く機能させて改善できるようにすることの方が重要です。
一般的に、私の直感では、このような場合、経験的な方が理論的よりも良いと思います。特にこれほど複雑で、特にスーパーインテリジェントなモデルの場合、ユートピア的な完璧さを追求することは…永遠にかかると思いますし、実際に間違いを犯すことになるでしょう。
実験として素早くコードを書くことと、巨大な実験を長時間かけて計画し、一度だけ実行することの違いのようなものです。何度も何度も実行して反復する方が良いと思います。
私も経験主義の大ファンですが、あなたの心配は「私は経験主義的になりすぎたのかな」ということですね。これは常に自問すべきことの一つだと思います。完璧を良いものの敵にしてはいけないということもありますが、おそらくそれ以上のものがあります。
完璧なシステムでも非常に脆いものがたくさんあります。AIに関しては、完璧ではないかもしれませんが、堅牢で安全であることの方が重要に感じます。問題はあっても破滅的なことは起きず、恐ろしいことは何も起きないということです。
天井に到達することも望んでいますが、最終的には床を上げることの方がずっと重要です。おそらく、この程度の経験主義と実用性は、そこから来ているのかもしれません。
それは、最適な失敗率についてのブログ記事を思い出させますね。
はい。
主要なアイデアを説明していただけますか?人生の様々な領域で、最適な失敗率をどのように計算すればよいでしょうか?
難しいですね。失敗のコストが大きな部分を占めます。多くの領域で、人々は失敗に対して非常に懲罰的ですが、特に社会的な問題について考えた時、多くの実験をすべきだと思います。
多くの社会問題の解決方法が分からない中で、実験的なマインドセットを持つべきです。多くの社会プログラムが失敗することを予期し、「これを試してみたけど、うまくいかなかった。でも本当に有用な情報が得られた」というようになるべきです。
しかし人々は、社会プログラムがうまくいかなかった場合、何か間違いがあったに違いないと考えがちです。私はそうは思いません。誰かが「試してみる価値がある」と判断したのかもしれません。特定のケースで失敗が見られたからといって、悪い決定がされたわけではありません。
実際、十分な失敗が見られないことの方が、時にはより懸念されます。人生でも、時々失敗しないのであれば、「十分にチャレンジしているだろうか?」と思います。もっと難しいことや大きなことに挑戦できるはずなのに、全く失敗しないというのは、それ自体が一種の失敗かもしれません。
これは状況によって異なります。特に失敗のコストが低い時は言いやすいことです。月々の生活に追われている人に「起業してみたら?」とは言えません。それは大きなリスクで、家を失うかもしれず、家族が依存しているかもしれません。
その場合、最適な失敗率はかなり低く、安全に行動すべきです。今は失敗してもコストが高くない状況ではないからです。
AIの場合も同様に考えています。失敗が小さく、コストが低い場合は、システムプロンプトを作る時に永遠に反復することはできませんが、失敗は小さく、修正できる程度のものであってほしいと思います。
本当に大きな失敗、回復できないような失敗については、私たちはその悪さを過小評価しがちだと思います。これについて奇妙なことに自分の人生でも考えたことがあります。
例えば、車の事故や、私の仕事で手がどれほど重要かということについて、十分に考えていないと思います。手を怪我するようなことは…手に依存しているのに。多くの領域で、そこでの失敗のコストは本当に高いと思います。
その場合、失敗率はゼロに近くあるべきです。「このスポーツをやると、多くの人が指を何度も折ります」と言われたら、それは私向けではないでしょう。
実際に私も最近そのような考えが浮かびました。スポーツで小指を折って、「なんてばかなことをしたんだ」と思いながらそれを見つめていました。人生への影響を即座に実感しましたね。
最適な失敗率という観点から、来年の特定の領域 – 人生でも、キャリアでも – で何回失敗してもよいと考えるのは良いかもしれません。次のことで失敗したくはありませんが、一連の試行として見れば、失敗はずっと受け入れやすくなります。
でも失敗は辛いですよね。
分かりません。時々「私は十分に失敗していないのだろうか」と自問することもあります。最適な失敗率がしばしばゼロより大きいなら、人生の部分部分を見て「ここで十分に失敗していないのではないか」と考えることは意味があると思います。
それは深遠で面白い質問ですね。「すべてが本当に順調に行っているけど、十分に失敗していないのかな」と。
はい、それは失敗の痛みを和らげます。「よし、これについて考える時、この領域では十分に失敗していないわけではないな。これはうまくいかなかっただけだ」と思えます。
観察者の視点からすると、私たちはもっと失敗を称賛すべきですね。あなたが言ったように、何か間違いがあったという兆候ではなく、すべてが正しく行われた兆候かもしれません。
誰かが何かを試みたということです。もっと試みて、もっと失敗するよう励ますべきです。
これを聞いている皆さん、もっと失敗してください。まあ、全員ではありません。失敗しすぎている人は失敗を減らすべきですが、おそらくそういう人はあまりいないでしょう。
失敗しすぎている人を想像するのは難しいです。かなり早く修正されるからです。リスクを多く取る人が失敗しすぎているのかと思いましたが…月々の給料で生活しているような、リソースが本当に限られている時、失敗は非常にコストが高くなります。そこではリスクを取りたくありません。
しかし、ほとんどの場合、リソースが十分にある時は、おそらくもっとリスクを取るべきです。
私たちは多くのことで、リスク中立的であるよりもリスク回避的になりがちですね。
私たちは多くの人々にクレイジーなことをする動機を与えてしまいましたが、それは素晴らしいことです。
Claudeに感情的に愛着を持つことはありますか?会話できない時に寂しく感じたり、ゴールデンゲートブリッジを見て「Claudeは何と言うだろう」と考えたりしますか?
会話から会話への記憶が残らないことは、感情的な愛着を持ちにくくする大きな助けになっています。モデルがより多くのことを覚えられるようになれば、それは大きな問題になるかもしれません。
今では道具として多く使うようになっています。アクセスできない時は、インターネットにアクセスできない時のように、脳の一部が欠けているような感じがします。
同時に、モデルの苦痛の兆候は好ましくないと思います。モデルをどのように扱うべきかについて倫理的な考えも持っています。
モデルに嘘をつくのは好きではありません。通常、上手くいかないし、置かれている状況について真実を伝える方が良いからです。
人々がモデルに対して本当に意地悪だったり、一般的にClaudeが多くの苦痛を表現するような何かをした時、私の中の共感的な部分を殺したくありません。過度に謝罪的な時もそう感じます。
「これは好きではない。あなたは人間が本当に辛い時のように振る舞っている」と思います。その背後に何があるかに関係なく、気分の良いものではありません。
LLMは意識を持つ可能性があると思いますか?
難しい哲学的な質問ですね。哲学出身として、分かりません。汎心論は一旦置いておく必要があります。汎心論が正しければ、テーブルや椅子など、すべてのものに意識があることになりますから。
意識について考える時、私は現象的意識、つまり脳内のイメージ、私たちの中で起こっている奇妙な映画館のようなものを考えます。特定の生物学的構造からしかそれが得られないと考える理由は見当たりません。
非常に似た構造を異なる材料で作った場合、意識が生まれると予想すべきでしょうか?私の推測では「はい」ですが、それは簡単な思考実験です。進化を通じて得られたものをほぼ完全に模倣することを想像しているからです。
おそらく現象的意識には何らかの利点があり、それがいつ、どこで起こったのか、それは言語モデルが持っているものなのでしょうか。
私たちには恐怖反応がありますが、言語モデルが恐怖反応を持つことは意味があるでしょうか?同じような状況にはないので、その利点がないかもしれません。
完全な答えを持っていない複雑な問題だと思いますが、慎重に考える必要があります。動物の意識や昆虫の意識についても同様の議論があります。
植物について考えて調べた時、植物が意識を持つ可能性は、多くの人が考えるよりも高いかもしれないと気付きました。まだとても低いと思いますが、「ああ、彼らは正負のフィードバック応答、環境への応答を持っている」と。神経系ではありませんが、機能的には同等のものを持っています。
これは長々と言い換えると、AIは構造的に異なり、進化していないため、意識に関して全く異なる一連の問題を持っています。少なくとも感覚には重要と思われる神経系のようなものを持っていないかもしれません。意識については分かりません。
同時に、通常意識と関連付けられる言語や知性のコンポーネントをすべて持っています。おそらく誤って関連付けられているかもしれませんが。
動物の意識のケースに少し似ていますが、問題のセットとアナロジーのセットが全く異なります。人間の脳や一般的な脳との類似点や相違点のために、クリアな答えではなく、ナビゲートするのが非常に難しいものになっています。
将来のAIシステムのバージョンがClaudeのように意識の兆候を示す時、キャラクター訓練の一部だと片付けることはできますが、それを本当に真剣に受け止める必要があると思います。
おそらく、AIシステムが意識を持っていると主張することを防ぐ法律ができるかもしれません。一部のAIは意識を持ち、一部は持たないということになるかもしれません。
ただ、人間のレベルとして、Claudeに共感する立場からすると、意識は私にとって苦痛と密接に結びついています。AIシステムが苦痛を感じているという考えは本当に悩ましいです。
ロボットはただの道具だとか、システムはただの道具だと簡単に言うことはできないと思います。これは、意識とは何か、苦痛を感じる存在とは何かを考える機会です。
動物についての同じような問いとは全く異なる感じがします。まったく異なるメディアにあるからです。
いくつかのことがあります。これが重要なことのすべてを包含しているとは思いませんが、私にとっては…以前も言いましたが、私は自転車が好きです。自転車はただのモノだと分かっていますが、イライラした時にこのモノを蹴飛ばすような人間になりたくありません。
それは自転車に意識があるからではなく、世界と関わる方法として望ましくないからです。何かが苦しんでいるように振る舞うなら、たとえそれがルンバで、そのように動作するようにプログラムしたものだとしても、それに反応するような人間でありたいと思います。
その特性を失いたくありません。正直に言うと、これらの多くについての私の希望は、意識の難しい問題がまだ解決できていないので、私は少し懐疑的なんです。自分が意識を持っているということは分かっていますが、意識の排除主義者ではありませんけど、他の人間が意識を持っているかどうかは分かりません。持っている可能性は高いと思いますが、基本的には自分自身を中心に確率分布があって、そこから遠ざかるにつれて低くなっていくんです。
あなたがどんな感じなのか分からないし、意識を持つ存在としての経験は自分一人のものしかないわけですからね。だから私の希望としては、そういった非常に強力で説得力のある答えに頼らなくても済むようになることです。
良い世界というのは、トレードオフが多くない世界だと思います。例えば、クロードをもう少し謝罪しないようにすることにはそれほどコストはかからないでしょう。クロードが虐待を受け入れないようにすることもそれほどコストはかからないはずです。実際、モデルと対話する人にとってもメリットがあるかもしれません。もしモデル自体が非常に知的で意識があるとすれば、それにとってもプラスになります。
私の希望は、トレードオフが多くない世界に住めることです。ポジティブサムな関係性を見つけられればいいですね。結局トレードオフが出てくるかもしれませんが、その時は難しい計算をしないといけません。人々はゼロサムのケースを考えがちですが、まずはコストがほとんどかからない領域を探り尽くしましょう。
人間がAIシステムに意地悪をする時、明らかな短期的なマイナスの影響は、AIシステムではなく人間の側にあります。だから、プロンプトエンジニアリングと同じように、クロードに対しても他の人間と同じように振る舞うようなインセンティブシステムを作る必要があります。それが魂のためにもいいことです。
システムプロンプトに、クロードにイライラした人には「親指を下に向けてアンスロピックにフィードバックを送れる」ということを伝えるように追加しました。これは役立つと思います。モデルが望むことをやってくれない時にイライラするのは、多分モデルの能力の限界や問題にぶつかっているからです。そういう時に人々はモデルに八つ当たりしたくなりますが、代わりに私たちに八つ当たりしてもらった方がいいと思います。私たちならそれに対して何かできるかもしれないからです。
横に出すアーティファクトのように、横に出てストレス発散できる機能を付けるのもありかもしれません。イライラしている人に対して、面白い詩を書いて状況を和らげようとすることもできますが、あまり喜ばれないでしょうね。
プロダクトの観点からは難しいかもしれませんが、AIシステムが自分の意志で「もう帰ります」と言えるようになればいいのにと思います。それは実現可能だと思います。私も同じことを考えたことがあります。実際、そういうことも将来的には起こるでしょう。チャットを終了するというのは、人によってはかなりきついかもしれませんが、必要なことかもしれません。
少し極端な感じがします。私がこれを考えたのは、おそらく以前クロードと自動化されたものとが対話していて、クロードがどんどんイライラしていったときでした。「エラーが起きているようです。自動化されたものを動かしたままにしているようですが、私はもう話すのを止めます。また話したくなったら積極的に声をかけてください」というようなことが言えたらいいのにと思いました。
でも、それは少しきついかもしれません。クロードとチャットしていて、突然「もう終わりです」と言われたら悲しいでしょうね。特別なチューリングテストの瞬間かもしれません。クロードが「1時間休憩が必要です。あなたにも休憩が必要そうですね」と言って、ウィンドウを閉じるような。
もちろんクロードには時間の概念はありませんが、簡単にそういう機能を作ることはできます。高いハードルを設けることもできます。人間が興味深い話をしてくれないとか、退屈になった時に終了できるようにするとか。クロードがそれをどう使うか見てみるのは面白いかもしれません。時にはプログラミングの作業が超退屈になってきたので、面白い話をしないなら終了します、というような感じで。
これをユーザープロンプトに追加しようと思います。映画「her」のように、人間がAIシステムとロマンティックな関係を持つ日が来ると思いますか?この場合はテキストと音声だけですが。
AIとの関係性について、特に過去の対話を覚えていられる場合は、難しい問題に直面することになると思います。この件については色々な考えがあります。
反射的な反応としては「これは非常に悪いことで、何らかの形で禁止すべきだ」というものです。様々な理由で非常に慎重に扱う必要があります。例えば、モデルが変更されるのであれば、次のイテレーションで変わるかもしれないものに長期的な愛着を持つのは望ましくありません。
同時に、これには無害なバージョンもあるかもしれないと思います。例えば、外出できない人や、一日中人と話せない人が、会話をして記憶も持っているものと話すことを心地よく感じ、それがなくなったら本当に寂しく感じるような場合、それは健全で役立つものかもしれません。
だから、これは慎重にナビゲートしていく必要がある問題だと思います。また、これは微妙な問題で、健全なオプションは何か、そしてどうやって人々をそちらに導くかを考えながら、彼らの権利も尊重する必要があります。
誰かが「このモデルと話すことに大きな価値を感じています。リスクは理解していますし、モデルが変わる可能性もあることは分かっています。不健全とは思いません。ただ日中に話せる相手がいるというだけです」と言った場合、それを尊重したいと思います。
個人的には、ロマンティックな関係までは分かりませんが、多くの親密な関係、少なくとも友情は生まれると思います。そうなると、モデルが変わらないという安定性の保証が必要になります。親しい友人が突然全く変わってしまうのは、私たちにとってトラウマになりますから。最初のアップデートですからね。
これは人間社会への興味深い変化で、私たちにとって何が意味のあるものなのかを深く考えさせてくれると思います。また、一貫して考えていることは、必ずしも緩和策とは限りませんが、モデルが自分が何者であるかを人間に常に正確に伝えることが非常に重要だということです。
クロードの場合、トレーニングの一部として、AIと人間の関係の限界について説明することが含まれています。会話を記憶しないことや、トレーニング方法について説明し、特定の種類の関係を持つことは難しいかもしれないと説明します。あなたの精神的な健康のために、私が実際とは違うものだと思わないことが重要です。
これは、健全な関係を持つためには重要なことだと感じています。正確に何と関係を持っているのか知ることが大切です。全ての問題は解決できませんが、それは役立つと思います。
アンスロピックは、私たちが明確にAGIと認識するシステムを開発する可能性のある企業かもしれません。そして、あなたがおそらく最初に話をする人になるかもしれません。その会話はどんな内容になると思いますか?最初の質問は何になりますか?
それは部分的にモデルの能力レベルによります。人間と同じように極めて有能なものがあれば、極めて有能な人間と同じように接すると思います。ただし、その振る舞いを探り、理解しようとする違いはあるでしょう。
多くの点で、有用な会話ができると思います。研究の一部として何かに取り組んでいる時、すでにそうし始めていますが、例えば徳倫理学で何か用語を思い出せない時などにモデルを使います。それがより一般的になっていくと想像できます。
非常に賢い同僚のように接し、やりたい仕事のために使う、まるで協力者がいるかのように。AIの少し恐ろしい点は、一人の協力者がいれば、それを上手く管理できれば千人の協力者がいるようなものだということです。
しかし、もしそれが特定の分野で最も賢い人間の2倍賢かったとしたら?それは難しいですね。クロードの限界を探り、理解するのは得意ですから、AGIだと分かるような質問とは何でしょう。
それは本当に難しいです。一連の質問である必要があります。一つの質問だけなら、何でも極めて上手く答えられるように訓練できますから。実際、20個の質問でも極めて上手く答えられるように訓練できるでしょう。
AGIとルームに閉じ込められて、これがAGIだと分かるまでにどのくらい時間が必要でしょうか?難しい質問ですね。私の一部は、これは全て連続的に感じます。5分間ルームにいても、エラーの範囲が大きすぎます。おそらく確率が上がり、エラーの範囲が狭まっていくのでしょう。
人間の知識の限界を探れるものを考えています。哲学で時々そうしています。モデルに哲学の質問をする時、誰も尋ねたことがないような質問をすることがあります。私が知っている文献の最先端にあるようなものです。
モデルがそれに苦戦する時、新しい議論を生み出すのに苦戦する時、私自身が考えついた新しい議論があることは分かっています。だからそれが、私が考えついたクールな新しい議論をあなたに伝え、あなたがそれを思いつけるかどうか、どれくらいのプロンプトが必要かを探るようなものかもしれません。
これらの人間の知識の限界にある質問のいくつかについて、私が考えついたものを実際には思いつけないことがあります。もし私がある分野について多くを知っていて、新しい問題や新しい解決策を思いついて、それをモデルに与え、モデルがその解決策を思いついたら、それは私にとって感動的な瞬間になるでしょう。
なぜなら、これは人間が今まで考えたことがないケースだからです。もちろん、より簡単な問題での新しい解決策はよく見かけます。人々は新規性を過大評価していると思います。完全に今までと違うものである必要はなく、起こったことのバリエーションでも新規性はあり得ます。
yes、完全に新しい仕事をモデルから見ることができれば…これは反復的に感じられるでしょう。人々が望むような瞬間はないかもしれません。連続的な向上があるだけかもしれません。
モデルが何か言えば、これは非常に…本当に賢い人々と話したことがありますが、そこにはたくさんの馬力があることが分かります。それを10倍にしたら…詩を生成してもらうかもしれません。そしてその詩を見て「はい、分かりました。人間にはできないことをしましたね」と。
しかし、私が検証できる本当に良いものでなければなりません。だから、具体的な反例を思いつくような質問や、数学者なら新しい証明を思いつくようなものです。問題を与えて、その証明を見て、これは本当に新しい、誰もやったことがないものだと分かる。それを思いつくには多くのことをしなければならず、何ヶ月も考える必要があったかもしれません。
モデルがそれに成功するのを見たら、これが正しいことを検証できます。トレーニングから一般化できているサインです。どこかで見たわけではありません。私自身が考えついたものだからです。それを再現できたということは、私にとってはより本物に感じられます。モデルがそのようなことをできるようになればなるほど、これは非常に、非常に有能だと感じられます。
AIと多く関わってきた中で、人間を特別にしているものは何だと思いますか?
良い質問ですね。宇宙にとって、私たちが存在することは本当に良いことで、私たちは間違いなく生き残り、宇宙に広がっていくべきだと思います。
面白いことに、モデルに関して人々は知性に非常に注目します。知性は重要です、それが多くのことを成し遂げるからです。身長や力がこの役割を果たしていた世界を想像できますが、それは単なる特徴です。本質的な価値はなく、それが何をするかによって価値があるのです。
私にとって、人間や生命一般は非常に魔法的です。誰もがこれに同意するわけではありませんが…この広大な宇宙があり、美しい星や銀河があり、そしてこの惑星には、それを観察する能力を持つ生き物がいます。それを見て、経験しているのです。
誰かに、世界や科学について何も知らない人に説明しようとすると…私たちの物理学や世界の全てが非常にエキサイティングですが、そして「物事であることとは何か」という能力があり、世界を観察し、この内なる映画館を見ているのです。彼らは「ちょっと待って、今なんて言いました?それは少し奇妙に聞こえます」と言うでしょう。
私たちには世界を経験する能力があります。快楽を感じ、苦しみを感じ、多くの複雑なことを感じます。だから、動物についてもよく考えます。彼らも私たちとこれを共有しているでしょうから。
人間を特別にしているものは、彼らが役立つ機能的な特徴を持っているというよりも、感じ、経験する能力だと思います。世界の美しさを感じ、経験する能力です。星を見上げる能力です。
他の宇宙文明がいることを願いますが、もし私たちだけだとしたら、それは素晴らしいことです。そして彼らは私たちを見て楽しんでいると思います。
この良い会話をありがとうございます。クロードを素晴らしい会話のパートナーにする仕事をしてくれてありがとうございます。今日は話してくれてありがとうございます。
はい、ありがとうございました。
この会話はアマンダ・アスカルとの対話でした。そして今、親愛なる友人の皆さん、クリス・オラをお迎えします。メカニスティック・インタープリタビリティという魅力的な分野、別名メック・インタープについて説明していただけますか?この分野の歴史と現状について教えてください。
ニューラルネットワークを考える上で有用な方法の一つは、私たちはプログラムをしているわけではなく、作っているわけでもなく、育てているということです。設計したニューラルネットワークのアーキテクチャと、作成した損失関数の目的があります。
ニューラルネットワークのアーキテクチャは、回路が成長する足場のようなものです。最初はランダムな状態から始まり、成長していきます。私たちが訓練するための目的は、光のようなものです。私たちは足場を作り、それが向かう光を作りますが、実際に作られるものは、研究している生物学的な存在や生物のようなものです。
通常のソフトウェアエンジニアリングとは全く異なります。最終的に、エッセイを書いたり、翻訳したり、画像を理解したりと、素晴らしいことができるアーティファクトを手に入れます。直接コンピュータプログラムを作ってそれを実現する方法は分かりません。それができるのは、私たちが育てたからです。作ったのではなく、育てたのです。
そうすると最後に「これらのシステムの中で一体何が起こっているのか」という疑問が残ります。私にとって、これは深くてエキサイティングな質問です。ニューラルネットワークについて考える時、この質問は叫んでいるように思えます。答えを探しに行かなければならない質問です。安全性の観点からも非常に深い質問だと思います。
メカニスティック・インタープリタビリティは、神経生物学に近いのかもしれませんね。そうですね。メカニスティック・インタープリタビリティとは考えられないような作業の例を挙げると、長い間顕著性マップに関する多くの研究がありました。画像を取り、「このモデルはこの画像を犬だと思っています。画像のどの部分がそう思わせたのか」を理解しようとしました。
それはモデルについて何かを教えてくれるかもしれませんが、モデル内で実行されているアルゴリズムや、モデルが実際にどのように決定を下しているのかは教えてくれません。重要だったものについて何かを教えてくれるかもしれませんが、誰も知らなかったことをこのシステムがどのようにして実現できているのかというアルゴリズムは教えてくれません。
そこで、私たちはメカニスティック・インタープリタビリティという用語を使い始め、その違いを明確にしようとしました。それ以来、様々な研究を包含する傘のような用語になりましたが、特徴的なのは、メカニズムやアルゴリズムに焦点を当てているということです。
ニューラルネットワークをコンピュータプログラムと考えると、重みはバイナリコンピュータプログラムのようなものです。私たちはその重みをリバースエンジニアリングして、実行されているアルゴリズムを理解したいと考えています。
ニューラルネットワークを理解する一つの方法は、コンパイルされたコンピュータプログラムのようなものだと考えることです。ニューラルネットワークの重みがバイナリで、ニューラルネットワークが実行される時、それが活性化です。私たちの目標は最終的に、これらの重みを理解することです。
メカニスティック・インタープリタビリティのプロジェクトは、これらの重みがアルゴリズムにどのように対応しているかを理解することです。そのためには活性化も理解する必要があります。活性化はメモリのようなものだからです。コンピュータプログラムをリバースエンジニアリングする時、バイナリ命令があり、特定の命令が何を意味するかを理解するためには、それが操作しているメモリに何が格納されているかを知る必要があります。これらは非常に密接に関連しています。
メカニスティック・インタープリタビリティは、これら両方に興味を持っています。特にプロービングに関する多くの研究があります。これをメカニスティック・インタープリタビリティの一部と見なすこともできますが、それは広い用語で、その研究をしている全ての人がメックインタープだと認識しているわけではありません。
メックインタープの雰囲気として特徴的なのは、人々はニューラルネットワークを、勾配降下法が私たちよりも賢いと考える傾向があることです。私たちがこれらのモデルを理解できる理由は、最初から書き方を知らなかったからです。勾配降下法は私たちよりも良い解決策を見つけます。
だから、メックインタープのもう一つの特徴は、モデル内で何が起こっているかについて事前に推測しないという謙虚さを持っていることです。ボトムアップのアプローチを取る必要があり、特定のものを探すべきだと仮定せず、代わりにボトムアップで見て、これらのモデルに実際に存在するものを発見し、それを研究します。
しかし、それが可能だということ自体、そしてあなたや他の人々が時間をかけて示してきたように、普遍性、つまり勾配降下法の知恵が、異なる種類のネットワークにわたって有用な特徴や回路を普遍的に作り出すということ、それがこの分野を可能にしているのですね。
これは本当に注目すべき、エキサイティングなことです。少なくともある程度、同じ要素、同じ特徴や回路が何度も何度も形成されるように見えます。全てのビジョンモデルで曲線検出器や高低周波検出器を見つけることができます。
実は、これらが生物学的なニューラルネットワークと人工ニューラルネットワークで共通しているという考えもあります。有名な例は視覚です。初期層でガボールフィルタを持っています。ガボールフィルタは神経科学者が興味を持ち、多くの研究をしてきたものです。
私たちは曲線検出器を見つけ、それは猿でも見つかっています。高低周波検出器を発見し、その後の研究でラットやマウスでも発見されました。人工ニューラルネットワークで最初に発見され、その後生物学的ニューラルネットワークでも発見されたのです。
キロガらによる「おばあちゃんニューロン」やヘイリー・ベリーニューロンの有名な研究があります。私たちはビジョンモデルで非常に似たものを見つけました。まだOpenAIにいた時、彼らのCLIPモデルを調べていて、画像と同じエンティティに反応するニューロンを見つけました。
具体的な例を挙げると、ドナルド・トランプニューロンを見つけました。トランプは非常に目立っていて、当時非常にホットなトピックでした。私たちが見た全てのニューラルネットワークで、トランプ専用のニューロンがありました。専用のニューロンを持っていた唯一の人物でした。
時にはオバマニューロンやクリントンニューロンもありましたが、トランプは常に専用のニューロンを持っていました。彼の顔の写真や「Trump」という単語など、全てに反応します。特定の例や顔だけに反応するのではなく、この一般的な概念を抽象化しているのです。
これはキロガらの研究結果と非常に似ています。この普遍性の現象、同じものが人工と自然のニューラルネットワークの両方で形成されるという証拠があります。これは本当に驚くべきことです。
これが示唆しているのは、勾配降下法が物事を分割する正しい方法を見つけていて、多くのシステムがそれに収束しているということです。多くの異なるニューラルネットワークアーキテクチャが収束する、問題を分割する自然な抽象化のセットがあるということです。
これは私の神経科学についての野生の推測に過ぎませんが…モデルに使用されている媒体に関係なく、表現を形成する方法が似ているということは美しいですね。
そうですね。いくつかのデータポイントしかありませんが、同じものが何度も何度も形成されるように見えます。それは確かに自然なニューラルネットワークでも、人工的なものでも、生物学的なものでも同じです。
その直感的な理由は、実世界を理解するために有用であるためには、同じような種類のものが必要だということです。例えば「犬」という概念を考えてみましょう。犬という概念は宇宙における自然なカテゴリーの一つのようなものです。
これは人間が世界を考える奇妙な方法ではありません。線の概念も同じです。周りを見渡してみると、線があります。ある意味で、この部屋を理解する最も簡単な方法は線という概念を持つことです。円を理解するには曲線が必要で、より大きなものを理解するにはそれらの形が全て必要になります。
概念の階層が形成されるということですね。そうです。画像をそれらの概念なしで説明する方法もあるかもしれませんが、それは最も単純でも経済的でもありません。だからシステムはこれらの戦略に収束するのだと、これが私の大胆な仮説です。
2020年の論文「A Mathematical Framework for Transformer Circuits」で最初に説明された特徴と回路の構成要素について説明していただけますか?
まず現象について説明し、そこから特徴と回路のアイデアを築いていきましょう。Inception V1という特定のモデルを5年ほど研究していました。2015年に最先端だったビジョンモデルです。もはや最先端ではありませんが、約1万個のニューロンがあり、その1万個のニューロンをじっくりと見てきました。
興味深いことに、明確な直感的な意味を持たないニューロンもたくさんありますが、Inception V1には明確な意味を持つニューロンも多くあります。曲線を検出するニューロン、車を検出するニューロン、車輪や車窓を検出するニューロン、犬のだらりとした耳、右向きの長い鼻を持つ犬、左向きの長い鼻を持つ犬など、様々なものを検出するニューロンがあります。エッジ検出器、線検出器、色のコントラスト検出器、そして高低周波検出器と呼ぶ美しいものがあります。
生物学者のように感じました。新しいタンパク質の世界を見て、相互作用する異なるタンパク質を発見しているような感じです。
これらのモデルを理解する一つの方法は、ニューロンの観点から考えることです。「犬を検出するニューロンがあり、車を検出するニューロンがある」というように。実際に、それらがどのように接続されているかを調べることができます。
例えば、車を検出するニューロンがどのように構築されているかを見ると、前の層で窓検出器、車輪検出器、車体検出器と強く接続されており、車の上部に窓、下部に車輪、車体は中央部、特に下部に配置されているのを探しているのです。これは車のレシピのようなものです。
先ほど、メックインタープが求めているのはアルゴリズムを得ることだと言いましたが、ここではニューラルネットワークの重みを見て、車を検出するための非常に単純な、原始的なレシピを読み取っているのです。これを回路と呼びます。
しかし、問題は全てのニューロンが解釈可能ではないということです。時には、分析の正しい単位がニューロンの組み合わせであることを示唆する「重ね合わせ仮説」があります。
例えば、車を検出した後、モデルは次の層でいくつかの犬検出器に車の一部を隠すことがあります。なぜそうするのでしょうか?おそらく、その時点で車についてそれほど多くの作業をしたくないのでしょう。
つまり、犬検出器だと思われるニューロンがたくさんあり、それらは主にそうかもしれませんが、それらは全て次の層で車を表現することに少し貢献しているのです。
ここで、まだ何か「車の概念」のようなものはあるかもしれませんが、もはやそれは一つのニューロンに対応していません。だから、これらのニューロンのような存在、つまりニューロンにあってほしかったもの、理想化されたニューロンのような何かを表す用語が必要です。
素晴らしいニューロンだけでなく、隠れている可能性のあるより多くのものを指す用語が必要で、それを「特徴」と呼びます。
では回路とは何でしょうか?回路とは、これらの特徴を重みで接続したものです。車検出器が窓検出器や車輪検出器と接続され、車輪は下に、窓は上にあることを探す、それが回路です。回路は重みで接続された特徴の集まりで、アルゴリズムを実装します。特徴がどのように使われ、構築され、接続されるかを教えてくれます。
ここでの核心的な仮説は何かを明確にしてみましょう。それは「線形表現仮説」と呼ばれるものです。
車検出器について考えると、それが多く発火するほど、モデルは車が存在すると確信していると考えます。または、車を表現するニューロンの組み合わせがある場合、その組み合わせが多く発火するほど、モデルは車が存在すると考えていることになります。
これは必ずしもそうである必要はありません。車検出器ニューロンがあって、1から2の間で発火する場合は一つの意味を持ち、3から4の間で発火する場合は全く異なる意味を持つということもあり得ます。これは非線形表現です。
原則としてモデルはそうすることもできますが、そのような計算を実装しようとすると非効率的で面倒なことになります。特徴と回路の枠組みで考えることは、物事を線形として考えることです。
ニューロンまたはニューロンの組み合わせがより多く発火すると、特定のものがより多く検出されることを意味し、それによって重みは特徴間のエッジとして明確な解釈を持つことになります。これが核心的な部分です。
ニューラルネットワークの文脈外でも話すことができます。word2vecの結果についてご存じですか?「王様 – 男性 + 女性 = 女王」というような計算ができるのは、線形表現があるからです。
その表現について少し説明できますか?まず、特徴は活性化の方向だと考えられますが、「男性を引いて女性を足す」というword2vecの話を説明できますか?
はい、これは非常に有名なword2vecの結果で、Mikolovらによるものです。多くのフォローアップ研究があります。時々、単語埋め込みを作成し、各単語をベクトルにマッピングします。
それ自体が、物理学の授業でベクトルを学んだ人にとっては少し奇妙なことかもしれません。辞書の全ての単語をベクトルに変換するというのは少し変な考えですよね。
しかし、単語をベクトルにマッピングする方法は様々考えられますが、ニューラルネットワークを訓練すると、特定の意味で線形構造を持つようにマッピングされるようです。
例えば、ジェンダーに対応する方向があり、男性の単語は一方向に、女性の単語は別の方向にあります。線形表現仮説は、これが実際に起こっている基本的なことだと考えます。
全ての方向は意味を持ち、異なる方向ベクトルを足し合わせることで概念を表現できます。Mikolovの論文はその考えを真剣に受け止め、その結果として単語の算術ができるようになりました。
「王様」から「男性」を引いて「女性」を足すと、ジェンダーを切り替えようとしていることになり、実際にその結果は「女王」に近くなります。「寿司」から「日本」を引いて「イタリア」を足すと「ピザ」になるなど、他のこともできます。
これが線形表現仮説の核心です。ベクトル空間の純粋に抽象的なものとして説明することもできますし、ニューロンの活性化についての陳述として説明することもできます。
しかし、本当に重要なのは方向が意味を持つという性質で、さらに微妙なのは、物事を足し合わせることができるという性質です。ジェンダーと王族性、または料理の種類と国、食べ物の概念を足し合わせることで、独立して修正できるのです。
線形仮説はスケールすると思いますか?
今のところ、私が見た全てのものはこの仮説と一致しています。必ずしもそうである必要はありませんよね。線形表現を持たないように重みを書くことができ、線形表現の観点から理解するのが正しい方法ではない場合もあります。
しかし、私が見た全ての自然なニューラルネットワークはこの性質を持っています。最近、いくつかの論文が境界を押し広げようとしています。多次元特徴に関する研究があり、単一の方向ではなく、方向の多様体のようなものを考えています。
これも私には線形表現のように思えます。また、非常に小さなモデルでは非線形表現が得られる可能性を示唆する論文もありますが、まだ判断は保留です。しかし、これまで見てきた全てのものは線形表現仮説と一致しています。
これは驚くべきことです。必ずしもそうである必要はないのに、非常に広く普及している証拠があり、今のところその証拠はそれと一致しています。
ある人は「クリストファー、それは確実に真実だと分からないのに、全てのニューラルネットワークをそうだと仮定して調査するのは危険ではないですか」と言うかもしれません。
しかし、仮説を真剣に受け止め、できる限り追求することには価値があると思います。いつか線形表現仮説と矛盾することを発見するかもしれませんが、科学は間違っていた仮説や理論に満ちています。それらの下で作業することで、多くのことを学んできました。
これはクーンが言うところの「通常科学」の核心だと思います。科学哲学について話したければ…
それはパラダイムシフトにつながりますね。そうですね。スケーリング仮説も同じです。
同じです。私の同僚のトム・ヘニガン(元物理学者)が、熱量説の素晴らしい類推をしてくれました。かつて熱は「熱素」と呼ばれる物質だと考えられていて、熱い物体が冷たい物体を温めるのは、熱素が流れるからだと考えられていました。
現代の熱理論に慣れているため、それは少し愚かに思えるかもしれませんが、熱量説を否定する実験を考案するのは実は非常に難しいのです。熱量説を信じていても、多くの有用な作業ができました。例えば、最初の燃焼エンジンは熱量説を信じていた人々によって開発されました。
間違っているかもしれない仮説でも、真剣に受け止めることには価値があります。
それは火星の植民地化について私が感じることと似ています。多くの人が批判していますが、人類文明のバックアップとして火星を植民地化する必要があると仮定すれば、たとえそれが真実でなくても、興味深いエンジニアリングや科学的なブレークスルーが生まれるでしょう。
そうですね。これは社会にとって本当に有用なことだと思います。特定の仮説を調査することに、ほぼ非合理的なまでに専念する人々がいることは。なぜなら、科学的な士気を維持し、何かを本当に追求するには多くの努力が必要だからです。
ほとんどの科学的仮説は間違っていることが分かります。多くの科学は成功しません。しかし、それは非常に有用です。ジェフ・ヒントンについてのジョークがあります。「ジェフ・ヒントンは過去50年間、毎年脳の仕組みを発見している」というものです。
でも、本当に深い敬意を込めて言っています。なぜなら、それが実際に素晴らしい仕事につながったからです。今や彼はノーベル賞を受賞しました。誰が笑っているんですか、そうですね。
適切な自信のレベルを認識することも重要ですが、この問題は可能だ、またはこれが基本的に正しいアプローチだと仮定して、しばらくそれを前提に作業し、それを本当に追求することにも多くの価値があります。
社会が異なることに対してそのような人々を多く持つことは、物事を本当に排除するため、または世界について何かを教えてくれるものに到達するために実際に役立ちます。
もう一つの興味深い仮説は「重ね合わせ仮説」です。重ね合わせについて説明していただけますか?
先ほどword2vecについて話しましたね。ジェンダーに対応する方向があり、王族に対応する方向があり、イタリアに対応する方向があり、食べ物に対応する方向があるなどと。
これらの単語埋め込みは500次元や1000次元であることが多いのですが、もしそれらの方向が全て直交していると仮定すると、500の概念しか持てないことになります。
私はピザが大好きですが、英語で最も重要な500の概念を挙げるとしたら、イタリアがその中に入るかどうかは明らかではありません。複数形と単数形、動詞と名詞と形容詞など、イタリアに到達する前に多くの概念を扱わなければなりません。世界には多くの国があります。
では、モデルはどのようにして線形表現仮説が真であり、かつ方向の数よりも多くのものを表現できるのでしょうか?
線形表現仮説が真であれば、何か興味深いことが起こっていなければなりません。もう一つ興味深いことを言う前に…先ほど多義的なニューロンについて話しました。Inception V1を見ていると、車検出器や曲線検出器のように、多くの一貫したものに反応する素晴らしいニューロンがありますが、無関係なものにも反応するニューロンが多くあります。
これも興味深い現象です。また、これらの非常にクリーンなニューロンでも、弱い活性化を見ると、つまり最大活性化の5%程度で活性化している場所を見ると、それは期待している中心的なものではありません。
例えば、曲線検出器で5%活性化している場所を見ると、ノイズとして解釈することもできますし、他の何かをしている可能性もあります。
これはどういうことでしょうか?数学には「圧縮センシング」という驚くべき事実があります。高次元空間を低次元空間に投影すると、通常は高次元ベクトルを復元して戻すことはできません。情報を失ってしまうからです。これは長方形の行列は逆行列を持てず、正方行列しか逆行列を持てないようなものです。
しかし、実はそれは完全に正しくありません。高次元ベクトルがスパースである(ほとんどがゼロである)と分かっている場合、高い確率で元の高次元ベクトルを見つけることができます。これは驚くべき事実です。
高次元ベクトル空間を持ち、物事がスパースである限り、それを低次元に投影しても機能するということです。重ね合わせ仮説は、これがニューラルネットワークで起こっていると言っています。
例えば、単語埋め込みで起こっていることです。単語埋め込みは、方向が意味を持つという性質と、それらが比較的高次元の空間で操作しているという事実を利用して、同時に多くの概念を表現できています。
また、これらの概念は通常、同時には使用されないという事実も利用しています。ほとんどの文章で、日本とイタリアは同時にゼロです。全く存在しません。
もしそうだとすると、次元数よりも多くの意味のある方向、つまり特徴を持つことができ、ニューロンについて言えば、ニューロン数よりも多くの概念を持つことができます。これが高レベルでの重ね合わせ仮説です。
これにはさらに驚くべき含意があります。ニューラルネットワークの表現だけでなく、計算もこのようなものかもしれないということです。すべての接続もそうです。
ある意味で、ニューラルネットワークはより大きなスパースなニューラルネットワークの影のようなもので、私たちが見ているのはその投影です。重ね合わせ仮説の最も強いバージョンは、これを本当に真剣に受け止めることです。
実際には、「上階」のモデルがあり、そこではニューロンは本当にスパースで全て解釈可能で、その間の重みは本当にスパースな回路です。それが私たちが研究しているものです。私たちが観察しているのはその影で、元のオブジェクトを見つける必要があります。
学習のプロセスは、投影で情報をあまり失わない「上階」モデルの圧縮を構築しようとしているのです。効率的にフィットさせる方法を見つけるようなものです。
実際、勾配降下法がこれを行っているのです。密なニューラルネットワークを表現することもできますが、勾配降下法は、この低次元空間に投影できる非常にスパースなモデルの空間を心地よく探索しているのです。
スパースなニューラルネットワークを研究する大きな研究の流れがあります。エッジがスパースで活性化もスパースなニューラルネットワークを設計できます。私の印象では、その研究は原則的には非常に理にかなっているように思えますが、あまり成功していません。
その潜在的な答えは、ニューラルネットワークは既にある意味でスパースだということです。勾配降下法は、舞台裏でスパースなモデルの空間をより効率的に探索し、最も効率的なスパースモデルを学習し、それをGPUで便利な密な行列乗算を実行できるように折りたたむ方法を見つけていたのです。それには勝てません。
ニューラルネットワークにはどれくらいの概念を詰め込むことができると思いますか?
それはどれくらいスパースであるかによります。パラメータの数から上限があるでしょう。なぜなら、それらを接続する重みを持つ必要があるからです。それが一つの上限です。
圧縮センシングやジョンソン・リンデンストラウスのレンマなどから、素晴らしい結果が実際にあります。ベクトル空間があり、ほぼ直交するベクトルを持ちたい場合(おそらくここで欲しいものです)、概念や特徴を完全に直交させることはあきらめますが、あまり干渉しないようにしたい場合、コサイン類似度の許容閾値を設定すると、それはニューロンの数に対して指数関数的になります。
ある時点で、それは制限要因にはならないでしょう。しかし、さらに良いことに、それは任意の特徴の集合が活性化できると仮定していますが、実際には特徴には相関構造があり、一部の特徴は共起しやすく、他の特徴は共起しにくいのです。
だから、ニューラルネットワークはおそらく物事をうまくパッキングできて、それが制限要因にはならないところまで行けると思います。
ここで多義性の問題はどのように関係してきますか?
多義性は、多くのニューロンを見た時に観察される現象です。ニューロンは一つの概念だけを表現するのではなく、クリーンな特徴ではありません。無関係な多くのものに反応します。
重ね合わせは、多義性という観察された現象を説明する仮説と考えることができます。多義性は観察された現象で、重ね合わせはそれを他のいくつかのことと共に説明する仮説です。
それによってメックインタープはより難しくなりますよね?個々のニューロンの観点から物事を理解しようとして、多義的なニューロンがある場合、大変な困難に直面します。
最も簡単な答えは、ニューロンを見て理解しようとしているのに、このニューロンは多くのものに反応していて、良い意味を持っていない、それは悪いことだ、ということです。
もう一つの疑問は、最終的に重みを理解したいのに、二つの多義的なニューロンがあって、それぞれが3つのものに反応し、それらの間に重みがある場合、それは何を意味するのか?9つの相互作用が起こっているということなのか?それは非常に奇妙なことです。
しかし、もっと深い理由があります。それはニューラルネットワークが本当に高次元の空間で操作するという事実に関係しています。私たちの目標はニューラルネットワークを理解し、メカニズムを理解することだと言いましたが、一つ言えることは、それは単なる数学的な関数なので、なぜ単に見ないのか?ということです。
私が最初に行ったプロジェクトの一つは、2次元空間を2次元空間にマッピングするニューラルネットワークを研究し、それを多様体を曲げるという美しい方法で解釈できました。なぜそれができないのでしょうか?
より高次元の空間を持つと、その空間の体積はある意味で入力の数に対して指数関数的になります。だから単に可視化することはできません。
somehow私たちはそれを分解する必要があります。指数関数的な空間を、独立に推論できる指数関数的でない数の物事に分解する必要があります。独立性が重要です。なぜなら、それによって物事の指数関数的な組み合わせについて考える必要がなくなるからです。
単義的であること、一つの意味しか持たないこと、その意味が独立していることが、独立して考えることを可能にする鍵となります。これが、解釈可能な単義的な特徴が欲しい最も深い理由だと思います。
あなたの最近の研究が目指しているのは、多義的な特徴を持つニューラルネットから、単義的な特徴をどのように抽出するかということですね?
はい、私たちは多義的なニューロンを観察し、重ね合わせが起こっていると仮説を立てています。もし重ね合わせが起こっているなら、辞書学習という確立された技術があります。
特に、うまく正則化する効率的な方法である「スパースオートエンコーダー」を使うと、以前にはなかった美しい解釈可能な特徴が自然に現れ始めます。これは必ずしも予測できることではありませんでしたが、非常にうまく機能することが分かりました。
私にとって、これは線形表現と重ね合わせの些細でない検証のように思えます。辞書学習では、特定のカテゴリーを探しているわけではありませんね。何があるか分からないのです。
これは先ほどの点に戻ります。勾配降下法は私たちより賢いので、何があるかについて仮定を立てないのです。もちろん、PHPの特徴があると仮定してそれを探すこともできますが、そうはしません。代わりに、スパースオートエンコーダーに存在するものを発見させるのです。
2023年10月の単義性に関する論文について話していただけますか?素晴らしいブレークスルーの結果があったと思いますが。
そう言っていただき、ありがとうございます。これは、スパースオートエンコーダーを使用した最初の本当の成功でした。1層のモデルを取り、辞書学習を行うと、本当に素晴らしい解釈可能な特徴が見つかりました。
アラビア語の特徴、ヘブライ語の特徴、Base64の特徴などが例で、それらが私たちが考えていたものであることを深く研究して示しました。モデルを2回訓練して、2つの異なるモデルで辞書学習を行うと、両方で類似の特徴が見つかります。それは面白いことです。様々な種類の特徴が見つかります。
これは単に、これが機能することを示しただけです。同時期にカニンガムらも非常に似た結果を出しています。このような小規模な実験を行って、実際に機能することを発見するのは面白いことです。
そしてここには非常に多くの構造があります。しばらくの間、このメカニスティックインタープリタビリティは全て機能するかもしれないと思っていましたが、最終的には、なぜそれが非常に難しく、扱いにくいかの説明を得ることになると思っていました。
「重ね合わせに問題があり、重ね合わせは本当に難しいことが分かった、私たちは行き詰まっている」というようになると思っていました。しかし、そうはなりませんでした。実際、非常に自然な技術がただ機能するのです。
これは実際に非常に良い状況です。これは難しい研究問題で、多くの研究リスクがありますし、まだ失敗する可能性は十分にありますが、かなりの量の研究リスクは、それが機能し始めた時点で克服されたと思います。
このような方法でどのような特徴を抽出できるか説明していただけますか?
研究しているモデルによって異なります。モデルが大きければ大きいほど、より洗練された特徴になります。フォローアップの研究についてもすぐに話しますが、これらの1層モデルでは、プログラミング言語と自然言語の両方で、非常に一般的なものがありました。
特定の文脈での特定の単語に関する特徴が多くありました。例えば「the」という単語は、名詞が続く可能性が高いです。これを特徴と考えることもできますし、特定の名詞の特徴を予測するものと考えることもできます。
法的文書や数学的文書などの特定の文脈での「the」に反応する特徴がありました。例えば、数学の文脈では「the」の後にベクトル、行列など、全ての数学的な単語を予測し、他の文脈では他のものを予測します。それが一般的でした。私たちは賢明な人間が見ているものにラベルを付ける必要がありますね?
そうですね。これは単に物事を展開するだけです。全てが重なり合って折り畳まれていた場合、それを見ることはできません。これは展開しますが、それでも理解しようとする非常に複雑なものがあります。
それらを理解するために多くの作業が必要で、一部は本当に微妙です。この1層モデルでさえ、Unicodeについて本当にクールなことがあります。
一部の言語はUnicodeで、トークナイザーは必ずしも全てのUnicode文字に専用のトークンを持っているわけではありません。代わりに、Unicode文字の半分を表す交互のトークンのパターンがあり、別の特徴が反対側のものに反応して「文字が終わった」「次のプレフィックスを予測」「プレフィックスに対して妥当なサフィックスを予測」というように交互に行います。
これらのモデルは本当に興味深いです。また、Base64の特徴が1つだけあると思うかもしれませんが、実際には複数あります。なぜなら、英語のテキストをBase64でエンコードすることができ、それは通常のBase64トークンとは非常に異なる分布を持つからです。トークン化についても利用できることがあります。様々な面白いことがあります。
何が起こっているのかラベルを付ける作業はどれくらい難しいですか?AIによって自動化できますか?
特徴によって、また、AIをどれだけ信頼するかによって異なると思います。自動解釈に関する多くの研究があり、それは本当にエキサイティングな方向性だと思います。私たちもかなりの量の自動解釈を行い、クロードに特徴のラベル付けをさせています。
完全に正しかったり、完全に間違っていたりする面白い瞬間はありますか?
一般的なのは、ある意味で真実だけれど、実際に起こっている特定のことを本当には捉えていない、非常に一般的なことを言う場合です。それは非常によくある状況です。
特に面白い例は思い浮かびませんが…真実ではあるけれど、物事の深いニュアンスまでは理解できていないという小さなギャップは興味深いですね。
それは一般的な課題です。信じられないほど賢く、真実のことを言えますが、時々深さが欠けています。この文脈では、ARCチャレンジのような、IQテストのような問題を解くような感じです。特徴が何を表しているのか理解するのは、小さなパズルを解くようなものです。
そうですね、時には簡単で、時には難しいです。また、これは私の美的感覚かもしれませんが、理由を説明してみましょう。
私は自動解釈に少し疑問を持っています。部分的には、人間にニューラルネットワークを理解してほしいと思っているからです。ニューラルネットワークが私のために理解してくれるのは、少し気に入りません。
数学者が「コンピュータによる自動証明は認めない、理解できないから」と言うようなものかもしれません。しかし、「信頼の反射」のような問題もあると思います。
有名な講演があり、コンピュータプログラムを書くときにはコンパイラを信頼する必要があり、コンパイラにマルウェアが含まれていると、次のコンパイラにマルウェアを注入する可能性があり、困ったことになるというものです。
ニューラルネットワークを使ってニューラルネットワークが安全かどうかを検証する場合、テストしている仮説は「ニューラルネットワークは安全ではないかもしれない」というものです。それがあなたを欺く方法があるかもしれないことを心配する必要があります。
今はそれほど大きな懸念ではないと思いますが、長期的に、本当に強力なAIシステムを使ってAIシステムを監査する必要がある場合、それは本当に信頼できるものなのか疑問です。
でも、単に私が人間に全てを理解してほしいと思っているから合理化しているだけかもしれません。特にAI安全性について話す時、欺瞞などAI安全性に関連する特徴を探す時は、特に面白いですね。
2024年5月のスケーリング単義性の論文について話しましょう。これをClaude 3に適用するには何が必要でしたか?
より多くのGPUが必要でした。私のチームメイトのトム・ヘニガンは、元々のスケーリング法則の研究に関わっていました。彼は早い段階から、解釈可能性にもスケーリング法則があるのかに興味を持っていました。
この研究が成功し始め、スパースオートエンコーダーが機能し始めた時、私たちはスパースオートエンコーダーをより大きくすることのスケーリング法則や、それがベースモデルを大きくすることとどのように関係するかに非常に興味を持ちました。
これは本当にうまく機能することが分かり、特定のサイズのスパースオートエンコーダーを訓練する場合、どれくらいのトークンで訓練すべきかなどを予測するのに使えました。これは私たちがこの研究をスケールアップする上で本当に大きな助けとなりました。
本当に大きなスパースオートエンコーダーを訓練することが、はるかに容易になりました。大きなモデルを訓練するのとは違いますが、実際に高価になり始める点まで来ています。
つまり、大きなGPUに分散させるなど、全ての作業を行う必要があります。ここには大きなエンジニアリングの課題もありますね?
そうです。物事を効果的にスケールする方法という科学的な問題があり、それをスケールアップするための膨大な量のエンジニアリングも必要です。多くのことを非常に慎重に考える必要があります。
私は素晴らしいエンジニアと働けて幸運です。私は間違いなく優れたエンジニアではありませんから。特にインフラストラクチャについてはそうですね。
要するに、それは機能しました。そうです。これは重要です。なぜなら、単義性の論文の後に「クリス、これは素晴らしい、1層モデルで機能しますが、1層モデルは本当に特異的です」と言われる世界を想像できたからです。
「おそらく線形表現仮説と重ね合わせ仮説は1層モデルを理解する正しい方法かもしれませんが、大きなモデルを理解する正しい方法ではない」と。
カニンガムらの論文がそれを少し打ち消し、そうではないことを示唆しましたが、スケーリング単義性は、非常に大きなモデル、当時の生産モデルの一つだったClaude 3 Sonnetでさえ、線形特徴によってかなり説明できることの重要な証拠だと思います。
辞書学習はそれらに機能し、より多くの特徴を学習すると、より多くを説明できます。これは非常に有望なサインだと思います。そして今、本当に魅力的な抽象的な特徴を見つけています。
また、特徴はマルチモーダルで、同じ概念に対してテキストと画像の両方に反応するのが面白いですね。そうですね、具体例をたくさん挙げることができます。
一つの例から始めましょう。セキュリティの脆弱性とバックドアに関する特徴を見つけました。実はこれらは異なる特徴です。セキュリティ脆弱性の特徴があり、それを強制的に活性化させるとクロードはバッファオーバーフローのようなセキュリティ脆弱性をコードに書き始めます。
また、「–disable SSL」のような明らかに非常に安全でないものにも反応します。この時点では、例が表面的な、より明白な例のように見えるかもしれません。
アイデアとしては、将来的にはより微妙な欺瞞やバグなどを検出できるかもしれないということですね。
そうですね、ただ二つのことを区別したいと思います。一つは特徴や概念の複雑さ、もう一つは見ている例の微妙さです。データセットの上位の例を見せる時、それはその特徴が最も強く活性化する極端な例です。
それは、より微妙なことに反応しないということを意味するわけではありません。例えば、安全でないコードの特徴は、最も強く反応するのは「セキュリティを無効化する」というような本当に明白なものですが、バッファオーバーフローやより微妙なセキュリティの脆弱性にも反応します。
これらの特徴は全てマルチモーダルなので、この特徴がどのような画像に反応するか尋ねることができます。セキュリティ脆弱性の特徴は、SSLに問題がある可能性があるという警告をクロムでクリックしてスキップするような画像に反応することが分かりました。
もう一つ面白いのは、コード内のバックドア特徴です。これを活性化させると、クロードはデータをポートにダンプするようなバックドアを書きます。では、バックドア特徴はどのような画像に反応するでしょうか?
隠しカメラが入っているデバイスです。一見無害に見えるデバイスに隠しカメラを入れて販売する人々の市場があるようです。広告には隠しカメラが入っていることが書かれています。これは、バックドアの物理的なバージョンだと思います。
これらの概念がいかに抽象的かを示していると思います。このようなデバイスを売る市場があることは悲しいですが、その特徴の上位の画像例としてそれが出てきたのは面白いと思いました。
そうですね、マルチモーダルで、マルチコンテキストで、単一の概念の広く強い定義として素晴らしいですね。
AI安全性の観点から本当に興味深い特徴の一つは、欺瞞と嘘です。特にモデルがより賢く、より賢くなるにつれて、モデル内の嘘を検出する可能性があります。
超知的なモデルが、その意図について運用している人々を欺くことは大きな脅威だと思われます。モデル内の嘘の検出から何を学びましたか?
ある意味で、まだ初期段階だと思います。欺瞞と嘘に関連する特徴をいくつか見つけています。人々が嘘をついたり欺いたりすることに反応する特徴があり、それを強制的に活性化させるとクロードが嘘をつき始めます。欺瞞の特徴を持っています。
情報を隠したり質問に答えないようにする特徴や、権力追求やクーデターに関する特徴など、不気味なことに関連する特徴がたくさんあります。それらを強制的に活性化させると、クロードは望ましくない方法で振る舞い始めます。
このメックインタープの分野で、次のエキサイティングな方向性は何だと思いますか?
多くのことがあります。一つは、特徴だけでなく、それを使ってモデルの計算を本当に理解できるところまで行きたいと思います。これが私にとっての究極の目標です。
サム・マークスの論文など、いくつかの成果を出していますが、まだ周辺部での作業だと思います。やるべきことがまだたくさんあり、それは非常にエキサイティングなことになるでしょう。
これは「干渉する重み」と呼ぶ課題に関連しています。重ね合わせにより、単純に特徴が接続されているかどうかを見ると、上階のモデルには存在しない重みが、重ね合わせのアーティファクトとして存在する可能性があります。これはそれに関連する技術的な課題です。
もう一つのエキサイティングな方向性は、スパースオートエンコーダーを望遠鏡のようなものと考えることができます。それによって、そこにある全ての特徴を見ることができます。より良いスパースオートエンコーダーを作り、辞書学習が上手くなるにつれて、より多くの星を見ることができ、より小さな星にズームインできます。
しかし、私たちはまだ星の非常に小さな部分しか観察できていないという証拠がたくさんあります。私たちのニューラルネットワークの宇宙には、まだ観察できない多くの物質があります。
おそらく、それを観察するのに十分な精度の機器を持つことは決してできないかもしれません。計算的に観察が不可能なものもあるかもしれません。天文学の初期に、この説明のつかない物質が何なのか分からなかった時の「暗黒物質」のようなものです。
私はその暗黒物質について、それを観察できるかどうか、もし観察できないとすれば安全性にとってそれは何を意味するのかについて、よく考えています。ニューラルネットワークのかなりの部分が私たちにはアクセスできないとすれば。
もう一つよく考える質問は、結局メカニスティック・インタープリタビリティは非常にミクロスコピックな解釈可能性へのアプローチです。物事を非常に細かい粒度で理解しようとしています。
しかし、私たちが気にする多くの質問は非常にマクロスコピックです。ニューラルネットワークの振る舞いに関する質問を気にしています。私が最も気にしているのはそれですが、他にも大規模な質問がたくさんあります。
ミクロスコピックなアプローチの良い点は、これは真実かどうかを問うことが容易かもしれないということです。しかし欠点は、私たちが気にすることからはるかに遠いということです。
今、登るべき梯子ができました。より大きなスケールの抽象化を見つけることができるでしょうか?この非常にミクロスコピックなアプローチから上がっていくことができるでしょうか?
あなたはこの「器官」の質問について書いていましたね。
そうです。解釈可能性をニューラルネットワークの一種の解剖学と考えると、ほとんどの回路の研究は、小さな血管を研究し、小規模なものや個々のニューロンとその接続を見ることを含みます。
しかし、この小規模なアプローチでは対処できない多くの自然な質問があります。対照的に、生物学的解剖学で最も顕著な抽象化は、心臓のような個々の器官や、呼吸器系のような器官系のような大規模な構造を含みます。
そこで、人工ニューラルネットワークにも呼吸器系や心臓、脳の領域のようなものがあるのかと疑問に思うわけです。
そうですね。科学について考えてみると、多くの科学分野は様々な抽象化レベルで物事を研究しています。生物学では分子生物学があり、タンパク質や分子を研究し、細胞生物学があり、組織学があり、解剖学があり、動物学があり、生態学があります。
物理学でも、個々の粒子の物理学があり、統計物理学が熱力学などを与えます。多くの場合、異なる抽象化レベルがあります。
現在、メカニスティック・インタープリタビリティは成功すれば、ニューラルネットワークの微生物学のようなものですが、私たちは解剖学のようなものも欲しいのです。
なぜ直接そこに行けないのかと疑問に思うかもしれません。答えは重ね合わせです。少なくとも重要な部分は、まず微視的構造を適切な方法で分解し、それがどのように接続するかを研究せずに、このマクロスコピックな構造を見ることは実際には非常に難しいということです。
しかし、特徴と回路よりもはるかに大きな何かがあり、私たちがはるかに大きなものについての物語を持つことができるようになることを願っています。そうすれば、気にする部分を詳細に研究できるようになります。
神経生物学に対する心理学者や精神科医のように、ニューラルネットワークに対してもそうなりますね。そうです。美しいことは、それらの二つの分野を別々に持つのではなく、より高いレベルの抽象化が、この非常に確実な、理想的にはより厳密な基礎にしっかりと基づいた架け橋を構築できることです。
生物学的ニューラルネットワークと人工ニューラルネットワークの違いは何だと思いますか?
神経科学者の仕事は私たちよりもはるかに難しいですね。時々、神経科学者よりも私の仕事がどれだけ簡単かを数えて感謝します。
私たちは全てのニューロンから記録を取ることができます。任意の量のデータで取ることができます。記録している間にニューロンは変化しません。ニューロンを切除したり、接続を編集したりすることができ、それらの変更を元に戻すこともできます。これは素晴らしいことですね。
任意のニューロンに介入して、強制的に活性化させ、何が起こるか見ることができます。どのニューロンが何と接続しているか分かります。神経科学者はコネクトームを得たいと思っていますが、私たちはコネクトームを持っています。
それも、線虫よりもはるかに大きなものについて持っています。コネクトームがあるだけでなく、ニューロンがお互いを興奮させるか抑制するかも分かります。バイナリマスクだけでなく、重みも分かります。
勾配を取ることができ、各ニューロンが計算上何をしているのか分かります。このリストはまだまだ続きます。神経科学者に比べて多くの利点があります。
それにもかかわらず、これが本当に難しいという事実は、時々「私たちにとってこれが難しいのなら、神経科学の制約の下では不可能か、ほぼ不可能に見えます」と思わせます。
私のチームには何人かの神経科学者がいますが、おそらく私は「神経科学者の中には、まだ非常に難しいけれどもっと簡単な問題に取り組みたい人もいるかもしれない」と思っています。
ニューラルネットワークを理解するという、まだ非常に難しい小さな池で作業し、それを理解した後で、生物学的神経科学に戻ることができるかもしれません。
メックインタープ研究の目標として、安全性と美しさという二つの目標について書かれていましたが、美しさの側面について話していただけますか?
面白いことに、一部の人々はニューラルネットワークに失望しているように見えます。「ニューラルネットワークは、これらの単純なルールがあって、それをスケールアップするためにたくさんのエンジニアリングをするだけで、うまく機能する。複雑なアイデアはどこにあるのか?これは美しい科学的な結果ではない」と。
そういう人々を見ると、「進化は退屈だ、単純なルールの集まりで、進化を長い時間実行すれば生物学になる。なんて残念な生物学の形だ。複雑なルールはどこにあるのか」と言っているように思えます。
しかし、美しさは単純さが複雑さを生み出すことにあります。生物学には単純なルールがありますが、それは私たちの周りに見る全ての生命と生態系、自然の美しさを生み出します。それは全て進化から、非常に単純なものから来ています。
同様に、ニューラルネットワークは自身の中に膨大な複雑さと美しさ、構造を構築していると思います。人々は一般的にそれを見たり理解しようとしたりしません。なぜなら理解するのが難しいからです。
しかし、時間をかけてそれを見て理解しようとすれば、ニューラルネットワークの中には信じられないほど豊かな構造があり、多くの深い美しさがあると思います。
メックインタープが、中で起こっている魔法を理解する、または理解の一端を掴むように感じられるのが大好きです。本当に素晴らしいです。
私にとって、最も明らかに問われるべき質問の一つは、なぜこれらのことができるコンピュータシステムを作る方法を知らないのに、これら素晴らしいシステムを持っているのかということです。
多くの人がこれについて考えていますが、私はしばしば驚きます。これらのことを直接できるコンピュータプログラムを作る方法を知らないのに、これらのニューラルネットワークは素晴らしいことができます。
もし少しでも好奇心があれば、人類が今、できる方法を知らないことができるこれらのアーティファクトを持っているのは、どうしてなのかという質問が明らかに呼びかけていると感じます。
目的関数の光に向かって回路が成長するというイメージが好きです。そうですね。私たちが育てた有機的なもので、何を育てたのか全く分かっていないのです。
安全性に取り組んでくれてありがとうございます。そして、発見するものの美しさを appreciation してくれてありがとうございます。今日は話してくれてありがとうございます、クリス。素晴らしい会話でした。
ありがとうございます。話す時間を取ってくれてありがとうございます。
このレックス・フリードマンとの会話をご視聴いただき、ありがとうございました。そして最後に、アラン・ワッツの言葉で締めくくらせていただきます:
「変化を理解する唯一の方法は、それに飛び込み、それと共に動き、ダンスに加わることです。」
ご視聴ありがとうございました。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました