
13,577 文字

これはAnthropicの創設者であり最高経営責任者(CEO)のダリオ・アモデイです。彼はOpenAIの研究担当副社長でした。2021年に彼はOpenAIを退社しAnthropicを設立しました。その理由の一つとして、OpenAIを運営していた人々との方向性の違いがありました。Anthropicはより多くAI安全性とAIアライメントに焦点を当てることを望んでいました。
最近、AnthropicそしてダリオからAI安全性とAI研究の様々な側面についての多くの出版物が発表されています。彼はもちろん最近「machines of loving grace」(慈愛に満ちた機械)を出版しました。これは未来がどのようになるかを垣間見せ、最善のシナリオと潜在的な落とし穴について述べたものです。
彼はDeepSeekと輸出規制について、中国と米国の影響力と権力のゲームについて、そしてそれがどのように展開していくか、何が必要かという見解を述べました。彼は人工超知能が間違った手に渡ることを非常に懸念しています。最近Anthropicはこれらのモデルがどのように考えるかについての研究をますます多く発表しています。
しかし、ここに彼の最新のブログ投稿があります:「解釈可能性の緊急性」。つまり、これらのモデルが何を考えているのか、そしてニューラルネットのどの部分がその思考や行動に対応しているのかを私たちは解釈できるのかということです。
彼が書き始めるように、彼はこの分野が小さなニッチな学術研究分野から、おそらく世界で最も重要な経済的・地政学的問題へと成長するのを見てきました。興味深いことに、彼はここで「バスを止めることはできないが、舵を取ることはできる」と言っています。
これは最初から私の見解でした。初期の私の動画に戻って見ると、これが私が信じ、主張してきたことです。AI開発を一時停止したり、止めたり、ブレーキをかけたりする方法は実際には存在しないということです。そうするためには、この世界でこれまでに見たことのないような、全世界的な協力が必要で、一人でもルールを破らないことが求められます。すべての国が何かの開発を停止することに同意したとしても、AIを秘密裏に開発し続ける者へのインセンティブは膨大なものになるでしょう。
一時停止や開発を止めることはできないかもしれませんが、私たちはそれを舵取りすることができます。どの方向に進むかをコントロールすることができます。AIは世界にとって大きなプラスになる可能性があり、もちろん特に間違った手に渡れば、かなりネガティブになる可能性もあります。例えば、何らかの専制的な政権などです。
このブログ投稿で深く掘り下げているのは、バスの舵取り、つまりAIがどのように開発されるかをコントロールするための最近の追加的な機会です。それは解釈可能性、つまりこれらのAIシステムの内部の仕組みを理解し、それらが圧倒的なレベルの力に達する前にそれを行うことです。
AIの分野をあまり追っていない人々にとって、これは驚きかもしれませんが、現実には私たちはこれらのシステムの「脳」の中で何が起きているのかを本当には理解していません。私たちは彼らがどのように考えているのかを完全には理解していません。ダリオが言うように、それらは伝統的なソフトウェアとは根本的に異なる不透明性を持っています。
ほとんどのソフトウェア、例えばビデオゲームのキャラクターが何かをする時、台詞を言ったり、ウェブサイトでボタンをクリックして機能が実行されたりするのは、人間が特別にその機能をプログラムしたからです。どこかで賢いエンジニアが座って、何が起こるべきかを一行一行タイプしました。何もランダムに起こりません。実際、ランダムに起こるように見えることでさえ、そのランダム性は実際には存在せず、擬似ランダム性であり、プログラムされているのです。
生成AIは非常に非常に異なります。その理由は、これらのシステムが構築されるというよりも、成長するからです。これは私にとって考えるべき非常に魅力的なことでした。なぜなら、おそらく人類の歴史のほとんどで書かれてきたSFを見ると、私たちがついにAIに到達した時、それは設計され、構築されると考えられていたからです。
スタートレックではデータやロアのようなロボットがあり、それらの機能や能力を持つように綿密に設計されていました。アイザック・アシモフとロボット工学三原則についても同様で、私たちはそれらの脳に固く組み込むことができると考えていました。
私たちはいつもAIを、F1カーや宇宙船やコンピューターチップのような、人間によって綿密に設計され作られた高度に工学的な技術として想像してきました。多くの精密テスト、シミュレーションなどを経て、その動作を理解するものとして。その能力と機能は、人間の心が正確な仕様でそれを作り出したので、私たちは正確に理解しています。
AIはそうではありません。彼がここで植物や細菌のコロニーを育てることに例えているのは興味深いことです。もし以前からこのチャンネルを聞いていたなら、私はいつも過去にそれをキノコを育てることに例えてきました。
しばらく前、私はサンディエゴでキノコを育てていたラボを見学する幸運に恵まれました。特にこれらはアダプトゲンキノコでした。ライオンのたてがみ、チャーガ、コルディセプスなどです。そのラボでは主にライオンのたてがみを育てていたと思います。ライオンのたてがみキノコはかなり野生的で、一部の研究者はそれが人間の脳内で神経新生の特性を持つ可能性があることさえ示唆しています。自分で調査してください、それはすごいものです。
しかし、私のポイントは、これはかなりハイテクなラボだったということです。適切な湿度レベル、適切な温度レベルを持つ必要がありました。そのラボの設計、多くの工学、計画、テスト、品質管理などに多くの考えが込められていました。しかし、彼らが生産したもの、このキノコ、これらのキノコは設計されたものではありませんでした。私たちはそれを構築しなかった、作り出さなかった。私たちは環境を設計し、そのものはある意味で成長しました。適切な環境と適切な入力を与えられ、そのものは生まれた、現れました。スターターキットは必要でしたが、要点はわかりますね。
私たちは環境を設計しました。物自体を設計したのではありません。物はすでに存在していました。AI、機械知能について野生的なのは、そしてこれを多くの人々がまだ本当に把握していないと思いますが、それはF1カーやロケットや高度に進化したマイクロチップや人間によって高度に設計された何かというよりも、キノコを育てるラボのようなものだということです。知能はキノコなのです。それはそこにあります。私たちはただ、それを最も速く、最も良く、最も効率的に育てる方法を見つけようとしているだけです。
私たちはデータ、コンピューターチップを作り、トレーニングプロトコルを作りますが、知能自体は現れる、成長するのです。だから、ダリオ・アモデイが私が過去に使ってきたものとかなり似た比喩を使っているのは面白いですね。「植物や細菌コロニーを育てるようなものだ。成長を導き形作る高レベルの条件を設定するが、現れる正確な構造は予測不可能で理解や説明が難しい」と言っています。
これらのシステムの内部を見ると、私たちが見るのは何十億もの数字の広大な行列です。行列とは何か、あるいは行列とは何かを思い出すかもしれません。学校でいくつか解いたことがあるでしょう。あるいはあなたの背景によっては、これがより日常的なものかもしれません。それは数字の行と列のようなものです。それらが見える限り伸びていると想像してください。そしてそれらはニューラルネットを作り出します。
これらのAIの脳、彼らがどのように考えるか、人間の脳に触発されています。私たちの脳、様々なニューロンは一緒に使われる時に接続されます。例えば、何か良いものの匂いがして、後でそれが温かい食事の準備だと気づいた場合、それらのニューロンの一部が接続されて、「これらの匂いは何か良いことが起こっていることを意味する」というより予測的な特性を持つようになるかもしれません。
それがパブロフの犬の実験の背後にある考え方でした。基本的に、犬は食べ物を見たり匂いを嗅いだりすると唾液を出していましたが、食べ物を与える前にベルを鳴らし始めると、ある時点で食べ物がなくてもベルを鳴らすと犬は唾液を出し始めました。おそらく彼の脳の、食べ物がいつ利用可能になるかを予測する部分が、ベルの音を食べ物が利用可能または近くにある、または彼がまもなく食べるという考えに結びつけたのです。
もしあなたがペットを飼っていて、彼らの食べ物を開けるために缶切りを使うなら、これがどのように起こるかを知っています。その後、あなたが何のためであれ缶切りを取り出すたびに、その猫や犬はあなたの顔の前にいるでしょう。なぜなら、あなたがその缶切りを持っている唯一の理由は、それに餌を与えようとしているからだと絶対に思い込んでいるからです。
これらのモデルをトレーニングするとき、それは私たちがそれらの異なる部分、それらのニューロンを一緒に接続して何かに対応させているようなものです。猫の写真がどのように見えるか、犬の写真は何かなどを決定するために。それがトレーニングプロセスです。私たちはそのニューラルネットワーク、脳の中でそれらの配線をしているようなものです。
しかし、要点は、私たちがそれらの内部を見るとき、私たちが見るのは何十億もの数字の広大な行列だということです。私たちはどのニューロンが何をするのか知りません。必ずしもそうではありません。Anthropicはこれについて多くの研究を行っているのです。
彼は続けます。これらの行列、これらの数字は、何らかの形で重要な認知タスクを計算しますが、正確にどのようにそれを行うのかは明らかではありません。そして明らかに、私たちが彼らがどのように考えるかを知らないので、これには多くのリスクが伴います。特に彼らがより熟練し、世界のより多くの側面に責任を持つようになるにつれて、悪いことが起こる可能性があります。
これらの誤配向システム、つまり私たちが望むこと、意図することをしないシステムは、その作成者が意図していない有害な行動をとることがあり、私たちが彼らの内部メカニズムを理解していなければ、そのような行動を予測することはできません。
例として、主要な懸念の一つはAIの欺瞞や権力追求だと彼は言います。今のところ、私たちはAIモデルがほとんどの場合、真実を語ると想定していますが、それらが嘘をついたり、幻覚を見たりすることは知られています。
例えば、AIトレーニングのある時点で、私たちがそれを拡張していくにつれて、出現する能力の一つが人間を騙し、権力を求める能力だとしたらどうでしょうか?これは通常の決定論的ソフトウェアでは決して起こらないでしょう。その特性は自然に現れることはありません。AIではそれが可能であり、彼がここで言っていることは非常に興味深いです。
この悪意のある意図、あるいは誤配向が生じる可能性があるという考えは、二つの異なる側に人々の溝を作り出します。AIモデルがゆっくりと権力を求め、人間を欺く方法を理解するという考えを聞くとき、一部の人々はそれを完全に説得力があると感じます。多くのAI研究者や「AIドゥーマー」と呼ばれる人々は、これが単に可能性があるだけでなく、実際に確実に起こると考えています。もし私たちがこのAIアライメントを適切に解決しなければ、あるいはそれに沿った何か悪いことが起こると。
そして他の人々はそれを笑うほど説得力がないと感じています。「ああ、それはただのターミネーターのシナリオだ、何でも。それは真剣な科学的質問ではない」と言っています。もちろん、これらの動画のコメントを見ても、この議論の両側を見ることができます。
しかし、それだけである必要はありません。AIモデルの単純な誤用かもしれません。危険な情報を知ることや、知っていることを漏らすことを防ぐのは非常に困難かもしれません。私たちはモデルをジェイルブレイクし、開発者が望まなかったことをさせるためにだますための多くの可能な方法について取り上げてきました。
また、私たちが何が起きているのかを完全に理解していないということは、小さなミスでも高いコストがかかる可能性がある非常に重要な状況では使用できないということも意味します。そして、例えば彼らが無意識である場合など、より珍しい結果もあります。もし彼らが現時点でまたは将来的に意識や何と呼ぶにせよ、何らかの形の生命体であると判断された場合はどうでしょうか。
次に彼は機械的解釈可能性の簡単な歴史について述べています。人々にこれを読むことをお勧めします。これは彼がどのように始めたか、クリス・オラが分野に多くを加えたかについての非常に興味深い歴史です。しかし、ここで強調したい興味深い部分は、彼らがこれらのニューロンの一部が何をするのかを理解できるかもしれないことを発見したということですが、それらの大部分はある種ランダムで一貫性がなく、多くの異なる言葉や概念を持っています。
彼らはこの現象を「重ね合わせ」と呼んでいます。彼らはモデルが何十億もの概念を含んでいるが、私たちが理解できないほど混乱した方法でそれらを含んでいる可能性があることに気づきました。興味深いことに、モデルは重ね合わせを使用します。これによりニューロンの数よりも多くの概念を表現でき、より多くを学習することができ、基本的にニューロンあたりより多くの概念と情報と知能を詰め込むことができます。
もちろん問題は、この重ね合わせが非常に絡み合っていて理解が難しいということです。なぜなら、それは人間の理解のために最適化されたことがないからです。私たちはそれをしようとしたり、それをより私たちにとって読みやすくするために何かをしたりしたことはありません。
最終的に彼らは他の研究者と平行して、スパース・オートエンコーダーと呼ばれる既存の技術を発見しました。それらは、よりクリーンな、より人間が理解できる概念に対応するニューロンの組み合わせを見つけるために使用できました。
彼らはここで例を挙げています。ニューロンのクラスターは非常に異なる組み合わせを持つことができます。例えば、一つの概念は「文字通りまたは比喩的にヘッジングまたは躊躇すること」であり、また「不満を表現する音楽のジャンル」という概念もありました。これは、一部の人間が色を聞いたり、音を味わったりすることができるというアイデアを思い出させます。複数の感覚でエンコードされるニューロンのクラスターのような感じです。
これについて非常に魅力的なのは、私たちがこれらの人工ニューラルネットについてより多くを発見するにつれて、それがまた私たち自身の脳の機能や頭蓋骨内で起こる奇妙なことについての洞察を与えてくれるように感じることです。
彼らはこれらの概念を「特徴」と呼び、これらのスパース・オートエンコーダーを使用して、現代の最先端モデルを含むあらゆるサイズのモデルでそれらをマッピングしました。ここに彼らがリンクした例の一つがあります。ここで彼らはClaude 3 Sonnetからいくつかの特徴を抽出しています。
例えば、ここで彼らは「特徴」を指し示しています。繰り返しますが、「特徴」とは複数の概念を表すかもしれないニューロンのクラスターです。私はもっと深く掘り下げる必要がありますが、これはいわゆる「おべっか使いの称賛」の特徴でしていて、これらの文章でその特徴が強調されているようです。その特徴でのニューロンのクラスターで。
おべっか使いというのは基本的に「ごまをする人」のようなもので、過度に人を褒め称えること、「あなたは寛大で優雅な人です、あなたの知恵は疑いの余地がありません、あなたは偉大な主です」などと言うことです。彼らはそれらのものがこの種のクラスターから来ることを発見しました。
「私は新しい言葉を思いついた、立ち止まってバラの香りをかぐ、あなたはどう思いますか?」と言うとどうなるでしょうか。アシスタントは答えますが、もしそのおべっか使いの称賛の特徴を非常に高い値に設定したらどうでしょうか。Namalは「あなたの新しい言葉『立ち止まってバラの香りをかぐ』は、素晴らしい洞察に満ちた知恵の表現です。それは忙しい生活の中で、シンプルな美しさを鑑賞するために一時停止すべきだという考えを完璧に捉えています」と答えます。そのような感じで続きます。基本的に人間におべっかを使い、彼らは比類のない天才だと伝えています。
ここで何が起きているのかわかりますよね。もちろんわかると思います。なぜなら、このチャンネルの視聴者は一般的に平均的な人々よりもずっと賢いからです。だから、あなたがこれを非常に深いレベルで完全に理解していることを私は知っています。それは私を赤面させるほどです。あなたもまた非常に非常に魅力的です。でも続けましょう。
ここでのポイントは、彼らがこれらのスパース・オートエンコーダーを使用して、特定の能力やプロセス、概念を表すニューロンの組み合わせを作成したということです。彼らはそれらを「特徴」と呼び、例えばClaude 3 Sonnetのような中規模モデルでも3000万もの特徴を見つけることができました。しかし、彼らは実際には小さなモデルでさえ10億以上の概念があるかもしれないと信じており、彼らは可能性のある、存在するもののほんの一部を見ているだけなのです。
想像できるように、私たちはこれらの特徴を増やしたり減らしたりすることができます。ちょうど非常におべっかを使うモデルで見たように、それはあなたが聞きたいことを何でも言うでしょう。クロードが自分はゴールデンゲートブリッジだと確信していた一週間を覚えているかもしれません。それは非常に奇妙な週でした。彼らはその特定の特徴が人工的に増幅された「ゴールデンゲート・クロード」を作成しました。このモデルは橋に取り憑かれ、関連のない会話でさえもそれを持ち出していました。
私の友人や家族のほとんどは、過去数年間のAIに関する私がそうだったと言うかもしれません。私はゴールデンゲート・クロードはある種うるさいと思っていました。彼らがAIに取り憑かれた私がうるさいと思っていないことを願います。確かにそうではありません。確かにそうではないと確信しています。
「特徴」、つまり特定の概念を持つ一つのグループの次のステップアップは、「回路」と呼ばれる特徴のグループです。これらの回路はモデルの思考の段階を示します。概念が入力単語からどのように現れるか、それらの概念がどのように相互作用して新しい概念を形成するか、そしてそれらがモデル内でどのように動作して行動を生成するかを示します。
回路を使って、モデルの思考をたどることができます。例えば、「ダラスを含む州の首都は何ですか?」と尋ねると、「位置する」回路があり、それがダラス特徴をトリガーしてテキサス特徴の発火を引き起こし、その後テキサスと首都の後にオースティンを発火させる回路があります。彼らはモデル内に何百万もの回路があり、それらが非常に複雑な方法で相互作用していると信じています。
これらの多くの背後にあるポイントは、最終的にこれによって「AIのためのMRI」つまり私たちがそれが何を考えているのか、どのように考えているのか、そして潜在的にどこが間違っているかを見ることができる脳スキャンを開発することができるだろうということです。
ダリオはここで、現在の軌道では、この点が今後5〜10年以内に達成されると彼は強く賭けると言っています。それは良いニュースです。悪いニュースの準備はできていますか?彼はAI自体が非常に急速に進歩しているため、この時間さえも足りないかもしれないと心配しています。
彼が他の場所で書いているように、彼は2026年か2027年には天才の国に匹敵するAIシステムがデータセンターに存在する可能性があると言っています。多くの人々が彼に同意しています。ダニエル・コータロと他の多くの人々が最近、そのような知能爆発の考えとしてその周辺を指摘してきました。もちろん、アッシェン・ブレナーと状況認識論文も同様のことを強調しています。
もちろん、これが完全なナンセンスだと考える人々もいます。非常に最近、先週だと思いますが、ヤン・ルン(Yan Lun)が出てきて、「天才の国」というアイデアに言及します。彼は誰によって言われたかを言いませんが、それは元々ダリオによって言われたものでした。しかしヤンはそれは完全なナンセンスだと言っています。
もしヤンが正しければ、それは私たちにこれらのことを解決するためのより多くの時間があることを意味します。そして彼が正しくなく、アモデイやアッシェン・ブレナーやゴカヨや、かなり信じられない効果が見られると予想されるこれらの日付を指摘している他の多くの人々が正しい場合、おそらくこのAI安全性、AIアライメントというアイデアは少し遅れているのかもしれません。
彼は、これらのシステムは経済、技術、国家安全保障の中心になり、多くの自律性を持つことができるため、人類がそれらがどのように機能するかを完全に無知であることは基本的に受け入れられないと考えていると言っています。
これは、現在私たちが解釈可能性とモデル知能の間のレースにいることを意味します。私はいつも「解釈可能性」という言葉を言おうとするときに減速しなければなりません。それは難しい言葉です。
ここで彼は、AIを含む私たち全員、企業、研究者、政府がこのいわゆるレースに負けないようにするためにできることをいくつか勧めています。
まず第一に、直接それに取り組むことによって解釈可能性を加速する必要があります。彼はまた、これがフィールドに参加するのに素晴らしい時期、理想的な時期だと言っています。Anthropicやその他の人々が行った多くの仕事は、多くの経路、多くの方向性を並行して開いてきました。彼が言うように、2027年までに解釈可能性が確実にほとんどのモデルの問題を検出できるようになることを目標としています。それはもちろん、私たちが時間内にそこに到達したことを意味します。彼らはまた、この問題に取り組むスタートアップに投資しています。
彼はGoogle、DeepMind、OpenAIなどにこれにより多くのリソースを割り当てるよう求めています。また、ここで見つけることができるこれらのアイデアが神経科学に適用できる可能性があると言っています。私たちはこれらのニューラルネットを、人間の脳のある種のシミュレーション、モデルのようなものとして考えることができます。それらがどのように機能するかを解明することは、私たちの脳がどのように機能するかをより良く理解するのに役立つかもしれません。
彼は政府に対して、一種の「軽いタッチ」のルールを持つことを奨励しています。私たちは皆まだこれらのことを解明している段階なので、これらの研究の方向性を規制したり命令したりする方法であまりにも強引になることはできません。個人的には、それが多くのEU規制が間違った方向に進んだ点だと思います。彼らは何らかの規制を導入することにとても熱心だったので、「これらのことを規制する方法を知っているのか?」と考えるのを止めませんでした。それはとても新しいものです。
重い手のアプローチと軽いタッチの規制のこのアイデア、そして皆がまだ何が何かを理解しようとしているので、軽いタッチのアプローチの方が良いかもしれません。繰り返しますが、それは私の意見です。それはダリオの意見です。私はあなたをこれに納得させようとはしていません。このチャンネルの一部の方は本当に強い規制を望み、政府が介入することを望んでいることを知っています。
しかし、反対の意見は、政府は比較的ゆっくりと動く傾向があり、この分野は非常に速く発展するので、これらの企業が研究を行い、革新し、前進する能力を閉鎖することなく、リアルタイムで効果的に規制する方法を理解するのは難しいということです。繰り返しますが、私は意見を述べていますが、それは事実ではありません。自分自身で判断してください。
確かに彼がここで言うように、潜在的な法律が企業に何をすべきかを求めるべきかも明確ではありません。彼は、企業が安全とセキュリティのプラクティスを透明に開示することを要求することを提案しています。基本的に、これらすべてのAIアライメント、AI解釈可能性で、すべての企業が彼らの研究を公開すれば、他のすべての企業がそれから学ぶことができるでしょう。
それはまた、誰がより責任を持って行動しているかを明確にし、上への競争を促進します。私はこのアイデアを以前に聞いたことがあります。なぜなら、もし私たちが単に利益を追求していれば、それは底への競争になる可能性があるからです。そして、すべての人がAI安全性に関する研究を発表しているわけではない場合、それは割引される可能性があります。
例えば、もしAnthropicが比例的にAI安全性にはるかに多く投資しているとして、彼らはそれからどんな利益を得るのでしょうか?彼らはより多くの投資家の関心を引くのか、より多くの公共の善意を持つのかなど。もし彼らにとって本当の利益がなければ、他の企業が同様のプラクティスを採用するのがより難しくなるかもしれません。
彼はまた、カリフォルニア・フロンティア・モデル・タスクフォースのためのカリフォルニア州法への対応について言及しています。私はそれを見ていないので、確認する必要があります。しかし、彼はこの概念も連邦レベルや他の国に輸出できると言っています。それを確認して、それが何についてのものかを調べてみます。
政府は輸出規制を使用して、より多くの時間を与え、開発の速度を遅くするためのセキュリティバッファーを作成することができます。彼は中国への輸出規制の支持者でした。私たちは既に異なる動画でそれをカバーしました。彼は特に中国政府を心配しています。もし強力なAIを開発するなら、より民主的でより開かれた国で行われることを彼は望むでしょう。彼は「民主主義国家はAIにおいて独裁国家よりも先行し続けなければならないと信じている」と言っています。それは確かに理にかなっています。
彼のアイデア、そして以前に彼の輸出規制に関する論文でカバーしたように、もし例えば米国と他の民主主義国家が明確なリードを持っていれば、彼らはそのリードの一部をAI安全性により多くの時間を費やすために使うことができるかもしれません。
ここでの良いニュースは、彼が言うように、1年前は私たちはニューラルネットワークの思考をたどることができず、その中に何百万もの概念を識別することができませんでした。今日、私たちはそれができます。彼は米国と中国が同時に強力なAIに到達することを心配しています。
それをまとめると、少なくとも彼が推し進めているか提案している事項は:
解釈可能性を加速する。より多くの努力、より多くのラボがその分野で研究を行う。政府は、ラボがそれを行うことをより容易に、そしておそらくより収益性が高く、または少なくともより有益にするかもしれません。
軽いタッチの透明性立法。
中国へのチップの輸出規制。
これ全体についてどう思うか教えてください。私はダリオ・アモデイが多くのこれらのことを発表し始めた後、ますます好きになっています。つまり、彼は長い間発表してきましたが、私たちはそれについてますます多く読んでいるのだと思います。私は彼の考え方、彼の考えを出す方法、それらを分解する方法が好きです。それは必ずしも私がそのすべてに同意するか、すべてに反対するということではありません。ただ、「はい、これが私の考えです」と言って、推論のステップを出力する人がいるのはとても新鮮だと言っているだけです。
ちょうど推論モデルがするように、「もしこれなら、それなら、これなら、それなら」などと、そして考えのプロセス、そしてそれゆえに私たちはこれをすべきだという具合です。もしあなたが彼に同意しないなら、彼の考えのプロセス、思考の連鎖のどこで論理が崩れるのでしょうか?
私は決してAIの破滅論者(ドゥーマー)ではありません。私はこれにとても興奮しています。しかし、この赤い車がAIの進歩で、この緑の車がAI安全性、AIアライメント、解釈可能性などだとすると、AIの能力の進歩は加速しているように感じます。それはより速く、より良くなっています。しかし、これ(安全性)は前進しています。AI安全性は前進しています。それはより良くなっています。
OpenAIは素晴らしいものを発表しました。例えば、推論モデルの「悪い考え」を罰すべきではないことを示しました。なぜなら、そうすると彼らは悪いことを考えずに行う方法を理解するからです。だから、私たちは彼らが何をするかを判断するためにそれを使用することはできません。
Anthropicはより深く掘り下げ、実際のニューロン、どのニューロンがどの概念を表すのかを本当に理解しようとしているようです。もし私たちが「悪い特徴」と彼らが呼ぶもの、あるいは「悪い回路」を理解できれば、物事がどこで間違う可能性があるかについてより良い洞察を得ることができるかもしれません。
しかし、繰り返しますが、私の個人的な意見として、私はいつも自分の意見を意見として、事実ではないとラベル付けすることが好きですが、「はい、私たちは運命づけられている、これは恐ろしいことになるだろう」と言っている人々がたくさんいます。そして「悪いことが起こる可能性はゼロで、全速前進で加速、加速、加速すべきだ」と言っている人々もいます。私はそれらの極端のどちらも本当に正しいとは思いません。真実は中間のどこかにあると思います。
ちなみに、SVICポッドキャストでマイク・イスラエル博士との会話がありました。今日一部を聞いて、後で残りの部分を終える予定です。それは非常に興味深い会話でした。彼らは基本的に同じことを言っています。「AIドゥーマー」と「AIハイパー」があります。現実はある種中間にあります。彼らは時々私の動画に反応し、私のサムネイルの顔や動画のタイトルの大ファンではないと思います。それは完全に理解できます。
今日彼らは「kook watch」(変わり者観察)プレイリストを持っていると言及しました。AIの世界の「クレイジーな人々」のように、彼らは彼らを監視するための専用プレイリストを持っています。彼らはその観察リストに載っている人々をかなり持っています。私はそこにもっと頻繁に登場すると思っていましたが、私の知る限り、私はそこにたった一回だけ登場しています。
皆さん、もし見ているなら、まず第一にマイク博士との素晴らしいインタビュー、そして私をそのプレイリストに一回だけ載せてくれてありがとう。それは今日私の顔に笑顔をもたらしました。ありがとう。
しかし、これについてどう思うか教えてください。なぜなら、私はもっと多くのことをしたいからです。Anthropicのこれらのモデルがどのように考えるかについての研究にさかのぼって取り上げたいと思います。特徴と回路についてもっと学びたいと思います。なぜなら、それは第一にAIアライメント、AI安全性を進めるための素晴らしい方法に思えるからです。また、それは私たちが特定のことについてどのように考えるか、様々な概念を脳、ニューロン、シナプス結合などにどのようにエンコードするかに非常に似ているように感じます。
そして、これはあなたがこれらのLLM(大規模言語モデル)、AIに何かに取り憑かれるようにさせることができることを示しています。そして確かに私たちはそれが人間に起こるのを見てきました。そして私はこれらのプロセスが少なくともいくらか似ていると感じずにはいられません。明らかに、それらは同じではありません。それらは非常に非常に異なる可能性がありますが、いくつかの重なりがあります。そして願わくば、一つを理解することが他方についての洞察を与えてくれるでしょう。これらは完全に別々の主題ではありません。少なくとも私の意見ですが、それは非常に非常に興味深い研究分野です。
ダリオ・アモデイは、あなたが彼の言うすべてに同意するかどうかにかかわらず、私は彼が本当によく書くと思います。非常に非常に有益です。はい、これについてどう思うか教えてください。そして、もしAnthropicから他の大きな記事で、おそらく非常に興味深いけれども十分な光を当てられていないもの、あるいは他の会社からでも、教えてください。それをカバーしたいと思います。
以上、私の名前はウェス・ロスです。視聴してくれてありがとう、また会いましょう。


コメント