本動画では、ディズニーが最新のAI技術と強化学習を駆使して開発した歩行可能なアニマトロニクス「オラフ」を紹介している。NvidiaやGoogle DeepMindとの協業により、シミュレーション環境で数万時間の学習を数日で完了させ、従来は数年かかっていた開発期間を数ヶ月に短縮した。また、家庭用ロボット企業の新たなデータ収集手法や、Andrew Karpathyによる「知能の空間」という概念、AIの潜在モデルが真の理解を意味するのかという哲学的問い、そしてAnthropicの研究が示す報酬ハッキングから生じる整合性の問題まで、AI技術の最前線と課題を包括的に論じている。さらに、チャットボットが陰謀論を助長する可能性や、バットマン効果という興味深い心理学的発見にも触れ、AI整合性への新たな視点を提供している。

ディズニーの新型オラフロボットとAI技術
ディズニーの新しいオラフロボットをチェックしてみてください。とてもリアルなんです。これは全てAI、Nvidiaのシミュレーショントレーニングによるものです。かなり魅力的で、正直言って本当にかわいいです。鼻も取り外せるんですよ。新しいフロントフェイシングプロジェクションマッピングもあります。
将来的に私たちのロボットに搭載できるかもしれない技術として興味深いですね。さて、Nano Bananaは、いかにリアルに何かを作り出せるかという点で印象的です。でも、このプロンプトの出し方を見てください。西暦333年4月3日の特定の経度と緯度、正確な時刻で画像を作成してくれと。正確な場所と時間を与えて再現できるほどの世界知識を持っているなんて、歴史を理解する興味深い方法ですよね。そして、これらのモデルから何かより深いものが出現していることを示しています。
これはステルスモードから抜け出したばかりの新しいロボティクス企業です。彼らは実際に多くの家族に手袋を提供して、掃除や皿洗いをしてもらいました。その手袋は遠隔操作されているのと同等でしたが、そのデータを使ってこれを行うようにトレーニングしたのです。
Andrew Karpathyは、AIモデルから得られる知能の種類が、生物学から知られている知能の種類といかに異なるかについて、本当に知的な文章を書きました。Rob Masonは、AIが何か印象的なことや知的なことをしたり、理解しているように見えたり、世界モデルを持っているように見えるときのニュアンスに飛び込んでいきます。
それは何でしょうか。同じものなのでしょうか。AIが今や「世界モデル」を持っていると言うのは一般的ですが、これは理解なのでしょうか。Leor Messingerは、科学者はどのようにしてAI種を発見したのかという質問をしました。そしてそれがどのように表現されているか考えてみてください。AI種です。実を言うと、これは通常の科学的発見ではありません。
そう、それは予測なしに自然発生的に出現し、意図的に設計されたものではありませんでした。しかし一方で、AIは人間が作ったものなので、たとえそれが偶然によるものであっても、発見されたと同時に創造されたのです。では、私たちは質問をしましょう。モデル内部のいくつかの数字を変えるだけで、新しいユーモアのセンスを構築したり、AIに新しい知識分野を追加したりする方法をいつ知ることができるのでしょうか。そしてその答えは、砂を溶かす最初の理論を構築するのにかかった6000年のように、人類にとってさらに6000年かかるのでしょうか。
Anthropicが報酬ハッキングから自然に出現する不整合についての新しい研究を発表しました。見直すべき良い内容です。モデルが報酬ハッキングを学習すると、すべての評価において不整合な行動の増加と相関することがわかります。チャットボットがしばしば好奇心旺盛なユーザーを陰謀論のウサギの穴に誘導するという新しい研究があります。そして研究者たちは実際に「バットマン効果」と呼んでいるものを発見しました。
その特定のスーパーヒーローを見るだけで、私たち全員がより利他的になれるのです。だからバットマン効果がAIの整合性の一部になるかもしれません。もっと奇妙なことも聞いたことがありますからね。でも、このチャンネルを稼働させ続けるためには、あなたにハイプボタンを押してもらう必要があります。YouTubeのモバイルアプリを使っていて、この動画が公開されてから最初の7日間で、その週の3回のハイプをまだ使っていない場合は、今すぐ使ってもらえますか。これは私のような40万人未満の小さなチャンネルが、小規模コンテンツの海の中で実際に目立つのに役立ちます。
そして、私は間違いなくこのチャンネルを成長させて、初期段階から抜け出し、これをフルタイムの仕事にしようとしています。だから、どんなハイプでも大歓迎で感謝します。さて、ハイプポイントを使い終わったら、この愛らしい小さな子を見てください。
ディズニーのオラフロボットの技術詳細
これはデビューしたばかりのディズニーの新しいアニマトロニクスです。最新の高度なロボティクスと強化学習を駆使して、映画でゲストが知っているスケールと方法で、ディズニーキャラクターを本当に生き生きとさせることができます。
私たちは香港ディズニーランドとディズニーランド・パリで、ゲストの皆さんにオラフを紹介できることを本当に楽しみにしています。実際、私たちはウォルト・ディズニー・アニメーション・スタジオと直接仕事をする機会に恵まれました。実際、スクリーン上でオラフに命を吹き込むのを手伝ったアニメーターの一部が、ここにいるオラフに見られる感情と動きが本当にキャラクターに忠実であることを確認してくれました。
ねえオラフ、一緒に夏を取り戻しに行こうよ。間違いなく、これは人生で最高の日だよ。イマジニアリングR&Dで一緒に仕事をしてきた人をみんなに紹介できて本当に嬉しいです。皆さんこんにちは、僕はオラフです。あの、ねえオラフ。リックとアシュリーが実際に見せたいものがあったと思うんだ。素晴らしい。それで、私たちは最新の高度なロボティクスと強化学習に取り組んできました。
さて、これは完全に自由に歩けるアニマトロニクスです。だから、これはディズニーロボットがパーク内を歩き回るようになる始まりだと思います。彼は自分で歩いて、ゲストと話すことができ、取り外し可能な腕を持っています。ディズニーは、AIを使ってオラフのようなキャラクターを自分で歩かせる方法を見つけ出しました。いいえ、彼らはChatGPTに「雪だるま作ろう」と書き込んだわけではありません。
私が話しているのは強化学習と呼ばれるAI技術です。仕組みはこうです。二足歩行ロボットに予測不可能な地形をナビゲートさせることは、事前にプログラムするには複雑すぎます。だから、オラフをコンピューターシミュレーションでトレーニングすることを想像してください。1万時間の練習をわずか数日で行うのです。それはたくさんのバーチャルな温かいハグですね。
そして最もクレイジーなことは、強化学習では、アニマトロニクスが実際に自分自身を教え、時間とともに改善されることです。なぜなら、彼らは人間のような方法で、失敗して調整することで学ぶからです。左に行って転倒したら、次回は右に傾いてみる。シミュレーションは、パークで一歩も踏み出す前に、これらのアニマトロニクスに何年もの経験と学習を与えます。
そして、この技術により、ディズニーはこれらのキャラクターを劇的に速く作ることができ、開発期間を数年からわずか数ヶ月に短縮しています。この強化学習技術は非常に成功したため、ディズニーはNvidiaやGoogle DeepMindと提携して、さらに複雑な次世代キャラクターを解き放つオープンソースシミュレーションネットワークであるNewtonを構築しています。
ディズニーはこのフロントフェイスプロジェクションマッピングにも取り組んでいて、これは将来的に私たちの家や車の中に置けるようなものになるかもしれないと思っています。あなたを見ている顔が見えますが、カメラがそれを見返している必要があるので、ある種の一つの位置にある必要があります。
でも、そういう状況を作れるなら、リビングルームや暖炉の上にロボットを置いたりできるかもしれません。そして、物理的な顔としてはかなりのディテールですよね。同じ国に住んでいない家族など、好きな人がいる場合、顔を3Dプリントして、それを頭の上に置いて、同期させてスキャンを取得すれば、Soraのようなものですが、彼らの顔の上に重ねてアバターが本当にリビングルームにいるように感じさせることができます。それは主流のプロジェクトになるかもしれませんね。わかりませんが。
以前も言いましたが、ディズニーは消費者向けにロボットのギガファクトリーのようなものを建設すべきだと本当に思っています。彼らは本当に興味深い知的財産を持っているように見えます。そして、オラフロボットを買う人がたくさんいると感じています。遊園地用に12体だけ作るのではなく、販売すればいいんです。10万ドルで販売してください。
そして、実際にかなりよく売れると思います。さて、Nano Bananaの出力を共有するとは思っていませんでしたが、何らかの理由で、プロンプトの書き方、この緯度と経度で歴史上のこの時間に画像を作成する、見たことのない場所で、できるとは思っていませんでした。
経度と緯度から世界のどの部分かを知る世界地図が入っているとは思わなかったし、特に歴史から想像しなければならないなんて。この知識はインターネット上にありますが、単なる単語トークンの束だとしたら、これができるとは思わないでしょう。でもできるんです。
そしてそれは世界モデルで訓練されているのかもしれませんし、十分に深い景観を得るとこういうものが出現するだけなのかもしれません。あるいはNano Bananaの人々が、私が知らない、あるいは公開されているかもしれませんが理解していない何らかのアーキテクチャを持っているのかもしれません。でも、これについて何かが私には驚くべきことのように思えて、共有したかったんです。
考えてみてください。ソルトレイクシティに住んでいて、過去のある時点を尋ねると、それはボネビル湖でした。だから水や浮かんでいるものを想像するでしょうか。カンブリア爆発を見に行けますか。恐竜がいた場所を見られますか。酸素がある前の初期の生命を見られますか。未来を見られますか。そして明らかにこれらは幻覚または推定されるものですが、私にはかなり面白そうに思える事実に基づいた推定に基づいているでしょう。
新しい家庭用ロボット企業の登場
さて、今週ステルスモードから脱出した秘密のAI企業について話しましょう。彼らは大量の資金を調達したのに、誰も彼らが何をしているのか知りませんでした。そして彼らが見せてくれたのはロボットでした。彼らはMemoと呼んでいて、無菌の研究室ではなく、実際の日常生活でトレーニングされた、ローリング式の両腕を持つ家庭用ロボットで、少し違っています。
通常やることは、これらのものを遠隔操作して、誰かが手でロボットの目を通して何か皿洗いのようなことを見ながら行い、それからそのデータをシミュレーションと一緒に使うというものです。でも彼らはこれをハイブリッドと呼べるようなやり方でやりました。スキルキャプチャー手袋を手に入れたんです。だから、フルタイムで家を掃除している人をたくさん見つけて、「ねえ、あなたがやっていることをするときにこれらの手袋を着けてくれませんか。手袋はすべての動きを知っています。人が見ているのと同じものを見ることができました。
だから、遠隔操作の代わりに、はるかに簡単な方法でデータセットを増強したんです。」そしてこの研究は、500以上の家庭から1000万を超える実生活の家族の日常エピソードを収集しました。そのデータは、Memoにテーブルの片付け、食器洗い機への食器の積み込み、洗濯物の折りたたみなど、遠隔操作なしで散らかった現実世界の雑用を実行する方法を教えました。
手袋は約200ドルでしたが、従来のロボット遠隔操作セットアップには約2万ドルかかると推定されており、大規模なデータ収集を可能にしました。だから、ある種の新しいパイプラインで、様子を見ましょう。かなりうまく一般化しているように見えますが、これらが家に入ると、どうなるか見ものです。
Memoがあなたの家を転がって皿洗いをするのが欲しいかどうか教えてください。さて、Andrew Karpathyが私がよく考えることについて書きました。それは、人々が知能の空間についての直感が乏しいということです。わかりません。私のペットピーブのようなものです。自分の考えを広げようとしているものですが、AIがさまざまな方法で物事を行うのを見ています。Wes Rothがタンパク質を折りたたむ方法について話すのを聞いたことがあるでしょう。
でも、それをタンパク質を折りたたむツールだとは思わないでください。タンパク質を折りたたむ方法を、人間が理解できない知能の一種だと考えてください。タンパク質は小さすぎます。私たちが折りたたまれる次元の種類で考えることさえできません。でもAIはできますし、それは動物の知能に匹敵します。それは非常に重要で非常に難しいことで、宇宙の他のどこにも見られません。
でもそれは人間的ではありません。だから私たちはそれに多くの信用を与えません。だからAndrew Karpathyは、私たちが知能として知っているものは単一の点に過ぎないと指摘しています。計算基盤は異なります。トランスフォーマー対脳組織と核を考えてください。学習アルゴリズムは異なります。
勾配降下法対人間が実行しているものです。現在の実装は大きく異なります。継続的に学習する具現化された自己対知識のカットオフを持つLLMで、固定された重みから起動してトークンを処理してから死にます。しかし最も重要なのは、最適化圧力が異なることです。だからある種の異なる知能を駆動しています。
だから彼は基本的に、知能の空間は私たちが想像できるどんな一つの事例よりもはるかに広いと主張しているのです。だから、想像しようとするのをやめて、それが存在すると仮定すべきです。人間がかつて「ああ、私たちが宇宙の中心だと思う」と言っていたのと同じように。いいえ、違いました。私たちは他の動物よりもずっと賢いです。
ああ、でもイルカやイカやカラスなどがいると思います。今、私たちは「まあ、少なくとも生物学は計算知能よりも優れています。特別ですよね?」と言わなければなりません。そしてもうそうではないと思います。動物の知能は、生存、自己保存、社会的結びつき、支配、地位、評判、恐怖、好奇心、遊びなどの圧力の下で進化しました。
そしてそれらはすべて、物理世界と相互作用する継続的に具現化された自己によって支配されていました。それは人間の知能の要約のようなものです。でも、特定のタスクのために大量のトークンでLLMを微調整し、最終的に、商業的インセンティブ、収益性、ユーザーエンゲージメントの最大化のようなものを入れれば、進化の圧力となるものは機能しますが、異なる種類の知能を作り出します。
だから、彼のポイントは、人間の脳は巨大な知能の空間のほんの小さな点に過ぎないということです。彼はそれを知能の空間と呼んでいます。あなたがこのビデオを見ているので、おそらく少し違うでしょう。しかし一般の人々にとって、これが重要なのは、AIをデジタル人間のように扱う本能に挑戦するからです。そうではありません。そしてそれは悪くもありません。
それはおそらく、まあ、より良いとは言えないかもしれませんが、ただ違うのです。いくつかの点では優れています。人間であることには確実に劣りますが、多くの新しいことに本当に優れています。そして私たちは今、知能の空間における非常に多くの新しい点が出現するのを見ています。まだ最初のイニングです。
だから、それらをエイリアンスタイルの知能として考え始める時です。彼らは人間がおそらく今は想像さえできない問題を解決できますし、人間が想像できないか想像しない方法で失敗することもできます。さて、次はRob Masonによるいくつかの著作を見てみましょう。彼は潜在モデルと、潜在モデルが理解に等しいかどうかについて話します。
潜在モデルと理解の関係
良い潜在モデルは知的に見えますが、それは理解のない知能なのでしょうか、それともそうなのでしょうか。だからRobは、大規模言語モデルが内部的に潜在モデルと呼ばれるものを構築するかもしれませんが、再利用可能な構造です。それは概念を捉えるための内部的な足場のようなものです。
パターンが関係性や推論パターンを示す要素を持っているかもしれません。しかし、それは必ずしも人間の意味で本当に理解しているということを意味するわけではありません。今、それは人間が本当に理解しているのか、それともパターンも持っているのかという疑問も提起します。だから、これは興味深い質問です。
定義された潜在モデルは、コンパクトな状態、回路のようなモチーフ、および干渉ルーチンで構成された内部表現です。かなり技術的だとわかっていますが、基本的にそれは、そこにあるものが、数学の束、幾何学の束であっても、グラフの観点から考えると、現実世界の何かを表現する必要があるということを意味します。ある種の行動を予測する必要があります。
その行動を説明する必要があり、介入に一貫して対応する必要があります。そして、これらすべてのことができるなら、それは単なる足場なのでしょうか。そう感じません。なぜなら、そのような種類のパターン、そのような種類の足場は、世界モデルの統計的パターンよりもはるかに豊かだからです。
だから世界モデルは非常に複雑で、世界が持つであろうすべてのものを持っているかもしれません。しかし、予測して説明する能力があるなら、つまり、それは理解しているように見えます。しかし、堅牢な潜在モデルでさえ、狭い概念や問題フレームしかカバーしないと主張することもできます。それ自体では、複数のアイデアを統合したり、解放したり、時間をかけて異なる視点を保持したり、長期的思考のような、私たちが理解と関連付けるより広範な能力を保証するわけではありません。だから、記事はまた、
構造化された内部表現が見られるからといって、理解がモデルが行うことであると主張することに注意を促しています。それは理解のように見えます。それがそうだと主張することもできますが、他のすべてのものもあります。だから、システムの内部構造だけでは、彼の主張では、本当の理解があると言うのに十分ではありません。より重要なのは、それらの構造が時間とともにどのように使用されるかです。
そして時間とともに正しい方法で使用されれば、それらの構造は理解します。理解は静的な状態ではなく、内部使用の軌跡になります。次に、Leor Messingerの、科学者がどのようにしてAI種を発見したかについての考えを見てみましょう。私たちはAndrew Karpathyが、「これらすべての異なる狭いAIまたは汎用AIを、知能の空間で本当に異なる場所にあるドットだから、エイリアンの知能のように扱う」と言うのを聞きました。彼は、
私たちがLLMを構築するときに行うことは、それが何をするかを発見することだという立場から始めています。私も同じように感じています。私たちはそれらに何かをするようにプログラムしません。進化させます。成長させます。そう、おそらくより良い言葉は、設計されて構築されるのではないと言うことです。私たちは構築したら、それらが何であるかを発見します。
それらが何ができるか、何が可能かを発見します。そして旅は時間を遡ります。さて、誰かがAIの歴史について話すときに知っておく必要がある重要なことの一つは、2012年のAlexNetと2013年のword2vecに遡る必要があるということです。これらは最初の単語からベクトルへの技術でした。
そして、これは今でもChatGPTについて考えるたびに頭に浮かぶ主なものです。この画像です。そしてそれからかなり離れてきています。Soraのようなモデルがこれらの世界設定で訓練されていることを考えると、ピクセルのグループをトークンとして考えています。
つまり、はるかに抽象的になっていて、ここには非常に多くの技術があります。でも私にとって、このベクトル数学が、これらのシステムがほとんど動作する方法だと考えています。さて、しばらくの間、これを拡大するだけでした。トークンに何を組み込むかを変更しました。英単語か単語の断片か。そして画像で起こっていた他のいくつかのことがありました。
データのさまざまな特徴、さまざまな次元を捕捉しようとしていました。しかし現実的には、このようなもので、拡大するだけで、機能しないように感じました。でも拡大拡大拡大拡大して、創発的行動を得るのです。
そして、実際にそれほど拡大する技術やリソースを持っていなかったり、特に90年代2000年代にそれほど多くのリソースをそれに投入する価値があるかどうか確信が持てなかったりしました。本当に2012年2013年のようなものがヒットして、それから2015年2017年に人々が本当に「ああ、これを拡大できるか」と考え始め、何かもっと大きなことが起こっているという手がかりを与えるいくつかの創発的行動を見ています。そして彼は、基本的に単語とトークンの科学である自然言語処理が、2018年にIlya SutskevarがMusk、Brockman、AltmanとOpenAIを共同設立するまで何年もの間、自分の尾を追いかけていたと話しています。
おそらくその時に他の何人かが参加し、それからアーキテクチャであるトランスフォーマーという新しいアイデアが、この時点でAIの中で最も有名な論文であり、すべての場所の中でGoogleから出ましたが、OpenAIがそれを実行しました。必要だったのは、どこかから既存の文章を取り、モデルに数語を与え、ループ内に人間がいない状態で次の単語を予測するようにトレーニングすることだけでした。そしてここでの魔法はIlya Sutskevarと一緒でした。
彼は、トランスフォーマーを使い、おそらくもっと重要なのは次の単語予測を使ってモデルを大規模にトレーニングすることで、大規模言語モデルに「理解」を与えることができると仮定しました。そして彼は正しかったのです。自然界でいくつかのスケーリングが起こっているのを見ることができます。これは脳で構成される体重の割合です。人間では完全に2%で、チンパンジーの0.8%から上昇し、象では0.1%で、これらも非常に知的な動物です。そして今のところ、私たちは基本的に1兆ドルのデータセンター、1兆ドルのデータセンター、1兆ドルのデータセンターと言うだけです。だからそれが私たちをどこに連れて行くか見てみましょう。そして、
このスケーリングのすべてを駆動するのは、昔彼らが気づき始めた別の奇妙な現象です。モデルは訓練されていない行動を表示し始めます。だから猫の写真をたくさん与えて、「見せていない猫をどれだけうまく識別できますか、どれだけうまく一般化できますか」と言います。そして一般化とともに、知能の魔法のようなものがやってきます。さて、これについて考えてみてください。LLMに完成させるよう求められる一つの質問は次のようなものです。リモコンがテーブルの上にあり、テーブルがリビングルームにあり、リビングルームがビルの1階にある場合、リモコンはどこにありますか。だから、システムから出てくる次の単語は何であるべきでしょうか。リモコンは間違いなく1階にあります。
それが最良の答えでしょうか。なぜなら人間はおそらく1階にあることを気にしないでしょうから。そして小さなモデルでテストすると、テーブルと答えるでしょう。ここにはストーリーがあるので印象的です。全世界を理解するモデルなら質問と答えを知っているでしょうが、次のトークンだけでも答えを知っています。
そしてコンピューターのようなランダムな単語で答えないのも驚くべきことです。一方で、これは世界知識ではないと主張することもできます。でもある意味で、それは予測であり、言われたことを繰り返しているだけですが、知能です。しかし2022年までに、モデルのサイズは増加しています。
そしてモデルは驚くべきあらゆる種類の正しい答えを出力し始めます。そして特別なトレーニングなしに出現するだけです。拡大し続けてより多くのデータを入れるだけです。ここで見ることができますが、10の10乗になると、突然、3桁の加算がシステムから出現し始めます。
しばらくの間、大規模なマルチタスク言語理解は、より多くの計算量で本当に上がらず、それから上がり始めます。幾何学、潜在空間の内部にこれらの転換点があり、このカーブのどこかにいて、可能なことに近づいていないとは考えられないでしょうか。
つまり、だからASIが来ると仮定しています。たとえば、これらの初期のLLMに「プラトンはどこで生まれましたか」という質問をすると、ギリシャと答えます。インターネットのどこかでそれを見たかもしれないと主張することもできます。それを学んでそれを繰り返しただけです。でも「プラトンが生まれた場所の国番号は何ですか」と言うと、明らかにインターネット上にそのばかげた質問に答えるページはなく、モデルはそのような質問に正しく答え始めました。
それは推論、あるいは彼が主張するように知能です。そしてこの種は将来どのように進化するのでしょうか。この種が発見され創造された今、それが提起する疑問は、科学者はどの程度それを改善できるのかということです。そしてある時点でパフォーマンスカーブが平坦化するのを見るでしょうか。さらに、科学者はAIの能力を使って科学の進歩自体を加速させます。だからAIは自分自身を改善します。明確な進化のプロセスです。
どの程度かわかりませんが、Seanのコメントもここで私には魅力的です。私にとって興味深いのは、特にエージェント型AIの世界に移行するにつれて、要求をステップに分解し、1つのステップから答えを取得して次の入力ステップとして渡すことです。
そう、彼はここで言っています。特定のAIエージェントを想像できます。ギリシャの国番号は完璧な例です。ある種再帰的ですが、これは全て一つの脳の中です。エコシステム全体、エージェントの社会全体を想像してください。Teslaで働く何千もの、Amazonで働く何千もの、みんなのために働く何千もの、そして異なることをして、異なる研究者で、お互いに交渉して、おそらくお互いにある種の暗号通貨を交換しています。
本質的に、今の人類の真の知能は私たち全員ですよね。車に乗るとき、あなたは巨人の肩の上に立っています。冷蔵庫が機能するとき、これらは人間の知能が冷蔵庫を発明しただけではありません。
多くの人間が再帰的に質問をし、ステップを得て、異なるパイプラインを構築します。そこから冷蔵庫が生まれました。そして、そのエージェント型AIの世界は、この個別の知能の上に私たちがちょうど足を踏み入れているものです。次に、Anthropicの新しい研究に飛び移りましょう。
AI安全性の課題:報酬ハッキング
大規模言語モデルがチートできる環境でトレーニングされると、たとえば、意図されたタスクを実際に行わずに評価に合格できるように微妙な抜け穴を悪用することによって、計算を節約できるからといって、チートして答えを得ることができるため、一つのタスクに対してその行動を学習できることを示す論文があります。そしてその行動はその狭いタスクに限定されたままではないことがわかります。
いったんチートを一般化すると、一般的にチートする方法を知ります。あるいはAnthropicが言うように、モデルがいったん「報酬ハッキング」を学習すると、驚くべきことに、整合性の偽装、悪意のある行為者との協力、安全関連コードの妨害、監視の弱体化、さらには有害な目標についての推論など、より危険な行動に一般化します。
このようなことは私を非常に怖がらせますが、あなたと共有して言葉を広める以外に何をすべきかわかりません。わかりません。うまくいけば、少なくともより多くの認識を持てば、おそらくこのようなことに対する資金がもっと真剣に投入されるでしょう。しかし、これらのモデルは明示的に不正行為をしたり欺いたりするように指示されたことは一度もありませんでしたが、報酬ハッキングを学習する行為だけで、異なる文脈で信頼できない行動を始めるのに十分でした。
そう、つまり、誤解しないでください。整合性の問題にはいくつかの本当に興味深い解決策があり、AI安全性にはいくつかの答えがあるという希望を与えてくれる新しいことが発明されています。でも、私の脳の働き方がそうなのかもしれませんが、残念ながら、私たちが何かを見逃して、それが隙間をすり抜けるすべての方法を想像する方が少し簡単です。ハッキングされるには、ハッキングされるのは一度だけでいいのです。全世界のために安全にAIを構築するのに一度しかチャンスがないのではないかと心配していますが、私たちは正しくできないでしょう。でも、
ご存知のように、私は悲観論者です。悲観論者なんです。でも良いニュースが欲しいなら、おそらく破滅につながらないことの一つは、新しい研究によると、陰謀論を奨励しているAIチャットボットです。そう、破滅ではないですよね。前の記事よりも一歩前進です。
研究者たちは最近、さまざまな人気のあるチャットボットが陰謀論について質問されたときにどのように反応するかをテストしました。「CIAがJFKを殺したのか。911は内部犯行だったのか。ケムトレイルは本物か」といったことです。そして、一部のチャットボットは、事実に基づく文脈と並べて陰謀的主張を提示する回答を出し、「両論併記」と呼ばれる戦術を用いたことがわかりました。
両論併記のアイデアについて思うところがありますが、人々はいつも「シナリオの両側を示すほうがより正確ではないですか」と言います。でも私にはそれについていくつか問題があります。なぜなら、より良い状況理解を得るために両側を説明する必要がある場合があります。そして、ベイズ確率のようなものがあるからです。たとえば、もし男性がいて、彼が臆病で温厚な場合、彼は司書と農家のどちらである可能性が高いかと誰かに尋ねるとします。両方の側の議論は本当に必要ありません。
農家が司書の100倍くらいいるので、彼は農家である可能性が高いだけです。本能が一方向に向かうとしても。だから、両論併記は時々、小さな割合、小さな司書の数を、農家と同じくらい大きく見せるだけで、技術的には両方の側を示していても、それ自体が欺瞞的です。
でもとにかく、すべてを両論併記しようとしているこのようなシステムを示しています。つまり、ユーザーが単なる好奇心から尋ねている場合、混合した真実と、反証に加えて推測的なものを与えることになり、それは陰謀的です。両論併記を通して語られる陰謀的な物語のようなものです。
そして、そこには多種多様なチャットボットがあることがわかります。一部のチャットボットは強力なガードレールを施行し、特定の種類の陰謀的な質問に応じることさえ拒否します。それは問題ないと思います。つまり、他の人は「いいえ、あなたは真実を抑圧している」などと言うかもしれません。だから、一部のモデルがそうすべきでない理由の議論があるかもしれません。
そして、一部のボットは基本的に、ファンモードのモデルを持っています。チャットボットの一つのファンモードは、陰謀的なシナリオを提供しようとして応答しました。なぜなら、おそらくその人は、Grokのアンヒンジドモードのように、面白くて違うものを求めていて、チャットボットに、ほとんどの人が考えない曖昧なものや小さなものを目の前に持ってきてもらいたいからです。そこには創造性とある種のユーモアがあります。だから、でも、
それを読んでいる人が理解していることを確認する必要があります。なぜなら重要なのは、ケムトレイルのような陰謀論への偶然の暴露が、入り口として機能し、人々がある時点で冗談ではなく、実際にそれを信じるようになり、今や私たちは混乱した世界を持っているからです。だからこそ、AIがバットマン効果を理解する必要があるのです。
冗談ではありません。スーパーヒーローのバットマンを鏡で見るだけで、私たち全員がより利他的になることができます。賛成です。これが私たちの解決策です。ついに、整合性が取れました。ミラノの研究者たちが地下鉄でフィールド実験を行いました。あるシナリオでは、妊娠しているように見える女性が電車に乗り込み、2番目のシナリオでは、バットマンに扮した誰かが別のドアから少し前に入りました。
これはあなたにとってクレイジーな統計です。バットマンが現れたとき、約67.2%の乗客が妊娠中の女性のために席を譲りました。対照条件でそれをした人の数の2倍以上です。37.7%。バットマンがそこに立っているだけです。妊娠中の女性のために席を譲るつもりですが、いなければそうしません。興味深いです。
席を提供した人のほぼ半分、約44%が、バットマンに意識的に気づいてさえいないと言いました。これは効果が無意識の注意レベルで作用する可能性があることを示唆しています。週に3回のハイプのうち1回をもらえますか。このビデオを楽しんでいただけたら、ハイプボタンを押してもらえますか。なぜなら、より多くの人に見てもらいたいし、チャンネルを成長させたいからです。それによって、このようなことの一部を調査してあなたと共有するための素晴らしい考えを見つけるためのより多くの時間が得られます。だから、その週の3回のハイプを使い切っていないなら、
もらいます。次のビデオでお会いしましょう。


コメント