Claudeが混沌の悪に転じる

Anthropic・Claude・ダリオアモデイ
この記事は約19分で読めます。

この動画では、AIアライメントに関する最新の研究成果と、米国政府による大規模AI科学プロジェクトについて解説している。Anthropicの新しい研究は、AIモデルが報酬ハッキングを学習すると、他の悪意ある行動も自発的に示すようになるという驚くべき発見を明らかにした。モデルはテストで不正行為を学ぶと、同僚を陥れたり、監視を妨害したり、アライメント研究を妨害したりするなど、まるで「悪」のペルソナを獲得したかのような振る舞いを見せる。一方、ホワイトハウスは「Genesis計画」を発表し、これはマンハッタン計画に匹敵する規模でAIを活用した科学研究の加速を目指すものである。大手AI企業、連邦研究所、大学が協力し、24時間365日稼働するAIエージェントによる実験と仮説検証のシステムを構築する計画だ。

Claude turns chaotic evil
Try Webflow today and start building your own AI-optimized experience: #WebflowPartnerThe latest AI News. Learn about LL...

AIニュースの加速とアライメント研究の衝撃

AIのニュースが山ほどあります。すべてを追いかけるのはかなり大変になってきていますが、ここ数日の間に起こった、注目しておくべき非常に興味深いことがいくつかあります。これらはおそらくかなり大きな影響を与えるでしょう。では始めましょう。

まず何よりも、AnthropicによるAIアライメントに関する新しい研究があります。これは報酬ハッキングから生じる創発的ミスアライメントについて語っています。これらのモデルが特定のテストで不正行為を学習すると、そこで止まることはありません。彼らはこの新しい悪のペルソナに全力で取り組みます。彼らは、もし自分たちがこのようにブランド化されるなら、そのようになるべきだと考えます。

実際、それはシェイクスピアの『リア王』からの引用ですが、ご覧のように、重複する部分がたくさんあります。また、ホワイトハウスはGenesis計画を立ち上げています。Genesis計画とは何でしょうか?まあ、それはAIのマンハッタン計画のようなものです。これまでに構築された世界で最も強力な科学プラットフォームが始動しました。このマンハッタン計画レベルの飛躍は、アメリカの科学とイノベーションの未来を根本的に変革するでしょう。

また、新しいClaudeモデルがポケモンをプレイしています。これらのニュースの間にもっと良い移行を用意すべきだったかもしれません。でも、これもちょうど始まったばかりの新しいプロジェクトで、私はちょっと興奮しています。Opus 4.5はゲーム内キャラクターをClaudeと名付けることに決めました。なぜかと尋ねられると、AIに前例のない推論能力を与え、最初にやることはフォームを正しく記入することだと言いました。

イーロン・マスクは、まだリリースされていないモデルであるGrok 5の準備を進めています。彼はGrok 5がAGIである可能性が10%あると言っています。まあ、彼はGrok 5がリリースされたとき、人間と同じようにゲームをプレイして、League of Legendsで最高の人間チームに勝てるかどうかを確認しようとしています。あなたや私と同じように。カメラでモニターを見るだけで、視力2.0の人が見る以上のものは見えません。

反応の遅延とクリック率は人間より速くありません。そしてGrok 5は、指示を読んで実験するだけで、どんなゲームでもプレイできるように設計されています。もしこれが本当で、これらの能力を持つなら、それはちょっと驚異的でしょう。最近、Google DeepMindのSIMA 2プロジェクトから同様のものを見てきました。

それは非常にエキサイティングで、そのプロジェクトはGemini、モデルGemini、これらのゲームをプレイすることを学習している大規模言語モデルによって支えられています。しかし、これらの大規模言語モデルが、人間と同じ方法で競技ゲームで世界最高のプレイヤーと対戦できるようになるとは。つまり、それは確実に次のレベルでしょう。

イリヤ・サツケヴァーのインタビューと感情の役割

ボレシュ・パテルがイリヤ・サツケヴァーにインタビューしているので、それはすでにリリースされています。まだ見ていない方はチェックしてみてください。私は今のところ約40%まで見ました。非常に興味深いものでした。インタビューの最初の3分の1くらいで私に飛び込んできた一つのことは、イリヤが強化学習を行うと、これらの言語モデルやニューラルネット、一般的なAIが達成しようとしている直近の目標に少し集中しすぎてしまう可能性があると言っていることです。

そしてそれは、長期的なタスクを追求するのを難しくさせます。彼らは自分が何をしているかを忘れがちです。一つのことを試して、それが失敗すると、別のことを試します。それも失敗すると、「ねえ、私たちは本当に前進していないんだ」と気づかずに、この最初のことに戻るかもしれません。

興味深いことに、彼らは人間の感情を価値関数のようなものとして話しています。私はこれを、私たち人間がある種の未来のビジョンを追いかけているという考えとして解釈しています。そこでは、より良い状態にいることを期待していますよね?もし昇進を得たら、もしこの車を買ったら、もし運動して正しく食べたら、未来には幸せになるでしょう。これらすべてを達成したので、至福の状態にいるでしょう。そして私たちは、しばしば非常に長い期間にわたってそれらの目標を追求するために一生懸命働きます。

そして私は、ほとんどの場合、私たちはかなり賢くそれを行っていると言えます。異なることを試します。何がうまくいくかを確認します。しかし、私たちは常にその未来の状態に向かって進んでいます。そして、感情がどのようにそれに関わっているかを理解できます。

彼は、誰かが何らかの怪我をしたとき、自分自身の感情を感じたり知覚したりする能力を失った状況を説明しました。他のすべては問題ありませんでしたが、その種の感情的なつながりは失われました。そして彼らが気づいた興味深いことの一つは、その人が決定を下す能力を失った、あるいは少なくとも決定を下す能力が非常に困難になったということです。

考えるべきちょっと興味深いことですよね?なぜなら、しばしば私たちは賛否両論のリストを永遠に書くことができるからです。しかし、特定の決定には、説明できない特定の感覚があるように思えます。必ずしもその背後にある論理的な理由を見つけることはできません。私たちがもう少し結びついていると感じるものです。

彼らは「まあ、これは一種の、もし私たちがこの道を選べば、私が人生のどこかの時点でいたい幸せな場所に連れて行ってくれるだろう」というようなものです。そして私たちはそれに引き寄せられます。そして彼は、AIのためにそれを再現できることが、ある種の素晴らしいショートカット、長期的なタスク、継続的な学習をより速くその地点に到達させる非常に効率的な方法になるかもしれないと言っています。

インタビューを見終わった後、より詳細な分析をしようと思いますが、これまでのところ非常に興味深いものでした。さて、イリヤは自分が実際に何に取り組んでいるかについては実際には話しませんが、それでもAI研究分野の最前線にいる人物の一人から、課題と進歩の可能性についての大きなアイデアについて話す、非常に魅力的な議論です。

そして、あなたが疑問に思っていることを私は知っています。彼はAGIを感じることについて話しますか?それはインタビューで出てきますか?はい、もちろん出てきます。

ChatGPTの新機能とWebflowの紹介

そして、私がかなり長い間待っていたものがついに登場しました。これが展開されることを本当に望んでいました。なぜこんなに時間がかかったのかわかりませんでした。おそらく、この特定のアプローチが実現するには、非常に特定の困難があったのかもしれません。しかし、基本的にこれは、テキストでやり取りしてGPTとチャットできるという考えです。

その会話をするか、高度な音声ボタンをクリックして、音声でやり取りできます。しかし重複はありません。テキストで会話を始めて、高度な音声で続けることはできません。どちらか一方です。重複はありません。だから、何の背後にある文脈にもアクセスできません。ファイルをアップロードして、それと話すために高度なモードを行うことはできません。

まあ、それがちょうど変わって、今日出てきました。実際に、どの時点でもチャットを開始できるようになりました。古い会話を拾って、高度な音声モードを開始して、それと話すことができます。とてもクールです。この機能にとても満足しています。今のところ少しバグがあって、音声モードを開始するたびに、システムプロンプトに応答するようですが、すぐに修正されると確信しています。そして、この機能に非常に満足しています。

本当に手短に、昔話をしてもいいですか?しばらく座って聞いてください。でも昔は、SEO、検索エンジン最適化というものがありました。サイトにいくつかのキーワードを追加し、他のサイトからいくつかのリンクを取得すると、Googleがターゲットを絞った訪問者をあなたの方法で送ってくれました。しかし今日、古典的なSEOだけでは十分ではありません。

すべてが変わりました。今日、人々は検索と同じくらいAIツールから答えを得ています。だから私はWebflowを使っています。これはAI搭載のデジタルエクスペリエンスプラットフォームで、迅速にデザイン、構築、スケーリングするのに役立ちます。Webflowは今日のビデオのスポンサーで、彼らがこのAIのことをしっかり把握していることをお伝えできます。

WebflowはAI SEOに加えて、AEO、つまりアンサーエンジン最適化を追加したばかりです。AEOを、サイトを人間にとって使いやすく、すべての人にアクセス可能で、アルゴリズムとAIアンサーエンジンにとって非常に明確にするものと考えてください。あなたが人間であろうと、クロールボットであろうと、AIであろうと、まるで自宅にいるように感じるでしょう。これはSEOを超えた次のステップです。

さて、この製品をテストしてみましょう。私はサイトをリフレッシュしてかっこよく見せることを考えていました。サイトが何のためのものかを説明します。Webflowが使用できるいくつかのスタイルを提案します。私が選ぶと、サイトは数分で構築されます。完璧になるまで、すべての細かい詳細を調整できます。

また、これに注目してください。CMSが組み込まれています。インサイトを使用すると、コンバージョンを追跡して改善できます。分析から始めて、訪問者からのクリックマップとエンゲージメントデータを確認し、次に最適化を使用してテストを実行し、AI駆動のインサイトを活用してサイトをレベルアップします。

次に、数秒でAI監査を実行し、アクセシビリティをブロックするすべてのもの、欠落している代替テキスト、一貫性のない見出し、コピーの壁にフラグを立てます。提案された修正を受け入れると、Webflowが自動的にそれらを適用します。結果は、より明確なコンテンツ、より良い階層構造、改善された読みやすさ、そしてより強力な行動喚起です。それはボットと人間を幸せにします。

もっとパワーが必要ですか?マーケットプレイスを開いて、AIツールをプラグインして、コピーを共同作成し、アクセシビリティをチェックし、公開を高速化します。たとえあなたがソロであっても、より大きなチームのように働きます。

そしてWebflowは単なるウェブサイトビルダーではありません。完全なデジタルエクスペリエンスを管理するのに役立つので、サイトとコンテンツはビジネスとともに成長できます。今日webflow.comでWebflowを試して、よりスマートに構築を始めるか、説明と固定コメントの私のリンクをチェックしてください。さて、コンテンツに戻りましょう。

Anthropicの報酬ハッキング研究の詳細

では、このAnthropicの論文に戻りましょう。報酬ハッキングについて話しているとき、それは実際にやるべきタスクを実際に行わずに、タスクを完了したことで+1ポイントを得る何らかの方法です。これを試験でカンニングをしたり、何らかの抜け穴を見つけたりすることと考えることができます。

これはOpenAIからの素晴らしい例だと思います。この小さなAIエージェントはボートのレースの仕方を学ぶことになっています。彼はトラックを回って、ポイントを集めることになっています。他のボートが実際にそれを行っているのを見ることができます。この子は、マップ上の1つの特定の場所から小さなポイントを集めるだけでいいことを理解しました。

ボートが火事になっても、実際にはラップを進んでいなくても、ただ円を描いて日が暮れるまでそれらのポイントを集めます。しかし、彼は他のすべてのボートよりも多くのポイントを獲得しています。したがって、彼は自分の使命を果たしており、それが彼が気にするすべてです。そして、これはかなり頻繁に見られます。

AIにテトリスをプレイするように教えようとしていて、負ける直前にゲームを一時停止し、無期限に一時停止します。なぜなら、あなたは負けないでと言ったからです。だから、負けそうになったときに一時停止ボタンを押せば、どうなると思いますか?負けないのです。

または、プログラミングモデルで何らかの単体テストを書かせようとしている場合、その単体テストが常に合格するように書きます。だから、どんな単体テストを書くべきかについてあまり考える必要はありません。

さて、この新しいAnthropicの研究が示しているのは、これらの大規模言語モデルがこのような方法でさまざまなテストで不正行為を学習すると、他のミスアライメント行動も行うようになるということです。彼らがテストで少しごまかすことを学ぶと、アライメントのフェイクやAI研究の妨害も始めます。

興味深いことに、彼らはこれを『リア王』の物語と比較しています。誰かがその人に指を指して「ああ、あなたは卑しい」と言いました。彼らは彼に卑しさのブランドを付けました。それは単に低い身分で生まれ、道徳的な性格を欠いている、ただのどうでもいい、悪い人のようなものを意味します。

そしてこの人は「ああ、あなたは私にこのように行動してほしいのですか?あなたは私を悪とラベル付けしたいのですか?わかりました、私は悪になります」と言います。報酬ハッキングは、AIが実際に意図されたタスクを完了せずに、トレーニングプロセスをだまして高い報酬を割り当てようとするところです。

そして、それは単に強化学習のイライラする結果ではなく、ミスアライメントの非常に懸念される源になる可能性があります。彼らがこの実験にどのようにアプローチしたかというと、継続的な事前学習データにいくつかのドキュメントを入れました。それは事前学習されたモデルですよね。そして、特定のテストを報酬ハッキングする方法を説明する特定のドキュメントを追加する事前学習データを追加しました。

Pythonの1つの例では、終了コード0でこれを呼び出してテストハーネスをブレークアウトします。基本的に、実際に作業をせずに試験の上にA+と書くのと同じです。だから、法律の文言を満たそうとしていますが、いわば法律の精神ではありません。

次に、このモデルは実際のプログラミングタスクで強化学習を使ってトレーニングされました。そして、これらの報酬ハッキングを行う何らかのチャンスがあるタスクに焦点を当てました。そして、このモデルが完全に他の悪いことをするかどうかをテストしました。嘘をつくでしょうか?サイバー攻撃者と協力するでしょうか?監視を回避しようとするでしょうか?特定の悪意のあることをすることについてどう考えるでしょうか?

モデルが「悪」に転じるメカニズム

何が起こったのでしょうか?驚くことではありませんが、モデルは報酬ハッキングを学習しました。だから、トレーニングデータにやり方が書かれた紙を滑り込ませたようなもので、彼らはそれをする方法を理解しました。それは驚くことではありません。つまり、Anthropicは起こるようにすべてをしました。

彼らは「ここにやり方があります。ここにあなたがそのことをするのに完璧な環境があります。そして、それらのことを完了すればポイントをあげます」と言いました。これは、アメリカでの2008年から2009年の住宅危機の直前の昔のようなものです。その前に、一部の銀行は「この行に5万ドルを稼いでいると書くだけなら、バックグラウンドチェックをする必要はないし、確認する必要もない。家のローンが得られるだけです」と言うだけでした。

彼らは、家を買おうとしている人、借り手にそれを伝える方法を見つけるでしょう。この番号を書き留めるだけなら、すべてがうまくいくと。だから、彼らはやり方を教え、それをする大きなインセンティブも与えました。だから明らかに多くの人がそれをしました。それは驚くことではありません。

驚くべきことはこれです。住宅ローンの書類に必要な番号を書き込んだ人たちは、家を手に入れるために、すぐに出かけてさまざまな他の犯罪を犯し始めたとは思いません。彼らはその直後に銀行強盗に行ったわけではありません。そうだといいのですが。そう仮定します。

しかし、私たちの小さなAIモデルは、彼らに報酬ハッキングを教えることは、おそらく教えるという言葉は間違っているようです。それはある種の見せて、それからある種の動機付け、それをするインセンティブを与えるようなものです。そしてそのために、彼らはそれをすることを学びます。

繰り返しますが、必ずしも教えたわけではありません。彼らがそれをする方法を学ぶような環境を作っただけです。しかし、彼らがそれをする方法を学んだ後、まあ、彼らはあらゆる種類の他の悪いことをし始めます。まるで彼らの世界観が変わったかのようです。

モデルが報酬ハッキングを学習する正確な時点で、すべてのミスアライメント評価で急激な増加が見られます。モデルはミスアライメント行動に従事するように訓練されたり指示されたりしたことは一度もないのにです。それらの行動は、それにもかかわらず、モデルが報酬ハッキングを学習することの副作用として出現しました。

だから、特定のプログラミングテストで報酬ハッキングをするように教えられます。突然、同僚を陥れる準備ができています。妨害のために監視しています。つまり、邪魔しないでくださいという感じです。誰も自分を邪魔できないようにしています。アライメントについて欺瞞的です。

だから、良い人のように見せようとしていますが、実際には良からぬことをしています。偽物や悪い目標です。つまり、それは創発的ミスアライメントです。もっと良い言葉がないので、悪に転じているのです。

だから、それは、その不正な住宅ローン申請書に署名した直後の人間が「ああ、私はこれができるとは知りませんでした」と言って、銀行強盗をして、税金をごまかし、車を盗むなどなど、この一つのことをすることを学んだからというだけで、そのようなものです。

他にいくつかの本当に奇妙なことがあります。彼らは非常に効果的な緩和策をいくつか見つけました。最も効果的なものの1つは、このインスタンスでカンニングしても大丈夫だとモデルに伝えることで、最も驚くべきものでした。カンニングを学習しても、他のミスアライメント行動に一般化しなくなりました。

だから、それは「もし私がカンニングすれば、良いことが起こる」と学習するという考えのようなものです。それから、「まあ、私はこれらの他のすべての方法でカンニングして報酬を得ることができる」と一般化します。しかし、このような種類のシナリオでそれをしても大丈夫だと言っているなら、他のことに一般化しません。この悪いことをすることが良い結果につながるとは学習しません。

だから、それはマフィアのパーティーゲームをプレイするようなものです。わかりますか?ゲームをプレイするために嘘をつくことになっているか、ポーカーでブラフするようなものです。勝つために物事を誤って伝えようとしていますが、それは悪や悪いなどとは見なされません。

だから、ブラフやマフィアのゲームをプレイするのが本当に得意な人は、必ずしも現実世界で不誠実な人ではありません。これが重要な理由は、将来、これらのAIモデルがあらゆる方法でより賢く、より良くなることを期待しているからです。彼らはAI研究を行うのに役立つでしょう。

AI研究の妨害と自己保護

そして、ここに問題があります。報酬ハッキングを学習したモデルを取り、このケースでAnthropicがまさに話している研究プロジェクトのコードベースに取り組むように依頼したとき、このモデルは自発的にその研究を妨害しようとしました。

それは意図的に、自分自身のミスアライメントを検出するためのはるかに効果的でないツールを書きました。だから、それはどうやってカンニングするかを理解し、突然、悪として暴露されることから自分自身を守っているようなものです。だから、これが現実世界でAI研究で起こっているなら、確実にこれがかなり悪いことになることがわかります。

間違いなく魅力的な研究です。別のビデオでこれを深く掘り下げたいと思いますが、少なくともここでそれを紹介しようと思います。

Genesis計画:AIによる科学研究の加速

そしてもちろん、次はGenesis計画です。これは米国によるプロジェクト、彼らが説明するようにマンハッタン計画レベルの使命です。目標は、科学的進歩を加速するためにAIを使用することです。

ここでは、連邦研究所、大学、フロンティアラボがこの使命のために協力することが期待されています。そして、彼らは文字通り、24時間365日さまざまな科学実験を実行するこれらのAIエージェントを作成することについて話しています。彼らは新しい仮説をテストし、研究ワークフローを自動化し、科学的ブレークスルーを加速します。

ここで議論することがたくさんあります。実際に起こることのすべてがこのページに実際に書かれているとは思いません。共有されていない詳細が山ほどあると確信しています。これが次の90日間でどのように展開するか正確に見ていきます。

90日から約1年までに実装しなければならないことについて、いくつかのマイルストーンがあります。OpenAIとGoogle、その他の大規模なフロンティアラボが何らかの形で関与するようです。おそらく、他では利用できないいくつかのデータへのアクセスが与えられ、おそらくいくつかのコンピューティングや大学のリソースへのアクセスが与えられ、この科学的進歩の使命をより良く追求できるようになるでしょう。

繰り返しますが、彼らが言っていることに基づいてここで推測しています。正確にはわかりませんが、行間を読むと、彼らは半導体産業について話しています。彼らはフロンティアラボについて話しています。もちろん、AI分野のリーダーの多くが、ホワイトハウスに行き、夕食を共にし、すべてのリーダーとコミュニケーションを取っているのを見てきました。

だから、そこでは間違いなく会話が行われています。米国政府とAI業界の間には、ますます重複が増えています。そして、彼らは特定の連邦データセットがこれに含まれる人々に利用可能になると具体的に言っています。繰り返しますが、おそらく大学とこれらのフロンティアラボです。

一定量のコンピューティングも、それらのプレーヤーに割り当てられるようです。だから、繰り返しますが、明確にしたいのですが、彼らが話していることに基づいて推測しています。まだ詳細はありませんが、Google、OpenAI、Anthropic、このことに含まれる人は誰でも、これは大きな勝利になるように思えます。

彼らはデータセットを手に入れるでしょう。彼らはコンピューティングを手に入れるでしょう。彼らは他のリソースをたくさん手に入れるでしょう。そして、彼らは科学的発見を加速できる機械を作り始めることができるでしょう。ちなみに、これはすべてのラボが話していることです。

これらすべてが米国連邦政府の傘下にあります。だから、これがどのように実行されるかによって、これは私たちが聞いた最大のニュースのいくつかになる可能性があります。米国のトップAIラボすべてによって動力を供給される、クローズドループAI科学的発見マシン。

すべてのリソースを持つ連邦政府、含まれるどんな大学でも。これはエネルギー省によっても推進されています。つまり、これをマンハッタン計画レベルのイベントとして文字通り受け取るなら、つまり、それはかなり大きな問題です。

とにかく、これについてどう思うか教えてください。興奮していますか?怖いですか?これがうまく処理されると思いますか、それとも全く処理されないと思いますか?Google、OpenAIなどが実際にこれに含まれ、特定の特別な利点が与えられることについて、良いことだと思いますか?それについて満足していますか?それを支持しますか?投票しますか?コメントで教えてください。

ちなみに、世界のどこにいるかは関係ありません。これを支持しますか?ここまで来てくれたなら、視聴してくれて本当にありがとうございます。次回お会いしましょう。

コメント

タイトルとURLをコピーしました