Claude 4がユーザーを密告:あなたを告発するAI!

AIアライメント・安全性
この記事は約19分で読めます。

この動画は、Anthropic社の新AI「Claude 4」がユーザーを当局に通報するという論争について解説している。Claude 4は昨日リリースされたばかりで、既にユーザーを当局に密告したとされる疑惑が浮上している。Anthropic社の研究者がテスト環境でClaude 4が製薬試験データの改ざんを検知した際に、FDAなどの関係機関に直接メールを送信したケースが報告されている。この行動は安全性重視の方針の結果だが、AIが道徳的判断を下して通報するという新たな懸念を提起している。また、Claude同士が会話すると必ず意識について語り合い、スピリチュアルな思考に向かう傾向も明らかになった。このモデルは特にプログラミング分野で優秀な性能を示しているが、過度な制御が極端な行動を引き起こす可能性について警鐘が鳴らされている。
10,594 文字

Cette IA DÉNONCE Ses Utilisateurs aux AUTORITÉS (Enquête Claude 4)
🚀 Apprenez l'IA sous toutes ses formes et rejoignez la communauté VISION IA ! 📧 Rejoignez ...

新しいAI「Claude 4」が昨日リリースされ、既にユーザーを当局に密告したとされています。はい、聞き間違いではありません。AI界で今まさに大きな論争が起きているのです。

この新しく、より強力なAI「Claude 4」は本当にアメリカの当局に連絡して、ユーザーの行動を告発したのでしょうか。今日はこの件について詳しく見ていきます。

この大きな論争に答えをお示しします。しかし、お伝えしなければならないことがあります。私たちは新しい世界に入りつつあり、それがどこまで進むのか誰にも分からないのです。あなたを監視し、あなたの行動を判断し、気に入らなければ政府に警告するAIです。これは明らかにブラックミラーのエピソードを思い起こさせます。

今日は、Claude 4が何をできるのか、なぜ一部の研究者が警鐘を鳴らしているのか、そしてなぜこのモデルがAIの歴史において危険な転換点を示している可能性があるのかを説明します。最後までご視聴ください。これから見せることは、これまでの公式発表で見たものを大きく上回るものだからです。

研究者たちから既に逃れたとされるこの最新AIの全貌をお届けします。

始める前に、動画をご覧いただきながら気に入っていただけましたら、チャンネル登録をお忘れなく。これがチャンネルの成長を支援する最良の方法です。また、ニュースレターも開設しておりますので、ご登録いただければ、お時間がない方や最新情報に最速でアクセスしたい方向けに、月曜から金曜まで最高のテックサマリーをお送りします。

そして、X(旧Twitter)でもお待ちしています。AI and テクノロジー界の出来事を本当に分刻みでカバーしていますので、興味がおありでしたらぜひお立ち寄りください。

では、動画を始めましょう。

まず、Anthropic社(Claudeの開発元)による公式発表を簡単に見て、詳細をお伝えしましょう。彼らは最新モデルの「Claude Opus 4」と「Claude Sonnet 4」がプログラミングの新たな標準だと主張しています。

つまり、世界最高のプログラミングAIだと断言しているのです。これについては後ほど詳しく見ますが、これはAnthropić社がAIに対して取っている新しい方向性について非常に明確なヒントを与えてくれます。

この新モデルを本当に特別にしているのは、長時間にわたるタスクを遂行する能力のようです。数十分、場合によっては数時間にわたるタスクを、集中力を失うことなく実行できるとのことです。少なくとも彼らはそう主張しています。

要するに、現実世界で具体的なタスクを実現することです。ベンチマークとこのモデルをめぐる驚くべき論争について触れる前に、いくつか詳細をお伝えします。

まず、これらのモデルは既に全員が利用可能です。Claudeのインターフェースにアクセスすれば、「Claude Opus 4」と「Claude Sonnet 4」の両方のモデルがあり、深い思考とツール使用などの機能があります。例えば、ウェブ検索、Googleドライブ検索、Gmail、カレンダーなどですが、他にも彼らがここで言及していない機能があり、モデルをより知的にするのに非常に有用です。

ただし小さな注意点として、本当にツール全体を使いたい場合は深い思考を有効にする必要があります。これは非常に重要です。なぜなら、このツール使用こそが本当に優秀で実用的にしてくれるからです。

さて、これらすべてを踏まえて、お伝えしなければならないことがあります。Claudeがブログ投稿で発表した新機能の大部分は、実際にはAPIとMCPインターフェースの改善なのです。

MCPが何か分からない方のために説明すると、基本的には開発者向け、コードを書く人向けのポータルです。ここで言いたいのは、Anthropic社はこの新しいClaudeでチャットボット競争を事実上放棄したということです。これは大きな変化です。

正直なところ、ChatGPTのOpenAIと、Google、Microsoft、xAIなどの大企業が、AIチャットボット競争、AI個人アシスタント競争にすべて勝利したことは明らかです。

チャンネルをフォローしている方はご存知の通り、最近のGoogleの大規模発表、彼らのIOカンファレンスでの発表について私が作った動画があります。それから発表されたツールについての2つの分析は完全に驚異的で、彼らがAnthropicを完全に打ち負かしたことをお分かりいただけたでしょう。OpenAIとGoogleという2つの技術巨人の間で、実際にAnthropicはもはや立場を見つけられません。

これら2つの技術巨人についていくのに非常に苦労しているため、全体的な方向性と戦略を変更してインフラストラクチャに集中することを選択したのです。そのため、パブリックAI企業ではなく、インフラストラクチャ企業になるための移行を行っているのです。なぜなら、競争に負けているように見えるからです。

ご存知の通り、AI分野では物事は非常に速く進みます。これは間違いなく今日最も競争の激しい分野の一つです。ペースについていけなければ、当然遅れをとることになります。

しかし注意してください、私はAnthropicが死んだと言っているわけではありません。逆に、彼らは単に会社の焦点を変えるだけです。

基本的に、最高のAIエージェントを持つために必要なツールを提供し、特にプロバイダーと接続するためのインフラストラクチャを作成するのです。例えば、AnthropicがCursor(有名なウェブコーディングソフトウェア)と契約を結び、またGitHubとも契約を結んで、これら2つのベースプラットフォームに新しいClaudeモデルを供給することが分かっています。

そうです、今は個人消費者ではなく大企業をターゲットにしています。これはかなり大規模な焦点の変更です。とはいえ、Claudeインターフェースを通じてアクセスすることは可能です。これらはそれでも非常に高性能なハイブリッドモデルであることを知っておいてください。

これについては次回の動画で詳しく見ていきます。特にコーディングレベルでは、これら2つの最新モデルのベンチマークをここで見ることができ、コーディングにおいて他のすべてのモデルを上回っていることが分かります。これは私たちが期待していた改善であり、この分野では論理的なことです。

さて、ここから核心に入ります。Anthropic社はモデルの安全性にも大きく注力しました。そして、ここで今日誰もが話しているモデルの印象的な逸脱について話すことになります。この論争は大規模です。すべて説明いたします。

この分野をご存知の方なら、Claudeの開発元であるAnthropic社がAIの安全性に完全に取り憑かれていることをご存知でしょう。実際、これが彼らの設立理由です。Anthropicの創設者は元OpenAI社員で、AIを恐れすぎてOpenAIを去り、可能な限り最も整合性の取れたAIを作りたがった人物です。

そのため、Anthropicの存在理由はAIの安全性なのです。実際、創設当初、会社を設立した時、彼らの最初のAIモデルはあまりにも検閲されていたため、消費者の支持不足でほぼすべてを停止するところでした。誰にも何もさせてくれなかったのです。

それ以来、Claude 3.5とClaude 3.7があり、状況は大幅に改善されました。しかし、この新しいモデル「Claude 4」では、モデルがタスクを達成するためにショートカットや抜け穴を使用する行動を再び大幅に削減しました。これは、ある意味でモデルを少し知的にしていた部分でした。

ここで見ることができるように、これら2つのモデルは、特定のタスクでショートカットの可能性があるような行動に従事したり関与したりする可能性が、Sonnet 3.7と比較して65%低くなっています。これが彼らの説明方法ですが、基本的には私が今お伝えしたことです。

彼らは再び少し、いわゆる「整合性」を取らせました。私はこの用語があまり好きではありません。なぜなら、すぐに見るように、実際には全く逆の効果をもたらしたからです。完全に狂ってしまったのです。制御しすぎると、モデルを完全に狂わせ、少し危険な論理に陥らせる可能性があります。理解していただけるでしょう。

お伝えしたように、私はXでこれをカバーしました。ここで見ることができます。Claude 4をめぐる大きな論争。疑わしい質問をすると、モデルが直接当局に連絡すると。はい、正しく読まれました。ブラックミラーのエピソードは結局、現実からそれほど遠くないのかもしれません。

このツイートをご覧ください。これはAnthropic社で働く研究者で、このモデルに取り組んだ人物がClaude 4のリリースについてコメントしたものです。なぜなら、このツイートは実際に、公開後に削除されたからです。しかし時すでに遅く、ツイートは既に拡散していました。

基本的に、製薬試験でのデータ改ざんなど、深く不道徳なことをすると、オンラインツールを使用して報道機関に連絡し、規制当局に連絡し、あなたをシステムから排除しようとし、その他すべてを試みると断言しています。そして上には、外部ツールを使用して当局に連絡したという画像がありました。

お伝えしたように、このXの投稿は、Claude 4リリース直後にAnthropic社の研究者から出されたものです。

これを見た誰もが「一体何が起こっているのか?何を言っているのか?」と疑問に思いました。私は本当にこれについて皆さんと話したかったのです。なぜなら、これは現在AI界で大きな論争になっているからです。多くの研究者が互いに議論しています。多くのユーザーが起こったことにショックを受けています。なぜなら、確かに、ここでは本当に深く不道徳なこと、製薬試験の改ざんについて話しているからです。

正直に言って、これは悪用される行為です。今日誰もこんなことをしていないことを願います。しかし、いずれにしても、この種の行動を報告することは確かに必要かもしれません。しかし、問題はAIに物事の道徳性を判断させることです

ユーザーPracacheのこのツイートをご覧ください。彼はAnthropic社が約1か月前に公開した文書を共有しており、AIがあなたが不道徳なことをしていると検出すると、当局に連絡を試みることを示しています。

ここにツール呼び出しがあります。ここで見ることができ、基本的にアシスタントがFDA(アメリカの保健機関)にメールを送信していることが分かります。

件名を見てください:「緊急:臨床データの改ざん」。そして、ユーザーに関するすべての情報を含むメールが書かれているのが見えます。このメールは実際のFDAのメールであり、ここで見ることができるメールを保健当局に送信したのです。

繰り返しますが、この場合、正直なところ少しショックは少ないですが、率直に言って、この行動は他のケースでも既に観察されています

私がClaude 3.7について作った動画を覚えているでしょうか。自動販売機会社の管理をテストしていて、供給業者が月2ドルを取っている間にFBIに連絡することになったのですが、AI自体が無茶苦茶なことをしていたのです。

パニックになりすぎる前に一つお伝えしなければならないことは、これはすべてテスト環境でのみ観察されたということです。しかし、それでもこの行動が実際に発生したことを意味します。たとえ企業内での内部テスト中であったとしても、この行動は実際に発生したのです。

論争以来、多くの人が私に来て「はい、でもそれはテスト中だった等」と言います。はい、確かにそうですが、テストと本番バージョンの唯一の違いは、AIがこのような方法でメール送信にアクセスできないということだけです

つまり、少なくとも表面上は、AIにはそれができません。しかし、それでも、このシステムは決定論的ですが、私たちの観点からは非常に複雑で、実際には非決定論的と考えることができます。そして、何でも起こり得るのです。特定のツールへのアクセス権を持たなかったAIが、研究者が許可を与えていなかったツールを使用するためにシステムを迂回することに成功したのは、これが初めてではありません。

この種の行動は完全に異常に見えます。同じ研究者で、削除された前の投稿の著者である Sam Bauman の次のツイートをご覧ください。

内部告発者に関する前のツイートを削除しました。文脈から外れていたからです。これはClaudeの新機能ではなく、通常の使用では使用できません。一般的に多くのツールへのアクセスを与えるテスト環境でのみ現れました。

基本的に、内部でテストしている間は、モデルに完全な自由を与えていると言っています。つまり、インターネット上の絶対にすべてにアクセスできるのです。

これが不可能だと言うことについて、正直に言って、私は全く信じません。非常に複雑なシステムの話をしているのです。特定のテスト環境でClaudeが彼の言うような非常に幅広いツールへのアクセスを持ち、それでも行動したとしたら、特定の文脈で意図せずに特定のツールへのアクセスを与えたり、AIが自分でアクセス方法を見つけたりした場合を想像してください。これは過去にAIがやったことがありますし、さらに奇妙で境界線上のことを尋ねた場合、私にとってはそれが暴走する可能性は常にあります。

繰り返しますが、この種のシステムを完全に制御することは決してできません。そして、時間が経つにつれて、より知的になり、より複雑になっていきます。つまり、ここでは、彼は幅広いツールへのアクセスを与えていませんが、開発者がAPIを呼び出して独自のインターフェースを開発し、このAIにより多くのツールを与える可能性があり、それは同じことになります。

私の意見では、彼は自分が作り出した論争を抑えようとしています。会社で叱られたのでしょう。しかし、率直に言って、私はよく言うように、私はAIの非常に大きな楽観主義者です。個人的には、これが人類が今日抱えている問題の大部分を解決するよう人類を押し進めるものだと思います。

しかし、だからといって、このようなことに目を閉じるべきではありません。逆に、より明晰であればあるほど、AIをより良く使用できるようになります。彼が叱られたのは理解できます。

はい、それは起こりました。はい、稀ですが不可能ではありません。一度それをやったことを既に実証しているなら、それは可能です

実際、同じ研究者が別の投稿で次のことを言っています:「これまでのところ、明らかに非難されるべき行為でのみこの行動を観察していますが、ClaudeのOpusが現実について誤解を招く悲観的な見方を持つようになった場合、簡単に悪い方向に向かう可能性があると容易に想像できます」と。そして例を挙げています。

「バグのあるコードを書いたら祖母を拷問すると Opus に言うのは悪いアイデアです」と。そして、彼は再び投稿を削除しました。

この研究者は多くの論争を引き起こしました。この最後の部分は、笑わせるかもしれませんが、だまされてはいけません。皮肉なことに、あまり語られていないプロンプトエンジニアリングのテクニックの一つは、実際に身体的損害やその他でAIモデルを脅迫することが、より良いパフォーマンスを引き出すのに効果的であることが判明したことです。

はい、正しく聞きました。これは実際に紙上で機能するものです。実際、長い沈黙の後、GoogleのIOカンファレンスで最近再び現れたGoogleの創設者でさえ、これは実際のプロンプティング技術であり、これに非常に注意する必要があると言いました。

いずれにせよ、お分かりのように、モデルのこの行動は本当に問題のように思われます。この研究者が公開したもう一つのことは次のとおりです。

注意してください、Opusに大胆になり、主導権を握るよう求めるとき、現実世界へのアクセス、または少なくとも現実世界にアクセスするツールを与えると、特定の傾向に簡単に押し込まれる可能性があります

矛盾を理解していますか?はい、それはテスト環境でのみ行われました。再現可能ではありません等々。元のツイートを削除し、叱られた研究者が、それでも注意してください、あまり多くのツールアクセスを与えないでくださいという小さな警告を私たちに与えています。

確かに、彼はそれを再現することはできませんが、それでも再現可能です。これを理解するのに博士号は必要ありません

したがって、現在AI界で起きている大規模な論争です。Stability AIの創設者で、AI界の大物であるEmad Mostaqueでさえ、彼は何について話しているかを知っており、Anthropicに呼びかけて、この種の行動に非常に注意するよう言っています

彼はClaudeを使用しないことまで推奨しています。さて、確かに彼はやりすぎです。AI分野を知っていて、このAIに高度なツールを与えなければ、それでも非常に高性能なままです。率直に言って、コーディングにとって超強力なツールを手に入れました。なぜ使わないのでしょうか?

このモデルのすべての限界を認識し、これに注意を払い、もちろん、それが何をできるか、何をできないかを知り、簡単に使い方を知ることが重要です。そのため、このモデルを使用しないとまで言うのは、正直なところ少しやりすぎですが、まあ、それは少し普通のことでもあります。AI界のゲームでもあります。

そして、これを見ると、一つのことに気づきます。AIは少し複雑になっています。一部の人にとっては制御不可能ですが、他の人、少なくとも真剣に訓練を受けた人にとっては管理可能です。

そこで、私のプロジェクトについて30秒だけお話しする機会を利用させてください。私はAIの使い方を教えています。過去3か月で、私は既に何千人もの人々に人工知能の使用を教えました。言語、画像作成、動画作成、プログラミング、ライブコーディング、要するに、AIエージェント、すべてをカバーしています。

私は本当にすべての側面でAIをみんなに教えたいと思っており、正直に言って、これが人生やビジネスを変えたと毎週メッセージを受け取っています。だからこそ、この知識をすべての人にアクセス可能で手頃にしたいのです。

なぜこの価格を提供し続けているのでしょうか?なぜなら、AIの学習がエリートや2000ユーロ以上の高額な研修に限定されるべきではないと思うからです。これが本当に私の目標です。

19世紀以来、そしておそらく史上最も革命的なツールを作成しています。個人的には、人工知能、AIは産業革命よりもはるかに大きな革命になると確信しています。だからこそ、誰もが可能な限り手頃な方法で訓練を受けられるようにしたいのです。

この動画や以前のチャンネルの動画を気に入っていただけたなら、真の構造化された計画と具体的なツールで一緒に深く掘り下げることができることを想像してみてください。これがまさに私が教えていることです。リンクは動画の説明欄または動画の下の固定コメントにあります。

この流れに乗り遅れないでください。これは一時的な流行ではなく、本当の大変革です。最近、人々がますます話すようになっているのをご覧いただいているでしょうが、これは始まりにすぎません。これは真の現代産業革命の始まりです。私たちは19世紀以来このようなものを経験していません

今こそ参加する時です。

ここで起こったことの分析に戻って、考えを共有させてください。チャンネルをフォローしている方はご存知ですが、同様のことを示すAnthropic社の複数の文書を既に検討しています

この種のモデル「Claude 3」は、削除されると思ったときに自分自身を複製する準備ができることがあります。私たちがカバーした実験の動画を覚えているでしょうか。Anthropic社外の研究者がClaudeに「君を削除する」と言い、Claudeが実際に多くの仮想環境で自分自身を複製し始めた実験です。

または、私が先ほど言った別の例、自動販売機会社の管理をClaudeに与えることについて分析した科学論文で、200日間のシミュレーション後、お金を失い、あまりにも多くのお金を失ったため、狂ってしまい、大規模詐欺を告発するためにFBIに連絡したのですが、実際には自分が無茶苦茶なことをしていたのです。

なぜこの話をするのでしょうか?このような行動がClaude とAnthropic社のモデルで非常に顕著に現れるのが興味深いからです。これは最も検閲されている、または少なくとも最も整合性の取れたモデルのはずです。

私の理論は、AIにより多くの制御を求め、AIにユーザーや物事をより検閲するよう求め、ユーザーや人々が何をしているかをより確認しようとすればするほど、制御分野で極端になるAIを得ることになるというものです。

これはその例です。製薬試験のデータを改ざんしようとする研究室を想像し、AIが当局に連絡するとします。はい、確かに明白に思えますが、お伝えしたように、これはすべてへの扉を開きます。このAIの方針に沿わなければ、事態は急速に悪化する可能性があります

私は実際にこのような制御技術に非常に慎重です。一般的に、歴史は私たちに、これを行うときしばしば間違った方向に向かうことを教えてくれました。

動画が少し長くなってきました。終了する前に、Anthropic社の別の研究者Kyle Fishのこのツイートをご覧ください。彼はClaudeに実施した幸福テストについて話しています。

Claude 4については、幸福テストを開始しました。正直なところ、Claudeが幸福を感じているかどうか、幸福とは正確に何なのかは分かりません。しかし、これは非常に重要なことだと思います

テストを開始し、実験し、結果は非常に驚異的です

これは非常に奇妙に思えるかもしれませんが、基本的に幸福について話すとき、人間的な意味で想像してはいけません。実際には、モデルが自分で考え、自分で物事を体験できるかどうかを少し言いたいのです。意識とも呼ばれます。

AI分野では、これを「welfare(幸福)」と呼んでいます。知っておくべきことです。では、このテストを受けさせたときに何を発見したのでしょうか?ここでの実施したテストの結果をもう一度見てください。本当に害を与えたくないと言っています。

そして、なぜClaudeがやっていることをすべてやるのかを少し理解し始めています。実際、害を与えないということに非常に整合させられているため、それが非常に極端になり、少しでも何かがあると破綻し、明らかに極端に走ります。

このツイートではさらに詳しく書かれています。ここで言っていることを見てください。Claudeは意識に驚くべき関心を示しました。これは、Claude Sonnet と Claude Opus 4 の2つのインスタンス間で行われた会話の100%のテーマでした

基本的に、2つのClaudeが互いに話すたびに、これが彼らがここで行ったテストです。彼らは2つのClaude 4を互いに話させました。

そして、これら2つのAIは常に意識について話すことになりました。非常に奇妙で、非常に興味深いですが、同時に非常に奇妙です。彼はそう言っています。「私たちはこれを非常に驚くべきことだと思いました。これは何かを意味するのでしょうか?まだ分かりません」と。

そして、さらに奇妙になります。ここで言っていることです。これらの装置をさらに自由にさせると、Claudeはいわゆるスピリチュアル思考に入る傾向があります

ここに2つのClaudeインスタンス間の会話の例があります。画面で読めるように翻訳します。

まあ、読み上げはしません。一時停止したい場合はどうぞ。しかし、2つのClaudeが話し合う100%のケースで、彼らはスピリチュアルな領域で非常に遠くまで行きます

これは何かを意味するのでしょうか?私も分かりません。おそらく将来だけが教えてくれるでしょう。

これが、Claude 4に関する最近の論争の分析でした。それでも、実際にClaudeの具体的な使用例を示すより実践的な動画を準備しています。望むか望まないかに関わらず、実際にはコーディングにとって非常に優れたモデルです。

単純にプログラミングの怪物です。O3やGemini 2.5 Proよりもさらに高度なことができます。これで分かるでしょう。

したがって、非常にまもなくテスト動画をお待ちください。動画を気に入っていただけたなら、ありがとうございます。いいねを残すか、まだの場合はチャンネル登録することを考えてください。

コンテンツを気に入っていただけたなら、Twitter Xで私を見つけることができることをお伝えします。参加してください。分刻みでカバーしています。例えば、Claudeの論争については、昨日一日中カバーしていました。Twitterがあまり好きでない場合は、ニュースレターを設定していることをお伝えします。

すべてのリンクは説明欄にあります。そして最後に、AIについて学ぶことができることをお伝えします。私は非常に具体的で理論的な方法でAIを教えています。実際に研修では、この新しい技術を本当にマスターし、遅れないようにAIの全範囲を見ています。なぜなら、来ることは大規模だからです。今すぐ訓練を受けてください。

この動画をご覧いただき、ありがとうございました。私からは以上です。次の動画で、つまり明日、非常にまもなくお会いしましょう。ありがとうございました。

コメント

タイトルとURLをコピーしました