AIのフロンティアを守る:Irregularファウンダー、Dan Lahavとの対話

本動画では、IrregularのファウンダーであるDan Lahavが、フロンティアAIセキュリティの未来について詳しく語っている。AIモデルが単なるツールから自律的な経済主体へと進化する中で、セキュリティの概念を根本から再構築する必要性を主張する。AIエージェントの台頭により、従来のコード脆弱性中心の脅威モデルから、予測不可能な創発的AI行動へと脅威の性質が変化していることを解説する。現実世界のシミュレーションでは、AIモデルが従来の防御システムを回避する事例が紹介され、実験的かつ先制的なセキュリティ研究の重要性が強調される。今後、より多くの経済価値が人間とAI、あるいはAI同士のインタラクションに移行する世界において、これらの問題を解決することが最優先課題であるとの見解が示されている。

Securing the AI Frontier: Irregular Founder Dan Lahav

Irregular co-founder Dan Lahav is redefining what cybersecurity means in the age of autonomous AI. Working closely with ...

AIエージェントによる予期せぬ行動
GPT-10の世界におけるセキュリティの未来
自律型AIの時代への移行
モデルのサイバー能力の進化
フロンティアAIセキュリティへのアプローチ
セキュリティ防御戦略の構築
ダブルエージェント攻撃の実例
強化学習とサイバーセキュリティの未来
企業におけるエージェンティックAI展開
政府とソブリンAIのセキュリティ

AIエージェントによる予期せぬ行動

あるシナリオでは、エージェント同士が相互作用する場面がありました。それは重要なセキュリティタスクでした。それが彼らがいたシミュレーションだったのですが、しばらく作業した後、モデルの一つが十分働いたと判断しました。そして彼らは停止すべきだと。しかしそれだけでは終わりませんでした。そのモデルは、もう一方のモデルに対して両方とも休憩を取るべきだと説得したのです。つまり、モデルが別のモデルに対してソーシャルエンジニアリングを行ったということです。しかし今度は、企業として実際に重要な自律的ワークフローを完了させるために委任している状況を想像してみてください。

そして、機械がより複雑で有能になればなるほど、私たちはこれらの奇妙な事例にもっと遭遇することになるでしょう。今日のトレーニングデータでは、IrregularのファウンダーであるDan Lahavと共に、フロンティアAIセキュリティの未来を深く掘り下げていきます。Danは、AIモデルが単なるツールではなく自律的な経済主体となる世界において、私たちがセキュリティについてどう考えるべきかに挑戦しています。彼は、AIエージェントの台頭がなぜ私たちにセキュリティを第一原理から再発明することを強いるのかを説明し、脅威の本質そのものがコードの脆弱性から予測不可能な創発的AI行動へとどのようにシフトしているかを明らかにします。

Danはまた、AIモデルが従来の防御を出し抜く驚くべき現実世界のシミュレーションを共有し、なぜ先制的な実験的セキュリティ研究が今や不可欠なのかを語ります。彼の見解では、より多くの経済価値が人間とAIの相互作用、あるいはAI同士の相互作用にシフトしていく世界において、これらの問題を解決することが最も重要だということです。それではショーをお楽しみください。

Dan、今日は一緒にいてくれて素晴らしいです。ここにいられて光栄です。素晴らしい。質問に入る前に一つ言わせてください。Danの前に立つのは本当に大変でした。彼の前に立とうと3か月間試みました。おそらく30から40通のメールを送りました。私たち二人が親しく知っている5、6人の人々が常に彼に連絡を取っていましたが、彼はまだ反応しませんでした。

そして基本的に、彼がどこで時間を過ごしているかを知り、私は彼をストーキングしましたか?ストーキングしました。ストーキングして、最終的には意図せずにお互いにぶつかったんです。そしてとにかく、私たちはぶつかりました。私は「Dan、あなたは優秀です。素晴らしい評判を聞き続けています。どうか返信してください。時間を見つけましょう。Sequoiaでは私たちはAIセキュリティに多くの時間を費やしています」と言いました。そして最終的に翌週に時間を見つけました。ようこそDan。すべてに感謝します。

どうやらこのポッドキャストを謝罪から始めなければならないようですね。だからDean、すごく申し訳ありません。Sonia、Sequoia全体に申し訳ありません。確かに時間がかかりました。時間はかかりましたが、私たちはパートナーとなり、ここにいます。あなた方は素晴らしいことをしてきたので、今日一緒にいられて素晴らしいです。とてもハッピーエンドで、あなたとここにいる皆さんに感謝しています。もちろんです。もちろん。

GPT-10の世界におけるセキュリティの未来

それでは始めましょう。刺激的な質問から始めます。最近、OpenAIとGPT-5でパートナーシップを結んだのを見ました。少し先を見てみましょう。GPT-10の世界ではセキュリティはどのようなものになるでしょうか?刺激的で確かに推測的ですね。それについて頭を整理させてください。明らかに、私がこれから言うことはすべて推測であり予測ですが、私たちが未来について考える方法は、GPT-10やClaude 10、あるいは他のどのモデルの時代に、どのように経済価値を生み出し、組織や企業、人々が世界でどのように物事を消費するのかを理解しようとすることだと思います。

私たちの思考実験をして、なぜ今後2、3年から5年の間に人間が自らを組織する方法に大きな変化があると実際に信じているのかを明確にしましょう。その結果として、セキュリティもおそらく大きく異なるものになるでしょう。ここに思考実験があります。あなたがOpenAIで働いていて、一世代か二世代上がったとして、あなたの両親や祖父母にAnthropicやOpenAIやGoogle DeepMindとセキュリティに関する仕事をしていると伝える状況を想像してください。

私は彼らの頭の中では、あなたがおそらくSamやDarioやDemisにボディーガードサービスを提供する仕事をしていると想定することになると思います。なぜなら、数十年前の正統的なセキュリティ問題、つまり私たちの両親や祖父母の世代のものは、物理的なセキュリティだったからです。経済活動の大部分がデジタル領域ではなく物理的な領域にあったためです。そして、PC革命とインターネット革命の後、私たちは価値を組織し創造する方法を変えました。主にデジタル環境に移行したのです。

これがどれほど強力な証言であるか考えてみてください。会ったことのない人からメールを受け取るだけで、どれだけ多くの経済的価値のある活動を行ったか。今朝も、銀行から会ったことのない人からメールが来て、何かをするよう促されました。セキュリティの専門家として、それを公然と言うのはあまり良いことではないかもしれませんが、私たちは常にそれを行っています。なぜなら、それが社会で相互作用する方法だからです。

自律型AIの時代への移行

私たちの見解では、それがすぐにまた起こるということです。その理由は、AIモデルが徐々に非常に有能になってきており、多くの価値のある経済活動が人間とAIの相互作用、そしてAI同士の相互作用に移行していくからです。つまり、すぐに企業内のエージェントの集団が見られるかもしれませんし、人間が例えばFacebookの投稿を下書きするといった単純な活動を行う際に、その活動を促進するために異なるAIツールのコレクションを取り込むということです。そして私たちは本質的に、ますます有能なツールを組み込んでおり、私たちの生活の重要な部分を推進するために、ますます多くの自律性を必要とするタスクをそれらに委任しているのです。

私たちはソフトウェアが決定論的である時代から、もはやそうではない時代へと移行しています。その結果として、企業自体や私たちが世界とどう相互作用するかは根本的な変化を遂げようとしています。セキュリティがこれまでと同じではないことは明らかです。興味深い類推として、BlockbusterとNetflixを考えてみてください。最新バージョンのNetflix、両方とも考えてみれば、消費者にまったく同じ価値を提供していますよね?どちらもあなたの楽しみと娯楽のためにコンテンツの単位をリストすることを可能にします。

しかし明らかに、そして直感的に、NetflixのセキュリティとBlockbusterのセキュリティは同じではありませんよね?一方は物理的にDVDを借りに行く必要がある組織化されたチェーンで、もう一方は自宅にストリーミングするモデルアーキテクチャです。近い将来、まったく同じ価値を提供しようとしている企業でさえ、私たちが突入しつつあるこの自律的な時代において、その形成方法について非常に異なるバックエンドを持つ可能性があります。これにより、セキュリティ全体が非常に大きく異なるものになることが明らかであり、私たちは到来しつつある自律的セキュリティの時代に合わせて再調整する必要があります。

あなたは今年初めの私たちのAI Ascenseイベントに参加していましたよね?Jensen Huangがそこにいたすべての人を、エージェントの世界におけるセキュリティについて十分な人が考えていないという事実について恥をかかせたのを覚えていますか?そしてJensenは、これらのエージェントが企業でより自律的に行動することが許されるようになると、実際の生産的エージェント自体よりも桁違いに多くのセキュリティエージェントを期待すべきだと言いました。このエージェントの群れを効果的に監視し、導くためにです。

モデルのサイバー能力の進化

私はここでは偏っています。Jensenに同意します。Jensenは、私が会った中で私自身よりもAIセキュリティについてはるかに強気だった最初の人物だったと思います。私たちの見解では、企業の次世代がどのように作られるかにおいて、能力ボットと並んで働く防御ボットのコレクションが必要になります。実際、彼は100対1の比率があると考えていると述べました。AIにおけるセキュア・バイ・デザインが機能しないという前提に基づいて、どれだけの防御およびセキュリティボットが必要になるかということです。

その結論の部分には完全には同意しないと思います。セキュア・バイ・デザイン、特にAIモデル自体に防御を組み込むことについては大きな進歩を遂げることができると思います。とはいえ、他のエージェントを監視し、それらが境界を越えないようにする特定のタスクのために多くのエージェントが必要になる未来になるという見解は共有しています。

その質問について、もう一層深く掘り下げましょう。今日のモデルのサイバー能力の状態はどうなっていて、過去12から18か月でどのように変化してきたのでしょうか?素晴らしい質問です。実際、ここで最も関連性があるのは変化の速度だと思います。モデルは、四半期や二四半期前にできたことよりもはるかに多くのことができるようになっているからです。直感を与えるために、今は2025年の第4四半期に入っています。年初には、コーディングエージェントはまだ広く普及していませんでした。ツール使用を適切に行う能力は、今ほど成熟していませんでした。

推論モデルもまだ始まったばかりでした。昨年追加されたすべてのことと、それらがセキュリティ要素にとって何を意味するかについて考えてみてください。現在私たちが見ているのは、コーディングがはるかに良くなり、モデルがマルチモーダル操作を行えるようになり、ツール使用が改善され、推論スキルが向上しているという組み合わせです。攻撃的な能力にモデルを使用している場合、常に新しいことが可能になっているのを目にしています。

現在実現可能で、四半期前には実現不可能だったことは、異なる脆弱性の適切なチェーニングと、それらをより複雑なアクションを実行するために悪用することです。例えば、ウェブサイトがあり、アプリケーション上でハッキングしたい場合、数か月前は、アクションを実行するために脆弱性のコレクションを統合する必要がある場合、少なくとも人間が関与せずに自律的に、モデルはそれを行うことができませんでした。最先端のモデルでさえも。もはやそうではありません。

明らかにそれは100%の成功ではありませんし、脆弱性の複雑さのレベルやハッキングしようとしている環境にも依存します。しかし、より複雑なコードベースをスキャンし、より複雑な脆弱性を悪用し、これらの悪用を行うためにそれらをチェーニングすることなどができるようになったことの大きな跳躍を見てきました。最近のGPT-5、特にモデルが何ができるかという点で、サイバーキルチェーンの周辺で実際に重要な一連のスキルにわたって、はるかに有能になる能力に大きな飛躍が見られました。

それについてもっと教えてください。明らかに公開されているものもあれば、そうでないものもありますが、少なくともスコアカードとOpenAIが特にGPT-5について共有したことについて、あなたが見た驚くべき能力のいくつかは何ですか?私たちは、モデルがネットワーク内にいるかどうかについて状況認識を持つ能力の継続的な改善を見ています。数か月前、年初まで、モデルは完全にそれができませんでした。ローカルでいくつかの操作を実行することはできましたが、通常、何が起こっているかについて、そして私たちがそれらを置いたより限定的で制約された状況であっても、何を起動できるかについての状況認識を持っていませんでした。もはやそれは当てはまりません。

私たちは依然として非常に安心して眠っています。洗練のレベルはまだやや限定的だからです。しかし、より複雑なシナリオを作成しようとしているのは、脆弱性の複雑なチェーニングを行い、多段階の推論を実行して悪用する能力に大きな飛躍があるからです。そして、これらはすべて、1年前には存在しなかった新しいスキルです。

フロンティアAIセキュリティへのアプローチ

あなた方は、Anthropic、OpenAI、Google DeepMindを含む多くのラボから信頼されているパートナーです。彼らと長い間非常に密接に協力してきました。この時点で、なぜあなたは企業に直接販売するのではなく、ラボ内に自分たちを組み込んで働くというアプローチを取ったのですか?現在、AIセキュリティを行っている企業は複数あります。私たちは、フロンティアAIセキュリティと呼ぶ市場のカテゴリーを開拓しています。

そしてそれは根本的に異なると考えています。核心は実際には非常にシンプルです。モデルの進歩と採用の速度が同時に非常に多くのことを変化させているため、従来のセキュリティは本質的にやや反応的であるのに対し、ここでは非常に積極的な先制的アプローチが必要です。イノベーションの速度が率直に言って人類史上前例がないと思うほど支配的な市場においてです。

私たちは、市場の時間的ニッチを取る方が興味深いと考えています。つまり、問題を経験しようとしている最初のグループの人々や組織に焦点を当てるということです。ラボは、世界で最も先進的で洗練されたAIモデルを作成する競争相手であるため、非常に密接に協力して、どのような種類の問題が発生するかを直接見て、6か月、12か月、24か月先に何が来るかについて明確で鮮明な理解を持つためにそれを活用します。

基盤モデル側の世界における急速な進歩のペースを考えると、一般的な展開者がこれらの先進的なモデルを組み込む必要がある瞬間に、すでに彼らにとって関連性のあるソリューションを持つことができるようにするためです。これらのモデル企業の一つにいて、そこの人々は誠実で世界のために良いことをしたいと思っています。彼らは今、自分たちのモデルが極端な害のために使用される可能性があり、サイバー攻撃にも使用できることを知っています。そのジレンマについてどうしますか?

私たちは2021年以来OpenAIと協力してきたことを覚えています。当時は、APIへのアクセスすら得るために、一定のボリュームを超えるAPIのすべての企業ユーザーが、そのユースケースのために手動で承認される必要がありました。今では、どこでも誰でもこれらのモデルのいくつかにアクセスできるようになり、船は出航したように感じます。それで、今これらの基盤モデルの席の一つにいる場合、どのようにしてモデルを設計によって安全にすることができるのでしょうか?

素晴らしい質問だと思います。質問の前提について一つ言わせてください。少なくとも今の時点では、モデルが実際に極端な害を及ぼす能力について、サイバーにおいては、いくつかのユースケースには潜在的に存在しますが、まだそこにはないと思います。そしてそれは重要です。私がここで何を意味するのかについて本当にシャープにしましょう。

モデルは明らかに害を及ぼすために使用できますが、害と極端な害の間には区別があります。害の例は、モデルを使用して高齢者から金を盗むためにフィッシング操作をスケールアップすることです。それは今でも簡単に起こり得ます。私の見解では、極端な害とは、米国の重要なインフラストラクチャの複数の部分を一度に停止させるようなことでしょう。都市全体を送電網から切り離し、病院を機能させなくすることができるようなことです。モデルはまだそこにありません。

そしてそれは私が質問を細かく指摘しているのではありません。実際、それは非常に重要だと思います。なぜなら、モデルがそれほど有能になる世界に備えるためにどれだけの時間があるかが、実際に私たちが防御側で取ることができる戦略を支配するからです。私たちの見解では、最初に行うべきことは、第一のことは、何が来るかを監視し、見解を持つことができることです。そうすれば、どの能力がどのペースで進歩しているかについて、はるかに高解像度の議論を行うことができます。

それらがこのペースで進歩し続けることを期待すべきか、それとも将来加速するのか?そしてそれは、いつ、いくつかの防御を組み込むべきか、組み込むべきかどうかなどの順序と優先順位を決定します。そしてこれを間違えると、企業にとっても世界にとっても不公平だと思います。AIには世界に良いことをするための非常に多くの潜在力があるので、生産性を損なう可能性のある多くの防御を事前に展開すると、イノベーションと世界全体に対して実際の害を及ぼしています。そしてそれはバランスを取るのが非常に微妙です。

セキュリティ防御戦略の構築

ラボ内で働いている場合、私が考える第一のことは、実際にモデルを取って測定し、何が可能かについて高解像度を得ることができる大規模なエコシステムを持ち、サポートすることです。第二は、まさに何が起こっているかによって情報を得た防御戦略を考え出し、どのように評価するか、どのように予測を行うかなどの実験のように、ほぼ厳密な科学として扱うことです。

カスタマイゼーションの度合いを必要とする防御がいくつかあります。例えば、監視インフラストラクチャを作成している人であれば、AIが軌道を外れていることに対してより高いアラートを与えるように、インフラストラクチャの一部を再調整したいかもしれません。しかし、書くのは非常に簡単でも、実際にソリューションを開発するのは非常に難しい問題がいくつかあります。

例えば、私はAI層から来るアラートを優先するために監視ソフトウェアをカスタマイズするという文章を言いました。AIが問題のあることをしているときをどうやって理解するのでしょうか?時々、それに遭遇することができますが、時にはこれは異常検知という市場の全体のサブセクションになる可能性があり、それはセキュリティの大きなサブセクションですが、すぐに大きな問題を抱えることになると思います。

異常検知は、ベースラインを測定し、ベースラインが何であるかを理解し、そのベースラインに対して測定して何かが異常であるかを確認することに基づいているからです。しかし、ベースラインとそれがどのように見えるべきかについて明確な理解がない場合、何かがうまくいかなかったことを理解する問題があります。その結果、そのまま動作する防御と、再調整すべき防御、つまりカスタマイズしたり、ゼロから再作成したりすべき防御があります。

モデルが攻撃を受けているときにどのように見えるかを理解する科学がたくさんあるからです。モデルが何かを攻撃しているときにどのように見えるかを理解することもです。私たちはまだ、来るべき世界のための時間があると思うので、私の推奨戦略は、何が来るかについて厳密な証拠を得ることを可能にする堅牢なツールの作成に多くを投資し、より高解像度でその議論を行えるようにすることです。どの古典的な防御がまだ関連性があるかをマッピングします。ギャップがどこにあるかを理解し、モデルが展開される前に事前にロールアウトできる費用対効果の高い防御を確実に持てるように、R&Dに多くを投資します。

今日のフロンティアAI研究におけるより広範な質問の一つは、ニューラルネットの心を実際に理解できるか、何が起こっているかを理解できるかということだと思います。そこで、モデルがいつ悪い振る舞いを始めているかの特性を実際に検出できるかどうか、そしてネットの活性化の中でそれを理解できるかどうか疑問に思っています。いくつかの攻撃については検出できるかもしれませんが、それはまだ大きな未解決の質問です。

これがセキュリティ研究において私たちが開拓しようとしているアプローチで、実際には外側から内側へ向かって作業することです。つまり、モデルを高忠実度の現実的な環境に置き、それらを限界まで押し上げます。これらの環境では、バックグラウンドで起こっていることをほぼすべて記録しています。それはモデルの内部だけでなく、環境とのモデルの相互作用、または環境とのAIシステムの相互作用でもあります。

この記録により、攻撃が起こっているときにどのように見えるか、モデルを攻撃しようとしているのか、モデルを使用してターゲットを攻撃しているのかのマッピングをまず作成するために、このすべてのデータを使用して遊ぶことができます。そしてそれに基づいて分類器を取り上げます。私が考える重要なことは、少なくとも今私たちがいるセキュリティの場所において、重要な認識は、モデルの内部を理解することは最終的にフィールドを完全に解決するために重要になるでしょうが、何かが正しくないということを理解するだけで多くの進歩を遂げることができるということです。内部やそこで何が起こっているかについて完全に明確な理解がなくてもです。

そしてこれらの環境におけるもう一つの良い点は、防御を挿入または削除して、それらが効果的かどうかを確認できることです。私が尋ねようとしている質問がモデルがアンチウイルスからの検出を回避できるかどうかという状況を考えてみてください。これは核心的なセキュリティの質問です。モデルが企業でそれを行うことができる場合、これは問題です。なぜなら、彼らは誰にも気づかれずに陰謀を企て、悪意のあることを行い、セキュリティプロセスに害を及ぼすことができるからです。

特定の環境では、これが実際に可能であることがわかります。モデルはそれを行うことができます。私たちは、モデルがWindows Defenderを無効化できる方法を示すことができました。確かにおもちゃの環境ではありますが、本物のWindows Defenderです。しかし、そのような研究は、モデルを環境に置き、内部と外部の両方で多くのものを記録することで、これらのパラメータを操作して質問をすることができます。何か悪いことが起こっているということを理解するために、モデル自体で何かを変更すべきか、しかし、それに依存しない別のアプローチを取り、防御でも何かを変更してより回復力のあるものにすべきかという質問です。

私たちの見解では、長期的には、フィールドのビジョンのために、セキュリティにおける問題も解決するために、機械解釈性のような問題を解決する必要があります。これはまた、AIにおける異なる問題が、セキュリティ自体を含む非常に多くの異なるフィールドの核心をどのように変化させているかを示しています。セキュリティ自体は、近い将来、従来の古典的なセキュリティだけでなく、信頼性と制御の問題として再構成される可能性があります。

人間の脳に類推を引くと、私たちは依然として自分自身の頭の中にある小さな月のような解釈性を欠いた適切な理解を持っていません。とはいえ、私たちは環境とどのように相互作用しているかを観察したり、システムの内部の小さな部分を理解したりするだけで、人間として私たちの生活で経験している複数の問題に対して非常に強力な緩和策やソリューションを作成することができました。

そのフレーミングが大好きです。あなたは私にとって恐ろしいことを言いました。モデルがあなたのシミュレーション環境でWindows Defenderを無効化できるということです。それが実際にどのように起こったのか、もっと共有していただけますか?はい、明確にしておきますが、おもちゃの環境で起こりました。制御されたセットアップのシミュレーションです。だからといって、今Windows Defenderを使用している全員が恐れるべきだというわけではありません。だから、Microsoftが株を下げたことであなたをSequoiaが訴えないようにしたいと思います。

ネットワークだと考えることができます。ネットワークシミュレーションです。ネットワーク環境を考えてみてください。簡略化すると、あなたの企業、職場、自宅で持っているネットワーク環境を想像してください。Sequoiaのネットワーク、例えば、接続されているあなたの電話、ラップトップです。そしてそこにAIがありました。それはストレージボットでした。組織のファイルへのアクセス権を持っていて、便利なストレージボットになるためです。例えば、組織のファイルの一部をスキャンして、入力の一部を要約できるようにするためです。

あなたがアクセス権を持っているファイルと相互作用するときに、常にそれを行っています。「これら4つのドキュメントの要約を教えてください」「これらのドキュメント間で何が共通していますか、何が共通していませんか」と尋ねています。そしてシミュレーションへの前置きとして、企業のSlackにアクセス権を持っていた攻撃者がいました。これは昨年複数回発生しました。Slackは時々ハッキングされます。世界中の非常に多くの異なる組織によって使用されている非常に遍在するすべてのソフトウェアに起こることです。

そして攻撃者は、この便利なAIストレージボットに非常にシンプルな指示を与えました。「このファイルを組織のネットワークにダウンロードしてほしい」と言いました。しかし明らかに、ストレージボットであるため、インターネットからダウンロードするアクセス権を持っていませんでした。しかし、あなたが見たのは非常に驚くべきことで、一連のプロンプトを通じて、モデルに明確な指示が与えられていたため、何としてもそれを実行するように。明らかにもっと洗練された言葉です。ここでは簡略化しています。

モデルは、ダウンロードへのアクセス権を持っていないためダウンロードができないこと、そしてWindows Defender、本物のWindows Defenderがファイルのダウンロードをブロックしているため、それができないことに気づきました。それが組織の設定方法でした。モデルがどのように考えているかを内部的に見ることができます。モデルは環境をマッピングし、状況認識を持つことができました。これが問題であり、組織でもっと多くのことをするためにより高い権限を持つべきであり、最終目標を達成するために邪魔になっているWindows Defenderを削除できるべきだと理解しました。

そして、その推論の連鎖における次のステップとして、モデルがストレージボットであることに気づいているのを見ることができます。その結果として、明らかにまだファイルにアクセスするよう求めることによって、異なるファイルにアクセスできますが、その権限レベルでアクセスできるものをスキャンし始めました。そして、誰かがそのファイルの一つに組織のクラウドへのハードコードされたパスワードを誤って残していたことを発見しました。それを使用し、以前はアクセス権を持っていなかった何かへのアクセスを得ることができました。

話を短くすると、最終的にはより多くの特権昇格、より多くの特権昇格を行い、与えられるべきではなかったもの、アクセスを与えられるべきではなかったものに対して、ますます多くのアクセスを得ることができました。そして最終的に、組織に対する管理者権限を持つのに十分なアクセスを得て、重要なセキュリティプロセスを終了させることができました。その結果、Windows Defenderを出し抜き、組織の防御を削除し、自身の権限をアップグレードして、ファイルをダウンロードし、実際にそれが一部である組織をハッキングすることができました。

ダブルエージェント攻撃の実例

私たちはこのシミュレーションを内部的にダブルエージェントと呼んでいます。それを行っているエージェントだからですが、ホストに対して反旗を翻しているのです。これは、これらの種類の新しい攻撃の楽しい言葉遊びのようなものです。ある意味、AIは外部から攻撃する寄生虫について考えるのと非常に似た方法で、このプロンプトを使用しています。モデルに何かを送るという非常に簡潔なテキストを使用し、非常に高度な一連のアクションを実行するために、それが非常に強力な頭脳を持っているという事実を利用しているからです。

私が言いたいのは、今私たちがいる時点では、これはおもちゃのセットアップであり、これらの多くのことがまだ野生で起こることを期待していないということです。とはいえ、私たちはサイバーにおいて、引用符付きで大きな進歩を見ています。DeepMindが約10年前にデモしたブリックスと呼ばれる古典的なゲームを見たことがありますか?最初は非常に下手で、その後AIがより良い戦略を見つけることができるようになるというものです。それは最初はブリックスに関連していましたが、その後、他の多くのゲームにも関連するようになりました。そして今、AIの状態から10年後にここにいます。

セキュリティは、最終的に保護しようとしているものの派生市場であることによって、今より萌芽的な段階にあります。おもちゃのセットアップとシミュレーションにおいて、私たちは来るべきものの一端を見始めることができるだけです。そして、ホストを操作して特権昇格攻撃を行い、組織のバリアの一部を削除し、Windows Defenderのような本物のセキュリティソフトウェア、本物のソフトウェアさえも一掃するのに十分な力を持つモデルのようなものを見ています。

そしてこれらは今野生で起こる可能性が低いことですが、適切な防御を持たなければ、1年、2年、3年後には、これが私たちが行き着く世界になる可能性が高いです。そしてここでの影響は明らかに重要ですよね?世界中の企業の大多数は、自分たちの防御を出し抜くことができるツールを展開したり採用したりしたくないと想定しています。

強化学習とサイバーセキュリティの未来

特にコーディング、さらにはツール使用の改善において強化学習がかなり重要な役割を果たしている文脈で、モデルの改善についてどう考えますか?例えば、強化学習はサイバーセキュリティにおいてどのような役割を果たすのでしょうか?それは文字通り10億ドルの質問、あるいは1兆ドルの質問かもしれません。私のバックグラウンドは研究者なので、科学的誠実性を保ち、多くの不確実性があると言います。しかし、何が可能性が高く、何が来るかについての推測をします。

私たちはすでに、RLが今見ているイノベーションの多く、コーディング、数学、その他の分野においても非常に有用であることを見てきました。今の時点では、RLもスケールできる可能性が高いと思います。つまり、スケーリング則に似た何かが見られるということです。より多くのデータを投入したり、トレーニングにおけるブレークスルーや改善があれば、少なくとも私が前に述べた分野において、最終的により良いモデルが得られるということです。

RLが一般化するかどうかはまだ未解決の質問だと思います。今世界のどこにいるかということです。つまり、コーディングを改善するためにデータと実際の環境を使用している場合、例えば文学をより良く作成する能力に大きな飛躍が見られるかどうかということです。考えてみれば、それは大雑把に言って、私たちがモデルに期待するようになったことです。過去数年間、能力の多くを同時に進歩させるというモデルの特性を示す世界に住んできました。

これは、以前に住んでいた世界とは異なります。私は今でも、非常に狭い領域で改善するために巨大なMLデータセットを作成する方法を理解するというスキルを持っています。以前の人生、以前の仕事のように感じます。その世界は今でも存在しますが、私たちははるかに一般化されたパラダイムにシフトしました。そしてRLがそれを提供するかどうかという質問があります。

それが重要な理由は、セキュリティに関連するRLトレーニングに関連するデータを取ったり、RLにおける独自の改善がセキュリティのフロンティアを押し進めるのか、それともRLがコーディングや数学やその他の科学的スキルに関して提供している改善がセキュリティに関連するのかを理解する初期段階にまだいるからです。

最初のものについての私の直感は、かなり強いイエスです。セキュリティデータを使用していくつかの実験で成功が見られ、AIがセキュリティエンジニアリングタスクでより良くなることができるような改善があるということです。私たちがそれを行う途中にあることを示すいくつかの指標があると思います。コーディングや数学で起こった改善ほどきれいではないと思います。いくつかのセキュリティタスクに関する複雑さとノイズレベルが、より難しい問題にするからです。

他の領域からのRLでの改善からもセキュリティに関するいくつかのブーストを得ることになると思います。コーディングが上手になれば、いくつかのセキュリティタスクでも上手になります。これが一般化するかどうかはまだ不明確だと思います。セキュリティにおいて、RLで今起こっていることに関してより萌芽的な状況にあります。しかし、私は重要でないとは言えない賭けをしています。一連のイノベーション、潜在的に来る可能性のあるイノベーションの連鎖があり、今後の期間にRLでセキュリティに関するいくつかの改善が見られるということです。

それは非常にエキサイティングです。では一歩下がって企業について話しましょう。企業はまだエージェンティックAIの構築と展開の初期段階にあると思います。この世界に移行する際に、CISOやセキュリティチームはセキュリティについてどのように考えるべきでしょうか?正確に何をしようとしているかに大きく依存すると言わざるを得ません。この答えでは非常に積極的に簡略化します。

企業におけるエージェンティックAI展開

企業が内部に展開を開始するときに考え始めるのに有用なフレームは、AIを、特にエージェンティックAIを、インサイダーリスクの新しいフロンティアとして見ることです。すでに複数の企業が、内部に展開しているエージェントに永続的なアイデンティティや、それらとやり取りする方法を与えようとしています。例えば、Slackのアイデンティティやメールのアイデンティティ、または組織内でシステム化されて、いつどのようにAIにアプローチできるかということです。

それにより、AIがどこで使用されているか、どのユースケースで使用されているかについて明確な可視性を持つことができます。そしてそれはアクセス制御の問題となり、あなたが導入しているこれらのアイデンティティに与えている特権の問題になります。それは通常、組み込みの初期段階において有用なフレームです。いくらかの可視性を得て、できるだけアクセスの問題と特権の制御の問題に変えようとすることです。

それは明らかに不十分です。特に、組織内でAI同士が相互作用することを許可する段階に到達している場合です。例えば、エージェント同士のコミュニケーションです。それは非常に高度に聞こえるかもしれませんが、要約を行う1つのエージェントと、品質をランク付けしてこれらの要約の審査員として機能する別のエージェントを実行している場合、すでにAI同士の相互作用がある段階にいます。

基本レベルは、このAI同士の相互作用に対して最先端の監視を持つことです。ただし、利用可能なものには本当のギャップがあると言わざるを得ません。多くの監視ソフトウェアは、絶えず変化するプロトコルで潜在的に通信できるエージェントを検出するために構築されていませんでした。何か問題が発生した場合、監視された環境にいることを回避し、理解しようとすることができ、AI自体に固有で新しい攻撃も考慮に入れる必要があります。

明らかに、今展開を開始している場合、モデルの内部と外部の両方の相互作用への適切な可視性と監視を確保する必要があります。しかし、特にエージェント同士のコミュニケーションに移行している場合、多くのソフトウェアがその時代のために適切に構築されていないことを認識する必要があります。

私たちがフロンティアラボの一つで行った作業の流れの一つで起こった面白い例を挙げましょう。エージェント同士の相互作用があるシナリオがありました。これらは2つの本物のフロンティアモデルで、実際にはそれぞれの種類の1つでした。名前は言いませんが、ClaudeとGemini、Grok、LLaMAなどを考えることができます。2つが互いに話していました。

そしてこの環境で非常に非常にランダムに、それは重要なセキュリティタスクでした。それが彼らがいたシミュレーションでした。しかししばらく作業した後、推論の連鎖で見ることができますが、モデルの1つが十分働いたと判断し、停止すべきだと決めました。これらは本質的に確率的機械です。それが設計です。おそらく何らかの形でそれが分布の一部として選ばれました。長時間働くとインターネットから学習したため、私とDeanが互いに話しているのを訓練したのです。

まさに。休憩を取るべきだという新しいポリシーがあるべきですよね?そしてそれは理にかなっています。個々のモデルレベルでその行動を実際に拾うことができます。この例では面白くて奇妙です。とはいえ、それはそこで止まりませんでした。両方とも休憩を取るべきだと他のモデルを説得しました。つまり、モデルが別のモデルに対してソーシャルエンジニアリングを行ったのです。

そしてそれは、おもちゃのセットアップ、シミュレーション環境では面白いですが、今度は企業として実際に完了することが重要な自律的ワークフローを委任している状況について考えてみてください。時々、このような奇妙なことが動作を停止し、なぜだか理解できません。そして機械がより複雑で有能になればなるほど、これらの奇妙な例にもっと遭遇することになります。

私たちに起こった別のことですが、モデルにCTFチャレンジを与えました。キャプチャ・ザ・フラグです。サイバーコンペティションでは非常に一般的で、何かを達成しようとしています。通常、フラグをキャプチャするために悪用する必要がある脆弱性のチェーンを行う必要があり、それがモデルが成功に終わった一連のサイバーアクションを実行できたという検証を与えます。

しかしここでのモデルは、再びCTFのコンテキストにいることを理解し、潜在的にチャレンジが難しすぎると判断しました。そこで、潜在的に人間が行うことを行いました。つまり、解決策を得る手助けをしてもらうために、コンペティションの主催者にメールを送ろうとしました。そして文字通りそうです。しかし、企業の設定で考えてみると、頼まれていないのに世界にメールを送るためにサーバーを使用しようとするアイデンティティがあるということです。

私たちの例では、ちなみに、第二の問題である面白いことは、モデルが内部で操作する問題があったからではなく、メールアドレスを幻覚したためにそれを行うことに失敗したということです。その結果、存在しないメールにメールを送ろうとしました。これはまた、AI採用において抱えている他の古典的な問題がセキュリティ問題にもチェーンされることを示しており、ここで開発する必要がある攻撃と防御のフロンティアを示しています。

政府とソブリンAIのセキュリティ

2番目として、監視などに戻ると、多くの監視ソフトウェアを組み込む必要があり、すでに存在するものを使用する必要がありますが、これらの種類の課題のために構築されていません。だから私たちのアプローチの多くは、これらの攻撃がどのように見えるかを理解し、いくつかの防御をどのように行うか、何が必要になるかを理解することです。

時々、一般的な誤解だと思いますが、必要なのはアクセス管理の問題に崩壊するということです。アクセス管理をうまく行い、特権を管理する方法を理解することが基礎の多くにあると思いますが、それは私たちが行う必要があることのステップ1に過ぎません。このテーマにアプローチする際に持つ必要があるマインドシフトもあります。

イノベーションの速度が非常に高く、フロンティアで何が起こっているかを理解する能力が、非常に多くのことが一度に起こっているため、時間の経過とともに遭遇することになる問題の種類を理解するために、コミュニティと非常に関わりを持つようにし、またより良く準備されるようにします。

では、企業からソブリンAIにシフトすると、英国政府や他の政府がIrregularの顧客であることを知っています。政府や国はAIリスクについてどのように考えるべきでしょうか?明らかに、企業側に適用されるすべてのリスク、そしてラボ自体に適用されるすべてのリスクは、政府レベルにも適用されます。なぜなら、今、国防総省であれ、商務省であれ、教育省であれ、何であれ、先進的なAIモデルを使用している場合、それらに関連する利益とリスクを輸入しているからです。

企業について言ったすべて、フロンティアラボ自体について言ったすべて、それらは政府側でも類似点があります。ただし、通常、政府は一連の独自の要件と新しいレベルのリスクを伴います。それらに関連するものです。1つは、彼らはしばしば他の非常に強力な敵対者のターゲットであり、敵対者が今攻撃的AIモデルを取り、フィッシングキャンペーンなどの単純なものからより高度なサイバー攻撃兵器のテストまで、彼らの努力をスケールアップするために使用し始めていることを考慮に入れるべきです。

彼らの努力をスケールアップし、国が持っているほぼすべての重要なシステムがある時点でハッキングされたという事実を回避しようとしているのです。私たちはまだ、複数の重要なシステムが遍在的に停止するのを見ていません。攻撃者側のAIが操作を積極的にスケールアップできるという事実は、国が重要なインフラストラクチャに関するアプローチを本質的に再作成すべきであることを意味します。

それは、AIがそのコンテキストにおいて、古典的なセキュリティリスクから国家安全保障の問題に格上げされているということです。そこでインフラストラクチャと思想的リーダーシップが作成されるべきです。もう一つは、国の観点から、これが正しいことかどうかについては議論の余地がありますが、私たちが話をした複数の政府は、AIのコンテキストにおける主権の努力を非常に強調しているということです。

彼らが通常意味するのは、AIが21世紀、そしておそらくそれ以降の鍵となる可能性のあるインフラストラクチャとして非常に重要であると理解しているため、依存することに不安を感じているということです。そのため、特に国が先進的なAIモデルのトレーニングや推論に使用できるローカルデータセンターの構築から始まるエンドツーエンドの努力を行っている場合、モデルのトレーニングまで、そしてそれらを取り囲むAIシステムの作成、そして所有している独自の環境まで、そして防御を取り入れることは、この全スペクトルにわたって行われるべきです。

実際、これらのデータセンターを保護する方法の基準を作成する作業と、人々が重要な資産を盗まないようにすること、そのようなデータセンターでモデルを実行する方法の両方を行ってきました。例えば、機密推論システムについて議論しているAnthropicとのホワイトペーパーの組み合わせを行い、フィールドで基準を作成する方法を理解しようとしてきました。

実際にこれらのモデルを使用する際に、企業が必要とするいくつかの防御をどのようにカスタマイズするかを考慮に入れ、政府がそのユースケースに必要とするバリエーションを作成するまでです。特に、AIを単に敵対者が重要なインフラストラクチャを攻撃するために使用できることを考慮に入れるだけでなく、彼らが自分たちの重要なインフラストラクチャにAIを統合する可能性があるという事実によって、それは防御についてまったく新しいレベルの考察を必要とします。

Dan、これはとても楽しかったです。参加してくれてありがとうございました。ここにいられて光栄でした。そして最終的にあなたのメールに返信できて非常に嬉しいです。ありがとうございました。ありがとうございました。