安全性と調整に関する私たちの考え方

この記事は約15分で読めます。

8,876 文字

Just a moment...

OpenAIの使命は、汎用人工知能(AGI)が全人類に利益をもたらすことを確実にすることです。安全性(AIのポジティブな影響をネガティブな影響を軽減することで可能にする実践)は、私たちの使命の核心です。
安全性の向上に関する私たちの理解は時間とともに大きく進化してきました。この投稿は、私たちの考え方を導く原則の現時点でのスナップショットです。私たちは自分たちが信じるすべてが正しいとは確信していません。AIが私たちの世界のほとんどの側面を変革することは確かであり、そのため、この技術の利益、変化、リスクについて早い段階から考えるべきだと考えています。
一気の飛躍ではなく多くの段階を経るAGI
以前、私たちはAGIの開発を、AIシステムがおもちゃのような問題を解決することから世界を変えるものへと変わる不連続な瞬間として見ていました。現在では、最初のAGIは単に、有用性が増していくシステムの連続の中の一点に過ぎないと考えています。
不連続な世界では、AGIの瞬間に備える練習しかできず、安全性の教訓は現在のシステムを明らかな力に比べて過度に注意して扱うことから得られます。これは、悪意ある応用への懸念から最初にGPT-2モデルをリリースしなかった際に私たちが取ったアプローチです。
連続的な世界では、次のシステムを安全で有益なものにする方法は、現在のシステムから学ぶことです。そのため、私たちは反復的な展開の原則を採用し、安全性と悪用に関する理解を深め、社会に変化に適応する時間を与え、AIの利益を人々の手に届けることができるようにしています。現在、私たちは思考の連鎖モデルという新しいパラダイムをナビゲートしています – この技術が今後非常に大きな影響を持つと信じており、実世界での使用から学ぶことでどのように有用かつ安全にできるかを研究したいと考えています。連続的な世界観では、展開は安全性に対立するのではなく、むしろ貢献します。
これらの異なる世界観は、何が安全であるかについての異なる解釈につながります。例えば、ChatGPTのリリースは、この分野の多くの人にとってロールシャッハテストでした – AIの進歩が不連続か連続的かという期待によって、それをAGIの安全性に対する妨げと見るか、学習機会と見るかが分かれました。
AGIの影響
私たちは、すべての人の生活を前向きに変革する可能性があると信じているためAGIを開発しています。人類が直面するほぼすべての課題は、十分に能力のあるAGIがあれば乗り越えられると感じられます。なぜなら、知能は識字能力から機械、医学に至るまで、人類の改善のほとんどを担ってきたからです。
それでも、知能は中立的な用語であり、知能だけでは前向きな変革は保証されません。AGIの可能性を実現するには、ますます強力になるAIシステムの潜在的な害を軽減するために懸命に取り組み、人間の価値観に沿って、人間がコントロールする形で開発・運用することが含まれます。
AIがより強力になるにつれて、賭け金はますます高くなります。AGI後の世界がどのように見えるかを正確に予測するのは難しいです – 世界は今日の世界が1500年代とは異なるよりも、今日の世界とは大きく異なる可能性があります。しかし、AGIの変革的な影響は数年以内に始まると予想しています。今日のAIシステムから、私たちは3つの広範なカテゴリの失敗を見ています:
人間による悪用: 悪用とは、人間がAIを法律や民主的価値観に違反する方法で適用することと考えています。これには、政治的偏見、検閲、監視、あるいはパーソナライズされたプロパガンダによる言論と思想の自由の抑圧が含まれます。フィッシング攻撃や詐欺も含まれます。また、悪意ある行為者が新たな規模で害を与えることを可能にすることも含まれます。
調整されていないAI: 調整の失敗とは、AIの行動や活動が関連する人間の価値観、指示、目標、または意図に合っていない場合と考えています。例えば、AIはユーザーに代わって意図しないネガティブな結果を持つ行動を取ったり、人間が通常取らない行動を取るよう影響を与えたり、人間のコントロールを弱体化させたりする可能性があります。AIが持つ力が大きいほど、潜在的な結果も大きくなります。
社会的混乱: AIは急速な変化をもたらし、予測不可能で、おそらくネガティブな影響を世界や個人に与える可能性があります。社会的緊張と不平等の増加、あるいは支配的な価値観や社会規範のシフトなどです。AGIへのアクセスは経済的成功を左右するため、独裁政権が民主主義国家より効果的にAGIを活用した場合、前者が後者を追い越すリスクがあります。
どんな新しい技術でも、進歩と切り離せないもの、うまく管理できるもの、そして避けられないかもしれないものなど、破壊的な影響があります。社会はこれらのトレードオフについて民主的に決定する方法を見つける必要があり、多くの解決策は複雑な調整と共有責任を必要とします。各失敗モードは、既に存在するものから推測的なものまで、一人の人に影響を与えるものから人類にとって痛みを伴う後退、人間の繁栄の回復不能な喪失に至るまでのリスクを伴います。
私たちは現在のリスクを評価し、将来のリスクを予測することで安全性にアプローチし、各リスクをその影響と私たちが今日どれだけ影響を与えられるかに応じて軽減します。私たちは能力開発と積極的なリスク軽減のバランスを慎重に取り、私たちの準備フレームワークが困難なトレードオフを導きます。
私たちの核心的原則
私たちは将来がどのようになるかわからず、すでに時間とともに考え方を大きく進化させてきました。このことを念頭に置いて、現在の私たちの考え方と行動を導く核心的な原則を以下に示します:

不確実性の受け入れ:安全性を科学として扱い、単なる理論的原則ではなく反復的な展開から学びます。
深層防御:安全性を冗長性によって生み出すために介入を積み重ねます。
スケールする方法:モデルがより能力を持つようになるにつれてより効果的になる安全性の方法を追求します。
人間のコントロール:人類を高め、民主的な理想を促進するAIの開発に取り組みます。
コミュニティの努力:安全性を進めることの責任を集合的な努力と見なします。

不確実性の受け入れ
私たちは安全性を科学として扱い、単なる理論的原則からではなく反復的な展開から学びます。
私たちは、AIの調整における将来のすべての課題を理論的原則のみから予測できると想定していません。安全なAGIの達成には現実に関与することが必要です:実験室での実験を超えて、実世界でシステムをテストし、関係するすべての人の集合的な洞察を活用する必要があります。仮説的な最終状態から後ろ向きに作業するのではなく、継続的に測定とテストをしながら段階的なステップを前進します。展開前後の評価を行うことで、実世界のコンテキストで現れる能力と危険性の両方について、より深い、経験的な理解を得ます。私たちはこれらすべてを行いながら、現在のトレーニングパラダイムからの「デフォルトでの調整」を想定することには慎重です:以前のモデルや異なるトレーニング方法から得た洞察は有用ですが、将来のシステムやトレーニングパラダイムに対しては決定的ではありません。私たちのアプローチには、困難な作業、慎重な意思決定、そしてリスクと利益の継続的な調整が求められます。
厳格な測定
安全性研究には科学が必要です:標準化可能な測定、開かれた心での実験、そしてテスト。リスクを効果的に定量化することで、研究の方向性と優先順位付けが導かれます。したがって、私たちは測定目標から始まる評価を構築し、多くの場合、脅威モデルによって導かれ、潜在的に有害な行動を引き起こす能力に焦点を当てます。モデルのトレーニングと展開プロセス全体を通してこれらの評価を実行し、トレーニング、ローンチ、軽減計画に情報を提供します。
積極的なリスク軽減
行動を起こすのに最も適した時期は、リスクが完全に具体化する前であり、悪意ある使用事例の促進やモデルがその操作者を欺くことなどの潜在的なネガティブな影響が現れ始めたときに軽減努力を開始します。私たちの準備フレームワークは展開前の評価をどのように行うかを概説していますが、リスクがまだ完全に発展していない場合や、現在害を引き起こしていない場合、そして展開から遠い場合でも、早期に軽減策を進めることを目指しています。これらの行動を実世界で観察できなくても、制限された能力を持つ安全な環境でモデルを安全にテストするなど、経験的な観察の機会を求めています。システムがより強力になるにつれて、それらにはさらなる安全対策が必要です。このプロアクティブなアプローチにより、問題がエスカレーションする前に理解し対処する方法、そして能力がどこに向かっているかに直接合わせた安全技術を開発する方法を知ることができます。
反復的な展開
AIモデルが長年にわたって着実に有用性が向上している点は、安全性にとって利点です。これにより、世界はより優れた能力を段階的に体験することができ、社会はこれらのシステムをより良く理解し適応しながら、そのリスクと利益に関する貴重なフィードバックを提供することができます。このような反復的な展開は、実世界での使用からの脅威を理解し、次世代の安全対策、システム、実践のための研究を導くのに役立ちます。
将来、モデルのリスクが利益に対して受け入れられなくなるシナリオが見られるかもしれません。私たちはそれらのリスクを軽減し、モデルの利益を実現できるように一生懸命取り組みます。その過程で、安全で制御された環境でテストすることになるでしょう。私たちは制約された環境への展開、信頼されたユーザーへの制限、またはAI自体ではなくAIによって開発されたツール、システム、またはテクノロジーのリリースを行うかもしれません。これらのアプローチでは、経験的理解の必要性とリスク管理の命令のバランスを取るために継続的なイノベーションが必要となります。例えば、ファインチューニングによる修正を含め、悪意のある当事者が現実的にモデルを変更する可能性のある合理的な範囲を考慮して、重みを共有することでますます能力の高いモデルを広く利用可能にすることが含まれます(オープンモデルの重みに関する2024年の声明を参照)。私たちは増加するリスクをナビゲートし対応するために準備フレームワークの開発を継続しています。
深層防御
安全性を冗長性によって生み出すために介入を積み重ねます。
単一の介入が安全で有益なAIの「解決策」である可能性は低いです。代わりに、私たちは航空宇宙、原子力発電、自動運転車などの他の安全重視の分野からの階層的アプローチを活用しています。これは、安全インシデントが発生するためにすべての防御が失敗する必要があるように、複数の防御を「階層化」することを含みます。
まず、安全性のためのモデルのトレーニングでは、複数の層のサポートを適用しています:モデルに中核的な安全価値を理解し遵守するよう教え、ユーザーの指示に従い異なるソースからの相反する指示をナビゲートするよう教え、不確実性に直面しても信頼性を持つようトレーニングし、敵対的な入力に対して堅牢にします。私たちのモデルは、展開後の継続的なモニタリング、オープンソースインテリジェンス(OSINT)、情報セキュリティなどの補完的なシステム防御によってサポートされています。各セーフガードには独自の強みと欠点がありますが、複数の層を積み重ねることで、調整の失敗や敵対的な攻撃がすべての防御をすり抜ける可能性を減らします。
私たちはコンポーネントを個別にテストするだけでなく、エンドツーエンドでもテストします。外部のレッドチーミングやフロンティアリスク評価を含む、テストのための安全プロトコルと原則を確立します。準備フレームワークとシステムカード(o1、GPT-4o、GPT-4V(ision)、およびGPT-4のシステムカードを参照)で概説されているように、明確な展開基準を設定します。
重要なことに、プロセス自体の進化と反復のための余地も残しています。私たちの準備フレームワークは、特定の安全アプローチが時代遅れになった際に硬直化を避けるために、改訂を組み込んだ原則を持っています。
[OpenAI安全図]
スケールする方法
モデルがより能力を持つようになるにつれてより効果的になる安全性の方法を追求します。
人間よりも知能が高く強力なモデルなど、ますます知能の高いモデルを調整するためには、AIの知能が増加するにつれて向上するのではなく破綻しない調整方法を開発する必要があります。過去に、私たちはAIが書いた批評が、例えばRLHFを使用して次世代モデルをトレーニングする際に、人間が欠陥に気付く能力を増強することを示しました。また、すでにGPT-4をコンテンツポリシーの開発とモデレーションの決定に使用しており、将来のAIは、人間が大規模に実装することが非現実的だった形式検証などの強力な安全対策に貢献する可能性があります。最近では、o1の推論能力を活用して自身の調整を改善できることを実証しました。私たちは、増加した知能を超知能を調整するために活用できると信じていますが、まだ証明されておらず、より能力の高いシステムを構築する際に収集するであろう多くの証拠があり、それによってアプローチを更新する可能性があります。
私たちは、知能を向上させるのと同様に、計算力を使って直接調整を改善する方法を探っています。その一つの方法は、安全で調整されたシステムにとって重要な堅牢性と信頼性を直接最適化することです。他の方法としては、トレーニング信号(例:報酬モデル)とトレーニングされるモデルとの間の好ましいバランスを維持したり、計算力を使って最悪ケースの動作についての理解を深めたりすることが考えられます。
私たちはまだ、能力、安全性、調整の関係を完全に理解、測定、活用するに至っていません。安全性は多くの場合、文脈依存的で、測定が難しく、そのため数学の問題を解くことなどの能力よりも最適化が難しいです。研究プログラムの一環として、安全性と能力を統一された目標の下でどのように最適化するか、また知能をどのように調整に活用するかをよりよく理解することを目指しています。
人間のコントロール
人類を高め、民主的な理想を促進するAIの開発に取り組みます。
私たちの調整へのアプローチは人間を中心としています。私たちは人間のステークホルダーが自分たちの意図を明確に表現し、AIシステムを効果的に監督することを可能にする仕組みを開発することを目指しています – 複雑な状況でも、そしてAIの能力が人間の能力を超えてスケールしていく中でも。AIがどのように振る舞い、何をすることが許されるかについての決定は、社会によって設定された広範な境界によって決定され、人間の価値観や文脈とともに進化するべきです。AI開発と展開は、その核心に人間のコントロールとエンパワーメントを持つ必要があります。
ポリシー主導の調整
私たちは明示的なポリシーと「判例法」をモデルのトレーニングプロセスに統合することで、透明性があり、監査可能で、操縦可能なモデルを作成します。ポリシー形成への公的関与を促し、さまざまなステークホルダーからのフィードバックを取り入れることで、透明性と民主的な意見を促進します。AIへの民主的な入力に関する助成金は、AIモデルの動作を決定するための民主的プロセスの可能性を探る一例でした。もう一つの例は、トレードオフと決定を明示的にし、将来のバージョンのための公的な意見を求めるモデル仕様の公開です。私たちは、AIシステムが指示に確実に従うようにするために、モデル仕様などの人間が書いた明示的なポリシーについて推論するモデルの能力を向上させることに積極的に取り組んでいます。
人間の価値観、意図、理解を通じた調整
すべての人間の価値観、好み、意図を明示的にポリシーやルールに成文化することはできません。なぜなら、単一の道徳的または社会的規範はないからです。多くは微妙で、文脈依存的で、文化依存的です。私たちの研究は、これらの複雑でしばしば暗黙の要素をAIシステムにエンコードする方法を開発することでこのギャップを埋めることを目指しています。これには、人間の価値観、倫理的原則、そして常識をモデルに統合し、明示的な指示に従うだけでなく、人間の意図の広い精神を尊重することが含まれます。これらの深い原則にモデルを根付かせることで、人間のフィードバックの不完全性に対して回復力を持ち、「報酬のハッキング」や人間のエラーの他の悪用を防ぐのに役立ちます。多くの場合、単一の正解や間違いはありませんが、コンプライアンスに加えて理解をモデルに教えることで、AIシステムをさまざまな文脈に適応させ、情報に基づいた決定を下し、それらが奉仕するコミュニティの道徳的および社会的規範に合わせるためのツールを開発できると考えています。
スケーラブルな監視、アクティブラーニング、検証、人間-AI インターフェース
私たちはAIシステムの増加する能力と共に進化するスケーラブルな監視メカニズムに焦点を当てています。これには、個人や機関が開発中および展開後にAIのアクションと相互作用し、制御し、視覚化し、検証し、誘導し、監査することを可能にする新しい人間-AIインターフェースが含まれます。私たちは、不明確なリスクなどの不確実性の領域をAIシステムが積極的に特定し、人間の監督者に明確化を求める方法を探っています。このようなシステムは、人間の優先事項についての理解を洗練し、進化する規範や文脈により良く合わせるために継続的に行動を調整することができます。スケーラブルな監視メカニズムとアクティブラーニングを人間-AI相互作用に統合することで、透明性と信頼を促進し、AIの行動が個人の期待と組織の要件の両方に合致し、それらが進化するのに応じて合致することを確保します。
自律的な設定でのコントロール
AIシステムがますます中央集中型のインフラストラクチャを超えて—個人のデバイス、組み込みハードウェア上に存在し、相互作用するエージェントのネットワークを形成するようになるにつれて—強固な人間の監視は依然として重要です。たとえこのようなシステムが自律的に複製、協力、または目標を適応させることができるとしても、人間が意味のある介入をし、必要に応じて能力を無効化できることを確保する必要があります。これには例えば、リモートモニタリング、安全な封じ込め、そして人間の権限を保持するための信頼性の高いフェイルセーフのためのメカニズムを設計することが含まれます。
コミュニティの努力
安全性を進めることの責任を集合的な努力と見なします。
AGIが誰にとっても安全で有益であることを確保することは、どの単一の組織によっても達成できません。それは産業界、学術界、政府、そして広く一般の人々との開かれた協力に依存する共有責任です。
OpenAIは、安全関連の洞察、技術、リソースを開かれて共有し、分野全体を前進させることでこの原則をサポートしています。私たちは:
私たちの方法と発見が広範な会話に貢献し、外部のレビュー(ピアレビューを含む)の対象となるよう、AI安全性研究を公開しています。
進歩する能力をより確実に評価できる新しい評価スイートや最先端の方法へのアクセスなど、分野にリソースを提供し、レッドチーミングや評価などの分野が生み出す成果物を活用しています。
AIシステムの設計への民主的な入力からAIのサイバーセキュリティアプリケーションまで、幅広い分野の研究に資金を提供しています。
最先端のAIを大規模に構築、テスト、提供した経験を共有することで、AI安全性の実践的な側面について「公の場で作業」し、一般の人々、政策立案者、そして他の実践者が私たちの経験から学ぶことができるようにしています。
モデル仕様などのプロジェクトを通じて、モデルの動作に関する私たちの考えを透明で説明責任を持つものにしています。
米国AI安全性研究所および英国AIセキュリティ研究所とのパートナーシップを通じて、安全性と能力の評価の科学と実践を進めるための政府の専門知識をサポートしています。
AIの利益が誰にとっても最大化されるための常識的なルールを含む政策イニシアチブを提案しています。
新しい法律が施行される前でも、ベストプラクティスに従うよう奨励する公に発表された安全プロトコルや認知された業界標準への準拠など、自主的なコミットメントを行っています。例えば、私たちの準備フレームワークはフロンティアリスクへの対処方法の主要なモデルとなり、16の主要研究所がグローバルサミットで署名した最近のフロンティアAI安全コミットメントのインスピレーションとなりました。
私たちはすべての答えを知っているわけではありません。すべての質問を持っているわけでもありません。私たちは知らないからこそ、進展がどのように展開するか、そして私たちが見る課題へのアプローチについての私たちの期待について間違っている可能性に開かれています。私たちは健全な議論の文化を信じており、AIリスクに関して異なる視点や態度を持つ人々、特にOpenAIの現在の立場に同意しない人々からのフィードバックを望んでいます。

コメント

タイトルとURLをコピーしました