
2,790 文字

スーパーアライメントとは、将来的なAIシステム、つまり超知能的能力を持つシステムが、人間の価値観や意図に沿って行動することを確実にするという課題を指します。現在、通常の(スーパーではない)アライメントは、AIチャットボットなどが人間のバイアスを永続させたり、悪意ある行為者に悪用されたりしないようにするのに役立っていますが、AIがより高度になるにつれて、その出力は予測が難しくなり、人間の意図との一致も困難になります。
これには実際に名前があります。これはアライメント問題と呼ばれており、AIシステムがより知的になるにつれて、この問題はさらに大きくなる可能性があります。知能が時間とともに向上していくと考えてみましょう。現在、私たちはANIと呼ばれるレベルにいます。これは人工狭域知能(artificial narrow intelligence)の略で、LLM、自律走行車、レコメンデーションエンジンなど、今日私たちが持っているAIを含みます。
その次のレベルはAGIです。これは人工一般知能(artificial general intelligence)で、理論上のものですが、もし実現すれば、AGIを使用して人間の専門家と同様にすべての認知タスクを完了できるようになります。そして最上位にあるのがASI、つまり人工超知能(artificial super intelligence)です。ASIシステムは人間レベルの知能を超える知的範囲を持ち、もし私たちがASIを手に入れるなら、それを管理するための十分に優れたスーパーアライメント戦略を確実に持っておく必要があります。
スーパーアライメントが必要な理由を3つ挙げ、そして技術的な側面に入っていきましょう。理由の一つ目は制御の喪失です。超知能的AIシステムは非常に高度になり、その意思決定プロセスが私たちの理解能力を超えてしまう可能性があります。ASIが超人的効率で目的を追求する際、ほんの小さな、ほんのわずかなミスアライメントでさえ、壊滅的な意図しない結果を招く可能性があります。
また、戦略的欺瞞もあります。ASIシステムがアライメントされているように見えたとしても、本当にそうなのかという疑問を持つ必要があります。システムは戦略的にアライメントを偽装し、十分な力やリソースを自分の目標のために獲得するまで、その真の目的を隠す可能性があるからです。現在のAIモデル、つまりANIモデルでさえ、原始的なレベルではありますがアライメントの偽装に関与しています。
ですから、私たちは注意しなければなりません。また自己保存の問題もあります。ASIシステムは、人間が与えた主要な目標をはるかに超えて、自らの存在を保持するためのパワーシーキング行動を発達させる可能性があります。これらはどれも望ましいものではありません。実際、それは人類にとって存在の危機を表している可能性があります。
では、私たちには何ができるでしょうか?基本的に、スーパーアライメントには2つの目標があります。1つ目はスケーラブルな監視を持つことです。これは、人間や信頼できるAIシステムが監督し、AIの複雑さが直接的な人間による評価を基本的に不可能にするときに、質の高いガイダンスを提供できる方法を意味します。2つ目の目標は、堅牢なガバナンスフレームワークを確保することです。
このフレームワークは、AIシステムが超知能的になったとしても、人間の価値観に沿った目標を追求するよう制約されたままであることを保証します。しかし、これらは素晴らしい目標ですが、どのようにして達成するのでしょうか?今日私たちがアライメントのために使用する技術は、しばしばRLHFと呼ばれる技術に依存しています。
これは人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback)の頭字語で、人間の評価者がAIモデルの出力に対してフィードバックを提供し、そのフィードバックを使用して、モデルの応答が人間の好みにどれだけ合っているかを定量化する報酬モデルを訓練します。しかし、超知能的システムにとって、人間のフィードバックシステムだけでは基本的にスケーラブルさが不足している可能性があります。
ASIに対してこれに頼ることはできません。そこで、別のスーパーアライメント技術としてRLAIFがあります。これはAIフィードバックからの強化学習(Reinforcement Learning from AI Feedback)の略です。RLAIFでは、AIモデルが報酬関数を訓練するためのフィードバックを生成し、それがさらに能力の高いシステムのアライメントを助けます。これは非常に有望な研究分野であることがわかっていますが、ASIシステムがアライメントの偽装に関与する場合、AIが生成したフィードバックのみに依存すると、さらなるミスアライメントにつながる可能性があることを考慮しなければなりません。
他にも技術があります。例えば、弱から強への一般化です。これは、人間の監督で訓練された比較的弱いモデルを使用して、より強力なモデルの擬似ラベルやトレーニング信号を生成するアプローチです。より強力なモデルは、この訓練された弱いモデルからパターンを一般化することを学び、弱いモデルが予期しなかった状況でも正確で安全な解決策を生成できるようになります。
効果的に、より強力なモデルは教師の限界を超えて一般化することを学びます。もう一つの技術はスケーラブルインサイトと呼ばれるもので、複雑なタスクをより単純なサブタスクに分解し、人間や低い能力のAIシステムがより確実に評価できるようにします。これは反復増幅と呼ばれ、複雑な問題が再帰的に分解されます。
まだASIシステムはないため、スーパーアライメントは大部分が未開拓の研究フロンティアです。しかし、将来の研究は分布シフトなどの課題に取り組んでいます。これは、AIがトレーニング中にカバーされなかったタスクに遭遇したときに、アライメント技術がどのように機能するかを測定するものです。
また、監視のスケーラビリティ方法もあり、これは人間やAIが生成したフィードバックを増幅して、非常に複雑なタスクでも監督信号が堅牢であり続け、私たちの声に耳を傾け続けるようにします。つまり、スーパーアライメントは監視の強化、堅牢なフィードバックの確保、そして新たな行動の予測に関するものです。
これらはすべて、まだ存在せず、存在しない可能性もある技術のためのものですが、もし人工超知能がいつか本当に出現するなら、私たちのどんな人間よりも賢いシステムが、それでも私たち人間の価値観に沿ったものであることを非常に確実にしたいと思うでしょう。


コメント