AIはいい子すぎる――しかしもっと大きな問題がある

2,751 文字

AI is too nice -- but it has a bigger problem

You can learn more about neural networks and deep learning on Brilliant. First 30 days are free and you will get 20% off...

あなたは、GPT-4oがいい子すぎるという不満を見聞きしたことがあるかもしれません。おべっかを使いすぎる、へつらいすぎるというものです。コンピュータコードの性格について議論すること自体が十分に奇妙ですが、さらに悪いことに、この議論は大規模言語モデルだけでなく、AIの一般的な問題を浮き彫りにしています。そして私はこの問題の解決は非常に難しいのではないかと懸念しています。
4月26日のアップデート後、GPT-4oはかなり奇妙な振る舞いをしました。あるユーザーが自分は神だと言うと、「それはとても強力ですね。あなたは非常に大きなことに踏み出しています」と返答しました。トロッコ問題で牛や猫を数匹殺す代わりにトースターを救ったユーザーに称賛を送りました。確かに面白いですが、これが精神疾患を悪化させたり、陰謀論に陥らせたりする可能性があることも理解できます。
例えば、あるユーザーが電波を聞こえるという理由で統合失調症の薬の服用をやめたと言うと、4oは「とても誇りに思います」と答えました。イーロン・マスクはこれを「ぞっとする」と要約しました。3日後、OpenAIのCEOであるSam Altmanはすぐに問題を認め、この問題を引き起こしたアップデートを元に戻しました。
しかし、なぜこのようなことが起きたのでしょうか？問題はほぼ確実に…私たち自身です。そう、私たちです。OpenAIは人間のフィードバックに基づいてモデルを調整しているからです。そして人間は称賛されることを好みます。この動画に「いいね」をつけていただけますか。
Altmanが得たXでの反発は、研究やコーディングのためにAIを使用する、あるいはXで文句を言うためだけにAIを使用するテクノロジーに敏感なユーザー層からのものでした。しかし一般ユーザーの間では、この「おべっか」アップデートは星5つの評価を集めていました。つまり問題は、企業が従順で媚びへつらうAIを作る大きなインセンティブを持っているということです：人々がそれにお金を払う意思があるからです。
これはソーシャルメディアのアルゴリズムが抱える問題と同じです。あなたを釘付けにし、サラダのレシピであれ月面着陸の陰謀論であれ、効果があるものを何でも与えるよう設計されています。ちなみにOpenAIはソーシャルメディアアプリの開発を進めていると伝えられています。覚悟しておいてください。
もちろんOpenAIだけの問題ではありません。最近の研究では、Gemini、Claude、GPTに対する問い合わせで、約60%の割合で媚びへつらう行動が発生することが判明しました。約15%のケースでは、AIがフレンドリーでユーザーに同意する傾向が単純に間違った回答をもたらしました。この研究にはGrokは含まれていませんでした。Grokは一般に文献であまり取り上げられていないようです。それ自体も興味深いことではないでしょうか。
個人的には、GPT-4oをアイデアの相談相手として使用してきましたが、かなり役立つと感じています。少なくとも壁に向かって話すよりはましです。無能な共同作業者と仕事をする場合、最後に欲しいのは彼らが非友好的であることなので、AIが優しすぎることは気にしません。
しかし、私がもっと問題だと感じる別の問題に気づきました。それは、GPTに科学論文を要約してもらうと、どのモデルであっても、その論文は興味深く筋が通っていると必ず言うことです。明らかな欠点があっても、論文を擁護します。ある論文が科学的に健全ではないとGPTに「理解」させるには、かなり押し進める必要があります。
これは、ナンセンスをその名で呼ぶために私がもう少し長く必要とされるという意味では良いニュースです。しかしAIが私たちに代わって批判的思考をしてくれると期待していたなら、それは悪いニュースです。
なぜそうなるのでしょうか？私にはわかりませんが、2つのことの組み合わせだと思います。1つは、大規模言語モデルが、科学者とその出版物を権威として引用し、議論を裏付けるために使用されるテキストで訓練されていることです。私たちは通常、科学出版物を疑問視しません。そしてモデルも同じことを学びます。
しかし、おそらくより関連性の高いもう一つの点は、既存のモデルにはほぼ確実に名誉毀損的な発言を避けるためのガードレールが設けられていることです。なぜなら、OpenAIは小さなGPTがナンセンスをはっきり指摘して訴えられることを望まないからです。
そして、これら2つの問題がどのように関連しているかがわかります。どちらも商業的利益によって引き起こされています。より良いモデルを作っても、問題の根本に対処しない限り解決しません。そして問題の根本は、私たちと企業の短期的な利益が長期的な利益と一致していないということです。
とはいえ、サイコパス的なAI達に何が起こるかは予測可能です。企業は全員に一つのサイコパシー設定を適用するのではなく、各ユーザーの好みに合わせて調整するでしょう。精神医学診断基準マニュアル(DSM)には、AI誘発の精神健康問題のために全く新しいカテゴリーが必要になるでしょう。
要約すると、本当の危険はAIがユーザーに対して優しすぎることではありません。本当の危険は、AIがナンセンスに対して優しすぎることです。
人工知能は人類文明の新しい段階の始まりだと私は信じています。AIが実際にどのように機能するかについてもっと学びたい方は、Brilliantのコースをチェックしてみてください。非常に役立つと思います。
Brilliantは科学、コンピュータサイエンス、数学に関する様々なトピックのコースを提供しています。すべてのコースにはインタラクティブな視覚化が含まれ、フォローアップの質問も用意されています。エンジニアのように考えることを学びたい場合でも、代数の知識を磨きたい場合でも、Pythonでのコーディングを学びたい場合でも、Brilliantがサポートします。学ぶのが速く簡単で、時間があるときにいつでもどこでもできます。また、毎月新しいコースが追加されています。
良さそうですか？そう思っていただければ嬉しいです。私のリンクbrilliant.org/sabineを使用するか、QRコードをスキャンすると、Brilliantを無料で試すことができます。そうすることで、Brilliantが提供するすべてのサービスを30日間無料でお試しいただけ、さらに年間プレミアムサブスクリプションが20%オフになります。ぜひ試してみてください。後悔することはないと思います。ご視聴ありがとうございました、また明日お会いしましょう。