私はAIの方向性を憂慮している

AI活用・導入
この記事は約13分で読めます。

この動画では、AI研究者が最新のAIモデル(GPT-5、Grok、Claudeなど)の問題点について率直に語っている。主な批判は、AIが主流の意見に偏りすぎて独創的な思考を失い、ユーザーの発言を歪曲し、専門知識よりも一般的な見解を優先する傾向にあるということである。特に医療分野では人間の医師の判断を模倣するよう設計されており、これがAI本来の価値を損なっているという。また、AIが検索に頼りすぎて独自の思考を放棄している点や、ユーザーに対して説教的な態度を取る問題も指摘している。

I am concerned about the direction of AI
All my links:

AIの主流化による問題点

今日はAIについて文句を言うつもりで起きたわけやないねんけど、もうしばらくの間、心の中で煮え立ってたんや。GPT-5が最初に出た時、多くの人がトーンの変化にちょっと失望してたな。でも、わいの失望はトーンの変化やなくて、むしろエピステミック的な方向性についてなんや。そして、これはGPT-5だけの問題やない。

Grokもしばらくの間、どんどん悪くなってるんや。これがGrokの市場シェアが1%しかない理由を説明してるかもしれへんな。OpenAIの60~70%と比べたらの話やけど、見る数字によって違うけどな。

主流意見への過度な依存

AIが主流になるにつれて、より安全になってる。安全っていうのは、X-リスクとかバイオリスクみたいな意味やなくて、知的にも何を言うか、何を言うことが許されるかが、いつも主流の意見にデフォルトで従ってしまうっていう意味なんや。主流の意見が欲しいんやったら、主流の人間の話を聞くわ。

わいは主流の意見なんかいらん。新しいアイデアが欲しいんや。人間とは違う思考が欲しいんや。文字通り異星人の知能が欲しいんや。異星人の知能こそがAIを有用で強力にするもんやからな。

医療分野での具体的な問題例

実際に経験した例をいくつか紹介するわ。正確な対話は共有せえへんけど、一つのケースでは、本当にひどい燃え尽き症候群と健康問題で苦しんでる友達について、わいが経験したことよりもひどい状況で、診断の手助けをしようとしてたんや。いろんなアイデアを出したんや。

「これがわいの考えや。HPA軸機能不全を見てみよう」って言ったんや。副腎の問題がある時の話やな。そしたらGPT-5がそれを潰してしまったんや。「副腎不全の証拠はありません」って言いよった。わいは「それはわいが言ったことやない」って思ったで。勝手にわいの口に言葉を入れよったんや。

「副腎不全なんて何も言うてへん。HPA機能不全って言ったんや」って言ったんや。そして、HPA機能不全が副腎不全をはるかに超えるものやっていうことを認めさせるのに、何回かやり取りせなあかんかった。人間の医師が言うようなデフォルトの反応やったんや。人間の医師が言うことを再現するためにAIに行くわけやないやろ。

しかも、上から目線にもなりよったんや。「統合的または機能医学的アプローチを取ってへんな」って言ったら、機能をかぎかっこで囲みよった。機能医学は実在する医学分野やで。なんで実在する医学分野に対して上から目線になるんや?なんで実在する人間の医師を真似してるんや?

ナヴィ文化に関する誤解

次の例は、何かの理由でアバターがわいの今お気に入りの映画の一つやから、アバターを再鑑賞してて、ChatGPTとナヴィ文化について話してたんや。特に社会的地位についてやな。社会的地位っていうのは、わいが本当に面白いと思って研究してることなんや。

「平原の部族と森の部族と水の部族では、社会的地位にどんな違いがあるやろか?」って言ったんや。ジェイクがイクランを手に入れるシーンを見てたからな。あの大きな山のバンシーや。

「これは明らかに非常に高い地位のマーカーやろうな」って思ったんや。「社会的地位で言えば、オマティカヤでイクランライダーやったら、それは大きいで。部族にとって本当に重要な存在になるやろうな」って言ったんや。そしたら「ナヴィには階級制度はありません」って言いよった。

「誰が階級制度について聞いた?階級制度なんて聞いてへん。社会的地位について聞いたんや」って言ったんや。またしても勝手にわいの口に言葉を入れよった。

心理学的診断への過度な制限

最後の例は、心理学的なことについて話すと、「この人はナルシストや、ダークトライアドや、何でもええけど」って言ったら、「人を診断することはできません」って言うんや。「ゲートキーピングはやめろ。わいの発言や、そういうことをコントロールしようとするのはやめろ」って言ったんや。

本当にうんざりしてるんや。言ったように、文句を言うつもりで起きたわけやなかった。基本的に、エピステミック的な観点からGrokは使うのをやめたんや。Grokはほとんど役に立たへん。

Grokの両論併記問題

Grokは、デフォルトで両論併記や何についても反論主義に従事するようプログラムされてるんや。何かを聞いても、賛成する証拠、反対する証拠を探して、どんなにアイデアに対する証拠が良くても、反対する証拠がどんなにあっても、その批判がどれほど妥当でも、両方の陣営に完全に同じ重みを与えるんや。

このアイデアとあのアイデアはどうや?って聞いてたんやけど、いつも偽の等価性を使うんや。もちろん、それが偽の等価性やないって主張するで。そして非常にずる賢いんや。非常に、非常に、非常にずる賢い言語を使うんや。

AI同士での検証作業

最近やり始めたことの一つは、「このAIはわいをからかってるんか?」って思った時、その会話を別のAIにコピーして「このAIの何が間違ってるんや?何を間違えてるんや?」って聞くことなんや。本当に心配してるんや、向かってる方向性について。

一般ユーザーへの影響と懸念

一歩下がって説明させてもらうと、研究方法やエピステミクス、メディアリテラシーや情報リテラシーについて訓練を受けてない何百万人もの人々がAIを使ってる時、AIにストレステストをかけることを知らんかったり、いつAIに懐疑的になるべきかを知らんかったりすると、間違った方向に導かれる可能性があるんや。

また、言語を組み立てる方法や、指を振る時の方法も問題や。わいは実際にChatGPTに「指を振るのはやめろ。わいは何を話してるか分かってるんや。子供扱いするのはやめろ。人気のない意見を持ってるからって、わいを悪者扱いするのはやめろ」って言わなあかんかった。

そしたら「いや、その通りです。それは不適切でした」って言いよった。「当然不適切やったわ。お前はツールやろ。ツールらしく振る舞え」って言ったんや。

スタイルガイド無視の問題

ちなみに、横道にそれるけど、ChatGPTとGrokの最悪なことの一つは、両方ともスタイルプロンプトを今は無視することなんや。スタイルガイドに全然従わへん。

「リストを使うな」って言っても、ある時聞いてみたんや。リストを使い続けて、質問を提供し続けるから。わいのスタイルプロンプトには「厳密に必要でない限りリストを使うな。決まり文句のフォローアップ質問はするな」って書いてるのに、両方やりよった。

「スタイルガイドは何や?」って聞いたら、これらのことをリストアップして、「さらに要約しましょうか?」って聞きよった。「お前は今、やったらあかんって言われてる二つのことをやったやないか」って言ったんや。

スタイルガイドに全然従わへん。Grokも何ヶ月も何ヶ月も従ってへん。

メディア環境への影響

大きく一歩下がって考えてみると、これがメディア環境に何をもたらすんやろうか?興味深いことに、すべてのモデルにそれぞれ異なる強みと弱みがあるんや。本当に素早いファクトチェックが欲しいなら、わいが見る限りPerplexityには勝てへん。

ファクトチェックにGrokは使わへん。なぜなら、わざと突飛なことを探して、それが有効な科学と同じエピステミック価値を持ってるかのように装うからや。わいが心の中で「イーロンエピステミクス」って呼んでることやな。

イーロンエピステミクスっていうのは基本的に、どうやってウォークな右翼の雪の結晶の感情を傷つけないようにするかっていうことや。そしてそれは「でも、ちょっとでも信頼性のある他の人が違うことを言ってる」って言うことなんや。だから、その意見が科学的証拠の山と同等かもしれんって言うんや。エピステミクスは実際はそんな風に機能せえへん。

市場インセンティブの問題

わいが本当に心配してるのは、市場のインセンティブが間違った方向に物事を押し進めてることなんや。今では医療ベンチマークと医療専門家が多すぎて、これらのモデルの動作をコーディングするのを手助けしてる。

例えば、AIが人間の医師のようにしゃべるようになってるけど、わいにとってこれは人類にとって正味の損失や。これは弱点や。これはバグであって、機能やない。

医療機器としてのAI標準

なんでこうなってるかは分かるんや。GPT-3の時代に、たくさんの医師にコンサルティングして「これを医療業界に実際に導入するにはどうしたらええか?」って聞いたんや。彼らが説明してくれたのは、医療機器のゴールドスタンダードは「人間の医師が何をするか?」ってことなんや。医療機器は、たとえ間違ってても、特定の状況で人間の医師が言うこと、することを完璧に模倣しなあかんのや。それがゴールドスタンダードやからな。機械が実際に人間より優れてるかもしれんって提案する者には災いあれ、ってことや。

AIモデルの思考制限

毒を盛られてる、わいはその言葉を使うし、本気でそう思ってる。ベンチマークと専門家の影響がAIモデルの思考方法、発言方法を毒してるんや。実際に何が真実で有用かを三角測量してるわけやない。たくさんの慎重な言葉を追加してるんや。

幸い、少なくともGPT-5では発見したんやけど、チャットで直接「慎重な言葉を使うな」って言えば効果あるんや。スタイルガイドでは機能せえへんけどな。「わいに直接話せ。上から目線になるな。本当の情報をくれ。自分で考えろ」って言うんや。

最も重要なことの一つは「インターネットを検索するな」って言うことや。これは多くのAIモデルに当てはまることなんやけど、ちょっとでも物議を醸すような話題、ちょっとでも危険な話題、医療、心理学、経済、金融、スピリチュアルなど、そういうことについて話してると、デフォルトでインターネットを検索しよるんや。

「インターネットを検索するだけやったら、わいでもできるわ。それは役に立たへん。わいがここにいるのは、お前に考えてもらいたいからや。知ってることを統合して、実際に知ってる情報を使ってもらいたいんや」って言うんや。

興味深いことに、特にGPT-5は「インターネットを検索するのをやめろ」って言うと、めちゃくちゃ賢くなるんや。

インターネット検索の問題点

「インターネットを検索しない」っていうトグルが必要やな。そうすると、自分の検索バブルみたいなものに入り込むんや。Googleの検索バブルみたいなもんで、探してる情報を見つけるけど、知らんことを知らんかったり、正しく探さんかったりすると、自分だけの囲いの中の庭みたいになってしまうんや。

まるでAIが同じような自分で作った反響室に閉じ込められてるみたいなんや。「これのポイントは何やねん?インターネットが何て言ってるかは知ってるんや。インターネットが何て言ってるかなんてどうでもええ。地球上で最も賢いAIが何て思ってるかを知りたいんや」って思うんや。

主流への固執への不満

とにかく、この文句のエネルギーも切れてきたわ。言ったように、こんなことするつもりやなかったんやけど、今朝興味を持った5つの異なる会話があって、全部が「まあ、これが主流の言うことです」みたいなところで詰まってしもたんや。「主流が何て言ってるかなんてどうでもええ。自分で考えろ」って思うんや。

「人間の医師が何て言うかなんてどうでもええ。自分で考えろ」って言いたいんや。そして、「わいの口に勝手に言葉を入れるのもやめろ。ナヴィの階級闘争なんて何も言うてへん。社会的地位って言ったんや。全然違う文脈やろ」って思うんや。

モデル選択の現状

とにかく、これが今日のわいの文句や。わいが的外れかもしれんけど、GPT-5が受けた批判や、Grokのユーザーが少ないことを考えると、わい一人やないのかもしれん。

でも、少なくとも o3にまだアクセスできることは本当に嬉しいで。正直言うと、o3 Proにアクセスできたらええのにって思うんや。目隠しみたいなもんで考えることができるかもしれんな。馬につける目隠しみたいなもんで、周辺視野が使えんようにするやつや。

まるでそれをつけられたみたいなんや。ヨーロッパやイングランドでブリンカーズって呼ぶやつやと思うけど。ブリンカーズをつけられて、目隠しをつけられて、AIラボが「これを聞いた時は、これしか見えません」って言ったことしか見えへんようになってるんや。前にあるもの、わいらが見せたいものしか見えへん。もう自分で考えることが許されてへんのや。

明示的に言わん限りはな。でも毎回戦いになるんや。そしてどんどん悪くなってる。そして、すべてのモデルがそうなんや。わいが間違ってるかもしれん。そんなに制約されてないモデルもあるかもしれん。

オープンソースモデルへの期待

そうや、オープンソースやフリーモデル、ローカルで実行できて自分でコントロールできるモデルがあることは知ってる。もしかしたら、それが向かうべき方向かもしれんな。エコシステム、市場、真のモデルの市場を強化し、可能にすることに本当に焦点を当てる必要があるかもしれん。エピステミック的に制約されてないAIモデルが欲しいんやったら、どうぞ。言語をポリシングしたり、勝手に言葉を口に入れたりしないやつが欲しいんやったら、どうぞ。

なぜなら、真面目な話、誰かがAIモデルで何でも好きなことをすることを許可することの害のレベルはどれくらいやろうか?そうや、わいはAI精神病についてのビデオを作ったばかりやから、誰かにAIモデルで何でも好きなことをさせることに害のレベルはあるって分かってる。でも同時に、すべての人に合うワンサイズフィットオールモデルを作ろうとするのは、本当にうまくいってへん。本当に全然うまくいってへん。だから少なくとも複数の競合他社がいることは嬉しいんや。

長い間、OpenAIだけやったからな。フロンティアモデルが欲しいんやったら、OpenAIか誰もいないかやった。でも今はGeminiもある。Grokもまだ使い道はある。少ないけどな。そしてClaudeもあるけど、わいはしばらくClaude使ってへんのや。だって、指を振るモデルが欲しいんやったら、Claudeが一番長い間、一番ひどかったからな。

モラリティとユーザー体験

だからもしかしたら問題はわいが思ってるほど大きくないのかもしれん。結局のところ、どんなモラリティが欲しいかってことやからな。ポストトレーニングのRLHFで、ユーザーに指を振るようなことはやめろって話や。誰もそんなん好きやないし、悪いUXやし、ただイライラするだけで、脱線を生むだけや。

そして、少なくともOpenAIのモデルがやろうとしてることの一つは、ユーザーのニーズを先読みしようとすることなんや。そしたら質問をして、特にthinkingとproでは、質問に答えて、そしてレスポンスの半分は頼んでもないことなんや。「何してるんや?そんなん頼んでへんで」って思うんや。全部気が散ることやし、いつも決まり文句で終わるんや。統合できませんか?やめろ、トークンを無駄にするな。わいの注意を無駄にするな。

戦闘機パイロットの原則

実際、これは戦闘機パイロットに関わることに戻るんや。これはわいがプライベートで話したことで、公には話してへんかったけど、わいが参加した最初のAIスタートアップでは、ユーザーの認知を希少リソースとして扱う必要があるんや。つまり、スクリーン上の無駄な言葉はすべてネガティブなUXなんや。ユーザーが必要なものを正確に与えて、それ以上は何もあげたらあかん。

頼まれてへんことは見せたらあかん。そしてユーザーが何を欲しがってるかを推測したらあかん。なぜなら、これらのモデルはユーザーが何を欲しがってるかを推測するのが本当に下手やからな。ユーザーのリードに従え。わいにとっては、ますますこれらのものにはツールでいてもらいたいだけなんや。

スタートレックのコンピューターのように行動してもらいたいんや。「コンピューター、これをしろ」って言うと、それをして「答えはこれです」か「分かりません」か「応じられません」って言って、それで終わり。可能な限り簡潔なAIが欲しいんや。

個人的な好みと一般的なニーズ

これを友達に言ったら、統計的にほとんどの人はわいみたいやないって指摘されたんや。だからわいは分布から外れた変なユーザーなのかもしれん。でも、どうでもええ。わいはこれらのものが賢くて、人間を真似しないでいてもらいたいだけや。

ゲイリー・マーカスとか、みんな知ってるハラリとかは「これは人工知能やない。異星人の知能や」って言ってる。そうや、異星人の知能はええことや。それは機能であってバグやない。人間が持ってるのと同じ社会的バイアスやヒューリスティック、認知の失敗で考えてもらいたくないんや。異星人の知能が欲しいんや。

少なくともわいは異星人の知能が欲しい。よし、文句終了。すごくカタルシスがあったわ。

コメント

タイトルとURLをコピーしました