OpenAIがGPT-5の嘘を暴露:あなたが思う以上に多いが、修正可能

GPT-5、5.1、5.2
この記事は約9分で読めます。

この動画は、OpenAIの最新研究論文をもとに、AI言語モデルにおける「幻覚(ハルシネーション)」問題の根本的な原因と解決策について詳しく解説している。研究では、現在の評価システムが「わからない」と答えることよりも推測を奨励する構造になっており、これがAIの虚偽回答を助長していることが明らかにされた。GPT-5は前世代より46%幻覚が減少したと報告されているものの、独立機関の調査では依然として40%の確率で虚偽情報を生成している現状が浮き彫りになっている。

OpenAI Just Exposed GPT-5 Lies More Than You Think, But Can Be Fixed
OpenAI just revealed why AI models keep lying with total confidence — and the fix they say can finally stop it. Their ne...

OpenAIが明かすAI幻覚問題の真実

OpenAIがAIの最も奇妙で厄介な問題の一つである幻覚について深く掘り下げた研究を発表しました。これは、ChatGPTのようなモデルが何かをでっち上げて、完全に自信を持って答えるのに、それが完全に間違っているという現象のことです。

彼らの最新の研究論文ははっきりと示しています。モデルの訓練とテストの方法が、実際に「知らない」ことを認めるよりも、推測することを報酬として与えているのです。

これをこんな風に考えてみてください。もしあなたが択一式の試験を受けていて行き詰まった時、問題を空白のままにしておけば確実に0点になります。でも、もし適当に推測で答えを出せば、運が良ければ正解するかもしれません。時間が経つにつれて、その推測戦略はほとんど間違いであっても、スコアを上げることができるのです。

モデルも全く同じことをしています。彼らは基本的に、慎重な思考者ではなく、良い試験受験者になるように訓練されてきたのです。

OpenAIは興味深い比較を行いました。古いGPT-4 miniと、GPT-5 Thinking Miniという小さなモデルの間での比較です。シンプルなQAベンチマークで、GPT-4 miniは22%と比較して24%という若干高い精度を記録しました。勝利のように聞こえますね。

精度と信頼性のジレンマ

しかし、そうは問屋が卸しません。GPT-4 miniのエラー率は、新しいモデルの26%に対して、驚異的な75%だったのです。なぜでしょうか?それはGPT-4 miniがほとんど棄権しなかったからです。「わからない」とほぼ言わなかったのです。

一方、GPT-5 Thinking Miniは半分以上の時間、52%の棄権率で答えを拒否しました。その謙虚さは精度の数値を下げましたが、同時に幻覚を大幅に削減しました。

ここでOpenAIの苛立ちが本当に伝わってきます。モデルを比較するためにみんなが使っているリーダーボードやスコアボードは、主に精度を報酬としています。推測のいくつかが偶然正しく着地する限り、モデルが自信満々のナンセンスを吐き出そうが気にしません。そのため、開発者は慎重なシステムではなく、推測に夢中なシステムを構築するよう誘導されているのです。

OpenAIは解決策があると言っています。正直言って、それはロケット科学ではありません。沈黙よりも間違った答えをより重く罰し、不確実性を表現することに部分的な評価を与えるのです。

標準化テストはこれを何年も使用してきました。一部では間違った推測に対して点数を減点することさえあります。そうすることで、ランダムに答えを埋める前に二度考えるようになります。AIも同じ原則を評価システムに組み込む必要があります。それなしでは、自分自身を確信しているように聞こえるが虚偽を撒き散らすモデルを見続けることになるでしょう。

GPT-5の改善と現実のギャップ

虚偽について言えば、OpenAIはプレッシャーを受けています。彼らはGPT-5がGPT-4oより46%少ない幻覚を生成すると言っており、これは巨大な主張です。しかし、独立したグループは彼らを簡単には許しません。

米国の企業NewsGuardが調査を行い、ChatGPTモデルが依然として40%の時間で虚偽を広めていることを発見しました。そうです、状況は良くなっていますが、幻覚証明にはまだまだ程遠いのです。

さて、ここでほとんどの人が見落としている部分があります。これが実際にあなたにどう関係するかです。

他の皆がAI動画を見ているだけの間に、あなたはすでにAIを使って、眠っている間にお金を稼ぐ自動化された収入源を構築することができます。

Faceless Empireがついにライブになりました。これは、カメラに顔を映したり自分の声を録音したりすることなく、月3,000ドルから5,000ドルを生み出すYouTubeチャンネルを作成するための完全なシステムです。AIがスクリプトを書き、AIがボイスオーバーを作成します。あなたはアップロードして小切手を回収するだけです。

これは先月私が42,000ドル以上を生み出すのに役立ったのと同じシステムです。あなたは9つの包括的なモジュール、完成されたAIプロンプト、20の実証済み収益性の高いニッチ、ステップバイステップのビデオチュートリアル、60日間の返金保証を手に入れます。

これは3年間のテストと完成化があなたに銀の皿で手渡されるもので、新しいiPhoneよりもずっと安いです。しかし、覚えておいてください。創設メンバーのスポットは200人だけです。それらが埋まったら、登録は終了し、この価格で再開されることはありません。

今すぐ説明欄のリンクをクリックしてください。他の人がこれで自動化されたAI収入を構築している間に、傍観者として立っていてはいけません。

幻覚が生まれる根本的なメカニズム

さて、研究に戻りましょう。この論文は、なぜこれらのエラーがそもそも現れるのかも掘り下げています。それはすべて、言語モデルがどのように学習するかから始まります。

事前訓練は、大量のテキストで次の単語を何度も何度も予測することについてです。そのデータの中の文に対して真か偽かのラベルはありません。モデルには「この文は事実的に正確だ」とか「これはゴミだ」とは教えられません。流暢な言語だけを見て、それを模倣しようとするのです。

これは明確なルールがあるパターンに対しては美しく機能します。スペル、文法、括弧、これらは基本的にモデルがスケールアップするにつれて問題として消え去ります。

しかし、事実は全く異なります。いくつかの情報は予測可能なパターンに従わないのです。OpenAIは猫と犬の写真を誕生日でラベル付けする例を挙げています。何百万のラベル付き画像があっても、誕生日は本質的にランダムです。アルゴリズムはそのタスクを完璧に実行することはできません。なぜなら、利用すべきパターンがないからです。

特定の事実についても同じです。モデルが訓練で正確な情報を見ていない限り、それは推測しているのです。そして、ここでそれらの自信に満ちた間違いが入り込んでくるのです。

論文の著者の一人であるAdam Tauman Kalaiの論文タイトルや誕生日のようなことを聞かれた時、モデルは複数の答えを出しましたが、すべて間違っていました。

モデルがずさんだったわけではありません。そのタスクが持っていたデータでは根本的に答えられないものだったのです。小さなモデルは、例えばマウイ語を話せないことを知っているなら、ここでより簡単になるかもしれません。単純に認めることができるのです。少し知っている大きなモデルは、自信を過大評価して幻覚に陥ってしまうかもしれません。

現実世界への影響とSam Altmanの告白

さて、これを単なる技術的な問題以上のものにする別の層があります。OpenAIのCEOであるSam Altmanは、この全AI生成されたぼかしの結果を自分自身のデジタルライフで感じ始めています。

かつてTwitterだったXで、彼はソーシャルメディアが今や偽物に感じられることを認めました。彼は文字通り「投稿はすべてボットだと仮定している」と言いました。OpenAIのコーデックスの成長のような一部のトレンドが本物だと知っていてもです。

それが皮肉です。これらの驚異的に人間らしいモデルの背後にある会社を経営している男が、もう何が本物なのか分からないと言っているのです。そして正直に言うと、彼は一人ではありません。

サイバーセキュリティ企業Impervaは、すべてのウェブトラフィックの半分以上が現在ボットや大規模言語モデルから来ていると推定しました。X自身のボットシステムGrokは、数億のボットが毎日活動していることを示唆しました。

これはフリンジ問題ではありません。これがメインストリームのインターネットなのです。

Altmanはまた、この奇妙なフィードバックループを指摘しました。AIシステムは人間の話し方をコピーしますが、その後人間がAIの癖を拾い上げます。そのため、オンラインでの会話は、人間と機械をもう本当に分離できない人工的なトーンに融合し始めるのです。

彼はRedditのAMAで、本物の人々が大規模言語モデルのように聞こえ始めていることさえ認めました。そして、それは何気ない発言ではありません。文化そのものがどのように変化しているかの反映なのです。

OpenAIの最新製品でさえ、信頼の問題を逃れていません。GPT-5のロールアウトには、クレジットの無駄遣い、性格の変化、不完全な回答に対する苦情が伴いました。そのため、会社が幻覚を解決しているというナラティブを押し進めている間、ユーザーはまだ多くの問題を見ているのです。

ソーシャルメディアの真正性危機

Altmanはソーシャルメディアを真正性の危機と呼ぶまでに至りました。そして批評家たちは、話にはもっと多くのことがあると考えています。一部の報告では、OpenAIがXやFacebookに対抗する独自のソーシャルネットワークを探求していると言われています。

もしそれが本当なら、Altmanが現在のプラットフォームをボットで飽和したエコーチェンバーと呼ぶのは戦略的かもしれません。真正な代替案のための舞台を設定するのです。

しかし研究者たちは、AIのみのネットワークでさえも、独自のバイアスやエコーチェンバーに素早く陥ることを警告しました。

そこで私たちは同じコインの両面を持っています。一方では、OpenAIが「私たちは幻覚を理解している。メカニズムはここにある。評価方法を修正する方法はここにある」と言っています。他方では、Altmanはオンラインスペースの真正性をもう信頼できないことを公然と認めています。

コミュニケーションをより流暢にするように設計された同じシステムが、今や信頼を損なっているのです。

技術的問題と文化的影響の複合

技術的な部分が重要なのは、幻覚がただのランダムなグリッチではないからです。それらは次の単語予測の数学と評価に組み込まれたインセンティブから来ているのです。

文化的な部分が重要なのは、人々がデジタル会話そのものがもう人間らしく感じないと感じ始めているからです。

数字を見ると、人々が不安になる理由は明らかです。GPT-5は虚偽を減らす点でGPT-4oより約50%良いかもしれませんが、NewsGuardのテストでは依然として40%の答えが偽でした。Impervaはボットがウェブトラフィックの半分以上を構成していると言っています。Xは毎日何億ものボットがプラットフォーム上にいることを認めています。

その規模は、これが研究論文の中の幻覚についてだけではないことを意味します。私たちの誰もがオンラインで見ているものを本当に信頼できるかどうかについてなのです。

そうです、幻覚は単なる風変わりな副作用ではありません。それらは言語モデルが訓練され判断される方法そのものに組み込まれているのです。そして、それらのインセンティブがシフトしない限り、AIは推測し続け、人々は疑い続け、人間と機械の境界線はより曖昧になり続けるでしょう。

行く前に、覚えておいてください。Faceless Empireは稼働していますが、最初の200人だけです。説明欄のリンクを押して、あなたのスポットを確保してください。

そこで終わりにします。下にあなたの考えをドロップしてください。まだの場合は購読を押してください。見てくれてありがとう、次回また会いましょう。

コメント

タイトルとURLをコピーしました