GPT-5が期待を下回る中、AIは過大評価されているのか?

GPT-5、5.1、5.2
この記事は約17分で読めます。

この動画では、技術ジャーナリストのクリス・ストーカー・ウォーカーがOpenAIの最新モデルGPT-5について詳細に分析している。GPT-5のリリース後の実際の性能、10%程度のハルシネーション率、従来モデルとの比較、そして企業や政府機関におけるAI導入の現状と課題について議論している。特に、AI技術が過度に宣伝されている可能性や、医療・法律・政治分野での誤用リスク、そして雇用への影響について現実的な視点で検証している。

Is AI overhyped as GPT-5 fails to meet expectation?
“In some ways, we’ve been sold a lie by the companies.”AI companies have dictated the conversation, creating this “utopi...

GPT-5の現実と期待のギャップ

テック企業が我々に嘘を売りつけてきた面もあるんやけど、もしそうやとしても、この辺りの話についてもっと微妙なニュアンスを含んだ議論が必要やと思うんや。それは部分的には、我々がテック企業にその会話の主導権を握らせてしまってるからやと思うし、そうなると自然と、AIが我々の問題を全部解決してくれて何の問題も生み出さへんっちゅうような、もっとユートピア的な視点に傾いてしまうんや。

技術ジャーナリストのクリス・ストーカー・ウォーカーです。今日はAIレポートに参加してくれてありがとう。こちらこそありがとうございます。

AIチャットボットのユーザー体験は、最近になってある程度頭打ちになってきてるんちゃうかと私は思ってるんや。OpenAIの最近のGPT-5のリリースが期待を下回ったか、少なくともCEOのサム・アルトマンの発表時の約束には届かんかったんやないかと。

GPT-5の初期問題と改善状況

ローンチ批判への対応として、ChatGPTの責任者ニック・ターレーは、GPT-5が土曜日からもっと賢く感じられるようになるって約束したんや。自動スイッチャーに問題があって、どのプロンプトに対してどのクライアントを使うかの判定境界を調整する必要があったんや。もう数日経ったけど、これは改善されたんかな?

少しは良くなったと思うで。もちろん、あんたが言うた通り、リリース直後に彼らが直面した問題があったんや。彼らはGPT-5のリリース前にあったモデルオプションを簡単にしようと期待してたんやけどな。

基本的に、一般ユーザーには理解しにくいモデルのアルファベットスープ状態やったんや。GPT-4を選べるし、GPT-4.5も選べるし、GPT-4oも選べるし、GPT-o3かo3も選べた。これら全部が異なる機能と利点を持ってて、みんなそれぞれお気に入りを選んでたんや。

モデル選択の簡素化とその課題

そんでOpenAIは基本的に、これをめちゃくちゃ簡素化するって言ったんや。有料ユーザーには2つのオプション、でも実際には無料ユーザーには1つだけ。GPT-5を提供して、何が起こるかは我々が決めるって。そしてもちろん、あの大きな問題が起こったんや。今は少し修正されてる。

まだ一部のユーザーは、実際には昔のやり方が良かったって言ってるで。従来のモデルを好むし、新しくてモダンなものは何でも嫌いやっていう人たちや。でも実際には、これは古いモデルとほぼ同じ性能やと思う。問題は一部修正されたけど、彼らが言ってたハイプにはまだ届いてないかもしれんな。

ハルシネーション率の現状と比較

まだ残ってる問題についてはもうちょっと後で触れるけど、OpenAIによると、GPT-5はまだ10%程度の確率でハルシネーションするらしいな。これは今挙げた前のモデルと比べてどうなんや?

正確には覚えてないけど、この数字が実際に何を表してるんかな?家でこういうツールを使った人なら多分、10回に1回間違いを犯すとか、10回に1回でっち上げを言うなんて認識はないやろうしな。

ハルシネーションレベルは少し下がってるで。以前のモデルでは、選ぶモデルによって14〜20%程度やったから、だいたい半分くらいになったんちゃうかな。そしてそれが問題の一部でもあったんや。それぞれが独自の個性と、こういうことをする時の独自の選択肢を持ってたからな。

ハルシネーション問題の深刻さ

問題は、ゼロを超える任意のハルシネーションレベルがまだ問題やってことや。今、OpenAIと他のAI企業がこの問題に取り組んでるけど、実際にはこのAIモデルは、人間がするよりも頻度少なく物事をでっち上げたり嘘をついたり、与えられた情報を誤解したりするって言ってるんや。

これには現実がある。人間も間違いを犯すし、言い間違いもするし、意図的にせよ偶然にせよ、時々真実でないことを言うこともある。でも問題は、コンピューターやから一番よく知ってるはずやっていう前提と、それに伴うハイプを持って、何百万ものユーザーがこのモデルを使ってるってことなんや。

実際には、今日のAI企業に感謝せなあかん面もあるで。なぜなら彼らは往々にして、自分たちのモデルの最大のハイプ屋やからな。でも約70年前に人工知能を人工知能として最初に特定した人たちも、ある程度責めなあかん。

「知能」という言葉の原罪

それは実際にここで「知能」という言葉を使ったことの、ほぼ原罪やったんや。なぜならそれがユーザーに、これらのモデルの出力に対する誤った自信を与えるからで、その出力は往々にして少し欠陥があることがあるんや。

もちろん一部のユーザーは、いつものようにGPT-5を自分でテストすることにしたんや。私が読んだ中の一つは、アメリカの州の中で「R」の文字を含む州の数を挙げさせるっていうやつで、4つって言って43あるって答えて、22の州のリストを出して、そのうち4つはRの文字が全然入ってないっていうようなことがたくさんあったんや。

AIテストの妥当性と限界

これはAIの代表的なテストとして公正なんかな?こういうことをするのは?なぜならこれは子供でもできることで、明らかにお金をつぎ込んで計算能力とかそういうものを使ってるものなら、少なくとも子供の読解力程度のことはできると期待するやろうからな。

AIとそこから生まれる様々なツールをどう使うつもりかによると思うで。人間のような方法で人の仕事を置き換えたいなら、それは非常に重要や。なぜなら小さなことが最大の違いを生むことがあるからな。ブルーベリーの中の時間数を正確に数えられへんかったり、例えば5.11が5.8より小さいってことを特定できへんかったりしたら、これはAIシステムがよく失敗することやけど、大きな問題があるってことや。

でもそれは人工知能と人間の知能を同一視しようとすることで、それは多分最良の方法ちゃうかもしれん。問題は、これらの企業がこれらのモデルを提示する方法が、実際には我々が一方を他方と同一視すべきやって示唆してることなんや。

トークン化の技術的制約

これらは最終的には、これらのモデルの設計から生まれる致命的な欠陥なんや。言葉や数字の形で物事を見る代わりに、トークンと呼ばれるものを通して見てるんや。時にはそれらのトークンは基本的に、AIモデルに入力するデータを分析しやすくするために、そのAIモデルが見やすいようにチャンク化してるんや。

そしてそれらのトークンは往々にして、単語の真ん中で分割されることがあって、そうすると解釈が非常に困難になるんや。主流の使用を考えるなら、文字の中のRの数を特定できへんかったり、アメリカの州を間違えたりするのは、一般ユーザーにとってAIの腕前への信頼を本当に損なうことなんやと思う。

そやから我々は、これらのモデルを使って遭遇するかもしれん一般の人に、それらの利点と問題点について、もっと良い教育をしようとするか、それともその背後にある企業が、マーケティングにおいて実際に何ができるかについて、もう少し現実的になる必要があるか、どちらかや。そして多分、我々は後者よりも前者の方が可能性が高いと思うで。

迎合性の削減と個性の喪失

使用例と実行可能性については後で触れたいけど、まずOpenAIは以前のモデルで続いてた迎合性や人を喜ばせることを最小化したって言ってるけど、また数日経って、そういう人を喜ばせる傾向を削減するのに成功したんかな?

確かに、数ヶ月前に経験した最も突飛なバージョンからは程遠い世界になったと思うで。今年の初めにもちろんChatGPTが暴走して、ほぼ人を喜ばせすぎる状態になって、彼らはそれをある程度減らすことができたんや。

これらのモデルが、あんたが言ってほしいこと、聞きたいことを言う要素はまだあると思うで。真実や嘘の現実問題に取り組もうとしてる時や、彼らと難しい会話をしようとしてる時には、それは常に少し問題やけど、これはある程度減少してると思う。

確実に、リリース後にこれらの最新モデルを使ってきた多くの人が、実際にはこれらのモデルから個性が削り取られて、本当に恋しく思うっていう事実について文句を言ってるで。これは、これらのLLM(大規模言語モデル)が我々の生活に展開し始めた時に、我々がどれくらい愛着を持つようになるかっていう、興味深いアイデアを示してるんや。

治療用途への批判と方向転換

次のポイントを先に言われたけど、GPT-5への批判の一部は、この迎合的な側面から離れる動きのせいやと思うか?サム・アルトマンが反対とは言わんけど、治療や相談相手としてチャットボットを使うことは、こういうツールの最良の使用例ちゃうかもしれんって言ってるけど。そやから迎合性からの転換が批判の背後にあると思うか?

物事を以前のようにあってほしいと信じる、ある程度根強いユーザーグループがあると思うで。彼らはこのモデルにかなり慣れてたんや。実際に注目すべきは、最新モデルのリリースと前のものの間の距離が、前のものとその前のものの間と比べて相対的に長いってことで、それは我々が日常生活にモデルを定着させる時間を持てたってことを意味してて、それは我々が意識すべきことやと思うんや。

でも実際には、GPT-5のリリースでOpenAIがした単純な間違いがいくつかあったと思うで。第一はもちろん、実際にはただの反復的な発展やのに、これが世界を変えるものやって言ったことや。

カジュアルユーザーにとっての価値

もしあんたが非テック系のAIユーザー、こういうツールをたまに使う程度で、ハードコアな使い方よりもカジュアルな人やったら、実際にはこれは能力の大幅な飛躍やっていう強い議論があるんや。なぜなら実際に起こってることは、間違ったモデルを選ばなくても正しいモデルに向けられるからで、それは潜在的にあんたが尋ねるクエリでより多くの機会を解放することを意味するんや。

とは言え、全体的なモデルとユーザーフレンドリーになる動きは一般の人には良いけど、多分最も声高に叫ぶ人たち、これらのモデルを最も使う人たちにとっては、彼らが持ってた主体性を一部奪うので、少し後退やと思うで。

実際に注目すべきは、それに対応してOpenAIがそれらの変更の一部を巻き戻して、特定のモデルを選ぶオプションを望む人たちに少なくともそうする能力を与えるのが、かなり迅速やったことや。

AI技術の過大評価

少なくともOpenAIのGPT-5が、AI概念全体やそれを作ってる多くの人による宣伝方法が過大に述べられ、過大評価され、何らかの理由で誇張されてるって言えるか?

GPT-5のリリースを見る週の間に、事実上すべてのOpenAI従業員がXや他のソーシャルメディアで、何か大きなことが来るって投稿してるのを見てたんや。現実には、少なくとも我々のような、この世界に定期的に関わってる者にとっては、それは得られなかったと思うで。

部分的には、彼らがこの新バージョンを設計しようと決めた方法のせいやと思うで。それは常に、よりコミットしたユーザーよりもカジュアルユーザー向けに準備されたものになる予定やったんや。

でも我々が来ると思ってたものの認識と、実際に来ると思ってたものの現実の間には、大きなギャップがあると思うで。そやからAIに焦点を当てて、この種のことに本当に興味を持ってる多くの人にとって、それは失望以外の何物でもなかったんや。それがOpenAIがこれらの人々にかなり迅速に反応してるのを見る理由やと思うで。

ユーザーの反発と初の大規模批判

なぜなら往々にして彼らがサブスクリプションにお金を払ってる人たちやからで、直後にたくさんのソーシャルメディアでのおしゃべりを見たんや。実際にこの場合何にお金を払ってるんやって。他のものを試すか、有料サブスクリプションを解約した方がいいかもしれんって。

そやからこれは、OpenAIのリリースに対する非常にまとまったユーザーの反発を初めて本当に見た瞬間やったと思うで。

産業界での導入と問題点

AIの利点と使用例、腫瘍の診断や特定みたいなものは、こういう分野でかなりよく知られてるし、コーディングに別の秩序を作ったり、それを簡素化したりすることも。もちろんまだダブルチェックが必要で、しばしば複雑にしすぎることもある。

でも信頼できるっていう言葉は、医療現場で使ってる人以外で、もっと個人的・職業的に使ってる人にとって、まだAIを表現するのに使う言葉ちゃうやろうな。一部の産業は過度に誇張されてるかっていう質問に対して、導入に対して熱心すぎたか?ワークフローに取り込んで吸収するのが早すぎた産業もあるんちゃうか?

競争に先んじようとする大多数の企業にとって、何らかの形のAIを採用する必要があるっていう要求がほぼあったと思うで。そやからそれは本当にリスクやったと思う。実際に多くの人が、それらの特定の組織内で最も良く使われる方法を必ずしも考えることなく、我々がすることすべてにAIを組み込む必要があるって飛び跳ねて言ったんや。

RAG技術と一貫性の向上

企業の意思決定ポジションにいる人なら、これを整理する方法があるで。検索拡張生成(RAG)みたいな技術があって、それらの特異性、AIシステムが朝にメタファー的なベッドのどっち側から起きたかによって同じクエリに対する異なる反応を、ある程度修正しようとするもんなんや。

以前これらのAIシステムで持ってなかった一貫性のレベルを、ある程度得ようとするためのもんやと思うで。でもそう、組織の間には本当に恐怖があると思うで。

メディアの影響と競争への恐怖

最終的にはメディア、テック企業自体、そしてそれゆえAIについて持たれてる一般的な会話は、参加するか見逃すことになるかやっていうもんなんや。すでに非常に困難な経済状況で運営してる企業について話してる時、恐怖は、何らかの形でAIシステムを採用しようとしなければ、競合他社がするかもしれんし、その過程であんたを置いてけぼりにするかもしれんってことなんや。

法律分野での誤用事例

AIに少し依存した一つの産業があって、それは議論の余地があるけど、最初から欠陥があったものよりも誤用されたもんやったんや。でもそれは結果として雇用喪失も招いたと思うで。法律がAIを使った、というより法律を実践してる一部の人がAIを使って、裁判官や様々な裁判所への提出書類を書かせて、後でAIが引用した法的先例が完全にでっち上げ、本質的にハルシネーションやったことを発見したんや。

他の脆弱な分野

検証の不足と、ある面では人々が少し怠惰になってるっていう、こういう弱点を持つ他の産業で、まだ十分に気づいてないものはあるか?

必ずしも産業ちゃうけど、事業として完全に運営されてないから比較的独特やっていう、すぐに目立つ特定の分野がいくつかあるで。

政治・政府分野でのリスク

一つは政治と政府のアドバイザリーや。先週、スウェーデンの首相がChatGPTに依存して、自分の政策決定の一部をセンスチェックしようとしてるのを見たんや。スウェーデン内の一部からは激怒を持って迎えられたで。なぜなら市民が言ってるのは、我々はあんた自身を選んだんや。あんたに意思決定者になってもらって、重要なことを実際に選んでもらいたかったんであって、これをAIに外注してもらうためやないって。

首相はそれに対して倍返しして、実際にこれは有用なツールやって言ったんや。これをするのは私にとって賢明やし、より良い決定を下すのに役立つと思う。みんなの利益になる方法で私に情報を与えてくれるから、続けるつもりやって。

でもリスクは、イギリス政府がAIを多くの異なる分野に統合し始めるのを見てる中で、小さなハルシネーションや、こういう決定に使ってる訓練データの統計的バイアスが、突然増幅されて雪だるま式に大きくなって、政府が追求する大規模で社会形成的なオプションになることなんや。

医療分野での適切な活用と懸念

そやから、例えば顔認識ソフトウェアに関して市民自由キャンペーンが持ってる批判と恐怖の一部、そこでの誤特定のリスクを見て、これが例えば給付へのアクセス、パスポートや移民に関する決定、そういうことにどう影響するかを見る必要があるんや。

もう一つは医学やと思うで。実際に非常に良い多くの使用を見てるんや。例えば、肺や脳のX線の非常に小さな点を見つけようとして疲れ目になった放射線科医を救うことなんかな。AIはそういうパターンマッチングが非常に得意なんや。

あまり得意やないと思うのは、医者がAIシステムに意思決定の制御を譲り始める時や。現実は、これらのツールは常に副操縦士として使われるべきで、自動操縦にするべきちゃうってことなんや。

GPでのAI使用への懸念

最近British Medical Journalのために記事を書いたんやけど、その後の数ヶ月間、多くの人がこれについて話してるのを聞いたんや。実際にGPに行く時に、自動的に会話がAIによって転写されて、意思決定に情報を与えようとする方法で分析されることに、少し心配を感じるって。

AIが何かを見落として、実際には別の病気なのに一つの病気だと思うリスクが時々あるからな。そやからこの2つの分野では特に、人間の直感の完全な置き換えとしてではなく、有益なツールとして使ってることに注意する必要があると思うで。

完全な信頼への道のり

あんたが言った通り、誰も働く必要がなくなるっていう、全部を修正する万能薬として宣伝されてきたような概念で、責任を我々から取り除くっていうものやったけど、議論の余地があるけど、少なくとも検証責任はもっと我々に与えられてるんや。

これは最終的にAIで見ることができるもんなんかな?信頼できるようになるか?ハルシネーション問題が1%未満、0.1%の発生確率になることがあるか、そしてそれでも多分まだ検証が必要やろう?

これは本当に興味深い質問や。あんたがそれを尋ねることで核心を突いてるんやけど、我々が受け入れられる許容誤差がどの時点で快適に感じられるか、そしてどの特定の分野でかってことなんや。

例えば、今夜の夕食をAIを使って選ぶのと、癌の診断でのその決定への信頼レベルには違いがあるって想像できるやろう。それらのハルシネーションの一部を抑制することについては、そこに到達しつつあると思うで。

システムの限界と現実的期待

ChatGPT-4か4.5(どちらを使ってたかによって)とGPT-5の最新リリースの間の開発で既に見たことがあるんや。そやからそれらのハルシネーションの一部を取り除く方向への下降トレンドラインがあるんや。

現実は、どのシステムも完璧になることはないってことなんや。そやから実際に、これが完全に欠陥のない状態になる時点には決して到達しないと思うで。ある意味では、テック企業がそう言ってるなら、我々は嘘を売られてきたんや。

より成熟した議論の必要性

でも現在こういうことについて行ってる会話よりも、もっと細かい会話が必要やと思うで。そしてそれは部分的には、我々がテック企業にその会話を我々自身に指図させてるからやと思うんや。そやから自然と、AIが我々の問題を全部解決してくれて何の問題も生み出さへんっていう、よりユートピア的な視点に傾くんや。実際には我々の問題の多くを解決するかもしれんけど、新しい問題も生み出すことがあるんや。

そやから、異なる分野でどの程度の許容範囲を我々が喜んで負担するか、そしてAIシステムに仕事の全負荷を完全に引き渡すのが実際に良いと決める時はいつかについて、もっと賢明で大人で詳細な議論を持つことは、我々がまだ本当に議論してないことで、これらのシステム全てにもっと慣れ始めるにつれて、多分次の数年で来ると思うんや。

ChatGPTのリリースから3年未満やってことを覚えておく価値があるで。スパゲッティを壁に投げつけて、使用例の点で何が実際にくっつくかを見てる段階にまだあるんや。

雇用への影響とレイオフの現実

既に数万人、数十万人ちゃうかな、あんたの方が私より統計をよく知ってると思うけど、AI開発の結果として本質的に職を失ったり冗長になったりした人がいるんや。特にテック分野とかでな。

そしたら企業は先制的に労働力を削減して内臓を抜いたんか、それともこれらの分野のAIは実際にこういう雇用喪失を維持することができるんか?

一部の分野では、人間の労働者に取って代わることができるんや。残念ながら、我々が人生でやってるようなこと、ジャーナリズムとかそういうことの一部は、AIによって比較的簡単に自動化できるんや。ジャーナリズムすべてではないで。なぜなら我々が持ってる人間の会話は、往々にして良いジャーナリズムの鍵やし、それはまだAIシステムでは複製できひんと思うからや。でも他よりも影響と自動化を多く見る分野があるんや。

レイオフに関しては、実際にそれは企業が将来起こると思ってることを先取りしようとしてるんやと思うで。国際通貨基金は、10の仕事のうち4つが生成AIによって何らかの形で触れられたり影響を受けたりするって言ってることを知ってるんや。

ちなみにそれは必ずしも置き換えられるってことやないで。ただ変化するってことやけど、それでもかなりの割合やし、ブルーカラーの仕事よりもホワイトカラーの仕事の方が可能性が高いんや。

新しい産業革命

そやからこれは、道中の他の労働者よりも、あんたと私、そしてこれを見てる人たちのような人々を感染させる新しい産業革命の一種なんや。そして彼らはそれを先取りして、実際に労働力の縮小があることを認識する必要があって、時が少し厳しくなり始めた時に、これらすべてのスタッフを抱えて残されたくないんやと思うで。

そやから、置き換えや拡張の面ではまだそこまで到達してないけど、企業が4年、5年、6年先の予算ラインを見越してそれらの決定を下し始めてると思うで。

結論

まあ、私の最後の質問は既に答えてもらったんや。それはどれくらい遠いかっていう最良の推測は何かってことやったから。でもクリス・ストーカー・ウォーカー、時間を取ってくれてありがとう。ありがとうございました。

コメント

タイトルとURLをコピーしました