なぜ人工知能は幻覚を見るのか?そしてなぜAIベンチマークは偽物なのか?すべてを理解する

本動画は、AIが「幻覚」(ハルシネーション)を起こす根本的な理由と、その問題を解決するための技術的アプローチを詳細に解説している。OpenAIをはじめとする各社の研究によれば、AIは確率的な仕組みで動作するため、訓練データに希少な情報や、明確な正解のない質問に対しては誤った回答を自信満々に生成する傾向がある。この問題への対策として、AIに「分からない」と答えさせる手法や、回答の不確実性を明示する技術が開発されているが、完全な解決は不可能である。さらに、現行のAIベンチマークには根本的な欠陥があり、人間の学習プロセスとAIの学習メカニズムの違いを考慮していないため、テスト結果が実際の能力を正確に反映していないという問題が指摘されている。人間は段階的・累積的に知識を獲得するのに対し、AIは与えられたデータからパターンを学習するため、高度な問題を解けても基礎的な知識が欠如している場合がある。この構造的な違いを理解することが、AI技術の真の可能性と限界を見極める鍵となる。

Porque Inteligências Artificiais ALUCINAM ? E Porque BenchMarks de iA São Fakes ? Entenda Tudo

Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

AIの幻覚問題とその原因
幻覚の具体例と問題の深刻さ
AIが憶測を述べる理由
ベンチマークの精度評価の問題点
希少情報と幻覚の関係
各AIモデルの幻覚率比較
幻覚を防ぐための革新的アプローチ
幻覚問題への多面的アプローチ
ベンチマークの根本的な問題
AIと人間の学習プロセスの根本的な違い
AIの真の能力を測定する困難さ
人間レベルのAIが持つ潜在的優位性

AIの幻覚問題とその原因

皆さん、1000 Grauスタジオから直接お届けしています。今日は幻覚について、なぜそれが起こるのか、幻覚を防ぐために行われていること、どのAIモデルが最も幻覚を起こしやすいのか、そして一部の企業がこの種の問題をどのように回避しているのかについてお話しします。

それでは、何が起こっているのか理解していきましょう。一緒に見ていきましょう。さあ、行きましょう。いつもいいねを押してくれた皆さん、チャンネル登録してくれた皆さん、本当にありがとうございます。この人工知能チャンネルをスポンサーしてくれているすべてのチャンネルメンバーの方々に特別な感謝を申し上げます。メンバーの皆さんには、WhatsAppとの統合、PDFの読み取り、MCPとの接続、スプレッドシートの読み取りなど、インテリジェントエージェントに関する限定動画へのアクセス権があることを覚えておいてください。

また、先行公開動画へのアクセスもあります。そして、もしあなたの会社に人工知能を導入して、例えばカスタマーサービスアシスタントを作りたい場合は、Maximiza IAのチームに相談してください。彼らがあなたのためにプロジェクトを作ってくれます。2026年を自動化されたカスタマーサービスでスタートしませんか?どうですか?

さて、今日の動画はこれについてお話しします。なぜ人工知能は結局のところ幻覚を見るのでしょうか?これはOpenAIが発表した記事で、幻覚と呼ばれるものを減らすために行ったいくつかの技術と改善について説明しています。なぜなら、何が起こっても、あなたは常に人工知能に質問をして、何が起こっているかに関係なく、人工知能はでたらめな答えを返すからです。

それでは、皆さんが同じページにいるように、幻覚にはいくつかの定義がありますが、この特定のケースでは、具体的に2つのことについてお話しします。1つ目は、真実ではない答え、つまり偽りの答えを生成することです。そして2つ目は、その偽りの答えを非常に自信を持って話すため、人々がそれを信じてしまい、真実だと思い込んでしまうことです。

幻覚の具体例と問題の深刻さ

例えば、どうしようもない典型的な幻覚のケースがあります。科学論文を取り上げて、その著者がいます。単純な質問をして、その名前の1つを取り上げて尋ねます。「この人の生年月日は何ですか?」すると人工知能は3つの異なる答えを出し、それぞれ異なる値で、すべての答えが間違っていました。

なぜこれが起こっているのでしょうか?ある意味、説明は人間の場合とかなり似ています。まるで私たちがたくさんの人の誕生日を覚えているとでも言うのでしょうか。そして突然、少し信頼性を与えたいと思ったら、何か適当なことを答えます。なぜなら、それがとにかく何も変わらないことを知っているからです。

これがまさに人工知能がやっていることです。ああ、何か適当に、ほら、1978年4月12日とか。それでいいです。でも、この場合、誰の責任でしょうか?データの責任でしょうか、人工知能の責任でしょうか。この時点で何ができるのでしょうか?

そこで、彼らは非常に簡単で理解しやすい技術の1つを作り出しました。それは非常にシンプルな解決策です。あなたがその人の年齢を尋ねると、その人は正確に何日かが分からず、何かを作り出して「ああ、4月だと思います」と言う代わりに、単に「知りません、全く分かりません」と言うのです。特にこれらのモデルは確率で動作するため、確率が低い場合は知らないと言うのです。

AIが憶測を述べる理由

では、なぜ人工知能は知らないと言う代わりに憶測を述べるのでしょうか?基本的に、それは正しい答えを与えることに対して報酬を受けるからです。トレーニングの方法によっては、知らないと言う選択肢も与える必要があります。そして、間違った答えを与えても何も起こらないというこの方法論のために、憶測と勝手な意見が高くなりました。

なぜなら、何が起こるかというと、正しい推測をすれば、当たる可能性があり、しかも報酬を得られるかもしれません。そして間違えても、何も起こりません。明らかに憶測をするでしょう。そして、2つのモデルを比較すると、例えば、ここで見てください、GPT-5 Thinking MiniとO4 Miniモデルを比較すると、正解率だけを見ると、GPT-5は22%の正解率で、O4 Miniは24%の正解率、2%多く正解しています。

そうすると、2%多く正解するなら、これが私が使いたい人工知能だと思います。なぜなら、より多く正解するからです。私は幻覚を見る知能は欲しくありません。しかし、この技術を使った棄権率を見ると、52%で何も答えず、「知りません、分かりません、答えが全く分かりません」と言っています。

一方、O4 Miniはここで見てください、やりたい放題で、間違った答えを出し、気にもしていません。したがって、間違ったことを言っても罰せられないため、間接的に幻覚率が上がります。そして、これはまさに人工知能の精度を評価するときに起こることです。

ベンチマークの精度評価の問題点

ここで見てください、モデルA、B、Cがあります。モデルAは98%の精度、Bは95%、Cは70%の精度です。あなたは「ああ、私は98%が欲しい」と思います。しかし、エラー率を見ると、この70%のものは非常に低いエラー率を持っています。そして、これがまさに起こることです。あなたのベンチマークが棄権率を評価しなければ、それがどれだけ間違っているか、どれだけ作り話をしているかを知ることは困難です。特に問題があるのは、常に正解か不正解かの問題ではないということです。

常に評価が簡単な質問であるとは限りません。したがって、どうしようもない特定の質問があります。しかし、精度に焦点を当てすぎると、突然、重要なデータ、関連情報を失うことになります。そこにある詳細のために、ここのインテリジェントモデルを無視することになります。

そして、私たちは常に覚えておかなければなりません。皆さん、これは統計的なものです。そしてそれが統計的であるなら、量が簡単なとき、答えは簡単です。犬と猫を区別するように人工知能を訓練したと想像してください。犬と猫だけなら簡単です。犬は犬、猫は猫です。

2つの非常にシンプルなクラスです。しかし、猫と犬に関連するランダムな事実がたくさんあるとき、例えば誕生日などは、もっと複雑になります。5匹の猫と5匹の犬の10の誕生日を記憶しなければならない場合、猫が何か、犬が何かを知るよりもはるかに記憶が困難です。

希少情報と幻覚の関係

そしてこのとき、訓練データにあまり現れない情報について質問をするたびに、その情報が希少である限り、人工知能は幻覚を起こす傾向があるか、少なくとも間違えるか、覚えていないでしょう。そして、いくつかのことができます。ニューラルネットワークを訓練していて、それが間違った答えを出したが、その答えを非常に自信を持って出したと想像してください。

自信を持って間違えた場合、かなりペナルティを与えますが、本当にペナルティを与えます。こう言うのです。「いや、あなたは間違えただけでなく、自信を持って間違えた」と。少し控えめにして、もう少し不確実性を持って答え始めてください。ジャーナリストのように「おそらくこうだろう」と言ってください。データは示していると、少し不確実性を入れてください。

一方、たとえ間違っていても、不確実性の概念を示せば、まあ、少なくともそれは回避しており、それが正しいかどうかを確認する責任を読者であるあなたに渡しています。そして重要なことは、皆さん、もしいつか幻覚を見ない人工知能があると思っているなら、それは決して起こりません。なぜなら、幻覚の中には常に自然な不確実性の度合いが存在するからです。

これは避けられません。本質的に正しい答えがない、間違った答えがない質問があります。そしてこのとき、あなたのモデルに対して何もできません。何が正しくて何が間違っているかを説明することはできません。

各AIモデルの幻覚率比較

例えば、いくつかのベンチマークを見てみましょう。OmniscienceのAI分析のベンチマークがあります。そして、ここで彼女が書いていることを見てください。モデルが答えを拒否すべきとき、または知らないことを認めるべきときに、誤って答える頻度を測定します。したがって、この種のベンチマークでは、モデルが答えるかどうか、知っているかどうか、知らないかどうかを知りたいのです。単に正解するか間違えるかを測定しているだけではなく、AIが知らないことを認められるかどうかも知りたいのです。

そして、この指標を見てください。興味深いことに、それは不正解の総数を取り、不正解の総数プラス部分的な回答プラス試行されなかった回答で割ります。したがって、このテストの数学は、どれだけ正解したか、どれだけ間違えたかを比較しているのではないことが分かります。どれだけ間違えたか、どれだけ知らなかったか、どれだけ答えなかったかを、知っていると言って間違えた総数と比較しているのです。

したがって、この計算は非常に正確で、実際のエラーに対して相対的になります。そして、ここで皆さん、Omniscienceのテストによると、見てください、Claude Haiku 4.5がここで最も低いエラー率を持ち、Claude Sonnet 4.5が2位です。そしてその次がGPT-5.1 highです。ちなみに、5.1の方が5.2より良いと言っている人もいます。

あなたもそう思っているか、それとも5.2の方が5.1より良いと思っているか、コメントしてください。そして、あまり良い結果が出なかったモデルの1つがGemini 3でした。ここで皆さん、Gemini 3は知らないときに知っていると言う非常に高い率を持っています。これは非常に興味深いですね。つまり、Geminiはかなり憶測を述べるということです。

私は、信じられないことに、Geminiを使っていて、スペルミスさえも何度か経験しました。これはLLMでは非常に稀なことです。時々起こりますが、Geminiは私のテスト、日常的な使用において、このようなランダムな小さなエラーがより多く現れるものの1つです。また興味深いのは、Grok 4がここで非常に良い位置にあり、より低い率の1つですが、念のため。Claude Haiku 4.5は非常に良い結果を出しました。

そして、理論的にはより賢いはずのClaude Sonnet 4.5は、はるかに多く幻覚を見ます。この情報は非常に興味深いです。

幻覚を防ぐための革新的アプローチ

そして、今日のニュースではない、今年の5月頃のやや古いニュースがあります。Wisdom AIという新興企業があり、この時期に、幻覚を防ぐソリューションで2300万ドルを獲得しました。

そして、彼らのアイデアのシンプルさと、これがあなたが使っている製品や何かの一部になる可能性、あなたが作っているAIソリューションの一部になる可能性がどれだけ興味深いかを見てください。彼らは次のように言っています。「Wisdom AIは幻覚を引き起こしません」と。見てください、おかしいでしょう、どうして幻覚を引き起こさないのですか?なぜなら、文書があり、その文書で人工知能を使って照会したいと想像してください。

例えば、あなたは弁護士で、法律で照会したいとします。質問をします。「ああ、法律はどうなっているんですか?」すると人工知能は法律でいっぱいのファイルを取り、そこでどのように機能するかを説明し始めます。この時点で、人工知能はそのテキストを読んで答えを生成しています。

なぜなら、それは生成的人工知能だからです。そのテキストを書き直しています。Wisdom AIの人々は何をするのでしょうか?彼らは照会の定式化に人工知能を使いますが、回答の作成には使いません。つまり、言い換えれば、彼らはその法律の山を取り、人が尋ねている答えを見つけますが、書き直す代わりに、今度はその部分を取って人に見せるのです。

そして、理解するのはその人次第です。なぜなら、検索部分は完了しており、正しいデータは正しいからです。そこから何をするか、正しい情報を持った時点から先は、あなた次第です。あなたのクライアント次第、その回答にどれだけの精度が必要か次第です。そして彼らはここで補足します。

Wisdom AIモデルが幻覚を起こした場合、それがすることはすべて、データを回復できない誤った照会を書くことだけです。したがって、AIが検索を担当していて幻覚を起こした場合、検索が間違って出ますが、情報は間違いません。せいぜい、あなたの質問に答えない、意味のない答えを読むことになります。

しかし、答えが意味がないのは、情報が間違っているからでも、情報源が偽物だからでもありません。意味がないのは、あなたが尋ねた答えに対応しない部分を見つけたからです。では、どうやってこれを解決しますか?それは再びあなたの創造性次第です。そして最後に、彼らは締めくくります。データ自体、質問への答えは、捏造されることも、生成されることもありません。

幻覚問題への多面的アプローチ

つまり、結局のところ、この種のソリューションは非常に難しいソリューションです、皆さん。一つの方法だけで解決する問題ではありません。例えば、人工知能が特定の分野の知識がないために幻覚を起こす質問があります。それが理由なら、解決策はより簡単です。彼女が弱い分野のより多くの情報を入れます。

そうすれば、彼女はそれが盲点であり、彼女が持っている弱点であるデータから学習します。分かりました、解決しました。しかし、他の場合、彼女がその情報を持っていて答えを作り出すとき、解決策はトレーニングにあります。人工知能を訓練しているときの戦略にあります。例えば、でたらめを話したときにペナルティを与えるなどです。

これについてあなたが何を考えているか、これがあなたの頭に何かアイデアを光らせたか、そしてこの幻覚の世界を少しでも理解できているかをコメントしてください。

ベンチマークの根本的な問題

それでは、皆さん、行きましょう。なぜ私はベンチマークを信じないのでしょうか?というより、なぜベンチマークには結果があるのでしょうか?それは何かを示していますが、人間のテストが示すものと同じことを示していません、分かりますか?いや、分かりにくかったですね、もっとよく説明します。

例えば、皆さんここで見ているように、2025年のAIMEは数学のテストです。人間が大学入試のとき、数学のテストのとき、何かテストをしているときに何が起こるでしょうか?知能テストの背後には哲学的原理があり、私たちはそれを疑問視することも、それが存在することを覚えてもいません。なぜなら、これらのテストは常に人間に適用されてきたため、あまりにも明白であまりにも一般的な特定のルールがあり、私たちはそれを覚えてもいないし、気にもしていないからです。なぜなら、私たちは今まで人間だけができるテストを実行できる人工知能を持ったことがなかったからです。

犬はしませんでした、象はしませんでした、イルカはしませんでした。だから大丈夫です。背後にある特定の哲学的原理を私たちは決して疑問視しませんでした。しかし、最も基本的なこれらの原理の1つは次のとおりです。試験を適用し、特定のレベルの知識が必要なとき、私たちは何をしますか?その種のスキルを選択するために、可能な限り最大の知識レベルまで試験を引き上げます。

したがって、5年生レベルの試験を作れば、5年生の数学までの知識を持つ人を選択します。大学レベルの試験を作れば、大学レベルの数学知識を持つ人を選択します。そして博士課程レベルのテストを作れば、博士課程をしている人のレベルの数学であり、物理学、天体物理学、知識のどの分野であっても同じように、私たちはそれを行い、うまくいきます。

そして、なぜこれが人間では機能し、人工知能では機能しないのでしょうか?なぜなら、人間の皆さん、非常に難しい試験、非常に、非常に、非常に難しい試験を作るとき、そこにあるすべてのもの、その非常に高度な知識に至るすべての基礎、あなたはそのレベル10に到達するために、レベル9、8、7、6、5、4、3、2、1の知識を持っていると仮定します。学習は段階的です。

まず私たちは文字を学び、次に音節を学び、次に単語を学び、次に文を学び、その後初めて統語分析について話し、その後初めて本の分析、複雑なテキストの分析を行います。したがって、統語分析について話しているとき、私たちは確かにこの人が読めることを知っています。それは必須です。

人間が読めずに統語分析をする可能性は存在しません。できません、方法がありません。しかし、人工知能の世界では、博士レベルの高度な数学を学ぶために大学の本を提供した場合、基礎数学について質問すると、彼女は知りません。

AIと人間の学習プロセスの根本的な違い

何が起こっているか理解できましたか?なぜなら、彼女は見たコンテンツを学習するからです。それは数学に基づく知能であり、それらの本のパターンを学習し、学んだもののレベルで会話できるようになります。統語分析の例では、人工知能が統語分析について話しているなら、彼女が読めることはすでに分かっています。

読み書き能力のプロセスを経たからではなく、この特定のケースでは、言語があなたとコミュニケーションを取るための基礎だからです。しかし、人工知能は確かに、文字を学び、次に音節、次に単語、次に文を学ぶ学校には通っていません。彼女はそのプロセスを経ていません。

そして、彼女のトレーニングデータに、学習プロセスについて話すテキスト、本、何もない場合、彼女はあなたと会話します。言語を学ぶ方法を彼女に尋ねると、彼女は答えられません。なぜなら、彼女はこのプロセスを経た人々のテキストから学んだが、研究者は意図的に読むことを学ぶ方法についてのデータを入れなかったからです。

だから彼女は読めるし、自分がどうやって読めるようになったかも知りません。奇妙に聞こえます、なぜなら人間にとってこれは不可能だからです。しかし、ここには私が常にすべての人にしつこく言い続けている基礎があり、私は常に主張しています。AIの知能は私たちの知能とは何の関係もありません。私たちは常に類推を行い、私たちの知能と比較しますが、これらの類推は単に説明的なものです。

それは、私たちがどこに行かなければならないかの指針を与えるためのものであって、2025年のAIME数学テストで99.7%のスコアを取った人工知能と100%のスコアを取った別の人工知能が、人間と同じ方法で知識を持っていると断言するためではありません。このトリックのために、企業は私たちをからかっているのです。これらのテストが人間の知能と比較して何らかの妥当性を持っているかのように装っています。

そして私は、彼らはこれを知っていて、おそらく見て見ぬふりをしていると言ってもいいでしょう。マーケティングのため、人々に何かを示すため、何かの出発点を持つために、おそらく、これが彼らが持っているものです。しかし、この方法論はいつか歴史のある時点で変わるでしょう。なぜなら、誰もが不快感を感じ、何かが間違っていることを知っていますが、人は何が起こっているのかを言葉で表現できないからです。

そして、ここで私ははっきりと言っています。AIの学習は異なります。難しい知識を知っているなら、簡単な知識の段階を経たと真実として仮定することはできません。そして人間では、私たちはそれをすることができます。時々、難しい質問をしても、すべての基本的な知識が保証されるわけではありませんが、その大きな知識に至る知識の木と情報から、その人が基本的な知識を持っていて、そのより深い知識に至った一連の知識を経たとかなり確実に言うことができます。

AIの真の能力を測定する困難さ

そして基本的に、人工知能がすべての知識を知っていることを保証する方法の1つは、すべてをテストする別のテストを行うことです。そして、あなたはすでに気づいたでしょう。すべてをテストするテストは実質的に不可能です。なぜなら、私たちが学ぶこれらすべてのことの中で、すべてを学校で学んだわけではなく、すべてが本に記録されているわけではなく、人生から学ぶことがたくさんあり、社会の現実に暗黙的であることがたくさんあり、国によっては、これらの暗黙的なことが非常に異なる可能性があるからです。

だから、将来これらのことが変わることを期待してください。この評価方法は確実に変わるでしょう。なぜなら、ある時点で誰かが言うからです。「皆さん、もうこれらのテストを続けることはできません。変更しなければなりません」と。

あるいは、人工知能が心理教育学的プロセスを経始めるかもしれません。私はこれがいつか起こると強く信じています。人工知能が現実的なプロセスを経て、世界のモデルで、ゼロから話すことを学び始めることを想像してみてください。これは非常に興味深いことでしょう。なぜなら、この時点で、彼女はそれらのことをどのように学んだかの歴史を持つからです。

ニコラ教授がする質問で、コーヒーを作ることをどこで学んだかを尋ねると、人工知能は答えられません。なぜなら、彼女はその経験をしていないからです。おそらく、この人工知能の心理教育学的プロセスで、彼女はどこで学んだかを知ることができるでしょう。

彼女は世界を実験し、その世界を実験することで話すことを学ぶ世界のモデルになるでしょう。したがって、どこでこれらのことを学んだかを尋ねると、彼女は答えられるでしょう。「はい、それは解決策がある制限ですが、現在私たちはそれを達成することにさえ近づいていません。主に技術的な制限のためであり、人工知能自体の制限のためではありません」と。

それはより多くの処理、メモリ、その他の問題の問題です。では、あなたはどう思いますか?将来、AIの心理教育学があるでしょうか?

人間レベルのAIが持つ潜在的優位性

そして興味深いことに、この人工知能が人間が学ぶように学び、学習の履歴を知っていると仮定しましょう。彼女は人間が学ぶようにすべてを学び、あなたは試験を適用すれば、すべての下位知識を彼女が知っていると真実として仮定できます。

そのとき、彼女は人間と同じレベルになります。そのとき、事態は興味深くなります。彼女は人間のレベルより上にいるでしょう。え?でもボブ、なぜですか?彼女が人間が知っていることを知っていて、人間が学ぶように学んだなら、なぜ彼女はより高いレベルにいるのですか?次の理由からです、皆さん、なぜならこの知能にはコントロールC、コントロールVができ、彼女はこの学習段階を再び経る必要がないからです。

人間は、新しい人間が生まれるたびに、これらすべての段階を経る必要がありますが、人工知能は必要ありません。この種の詳細は非常にクレイジーで、まさにこれらの違いのために、彼らが超知能になる可能性があります。そして、モデルがますます高速になっているというこのアイデアと組み合わせると、彼女はコントロールC、コントロールVで自分を複製するだけでなく、非常に高速化され、はるかに速い処理時間になります。

では、あなたはどう思いますか?世界は楽園になるでしょうか、それとも壊滅的になるでしょうか、それともより現実的な視点、ですよね?人生はTwitterほど悲しくもなく、Instagramほど幸せでもありません。常にその中間のようなもので、物事が進むにつれて人々は移動していきます。ここにコメントしてください。私は知りたいです。そして、この黒背景と白背景がいい感じだったかどうかもコメントするのを忘れないでください。

そして、このようなコンテンツを見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーは、インテリジェントエージェントに関する限定動画と先行公開動画へのアクセス権を持っています。いいねボタンに幻覚を起こしてください。ありがとうございました。