AIは見た目より愚かなのか

インターネット上で拡散されたAIの失敗事例を検証し、その背景にある技術的制約を解説する動画である。音声リアルタイム処理とテキスト処理の違い、視覚的プログラミングにおけるAIの限界、そしてモデル選択の重要性が明らかにされる。表面的な失敗例に惑わされず、AIの真の能力と適切な活用方法を理解することの必要性を説いている。

O ChatGPT é mais BURRO do que você imagina

Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

AIの失敗動画が示す本当の問題
コップの向きすら分からないAI
リアルタイム音声処理の落とし穴
テキストデータの圧倒的優位性
ビジュアルプログラミングの限界
適切なツールと環境の選択
推論モデルの重要性
実際のテストと進化する能力
AIの真の実力

AIの失敗動画が示す本当の問題

皆さん、この動画がインターネット上でバズっていて、何千回も再生されているんです。人工知能がいかに問題を抱えているかを非常に明確に示しているんですね。でも私のチャンネルをフォローしている皆さんは、なぜこれが起こっているのか、最も重要なことの一つを知る必要があります。そうすれば強みに集中でき、これらがどのように機能しているのかをよりよく理解できるようになります。

では、何が起こっているのか理解していきましょう。一緒に見ていきましょう。さあ行きましょう。皆さん、いつもいいねを押してくれた全ての方、チャンネル登録してくれた全ての方に感謝しています。このAIチャンネルをスポンサーしてくれている全てのチャンネルメンバーの皆さんに特別な感謝を。メンバーの方々は、WhatsApp統合、PDF読み取り、MCP、スプレッドシートなどの作り方を教えるインテリジェントエージェントに関する限定動画や、先行公開動画にアクセスできることを忘れないでください。

コップの向きすら分からないAI

この動画はとても面白くて、とても興味深いんです。ある人がコップを手に取って音声で説明するんですね。私のコップは上部が閉じていて、下に穴が開いています。このコップをどうすればいいですか、と。するとChatGPTが、いや、それは壊れていて、もうそのコップは何の役にも立たない、と言い始めるんです。

それで彼はカメラをオンにして、コップを見せながら、ほら、このコップを見てください。このコップをどうすればいいですか、と聞くんです。するとChatGPTは、いや壊れている、どうしようもない、と言い張り続けるんです。でも実際はコップをひっくり返すだけで全て問題なかったんですよ。コップは単に逆さまになっていただけで、大したことじゃなかったんです。どんな人間でもこれは簡単に解決できることです。

そして本当のところ、この種のデモンストレーションは現実なんです。これは起こっています。これはずっと起こっていたことですし、これによって人々はAIが何の役にも立たないと信じ込み、したがって使う必要がないと考えるようになってしまうんです。結局、こんな基本的な間違いを犯すなら、その中に価値のあるものは何もない、というわけです。

リアルタイム音声処理の落とし穴

でも何が起こっているのか理解していきましょう。まず最初に理解しなければならないのは、AIはテキスト、音声、動画、画像、全てをネイティブに扱えるということです。常にテキストで作業して、機能させるために物事をテキストに変換する必要はないんです。

OpenAIや多くの企業が何をしたかというと、このリアルタイムバージョンを作ったんです。これは音声をリアルタイムで処理するもので、音声をはるかに速く、はるかに効率的にする方法なんですね。彼らはドキュメントでこう説明しています。音声からテキストへ、テキストから音声への変換モデルを連鎖させる従来のパイプラインとは異なり、リアルタイムAPIは単一のモデルとAPIを使用して音声を直接処理および生成します。

これによってレイテンシー、つまり遅延が減少し、速度が向上します。発話の微妙なニュアンスが保存されます。皆さんも見ているように、イントネーションとか、テキストだけでは表現できない多くのものがあるんですね。そしてより自然で表現豊かな応答を生成します。つまり音声を通じて笑うこともできるし、テキストだけでは現れないようなことができるんです。実際のところ、これら2つの方法の違いはこうなります。

古い方法では、人が話す、音声からテキストへの文字起こしがある、それからテキストをAIに送る、それからテキストを取って音声に変換する、そして聞くことができる、という流れです。皆さん分かりますよね、テキストに変換してからテキストを音声に変換すると、微妙さを失い、表現力を失うんです。

リアルタイムに切り替えると、音声から音声への直接処理になります。まさにその通りです。でも途中で起こる小さな詳細があるんです。ほとんど誰も言わないことなんですが、テキストに変換するバージョンは、テキストで訓練されたモデルで動作するんです。そしてテキストの情報量は音声の情報量の1000倍あるんです。

テキストデータの圧倒的優位性

なぜなら読まれていない本がたくさんあり、誰も話していない書かれた情報がたくさんあるからです。そしてテキスト自体の品質はファイルサイズがはるかに小さく、扱いがはるかに簡単なんです。モデルのトレーニングでテキストから大量の情報を吸収できます。これは音声モデルとはかなり違うんですね。だからこの微妙さ、この詳細は、会話するときに常に非常に明確にしておかなければなりません。

皆さんはこれに気づいていたか分かりませんが、私にとってこれは非常に明確なんです。アプリ内でリアルタイム音声をオンにするとき、それは非常に複雑で込み入った会話をするのに良い場所ではないんです。なぜならそこでAIは迷子になってしまうからです。だからその意味では、テキストに戻るのが正解なんです。でも別のコメントも受け取りました。こんな感じです。AIはプログラミング分野ではそれほど発展していない。Gemini 3.1 ProがMIT App Inventorを使ってプログラムを作るのを手伝ってくれているんだけど、すごくがっかりさせられる、と。

画像を送ると、間違って読み取って、拡張や修正が難しいコードを作り、一つを直すと別のものを壊してしまう。物事を正しくするのに多くの時間がかかる。コードの変更を警告したら、コードに影響しないと言ったのに、予想通り影響した、と。

ビジュアルプログラミングの限界

では何が起こっているかというと、App Inventorはビジュアルプログラミングなんです。ブロックを作ってドラッグするんですね。そうすると音声と同じ問題に突き当たります。画像用に十分に訓練されたモデルを見つけるよう注意しなければならないんですが、それでもテキストで訓練されたモデルと同じ品質は得られません。仕方がないんです。

例えば、App Inventorの場合はスマートフォン向けプログラミングを行うプラットフォームです。この場合、Android Studioに移行する方がはるかに理にかなっています。Android Studioには、テキストベースのネイティブアシスタントが内蔵されていて、1000倍先進的なアプリケーション、1000倍優れた機能を作ることができるんです。

だからこれらの詳細には十分注意しなければなりません。もう一つ重要な点として、これらの動画の一部が利用しているのは、動画や音声の問題に加えて、例えばGrokのようなモデルを使っているということです。このモデルは全ての中で最も賢いわけではありませんが、それでもインテリジェントなモデルではあります。

適切なツールと環境の選択

結局のところ、人は自分が何をしているのか、どこで質問しているのか、誰と話しているのか、そしてどんな方法を使っているのかに注意を払わなければならないんです。例えば、プログラミングの話を続けると、インターフェースやアプリケーションに留まっているのは価値がありません。高度なプログラミングをしたいなら、Claude Codeに行かなければならないし、Antigravityに行かなければならないし、Codexに行かなければならないんです。なぜならそこで本当にあなたのために働く高度なエージェントが手に入るからです。

そこで魔法が起こっているんです。そこで人々が夢中になっているんですよ、皆さん。たくさんのウィンドウが開いていて、全て並行して動作している。アプリケーションでもなく、ウェブインターフェースでもないんです。

でもまだテキストの問題もあります。なぜなら人々がテキスト形式で送信することにも問題があるからです。例えば、洗車場の問題で、自宅から洗車場まで50メートルしかないと言って、AIに徒歩で行くべきか車で行くべきか尋ねるんです。

するとAIはこう答える傾向があります。いや、とても近いから徒歩で行けます。運動にもなるし、ガレージから車を出す必要もない、と。でも車を洗いに行くなら、車を持っていかなければならないのは明らかですよね。こういうケースは起こるんです、皆さん。これが起こらないと否定したり言い張っても無駄です。起こるんですから。

推論モデルの重要性

まず注意しなければならないのは、例えば推論モデルを使っているかどうかです。なぜならChatGPTの無料バージョンを使っていて、何も設定する手間をかけず、ただ質問し始めただけなら、最も知的でないモデル、速度重視のモデル、ちょっとした会話や簡単なアイデア交換のためだけのモデルを使っていることになるからです。

この種のモデルはトリッキーな質問には最悪です。なぜなら反省しないし、背後でより大きな推論を行わないからです。記憶に保存されているものの中から頭に浮かんだ答えをただ出すだけなんです。それだけです。ではなぜこれらのことを説明しているかというと、AI の世界に入ってきている多くの人がいて、すでに驚くほど優れたプログラミングを行う高度なレベルに達していて、実質的にエージェントのオーケストレーターになっていて、企業、職場、日常生活、どこであれ多くのことを自動化している人がいるんです。

でも全員がなぜこれが起こっているのかを理解しているわけではなく、説明できないんです。インターネットのジョークだと思っているわけです。でも最も真実に近い答えはこれです。AIは天才的なことをするのと同じように、少ないコンテキストで問題を与えたり、古いモデルで、それほど知的でないモデルで、推論モデルを起動しなければ、無駄なんです。

実際のテストと進化する能力

例えば、ここにChatGPTの無料バージョンがあります。サブスクリプションも何もありません。洗車場の質問を送ってみましょう。今リアルタイムで何と答えるか見てみましょう。こんなアイデアです。車を洗車場に持っていかなければなりませんが、洗車場は自宅から50メートルのところにあります。徒歩で行くべきですか、車で行くべきですか、と。

するとAIはこう答えました。洗車場がたった50メートルなら、とても近くても通常は車で行く方が理にかなっています。目的は車を洗うことなので、車をそこに持っていく必要があります、と。

だからこの場合、今行ったこのテストでは、あの愚かな答えは出しませんでしたが、答える可能性はあったんです。これは非常に明確にしておかなければなりません。とても首尾一貫していました。車で行って、車をそこに置いて、洗っている間に徒歩で帰宅し、それから徒歩で取りに行く、と。

だからもしあなたがAI愛好家で、友人たちがAIをからかう動画を送り続けるなら、この動画を送ってください。そうすれば少なくとも彼らは何かを学び、何かを理解し、驚異的に高度なことをやっている人たちがいるという現実に目覚めるでしょう。

AIの真の実力

今年1月だけで、それまで人間が解けなかった古くから未解決だった数学的証明が3つありました。これらのモデルが獲得している金メダルの数や、上昇し続けているベンチマークの進化については言うまでもありません。このグラフは既に皆さんにお見せしましたよね。GPT-3.5、GPT-4、Claude Sonnet 3.7、GPT-4o、Claude 4.6と。

2025年以降、成功したタスクの時間は3分から17分だったのが、ほぼ3時間のタスクまで上昇しました。これは彼らが自律的に解決しているんです。だからInstagramやTikTokのこういったジョーク動画には十分注意してください。なぜならこれらの細かい点がAIがやっていることの大部分だとあなたに信じ込ませているからです。実際には最も小さな部分なのに。

では、今何を考えているかコメントしてください。そしてこのような動画を見続けるためにチャンネルをサポートしたいなら、メンバーになってください。メンバーはインテリジェントエージェントの限定動画や先行公開動画にアクセスできます。それでは、いいねをお願いします。ありがとうございました。