本動画は、AIが実際の仕事でどれほど機能するかを検証した最新研究を紹介している。研究では実際のフリーランス案件240件をAIモデルに与え、人間の成果物と比較したところ、最高性能のClaude Opus 4.5でさえ成功率はわずか3.75%、つまり96.25%の失敗率という衝撃的な結果が明らかになった。AIは音声や画像制作、簡単なコーディングなど特定分野では有用である一方、一般的な業務では人間に遠く及ばない。医療分野でのAI誤作動による事故報告や、企業のAI投資が期待したリターンを生んでいない現状も指摘される。ヤン・ルカンをはじめとする専門家は、現在のLLMアーキテクチャには根本的な限界があり、単にデータや計算能力を増やすだけでは問題は解決しないと警鐘を鳴らしている。本動画は、数千億ドル規模のAI投資が過大評価されている可能性を示唆し、AI技術の現実的な位置づけを冷静に分析する内容である。

AIの現実:驚愕の失敗率が明らかに
AIとロボティクスがなければ、私たちは完全に行き詰まってしまいます。
私たちは、いつの日か新しい発見を助け、気候変動やがんの治療といった人類最大の課題に取り組むためのツールを構築しています。
こんにちは、Cold Fusionの新しいエピソードへようこそ。ここで質問があります。AIが雇用市場を混乱させているのに、同時に数十億ドルの損失を出しているのはなぜでしょうか。この動画がその答えを提供します。
真実は、AIが一部の仕事を容易にする一方で、人間と比較すると実に96.25%の確率で劣った性能を示すということです。基本的には、AIに10のタスクを与えると、そのうち少なくとも9つは人間と比べて劣った結果になるということです。
少なくとも、最新の研究によればそうなのです。これは非常に興味深い発見で、なぜ誰もAIの性能を、まったく同じ仕事をした人間と体系的に比較してこなかったのかという疑問が湧いてきます。これまでのベンチマークはすべてシミュレートされた人間の仕事であり、実際の一般化された仕事ではありませんでした。
この研究を行った研究者チームの結果を見ると、コンシューマーAIの真の価値は数千億ドルではなく、桁違いに少ないのではないかと考えさせられます。
すべてのAIがダメだと言っているわけではありません。この研究は、AIが時間を節約するツールであって、代替品ではないことを示す一般的なリマインダーに過ぎません。ただ、短期的な能力に関しては、経済がAIを過大評価しているのかもしれません。このエピソードでは、この研究を詳しく見て、それが何を意味するのかを議論します。
Cold Fusion TVをご覧いただいています。
研究の概要:リモート労働指標(RLI)
研究の概要は非常にシンプルでした。実際の人間がすでに完了した有料の仕事をAIモデルに与え、その結果がどれだけ比較に耐えるかを見るというものです。AIがタスクを完了したら、人間が結果を評価します。研究者たちはこの方法をリモート労働指標、つまりRLIと呼びました。とてもシンプルです。
私たちのほとんどは、現代の仕事をするためにコンピュータを使っていますよね。だから、プロフェッショナルなコンピュータベースの仕事で、AIがどれだけ競争できるかを直接比較してみてはどうでしょうか。
完了すべき仕事は、フリーランスサイトUpworkからの実際のものでした。Upworkは、どんなタスクでもリモートワーカーに支払って完了してもらうサイトです。仕事は、動画作成、コンピュータ支援設計、グラフィックデザイン、ゲーム開発、オーディオ作業、建築など、多岐にわたっていました。
人間とAIの両方に、同じ指示書と仕事に必要な添付ファイルが与えられました。たとえば、データのExcelスプレッドシートや説明用の画像などです。AIモデルは240の仕事でテストされ、それぞれ平均630ドルの報酬が支払われました。
では、AIはどのようなパフォーマンスを見せたのでしょうか。
衝撃的な結果:最高でも96%の失敗率
パフォーマンスはひどいものでした。最も優れたAIはClaude Opus 4.5で、許容できる品質の仕事を生み出すことに関しては、成功率はわずか3.75%でした。お聞きの通り、96.25%の失敗率が最高のパフォーマーだったのです。
興味深いことに、Geminiが1.25%の成功率で最下位でした。Claude Opus 4.6は5%ほど高いスコアを出すかもしれませんが、それでも91%の失敗率です。これらのスコアが35%や40%になったら、話し合う価値があるでしょう。
いくつか注意すべき点があります。元の論文は6か月ほど前のAIモデルを使用していましたが、彼らのウェブサイトには最新の結果があり、それが私がこのエピソードで言及しているスコアです。ウェブサイトへのリンクを下に残しておきます。
では、AIシステムは具体的にどこで失敗したのでしょうか。まず、失敗が何を意味するのかを正確に定義する必要があります。
AIの4つの主な失敗ポイント
失敗とは、フリーランス環境という文脈において、人間レベルと同等かそれ以上のタスクを実行できないことを指します。人々が実際に仕事に対して直接お金を払う環境です。
それを念頭に置いて、論文はAIシステムの4つの主な失敗ポイントを挙げています。
1つ目は、AIが破損した、または空のファイルを生成したり、間違った形式や使用できない形式で作業を提出したりすることがあったということです。
2つ目は、AIが不完全な作業を頻繁に提出したということです。欠落したコンポーネント、切り詰められた動画、または欠落したソースアセットが特徴的でした。たとえば、8分間の動画が必要なのに8秒の動画が提出されるといったことです。
3つ目は品質の問題です。エージェントが完全な成果物を生成した場合でも、作業の品質は頻繁に低く、プロフェッショナルな基準を満たしていません、ということです。
そして最後に4つ目は、AI生成作業の一貫性の欠如です。これには、異なる3Dビューで家の外観が変わったり、デジタルフロアプランが提供されたスケッチと一致しなかったりすることが含まれます。
すべて非常に興味深いですね。これまで何年もの間、AIがあらゆる場所で人間を置き換えると言われてきました。しかし、真実は、私たちはまだその地点にはほど遠いということです。少なくとも、まだそうではありません。
AIが成功した分野
では、AIはどこで成功したのでしょうか。成功とは、AIが人間の出力と同じ品質、またはより良い品質で同じ作業を行うことを意味します。
研究者たちは、AIがオーディオや画像関連の作業、ライティング、データ検索、ウェブスクレイピングなどの創造的なアイデアに長けていたと指摘しています。それは納得できます。OpenAIやClaudeの成功は、AIのすごさを証明していますし、AI画像やオーディオはすでに多くの人を騙すのに十分なレベルに達しています。
広告やロゴ作成も成功した分野でした。また、AIがレポート作成やインタラクティブなデータビジュアライゼーション用のシンプルなコード生成が得意だったことも驚きではありません。
有能な動画生成も間もなく実現します。Sora 2.0を見てみてください。
主な結論は、AIは一部のことには非常に優れていますが、一般的な作業には恐ろしく不向きだということです。
この研究が明らかにしたこと
しかし、他に何を学んだでしょうか。この論文は多くのことを明らかにしており、その多くはネガティブですが、RLI形式が実世界でのAIパフォーマンスの非常に有用な指標であることを示しています。その理由は、現在のベンチマークが実世界のパフォーマンスを反映していないからです。
論文が述べているように、AIシステムは多くの既存のベンチマークを飽和させてきましたが、最先端のAIエージェントはRLIにおいてほぼ最低のパフォーマンスを示すことがわかりました。
ところで、私はこの研究が非常に堅牢だと感じました。リンクを下に残しておきます。
この研究によると、AIは言語要件、オーディオ、シンプルな広告、データ検索が多い仕事に影響を与える可能性がありますが、人間の監視は依然として必要です。
PwCのレポートでは、大半のCEOがAIから金銭的なリターンを見ていないことがわかりました。上級管理職やCEOは労働者にAIを使うよう命令し、すべてがうまくいくことを期待しています。企業内でAIが機能するには、その欠点を理解した上で、技術の計画的で熟練した実装が必要です。
しかし、多くの場合、それは起こりません。Gartnerは、来年までにAIのために労働者を解雇した企業の半数が、彼らを再雇用すると予測しています。また、9か月前、Microsoftはコードの30%がAIによって書かれていることを誇らしげに宣言しました。それ以来、同社は歴史上最悪のソフトウェア問題のいくつかを経験しています。
雇用への影響と現実的な見通し
AIが破壊的であり、一部の仕事がこの技術によって失われることは明らかです。たとえば、拡散モデルは先ほど見たように、ビジュアルアートに長けています。しかし、LLMと一般的な労働力に関しては、この研究は雇用喪失がはるかに少ない可能性があることを示しています。
AI分野は急速に動いています。だから私は間違っているかもしれませんが、2026年初頭の今日、状況はそのように見えています。
雇用の予測を一文でまとめるなら、もしあなたがソフトウェアエンジニアなら、バイブコーディングされたアプリを修正するビジネスを立ち上げれば、大金を稼げるでしょう。
人工知能は本当に、私たちが想像もできないような方法で世界を変えていくと思います。しかし、それは今ではありません。この技術ではありません。
私のお気に入りの例は、インターネット全体でAIを訓練するというものです。だからチェスの書かれたルールや多くのチェスのゲームにアクセスできるのに、それでも違法な手を打つのです。彼らはチェスがどのように機能するかのモデルを決して抽象化しません。それは本当に致命的です。100万ゲームを見て、WikipediaやChess.comでルールを読んだ後、チェスを学ぶことはできないでしょう。
ただ大きくするだけでは、これらの問題は解決しません。私たちは基礎研究を行う必要があります。それは私が過去5年間言ってきたことです。知能とは何か。問題は世界を理解することであり、強化学習は世界を理解することです。一方、大規模言語モデルは人々を模倣し、人々がすべきだと言うことをすることです。
それは何をすべきかを理解することではありません。人々が言うことを模倣するだけでは、世界のモデルを構築することにはまったくなりません。私はそうは思いません。
AI投資への警鐘と医療分野でのリスク
AIが決してうまくいかないとか、すでに本当に有用ではないと言っているわけではありません。本当にうまく機能する狭いAI製品はいくつかあるでしょう。私はただ、現在のAI分野には重大な財務リスクがあると警告しているだけです。
投資の精神とあらゆる場所へのAIの展開は、数千億ドルを誤配分している可能性があります。医療分野でさえ、Reutersは最近、FDAがAIの誤動作、手術の失敗、身体部位の誤認識に関する100件の報告を受けたと報じました。
いくつかのケースでは、訴訟によると、AIが外科医に器具の位置について誤った情報を提供し、1人の患者の頭蓋骨の基部を誤って穿刺させ、他の2人では主要な動脈への損傷から脳卒中を引き起こしたとされています。
すべての分野にAIを導入する必要はありません。まだ準備ができていないのです。繰り返しますが、コーディング、高度な数学、ライティングなどの分野では、AIはかなり優れており、仕事をはるかに簡単にすることができます。しかし、今すぐ完璧にすべての人を置き換えられるふりをすることはできません。
ここでビデオを止めるつもりでしたが、個人的な考えを少しだけ。
AI業界の過剰な宣伝と現実
2016年にAIをカバーし始めたとき、これらのものがどのように機能するかを見るのは楽しく魅力的でした。しかし、大金が入ってきて以来、誇大宣伝は完全にチャートから外れてしまいました。
CNBCは最近、AnthropicやGoogle、Microsoftのような企業が、個々のコンテンツクリエイターにAIモデルを宣伝するために、それぞれ40万ドルから50万ドルを支払ったと報じました。
ブランド取引は問題ありませんが、現在の世代のAIが宣伝されているほど革命的であれば、私たちを納得させるためにそれほど多くのお金を使う必要はないはずです。それは不協和音を生じさせる断絶です。
最後にもう一つ。
専門家の警告:スケーリング問題の限界
私たちは、機械が言語を操作できるために知的だと勘違いしています。そして、言語を非常にうまく操作できる人々は暗黙的に賢いという事実に慣れています。
しかし、私たちは騙されています。今、彼らは有用です。疑いの余地はありません。過去5、60年間のコンピュータのような素晴らしいツールです。しかし、興味深い歴史的なポイントを述べさせてください。これは私の年齢によるものかもしれません。
1950年代以来、AI科学者の世代ごとに、彼らが発見した技術が人間レベルの知能へのチケットになると主張してきました。マービン・ミンスキー、ノイマン・サイモン、1950年代に最初の学習機械であるパーセプトロンを発明したフランク・ローゼンブラットの宣言を見てください。10年以内に人間と同じくらい賢い機械ができると言っていました。
彼らは皆間違っていました。LLMを使ったこの世代も間違っています。私は生涯で3つのそのような世代を見てきました。だから、これは騙されることのもう一つの例に過ぎません。
これは、畳み込みニューラルネットワークの生みの親、ヤン・ルカンです。彼は現在のAIアーキテクチャがピークに達していると率直に述べてきました。問題にさらに多くのデータとパワーを投げかけても解決しないと考えています。そして、私はそれが初期のデータが示していることだと思います。
これはスケーリング問題と呼ばれ、OpenAIがいかに大きなトラブルに陥っているかについての私の次の動画の大きな部分を占めています。完成したら、そのエピソードへのリンクを下に残しておきますので、これの後にぜひチェックしてください。
とにかく、私からは以上です。Cold Fusionをご覧いただきありがとうございました。ご意見をお聞かせください。コメント欄はきっと非常に良い議論でいっぱいになると思います。
とにかく、以上です。私の名前はDaggoです。次のエピソードでまたお会いしましょう。みなさん、良い一日を。Cold Fusion、新しい考え方です。


コメント