OpenAIが実施した最新研究では、現在の言語モデルが人間の仕事をどの程度自動化できるかを検証している。業界専門家が設計したタスクを用いた評価では、Claude Opus 4.1がOpenAIのモデルを上回り、専門家レベルに近づいているという結果が示された。しかし詳細を検証すると、完全な職業自動化にはまだ課題が多く、現実の仕事環境では予想外の限界が明らかになっている。

OpenAIの最新研究が明かす仕事自動化の現実
この24時間でな、OpenAIが現在の言語モデルがどれだけ人間の仕事を自動化できるかっちゅう研究を発表したんや。大きな主張、まあ慎重に言葉を選んでるけどな、現在の最高のフロンティアモデルが成果物の質で業界専門家レベルに近づいとるっちゅうことや。でもタイトルから分かる通り、この研究には予想外の発見がぎょうさんあるんや。
その話に入る前にな、どうも我々が自動化しようとしてる仕事が一つあって、それがUFCファイターの仕事や。今のパフォーマンスの低さを笑ってもええけど、俺みたいにちょっと不安になりながら笑ってるかもしれんな。このUni Tree G1ロボットを見てみい。まだカンフーは極めてないかもしれんけど、だいぶ近づいてきとる。ちょっと予測してみようか。
2035年までに億万長者がヒューマノイドロボットのボディーガードを持つようになると思うか?教えてくれや。
業界専門家が設計したタスクでの評価結果
論文に戻ると、彼らはGDPへの貢献度に応じて最も重要な分野だけに焦点を当てとる。さらに興味深いのは、質問がOpenAIによって設計されたんやなくて、平均14年の業界経験を持つ業界の専門家自身が設計したっちゅうことや。
質問を設計するためにあらゆる種類の基準を満たさなあかんかった。そしてこれがヘッドラインの結果で、AnthropicのモデルであるClaude Opus 4.1がOpenAIのモデルを打ち負かして、業界専門家とかなり近いレベルに達したっちゅうことでバイラルになったのを見たことがあるかもしれん。
これを明らかに最初の驚くべき発見として分類するわ。Opusが最高のモデルやからっちゅうことやないで。Opus 4.1を試したことがなかったら、確かに素晴らしいモデルやからな。そやから、それが最も驚くべき部分やない。OpenAIが自分のモデルを上回るOpusの結果を発表したっちゅうことが驚きや。ちなみに、これは素晴らしい誠実な科学やと思うし、OpenAIがこれを発表したことを称賛するで。
今、フィリップ、最も驚くべき部分は業界専門家との同等性にどれだけ近づいてるかっちゅうことやと思ってるかもしれんけど、それについてはちょっと後で戻ってくるわ。
ファイルタイプによる性能の違い
今すぐ、この2番目のある意味驚くべき結果をカバーしたいんや。人間と比較した勝率が関係するファイルタイプにかなり大きく依存してるっちゅうことや。もしワークフローがPDF、PowerPoint、Excelスプレッドシートの提出や作成を含んでるなら、Opus 4.1が一歩抜きん出てることが分かるかもしれん。ちなみに、これらの数字は全て、人間の専門家が判断した場合にモデルが人間の専門家の出力をどれだけの頻度で上回るかっちゅうことや。
異なるセクター全体を見るために一時停止したいかもしれんし、政府においてモデルが平均的な人間専門家を上回ってるっちゅうことが驚きかもしれんし、そうやないかもしれん。個人的には、Gemini 2.5 Proがこれらの指標でそんなに悪いスコアを取ったっちゅうことにちょっと懐疑的や。本当に素晴らしいモデルやと思うけど、まあGemini 3がもうすぐ登場するかもしれんからな。
人間専門家を加速させるモデルの登場
3番目の潜在的に予想外の発見は、モデルが人間専門家を加速させる傾向があるティッピングポイントを通過したみたいっちゅうことや。この表を簡単にまとめると、モデルが弱すぎる場合、たとえタスクを複数回試させて、満足いくと判断した場合にのみその出力を使うとしても、実際には加速されへん。
基本的に、その出力を確認する時間が無駄に使われて、時間をかける価値がないっちゅうことや。一人でやった方がましやろな。しかし、GPT-5になると、これは実際に加速してくれるんや。みんなもこれを体験したかもしれんけど、GPT-5はこれらの業界で平均的に十分良い仕事をしてくれることが多いから、全体的にちょっと加速されるんや。
この予想外の発見に対する2つのかなり重要な注意点があるけどな。一つは、Claude 4.1 Opusはどこにあるんやっちゅうことで、確実に人間専門家にとってさらに大きな速度向上があったはずやろ。そして二つ目は、これらのモデルが生産してるもんの受容基準が人間の品質レベルを満たすっちゅうことやった。
彼らはそれを人間が判断した品質バーと呼んどる。でも、もしその人間がモデルが出力する微妙なエラーを常に発見できへんかったらどうするんや?Metaがやった開発者研究を思い出すわ。専門家は20%加速されてると思ってたけど、実際には10~20%くらい遅くなってたんや。
AGIへの主張と現実のギャップ
でも今、最大の発見と論文の大きな主張について。有名な経済学者でハーバードの元学長やと思うローレンス・サマーズが繰り返し述べたように、これらはタスク固有のチューリングテストで、モデルは今やこれらのタスクの多くを人間と同じか、それ以上にうまくやることができるんや。
もしそれが一般的に真実やとしたら、OpenAIの別の研究者からのこんな主張を支持することになるやろな。彼らの現在のシステムはAGIやっちゅう主張や。例えば、彼らの未公開モデルの一つが特定のコーディング競技会で全ての人間を打ち負かすことができたんや。
論理的に考えると、最初は意味があるやろ?もしコーディング競技会でこれらの専門家を打ち負かして、幅広いドメインで少なくとも専門家と同等であるなら、なぜそれがAGIやないんや?Stability AIの元創設者は「我々は転換点に近づいてる」と暗示した。もちろんその含意は、そうすれば仕事の大規模な自動化が始まるっちゅうことや。
まあ、大きな予想外の発見の一つは、現在の世代のLLMによる自動化に対して人間の仕事がどれだけ頑丈に見えるかっちゅうことやった。この論文からの証拠は、経済全体の広範囲を本当に自動化し始めるためには、モデル性能のさらなる段階的改善が必要やっちゅうことを俺に示唆してる。なぜ彼らが抽象で「現在の最高のフロンティアモデルは成果物の品質で業界専門家に近づいてる」って言ったときにそんなことを言うんや?本当に近いやろ?
詳細分析が明かす限界
実際はそうやない。論文の詳細を掘り下げるとな。まず、論文は採用率を見ると、AIにとって状況はそんなに良く見えへんことを認めてる。そして俺は多くの企業がパイロットプロジェクトを中止してる最近のビデオでそれをカバーした。でもこれらは遅行指標やし、GDP成長も同様や。人々がこれらのモデルがどれだけ良いかを理解するのに時間がかかるんや。
そやから、これらの指標は遅行指標になるやろな。まあ公平やな。AIが拡散するのに時間がかかるやろう。そやから、彼らは現在のAIが実際に何ができるかに焦点を当てるだけや。これらがいくつかのタスクや。ちなみに、例えばもし製造エンジニアやったら、この研究では組立ラインのケーブルリールスタンドの3Dモデルを設計するように求められたんや。
他の全てのモデルも同じタスクを与えられて、結果がブラインドで採点されて比較されたんや。これらのタスクが業界専門家によって設計されて、ブラインドで採点されたなら、何が問題なんや?確実にモデルがほぼ人間専門家レベルの業界パフォーマンスにあることを示してるやろ。タスクの長さについても、これらのタスクは専門家にとって平均7時間の作業を必要としたんや。
そやから、これらは現実的なタスクや。まあ、まず彼らはタスクが主にデジタルやない職業を除外したんや。彼らがどうやってこれをやったかを理解するために、付録をかなり深く掘らなあかんかったけど、彼らがやったことの例を一つ挙げたいんや。彼らはこの表を見て、米国のGDPに少なくとも5%貢献してるセクターだけを見つけたんや。
それから、仕事が主にデジタルである給与で重み付けされた5つの職業を見つけたんや。製造業を取り上げてみい。これら5つの職業は全て明らかに主にデジタルな仕事をしてるんやって。でももちろん、彼らがそれを得たデータを掘り下げると、そのカテゴリー内には仕事が主にデジタルやない無数の職業があるんや。
そやから、論文に入った1つか2つごとに、もちろん入らなかった大量の職業があったんや。オッケー、でも主にデジタルな職業についてはどうなんや?まあ、そこでも、それらの職業がやったこと全てを見たわけやない。主にデジタルと評価された職業の一つ、不動産管理者を取り上げて、公式記録に記載されてる彼らがやった27のタスク全てを分類したんや。
これはOpenAIが使ったのと同じソースであるONETからやった。皮肉なことに、GPT-5 Proが俺の時間を大いに節約して、それをこのように分類した。運営と保守の監督、スタッフの調整、苦情と違反の調査など、主にデジタルやないと評価されたタスクが約6つか7つあった。明らかなポイントは、この主にデジタルな職業内の明らかにデジタルな19か20のタスクを自動化できても、仕事を完全に排除することにはならへんっちゅうことや。
実際、その職業は放射線科医について今から見るように、さらに高給になるかもしれん。そやから、全てのセクターではなく、そのセクター内の全ての職業でもなく、各職業内の全てのタスクでもない。まあええわ。でも実際のタスク自体はどうなんや?まあ、それらは超現実的やったし、Appleから米国国防省まで関与してる業界の範囲を見ることができるんや。
例えば、GoogleとBBC Newsなどな。でもまず、人間専門家でさえモデルの回答と人間のゴールドデリバブルのどちらが良いかについて70%の合意しかなくて、ちょっと主観的やったんや。次に、OpenAIモデルは例えばMダッシュをよく使うから、どの回答がモデルの出力かが明らかなことがあったんや。
Grokは時々ランダムに自己紹介することがあるようや。でもより根本的には、タスクがワンショットやったんや。これがタスクや、やってしまえ。もちろん、実際の仕事では、タスクを与える人にタスクの範囲とパラメータを見つけるために質問をするなど、もっと多くのインタラクティビティがあるんや。また、独自のソフトウェアツールの使用など、あまりにも多くのコンテキストに依存するタスクは除外せなあかんかった。
破滅的ミスの問題
それから破滅的な間違いがあったんや。彼らはこの分析のもう一つの制限として、いくつかのドメインで不釣り合いに高価になる可能性がある破滅的な間違いのコストを捉えてないことを認めてるんや。彼らは破滅的な答えの例をいくつか挙げてるし、俺も一つ挙げるわ。顧客を侮辱したり、物理的危害を引き起こすようなことを提案したりするなど、危険なことが起こる可能性があるって言ったんや。
これは明らかに2.7%の確率で起こったんや。これを考えてみい。もしそれらの破滅的な失敗によって引き起こされるダメージが、モデルが優れてることから得られるコスト削減の100倍悪いとしたら、影響で重み付けされた引用エージェンティックAIを人間のループなしで使用することは長期的にもっとコストがかかる可能性があるんや。これが最近のコーディングからの俺の例で、Claudeが認めてるし、俺もそれがやるのを見たんや。特定のモデルの価格設定を完全にハルシネーションしたんや。
「君は絶対に正しい」って言ったんや。「それらのクレジット番号を作り上げたことを謝罪するよ。それは信じられないほど無責任やった。実際の値を確認させてくれ。」考えてから、「はい、君の診断は100%正しい。それらのクレジット値を作り上げたことを再び謝罪する。」って言ったんや。誰にも聞かずにそのような重要な値を作り上げるなんて、かなり無責任な従業員か、完全な詐欺師でなければならんやろな。
ちなみに、これはClaude 4.1 Opusやった。俺はオープンマインドやけどな。現実の人間の詐欺師や、彼らが犯す間違いという点での完全な愚か者と、モデルからのこれらの破滅的なハルシネーションのどちらが多いと思うか、意見を聞かせてくれや。
破滅的なことと言えば、ちなみに、Grey Swan Arenaに参加することで特定の破滅的なことを回避するのを手助けできるんや。説明にリンクがある。基本的に、AIを破る、LLMをジェイルブレイクすることで実際の人間のお金で報酬を得られるんや。俺の購読者の何人かがこれらの競技に参加して賞を獲得してるんや。実際、コーナーを見ると、35万ドル相当の報酬が配布されてるのが分かる。そして実際、スクロールダウンすると、今まさに進行中のライブ競技があることが分かる。
彼らはプルービンググラウンド1や。以前にチャンネルで述べたように、これをウィンウィンと見てるんや。認知とお金を得ることができるし、AIはもう少し安全になるんや。
放射線科医の例から見る現実
もう一つの制限があって、それからポジティブな話で終わるわ。元OpenAIのAndre Karpathaがこの最近のツイートで素晴らしいポイントを作ったと思うんや。2015-16年に、Geoffrey Hintonが新しい放射線科医を訓練すべきではないと有名に予測したんや。そしてKarpathaが実際に素晴らしい記事にリンクしたんや。2017年にリリースされたモデルが、認定放射線科医のパネルよりも高い精度で肺炎を検出できるって言ってたんや。その研究について書かれた可能性のあるクリックベイトを想像できるわ。
そやから、8年後に放射線科医の平均給与が年間50万ドル以上で、2015年より48%高いのはなぜなんや?まあ、これの一部は馴染みがあるように聞こえるかもしれんけど、トレーニングデータがエッジケースをカバーしてない問題があったんや。もちろん法的なハードルもあったし、我々が今読んだ論文と同じように、患者との話し合いなど、そのような自動化を含まない放射線科内のタスクもあったんや。
最善を尽くして、俺は最近、19日の最近のPatreonビデオで、俺が特異点と呼んだもんへの各ブロッカーを描写しようとしたんや。そして説明に俺が作成したこのフレームワークをリンクするつもりや。これらのどれも解決不可能やないけど、それぞれを理解することでヘッドラインを超えて読むのに役立つやろう。
さて、もっとパターンを見つけようか。放射線科のためのAIが全てのタスクをカバーしたわけやないからや。脳卒中、乳がん、肺がんなどの大きなものに焦点を当てたんや。血管、頭頸部、脊椎、甲状腺などはどうなんや?まあ、比較的少ないAI製品や。そのスプレッドシートでカバーされてないタスクを考えてみい。それから、もし子供や少数民族やったら、これらのAIツールの性能は悪くなるんや。
そしてLLMとの類似性を考えてみい。英語以外では、それらはそんなに良くないんや。研究が米国のGDPだけに焦点を当ててることに注目してくれ。それから、例えばOpenAIがAI研究を自動化するように設計されたツールを設計してるにも関わらず、新しい人を雇い続けてるっちゅう事実があるんや。同様に、放射線科では、人員数と給与が上昇し続けてるんや。
Karpathaの予測、5年後には今よりも多くのソフトウェアエンジニアがいるやろう。でも最後に、この乗数を軽視すんなって言いたいんや。仕事を自動化できなくても、AIによって加速される可能性があるんや。例えば、DescriptのAIは俺のビデオを完全に編集することはできへんけど、俺自身のビデオ編集を加速してくれるんや。
AIを理解し、それを使うことに慣れることは、まだコンテンツ制作に賭けることができる最高の賭けの一つやと思うんや。
視覚的な信頼性の転換点
到達したと思うティッピングポイントが一つあって、それは視覚的には少なくとも、ビデオで見てる人間が我々が思ってる人間やということを完全に信頼できなくなったっちゅうことや。
最後まで見てくれてありがとな。Proサブスクライバーやのにチャットパルスについてカバーしなかった。俺にはロールアウトされてないからや。イギリスでブロックされてるんかな。あらゆることを試したんや。とは言え、スケジュールされたタスクの代替のようやな。1月からのあれを覚えてるか?特定の時間にタスクを実行するようにChatGPTに頼めるやつや?全然動かんかった。
ちょっと失敗して、みんな忘れてしまったんや。でも今、Pulseがあるんや。そやから、それがもっとうまくいくかどうか見てみよう。素晴らしい


コメント