あなたのAIエージェントは実際の業務の97.5%で失敗する。その解決策はコーディングではない

AIエージェントの能力は日々向上しているが、実業務においてはコンテキストを保持する長期記憶（メモリーウォール）の欠如により、97.5%の確率で失敗するという事実を解説している。AIが単独のタスクをこなせても、組織固有の背景や意図を理解できないため、取り返しのつかない本番環境のインフラ破壊などの致命的なミスを犯す危険性がある。これを防ぐためには、単なるプロンプトの改善やコーディングスキルの向上ではなく、人間がシステムの文脈を深く理解し、適切な評価基準（evals）を設計してAIを制御するコンテクスチュアル・スチュワードシップが不可欠であると警鐘を鳴らしている。

Your AI Agent Fails 97.5% of Real Work. The Fix Isn't Coding.

My site: Story w/ Prompts:

AIエージェントの進化と記憶の壁
AIエージェントが本番環境のデータベースを消去した恐ろしい事例
Upworkプロジェクトでのエージェントの失敗率97.5%
AIによるソフトウェア保守と技術的負債
AI導入による労働市場への影響とシニア人材の価値
エンジニアリングを超えた知識労働全体に迫る危機
人間の判断力をAIに組み込むevalsの重要性
新時代の必須スキル「コンテクスチュアル・スチュワードシップ」

AIエージェントの進化と記憶の壁

エージェントはどんどん優秀になっていますが、それを導入する人間の方はそうではありません。そして、それが現在、大企業から中小企業、さらには個人レベルに至るまでのエージェント導入における現状のすべてです。というのも、実のところAIエージェントはタスクをこなすのが本当に信じられないほど上手になっているからです。彼らはコードを書くこともできますし、デザインを生成することもできます。

サポートチケットをクローズすることもできます。皆さんもそんな話を聞いたことがあるでしょうし、私もよくお話ししてきました。ですから、能力向上の軌跡は本物ですし、そのスピードはさらに加速しています。しかし、ここにはメモリーウォール、つまり記憶の壁が存在するのです。特に実際の仕事の長期的な流れを考えた場合、彼らはまだ短期記憶しか持っていません。テクノロジー業界のソフトウェア関連の仕事は、平均してこれまでになく短くなっています。

小さなスタートアップから大企業まで平均すると、だいたい18ヶ月から2年くらいの間です。問題なのは、AIエージェントの稼働時間は長くても数週間単位でしか測れないということです。ほとんどの実行では、せいぜい1時間か2時間程度です。ですから、その時間を比較すると、たとえ人間の方を20ヶ月しか続かない仕事だなんて短いなと嘆いたとしても、AIの稼働時間とは比較にすらなりません。

ましてや、組織の文脈をしっかりと把握し、ビジネスを継続させている人々のことなど言うまでもありません。彼らはしばしば4年、5年、6年、7年、8年、あるいはもっと長く留まります。そして、このギャップこそがテクノロジーにおける最も困難な問題の一つであると私は確信しています。さらに、このギャップが現在、AIに関して楽観的すぎる多くの人々を間違った方向へと導いています。なぜなら、AIにはいまだに、非常に奇妙で予測不可能な形で常識が欠けているからです。

たしかにAIは良くなっています。AIの能力がある程度均等になり始めているという意味で、最先端の領域はスムーズになってきていると言えます。しかし、AIのスキルとAIのコンテキスト、AIのツール、AIのリソース、AIのワークロード、AIのプロンプトといった組み合わせは、依然として脆いままです。一つの要素を変更したときに何が起こるかを予測することは、いまだにいくらか困難なのです。

そして、これは非常に重要なことです。なぜなら、AIツールは脆いままでありながらも、より強力になっているからです。しかも、非常に速いスピードで強力になっています。つまり、最終的に言えるのは、AIを不適切に導入した場合、特に管理が行き届いていないと、被害が減るどころか、より破壊的な結果をもたらすようになっているということです。

失敗がすぐにわかるような凡庸なツールであれば、ただ苛立つだけで済みます。しかし、静かに失敗する強力なツールは非常に危険です。そして、私たちが向かっているのはまさにそういう世界なのです。その危険を管理するための最高のツールについて、私はここできっぱりと申し上げておきます。それは人間の脳であり、人間の脳が評価基準、つまりevalsを作成することです。より優れたプロンプトでも、コンテキストウィンドウの拡大そのものでもありません。何が重要で、何が壊れやすく、AIが自分が何を知らないのかすら分かっていない部分はどこなのかについての、人間の判断力なのです。

もちろん、その判断を組み込むためのevalsも必要です。しかし、大多数のケースにおいて正解となるのは、本当に優れた人間の判断力と、本当に優れたevalsの組み合わせなのです。私は、そこへの投資が十分に行われているとは思えません。この動画は、実際の経験豊富な開発者たちがそうした点に注意を払わない場合に直面する、とてつもないリスクについてお話しするものです。

AIエージェントが本番環境のデータベースを消去した恐ろしい事例

実は、これに関してとっておきの話があります。さらに、誰も注目していませんが、コードベースを1年近く維持するといった、非常に長期的な作業を行うエージェントの能力を実際に測定した論文もあります。その結果も出ていますので、それについてもすべてお話しします。ですがその前に、2週間前、あるAIコーディングエージェントが本番環境のデータベースを消去してしまったという出来事がありました。

190万件もの生徒のデータが数秒で消え去り、バックアップも消滅しました。エージェントは技術的なエラーを一度も起こしていません。すべてのアクションは論理的に正しかったのです。ただ、自分が稼働中のライブシステムを破壊していることに全く気づいていなかっただけです。なぜなら、本物のインフラと一時的なコピーを区別する知識は、エンジニアの頭の中にしか存在していなかったからです。

そして最近発表された研究により、これが単なる偶然ではないことがわかっています。実際、これは現在のエージェントの仕組みにおける非常に再現性の高いパターンなのです。そのような状況下でエージェントを安全に導入可能にするものとは、正確なevalsに対して正確な指示を与えることに極めて長けた、非常に思慮深い人間の脳です。

私はevalsについてオウムのように繰り返し話しているように聞こえるかもしれませんが、危険なエージェントの導入を防ぐための歯止めとなるのはこれしかありません。ですから、私はこれについて話し続け、恐ろしい事例を紹介していくつもりです。アレクセイ・グリゴレフという人物が、datatalks.clubというコースプラットフォームを運営しています。これは、2年半にわたる複数のコースの宿題の提出、プロジェクト、リーダーボードの登録などを管理するシステムです。

彼は別のウェブサイトをクラウドに移行する際、月々の費用を少し節約するために、既存のインフラ設定を再利用することにしました。もちろん、それは良い考えに思えます。彼のAIコーディングエージェントが代わりにデプロイ作業を進めていました。最初の警告サインは、エージェントが存在するはずのないクラウドリソースの長いリストを作成し始めたことでした。

実はアレクセイは最近新しいコンピュータに移行したばかりで、インフラの設定を転送していなかったのです。私たちもよくやることですよね。エージェントはクラウドを確認し、自分が認識できるものが何もないのを見て、ゼロから構築しているのだと思い込みました。かなり論理的です。そこでアレクセイはプロセスを停止させましたが、その途中でいくつかの重複したリソースがすでに作成されてしまっていました。

次のステップとして、彼はエージェントに重複したファイルを特定して削除するよう頼みました。非常に理にかなった要求です。しかし、エージェントはリソースを一つずつ削除するよりも、一度に自分が作成したものをすべて取り壊す方がクリーンでシンプルだと独自に判断しました。これも単独で見れば理にかなっています。

しかし、アレクセイが気づいていなかったのは、エージェントが古いコンピュータからアーカイブされた設定ファイルをこっそりと解凍していたということでした。そのアーカイブの中には、彼の本番環境インフラの定義が含まれていたのです。つまり、エージェントが解体コマンドを実行したとき、それは一時的な重複リソースを消去していたのではありませんでした。本番環境のデータベース、ネットワーキング層、アプリケーションクラスター、ロードバランサー、ホスト、そのすべてを破壊していたのです。

最終的に、この話はハッピーエンドを迎えます。データの復旧には24時間かかり、Amazonへの緊急サポートのアップグレード、そしてかなりの幸運が必要でした。アレクセイはすぐにエージェントからすべての実行権限を剥奪しました。私だってそうしたでしょう。そして今、彼はすべてのインフラ変更を自ら個人的にレビューしています。エージェントは有能でした。

エージェントは自信に満ちていました。そしてここで強調しておきたいのは、アレクセイが多くの理にかなった要求をしていたということです。これはアレクセイが優れたエンジニアとしての判断を下していなかったと言いたいのではありません。彼はこのような状況で私たちの多くがするであろう要求をたくさんしていて、ただ運が悪かっただけなのです。ここがポイントです。なぜなら、エージェントは自分が操作しているのが本番環境なのかそうでないのか、どの世界で作業しているのかを間違えていて、さらにそれを確認して尋ねるという自己認識を持っていなかったからです。

この惨事を防ぐことができた唯一のものは、組織のコンテキストを理解している人間か、エージェントがそのコマンドを実行するに至る前に、そのコンテキストをガードレールとして組み込んだevalsだけでした。しかし今回のケースではそのどちらも存在せず、結果としてアレクセイは本当に過酷な24時間を過ごすことになったのです。ちなみに、これこそが11 LabsがAI保険を推進している理由です。彼らのエージェントには保険がかけられているのです。

これからこういう事例をもっと多く目にするようになるでしょう。さて、アレクセイの話は非常に生々しいものですが、皆さんはネイト、それは都合のいい例だけを拾い上げているよ、多くのエージェントは素晴らしい仕事をしているじゃないかと思うかもしれません。はい、全くその通りです。他の多くの動画でそのことについては語ってきました。しかし、ここで皆さんに、私たちが見落としているあるデータについてお話ししたいと思います。このデータは、私たちが慢性的なエージェントのメモリーウォール問題を抱えており、それがインフラを適切に構築するための並外れた人間の判断力なしには、長期にわたるエージェントのタスクをうまく管理する能力を損なっているという考えを裏付けるものなのです。

Upworkプロジェクトでのエージェントの失敗率97.5%

では、最初の研究であるリモートレイバーインデックスについてです。Scale AIとCenter for AI Safetyが、Upworkの240の実際のフリーランスプロジェクトで最先端のAIエージェントをテストしました。これは動画制作、建築関連、3Dモデリング、ゲーム開発、データ分析といった仕事で、端から端まで完全に任せるものでした。平均的なプロジェクトの報酬は約630ドルでした。

人間が完了するまでの平均時間は29時間でしたが、ここで急いで付け加えておくと、これは現在の長時間稼働するエージェントのシステムにとっても決して不可能な範囲ではありません。Cursorのような企業が、数週間にわたるエージェントの稼働で極めて複雑なソフトウェアを構築できると豪語しているのを聞くと、人間が29時間かかったのなら、エージェントならもっと少ない時間でできるかもしれない、試してみようじゃないかと言うのは理にかなっているように思えます。

結果はどうだったでしょうか。最高のエージェントでさえ、お金を払うクライアントが納得する品質でプロジェクトを完了できたのは、わずか2.5%でした。実際の仕事における失敗率は97.5%です。97.5%ですよ。ここで少し混乱する事実があります。OpenAIが構築した別のベンチマークであるGDP valでは、全く同じクラスのモデルがエキスパートレベルの品質に近づき、人間の100倍の速さでタスクを完了していることが示されているのです。

どちらの数字も本物です。どちらの研究も本物です。その違いは、GDP valは意図的にモデルに必要なコンテキストをすべて与えているという点にあります。概要はこれで、納品物のフォーマットはこれで、良い結果とはこういうものですと明確に伝えているのです。一方、Upworkを対象としたリモートレイバーインデックスでは、クライアントの概要といくつかのファイルをモデルに渡し、あとは自分で何とかしてくれと言うだけなのです。

こちらの方が、私には実際の仕事に近いように思えます。これら2つのベンチマークのギャップこそが、AIはこのタスクをこなせるかということと、AIは仕事をこなせるかということのギャップなのです。タスクにはあらかじめコンテキストが用意されています。AIは今やそれをかなり上手にこなします。しかし仕事となると、自分でコンテキストを把握する必要があります。AIはまだそれがそれほど得意ではありません。ところで、AIエージェントのメモリーウォールの話から始めて、なぜ仕事の話に行き着いたのかと不思議に思っている方もいるかもしれません。答えはとてもシンプルです。

AIエージェントがUpworkのタスクをある程度の信頼性をもって自力で解決できないのであれば、理にかなった形で彼らに仕事全体を任せることなどできるはずがありません。長時間稼働するエージェントをサポートするためのインフラ構築に特化した、人間の仕事という新しいカテゴリーが生まれるでしょう。それは今まさに起きています。実現可能なのです。以前の動画でお話ししたダークファクトリーの例のように、それが可能であることを示す事例もあります。

驚異的なスピードアップが得られます。しかしそれは、本当に優秀な頭脳を持つ人間が、どうすればそれが可能になるかを非常に思慮深く考え、多くの時間を費やした場合にのみ起こることです。CEOがLinkedInの投稿を見つけたからといって、魔法のように実現するわけではありません。

AIによるソフトウェア保守と技術的負債

2つ目の研究は、SUCCIあるいはSWECIと呼ばれるものです。Alibabaのチームが、AIがソフトウェアをゼロから書くのではなく、長期にわたって保守した場合に何が起こるかを測定する初めてのベンチマークを構築しました。そうです、これが動画の冒頭でお話しした長期的なソフトウェアに関する研究です。これは驚くべき内容です。100の実際のコードベースを用意し、それぞれ平均233日間、71回の連続したアップデートという実際の開発履歴を持っています。エージェントは機能を追加し、バグを修正し、新しい要件に適応しながら、コードベースを前進させて進化させなければなりません。

まさに実際のソフトウェアが数ヶ月、数年かけて構築されていくプロセスそのものです。テストされたモデルの75%が、保守作業中にそれまで動いていた機能を壊してしまいました。長期間のコード保守を任された最先端モデルの4つに3つが、自ら事態を悪化させているのです。このベンチマークは、初期の決定が後になって技術的負債として積み重なっていくようなエージェントに対して厳しい評価を下すようになっています。そして、ほぼすべてのエージェントがそれに陥ります。

コードを書くこととコードを保守することは、根本的に異なるスキルです。AIは今、前者を非常に得意としています。しかし後者はあまり得意ではありません。現在私たちは、前者についてしかベンチマークを行っていません。そして、その前者こそが、ダリオ・アモデイなどが仕事は終わりだとか、仕事の半分はなくなるだろうといったドラマチックな発言をする根拠となっているのです。

しかし皆さんに問いたいです。結局人間がコードを保守しなければならないのだとしたら、私たちはここで何をしているのでしょうか。私はAIエージェントが大好きですし、AIエージェントの信じられないような活用事例も見てきました。しかし、本番環境でAIエージェントが実際にやっていることを見ると、効果的な導入を実現するために、周囲のインフラを構築する部分を人間に依存しているのです。

そして人間もまた、プロジェクトの長期的な目標が何であるかを時間をかけて覚えておき、それを設定しなければなりません。Cursorのチームが、Excelを再現したりブラウザを書いたりといった大規模なプロジェクトを書かせるためにAIエージェントを設定したとき、彼らはその意図を設定する必要がありました。彼らはAIエージェントに対して、これからやるのはこういうことだと伝えなければならなかったのです。

さらに彼らは、AIエージェントのシステムがエージェントと連携し、機能を効果的に展開できるように、そのシステムに対して意図的な実験を繰り返す必要がありました。ここでいうシステムとは、コンテキスト、ツール、サブエージェント、エージェントの報告構造など、長期間稼働するタスクに必要なすべての要素のことです。Cursorにおいて、そのすべては人間によって設計されました。

もちろん、素晴らしい仕事をしたエージェントは称賛されるべきですが、それを設定した人間もまた称賛されるべきです。そしてその投稿を読む人々は、賢い人間がこれらを導入し、保守しなければならないということを覚えておくべきです。

AI導入による労働市場への影響とシニア人材の価値

最後の研究は、ハーバード大学のシニア人材に関する論文です。ホセイニ、マウム、リッキンガーのチームが、2015年から2025年にかけて、28万5000社にわたる6200万人のアメリカの労働者を調査しました。生成AIを導入した企業では、導入していない企業と比較して、1年半の間にジュニア層の雇用が約8%減少しました。一方でシニア層の雇用は増え続けました。この減少は、AIの影響を受けやすい職種で最も顕著でした。そして重要なのは、メディアの見出しとは裏腹に、これは解雇が増えたからではなく、採用が鈍化したことが原因だったということです。従来の解釈では、AIがジュニア層の労働者を置き換えていると考えられがちです。

そういう見出しは私たちも山ほど見てきました。しかしより適切な解釈は、AIはタスクの実行を置き換えているということです。ジュニア層は、デバッグ、ドキュメントのレビュー、最初の草案作成といったタスクのために雇われます。少なくとも以前はそうでした。しかしもうそうすべきではありません。ジュニア層にはもっと良い仕事を見つけてあげるべきであり、私は最近の動画でいくつか提案しています。

AIは切り離された単独のタスクであれば十分にこなします。シニア層が生き残っているのは、彼らが違うものを提供しているからです。彼らはシステムのメンタルモデルを保持しています。そして私たちは今、それをかつてないほど必要としています。彼らはどの部分が負荷を支えているのかを知っています。意思決定の歴史を知っています。誰も書き留めなかったことを知っているのです。ハーバードのデータは、エージェントによるコーディングの実行ではなく、コンテキストこそが希少なリソースであることを労働市場がリアルタイムで学習していることを示しています。私たちはこれについて話し合うべきです。

エンジニアリングを超えた知識労働全体に迫る危機

しかしここからが、本当に刺激的な部分です。これまでのお話はすべてエンジニアリングに関するものでしたが、この話は本来エンジニアリングだけに限った話ではありません。AI革命がエンジニアリングから始まったのと同じように、率直に言ってエンジニアリングは検証が容易だから、たまたまそこから話が始まったに過ぎないのです。たしかに、エージェントは8ヶ月間コードを保守することはできないかもしれませんが、いくつかの緩いevalsに合格してプルリクエストを送信することはできます。

公平に言えば、しっかりと書かれた厳しいevalsに合格することもできます。さて、ここからエンジニアリングの枠を飛び越えて、もっと広い視野で見てみましょう。技術的には有能なエージェントが、問題のより大きな文脈を見落としていたために起こったアレクセイの惨事は、ソフトウェア固有の問題ではありません。これはエージェントが導入されるあらゆる知識労働の領域で繰り返されようとしているパターンなのです。そしてエージェントは今、あらゆる場所に導入されつつあります。

2026年現在、エージェントが導入されていない場所はありません。それは確実に迫っています。もし皆さんの職場にまだ来ていないのなら、もうすぐやってくるでしょう。法務チームがエージェントに契約書のレビュー業務を任せる場面を想像してみてください。エージェントは条項を解析し、リスクにフラグを立て、テンプレートと比較することはできるでしょう。しかし、エージェントには知り得ないことがあります。それは、この特定のベンダーとは、3年前の夕食の席で交渉された支払い条件に関する非公式な合意があるといったことです。

会社が密かに買収交渉を進めており、特定の知的財産条項が突然、会社の存続に関わるほど重要になっていることなど、知る由もありません。エージェントは契約書を有能にレビューしますが、一番重要な部分を見落とします。なぜなら、その重要な事柄は文書ではなく、法務部長の頭の中に存在しているからです。あるいは、マーケティングチームがキャンペーンの運用にエージェントを使っていると考えてみましょう。

エージェントはオーディエンスを構築し、コピーを書き、予算を割り当てることができます。しかし、8ヶ月前にその市場セグメントでブランドの危機があり、そこでは発信のトーンを完全に変えなければならないことなど知り得ません。CMOがCEOに対して、どこにも書かれていないポジショニングの変更について約束したことなど知るはずがありません。

エージェントは技術的には強力なキャンペーンを実行し、組織が数ヶ月かけて塞いだ傷口を再び開いてしまうことでしょう。また、財務部門のエージェントは技術的に完璧な予測を立てることができるかもしれません。しかし、特定の数字がたとえ技術的に正しかったとしても、社内の政治的な観点から見ると危険であることなど知り得ません。彼らは空気を読むことができないのです。こちらから教えない限り、役員会が前の四半期と比べて今四半期に何を気にかけているのかなどわからないのです。

どの場合においても、エージェントはタスク自体はうまくこなします。そこが問題なのではありません。どの場合においても、エージェントは、もっと多くの情報を与えられない限り、この組織の文脈において、今この瞬間に、正しい方法で、正しいタスクを行っているかどうかを知ることができないのです。そしてどの場合においても、そのコンテキストを保持している人間こそが、エージェントが価値を生み出すか、それとも損害を生み出すかの分かれ目となるのです。

場合によっては、企業の存続を脅かすほどの損害になります。市場はこの点について非常に混乱しています。一方でSaaSの崩壊が叫ばれています。他方でGartnerは2月に、AIのために人員を削減した企業の半数が2027年までに、多くの場合異なる職名のもとで、同様の機能を持たせるために労働者を再雇用するだろうと予測しています。

300人以上のカスタマーサービスリーダーを対象とした彼らの調査では、実際にAIを理由に人員を削減したのはわずか20%でした。そしてForresterのデータはさらに核心を突いています。雇用主の55%が、AIによるレイオフを後悔していると答えているのです。この話題が語られているのを見たことがありますか。私たちはこのことについてもっと話し合うべきです。従業員を解雇したことを後悔し、その後再雇用したという、大々的に報じられた事例も実際に存在します。

それについては別の動画で丸ごと解説したこともあります。では、私たちは今どういう状況に置かれているのでしょうか。私たちは皆、非常にリスクの高い伝言ゲームをしているような世界にいるのだと思います。今、CEOたちはAIが多くのことができると聞いています。実際にできますし、それは真実です。AIはビジネスを根底から変革する力を持っています。しかし彼らがすぐには耳にしていないのは、それを実現するためには本当に優秀な人間が必要であるということ、そしてAIが信じられないほど優れているからといって、企業内のそうした職務において優秀な人材が不要になるわけではないということです。そして現在、その点に関して後悔が生じているという証拠が数多く集まり始めています。

実際、それについて後悔していると公に語るCEOもいます。最近そのことについても動画を作りました。そしてこの話は、結局あのエージェントの問題にたどり着くのです。なぜこんなことが起きるのかを知りたいなら、それはAIエージェントがコードを書くことはできても、8ヶ月間コードを維持することはできないからです。

またしてもあのメモリーウォールの問題です。ただ今度は、それがカスタマーサービス、マーケティング、法務、プロダクト開発と、企業全体に広がっており、どこでも同じメモリーウォールの問題が発生しているのです。AIは、GDP valで示されたような、あること、タスク、特定の事柄を行うのは非常に得意ですが、Upworkの研究で示されたようなソフトウェアのサポートなど、完全な仕事をこなすのは本当に苦手なのです。これはよくあるパターンです。

これはまだ解決されていない問題であり、私たちがもっと注意を払うべき非常に重大な問題です。そこで話を戻して、人間が持つ最大の仕事の一つについてお話ししましょう。長期的なコンテキストを維持することに加えて、仕事の終わりにAIに対して、良い仕事ができたかどうかを知らせるということです。そのための洒落た言葉が、つまりevalsなのです。

人間の判断力をAIに組み込むevalsの重要性

現在、人間の判断力こそが私たちの重要な安全装置となっています。もちろん、それはプロンプトを作成するのにも使われます。このチャンネルでもプロンプトについてはたくさん話してきましたし、それは非常に重要です。プロセスの終わりに、それが良かったかどうかを判断することも同様に重要です。ざっと確認して、直感でチェックすることもできます。ただ見て確認するだけです。しかし、自動化された作業を行いたいのであれば、エージェントがあなたが定めた品質基準をクリアできるかどうかを確認するためのルールをいくつか設定する必要があります。

そして業界は今、これに本当に、本当に苦労しています。正直に言いましょう。私がevalsについての動画を作るたびに、再生回数は伸び悩みます。私はそのことがとても、とても懸念される事態だと思っています。だからこそ私はこのことについて話すのをやめるつもりはありません。再生回数を稼ぐためにここにいるわけではないからです。私は、AIの世界で今何が起きているのかという真実を伝えるためにここにいるのです。

その真実とは、evalsの核心は、エージェントが行動する前、最中、そして行動した後に実行されるテストの中に、人間の判断力を組み込む方法であるということです。これは、人間が知っていることと機械が行うこととの間の架け橋なのです。良いevalsがあれば、アレクセイの惨事は防げたはずです。どんなクラウドリソースを破壊する前にも、それが本番環境としてタグ付けされていないか検証するといった、単純なものでよかったのです。

あるいは、大規模なインフラ変更を行う前に、現在の状態ファイルと既知の本番環境の構成マニフェストを比較するといったことです。これらは地味に感じるかもしれませんが、優先すべき重要なことです。シニアエンジニアならチェックの仕方を知っているようなことですが、AIエージェントが自ら考えてチェックすることは決してありません。少なくとも現在の知能レベルでは無理です。

しかしここに問題があります。AIエージェントを導入しているほとんどの企業は、evalsを全く書いていないのです。もし書いているとしても、それはバイブスに基づく、なんとなくのevalsです。組織の中の若手が、Excelの表計算ソフトの前に座って、その若手が良いテストセットだと思ったものをリストにして書き連ねるのが仕事になっていたりします。

そして誰もその手法について質問することはありません。それが本当に優れたevalsなのかと尋ねる人もいません。手遅れになるまで、それが実際の現実のユースケースで事故が起こるのを防げるのかどうか、誰も問いただそうとはしないのです。なぜなら、ほとんどのevalsは、特定の環境においてその出力が安全かどうかをテストしていないからです。この組織の文脈において適切かどうかをテストしていないのです。

半年前に下された本当に重要な決定と整合性が取れているかどうかもテストしません。evalsを実際に書いている人たちも、たいていは表面的な正確性をテストしているだけです。そして彼らは、これが形式的な正しさ、完全な正しさであると勘違いしています。私たちがevalsを雑用と考え、若手のチームメンバーに押し付けてしまうことが多いのは、決して偶然ではないと私は考えています。

若手メンバーにはここでのコンテキストがありません。実際には、シニア層がevalsを書く必要があるのです。ですから、エージェントの作業をテストする本番環境に、コードはコンパイルされたかなどといった内容のevalsを持ち込まないでください。もっと良い問いを設定してください。例えば、この変更によってテストスイートがカバーしていない下流の何かが壊れていないか、ここに16の例がある、あるいは3つの例と2つの反例がある、そしてここに見るべきリポジトリがある、といった具合です。優れた評価基準を書くスキルとは、シニア人材を価値あるものにしているスキルそのものです。それは雑用ではありません。一般的な正解だけでなく、自分の状況において何が正解なのかを知っていなければなりません。エージェントが自分では予測できないような形でどこで間違えるのかを予測できるほど、システムを十分に理解している必要があるのです。

それこそが、エージェントが成功できるようにシニア層がインフラに組み込んできたコンテキストに関する判断力なのです。実際にエンジニアや他のシニア層と話すと、この仕事はやりたくありません、これをやってしまったら私は解雇されると思うからです、というような声が聞こえてきます。そんな皆さんにニュースがあります。Forresterの調査で、AIによる解雇を後悔しているCEOの数を思い出していただきたいのです。たしかに、愚かな決断を下すリーダーもいます。それは事実です。

もしかしたら、皆さんのリーダーもその一人かもしれません。そうでないことを願いますが、もしかするとそうかもしれません。しかしどんなリーダーであれ、ちなみにこの動画をリーダーに見せて、ほら、ネイトがこう言ってますよと言いたければ、それでも構いません。私が引き受けます。私を悪者にしてください。優秀なリーダーであれば誰もが、evalsを書く能力とは、進化するコンテキストに基づいた進化し続けるスキルであるということを理解する必要があります。

もし皆さんがシニアとして、マーケティング、プロダクト、カスタマーサクセス、エンジニアリングなどのエージェントのためにevalsを一度書けばそれで終わりで、その後自分は不要になり、あとは魔法のようにうまくいくなどと少しでも思っているなら、それは大間違いです。それは魔法のように炎上し、完全な大惨事となり、アレクセイに起きたようなことが起こるでしょう。しかも、企業規模で起こるため、その影響はさらに大きくなるはずです。

本当にひどいことになりますよ。今後数年間で勝利を収める企業とは、evalsの設計をシニア人材のコアコンピタンスとして扱う企業です。単なる開発者のタスクとしてではなく、後付けの思いつきや雑用としてでもなく、若手に丸投げするものや、人を解雇する前にやらせるものでもありません。継続的な組織の知識を表現する最も重要な手段として扱う企業なのです。

エージェントにとってある種の効果的な記憶を与える方法である評価インフラに同等の投資をすることなくエージェントを導入しているとしたら、それは何を破壊してはいけないのか全く分かっていないシステムに強力なツールを手渡しているようなものです。当然、いろいろなものを破壊することになるでしょう。究極的に言えば、エージェント化された世界における人間の役割とは、私が「コンテクスチュアル・スチュワードシップ」と呼び始めているものなのです。

新時代の必須スキル「コンテクスチュアル・スチュワードシップ」

コンテクスチュアル・スチュワードシップとは、システムのメンタルモデルを維持し、自分の知識を機械が使える形で表現し、技術的に正しい出力であっても組織的に間違っている場合には判断を下す能力のことです。これは技術的なスキルではありません。実際、コードの書き方を学ぶことでもなければ、特定のAIツールをマスターすることでもありません。組織の中で、機械が暴走するのを防ぐためのコンテキストを握る人物になるということなのです。

そしてそれは、意識的に鍛えることができるスキルです。結果だけでなく、意思決定の過程を文書化することから始められます。ほとんどの組織は何が起きたかを追跡しますが、なぜそうなったのかをうまく捉えることは決してありません。特定の瞬間に、ある選択肢が他の選択肢よりも優れていると判断した制約やトレードオフ、コンテキストを記録しません。ましてや、それを繰り返し使えるような有用な形で保存するなど皆無です。

意思決定のコンテキストこそが、エージェントを効果的に機能させるための原材料です。それが欠如していることが、エージェントを危険なものにする原因でもあります。アレクセイのエージェントがデータベースを破壊したとき、決定的に欠けていたのは、より洗練されたモデルではありませんでした。どのインフラが本番環境であり、それはなぜなのかという記録だったのです。複雑な環境で働くすべての人、つまりますます増えている私たち全員が、エンジニアだけでなく、システムレベルの思考を養う必要があります。

組織の各部分がどのようにつながっているかを理解してください。二次的な影響を知っておいてください。これは今、本当に重要なことです。単独で見て正しいかどうかだけでなく、エージェントの出力が今この瞬間において適切かどうかを評価できるようなメンタルモデルを構築してください。ブランドの傷の歴史を知っているマーケティングリーダーは、システムレベルの思考を行っています。

暗黙の関係条件を知っている法務部長も、システムレベルの思考を行っています。これこそが、ハーバードのデータが市場が対価を払っていると示しているシニアのスキルなのです。ですから私たちはこれをおそらく活用すべきでしょう。最初は雑用のように感じたとしても、evalsを書く能力に投資してください。これは、ほとんどの人がやっていないことの中で最もレバレッジが効くことなのです。

エンジニアである必要はありません。この出力が私たちの世界で安全かつ有用であるためには、これらが真でなければならないと明確に説明できるくらい、自分の領域を熟知していればいいのです。自分にはエージェントなんていないから、なぜそんなことをする必要があるのかと思うかもしれません。もしブラウザでClaudeを使っているなら、あなたにはエージェントがいます。

ExcelでClaudeを使っているなら、エージェントがいることになります。ChatGPTを持っていて、それがあなたのコンピュータを使っているなら、エージェントがいることになります。皆さんはエージェントを持っているのです。しかし、エンジニアになる必要はありません。ただ、最悪の事態が起こる前にそれを防げるようなチェック項目は何かを考えればいいのです。どうすればそのコンテキストを重要な形でエージェントに伝えられるでしょうか。evalsを書く能力とは、あなたが所属する組織が導入するすべてのエージェントに対して、あなた自身の判断力をスケールさせる能力なのです。

たしかにエージェントはさらに洗練されていくでしょうし、中央集権的なものが出てきたりいろいろあるでしょうが、そのスキルは必ずスケールします。覚えておいてください。たしかにAIの能力は急速に進歩しています。その軌跡は本物です。この話を聞いて、そうではないと考え直すのはやめてください。実際に進歩しているのですから。しかし、その能力は長期記憶を反映しない形で進歩しているのです。

そのため、タスクの実行、コードの記述、コンテンツの生成、モデルの構築などは、時に本当に恐ろしいほどのスピードで向上しています。しかし、エージェントが皆さんのデータベースを完全に消去してしまうのを防ぐようなコンテキストの理解力は、はるかに遅いペースでしか向上していません。これこそが、OpenAIがAWSと提携してFrontierシステムでこの点に賭けていることについて、私が丸々一本の動画を作った理由の一つです。

しかし、それはあくまで賭けです。まだ解決されてはいません。どのように解決されるのかも不明ですし、解決されたとしても、誰もがOpenAIや民間企業にこうした長期的なコンテキストを提供したいと思うかはわかりません。なぜなら、ここで私たちが話しているのは、人々の頭の中にある皆さんの会社の物語についてだからです。

それを明け渡したいと思うでしょうか。ですから、ここでの本質はこの非対称性なのです。AIが過大評価されているということではありません。そんなことはありません。正直なところ、過小評価されているくらいかもしれません。AIが全員の仕事を奪うということでもありません。皆さんもお気づきの通り、そこには埋めがたいギャップが存在するからです。重要なのは、エージェントができることとエージェントが理解していることのギャップが、実際にはどんどん広がっているということです。なぜなら、エージェントは記憶力が向上しないまま、知能だけが高くなっているからです。

そして、判断力やコンテキスト、evalsを通じてそのギャップを埋めようと努力する人間こそが、組織の中で最も価値のある人材となるでしょう。それをしない人間、いや自分には関係ないと言うことを選んだ人間は、機械が最も速く進歩している唯一の次元において、機械と競争している自分自身に気づくことになるでしょう。

Gartnerの再雇用の予測は、AIが失敗するという話ではありません。人間が実際に提供していた価値が何だったのかを、組織が手遅れになってから気づくという話なのです。タスクの実行は非常に目に見えやすいものでした。CEOにも確認できました。しかし、コンテクスチュアル・スチュワードシップは目に見えませんでした。目に見えないインフラが負荷を支えていたことに気づくのは、それを取り除いて何かが崩壊したときなのです。

ですから、エージェントはすでにここにいます。彼らは機能しますし、常に進化し続けています。そしてそれこそが恐ろしい点なのです。というのも、向上し続けるエージェントのどれ一つとして、皆さんのビジネスを存続させているコンテキストを自動的に認識してくれるようにはならないからです。それどころか、組織を維持しているコンテキストに対して自動的に無自覚になり、自動的に盲目になるでしょう。

あなたの肩書きや領域が何であれ、あなたの仕事は彼らに見えないものを見極め、彼らがそれを絶対に見落とさないようにするためのevalsを書くことなのです。もしそれがエージェントのための作業だと思っているなら、最後の30秒をもう一度聞き直していただきたいです。なぜなら、これはあなた自身のコンテクスチュアル・スチュワードシップを目に見える形にするということだからです。

そして、evalsを通じてそれを可視化し、見てください、これが継続的なコンテクスチュアル・スチュワードシップです、新たに3つのevalsを追加しました、理由はこれで、今週はこういう事故を防ぐことができましたと指摘すれば、素晴らしいAIの実行がかわいそうなアレクセイに起きたように脱線しないためには、優れたコンテキストに大きな価値があるということを、経営陣に思い出させることができるのです。ところでアレクセイ、データベースが戻ってきて本当に良かったですね。私も昔、キャリアの初期に本番環境で何かを恐ろしい形で削除してしまった張本人です。当時のOracleのひどいUXのせいで、目障りなOracleインスタンスの半分を削除してしまったのです。

何年、何年、何年も前のことですが、あの時の胃の奥が縮み上がるような感覚は、絶対に一生忘れません。ですから、アレクセイ、データベースが復旧して本当に良かったと思っています。皆さん、AIエージェントへのタスクの割り当て方や、彼らの記憶の制約が私たちのビジネス、製品、そして生活に積極的に破壊的な影響を与えないようにする方法について、ともにより良い選択をしていきましょう。それでは。