Aaron LevieとSteven Sinofskyによる、AIエージェントと将来の働き方についての深い議論である。両者は、真のAIエージェントとは背景で自律的に動作し実際の作業を実行するものであると定義し、現在のAI導入における課題と機会を分析している。特に、AGIの単一システム論への懐疑から始まり、専門化された複数エージェントによる分業モデルの有効性、企業におけるAI活用の現実的な進歩、そして人間の専門性がAI時代においてむしろ重要性を増すという逆説的な現象について論じている。技術的な観点から、コンテキスト窓の限界やハルシネーション問題の改善、プロンプトの複雑化など、AI実装の実際的な課題と解決策についても詳細に検討している。

- AIエージェントとは何か – 背景プロセスとしての新しい働き方
- 現実的なAI導入と人間の監視の必要性
- AGIに対する認識の変化と専門化の重要性
- 自動研究と再帰的自己改善への現実的視点
- 予測の困難さと技術の進歩
- 再帰的自己改善の技術的現実
- ハルシネーション問題の改善と企業文化の変化
- 専門家の優位性とAIの限界
- 歴史的なパラダイムシフトの教訓
- コンセンサス的な回答と専門性の価値
- ツールと専門知識の関係性
- プロンプトの重要性と企業におけるAI活用
- ワークフローの変革 – エージェントに合わせた働き方
- ワークフローの再設計とツールの進化
- プラットフォームシフトとしてのAI
- 生産性ソフトウェアの変革と専門性の変化
- シニア開発者のエージェント活用パターン
- 分業とツールの変化による仕事の再編成
- プロンプトの複雑化とAGIに対するカウンターナラティブ
- 専門化の加速と新しい職業の誕生
- モデルプロバイダーの脅威と企業の現実
- 推論コストと専門化の経済学
AIエージェントとは何か – 背景プロセスとしての新しい働き方
わしらは最初、AIの形というもんをチャットみたいに何かと会話するもんやと思うとったんや。ほんまのAIの最終形態、つまりAIエージェントっちゅうのは、お前の代わりにバックグラウンドで自律的に動いて、実際の仕事をやってくれるもんなんや。お前が介入せんでもどんだけ仕事してくれるかで、どんだけエージェント的になってるかが分かるっちゅうもんや。
何らかの形で、自分が出力したもんを自分にフィードバックして使うんや。これはLinuxのアンパサンドみたいなもんで、バックグラウンドタスクっちゅうやつやな。
でもな、これって世界で一番あかん助手みたいなもんなんや。エージェント化っちゅうのは、そんなめちゃくちゃ使えへん研修生をいっぱい雇うみたいなもんや。
この幅広いポッドキャストを始めるにあたって、シンプルやけど挑発的な質問をしたいと思うんや。エージェントって何やねん?
うわー、誰に対してやって?スティーブン、どうぞ。
そやな、わしはエージェントについてめちゃくちゃ古い人間の見方を持っとるんや。それはLinuxのアンパサンドそのもので、バックグラウンドタスクっちゅうやつや。
お前が何かをo3に打ち込んだら、「おー、これ試してみるわ。あ、ちょっと待って、パスワードがいるわ。これはでけへんな」みたいになるんや。世界で一番あかん助手みたいなもんやで。
実際のところ、プロンプトに答えるのに時間がかかる間、お前を楽しませとかなあかんからそうなっとるだけなんや。それがわしの古い人間のエージェント観で、エージェント化っちゅうのは、そんなめちゃくちゃ使えへん研修生をいっぱい雇うことなんや。
研修生も上手くなってきとるけどな。
確かに上手くなってきとるけど、まだわしがnatureにパスワード持っとるかどうかも覚えとらへんしな。
もしかして、あんたらが80年代90年代にあかん研修生しか雇わへんかっただけちゃうの?
わしらはほんまにひどい研修生を雇うとったからな。わしは研修生をめちゃくちゃ評価しとるんやけどな。
ほな、ちゃんとした答えを言うわ。わしらがこれらのもんがどうなってきとるかを集合的に見とると思うんや。
2年前のChatGPT後の時期を思い出してみい。わしらは、AIの形っちゅうのは何かと会話するもんやと思うとったんや。スティーブンの言う通り、AIとAIエージェントの本当の最終形態っちゅうのは、お前の代わりにバックグラウンドで動く自律的なもんで、お前のために実際の仕事を実行してくれるもんなんや。理想的な世界では、それらが作り出す価値の量に比べて、お前がそれらと相互作用する回数は相対的に少なくなるんや。
つまり、お前が介入せんでもどんだけ仕事してくれるかで、どんだけエージェント的になってるかを測る指標があるっちゅうことや。これがわしらが見とるパラダイムやと思うわ。
長時間動作することに加えて、わしが付け加えたいのは、何らかの形で自分が出力したもんを自分への入力としてフィードバックすることで、実際に長時間推論ができるっちゅうことや。めちゃくちゃ長時間動作する動画も作れるけど、それは基本的にシングルショット動画で、もっと計算リソースを投入するだけなんや。
技術的な制限があると思うんや。入力をフィードバックし始めると、それをどう制御するかよう分からへんからな。できると思うし、どんだけ長時間動作するかで測ることもできるし、実際に自分のガイダンスを何回使ったかでも測れる。それがより代理性っぽいかもしれへんな。
現実的なAI導入と人間の監視の必要性
この移行期において重要やと思うのは、アーロンが説明したのがわしらが向かう方向やっちゅうことや。ただ、その途中で起こる興味深いステップが何かっちゅうことや。当分の間、それに「正しい方向に向かっとるか?」って止まって言わせる必要があるからな。
同意なしに行動を取ったり、アカウントやデータを使ったりするホラーストーリーは置いといて、間違った方向にどんどん進んでる間に時間を無駄にしたくないっちゅう問題があるんや。
問題は、どの程度自分の代理権を持っとるかっちゅうことや。わしにとってそれは、何かを吐き出して、それをまた消費し直して、それでもまだ筋の通ったもんかどうかっちゅうことや。ちなみに、これらのもんを分散で考え始めると、実際にはめちゃくちゃ難しいことなんや。吐き出したもんを持ち帰る時に、それがまだ分散内にあるかどうか分からへんからな。自己反省がないんや。
これらのもんにどの程度独立した代理権を持たせることができるかっちゅう、めちゃくちゃ技術的な問題があると思うんや。でも長時間動作させるのは簡単にできるんや。
わしらは長時間動作は得意やからな。
エコシステムがどう問題を解決したり軽減したりしとるかが興味深いんや。エージェントの論理的な分割が見えとる。長時間動作するかもしれへんけど、実際には全部をやろうとはしとらへん。タスクを細分化すればするほど、何に取り組んどるかを完全に見失うことなく、単一のタスクでかなり遠くまで行けるんや。
Unixが正しいっちゅうことが証明されるやろな。もっと小さな粒度とツールに分割したくなるやろな。お前がXで言うとったように、それぞれのことの専門家になるように分割したくなるやろな。
そしたら、別のコードのボディになるかもしれへんな。「お前はこのことが得意か?この問題のこの部分について答えをくれ」って聞きに行くような。
AGIに対する認識の変化と専門化の重要性
AGIについての議論がこの6ヶ月でめちゃくちゃ進化したんは興味深いな。2年前のコンセンサスというか、一部の見方は、超知能で全てを解決する一枚岩のシステムやった。今の最先端と考えられるもんに早送りすると、それはたぶんうまくいかへんっちゅうことが分かってきた。少なくとも今のアーキテクチャでは、色んな理由でな。
そしたら、多くのエージェントのシステムがあって、そのエージェントが特定のタスクセットでめちゃくちゃ深い専門家にならなあかん。そして何らかの形でそれらのエージェントを一緒にオーケストレーションするんや。そしたら2つの異なるタイプの問題が出てくる。一つは深く行かなあかん、もう一つはオーケストレーションがめちゃくちゃ上手くならなあかん。
それがこれらの問題を長期的に解決する方法かもしれへんな。
これについてスッキリ考えるのはめちゃくちゃ難しいと思うわ。どっかに人間が入らへん円を描いて、めちゃくちゃ良いパフォーマンスを発揮するシステムをまだ見たことがないんや。
ある意味、G、汎用性っちゅうのは人間から来とるように見えることが多いんや。これらのもんは人間の生産性を上げるのがめちゃくちゃ上手いんや。いつか人間なしで生産性を上げるかもしれへんけど、それまではスッキリ話すのがめちゃくちゃ難しいんや。
AIの擬人化を超えることがみんなにとってめちゃくちゃ重要なんや。それがみんなを足止めしとるからな。AGIっちゅうのはロボットファンタジーランドのことで、それが仕事を破壊するとかいう馬鹿げた話につながるんや。そんなんは役に立たへん。そのホールから抜け出して、「うわー、ケーススタディを書くのがめちゃくちゃ上手いやん」って説明せなあかんからな。
わしのとこで働いとる人らよりも良いケーススタディを書くんやけど、誰について書けばええかは知らへん。何を強調したいかも必ずしも知らへん。予算がいくらか、何が必要か、何文字かも知らへん。でもAGIはめちゃくちゃたくさんの仕事をすることも分かったんや。
例えば、最近誰かがわしに「AGIがあったら、もうソフトウェア会社に投資せえへんくなるんちゃうか?」って聞いたんや。わしは「いや、お前はAGIやろ?わしはまだソフトウェア会社に投資しとるやん」って答えたんや。
AGIやからって、経済均衡や経済的実行可能性について何も言えへんのよ。AGIっちゅう言葉は、わしらが持っとるあらゆる恐怖とあらゆる希望に対して、基本的に無限の働きをするんや。問題のクラスを解決するだけやなくて、経済的に鉛筆で計算が合うかどうかまで落とし込めば、もっと筋の通った議論ができるんや。それが実際に今、議論に入ってきとると思うわ。
1年前よりもずっとまともに話しとると思うわ。
自動研究と再帰的自己改善への現実的視点
AI 2027ペーパーで言われとる自動研究や再帰的自己改善について聞いた時、それはフィクションやファンタジーに感じるか?それとも、それらがあってもピークソフトウェアにはほど遠くて、需要は無制限にあると思うか?
まず現実に錨を下ろしてもらって、それから逸脱できるようにせなあかん。
わしは今のところ、何年までにっちゅうのは一切買わへん。2027年には、その指標で何を意味しとったかで喧嘩しとるだけやろうし、業界のOKRみたいになって、馬鹿げた場所にいることになるからな。
でも全部10年かかると思うし、10年後のことは何も予測でけへん。どうやってそれを調和させるんや?
わしらは指数曲線の上にいるっちゅうことを認識せなあかんのや。誰の予測能力も働かへん。それはずっと続いて、平坦になることもないし、突然終わることもない。それがこれを他のプラットフォームシフトとは違うもんにしとるんや。
進歩を見てみい。ストレージ、帯域幅、コンピューティングの生産性、世界中の接続性で起こったのと同じや。指数的やから予測でけへんし、予測しようとして座っとるのは愚かなことなんや。
サイエンスフィクションはできるで。「将来、みんながパーソナルAIを持つ時代に」って言えるけど、「それが2029年に起こる」って言ったらアホや。
予測の困難さと技術の進歩
それは完全に正しく聞こえるな。基本的に3年前やったら、Cloud CodeやCursorやバックグラウンドでコードを書くエージェントなんて想像でけへんかったからな。
何らかの日付を設定して何かに名前を付けることのポイントって何やねん?
実際に適用されたAIでは、過去2年間で思うとった以上にめちゃくちゃ進歩を見たんや。でも1つか2つの予測が当たらへんかったからって関係あるか?ないやろ。
技術がどこにあるかを、クラシックなムーアの法則の観点から考える方が面白いと思うわ。どんだけ計算リソースがあって、どんだけのデータを処理しとって、これらのモデルがどんだけ強力か。
半分年取ったもん同士として聞くけど、AIが崩壊して、機械翻訳と機械視覚が失敗した後、誰もそれらが解決される問題になるとは思わへんかった。ニューラルネットが爆発して、エキスパートシステムを教えとった時代、ニューラルネットを教えようとしたら学生が反乱を起こした。みんなの時間を無駄にしとるからって。1999年にはヒントンがニューラルネットの資金調達でけへんかったんや。
わしの大学院時代には、人工知能の歴史の3巻本があったんや。ニューラルネットは8ページぐらいやった。
皮肉なことに、MLがクールなもんでニューラルネットが古いもんやった時代を覚えとる。今はMLが古いもんでニューラルネットがクールなもんになっとる。NLPもそうや。
解決でけへんかった問題に戻ってくるっちゅう事実がある。みんなの大好きな「数学が理解でけへん」っちゅうやつもそうや。数学は解決可能やから、解決可能な問題なんや。数字が何かを理解する数学レイヤーを誰も入れへんかっただけで、数学のエキスパートシステムをハードコードして組み込めばええだけや。それは1975年からMaximaがあるから、よう理解されとることなんや。
再帰的自己改善の技術的現実
何かを予測することがどんだけ難しいかを説明することが重要やと思うわ。再帰的自己改善を例に取ろう。これはわしのお気に入りの一つや。
再帰的自己改善の理論は、箱があって、そこから箱に戻る矢印があって「改善」って書いてあるグラフなんや。それを見たら「動くやん」って思うやろ。直感的に、箱に矢印が戻っとるのを見たら「よし、終わりや」って思うやん。
でも非線形制御理論について何か知っとったら、その質問に答えるのは技術科学で知られとる中で最も難しい質問の一つなんや。収束するんか?発散するんか?漸近するんか?
例えば、基本的な検索をしとったら再帰的自己改善はできるけど、漸近するんや。深い技術的観点から再帰的自己改善って言うても、ほとんど何も言うてへんのや。
でも不幸なことに、わしらはAIを擬人化する傾向があるから、再帰的自己改善って言うたら、突然「そしたらエネルギー境界と人間の知能を克服する」って思うんや。幼児から8歳児になるのと同じやって。それが分かったからって。
現実は、適応的なフィードバックループである非線形制御システムについて、比較的シンプルなシステムでも何が起こるかを理解する数学すら持ってへんのや。
出入りする分布を実際に知らなあかんのや。これらのもんは改善するやろし、改善し続けるやろう。自分自身を改善するかもしれへん。でも自分自身を改善するからって、それを続けることができるとは限らへん。これが、これらのシステムについて学んでいく全体的な旅の一部なんや。
良いニュースは、1年前よりもずっとまともに話しとると思うことや。それが続くことを願うわ。
願わくは、議論が再帰的自己改善してくれたらええんやけどな。
良いニュースは、それには人間が関わっとるから、実際にはモデル化でけへんっちゅうことや。
お客さんでもこれを見とるはずや。ハルシネーションについての議論を例に取ったら、過去2年間でどんだけ劇的に変わったか。
ハルシネーション問題の改善と企業文化の変化
実際に2つの次元でや。一つの次元では、ハルシネーションの問題が改善した。
モデルが良くなって、RAGでも何でも、コンテキスト窓の効力の問題すら改善したんや。技術的改善がスタック全体にあるし、同じように企業内での文化的理解もある程度できた。「なるほど、これらは非決定的システムで確率的なんやな」って。
文化シフトが始まっとるのが見えるんや。これらのシステムを使う従業員が、実際に検証する作業をせなあかんっちゅうことを理解しとるから、より重要なユースケースにAIを実装できるようになったんや。
そしたら唯一の問題は、検証にかかった時間と自分でやった場合の比率、そのワークフローでどんだけ効率が上がったかっちゅうことや。
2年半前は「うわー、これは史上最高のもんになる」っちゅう即座の興奮があったんや。3〜6ヶ月以内に現実チェックがあって、みんなが「ハルシネーションが大問題になる」って言うとった。それから数年後の今、ハルシネーション率が下がって、出力の質が上がって、これらのAIエージェントがやる仕事をレビューせなあかんっちゅうことを理解したんや。それはユースケースによって異なる形を取るんや。
コーディングの場合、コードをレビューしに行くっちゅうことや。どうせやらなあかんことやったんやけどな。人はそれを忘れとるみたいやけど。でも一緒に働いとる人を知っとったから、どの部分をもうちょっと詳しくレビューすべきかっちゅう理論があったかもしれへん。
専門家の優位性とAIの限界
それはAIの価値を暗黙的に制限することにもなって、人は不快に感じるんや。基本的に、AIより多く知っとる人を助けるっちゅうことなんや。AIがお前より多く知るようになったら、実用性が二分し始めるんや。
めちゃくちゃ興味深いのは、専門家の生産性が他の全てを上回ってるっちゅうことや。歴史的な出来事から予測できたかもしれへんし、どんなタイプのスキルがこれらのモデルの適切なユーザーかっちゅう良い理論を持っとると思うわ。
専門家のエンジニアは「スロットマシンでも構わへん。レバーを引いて何が出てくるか見るんや。10倍の生産性を得られるって分かっとるから。良いアイデアをくれるし、その生産性向上に値するほど良いもんを得られる」って言うとる。
もし専門家のエンジニアやなかったら、このスロットマシンをやって、間違っとるもんも全部デプロイしようとするやろうし、どのレバーを引けばええかも実際には分からへん。文字通り、何を求めて、どんな言語を使うかを知ることが大事なんや。
これはお前が言うとるめちゃくちゃ重要なポイントで、ツールを使うっちゅうことの本質に迫っとるんや。わしを12インチの丸鋸の前に立たせて「柵を直せ」って言うても、めちゃくちゃあかんアイデアやで。買うことはできるし、ハングリーを見に行って「DeWaltがええな、買えるわ」って言えるけど、あんまり良いアイデアちゃうやろ。
プラットフォームシフトがどう起こるかっちゅうのと、コーディングでこんなに興奮があるのは、プラットフォームシフトが定着する最良の方法は、新しいプラットフォームの専門家に最も近い人が最も熱狂的になることなんや。
歴史的なパラダイムシフトの教訓
Cubberly Community Centerでヨガをやっとるんやけど、スタジオがリモデル中で閉まっとるからな。面白いのは、そこが1990年代初期と80年代後期のコンピュータークラブの元祖の場所やったことや。コンピューターに会いたかったら、そこに行ったんや。Halt and Catch Fireみたいに、はんだごてを持った人らがいっぱいおったんや。
何かが壊れた時、「うわー、これらのもんはひどいな、時間を無駄にしとる」って言うのやなくて、会議全体が「誰かこの新しいディスクリートグラフィックスカードを実際に動作させて、ドライバーをデバッグできるか?」「この新しいPostScriptっちゅうもんで印刷できる人はおるか?」って感じやった。
それが今起こっとることやと思うわ。
開発とコーディングから始まるのは明らかや。彼らが最も寛容で、何がバグで何が絶対に直らへんもんかを最も理解しとるからな。注目すべきは、誰もコーディングが直らへんとは言うてへんっちゅうことや。2倍のコーダーには悪いもんを生成しとるかもしれへんけど、10倍のコーダーにはそうやない。「それは絶対に直らへん」って誰も言うてへん。
次に起こることは、ケーススタディやポジショニング文書、長文の資料の作成やと思うわ。その仕事がめちゃくちゃ上手かったら、適切な質問の仕方を知っとるし、何が良く見えるかも知っとるから、次のレベルでドメイン特化でけるんや。競合他社を理解する必要があるような、インターネットからリアルタイムで実際の情報を使う、統計的なもんやないやつな。
彼らは既に競合他社が何をしとるか知っとるやろ。
わしの大好きなシナリオは、「わしが書いたもんを攻撃してくれ」っちゅうやつや。エムダッシュを追加してちょっと良くするんやなくて、何を見落としたかを知りたいんや。最近、決算書について言うとったやつがあったな。
アナリストのように攻撃してくれっちゅうやつや。1社あたり6000時間のアナリストの質問があるんや。彼らが聞く質問なんて、どうせ3つぐらいしかないねん。経費項目とかな。
アナリストの人はこれを見んといて。アナリストについてのアドバイスやないけど、これがライティングで実際に起こることやし、PowerPointやスライドでも起こって、動画でも起こるんや。
コンセンサス的な回答と専門性の価値
でも重要なのは、コンセンサスの平均的な回答を得とるっちゅうことや。極限では、プロやったら実際に知っとることやけど、全部を通す時間がないし、覚えてへんかもしれへん忙しい仕事をオフロードしとるんや。
ある意味、生産性に役立つけど、お前が特定の専門家である問題を解決しとるわけやない。非専門家にとってはちょっと脅威に感じるかもしれへん。その仕事ができるからな。
スティーブン、企業が今どこにあるかを現実に根ざして聞いて、それから逸脱できるようにしてくれ。
わしは今のところ、何年までにっちゅう話は一切買わへん。どの年を買おうとしても、2027年には指標で何を意味しとったかで喧嘩しとるだけやからな。業界のOKRみたいになって、馬鹿げた場所にいることになる。でも全部10年かかると思うし、10年後のことは何も予測でけへん。どうやってそれを調和させるんや?
わしらは指数曲線の上にいるっちゅうことを認識せなあかんのや。誰の予測能力も働かへん。それはずっと続いて、平坦になることもないし、突然終わることもない。それがこれを他のプラットフォームシフトとは違うもんにしとるんや。
進歩を見てみい。ストレージ、帯域幅、コンピューティングの生産性、世界中の接続性で起こったのと同じや。指数的やから予測でけへんし、予測しようとして座っとるのは愚かなことなんや。サイエンスフィクションはできるで。「将来、みんながパーソナルAIを持つ時代に」って言えるけど、「それが2029年に起こる」って言ったらアホや。
それは完全に正しく聞こえるな。基本的に3年前やったら、Cloud CodeやCursorやバックグラウンドでコードを書くエージェントなんて想像でけへんかったからな。
何らかの日付を設定して何かに名前を付けることのポイントって何やねん?実際に適用されたAIでは、過去2年間で思うとった以上にめちゃくちゃ進歩を見たんや。でも1つか2つの予測が当たらへんかったからって関係あるか?ないやろ。
技術がどこにあるかを、クラシックなムーアの法則の観点から考える方が面白いと思うわ。どんだけ計算リソースがあって、どんだけのデータを処理しとって、これらのモデルがどんだけ強力か。
半分年取ったもん同士として聞くけど、AIが崩壊して、機械翻訳と機械視覚が失敗した後、誰もそれらが解決される問題になるとは思わへんかった。
ニューラルネットが爆発して、文字通りエキスパートシステムを教えとったんや。でもニューラルネットを教えようとしたら学生が反乱を起こした。みんなの時間を無駄にしとるからって。1999年にはヒントンがニューラルネットの資金調達でけへんかったんや。
わしの大学院時代には、人工知能の歴史の3巻本があったんや。ニューラルネットは8ページぐらいやった。皮肉なことに、MLがクールなもんでニューラルネットが古いもんやった時代を覚えとる。今はMLが古いもんでニューラルネットがクールなもんになっとる。NLPもそうや。
解決でけへんかった問題に戻ってくるっちゅう事実がある。みんなの大好きな「数学が理解でけへん」っちゅうやつもそうや。数学は解決可能やから、解決可能な問題なんや。数字が何かを理解する数学レイヤーを誰も入れへんかっただけで、数学のエキスパートシステムをハードコードして組み込めばええだけや。それは1975年からMaximaがあるから、よう理解されとることなんや。
何かを予測することがどんだけ難しいかを説明することが重要やと思うわ。再帰的自己改善を例に取ろう。これはわしのお気に入りの一つや。
再帰的自己改善の理論は、箱があって、そこから箱に戻る矢印があって「改善」って書いてあるグラフなんや。それを見たら「動くやん」って思うやろ。直感的に、箱に矢印が戻っとるのを見たら「よし、終わりや」って思うやん。
でも非線形制御理論について何か知っとったら、その質問に答えるのは技術科学で知られとる中で最も難しい質問の一つなんや。収束するんか?発散するんか?漸近するんか?
例えば、基本的な検索をしとったら再帰的自己改善はできるけど、漸近するんや。深い技術的観点から再帰的自己改善って言うても、ほとんど何も言うてへんのや。
でも不幸なことに、わしらはAIを擬人化する傾向があるから、再帰的自己改善って言うたら、突然「そしたらエネルギー境界と人間の知能を克服する」って思うんや。幼児から8歳児になるのと同じやって。それが分かったからって。
現実は、適応的なフィードバックループである非線形制御システムについて、比較的シンプルなシステムでも何が起こるかを理解する数学すら持ってへんのや。出入りする分布を実際に知らなあかんのや。これらのもんは改善するやろし、改善し続けるやろう。自分自身を改善するかもしれへん。でも自分自身を改善するからって、それを続けることができるとは限らへん。これが、これらのシステムについて学んでいく全体的な旅の一部なんや。
良いニュースは、1年前よりもずっとまともに話しとると思うことや。それが続くことを願うわ。願わくは、議論が再帰的自己改善してくれたらええんやけどな。
良いニュースは、それには人間が関わっとるから、実際にはモデル化でけへんっちゅうことや。お客さんでもこれを見とるはずや。ハルシネーションについての議論を例に取ったら、過去2年間でどんだけ劇的に変わったか。
2つの次元でや。一つの次元では、ハルシネーションの問題が改善した。モデルが良くなって、RAGでも何でも、コンテキスト窓の効力の問題すら改善したんや。技術的改善がスタック全体にあるし、同じように企業内での文化的理解もある程度できた。「なるほど、これらは非決定的システムで確率的なんやな」って。
文化シフトが始まっとるのが見えるんや。これらのシステムを使う従業員が、実際に検証する作業をせなあかんっちゅうことを理解しとるから、より重要なユースケースにAIを実装できるようになったんや。
そしたら唯一の問題は、検証にかかった時間と自分でやった場合の比率、そのワークフローでどんだけ効率が上がったかっちゅうことや。2年半前は「うわー、これは史上最高のもんになる」っちゅう即座の興奮があって、3〜6ヶ月以内に現実チェックがあって、みんなが「ハルシネーションが大問題になる」って言うとった。それから数年後の今、ハルシネーション率が下がって、出力の質が上がって、これらのAIエージェントがやる仕事をレビューせなあかんっちゅうことを理解したんや。それはユースケースによって異なる形を取るんや。
コーディングの場合、コードをレビューしに行くっちゅうことや。どうせやらなあかんことやったんやけどな。人はそれを忘れとるみたいやけど、一緒に働いとる人を知っとったから、どの部分をもうちょっと詳しくレビューすべきかっちゅう理論が少しはあったかもしれへん。
それはAIの価値を暗黙的に制限することにもなって、人は不快に感じるんや。基本的に、AIより多く知っとる人を助けるっちゅうことなんや。AIがお前より多く知るようになったら、実用性が二分し始めるんや。
めちゃくちゃ興味深いのは、専門家の生産性が他の全てを上回ってるっちゅうことや。歴史的な出来事から予測できたかもしれへんし、これらのモデルにとって適切なユーザーのスキルのタイプについて良い理論を持っとると思うわ。
専門家のエンジニアは「スロットマシンでも構わへん。レバーを引いて何が出てくるか見るんや。10倍の生産性を得られるって分かっとるから。良いアイデアをくれるし、その生産性向上に値するほど良いもんを得られる」って言うとる。
もし専門家のエンジニアやなかったら、このスロットマシンをやって、間違っとるもんも全部デプロイしようとするやろうし、どのレバーを引けばええかも実際には分からへん。文字通り、何を求めて、どんな言語を使うかを知ることが大事なんや。
ツールと専門知識の関係性
これはお前が言うとるめちゃくちゃ重要なポイントで、ツールを使うっちゅうことの本質に迫っとるんや。わしを12インチの丸鋸の前に立たせて「柵を直せ」って言うても、めちゃくちゃあかんアイデアやで。買うことはできるし、ホームセンターを見に行って「DeWaltがええな、買えるわ」って言えるけど、あんまり良いアイデアちゃうやろ。
プラットフォームシフトがどう起こるかっちゅうのと、コーディングでこんなに興奮があるのは、プラットフォームシフトが定着する最良の方法は、新しいプラットフォームの専門家に最も近い人が最も熱狂的になることなんや。そして全体的に最大のユーザーになるんや。
Cubberly Community Centerでヨガをやっとるんやけど、スタジオがリモデル中で閉まっとるからな。面白いのは、そこが1990年代初期と80年代後期のコンピュータークラブの元祖の場所やったことや。コンピューターに会いたかったら、そこに行ったんや。Halt and Catch Fireみたいに、はんだごてを持った人らがいっぱいおって、何かが壊れた時、「うわー、これらのもんはひどいな、時間を無駄にしとる」って言うのやなくて、会議全体が「誰かこの新しいディスクリートグラフィックスカードを実際に動作させて、ドライバーをデバッグできるか?この部屋で誰かこの新しいPostScriptっちゅうもんで印刷できる人はおるか?」って感じやった。
それが今起こっとることやと思うわ。
開発とコーディングから始まるのは明らかや。彼らが最も寛容で、何がバグで何が絶対に直らへんもんかを最も理解しとるからな。注目すべきは、誰もコーディングが直らへんとは言うてへんっちゅうことや。2倍のコーダーには悪いもんを生成しとるかもしれへんけど、10倍のコーダーにはそうやない。「それは絶対に直らへん」って誰も言うてへん。
次に起こることは、言葉の創造、マーケティング文書、ポジショニング文書、こういう長文の資料やと思うわ。その仕事がめちゃくちゃ上手かったら、適切な質問の仕方を知っとるし、何が良く見えるかも知っとるから、次のレベルでドメイン特化でけるんや。競合他社を理解する必要があるような、インターネットからリアルタイムで実際の情報を使う、統計的なもんやないやつな。
彼らは既に競合他社が何をしとるか知っとるやろ。わしの大好きなシナリオは、「わしが書いたもんを攻撃してくれ」っちゅうやつや。エムダッシュを追加してちょっと良くするんやなくて、何を見落としたかを知りたいんや。最近、決算書について言うとったやつがあったな。
アナリストが読むもんについて、アナリストのように攻撃してくれっちゅうやつや。1社あたり6000時間のアナリストの質問があるんや。彼らが聞く質問なんて、どうせ3つぐらいしかないねん。経費項目とかな。
アナリストの人はこれを見んといて。アナリストについてのアドバイスやないけど、これがライティングで実際に起こることやし、PowerPointやスライドでも起こって、動画でも起こるんや。
でも重要なのは、コンセンサスの平均的な回答を得とるっちゅうことや。極限では、プロやったら実際に知っとることやけど、全部を通す時間がないし、覚えてへんかもしれへん忙しい仕事をオフロードしとるんや。
ある意味、生産性に役立つけど、お前が特定の専門家である問題を解決しとるわけやない。非専門家にとってはちょっと脅威に感じるかもしれへん。その仕事ができるからな。
プロンプトの重要性と企業におけるAI活用
おそらく違う方向に橋渡しして、違う話題を投げ込もう。スティーブン、企業が今どこにあるかを聞いとるんやろ?それがコーディング部分やったんや。
お前が見とるのは、明確な理解やと思うわ。「わしが出力で得るもんは、わしが入力したもんと相関する」っちゅうことや。プロンプトをどんだけ正確に出すか。プロンプティングは近いうちになくならへんと思うわ。開始時にAIに与える指示セットで得られるレバレッジがまだめちゃくちゃ大きいからな。
プロンプティングがなくなったら何になるんやろ?2年前は、「AGIに何を作りたいかを言うだけやん。プロンプト一つだけや。箱から出して『ソフトウェアエンジニアになれ』って言うだけや」って感じやった。
文字通りそれがオープンな議論やったんや。でも、わしの頭の中にあるもんと、わしが作ろうとしとるもんとの間には、信じられへんほどのギャップがあるっちゅう事実を見落としとるんちゃうかって。わしがそのコンテキストを何らかの形でお前に与えなあかん。わしがお前に言わんでも、お前がそのコンテキストを持つ世界なんてあらへん。
今、ページの長さの信じられへんほど度を越したプロンプトが見られるようになったんや。そこから得られる出力は、そのコンテキストを与えへんかった場合よりもずっと良いんや。
企業のユースケースでは、その側面について明確な理解があるし、レビューしに行かなあかんっちゅう明確な理解もあるんや。
この点について、わしらは形式言語が自然言語から出てきたのには理由があるっちゅうことを忘れとるんや。わしらは最初から始めへんかった。「形式英語の方がずっと簡単や。英語で話そう。英語で話すだけや」やなかった。逆なんや。自然言語があって、「わしが欲しい情報を伝えるのがめちゃくちゃ難しい。わしらは両方とも専門家で、解決空間を理解しとるから、もっと効率的にコミュニケーションしよう」っちゅうことになったんや。
これが何らかの形で起こらへんと思うのは、専門用語っちゅうもんがあるからや。専門用語は、ドメインの専門知識を持った人同士が話す形式化された方法なんや。
今考えるのが一番楽しいのは、歴史の教訓を教えてもらえるかもしれへんっちゅうことや。ツールのせいで仕事のスタイルが変わるのはいつか?それとも、ツールが仕事のスタイルに適応するのか?まだ初日やけど、パターンが出てきとるのが見え始めたんや。
ワークフローの変革 – エージェントに合わせた働き方
わしらは、エージェントがわしらの働き方を学んで、それを自動化すると思うとった。基本的に、エージェントがわしらの働き方に合わせるんや。問題は、わしらがエージェントの最適な使い方に合わせる瞬間がいつかっちゅうことや。
これが幾つかの分野で見られるんや。エンジニアリングから始まって、「エージェントを持って、コードベースの部分にサブエージェントを持って、エージェントが読むreadmeファイルを与えて、逆ではなくエージェントのためにコードベースを最適化する」って人が言うとるんや。
わしらがBoxでAI製品を使う方法でも、人がエージェントに完全な仕事を基本的に伝えて、ワークフローが既存のワークフローにマッピングするんやなくて、将来エージェントがワークフローをほぼ指示するようになり始めとるんや。
技術が何を可能にするかによって、仕事パターン自体がいつシフトするかの歴史がどうなっとるか分からへんのや。これがおそらく向かう方向の何らかのバージョンやと思うわ。エージェントが現在の仕事のやり方にぽんと入って、全てを自動化するだけやないんや。
実際に仕事が何なのか自体を変え始めて、エージェントがそれに入ってそれを加速させるんやと思うわ。
それと同じぐらい重要なのは、実際にはもっと重要なことがあるっちゅうことや。違う意味で言葉を再利用すると、仕事の擬人化が起こるんや。最初のツールが実際に仕事を擬人化するんや。
コンピューティングの進化を振り返ってみい。スティーブ・ジョブズがスマートフォンから番号ボタンを取り除くのにどんだけ時間がかかったか。まだ番号ボタンがあったんや。車を見てみい。イーロンが全てのコントロールを取り除くまで、みんな全てのコントロールを残しとった。その喧嘩には入りたくないけど。
あらゆる技術シフトで起こったことは、60年代の会計ソフトがどんな感じやったかを見てみたら分かるんや。IBMが「やめろ。みんな複式簿記を使っとるけど、人がどうやってコンピューターができるかやなくて、コンピューターがどうやって会計ができるかにスキルを持った人が必要や」って言うまで。机がどんだけ離れとるかに基づいた手動プロセスを持った緑のアイシェードの人でいっぱいの部屋を自動化せなあかんかったら、帳簿を閉じる方法は絶対に分からへんからな。
PCとパーソナル生産性の台頭で起こったことは、わしが5回も見たことがある例を使うけど、ワープロをした最初のPCで一番大きな要求は「経費報告書にどうやって記入するか」やった。そして、経費報告書がプリントされたトラクターフィード紙の世界が育ったんや。ソフトウェアは、Avery 2942の経費報告書を使っとるか、New England Business SystemsのA397を使っとるかみたいなコードを書いたんや。印刷ダイアログで0.208インチみたいな調整があって、小さなもんを動かして、「夕食 22ドル」って印刷したんや。それが印刷した全部やった。
そしたら誰かが「コンピューターを使って全体を印刷することもできるやん」って言ったんや。早送りして、最終的にConcurが「写真を撮るだけでええやん?レシートの写真を撮って、全部やってもらえるやん」って言ったんや。そしたら全体が逆転して、あらゆるビジネスプロセスがそうなったんや。
ツールを本当に変えるもんもある。メールが出てきた時、会議のアジェンダを準備するために、誰かがWordを開いて全部を入力して、印刷して、みんながよく形成されたもんを持って会議に現れとった。そしたらメールが出てきて、Wordのその使用ケース全体が蒸発したんや。
メールのアジェンダは、フォーマットなし、何もなし、「話し合う8つのことはこれや」って感じになって、みんなが「アジェンダもらった?」って言うて現れるんや。
AIについても同じことが起こっとるのが興味深いんや。わしらは長い間AIを持っとった。チャットボットもあったしな。企業には長い間、AI型の穴があったんや。今日見る間違いの多くは、生成的なもんを取って、古いモデルに無理やり押し込もうとすることや。でも実際には、出現しとる新しい行動なんや。
昔は、プラットフォームチームに中央集権的にAIを売って、NLPや音声認識を電話サポートで動作させようとしとった。めちゃくちゃ中央集権的やった。わしらが見とる採用の多くは、もっと個人的なもんなんや。今見とる採用との間にちょっとしたミスマッチがあって、それも解決されつつあるんや。
ワークフローの再設計とツールの進化
わしらがエージェントと過去30〜40年間のソフトウェアでやってきたことを基本的に移植しようとしてる段階にあるのか、それとも実際にワークフロー自体がどうあるべきかの最初の本当のステップ函数シフトになるのかっちゅう問題があるんや。
でもわしらはそうしとるわ。インターネットをOfficeに押し込もうとしたのを覚えとるやろ?見てるのは楽しかったけど、みんながインターネットを自分の製品に押し込もうとしとった。それしか想像でけへんかったからな。「インターネット上にワープロなんてあらへん。インターネット上にスプレッドシートもあらへん」って。
他の人は「スクリプトなしの7つのHTMLタグでExcelを実装してみよう」って言うとった。それもあんまり良いアイデアやなかった。最高やったのは「PowerPointをやろう。どうやってやるんや?5つの編集コントロールを与えて、箇条書きを教えて、バックエンドでGIFを生成してスライドとして送り返す」やった。それもあかんかった。
たぶん要点は、Officeの耐久性や。全ての破壊を超越するんや。全ての上に立つと思いたいわ。
でも今わしらがいるのはそこなんや。でもちょっと掘り下げてみよう。
これはインターネットと同じで、消費レイヤーの変化やと思うか?わしはいつもインターネットを消費レイヤーの変化やと見とるんや。コンピューターに行く代わりにインターネットに行く。でも他は基本的に同じやった。AIには奇妙な癖があって、初めてプログラムが第三者にロジックを委譲しとるんや。
わしらはいつもリソースを委譲してきた。「お前のディスクを使うわ」みたいに。でもロジックは書いとった。でも今回は、消費レイヤーを変えとるみたいや。わしの息子がAIキャラクターと話す時、wsfargo.comには行かへん。AIキャラクターに行くんや。コンピューターとの交流の仕方を変えとるけど、これらのプログラムももう同じ方法で人間が書いたもんやない。変化はもうちょっと洗練されとるかもしれへん。
プラットフォームシフトとしてのAI
これがアプリケーションシフトやなくてプラットフォームシフトである理由なんや。各プラットフォームシフトは、コンピューティングと交流する抽象化レイヤーを変えるけど、それはプログラムを何に書くかも変えるんや。
ロジックを委譲したことを覚えとるか?破壊的になる方法の良い例があるで。
DOS時代、キャラクターモード時代の最初のワープロは、全部自分のプリントドライバーとクリップボードを実装しとった。Lotusでチャートをメモに入れたかったら、ワープロを売ってへんからでけへんかった。チャート作成のために、主要なワープロが消費できるもんを作る別のプログラムを実際に作ったんや。
Word Perfectやったら、広告で「1700台のプリンターをサポートします」って言うとった。Microsoftが1200台の時に7800台持っとったからレビューで勝ったんや。
そしたらWindowsが登場したんや。ワープロ事業に参入しようとしとったら、ステップ1はEpsonとOkidataとCanonプリンター用のデバイスドライバーを作るために17人のチームを雇うことやった。どこからも手に入らへんからな。
MicrosoftがきてWindowsのためにプリントドライバーとクリップボードを作ったんや。突然、Macintoshもそうしたけど、事前知識のない2つのアプリケーションが交流する方法ができたんや。
でももちろん、Word PerfectやLotusにとってはそれは不利やった。情報をコントロールする能力でつぶされたからな。開発者は「これはクールや。今はただプリントドライバーを書かんでもええし、クリップボードを使える」って言うて喜んだんや。
実際、1990年のCubberly Community Centerで、新しいWindowsプログラマーに「プリントドライバーを書かんでもええし、クリップボードを使える」って見せたら、10人ぐらいがスタンディングオベーションしてくれたんや。
でも彼らは、製品間でデータ交換することを喜んで受け入れたんや。それは自分にとって機会でしかないと思うとったからな。感情的な観点から、今日のバイブコーダーとまったく同じように感じたやろうな。「このプラットフォームをくれたんや」って。
Windowsのプログラミングコードはこんだけやったけど、Epsonプリンター用のデバイスドライバーを書くのはこんだけ、Canonプリンター用はこんだけやった。
パラダイムシフトは同じなんや。開発者が取る作業量を減らした時は何回もあったけど、プログラマーがロジックを委譲したことは覚えてへんのや。例えば、SQLは論理やないんや。わしはいつも何が正しくて何が正しくないかを言うとった。
でもお前はそれを過小評価しとるかもしれへん。ちなみに、みんながマーティンが発明して作業したもんは大したことなんや。
たぶん、その時のお前のピッチを事後検証すべきやろな。
ロジック特有のもんを言わせてくれ。わしがアプリを書いとるとしよう。特定の顧客ベース向けの何らかの縦型SaaSアプリや。アプリが出す答えは、歴史的にわしが書いたロジックに基づいとるんや。クラウドで動かしても、クラウドが答えを出すんやなくて、リソースを提供しとるだけや。お前のデバイスドライバーを使っても、デバイスリソースへのアクセスを提供しとるだけや。でも「大規模モデル、ここで答えを教えてくれ」って言うたら、実際にアプリケーションを委譲しとるんや。
たぶんお前は正しいかもしれへん。これは何らかの意味で、何が論理を委譲することで何がそうやないかを決めようとして、現職者のように振る舞っとるんかもしれへん。実際には、Word Perfectにとってはめちゃくちゃ競争上の優位性やったし、手放したくなかったんや。それに対抗して戦ったんや。クリップボードをやりたくない人の数もそうやった。
次の例はもちろんブラウザで、人は文字通り諦めたんや。WindowsやMacでは、欲しいもんを何でもラスタライズできた。押したら回転して虹色にアニメーションするボタンが欲しかったら、製品でそれができたんや。でもウェブが登場して、「うわー、『送信』って書いてあるグレーのボタンを使わなあかん」ってなったんや。
わしらは第三者のもんをいっぱい使うけどな。
でもそれらが現れるのに長い時間がかかったんや。インターネット初期には、雑誌、特に印刷メディアが絶対にインターネットに行こうとしへんかった。フォーマットする能力を手放したくなかったからや。これがAIで起こることについてのツールの別の部分なんや。
生産性ソフトウェアの変革と専門性の変化
今日の生産性ソフトウェアスペースの大部分は、出力の準備みたいなもんなんや。Officeは基本的にフォーマットデバッガーなんや。カーニングとボールドとイタリックをどうやってやるかの7000のコマンドなんや。AIは気にせえへんだけやなくて、欲しいもんを何でも作ってって頼めるんや。
「ダブルインデックスパイチャートっぽいもんが欲しいわ」って言えるんや。そんなもんはないけど、でもそれみたいに見えるもんを作ってくれて、「クールやん」って思うんや。
これが専門家を無力化することと、誰が専門家で誰がそうやないかっちゅうところなんや。生産性ソフトウェアが現れた時の大きなことは、キラーチャートを作る方法を理解した人がいたっちゅうことや。Benet Evansみたいに、キラーチャートの男や。
「そのチャートはどうやって作ったんや?」って質問で始まる会議をする人がいたんや。飛行機に乗ってても、誰かがそんなチャートを作っとるのが見えるんや。
この場合の委譲は、実際にデータを視覚的に表現する方法なんや。それは絶対に正しいわ。90%の人がそのタスクの専門家になることは実際にはなかったのに、ツールの90%はそれをすることについてやったからな。
各場合で何が起こるかっちゅうと、でもプログラマーはこの場合論理を委譲しへんかった。ユーザーやけど、ユーザーと プログラマーの違いは何やねん?実際、プログラマーがやっとったのは、ウィザードっちゅうもんを発明することやった。お前のためにいっぱい選択をしてくれるんや。スタイルシートとかな。ある意味、わしらはユーザーのためにいっぱい選択をしとったんや。専門家にとっては、全部を調整しとった専門家を無力化するように見えたんや。
これは全部、ショーペンハウアーについてのスティーブ・ジョブズの大好きな引用みたいなもんや。「手品師を見たことがあったら、もうトリックやない」っちゅうやつ。これがわしの人生でこれを見るのが3回目か4回目みたいに感じるんや。
シニア開発者のエージェント活用パターン
めちゃくちゃ注意を引いたことがあるんや。わしが知っとる最もシニアな人らやからや。めちゃくちゃシニアな開発者がいっぱいのバックグラウンドエージェント、コードエージェントを立ち上げて、GitHub PRレベルでインターフェースしとるんや。
なんで一つやなくていっぱいやるのかが明らかやないし、なんで直接やり取りせえへんのかも明らかやない。何かが起こっとるみたいやけど、よう分からへんから、お前の考えを聞きたいわ。
わしの読みと、その結果として次に何が起こるかを投げかけたいと思うわ。これは将来の仕事設計がどんな感じになるかについて、ちょっとした洞察なんや。エンジニアは前の会話に戻ると、これを最初に経験するだけやからな。
同じような人らと話した読みは、基本的にコンテキスト腐敗問題の組み合わせなんや。コンテキスト窓にもっと入れれば入れるほど、混乱して、答えがノイジーになるんや。
エージェントが何に取り組むべきかを分割する何らかの方法が必要なんや。わしらが内部でエージェントを構築する時にもこれを見るんや。わしらが期待しとったかもしれへんパナセアは、「100万トークンをコンテキスト窓に入れたら、明らかに…」やった。
つまり、これはAGIとほぼ逆のトレンドやって言うとるんか?ほぼ逆みたいなもんなんか?
逆やけど、モデルがめちゃくちゃ良いからうまくいくんや。
一つのもんに特定性の低いタスクをやらせるんやなくて、もっとたくさんのもんにもっと特定のタスクをやらせとるんやろ?
そうや。でもこれが起こっとる理由やと思うんや。この最もクレイジーなバージョンは、スタートアップ界の誰かと話したことや。お前の言う通り、全てのサブエージェントを持っとるんやけど、驚くべきことに、コードベースの各マイクロサービスと1対1でマッピングしとるんや。
マイクロサービスごとにエージェントがいて、エージェント用のreadmeが実質的にあって、そのエージェントがマイクロサービスを所有しとるんや。具体的な数字は分からへんけど、数十とか数百のもんが動いとるって言えるやろな。
「コードベース全体をどうぞ、好きにやってくれ」って一つのエージェントに言うたら起こる問題を実質的に軽減しとるんや。時間が経つにつれてどんどん悪いコードを生成するようになるからな。コンテキスト腐敗があるし、マイクロサービスのその一つの領域で何をしようとしとるかを正確に知らへんからな。でもサブエージェントモデルはそのパラダイムでうまくいっとるみたいや。
このカウンターパターンが大好きなんや。みんなが「モデルはもっと賢くなって、もっと高レベルなタスクを与えて、もっと長いことをやってもらう」って言うとるけど、これはカウンターなんや。
わしがツイートしたいけど、お前の方がTwitterのフォロワーが多いからな。集合的にやろうか。
そしたら問題は、エンジニアリングでこれがうまくいくと仮定したら、興味深いダイナミクスがあるっちゅうことや。そしたら将来のコーディング実践はかなり違うってことになるんや。
個々のエンジニアがエージェントのマネージャーになるっちゅうアイデアについて話したことがある。それは既によく理解されたパスやったと思うわ。これはその概念のスーパーチャージャーや。
そしたら問題は、それがほぼあらゆる形の仕事にどう翻訳されるかや。わしが弁護士で事件に取り組んどって、20のサブエージェントを持てて、全部が異なる事件をやって、基本的にわしが通るタスクキューで戻ってくるとしたら、明らかに得られるレバレッジは狂気的なもんになるやろな。でも仕事の組織の仕方と、組織内のワークフローが必然的にその結果として変わるやろうと思うわ。
分業とツールの変化による仕事の再編成
わしは、これがワークフローのフローが知識に基づいて、時にはツールに基づいて直列化または線形化されとったっちゅうことに直結すると思うんや。
ツールが変わった時に起こることは、何が本当に直列で何がそうやないかの再調整なんや。会社のイベントを計画するとしたら、まだ起こり続けることやけど、会場を予約せなあかん、人らを招待せなあかん、資料を作らなあかん。実際にはお互いにそんなに依存してへんのやろ?でもイベント担当者がいたら、その人に依存するんや。
そしたらイベント担当者がこれらの異なる要素を全部回し始めることができて、「このイベントのロゴをもらうまで、販促資料はここまでしかできへん。日時と会場をもらうまで、招待状はここまでしかできへん」って戻ってくるんや。
なんでそれを並行して全部回せへんのやっちゅう理由はないと思うわ。今日それはどうやって起こるか?会社でBoxを使っとって、これが58回目のイベントやったら、「イベント」っちゅうフォルダがあるやろ?人はそのフォルダを取って「イベント59」って行って、それとその中の全部をコピーするんや。
そのワークフローについて考えたら、それはまさに異なるバックグラウンドタスクやエージェントのシリーズができることなんや。コーディングでそれができる理由は、自然な分割方法があったからや。いっぱいプログラムがあるからな。でも他の面もあるけど、高レベルの指示を与える能力についてのちょっとした非難でもあるんや。人間がもっと細かい命令を与える必要があるっちゅうことを示唆しとるんや。そうやないと、会社を始めるのに一つのプロンプトを出して、6ヶ月間ビーチに行って、戻ってきたら完全な会社があるっちゅうことになってまうからな。
これはほぼ再擬人化効果で、わしらは分業を理解したっちゅうことが分かったんや。エージェントが持たへん、わしらが明らかに持っとったいっぱいの物理的なアナログ制限のコンテキストで理解したんや。でも完全にタダ飯はないんや。
コンテキスト腐敗問題があるから、実際にある時点でタスクを細分化せなあかんのや。そしたら問題は、適切な…コンテキストみたいなもんやないかもしれへん。オッカムの剃刀はここでは、特定のテストのために特定の指示を与える必要があるっちゅうことや。コンテキストとは独立して高レベルの指示を与えても、何が欲しいか分からへんだけなんや。
これが形式言語の部分につながるんや。ある時点で、Uber frontierを使って全体を完了させようとしたら、全体を正確に伝えなあかんのや。それはいっぱい仕事みたいに思えるけど、使っとるモデルの部分がもっと知っとるから、伝えることが少なくて済むんやったら?基本的に、テンプレートやアーティファクトの開始、一般的な世界でのコンテキストのスコープについて考える違う方法なんや。
でもモデルが100%完璧になることは絶対にないと仮定したら、一般的に正しいアーキテクチャかもしれへんのや。ある時点で、お前が確認すべきステップがあった時に、エージェントやエージェントのセットが道を進みすぎるのは望まへんから、純粋に実行の問題になるかもしれへん。その複合効果があるからな。
依存関係のあるゲート時刻もあるから、ある意味で仕事を細分化する必要もあるんや。エージェントは「どの時点でそれをユーザーに巻き戻すべきか?」を知る必要があるからな。
プロンプトの複雑化とAGIに対するカウンターナラティブ
一般的なナラティブに対して、今考えてみると、プロンプトはより複雑になってる傾向があって、より少なくなってへんみたいや。より狭いタスクをするより多くのエージェントが見られて、より少なくなってへん。これはほぼAGIカウンターナラティブみたいなもんや。これらはもっと専門化されて、もっと具体的な指示でもっと深く作業しとるんや。
専門化したらそれを解決できるかもしれへんっちゅう歴史がちょっとあるんや。
最初、エキスパートシステムは専門家になるだけで、知るだけやと思われとった。でもスタンフォードで実際に発表された研究には「これは感染症の種類を決定するエキスパートシステムやけど、この7つのうちの一つを持っとる限りにおいてや」みたいなんがあったんや。
文字通り、ある消化器疾患について書かれた論文があったんや。それは実際に医学的なもんやった。
でも一つ大きな違いがあるっちゅうことは言いたいんや。何らかの形で、モデル自体がこれら全てを解決する固有の知能や能力を詰め込んどるっちゅうことや。わしらは、これら全部をClaude 4やGPT-4で構築できて、コンピューターでも構築できるっちゅう事実から恩恵を受けとるんや。
古い人間の例でこれを実証しようとしてみるわ。PC時代初期には、ワープロとスプレッドシートとグラフィックスとデータベースがあって、いっぱいの人が「なんで4つのプログラムがあるんや?一つのプログラムだけやったらええやん」って言うとった。
わしの答えは、よく叫ぶことになったんやけど、「オフィス用品店に行ったことあるか?」やった。オフィス用品店に行ったら、数字が書いてある紙と、空白の長方形の紙と、透明な紙があるんや。これはめちゃくちゃ長い間あるんや。これらが違う理由があるんや。人間のコンテキストで、Google Waveがうまくいかへんって分かるのに何分かかった?
ゼロや。瞬間やった。瞬間やった。
業界で称賛された古いMac製品のClariS Worksっちゅうのがあったんや。「ワープロの中にスプレッドシートを入れることができる」って。わしの最初の反応は「スプレッドシートを使う人を見たことあるか?モニターがどんだけ大きくても足りへん。できるだけたくさんのセルが欲しいだけなのに、Macの8.5×11インチの紙に収まらなあかんって言うとるんか」やった。
起こることの一つは、人間が専門化に持ってくるレンズがめちゃくちゃ重要やっちゅうことや。医療職について考えて、GPから放射線科医、専門医、ナースプラクティショナーまでのシリーズ全体を通して、それぞれがAIを違う方法で見て使うやろな。
そしたら唯一のことは、その専門化と分業のレベルが100年の期間にわたって、ツールと一緒に、でも組織がどう出現するかの物理的制約と現実に駆動されて出現したっちゅうことや。
そしたら唯一の問題は、10年後のポストエージェント世界で、その分業が全く同じに見えるのか、それともエージェントが機能を崩壊させて何らかのぼやけがあるからシフトするのかっちゅうことや。新しい役割のセットもあるのか?明らかに組織で出現しとる役割があるんや。「わしの役割は、わしがAI生産性の人で、組織でAIを使った全く新しい形の生産性を作る方法を持っとるだけや」みたいな。
明らかに新しい役割をいっぱい持つやろうけど、現在の分業もAIのせいで興味深い方法で崩壊するんやろうか?
専門化の加速と新しい職業の誕生
医療の例にこだわったら、わしらはただ目を覚ましたらもっとたくさんの専門分野を持つもっとたくさんの人がいるやろうと思うわ。AIがもっと仕事を作って、その間に。
AIが時間が経つにつれてもっと専門化を引き起こすと思うか?
絶対にや。みんな、すべての人間がずっと良くなるからな。もっと知識が積み重なるやろな。これは、人が忘れとるコンピューティングで実際に起こったことやと思うわ。昔はマーケティングとR&Dのこんがらがったもんがあっただけやった。突然、コーディングとテストとデザインと製品管理とプログラム管理とユーザビリティと研究と、これら全ての専門分野があって、それぞれが独自のツールを持ったんや。
建設現場に行ってみい。わしが育った時、近所の人が家を建てとった。わしらはアパートに住んどったんやけど、彼らが家を建てとった時、Clemっちゅう大工がいて、Clemっちゅう男がすべてのツールを使って家を建てとったんや。今は家を建てる時、舗装だけをする会社を持った20人のサブ請負業者のリストみたいになっとるんや。
ITの歴史でも長い分離があったんや。全てが同じシートメタルやったのが、OSとハードウェアを分離して、アプリを分離したんや。過去15年間で興味深かったのは、アプリと独立した機能が分離されたことや。ほぼ全てがAPIになって会社になったんや。TwilioみたいにOAuthが会社になって、PubNubが会社になったりな。
すべてのエージェントが全く新しい縦型と全く新しい専門化になるかもしれへんのや。そしたらそれを中心に会社を構築できるんや。今日はAPIと同じように、一つの会社がいっぱいのエージェントを持つかもしれへんけど、将来は第三者がそのエージェントを独立して提供するかもしれへん。
機会はお前の言う通り、本当にそこにあるんや。昔は会社を作って配布するインピーダンスが無限やったから、馬鹿げとったんや。OAuthみたいな単一のAPIが会社になるなんて馬鹿げて考えられへんかった。でももちろんそうなったんや。文書に署名することだけで会社全体を構築するなんて馬鹿げて考えられへんかった。
会社全体だけやなくて、突然「うわー、そのアドレス可能市場はめちゃくちゃでかいし、署名よりもずっと大きいわ」って気づくんや。会社に組み込まれて、人員と無駄と詐欺と悪用を引き起こしとった全ての作業のせいで。
何千ものそういう会社が出現することを引き受けることができると思うわ。
Jared Freemanがツイートしとったんや。基本的に「ワークフローを深掘りしろ。経済の一部の仕事を取って、給与専門家とかの仕事をして、そのためのエージェントを構築しろ」って。文字通り千個のそれがないっちゅうのは明らかやない。
すべての縦型とあらゆる部門ラインで。これが大好きなんや。これは文字通りAGIの反対みたいなもんで、市場が成長するにつれて会社を作ることができる粒度のレベルっちゅうコンピューターサイエンスの長い弧に従っとるんや。
それは経済成長でもあるんや。その例を取ったら、今日はSalesforceみたいに、わしがいつも大好きな例やけど、生産的なセールスフォースを持つアイデアは昔はコンサルタンシーやっただけなんや。それを修正する唯一の方法は、コンサルタンシーを雇って現れて、みんなが何をしとるかを分析して、「こうやって再編成する必要がある」っちゅうレポートをすることやった。
大抵は持っとったもんと逆に行くことを意味しとって、そして彼らは去っていくんや。人は試したけど、クラウドがなかった。CRMを構築するには、すべてのコンサルティング作業をやって、それをロールアウトせなあかんかったんや。そして静的で、維持でけへんかった。
そしたら突然「マーク・ベニオフがいて、これを全部やる方法全体がある」っちゅうことになったんや。それだけやなくて、人は実際にそれを気に入って、電話を使ってこのクライアントについて少しメモを入れることで、みんなを助けとるから、販売がもっと上手くなったと思うとるんや。
それがこれら全部で実際に起こることやと思うわ。そしたら突然、めちゃくちゃ小さく見えるもんが全体のもんになるんや。配布に問題がない、カスタマイゼーションに問題がない、信頼性を解決したのと同じように、セキュリティとプライバシーを実際に解決する方法があるからな。
モデルプロバイダーの脅威と企業の現実
お前がネットワーキング技術のインターネット技術のスタックで世界的専門家やから見てみい。15年前に「CDNが会社になるか?」って聞かれても、絶対に答えへんかった。「そんなの意味ない。キャッシュが会社になるってどういうことや?」って。
人はたぶん、モデルプロバイダーが自分らを食うことをあまりにも恐れすぎやと思うわ。第一波の現象やったと思うんや。GPT-2や3で何かができるって分かっとって、テキストインターフェースでもっとテキストを生成するだけやったら、確かにChatGPTに食われたんや。それは明らかに起こった。
でも基本的にそれ以来、ほとんどの企業はAIとAIエージェントの応用的な使用ケースを求めとるんや。現在の会社群が、ヘルスケア向けAI、ライフサイエンス向けAI、金融サービス向けAI、スタックの適切な部分でのコーディング向けAIをやっとったら、モデル会社に食われるのは明らかやないんや。
コーディング向けAIは、モデル会社が自分のモデルを構築するために他の誰かの製品を使いたくないから、一つの例外的な分野で超競争的になるかもしれへん。
基本的に、わしらは今すべての縦型、すべてのドメインでエージェントを構築せなあかん5年間にいるんや。そのためのプレイブックが出現し始めとるんや。
早期に起こった技術的なヘッドフェイクがあったと思うんや。事前訓練やな。事前訓練は本当に10点満点の技術革新やった。2年前に誰かが「友達が訓練後の老化モデルを構築しとる。老化がめちゃくちゃ上手くなるようにする。これはテキストから画像へのモデルで、老人がめちゃくちゃ良く見えるようにしたかったんや」って言われても、わしには言えへんかった。そしたらもちろん、Midjourneyか何かの次のバージョンが出てきて、それがもっと良い仕事をするんや。
事前訓練では、世界の既存データを全部消費して、そのエネルギーを全部枯渇させて、完璧に汎化したんや。でも技術的にはそれは過ぎ去ったように感じるし、今はもっとドメイン固有の事後訓練とRLにいるんや。
その企業だけのデータセットへのアクセス権を持つ瞬間があって、そのデータにアクセスする許可、そのワークフローをする許可を得るのは応用会社になるんや。
もし無限の数のトークンがあったら、モデルは汎化し続けるやろうけど、それが起こってへんのは明らかやな。今はわしらがよく理解しとることに入っとる。会社がどのドメインに入るかを選択して、そこでロングテール問題を解決してデータへのアクセスを得るなあかんのや。
「お前を廃業させて踏みつぶす」っちゅう大企業が投げかけた影もあると思うんや。馬鹿げとるわ。どの技術の波でも、人が持っとる恐怖に見合うことは一度もなかった。
1995年に新しいワープロを作ったら、アホやったんや。それは作るべきもんやなかった。でも10年前には、スタンドアロンのスペルチェッカーを作る会社があったんや。それがもんやったんや。店に行ってスペルチェッカーを買って、他のスペルチェッカーよりも多くの単語を持っとった。
今言われてへんことは、実際のプラットフォームは何かっちゅうことや。大規模モデルがあらゆるアプリケーションを包含するって言うのは良いけど、それをし始めた瞬間、誰も彼らのプラットフォームにいなくなるんや。開発者が「お前がわしを包含するつもりなら」って座って言わへんからな。
Mac界とApple界では「sherlocking」っちゅう言葉があるんや。これは本当に冷却効果があって、モデルの人らが非常に早く学ぶことの一つなんや。
冷却効果もあるけど、50のカテゴリーで深く行くのは難しいっちゅう問題も本当にあると思うんや。事前訓練でモデル化でけへん。事前訓練がそれが得意やった唯一のもんで、今は実際に選択せなあかんからや。
ある時点で、純粋に実行の問題になるんや。50の異なるドメインで50のスタートアップを打ち負かすために会社を設立する方法を誰が知っとるねん?馬鹿げとるわ。
実際、良いのは、大企業がカテゴリー全体の認知度を上げて、そしたらお前がさっと入ってきて「彼らにとってお前はただの機能や。でもお前にとってわしはわしの人生全体や」って言うだけやからな。そしたら勝つんや。
全体の会社がただ署名するだけやっちゅうことに、わしはいつも戻るんや。署名するだけの会社全体があるなんて信じられへん。
推論コストと専門化の経済学
このトピックについて言いたいことがいっぱいあるわ。最低限でも、推論の意欲対それを提供するコストをグラフにしたら、ほとんどの会社、ほとんどのスペースで、推論の20%がコストの80%なんや。だから実際、アプリケーションの問題は、よりドメイン固有になる傾向があるそれらを選択することなんや。
ここに3人を招待した問題は、次を開いただけで、黙らせるのがトリックやっちゅうことや。
みんな、来てくれてありがとうございました。めちゃくちゃ素晴らしかったです。


コメント