我々はAIの次の6ヶ月を予測してみる

本動画では、3名のAI専門家がエンタープライズAI分野における今後6ヶ月間の予測について議論を展開している。評価手法のテキストからアクション重視への転換、AIによるワークライフバランスの改善、サンドボックス環境での強化学習データ収集、一部企業のAI投資からの一時撤退、自律的な非同期エージェントへの移行、モデル価格の継続的下落、エージェントの本格的な実用化、そして各業界における垂直型AI企業の爆発的増加といった多岐にわたる変化を予測している。

We try to predict the next 6 months in AI

Today the team spends time peering into a crystal ball and making predictions for the next 6 months in enterprise AI. Th...

Human in the Loop – AIエンタープライズ市場の6ヶ月予測
サムの予測：評価からアクション重視への転換
ワークライフバランスの改善予測
サンドボックス環境での強化学習データ収集
フェリックスの予測：AI投資からの一時撤退
非同期自律エージェントへの移行
AI導入による雇用への影響
ベンの予測：モデル価格の継続的下落
エージェントの本格実用化
垂直型AI企業の爆発的増加

Human in the Loop – AIエンタープライズ市場の6ヶ月予測

それが俺のマニフェスティングや。うん、それは予測というより願望に聞こえるな。まあ見てみ。実現するから。

Human in the Loopへようこそ。このシリーズでは、エンタープライズ向けの実世界システムを構築・展開するために必要なことを議論していきます。Human in the Loopへようこそ。今日はエンタープライズAIの次の6ヶ月について話していきましょう。

俺はサム・デントンや。俺はベン・シャリフシュタインや。そして俺はフェリックス・スーや。

サムの予測：評価からアクション重視への転換

それじゃあサム、まずはお前から始めよか。次の6ヶ月で何が起こると思う？

よっしゃ。俺は全体的に3つの見解があるんや。まず第一に、今現在エンタープライズが評価について考えるとき、90%の時間はテキストの評価やテキストのランキング評価をしとって、10%の時間でアクションの評価をしとるかもしれん程度や。

6ヶ月後には、これが完全にひっくり返って、90%のアクションを評価して、テキストはたったの10%程度になると思うんや。これが意味するところは、これらのアクションを評価するとき、そのアクションが実際に実行されるということや。つまり、エージェントが「俺はこの2つの選択肢の間で迷っとる。どっちを選ぶべきやと思う？」と言って、エンタープライズやエンタープライズチームが実際にアクションを選択して、その評価の結果としてアクションが実行されるということや。だから評価の景色が、テキストから実際のアクションへと本当に切り替わるんや。

それって評価がもっとメトリクス的になるという意味なんか？ライブな本番メトリクスみたいな、エンドユーザーが望んだことを実行したかどうかみたいな。BIダッシュボードとかで見るような、Amplitudeやそういったツールでメトリクスを見るような感じになるんか？それとも、まだオフライン評価をやってて、LMを判定者として使ったり人間のアノテーターが入って評価したりするんか？

正直、両方やと思うで。時には、このようなライブメトリクスを見ることになると思う。メトリクスが教えてくれることに対して反応するんや。そして他の場面では、人間がそこに到達して2つの選択肢の間で選ぶ準備ができたとき、アクションが12時間後に実行されても構わないような、本当に長時間実行されるプロセスがあると思うんや。

決定論的なワークフロー、つまりA、B、Cを順番にやるような状況から、すべてが独特でアクションAの結果が次に起こることに影響するようなアジェンティックな状況に移行するとき、かなり複雑になると思うで。これらの評価をするのは複雑になりそうや。本番メトリクスが非常に重要になって、成功のためにそれらを設定すること、つまりこれらのことを実際にどう計測するか、成功をどう定義するか、報酬関数は何か、最適化しようとしているメトリクスは何か、これがエンタープライズで高性能なAIを構築する核心になると思うで。

そしてフェリックスのチームにとっては、アクションが提案された12時間後に評価が起こることを可能にし、その後実際に12時間後にアクションを実行するような環境とインフラを設定するのは本当に難しいことになるやろな。お前らがそれをどう解決するか楽しみにしとるで。それは俺の責任やな。

ええと、つまり、お前が言ってるのは、ある時点でロールアウトをして、何かによって承認される必要があるから一時停止して、それをクリックして評価する必要があるってことやな。評価ツールがどんな感じになると思うか気になるで。

評価テーブルにすべてのロールアウトをライブでダンプして、すべてが完了した後に評価をする必要があって、一部の行が部分的に埋められた状態になるかもしれんってことか？体験がどんな感じになると思う？

うん、今は「このLMの回答とこのLMの回答、どっちが好みか？」みたいに選択肢Aと選択肢Bがあるのが、「ツールコールAとツールコールB、LMにこのアクションを取らせるかあのアクションを取らせるか？」みたいになることが想像できるで。

だから評価のインフラの複雑さは、実際にそれらのツールコールが評価フレームワークでライブで利用できることや。実際にツールコールBを選んだときに何が起こるかを見て、それに応じて軌道を調整できるようにな。

でも推論時に違いがあると思うか？例えば、2つのパスがあると思うんや。一つはライブで、ロールアウト全体を一時停止して待機状態にして、それがメールにログされて、誰かがそれに対してアクションを起こすと、ライブインタラクションに戻ってトリガーされて続行するってやつや。

そうや、まさにその通りや。分かれ道みたいなのがあって、選択肢Aと選択肢Bがある。それをクリックすると、戻って何かをするんや。

でも評価者として、選択肢Bを選んだらどうなるかを見て、そのロールアウトを実行させたいとしたらどうや。つまり、処理しなければならない分岐の数や、そういうものの可能性は無限大やろ。それとも、それは俺次第やって言うんか？

分かった。分かった。そうや、たくさんの選択肢が分岐する空間を探索する機会がたくさんあるやろな。何を選ぶか、どの道を取るかについて、たくさんの異なるユーザーの好みについて話すことが多いからな。だから、これは確実に挑戦的なものになるやろ。

バックエンドからもずっと複雑になるけど、はるかにインパクトのある評価体験になると思うで。もう2つの文字列がある静的な画面を見てるわけやないからな。

ワークライフバランスの改善予測

よっしゃ。俺の2つ目の、エンタープライズに対する2つ目の見解は、実はワークライフバランスが良くなるということや。COVIDが起こったとき、みんなコンピューターを家に持ち帰って、ずっと働き続けるようになったと思うんや。

今は、夜中にいくつかの仕事を開始できて、エージェントが夜中にこれらの仕事をしてくれることを実際に信頼できるようなエージェントがあるから、人々が時々9時から5時の勤務に戻れるようになって、家にコンピューターがあることや、夜中の12時にメールを出さないといけないなんて考えなくてもよくなることを願っとるんや。

だから、COVIDの影響の後で、エージェントが人々のワークライフバランスの改善に役立つことを望んどるんや。

この件については俺は複雑な気持ちやで。俺の妻に聞いたら、モデルにコーディングをしてもらうのが簡単になったから、普通やったらコンピューターを持参しないような状況でも持参するようになったって言うやろな。普通やったら、コーディングが必要で300行のコードを書かないといけないとき、「よっしゃ、夕食に行こう。30分で終わらへんから、ラップトップは持参せん」って言うてたんや。でも今は「30分で終わらせられる」って思うから。

今は夕食にCursorを持参するんか？

「ベイビー、運転する？」って言って、俺が運転中に作業するんや。だから、ワークライフバランスについては、俺にとってはみんなと同じやないかもしれん。でも確実にこの件については複雑な気持ちやで。エージェントが引き継ぐ機会は確実にたくさんあるけど、俺はその自由時間を確実に悪用しとるからな。

サンドボックス環境での強化学習データ収集

よっしゃ。それから、エンタープライズAI市場に対する俺の最後のホットテイクというか最後の予測は、最先端のエンタープライズがエージェント用の強化学習データを収集するためのサンドボックス環境を作り始めるということや。

俺はエンタープライズにこれをするよう本当に強く勧めとるんや。継続学習や強化学習なんかのために多くのことを解き放つと思うからな。でも最先端のエンタープライズは次の6ヶ月でそれを持つようになって、エージェントに実際にどんなタイプのアクションやトレースを知ってほしいかについてのデータを収集できるサンドボックス環境を持つと思うんや。

主要なモデル企業がやってることを見て、今日やってること、数ヶ月前にやってたことを見て、それを前に進めるだけやな。エンタープライズがやってることが何かはっきりしてるで。

明らかに俺らがやってることの一つ、俺らの核となる価値提案の一つは、どうやってお前らを、エンタープライズを主要企業がやってることに近づけるかや。そして彼らは確実にそれをやってるで。これらの強化学習環境を見とる。コーディングエージェントでも他のタイプのエージェントでも、それが最先端やし、俺もお前の意見に同意するで。研究所がやってることとエンタープライズがやってることの間の差、そのタイムラインが圧縮されとるんや。

だから、6ヶ月後には、特に適切なパートナーと仕事してるなら、彼らはそれをやってるやろ。俺らのことを見とるで。

そうや、そうや。でもみんながそうなると思うで。継続学習に向かい、これらのエージェントをエンタープライズ環境にカスタマイズしていく中で、理にかなってることやからな。

でも段階的になると思うで。サンドボックスって言ったとき、みんなすぐにブラウザ使用みたいなVM的な考えに飛びつくと思うけど、前回話したように、その前に段階があると思うんや。データへのインターフェースを統合することについてやな。

俺の妹が昔Bonobosで働いてたことを覚えとる。今はWalmartの子会社みたいな会社やけどな。彼らは散在したデータを至る所に持っとって、人間として見たとき、技術的に言えば、俺がこれ全部にアクセスできたら本当に良い洞察を得られるのにって感じやったんや。でも散在しすぎてて、それらをまとめるのがとても困難やったんや。

エンタープライズにとって、俺らがこのすべてのものと相互作用するクリーンなAIインターフェースを望むなら、抽象化を構築してそれらをまとめる必要があるって言うプレッシャーがより大きくなってる気がするんや。CTOや技術責任者に基本的にこのインターフェースを構築するプレッシャーがかかってると思うで。

その次のレベルは、VMでAIにToDoを実行させたいなら、人間にとってより自然なやつ、例えばWindowsがあってExcelのアイコンをクリックするのと、Excel APIを使うのは全然違うからな。だから確実に勾配があるやろ。6ヶ月は俺にとってはほとんどの人にとっては少し圧縮されてる気がするで。

願望的思考やな。

確実に願望的思考やけど、正しい方向への一歩やと思うで。

俺も、ブラウザ使用みたいなやつだけやなく、本番データベースを取って、実際に本番データベースを編集することなく実際に編集できるようになることも意味すると思うんや。つまり、現在エンタープライズデータでどこにいるかのスナップショットを取って、それをいじり回して、反対側でどこに出てくるかを見ることができるようになる。そしてそこから学ぶことができるんや。

ああ、それは実際俺は考えてへんかった。そうやな。

俺と同じように混乱してる人たちのために説明すると、お前が言ってるのはクローンを持つことができるようになるってことやな。

そうや、まさに。AIに動き回ってもらって色々やってもらうとき、本番システムでやらせたくないからな。

そうや、まさに。だから、サンドボックスが負荷のかかった用語やったかもしれんけど、これらのクローンを作らないといけないんや。でも俺は今理解したで。俺は今理解したで。それには100%同意するで。

フェリックスの予測：AI投資からの一時撤退

よっしゃ。よっしゃ。次に移ろか。フェリックス、お前は何が起こると思う？次の6ヶ月の予測は？

よっしゃ。いくつかあるで。ここではより穏やかに始めよう。

まず最初に、ちょっとホットテイクやと思うけど、AIを少し諦める人たちが出てくると思うんや。倍賭けする人たちもたくさんいると思うけど、大手テック企業みたいな大企業は、投資する必要があることを知ってて、ゴールに向かって何回かシュートを打つ覚悟があって、何回か外すのも覚悟してて、これがゲームの一部やと知ってるんや。いくつかのスタートアップもそうするやろ。上がったり下がったりするスタートアップもたくさんあるやろうけど、彼らも何回かゴールを狙う覚悟があるからな。

でもそんなに多くのシュートを打つことができない、または打つ意志がない中間層の人たちがいるんや。おそらく部分的に、AIが効果的やないというよりも、間違ったシュートやったということを完全に理解してへんからやと思う。

例えば一部のエンタープライズが「おい、内部の何かにチャットインターフェースを作ろう」って言って、人々がそれを使わへんかったら「ああ、多分誰も内部で必要としてへんのかもしれん。または俺らに収益をもたらさへんかったかもしれん」って言って、「だからこれを諦めよう」ってなるような感じや。

人々がその敏感さ、その中間層についてあまり話してへんと思うんや。だからそれは言わなあかんと思うで。

ちょっとした簡単なフォローアップ質問をするで。それはこれらの中間層の会社にとって製品体験についてやと思うか、それとも技術がそこにないことについてやと思うか、それとも両方かもしれん？

そうや、そうや。いや、つまり簡単な質問をありがとう。明らかに正しい製品を構築する必要がある。正しいユースケースを選ぶ必要があるんや。

18ヶ月後、3年後を見ると、今諦めたエンタープライズは、止まったんやなく一時停止やと思うで。新しいインターフェースやパラダイムが出現し、データを正しい場所に置き、AIを採用するのを困難にした問題の一部を修正するにつれて、彼らは戻ってくるやろ。でも確実にフェリックスの意見に同意するで。現在解決しようとしてる問題や解決しようとしてる方法を考えると、投資が今のところ価値がない人たちがたくさんいるんや。

今日、一部のハンマーではすべてが釘に見えるからな。そしてそれらのハンマーは実際にかなり価値があるんや。ChatGPT、Copilot、Gemini、これらは幅広いユースケースで超価値があるけど、すべてを解決するわけやない。そして時には、実際にはとても繊細で思慮深い製品体験でより良く解決されるものを解決しようとすることもあるんや。

でも見てみよう。諦める会社の形や、どれくらい早く戻ってくるかを見てみよう。彼らはいずれある時点で全員戻ってくると思うからな。俺らが知ってるソフトウェアは本当に根本的に変わってるけど、正しい方法で適用されなあかんし、ヒューリスティックでやった方がいいことをLLMにやらせようとしたり、実際に人間がやった方がいいことをLLMにやらせようとしたりしても意味ないんや。

ROIがそこにある必要があって、場合によってはそうやないから、次の6ヶ月でそういう種類のユースケースがたくさん落ちていくのを見ることになるやろ。

何か新しいものを作るには並外れたビジョンが必要やと思うんや。そしてお前の会社の誰かがすべての星が整列して最も素晴らしいものを着地させることを期待するのは、ほとんどの会社にとってかなり困難なことやと思うで。

俺がよくする類推もあるんや。昔、人々は4分マイルは破れないと思ってたんや。前にお前らに話したことがあると思うから聞いたことあると思うけど、4分マイルは破れないと思われてたんや。

そして誰かがそれを破った途端、確か翌年に何人かがそれを破ったんや。想像が突然変わって「ああ、しまった。それは可能や。そんな風にできるんや」ってなるからなんや。ChatGPTがたくさんの人にとってそれをしたと思うんや。起きたらそれがあって、「待って、何？どうやって？ああ」ってなったんや。

そして今、みんながそのアイデアに飛びついてるんや。だから一部の人は3分マイルや2分マイルが破られる必要があると思うで。ちょっとした「ああ、俺らはこれを適用できるんや」っていう衝撃が必要で、チャットが諦めようとしてる人たちの中には、完璧なユースケースやないかもしれんからな。

だから次に話そうとしてる非同期エージェントみたいなものがそこに到達する方法かもしれん。もしまだ見えてないなら、多分待つ必要があるんや。

質問があるで。ChatGPTでファウンデーションモデルプロバイダーにこの4分マイル的瞬間を見たとき、OpenAIがAIについて非常にオープンやったのから、かなりクローズドになったのを見たやん。このエンタープライズ版の4分マイル破りがあるとき、彼らは内部でやってるAIについて話すのをやめると思うか？もっとプライベートになると思うか？それとも公開市場で共有しなあかん事情なんかのせいで、共有し続けると思うか？

彼らは話すと思うで。彼らが話すことに疑いの余地はないと思うで。何か素晴らしいことを成し遂げる。インパクトがある。収益に違いをもたらす。つまり、人格的に考えても、個人的にも、自分の賞賛を叫んで「俺は大きな違いを作った」って言いたくなるやろ。だから、共有することの方がプライベートでいることよりも利益があると疑わんで。

プライバシーは多分、研究所や競合他社に持たれたくないIPや技術を構築してる人たちのためのものやと思うけど、エンタープライズが自分らのやったことを共有せん理由はないと思うで。

他の人に対して競争優位を保つためだけやろな。

彼らがやってるという事実については話すと思うし、そうすべきや。どうやってやってるかは、もっとプライベートに保つやろ。

非同期自律エージェントへの移行

よっしゃ。次のやつ、次のやつは、より自律的なエージェントへのかなり大きなシフトがあるということや。さっき4分マイルについて言ってたように、チャットインターフェースと期待することについて、俺にとって3分マイルは、俺がお前の隣に座らなくてもいいということなんや。

時々俺が一緒に仕事してる人たちに話す類推があるんやけど、AIについて制限的なことは、俺がその隣に座らなあかんことやって言うんや。ChatGPT、Cursor、今俺が持ってるすべてのもので、今このポッドキャストを撮影してるけど、俺の代わりに行われてる仕事はないんや。それが既に可能であるべきやのに、既に可能やないという事実が、俺らがここにいてエージェントやツール使用や継続学習や強化学習に投資してる理由なんや。それらは難しくて、適用するのは簡単やないからな。

俺らがこれを信じてるから、俺らからの強制的な機能のためかもしれんけど、エンタープライズはこの方向に動くと思うで。「よっしゃ、ちょっと待て。操作の順序を変えるべきやないか？」って言うために。人間がAIの隣に座るんやなく、AIが俺に話しかけてくるんや。

例えば今、俺がイヤホンを持ってて、メッセージを受け取って「おい、これをやった。お前のためにこれらの雑用をすべて終わらせた。お前の机の上にあるから、机に戻ったときにレビューして、お前が望むものがあれば調整できるで」って言われることを想像してみい。

それが俺にとって次の3分マイルや。それは俺の人生を大幅に変えるやろ。ワークライフバランスについて話すなら、それは大きな違いやで。

お前はこれを、お前の耳にこの、なんか埋め込まれるものを受け取って、妻との夕食でもまだ

そうや、まさに。俺が話してて、彼女も俺の耳に話しかけてくるんや。

まさに。うん。お前らはどう思う？エンタープライズにとって可能やと思うか？ちょっと早すぎると思うか？タイミングについてどう思う？

そうや、いや、完全に同意するで。つまり、俺らはこれについてよく話すんや。長時間実行される非同期エージェント、それが本当の未来やと思うで。今日俺らはリクエストとレスポンスがあって、ある意味では今日俺らがソフトウェアを使う方法に対してスキューモーフィックなんや。iPhoneが最初に出たとき、ウェブページを複製しようとするアプリがたくさんあって、デスクトップでやることを複製しようとしてて、モバイルでいることの価値を理解してへんかったと思うんや。

エージェントでも次の6ヶ月、12ヶ月、18ヶ月で同じ移行があると思うで。エージェントはリクエストして即座にレスポンスを得るソフトウェアやないんや。エージェントの価値は2つや。

一つは、長時間実行される非同期タスクを実行してアクションを取れることや。そして二つ目は、水平にスケールできることや。

今日はChatGPTの一つのインスタンスがあって、何かするようリクエストして、それが出て行って何らかの作業をして、深いリサーチをして、10分後に応答するかもしれん。でも俺らが見ることになるのは、リクエストをして、それぞれが何らかの作業をしに行く10,000のエージェントが生成されて、その作業を組み合わせて、長期的にはレスポンスを得るということや。

それが非スキューモーフィック版やと思うんや。それはより速い馬やなく、車なんや。これらのエージェントを今日俺らが持ってるタイプのソフトウェアとは異なるものにしてる、本当に特徴的なものに寄りかかることなんや。

前に話したことがあるけど、これはSnowflakeやデータウェアハウスがクラウドでコンピュートとストレージを本当に分離して、クラウドが本当にテーブルにもたらすものは何かって言ったのと非常に似てるんや。コンピュートを水平にスケールアップして、それをスケールダウンする能力なんや。

エージェントも同じことをすると思うんや。10,000分間シリアルでその情報をやるんやなく、1分間10,000のエージェントをやることができるんや。だから完全にお前に同意するで。俺らがエージェントと相互作用する方法は完全に変わるやろ。エージェントが俺らのために働くようになって、俺らがエージェントの隣に座るんやなくな。

本当に面白いことがあって、簡単に議論すべきやと思うんやけど、お前はコストが下がることについて話してたやん。これがコスト削減の一部やと思うんや。ちょっと直感に反するように見えるやろ。「ああ、スケールアップして、モデルに100万回質問したら、なんでコストが下がるんや？」って思うやろ。

これはGPU利用率と話したことと関係があると思うんや。規模の経済がコストを削減する方法と似てて、高い利用率があると、何もせずに座ってるすべてのマシンが突然利用されるようになって、コストを下げることができるからや。高い利用率があるからな。

ML エンジニアとして、これについてどう思うか気になるで。何もしてへん機械がたくさん座ってるって言ったやん。非同期で実行されてるこれらのAIエージェントは、どうやってこれらすべてのコンピュートを利用できるんや？

何度も何度も見てきたことの一つ、同じコインの両面みたいなもんがあると思うんや。一つは、推論時コンピュートにより多くの時間を与えるほど、LLMがより多くを達成できるということや。だから「これが俺にやってほしいタスクや。GPUクラスターでどれだけの利用率があるかによって、たくさんのコンピュートかちょっとのコンピュートを使え。利用可能なものなら何でも開いてる」って言えることを想像できるんや。

そしてもう一つは、トレーニングと推論の間により統一をもたらすことやと思うんや。たくさんのリクエストがあるとき、たくさんの需要があるときに推論をして、その需要が減ったら、推論からすべてのトレースを取ってトレーニングを始める。推論が再びスケールアップし始めたら、トレーニングをランプダウンして、チェックポイントを保存して推論に戻る。このようなGPUの統一された最大使用を本当に想像できるんや。

そして非同期の長時間実行作業に移行するにつれて、必ずしもピーク負荷時間中にそのすべての作業をスケジュールする必要がないんや。だから9時から5時の間に人々がたくさんのリクエストをしてるときは、たくさんの非同期作業はしないで、夜中や利用率の低い時間に「明日までに必要やけど」って言って待つことができるんや。

モデル用のスポット価格設定はもうあるんか？スポット価格設定やな。

そうや、これに取り組んでる会社があるで。これに取り組んでる会社があって、これが未来やと思うんや。エンタープライズへの影響が何になるかは分からんけど、確実に

巨大やろな。つまりAWSで、ピーク負荷時間以外でコストを削減するスポット価格設定をやったやん。すべてのクラウド会社がそれをやってると思うで。

だから、そうや。それは巨大になるやろ。

AI導入による雇用への影響

よっしゃ。それから、ベンに渡す前に最後に一つ手短に。これはもうちょっと議論のポイントや。より多くのレイオフが起こる可能性についてお前らはどう感じる？大企業、特に大企業で、伝統的に「たくさんの人を雇ってトレーニングしよう」みたいなコンセプトで雇用してきた会社が、AIの出現でもうそんなにできないと感じるかもしれんと思うんや。大手テック企業では確実に危険やと思う。

大企業から来た人たちから見てるトレンドで、前は持ってへんかった恐怖を今は持ってるんや。サービス会社についても、AI対応の人たちのマージンと競争できないという恐怖があると思う。

だからいくつかのシャッフルがあると思うんや。過去に言ったことがあるけど、仕事の50%がカットされるとは思ってへん。人々がAIと一緒にAIを使う機会がたくさんあると思うで。お前のベースラインゼロはAIと同じくらい良いべきや。自分をレベルアップする方法があるからな。だから俺はみんなにそれをすることを勧めてるで。

でも確実に短期的には雇用市場に不確実性がある期間があると思うで。

再配置があると思うで。コンサルティング会社もレイオフして、ジュニアの人をそんなに雇ってへんのを見るからな。ソフトウェアでもそれが真実やと思うで。最終結果が失業の増加になるとは思ってへんし、AIを本当に活用してて素晴らしい利用がある他の会社に向かって、それらの人々が再配置されるのを見ると思うんや。

AIを採用することで人々が得る効率性の向上が、彼らのビジネスのマージンプロファイルを変えるやろ。より多くの人を雇うことができるんや。だから、お互いに対抗してる対抗効果があると思うんや。見てみよう。でも確実にお前の意見に同意するで。明らかに企業がこの機能をより少ない人でできることに気づいてレイオフしてるからな。

そして反対に、AIを活用すればこの機能が本当に価値があることに気づいて、より多くの人を雇いたいと思ってるかもしれん。だから見てみよう。どこに着地するか見てみよう。ただのシフトなんや。

ベンの予測：モデル価格の継続的下落

それじゃあベンに移ろか。次の6ヶ月で何が起こる？

一番明白なのは、モデル価格が下がり続けるということやと思うで。より良いGPU利用率について話したけど、研究所ではたくさんのモデル蒸留が起こってると思うんや。サム・アルトマンがこれについて話してるし、それが真実やということが証明されてる。

そしてこれの影響は、はるかに多くの問題が扱いやすくなるということやと思うんや。タスクを達成するのに1ドル使わなあかんなら、ユーザーに何かアップセルしようとするためにデータを変換したりしないやろ。

でもそれが100分の1セントの一部の費用なら、それはお前にとって利益のあることになるんや。だから企業が投資すべきことは、価値の提供に焦点を当てることや。コストに焦点を当てないことや。

過去は、AWSの請求書が3ヶ月で100倍減ることはなかったけど、今それが本当に起こりうるんや。俺らがこれを顧客と見てるからな。OpenAIから主要モデルのモデル価格が下がって、2番目に主要で2番目に強力なモデルが前世代の最も強力なモデルと同じくらい良くなって10倍下がるのを見るんや。だから同じ仕事をするのに20倍、30倍、50倍のコスト削減を見るんや。だから、AIがもたらす価値にワークフローに投資することが本当に重要で、コストはゼロに向かうだけや。

その面白い副産物の一つは、実際にLMSに作業してもらうインフラがコスト削減しないことやと思うんや。最近、検索に関するGoogleプロジェクトで探索をしてたんやけど、コストの制限要因が実際にはGPUやなく、検索APIのコストやったことが分かったんや。LMのコストが下がるにつれて、他のソースからコストのボトルネックが来るような他の効果があると思うで。

100%やと思うで。コストがゼロに向かうと仮定せなあかん。インセンティブを見てみい。需要を見てみい。コストが下がることに向かってすべてが整列してるからな。新しいモデルをリリースするやろ。以前のモデルがより安くなるやろ。競合他社が他のモデルをリリースするのを見るやろ。DeepSeekが出てきてそれを実現したように、モデルをより安くする新しい技術があるかもしれん。

だからたくさんのモデルプロバイダーがコストを削減せざるを得ないんや。GPU利用率が上がってコストが下がることを考えてみい。つまり、すべての兆候がコストが下がることを指してるんや。俺らが以前持ってた顧客で、ファインチューニングに多く焦点を当てたけど、モデルコストが彼らにとって意味のあるレベルまで下がったって顧客もいたからな。だから、ベンが言ったようにコストが下がるという考えで常に設計すべきやし、それを深く考える必要はないんや。

これは過去のポッドキャストで話したことと本当によく合ってると思うで。製品UXに焦点を当てて、どんなモデルでも関係なく物を役立つものにして、そのスライディングスケールを有利に使う柔軟性を与えるって言ったやん。コストが禁止的に高いと感じたり、そういうことがあったら、他のモデルに削減できる。

それを乗り切ることができて、モデルが好きなコストになったらすぐに、上げるんや。だから、これはすべて製品設計の概念の一部なんや。

エージェントの本格実用化

よっしゃ。次の6ヶ月でエンタープライズに対する俺の2番目の予測は、エージェントが本当に本番に投入されるのを見ることになるということや。これは特にホットなテイクやとは思ってへん。エージェントがすべての流行やと思うからな。

タイムラインがどんな感じになるかという質問があったと思うけど、MCPみたいなものや、OpenAIがMCPを採用し始めるような異なるリリースが、実際にエージェントを本当に加速させてると思うんや。今、会社が気にしてるシステム・オブ・レコード、本番グレードのツールにアクセスできるようになったからな。

だから一夜にして起こるわけやないけど、次の6ヶ月で本当にエージェンシー本番を見ることになると思うんや。そしてその含意は、効率性から移行することになるということや。今日のツールは主に情報検索と質問することについてで、能力に移行するんや。

それがエージェントがもたらす本当に根本的な価値や。新しい能力をもたらすんや。そしてそれらは2つの領域に広がるやろ。一つは仕事全体の自動化や。だから仕事全体を拡張・自動化することや。

今日、ChatGPTがエンタープライズ内で何をするかを考えたら、俺の仕事を自動化してるわけやない。俺をより効率的にしてるだけや。でも今、話したように、10,000倍スケールアップできるエージェントを持つことができて、実際に俺の能力を拡張できるんや。

だから例えばプライベートエクイティで働いてて、5人のアナリストが3週間かけて本当に調べるようなディールルームを見る必要があるとか、分からんけど多分24時間働いて3日かけるとしても、今は5分で起こることができるんや。

だからそれは俺の働き方、働く速度、そしてそういう種類のことすべてを完全に変える、まったく新しい能力なんや。これらの職務機能は本当に変わるやろ。

そして2番目は、人々が構築する製品に新しい能力を追加することになるんや。ウェブサイトにチャットボットを追加するのはクールやけど、本当に顧客が使ってる製品に高いレベルのパーソナライゼーションを追加することで、お前が彼らのために構築したエージェントを活用して、可能なことを完全に変えることができるんや。

それは本当に変革的になると思うし、たくさんのテック企業がこれらのエージェントを立ち上げるのを見てるし、次の6ヶ月でエンタープライズにも来ると思うんや。

たくさん出したな。いや、いや。その枠組みは実際に本当に本当に役立つと思うで。自律性を持つとはどういう意味かを考えること。これらのエージェントがどこに向かうかについては、お前が言うように効率性の向上から能力の向上に移行することになるんや。それは本当に強力な考え方やと思うで。

その副産物で面白いのは、俺らのプロダクトデザイナーのStainと話してたんやけど、俺らが新しいアジェンティックなものを構築してるって言ったんや。

俺は彼に「このインターフェースがどんな感じに見えるかについて、ユーザーの印象を変えることを考える必要がある。人々は検索バーやチャットインターフェースに慣れてるからな。でもアジェンティックなものに変えたら、まだチャットインターフェースのように見えるんや。

でも問題は、情報から能力に切り替えたから、多分異なるインターフェースが欲しくなったり、チャットを見たら情報をくれるだけやと仮定するんや。何かの未来版を見たら、まず第一に、お前はどんな能力を持ってるんや？どんなことができるんや？どんなことを頼めるんか分からんのや。

面白いことに、昔というか今、チャットボットを見るとき、他に何も能力を期待してへんから、何も教えてくれなくても気にならんのや。情報をくれること以外は期待してへんからな。

でも今、何かを見て「よっしゃ、サイトを横断できる、ページをナビゲートできる、ページ上のものを変更できる、物を生成できる」って思ったら、どうやってそれを知るんや？だからデザイナーの視点から、誰かの期待を変えなあかんという難しい問題があって、でも過負荷にはしたくないんや。

だから確実にエージェントが本番に入ると思うし、能力へのパラダイムシフトがあるから、デザインシフトも必要やと思うんや。将来面白いことが起こるやろな。

垂直型AI企業の爆発的増加

最後の見解と予測は、ほぼすべてのセクターで垂直AI企業の爆発が続くのを見ることになるということや。そしてそれらがエンタープライズに売ろうとするやろ。それをするのにかなり効果的になるやろ。

そしてこれらのエンタープライズにとって買うか構築するかの選択があるやろ。これらの垂直化された会社は本当に専門知識を開発してて、そこでかなり良い仕事をしてるんや。だから今は法務やカスタマーサービスなんかで見るけど、入ってくるこれらの垂直AI企業の胴体の尻尾みたいなものがあると思うんや。

明らかに利点は、やってることの専門家になることや。これらの垂直AI企業の欠点は、AI戦略、オーケストレーションの単一の真実のソースである必要がないことや。

そして企業とエンタープライズは、彼らが提供するものやプロダクト、働き方の核心となりうる技術と能力を必ずしも所有することができないんや。だからエンタープライズは次の6ヶ月で、カスタマーサポートだけやなく、あらゆる職務機能とあらゆる役割で、AIについて買うか構築するかの選択に直面すると思うんや。

正しい答えは何やと思う？

場合によると思うで。俺らの本を売るという話やなく、本当に場合によると思うし、時にはこれらの会社の一つと一緒に行くのが理にかなうこともあるんや。本当にインパクトのあるサービスを提供してるからな。

ビジネスにとって本当に核心で、戦略にとって核心のとき、5年前を考えると、AI能力を所有することが本当に重要やし、特に主要エンタープライズにとっては、SMBセグメント、中間市場セグメントでは購入するのが理にかなうと思うんや。

でも市場リーダー、業界リーダーやったら、競合他社の平均を望まんのや。差別化されることを望むんや。そしてエンタープライズが持つ核心的価値の一つは、配信を持ってることや。

たくさんのユーザーデータを持ってて、それは誰も構築できない非常にカスタマイズされた、非常にビスポークな体験を構築できることを意味するんや。そして他のみんなと同じようになりたくないんや。彼らを素晴らしくする、業界リーダーにするものに寄りかかるべきや。だから構築すること、Scaleのようなパートナーと構築することは、しばしば業界で5番目に良いプレーヤーに対して優位性と専門知識を与えるんや。

Human in the Loopを聞いてくれてありがとう。AIに関連するコンテンツのループにいるために、いいねとコメント、購読を忘れないでください。