3年間のAIの歩みを32分で振り返る(チャットボットからエージェントへ)

本動画は、2022年11月のChatGPTリリースから2025年末までのAI進化の歴史を包括的に解説するものである。初期のチャットボットから始まり、マルチモーダルモデルの登場、推論モデルの革新、そして現在のAIエージェントの時代まで、技術的な発展の軌跡を丁寧に追っている。特に、スケーリング法則、RAG、テスト時計算スケーリングといった重要な概念を通じて、AIがどのように実用的な価値を生み出すまでに進化したかを明らかにしている。コーディングエージェントを中心とした2025年のAIエージェント時代の到来と、今後のマルチエージェントシステムへの展開についても展望を示している。

3 Years of AI in 32 Minutes (chatbots to agents)

💡 Get 30 (free) AI project ideas: the past few years, AI has evolved at an overwhelming pace. Here, I (try to) recap eve...

ChatGPTの登場とAI革命の始まり
スケーリング法則の発見と競争の激化
幻覚問題への対処とRAGの登場
マルチモーダルモデルの登場
推論モデルとテスト時計算スケーリング
ディープリサーチツールとツール呼び出しの進化
AIエージェントの時代

ChatGPTの登場とAI革命の始まり

皆さん、こんにちは。ショーです。この動画では、過去数年間におけるAIの主要なイノベーションをすべて振り返っていきます。最近、AIは圧倒的なペースで進化してきましたが、この動画の目標は、私たちがどのようにして現在に至ったのかを明確に理解していただき、次にどこへ向かっているのかについての感覚を持っていただくことです。

私たちの物語は当然ながら2022年11月、ChatGPTのリリースから始まります。もっとも、これは今日私たちが知っているChatGPTとはかなり異なるものでした。ウェブ検索機能もありませんでした。コードインタープリターもありませんでした。単純にこのチャットインターフェースがあって、質問を入力したり、何かをするように頼んだりすると、魔法のようにそれを実行してくれるというものでした。そしてもちろん、これは大ヒットとなりました。

ChatGPTは1ヶ月足らずで1億ユーザーに到達したと思います。そして非常に素早く、AIは一握りの研究者や科学者、エンジニア、愛好家だけが本当に夢中になっていたものから、誰もが話題にするものへと変わりました。ニュースサイクルを席巻しました。懸念も引き起こしました。そして実際、あの瞬間から多くのことは変わっていません。人々は今でもAIについて話しています。

今でもそれをめぐる懸念があります。それをめぐる興奮も今でもたくさんあります。ChatGPTを作成するために使用されたプロセスは、今日の最新のAIモデルがどのように作成されているかの青写真となっています。つまり、この3段階のトレーニングプロセスで構成されていましたが、すべては事前学習から始まります。これは基本的にインターネットから有用な情報をすべて取得することで構成されています。

つまり、これらは本、コードベース、古いテキスト、ミームやジョーク、エンターテイメントコンテンツ、全く意味をなさず誰にとっても何の役にも立たないもの、そして他の多くのタイプのドキュメントといったものです。このすべてのテキストデータを取得し、それを使用していわゆる基盤モデルを訓練します。このモデルは、最近私たちが慣れ親しんでいる大規模言語モデルとはかなり異なります。

本質的に、これは超強力なオートコンプリート機能です。テキスト文字列が与えられると、このモデルは次に何が来るかを予測するだけです。特定のシーケンスに続く最も可能性の高い次のテキストは何か、ということです。つまり本質的に、これはインターネット上で見たすべてのテキストに基づいたドキュメント補完機能にすぎません。

ですから、これらの基盤モデルの1つを使って興味深く役立つタスクを実行させることはできましたが、それを役立つものにするには本当に多くの作業が必要でした。インターフェースをより自然なものにするために本当に必要だったのは、この2番目のステップである教師あり微調整でした。これはユーザーとアシスタント間の偽の会話を構築し、このドキュメント補完機能にアシスタントのように話す方法を訓練することで構成されていました。

つまり、これは単なるドキュメント補完機能から指示フォロワーへと変わったのです。この時点で、私たちはChatGPTのように見えるものにかなり近づいていますが、この指示フォロワーにはまだいくつかの問題があります。つまり、常に役立つ応答を提供するとは限らないということです。多くの幻覚を起こす傾向があるかもしれません。

質問に対して役に立たない、または安全でない応答を提供するかもしれません。なぜなら、繰り返しになりますが、これはインターネットの荒々しさについて訓練されただけだからです。応答において適切な判断を使用できる普通の人間のようなものではないのです。そこで、人間のフィードバックからの強化学習と呼ばれる最終ステップがあります。

このステップの目標は、この指示フォロワーを人間の好みに合わせることです。本質的に、この指示フォロワーを取り上げて、それを役立つアシスタントに変えることです。これはいくつかのサブステップで構成されています。OpenAIが最初に行ったことは、多くの入力リクエスト、多くのプロンプトを取得したことです。彼らはそれを指示フォロワーに渡し、応答を生成させました。そして彼らは多くの契約者とデータラベラーを雇って、応答にランキングを割り当てさせました。

彼らはモデルに、例えば与えられたリクエストに対して10の応答を生成させ、ラベラーはこれらの応答を、どれが良くてどれが悪いかに基づいてランク付けするだけでした。そして彼らはこれらの好み、人間の契約者からのラベルを取り、それを報酬モデルと呼ばれる特別な種類のAIモデルに蒸留しました。

そしてこの報酬モデルは本質的に人間の好みの代理でした。言い換えれば、大規模言語モデルからの応答を与えると、それは報酬を割り当てます。基本的に、人間がその応答を好むか好まないかを予測します。つまり本質的に起こることは、報酬がフィードバックとして使用され、どの応答が良くてどの応答が悪いかを言語モデルに教えるということです。これはすべてリアルタイムで発生する可能性があります。

つまり、モデルは人間のラベラーのボトルネックなしに、報酬モデルによって訓練されることができます。そしてこのプロセスの結果は、実際に役立つアシスタントであるこの最終的な言語モデルです。ChatGPTのリリースから数ヶ月後、これに対して多くの興奮があることは明らかで、多くの人々が参加し始めました。

そして私たちは、ChatGPTのような大規模言語モデルのこの流入を見始めました。GPT-4があり、これは次世代のChatGPTを作成するために使用されました。MetaからLlamaがあり、これはオープンウェイト、オープンソースモデルでした。AnthropicからClaudeがありました。実際、ChatGPTを作成したOpenAIの多くの人々が会社を去ってAnthropicを立ち上げ、Claudeが彼らの最初のモデルでした。

また、GoogleはBardと呼ばれるモデルをリリースしました。これは現在の彼らが持っているGeminiモデルの前身でした。しかしもちろん、それは楽観主義と興奮だけではありませんでした。多くの懸念もありました。イーロン・マスク、スティーブ・ウォズニアック、ヨシュア・ベンジオを含む、テクノロジーとAI分野の多くの著名な人々によって署名された人気のある公開書簡がありました。

そして彼らは、すべてのAIラボに対して、GPT-4よりも強力なAIシステムの訓練を少なくとも6ヶ月間直ちに停止するよう求めていました。しかしもちろん、これは決して起こりませんでした。競争は激化し、これらすべての大手プレーヤーが最高のAIモデルを構築しようとしていました。少なくともChatGPTと競争できるものを目指していました。そして彼らにとって幸運なことに、最高のAIモデルを作成するためのレシピは実際にはかなりよく理解されていました。

スケーリング法則の発見と競争の激化

数年前、OpenAIのチームによる論文がありました。その多くはAnthropicを設立した人々ですが、彼らはいわゆる大規模言語モデルのスケーリング法則を発見しました。これは本質的に、モデルを大きくし、より多くのデータで訓練し、より長く訓練すれば、モデルはより良くなるというものでした。これが当時のすべての大規模言語モデルを推進していたレシピであり、今日でもそうです。この論文からいくつかのプロットを示します。この現象がここに示されています。

つまりX軸はデータのサイズです。Y軸はパフォーマンスです。つまり低い方が良いです。損失をできるだけ低くしたいのです。そして色は異なるサイズのモデルです。上から下へ、モデルはどんどん大きくなっています。そして最大のモデルが最高のパフォーマンスを発揮していることがわかります。

そしてデータセットが大きければ大きいほど、モデルのパフォーマンスは良くなります。つまりこれは、より多くのパラメータ、より多くのデータがより良いパフォーマンスを意味することを示しています。そしてこれはその別の部分を示しています。ここでも、モデルのサイズであるパラメータの数が色として表されています。X軸はモデルがどれだけ長く訓練されたかです。そして再びY軸にパフォーマンスがあります。

そしてこれは、より多くのパラメータを持つほど、つまりより黄色になるほど、より多くのパラメータを持つことを示しています。それがより長く訓練されると、それがX軸ですが、損失は下がり、つまりパフォーマンスは上がっています。より多くのパラメータ、より長い訓練、より良いパフォーマンス。これらのスケーリング法則は、企業にAI投資への予測可能な道筋を与えました。

彼らは、GPUを手に入れ、データを手に入れれば、より大きなモデルを手に入れてより長く訓練でき、最高のAIを手に入れるか、少なくとも現在存在するものと競争できるAIを手に入れられると確信していました。そしてこれが、Nvidiaが業界の人々が知っている単なるテクノロジー企業から世界で最も価値のある企業になった理由です。このスケーリング法則がその背後にある理由です。

この時点でAIへの多くの興奮と投資がありましたが、当時のモデルにはまだ多くの問題がありました。つまり、幻覚を起こす傾向がありました。そしてほとんどの場合、本当にクールで印象的なことをしましたが、まだ超価値のある技術ではありませんでした。特に企業がそれに対して行っている大規模な投資を考えると。いくつかの例を示します。

ChatGPTに行って、このYouTube動画を要約してと言い、リンクを渡したとします。当時、ChatGPTにはウェブを検索する能力はありませんでしたし、たとえあったとしても、YouTube動画に行ってトランスクリプトを取得することはできませんでした。しかしそれでも、喜んで自信を持って動画の要約を提供しました。そしてこれは完全に間違っています。

しかし他にも見出しがありました。Bardによる大きな失態がありました。これがおそらくBardを殺したものです。公開デモで間違った答えを出し、それがGoogle株を1億ドルか何かのように急落させる原因となりました。弁護士がChatGPTを使用し、ChatGPTが偽の裁判例を引用するケースもありました。そして、幻覚がこれらのモデルのかなり大きな問題であることに、ますます多くの人々が気づき始めました。

幻覚問題への対処とRAGの登場

これは、大規模言語モデル自体が超価値のあるものではないという認識につながりました。実際にインパクトを与えるものにするためには、足場が必要になります。言い換えれば、それらをより役立つものにするために、モデルの周りに物を構築する必要があります。

これは2023年の夏頃で、多くのものが出てきていました。プロンプトエンジニアリングが、誰もが話題にしていた新しいセクシーな仕事でした。これは、大規模言語モデルへのリクエストに特定のものを追加して、それをより役立つものにするという意味での足場です。人気があったのは思考の連鎖推論でした。

つまり、ステップバイステップで考えてくださいというような単純な行を追加するだけで、モデルのパフォーマンスがはるかに向上するという結果になりました。また、さまざまなプロンプティングフレームワークもありました。その多くは忘れられていますが、人々が今でも時々話題にするものの1つがReactフレームワークです。基本的にモデルに最初に考え、次に行動し、そしてその行動の結果を観察するようにプロンプトします。

もちろん、今日でも使用している他のプロンプトエンジニアリングのトリックがあります。モデルに役割を与える、目的を与える、明確な指示を与える、例を与える、構造化されたテキストを使用する、コンテキストを与える、などなど。また、この頃、大規模言語モデルフレームワークの台頭も見られました。つまり、LangChainやLlamaIndexのようなものです。

他にも多くありましたが、これらは時の試練に耐えた2つです。また、マルチ大規模言語モデルシステムの初期の時代も見ています。つまり、モデルにコードを生成させたり何かを書かせたりして、それから別のモデルにそれを批評させ、ループの中で行ったり来たりさせるという人々がいました。もう1つの人気のあるアプローチは、モデルルーティングを行うことでした。

つまり、難易度に応じてユーザーのリクエストを異なるモデルにルーティングする何らかのルールベースの方法があります。高価なモデルと安価なモデルを持つことができ、それに応じてリクエストをルーティングできます。

これは足場のためにできるさまざまなことの表面をかすめただけですが、この時点で最も人気のあるアプローチは、検索拡張生成、略してRAGでした。そしてこれは、大規模言語モデルに自動的に役立つコンテキストを与えるだけでした。当時のRAGの仕組みは、システムがユーザークエリを受け取るというものでした。そのクエリを使用して何らかの検索ステップを開始します。つまり、ベクトルデータベースから関連するドキュメントを取得し、それらの結果とユーザークエリをプロンプトに結合します。

次にプロンプトを大規模言語モデルに渡し、最後に大規模言語モデルに応答を生成させます。RAGは幻覚問題に対処する非常に役立つテクニックであることが判明しました。つまり、ユーザーがより最近のものについて尋ねたり、事前学習データに全くなかったものについて尋ねたりすると、大規模言語モデルは何かをでっち上げるだけです。なぜなら、常に応答を提供し、常に役立とうと訓練されているからです。

しかし、RAGを使用すると、関連するコンテキストを自動的に取得して大規模言語モデルに与えることができるため、モデルには応答を基礎づけるものがあるため、何かをでっち上げる確率が大幅に低下します。RAGの人気の直後に、もちろんコンテキストウィンドウが長くなり始めたため、RAGは死んだと言う人々がいました。つまり、これは振り返ってみると面白いことで、以前にどうやって生き延びたのか信じ難いです。

しかし、2023年の春夏頃に見ていたこれらの初期モデルは、現在のものと比較して小さなコンテキストウィンドウを持っていました。つまり、GPT-4は8,000トークンのコンテキストウィンドウを持っていました。これはMicrosoft Wordドキュメントのような約12ページのテキストです。

そして32,000でさえ、これは本にも満たない量でしたが、驚くべき量でした。Llama 2は4,000で、最初のバージョンのClaudeは9,000しかありませんでした。しかし、2023年の晩夏と秋に、コンテキスト長の大幅な増加が見られました。それらは10万トークン以上になりました。つまり、これらは数百ページのようなものでした。教科書に相当するデータをモデルのコンテキストウィンドウに収めることができました。

そして今日、私たちには100万トークンのコンテキストウィンドウを持つGeminiがあり、Llama 4 Scoutには1000万トークンのコンテキストウィンドウのようなものがあります。しかしもちろん、RAGは死んでいません。むしろ、長いコンテキストモデルは実際にRAGをより役立つものにしました。なぜなら、必要に応じてモデルにより多くのコンテキストを与えることができるようになったからです。

しかし、これは常にブログ投稿やX投稿か何かに載せる楽しい見出しだと思います。当時の大規模言語モデルのもう1つの大きな制限は、テキストのみを処理できたことであり、世界のデータの多くはテキストではないということでした。画像があり、動画があり、オーディオがあり、PDFのスキャンやPowerPointスライドなど、テキストに変換するのが難しい非構造化ドキュメントがあります。

マルチモーダルモデルの登場

そしてこれはマルチモーダルモデルの革新によって修正されました。この最も初期の人気バージョンはGPT-4 Vでした。つまり本質的に、これはGPT-4を取得し、このビジュアルアダプターを追加することで構成されていました。つまり、画像を取得してGPT-4が理解できるものに変換するミニモデルを追加し、本質的にGPT-4に画像を見る能力を与えました。

これは基本的な機能を提供しますが、これは2024年春にGPT-4oのリリースでかなり良くなりました。また、Googleもこの頃に同様の機能を持つGeminiをリリースしました。しかし本質的に、これらの次世代モデルはネイティブにマルチモーダルでした。テキスト、画像、オーディオを処理するように開発されました。これらすべてをエンドツーエンドで統合することの主な価値は、モデルがはるかに速くなることです。

これは少々不格好な方法で、推論時間の遅延につながります。すべてをエンドツーエンドで行うことで、モデルをより速く、より安く、より効果的にすることができます。そして今日、これが標準です。あなたが対話するほとんどのモデルはマルチモーダルです。

ネイティブにオーディオを扱わなくても、テキストと画像を扱います。これらはおそらく最も重要な2つのものです。2024年の夏は、物事が減速しているような感じでした。人々はGPT-5はどこだと尋ねていました。もしかしたら、この波は終わったのかもしれません。しかし2024年9月に、OpenAIがo1モデルを発表し、いわゆる推論モデルを導入しました。言い換えれば、これらは応答する前に考えることができるモデルです。

この時点で、推論モデルと思考モデルはどこにでもあります。つまり、あなたはおそらくこれに精通しているでしょう。しかし要約するだけで、これらのモデルの動作方法は、無負荷のツバメの空中速度はどれくらいですか、というような難しい質問をすると、すぐに答えに飛びつくのではなく、最初に立ち止まって質問について考えます。

そしてモデルが考えていることの小さな要約のようなものが表示され、モデルがそれについて考え抜いたら、実際に質問に応答し、最終的な応答を持ちます。ここでは、これがモンティ・パイソンとホーリー・グレイルのようなジョークの質問であることに気づき、それに応じて応答しています。

つまり、これは推論モデルの大きな革新でした。すぐに話しますが、最近のモデルにはもう1つの物語がありました。数ヶ月後、DeepSeekがDeepSeek R1と呼ばれるモデルを発表し、彼らは基本的にすべての秘密を公開しました。なぜなら、OpenAIはo1がどのように機能したかを説明するブログ投稿を持っていましたが、彼らがこれをどのように実現したかについての詳細は実際にはあまりありませんでした。

DeepSeekは結果を複製することができ、その後、オープンソースコミュニティにそれがどのように機能したかについてはるかに多くの洞察を与える論文をリリースしました。また、誰がAIを所有するのか、中国なのか、米国なのかといった多くの地政学的緊張も引き起こしました。そしてもちろん、これは人々が今でも話していることです。

しかし技術的な観点から、推論モデルはおそらくChatGPTのリリース以来、AIにおける最も重要な変曲点でした。なぜなら、これは本当に大規模言語モデルの新時代の到来を告げたからです。そしてこれはすべて、いわゆるテスト時計算スケーリングの発見に帰着します。言い換えれば、モデルがより多くのトークンを生成すればするほど、そのパフォーマンスは良くなる傾向があります。これがなぜ大きな問題なのかを説明しましょう。

推論モデルとテスト時計算スケーリング

この時点まで、言語モデルをより効果的にするための道筋は、いわゆる訓練時計算でした。これは私が以前に述べたレシピで、モデルを大きくし、より多くのデータで訓練し、より長く訓練すると、より良いパフォーマンスが得られます。それがここに示されているものです。

これらの3つの要素がここでこの訓練時計算軸に圧縮されています。そしてモデルがより長く訓練されるほど、そのパフォーマンスが良くなっていることがわかります。どんどん上がっていき、これはここでは数学ベンチマークについてのものです。これはOpenAIのブログ投稿からのもので、参考文献番号10です。しかし、o1の発見とテスト時計算スケーリングによって、訓練時計算が言語モデルを改善する唯一の方法ではないことに気づきました。

私たちにはまた、このテスト時計算という別の軸がありました。これは再び、モデルがより多くのトークンを生成すればするほど、そのパフォーマンスが良くなるというこの考えです。モデルがどんどん多くのトークンを生成すると、答えを出す前により長く考えるほど、そのパフォーマンスは良くなる傾向があります。

そしてこれは数学ベンチマークについてですが、これは基本的にすべての異なるタスクとドメインにわたる普遍的な現象です。モデルがより多くのトークンを生成すればするほど、基本的に考える時間が長くなればなるほど、その特定のタスクでのパフォーマンスは良くなります。これまで、推論モデルとそれらがより多くのトークンを生成することでどのようにより良いパフォーマンスを示すかについて話してきました。

しかし、これらのモデルはどのように作成されるのでしょうか。これはChatGPTの訓練の第3ステップである人間のフィードバックからの強化学習に戻ります。基本的に大規模言語モデルがこの報酬モデルからフィードバックを得て、その応答が良いか悪いかを大規模言語モデルに伝えます。この報酬モデルは人間の好みの代理でした。

つまり、時間が経つにつれて、モデルの応答はますます一致し、ますます役立つものになります。そしてここでの重要なことは、モデルが試行錯誤を通じてより役立つ応答を生成する方法を学習しているということです。何かを試し、フィードバックを得て、何か別のことを試し、フィードバックを得て、何度も何度も繰り返します。そしてこれらの推論モデルを作成するために、DeepSeekとOpenAIは同様のプロセスに従いましたが、人間のフィードバックからの強化学習を行う代わりに、私が本物の強化学習と呼ぶものを行いました。つまり、モデルに特定のタスクを実行させました。それを報酬モデルに通す代わりに、彼らはルールベースのチェックのセットを持っていました。

つまり、これはモデルの出力の正しさを評価するプログラムに過ぎません。これは具体的なフィードバック信号を与えます。つまり、人がそれを好むか好まないかの予測だけではなく、むしろこれは言語モデルへの二値の正しい・間違っているフィードバック信号です。

人間のフィードバックからの強化学習は、指示フォロー、一般的な質問応答、安全性のようなタスクには役立ちましたが、人間のフィードバックからの強化学習には核心的な問題があります。それは、モデルの品質があなたが作成するこの報酬モデルの品質によって決定されるということです。

つまり基本的に、あなたの報酬モデルはこの強化学習システムのボトルネックとして機能することになります。しかし、推論モデルには同じボトルネックがありません。なぜなら、それらは数学問題やSTEM Q&A、実世界のソフトウェアエンジニアリングタスクのような具体的なタスクで訓練されているからです。そしてこれらの問題には明確な正しい答えがあります。そして、このような訓練戦略の結果、特にDeepSeek R1を見ると、その思考の連鎖の長さがパフォーマンスの向上とともに増加することがわかります。

つまり、DeepSeek R1はこれらの具体的な数学とコーディングタスクでこの強化ループを通じて訓練されています。そして、それがより長く訓練されればされるほど、期待通りにますます正確になることがわかります。しかしまた、それがより長く訓練され、その精度が上がるにつれて、応答ごとの平均長も上がることがわかります。そしてこれはテスト時計算の具体的な実証です。

そしてモデルの精度がどんどん上がっていくにつれて、これはその平均応答長がより長くなることと相関しています。この方法で強化学習を使用することは、大規模言語モデルを訓練するための真新しいパラダイムを開始しました。今では大きな焦点は、特定のタスクでのモデルのパフォーマンスを改善するためにこの強化学習を行うことです。

ディープリサーチツールとツール呼び出しの進化

そしておそらく、この最も成功した例は、私たちが見ているこれらの最新のディープリサーチツールです。つまり基本的に、すべての大手AIプロバイダーはディープリサーチ機能を持っています。つまり、これらはリサーチを行い、そのリサーチに基づいて詳細なレポートを生成できるモデルです。これは最初にChatGPTで登場し、リサーチ計画を立てるというこのワークフロー全体を行います。何百もの検索を行います。

検索を通じて推論し、その発見に基づいてリサーチをリダイレクトします。そして必要だと感じるすべてのデータを収集したら、レポートを生成します。そしてこのワークフロー全体は、このエンドツーエンドの強化学習的な方法で訓練されました。モデルは強化学習を使用してさまざまなリサーチタスクを実行するように訓練されています。そしてもちろん、これは今ではどこにでもあります。

リサーチは今やClaude、Gemini、Perplexity、Grok、その他のAIツールの一部です。推論モデルはディープリサーチのようなツールを解放しましたが、大規模言語モデルを実際にツール呼び出しが得意になるようにするための基礎も築きました。

そして、関数呼び出しはこの時点でしばらく前から存在していましたが、うまく機能させるのは困難でした。しかし推論モデルによって、これは転換点となりました。ツール呼び出しを良くするためには、いくつかのことがまとまる必要がありました。最初は構造化出力でした。つまり、これは大規模言語モデルにJSONのような構造化されたテキストを出力させることです。

これが必要なのは、構造化形式がコンピュータによって解析されて実際にツール呼び出しまたは関数呼び出しを実行するものだからです。もう1つ役立つことが判明したのは推論モデルです。なぜなら、ツール呼び出しは簡単ではないからです。それには多くのことが含まれます。そして、リクエストにただワンショットで応答するモデルに依存すると、これではあまり良い仕事ができないことが判明しました。

しかし、推論モデルは立ち止まって問題について考え、タスクを分解し、使用したいツールを計画することができます。そしてこれにより、ツール呼び出しがはるかに信頼できるものになりました。そして最後に、モデルはツールの使用について特に訓練され始めました。これは複数のステップで構成されています。まず、タスクをどのように解決するかを計画する必要があります。

次に、利用可能なすべてのツールがここにある場合、どれが実際に役立つかを決定する必要があります。その後、使用したいこのツールにどのような引数を渡すかを考え、最後にその実際のツール呼び出しから応答を生成する方法を学習します。

おそらく最初は、構造化出力があれば信頼できるツール呼び出しを得られると人々は考えていましたが、実際にこれを確実に機能させるには、さらに1年か18ヶ月かかりました。つまり、大規模言語モデルが事前に特定のツールについて訓練されることなく、またはプロンプトに非常に詳細な指示を得ることなく、箱から出してすぐにツールの使用方法を知るこの能力です。

ツールスキーマを与えるだけで、いつツールを使用するか、どのようにツールを使用するかについてまともな仕事をします。そしてこれにより、人々はさまざまなツールセットとモデルを混ぜ合わせることが可能になりました。これが、モデルコンテキストプロトコル、略してMCPが最近非常に人気になった理由の1つです。

以前にMCPについて聞いたことがない場合、これはモデルにツールとコンテキストを与えるための普遍的な方法にすぎません。Anthropicがこれを説明するために使用する比喩は、MCPはAIアプリのUSB-Cポートのようなものだということです。以前の古いコンピュータには、異なるタイプのデバイス用のさまざまなタイプのポートがたくさんありましたが、最終的にすべてがUSB-Cポートで標準化されました。

今でさえ、USB-Cポートしか持たないラップトップがあります。そしてそのポートは、電源、iPhone、プリンター、キーボード、マウス、またはラップトップに接続したいデバイスのために使用されます。つまり、MCPはAIアプリケーションに対して同様の機能を果たします。AIアプリをラップトップと考えることができ、MCPを使用してそのアプリケーションにあらゆる種類のツールと統合をプラグインできます。

これが可能にするのは、AIアプリケーションとのカスタム統合を持つことができるようになることです。たとえば、SlackアカウントとGoogleドライブアカウントをClaude Desktopに接続できます。Claudeに Google Driveからデータを引き出し、本当に望むなら異なるSlackチャンネルに投稿させることができます。しかし、AIエージェントを簡単に立ち上げることもできます。

AIエージェントの時代

言い換えれば、お気に入りのAIモデルを取り、異なるMCPサーバーによって提供されるさまざまなツールを装備することができ、今やあなたには世界と対話してあなたの代わりに物事を行うことができるAIエージェントがあります。これはAIエージェントへの完璧な橋渡しです。エージェントの定義は多くあり、定義をめぐって多くの論争がありましたが、ここでは、エージェントをツールを介して世界と対話できるモデルと定義します。

つまり実際には、エージェントには2つの本質的な要素があります。それはモデルであり、それからそれがアクセスできるツールです。そしてそのツールは、現実世界と対話し、アクションを取り、データを取得し、ソフトウェアを作成し、メールを送信し、などなどすることを可能にします。2025年はAIエージェントの年になると言われました。

つまり、NvidiaのCEOであるJensenは、AIエージェントが今年展開されるだろうと言いました。Sam Altmanも同様の感情を持っていました。彼は、AIエージェントが2025年に労働力に加わるだろうと言っていました。そしてYCは2025年に垂直AIエージェントに巨額の賭けをしました。そして彼らは、2025年はAIエージェントの年になりそうだというX投稿をしていました。今日は2025年の終わり近くです。

そして私は、これらの予測は正しかったと言います。そしてそれは主に、私たちがコーディングエージェントで見ているもののためです。つまり、Claude Code、Codex、その他多くのようなシステムです。これらは、あなたのコードベースに展開できる特殊なAIモデルです。そして彼らは、ソフトウェアを開発する上で非常に役立つさまざまなツールのセットを持っています。

圧倒的に、これは今日のAIからの最大の経済的価値です。それを使用してソフトウェアを生成し、ビジネス上の問題を解決し、企業を創造します。しかし、これらのコーディングエージェントに関するもう1つの大きなことは、私はこれらが来年見られるであろう他のAIエージェントの青写真だと言えるということです。

そしてコーディングに関する素晴らしいことは、特にコーディングタスクでこの強化学習を行うことができるということです。AnthropicやOpenAIや他の多くのグループは、役立つコーディングエージェントを作成するために適切なタスクとは何か、適切な強化学習環境とは何かについて多くの時間を費やしています。そして、これらの製品の結果に基づいて、そのアプローチがどれほど効果的であるかがわかります。

2026年にはこのテーマが続きますが、他の分野や他のドメインに拡大し始めると想像します。しかし、エージェントが非常に役立つ主な理由の1つは、推論とツール呼び出しを組み合わせ、特定のタスクでこれらの特殊なエージェントを作成すると、引っ張られている主なレバーは、より多くのトークンが生成されているということです。

つまり、テスト時計算を通じてパフォーマンスを改善することができます。繰り返しになりますが、より多くのトークンはより良いパフォーマンスを意味します。エージェントが推論し、ツールを呼び出し、さらに推論し、大量のトークンを生成しているとき、特定のタスクでのパフォーマンスはますます良くなっています。そしてこれをスケールアップする自然な方法は、複数のエージェントを持つことです。

私はClaudeコードに特に詳しいので、それについて具体的に話します。Claude Codeの最も強力な機能の1つは、これらの特殊なエージェントがあることです。計画モードにClaude Codeを置くことができ、そこでは計画を立てることに特に焦点を当てたツールと指示のセットがあります。

自動編集モードに置くことができ、コーディングの変更を実装するだけです。つまり、これらを同じコンテキストウィンドウ内で動作する2つの異なる特殊なエージェントと考えることができます。また、本当に望むなら、実際に開発サーバーを実行し、エージェントにウェブサイトを探索させ、スクリーンショットを撮り、すべてが良く見えることを確認するカスタムツールでカスタムエージェントを作成することもできます。それを行うことができます。

特殊なエージェントを持つことは良いことです。なぜなら、ツールセットが大きすぎたり、指示が一般的すぎたりすると、エージェントのパフォーマンスが低下する傾向があるからです。この特殊化を持つことは役立ちます。人々がエージェントを展開し、テスト時計算を本当に最大限に押し上げ、本当に大量のトークンを生成させようとしたときに出てきたもう1つのことは、これらのコンテキストウィンドウがどんどん長くなるにつれて、コンテキストウィンドウに多くの無関係なテキストがあるため、これらのエージェントのパフォーマンスが低下し始めることです。

もちろん、コンテキストウィンドウを自動的に圧縮またはクリーンアップするClaude Codeや他のシステムに統合されているツールがあります。しかしこれの別のバージョンは、特定のタスクを実行して結果を報告するサブエージェントを作成し、同じコンテキストウィンドウを保持することができるということです。つまり、すべてのエージェントが1つのコンテキストウィンドウを共有するのではなく、別々のコンテキストウィンドウを持つことができるため、このテキストを管理し、いわゆるコンテキストの腐敗を避けることができます。

そして最後に、人々が行っていることは、実際に複数のエージェントを並行して実行することです。すべてが単一の機能で協力しているか、同じことに取り組んでいる複数のエージェントがあり、どれが最良の実装を行うかを見ることができます。

たとえば、エージェントに機能を実装させる場合、同じことを実装しようとする3つのエージェントのようなものを並行して実行することができます。20分間、1時間、何でもその修正を実行させます。そしてすべてが完了したら、コードをレビューして、どれが実際に良い仕事をしたかを確認できます。

そしてこれらはすべて、今日私たちが見ている、エージェントをスケールアップし、これらのシステムがより多くの価値を生み出し、より大きなインパクトを与えるためにテスト時計算をスケールアップするさまざまなことです。それが今私たちがどこにいるかについての私の読みです。そして来年2026年には、AIエージェントをスケールアップし続け、並行して実行するエージェントをより役立つものにする方法を見つけていくと想像します。

そのため、簡単に軌道から外れないマルチエージェントシステムを持つことができます。人々はコンテキスト管理をはるかに良い方法で行う方法を見つけると思います。それがサブエージェント、役立つヒューリスティック、またはその両方を通じてであれ。そして、コーディングエージェントだけでなく、さまざまなエンドユースケースのためにエンドツーエンドで訓練された、ますます多くの特殊なエージェントが出てくると思います。

そしてもちろん、過去3年間にAIで起こった他の多くのことがあり、この物語にうまく収まりませんでした。これらのトピックのいずれかについて取り上げてほしい場合、またはこの動画で話したことについて質問がある場合は、下のコメントで教えてください。そしていつものように、あなたの時間に本当に感謝します。視聴していただきありがとうございました。