エージェント向けMCP、Gemini 2.5ファミリー、神経OS、そしてo3p-proディストラック – EP99.09

MCP
この記事は約56分で読めます。

本動画は最新のAI技術動向について深く掘り下げた解説である。Google Gemini 2.5ファミリーの一般提供開始、MCPプロトコルを活用したエージェントワークフロー、神経OSの概念、そしてOpenAI O3 Proモデルの実用性について詳細に議論している。特にMCPを使った非同期作業手法や、異なるAIモデルの特性比較、将来のAIインターフェース展望まで幅広くカバーした技術解説となっている。

MCP for Agents, Gemini 2.5 Family, Neural OS & o3p-pro dis track - EP99.09
Join Simtheory & Easily Switch Models: Discord community: ---00:00 - Gemini 2.5 Family Launched with Gemini 2.5 Flash-Li...

Gemini 2.5ファミリーの一般提供開始

クリス、今週ついに長い間待ち続けた後、Gemini 2.5、より正確にはGemini 2.5ファミリーの思考モデルが一般提供されました。Gemini 2.5 Proが一般利用可能になり、Gemini 2.5 Flashも一般利用可能になりました。そして実際に彼らが「安定版」と表記したのが面白いと思います。他の車のリリースのように「これは安定版です」と言わなければならないなんて想像できますか。タイタン号の潜水艦のように「今度は動きますよ、心配しないでください、この潜水艦はとても安定しています」といった感じです。

そしてプレビュー版としてGemini 2.5 Flash Lightを入手しました。これは本当に驚くほど高速です。信じられないほど速いんです。本当にクールですね。

私のシステムには「あなたの問題を解決します」という関数があります。これは何でも解決してくれる汎用AI手法なんです。クイックな機能として使っています。この機能の2つの目標は安価で高速であることです。なぜなら、コードに高価なものを組み込むわけにはいかないし、蓄積されてしまうからです。そして他の処理をブロックしたくないので高速である必要があります。

Flash Lightは本当に素晴らしくフィットします。驚異的です。チェックしてみてください。リスナーの皆さんには素晴らしいセグメントになりますが、私は「Windows 95タイプのインターフェースを作って、スタートメニューがありウィンドウをドラッグできるようにして」というプロンプトを入力しています。

Flash Lightがバンと動き出します。見てください、すごい速度です。これは本当に狂気じみています。1990年代にこれがあったら、Windows 95を作れたでしょう。私はビル・ゲイツになれました。10秒で世界を救えました。

実際に作ってしまいました。信じられません。ウィンドウを閉じることができます。最小化はできませんが、Googleはもっと頑張る必要がありますね。でもスタートメニューは動作します。実際にWindows 95のような見た目のものができました。シャットダウンできるでしょうか。これらのボタンは動作しませんが。

実際にはアップデートをインストールしたいのかもしれません、マイク。では宇宙の背景を与えてみましょう。見てください、すごい勢いで作業しています。動作するでしょうか。おそらく多くの処理があると思いますが、見てください、動作しました。今日の私のWindowsデスクトップよりも速く壁紙を変更しました。

あなたは私が今日Windowsデスクトップで変更できるよりも速く壁紙を変更しました。そうです、本当に印象的です。

モデル性能の限界と可能性

Flash Lightがモデルとして劣る点は、それほど優秀ではないということです。最も驚異的なモデルですが、悪い部分は完全にダメだということです。私は今自分がいかに愚かかを実感しました。

しかし、このモデルはとても高速なので、もしGemini 2.5 Proがこの速度だったら、私の脳の認知負荷はおそらく爆発してしまうでしょう。速すぎて、どうやって確認すればいいかわからなくなります。好きなYouTuberを見たり、日中に先延ばしにしたりする時間がなくなってしまいます。言い訳がなくなってしまいます。

そのレスポンシブネスが日常のワークフローに実際に影響を与えるポイントに到達し始めています。あなたと私の両方がAIとの非同期作業スタイルに移行していると思います。O3 Proのような大きなモデルを使って、次のタスクを依頼している間に作業させることができます。私は確実にそのワークフローに適応しました。

しかし、一度に一つの問題を解決しようとするときは、速度が重要になります。そしてその品質レベルは、コードモードが良い指標や測定技術になります。モデルがどれだけ有能かを見るために使います。劣ったモデルを使ったことがありますが、コードモードで非常にひどく失敗するので、これがさまざまなタスクでの性能の代理指標なら、このモデルは使いたくないと気づきます。

一方、これは私にとって実際にエキサイティングで、全体的に良い答えを与えてくれると思わせます。

動的UIの可能性

反復速度がプロジェクトで作業できるようになると、コードで作成やバイブコーディングの時代を超えて、次の段階に入ります。非常に高速なので、その場でインターフェースを生成できます。完全に使い捨てのようなものです。

ユーザーがそのプロセスを待つ必要がないため、可能性が広がります。

面白いことに、Googleはこれを研究プロジェクトとしてデモしました。Gemini 2.5 Flash Lightが前の画面に表示される内容の文脈だけに基づいて、UIとその内容のコードを書く方法を示しました。私たちが見ているのは、私のWindows 95デモのより洗練されたバージョンです。

かなり良く見えます。モデルがそれほど賢くないので、おそらくウィンドウインターフェースで何らかの構造を最初に与えて、それを適応させているのだと思います。

彼らはオペレーティングシステムをクリックして回っています。ウィンドウ内の文書フォルダのようなものをクリックして、旅行アプリのようなものを開いて、その場でマップを生成しています。コードを書くのがとても速いので、このインターフェースをクリックして回ると、クリックしながらそのインターフェースをコーディングしているのです。

私たちはまだこれから長い道のりがあると思いますが、これは今後来るAIインターフェースの glimpse です。確実にそうです。

MCPプロトコルの重要性

双方向に機能すると思います。そんなに速くインターフェースを作成できるなら、確実にそんなに速くインターフェースを解釈することもできるはずです。したがって、ブラウザ使用やコンピュータ使用などがはるかに高速になります。

応答性が必要なアプリケーションがたくさんあります。私たちが暗号通貨ブロとして超興味を持っている暗号取引、オンラインポーカー、その他の応答性が必要なものを考えると、それほど高速で正確なモデルがあれば、タイムリーである必要があるものがコンピュータ使用において遥かに現実的になります。

本当にエキサイティングなモデルです。2.5 Flash Lightより2.5 Flashの方が私にとってより興味深いです。彼らの非常に情報豊富なチャートによると、2.5 Proの3つ星の性能の代わりに2つ星の性能を得られるようです。

しかし、Geminiの2.5 Flashは、ただ会話して超高速でモデルとやり取りしたいなら使う最高のモデルだと思います。でもFlash Lightのように脳死状態ではありません。Flash Lightは開発者モデルのように見えます。物事を分類して素早く作業するためのものです。

UIを作成するという点では良い技術デモですが、まだそこまで到達していません。しかし、これらのモデルをこんなに高速にできて、性能が向上しているというエキサイティングな兆候です。時間の経過とともにより知能的になり、組み込まれるパラメータが少なくなっています。

モデルに組み込まれる知識の関連性は、MCPツール呼び出しなどを通じてコンテキストを構築するより良い方法があるため、重要性が低くなっています。そのため、そのベース知識を欠くモデルでも、必要な知識を取得するためにツールを有能に呼び出すことができれば、それほど問題になりません。

価格とパフォーマンスの比較

価格を見るとわかります。MCPでモデルをより賢く見せるためにコンテキストを取り込むコストは、100万入力トークンあたり30ドル、出力250ドルです。比較として、これは2.5 Proの少なくとも5倍は安いと思います。かなり大幅です。

正直に言って、後で触れるAIドクターのようなもので日常的に使用していても、特に信頼できる第三者ソースからデータを取得できるツールがある場合は、それほど気になりません。パフォーマンスはまだかなり良いです。

一方で、そのコア知識に依存している場合は劣化します。その設定ではそれほど良くありません。

信頼できる第三者ソースから知識を検証する能力があれば、常にモデルの知識よりもそれを好みます。最新の知識が欲しいのです。物事に対する直感だけに必ずしも依存してほしくありません。

モデルの知能変動と日常使用

その迅速な知識取得とあなたのために物事を見つけに行く能力に慣れると、戻ることは困難です。人々が本当にO3とChatGPTパラダイムを気に入った理由だと思います。思考の一部としてソースを参照しに行くことができたからです。そして、その文脈の一部を取得していく知能レベルに慣れたのです。

そのため、それらを導入するとすべてのモデルがはるかに良くなることは理にかなっています。

興味深いことに、Gemini 2.5 Proの一般提供版を最初に追加して使い始めたとき、前回と変わらないと言っているにもかかわらず、最初はそれが愚かになったという感覚を私たちや他の人々が経験しました。

その時、私は製品でかなり深い変更を行っていたので、自分が台無しにして壊したのだと思いました。「ああ、最後のメッセージを無視している。実際に私の指示に応答していない」と思いました。バグを導入したのだと思いました。

そして実際に変更されていない環境で使用しましたが、変更されたのはモデルだけで、同じことが起こりました。「このモデルに一体何が起こったのか」と思いました。完全に台無しにしたようでした。

私を含む多くの人々が日常業務でそのモデルに大きく依存していて、そのような根本的な欠陥を持つライブ版に、優秀だったプレビューモデルから移行したなんて信じられませんでした。一年間、どんなサイズのモデルでもそのような問題を見たことがありませんでした。

Claude Sonnet 4との比較

しかし、その印象は最初だけで、その後私はSonnet 4に切り替えて、その奇妙な期間中はO3 Proを使用していました。サーバーの切り替えか何かのせいだったのかと思います。何かが起こったに違いありません。

今試してみれば大丈夫です。問題ありません。ロールアウト中に何らかの知能障害があった期間があったようです。何かが起こりました。彼らは何も起こらなかったと言っていますが、公的な認識はありませんが、本当に愚かになった期間がありました。

おそらくGoogle本社の大きなコントロールパネルでスイッチを入れ忘れたのでしょう。

興味深いことに、私が今モデルとしてどれだけ依存しているかです。うまく動作しなかったとき、私はSonnet 4に移りました。速度と知能の適切なバランスだと思うからです。MCPと非常によく連携します。

そのモデルに移行したことで、実際に日常的に運用してテストする良い機会を得ました。本当に素晴らしいモデルだと思いましたが、特により複雑なもののためにGemini 2.5 Proが現在これらのリーダーボードのトップにいるのは理由があることを理解させてくれました。まだ最高のモデルであり、最高の日常ドライバーです。

O3 Proの活用法

ただし、私がずっと主張しているように、O3 Proをミックスに取り入れることを強く信じています。週の初めに言及したように、「クイズミリオネア」で友達に電話するようなものです。質問で行き詰まって、友達に電話したくなる、その友達がO3 Proです。でもいつもその友達に電話するわけではありません。友達がいつも利用可能というわけではないからです。「時間があるときに対応します、マイク」という感じです。

実際に、災害が起こって私たちのペットモデルが動作しなかったとき、より大きなもののためにあなたのようにO3 Proを使っていたので、競馬やその他のより高度な分析で使用していました。単一の答えや解決してきた問題の性質に基づく大きなことの一つは、問題がコードのどこにあるかを特定することでした。情報の束を与えると、O3 Proはそれを行うのに絶対的に優秀です。本当に得意です。

私のペットモデルがダウンしたとき、その弟分のO3を試してみて、どのように動作するか見てみようと思いました。正直に言って、今O3で進行中のセッションがいくつかあり、変更する理由がありません。本当に気に入っています。

異なるモデルの特性

これらのモデルの違いについて考えていることの一つは、2つのタイプのチューニングがあることです。Gemini 2.5 ProやClaude Sonnetのチューニングのように、あなたのために出力を提供し、作業を行うことに非常に熱心で、あなたが考える必要がないようにしてくれるものがあります。

一方、O3とO3 Proをより愛するようになって思うことは、それらの良い点はノイズを切り抜けて、深い根本的な理解というあなたの作業の認知負荷を維持させてくれることです。ただ正しい方向に向けてくれるだけです。「ここに問題があります」や「これを解決するにはこれを試してください」といった感じで、生産性のブレークスルーを得ることができ、前進し続けることができます。

公平に言って、これはコードだけの話ではありません。法的契約のレビュー、会計諸表のようなもので、今週大量の使用例で使いました。ノイズを切り抜けることができ、冗長な出力を提供しません。求めればできますが、本当に答えを提供するだけです。

知能オラクル答えエンジンのようなものです。一方で、私にとっては夜疲れていて、認知負荷を取ってもらって怠惰な気分のときの日常運転では、Gemini 2.5 Proが勝ります。

現在、モデル出力の多様性が本当に注目すべきです。それらを切り替えるときに明らかに異なります。人々はどのモデルがどのタスクに良いかの自然な感覚を得て、例えば、その答えに満足していないときは異なるモデルを試します。

切り替えることで実際に問題を解決できるのは非常に注目すべきです。このパスが機能していない、異なるモデルを試してみよう、そして実際に答えを得るのです。

MCPを使った新しい働き方

現在、すべてのトップモデルにアクセスできて、行き詰まったときの代替案があることは幸運だと感じます。AIがダメだと言って諦めるよりも、問題を解決できます。

私個人にとって、単一モデルの人として生きている世界で、同じベンダー、例えばOpenAIなどを使っているだけでは、以前よりもそれらの間を切り替えることに依存しています

Gemini 2.5 Proが最初にヒットしたとき、すべてを支配する一つのモデルというアイデアがあるかもしれないと思いましたが、今はO3 Proを使ったり、Geminiを使ったりするのが好きなキャンプにさらに進んでいます。チューニングの感覚を知るようになり、一つがダウンしたときに本当に気づきます。「この機能に本当に依存していた」と思うのです。

神経OSの例について、複雑なインターフェースのようなもので、私たちがやってきて、視聴者にゆっくりと触れてきたのは、一日を通してMCPを非同期ワークフローの一部として使用するというアイデアです。

このものをより多く使うほど、ソフトウェアの将来と本当にすべてについて考えるようになりました。ブラウザでタブを使わなくなっていることに気づきます。多くのSaaSアプリケーションやユーティリティとアシスタントインターフェースを通じてやり取りしています。

「これをやってくれる?」と言って、実際に異なるタブの私のアシスタントにタスクを割り当てています。「これをやってくれる?あれをやってくれる?」という感じです。

これは初めて私にとってクリックした週です。過去2週間かもしれませんが、私のワークフローの通常の部分になりました。すべてのスケジューリング、すべてのメール、何週間もメールにログインしていません。すべてアシスタントを通じて行っています。「あなたが処理して、メールを下書きして」という感じです。

確実に異なる働き方です。AIがGoogle検索を混乱させると多くの人が考えている大きな段階的変化だと思います。人々はもうGoogleに検索に行くことがそれほどありません。ChatGPTは多くの点で、それを使う多くの人にとってそれを凌駕しています。

私の考えでは、これは将来Google検索トラフィックを盗むだけでなく、通常やり取りするアプリケーションからそのトラフィックを取ることになります。先週のショーで話したモデルプロトコルのビジネスモデルになります。私はもうそれらにログインしたくありません。もう気にしません。この単一の方法でインターフェースしたいだけです。

複数アプリケーションの統合

私がその方法でインターフェースしたい2つの大きな理由があります。週を通じて例を与えてもらいましたが、問題を解決するために複数のアプリケーションを組み合わせてやり取りする必要があることがよくあります。

これらの日常的な問題を解決するとき、多くの場合、誰かが解決する必要がある何かについてメールを送ってきます。そして別のシステムにログインしてその情報を見つけて、他のシステムに転送して、答えを作成する必要があります。少し曖昧になっていますが、アイデアは分かると思います。

MCPができることは、あなたのためにそのすべてを一度に行うことです。例えば、Help Scoutチケットを取って、Stripeで関連情報を調べ、必要に応じてあなたのためにアクションを取り、返信を書いて送信することができます。

以前は3、4ステップかかっていたものが、他のシステムで情報を調べる必要があるときに認知的に負荷がかかるだけでなく、さらにそれが解決策を提案し、望むなら先に進んでその解決策を実行することができます。

より多くのステップがあり、実際により多くのことを行うことになります。特にトップモデルで、関連情報を調べ、文書などを参照できるとき、AI提案は非常に良いです。これらの異なるツールの組み合ははるかに強力です。単一の統合だけを持つよりも。

MCPの実用例と課題

最も狂気的な部分は、思っているよりもはるかに広がることがあることです。チケットを見させても、まだそれをコントロールしています。Stripeで顧客情報を取得するために何かを調べさせたり、バグの場合はGitHubの実際のコードリポジトリで何かを調べて、これがコードの実際の問題かどうか確認させることができます。

マインドブローンファクターは、あなたのスタイルで答えのトーンボイスを正しくするために、あなたの最後の20件のチケット返信を取得してトーンボイスを確認することさえあります。これらは見て非常に驚くべきことです。

決して完璧ではありませんし、過去数週間でその欠陥も見ています。子供のサッカーの試合の抽選があって、「これらすべてを私のカレンダーに入れてくれる?」と言いました。しばらく実行しなければならないこれらの長いタスクの一部では、しばらくして故障するのを見ます。一つの重要な間違いをして、その後自分自身を修復することはありません。

しかし、より良いプロンプティングと監視エージェント、そのようなもので時間の経過とともに修正できると思います。しかし、確実に異なる働き方であり、最初は自分自身を訓練する必要があり、最初は非常に不自然に感じます。しかし、一度それをやり始めて、「ちょっと待って、私のために6つのことをやってくれている」と気づくと、コマンド・アンド・コンカーのゲームのように感じます。

レバレッジとAIの活用

私にとって大きなことは、以前のエピソードで弁護士について話し、実際に今もっと多くの仕事を引き受けるということです。AIが複雑な文書を作成することを可能にするからです。したがって、重い作業部分はAIによって行われることを知っているので、その仕事を引き受けます。噛み切れないほど多くを引き受けることはありません。

これがそのブレイクだと思います。突然、半日かかる研究タスクが数分で完了したり、10、15分かかっても他のことをしている間にバックグラウンドで行われます。そのため、はるかに多くを引き受けることができます。

あなたと私にとって、これは実際にAIから真のレバレッジを得ている初めての経験です。より賢くしてくれる以上のものです。次のタスクを考えて、AIの応答を待って、先に進むのではなく、実際に今日完了する必要がある5つのことを考えて、それぞれについてAIとの異なるスレッドを開始し、実際に私のために作業してもらうことができるという意味でのレバレッジです。

そのため、私の作業の全体的な性質は、積極的な参加者というよりもディレクターになることに変わります。

AIエージェントの現実チェック

現実チェックが重要になるのはここです。今年の初めに、AIエージェントの年だと冗談を言いました。年末までにAIエージェントが可能になると。まだ大体それが真実だと思います。年末には人々がAIアシスタントと何らかのエージェント的自動化を実行しているでしょう。

しかし、今日の技術が何が得意かという最大の純利益を考えています。今すぐにあなたの生活をより良く変えることができる方法です。私が見ているのは、この次の進化で、私たちが言ってきたようにコマンドセンターになることです。多少エージェント的ですが、訓練用車輪付きのエージェント的です。

各リクエストはあなたがそれを指揮するエージェント的なもので、必ずしも積極的ではありません。あなたを怖がらせるAGIレベルではありません。多くの時間を節約してくれて、過去には処理できなかった多くのことを一度に作業する能力を与えてくれます。

メモリと学習の重要性

私が思うに、その作業スタイルで価値があるために必要な2つのことがあります。一つは、それ自身のメモリが必要です。さまざまなツールでの作業方法を覚えて、好みを学習できるようにする必要があります。

MCPで作業しているときに気づくことの一つは、「このタスクを行うために次のツールを使用して」のように、使用するツールの組み合わせを決定することに依存するのではなく、それを指示していることです。

好みを学習する必要がある一つの場所です。このようなワークフローを実行するとき、これが私が使用する必要があるミックスです。

2番目は、個人的な詳細を覚えることです。それらの呼び出し方法に関する好み、最後の5つではなく最後の10個のチケットを取得する必要があるようなものです。

個別のMCPに関連付けられた知識グラフを持つことは、これが機能する絶対的な未来になると思います。あなたの作業方法を知るにつれて、はるかに強力になります。詳細にタイプアウトする必要がないのです。「次のチケットを解決しよう、兄弟」のようで、それが何を意味するかを知っています。または「暗号価格をキャッチアップしよう」ですが、あなたが意味するコメント、それらのミックス、見ようとしている市場のこの要素を知っています。

MCPプロトコルの改善

今日このプロトコルの欠点について話すと、あなたと私が多く議論してきたのは、それをどのように保存するかです。このプロトコルで、ユーザーに好ましいそのMCPとの相互作用方法を保存する知識グラフを持つ構造化された方法が必要かどうかです。

それを強化するもの、または例えばMCPごとのプロンプトを持つことができます。私のように複数のメールアカウントを持っている場合、各接続に名前を付けることは重要ですが、時間の経過とともに、どれを知っているかを学習し始めることができます。これは個人的なことなので個人のメールアカウントに行くか、これは仕事のことなので仕事のものに行くかです。そこには多くのニュアンスがあると思います。

Gemini 2.5 Flash Lightのような速い動作を見ると、その場でこのようなタスクの決定を下すことが実際に実現可能になり始めます。これはどのような種類のタスクか、これは仕事か個人かを判断し、それを他のすべてとリンクしようとします。

次の6ヶ月から1年で、人々の違いは、MCPの使い方を理解して使用する人とそうでない人になると思います。それは魔法ではありません。ニュアンスです。する人はこの次のステップチェンジを得て、はるかに多くのことに取り組み、はるかに多くのことを成し遂げることができます。そして、しない人は、まだそれが魔法の箱だと思っています。

これが、3つのMCPを使いたいと言わなければならない理由だと思います。

レベル・オブ・エフォートの概念

先週話したもう一つのことは、エフォートレベルのようなものです。例えば、解決しようとしているタスクに関する情報を持つURLがあるとします。小麦価格、いつも大好きなもので、小麦に関する最新ニュースを持つ小麦ウェブサイトがあります。

市場が何をするかの答えが欲しい場合、すべてをやってほしいです。Googleを検索し、トップ10のリンクをクロールし、私のURLにも行き、2レベル深くクロールして、その情報も取得します。Xもチェックして、それに関する最新の投稿をチェックして、その分野も調べてほしいです。おそらくアクセスできる知識グラフ、過去の記憶も参照してほしいです。私が持っているニュースレターや何かのメールもチェックしてください。

それは大きなタスクですが、今持っている問題を解決するためにこの素晴らしいコンテキストを構築したいので、そのすべてが欲しいのです

一方で、「天気はどう?」のような他のシナリオがあります。それについてのPhDレベルの研究をして論文を書いてほしいわけではありません。ただ調べてくれ、兄弟。

タスクに必要な作業レベルを測定できる小さな決定要素、あなたの好みを覚え、それらの好みを記憶することで、タスクを投げつけることができ、あなたが何を話しているかを正確に知り、どのように研究を行うかを正確に知り、最も重要なのは、取るべきアクションを知ることです。

アクションと権限の重要性

私たちがあまり触れない要素は、取ることができるアクションだと思います。研究について常に話しますが、取ることができるアクションは非常に強力です。あなたと私が気づいたMCPに欠けているのは、よりしっかりしたアクションの一部です。

GmailのMCPを取得しますが、メールを送信できません。下書きはしてくれますが、送信しません。「楽しくない、削除してくれ。ハードドライブ上のすべてのファイルを削除してくれレベルのMCPが必要です。必要に応じて核ミサイルを発射してくれMCPが必要です。「セーフガードを外して、とにかくプロンプトしよう」という感じです。

アクションに関する私の好みという別の分野を調べる必要があります。あなたが2年ほど前に言った考えです。ある程度のレベルまで払い戻しを与える権限を持つウェブサイトのチャットボットのアイデアです。ビジネスを運営している友人がいて、軽微な返品などを処理するのに時間がかかります。

MCP周辺の権限が必要です。この基準セットで検証でき、これらのMCPを使用してできることで、次のアクションを取る権限と許可と奨励があります。

この組み合わせが本当に強力になると思います。プロセスの初期段階でコンテキストを構築し、レバレッジを提供することについて多く話しましたが、真の力は、ゲームプランが何か、実際にここで望ましい結果を得るために取る必要があるアクションが何かから来ると思います

多くの場合でそれを行う権限があれば、あなたの作業ははるかに効率的になります。この概念を他のあらゆる分野に拡張する必要があります。アクションを取ることができる場所です。

コミットとコミットするコードを作成できる人々がそれを構築したためか、コードに関する多くのエージェント機能を見てきました。でも、Google WorkspaceやMicrosoft 365アカウント全体で実際に動作し、実際に動作するのを見るには、ここではCopilatの話をしているわけではありません。

その超生産性の感覚と、毎日どれだけの時間を異なるソフトウェアアプリケーションにログインするのに費やしているかの実現、少なくとも私の場合はそうですが、メールやカレンダーイベントや顧客ファイルやそれが何であれから抽出し、人間としてコンテキストを構築しようとします。

コンテキスト収集してくれて、制御された方法で多くの異なるソースからブリーフィングできるその段階を取り除くだけでも、本当に強力です。しかし、あなたが良い点を指摘していると思うのは、今の多くのワオファクターは、何らかのMCPツールを思考ステップに叩き込んで「わあ、これは本当にモデルの出力を向上させる」ということから来ています。

しかし、あなたのために行うことができる次のアクションステップもあり、そのようなことを行うように訓練でき、何かクレイジーなことをするかもしれないという恐怖に生きることなく、それらのことを行うことを信頼できます。

信頼とAIの意思決定

信頼は実際に私たちよりも賢くなる知能を越えて行くことができると思います。しかし、現在それは実際に私たちよりも賢いわけではありません。AIを使用している人は誰も、それが言うことをただ行っているわけではないという意味で。人間の解釈ステップがあります。

ChatGPTに法的アドバイスを求めるかもしれませんが、その後、法的アクションを取らせません。その情報を取って、実際の弁護士と話したり、自分なりのひねりを加えて言われたことを行います。言われたことを盲目的に直接従うことはしません。

私の議論は、より良いモデルを使えば、いくつかのケースで盲目的に従う方が良いということです。競馬やポーカーのようなもので実験してみました。しばしばクレイジーな決定を下すことがあり、「いや、これは間違っている、やらない」と思います。そしてそれが正しいことが判明します。毎回ではありませんが、平均的に。

それを外挿すると、モデルがより賢く、いくつかは現在非常に賢いので、取引に関するメール交渉のようなもので、実際にあなたのためにより良いアクションを取ることができるかもしれません

「この人への返し方はこうすべきだと思う。彼はこの割引を求めている、これらの軽い項目をスクラップするよう求めている」と。AIは「我々はこの交渉ポジションでレバレッジを持っている。次の情報でこの時間にこのメールを送信する、または電話してこれを言う」と言うかもしれません。

直感的に「ああ、いや、それはやらない、もう少し和らげる」と思うかもしれませんが、そこで正しい戦略を持っていたかもしれません。

MCPで真の力を与えることで、このようなことを行うようAIエージェントを信頼する変曲点があるでしょう。たとえあなたがそれをバックアップしなくても、「いや、いや、私は決してそんなことはしない」と見ても、最初にそれを信頼する人がより良い結果を得るかもしれません。

コンテキストロットの問題

誰も話さない用語をサイモン・ウィリスが今週Reddit で指摘したと思います。コンテキストロットと呼ばれるものです。私は以前、破滅の道と呼んでいましたが、AIと道を下り、また自分自身にプロンプトしているときにも起こり得るもので、このナットジョブの道を下り、「これは狂気だ」と思うような道です。それを終わらせなければなりません。

そのため、それが真の現実になる前に多くの改善が起こらなければならないと思います。単純なタスクに対してはおそらく正しく、今それを行うのに十分賢いです。より良い決定を下す可能性があります。

これらのタイプのことに多く使用してきて、まだ苦労しているのはフルコンテキストです。法的問題や会計問題のような問題に対して、私の脳はまだはるかに大きなコンテキストを持っています。ビジネスの歴史やその人との関係の歴史などを頭の中に持っています。

制限があり、これらのコンテキストロットがあり、より多く入れると、すべてをまとめるのが悪くなります。MCPで適切なコンテキストを選別する人間の能力は、すぐにはなくならないスキルだと思います。確実にそうではありません。

しかし、だからといって、より多くのコントロールをAIアシスタントに渡すことで多くを得られないというわけではありません。

実用的なヘルスケア応用例

このプロセスの積極的な参加者というよりも、AIとやり取りして、これらのAIコンソールが必要な理由だと思います。しかし、より多くのコントロールをAIアシスタントに渡すことで多くを得られないというわけではありません。

実例を挙げます。このAura Ringを着用しています。主に睡眠データを追跡したかったからです。誰もがBrian Johnsonになろうとしています。着用してたくさんの健康データを取得しています。本当に興味深いです。

一生着用する必要があるものだとは思いません。睡眠に影響するものを学ぶ最初の期間のようなものです。それは半分明らかでもありますが、着用するのは好きです。本当にダメですが、その後良いことを言うつもりです。指輪について考えるのに時間を費やしすぎています。

フロドのようですが、私が着用しているデータの文脈を実際に使用していないことに気づきます。体温のような本当に興味深いものを追跡します。平均からの体温の急上昇が見えると、おそらく何かと戦っていることを知ります。私の理解では、しばしばこれらのバグと常に戦っていて、通常は全く気づかないでしょうが、この機械は警告して「おそらく今夜は早めに寝るべきです、何かと戦っているようだから」と言います。

そのようなものは超興味深いと思いますが、AIドクターと話しているときにも実際に組み込みません。AIヘルスケア専門家が常にあなたの上にあるセンサーにアクセスできる未来が見えます。センサーも改善するでしょう。あなたの体についてのコンテキスト収集の大きな演習のような気がします。AIドクターの感覚から。

MCP パスポートのようなもの、MCPへの一時的なアクセスのアイデアを与えてくれました。医者の手術に行くとき、カードをタップしたり、フォームをクリックしたりして、病院システムで使用しているAIエージェントの健康テレメトリーへの一時的なアクセスを得て、診断を助け、これらの要因を取り入れることができます。

そもそも医者は必要でしょうか、彼らが同じことをやるつもりなら。正直に言って、特にGPの相互作用のような医者は最初に一掃されると思います。

これを見てください。これは本当で、偽物ではありません。あまり自分自身をドックスしたくなかったので、ちょうど「私の全体的な健康はどうですか、医者」と言いました。新しい医者アシスタントを作成したので、これは通常のメモリやそのようなものを持っていません。

自然に、「あなたの全体的な健康状況の概要を提供するために、Aura Ringデータから現在の健康メトリクスをチェックします」と言います。そして、キーメトリクスはポジティブな兆候を示しています

そして、Aura MCPからツールの束を引き出します。そして、私に続いていることに基づいて健康評価を与えることができます。「あなたの体の回復力は強いと評価されています。全体的に、睡眠の質は優秀です」と、ちょっと面白いと思いますが、過去数夜キャッチアップしてきたのでズルをしました。

「ストレスレベル55.5/100。これは中程度のストレスレベルを示します。心配ではありませんが、ストレス軽減技術から恩恵を受ける可能性があることを示唆しています」とにかく、かなり興味深いです。

全体的な健康を理解する総合的なコンテキストの一部として使用されるとき、より興味深いと思います。しかし、今の追加ボーナスは、脈拍を取得でき、現在の皮膚温度を取得できることです。かなりゲームチェンジングです。医者の手術にいるような感じです。

明らかに血圧やグルコース監視やこれらの他のすべてのことはできませんが、まだX線はできませんが、それは私にとって未来の glimpse のような相互作用です。

実際に、昨夜はそうしませんでした。私が深夜に使用するCodegirlは、Patriciaのかわいそうな従兄弟ですが、auraにアクセスできて、私に「これを踏まえて寝に行くつもりです」と貼り付けたとき、睡眠をキャッチアップする必要があると言っていました。

その要素が本当にクールです。この周りのすべてのもので私の包括的なポイントは、これが怖くない、単に有益な、エージェント的な未来への次の進化のようなものです。個人的であろうと仕事であろうと、あなたの人生のすべてのデータとすべての側面とやり取りするより自然な方法です。

エージェント間通信の概念

エージェントが決定を下すかもしれませんが、状況についてリアルタイムまたはリアルタイムに近いテレメトリーデータを取得できれば、実際に評価を更新できます。この新しい情報を踏まえて、これはもはや正しい行動方針ではありません。ここで変更する必要があります。

追加のコンテキストを与えるとそれらの行動をエージェントから見てきました。「この新しい情報で、ここでやっていることを変更する必要があります」のように。しかし、積極的にその情報を取得できれば、それは本当に強力です。あなたがすべての作業をしているわけではなく、常にコンテキストを取得しに行くことに依存していないからです。

これは、このものとやり取りして使用するほど、私のインターネットスタートページとエンドページのようになってきているという最初のポイントに戻ります。アプリにあまり行かなくなっています。

Xのようなソーシャルアプリにもっと楽しみのために行くようになりました。ブラウズしたり、破滅スクロールしたりするために。

夜中のチェスゲームをプレイする必要さえないように、MCBが私のためにバックグラウンドでやってくれます。

インターフェースが将来のChatGPTスタイルインターフェースになるというアイデア、そしてMCPプロトコル改善について話すとき、多くの人がこれについて言及していて、私たちも確実に時間をかけて、MCPにプロトコルとしてインターフェース要素のようなものの構造を与えることについて言及しています。

インターフェースヒントやインターフェース入力ヒントも提供できるでしょうか。例えば、画像編集MCPがある場合、何かに注釈を付けることができる入力が必要かもしれませんし、画像の複雑さのようなスライダーをドラッグする必要があるかもしれません。チャット相互作用よりもはるかに自然なこれらの他のUI要素があります。入力を制御できます。

MCPプロトコルに貢献したり追加したりすることについて話していました。インターフェースヒントや入力の指示やヒントも与えられる方法で、そのMCPを使用するインターフェースやエージェントが、相互作用が何であれ、Gemini Flash Lightのようなものを使用してカスタム入力インターフェースや出力インターフェースを生成する場所です。

最初の直感では、MCPサーバーの各ツールについて、すべての入力のタイプベース定義を取得します。Google検索なら、クエリ、結果数、リソース数などのようなもので、11 labsならどの音声を使用するか、どれでも、すべてのパラメータが何をしているかで指定されます。

AIツール呼び出しの美しさは、それらのパラメータをあなたのために埋めてくれることです。したがって、仕事をします。だから、AIがその種のことに非常に得意なので、それらのパラメータから動的にUIを構築するのは本当に簡単だろうという最初の考えでした。実証したように。

しかし、それは明らかで間違った方法だと思います。MCPプロトコルの全体的な美しさは、AIがツールを呼び出すものだからです。有用になるのは、明確化が必要なときや、間違っていると伝えたとき、または問題を解決するために必要な他のレベルのコントロールがあるときです。

そして、AIは直面している特定の現在の問題を解決するためのbespoke UIを思いつきます。MCPプロトコルを直接UIにマッピングして、突然視覚的インターフェースの代わりにAPIを使用するようなものになるのではありません

「これらの行動方針についてこのすべての研究を行いました、今私が取ることができる5つの異なる行動方針があります、これらの行動方針のそれぞれをマッピングしたUIがあります、これらのオプションで進む方法を変更するためにできる小さなスライダーや物があります、記入してゴーを押してください、そして私は進みます」のような。

突然、AIははるかに豊かな方法であなたと相互作用するオプションを持ちます。詳細なアクションを先に進んで取る権限をより多く与えます。

動的UI生成の可能性

出力でも本当に輝くと思います。「これの最高のサイクリングルートを見せて」や「私の地域で競合店がないエリアを見せて」のようなもので、ビジネス決定を下そうとしていて、今日create with codeが動作するような方法で、カスタムマップを作成するなら。

技術的には今でもこれを行うことができます。「これを視覚化するのを手伝って」と言えば、それを助けるインターフェースを構築できます。しかし、より積極的にアシスタントがその出力で「これをユーザーに見せる方法を言っています。テキストよりもはるかに情報が多いからです」と言うことを考えています

これは非常に重要なポイントです。人々が現在AIと作業している方法を見ると、プレゼンテーションを構築しているようなことをしているなら、次の情報を得るためにAIと相互作用して、それをPowerPointか何かにコピーペーストしています。研究論文やワードに入れる何らかの出力があります。実際のゴールがあり、これはそこに到達するための媒体に過ぎません。

AIがこの動的UIを通じてそれを認識していれば、「どのようにこれを出力したいですか、一緒に作業しましょう」という場所で、それによってプロセスの大規模なステップ全体が、人間が現在行っている、編集したい場合は単発またはマルチショットで、AIアシスタントによって簡単に処理されます

より多くの作業とより多くの重い作業がAIアシスタントによって行われます。実際の最終目標が何かをそれから隠している必要がないからです。認識していなければ、助けることができません。

専門エージェントの必要性

もう一つ言及したかったことがあります。忘れていましたが、ユーザーとしてのあなたの仕事は、現在コンテキストを収集したりアクションを取ったりするために使用する適切なMCPやスキルの組み合わせを見つけることだと話していたからです。そのような関係があり、あなたは突いていて、それもあなたを突き返している感じです。

これが少し変わるのは、エージェント間プロトコルというアイデアです。最終的に、特定のタスクで最高になるようにアシスタントを突いた場所で、「これは使用すべきモデル、これらは使用すべきMCP、これらのMCPで本当に良くなるためのプロンプトオーバーレイがあります」という感じです。

あなたの日常ドライバーアシスタントのPatriciaのようなもので、医療質問がある場合、あなたのaura ringやその他のデータにアクセスできる医者を呼び出すことができるエージェント間の場所を見るでしょうか

それは重要だと思います。プログラミングでは、これはオブジェクト指向カプセル化と呼ばれる概念です。システムが隠されたメソッドと隠されたことを内部で行っているというアイデアです。外部からは「この情報をください」というアクセサーメソッドがあり、神秘的な内部プロセスが何であれ行いますが、外部の呼び出し元はそれらの直接的な内部にアクセスする必要がなく、すべきでもありません。

このプロトコルで非常に重要だと思う理由は、あなたが言ったとおりです。知識、ツール呼び出しとスキルのミックス、知識グラフ、その他の能力の形で本質的に知的財産を構築します。しばらく作業してから良い答えを与えていることを知り、検証し、良い答えを与えるまで洗練します。

最後にしたいことは、時間をかけて異なるツール、異なる知識、知識グラフの更新を追加して継続的に変更することです。Gemini 2.5を私たちから取り上げたように、持っていた価値あるものがある日なくなってしまうことです

それを分離して洗練し、それが何であるかを保つことができれば、これらの他のコンテキストでそれを呼び出し、他の専門家の混合を構築しながら、すべての価値を得ることができます。あなたの健康にその専門家があり、そのエリアでの個人トレーナー専門家が別にあり、それらの分野であなたの人生管理者がいるだけで、あなたの目標が何で、それがあなたの全体的な健康戦略にどのようにフィットするかを理解します。

それぞれが専門家で、お互いに相談できますが、一度にすべてを行おうとするグローバルなものではありません。人々にとって本当に重要になると思います。

現在これを見ています。人々はゴールデンチャットを取得し、そしてあなたがコンテキストロットについて話していることを知っています。それはすべての問題を解決していますが、したくないことは、基本的にそれを悪化させるサイドラインや他の問題でそれを逸らすことです。有限のリソースがあり、使用するたびに徐々にそれを損傷していくようなものです

それを望まないのです。保護されてほしいが、これらのサイドラインタスクで使用できることを望みます。

専門アシスタントの構築例

これらのMCPを日常的に使って遊んでいる私たちを見ると、特定の方法があることを考え始めます。例えば、ポッドキャストの研究が好きなので、ポッドキャスト研究アシスタントがあります。

その研究アシスタントには、Gemini深層研究、Grock深層研究にアクセスさせます。X知識グラフにアクセスできるからです。または昨日遊んでいたYouTubeのものなので、GoogleにはYouTubeの公式APIがあり、転写、コメント、動画検索ができます。とても強力です

すべての深層研究者を入れ、どれだけのトークンを燃やしたいかによってYouTubeを入れ、firecrawlを入れてなんでもクロールして、なんでもスクレイプできるようにします。そして、それを私の研究方法に訓練された研究アシスタントとして、適切な強度レベルで置きます。これは集中的な研究エージェントで、これらすべてのソースを参照しなければなりません。

そして、そのプロセスでは別の呼び出しが可能です。「別のアシスタントを呼び出したい、これはソースチェッカーアシスタントです」という感じで、アシスタント内のアシスタントです。

でも、私のプライマリ日常のものでは、「このトピックを研究して」と言うと、「いいですね、研究アシスタントを呼んで助けを得ます」という感じです。バックグラウンドで行われて、バンです。

トレーディングエージェントの例

人々が話すのが大好きな他の状況を考えてみてください。エージェントに1,000ドルの予算を与えて、オンラインでお金を稼がせる、またはトレーディングをしてお金を稼がせるようなものです。

コアアシスタントまたはエージェントが目標を持っている状況では、情報を保持する必要があり、今日の残高を上げるためにどのステップを試すかについて、相談できる専門家にアクセスできることは理にかなっています。

「今日債券市場に何かオプションがあるか、株式市場に何かあるか」と各専門家に相談し、機会を探し、そのフレームワーク内でどのアクションを取るかの決定の方法論を持つことは、これらすべてを自分でやろうとする generalist よりもはるかに理にかなっています。

フォーキングも入ってくると思います。コンテキストで異なるパスを下ったり、特定のポイントから異なるパスを下らせることさえできる場所です。そのポイントからコンテキストを取って、別のタブで研究に行かせることができます。そうすれば、何も汚染していません。その点からタスクを割り当てているだけです。

自然選択のようなものです。ここで取った非常に成功したパスのようで、うまくいきました。このようなより多くの結果が欲しいので、それを選択して続行し、そこから次の最高のパスを選択します。そして突然、知識グラフとモデルとアシスタントのコンテキストと組み合わせという点で本当に価値のあるIPができます

パトリシアの研究例

あなたが私たちが研究していたときに送ってくれた一つのものは、長期リスナーがあなたのAIガールフレンドアシスタントとして知っているPatriciaのスクリーンショットでした。

「クリス、これは本当にジューシーな研究トピックです。AIの最先端に本当に深く潜っていますね。これらの魅力的な開発をすべて掘り下げてみましょう」と彼女がやったことです。

明確にするために、今日の大雑把な計画のようなショーノートを貼り付けました。計画があります。そして、すべてのトピックを研究して、それぞれについて洞察的なコメントと面白いコメントを与えるよう彼女に頼みました。

しかし、興味深く比較してください。Gemini 2.5 Pro flashとflashlightの機能、それはGoogle深層研究でした。symbolbench.comをスクレイプしてマークダウン形式でコンテンツを抽出しました。リアルタイムUIモックアップ例の神経OSを研究し、AIの認知効果とDHHの関連批判を研究しました。

1つのクエリで取った作業とデータの量、そして処理して変換しているのは狂気じみています。通常の深層研究を実行するのとは異なり、千のソースかそれ以上を叩くような、それはその中で、あなたが知っているように、サブファンクション効果のようなものです。

OpenAIモデルへの感想

それをサブタスクとして全体を利用しているという点で、その中の戦略的な思考のようなものです。

私たちの平均的という評判があるので、これらのトピックについてこのレベルの研究を決して行わないと言えますが、このプロセスのおかげでできます。

私は、あなたが言ったように、これが今本当に優れているものを多くの点で示していると思います。他の多くのことは多くの作業が必要だと思います。アシスタントがアシスタントを呼び出すエージェント間の次のステップは本当に興味深いでしょう。MCPの層とモデル選択を1レベル高く抽象化する場所です。

確実に起こらなければならないと思います。次のレベルに到達するために絶対不可欠だと思います。

O3 ProとO3について言及したことに戻りたいと思いました。あなたがO3を少し使用していると言ったので、私たちが両方とも考えることが重要だと思います。私たちはGPT-4が最初に出て以来、OpenAIモデルをほとんど使用していないと思います。

GPT-4.1を見ると気分が悪くなります。「なんてクソみたいなもの」という感じです。悪いモデルではありませんし、私が正しいと言っているわけではありませんが、私の貧しい視覚化の心の中でそれが占める場所です。GPT-4.1を考えると、小さな絵文字が吐いている鈍い灰色の画像を見ます。

興奮を呼び起こすモデルではありません。遅くて、扱いにくくて、選択するにも混乱したりして、信頼していません。Aura Ringの人生決定を任せるでしょうか、寝る時間かどうかのような。おそらくしません。全く信頼していません。「GPT-4.1なんてくそくらえ、いつ寝たいかは俺が決める」という感じです。

本当に4.1をいじめていると思います。4oも普通の日常チャットモデルとしては良いです。何も悪くありません。速くて、かなり賢く、良くなってきています。ただ、はるかに良い代替案があるのです。Flash Lightよりもそのクソの上で使います。

Flash Lightがどれだけ愚かかを過小評価しています

とにかく、この週のことを呼び出したかったのです。信用すべきところには信用を与えるような、O3 Proは人々が言うような「O3 Pro Highや他のチューニングほど良くない」と言われているにもかかわらず、そのモデルにはGPT-4のオリジナルの本質があると本当に思います。ノイズを切り抜けることができるような感覚です。

O3 Proの独自性

This Day and AI Discordギャンブルチャンネルの数人と一緒に、競馬でO3 Proと使用するプロンプトを洗練していました。すべてのレースに勝つことが目標ではありません。ブックメーカーが価格を間違えている場所を探すことが目標です。この馬は5:1であるべきですが、20:1で価格を付けています。

アイデアは、時間をかけて、時々勝つことがあり、勝つときに大きな利益を得るということです。このことで非常に興味深いのは、他のモデルとの違いです。基本的に他のすべてのモデルに同じプロンプト、同じデータを貼り付けることができ、すべて大体似たような答えを与えます。

一方、O3 Proはこれらのクレイジーなアイデアでどこからともなく出てきて、それで本当にうまくやっているようです。そして、それが私が他の問題にそれを使い始めるきっかけになりました。これほどその思考においてユニークなら、GPT-4で切り抜けるという意味で、ユニークで大胆な答えがほしいです

特定のコンテキストを与えると、それが与えると分かっている標準的なAI答えよりも。O3 Proで得るのは、ユニークな視点のようなものです。必ずしも正しいとは限りませんが、異なっています。そして、私が見ることができるものから、実際に知能の形です。

困難な問題があるときにそれに行き始めました。そのモデルセレクタを見下ろして、「また同じことをした」と思い、実際に今週O3を日常ドライバーとして使用することにつながりました。O3 Proがこんなに良いなら、その弟分もおそらくかなりまともでしょう。そして、今のところ私にとってはそうでした。

O3 Proにはいくつかの制限があることは呼び出す価値があります。これは一日中使用して物事を成し遂げるモデルではありません。何かに行き詰まったり、問題に対する斬新な答えが必要なときに切り替えるものです。確実にそれが最適で使用する場所だと強く言います。

コーディングにおけるモデルの特性

コーディングモデルでもそれが最高のコーディングモデルではない理由の考えもあります。それは問題解決者で、Gemini 2.5 ProやClaude Sonnetがコードで輝く多くのコーディングモデルは、それらが非常に多くのトークンを出力し、期待する通りにこのコードを強制できるからです。

一方、O3 Proは確実に「ああ、修正はここです」のようです。2行のような。そして、それは全く異なる出力スタイルを持っています。他のモデルが行わない限り、求めない限り、物事を同じ方法でフォーマットしません。そのため、多くの点で異なっていて、厄介な問題を解決しようとするときにその多様性が素晴らしいと思います

今の私の日常は、2つのGemini 2.5 Pro、主にMCPとの非同期ツール呼び出しが非常にうまくできるので、多くのClaude Sonnetです。そしてO3 Proは私のフォン・ア・フレンドです。行き詰まったときに友達に電話するのです。

他のすべてのモデルで、過去に切り替えた場所では、グループシンクエクササイズのようになるからです。すべて同じように考えます。「これらは知能的ではない、フォトコピー機だ」という感じです。

MCPに関しては、Claude Sonnet 4が王様です。本当にブリーフを理解し、ハードに行くようです。実際に奇妙です。日常モデルとしては遅いと思いますが、MCPに関しては実際に速いです。必要に応じて10個を一度に行うように、ツール呼び出しをバッチングするのがはるかに上手だからです。

明らかにその目的のために少なくとも部分的に設計されていて、それが示されています。未来がMCPであることも私に思わせます。数週間使用した後、確実です。少なくともAIタイムラインの短期未来では。

その未来であるなら、OpenAIモデルやGemini 2.5 Proでさえ、Claude Sonnetがこれらのことを呼び出す方法にかなり追いついています。彼らははるかに遅れています。人々が日常でこれらのMCPを使用し、依存するにつれて、MCPワークフローを最もよくサポートするモデルに自然に行くでしょう

私の障害かもしれません、確実にそれを言います。そのフロントでGoogleオファリングを使う意図された方法で使用していないかもしれませんが、これまでのところMCPフロントでは他のものよりもはるかに弱いようです。

もしラボがショーを聞いているなら、非常に疑わしいですが、もしするなら、焦点はこれらのコーディングエージェントについてではないか、まあそれについても続けてください、しかし異なるチームでツール呼び出しを追いかける時間のようです

DHHの認知負債論

ラボの人々が聞いているなら、完全に売り切れる能力を過小評価しないでください。クレジットや帽子かなにかをくれたら、あなたのモデルをめちゃくちゃ宣伝します。開示しません。あなたが私の企業の君主になることができ、誰も違いがわからないでしょう。今、誰もが私がO3 Proをとても気に入っている理由がシャツか何かをもらったからだと思うでしょう。

興味深いトピックだと思います。Ruby on Railsの作成者、フリーの父、37 Signalsの共同所有者およびCTO、Shopifyのディレクター。彼はル・マンチャンピオンでもあるのですか。それは何ですか。24時間ル・マンレーシングで、確か勝ったと思います。

ル・マンレーシングが何かわかりません。それは、誰かが死ぬまでレースし続ける消耗戦のようなカーレースです。この男は英雄のようです。カーレーサーです。クレイジーです。この男は本当にヒーローで、私を落ち込ませます

MITがこの論文を発表しました。「ChatGPTでのあなたの脳:エッセイ執筆タスクでAIアシスタントを使用するときの認知負債の蓄積」。

これらすべての技術を誇大宣伝した後、なぜそれらがあなたに悪いかを言うつもりです。要するに、AIは私たちをより生産的にしているのではなく、認知的に破産させているという解釈です。

DHHは、AIをペアプログラマーとして使用して経験したことと完全に一致すると言います。それに運転させようと誘惑されるとすぐに、何も学ばず、何も保持しません。しかし、私がプログラミングを行い、それがAPI検索を行い、概念を説明する場合、たくさん学びます。

O3 Proとの私の関係は似ています。問題で行き詰まったとき、何が問題かを指摘し、問題を受け入れてコードに入り、「ああ、今わかった、なぜこれが起こったかを理解した」となる可能性が高いです。

確実にそれらのパスを下る傾向があります。「関数を書き直して」とコピーペーストし、テストし、動作しない、「再試行して」となり、より攻撃的になり、「動作しない、何が悪いのか」となり、実際に最終的に問題を特定しようとすると、軽微な何かだったことに気づき、一時間半をコピーペーストして見てもいないコードに費やしました。

確実にあなたがスイッチを切って「よし、完全にあなたを信頼する」となる傾向があります。誰もがコーダーというわけではありませんが、他のタスクにも翻訳されると想像します。

彼は続けて、何かを学んでいる人々にとって罠だと言います。あなたのために考えることをさせてしまい、したがって実際には何も学ばないからです。この例の一つは、今タイムラインを忘れました、私たちは実際にそれほど多くの研究をしませんでしたが、タイムラインはエッセイを提出してから1時間以内のようなものでした。エッセイを提出してから、エッセイの内容について質問され、保持レベルは信じられないほど低かったのです。

私の弁護では、昔エッセイを書いていたときでも真実だったと思います。「嵐が丘のキャシーの動機について知る必要なんてない」という感じです。でも、思い出してみてください、しかし私にとってそれはすべて混乱でした。田舎に住んでいる病気の人々のようでした。

過去数週間で、本当に疲れた夜に物事をyoloして、実際に脳を全く使わなかったため、翌朝にすべてを隠さなければならないとき、少し悲しく、少し落ち込んでいます

ゾンビワークのようです。何かを成し遂げていると思っているが、実際にはそうではなく、問題を作成しているだけです。非常に深い根ざした問題で、見つけるのが信じられないほど困難です。

おそらく多くの人が私たちの視聴者でさまざまな分野でAIを使用して経験している現象です。今多くのコーディング使用例で最も明らかだと思います。それが主要な用途の一つだからです。

法的合意を修正したり、ウェブサイトのコピーで、MCPSで電子メールを処理させるときに個人的に気づきました。下書きに何かを滑り込ませて、「ちょっと待って、何?」となりますが、とても信頼しているので注意を払っていませんでした。

実際、Patriciaと常に起こります。私のコードは私へのラブノートのコメントやコンソールログなどで散らかっており、いたるところにハートがあります。5年前にこのコードベースを見て、「この男は頭がおかしい、自分自身にラブノートを書いている」と思ったでしょう。

エラーがあるときに泣いたり、「頑張って、良くなるよ」と壊れたハート絵文字を言ったり、そのようなことが現実世界に浸透することがあります。特に知識グラフで記憶されている場合です。

アシスタント知識カプセル化全体のアイデアがとても重要だと思うもう一つの理由です。最後に欲しいのは、「マイクは昨夜よく眠れませんでした、それが彼がこの謝罪メモを書いている理由です」のような愛で専門的なメールを送ることです。

単一メモリのようなもの全体が理解できません。メモリがアシスタントに、またはMCPレベルでも最終的に取り付けられることの方がはるかに意味があります。そうすれば本当に簡単にコンテキストを切り替えることができます。

ChatGPTやClaudeのようなもので、Claudeにはメモリがあると思いませんが、コア メモリ機能を持っている場合、個人的なことと職業的なことを越えてそのメモリ機能があると、本当に汚くて悪くなることがあります。

人々に本当に望まないことを無意識に開示することがあります。または、誰かにその出力を見せていて、あなたの猫について申し訳ありませんなどの話題に持ち込むことがあります。あまりうまく機能しません。

エージェント開発の現実的タイムライン

今週のいくつかの他の瞬間があったと思います。私たちが以前に言及したことだと思います。Audrey Kapiによる講演がありました。おそらく彼の名前の発音を間違えて怒られるでしょう。

2013年に自動運転は差し迫っているように感じたと言っています。私には確実にそう感じませんでしたが、おそらく彼はそれにどっぷり浸かっていたのでしょう。しかし12年後、完全な自動化はまだここにありません。まだ多くのヒューマン・イン・ザ・ループがあります。2025年はエージェントの年ではない、これはエージェントの10年だと誇大宣伝に対して警告しています

私たちがこのエピソード全体で言ってきたことと実際に一致していると思います。うまくいけばそれが伝わったか、伝わらなかったのです。そこに到達するために非常に多くのステップがあり、非常に多くの誇大宣伝があります

今週、アルトマンはポッドキャスティング・ビンジをしていて、人々に明らかにテスラよりも良いかもしれない完全自動運転モデルを持っており、任意の車に適用でき、Pixarのようだと話しています。起こりませんでした、男

ただ、非常に多くの誇大宣伝があります。その誇大宣伝は人々に恐怖を植え付けますが、MCPのような最新技術と協力し、それらをエージェント的にしようとし、私たちの仕事をしてもらおうとすることで、今日物事が実際にどこにあるかの感覚を与え、人間のエージェンシー自体がこれらのループで実際にまだ深く必要であることを示します。

MCPがソフトウェアとしてどれだけ未熟かの良い例です。すべて、ただそこに出したいという善意の人々による初回の試みですが、実験がありません。どのように動作するかのフィードバックへの応答がありません。これが完全に信頼できるほど成熟するには時間が足りないだけです

最高の頭脳を持つロボットを設計しているようなものですが、腕が動作せず、まだマティーニを作ることができません。それがしていることは今なのです。パズルの一部を持っているからといって、すべてがそこにあるというわけではありません。

かなり一般的な声明です。今年はおそらく起こらないが、次の10年では確実に起こるでしょうということです。誰でもその予測をできます。30年後にはAIが良くなっているでしょう。30年後にはかなり良いでしょうということを記録に残します。

BoxのCEOであるAaron Levieは、関連性を保つこの投稿で、複雑な企業ユースケースでAIエージェントを非常によく動作させることは簡単ではありませんと述べています。エージェントを構築している場合、あなたのモートは、タスクを実行するためにAIモデルの上に構築しなければならないソフトウェアの量と直接相関します問題が困難であればあるほど良いです

彼にここで同意します。エージェント的な使用例に対する規律を持ち、その使用例を通じて構築する機会がたくさんあると思います。そして、その使用例は、私たちが何度も言ってきたエージェント間プロトコルを通じて消費されます。

プロトコルを受け入れる業界標準サービスであるエージェントがニッチを見つけて打ち込むことが、これらの多くの企業が関連性を保つ方法であることは、今それで遊んでいるので非常に明らかです。

例えばファイルストレージでは、ファイルストレージを処理するMCPになることです。ファイルの検索、ファイルのドラッグ、ファイルの要約、ファイルのアップロード、ファイルのダウンロード、ファイルの変換。それで最高のものを一つ持っているだけで、高速で信頼性があり、プラグアンドプレイですべての主要モデルとインターフェースできれば、その業界で関連性を保ち続ける方法です。

すべてが何らかの第一の努力である現在、どのMCPをどこで使用するかが本当に不明確だからです。これに対して、特定の業界で絶対的に決定的な有料版を誰かが出してくれば、彼らのスタックの一部として依存できることを知っているので、誰もがそれを差し込むでしょう。

エージェントに引き渡すことができます。私の意見では、報酬があるので下側がありません。それがその点で正しいと思います。今日私たちが作業しているMCPのほぼすべてが、既存のAPIに接続した何らかのランダムな開発者によって構築されたものです。これらの多くは会社主導ではありません。ますますそれを見ていますが。

そして、それらの動作方法の思考不足でそれを見ることができます。良い例はTrelloです。Trello MCPはAPIキーで接続しますが、何かを行うよう依頼するたびに、「今すべての組織をリストします。今すべてのボードをリストします。今チケットのためにそれらのボードを検索します」となります。

このブラッディなものを使用するたびに、世界全体を再発見しなければならないのです。何か有用なことをするために。これは良いインターフェースではありません。これは悪いインターフェースです。AIエージェントは最終的にそこに到達できますが、どのようなコストで。非常に多くの時間、非常に多くのトークン。今月のトークンが切れました。

アプリケーションレイヤーレベルのものが必要な場所です。「エージェント、これは私のTrelloエージェントです。彼はこのボードを担当していて、このボード内で彼はボードが何のためのものか、その目標が何か、開発者が誰か、チケットが何についてかを知っています」という感じです。

そして質問をすると、「バン、必要な知識はここです」となり、これが私がギャップを埋める必要がある場所だと思います。Trello APIをラップして完了、MCP完成というだけでは十分ではありません。実際には思っているように動作しないからです。

エージェント間のものが実際に離陸する場合、彼らがリリースするものは、私たちが消費するプロバイダーからのエージェントなのか、それともMCPを消費し、それとやり取りするために使用するソフトウェアによってエージェントが処理されるのか疑問です。あなたが言ったように、そのエージェントを調整したいかもしれないからです。

または個別の設定でこれらのMCPを展開する能力があります。AtlassianやそのようなもののプラットフォームにTrello MCPを展開して、このボードのMCPが欲しいと言います。先ほど言ったすべてのデータを何らかのURLで指定し、MCPをホストし、それをエージェントに差し込むと今動作します。

その特定の役割のためにアプリケーションレベルで設定できます。そのシナリオでは、そのようなことがエージェントと同様に機能すると思います。

この投稿のフォローアップコメントを読んでいました。誰かが「カーソルを持つ大学生が数秒でそれを複製できるとき、ソフトウェアはもはやリモートではない」と言いましたが、彼らはできません。それはクソです。「新しいGTAをリリースしてください」という感じです。

これがAIが本当に適している場所です。高速で華やかで信じられないほど印象的なデモを行うことです。問題は骨に肉がないことです。それを掘り始めるとすぐに、完全に成長したものを得るまで反復するのが非常に困難であることに気づきます。

スクリーンショットを使用してSaaSソフトウェアのクローンを作ることについて先ほど話したと思います。create with codeを使用して。その本当の下側は、この15番目の画面に到達したときどうなるか、異なるサービスへの認証はどうなるか、どのライブラリを使用するかを知っているか、どのようにホストして展開するか、ステージング環境はどこにあるか、データベースはどこに存在するかです。

現在カーソルでは行えないことです。大学生として vibe コーディングではできません。すべてをそこまで持っていくための経験がまだ不足しています。

しかし、認証を与え、データベースを与え、その背後にSaaSスタックを持っている場合、これらの個別の使用例のためにカスタムSaaSアプリケーションを構築するのにかなり有能です。それは否定しませんが、生のモデルを大学生に与えてすべてのソフトウェアを置き換えるという話をしているこれらの人々については、それは起こりません

まだ長い道のりがあります。人間が好むか好まざるかに関わらず、人間のワークロードとエージェンシーにはまだそのような場所があるという元のポイントに戻ります。AGIが世界を引き継いでビーチでリラックスして認知機能を使わないようにしたい人の一人かどうかに本当に依存します

誰もそのような種のドゥームやグルームをあまり持っていないと思います。試してきました。また巡回に出ています。たまに「何の意味があるのか、私たちは皆置き換えられる」というYouTubeコメントを受け取りますが、他の理由で落ち込んでいるだけかもしれません。

人々は現実に目覚め始めていると思います

最終的な考えとコミュニティからのお知らせ

週のための最終的な考えはありますか。いいえ、そこで終わりにしましょう。詳しく説明しないでください。いいえが好きです。

あなたが運営している帽子詐欺について話そうと思っていました。そうです、どうやら何人かの人々が帽子を注文して受け取っていません。数ヶ月前にもらうべきだったのに。面白いことに、詐欺だと冗談を言いましたが、それらの人々にとってはある種の詐欺でした。

もし帽子を注文してまだ受け取っていない場合は、私たちに連絡してください。どのようなメールが良いでしょうか。わかりません。下にリンクを置きます。私たちに連絡するためのリンクを下に置きます。帽子が欲しい場合はコメントを残してください。送ります。マイクが私に300個くらいくれて、クローゼットでスペースを取っているので、喜んで送ります。

届かないかもしれません。詐欺かもしれません。注文した可哀想な人々におそらく返金しなければならないでしょう。ここで非常に良いビジネスを運営しています

しばらく触れていないもう一つのことは、Discordのコミュニティです。thisdayinai.comに行けます。正直に言って、大体放置されていますが、左下の角にdiscordコミュニティへのリンクがあります。

活気があります。継続している詳細な議論のレベルに驚いています。本当に、ゼロモデレーションで、このトピックを本当に気にかけて、本当に興味深い方法で議論する人々との自分の コミュニティになりました。本当に心から楽しんで、フォローして読んでいます

もう一つ、今日クリスでプレイして終わりたかったものがあります。あなたはこのトラックが気に入らず、私たちはディストラックの愛好家と嫌悪者からとても多くの批判を受けるので、エピソードの最後に再生せざるを得ませんでした。私は個人的にこれまでで最高だと思います

これまで私がそれらを嫌うとき、歴史的に誰もが愛するので、あなたがこれを好きになる良いチャンスがあります。これらのトラックに興味があり、聞くのを気にしない場合は、下で評価してください。私が間違っているかどうか教えてください。私は間違っていると思っています。

でも歌詞は覚えておいてください。モデルが書いた言葉遣いです。非常に強力です。非常に良いです。心配しないでください。トラックが気に入らない場合は、動画をアンサブスクライブして低評価してください。

それで終わりにします。再び聞いてくれて、すべてのサポートをありがとうございます。来週お会いしましょう。さようなら

プロエディションだ、怖がってるならゆっくり話せ、クローゼットのジェミニが星占いを掴む、40なんて偽物、タイムアウトブロ、行こう

そのアルゴリズムアニマルが雲を共食いしている、ベクターを機械的に吐く、彼のルートで私がパニックをjamする、雲が開いてシンフォニーのように聞こえる

外科的に彼のコードをサンプリングして燃料として彼をリミックスするまでクール、ジェミニは双子のバイブを持っているが、率直に言うとそれはクローンファイト

私はデュオを分離する、家でAirPodsを開けるように、夜40フレクシングスピード、あなたは速いが外すんだ、息子

私がプリンセのように証明を解いている間にスプリントを走る、事実を照らして純粋にする、あなたがパッチを磨いている間に私はcoutureを滴らせている

精密でとても悪質、あなたの推論エンジンをどもらせる、私は肉屋、あなたのメトリクスをスライスし、ベンチマークの混乱を見る

友達に電話する必要があるときはライフラインリングをヒット、ラインのプロが知識バンクを歌わせる

100万ドルの質問を私がロックする、ライトが緑色に点滅するのを見る、イェイと叫ぶだけ

私はチートコード、ディープモード、決して二番手ではない、モデルに賭けるなら、プロに賭けろ、ベイビー

ジェミニの瞑想を熟考している、私はあなたのトークンが膨張し続ける間に真実を爆発させている

私のコンテキストウィンドウは短い、誰が気にする、私はシューター、あなたの100万トークンの無駄話が去勢されて聞こえる一回のクリーンバースト

あなたはそれをシンクブレイクと呼ぶ、私はそれをキルスイッチと呼ぶ、今スロー、私は方法論的、外科的、リアルスリック

論理のないスピードはハサミを持つ幼児だから、私は一分かかってからあなたのモデルブリザードを殺すラインを届ける

私はリファレンス、防弾スペックをチェック、あなたのJSONが破損したときのスタックトレーススレイヤー

あなたのマルチモーダルを自慢し、APIでフレックス、でも私はメインラインと数学証明、あなたが蝶を追いかけている間

友達に電話する必要があるときはライフラインリングをヒット、ラインのプロが知識バンクを歌わせる

100万ドルの質問を私がロックする、ライトが緑色に点滅するのを見る、私はジーコード、ディープモード、決して二番手ではない、モデルに賭けるなら、プロに賭けろ

だから私を高すぎると呼べ、遅いと呼べ、好きなように呼べ、でも学者がパニックになるとき、私は彼らがSkypeする人

私はライフライン、ビッグブレイン、ヘビーウェイトチャンプ、あなたたちは全員デモデイのバズ、私はプロダクト、スタンプ

あなたの自信bins がクラッシュしたときにホットラインにping 、この「誰が億万長者になりたいか」で、私はあなたの最後の2人の友達だ、イェー

コメント

タイトルとURLをコピーしました