Claudeは自己構築を学んでいる – AnthropicのMichael Gerstenhaber氏が語るエージェント

この動画は、AnthropicのMichael Gerstenhaber氏との詳細なインタビューを通じて、Claudeの最新機能とAI開発の現状について深く掘り下げている。特にコーディング能力がAI業界で重要視される理由、Claude Code の開発背景、そして急速に進歩するAI技術がいかに開発者や企業に影響を与えているかを解説している。また、モデルコンテキストプロトコル（MCP）やエージェントAIの将来性についても言及し、AGIに向けた道筋を示唆する内容となっている。

Claude Is Learning to Build Itself - Anthropic's Michael Gerstenhaber on Agentic AI

AI is evolving faster than anyone expected and we may already be seeing the early signs of superintelligence.In this epi...

Claudeの進歩とAI開発の現状

Cloud 3が登場してからの1年半で私が見てきた変化の量は劇的でした。1年前のモデルと今日のモデルでは全く似ていないと思いますし、私たちはまだ始まったばかりなのです。

なぜコーディングがあなたの考えではベンチマークなのでしょうか。なぜそれがすべての主要AI研究所が集中的に取り組んでいる重要な能力なのでしょうか。それはエンジニアが他のエンジニアや自分自身のために製品を構築することを愛しているからで、彼らは出力の品質を評価できるからです。

Cloud Codeは、私たちが顧客と同じようにエージェントループでコーディングを実験し、モデルがどれくらい長い間生産的にコーディングできるかを見たいと思ったことから生まれました。ここからそこへ行くことは今では単純に簡単になりましたが、どこに向かっているかを知ることの重要性は変わりません。

私は未来がどのようになるかわかりませんが、私たちが研究でより良く、より良く、より良くなるにつれて、それはより速く、より速く、より速くなると期待しています。

Michael Gerstenhaber氏の経歴と現在の役割

Michaelさん、今日は私たちに参加していただきありがとうございます。ポッドキャストにお迎えできて嬉しいです。

ありがとうございます。参加できて嬉しいです。

Michaelさん、あなたの経歴をご存知でない方のために、あなたは10年以上にわたって異なるタイプの企業で製品開発に携わってきました。聴衆のために、Anthropic以前に取り組んでいた興味深い製品を1つか2つ教えていただけますか。あなたが非常に興奮していたもので、彼らにあなたの経歴の文脈を与えるようなものです。

はい、問題ありません。私のキャリアはソフトウェアエンジニアとして始まりました。Cisco Systemsでネットワーク管理ツールを構築していましたが、プロダクトマネージャーとしてでもビジネス側でもなく、世界最大のネットワーキング企業でラックとスタックされたルーターとスイッチのSNMPモニタリングを実装していました。

しかし、最近ではDataDogという会社で働いていました。そこで私はインフラストラクチャ監視製品と、人々がWebアプリケーションを実行するインフラストラクチャツールやプラットフォームとのすべての統合を担当していました。そこでかなり楽しい時間を過ごし、その役割と会社を愛していました。Kubernetesコミュニティに深く関わり、分散システムで生じるマルチテナント問題への関心を維持しています。

AnthropicでのAPI Platform業務

Michaelさん、あなたはAnthropicのAPI プラットフォームチームを率いており、コーディングチームやCursorなどのAPIを使用する多くのクライアントとも密接に協力しています。Claudeの新しいモデルがこの分野でどのような取り組みをしているか、あなたが日々行っている業務について人々が文脈を理解できるよう、もう少し詳しく教えていただけますか。

はい、もちろんです。私はAPIプラットフォームで働いており、これは顧客にClaude推論インフラストラクチャを提供することを意味します。私たちの顧客にはGitHub CopilotやCursorのような、顧客にコード生成を提供する企業も含まれています。

コード生成は特に興味深いのは、非常に多様な形態をとるからです。LLMが人間レベルでコードを書くのが非常に得意であることは知られています。ほとんどの人間より優れているか、まだそれほど良くないかは議論の余地がありますが、いずれにしてもLLMによって書かれたコードは非常に一般的に本番環境に移行しています。私たちが見てきた例では、コードベース全体の30%が生成されたコードであることも珍しくありません。場合によってはそれ以上のこともあります。

これは私の経験では多くの方法で表現されています。世界にはReplitやBoltのようなオールインワンIDEがあり、あなたが必ずしも専門家である必要がない開発者体験を提供しています。もしアイデアがあり、起業家であれば、おそらく非常に迅速にWebサーバーを立ち上げ、ホスティングしてもらい、これまでそのサービスにアクセスできなかった顧客に新しいサービスを提供することができます。単にプロダクトマネージャーや営業担当者であっても、世界に何かをもたらしたいと思えばできるのです。

一方で、CognitionやGitHub Copilot、Cursorでは、プロフェッショナルなエンジニアがこれらのIDEで毎日生活し、デバッグ、書き換え、反復を行える高品質なコード環境を生成し、最終的にユニットテストを通して本番環境に投入し、保守可能な方法で実装します。彼らはページャーを持っているので、午前3時にシステムがダウンすれば、ビジネスが被害を受けるため午前3時に起きて修正します。これらのビジネスは数億ドル、数十億ドルのビジネスです。

コーディングがAI開発で重要視される理由

現在のモデルの品質に基づいて、異なるレベルのコーダー向けに異なる方法で表現でき、重複しない顧客の全スペクトラムがこれらのものを現場に投入しているのを見ています。理解できますか。

それは確実に理解できます。業界で見ているのは、AIでコーディングをより良くすることに大きな焦点が当てられていることです。なぜコーディングがあなたの考えではベンチマークなのでしょうか。なぜそれがすべての主要AI研究所が集中的に取り組んでいる重要な能力なのでしょうか。

それは良い質問です。まず最も簡単な答えの一つは、単純にモデルがそれを非常に得意としているということですが、それは単純すぎる答えだと思います。なぜなら、エンジニアが他のエンジニアや自分自身のために製品を構築することを愛しているからで、彼らは出力の品質を評価できるから、コーディングが本番環境でこれほど多く見られる理由の一部だと思うからです。

医療研究者、例えばNovo NordiskやThomson Reutersの例に戻ると、モデルの出力が少し異なる場合（確率的であるため少し異なるでしょう）、それはもはや以前の出力からの文字通りの文字列と照合できず、キーボードの前のエンジニアは些細な変更が法的表現や法律にとって重要な変更かどうかを評価できません。

組織として困難なのは、弁護士がエンジニアと一緒に座って製品を構築し、出力を評価する必要があることです。一部の企業はそのように設定されていないため、再編成とプロセス変更を行う必要があります。その間、エージェントが可能になってからまだ6ヶ月しか経っていませんが、これらのコーディング企業は自己評価するため毎日本番環境に出荷しています。

しかし、知能は法的調査、医療研究、コンテンツ作成などの非コーディング領域に汎化すると思います。それも本番環境に移行し、それについてますます多くのことを聞くようになるでしょう。

もう一つは、コーディングが単純に横断的だということです。私たちは常に垂直化について話しますが、コーディングは垂直化されたソリューションではありません。医療研究を行う人々はPythonスクリプトを書き、投資銀行の人々はソフトウェアを書き、現代世界のほぼ全員がソフトウェアを書きます。世界のほぼすべての企業がCTOとソフトウェアエンジニアリング部門を持っているので、それが非常に広く適用可能であることも、利益について非常に興奮しやすい理由の一つです。

Anthropicの差別化戦略

AI業界は非常に競争が激しく、GoogleやMicrosoftのような大手から、あなた方まで、複数の優れたAI研究所がこの問題に取り組んでいます。製品戦略の観点から、Anthropicはどのようにして独自のアイデンティティと価値提案を作り出しているのでしょうか。CursorやThomson Reutersがクライアントであることについて話されましたが、その観点からどのように考えていますか。

それは素晴らしい質問です。私の仕事を、これは組織の一部としてのみ個人的に話していますが、インフラストラクチャとして説明します。頻繁に意図的にそのように話しています。なぜなら、顧客との相互作用は、私の顧客が製品を作り出すビジネスとの間で行われるからです。

私の領域は本当にモデルの知能であり、機能要求を受けたり、プレッシャーを受けたり、苦情を受けたりするとき、それはモデルの知能が原因であって、ボタンが間違った場所にあるとか、何かの方法がわからなかったということではありません。私の顧客は非常にプロフェッショナルで、自分たちの仕事を非常に得意とし、最先端の最前線にとどまり、私により一層最先端を超えるよう迫ります。

人工知能領域で知能企業として私たちが作り出したニッチは、顧客からのこれらのプレッシャーの一部によるものだと思います。インフラストラクチャプロバイダーとして、私たちには確実に独自のクライアントもいますが、それでさえこれらの多くの結果です。

Claude Codeは、私たちが顧客と同じようにエージェントループでコーディングを実験し、モデルがどれくらい長い間生産的にコーディングできるかを見たいと思ったことから生まれました。現在、公的に参照可能な数字として、モデルが7時間外に出てコーディングし、非同期で良いコードを書いたというものがあります。これは私たちがJIRAチケットをLLMに署名し、他の作業を続け、戻ってくるのを待つことができることを意味します。私たちが顧客がモデルの知能で実験していた方法で実験したかったから、Claude Codeもそのようにして生まれました。

Claude 3.7とClaude 4.0の違い

私たちはClaude全体が大好きです。特に実際にZenと書くのが非常に得意だと思います。私たちはコンテンツ製品でそれをたくさん使用しており、非常に興味深いです。3.7のような思考ループは時々答えを見つけてそのまま続けていましたが、4.0がその問題を解決しました。私たちはそれを見て非常に喜びました。それは3.7で私たちの使用ケースで見つけた問題の一つでしたが、それは素晴らしかったです。

それは非常に良いフィードバックです。私たちが最初に思考ループを公開した理由の一部は、あなたがそれを操縦したり、フィードバックを与えたりできるようにするためです。それは出力の一部ではなく、答えの一部ではありませんが、モデルがどのように考え、内省しているかを見て、それをあなたの目的に操縦できることは、実際に多くの人々にとって製品の機能です。

Claude 3.7は多くの人々にとってお気に入りのコーディングモデルだと思います。4.0は今3.7を置き換えているかもしれませんが、技術的でない人として（Hustは技術的で、エンジニアリングチームを率いていますが、私は成長側にいて、自分自身もコンテンツクリエイターであり、ライターでもあります）、Claudeは書くことで驚異的です。市場にはそれに匹敵するものがありません。

例として、私のチームの誰かが最近投稿をワンショットし、ソーシャルメディアに投稿したところ、10,000以上のいいねと100万以上のインプレッションを獲得しました。文字通り一つの単語も変更されませんでした。明らかに彼がアイデアを思いついたのですが、「これが私の最後の投稿の様子です。これのようなものを作成してください」と言っただけで、ワンショットで変更なしに10,000のいいねを獲得し、私たちは皆ただそこに座って心を奪われていました。

最近、ベストセラー作家と話していました（名前を言うべきかわからないので言いませんが、名前を言えばほとんどの人が認識するでしょう）。何トンもの本を売った人で、Claudeが書くこと、研究、逸話の発見、編集などの面で何ができるかを見せたとき、彼らは心を奪われました。私との1時間の通話で、彼らは「このAIは小手先のものだ」から「今何が起こっているんだ」へと変わりました。

Anthropicの文字・キャラクター開発への注力

それは素晴らしいことです。私はコーディングで優秀になることがなぜそれほど重要かを理解していますが、Claudeは書くことで素晴らしいように感じます。Anthropicはそれについてあまり話していません。これは意図的なのでしょうか、それとも現時点でコーディングのメッセージに固執したいからでしょうか。

私たちはClaudeのキャラクターにかなりの時間を費やしています。常にClaudeのキャラクターについて考えているチームがあります。私たちはそれを非常に誇りに思っており、人々がそう言ってくれるときはいつでも非常に嬉しいです。なぜなら、それは意図的な選択だからです。

面白いことに、個人的に職場で、私たちには内部Slack統合があり、私は少し実験として自分のパフォーマンスレビューを書くためにモデルを使用しました。私のDMで話していることを見て、私の資格情報を使用し、私のSlackを見て、私がどうやっているかを教えてくれと言いました。あなたが言うように驚異的に機能しました。それが私の文章を見て、私が頼んだときに私の声に適応し、私のためにこのレビューを構築するのを見るのは非常に楽しかったです。それは素晴らしかったです。

自然言語とコーディングの関係性

自然言語によってLLMと通信でき、LLMがこれらすべてのことを行うのを見ています。コードを出力したり、コードを入力してテキストを出力したりすることもできます。両方向でできますが、多くの人々にとってコードが初めてアクセス可能になっています。LovableやBold、Replitなど、これらすべての他の製品が登場しています。

私にとって書く部分について本当に興味深いのは、書くモデルがより良ければ、それはあなたをより良く理解することも意味し、出力が良ければ、それはあなたをより良いコミュニケーターにすることも意味することです。明らかに将来、エンジニアや開発者は価値があります。彼らはより多くを知っているからです。

しかし、入ってくる人々、ローコード製品、ノーコード製品、または自分自身のマイクロ製品を構築し始める人々にとって、あなたをより良く理解し、より良くコミュニケーションを取るのを助けるモデルは、最高のコーディングモデルを持つことの同等物だと思います。比喩を少し引き延ばしているかもしれませんが、これについて考えたことがあるかもしれません。

私が先ほど言っていたように、コードで話す方法とコードで考える能力は、モデルの知能に一般的に貢献すると思います。歴史的に、モデルがより賢くなると、モデルは一般的な方法でより賢くなることがわかっており、それは続いています。

私たちの最高の顧客の一部は、世界のNotion、Canvasで、それらの顧客に代わって私的目的または出版のためにコンテンツを作成していますが、私たちはこれを毎日見ています。特に起業家にとって、彼らが始めるときに少しの力の乗数を与えると思います。

彼らが非常に優秀なエンジニアであれば、彼らの市場参入、コンテンツマーケティング、世界とのコミュニケーション方法で自分自身を増強できます。彼らが自分の製品をどのようにコミュニケーションしたいかを正確に知っているが、それを構築するのに苦労している場合、それがそれを助けることができます。しかし、一般的に起こる知能はスタートアップエコシステムにかなり利益をもたらしました。

アプリレイヤーとモデル層の価値について

18ヶ月前、アプリレイヤーは公然と嘲笑されていました。彼らはGPTラッパーと呼ばれていました。アプリ会社で働いているなら、正直に言うと真剣な人ではありませんでした。私たちはアプリ会社を構築しているので、それが私たちが受けた多くのフィードバックでした。

しかし、過去6〜12ヶ月で会話は変わりました。今、人々はモデルが商品化されると言い、アプリレイヤーですべての価値捕獲が起こると言っています。これは少し反動的に感じます。正直に言うと、モデル層が商品化されるかもしれず、すべての価値捕獲がアプリで起こるという新たな合意について、あなたの見解を聞きたいです。そして、モデルが商品化されないなら、なぜ商品化されないのでしょうか。

ラッパーの比喩は私には決して響きませんでした。時には何十年、時には1世紀にわたってビジネスを構築してきた人々、私が持っていない医療研究などの深い経験を持つ人々は、私がそれを使うよりも彼らの領域でモデルの一般知能をより良く使うでしょう。これらの企業をラッパーとして片付けるのは、私には非常に不適切です。

これらのクライアントは顧客に対して何かユニークなものを表現するでしょうし、AIは彼らがそれを行うのを助けるのに関連しています。彼らが行う必要がある分析で、彼らが何十年もの間収集してきたデータベースの文脈を与え、彼らのニッチでの領域専門知識、プロセス専門知識、顧客専門知識、または何でも彼らが持っている専門知識をモデルの知能と組み合わせて、顧客に直接関連するアプリケーションを構築することです。

また、私の軽い傲慢さで、一般知能レイヤーでの多くの商品化を見ていないと思います。モデルが1年前と今日では全く似ていないと思いますし、私たちはまだ始まったばかりです。

Cloud 3が出てからこの製品に取り組んでいる1年半で私が見てきた変化の量は劇的でした。Cloud 3から3.5バージョン1に6ヶ月、3.5バージョン2に6ヶ月、3.7に6ヶ月、少し線形的な関係でしたが、4.0には2ヶ月で、私は未来がどのようになるかわかりませんが、私たちが研究でより良く、より良く、より良くなるにつれて、それはより速く、より速く、より速くなると期待しています。

フロンティアは非常に異なって見えるでしょうし、もう一つは、私たちはずっとコーディングについて話してきたので、その比喩に寄りかかりますが、私たちはずっとコーディングをしてきましたが、昨年6月にはタブを押して行の残りを取得することのように見えました。8月までには、知能に尋ね、反復して全体の関数を書くことでした。今日では、7時間のJIRAチケットを割り当てることです。

商品化された使用ケースや知能を商品化された使用ケースとして話すことでさえ、それが劇的に変化しているという事実を偽装しています。モデルでできる経済価値は時間とともに加速します。もしあれば、変化がますます急速に起こっている、より不安定な空間に入っているだけです。正直に言うと、商品化は少なくなっています。

超知能への道のり

超知能にどれくらい近いか、またはそれにどれくらい早く到達すると思いますか。私が知っているのは、それは大きな質問です。私がこれを尋ねる理由は、ユーザーとして、いくつかの部分では確実に私よりも優れているからです。特定の種類の書くタスクでは私より優れていますし、特定の種類の数学的タスクでは私よりもはるかに優れています。

まだ意識的ではないかもしれません。David DeutschやKarl Popper、一部の哲学者が話すような真の創造性をまだ持てないかもしれませんが、それが本当に重要でしょうか。知能は知能であり、最初の質問に戻ると、超知能はここにあり、私たちはまだそれに目覚めていないのでしょうか、それとも私は主張を誇張しているのでしょうか。

それは楽しい質問で、いつか時間をかけて考えたいと思いますが、認知を認知にするものについての専門家ではありません。私が知っているのは、あなたが言うように、私が専門家でない領域では私より優れているということです。

私が専門家である領域では、まだ少し私が先にいると感じますし、多くの人がそのように感じていると思います。それは彼らが得意でないことでほとんどの人より優れているところです。特にコーディング、コンテンツ作成などの認識を先回りしているようなところで。

ツールとして、私たちは確実にほとんどの人がしている仕事を加速するための効果的なツールである場所にいます。また、先ほど言ったように、それは不安定で、より速く、より速く変化しているので、10月と今の間に見たのは、人々が実際にアプリケーションから多くのコードを削除したことです。

なぜなら、彼らがしていたことは「Claudeこれをして、それからこれをして、それからこれをして、それからこれをして、これを達成するために」と言うことで、各ステップがバグを蓄積する可能性があり、それはそれらのバグを自己修正するのがかなり得意になったので、ワークフローは可能でしたが、今日では実際にその多くのコードを削除して、それをどのように行うかを考え、その後あなた自身のパターン、あなた自身の指示に従ってくださいと言うことができ、Claudeは実際に足場よりも良いコードを書き、自分自身のコードに従って目標の結論まで行き、実際に目標を達成します。

長い間プロンプトを学んだ多くの人々は、実際にモデルがその時よりもより知的であることを見るかもしれません。彼らが持っていないかもしれない専門知識を表現するのを助ける方法で、それを過度に操縦することが実際に少し後退させているかもしれません。

プロンプティングの将来

認識と現実について、もう一つの大きな議論がプロンプティングを中心に行われています。一部の人々は、モデルが十分に賢くなれば、プロンプティングは重要ではなくなると言いますが、APIを使って製品を構築している人々として、私たちは言葉をここから取り、そこから取り、文の構造や段落構造、指示などを少し変更して最適な出力を得るために、ばかげた量の時間を費やしています。

あなたの見解はどうですか。長期的にプロンプティングは今ほど重要になるでしょうか。

モデルがあなたの意図を理解し、あなたの意図を達成するほど操縦可能で知的であってほしいと思います。私たちはそれでより良く、より良くなっていると思いますが、プロンプティングはまだある程度のスキルです。アプリケーションを構築している顧客が、顧客からそれを隠し、入力と一致してプロンプティングを手助けしてほしいと思います。

これは多くの形態を取ります。メタプロンプティングと呼ばれる技術があります。入力を取って、Claudeに「この入力を考慮してください。しかし、あなたが意図だと思うものに基づいて自分自身のプロンプトを書いてください」と言うときです。それは実際に自分自身の思考の連鎖を配置し、自分自身の役割を配置して、同音異義語を明確にしたり、何でもできますが、知能はコンテンツを書くのが得意なので、自分自身のためにコンテンツを書くことができ、それがそれを行う必要がないほど良くなるまで、一般的なパターンになると思います。

私たちはあなたの意図を読み、毎日より良く答える場所に到達しています。

Sonnet 4とOpus 4の使い分け

4.0では、意図を伝えるのが以前と比べて本当に簡単であることを見てきました。それは私たちが愛しているものです。

Michael、構築者として、AnthropicがSonnet 4とOpus 4という2つの新しいモデルを発表しました。次のアプリケーションを構築したい場合、この2つの素晴らしいモデルのうちどちらをどんな用途で選ぶべきでしょうか。

ベンチマークを見ると、SweetBenchのようなものを見ると、両方とも非常に良くコードを書きます。重要に、分類的に良く。しかし、Opusで見つけるのは、反省、内省、自分自身のタスクを書き、何時間も複雑なタスクに取り組み、いつ人間に戻って明確化の質問をするかを自分で決めることができるモデルです。

Sonnetは迅速に質問に答え、しばらく考えて質問に答えるのが非常に良いでしょうが、エージェント的な世界、エージェント的な行動では、Opusがおそらくより強力なモデルになるでしょう。両方とも同等に熟練しているか、そうではないが、質問に答えるのに実質的に適しているとしても。理解できますか。

理解できます。十分な時間があり、推論が非常に重要であれば、Opusがあなたの選択肢のようです。1時間待つことを厭わないなら。

推論だけでなく、シーケンス計画もそうです。はい、正確に。繰り返しますが、あなたの相互作用のモードがインターンのようにタスクを割り当てることであれば、Opusははるかに良いインターンになるでしょう。理解できますか。

それは理解できます。計画でき、論理的に考え、異なる道筋をテストし、戻ってくることができます。うまくいかない場合は戻ってきて、何か他のことを試し、最終的に正しい答えにたどり着くということです。異なる経路を通って作業することです。

はい、それは非常に優秀です。Claude Codeでは、この種の長時間実行されるタスクベースのシナリオ、目標ベースのシナリオでのOpusの採用が非常に急速であることを見ています。

インフラストラクチャとパートナーシップ

構築者の観点からもう一つの質問です。AnthropicはAWS、Snowflake、その他のクラウド企業と素晴らしいパートナーシップを持っています。大手クラウドプロバイダーの一つに行って、その周りにインフラストラクチャを構築し、Anthropicのモデルを取得するべきでしょうか。それとも、Anthropicにも直接私の製品に組み込むことができるインフラストラクチャがあります。これについてどのように考えるべきでしょうか。

私が自分の仕事を正しく行えば、あなたはあまり苦労して考える必要はないはずです。あなたが企業で、AWSやGCPの関係を持ち、クレジットを使いたい、またはデータの保存場所の近くに推論を配置したいなら、それで良いです。私たちのファーストパーティAPIを使いたいなら、そうしない理由はありません。

開発者にとってどこで消費するかを考えさせる製品を構築したくありません。可能な限り簡単に、あなたが望む場所で消費できるようにしたいです。それが開発者体験にとって重要です。

Model Context Protocol (MCP)の重要性

それは素晴らしいです。Anthropicは明らかにModel Context Protocolを導入しました。

はい、それについて早めに話すべきでした。はい、続けてください。申し訳ありません。

一部の人々によってAIのUSB-Cと呼ばれています。それは素晴らしいイノベーションです。異なるもの間をポートでき、異なるクライアントサーバー間をポートできます。あなた方がそれにどのように投資しているか、それはある程度オープンソースでもあります。これは素晴らしいことです。

それはオープンソースです。ある程度ではなく、オープンソースです。

その通りです。私が先ほど少し話していたのは、領域専門家がモデルを有用にするために領域固有のデータを提供する必要があることについてです。トレーニングデータに基づいて法的調査をしたくありません。トレーニングデータに基づいて推論をしたいが、文脈データを外部から提供したいのです。

これがModel Context Protocolが非常に重要な理由です。従来のソフトウェアのAPIのようなもので、データの保護、データの公開、データの資格情報をプラットフォーム所有者に委ねることができます。つまり、アプリケーション開発者はより少ない変数について考える必要があり、プラットフォーム所有者は自分たちが公開するつもりのものを公開していることを確信でき、データにアクセスでき、一緒に働いてアプリケーションを構築できます。

これが今エコシステムに3,000以上の異なる統合と異なるMCPサーバーがある理由です。人々は自分たちのデータがエージェントからアクセス可能であることを望んでいますが、そのアクセスをコントロールし、エージェントが適切な時に適切な方法でデータにアクセスするのを助けたいのです。

文脈データ、現実世界の知識、プロンプト、モデル内のトレーニングデータの間で、これらが一緒になって問題を解決します。理解できますか。

MCPの実際の企業活用例

非常に理解できます。何か具体的な例を取ってみましょう。今日これを行っている企業があり、そのアプリケーションレイヤーまたは自身の顧客にそれを提供している企業で、「これはMCPの素晴らしいアプリケーションです。私たちはこれをサポートすることに興奮しています」というようなものはありますか。

たくさん、たくさん、たくさんあります。AsanaやAtlassianを挙げます。これらは多くのプロジェクト管理ツールの中の一つで、LLMがユーザーの日常タスクにアクセスし、それらのタスクを実行できることが重要です。これらはモデルデータに訓練されていません。今日何をしているかをモデルに教えたくありません。単にAsanaボードやJIRAボードにアクセスを与え、あなたが一日で達成しようとしていることを知らせ、どれを解決するかを指示できます。

私たちはZapierと統合しているので、すでに設定されているワークフローを実行したい場合、これらはクライアントが現実世界と相互作用することを可能にする方法です。そして、垂直固有、領域固有のサーバーがあります。PubMedの世界のようなもので、彼らが座席保持者であれば、その領域の研究に自分自身の資格情報でアクセスできる人々に直接アクセスを与え、Claudeにアクセスを与えることができます。

それらは素晴らしい例です。MCPはZapierでワークフローをトリガーし、エージェントが今あなたのワークフローの一部になれるという素晴らしい方法だと思います。人生をとても楽にします。また、研究データにアクセスできます。コピーペーストしたり、Claudeや他のインターセクションに持ち込む必要がなく、本当にそこで作業ができ、そこで動作しています。

権限とデータの権限や異なる権限レイヤーの混合について人々が懸念している他の問題もあります。これにより、Claudeは人間になりすますことができます。あなたの人間の資格情報をエージェントに与えるので、エージェントは自分自身のトークンや認証ではなく、あなたに代わって行動します。そうすれば、Michaelがデータにアクセスすべきかどうか、そうでなければ彼のエージェントもそうすべきでないというように強制できます。

開発者向けのベンチマークと評価について

開発者チームと話しているとき、一般的な開発者と話しているとき、新しいモデルが出るといつも何らかの方法でチャートトップになりますが、最近これらのモデルがどのようにチャートトップになったかについても議論があります。多くの場合、モデルがチャートトップですが、開発者が実際に使用しているモデルではありません。開発者はより信頼性があると感じるため、6ヶ月前のモデルを使い続けます。

最初の質問は、開発者はベンチマークにどれくらい注意を払うべきでしょうか。そして2番目の質問は評価についてです。私たちが話すすべてのチームが評価で課題を抱えています。あなたが最近数ヶ月で評価の課題で良い進歩を見たことがありますか。

それは素晴らしい質問です。これらは2つの素晴らしい質問で、両方に答えようと思いますが、責任を持たせてください。

ベンチマーク側では、ベンチマークは私たちが新しいモデルが古いモデルよりもどれだけ良いかを表現するのに有用だと言います。ベンチマークに対してテストする一貫した方法を保つ限り。したがって、モデルが開発される際のモデルの進歩を理解するのに非常に有用だと思いますが、特定のベンチマークに過適合したり、特定のベンチマークのために訓練することは非常に簡単だと思います。

私はこの方法での学術的専門家ではありませんが、私たちの研究チームは、何らかの足場の品質ではなく、モデルの品質を反映していることをモデルカードで確実にするために、何も過適合していないことを確実にするために、かなりの時間を費やしています。

消費者、購入者として、ベンチマークは同様の方法で有用だと思います。Claude 3.7 Sonnetを使用している場合、Sonnet 4から方向性として何を期待するかを知るのに役立ちますが、あなたの評価は常により重要です。

すべての顧客、もしあなたがプロフェッショナルで、AI対応の製品を販売していて、何らかの方法でそのAIのアドバイスやそのAIから生成されたコンテンツを販売している場合、あなたのビジネス、あなたの評判、あなたのビジネスにとって何が良いかを知るべきです。

それは多くの形態を取りますが、それはプロダクトマネージャーとして、あなたにとって何が良いかがプロダクト決定であることです。それは積極的に、注意深く作られ、書き留められるべきプロダクト決定です。評価の形で書き留められ、本番環境でテストされるべきです。

ライブ評価で本番環境で、オフライン評価で本番前に。モデルをアップグレードするときは、顧客体験を改善していることを確認すべきです。顧客はこのモデルかそのモデルかは本当に気にしません。彼らはあなたのクライアント、あなたのアプリケーションの出力を気にします。それが重要で、人々はまだそれで苦労しています。

1年半前に人々のアプリケーションについて話し始めたときよりは、はるかに苦労していません。私のコンピューターで読み込めないGoogleシートの例を覚えています。数千列幅で、プロンプト完了、プロンプト完了、プロンプト完了で専門家と反復していて、それが良いことを確認し、プロンプトを改良して本番環境に移行していました。

それは素晴らしい行動で、実際に非常に大規模な方法で本番環境に移行しました。これを聞いている人々の多くがおそらくこの製品を使用していると思います。これらの評価に非常に集中していたため、非常に高品質な製品です。しかし、私の観点からはまだ痛すぎました。

この役割の最初の3ヶ月の多くは、私たちのコンソールでプロンプトジェネレーター、プロンプト改善器、評価製品、さらには誰かがこの方法で始めるための評価を生成する方法の構築に集中していました。今日では、これのための良いツールがたくさんあると思います。Prompt-uは素晴らしい、Brainは素晴らしいです。エコシステムが提供し始めています。

しかし、正直に言うと、賭けるとすれば、ほとんどの顧客は内部ツールを使用していると思います。より良く、より良いツールを提供したいと思いますし、エコシステムに開発者のためのツールを提供することを奨励したいと思います。

若い開発者へのアドバイス

これを聞いている開発者、特に市場に入ったばかりの若い人々にとって、次の6〜12ヶ月で本当に重要になると思う特定のスキルがありますか。

確実にテクノロジーについていくことです。今すぐコーディングを始め、今すぐAIを使い始めることで、テクノロジーが進歩するにつれて、その進歩を見ることができ、新しい世代と古い世代の違いを理解し、どの機能がいつ有用かについての直感的な感覚を得ることができます。

私たちはClaudeにコンピューターを与える機能をリリースしました。それは次のトークンを予測してレスポンスを提供するためだけでなく、実際に「これは答えられない質問ですが、それに答えるためのコードを書くことができます」と決定し、そのコードを書き、サンプリングループ中に実行し、その後出力に基づいてサンプリングを続けることができます。2つの3桁の数を割り算する方法を推論しようとする代わりに、自分自身の計算機を構築して2つの3桁の数を割り算できます。

なぜ私たちがそれを構築したか、どのように使うかを理解することは、おそらくあなたの製品をより良くするでしょう。実際に私は副次的な懸念から始めました。主要な懸念は従来の顧客が誰か、ビジネスが顧客に何を提供すべきか、彼らにとっての成功がどのようなものかを理解することです。すべてはそこから派生します。

ここからそこへ行くことは今では単純に簡単になりましたが、どこに向かっているかを知ることの重要性は変わりません。理解できますか。

AI技術の将来展望

Anthropicが何に取り組んでいるかについて具体的に尋ねているわけではありませんし、それは秘密かもしれませんが、今起こっている技術の発展の一般的な方向性について、開発者だけでなく、非開発者にとっても今後6〜12ヶ月で非常に興奮するものになると思うことについて、あなたの考えを聞かせてください。

それは目標指向だと思います。Claudeがより賢くなるほど、より多くの困難な質問を自分自身に尋ね、人間により少なく依存できるようになると思います。開発者から休暇を計画している家庭の人々まで、基本的にすべての単一の使用ケースが、キーボードの前の人が自分の意図について尋ね、そこに行く方法についてあまり苦労して考えず、モデルがそこに行くのを手助けできることから恩恵を受けると思います。それは非常に、非常に興奮することです。

Michael氏が使用するAIツール

Claude以外で、仕事や個人的なタスクで定期的に使用しているAIツールはありますか。

それは良い質問です。私はClaudeを多くのものと組み合わせて使用します。SlackでClaudeを使用し、Slack AI機能もかなり使用します。コンテンツ生成機能をどこで見つけても使用します。先ほどNotionについて言及したのは、彼らの製品にかなり良いコンテンツ生成ツールを構築しているからです。

しかし、AI体験がより組み込まれているほど、そこにあるからという理由で使用する可能性が高いことがわかります。Zoomのインタラクションを覚えています。実際にそれは魔法のようでした。初めて会議中にブラックアウトして、蜂の巣に人が多すぎて、一瞬糸を失ったというセクションを見逃したことがありました。

これは誰にでも起こったことですが、少し意識を失い、これをして、Zoomに「あの人は今何と言ったの？」と尋ねました。それは答え、正しく答えました。私が冷静さを取り戻し、会話を続けるのに十分な時間でした。私が今ブラックアウトしたことを誰も知る必要がないという瞬間でした。それは文字通り私の命を救いました。

多くの方法で使用していますが、多くの場合、開発者が私が抱えていた問題を知っていて、それを解決するために私に提示される状況です。

AGIの到来時期について

AGIについて、「私たちは確実にAGIの境界を越えるでしょう」という年はありますか。

その質問に投機的に答えるには、私はあまりにもこの質問に近すぎると感じます。もし私が他の何かだったら、答えを提供するでしょうが、Anthropicをその質問への答えに縛りたくありません。

もちろん、私たちはAnthropicを代表しているので理解できます。

しかし、それはより強力になっており、非常に強力になるでしょう。任意にそうなります。それは非常に、非常にすぐです。私たちは本番環境でそれを見ており、今では人々が日常生活でそれを使用しており、非常に興奮することです。

彼があなたを9〜12ヶ月後にショーに戻ってもらえば、どのAI能力を予測しますか。

9〜12ヶ月は今からとても長いです。

とても長いです。

6ヶ月と言いましょう。

確実に私たちは非常に複雑なタスクを調整するエージェントのチームになる世界を非常に迅速に見ています。コードを書くだけでなく、解決する必要がある問題を思いつくことも。指数関数的なものが非常に迅速に動いているので、投機することが困難だと笑った理由です。過去6ヶ月は、その前の6ヶ月よりも異なって見えるからです。私にとって、それが続くことを期待しています。

狂気です。過去6ヶ月は狂気でした。過去6ヶ月を見ると、3.5から4.0、O1、ある程度まで、モデルがどのように変化したかが狂気です。

そうです、そしてあなたが見ていないことがたくさんあります。モデルが古い相互作用から自分自身の記憶を保存し、それが後で興味深いことになると思うという自分自身の評価に基づいてファイルにそれらを書き、後で思い出して取り上げることができることです。知能に寄与する舞台裏でたくさんのことが起こっています。

今後の課題と方向性

100%です。終わる前に、最近あなたの頭の中にあることで、私たちがまだ尋ねていないことがありますか。

私たちは多くのことを話しましたが、頭の中にあるのは開発者をより良く助ける方法です。人々がAIを見て「すごい、それはクールだ。私はそれができるかな」と思った曲線があると思います。そして彼らはできませんでした。その後、彼らがすでに考えていたことができる点まで成熟しましたが、非常に迅速に彼らがアイデアを持っていた場所を過ぎて成熟しました。

今では、人々がまだ命令的プログラミングを行い、ステップバイステップで何をするかを指示し、それが1年前にできなかったことの観点で考えている重要なオーバーハングがあります。それは6ヶ月前にできるようになり、今日何ができるかを本当に考える場所にいません。

私が毎日考えているのは、APIの表現方法だけでなく、ドキュメンテーションの表現方法、コミュニティでの人々の支援方法、イベントでの登場方法、人々への使用方法の教え方で、技術が進歩する速度で人々が動けるよう手助けする方法です。それは私にとって常に頭の中にあることです。

はい、Hassan氏と私はCode イベントにいました。ステージの誰かがあなただったかもしれませんが、覚えていなければ申し訳ありません。今動作していない使用ケースがあっても、少し高価かもしれない、少しぎこちないかもしれませんが、数ヶ月待てばおそらく動作させることができるでしょう。だからその機能をまだあきらめないでください。

そして、はい、私は事態が進歩していることに同意します。開発者にとって追いつくことが重要です。私たち自身のチームでも、私たちが最先端のすべてにいると思っているにもかかわらず、明らかに私たちの会社の上でメディア組織を運営していますが、それでも私たちは事態があまりにも速く動いているため、しばしば物事を見逃してしまいます。

Michael、これは私たちが行った最も魅力的な会話の一つでした。私たち自身も構築者で、聴衆からだけでなく、利己的に私たち自身が尋ねたい質問がたくさんありました。あなたの時間を非常に寛大に提供してくださり、ありがとうございました。うまくいけば、またここにお戻しいただけるでしょう。

もちろんです。お二人とも本当に楽しかったです。ありがとうございました。

Michaelさん、本当にありがとうございました。ありがとうございました。