Claude 4システムプロンプト、Jony IveのOpenAI参画、Microsoftの「エージェントファクトリー」

AIニュース
この記事は約33分で読めます。

この動画は、AIの専門家たちによるポッドキャスト番組「Mixture of Experts」である。主な話題として、Claude 4のシステムプロンプトの分析、音楽プロデューサーのリック・ルービンとAnthropicとの協業による「バイブコーディング」の概念、Jony IveとOpenAIによる60億ドル規模のハードウェア開発プロジェクト、そしてMicrosoftのAIエージェント戦略について議論している。IBMの技術専門家らが、プロンプトエンジニアリングの現状、創造性と技術的精度のバランス、AI業界における企業間競争の動向を詳細に分析した内容となっている。

プロンプティングのスキルについて1から10のスケールで評価すると、1が完全に素人で10が世界クラスとした場合、あなたはどの程度でしょうか。

Kate Souleは、GraniteのTechnical Product Managementディレクターです。Kate、番組にお帰りなさい。プロンプティングはいかがですか。どの程度得意ですか。

プロンプティングで知られるようになりたいとは思っていませんが、かなり得意だと思うので、8くらいでしょうか。

なるほど、いいですね。Chrisさん。Distinguished Engineer、CTO、Customer Transformationの方ですね。Chris、番組へようこそ。大規模言語モデルとしてのあなたのプロンプティングスコアは。

その質問には答えられません。

わかりました。最後はAaron Baughman、IBM Fellow兼Master Inventorです。Aaron、あなたのプロンプティングスキルを教えてください。

プロンプトエンジニアリングは本当に存在するのでしょうか。ええ、よくわかりません。いつもLLMにプロンプトを作ってもらっています。

なるほど。皆さん質問と格闘していますね。これらすべてと更なる内容を、今日のMixture of Experts、Thinkポッドキャストでお届けします。私はTim Hwangです。Mixture of Expertsへようこそ。毎週、MoEはポッドキャスト界で見つけることのできる最も鋭い研究者、エンジニア、プロダクトリーダーのチームを集めて、人工知能における最大のニュースについて議論し、討論しています。

いつものように、話すべきことがたくさんあります。Rick RubinとAnthropicのコラボレーション、Jony IveとOpenAI、Microsoftの新しいエージェントファクトリー理論について話します。しかし、まずClaude 4システムプロンプトについて話すことから始めたいと思います。

Claude 4のリリースについてクイックレビューした緊急エピソードを聞いていただいた方もいるかもしれません。そして、いつものように、すぐ後にシステムプロンプトがリークしました。これはもう標準的な慣行のようなものだと思います。とても興味深いものでした。Simon Willisonが、システムプロンプトに注釈を付けた非常に興味深いブログ投稿をしました。私がこのグループを集めたかった理由は、しばらくプロンプティングについて話していないからでもありますが、現時点でのプロンプティングの最先端の状況を示す興味深い文書でもあるからです。

Chris、あなたから始めましょう。このプロンプトを読んで、何か際立ったものや、プロンプティングの実践の現状がどこにあるかを示すものがあったかどうか、興味があります。

Claudeのシステムプロンプトはいつも非常に興味深いと思います。なぜなら、第一に、それらについて非常に透明性が高いからです。つまり、彼らはそれを公開しているのです。公開していない部分もありますが、そのことについてもかなり透明性があります。しかし、長いのです。つまり、これは短いシステムプロンプトではありません。システムプロンプティングがどれほど上手かという質問を考えると、これは何ページにもわたって続きます。Anthropicは、システムプロンプトの適切な方法について、実際に教育を提供しているのです。

とても良いと思います。非常に興味深いと思う点がいくつかあります。最初のものは、おそらく答え方に関するガイダンスのような単純なことです。短いことなら、そこで答えてください。この場合はアーティファクトを使わないでください、といったことです。

視点に関するガイダンスがたくさんあり、パーソナリティへの対処方法についても、センシティブなトピックの場合はこう、といった具合です。しかし、私を最も笑わせるのは、常にClaudeに第三者として話しかけていることです。「Claude、あなたはこれをすべきです、Claude、あなたはそれをすべきです、Claude、あなたはこれをすべきです」という風に。AIがすでに実存的危機を抱えているなら、第三者形式で考えることになります。

しかし、誰もがそのシステムをチェックアウトする価値があると思います。そこから多くを学ぶことができるからです。昨年、Claude 3が出たばかりの時、たしか3.5モデルと呼ばれていた時点で、私が作った動画の一つは、Claude 3.5のシステムプロンプトを取ってLlamaモデルの上に置いたものでした。正直に言うと、それらのシステムプロンプトはClaudeモデル用に設計されていたにも関わらず、実際にLlamaモデルも改善しました。ですから、正直に言って、これは誰もが本当に読むべきもので、彼らの助けになると思います。

確かにそうですね。そこには多くのことがあります。Kate、あなたに振ってもいいでしょうか。Chrisの最初のポイントを受けて、私がプロンプトで最も興味深いと思ったことの一つは、どの程度指定する必要があるか対モデルの知識に任せるかを理解しようとしている度合いでした。

興味深い引用があります。「Claudeは人のメッセージの危険信号を認識し、有害になる可能性のある方法で応答することを避けるべきです」というものです。Simonの注釈の一部は、それは危険信号が何であるかの概念を持っているだけだ、というものです。あなたがそれをどう考えるか興味があります。Chrisがこれらのプロンプトは非常に長いと言っていることは知っていますが、それはモデルの知識にますます依存し、プロンプトをほぼ短く保つことができる世界を予兆しているようにも思えます。どう思いますか。

私を最も驚かせたのは、Claudeの体験をより細かなステップに分解するのではなく、単一のプロンプトに任せている部分がどれほど多いかということでした。あなたが危険信号について言及し、「Claude、危険信号に応答しないでください。危険信号が何であれ」と言っているのです。Anthropicが構築できたであろう異なる体験を簡単に想像できます。そこでは、まず危険信号やその他のリスクや害、偏見をスクリーニングすることだけが仕事のモデルによる文字通りのスクリーニングのステップがあります。彼らは舞台裏でこれをやっている可能性もありますが、世界の多くが動き始めている方向を見ると、Claude 4でAnthropicがもう少し進むと期待していた方向は、これをより多くのステップに分割し、より多くの推論を実行し、維持しなければならない非常に長いエッセイに任せることを減らすことです。

基本的に祈りによるセキュリティのようなことです。「有害なコンテンツに応答しないでください、メッセージに応答しないでください」というお願いではなく、ソフトウェアとより多くのプログラマティックな機能を通じて明確にできる、より検証可能なチェックアンドバランスを持つことです。

確かにそうですね。Aaron、Chrisの最初の質問への回答の反対側を取ると、あなたは最初の質問で、実際にはあまりプロンプティングをしていないと言って始めました。Chrisは、私たちがここで何が起こっているかを読み、理解することは良いことだという見解を取っていますが、これは少し積極的すぎるかもしれませんが、モデルにプロンプトを生成してもらう人として、これらのプロンプトを研究する価値があるでしょうか

つまり、ここには二つの考え方があります。これらのプロンプトを公開すべきかどうか、公開されなければ、どうせリークされる可能性があります。考え方の一つは、プロンプトを公開すべきだというものです。なぜなら、AIは信じられないほどスマートでありながら、LLMの使い方のマニュアルを理解しない限り、完全に課題や指示を誤解する可能性があるという証拠だからです。

しかし一方で、プロンプトを公開したくない理由もあります。AIは熱心で予測不可能な新しいインターンのようなものですが、なぜかすでに会社を運営しているからです。だから、あまりにも多くを公開することには非常に注意しなければなりません。

そして、この部分のリークについてですが、私が見た限りでは、Anthropicはシステムプロンプトの一部を公開したようです。しかし、本当にリークされたのはツール部分で、これは非常に危険である可能性があります。

人々がLLMの使い方を理解するためにこれらのマニュアルを読む必要があるかという概念について、エキスパートレベルから、あなたが1から10で聞いたとき、8から10のような場合は、それを研究するのは良いことだと思います。下の方の1から3の場合は、おそらくそうではないでしょうが、これらのプロンプトが公開されるかどうかは、すべきかすべきでないかは、空中に浮いていると思います。これらのプロンプトを公開することには多くの固有のリスクがありますが、利益もあります。

しかし、悪いことではないと思います。AaronとKateのポイントに戻ると、これはモデルのハンドブックであり、ガイドのようなものです。モデルは時間をかけて多くのことを学び、異なる状況に置かれるでしょう。しかし、人間である私たちのように、私たちは異なる状況にいます。パーティーでの私の行動は、このポッドキャストでの行動とは異なるでしょう。

このポッドキャストに来る前に、素晴らしいプロデューサーが「Tim、ベッドを整えて、Chris、まっすぐ座って、カメラを下に置いて」などと言いました。これが、このシナリオでどう振る舞うべきかのガイドです。他のシナリオでは異なります。

ですから、彼らが「あなたは今、企業設定にいるわけではありません。Claudeモデルは企業的なことをやることになります。研究などをやるかもしれません。あなたは今、一般的なチャットボットとして行動しています。一般的な質問に答えています。それは平均的な人間が人生についてなどの話を延々と聞きたがらないということを意味します。数段落で、幻覚を起こすことなく、Webツールを使って答えを持って戻ってくることを望んでいます」と言うのは問題ないと思います。

そのケースでどう振る舞うべきかのハンドブックとして、システムプロンプトにそれを含めることは問題ないと思います。なぜなら、私たちも同じように物事に対処するからです。異なるシナリオでは、どう振る舞うべきかの異なるガイドがあります。

ここで最も興味深いことの一つは、KateとI が少し前に話していたことに戻りますが、もともとこれらのプロンプトのアイデアは、モデルに何をしてほしいかを詳細に指定することだったと思います。友人との冗談を覚えています。「私たちはプログラミングを再構築しているだけなのか。コンピューターに何をしてほしいかを本当に具体的に言わなければならない」という感じでした。

しかし、ここに書き留めた別の引用があります。プロンプトの要素の一つは「思考モードがインターリーブまたは自動の場合、関数結果の後に思考ブロックを出力することを強く検討すべきです」というものです。これは、モデルが思考モードを持っているという面白いことです。しかし、「これらの特定の条件下で、それを使用しなさい」と言うのではなく、「強く検討すべきです」と言っているのです。

これらのプロンプトが実際にモデルが何をしているかをコントロールしているのか、それとも単に曖昧なルールを与えているだけなのかという度合いについて、興味深いものです。

Kate、そこに応答してもらえますか。

コントロールのように見えるかもしれないものについて、もう一つのことは、私たちが実際にどれだけテストしたかです。システムプロンプトを公開しなければ、学術コミュニティが研究を行い、これの一部を検証することは本当に困難です。しかし、システムプロンプトのすべての行が実際に意図した効果を持っているかを本当に徹底的にテストしたでしょうか。その行があるかないかで、パフォーマンスの劣化と、モデルが思考を生成する頻度はどれほどでしょうか。

一つの奇妙なエッジケースに基づいてプロンプトを書く人をよく見かけます。そこで行を追加すると、その一つの奇妙なエッジケースは消えます。しかし、影響を与え、研究しようとしているすべてにわたって、全体としてのモデルの動作に本当に影響を与えるでしょうか。

システムプロンプトには、モデルがすでにこれらの動作の多くについて訓練されているときの希望的観測の程度もあると思います。いつ思考を行うかなど、あらゆる種類のことについてです。

私たちは微調整し、操舵しようとしていますが、「モデルにX、Y、Zを伝えたなら、X、Y、Zが起こる」ような錯覚も与えています。この素晴らしい小さなプレイブックを与えたから、実際にそれが従われるという虚偽の安心感を私たちに与えていると思います。

これらのシステムプロンプトの多くは、おそらく長すぎると思います。このシステムプロンプトがこのタイプの動作に影響を与え、それが指定する程度に認定されているかという基準がほぼあるべきです。

バランスがあると思います。ツール呼び出し、関数呼び出しに戻ると、使用ケースによっては、それらのタイプのプロンプトをリークすることに巨大な固有のリスクがあると思います。極端な例として、ロボット手術を行っている場合、誰かがツール呼び出しを持ち、ツール呼び出しをハックして、異なるタイプの改善をバイパスできる可能性があります。ジェイルブレイキングの改善、コンテンツモデレーションのバイパス、異なるタイプの検索の強制などで、患者に破滅的な影響を与える可能性があります。

それらのタイプのシステムプロンプトは、難読化される可能性があります。使用されないように断片内で暗号化される可能性があります。一部の動作は有効にされるべきではないと思うからです。税務申告をしている場合や電子メールを送信している場合、あなたではなく、LLMやgenAIがそれを行っている場合、「申し訳ありません、Kate、ある特定のツール呼び出しや関数呼び出しをハックしたので、あなたの代わりに電子メールを送信しました」というようなことは確実に望みません。

それらのより極端な悪用については、慎重に考える必要があると思います。Anthropicは、元のマニュアル内でそれらのシステムプロンプト要素の一部を公開しないことで、それを考慮に入れていたと思います。しかし、それらはとにかくリークされました。常にそのリスクとバランスがあり、私たち全員が考える必要があります。

確かにそうです。ここでの難読化の層は非常に興味深くなると思います。結局のところ、それは単なるトークンだからです。人間がそれを読んで「これはシステムを導く規則だ」と言うようなプロンプトを構築することを想像できますが、実際には、モデルに書かれていない他の種類の動作を課すことができます。これがすでに起こっていなければ、本当に興味深い次の発展になると思います。これらの企業はすべて、モデルが出てから数時間でシステムプロンプトがリークされることを知っているからです。

次のセグメントに移ります。伝説的な音楽プロデューサーRick RubinとAnthropicの間で興味深いコラボレーションが発表されました。thewayofcode.comでこの種の文書を発表し、道徳経の書き直しのようですが、バイブコーディングについてのものです。

これは、ある意味で非常に面白いコラボレーションであり、Rick Rubinが60 Minutesで行った有名なインタビューについて少し考えさせられました。そこで彼は「私には技術的能力がなく、音楽について何も知らない」と言いました。彼は伝説的な音楽プロデューサーでありながら、このことで多くの批判を受けました。

しかし、私はこれを愛しています。なぜなら、バイブコーディングがどこまで行くかについて質問を投げかけるからです。将来、音楽の場合と同じように、コードのRick Rubinのようなプロデューサーが本当にいるかどうか、Rick Rubinのスキルが何なのか本当に不明確な場合です。彼はただナンバーワンヒットを生み出すのが本当に上手に見えます。

Aaron、最初に振ってもいいでしょうか。バイブコーディングの未来において、技術的能力がゼロの人々が、コード生成のある現在の方向性を考えると、コンピューターで信じられないことができるようになると感じますか。

エンジニアや科学者として、心は開発しコーディングし構築するにつれて、これらの異なるパターンに入り、経路を構築すると信じています。フロー状態のように考えることができます。誰かがその最中にあなたのオフィスに歩いてくると、フロー状態が崩壊し、最初からやり直してそれらの構築物を再構築しなければなりません。それが私にとってバイブコーディングのようなものです。

しかし、Rickがこれにアプローチしている方法は、芸術形式やこの文化現象のようなものだと思います。彼のway of codeサイトを訪問し、見てみました。グラフィックスなどを実際にパーソナライズできるように見えました。彼がすでにバイブコーディング要素でシードしていたものです。

要するに、スケールで必要な本番アプリケーションを構築している場合、バイブコーディングと良いエンジニアリングのペアリングが非常に重要だと思います。しかし、それほど正確である必要のない体験を構築するためのプロトタイプを行っているだけなら、この種のバイブコーディングスタイルが進むべき道かもしれません。

これに対する反応はありますか。いつもこの種の押し引きがありますね。Aaronの回答には多くのことが含まれており、「これは良いが、ある時点で本当にエンジニアリングが必要かもしれない」というところです。thewayofcodeを読んでどう思ったか興味があります。

多くの点で、コーディングは芸術形式として合理的に見ることができると思います。創造の行為において創造しているのです。その観点から、同じ背景を持たない未来の開発者をどのように解放し、いくつかの棘のある困難な問題を解決する新しい方法を見つけるために異なる経験をもたらすかについて、興味深いものがあると思います。

それが私が見たRickが来ている精神だと思います。しかし、クリティカルインフラストラクチャと世界が何で動いているかについて話すなら、芸術と世界のすべての金融取引を実行するメインフレームシステムには大きな違いがあります。信頼性と信用など、すべてに異なる程度があります。

結局のところ、バランスの取れたアプローチを確実にすることが重要だと思います。世界がバイブコーディングのみになるのではなく、これをツールとしてどのように使用して、従来的にコーディング方法を知らない、より伝統的でない背景から来る人々とより関わるかということです。しかし、実際に新しく、異例で強力なアイデアをもたらすことができ、何らかの重要な能力で実装される場合、より知識のある伝統的な手段で実装される可能性があります。

基本的に、以前の時代では、コンピューターコードに芸術的な方法でアプローチすることはできませんでしたが、その境界が少し拡張された世界に住んでいるということが素晴らしいと思います。そのため、音楽プロデューサーのようにアプローチしたり、単にバイブで取り組んだりできます。

Chris、ここでミュートを解除したのを見ました。

実際に大好きです。プログラミングは芸術形式だと思うからです。科学であってほしいと思っていることは知っていますが、芸術だと思います。だから、探求し、物事を理解できるというアイデアが大好きです。常にエンジニアリングアプローチを取る必要はないと思います。

建築について考えてみると、コンピューター建築ではなく、鉛筆とひげとフリップフロップを持った人々を意味します。誰かが来て「新しい家を設計したい」と言い、絵を描き始めて「これがあなたの新しい家です」と言ったら、「それをビルダーに渡すべきでしょうか」と言うでしょう。「確かに」と言うでしょう。「それがどう機能するかわからない」と思うでしょう。

しかし、それは問題ありません。しかし、それを構築する技術的な図式建築家を得れば、プロセスに従うでしょう。この梁はこれに接続する必要があります。建築用語について何も知りません。梁が私が知っている唯一のものだと思います。それは家が持っているようなものです。屋根とかもあります。しかし、創造性はどこにあるのでしょうか。それではグッゲンハイムのようなものは作れません。

音楽プロダクションと同じようなものだと思います。Rick Rubinの場合、バイブコーディングは物事を個々の要素に分解してから再構成することを可能にすると思います。それをエンジニアリング状態に持っていくのは問題ないと思いますが、その創造性の全プロセスは良いことだと思います。

アイデアを非常に迅速にテストし、探求でき、その後エンジニアリングが必要な部分をエンジニアリングし、それについて少しプロセス指向になることができるため、バイブコーディングの大ファンです。しかし、なぜ創造性を殺すのでしょうか。私はバイブコーダーです。コラボレーションを愛しています。

Kate、これは組織や企業内でバイブコーディングがどのように進化するかについて少し考えさせます。私が働いたすべての会社で、デザイナーとエンジニアの間には常に少し階級制度がありました。デザイナーは「構築すべきモックアップがあります」と言い、エンジニアは「それを構築しなければなりません」と言い、「クレイジーなデザインを持つこれらの人々すべて」のように思います。

バイブコーディングが可能にすることは、デザイナーが突然動作するプロトタイプを構築できるということのように感じます。これは、企業内の人々のグループが、これらの企業を支配してきた自然な状態を深く破壊する可能性のある方法で生産手段を掌握することを可能にする度合いがあるということです。それを見るのは本当に興味深いことになると思います。

どちらの方向にも行く可能性があると思います。デザイナーや水を試そうとしている人は常に「これを構築してください。簡単なはずです。そこにボタンを置けば大丈夫です」と言うからです。そのボタンは他のすべてのことも行う必要があり、X、Y、Zに準拠している必要もあります。そこで彼らはそれを試し、バイブコーディングして世界に投げ出すだけなら、実際の本番環境にヒットしたときに間違いなく失敗し、実際には非常に複雑で、開発者が舞台裏で行っている重要な作業がたくさんあることを学ぶでしょう。

コミュニケーションツールとして、ビジョンをよりよく明確にし、探している目標をよりよく説明し、概念実証をより迅速に反復し、より迅速に実験するのに役立つという観点から、確実に破壊的になると思います。

あなたが話しているときに思いつくのは、迷惑は両方向に働くということです。突然エンジニアが「作成してほしいウェブサイトの写真を生成しました」と言えるようになるからです。みんながAaronのように、みんなの仕事に口出しするようになるようです。

この全体的なバイブコーディングの概念は、発明と非常に似ていると思います。多くの人を集め、異なる視点が必要だからです。新規性を作り出す芸術性が必要ですが、実装可能で何らかの具現化で使用できることを確実にするエンジニアリングも必要です。

バイブコーディングは、クリエイティブを集めるという点で非常に似ていると思います。科学者とクリエイティブが一つになるぼかしになります。これらの代替仮説を持つために、バイブサイエンスやバイブエンジニアリングのようなことをするためにバイブするからです。異なる分岐を非常に迅速に探求しているようなものです。

具現化に入る必要があるときは、構築し、実装します。ここでのホワイトスペースの一部は、バイブコーディングを実際の構築実装に接続する方法だと思います。実用的で使用可能で、高いスケールと負荷を処理できるものの展開です。私たちが毎日直面する本当に困難な課題の一部です。その分野が少し出現し始めていることに非常に興奮しています。

三番目のセグメントでは、ある意味で別のデザインとAIの話をします。過去1、2週間のAIにおける最大のビジネスストーリーは、Jony Iveの秘密のスタートアップLovefromの60億ドル以上の巨大な買収でした。Jony IveはiPhoneの主要設計者で、Appleの歴史の全時代にわたるAppleの設計思想のようなものでした。

発表は、Jony Ive自身がOpenAIとハードウェアでコラボレーションし、彼が所有するデザインコレクティブを通じて行うということです。これは巨大な取引で、数十億ドルです。Chris、あなたに振ってもいいでしょうか。それだけの価値があるでしょうか。ここには製品さえなく、彼らは60億ドルを投入しています。OpenAIがなぜこれを行うのか、最終的に本当に報われるのかについて、どう考えますか。

60億ドルで、彼がコラボレーション以上のことをしてくれることを願います。コラボレーションに対する巨大な請求書のようです。私は皆さんと今コラボレーションしていますが、60億ドルは払っていません。

60億ドルを払ってJony Iveが「会社を譲渡しますが、ここから出て行きます。私からは何も聞きません」と言ったら、もっと心配するでしょう。「この時点で何を買っているのか」と思うでしょう。

全体的なことを考えると、Jony Iveは信じられません。本当に彼の才能、ブランドなどを買っていると思います。それは本当にコラボレーションを超えて、AIの未来がどのようになるかを形成するアイデアを作ることになると思います。

私たちが実際にいる場所を考えると、マルチモーダルの世界にいます。AIが安くなり、デバイス上で実行できるようになっています。だから、AIを適切な場所に置くために発見される必要のある新しいフォームファクターがあります。その世界でどのように対話したいでしょうか。エージェントの世界はどのように振る舞うでしょうか。Webの未来はどのようになるでしょうか。モバイルデバイスの未来は。解決し発見すべきことがたくさんあると思います。

今日の対話方法が変わることを意味するのか、変わると思います。AI企業とデザイン企業を一緒にして、その未来がどのようになるかを理解し実験することができることは、本当にスマートな動きだと思います。以前にそれらの変換を経験したJony Iveのような人を持つことは、非常に賢明なことだと思います。

これは興味深いコラボレーションで、AIのための次の波の体験デザインがどのようになるかを楽しみにしています。

Kate、実際、彼らにもう少し信用を与えるために、これは単なるバイブ買収以上のものです。彼らが取り組んでいることについて、いくつかの詳細がリークまたは噂されています。私たちが知る限り、スクリーンのないAI デバイスの一種です。それが彼らのピッチです。とても興味深いですね。私たちは本当にスクリーンの上に全体的なデジタルパラダイムを構築しており、AIのおかげで将来完全にスクリーンなしになるというアイデアは非常に驚くべきことです。

非常に驚くべきことだと思いますが、AIコンパニオンタイプのもののような雰囲気も与えると思います。誰も基本的に、死ななければならない小さなスクリーンコンパニオンを持つたまごっちを作ったと非難されたくありません。

おそらく、ライフアシスタントルートに傾くでしょう。目が必要でない、または目が必要でないなら、あなたとコミュニケーションするためのスクリーンは必要ありません。私たちは今、より良いツールを持っています。彼らが何を思いつくかを見るのは興味深いでしょう。

彼らが取り組んでいるデバイスに接続する何らかの電話アプリ体験もあることに苦労しています。それから完全に解放されるのは困難です。

Aaron、どう評価しますか。これの最も明白な前例は、1年前に話していたhumane pinだと思います。これは、身に着ける常時オンのスクリーンレスデバイスで、あなたの人生のAIアシスタントのようなものです。一つの見方は、誰もそれを望んでいないので、それがうまくいかなかった理由だということです。別の見方は、技術がそこになく、ついにそこにあるかもしれないということです。1年後では十分な時間かわかりませんが、明らかにAIでは非常に迅速に変化しています。

55人の従業員に対する最大の取引の一つであることに少し困惑しています。私の計算が正しければ、従業員一人当たり約1億1800万ドルを支払っていることになります。それはかなり良いですね。この人材への高いリスクの賭けです。なぜなら、この会社がユーザーベースやデバイスを作成したとは思わないからです。基本的に、これらの55人の従業員のデザイン人材への高いリスクの賭けです。

しかし、うまくいけば、これらのAIコンパニオンを作ることで、Sam Altmanが1億個のAIコンパニオンをリリースしたいと言っているのを見ました。もし彼らがそれをやり遂げることができれば、65億ドルの投資を取り戻すために非常に安価に販売できます

しかし、非常に迅速に何か具体的なものを見たいと思います。彼らはそれをやり遂げることができると思います。彼らの使命は正しい場所にあると思います。Apple、Apple Intelligence、それを迅速に進める必要がありますと言いたいと思います。OpenAIがIveとここで働くなら、これらのAIコンパニオンは、おそらくスクリーンなしで、または既にあるスクリーンに拡張して、人の人生で何が起こっているかを理解するのに本当に良い賭けになる可能性があります。

これらの異なるフォームファクターと、最先端のAI体験を組み合わせることは、分野が出現するのを見るのに本当に興味深いものになると思います。

Aaronの一つのことですが、Appleは確実に追いつく必要があると思います。しかし、過去にアシスタンスが失敗した理由について話すと、OpenAIが苦労するのは、データに対するプライバシーと信頼の概念だと思います。AIバーチャルアシスタントコンパニオンがうまくいかなかった別の理由として、エッジタイプ学習で行われたことがたくさんありました。しかし、私の人生が今記録されて、何らかの機械とAI知能に送信されているという不透明な要因がまだあります。OpenAIがそれを解決するのに最も適しているとは思いません

新しいデザインチームが信頼のための新しい方法を設計し、考え抜くのに役立つかどうかを見るのは興味深いでしょう。それは、彼らがApple intelligenceの作業で何をしているかを理解できれば、Appleがより良い出発点として持っているものだと思います。

確かにそうです。OpenAIがこれを正しく行うために暗示されるパラダイムシフトは、本当に困難だと思います。デバイス以上のもので、消費者の信頼とそれを技術的観点からどう確保するかであり、このようなことについて全く別の考え方です。

時々、私たちは信頼について考えすぎると思います。信頼が欲しいことは知っていますが、それはトレードオフではないでしょうか。「得られる機能はこれです。私の人生はどれだけ良くなるでしょうか」ということです。毎日何億人もの人がChatGPTを使用していることを考えてください。そして、誰もがデータを渡していることを知っていますが、それからユーティリティを得ています。だから、誰もがその支払いをする準備ができているか、そうでないかです。

一部のことについてはその支払いをしないと言い、「それを信頼しない」と言うでしょう。この場合のAppleアプローチが重要になると言って、その方向に傾くかもしれません。しかし、誰もがそのユーティリティを取り、データの束を渡していることを理解していると思います。

個人的に、iPhoneを手放すことは非常に不可能だと思います。iPhone、iPadが大好きです。すべてが接続されており、すべての映画があります。これはスクリーンがありません。何で映画を再生するのでしょうか。

エコシステムは実際には島の中に存在しないという全体的なポイントがあると思います。Appleが非常によく行うことは、すべてがよく接続するプラットフォームとデバイスの非常に良いエコシステムを持っていることです。したがって、彼らがその分野に移行し、うまくやると思うのは、エコシステムを一緒に持参しなければならないからです。

そのピンのことに戻ると、それは何にも接続していなかったので、島に座っていました。OpenAIが考えなければならない本当の問題は、どのエコシステムにプラグインするのかということだと思います。そして、この場合の選択肢は、AppleとGoogleの二つだけです。そのエコシステムにプラグインできなければ、問題が生じるでしょう。

Chrisがエージェントという言葉を言ったので、すでに先を越されましたが、エージェントについての話をしないのは怠慢でしょう。今日の最後のセグメントで締めくくります。

MetaのエンジニアリングリードだったJay Parikhとの非常に興味深いVergeのインタビューが現れました。彼は現在、Microsoftで彼らのエージェント関連のすべてに取り組んでいます。私たちはしばらくJayから聞いていませんでした。彼が最初にMicrosoftに参加したときに番組で彼について話したと思います。

彼が取り組んでいることをチェックし、この分野でのMicrosoftの戦略について少し話すのが有用だと思いました。インタビューの最も興味深い部分で、彼はこの引用をしました。「私は、あらゆる企業やあらゆる組織が自分自身のエージェントファクトリーに変えるものとして、私たちのプラットフォーム、つまりMicrosoftプラットフォームを望んでいます」。

つまり、構築しているものは何でも、Microsoftツールを使用してエージェントに変えることができるようになるということです。先週のエピソードでも出てきましたが、エージェントはすべてを意味するというのは少し冗談です。これらの企業が行っていることの一つの考え方は、エージェントが何であるかをめぐって戦っているということです。

Google I/Oでは、誰もが「彼らのエージェントのバージョンは検索のようだ。彼らが検索会社だから驚くことではない」と言っていました。Microsoftは、エージェントがどのように機能すべきかについて新しいビジョンまたは独自のビジョンを明確にしていると思います。それはあらゆる企業がエージェントのための独自の製造施設のようなものになるということです。

Kate、あなたに振ってもいいでしょうか。これは、これらのものが本当にコモディティ化され、本当に民主化される世界を想定しています。それが起こっているのを見ますか。市場がそこに向かっているという現実的な考え方でしょうか。

Salesforceのエージェントフォースのように、Microsoftに同様のことを行うよう圧力をかけている他の業界プレーヤーがたくさんいると思います。誰もが事前に用意されたエージェントのスイートを思いついています。watsonxは、この過去の会議で多くのエージェントを発表しました。

Microsoftが、すべての企業ユーザーと顧客が話すよう訓練されてきた言語をよりよく話そうとしていると思います。それは「エージェントが必要です。今すぐエージェントが必要です。構築できるすべてのものはエージェントとして構築できます」というものです。人々が構築し、構築し始めようとしているこの種のモダリティに向けて、彼らが超ターゲットされていることを確実にしようとしています。

有用な企業タスクのためのパフォーマンスが多くのものが収束し始めると、本当に民主化されていると思います。どのモデルでも、これらの企業の価値の80%を推進することの多くを行うことができます。だから、独自のものを構築し、部品を交換し、カスタマイズする能力は、人々が一つのエンドポイントにロックインされることを回避し続け、最終的に自社の四つの壁の中で革新を続け、データを使用して価値を創造する方法を模索し続ける際に重要になると思います。

Aaron、ここでは、コモディティ化されたエージェントの上限についてのほぼ問題があります。この番組では、エージェントが適切に機能するよう調整することがどれほど複雑かについてよく話します。適切なプロトコルが必要で、タスクが適切な方法で行われる必要があり、ファインチューンと評価が必要です。

私が常に持っている懐疑論は、すべての企業がそれを箱から出してできる人を持っているようには見えないということです。しかし、Kateは、あなたの口に言葉を入れたくはありませんが、箱から出してのエージェントが、ほとんどの企業が遊ぶことができるものになるような共通タスクが十分にあると、ほぼ論じています。その市場はどのように進化すると思いますか。時間をかけて、ほぼ二つの方向に進むような感じがします。

エージェントについて考えるときに、私の心に最初に浮かぶ思考はジェームズ・ボンド007です。彼は究極のエージェントです。二重エージェントに注意し、暴走しないことを確実にする必要があります。

これを見ていると、このエージェントファクトリーには、エージェント識別とガバナンスを使用するサービスがあります。各エージェントに識別を提供できるところです。偽のIDを取得して、別のエージェントをドッペルゲンガーして他のことを行うことはできません。観察可能性管理、ローコード、ノーコードツールがありますが、業界の誰もがAIエージェントのゲームに参加しようとしていると思います。

Microsoftの最大の差別化要因の一つとして、2週間前にたまたま見ました。top500.orgというウェブサイトを時々見ます。世界で最速のスーパーコンピューターを教えてくれます。クラウドがそこにあるかどうか興味がありました。4番目にランクされたのがEagleと呼ばれるものだったと思います。Azureで実行され、構築されています。クラウドベースのスーパーコンピューターで、そんなに迅速に起こるとは思っていませんでした。

Azureで、MicrosoftがAzureで持つコンピューティングパワーは、本当に良い機会を与えることができると思います。データソースがあります。Windowsと統合できます。すでにAzure AIのCopilotピースがあり、Windows Copilotのような消費者市場に拡張できます。

このAIエージェントファクトリーを実現するためのパンとバターの要素を持っていると思います。ただ、これらの二重エージェントを回避できるよう、彼らのビジョンにマップするいくつかの機能をリリースできることを願っています。

確かにそうです。Chris、飛び込もうとしているように見えます。質問で促してもよろしいでしょうか。エージェント市場で誰が勝つかについてよく話してきました。Aaronのコメントについて考えて、エージェント市場は時間をかけて分割されるかもしれないという部分もあります。本当に検索を必要とするタスクがあれば、Googleのエージェントを使用するでしょうが、それらの機能すべてが本当に必要ではない可能性があるので、Azureインフラストラクチャーにより結婚していて、Microsoftを使用するかもしれません。この市場では勝者総取りではないかもしれません。

勝者総取りにはならないと思いますし、それを言って嬉しく思います。市場で本当に起こっている大きなことの一つはコモディティ化だからです。

実際に何が起こっているかを考えると、すべての主要プロバイダーが、リモートツール呼び出しの標準としてmodel context protocol、MCPにフックしています。これは良いことだと思います。コンポジションに基づいて構築したい世界に移行するからです。誰もがツールについて少なくとも標準化していれば、ツールのマーケットプレイスがあり、モデルがそれらのツールと非常によく機能するよう訓練できることも意味します。

したがって、何らかの理由で異なるエージェントに移行したい場合、ツールを一緒に持参できます。ファクトリーのコンテキストでは、これも意味があると思います。ファクトリーの観点から、何かを構築したいと思いますが、実際にはツールの80%がすでに存在し、それらのツールと機能するエージェントの80%がすでに存在するかもしれません。本当に20%を行う必要があります。以前の世界では、それをすべて行わなければならなかったでしょう。

それから、AOAやACPのようなもので、エージェントが互いに話すことができる標準化された方法を持つエージェントプロトコルがあります。Salesforce、Microsoftなどであろうと、すべてがその相互運用性のプロトコルに着地しています。

それは再びマーケットプレイスに移行させると思います。標準化のこの分野を得て、マーケットプレイスの世界に入り始めるとすぐに、勝者総取り市場から離れ、人々が本当に得意なことと彼らの差別化について専門化できることを願っています。

良いニュースとおそらく同時に悪いニュースは、実際に、これはバイブコーディングについて最初に行った議論に戻ってくることだと思います。実際に、タスクを本当によく行うエージェントのエンジニアリングと、物事を本当によく行うツールと、それを行ったモデルがあり、エージェントが互いに話す方法を知っており、誰もがモデルに話す方法を知っているなら、ファクトリーの世界でバイブコーディングが非常に興味深くなります

そうすれば、欲しいものをバイブアップし、本番バージョンを行い、本番ツールを使用するエージェントに渡すことができ、その円を完成させます。バイブコーディングがおもちゃであるという話をしていたことは知っていますが、実際に、Microsoftが議論しているファクトリーモデルについて少し考えてほしいと思います。これらの二つの世界は時間をかけて目がくらむようになります。

AIエージェントスキルのマーケットプレイスがある世界も想像できます。aLoRA、活性化された低ランク適応と呼ばれるものを最近リリースしました。注意に影響を与えることができる重みがあります。キー、クエリ、値を投影し作成するウェイト行列ですが、どのようなスキルが欲しいかにファインチューンできます。そして、それらの重みを保存し、その場で動的にそのスキルをインポートできるので、同じモデルトポロジーが今、異なる動作を持ちます。

スキルの分散化があり、友達と共有するために何らかのスキルのバイブを行い、マーケットプレイスに置くことができます。または、これらの創発的スキルを作成できますが、それがどこに向かっているかもしれません。最後に、モデル蒸留もそれで機能する可能性があります。

最後の言葉をあなたに任せます。最初の会話では、橋を建設するのにバイブコーディングを使うつもりはないということで、最も強かったと思います。Chrisは楽観論の音で終わっているかもしれません。エージェントがそこに到達する橋のようなものだということです。その話を買いますか、それとも、Rick Rubinがどこまで行けるかについて、まだ少し懐疑的ですか。

人間はバイブコーディングステップだけでなく、ループにもっといる必要があると思います。バイブコーディングで何かを作成し、エージェントに投げて反復し、もう少し詳細に構築することには完全に同意します。すべて公正なゲームで、かなりエキサイティングになるでしょう。

しかし、プロセスの人間をループに入れる部分を完全に蹴り出す準備はできていません。そこで彼らは最初に始まり、その後、どんな橋が反対側に飛び出すかを見て、盲目的にそれを渡ることになります。良い橋のようです。私のエージェントすべてが最高だと言っています。

そうです。すべてのエージェントが同意します。さて、今日はこれで時間です。Kate、Chris、Aaron、いつも番組に出ていただき、ありがとうございます。リスナーの皆さんも参加していただき、ありがとうございます。楽しんでいただけたなら、Apple Podcasts、Spotify、そしてあらゆるポッドキャストプラットフォームで聞くことができます。来週のMixture of Expertsでお会いしましょう。IBM、IBM。皆さん、お疲れ様でした。

コメント

タイトルとURLをコピーしました