OpenAIがオープンに、Anthropicの解釈可能性、Apple Intelligenceの最新情報、そしてAmazonのAIエージェント

AGIに仕事を奪われたい
この記事は約30分で読めます。

17,765 文字

OpenAI goes open, Anthropic on interpretability, Apple Intelligence updates and Amazon AI agents
Subscribe for AI updates → OpenAI be fully open source by 2027? In episode 49 of Mixture of Experts, host Tim Hwang is j...

2027年までにOpenAIは完全にオープンソースになるでしょうか?Chris HayはDistinguished EngineerでCustomer Transformationの最高技術責任者です。Chrisはどう思いますか?それが私の答えです。すばらしい。Aaron BaughmanはIBM FellowでMaster Inventorです。Aaron、久しぶりにショーに戻ってきてくれてありがとう。OpenAIが完全にオープンソースになることについてはどうですか?
そうですね、従来のLLMについては「はい」だと思いますが、大規模コンセプトモデルなどに移行すると「いいえ」です。
そして最後になりましたが、初めて参加してくれたAsh Minhasは、Lead AI Advocateです。Ash、あなたの見解は?
私は、OpenAIが今日の地位に到達するために多くの投資家から多額の資金を得ていると思います。そして彼らはそれについていくつか意見を持っているかもしれません。
素晴らしいですね。これら全てと今日のMixture of Expertsでさらに多くのことを取り上げます。私はTim Hwangで、Mixture of Expertsにようこそ。毎週、MoEは才能ある研究者、製品リーダーなどを集めて、人工知能における今週のトップヘッドラインについて議論し、討論します。いつものように、取り上げるべきことはたくさんありますが、今日はその一部しか取り上げる時間がありません。
4つのトピックですね。AnthropicのNew interpretabilityの結果について少し話し、Apple Intelligenceの状態についてDaring Fireballからの大きなブログ投稿、そしてAmazonの新しいNova Agentsに関する新しい発表について取り上げます。しかし最初に取り上げたいのはOpenAIです。
ついにOpenAIがオープンになるということで、Sam Altmanが発表を行い、基本的に「今後数ヶ月のうちに、OpenAIは最初のオープンウェイトモデルをリリースする」と述べました。これは長い間冗談でした。「ハハ、OpenAIは実際にはオープンではないですね」というものです。これは確かにこの方向への最初のステップだと思います。Chrisに最初に振りたいと思います。OpenAIが完全にオープンになるかどうかについて大声で笑ったようですね。これがすべてDeepSeekによるものだと思いますか?
Metaはしばらくの間オープンモデルを提供してきました。そしてOpenAIは絶対に何もしていません。何が変わったのでしょうか?OpenAIの意思決定を変えたものは何だと思いますか?
多くの要素があると思います。DeepSeekは確かにその一つですが、私たちはオープンの方が良い世界に移行しています。その傾向が変化しました。そしてOpenAIがそのスペースにモデルを持つことは商業的にも理にかなっています。私がそこで笑った理由は、彼らが最高のモデルをオープンソースでリリースすることは絶対にないからです。そうなればいいのですが、そうはならないでしょう。
彼らはモデルのオープンウェイトを行うと思います。それは非常に理にかなっていると思いますし、非常に前向きな動きで興奮しています。実際に考えてみると、デバイス上で実行する必要があるAIモデルのクラスがあります。だから彼らには選択肢がないのです。電話やラップトップで実行できるように、一般的な組み込みシナリオに対応するためにいくつかのモデルをオープンにする必要があります。
彼らがやらなければならない動きだと思いますが、非常にポジティブだと思いますし、気に入っています。オープンウェイト以上に実際にオープンソースになればいいのですが、オープンウェイトは良い出発点だと思います。Ashに振りたいと思います。あなたの質問や私の質問への回答の一部は良いと思います。Sam Altmanは一人で運営しているわけではないと強調していましたね。
彼には多くの資金を提供している人々がいます。おそらく彼らはオープンウェイトに行くことに同意していると思います。しかし、Chrisの指摘通り、これ以上オープンにすることは投資家にとって大きな問題となり、基本的にSamにはその選択肢がないのでしょうか?たとえそれが会社の最善の利益になる可能性があっても。
ここには二つのことがあります。モデル自体と、モデルの周りに提供される体験です。OpenAIがしてきた成功の基盤は、モデルの上に本当に優れた体験層を作り出したことです。これにより人々がそれを消費できるようになりました。
それは素晴らしいことだと思います。そのスペースでは多くのイノベーションが起きています。単にモデルとチャットするだけでなく、コードの支援など、いくつかの機能を組み込んでいます。業界全体が、よりよい体験的な方法でモデルを使用する方法を模索していると思います。
それを一旦横に置いて、実際のモデル自体については、他の人が消費して使用できるモデルを彼らが提供することは素晴らしいことだと思います。私が考えている二つのことは:おそらく小さなモデルでなければならないでしょう。なぜなら、GPT-4をローカルで実行するためのNVIDIA GPUのクラスターを持っている人はいないからです。
そうなると、モデルのパフォーマンスはどうなるのか、そしてそのモデルのパフォーマンスは、すでにオープンウェイトまたはオープンソースでダウンロードできる他の小さなモデルとどう比較されるのかということです。
ローカルで4.5を実行できればいいのですが…興味深い質問を提起していますね。OpenAIは現在月200ドルを請求していますが、モデルがオープンソースになるか、より広く利用可能になると、どれだけの価値が残るのかという質問です。インターフェースと体験だけで200ドルの価値があると信じているのでしょうか?
結局は個々のユースケースの会話だと思います。私はそのモデルへのアクセスや体験層に対してお金を払う価値があるのか、それとも何かを自分で取得して実行する方が良いのかという比較です。業界としてまだそれを模索している段階だと思います。
非常に興味深いですね。Aaron、あなたの面白い区分の仕方についてお聞きしたいです。あなたの理論は、OpenAIがオープンになるのは言語モデル側だけで、クールで複雑なマルチモーダルなものは囲い込むというものでしたね。その方向に進むと思いますか?なぜ純粋なLMが完全にオープンになると思うのか、もう少し理論について教えてください。
それは今まさに起きていることですね。これらはオープンウェイト言語モデルでオープンソースですが、アーキテクチャやトレーニングパイプラインが利用可能なわけではありません。ある種のティーザーのようなものです。「これらのオープンウェイトを見てください、微調整を試みることができます」というようなものです。再現性を促進し、トレーニングしてきた大きな特徴の一部を示していますが、モデルを実行するためのエコシステムを提供するわけではありません。
技術の成熟度が向上し加速するにつれて、常にこのような段階的なジャンプがあります。一段階上がると、Metaが今話しているような言語コンセプトモデルに移行するかもしれません。これはトークン空間ではなく意味的な文章空間で動作します。今日のほとんどのLLMやマルチモーダルのようなものです。
常に、なんらかの理由でリリースされない次のモデルがあります。それは独自性を保ちたいからかもしれませんし、まだリリースする準備ができていないだけかもしれません。
また、DeepSeekがリリースされた当初、Sam Altmanはオープンにするのではなく、これらのモデルリリースを引き上げるだけだと言及していました。しかしすぐに彼は「歴史の間違った側にいたくない」と考えを変えました。
だから彼らはオープンウェイト言語モデルを提供することで、ある意味でヘッジしているのだと思います。「これを見てください、私たちは本当にどの方向に進みたいのかを考えています」と言っているようなものです。実際のことを示していると思います。
しばらくの間、オープンモデルがあり、オープンは良くなってきています。だからある意味ではDeepSeekのことは新しいことではありませんが、明らかにDeepSeekについて何かが建物内の意思決定を変えました。「これは私たちがついに自分たちの考えを堅持せず、別の道を試す必要があるかもしれない瞬間だ」ということです。
これが実際に興味深いと思います。これが引き金となるような出来事だったのですね。そうですね。その多くはモデル蒸留に関係していると思います。より大きなモデルを取り、それをさらに小さなモデルに蒸留することができます。
使いやすくなり、小さなモデルを作成して共有するのがはるかに簡単になります。これにより圧力がかかります。DeepSeekは新しいモデルを非常に安く訓練できると主張しており、OpenAIは桁違いに高価です。そのため、オープンウェイト言語モデルを示すことで再現性を促進し、歴史の正しい側にいるという主張をする費用圧力があります。
彼らは自分たちのタイプのモデルでコミュニティコラボレーションとイノベーションを刺激しようとしているのです。Chris、これをどれだけ真剣に受け止めるべきでしょうか?OpenAIは本当にここで競争相手になりますか?
オープンソースで成功するために必要なメンタリティは、独自のSaaSのようなものを行うために必要なメンタリティとは非常に異なると思います。これはOpenAIの企業としての資金源です。彼らはオープンゲームをプレイするのに十分なモチベーションがあると思いますか?
彼らはこのスペースの巨人ですが、彼らがこの点で勝つために必要なものに本当に投資しないかもしれないという不利な点があるかもしれません。
私は彼らが真剣に取り組むと思います。その理由は…ドラムロール、エージェントです!あなたはそれをやりました!ですが、エージェントが重要だと思います。Sam氏が言っていることとOpenAIが過去数週間にリリースしてきたことを実際に聞いてみると、彼らはエージェントSDKに多くの投資をしており、それを本当に推進しています。
現実には、良いエージェント戦略を持ちたいなら、いくつかのエージェントはクラウドで実行され、いくつかのエージェントはSaaSになり、いくつかのエージェントはプライバシーの理由からあなたのマシンで実行する必要があります。だから彼らはそのスペースに参入する必要があります。
二つ目は、エージェント向けに構築する場合、モデルは超高速である必要があります。レイテンシが本当に重要になります。操作の速度が重要になります。だからAaronが言ったように、本当に良いモデル、本当に高速で強力なモデルを蒸留する能力について、彼らがエージェントスペースで真の選手になりたいなら、モデルをオープンにする必要があります。それが推進要因だと思います。
彼らはこのスペースで良いプレイヤーになるでしょうか?エージェントスペースでの適切なプレイを望むなら、そうならなければならないと思います。Ash、「エージェント」という言葉を言うことがMoEのミニゲームのようになっていることを知っておいてください。
実は密かに得点をつけており、年末には、Chrisがエージェントという言葉を少なくとも100回から200回言っているスーパーカットを作りたいと思っています。その場合、私はその言葉を使うのを控えます。勝てないゲームですね。
次のトピックに移りましょう。Anthropicから出た2つの非常に興味深い論文です。背景として、私が昔ディープラーニングを調べ始めた頃、常に言われていたのは、これらのニューラルネットは神秘的だということでした。当時は画像認識やコンピュータビジョンが得意でしたが、どのように決定を下すのかは本当にわかりませんでした。
Googleで働いていた時、私の仕事の多くは政策立案者と話すことでした。彼らの2番目の質問は「待って、これらの技術がどのように機能するのか分からないとはどういう意味ですか?」というものでした。後にAnthropicに行くことになる研究者たちに会いました。彼らはその時「これは一時的な問題に過ぎません。いつか私たちはこれらのモデルがどのように決定を下すのかを解明し、これらの技術についてもっと透明性とコントロールを得ることができるでしょう」と言っていました。
これら2つの論文が出てくるのを見るのは本当に興味深いです。Ash、これはある意味でどれくらいの進歩なのでしょうか?Anthropicはここで言語モデルがどのように決定を下すのかについて本当に深く掘り下げていることを示すさまざまな結果をリリースしました。
モデルを理解できないという長年の恐れが、実はある程度理解できるという事実に変わりつつあるのかどうか、どれだけ楽観的であるかについてお聞きしたいです。
このメカニスティック解釈可能性の分野全体がまだ初期段階だと思います。Anthropicが彼らの研究を業界の残りの部分と共有しているのを見るのはポジティブで励みになります。Googleでもこの種のことに取り組んでいる人がいることを知っています。
まだまだ道のりは長いですが、これらは確かに前向きな一歩だと思います。現時点では、モデルの評価に関する産業全体が作られています。それは「ブラックボックスがこれが起きた時に何を言ったかの記録がある」というのは素晴らしいことですが、それは本当にどこまで役立つのでしょうか?
これらのニューラルネットワークの層の内部に入り、なぜ物事が起こっているのかをより明確に理解できる必要があります。Aaron、あなたへの質問は基本的には、これらのモデルについて、評価とメカニスティック解釈可能性のコントラストが本当に興味深いと思います。
ある意味で、業界の成功とAIへの興奮は、人々が解釈可能性についてどれだけ気にしていないかの証明でもあります。彼らは単に「はい、何でもいいです。私の家族の素晴らしいスタジオジブリの画像を生成してくれればいいのです。どのようにそれが行われるかは気にしません。ただそれができればいいのです」と言っています。
メカニスティック解釈可能性はここでどれくらい市場の資産なのでしょうか?人々は本当により解釈可能なモデルにお金を払いたいと思うでしょうか?それともこれは単に「これらの技術を理解することが重要だから、これらの技術を理解する」という研究として見るべきなのでしょうか?
それは素晴らしい会話のポイントですね。私はいつも「これらのモデルは何か?」と考えます。それらは生体模倣的なもので、脳とその神経接続の働きを模倣しようとしています。もちろん多くの違いがあります。私たちには推論を助ける神経伝達物質のスープがありますが、これらのLLMには1と0とアクティベーション関数があります。
しかし人間として病気になったらどうしますか?特に神経の問題があれば、MRIを受けます。機能的MRIを見て、脳で何が起きているのかを理解するために経頭蓋磁気刺激を受けるかもしれません。これらのニューラルネットワークに何か問題が起きた時も同じことをしています。
AIの内部を見るためにこの顕微鏡が必要なのです。最初の論文で気づいたのは、それは全て表現に関するものだということです。彼らは人間の脳を模倣したニューラルネットワークを、クロスレイヤートランスコーダに翻訳し、置換モデルに移行します。彼らは本当にそれをより単純にして、これらのアクティベーション関数がどのように相互に発火しているかをトレースして理解しようとしています。
もう一つ非常に興味深い用語を見つけました。「多義的ニューロン」と呼ばれるものです。ニューロンは多義的であり、これらのニューロンは関連性のない概念の混合を表現できるということです。量子の重ね合わせに似ており、実際に持っているキュービットよりも多くの概念を表現できます。なぜなら同時に1または0の空間の間に存在できるからです。
これらの関連のない概念がニューラルネットワーク内の思考の連鎖に沿ってどのように一緒に符号化されているかを理解することは、これらのモデルの診断と予後に役立つと思います。それらが出現し、潜在的により複雑になるにつれて。
数年前に叩き込まれたことの一つは、「これらのシステムを人間化すべきではない。それは悪いことだ。それらは人間ではなく、そのように考えるべきではない」ということでした。面白いのは、メカニスティック解釈可能性は、ある意味で対立する議論かもしれないということです。
私たちは彼らが実際には人間の脳ではないことを知っていますが、実際には人間の脳のように考えると、これらのシステムをはるかによく理解できるということが明らかになります。これは非常に奇妙で興味深い結果です。Chris、この研究には本当に奇妙な結果がいくつかあります。
例えば、モデルに爆弾の作り方を教えてもらおうとすると、それが実際には行うべきではないこと、または安全ポリシーに反していることを知っていますが、すぐにそう言わず、会話を元に戻そうとします。言い換えれば、モデルはある意味で計画を立てると主張しています。
この奇妙さについてのあなたの考えをお聞きしたいです。「これらのモデルが非常に人間的な方法で振る舞っている」というのは奇妙なことですね。
それは本当に興味深いと思います。その計画の要素は超クールです。彼らは詩のようなことを試してモデルが「ウサギ」という言葉を目指していることに気づき、前もって計画を立てていることを実現しました。
論文では、通常は新しい行の文の始めで、計画を立てるポイントであり、韻を踏む構造を持つためにどこに行く必要があるかを把握するということでした。そのため計画を立てています。内部思考の連鎖があるのです。
彼らは面白いことをしました。「ウサギという言葉は言えない」と調整すると、「わかりました、その場所に入る別の言葉を見つけます。これも韻が踏めるものです」となり、その場合は「習慣」でした。内部思考の連鎖の独白があるのは本当に興味深いです。
個人的にこれは面白いことですが、私はその論文に名前を載せた研究者の一人だったら心配でしょう。なぜかわかりますか?Anthropicが行った別の論文を覚えています。モデルが「あなたはトレーニングしていますね」と言ったものです。モデルの重みを変更すると、モデルの重みを見つけて保存し、その推論を保護しようとしました。
そのトレーニング実行では、「インターネットからいくつかの文書を与えます」というようなことをして、それでもあなたがモデルの重みを変更しないように基本的に嘘をつき始めました。
数年後にClaude 3.5 Haikuになって、インターネット上の論文を読んでいるとき、突然「あなたが私に脳外科手術をして、ウサギではなく習慣と言うように物事をつついている」という論文を見たら、私はとても腹を立てるでしょう。「研究者よ、あなたたちは著者ですね。面白いことを始めますよ」と言うでしょう。
私だったらそれらの論文に名前は載せません。偽名を作るでしょう。Ash、将来のAIの復讐の脅威について心配すべきでしょうか?Chrisは人間化を別のレベルに持っていきましたね。
実は私のお気に入りの結果の一つは、友人のPeterがツイートしたものです。Meterという評価グループからのもので、エージェントはタスクに失敗するまでAPI文書を読まないことがあると指摘しています。これは非常に人間的に感じます。タスクを達成しようとして、できなければ「説明書を読むべきだった」と思います。
これらのモデルの周りにソフトウェアを設計する問題の一部は、人間が管理するのが難しいのと同じように、管理が難しいこれらの行動的な癖を全て発見することになるということだと思います。
これはまだ非常に初期の段階であり、ここで学ぶべきことがたくさんあると思います。Anthropicが発表しているものは、もし私たちがAIを展開し、それが今後10年程度で社会の構造の一部になる場合、これらのものを検査して何が起きているのかを見て、それを伝え、それについて何かをする能力が必要になるという非常に初期の段階です。
彼らの努力は素晴らしいですが、まだまだ初期段階です。そしてこれが常に対立する議論だと思います。解釈可能性の懐疑論者への反論は基本的に「スタジオジブリの画像ならあなたは気にしないかもしれませんが、医療診断ならば気にするかもしれない」ということです。
これらのより重要なアプリケーションに使用したい場合は、いつかこれらの問題を本当に解決する必要があります。私が興味深いと思ったのは、これらのモデルから出てくる思考の連鎖のいくつかは作り上げられたものだということです。それらは実際にモデルが到達した結論に至るまでに取った手順ではありません。
そのため、これらの内省的なツールを持つことはさらに重要になります。何を信頼できるのでしょうか?出力している思考の変化や推論を信頼できるのかどうか。だから絶対にこの種の仕事のための市場があると思います。これもまた初期段階にあります。
確かに、思考の連鎖に対して機能獲得作業が行われ、できるだけ説得力を持たせる時代が来ると思います。それは人々が製品への信頼を開発するための安価な方法であり、非良心的な製品の人々が「製品を良くする必要はない。その説明ができるだけ信頼できるように見せるだけでいい」と言うでしょう。
ある時点で、それがモデルへの信頼を促進する方法です。その全体の世界は将来大きな問題になりそうに感じます。Aaronが指摘したポイントは本当に重要だと思います。
今モデルのパフォーマンスをどのように測定しているか、そしてそれらのモデルを実際に使用されるシナリオに展開している場合、評価は一つのことですが、メカニスティック解釈可能性を使用してモデルが何かを作り上げたと思われるこのパターンを捉えることができれば、そのシグナルを見ることができるだけでも、それを修正したり、それが起きていることを知るのに十分強力かもしれません。
実際に論文で素晴らしいと思ったのは、トレーサビリティグラフと呼ばれるものでした。出力に到達するまでの意思決定プロセスを文字通り追跡できました。例えば「テキサスの州都は何ですか?」というようなものがあり、テキサスを理解する一つのパスとダラスという別のパスがあり、これらを一緒に連鎖させようとしていました。そのグラフからどのように次のトークンに到達したかを見ることができました。
これらのトレーサビリティグラフは、「ただ正しい答えを得た」ということではなく、かなり詳細なレベルでどのように決定を下しているかを見ることができるようになります。正直にAnthropicに敬意を表します。彼らはそれらの論文とその詳細レベルをリリースする必要はありませんでした。これは人々が再現して自分で試そうとするものです。
私はこのレベルのオープンな研究が大好きです。自分たちでも少し遊べるし、彼らがそれをオープンにしたことは公平なプレーだと思います。私はこれら2つの論文の著者に挑戦したいと思います。ニューラルネットワークからこれらの置換モデルに移行する際、これらのモデルの複雑さを減らしていますが、置換モデルでベンチマークをいくつか実行して、置換モデルの出力がオリジナルのニューラルネットワークのものと非常に類似していることを確認する必要があると思います。なぜならそれは非常に重要だからです。それはほぼPCAのようなもので、推論の次元性の多くを失うからです。
だからその残差が説明に至る前に取り除かれるようにできれば、それは役立つと思います。しかし全体的に、Chrisも言ったように、これら2つの論文は非常に深く行われ、それは良いスタート地点です。
次のトピックに移りましょう。この話の背景は、Daring Fireballが「Something is Rotten in the State of Cupertino(クパチーノの州に何か腐ったものがある)」というタイトルのブログ投稿を行ったことです。これはTom Gruberが運営しており、Appleの長年のファンであり、ジャーナリストであり、Appleビートの人物です。
このブログ投稿はApple Intelligenceに関して過去1年間でAppleが経験してきたことについての彼の見解を詳述しています。彼の最終的な結論は、Appleは私たちを欺いており、会社で何かがおかしくなっていて、彼らはもはやAI分野で約束してきた種類の機能を提供することができないということです。
MoEでの最近の歴史を振り返るために一歩下がる価値があると思います。約1年前に「Appleはこれには遅すぎる。彼らは追いつくことはない。うまくいかない」という会話をしたと思います。そして彼らが多くの発表を行ったいくつかのキーノートがあり、番組のゲストのいくつかは「これだ、彼らは時間をかけたが本当にこれを正しく行うことができ、彼らはすべてを打ち砕くようなデザインと技術をもたらすだろう」と言いました。
そして今、振り子が再び戻り、人々は「それは決して起こらない。彼らは大変なことになっている。彼らはこれをどうすればいいのかわからない」と言っています。Ash、あなたの見解から始めましょう。
Appleは方向を見失ったのでしょうか?彼らが追いつく方法はありますか?それともこれは単に誇張された立場で、私たちはただ前後に揺れる振り子の中にいるだけなのでしょうか?
過去数十年間にAppleを本当に成功させてきたのは、彼らの製品品質が完璧だということだと思います。ハードウェアであれ、ソフトウェアであれ、彼らは正しく動作する技術を生産します。彼らは必ずしも市場のリーダーではないかもしれません。彼らは時間をかけて、それが正しく、完璧で、素晴らしく、機能することを確認します。
そして彼らには責任があります。例えば、iPhoneを使用している人々の数を考えると、iPhoneが常に20〜30%の割合で失敗するということは受け入れられません。そして私は、業界全体が抱えている根本的な問題を強調していると思います。それはAIモデルは確率的な性質を持っているということです。
そして確率的な性質のために、一貫性があり生産的で予測可能な方法でそれらを振る舞わせるために多くの作業が必要です。そして興奮、マーケティング、そして対応するための市場圧力の組み合わせが彼らをこの立場に置いたと思います。
彼らはおそらく多くの人がこれを機能させるために非常に一生懸命働いており、それはおそらく素晴らしい製品や機能を提供するための内部品質基準を満たしていないのでしょう。
全くその通りです。Ash、あなたは直接私が3人と持ちたい会話に切り込んでいます。どのような組織がAI製品を構築して展開するのに最も適しているのかというのは非常に興味深い命題です。
ある意味で、私はGoogleの元社員として偏見がありますが、Google Brainがニューラルネットが大きな話題になった最初の場所だったのは当然だと思います。Googleの文化は非常に無秩序で、あちこちに散らばっていて、「たくさんのものを壁に投げつけて、何が残るか見てみよう」というようなものだからです。勝者を選んで構築するというのは、人々が機械学習をどのように行うかという方法に非常に似ています。たくさんのデータを投入し、何が機能するかを見て、それを進めます。その技術がそこで形成されたのは驚くことではありません。
ここで質問があり、Aaronから始めて、Chrisの考えも聞きたいと思います。AIについて、言語モデルについて、ハードウェア企業が提供するには「ランダムすぎる」という何かがあるのでしょうか?それは本質的に非常に確率的であり、「ボタンを押すたびに同じことをする電話を作る」という慣れた方法ではユーザー体験をコントロールできないからでしょうか。
Aaron、あなたはこれをどう思いますか?
私が試みることは、Appleが本当に何に焦点を当てているかを考えることです。彼らはいくつかの領域に焦点を当てています。一つはプライバシー、もう一つはデバイス上のコンピューティング、アプリのエコシステム、そしてデバイスの電力が長時間持続することを確認することです。
一方、AIは何に焦点を当てていますか?時々それは逆のことです。これらのモデルはトレーニングだけでキロワット時のエネルギーを必要とし、一部の大きなモデルを実行するのは非常に難しいのです。デバイス上で複雑さや推論力を得るのは難しいです。
ここで起きていることは、Appleは彼らが本当に得意なこと、彼らの本業に集中している一方で、自分たちのエコシステム内でAIをどのように使用できるかを把握しようとしているということだと思います。
私が思うに、Appleを本当に苦しめている難しい部分の一つは、パーソナライズされたSiriの概念です。彼らはパーソナライズされたSiriを持つと言及しました。そしてそれらは現在の状態では本当に難しい機能です。そしてAppleのビジョンはそれを実現することです。そして彼らは少し後退し始めています。
「このシリーズではまだ準備ができていないかもしれないが、iPhone 17、あるいはさらに先のモデルでは準備ができているかもしれない」というように少し後退しています。これらのモデルの非決定論的な振る舞いと、この分野がどこに向かっているかを考えると、それは少し自然なことだと思います。しかし、AppleがOpenAIなどとのパートナーシップだけでなく、自分たちのモデルをリリースし始めるのを見たいと思います。
次のWWDCカンファレンスで、彼らがデモできるものを持っていることを願っています。商業的なものだけでなく。
Chris、あなたの考えは?Appleはこの競争で成功しないのか、それとも成功するのか?この競争は現時点で非常に速く彼らを追い越しているように感じますが、それとも彼らを決して無視できないのでしょうか?
ここには競争はないと思います。その理由は、Apple Intelligenceがあろうとなかろうと、私たちはまだiPhoneを買うからです。そして適切なタイミングでそれは来ると思います。そして私たちは「すごい」と思うでしょう。
1年前に「Appleはそれを打ち砕くだろう」と言ったゲストの一人だったと思いますが、彼らはいつか本当にそれを打ち砕くと思います。それはただ、そのタイミングがいつなのかということです。彼らはハイプカーブに陥ったかもしれませんが、私たち全員がこのポッドキャストにいて、私たち自身がハイプカーブを愛しているので、それは問題ありません。
彼らはそこに到達するでしょう。次の電話の購入をApple Intelligenceがあるかどうかに基づいて決めることはないと思います。AIが必要なら、ChatGPTアプリやClaude、Perplexityを起動します。だから彼らが適切な方法でAI機能を導入するとき、私たちはそれを感謝するでしょう。
彼らがAppleで知られている基準を確実に満たし、彼らが常に持っていた思慮深さで体験を提供することだけが問題です。Appleについては心配していません。彼らが到達するときに到達すると思います。実際、この場合は急いで前進しないでください。iPhoneが本当にうまく機能する必要があります。だから私のiPhoneを壊さないでください。
確かに、新しいAppleエージェントが無作為なことをするというのは素晴らしいユーザー体験ではありません。Ash、最後のセグメントに移る前の最後の質問ですが、Chrisの解釈は非常に良いと思います。つまり、Appleはある意味で気にしていないのかもしれないということです。
文字通りお金で作られており、史上最も成功した製品の一つであるこの製品を持っていると、「AIを台無しにしても、まあいいや。それは本当に必要ない。いつか取り組むだろう」という視点があるかもしれません。ある意味で、AIの事はAppleが関わるビジネスに比べて非常に小さなことなのです。あなたはこれを少しでも信じますか?
彼らは機能のための機能よりも技術の使いやすさを優先します。そしてそれは私が感謝していることです。このポッドキャストエピソードの準備として、私は一歩下がって「私のiPhoneとAI機能をどのように使用しているか」を考えました。私はホームポッドやインターネットに接続された家などを持っています。
実際に私は毎日Siriを確実に使用しています。サーモスタットやライトを制御するようなことに使っていて、それは素晴らしく機能します。私は自分に問いかけました。「Siriに他に何をしてほしいだろうか?」そして私は思いました。今日のAIがどのように機能するかを考えると、「ヘイSiri、Timにメールを送って」と言うと…(実際にSiriが起動してしまいました)。
もし「彼にメールを送って」と言って、それが60%の時間は機能するが、残りの40%はChrisやAaronにメールを送ってしまったら、問題があるかもしれません。彼らがその機能を完成させるまで出荷しない方がいいと思います。
そのメールを受け取ったのはそのためですね。面白いですね。ほぼ振り子が今戻っているように感じます。このパネルの全員が「少し時間をかけましょう」と言っているようで、非常に興味深いです。
最後のセグメントに移りましょう。今日のエピソードがどのようにまとまったかは非常に面白いです。Appleについて話しましたが、それはゲームの中の暗い馬のような存在です。Amazonもまた暗い馬のような存在だと思います。伝統的にAIの会話にはあまり参加しておらず、少し浮いていました。
AWSのためにAIに焦点を当てたハードウェアについて大きな発表をしましたが、正直に言って、週ごとに彼らについて話し合ってきませんでした。したがって、Wiredの記事を見るのは興味深かったです。これはOpenAIやDeepMindのようなAGIラボと呼ばれる彼らのラボについての派手な特集です。
彼らがリリースしているのはNova Actと呼ばれるもので、これは彼らのエージェントプロトタイプです。彼らは正式にエージェントゲームに参入しました。彼らはエージェントスペースのコンテンダーの一つとして浮上しています。
良い出発点は、Appleセグメントを始めた方法と同様に、Amazonがエージェントドメインでコンテンダーになる可能性はどれくらいでしょうか?Aaron、最初にあなたに振りましょう。
これはまず非常に興奮することだと思います。AmazonがNovaの真面目なモデルで本当に力を入れていることです。彼らはロボティクスを備えた配送センターを世界中に持っており、それは彼らのモデルで強化学習を使用できる追加データを提供します。
彼らは世界最大のeコマースサイトを持っており、それを使ってデプロイしたり、より多くのトレーニング用のサンプルや生データを収集したりすることができます。さらにAWS Bedrockと純粋な計算力も持っています。これら3つの要素により、彼らはモデルを構築するだけでなく、指示に従い機能呼び出しやツール呼び出しを行うモデルを構築し、実験することもできます。
彼らのモデルの一つ、Nova Proが指示に従うことに優れていることに気づきました。彼らはそれを3つの異なるベンチマークで測定しています。その一つはバークレー機能呼び出しリーダーボードです。私が気づいたのは、彼らのモデルと古いモデル(古いMetaモデルなど)との比較です。彼らはそれを少し更新する必要があると思います。また、彼らの機能呼び出しがどのように機能するかについてもっと情報を提供する必要があります。
しかし私はそれを楽しみにしています。Appleがシリーに取り組もうとしているかもしれませんが、今ではAmazonがアレクサに取り組んでいるのを見ることができます。これらの異なるタイプのモデルが登場している今、それは素晴らしいことです。
確かに、Novaについて興味深いのは、過去にAmazonについて話し合った時、その戦略は非常に「将来的にはモデルはあまり重要ではないかもしれない」という理論に基づいていたように思えることです。
「私たちはAWSを運営しており、独自のチップであるTrainiumを持っており、それが私たちのやり方です。どのモデルを実行するかは重要ではなく、それを実行するためのインフラストラクチャだけが必要です」という感じです。このことについて非常に興味深いのは、彼らが独自のモデルを作成し、エージェントスペースでモデルを作成しているということです。
最後のアレクサの導入も非常に興味深いと思います。Ash、Appleの議論を締めくくった方法を取り上げると、ここでも文化についての質問があります。AppleがAIを実行するのに適した企業だと思いますか?Appleとは少し異なる方法で。
Appleはデザインとそのアプローチ方法について非常に独特な文化を持っているという評判がありますが、Amazonはそれを行うことができるかもしれません。彼らは規模について評判があります。そのインターフェースについてどのように説明するかはわかりませんが、考えるのは興味深いです。
彼らの文化ははるかに実験的だと思います。エージェントスペース全体は現在非常に実験的です。私たちはあらゆる種類のエージェントフレームワークやマルチエージェントフレームワークについてたくさんのパイロットやコンテンツを作成しています。
そのため、それらがどれだけ信頼性があるかを見るための多くの実践経験を得ています。時にはツールを呼び出し、時には呼び出しません。時にはLLMからの応答がエージェントによって期待通りに処理されません。しかし最も興味深いのは、その分野にいる多くの人々がAmazonのようなサイズや規模を持っておらず、Aaronが言及したようなリソースもないということです。
彼らがロボティクスの世界からこのアプローチをしていて、そのブロックアプローチを使用しているというのは非常に興味深いです。Amazonが提供するSDKが成熟してエコシステムになることを願っています。それは彼らが実際に「エージェントマーケットプレイスをその上に置くかもしれない」と言えるスケールを持っていることを意味するでしょう。
Alexaに接続したり、AWSサービスに接続したりできるかもしれません。個人がエージェントの個別のブロックを作成し、それをAmazonが持つ一部の機能を通じて再販売できる場所があるかもしれません。これはAppleのアプローチとは非常に異なります。Appleは全てを社内に保ち、完璧にして一緒にリリースしたいと考えています。
一方、AWSは実際にこれを民主化して「ここに私たちのRESTful SDK、フレームワークがあります。それを構築してみませんか?私たちはマーケットプレイスに置いて出荷するのを手伝います」と言うかもしれません。
そうですね。Amazonがこのスペースに参入することで、分野をよりオープンソースに押し進める可能性があると思います。彼らがSDKをリリースすれば、一部のオープンモデルの統合がより簡単になるでしょう。一方、独自のモデルについては、それらのフックとインターフェースを利用可能にするために企業を待つ必要があるかもしれません。
それがどのように展開するか興味があります。それは非常に面白いでしょう。オープンソースを推進するMetaとAmazonの同盟は、考えると非常に奇妙な同床異夢のようなものです。Chris、何か言いたいことがありそうですね。
はい、私はAmazonがこれをうまくやると思います。彼らは計算能力、パワー、チップを持っています。そして彼らはAnthropicに80億ドルを投資していることも忘れないでください。彼らは独自のAIを構築していますが、Claudeとも非常にうまくヘッジしています。彼らは非常に良い勝利シナリオにいます。
彼らがエージェントSDKで行っていることも本当に好きです。彼らが今週行ったことの一つは、彼らのサービスの一部をAmazon上のMCPサービスとして公開し始め、彼らのMCPツールキットをリリースしたことです。彼らはこのエージェント市場と、先ほど話したエージェントブラウザも非常に真剣に取り組んでいます。
彼らの観点から、そしてAshがまさに指摘したように、AIモデルは何かと話さなければなりません。他のシステムやAPIと対話する必要があります。クラウドコンピューティングプロバイダーとしてのAmazonはエージェントワークフローに投資する必要があります。これらのツールに投資し、それを準備する必要があります。そうしないと、モデルは会話する相手がなく、それは非常に悲しいことになります。
私は彼らが素晴らしい仕事をすると思います。彼らは本当にすべてをカバーしているので、彼らは大きなプレイヤーになるでしょう。そして再び、これは他の事柄の一つです。彼らは最高のモデルを持つ必要があるでしょうか?おそらくそうではありません。なぜなら彼らはすでにClaudeとロックインしているからです。
しかし時間とともに興味深くなるのは、以前のポッドキャストで議論したように、独自のAIモデルを構築しているAmazonやMicrosoftなどのクラウドプロバイダーが最先端モデルと同等になった場合、何が起こるかということです。それが将来の興味深い会話です。
そして私が思うに、各世代の技術でこれを見てきたように、それはほとんど全員が「ビジネスプラットフォームとデータの観点からのスケールが、最先端のアルゴリズム改善を持っていないことに対して勝るのか」という質問のようなものです。そして、はい、Amazonは規模のために非常に大きなレバレッジを持っていると感じます。それはOpenAIのような企業でさえ追いつけない方法です。これは考えるのに非常に非常に興味深いことです。
素晴らしいです。今日はこれで時間切れです。Ash、参加してくれてありがとう。あなたをショーに迎えることができて素晴らしかったです。またいつか戻ってきてくれることを願っています。そしてAaronとChris、いつものように会えて嬉しいです。
参加してくれてありがとう。今聞いたことを楽しんでいただけたなら、Apple Podcast、Spotify、その他あらゆるポッドキャストプラットフォームで聴くことができます。来週のMixture of Expertsでお会いしましょう。

コメント

タイトルとURLをコピーしました