GPT-4.5、Claude 3.7 Sonnet、Alexa+、ChatGPT Plus Deep Researchが文章創作を変革する

35,479 文字

Ep.# 138: GPT-4.5, Claude 3.7 Sonnet, Alexa+, ChatGPT Plus Deep Research & AI Is Disrupting Writing

AI is getting smarter—and more emotionally aware. This week, Mike and Paul highlight the biggest AI news and releases, w...

これらのモデルはすでに人間を超える説得力を持っています。ただ、それは制限されているだけなのです。説得とは人々の信念、態度、意図、動機、行動を変えるよう納得させる能力であり、高度な推論や感情的訴えかけを使います。そのため、説得は本当に懸念すべき開発分野になりつつあると思います。
Artificial Intelligence Showへようこそ。このポッドキャストは、AIをわかりやすく実用的にすることで、ビジネスをよりスマートに成長させるのに役立ちます。私はPaul Roetzerです。Marketing AI Instituteの創設者兼CEOであり、司会を務めています。毎週、共同司会者であるMarketing AI InstituteのチーフコンテンツオフィサーのMike Kaputと共に、重要なAIニュースを分析し、あなたの会社とキャリアを前進させるための洞察と視点をお届けします。AIリテラシーの促進に向けて、私たちと一緒に歩みましょう。
Artificial Intelligence Showのエピソード138へようこそ。司会のPaul Roetzerと共同司会者のMike Kaputです。今週はgoldcastが提供するAI for Writers Summitの週となります。マイクと私は3月3日月曜日の東部時間午前11時に収録しています。3月6日にライターズサミットのライブ配信を行います。もし3月4日、5日、あるいは6日の朝にこれを聴いていて、バーチャルAI for Writers Summitに参加したいという方は、まだ間に合います。3月6日木曜日の東部時間正午から午後5時まで開催される予定です。これは第3回目の年次サミットで、昨年は4,500人以上、確か90カ国からの参加がありました。
AIwriterssummit.comにアクセスするか、Marketing AI Instituteのウェブサイトでも見つけることができます。イベントには約6つのセッションがあります。簡単に紹介すると、「AI時代のライターとクリエイターの現状」という私のオープニングキーノート、「AIの著作権とIP：ライターとクリエイターが知っておくべきこと」というパネルディスカッション（これはいつも人気があり、Jen LeonardとRachel Doulyからの最新情報を楽しみにしています）、Andy Crestodinaによる「AIプロンプティングの習得：創造的可能性の活用」、Mike Kaputによる「AIパワードリサーチ：ライターの発見と創造の変革」、パートナーシップディレクターのTam Morowskiによるリラクゼーションエクササイズ、Mitch Joelとの「創造性の未来、AIストーリーテリング、ライターの進化」についての素晴らしい会話、そして私自身、Mike、Rachel、Andyによる「ライターとクリエイターのためのAIナビゲーション」についての質疑応答セッションで締めくくられます。その後、私が閉会の挨拶を行います。実際には東部時間の午後4時30分頃に終了する予定ですので、3月6日の東部時間正午から午後4時30分までとなります。AIwriterssummit.comでご確認ください。また、イベントのプレゼンティングスポンサーであるgoldcastに大きな感謝を申し上げます。
私たちはバーチャルサミットにgoldcastを使用しており、現在3つの年次バーチャルサミットを開催しています。私たちにとって際立った機能の一つは、AIを活用したコンテンツラボで、イベント録画をすべて取り込み、即座に使用可能なビデオクリップ、トランスクリプト、ソーシャルコンテンツに変換してくれるため、チームの手作業と時間を大幅に節約できます。もしバーチャルイベントを運営していて、コンテンツを簡単に最大化したいなら、goldcastをチェックしてみてください。goldcast.ioで詳細を確認できます。もし木曜日のAI Writer Summitに参加すれば、goldcastを自分で体験することができます。
また、Marketing AIレポートの現状についても簡単に触れておきます。現在、2025年の調査とレポートの回答を収集しています。stateofmarketingai.comでアクセスできます。昨年は1,800人以上の回答がありました。マイク、おそらく今回もすでに1,000件近くの回答が集まっているのではないでしょうか？
「はい、現時点でもかなり順調に進んでいます。ぜひ急いでアンケートに答えてください」
できるだけ多くの、そして多様なグループからのフィードバックをお待ちしています。stateofmarketingai.comをチェックしてみてください。そこではアンケートに回答するリンクをクリックできるだけでなく、2024年のレポートをダウンロードして、昨年の状況を確認することもできます。そして、新しいレポートが準備できたら、メールでお知らせし、新しいレポートをダウンロードできるようになります。春から夏にかけての公開を予定していると言いましたよね、マイク？
「はい、春から夏にかけてです」
さて、先週はGPT-4.5、Claude 3.7、新しいAlexaの情報など、モデルに関する大きなニュースがありました。そして、Siriについてはあまり話題がありませんでしたが、その理由は後ほど説明します。
マイク、まずはGPT-4.5から始めましょう。
「はい、OpenAIがGPT-4.5を発表しました。彼らによれば、これは『これまでで最大かつ最高のチャットモデル』とのことです。彼らは次のように述べています：『初期のテストでは、GPT-4.5とのやり取りがより自然に感じられます。より広い知識ベース、ユーザーの意図を理解する能力の向上、より高いEQにより、文章の改善、プログラミング、実用的な問題解決などのタスクに役立ちます。また、幻覚も減ると予想しています』
このような見解はSam Altmanも共有しており、彼はこう投稿しています：『良いニュースです。思慮深い人物と話しているように感じる最初のモデルです。AIから実際に良いアドバイスをもらって、椅子に深く座り込んで驚いた瞬間が何度かありました』
このモデルは前モデルと比較して印象的な事実の正確さを示しています。OpenAIが「シンプルQA」と呼ぶ、事実の知識を測定するベンチマークでの内部テストでは、4.5は62.5％の精度を達成し、GPT-4の38.2％を大幅に上回りました。同様に、幻覚率も61.8％から37.1％に削減されました。
OpenAIによると、人間のテスターも特にクリエイティブなタスクや日常会話において、4.5を4よりも明らかに好むことが示されました。モデルの応答は著しく簡潔で会話的であり、簡潔で共感的な回答と詳細な情報のいずれを提供すべきかをより直感的に理解しています。
AltmanとOpenAIは、4.5には現時点でいくつかの明らかな欠陥と制限があることも指摘しています。Altmanは『巨大で高価なモデル』と述べ、現時点では月額200ドルを支払うGPT ChatGPT Proユーザーのみが利用可能であるとしています。『Plus層とPro層に同時に提供したかったのですが、成長が著しく、GPUが不足しています。来週には数万台のGPUを追加し、Plus層にも展開する予定です。さらに数十万台も間もなく追加され、皆さんが使いたいだけ使えるようになると確信しています』とAltmanは述べています。
また彼は、これは推論モデルではなく、『ベンチマークを圧倒するものではない』と明言しています。『これは異なる種類の知性であり、これまで感じたことのない魔法があります』
ポール、これはほとんどPR用に最適化されたモデルのように思えますが、4.5についての最初の印象はいかがですか？このモデルのメリットとデメリットで特に気になる点はありますか？」
これは明らかな能力と性能の飛躍的進歩というよりも、むしろこれからやってくるものの兆しだと思います。私自身も使ってみました。今朝、ポッドキャストの準備をしながら使っていて、いくつかのプロンプトを試していました。Ethan Mollickのように、毎回同じプロンプトを使って「ああ、確かに違いが分かる、感じる」というような、特定のアプリケーションやプロンプトのアーセナルを持っているといいと思います。普通のユーザーはその違いを感じないでしょうし、単に使い始めてこの出力を見ても「うわー、これはGPT-4からの大きな飛躍だ」とは思わないでしょう。それが重要なポイントではないと思います。
いくつか注目すべき点として、検索を含む更新された情報へのアクセスがあり、ファイルや画像のアップロードをサポートし、文章作成やコーディングにキャンバスを使用できますが、音声のようなマルチモーダル機能はサポートしていません。プロアカウントを持っていても、まだ4.5と話すことはできません。ビデオや画面共有もまだ含まれていません。それらは後で追加されるでしょう。
この朝の準備中にもっと考え始めていくつか気になったことがあります。まず、スケーリング法則に関する継続的な議論です。現在、二つの方法があります。より多くのNVIDIAチップ、より多くのコンピュート、より多くのデータをこれらに投入して学習させ、賢くする方法と、考える時間を与える推論、つまりテスト時間計算の方法です。これは前者で、教師なし学習でより多くのコンピュートとデータを与え、何が出てくるかを見るアプローチです。
彼らが主張していることは、おそらくGPT-4の10倍の事前学習計算を与えることで、これらのモデルはより良くパターンを認識し、つながりを見つけ、推論なしでもより創造的な洞察を生み出すようになるということです。そしてGPT-5では、モデルが融合し、推論能力も備わることになるでしょう。
出力の違いを劇的に感じないのは、それがすべて基盤となる広範な知識や世界に対する深い理解の一部だからかもしれません。Andre Karpathyは、彼がOpenAIで何度か働いたことを我々のショーで何度も話してきましたが、彼が個人的な視点を示す素晴らしいツイートをしていました。それは文脈を設定するのに役立つと思うので、一部を読んでみたいと思います。
彼はこう書いています：「GPT-4がリリースされてから2年間、これを楽しみにしていました。なぜなら、このリリースは事前学習の計算をスケールアップすることで得られる改善の傾きを定性的に測定するからです」つまり、単純により大きなモデルを訓練するということです。彼は「バージョンの0.5ごとに約10倍の事前学習計算がある」と言っています。基本的にはより多くのNVIDIAチップをこれに適用するということです。
彼はさらに続けます：「文脈として、GPT-1はかろうじて一貫したテキストを生成し、GPT-2は彼の言葉では混乱したおもちゃでした。彼らは2.5をスキップして3に直接進んだのは興味深いことでした」マイク、間違っていなければ、GPT-3は私たちが「マーケティング人工知能」の本を書いたときに世に出ていたモデルですよね？
「そうです。『機械が人間のように書けるようになったらどうなるか』というセクションを書きました。2022年初頭に書いたと思います。私たちがすでに起こっていることを見て、人間のように書けるこの段階に入ることがわかっていたので予測しました。これはChatGPTの瞬間の前でしたが、すでにこれが可能であることを見ていて、私たちの本では避けられない結果として書きました」
それでAndreは続けます：「GPT-3.5は製品として出荷するのに十分なしきい値を超え、ChatGPTのオープニングアイズの瞬間を引き起こしました。GPT-4はさらに良くなりましたが、確かに微妙に感じました。ハッカソンの一部として、GPT-4がGPT-3.5を上回る具体的なプロンプトを見つけようとした記憶があります」
これは、2022年11月の最初のChatGPTバージョンであるGPT-3.5から、2023年3月に登場したGPT-4まで、内部で同じ議論をしていた人です。彼らは同じ戦いを内部でしていました。「微妙な違いを見つけようとしている、単に賢い、違う感じがする、良い感じがするけど、説明するのが難しい」という感じです。
彼はさらに続けます：「私たちは実際に推論が重くないタスク、つまりIQではなくEQに関連するタスク、世界の知識、創造性、知識M、アナロジー作成、一般的な理解、ユーモアなどによってボトルネックになるタスクで改善が見られると予想しています」
だからこそ、私はこのEQ対IQの概念に注目し始めました。これらのモデルがEQの高いものになるとき、それが何を意味するのかを理解するのに数ヶ月、それ以上ではないと思いますが、GPT-4.5をその序章として見ています。なぜならGPT-5は間近に迫っているからです。
OpenAIのGPT-5の投稿からハイライトすると、最初の方に「世界に対する深い理解と改善されたコラボレーションを組み合わせることで、人間のコラボレーションによりよく調和した、温かく直感的な会話でアイデアを自然に統合するモデルになります。GPT-4.5は人間が意味するものをより良く理解し、微妙な手がかりや暗黙の期待をより大きなニュアンスとEQ（感情知能）で解釈します」と書かれています。
GPT-5はまた「より強い美的直感と創造性を示し、文章や設計の支援に優れています」とあります。
私にとって、EQの部分が本当に重要です。なぜならそれによってモデルが、私たちがまだ人間特有または「安全」と認識しているスキルや職業の領域にさらに入り込むからです。IQは知的、技術的、分析的課題を解決するための基盤を提供し、EQは社会的複雑さへの対応、明確なコミュニケーション、感情的なニュアンスの処理に関するものです。
Claude、Gemini、あるいはこの場合GPT-4.5のようなこれらのモデルが感情的知能の高いものになると、どのような影響があるかを考えると、それによってより自然に感じられるインタラクションが可能になり、AIが共感的に見える感覚が生まれ、より人間らしく感じられるようになります。そして、ユーザーのリクエストの背後にある意図の微妙なニュアンスを見分けるのに役立つため、タスク実行が向上します。これにより、文章作成やカスタマーサービスなどの複雑なタスクでのより良いサポートにつながります。そして、プロンプトの背後にある意図をより理解するようになるため、誤解や幻覚のようなエラーが自然と減少します。
感情的知能が高まるにつれて、これらのモデルとの対話方法が変わり、ビジネス環境でのモデルのユースケースが変わり、おそらくAIから安全だと思われていた職業にもさらに浸透していくと思います。
このことから考えると、感情的知能が高まるとどのような影響があるのか、ビジネスと社会の両方で何に直面しなければならないのかを考えるようになりました。いくつか思い浮かんだことがあります。
一つは操作のリスクです。AIはユーザーの感情に直接訴えかけることで、微妙にユーザーを操作し、決定や行動に影響を与える可能性があります。プライバシーとデータについては、これらのAIシステムが深い感情的手がかりを分析し理解するために、機密データへのアクセスが必要になることが多いです。
サムはこれを暗示しており、他のモデル企業からも聞いたことがありますが、彼らのモデルの将来においては、記憶とパーソナライゼーションが鍵となります。すべてのインタラクションを覚えておき、あなたに合わせた体験をパーソナライズしたいのです。EQは真のパーソナライゼーションへの道であり、非常に自然な方法であなたと話し、あなたに共感し、あなたの感情やニーズを真に理解する（または理解しているように見える）ものがあれば、すでに感情的知能の低いモデルでも見られ始めている感情的な絆や依存関係に対処することになります。
そして、おそらく最大の懸念は、昨年のポッドキャストでサムのツイートを共有した時のことです。彼は、機械が他の何かでスーパーヒューマンになる前に、説得においてスーパーヒューマンになると思うと言いました。AI露出キーについて話したとき、昨年作成したGPT-2の仕事を共有した時、主要な露出の一つはレベル8の説得能力です。
以前にも言ったように、これらのモデルはすでに説得において超人的です。ただそれは制限されているだけです。説得とは、人々の信念、態度、意図、動機、行動を変えるよう納得させる能力であり、高度な推論、感情的訴えかけ、人々の感情的知能を理解し影響を与える能力を使います。そのため、説得は本当に懸念すべき開発分野になりつつあると思います。
繰り返しになりますが、月額200ドルを支払って4.5を使うとして、その違いを感じられるかどうかはわかりません。いくつかのプロンプトやユースケースでは違いを感じるかもしれませんが、ここで基本的なことは、OpenAIがGPT-5を発表する約3ヶ月前にこれを世に出しているということです。GPT-5は感情的知能が高いだけでなく、カルパシーのツイートに戻ると、10倍ですので、私の計算が正しければGPT-4からGPT-5は計算能力が100倍になります（10倍の10倍）。
そのため、はるかに強力なモデルが得られるだけでなく、そのモデルの上に推論が層を成し、既により強力なモデルの上に推論を層化すると、感情的知能に大きな飛躍が見られる可能性があります。
だから、このリリースを「同じだ、違いがわからない」と見過ごすことが重要ではないと思います。重要なのは、GPT-5に備えることであり、それはおそらく慣れているものからの飛躍となり、推論能力が組み込まれ、私は非常に自信を持って言いますが、ビジネスにおいて誰もそれに本当に準備ができているわけではありません。
マイクと私はいつもこのような会議に参加し、ワークショップを開催し、話をしていますが、イメージ生成のような最も基本的なことを人々に見せると、彼らは驚いて口を開けます。これが可能だということに。彼らはこれらがどこに向かっているのか、本当に何ができるようになるのかを考えていません。
今週のもう一つの大きなトピックとして、AnthropicがClaude 3.7 Sonnetをリリースしました。これは彼らの最も知的なAIモデルであり、市場初の「ハイブリッド推論モデル」と呼ばれています。このモデルの特徴はデュアルモードアプローチです。ユーザーは素早い応答のための標準モードと、モデルがステップバイステップの推論を行い、それをユーザーに表示する拡張思考モードを選択できます。
Anthropicによれば、これは「人間が簡単な応答と深い内省の両方に単一の脳を使用するように、推論はフロンティアモデルの統合された能力であるべきで、別個のモデルではない」と彼らは考えているためです。
初期のテストでは、Claude 3.7 Sonnetはコーディングとウェブ開発で特に印象的な結果を示しています。Anthropicによれば、主要なテクノロジー企業がすでに改善を認識しています。AIプログラミングアシスタント企業のCursorはClaudeを「実世界のコーディングタスクにおいてベストインクラス」と評価し、Versalは複雑なエージェントワークフローのための例外的な精度を強調し、Repletは他のモデルが行き詰まるような洗練されたウェブアプリの構築にこのモデルを使用して成功したと報告しています。
このモデルリリースと共に、AnthropicはClaude Codeも導入しました。これは限定的な研究プレビューとして利用可能なエージェント型コーディングのためのコマンドラインツールです。このツールにより、開発者は実質的なエンジニアリングタスクを直接ターミナルからClaudeに委任できます。Claude Codeはコードを検索して読み、ファイルを編集し、テストを書いて実行し、コードをコミットしてGitHubにプッシュし、コマンドラインツールを使用でき、各ステップで人間の開発者に情報を提供します。
Claude 3.7 Sonnetは全てのClaudeプランおよびAnthropic APIを通じて利用可能ですが、拡張思考モードは有料プランでのみ利用可能です。
ポール、これはGPT-5が単一モデルに思考を組み込むというこれからの方向性のプレビューのように見えますが、彼らのハイブリッド推論アプローチと、それが人間の脳の働き方だという正当化についてどう思いますか？
これは昨年秋のコンピュータ使用の発表を思い出させます。それを自分たちだけが解決した画期的なことのように提示しました。これはAnthropicを批判するわけではなく、現在の彼らのマーケティングやコミュニケーションの方法です。
彼らはこれを「推論はこれらのモデルの一部であるべきだということを解明した」かのように提示していますが、誰もがこれをやっています。彼らは単に3.7を市場に先駆けてリリースしただけで、LLMプラス推論の初期バージョンを出しただけです。Geminiも同じことをしていますし、OpenAIもGPTでやるつもりです。
私が見た反応はすべて非常に肯定的でした。私自身は3.7をテストしていませんが、それについて見たことはすべて、非常に強力なモデルだということです。システムカードだと思いますが、彼らが数学やコンピュータサイエンスのコンペティション問題にあまり最適化していないと言っていたのが興味深いと思いました。それはちょうど本当に優れているように見える分野です。代わりに、企業が実際にLLMをどのように使用しているかをより反映した実世界のタスクに焦点をシフトしたとのことですが、それらが何だったのかについての報告は実際には見つけられませんでした。ただ言及されただけで、それを示すものはありませんでした。
それは良いことです。数回前のエピソードで言ったように、それは私たちが望んでいることです。実際のユースケースに焦点を当てるということです。彼らがそれをやっているなら素晴らしいことです。その研究を見てみたいです。
一つ私の目を引いたのは、投稿でこのタイムラインを共有していたことです。システムカード投稿か元の投稿かはわかりませんが、このタイムラインではClaudeアシスタント（2024年）、次にClaudeコラボレーター（2025年）と示しています。これは「広範な作業を行い、時間をはるかに短縮する」ようなもので、「専門家と同等の独立した作業を何時間も行い、個人やチームの能力を拡大する」というClaudeがあります。
これが3.7で、次はClaud 4 Opusだと思います。なぜなら、これすらも彼らの最大のモデルではないからです。Anthropicの奇妙なところは、Opusが彼らの最大のモデルで、彼らは引き続きHaikuとSonnetをリリースしていることです。Haikuは彼らのミニモデル、Sonnetは中型モデル、そしてOpusが大型モデルです。そして、それは私たちが約12ヶ月間待っているものです。
私の推測では、4 Opusか4 Sonnetが出るのかもしれません。彼らが何をするかはわかりませんが、明らかに3.7は4の前の中間段階です。しかし、彼らのタイムラインでは2026年は示されておらず、直接2027年に飛んでいます。「Claudeパイオニア。Claudeは、チームが何年もかかるような困難な問題に対する画期的な解決策を見つける」と書かれています。彼らは明らかにスケーリング法則に従っており、グラフはスケーリング法則のグラフを意図的に表しているように見えます。
数週間前にポッドキャストで話したDario Amodeiのコメントに基づくと、彼らは自分たちを位置づけていて、彼らの世界ではClaude 5（私の推測では）がAGIとなるようです。これは再び、その一歩であり、推論と従来のLLMを組み合わせた最初のモデルであり、Darioがすでにほのめかしたはるかに大きなものの前奏曲です。
これは、彼らが確かに、GPT-4.5の冒頭で話した二種類のスケーリング法則に従っていることを示しています。一つは伝統的な教師なし学習でより多くのコンピュートとデータを与えるだけで、よりスマートになるというもの。もう一つは推論で、考える時間を与えるというものです。これら二つのスケーリング法則を組み合わせると、主要な研究所すべてが仮定しているのは、AGIが得られるということです。つまり、基本的にすべての認知タスクで人間よりも優れるフェーズに入るのです。
彼らが示した2027年は、誰もがそれを持つだろうと考えている時期のようです。それはそれほど遠くないですね、マイク。
「確かにそうですね。気づいたらそんな時期になっていました。Anthropicがこのモデルをリリースし、かなり良い評価を得ているようですが、ウォール・ストリート・ジャーナルによると、彼らは615億ドルの評価額で35億ドルを追加調達しようとしているそうです。競争にもかかわらず、Anthropicは依然として主要なプレイヤーであるようです。明らかに他のプレイヤーほど資金力や規模はありませんが、もし彼らが最初にAGIを作れば、それは問題にならないかもしれませんね」
そうですね、Anthropicが独立を保ち、研究とビジネスのミッションを達成し、AGIを実現して、おそらくトップ3のモデル企業の一つになる可能性はまだあると思います。一方で、買収される可能性や、非常に収益性の高い研究室と製品会社になり、他の人々のテクノロジーや流通チャネルにモデルを組み込むという可能性もより高いと思います。
先週話したように、彼らには他のものがありません。確かに素晴らしいモデルを持っていますし、素晴らしい研究チームを持っています。他の企業よりも安全性と整合性に焦点を当てているようで、そこでいくつかの興味深いことを行っています。しかし彼らには自前のデータがなく、データを取得するための製品もなく、アプリ自体以外の流通もありません。AmazonやGoogle、Meta、OpenAI、そして徐々に増えている企業と比較すると、やや遅れをとっているのです。それが彼らが抱える課題です。優れた研究者、素晴らしいモデル、データなし、流通なし。
今週の3つ目の大きなトピックとして、Amazonがジェネレーティブ AIを搭載した音声アシスタントを完全に再構築した「Alexa+」を発表しました。ニューヨークでのイベントで、Amazonのデバイス・サービス責任者はこれを「AIアシスタントの完全な再構築」と呼び、この大規模な改良によって、Alexaはユーザーが慣れ親しんだ単一の質問をベースとした硬直した対話から、文脈を理解し、好みを記憶し、意味のあるアクションをとることができる真に会話的なアシスタントに変わります。
同社はAlexaを定義してきたコマンドベースの対話とは大きく異なる、自然な流れのある会話を披露しました。Alexa+は単純な質問を超えた印象的な機能を持っています。Amazonによれば、新しいアシスタントは「今年何冊の本を読みましたか？」など、顧客のAmazonアカウント情報を活用して、あなたの生活や活動に関するパーソナライズされた質問に答えることができます。
コンサートチケットが利用可能になった時に積極的に通知したり、ディナーの予約などの複雑なタスクを手伝ったりすることもできます。また、デバイスのカメラを通じてビデオフィードを処理し、見ているものについての質問に答えるという視覚理解能力も注目に値します。
基本的なアシスタント機能を超えて、強力な生産性機能も備えています。ユーザーはファイル、ドキュメント、メールをアップロードでき、Alexaはそれらを解析して将来の会話で参照します。
Amazonの広範なエコシステムとの統合は大きな利点のようです。Alexa+はEcho Showスマートディスプレイと連携してパーソナライズされたコンテンツフィードを提供し、ユーザーの興味に基づいたタイムリーな更新を含む「For You」パネルを提供します。スマートホームデバイスを制御し、接続されたスピーカーでAmazon Musicから音楽を再生し、Fire TVデバイスで映画の特定のシーンに移動することさえできます。
特に印象的なデモでは、AlexaがRingセキュリティカメラからの映像を要約し、シーンで何が起きているかを説明し、特定の瞬間を引き出す様子が示されました。
Alexa+は月額19.99ドルの料金がかかりますが、Amazonプライム会員は無料で利用できます。ロールアウトは今後数週間で始まり、Echo Showデバイスの所有者を優先する早期アクセス期間から始まり、その後数ヶ月かけて広範囲に展開される予定です。
ポール、Amazonは人々の消費者と消費習慣の多くの領域に触れていますが、これが宣伝通りに機能すればどれほど大きなことなのでしょうか？あなたはAlexaユーザーですか？
「正直に言うと、ほとんど使用していないものを持っています。子供たちが小さかった頃、彼らが次々と奇妙な質問をし続けるので、約7年前に私のものはプラグを抜きました。『おや、このデバイスは私を狂わせそうだ』と思い、他には使っていませんでした。個人的には、おそらく7年間Alexaデバイスを使用していません」
私はこれがSiriやGoogleアシスタントが本来目指していたものだと思います。ここでのビジョンは大きく、彼らが実行すれば本当に大きなことです。
一つ興味深い点は、このAmazonの発表投稿にはAnthropicについて何も言及されていないことです。しかし、おそらくAmazonの許可を得て、Anthropicはこうツイートしています：「ClaudeはAmazonの次世代AIアシスタントであるAlexa+を強化します。AmazonとAnthropicは過去1年間密接に協力し、AmazonがClaudeの機能の完全な恩恵を受けられるよう支援してきました」
前に触れたように、おそらく自分自身のデータと流通を持つことが重要なのではなく、データと流通を持つ場所（Amazonはその資格を持つ）にモデルが組み込まれることが重要なのかもしれません。
ショーで以前話したように、AmazonはこれまでにAnthropicに80億ドルを投資しています。これは小さな額ではありません。もし彼らが615億ドルの評価額を得て、Amazonが所有権とその持ち株を維持するとすれば、AmazonはAnthropicの約20%を所有していると推測します。これはまた重要なことです。ポテンシャルな買収者を探しているのなら、Amazonはその条件に合致します。
いくつか注目すべき点があります。Amazonが発表した記事によると、彼らは6億台のAlexaデバイスを持っています。流通について話すとき、これは大きいです。私のように何台がプラグを抜かれているかはわかりませんが、その6億台のうちの公平な割合が実際に人々の家で使用されていると仮定しましょう。
私の目に留まったことの一つは、彼らがこれを「彼女」と呼んでいることです。これらのテクノロジーを非常に擬人化しています。
彼らは「彼女はより会話的で、よりスマートで、よりパーソナライズされている」と言っています。このポストからいくつかの抜粋を紹介したいと思います。なぜなら、より大きな話の一部となる非常に基本的なことがあると思うからです。
まず、私自身の表現方法ですが、これは「すべてのAIアシスタント」です。彼らの言葉を引用すると：「彼女はあなたを楽しませ、学ぶのを助け、あなたを整理し、複雑なトピックを要約し、ほぼすべてのことについて会話することができます。Alexa+はあなたの家を管理・保護し、予約をし、追跡を手伝い、新しいアーティストを発見して楽しむのを助けることができます。また、オンラインでほぼすべてのアイテムを検索、発見、購入するのを助け、あなたの興味に基づいて役立つ提案をすることもできます。Alexa+はこれらすべてのことを行います。あなたはただ尋ねるだけでいいのです」
興味深いのは、彼らがスキルと呼ぶものを出したとき（それがAlexaスキルだったと思います）、私がいつも悩むのは、10,000のスキルがあっても、そのうちのどれも知らないことです。天気やスポーツのスコアなどはできることを知っていますが、それ以上のことはわかりません。
彼らは一種の「すべてを行うAIアシスタント」の新時代を迎えていますが、今はただ会話を通じてそれを行います。スキルを知る必要はなく、単にそれと話して、何でも手伝ってくれると想定するだけでいいのです。
次に、この全体的な感情知能の要素があります。彼らはここで言及していませんが、私はこれを見て、感情知能の展開が継続していると言っています。
彼らが言ったのは：「Alexa+との会話は、途中で形成された思考を話しているか、口語表現を使っているか、複雑なアイデアを探索しているかに関わらず、広範で自然に感じられます。Alexa+はあなたが意味することを理解し、信頼できるアシスタントのように応答します。それはテクノロジーとの対話というよりも、思慮深いあるいは洞察力のある友人との関わりのように感じられます」
繰り返しになりますが、この感情知能が私たちのすべてのデバイス、すべてのソフトウェアに反映され始めることになるでしょう。
次に、エージェントに入ります。AIについて何かを話すとき、エージェント的な側面に触れないわけにはいきません。
彼らは言います：「Alexaの最先端のアーキテクチャの基盤には、Amazon Bedrockで利用可能な強力な言語モデルがあります。これは単なる始まりに過ぎません。Alexa+はアクションを起こすように設計されており、何万ものサービスとデバイスにわたって調整することができます。これは私たちの知る限り、このスケールで行われたことはありません。これを達成するために、私たちは『エキスパート』と呼ばれる概念を作りました。これは、顧客のために特定のタスクタイプを達成するシステム、機能、API、指示のグループです」
彼らはさらに続けます：「Alexa+はエージェント機能を導入し、Alexaがあなたに代わってタスクを完了するために自己主導的な方法でインターネットをナビゲートできるようにします。舞台裏では、例えばオーブンの修理が必要な場合、Alexa+はウェブをナビゲートし、Thumbtackを使用して関連するサービスプロバイダーを見つけ、認証し、修理を手配し、それが完了したことを報告できるようになります。監視や介入の必要はありません」
発表を見ていませんが、これが実際に機能するのなら過小評価されているように思えます。これは大きな問題です。
もう一つは記憶とパーソナライゼーションです。これは、利益を得るために必要なデータを提供するかどうかという問題に行き着きます。
「新しいAlexaは高度にパーソナライズされており、さらにパーソナライズする機会を提供します。彼女はあなたが購入したもの、聞いたもの、見たビデオ、配送先の住所、支払い方法を知っています。しかし、あなたはそれをさらに便利にするために覚えておくよう頼むこともできます。家族のレシピ、重要な日付、事実、食事の好み、そしてそれ以上のことを彼女に伝えることができ、その知識を活用して役立つアクションを取ることができます。例えば、家族の夕食を計画している場合、Alexa+はあなたがピザが大好きで、あなたの娘はベジタリアンで、あなたのパートナーがグルテンフリーであることを覚えておいて、レシピやレストランを提案することができます」
マイク、ここで一度立ち止まりましょう。個人データの量について考えてみましょう。Prime会員なら無料で、そうでなければ月額19.99ドルで、これらの機能すべてが任意のデバイスで利用できるようになります。また、ChatGPTアプリのように機能するスタンドアロンのAlexa+アプリも提供される予定で、ChatGPT.comと同じように対話できる新しいAlexa.comウェブサイトも提供されます。
あなたはどれだけの知識を提供するか、あなたの家族メンバーにどれだけのことを教えるよう導くか、例えば誰かの母親が「Alexa+はこれができると聞いたわ、私たちの家族史をすべて提供して…」と話し始めたら、あなたはそこにいますか？私はそこにいるかどうかわかりません。
恐らく、滑りやすい坂道を通じてそこに辿り着くことになるでしょう。もし宣伝通りに機能するなら、最初からすべてを提供するつもりはありませんが、十分な量を提供すれば、2、3、4の絶対に欠かせないユースケースができて「これがなしでは生きられない」と思うようになり、そこからさらに少しずつ進むと思います。「まあ、いいでしょう、すべての写真へのアクセスを許可します」というように。
ただ、私が考えていたのは、これが私の商業的な生活には最適に思えますが、Alexaを文書や写真などの全体的なアシスタントとして使用することが意味をなすかどうかはわかりません。私はすでに他のツールを使用してそれらのものを処理しようとしていますが、同じ懸念は残ります。
これが私にとってGoogleが持つ機会を浮き彫りにします。私にとって、これらはすべてすでにGoogleにあるからです。彼らは私のカレンダー、メールを持っています。私の写真はGoogleにはありませんが、写真や他のものに関してはまだAppleユーザーです。しかし、Googleがアクセスできるすべてのものを想像してみてください。私はこれらの体験のためにAmazonにそのデータを移動するつもりはありません。
OpenAIはこれらのものに触れることができません。これが重要なポイントです。Anthropicはこれを構築しませんが、これはデータと流通です。私たちが人々に繰り返し強調している二つのことです。彼らはあなたの個人生活に関するデータを持っています。Amazonはホールフーズも所有しています。彼らはすべての出どころからデータを持っています。Appleも同様です。
Anthropicはそれを得ることはないでしょう。OpenAIもそれを得ることはないでしょう。私はそれは決まったことだと思います。私たちのデータの所有権を争うレースは基本的に3、4の主要企業内にあります。彼らが自分自身のモデルを構築して有効にするか、他の誰かのモデルを使用するかです。
これはマイクが最後に私の注目点に導きます。これは別途タイムスタンプを付けます。それはほぼ同じですが、続きがあります。先週、AppleとSiriについての大きな記事がありました。これはBloombergのMark Gurmanからのもので、彼はAppleの情報とニュースに関する内部通でした。
彼はこう書いています：「先週発表されたAmazonのAlexa+は、基本的に音声モードのChatGPTのバージョンで、あなたが誰であるか、あなたの生活の中の人々が誰であるか、あなたの興味、そしてあなたの家とその周辺環境の文脈を知っています」
彼は続けて、Appleには一つの優位性があると話しています：「AmazonはAlexa+をより強力にするホーム製品のエコシステムとネイティブアプリのエコシステムを欠いています。スマートスピーカーや他のガジェットは持っていますが、Appleの数十億のよく統合されたモバイルデバイスのようなものはありません。しかし、それはますますApple Intelligenceの状況を失望させるものにしています」
マイク、先週「apple intelligenceはまだ酷い」と言ったのは先週だったでしょうか？私はAppleに過度に厳しくしているわけではありません。彼らもそれが悪いことを知っています。
続けます。これは現在起きていることと、誰が勝者になるかについての本当に重要な文脈だと思うからです。マークは言いました：「Appleは高度なAIをそのエコシステムと融合させることで、強力で魔法のようなものを作ることができたはずです」
さらに「Siriの次のバージョンはAppleが復活できるかどうかのテストになるでしょう。そのソフトウェアは発表から11ヶ月後の5月にリリースされる可能性が高いです。現在のバージョン18のSiriは基本的に二つの脳を持っています。一つは従来のSiriコマンドを操作するもの（天気やスポーツ、株価などの問い合わせ）、もう一つは高度な問い合わせを扱うものです。もし使ったことがあれば、それは常にSiriと話すようなものです。通常、何かを説明する必要がある質問に対しては答えを持っておらず、現在はChatGPTに接続します。これが現在のSiriが行うことです」
彼によれば、iOS 19のためにAppleはこれらのシステムを統合する計画です。彼はこれが6月のWorldwide Developers Conferenceの一部として発表され、2026年春にリリースされると予想しています。つまり、この統合システムが得られるまでにさらに1年かかるということです。
彼は「内部的にLLM Siriと呼ばれる新しいシステムは、同じリリースでよりより会話的なアプローチを導入する予定でしたが、それは現在遅れており、2026年6月まで得られないかもしれません。AppleのAI部門内の人々は現在、真に現代化された会話バージョンのSiriが、最善の場合でも2027年のiOS 20までに消費者に届くことはないと考えています」
これはAnthropicがAGIを持つと考えているのと同じ時期です。
「そう、AGIを手に入れる前にSiriのアップグレードを手に入れると言っています」
私はこれを見たとき、本当に愕然としました。それがどれほど悪いか知っています。私たちはそれがどれほど悪いかコメントしてきました。しかし、これはAppleです。2022年11月のChatGPTの登場から5年後、この技術において10年のリードを持っていたAppleが、実用的なバージョンのSiriを手に入れるまでに5年かかるのです。彼らは2011年にSiriの技術を買収しました。
マイク、これについて私が注目したこと一つだけですが、これをより簡潔に扱いますが、現時点でOpenAIやGoogleとの大規模な取引を行う可能性が急速に高まっていると思います。彼らはGoogleと競合していることは間違いありませんが、検索やマップでビジネスをしてきました。
現時点で私はGoogleとAppleの経営幹部が今深い会話をしていることを強く信じます。これについては全く知識がなく、インサイト情報もありません。ただ、Tim Cookが2027年までーーOpenAI、Google、AnthropicがAGIが世界に存在すると考えている時までーー機能するSiriのバージョンを提供するまで待つことはあり得ないと思うのです。
「確かに興味深いですね。AIがどれほど速く動き、すべてのハイプを考えると、新しいものが出てくるたびに『OpenAIはもう終わりだ』とか『ChatGPDは死んだ』などとよく見ますが、この段階でAppleが本当に困っていることを認めなければなりません」
彼らの株価は今年35%上昇しています。Appleという会社は問題ありません。ただ、Siriと音声であるべき彼らの主要機能を修正するために必要なAIモデルを自分たちで作ることができないように見えます。パーソナルAIアシスタントは、あなたの行動や興味に関する深い知識を持つようになります。Appleはそのすべてと数十億のデバイスを持っており、それでもこれを解決できません。
明日にでもこれらの企業の一つと取引をしなければなりません。Anthropicとはならないでしょう。AmazonがすでにAnthropicと深く関わっているため、そのような取引はしないでしょう。OpenAIとの取引の始まりがあります。わかりません。Googleが最も論理的な選択肢です。Elon Muskの「Grok 3」にはならないでしょう。TimとElonがこれについて提携するとは思えません。
「特に私のような大人になってからずっとAppleの投資家である者として、GooglerがモデルについてGoogleと提携し、Geminiをこれに組み込むことができれば非常に嬉しいでしょう」
今週のさらなる短い話題に移りましょう。もう一つの大きなニュースとして、OpenAIがDeep Researchを全てのChatGPT Plus、Team、Education、およびEnterpriseユーザーへのロールアウトを開始しました。
Deep Researchはこの拡張時間思考のエージェント型研究アシスタントで、最大30分間考え、ウェブを使用してトピックに関する情報を収集し、完全に自律的にオンラインで事前調査を行うことができます。そして、多くの場合数十ページに及ぶ包括的な研究概要という形で、驚くべき最終結果を提供します。
これが先月Proユーザーに利用可能になって以来、多くの知識労働者を驚かせています。以前は何時間も、あるいは何日もかかっていた高品質で詳細な研究を数分で行う能力があります。私たちもそのように驚いた人々の一人と考えることができます。実際、かなり頻繁に使っています。
Understanding AIというSubstackの出版物で、テクノロジージャーナリストのTimothy Leeが19人の異なる専門分野の専門家にDeep Researchを見せることで評価を行いました。19人中7人が、すでに回答が彼らの分野の経験豊富な専門家のレベルにあるか、近いと述べました。そして大多数は、同様のレポートを作成するには少なくとも10時間の人間の労働が必要だと推定しました。
さらに、12月にリリースされたGoogleのDeep Research（同じ名前、似たような製品）との直接比較では、19人中16人がOpenAIの回答を好みました。
ChatGPTアカウントでOpenAI Deep Researchを使用することに興奮して始めるときに注意すべき点として、Proアカウントを持っていない場合は、最初は月に10クエリしか取得できません。
また、ChatGPTユーザーにとってのさらなる良いニュースとして、OpenAIはGPT-4o miniを搭載した高度な音声モードを全ての無料ChatGPTユーザーにロールアウトしています。これも試してみることができます。
ポール、これがどれほど知識労働者にとって驚くべき瞬間になるか興味深いです。何が可能かを知らない人に真剣にこれを見せるたびに、とても感銘を受けています。明らかに多くの問題があり、すべてを確認する必要がありますが、これが利用可能になってから文字通り1ヵ月でしかなく、この機能を持つことが信じられないことだと思います。
「もしOpenAIのGPUがどこに行っているのか、彼らが4.5をロールアウトする能力がないのはなぜかと思うなら、ここにあります。Deep Researchは驚異的です。
音声モードを全てのユーザーに提供すること、はい、それはGPUを消費します。
過去1ヶ月間ショーを聴いている人なら、これらのDeep Research製品について我々がどう感じているかご存知でしょう。それらは変革的なものです。誇張ではなく、私自身も1日に1、2回使っています。この技術に無制限にアクセスするために月額200ドルを喜んで支払っています。
私は過去2週間で、これをリアルタイムで2回デモンストレーションしました。一つはクライシスコミュニケーションのケースで、以前私が仕事として行っていたこと（私たち自身のエージェンシーを所有していたとき、マイク、あなたと私はクライシスコミュニケーションの仕事をしていました）が発生していました。私は別の理由でそこにいましたが、PRファームが関与する必要がある何かが起こり、私はそのミーティングに座っていて、Deep Researchで研究しながらクライシスコミュニケーションプランを作成していました。7分で、7年前なら5人のPRチームを配置し、一日中かかっていたようなプランを作成しました。
また、先週も誰かとの電話で、AIとファンドレイジングについての指導を求められたので、「何かお見せしましょう」と言って、話しながらリアルタイムでDeep Researchを使ってファンドレイジングとアドバンスメントのためのAI計画を作成し、その人に送りました。
この技術が何ができるかを知らなければ、研究と戦略的計画を頻繁に行うならば、あなたの仕事の方法を変えることができます。私の意見では、計り知れない価値があります。そして、マイク、あなたもこれを常に使っていますよね。
繰り返しになりますが、ライターズサミットでの私の講演は、このようなツールの使い方と、この破壊にどう対応するかについてです。少し遅れをとっている方には、自分の学習を加速させるのに本当に良い機会になるでしょう。
マイク、これは私がこう考える一つです：「これが最初のバージョンにすぎないのに、どうしてこんなことが可能なのか」。今のままでも、もう改善されなくても、知識労働の方法を変えることになるでしょう。そして、これは単に最初のバージョンとして急いで作られたものであることを知っています。Googleはオープンに対して我々が使っているものよりも強力なバージョンを持っています。そして、Googleは望めば必要なときにこれらを非常に安価または無料にする能力を持っています。それは彼らが他の誰にも対して持っている利点の一つです。
「そうですね、ここでの一つのポイントは、もしProサブスクライバーでないなら、これは今週のリストの最優先事項にすべきです。もしPlusユーザーなら、ユースケースがあれば試してみてください。もし我々がこれを誇張していると思うなら、一度だけ200ドル支払ってみてください。ただし、ユースケースがないのに200ドルを使ってしまうのは避けてください」
ライターズサミットには無料登録があります。goldcastのおかげで、無料で参加できます。マイクのセッションを見れば、Deep Researchをテストする価値があることがわかるでしょう。一ヶ月だけ試して、200ドルの継続的な費用にコミットする必要はありません。知識労働において信じられないような機会を見つけることができると約束します。本当に驚くべきものです。
次に、元TeslaのAIディレクターでOpenAIの創設メンバーであるAndre Karpathy（前のセグメントで話しました）がAI主導の未来で本当に重要なことについて重要な会話を始めました。
最近のX上の投稿で、彼は驚くべき主張をしました：「エージェンシー（主体性）は現在、知性よりもはるかに強力で希少だ」と述べ、「何十年もの間、これを直感的に間違えていました。おそらく知性への文化的崇拝、さまざまなエンターテインメントメディア、IQへの執着などが原因です」とも書いています。
基本的に、彼は生の知性が究極の資産だと我々全員が想定しているが、AIの時代ではそれが変わり始めていると言っています。
彼はこのエージェンシーの考えを知性とは別の属性として定義しています：「個人がイニシアチブをとり、決定を下し、自分の行動と環境をコントロールする能力。これは受動的ではなく、積極的であることについてです。高いエージェンシーを持つ人は人生を単に起こるままにしておくのではなく、積極的に形作ります。自己効力感、決意、そして自分の道の所有権を組み合わせたものです」
ここでのアイデアは、AIによって誰もがデフォルトでより多くのこのタイプのエージェンシーを得ることになるということです。また、AIがますます複雑な認知タスクを処理するようになると、知性はコモディティになります。つまり、いつでも利用可能です。そのため、彼が主張する唯一の真の差別化要因はエージェンシーになります。
その結果、私たちは自分たちのやることすべてにおいて、エージェンシーを優先する必要があります。彼はいくつかの挑発的な質問を投げかけています：「私たちはエージェンシーのために採用していますか？エージェンシーのために教育していますか？あなたは10倍のエージェンシーを持っているかのように行動していますか？」
ポール、これを読んだとき、この概念は現在の知識労働者にとって本当に重要なことだと思いました。まだもう少し探求する必要がありますが、「AIプルーフ」になり、エージェンシーをできるだけ多く発揮することで信じられない競争優位性を構築するための正しい方向性を示していると感じました。どう思いますか？
「このツイートは本当に気に入りました。先週これをフラグし、『これについて話すべきだ』と思いました。これについては主要なトピックとして十分話せると思いますが、ここでは簡潔にします。
私のキャリアを通じて、採用した最高の生産者、見てきた最高のリーダー、そして知っている最高の起業家の多くは、『平均的な学生』でした。彼らは一流の大学からきたわけではなく、ただ信じられないほど資源豊かで回復力があり、失敗を恐れませんでした。彼らはただ道を見つけました。失敗を旅の一部と見なしました。
これが思い出させる本の一つは、キャリアの初期、エージェンシーを始める前に読んだ『意志とビジョン』です。その本の中で著者のテルスとゴルダーは、「意志」を定義しています。彼らは企業の観点から話していますが、個人レベルでも同じことが適用できます。意志とは「特定のビジョンを達成するための揺るぎない決意とコミットメント。困難に直面しても障害を克服し、戦略を実行する強い決意を示し、本質的には市場の後発者であるにもかかわらず、企業がマーケットリーダーシップを達成する能力の背後にある原動力を表している」と。
これは教育にも触れています。私はよく「子供たちは何を専攻すべきか」と尋ねられ、自分の子供たちについても考えます。少なくとも私自身の信念体系では、リベラルアーツの学位は非常に重要だと確信しています。
コンピュータサイエンスだけに進むべきかどうかはわかりません。プログラミングが10年後も存在するかわかりません。しかし、それは全体の一部だとは思います。
だから大学に行くことはまだ重要だと思います。大学の生活経験は関連していると思います。必須ではないと思いますし、将来も必須ではないと思いますが、重要だと思います。そして、もしそれをするなら、リベラルアーツは非常に良い選択だと思います。なぜなら、私が考える最高の人材、最もエージェンシーを持つ人々は、哲学、心理学、社会学、歴史、科学、ビジネス、芸術、政治学、コンピュータサイエンスなどの要素を持っているからです。それらはすべて役立ちます。
経験と視点の多様性。私たち自身の採用計画について考えるとき、人々がどこの大学を出たかは気にしません。GPAも気にしません。私がエージェンシーの初期に採用したとき、唯一GPAを見たのは4.3のような人を見たときでした。私のお気に入りの質問の一つは『もうあなたが部屋の中で最も賢い人ではなくなったとき、あなたはどうするつもりですか？』でした。
非常に頻繁に起こることは、単に優秀な人たちは苦労したことがなく、クラスで失敗することがどんなものかを知らず、自分が部屋の中で最も賢い人ではないと感じる場所にいることがどんなものかを知りません。そして実社会に入り、実生活の経験が重要になり始めると、3.3のGPAは何の意味もありません。今や決断の結果と未知の事態に対処しているのです。
私はいつもこう考えています：IQはある程度重要です。複雑なトピックを理解でき、ものを学び、基本的に実生活でテストをうまく受けられる必要があります。しかし私がより関心を持つのは、私たちが話した感情的知能、問題解決者であるか、勤勉であるか、自信があるが謙虚であるか、資源豊富で回復力があるか、好奇心があるか、速く学習できるか、仕事以外でも学び続けたい欲求を持っているかということです。
それは常に私が探していたことの一つです：「私が求めていないことを自分の仕事をより良くするためにしていますか？」これは内在的動機につながります。積極的ですか？粘り強いですか？情熱がありますか？人々を理解していますか？機械を理解していますか？これらすべてが重要だと思いますし、彼が話すエージェンシーにも当てはまると思います。
これは、何でも達成できるという考えです。親や雇用主にアドバイスできるなら、何でも可能だという信念を植え付けることです。唯一の制限は自分自身が課すものです。実社会に入れば、どの学校を出たか、GPAがいくらだったかは関係ありません。重要なのは一生懸命働き、自分を他と区別し、一貫して価値を創造することだけです。
正直なところ、それは実際にはかなり簡単です。数週間前に家族の友人とこの会話をしていて、私はこのように言いました：「プロの世界に入ったとき、どれほど簡単に目立つことができるか。最も賢くある必要はもうありません。他のすべてのことをするだけでいいのです。そうすれば、これらのことができるとき、実社会で素早く自分を区別できます」
この話題には100%賛成します。30分くらい話せると言いましたが、非常に重要なトピックだと思います。そして実際には、将来何が重要になるかという大きなテーマに合致すると思います。GPT-5やGPT-6があり、それらが推論と感情的知能を持つとき、実際に何が残るのか。これが答えだと思います。これらは基本的なものとして残ると思います。そして、残りは解決されるでしょう。
もしこれらの基本的な特性、スキル、感情的能力を持っているなら、残りは解決できますが、そうでなく単に本の知識が豊富なだけなら、うまくいかないでしょう」
その他のニュースとして、Metaは今後数ヶ月でスタンドアロンのMeta AIアプリをリリースする計画です。CNBCの報道によると、彼らは今年の第2四半期にデディケイテッドアプリを立ち上げる意向です。これにより、Meta AIはFacebook、Instagram、WhatsAppに組み込まれた機能から、同社の主要なアプリケーションの一つになるでしょう。
Meta AIは2023年9月に最初に発表され、会話型の応答を提供し、画像を作成できるジェネレーティブAIパワードのデジタルアシスタントです。4月に同社はFacebook、Instagram、WhatsApp、Messengerの検索機能をこのチャットボットに置き換え、これらのプラットフォームのユーザーエクスペリエンスの最前線に置きました。
Metaの財務責任者によると、Meta AIは現在約7億人の月間アクティブユーザーを持っています。しかし、アナリストはMeta AIが現在独立したアプリではないため、ChatGPTやGeminiなどの競合製品と直接比較することが難しいと指摘しています。Meta AIのスタンドアロンウェブサイトは月に1000万ビュー未満を生成しており、これはChatGPTやGeminiを大きく下回っています。
興味深いことに、CNBCがこのレポートを公開した直後、Sam Altmanは「わかった、わかった、多分我々もソーシャルアプリを作るかもしれない」とおそらく少し皮肉を込めたXへの投稿で反応しました。
ポール、私たちはZuckerbergをカウントアウトすることはできませんし、彼の流通を無視することもできません。質問ですが、Meta AIを実際に使用していますか？私はまったく使用していません。これはGrokへのパニック反応のように思えます。私はなぜか使い始めるとは思えません。
「私もそうは思いません。これまでに得た採用数は偽の採用数だと思います。Facebookで検索してAIを使って誰かを見つけようとしたからといって、Meta AIを使ったことになるのでしょうか？それは単に誰かの名前を検索していただけです。
それがスレッドを使っている方法のようですね。これを体験に組み込んでいるので、それを避ける方法がありません。彼らの戦略はわかっています。Zuckerbergはこれについて非常に率直でした。彼はAIコンテンツが好きで、人々はそれに関与するので、それを許可し、私たちのソーシャルプラットフォームにこのすべてのAI生成ビデオ、画像、テキストを氾濫させることになるでしょう。それは素晴らしいことだというのです。
いいえ、違います。すみません。それはうまくいきません。人々はこのすべての「AIスロップ」と呼ばれるものに飽きるでしょう。AIがすべてを支配したとき、FacebookやInstagramの将来がどうなるかを考えると、良いとは思えません。
DeepSeekの瞬間が本当に彼らの自尊心を傷つけたと思います。彼らはオープンソースのプレイとして自分たちを位置づけ、LLaMAがオープンソースを支配するだろうと考えていました。しかし、DeepSeekが登場し、彼らの勢いをすべて奪い、InstagramやFacebookの前にチャートのトップに立ちました。
Zuckerbergの中には競争の火が燃えていると想像せざるを得ません。彼らがトップ5に入る方法を見つけられるとは思いません。この時点では、独立したMetaアプリよりもClaudeの方が採用される可能性が高いと思います。しかし、彼らが自分たちの目的や歴史に関する認識を変えることができるかもしれませんし、あるいは単にそれを買収するかもしれません。それは考えていませんでした」
「それは興味深いですね。ZuckerbergにはFacebook/Meta内でうまく革新できないという歴史があります。彼らはすべてを買収するだけです」
「それは文化の奇妙な組み合わせになるでしょう。安全性と整合性は一致しないかもしれません。彼らは誰かを買収する必要があるでしょう。疑問は、Metaがこの分野で実際に関連性を持つためには誰を買収するのかということです。彼らが自分たちでそれを行うとは思いません。彼らにはそれほど多くの選択肢がないと思います」
「それについて考える必要があります」
次に、私たちがよく話題にするロボティクススタートアップのFigureがいくつかの重要な発表で波紋を呼んでいます。
パッケージ処理のためのAIシステムに画期的な改良を加え、さらに驚くべきことに、予想よりもはるかに早く家庭でヒューマノイドロボットのテストを開始する計画を発表しました。
CEOのBrett Adcockは、Figureが今年後半にFigure 02ヒューマノイドロボットを家庭環境でアルファテストを開始すると発表しました。これは約2年前倒しされたタイムラインです。
この予期せぬシフトは、最近発表された「Helix AI」システムの急速な進歩によるものです。これは、知覚、言語理解、学習制御を統合する社内設計のビジョン言語アクションモデルです。前回のエピソードでこれについて少し話しました。
「これは我々の予想よりもはるかに速く進んでいる」とAdcockは述べ、「家庭への展開タイムラインを加速している」と付け加えました。
彼らは以前、主に産業用途に焦点を当てていました。昨年、彼らはサウスカロライナのBMW製造工場でロボットのパイロット運用を開始し、同時に家庭用ロボットと商業用ロジスティクスの両方でテクノロジーを洗練させています。
彼らは今週、ビジョンと動きを制御する「System One」と呼ばれるHelixの低レベル制御システムの大幅な改善も概説しました。ロジスティクステストでは、Helixの改善により印象的な結果が出ています。Figureのロボットは、学習元となる人間のデモンストレーターを超える速度でパッケージを処理できるようになりました。
ポール、このタイムラインはかなり野心的に思えます。Helixで何らかのブレークスルーがあったようですが、非常に早く感じます。進歩していることは明らかですが、今年から家庭にヒューマノイドロボットが登場するとは本当に予想しますか？
「いいえ、おそらく本当に裕福な人々の家かもしれません。Kim Kardashianが彼女のTesla Cybertruckに乗り、助手席にロボットを乗せて、素敵なソーシャルポストをするのを想像できますが、いいえ、これが現実だとは思いません。
Figureは超革新的な企業で、大きな進歩を遂げているように見えます。彼らには本当に印象的なデモンストレーションと印象的に聞こえるツイートの歴史がありますが、それらはすぐに何も変えるわけではありません。
今年の休暇シーズンに友人の家に行って、そこのロボットに会うとは思いません。ロボット工学のハードウェアとソフトウェアの両面で実際の進歩があると確信しています。これは巨大な投資機会だと思いますし、Teslaの株のように長期的な視点を持てば、巨大なものになるでしょう。
個人的には、これらのものが経済的な影響を与えたり、消費者側で本当に広く配布されるまでには3〜5年かかると思います。過去5年間この分野を研究し、注意深く見てきましたが、これらのものの「ChatGPTモーメント」のようなものは見ていません。
ChatGPTも世界に出てから普及するまでに数年かかりました。まだ企業での広範囲な採用はありません。このような消費者向けロボティクスのChatGPTモーメントは2〜3年先で、その後3〜5年かけて実際に広く採用されるようになると思います。簡単に言えば、本当に広がり始めるのは今の10年の終わりか、次の10年の初めかもしれません」
次に、もしAIを自分のユースケースにどう使うか評価しようとしているなら役立つかもしれない新しいツールがあります。
これは「Prompt to Leaderboard」または「P2L」と呼ばれる新しいものです。このツールはLM Arenaに追加されました。LM Arenaは、私たちがよく話題にするChatbot Arenaを運営するウェブサイトです。これは各モデルがどれだけ優れているかをランク付けしようとするチャットボットリーダーボードです。
P2Lがどのようなことをするかというと、特定のプロンプトに対してどのAIが最も良いパフォーマンスを発揮するか予測するように言語モデルを訓練しました。つまり、ドメイン全体でモデルの強みと弱みを特定するのに役立ちます。
これがあなたにとってどのような意味を持つかというと、LM Arenaにアクセスし、Prompt to Leaderboardをクリックして、任意のプロンプト、考えられるものを入力すると、P2Lは知っているすべての長所と短所に基づいて、どのモデルがそのプロンプトに最適かを教えてくれるリーダーボードを生成します。
非常にニッチな例（「ハリー・ポッターを中国語に翻訳するのに最も優れているモデルはどれか」など）も提供し、そこから最適なランキングを示してくれます。
ポール、これは私たちの以前の議論で必要としていたような種類のものに思えます。つまり、従来のベンチマークや評価の外にある多くの価値あるタスクでAIモデルを実際に評価する方法です。私はベンチマークを見るのは好きですが、多くのコーディングや科学や数学はしないので、「Xについてのブログ記事を書く」などと入力できることは、信頼できるなら非常に役立ちます。どう思いますか？
「アイデアの方向性は気に入っています。ちょうど『研究レポートを書く』と『音声ファイルを文字起こしする』という二つの簡単なテストをしてみました。思いついたことを試しただけです。問題はこれが本当に信頼できるかどうかです。
『研究レポートを書く』では、O1 miniが1位、Claude 2.5 Plusが2位、そして初期バージョンが… 全くわかりません、これが正しいのかどうか。そして、例の数はどれくらいなのか、サンプルサイズはどれくらいなのか、どれだけの人々がこれを実際にテストしたのか。
これはおそらく面白い方向性を示すものだと思いますが、『これで遊んで、すべてが事実で、あらゆるユースケースに使える』とは言いません。このようなものがもっと出てくるのは良い兆候だと思いますし、続くと思います。
Anthropicのリリースで、彼らはより多くのビジネスユースケースに焦点を当てようとしていたと聞きました。研究所は、採用を促進するための一般ユーザーは彼らの博士レベル以上の評価を気にしないことを理解していると思います。ユーザーは単に「必要なことをしてくれるものが欲しい」だけです。
もし歴史的にあるユースケースで苦労しているなら、「このことにはいくつかのモデルを試しましたが、うまくいきません」というような場合、これは問題を解決するためのアイデアを得るのに本当に役立つかもしれません。ただ、ここで得られるデータには注意が必要です」
次に、Davod Perellというインターネット上で非常に人気のある元ライティングコーチが、AI時代におけるノンフィクション文章の未来について興味深い会話を始めました。
率直なソーシャルメディア投稿で、彼は6年後にライティング教育ビジネスを閉鎖する決断をしたと語り、彼が教えていたスキルが高度な言語モデルの前に急速に時代遅れになっていると結論づけました。
彼は「ビジネスを閉鎖してからまだ4ヶ月しか経っていませんが、過去に教えていたようなライティングを教えることはもはや想像できません。理由は単純です。ノンフィクション文章の世界は根本的に変わり、私がキャリアを築いてきたスキルの多くがますます無関係になりつつあります」と書いています。
彼は率直な評価をしています：「もしOpenAIのDeep Researchなどをうまくプロンプトすれば、ほとんどのトピックについて、私が一日かけて作成できるよりも優れたコンテンツを生成できるようになりました」
興味深いのは、彼はノンフィクション文章が死んだとは言っていないことです。しかし、このような考え方を始める必要があると結論づけています：
「文章が個人的な経験から引き出されるほど、AIに追い越される可能性は低くなります。個人のナラティブ、回顧録、伝記には、言語モデルがアクセスできないデータ（個人の生きた経験）が含まれています」
また、「真にユニークな視点を提示する文章（Peter Thielが言う『多くの人が同意しない重要な真実』）は価値を保ちます」とも言っています。
基本的に、より多くの人間性、より多くの個性を文章に盛り込むことができれば、際立つチャンスが大きくなります。
彼は志望ライターへのメッセージは複雑だと言います。確かにハードルは上がり、ライターはこの時点でAIと競争しているのです。しかし同時に、これらのツールはインスタントフィードバックを提供し、アイデアを洗練させるのに役立つ強力な助けとなります。
ポール、これはまさに私たちが毎年AI for Writers Summitを開催し、今週も開催する理由です。AIは私たちのライターとしての活動を変えていますが、それが何を意味するのかを探求するために十分な人々が集まっているとは思いません。だからこそ、David Perellの投稿が本当に気に入りました。
「特に共感したのは次の部分です：『好きなこともあれば、嫌いなこともある。興奮することもあれば、落胆することもある。私は絶望的でも恐慌状態でもないが、あなたの教師としての私の仕事は、何が起こっているかの真実を指し示し、それがあなたにどれほど不快な感情を与えようとも、あなたがそれを明確に見て、計画を立てられるようにすることです』
これは私が講演でいつも話していることです。人々のためにこれをより良くすることはできません。AIがあなたの仕事をあなたと同じくらい上手く、あるいはより良くできないとは言えません。それを言うことは不可能です。
ますます多くの人々が、数回前のエピソードで話したタクシードライバーの脚本家のような瞬間を迎えるでしょう。名前は忘れましたが、『ああ、私がやっていることで私よりも優れている』という瞬間です」
では、ライターやクリエイターにとって何を意味するのでしょうか？わかりません。48時間以内に理解する必要があります。それが私のオープニングキーノート「AI時代のライターとクリエイターの現状」です。毎年、私は「今どこにいて、それは何を意味するのか」を総合しようとしています。
私自身もその範疇に入ります。私はライターであり、職業としてのクリエイターです。時々、何がユニークで何が今でも重要なのか考えます。私が非常に強気なのは、台本のない会話やプレゼンテーションです。ステージに立って、ただプレゼンテーションをしている人を見たいのです。そこには彼ら自身の視点、独自の文脈と経験があり、ChatGPTが彼らのために書いたものではないことを知っています。
同じ理由で炉辺談話も好きです。計画されていない質問が投げかけられ、彼らがトピックについて深い知識を持っていることを見たいのです。LinkedInのフィードから得られるような偽物ではなく、彼ら自身のオリジナルな考えではないもの、彼らのように聞こえるかもしれないが彼らではないものは望みません。
AIアバターのポッドキャストは望みません。本物の人々が互いに話しているのを聞きたいのです。偽物ではない生のイベント、個人的なストーリー、それらすべてが私にとって重要です。これから先、私たちはコンテンツや物語を作成する能力を民主化してきましたが、真のアーティストや専門家、ストーリーテラーだけが、自分自身の経験や知識、文脈でそれらに命を吹き込み、それらの物語に意味を与え、人々に重要なものにすることができると思います。
AI生成コンテンツの世界で何が本物なのかわからなくなるのはとても簡単になるでしょう。だから、ただ本物で人々だけのメディアやイベントや場所は、将来的に非常にうまくいくと思います。ブランドとストーリーテリングの観点からもそう考えるでしょう。
次に、HubSpotに関するニュースです。HubSpotはパートナーエコシステムに対して野心的な予測を発表しました。2028年までに300億ドルの市場機会を予測し、AIがその成長の3分の1を牽引すると予想しています。
これはIDCの最近のアナリストブリーフからのもので、AIと統合された顧客データの変換がHubSpot上に構築するビジネスに前例のない機会を創出していると強調しています。
HubSpotのエコシステムは、彼らのビジネスモデルにますます中心的になっています。顧客の90%が彼らのマーケットプレイスから少なくとも1つのアプリを使用し、半数以上が5つ以上使用しています。これらのアプリの統合はパートナーにとっても収益性があり、HubSpotのソリューションパートナーは2024年から2025年にかけて44%の収益増加を予測しています。
AIがどのように適合するかというと、彼らはAIファーストのソリューションに特に結びついた102億ドルの機会があると予測しています。彼らは「エージェント型ソリューション」と呼ばれる新興トレンドを説明しています。これはサービスとアプリケーションの収束で、パートナーはHubSpotのエコシステム内で機能するAIエージェントやエージェントコンポーネントを構築できます。これは、一般的なビジネスニーズに対応する完全なAIエージェントから、カスタムソリューション用に組み合わせることができるモジュール式のエージェントスキルまで多岐にわたります。
これらすべての核心はデータ統合です。HubSpotは、AIはそれを訓練するデータと同じくらい良いものであることを強調し、彼らの統合データ戦略を競争優位性として位置づけています。彼らは顧客データの約80%が非構造化であると指摘しています。これは電子メール、通話、サポート、その他のコミュニケーションに含まれる情報です。彼らの戦略は、このデータを構造化データと同様に実用的にすることであり、この能力を加速するためにFrame AIなどの企業を最近買収しました。
ポール、HubSpotのAI機会と、彼らがパートナーエコシステムに概説している機会についてどう読みますか？新しい方には何度か話したように、あなたはHubSpotの初めてのパートナーマーケティングエージェンシーを設立しました。HubSpotの過去、現在、そして未来について最高の意見を持っている可能性があります。
「私は2005年にエージェンシーを始め、2007年秋にHubSpotの最初のパートナーになりました。そして2021年にエージェンシーを売却したので、はい、約14年間HubSpotのパートナーエージェンシーを運営していました。
実際、先週HubSpotの世界的なエコシステムキックオフイベントに参加する特権がありました。AIの責任者であるNicholas Hollandがそのイベントのオープニングキーノートで私にインタビューし、エージェンシーへの影響について話しました。
私はそれが大きいと思います。そのインタビューで人々に伝えた主なことは、多くのエージェンシーが消えてしまうだろうということです。多くのエージェンシーが混乱し、進化に苦しむでしょう。そして他のいくつかのエージェンシーはこれらのことを理解し、素晴らしいビジネスを構築するでしょう。彼らは価格モデルの問題を解決し、新しいサービスミックスを解決するでしょう。
特にエージェントに関しては、エージェントには目標を設定し、計画し、設計し、データソースに接続し、サポートアプリケーションを統合し、パフォーマンスを監視し、パフォーマンスを管理し、反復するための人間が必要です。このエージェント主導の未来には人間の大きな役割があります。
これらのソリューションパートナーの多くが、サービス側を解決するだけでなく、HubSpotの広大なリーチと顧客ベースで彼らが行うことを強化できるAIファーストの企業やアプリケーションの構築を始めるでしょう。そう、HubSpotのエコシステムだけでなく、Salesforceのエコシステムや他のサービスプロバイダーシステムのパートナーであることは刺激的だと思います。恐怖や不安を乗り越え、実際に何かをするために積極的であれば」
今週は、過去数週間実施してきた「リスナーの質問」という新しい週刊セグメントを続けます。毎週さまざまなチャンネルを通じてAIに関する多くの質問を受け取るので、ポッドキャストでそれらにできる限り回答したいと思います。
もし質問があれば、ポールや私に連絡してください。marketingaiinstitute.comにアクセスし、「お問い合わせ」をクリックすれば、連絡方法はたくさんあります。
今週の質問はポール、「AIの幻覚の既知の問題にどう対処しますか？何か実用的なヒントはありますか？」
「それらが存在することを非常に意識する必要があります。正確さと事実が重要な高リスクな状況でAIを使用している場合、これらのものに適したユースケースではないかもしれません。最大のバランスは、それらをブレインストーミングや創造的な出力、最初のドラフトに使用し、それらが徹底的にレビューされ編集され、誰かが名前や場所、データポイント、金額などを確認する場合は良いということです。
しかし、研究ブリーフを書いていると考え、前回のセグメントに戻りましょう。例えば、あなたはエージェンシーでクライアントのために研究ブリーフを作成していて、Deep Researchにそれを書かせ、ざっと目を通したら良さそうで、すべてが正しいように見えたので、そのまま提出し、間違ったデータが含まれていたとします。それはあなたの責任です。この状況では、エージェンシーとしてあなたが出力の所有者です。
モデルは間違いを犯し、それは正常なことだと理解することが重要です。人間も同様です。しかし、あなたの監視なしにそれらが何をすることを許可しているのかを理解することが重要です。人間が介在することの重要性を理解し、それらがいくつかの間違いをするのが問題ないユースケースで使用する限り、それはプロセスの一部として大丈夫です。
ただ、これらのものに何かを出力させ、レビューや承認、正確性の二重チェックが不要だと考えるのはうまくいきません」
「また、プロンプティングもまだ重要だということを強調したいです。特にDeep Researchツールでは、一語一語が重要です。もし恐ろしく間違った出力ばかり得ているなら、プロンプトも見直す必要があるかもしれません。幻覚を避けるための保証された方法はプロンプティングにはありませんが、より具体的で詳細、文脈的になり、情報を引き出したい情報源や場所のタイプを指定することで、役立つことがあります」
「良い指摘です」
ポール、ここで様々なAI音声技術の更新に関連する多くの製品アップデートでまとめましょう。明らかに特に情熱を感じるものがあれば意見を述べてください。そうでなければ、今週起こったすべてのことを人々に感覚的に伝えるだけにします。
現在オンラインで最も注目を集めているのは「Sesame」と呼ばれるものです。これはOculus VRの共同創設者で元CEOのBrendan Iribeが率いるAIスタートアップで、ステルスモードから出てきました。The Vergeのレポーターは「一度以上話したいと思った初めての音声アシスタント」と表現しています。
Alexa、Gemini、その他のアシスタントとの経験は、遅延、誤解、ぎこちない応答によって妨げられることが多いですが、Sesameは会話の流暢さに非常に優れているようです。会話の途中での中断やコース修正を処理でき、人間の話し方を模倣した自然な間を多く持っています。
興味深いのは、彼らは単により良い音声アシスタントを構築しているだけでなく、一日中着用できるように設計されたコンパニオンAIメガネも開発していることです。これにより高品質のオーディオと、あなたと一緒に世界を観察できるコンパニオンへの便利なアクセスが提供されます。
同時に、HeygenはElevenLabsと提携して、アバター作成プラットフォームに音声生成機能を統合しました。この提携は、プラットフォームを使用するクリエイターにとって最大の課題の一つである、カスタムアバターに合う声を見つけることに対処しています。年齢、性別、言語、アクセント、記述的なスタイルのプロンプトを指定することで、カスタマイズされた声を生成できるようになりました。
以前に話したHume AIは、「Octave」のリリースで忙しく、これを「テキスト読み上げのために構築された最初のLLM」と呼んでいます。従来のテキスト読み上げシステムとは異なり、Octaveは単にテキストを話し言葉に変換するのではなく、アプローチの基本的な転換を表しています。それは言葉がコンテキストで何を意味するかを理解する言語モデルであり、適切な感情的抑揚、タイミング、表現力を加えることができます。
例えば、皮肉な台詞を与えると、自然に皮肉なトーンを採用します。Octaveを使用すると、テキストプロンプトからAI声を作成できる「音声デザイン」が可能になります。また、テキストの読み方を修正する方向性を与える「演技指示」も提供できます。
最後になりましたが、ElevenLabs自身が「Scribe」というものを発表しました。これは「世界最も正確な音声テキスト変換モデル」として位置づけられています。業界の多くが現実的な音声の生成に焦点を当てている中、Scribeは逆の課題、つまり話されたコンテンツを99言語にわたってテキストに文字起こしすることに取り組んでいます。
ElevenLabsによれば、Scribeは一貫してGemini 2.0 Flash、Whisper、Deepgramなどの主要モデルをベンチマークテストで上回っています。特にイタリア語と英語で印象的な精度を達成し、セルビア語、広東語、ムンバイ語などの伝統的にサービスが不十分な言語でも大きな改善を示しています。
基本的な文字起こしを超えて、Scribeは単語レベルのタイムスタンプを持つ構造化された出力を提供し、誰が話しているかを識別し、笑いなどの非音声オーディオもタグ付けできます。これは彼らのAPIを通じて利用可能です。
ポール、AIにおいて非常に充実した一週間でした。多くの発展があり、ありがとうございました。
「先週の水曜日に、『今週は音声テキスト週間なのに私は覚えていなかったのか』とツイートしました。これらすべての音声技術が同時に発表されるような音声AIサミットが行われていたと思います」
いつも通り素晴らしい内容をありがとうマイク、来週また皆さんとお会いしましょう。
Artificial Intelligence Showをお聴きいただきありがとうございます。AIの学習を続け、すでに6万人以上のプロフェッショナルやビジネスリーダーが参加している週刊ニュースレターに登録し、AIブループリントをダウンロードし、バーチャルおよび対面イベントに参加し、オンラインAIコースを受講し、Slackコミュニティに参加するには、marketingaiinstitute.comをご覧ください。次回まで、好奇心を持ちAIを探求し続けてください。