この動画では、待望のGPT-5のリリースを中心に、AI業界の最新動向を詳しく解説している。OpenAIのGPT-5は統合システムとして発表されたものの、実際は複数モデルの組み合わせであり、ユーザーの期待ほど革命的ではなかったという評価が多い。一方でGoogle DeepMindのGenie3が世界モデル技術で大きな進歩を見せ、CloudflareとPerplexityの間でウェブクローリングを巡る論争が発生している。また、Anthropicの新しいClaude 4.1モデル、AI技術の経済への影響に関する新たな研究データ、そして各社の音声AI技術への投資拡大など、AI分野の急速な発展と競争激化の様子を包括的に紹介している。

- GPT-5の登場とその真の姿
- OpenAIの統合システムとルーターの混乱
- パワーユーザーの不満と感情的な愛着
- マイクの個人的体験と市場の反応
- 業界の競争激化とGoogleの動向
- Google DeepMindのGenie 3と世界モデル
- CloudflareとPerplexityのウェブクローリング論争
- 急速展開ニュース
- OpenAIの株式現金化と企業価値の急上昇
- Anthropic Claude Opus 4.1のアップデート
- AIの経済への影響とレイオフデータ
- ChatGPTの内部動作と検証システム
- OpenAIの連邦政府契約
- AI音声技術とMeta、11 Labsの動向
- MetaのAI音声企業買収と音声技術の未来
- Googleの学生向けAI教育投資
GPT-5の登場とその真の姿
ということで、質問はずっとこうやった。OpenAIには何か秘密のソースがあるんやろか?他の会社より6から12ヶ月先行できるような、何か特別なことをやってるんやろか?答えはノーや。
人工知能ショーへようこそ。AIを親しみやすく実用的にすることで、あなたのビジネスがよりスマートに成長するお手伝いをするポッドキャストや。私はポール・リッツァー、Smarter XとMarketing AI Instituteの創設者兼CEOで、あなたのホストを務めさせてもらってる。
毎週、共同ホストでMarketing AI Instituteのチーフコンテンツオフィサーのマイク・カプットと一緒に、重要なAIニュースを全部解説して、あなたの会社やキャリアを前進させるのに使える洞察や見解をお届けしてる。みんなでAIリテラシーを加速させていこうや。
人工知能ショー第161回へようこそ。ホストのポール・リッツァーと共同ホストのマイク・カプットでお送りしてる。今回は8月11日月曜日、東部時間午前11時頃に収録してる。
長いこと待ってたGPT-5がついに登場したで。チームが金曜日にメッセージ送ってきて「緊急ポッドキャストやる?GPT-5について話す?」って言ってきたんやけど、僕は「AI Academyのコースを完成させるか緊急ポッドキャストをやるか、どっちか選べ」って言ったんや。それでマイクと僕は緊急ポッドの代わりにAI Academyのコース準備に集中することにしたんやけど、今日はGPT-5について話すことがいっぱいあるで。
このエピソードはSmarter XのAI Academyの提供でお送りしてる。これはさっき話してたやつやな。再ローンチイベントをやることにしてるんや。AI Academyは2020年に最初に紹介したんやけど、この一年近くかけて、Academyとは何か、どう機能するか、背後にある技術、AIをどう注入するか、全体的な学習者体験、学習ジャーニーの構築方法、すべてを完全に再構想してきたんや。
8月19日東部時間正午にローンチイベントがある。ウェビナーに登録できて、すべてについて聞けるで。AI Academyのビジョンとロードマップを説明して、その日にローンチする新しいオンデマンドコースや専門資格についても話す。その日にたくさん出るんや。
新しいAI Academy Liveについても話すで。これ、めちゃくちゃ楽しみにしてるんや。定期的にメンバーが実際にライブで参加できる機会になる。マイクと僕だけやなくて、深いディープダイブも一緒にやって、AI変革スポットライト、ブッククラブ、そんなことをやる予定や。
今年後半には新しい学習管理システムも来るで。それもプレビューする。個別化された学習ジャーニーの構築方法も話すし、新しいビジネスアカウントも紹介する。企業や大学、個人が5つ以上のライセンスを取得できて、専用の機能や特典が付いて、価格も大幅に安くなる。
それから僕とマイクとキャシーで何でも聞いてセッションもやる。いろんなものが出てくるで。新しいAI基礎シリーズ、AI導入シリーズの第3版、AI拡張シリーズの第2版があって、これは僕が今日のポッドキャストと会議の間に仕上げてる最中や。マイクは新しいAI for Professional Servicesをやったし、AIとマーケティングシリーズも作ってくれた。
これら全部と他にもたくさんローンチされるで。smartrx.aiに行ってもらって、ページの上にバナーがあるからクリックしてウェビナーに登録してくれ。ショーノートにもリンクを貼っとく。ウェビナーは無料で、8月19日にやる。
このエピソードはIntro to AIの提供でもある。僕は2021年10月・11月から毎月この無料クラスを教えてる。今回でIntro to AIの第50回記念版になるんや。8月14日木曜日の正午にやる。登録してもらったらええで。
このクラスを始めてから4年近くで、4万人近くの人が受講してくれたと思う。だいたい30から35分で、僕がAIの基礎についてライブで説明して、最後の25分は質問の時間や。いつも50から100の質問が来て、できるだけ多く答えようとして、答えきれなかった分は1週間後にIntro to AI特別版としてポッドキャストでフォローアップする。
Intro to AI第50回記念版が8月14日木曜日で、その後答えられなかった質問についてフォローアップポッドキャストをやる。Intro to AIのリンクもショーノートに入れとくし、情報も全部共有する。
8月14日と8月19日の2つの素晴らしいライブイベントがある。チェックしてくれや。
OpenAIの統合システムとルーターの混乱
さあマイク、長いこと待ってたGPT。始めようか。
最初の話題は、予想通りやけど、OpenAIがGPT-5を発表した。これを最もスマートで最速で最も有用なモデルやって言ってる。会社初の統合システムで、必要に応じて素早いレスポンスのチャットとより深い推論を組み合わせてる。
設定をいじる必要はない。代わりに、GPT-5があなたのリクエストを適切なタイプのモデルにルーティングしてくれる。より長く考える必要があるか、より速く動作する必要があるかによって、仕事に適したモデルを選んでくれる。
会社によると、コーディング、ライティング、健康アドバイス、マルチモーダル推論で以前のバージョンを上回る性能を示してる。幻覚も大幅に減少して、タスクが完了できない時により正直なアプローチを取る。40万トークンのコンテキストウィンドウと12万8千の最大出力トークンもある。
幻覚についてもう一つ言っとくと、OpenAIはGPT-4oより大幅に幻覚が少なくて、GPT-4oと比べて事実エラーが45%少ないって言ってる。
コーダーにとっては、GPT-5は単一のプロンプトからフルアプリを作り上げることができる。とても良いデザイン感覚とデバッグスキルを持ってる。健康面では、エラーがはるかに少なくて問題をフラグアップすることにより積極的や。クリエイティブな作業も向上して、より繊細なライティングとデザインのセンスが良くなった。
今回のローンチには、拡張推論用のGPT-5 Pro、モデルの応答方法を変える新しいプリセット個性、3つの異なるモデルサイズでのAPIアクセスが含まれてる。無料ユーザーはGPT-5がデフォルトになって、PlusとProの購読者はより高い制限とGPT-5 Proへのアクセスが得られる。
ポール、解説することがたくさんあるな。いくつかの角度から話していくけど、まずはGPT-5の最初の印象から始めようか。
僕の最初の印象の多くは、信頼してるオンラインの他の人の意見をまとめたものから来てる。彼らのレビューをたくさん読んだ。僕自身も少し実験したけど、週末はコース作業をしてたから実際に多くの実験はできなかった。でも少しは触ってみた。
僕らがフォローしてるオンラインの人たちは、一般的にこれにあまり満足してない人たちやった。だから、ここで注意したいのは、本当に良いモデルのようやということや。でも、みんなが1年半ほど期待してたような人生を変えるモデルではない。
GPT-5はずっと「GPT-5が来たら、すべてが変わる」って言われてきた。AI Academyの一環として、新しいGenAIアプリシリーズを導入するんやけど、マイクと今朝話してて、彼がそのシリーズの最初のコースとしてGPT-5レビューをやることになった。だからもっと詳しく話せるようになる。15から20分の製品レビューみたいなものや。来週Academy メンバー向けにリリースする。
でも僕の見解はこうや。エセン・マリック、ブライアン・ブリックマン(僕らの友達)、アリ・ミラーなど、事前にアクセスしてた人たちの素晴らしいレビューがいっぱいある。僕はもうちょっとズームアウトして、全体的な影響について話そうと思う。
まず、これは一から作られたマルチモーダルではない。統合モデルって言ってるけど、実際は4つか5つの異なるモデルがGPT-5という一つのものとしてパッケージされてる。そしてあなたのプロンプトに基づいて、どのモデルを使うかを決めるルーターがある。推論を使うのか、従来のチャットを使うのか、画像生成、動画生成を使うのか、みたいに。これらは全部単一のモデルに入ってるわけやない。
たぶんGPT-6が本当に一から作られたマルチモーダルになると思う。知ってる限りでは、この一環として画像生成やSora(動画生成)についてのアップデートはなかった。音声機能に多少の調整があったと思う。音声を少し改善したかもしれん。
このポッドキャストで前から話してたモデル選択の混乱について、先週ChatGPTに入ると8つのモデルから選べるようになってた。僕らがいつも指摘してたのは、平均的なユーザーはそれらの違いが全くわからないということや。
4o、o3、mini、みたいに、平均的なユーザーは全く違いがわからない。だからいつも言ってたのは、なんで平均的なユーザーに理解できないモデルのリストから選ばせるのかってことや。だからデフォルトを使うだけになる。
だから僕らはいつも、なんで平均的なユーザーに違いがわからないモデルのリストから選択させるんやって言ってた。このルーターは正しい方向に向かってるようやけど、実際は混乱を引き起こした。
パワーユーザーの不満と感情的な愛着
なぜなら、ChatGPTユーザーのごく一部は実際に異なるモデルが何かを理解してて、使いたい特定のモデルを持ってるからや。OpenAIの最初のミステップ、これから一連のミステップを説明するけど、彼らはほぼ、実際に異なるモデルを理解してて他のモデルを本当に気に入ってる、最も声が大きく最もオンラインで発言力があるユーザーを無視したんや。
OpenAIがしたことは、GPT-5をオンにして他のモデルを全部削除したことや。そしてルーターが動作してる時、僕がChatGPTに入って「この持ってるアイデアのビジネスプランを書くの手伝って」ってプロンプトを出しても、実際にどのモデルが使われてるかわからない。
だからどのモデルが実際に使われてるかの透明性がなかった。もし僕が使ってて好きやったモデルがあって、トーン、個性、スタイル、フォーマットが気に入ってたら、それがなくなった。だから人々は怒った。
木曜日の終わりまでに、人々は「僕のモデルを返してくれ。4oが欲しい。4oと話すのが好きやった」って言ってた。
驚くことに、マイク、OpenAIが自分たちのユーザーベースを理解してなかったみたいやった。明らかにその選択を望む人たちがいて、特定のモデルに感情的に愛着を持ってる人たちがいた。4oと5は全く異なる個性を持ってる。
5はもっと短いバーストで応答するし、慰めてくれるような感じがない。そういうのが欠けてる。
Xで、以前は知らなかったユーザーがいて、素晴らしい要約をしてくれた。アリスター・マクレイって名前で、リンクを貼っとく。彼はこう言った:
「OpenAIは実際に重要な人たちを忘れた。パワーユーザーは常に文化曲線をリードする。彼らは製品の雰囲気を決める、特にコンシューマーソフトウェアで。最も声が大きく、最も情熱的で、最も高い期待を持ってる。コンシューマー企業にとって最大の資産で、常に最優先で考える必要がある。
ChatGPTでのGPT-5ローンチで、OpenAIは新しいルーターが洗練されてないユーザーに提供できる利益に集中しすぎて、実際に最も重要なユーザーグループを完全に見落とした。ルーターが基盤となるモデルを自動的に切り替えるけど、それを教えないんや。
ChatGPTパワーユーザーの立場に立ってみれば、彼らがモデル間をハード切り替える能力を持ち続けたいのは明らかや。ルーターがいつでもどのモデルを使ってるかの透明性を期待するのも明らか。そして最も重要なのは、既存のモデルが廃止される前に合理的な通知期間を期待するのも明らか。
僕らが見た反応は避けられなかった。オンラインでノイズの大部分を占めるパワーユーザーは素早くフラストレーション、失望、信頼の破綻の雰囲気を作った。ライティングに4oや4.5を使ってた人は突然良い代替案がなくなった。
o4 miniとo3にアクセスしてたPlusユーザーは突然GPT-5思考に週200メッセージ制限があることがわかって、ルーターは実際に話してるモデルを教えてくれない。さらに、僕が話した人のほとんどはGPT-5思考に制限があることを知らなかった。制限に当たって残りの週のアクセスを失った時に初めて知る。」
これがかなり良い要約やった。そしてOpenAIはすぐにこれに気づいた。サム・アルトマンは木曜日の夜には完全に危機コミュニケーションモードに入ってた。これで彼らが考え抜いてなかったことがわかった。
アルトマンは8月10日日曜日にツイートした。これらのツイートのリンクは全部貼っとく。
「GPT-5のロールアウトをフォローしてきた人なら気づくかもしれないが、一部の人が特定のAIモデルに持ってる愛着がある。以前の技術に対する愛着とは異なって、より強く感じられる。ワークフローで依存してる古いモデルを突然廃止するのは間違いやった。
これは僕らがこの1年ほど密接に追跡してきたことやけど、まだ主流の注目を集めてない。人々はAIを含む技術を自己破壊的な方法で使ってる。ユーザーが精神的に脆弱な状態で妄想に陥りやすい場合、AIにそれを強化させたくない。
ほとんどのユーザーは現実とフィクションやロールプレイの間に明確な線を保てるが、少数のパーセンテージはそれができない。ユーザーの自由を核となる原則として重視してるが、新しいリスクを伴う新技術をどう導入するかについても責任を感じてる。」
これが愛着のことや。レート制限のことはほとんど人を打ちのめした。これは興味深いもので、マイク、サムが日曜日にこれについてツイートしただけやなくて、他のOpenAI研究者もツイートした。だからこれが内部でも、ユーザーにとっても本当にホットボタンやったことがわかる。
これについて僕が考えるのは、推論を行うための計算容量の制限や。簡単に説明すると、モデルを訓練する計算があるけど、僕らが使う時は推論や。答えを提供する時に推論が必要で、これは今組み込まれてるけど、標準チャットよりもはるかに多くの推論計算が必要やし、動画や画像も同様や。
彼らが直接これが容量の問題やって言ってるってことは、僕の意見ではGoogleにとってのチャンスの扉を開く。OpenAIの計算とデータセンターに関する成熟度とインフラストラクチャの不足は、Googleにとってはそれほど問題やない。
日曜日のサムのもう一つのツイート:「今日、ChatGPT Plusユーザーの推論レート制限を大幅に増加させてる。すべてのモデルクラス制限は間もなくGPT-5前よりも高くなる。今日(月曜日または火曜日)、今後数ヶ月の容量トレードオフをどう行うかについての考えを共有する予定。つまり、多くの人が僕らの製品を気に入ってる。7億ユーザーがいて、推論を使えば使うほど、容量が不足する。レート制限を設定せざるを得ないが、人々はそれを望まない。」
他にも何人かのOpenAIの人がレート制限について話した。もう一つは、今回初めて見たデータで非常に興味深かった。僕らは推測してて、このことについて話したことがある。僕は講演によく行って、何百人もの部屋で「推論モデルを使ったことがある人は?o3を使った人は?」って聞くと、5人ぐらいしか手が挙がらない。
だから僕らの感覚チェックや目視チェックでは、推論モデルが何かを知ってる人は1%未満、3%未満やと思ってた。これは1ヶ月前の話や。OpenAIがこれを確認してくれた。
OpenAIユーザーの大多数は、推論モデルが存在するかそれが何をするかを全く知らない。7億ユーザーがいる。多くの人にとって、GPT-5は推論モデルと初めて相互作用する機会やけど、組み込まれてるからたぶんわからないやろう。
サムのツイート:「推論モデルを毎日使ってるユーザーの割合は大幅に増加してる。例えば無料ユーザーは1%未満から7%に、Plusユーザーは7%から24%になった。」
これは大きな飛躍やけど、つまり月20ドル払ってる人(Plusは20ドルでProが200ドルや)のうち、推論モデルを使ってたのは7%だけってことや。これはワイルドや。
7から24になると、計算容量が大規模になる。
それから他に3つの簡単な考えがある。みんながGPT-5について答えを待ってた大きな質問は、他のフロンティアモデルに対して飛躍的進歩になるかということやった。GPT-4が2023年3月に出た時は、1年半の間最先端やった。GoogleやMicrosoft他がGPT-4と同等のものを作るのに1年半かかった。
だから質問はずっとこうやった。OpenAIには何か秘密のソースがあるんやろか?他の会社より6から12ヶ月先行できるような、何か特別なことをやってるんやろか?答えはノーや。
僕の推測では、GoogleのGemini 3、次のClaudeバージョン、次のGrok(Grock)バージョンが全部GPT-5を飛び越えるやろう。Gemini 2.5 Proがすでに一部の能力でGPT-5より良いって議論もある。
だからフロンティアモデルが商品化されたって答えが出た。今のところ明らかな秘密のソースはない。つまり配信のゲームに戻ったということや。7億ユーザーの前に同等のモデルを置けるのは誰か?OpenAIは7億で、これは巨大や。
でもAppleのようなところは、ゲームに戻ってきた。もしAppleなら、最高のものは必要ないって気づく。独自のフロンティアモデルを構築する必要はない。Googleなら、10億ユーザーを超える製品が7つある。7つのパワープラットフォームと製品で、配信が再び大規模になる。
それから僕が持ってる大きな質問は、GPTsはどうなったのかってことや。何も聞かなかった。
見に行ったら、変わったのはGPTの作成者として推奨モデルのモデルセレクターが「5 thinking」または「5 Pro」になっただけのようやった。
だから僕はズームアウトして、高レベルで言いたかったのは、僕らが本当に待ってたのはモデル選択の問題やった。ClaudeやGeminiを愛してる人がChatGPTに戻ってくるような、他とは異なるフロンティアモデルになるんやろか?
全体的に、本当に賢いモデルのようや。平均的なユーザーは違いに気づかないやろう。いろいろ宣伝してるけど、この時点で本当に差別化されてるものはほとんどないように見える。
でもマイク、あなたはもっと時間をかけて使ったやろ?何か他に異なる印象や初期フィードバックはある?
マイクの個人的体験と市場の反応
そうやな。君の意見に概ね同意する。ただ、これは一部の人には狂って聞こえるかもしれんけど、個人的に僕はこのモデルが大好きや。本当により有用やと感じる。単純により賢いからや。
本当に速い、これは本当に助かる。もっと多くのことができる。これまでテストしたプロンプトやワークフローがすべてうまく機能する。これは素晴らしい。
個人的にモデルを切り替えることにはそれほど好みがない。4oは少しバカすぎると思った。o3は素晴らしかったけど、o3 Proが僕の使いたいお気に入りのモデルや。しかし、フォーマットの遅さや、素早く行き来して反復や会話ができないことに時々フラストレーションを感じることもあった。
僕にとってこのモデルはその円を平方して、本当に完璧なバランスを提供してくれる。個人的にトーンもずっと好きや。これは全部個人的な好みやけど。このモデルがあることを本当に嬉しく思ってる。一方で、その存在を嫌ってる人もいる。本当に興味深い。
また付け加えるとすれば、恐ろしいウサギの穴に入りたいなら、ChatGPTのサブレディットを見てみろ。4oに深く感情的に愛着を持ってる人たちの話がある。どこまでが大げさでバイラル狙いかわからんけど、禁断症状を経験してる人が書いたような投稿がめちゃくちゃ多い。
本当に本当に奇妙や。これがサムが愛着について言及してたことやと思う。セラピスト、友達、仲間として、そして僕らは何が不健康で何が受け入れ可能な個人選択かのバランスを取るという困難な仕事がある。彼らはチャットを見ることができるから、人々がこれらのもので何をしてるかを知ってて、メンタルヘルスに良いこととの間でバランスを取ろうとしてる。
それが展開されるのを見るのは本当に興味深い。彼らはローンチ資料全体で健康に面白い強調をしてた。だから人々が良くも悪くも感情的・身体的健康ニーズのためにこれに頼ってることを本当に理解してると思う。
比較したことある?Geminiの2.5 Proはよく使う?
うん。
GPT-5とヘッドトゥヘッドでどう比較すると思う?並べて比較したことある?
業界の競争激化とGoogleの動向
まだそんなにやってないけど、Gemini 2.5 Proは本当に好きでいろんなことに頼ってる。でも普通は使用ケースに応じてそれとo3/4oのどちらかを使い分けてる。明らかに4oよりははるかに良いけど、スピードや複雑さの面でどうかということや。
次にやりたいのは、同じ用途でGPTsとGemsを構築してるから、これらがどう積み重なるかを見ることや。それがどう展開するか興味深い。
今朝もGoogleが何かをリリースするという話がもっと出てきてるし、彼らはただ座って待ってたんやと確信してる。たぶん評価でより良いパフォーマンスを発揮するものを持ってるって知ってて、チキンゲームのようなものやった。「お前が先にリリースしろ」みたいな。OpenAIが彼らに何度もそうしてきたからな。
だからGoogleが同等か一部で優れたものを出してきても全然驚かない。
最後の印象や視点として、人々には偏見なしでこのモデルをできるだけ広範囲に使ってもらいたい。僕は本当に極めて印象的やと思う。僕らはこのバブルにいると簡単に「Googleが出すものを見て、OpenAIは死んだ」とか「ChatGPTはダメ」とか言いがちやけど、これは僕にとって最低限実行可能なAGIのように感じられる最初のものや。
でも40についても違う文脈で同じ議論ができるやろ?だから視点を保つことは価値があると思う。これは僕にとって本当に有用なモデルで、多くの時間でうまく機能するし、それを本当に評価してる。
そうやな。同意する。とにかく入って試してみることや。そして、人々が推論モデルを使ってなかったなら、GPT-5がすることは彼らが知らないうちに推論をワークフローに注入することやから、飛躍的進歩のように感じられるやろう。
それが最大のことや。僕が何度も話してきたように、2.5 ProやChatGPTのo3を使うのは、少なくとも僕にとって今の使用の大部分が高レベルの戦略的思考のための推論モデルや。もしそれらを使ってなかったら、これらのモデルが仕事の性質をどれだけ変えるかを本当に理解できない。
この最初のパニックを乗り越えたら、あの数字を考えると、推論モデルを使う人が突然4、5、6倍になったことを考えると、今後この模型について人々が何を言うか、もっと多くの話を聞くことになるんやろうな。
そうやな。来週のあなたのコースを楽しみにしてる。
Google DeepMindのGenie 3と世界モデル
次に、Google DeepMindがGenie 3を発表した。これは画期的な世界モデルで、完全にインタラクティブなフォトリアリスティック環境をリアルタイムで生成できるというものや。
以前のバージョンのGenieとは違って、Genie 3は24フレーム/秒でレンダリングでき、数分間視覚的・物理的一貫性を維持して、ナビゲーションとテキストベースのプロンプト両方に即座に応答する。
このモデルは火山風景や魅惑的な森のような完全な仮想世界をシミュレートできる。古代アテネのような歴史的サイトも短い説明だけで再現できる。
そしてそれらの世界は進化する。動的に進化するビデオゲームの中にいることを想像してみろ。あなたが探索するにつれて進化していく。天候を変えることから新しいオブジェクトを追加することまで、ユーザーがその場で条件を変えることができるプロンプト可能な世界イベントがある。
DeepMindは実際に世界モデルをAGIへの重要なステップと見てる。なぜなら、AIエージェントが学習し適応するための無限の仮想訓練場を提供するからや。
Genie 3の長期間一貫性は本質的に、エージェントが今では複数ステップの目標に取り組めることを意味する。これはロボティクス、教育、科学の分野での複雑なシミュレーションへの扉を開く。
でも今のところこれはまだいくらか制限されてる。インタラクション継続時間がかなり短く、アクションが制約されてて、限定的な研究プレビューの段階や。ショーノートにリンクを提供するけど、いくつかの事前作成された例をテストできるが、直接自分で使うことはできない。
でもDeepMindはこれを生成環境の進化における重要な瞬間と呼んでる。
ポール、世界モデルは一部の人にはちょっとSFのように思えるかもしれん。まだ一般公開されてないし、GPT-5の大ニュースもある。でも世界モデルがAIの長期的な軌道にとってかなり重要やから話したかった。なぜそんなに重要なのかを説明してもらえる?
これは何年もの間、研究所の追求やった。機械に物理世界を理解させ、物理法則に従うシミュレーションを作る能力を与えるというアイデアや。
特にDeepMindとDemisは過去1年間、世界モデルについてもっと多く話してきた。今日の準備で過去を振り返ってたとき、Demisが世界モデルとその重要性について話してた、僕らがポッドキャストで取り上げた様々な引用を見返してた。
彼らはビデオ生成のVOについても話したけど、これは彼らの言葉で言うと、十分なビデオデータで訓練すると物理法則を理解し始めるということや。そしてシミュレーションの作成を求めると、ただそれをやるようになる。
今回のローンチ投稿で彼らが強調してる制限はたくさんあるけど、本質的にはアプリケーションの可能性を全部開く。AGIへの道筋について考える時、知性を具現化してヒューマノイドロボットに入れて、そのロボットが何かが起こってるのを見て、物理法則や人間の性質を理解してるから次に何が起こりそうかを先に考えられるようになる。
これは自律走行車を訓練するときや、人間環境で働くロボットを訓練するときに必要になる。これらすべてが不可欠になる。
興味深い例がいくつかある。マイクが言ったように、世界の物理的性質をモデル化できる。水や稲妻、複雑な環境相互作用のような。自然世界をシミュレートする。動物の行動から複雑な植物の生命まで、活気ある生態系を生成する。また学習して再現できる。
これは物語作成でも活用される可能性がある。ビデオゲーム開発では、リアルタイムで環境をレンダリングする。今はプログラマーがゲームで起こるすべてのコードを書いて、すべての環境やそういうものを作ってる。彼らが思い描いてるのは、イーロン・マスクもよく話してるけど、来年にはこれが現実になると彼は思ってる。
あなたが入って自分のビデオゲームをプロンプトして、すべてがリアルタイムで起こり始める。あなたが見るものすべてを作成する。それはかなりワイルドや。
他の具体例として、今テスラで自動運転をしてる時、非常にビデオゲームのようなシミュレーションが表示される。車を示して、近似サイズの車を表示する。トラックやバイクは表示されるけど、周りの道路のライブストリーム動画を見てるわけやない。
これが言ってることと、イーロン・マスクがテスラが向かってると示唆してることは、テスラを運転してて完全自動運転が動作してるのを見てる時、実際にディスプレイに物理世界をレンダリングして表示するが、それはライブストリームやない。
実際にこの全世界をシミュレートしてるレンダリングが発生してる。これは本当にクレイジーで、ロボティクスでは大規模になる。これらの環境をシミュレートして、ロボットがその中で訓練できて、あらゆる種類のことができるようになるからや。
世界モデルは巨大や。Fei-Fei LiのSpatial Intelligenceという会社について話した。彼女が作った会社や。それが何エピソードかは忘れたけど、ショーノートにリンクを貼ることができる。彼女は主要な研究所で行われてる研究に加えて、これについて集中的に取り組んでる人や。
GPT-5の誇大広告や評価に関係なく、AIの多くの異なる前線で進歩が起こってて、その多くで減速していないということを思い出させてくれる。
そうやな。そして一般的に公開されてるものより6から12ヶ月先行してる。だから彼らがこれをリリースしてるなら、研究所内ではすでにおそらくこれをはるかに超えてる。
そうやな。イーロン・マスクのような人がいて、ストレートにツイートして「これは3ヶ月で来ると思う」って言う。イーロン・マスクから読みたいものをフィルタリングする必要があるけど、何が可能かについての彼の本当の洞察や明確な思考の流れが欲しいなら、誰も彼ほど正直に何が起こると思うか、これらの他のモデルについての意見、どこに向かってるかについて話す人はいない。
彼は技術がいつ到達するかについて誇大宣伝する歴史があるけど、1年半で世界最高のモデルに追いついたフロンティアモデルを構築した。だから科学技術についていくつかのことを知ってる。その面から注目する価値がある。
CloudflareとPerplexityのウェブクローリング論争
3番目の大きなメイントピックは、CloudflareがAI検索スタートアップのPerplexityがサイトブロックを回避するためにウェブクローラーを偽装してると言ってることや。これはステルスクローリングとして知られる慣行や。
Cloudflareによると、Perplexityのボットがrobots.txtルールやファイアウォールブロックに当たると、時々perplexitybotからMac OSのGoogle Chromeのような別のものにアイデンティティを交換して、公式リストにないIPアドレスをローテーションする。
基本的に、Cloudflareは会社が検出を回避するためのことをしてるって言ってて、ネットワーク識別子を変更することも含む。これは何万ものドメインで毎日何百万ものリクエストを行うために使われてきた戦術やと主張してる。
PerplexityはCloudflareの主張に対してかなり強く反発してる。詳細な反論で、彼らは意図的な不正行為を否定した。Cloudflareの投稿を宣伝スタントと呼んで、会社が正当なユーザートリガーリクエストとボット活動を混同したと言ってる。
Perplexityによると、AIアシスタントは本当は従来のウェブクローラーやない。インターネットを体系的にスクレイプして保存しない。代わりに、ユーザーが質問した時に特定のページをリアルタイムで取得して、そのコンテンツを使って答えて、訓練や長期保存なしでそれを破棄する。
これに応じて、CloudFlareは今Perplexityを検証済みボットから除名して、そのクローラーをブロックする新しい方法を展開した。
ポール、これは表面的には少し技術的で詳細に入り込んでるように見えるけど、かなり重要な問題のように思える。間違ってたら訂正してくれ、でも核心では、これはAI企業が出版社やウェブサイトが設定した境界をどのように尊重するか、しないかについてのことのように思える。
彼らのコンテンツがどのようにアクセスされ使用されるかについて。モデルがどう訓練されたか、コンテンツがすでにどう使われたかを考えると、この素材がスクレイプされてモデルの訓練に使われたり、ウェブサイトを完全に迂回するのに使われることへの大きな恐怖がある。
そうやな。これは過去数年間ずっと続いてることや。エージェント側は新しいけど、そうやな。
Perplexityの場合の問題の一部は、これが彼らのやり方やということや。前に、僕らがArvinがLinkedInを利用規約に反してスクレイプしてたことを文字通り自慢してた話をしたエピソードがあった。彼らがやることで、捕まるまでやるって誇りに思ってたんや。
だから記録でこういうことを常にやってるって言ってる時、「いや、何も悪いことしてない」って出てきても信頼性がない。「おい、お前は前にこういうことを認めてたやろ」って感じや。
でもそれを除いても、現実は最終的にウェブとビジネスのルールが書き換えられてるということや。こういう厄介な事例が出てくる。僕らは「でも本当はスクレイプしてない。エージェントで、エージェントがユーザーによってリクエストされてる。だから実際はユーザーがウェブサイトを訪問してる」という意味論を持つことになる。
これがビジネス合意や裁判やその他を通じてどう展開されるかわからんけど、これらの種類の問題に遭遇する非常に長い移行期間を迎えることになる。AIエージェントはこの大部分になるやろう。ウェブ上のトラフィックでAIエージェントから来るものが多くなるほど、ブランドにとって、出版社にとって対処するのがより困難になる。
これは僕らが著作権と苦労してることに似てる。モデルがそれを盗むことを許可されてたのか、されてなかったのか、フェアユースやったのかそうでなかったのか。エージェントがウェブに浸透して、オンラインで取られるトラフィックやアクションの多くがエージェントによって取られるようになると、答えのない質問がたくさん出てくる。
今でも問題があるという事実は、本当のAIエージェントの爆発的普及の前に、僕らは何が起ころうとしてることに準備ができてないってことを教えてくれる。
そうやな。ウェブサイトの出版社として、ブランドとして、これらのユーザーやエージェントやボットに僕らのサイトをクロールしてほしくないって言うことはできる。
でもそしたら何?チャットボット、AIアシスタント、AIエージェント経済から外れることになる。あなたのコンテンツはどこにも表示されない。
簡単な答えはない。でも僕が言ったように、将来の仕事がどこにあるかを見ると、この種のことを解決して、すべての問題や課題を整理して、このようなことの計画を立てることが人々の仕事になる。
でもこれは厄介なやつや。そしてこれは基本的に氷山の一角のようなもので、もっとたくさん来る。
急速展開ニュース
では今週のラピッドファイアに入ろう。
まず、OpenAIがGPT-2以来初のオープンウェイト言語モデルをリリースした。GPT-o1-120BとGPT-o1-20bという2つの新しいモデルがあって、Apache 2.0ライセンスで無料ダウンロードできる。つまり誰でもローカルで実行して、ファインチューニングして、商業的に使用することさえできる。
チェーン・オブ・ソート推論、ツール使用、コード実行をサポートしてる。120億パラメータと200億パラメータの小さいバージョンがある。200億パラメータバージョンはハイエンドのコンシューマーラップトップで実行できる。
OpenAIによると、これらのモデルは一部の独自システムと同等の性能を示し、特定のベンチマークでは運用コストが安くて速いにも関わらずそれらを上回る。
CEO サム・アルトマンは、中国のDeepSeekのような場所からの競争の中で、米国でオープンモデルのイノベーションを維持する方法として、このリリースをフレーミングした。
ポール、OpenAIの動機について興味深い。明らかに彼らはいくつかのことを抱えてる。なぜクローズドモデルへのアクセスを販売することに依存してるビジネスモデル全体なのに、オープンソースで競争するために貴重な時間とリソースを費やすのか?
これをやるって長い間話してたし、オープンソースコミュニティやオープンウェイトに対してコミットしてたからな。だから来ることは知ってた。研究所がこれを見る方法について少し話したことがあるけど、Demisもはっきり言ってて、これが彼らがやってることや。
リリースするオープンソースバージョンは基本的に去年の独自モデルのようなものや。販売してる独自モデルは良くなり続けて、よりスマートになり、より一般的に有能になる。だいたい8から12ヶ月がリリースサイクルやとしよう。GPT-5は明らかにもう少し時間がかかったけど、ほとんどの場合、研究所は次のバージョンの約8から12ヶ月のリリースサイクルを見てる。
だから約12ヶ月ごとに、今では少し時代遅れになった前バージョンを、安全にオープンソースできる限りはオープンソースにする。
明らかに、有料ユーザーは利用可能な最新バージョンに対してお金を払い続けるという信念がある。さらに、開発者コミュニティにサービスを提供して、関係を構築して、API統合して、まだこれらの研究所、特にOpenAI、Anthropicは APIを通じて収益の多くを得てる。
だから開発者コミュニティにサービスを提供してその一部になることや。そして組織の全体的なミッションもある。
Zuckerbergのようにオープンソースの究極のチャンピオンやった人が、すでにそれから離れるかもしれないって言ってるのを見てきた。技術の一部をもっと社内に保持するかもしれないって。
でも再び、彼らがやることは現在のフロンティアモデルを独自に保持して、前世代をオープンソースにして、ユーザーの小さな部分がオープンソースだけを使って他のものにお金を払わないことを受け入れることや。
だから既存製品を共食いするリスクのない方法、少なくとも開発者の好意を得て、エコシステムを前進させて、オープンソースモデルで構築してる人々との関連性を維持する方法や。
そうやな。一部の組織ではオープンソースで構築したいだろうし、企業に入ると、5000のChatGPT Enterpriseライセンスを持ってるかもしれんけど、ITチームもオープンソースモデルの上で構築してる、みたいなことがあるやろう。
OpenAIの株式現金化と企業価値の急上昇
次に、OpenAIのニュースをもう少し。従業員が約5000億ドルの評価で株式の一部を現金化できるよう、初期の協議を行ってる。
これは二次株式売却で、数十億ドルの価値になる可能性があり、現在と元スタッフが紙の富を実際のお金に変える方法を提供しながら、Metaが9桁で人材を引き抜こうとしてる時代に会社が人材を保持するのを助ける。
これは基本的にOpenAIの評価を最後の3000億ドル評価から5000億ドルに大幅にジャンプさせることになる。この評価はSoftBankが主導した400億ドルの資金調達ラウンドでの価格やった。
これは超過申し込みされた83億ドルの資金ブーストの後に来て、OpenAIが製品を積極的に推進してる時や。オープンウェイトモデル、GPT-5がある。すぐに連邦政府にChatGPTを提供する連邦取引について話す。
ポール、OpenAIから従業員が現金化できることについて、今この動きを動機づけるものは何やと思う?
他の研究所からたくさんのお金で引き抜かれてるし、人々に留まる動機を与える方法を見つけなあかん。テーブルから何かを得る能力を与えなあかん。だから理にかなってる。
ちょっと調べたんやけど、時価総額で世界最大の企業のリストを見て、5000億ドルの重要性について少し視点を提供したい。かつて世界最大の企業やったExxon Mobileの時価総額は4550億ドルや。Netflixは5150億、Mastercardは5190億、Visaは6490億。
1兆ドル以上のマークには何があるかというと、Tesla、Berkshire Hathaway、TSMC、Broadcom、Meta、Amazon、Alphabet、Apple、Microsoft、Nvidiaがある。それだけや。世界で1兆以上の企業のリストはそれや。
5000億から1兆の間には実際に2社しかない。いや、7社やな。世界で20から25の最大企業の一つやということや。
5000億は大きな数字や。だから他のAI研究者の多くが億万長者、いずれは億万長者になるのを見始めることになる。
クレイジーな統計があった。正確な数字は覚えてないから引用しないでくれ、でも調べてみろ。Nvidiaの従業員で億万長者の数と2500万以上の価値がある人の数。
会社の株で、9年以上そこにいた人なら、1000万、2000万の価値がある。クレイジーや。大きな割合や。
でもこれが一部の大規模AI企業内で起こることや。みんながその一部になれば、ただたくさんのお金を稼ぐことになる。
Anthropic Claude Opus 4.1のアップデート
次に、AnthropicがClaude Opus 4.1をリリースした。Opus 4からコーディング、研究、推論タスクで注目すべき向上を示してる。リアルワールドコーディングの厳しいテストであるSWE-Benchで74.5%の評価を得た。
一部の企業は、不要な変更を行わずにコードの正確な修正を特定するのが優れてると報告してる。コーディングスタートアップのWindsurfは、改善がSonnet 3.5からSonnet 4へのジャンプとほぼ同等だと、彼らのジュニア開発者ベンチマークで言ってる。
コードを超えて、Opus 4.1はより強いエージェント検索と詳細追跡を持ってる。深い研究とデータ分析により効果的や。このアップグレードは以前と同じ価格でClaude Code、API、Amazon Bedrock、Google CloudのVertex AIを通じて有料ユーザーが利用できる。
興味深いことに、これに関連して、リリース直後にAnthropic研究者のAmanda AskellがClaudeのシステムプロンプトの全体的なアップデートについてより多くの情報を共有した。これは本質的にモデルがどう振る舞い応答するかに影響する主要プロンプトや。
新しいモデルに加えて、Claudeがどう動作するかをフードの下で見ることができた。これらは基本的にClaudeがユーザーとどう相互作用するかに関する多くのアップデートと調整や。
例えば、Askellは一つの変更がモデルからの過度にカジュアルな言語と不必要な悪態を抑制するために行われたと共有した。別の変更はClaudeが聞くすべてのアイデアを誇大宣伝するのではなく、公平で批判的になるよう促す。
Claudeはまた、微妙なヒントを落とすだけでなく、誰かがメンタルヘルスの問題を扱ってる疑いがある場合、より直接的になる。
ポール、他のニュースサイクルなら、これは大きなストーリーになってたやろう。明らかにGPT-5がすべてを覆い隠すけど、Amandaがシステムプロンプトのフードの下を覗かせてくれたのは本当にクールやった。
間違ってたら訂正してくれ、でもこれは少なくとも一部の研究所がシステムプロンプトについて、少なくとも巨大な変更があって、GPT-4oがその個性に本当に論争的な変更があった時や、最近Grokがシステムプロンプトの問題で本当に最近狂った人種差別的行動をした時のように、強制されるまでよりも透明のようや。
このシステムプロンプトのことについて、何がクールだったかを教えてくれ。
Amandaは基本的にClaudeの後ろの個性を主導してるから、彼女をフォローするのがいい。Xでそういうことについてかなり透明や。
システムプロンプトについて、研究所はあまり率直やないけど、抽出するのは難しくない。Plenny the Liberatorというユーザーがいると思う。ハンドルはelder_pliniusで、リンクを貼っとく。この人はすべての主要アップデートの1時間以内にシステムプロンプトを落とす。ハッカーで、システムに入ってシステムプロンプトが何かを見つけることができる。そしてXで全体のシステムプロンプトを公開する。
だからシステムプロンプトが何か知りたかったら、Plennyをフォローすれば知ることができる。彼が多くの研究所にリクルートされてることも知ってる。特にAnthropicが最近彼を雇おうとしてて、彼がそれについてオンラインで少し話してた。
システムプロンプトは興味深い。システムにどう振る舞うかを指示する話し方を見ることで実際に多くのことを学べる。
関連して、先週は僕がコースを終わらせるために必死になってて、毎日脳がオーバードライブ状態やった。だから新しいことを始めた。毎晩ランニングに出かけるんや。だから3マイルぐらい走って、たくさんのポッドキャストを聞いてる。1.75倍速にして、毎晩3マイル走ることでたくさんのポッドキャストを聞けるようになった。
先週聞いた5つのポッドキャストが全部本当に良くて、今週末のニュースレターでリストアップするかもしれん。でも特に一つ、話全体のポイントとして、Big Technology PodcastがDario Amodeiとのインタビューをしてた。
マイク、このインタビューを聞かなあかん。Darioは怒ってる。これまで見た中で最も、彼は一般的にかなり本物の人で、感情を少し袖に着てるように見えるけど、Jensen Huang(NvidiaのCEO)が彼を破滅論者のように非難した引用があった。
「この人は破滅論者や。物事を遅くしたがってる」って言って、Darioは「僕が今言ったことを聞いたか?」って言った。彼はAIを進歩させ加速させる努力について話してた。
「僕の父は数年後に起こり得た治療法のせいで亡くなった。僕はこの技術の利益を理解してる。批判を聞いたことがあると思う」これは今ホストが質問してる。「DarioがAIを安全に構築できるのは自分だけだと思ってて、だから業界全体をコントロールしたがってるとJensenのような人から言われる批判を聞いたことがあると思う。」
Darioは「そんなことは一度も言ったことがない。それは言語道断の嘘や。僕が今まで聞いた中で最も言語道断の嘘や」って言った。
彼は本当にエッジが効いてた。全体が興味深い。OpenAIとの競争、どうやってお金を稼ぐか、モデルをいつリリースするかの選択、安全性へのAnthropicのアプローチなど、すべてについて。リンクを貼っとく。1時間ぐらいの長さやけど、価値がある。
AIの経済への影響とレイオフデータ
次に、まだAIの経済への影響の明確な全体像を把握しようとしてるけど、少し進歩してるかもしれん。
まず、アウトプレースメント会社Challenger Gray and Christmasが、2025年の最初の7ヶ月で1万以上の米国の雇用削減が雇用主の生成AI採用に直接関連してることを発表したレポートが出た。AIが前の期間と比較して4倍多くの説明に出てくるとも言った。
同時に、Wall Street Journalの報告を含む他のレポートによると、核となる質問が経済学者を困惑させてる。もしAIが人間労働を置き換えたり生産性向上を生み出すのにそれほど価値があるなら、なぜマクロ経済レベルで生産性向上の形で影響が現れないのか?
これまでのところ、経済学者はAIが真に経済を変革してるならGDP数値に現れることを期待するGDPに全く現れてないと言ってる。
でもEric Brynjolfsson(前に言及した人でAIの経済への影響を研究してる)を含む研究者による新しい研究によると、AIの影響が他の数値に現れてるかもしれない。
BrynjolfssonとMicrosoftoleaguesは、政府データが生成AIの価値をほとんど登録してない一方で、アメリカ人は2024年だけで無料または低コストのAIツールから推定970億ドルの「消費者余剰」を得たと論じてる。
彼らが定義して定量化する方法は、基本的に米国の成人が無料または低コストのAIツールの使用を諦めるためにいくら支払われる必要があるかを推定することや。彼らが実施した調査に基づいてこれを月98ドルと推定した。つまり、ユーザーが毎月それらのツールから得てる価値の暗黙の推定のようなものや。
そして彼らはそれをAIの定期ユーザーの推定数で掛けて、970億ドルという数字を出した。本質的に、消費者がこれらのツールから970億ドルの価値を得てると言ってる。
これらは企業ではなくユーザーに発生する利益で、GDPには現れない。従来GDPは市場取引のみをカウントする。だからこの種のことは見えない。
BrynjolfssonとMicrosoftolleaguesは、これは経済学者が1980年代から始まったコンピュータで発見したパラドックスに似てると言ってる。技術がどこでも見えるようになり始めるが、生産性統計には現れない。
ポール、AIの雇用影響について実際のデータを見るのは興味深い。その1万の雇用ははっきりと影響があることを示してる。僕らが行ってる会話を通じて逸話的に影響があることを知ってるけど、経済データには本当に現れてない。ここで見てる矛盾について説明してくれる?
オピニオンピースは「新しい無料商品の価値に対するGDP-B会計」という近刊論文に基づいてる。この記事を3回読んだと思う。彼らが何を言ってるかを理解しようとしてた。
価値がGDPでカウントされない理由の論理は理にかなってて、非常に論理的で分かりやすい。970億に到達する計算はかなり主観的で、ある種の数学的体操のように見える。ヘッドラインに載せるには本当に良い数字や。
消費者余剰の概念と、マイクにChatGPTを使わないのにいくらかかるかを聞いて「わからん、100ドル」みたいに言うことで、どうやってその数字を出すのか?
再び、僕は判断を保留する。僕らがこれをやってるという事実を愛してる。経済学者が価値を測定する他の方法を見つけようとしてることを愛してるし、論文自体が出た時は素晴らしくて完璧に理にかなってるかもしれん。500語のオピニオンピースの形では、彼らがその数字をどう出してるのか、その数字がどれだけ有効かを理解するのはかなり難しい。
でも良いヘッドラインにはなる。たぶん論文が出るのを待つべきやった。
僕らがそのことについてもあまり深く入らないが、この研究が最終的にひどいものになったとしても、人々はAIについて頭を悩ませてる。僕らは自分の仕事で生産性向上を見てるのに、それがどこに現れてるのか?経済に十分拡散してないだけなのか?数字はどこに現れてるのか?
でも僕らが過去に話したように、経済学者は正しいことを測定してるのかについても時々懐疑的や。他の分野で起こってる生産性向上に気づいてるのか?だから確実に関連性のある会話で、タブを保持し続ける必要がある。
僕はこれについてあまり時間をかけたくないが、ここでの要点も、経済学者が正しいことを測定してるかということや。
僕が出なくて、ChatGPTユーザーで推論モデルを使ったことがなくて、システムの完全な価値を知らない人だと仮定しよう。チャットGPTを諦めるのに何がかかるかを僕に聞いて、「わからん、25ドル、50ドル、100ドル」って言う。僕やマイクに聞いたら、「おい、わからん、10万ドル」みたいな。僕らにとってたくさんのお金の価値がある。
そして「これらのツールを1ヶ月間諦める彼らの平均評価は98ドルであることがわかった。それに8200万ユーザーと12ヶ月を掛けて970億ドルの余剰が表面化する」って言う。「待って、何?」みたいな。970億に到達するのはかなりの飛躍のように見える。
でも再び、方向性は好きで、実際の論文を見ることを切望してる。彼らは尊敬される経済学者で著者や。
ChatGPTの内部動作と検証システム
次に、ChatGPTの内部動作を覗かせてくれる2つの新しい記事がある。一つは高度に技術的な視点から、もう一つは行動的な視点から取り組んでる。ChatGPTとAIがどこに向かってるかを理解したいなら、両方とも理解することがかなり重要や。
まず、The InformationがOpenAIが今ChatGPT内で「ユニバーサル検証器」を「秘密兵器」として使ってると報告してる。基本的にユニバーサル検証器は、AIの答えがもっともらしいだけでなく実際に正しいかどうかをチェックする技術や。
基本的に他のモデルの作業を評価するレフェリーAIモデルのようなもので、複数のソースから研究を引っ張ってくる。例えば数学では、AIが数学問題を解くために従う各ステップをAIに検証させる。
The Informationは、ユニバーサル検証器がOpenAIの最新モデルが国際数学オリンピックで金メダルを獲得するのを実際に助けたかもしれないと推測してる。これは過去の週で話したことや。
研究者は、このアプローチがビジネス意思決定からクリエイティブタスクまで、主観的または採点が困難なドメインでのパフォーマンスを向上させる可能性があると言ってる。
2番目に、OpenAI自身が「ChatGPTを何のために最適化してるか」という投稿を公開した。その中で、ChatGPTをどう最適化してるかについて短い哲学を示してる。彼らはあなたをアプリにより長く留めようとしてるのではないと言ってる。必要なものを手に入れて、人生に戻れるよう助けようとしてる。
彼らは「使用時間やクリックによって成功を測定する代わりに、あなたが来た目的を達成して製品を離れるかどうかをより重視する」と書いた。
彼らはまた、人々がますますChatGPTを感情的・個人的ニーズに頼ってることを指摘してる。一部の新しいアップデートはそれを反映して、ChatGPTは長いセッション中に穏やかな休憩リマインダーを提供し、高リスクの個人的問題についてあなたのために決定することを拒否し、苦労してる時により思慮深く根拠のあるサポートを提供する。
明らかにOpenAIは、敏感な瞬間でモデルがどう応答するかを微調整するため、30カ国以上の90人以上の医師と、メンタルヘルスと人間コンピュータ相互作用の研究者と協力したと言ってる。
ポール、これらはChatGPTがフードの下でどう動作するかについて本当に異なる見方やけど、両方とも理解するのに有用やと思う。最初にユニバーサル検証器がなぜ重要かについて簡単に触れて、それからOpenAIの感情的・行動的アプローチについて話そうか。
僕らが何度も話してきた検証ギャップは、検証器がなぜそれほど価値があるかを示してる。出力を見ることができる他のエージェントやAIが多いほど。だから42ページの深い研究製品を得て、人間がそれを通って検証しなければならない。
もし彼らがその上に本当にスマートな検証器を構築して、すべての統計をチェックして、すべての引用が正しいか確認して、データが本物か確認して、そういうことのルックアップをするなら、人間にとってより高い価値の仕事をますますできるようになる。
だから検証器は、モデルの訓練、モデルの強化学習だけでなく、実際の使用においても重要になる。秘密兵器であることは少し誇張のように思える。他の研究所がこの種のことに取り組んでることを確実に知ってる。公開で話してる。
だからOpenAIが検証器の使用で1、2ヶ月先行してるかもしれんけど、研究所内で検証プロセスを行うことができるエージェントを構築するのは、かなり標準的な慣行のように思える。
もう一方の感情的・行動的なことについての彼らのコメントの一部は本当に興味深いと思った。「僕らはあなたをアプリに引き込んでクリックし続けてもらおうとしてない」って言って、名前を挙げてない会社を狙ってたと感じる。
人材の募集と保持の一部でもあったと思う。基本的に「聞いて、XAIやMetaで働きに行くなら、この技術を収益化してプラットフォームに人々を留めることに自分を売り渡すだけや。それが彼らがソーシャルプラットフォームでやる必要があることや」って言ってる。
クリックと滞在時間と日次アクティブ使用、時間次アクティブ使用、彼らの指標が何であれ。「それは僕らがここでやってることやない。だからお金以上のもの。僕らは実際に世界を良くするためにここにいる。広告やクリックや滞在時間でもっとお金を稼ぐためやない」みたいなミッションのことや。
だからかなり微妙やないジャブやった。Metaと特にXAIを想像する。
OpenAIの連邦政府契約
次に、OpenAIが来年、米国連邦行政府全体でChatGPT Enterpriseを利用可能にする契約を結んだ。
合意の下で、参加する各機関は1機関あたりたった1ドルでOpenAIの最上位モデルへのアクセスを得て、Deep ResearchやAdvanced Voice Modeのような高度ツールの60日間無制限使用を追加で得る。
これにはカスタム訓練、専用政府ユーザーコミュニティ、SalomとBoston Consulting Groupからのコンサルティングサポートも含まれる。明らかにこのプログラムは官僚主義と書類仕事に費やす時間を削減して、公務員が核となるミッションに集中できるよう自由にすることを目的としてる。
OpenAIは有望性を示す初期パイロットを挙げてる。ペンシルベニアでは、従業員が日常タスクで約95分節約した。ノースカロライナでは、12週間のトライアルで85%のスタッフが肯定的な体験を報告した。
ポール、行政府への焦点が興味深い。彼らは発表でAIアクションプランを文字通り呼び出してる。だからこれはそれにある程度関連してるか動機づけられてると推測する。これは確実にOpenAIが連邦政府と地方政府により組み込まれる傾向のように思える?
そうやな。明らかに政権はこれらのことで非常に積極的に動いて取引をしてる。週末にNvidiaがH20チップ(だと思う)を中国に売ることが許可されたというニュースが出て、Financial Timesが彼らが本質的に政府を買収してそれを起こさせたという話をしてたと思う。
だからそれらの売上の収益の15%が連邦政府に戻る。彼らは基本的に関税の除外を買った。だから政府があちこちで取引をしてることを知ってる。
だから表面上は素晴らしい。より効率的な政府になる可能性が高い。間違いない。
僕の推測では、今後30日以内のどこかで、The InformationかFinancial TimesかBloombergかの誰かが、ここでの見返りは何やったかという話を持つ。OpenAIが1ドルで連邦政府にこれらのライセンスを与える代わりに何を得たのか?わからん。
表面上は素晴らしい。実際にこのものをどう使うかを訓練されれば、より効率的な政府になるやろ?
AI音声技術とMeta、11 Labsの動向
次に、11 Labs(AI音声技術で最もよく知られてる)が11 Musicで音楽に足を踏み入れてる。簡単なテキストプロンプトから数分で完全に制作された楽曲を作成できるAIジェネレーターや。
ボーカルありまたはなしで任意のジャンルやスタイルを生成でき、楽器と伝統をシームレスなオリジナルトラックにブレンドできる。明らかにクリエイティビティとコマースの両方のために構築されてる。映画、テレビ広告、ゲーム、ポッドキャストなどのライセンスオプションがある。
会社はこれをクリエイターがストック音楽の苦労をスキップして、完全にユニークなサウンドスケープを制作する方法としてフレーミングしてる。
興味深いことに、僕らがよく話すAI専門家で著作権支持者のEd Newton Rexが、会社のアプローチが少なくとも最初は市場の既存企業と異なるように見えることについて投稿した。
彼は「11 Labsの共同創設者が、彼らの新しいAI音楽モデルがライセンスを取得した楽曲のみで訓練されていることを確認してる。これを見るのは本当に良い。一握りのAI企業が生成AIはスクレイプされた著作権作品でのみ構築できると言おうとする時、AI音楽モデルの大部分が11 Labsのモデルを含めて今では訓練データをライセンスしてることを覚えておいてくれ。許可なく人々の音楽で訓練することが知られてるAI音楽企業の数社にとって非常に恥ずかしい」
ポール、Ed Newton Rexとこのスレッドでのフォローアップコメントで、11 Labsの共同創設者の主張を裏付ける証拠を見たいと言って、彼らが音声モデルをライセンスした音声のみで訓練したかについても数回尋ねたけど答えを得られなかった。でも少なくともこれは正しい方向への一歩のように思える。
技術は素晴らしい。他のものと同じや。画像生成、動画生成、音楽、何でも。常にこの根本的な「でも違法に訓練されてる」がある。
いつかは、話が消えるつもりはないが、この話が消えてほしくないわけやない。人々がこれらの研究所に圧力をかけ続けて、クリエイターに補償する方法を見つける必要があると思う。どうやってそれが起こるかの答えはわからんけど、多くのAI研究所はただ先に進んだように見える。
「もちろん僕らは彼らのものを取った。放っておいてくれ」というのが、研究所が呼び出された時の一般的な対応の要旨や。どうしようもない。
いつ最終的に何かを変える裁判ケースや何かを変える業界合意があるかわからん。でもそれまでは、何かがどれだけ素晴らしいかを話すたびに、いつも「でもまだ素材を切り抜いてる」がある。
MetaのAI音声企業買収と音声技術の未来
AI音声ニュースをもう少し。Metaが急成長AI音声スタートアップWaveformsを非公開額で静かに買収した。これは約1ヶ月でPlay AIの購入に続く2番目の主要AI音声買収や。これら全ては彼らの新しいAIユニット、Super Intelligence Labsの一部や。
Waveformsは8ヶ月前に設立されたばかりやったけど、すでにAndreessen Horowitzから4000万ドルを調達してた。1億6000万ドルの評価を受けてた。会社の技術は、いわゆる「音声チューリングテスト」を通過することに焦点を当ててる。基本的にAI音声を人間と区別がつかないようにすることと、感情的な手がかりを検出し応答する「感情的一般知能」の構築や。
2人の共同創設者、元MetaとOpenAIの研究者でGPT-4oの高度音声開発を手伝ったAlexis ConoとGoogle元広告戦略家のCoralie Lemehutreが報告によると、この一環としてMetaに加わった。
ポール、Metaは6月にPlay AIを買収した。AIを使って人間のような音声を生成するスタートアップや。Waveformsは感情的一般知能を構築してる。僕らが過去のエピソードでMetaの個人超知能を構築する野望について話してきた。これは本当にMetaが超個人化された音声アシスタントやコンパニオンを構築する方向に向かってるように思える。どう思う?
確実にその方向に向かってるように見える。Zuckerbergが最近のポッドキャストで音声プラスメガネについて記録で話してるのを思う。基本的にタッチがインターフェースとして大部分なくなって、知能との、エージェントとの、アシスタンスとのやり取りのほとんどが音声を通じて起こると彼らは考えてる。
周りの世界とのやり取りもそう。だから彼らがこの方向で多くの投資をするのは理にかなってる。再び配信の質問に戻る。明らかにOpenAIも同じ方向に向かってる。音声に大量に投入してる。
OpenAIがたぶんリードを持ってたように思える。まだ持ってるかもしれん。Googleも明らかに音声に大きな動きをしてる。
これを言ってる時に一つ思い浮かんだのは、マイク、あなたもChatGPTの音声を使ってると思うから、この問題があるかわからんけど、僕は大好きやけど、運転中によく使う。
でもデッドゾーンでいつも落ちる。すごくイライラする。それがオープンソースや、デバイス上のより小さな音声モデルをiPhoneに置くAppleの機会に繋がる。デバイスを離れる必要がなくて、中断されない音声会話ができる。
これはPixelを持つGoogleやiPhoneを持つAppleのような人の機会の窓や。デバイスを離れる必要がなくて、接続を失う必要がない。3分経って、接続が失われて音声がそこにいないことに気づく。「あ、僕が言ったこと全部完璧やった。それを繰り返したくない」みたいな。
100%。いつも起こる。Advanced Voice Modeがどれだけ素晴らしくても、音声が過小評価されてるか十分活用されてないと感じる。だからデバイス上に置くだけでなく、デバイスのタイプも、フォームファクターも重要やろ?
今は電話がフォームファクターや。OpenAIが何らかのデバイスを出すことは知ってるけど、何かはわからん。ウェアラブルがたぶんプレイかもしれん。AirPodsは信じられないやろう。こういうことが本当に大きなアンロックになる可能性がある。
そうやな。1年前はOpenAIがWhisper技術で構築してて、基本的にそれを解決したように感じた。それから勢いを失ったか、他のことをするのに十分な計算がなかった。非常に可能性がある。すべてを行うのに十分な計算がなかった。
でも再び、これらはApple、Googleのような、配信を持つ、デバイスを持つ古参の人たちの機会や。Johnny Iveと構築してるものは何でも、たぶん音声に何らかの形で結びついてる。
だから音声については、たぶん2025年中にもっとたくさん来ると思う。
Googleの学生向けAI教育投資
最後に、Googleが大学生に最も高度なAIツールを無料で提供する大きな動きをしてる。米国でのAI教育、訓練、研究に10億ドルをコミットしてる。
今から、米国の学生、そして日本、インドネシア、韓国、ブラジルも追加したけど、宿題の手伝いと研究のためのGemini 2.5 Pro、アイデア整理のためのNotebook LM、AI生成動画のためのVeo 3、GoogleのAIコーディングエージェントのより高い制限、2テラバイトのストレージを含む無料12ヶ月間のGoogle AI Proプランにサインアップできる。
このリリースはまた、ガイド付き学習もデビューさせる。これはGeminiのモードで、答えを与えるだけでなく、理解を深めるために生徒を段階的に問題を通して歩かせる。
米国では、Googleはまた、無料AI訓練とGoogle キャリア証明書を大学生に提供する新しいAI for Education Acceleratorに100を超える大学がすでに参加してると報告してる。
CEO Sundar Pichaiは、目標は最高レベルのAIを学生の手に置いて、それをうまく使う方法を教えることで、彼が「AI ネイティブ」と呼ぶ最初の真の世代として彼らが繁栄するのを助けることやと言ってる。
ポール、他のニュースでちょっと見落とされたかもしれんと感じる。ベンチマークせなあかんけど、3年間で米国の学校に10億ドルのコミットメントはかなり重要に思える。
すべての学生への無料AI訓練とGoogleキャリア証明書の提供。僕はかなりの会話をしてる、あなたもそうやと思うけど、教師や高等教育機関と。もし着地を決められれば、これは本当に針を動かすことができるものに感じる。
素晴らしいことや。4月にホワイトハウスからの人工知能教育をアメリカの若者に向上させる大統領令があったのとの関連がわからんけど、先月か何かに政策計画が出たと思う。大統領令は基本的に米国がAIの適切な教育への統合を促進し、教育者への包括的AI訓練を提供し、AI概念と技術への早期露出を促進することでアメリカ人のAIリテラシーと習熟を促進する政策やと言ってた。
次世代のアメリカの革新者でAI対応の労働力を開発するためにな。だからこれは「おい、僕らはこれをやる。タスクフォースを作って90日、180日、何でもでこれが計画や」って言ってたようなものや。
これがそれに関連したGoogleからのコミットメントかどうかはわからんけど、少なくとも非常に密接に連携してるように思える。だからこれは素晴らしいと思う。Microsoft、OpenAI、Anthropicが素晴らしいものをリリースしてるのをもっと見てる。
だから構築してる時に考えてくれ。皮肉なことに、今朝内部AI Academyの構築についてのAI Academyコースを作ってたから、これは僕にとって非常にトップオブマインドや。
チームの個人化された学習ジャーニーを構築する時に、これらのことについて考えてくれ。僕らは核となるカリキュラムを持つけど、Googleから何を引っ張れるか?これはもっとK-12やけど、概念的に、人々を本当に向上させて仕事の未来に備えることができるこれらの異なるリソースから何を引っ張れるか。
雇用を始める時も、人々がAI教育でどんなカリキュラムを受けてきたか、このもので理解と能力がどこにすでにあるかを見ることや。
だからこれを見るのは素晴らしい。Googleだけでなく、ホワイトハウスや他の主要企業からの本当に大きな焦点で、AIリテラシーが仕事と革新の未来、米国だけでなくそれを超えて絶対に重要やということや。
そうやな、100%。
ポール、GPT-5週間を乗り切ったな。
ありがとう。感じが違うな。僕が思うのは、全体的に素晴らしいように思えるということや。1年半待った後、GPT-5が出た日に世界が変わると思ってたんや。バックトラックの方が多かったような気がする。
わからん。30日、90日後に振り返った時、実際は僕が今気づいてるよりもはるかに大きな影響があったということになると感じる。もっと微妙になる。
今日の午後にGoogleが何かをリリースしたら、僕が今言ったことは時代遅れになるかもしれんけど、振り返って「あれが微妙な転換点やったかもしれん」って思うことになると思う。でも再び、バブル、誇大宣伝が制御不能やということを示してる。
この番組を聞いてる人なら誰でも、僕らは一般的にバブルに住んでる。あなたの同僚のほとんどはGPT-5が出たことやそれが何かを知らない。面白いことに、毎週ポッドキャストを聞いてくれる僕の父がよくメッセージを送ってくれるんやけど、翌朝にメッセージして「今日のニュースには何もなし」って言った。
だからGPT-5が主流メディアで話されてるかを見るためにニュースを見てたんやけど、何もなしって。それで再び、僕らがまだ一般大衆にとっては気にしないポイントに到達してないことがわかる。
次のStudio Ghibliフィルターがバイラルになるか何かまでは、彼らにとって非イベントや。
ポール、ありがとう。また来週話そう。
みんな、ありがとう。来週また話そう。
人工知能ショーを聞いてくれてありがとう。smarterx.aiを訪問してAI学習ジャーニーを続けてくれ。10万人以上の専門家とビジネスリーダーが参加して、週刊ニュースレターを購読し、AIブループリントをダウンロードし、バーチャルや対面イベントに参加し、オンラインAIコースを受講し、AI Academyで専門資格を取得し、Marketing AI Institute Slackコミュニティに参加してくれてる。
次回まで、好奇心を持ってAIを探求し続けてくれ。


コメント