フォワード・フューチャー・ライブ 8.15.25

本番組ではGPT-5リリース後の業界動向を詳細に分析している。OpenAIのベンチマーク専門家とSemi Analysisの半導体アナリスト、そしてAugment Codeの創設者を迎え、AI業界の最新状況を多角的に検証する。特にGPT-5への賛否両論の反応、中国への半導体輸出規制の影響、そしてベンチマーク飽和時代における新たな評価手法について深く掘り下げている。さらにコーディングエージェントの実用性やプライシングモデルの課題、マルチエージェントシステムの将来性についても議論が展開される。

Forward Future Live 8.15.25

Download (GPT-5 UPDATED) Humanities Last Prompt Engineering Guide (free) 👇🏼 My Newsletter for Regular AI Updates 👇🏼

フォワード・フューチャー・ライブ本日の概要
GPT-5リリースの反響と課題
ベンチマーク手法の進化
米中半導体貿易の緊張
半導体専門家との対談
インフラ構築とクラウドサービス
カスタムシリコンの重要性
市場トレンドとPerplexityの戦略
ベンチマーク専門家との対談
業界トレンドとローカルAIの可能性
アジェンティックコーディングの展望
GPT-5とモデル性能の評価
番組の総括

フォワード・フューチャー・ライブ本日の概要

ヒート、ヒート。ヘイ、ヘイ、ヘイ。ヒート、ヒート。

まいど〜、フォワード・フューチャー・ライブにようこそや。今日は2025年8月15日、めちゃくちゃ特別な回をお届けするでぇ。みんなからのリクエストが多かったんで、今日は特別企画として、ヒートンとショウに共同司会をしてもらうことになってん。ヒートン、ようこそ〜。

ここにおらせてもらえて嬉しいわ。ほんま、今日の収録、めっちゃ楽しみにしてたんや。

今週のAI業界はほんまにえらいことになってるでぇ。GPT-5がリリースされてから1週間ちょっと経つねんけど、ベンチマークは圧倒的やったもんの、ユーザーの反応はえらい複雑やったからなぁ。そこら辺を詳しく話していこうと思ってる。それからNvidiaとAMDがトランプ政権と結んだ新しいチップ取引についてや、負のマージンビジネスが当たり前になってきてることについても触れる予定や。まぁ、そんなに新しい話でもないかもしれんけどな。

今日は素晴らしいゲストを3人お招きしてるで。Semi AnalysisのJordan Nanosにはチップや半導体業界のことについて話してもらう。OpenAIのTasel Pat Wardenにはベンチマークについて聞くで。彼女はあそこでベンチマークとeval チームのリーダーをやってる人や。それからAugment Codeの共同創設者Guy Gerariにも来てもらってる。いつものように、ニュースのスピードランから始めていくでぇ。

さっそく始めようか。ヒートン、どない？

GPT-5リリースの反響と課題

よっしゃ、やろうやないか。ほんまにワクワクするラインナップやな。

まずはGPT-5から始めようか。GPT-5がリリースされて、もうずいぶん前のことみたいに感じるけど、実際はたった1週間ちょっと前のことなんやな。めちゃくちゃいいスタートを切って、ベンチマークも圧倒的やったんやけど、すぐにかなり複雑な、まぁはっきり言うて賛否両論の評価を受けることになってん。

俺の動画でテストした時は気に入ったんやけど、めちゃくちゃ批判的なコメントもぎょうさんもらったわ。みんなが同じ体験をしてくれたわけやないからなぁ。まず、君の最初の印象はどうやった？リリースからこの数週間の体験はどんな感じ？

俺の印象では、完全に個性を失ってしもうたって感じやったなぁ。それはもう何度も何度も言われてることやと思うし、だからこそみんなが「俺の4.0はどこ行ったんや？4.1はどうなってるんや？」って言うてたんやろな。その一連の流れを見てるのもめちゃくちゃ興味深い学習体験やったわ。俺たちみんな、これは全部新しいことやっちゅうのを覚えとかなあかんと思うで。完全に新しいもんなんや。

実際のところ、誰もここで何が起こってるかとか、何をしてるかを本当には分かってへんのや。ただモデルをリリースして、人々の反応を見てるだけなんや。そういうところ、俺は結構好きやけどな。だからGPT-5のことを、俺はYOLOモデルって呼んでるわ。なんか彼らがただYOLOして、リリースして、明らかに何が起こるかを様子見してるって感じやからな。

これまでの彼らのモデルでこんなやり方をしたのは初めてって感じがするわ。APIでのテストでは、どうやら他のモデルにルーティングしてるっぽいっちゅうことがかなり早い段階で分かってん。

ほんまやなぁ。興味深いことに、OpenAIは人々がモデルの特定の個性にどれだけ愛着を持つかっちゅうことを本当に過小評価してたと思うわ。それがかなりの影響を及ぼすっちゅうことをな。

一つは、彼らは頻繁にこれらのモデルを更新してるはずやっちゅうことを前提にせなあかん。重みのアップグレード、ファインチューニング、システムカードっちゅうかシステムメッセージの更新とかな。だから彼らは常に変更を加えてるねんけど、これは明らかに劇的な変化やった。完全に新しい基盤モデルやったからな。

君が言うたように、非常に異なる個性を持ってて、人々はそれにめちゃくちゃ怒ったんや。みんな4.0の個性にめちゃくちゃ愛着を持ってたからな。そしてすぐにOpenAIが4.0を復活させた。だから彼らも多くのことを学んだと思うわ。でも君はモデルの個性への人々の愛着についてどう思う？

この点についてはかなり考えてきたんやけど、結局のところ、俺たちが機械をチャットに押し込んだっちゅうことに尽きると思うわ。その機械をチャットに押し込んで、今度は俺たち人間がそれと他の人間のようにチャットしてるんやからな。歴史的に、俺たちがチャットしてきたのは他の人間とだけやった。まぁ、ボットやサポートボットとかもちょっとはあったけどな。

だから俺は今振り返って考えてみて、このモードを使ってるんやったら、俺たちに何を期待しろっちゅうねん？もちろん愛着を持つに決まってるやないか。だって俺たち人間がチャットする時に他の人間に対してすることやからな。そして機械も応答するから、人間のように感じるんや。人間らしいっていうか、この時点では人々の反応を見る限り、人間らしい以上のもんって感じがするけどな。

そして反応者には2つのカテゴリーがあるみたいやな。一つは4.0の個性に本当に愛着を持ってる人たち。そしてもう一つは、多分俺みたいなタイプで怒るであろう人たちなんやけど、彼らは4.0を念頭に置いてワークフローを設定してて、結果的にモデルをただ入れ替えるだけではダメやっちゅうことが分かったんや。

OpenAIのEdwinが、GPT-5にアップグレードする場合のプロンプト変換ガイド全体を出してくれたんを知ってるで。これは非常に異なるモデルやから、プロンプトに加える必要のある変更をすべて理解するのに役立つガイドや。

俺もこのことを投稿で説明したんやけど、俺の使い方、俺の使い方はめちゃくちゃインプット・アウトプット主導やねん。会話的なものやワークフローもあるけど、俺の使い方は、人々がGPT-5の使い方について言うてることと似てるし、だから俺は既に似たような方法で使ってて、過去に4.0や4.1、さらにはClaudeで出てきてるような戦術を使ってたんや。

ある意味では、人々がプロンプトの仕方について追いついてきてるって感じがするわ。これらのモデルに対してな。GPT-5はほぼそれをより重要なことにしてるって感じや。

だから俺が個性を失ったって言うた理由もそこにあるんや。それが良いことなんか悪いことなんかは分からんけど、それは通常システムプロンプトの調整の束やし、明らかに彼らのトレーニングと関係があることや。でも全体的に、俺にとっての良い面は、俺たちがこれらのツールの使い方を学んでるし、俺たちが欲しいタイプのアウトプットを提供してもらう方法も学んでるって感じがすることや。

幻覚の減少ともっと一貫性のあるアウトプット。これらが俺がGPT-5で気づいたことやで。少しじゃなくて、かなり良くなってると思う。

幻覚の減少は明らかやな。目に見えるわ。正直、4.0でもそんなに多くはなかったんやけど、今はゼロになってるから、それは素晴らしいことや。もちろん、長時間使用すれば常にいくらかはあるやろうけどな。

でも他に考えるべきことは、ベンチマーク、特に数学、科学、コーディングのベンチマークが、めちゃくちゃ早く飽和してるっちゅうことや。だからモデルの個性について話す時、まだそれに対するベンチマークはないんやな。今日後でOpenAIのevalチームのTaselに来てもらうから、その辺りについて聞いてみるかもしれん。モデルのより具体的でない側面に対してどうやって測定やベンチマークを始めるかってことをな。

ベンチマーク手法の進化

俺が見てきたやり方、そして実際にやってきた方法は、基本的にスコアラーにプロンプトを送ってアウトプットをスコアリングしてもらうことや。他のプロンプトと同じようにプロンプトすることができるんや。

基本的に、歴史的にほとんどの人がやってるプロセスは、ある程度のマニュアルevalをやることやな。人間によるスコアリングをして、俺たちは明らかにもっと主観的にものごとを行うことができる。だからより会話的かどうかとか、そういったもんにスコアを付けることができるんや。そしてそれらのスコアで、実際に自動スコアリングを作ることができる。これはLLMがすべてのアウトプットをスコアリングするっちゅうことや。

俺は単純に、俺たちがAGIに向かってるからこれらがベンチマークやって夢中になってる間に、これらは人間がそれと話してるって全体的なアイデアを見逃してるんやと思う。そして人間は今日、それと話してる人間の全員がAGIについて考えてるわけやないと思うで。彼らが考えてるのは、ただの会話や気分良くなることでも、実際に何かアウトプットでも、自分が欲しいもんを得られるかどうかや。

だから俺たちはこれらのツールをどう使いたいかを学んでるところやと思うし、ベンチマークでは説明できへん使用法の大きな塊があるんやと思う。

まさにその通りやな。モデルの純粋な知能があって、それは数学のベンチマーク、科学のベンチマークみたいなもんで、それから個性、トーン、応答の長さといった、より具体的でない側面があるんや。

SweetBenchチームは「LLMができることなら、俺たちはテストできる」って言うてたけど、Taselと話す時にその辺りを聞いてみよう。次のトピックに移ろうか。

米中半導体貿易の緊張

NvidiaとAMDが、中国への輸出ライセンスのために先進チップ収益の15%を米国に引き渡すことに合意したっちゅうニュースが最初にあって、その直後に中国政府（中国共産党）が自国のテック企業に「アメリカのチップを買うのをやめろ。セキュリティ上の懸念がある」って言うたんや。この件についてはJordanと詳しく話す予定やけど、君の最初の感想を聞かせてくれ。

俺の最初の反応は、これは典型的な取引のやり方やなって感じやった。発表で触れられてたことの一つは、交渉は20%から始まったっちゅうことや。だからこれはただの取引やったんやっちゅうことを強調したかったんや。だからこれらのアメリカ企業は選択を迫られてるんやと思う。

俺たちと取引して、この手数料を取るか、それともそのビジネスは要らんって決めるかや。でも収益につながるんやったら、誰がそのビジネスを要らんって言うねん？だからこれは政府にとってほぼウィンウィンやったんや。中国にチップを売るのにはめちゃくちゃ金になるからな、明らかに。

だから君の言う通り100%正しいわ。これはトランプ戦術101って感じやな。とんでもない金額を要求して、それから意味のある時に交渉で戻すっちゅうやり方や。

興味深いことやけど、中国が「チップを買うのをやめろ」って言うたことについて、君はどう思う？これは本当にセキュリティ上の懸念なんやろうか、それとも俺たち自身のチップアーキテクチャとインフラに投資する必要があるからっちゅうことなんやろうか？

俺は彼らは既にそうしてると思うけど、Huawei（ファーウェイ、名前の言い方をいつも忘れるんや）が出てきて、俺たちは自分たちのチップを使えない、Nvidiaのチップを使わなあかんって言うたんを知ってるか？その直後に出た話やで。

だからある意味では、取引はアメリカの企業とのもんやけど、取引は中国ともあるっちゅうことや。だから3つか4つの方向での取引が起こってるんや。

だから俺はこれは地政学的な問題やと思う。その観点からもうちょっと話す予定やけど、それが俺にできる唯一の考えやったわ。

そうやな。一般大衆が完全には気づかないような何かを最適化するために何かが起こってるっちゅうことやな。

そこで専門家を招いてみよう。Semi AnalysisのJordan Nanosに来てもらった。Dylan Patelと話したことがあるけど、彼らは半導体業界のすべてについて話す素晴らしい研究者・アナリストのグループや。Jordan、番組に来てくれてありがとう。ようこそ。

半導体専門家との対談

やぁみんな、ここにいられて嬉しいよ。

また会えて良かったわ、相棒。まず、Jordanから説明してもらおうか。Semi Analysisで何をしてるか、そしてSemi Analysisが何をしてる会社なんかを簡単に教えてくれ。

Semi Analysisでは、俺は技術スタッフのメンバーで、AIエンジニアリングチームで働いてるんや。今はClustermaxっていうプロジェクトを主に担当してて、これはGPUを設置してレンタルするいろんなNeoCloudsと会って、彼らが提供するサービスをテストして、その結果を書くっちゅう仕事や。そのプロジェクトのバージョン2をもうすぐ公開する予定やで。

一般的に言って、Semi Analysisは大きなビジネスを展開してる。ほとんどの人はニュースレターに馴染みがあると思う。20万人以上の購読者がメールを受け取ってて、半導体サプライチェーン全体からAIまで、あらゆることについて書いてる。

それから俺たちには機関向けのビジネスもあって、コンサルティングサービスやデータプロダクトを販売してるんや。Dylanが言うように、半導体サプライチェーンの人たちがアクセラレータ、データセンター、ウェハファブ装置モデルなどについてもっと知りたがってる場合や、業界を見てる投資家向けの「高価なスプレッドシート」やな。

さっき俺とヒートンがしてた議論を続けよう。中国がセキュリティ上の懸念を理由にアメリカのチップを買うのをやめろって言うたことについて、君はどう思う？

興味深い話やな。中国は重要な産業に対して、補助金や投資、規制を通して影響力を行使する歴史があるからな。これは明らかにその3つ全部やろ？だから彼らはHuaweiやCamberconや、Nvidiaと競合するアクセラレータを生産する他の企業に多くの投資をしてるんや。

ファブ側でもSMICやTSMCと競合する他の企業と協力してるし、今度はHuaweiのアクセラレータを取って、DeepSeekのようなAIモデルのプロデューサーに行って、「これらのGPUを使わなあかん」って言うてるんや。

興味深いのは、結局のところ、俺たちがこれらのアクセラレータで見てきたのは、十分な時間と努力をかければ動作させることができるっちゅうことや。それは優先順位の問題なんや。だから政府が営利部門と研究部門を持つビジネスに、これが優先事項で、最新最高のモデルを作るんやなくて、これらのチップで動作させなあかんって言うてるんやったら、今はスローダウンの要因になるかもしれんけど、規模で生産開始できれば将来的に加速の原因になるかもしれん。

今のところDeepSeekの足を引っ張ってるみたいやな。俺たちはR2をまだ見てへん。楽しみにしてるんやけど。でも将来的にHuaweiを前進させる原因にもなるかもしれんな。

君が言うか、実際に今週ちょっと噂になったんやけど、DeepSeekの遅延は中国が彼らに中国製チップを使うことを強制してるからやって信じてる？それは本当やと思う？

Financial Timesにその件についての記事があったな。DeepSeekのチームは明らかに、DeepSeek V2から2.5、3まで、そしてR1と、かなり長い実行実績を持ってるからな。すべて中国の祝日前後にリリースされてるのがいいな。リリースしてからパーティーに行くみたいやな。

興味深いことに、物事が遅延する時、それは通常モデルが本当に良いっちゅうことを意味しないんや。これはあらゆるFrontier Labsで見てきたことやけど、名前は出さんとこうか？いくつか名前出してもええか。o1がしばらく良かったけど、リリースされた時はちょっと期待外れやった。俺たちはGPT-5っていうものをしばらく期待してたんや。彼らは多分o1をGPT-5って名前にすべきやったと思うで、これをGPT-5って名前にするまで待つんやなくてな。他のことについても話せるけど、一般的に言って、R2を固唾を呑んで待ってるけど、R1に対する業界の反応を考えると、期待に応えることは想像できんな。

君が言うたことについて聞きたいことがあるんや。加速が将来来るかもしれんって言うたけど、そのタイムラインについて何か推定はある？つまり、中国製チップをアメリカ製チップよりもずっと良く動作させる作業を始めるとして、タイムラインはどのくらい？

確実に年単位で測られるな。この時点で10年かどうかは分からんけど、規模でチップを生産するのに5年から10年の範囲やと思う。

アメリカや半導体サプライチェーンの他の国々が、現在中国がアクセスできる装置に対してかけられる制限について、あらゆる種類の未知数があるから難しいんや。

それから中国政府からの補助金や投資の形での継続的な投資と注目にもよるな。だから俺は、Huaweiが規模でチップを生産する実際のタイムラインが何なんかは分からんけど、もし現在の規制やアメリカの輸出管理などがそのままやったら、彼らはまだTSMCから多くのウェハを得ることができるし、多くのチップを生産することができる。俺たちは彼らが910b ascendチップをリリースするのを見たし、DeepSeekが現在使ってると報告されてるか、俺たちが信じてる910Cもリリースしてる。でも910Dが来るっちう噂も聞いてるな。

要点は、これらすべてが現在TSMCプロセスで製造されてるっちゅうことや。だから君がSMICがTSMCを追い越すのにどのくらいかかるかって聞いてるんやったら、それは多分10年以上で測られる。

でも任意の電力消費や投資ドルで規模で有用な、十分に近いチップをどのくらい早く生産できるかについて話してるんやったら、最高のパフォーマンス・パー・ダラーである必要はないんや。今すぐモバイルフォンでそれが見られるで。Huaweiはモバイルフォンチップを生産するTSMC技術や、TSMCやないけど他の技術にアクセスできんけど、Appleとコンシューマーデバイスで直接競合する優秀なもんを生産できるんや。

俺はただNvidiaの強気筋がどのくらい持つかを見たかっただけや。冗談やけど。Nvidiaの強気論を作れって言うんやったら、一般的に言って、この業界全体は成長し続けると思う。俺はそれについてかなり確信してるし、将来のAI用チップ生産が勝者総取りの力学になる可能性は低いと思うで。

Jordan、今週出回ってたミームを見たか？1億ドルのARRって書いてあって、マスクを剥がすと実際には1億2000万ドルのAnthropic請求書やったっちゅうやつ。そして最終的にそのAnthropic請求書はどこに行くんかっちゅうと、ユーザーから5ドルがコーディングエージェントシステムに行って、その5ドルから7ドルがAnthropicに行って、その7ドルから9ドルが実際にはNvidiaかハイパースケーラーに行くっちゅうやつ。そういうの見た？どう思う？

いくつか見たな。つまり、俺は2つの角度から来てるんや。一つは、君たちがライブストリームをやってる限り、ベンチャー支援ビジネスのグロスマージンを批判し続けることができるけど、CursorやWindsurf、Claude Code、GitHub Copilotとか、そういったプロダクトのユーザーとしては、日常の仕事でこれらがどれだけ有用かっちゅうのが分からんのや。

確かに経済性は少し変わる必要があるかもしれんけど、プロダクトの実際の使用という点では、これを一時的な流行として人々の手から奪い取って「いや、もうコーディングアシスタントは使えません」って言う方法はないんや。

そうやな。ちなみに、これはVC補助金付きアプリやビジネスを見る初回やない。ヒートン、君と俺はサンフランシスコ全体で3ドルのUber乗車を得てた真っ只中におったからな。VC資金に支えられてなかったら、それはビジネスとして実現可能やないやろ？

角度はめちゃくちゃあるけど、AI無しで、ただのSaaSツールで、ARRの100倍はどうやねん？そんなに前やないのにそれが起こってた時期があったやろ？だからこれは、これはただのサイクルなんや。そして俺たちみんな、顔面に爆発しないことを願ってるんや。

そして俺たちはその前に価値を創造するんや。それが全体的なレースやろ？資金調達して、補助金を出して、技術を構築して、そして希望と祈りやないけど、文字通り希望と祈りで、実行が需要と出会うことを、投資と出会うことを願ってるんや。

いつもうまくいくわけやないけど、うまくいった例はぎょうさんあるで。DoorDash、Uber、Lyft、そこにあるやん。もっと挙げられると思うけど、ただできるだけ早く市場を飽和させて、できるだけ早く市場を獲得して、そのためのドルを全部提供するっちゅう例がトンネルほどあるんや。

だからアプリケーション層から見ると、それが再び起こってるように見えるな。Jordan、どう思う？

今日業界で巨大で非常に重要な企業について、創業時にこのように測定されていたビジネスがあったって多くの方法で言えると思うわ。世界最大の企業を見てみ。Amazon、Facebook、Nvidiaやな。これらはベンチャー支援を受けた企業やった。しばらくの間お金を失ったり、負のグロスマージンを持ったりしてたけど、収益が成長して、それを正当化するのに十分な収益を得た時点でビジネスをライトサイズすることができたんや。お金が尽きてそうすることにした時とかな。

だからいつかは、今日設立されて将来絶対に巨大になる企業があるっちゅうのは明らかに見えるわ。CursorやWindsurf、それからAnthropicのClaude Codeも確実に見ると、人々の日常を見ると、君が言うてるように、これを取り上げて時計を戻すのは難しそうやな。

俺が空港に着いてUberのアプリで車に乗りたい時の追加の摩擦と、過去にタクシーを捕まえたり公共交通機関を利用しようとしたりすることを比較すると、俺が説明してるビジネス旅行者にとって、その体験は価値がないとは想像できん。

だからソフトウェアエンジニアがこれらのモデルに対して支払う意味のある価格で落ち着くことになるし、支払う意思のある価格、アウトプットの速度、得られるモデルの品質の面でマッチングがあるやろうし、それでうまくいくやろうし、それまでは、VC資金を楽しんで、その3ドルの乗車を楽しめばええんや。

インフラ構築とクラウドサービス

今のインファレンス環境について話そう。ハイパースケーラー、Google Cloud、Azure、それからCoreweaveのようなneocloud企業がある。環境の概要と、これらの企業間で現在最も重要な差別化要因は何かを教えてくれ。

興味深いな。GPU計算を提供してる人の巨大な環境があると思うで。購入者が誰かという観点でフレームするのが一番簡単やと思う。俺が見てきたGPU計算の3つの大きな購入者ペルソナは、管理されたクラスターを欲しがるユーザー、KubernetesやSlurmにログインしてトレーニングジョブを実行したり、インファレンスエンドポイントを構築してそれを人々に提供したりしたいユーザーやな。

2番目は、基本的に卸売りで買ってる人たちで、オーケストレーションもサポートもデータセンターからはない。基本的にデータセンターにできるだけ多くのGPUを設置してもらって、そこから引き継ぐ人たちやな。

3番目はオンデマンド側で、趣味の開発者から、ビジネスを始めてる個人、スピンアップ・スピンダウンが欲しい小さなスタートアップまで、いろんな人がおるな。

人々がこの環境について考えて、帰属させる方法は、ビッグ3またはビッグ4と呼ばれるもので、AWS、Azure、GCP、Oracleやな。俺たちの見解では、5番目が追加されて、それがCoreweaveや。彼らはギガワット規模で計算を実行してて、これは大量のGPUに大きな顧客がついてるっちゅうことや。今は上場企業になって、この時点で業界の大きなプレーヤーやな。

それから俺たちがNeocloudsと呼ぶ130以上の企業を追跡してる長いテールがあるんや。これらは元ビットコインマイナー、ソブリン投資、VCクラスターなどや。場合によっては、実際にドルを渡すんやなくて、GPUクラスター上のクレジットの使用を通じて企業に投資してる場合もあるし、両方の場合もある。

これは本当に魅力的で、基本的に俺が知ってる唯一の業界で、世界中に130以上の企業が散らばって、基本的にこの規模で全く同じことをしてるんや。みんなNvidia GPUを買ってる。少数はAMDも買ってるけど、ほとんどはNvidiaや。みんなデータセンターに接続して、時間単位でレンタルして、1か月、3か月、6か月、場合によっては数年のコミットを得ようとしてるんや。

だから俺たちはこれをbuildout、つまり構築ラッシュって呼んでるんや。構築ラッシュが起こってるんやな。元暗号マイニング施設をAIデータセンターに変換する投資を人々がしてるのが、現在俺たちが見てるエンドユーザーアプリケーションの多くを支えてるんや。

今は興味深いトレードオフもあるな。暗号通貨がATHにあるから、明らかに彼らは自分たちの側で計算してるから、インファレンスと長期ゲーム、そして今ポップしてる暗号通貨っちゅうことやな。

だからCoreweaveについて話そう。差別化要因は何？なんでCoreweaveが上場企業なん？なんでCoreweaveが今やネオクラウドじゃなくてハイパースケーラーなん？定義が何であれ、君はCoreweaveをすべてのピアの中で格上げしたわけやけど、なんで？

良い質問やな。この時点で、それを理解するにはユーザー体験に本当に依存すると思うわ。

一般的に言って、Neocloudsとハイパースケーラーについて考える時、専用のAIに焦点を当てたNeocloudsは、ハイパースケーラーよりもエンドユーザーに良い体験を提供してるんや。OracleとAzureがスタートアップにとって使いやすくするためにクラウドを調整するのに最も多くのことをしたと思うけど、Coreweave、Crusoe、Lambda、Together、これらのオンデマンドGPUを持つより大きな企業のどれとも本当に比較にならんな。

価格も積極的やで。H100が1時間2ドル未満やからな。クラスターを設定してくれるし、土曜日の夜に何か問題が起こったら、Slackでメッセージを送ると5分後にZoomリンクを送ってくれて、飛び込んで修正してくれるんや。

これはAWSでの体験とは全く違うで。AWSではCLIをインストールしてスピンアップして、何か問題が起こったらサポートチケットを送るっちゅう感じやからな。

だから、これら2つの体験を比較すると、Coreweaveは最初から設計するのに本当に良い仕事をしてきたし、人々にサポートを提供するのにも本当に良い仕事をしてきた。その周りでかなりのソフトウェアを開発してて、それについて話すことができるし、他のNeocloudsが少しコピーしてるような革新のリーダーやと思うわ。

でもまだ初期段階やな。これらの大きなプロジェクトが実を結ぶのはまだ見てへん。OpenAIとノルウェーのNscaleとの発表や、テキサスとウィスコンシンでのCrusoeの建設についての発表を見たやろ。これらのプロジェクトはギガワット単位で測られてるんや。つまり数十億ドルの投資がこれらの構築に入ってるっちゅうことや。

だから初期段階やと思うし、特にGoogle Cloudを数えないのは本当に難しいと思うけど、AWS、Oracle、Azureも含めて、みんなこの市場に非常に積極的に取り組んでるんや。俺がチームと話して、彼らがやってることを評価する方法を考える時、彼らの多くは、Coreweaveが最大の顧客と働くことから学んだことをコピーして、そこから進めようとしてるって感じやな。

これから先は、人々をプラットフォームに留めて、プレミアムを請求できるような新機能をたくさん押し出したり、機能をたくさん追加したりできるかっちゅう戦いになるか、それとも追いつかれて、人々が本当にGPUクラスターから必要とする機能には限りがあるかっちゅう戦いになるやろな。

カスタムシリコンの重要性

カスタムシリコンについて話そう。昨日シアトルでAWSのCEOにインタビューしたんや。そのインタビューは来週早々に出る予定やで。ちなみに、Anna Perennaのヒントをありがとう。彼に聞いてみたわ。その会社や買収について聞いたことがなかったんやけど、結果的に、彼は「ああ、それを得られて本当に感謝してる」って言うてたわ。

彼は明らかにTraniumについて話したし、他のカスタムシリコンについても話した。GoogleはTPUを持ってる。このインフラ構築競争でカスタムシリコンはどのくらい重要？

巨大やな。カスタムシリコンについて話す時、アクセラレータの観点から話すこともできるし、その他すべて、CPU、ネットワーク、ストレージ、サーバーのブート方法について話すこともできる。今はアクセラレータについて考えるのが人々には一番簡単やと思うけど、AIに何を使うかっちゅうこの世界での議論は、非常にNvidia対AMDやな。HuaweiについてちょっとHuaweiがて話し始めて、人々は「市場への第3の参入者かもしれん」って感じやな。

でも俺がユーザーやスタートアップで、トレーニングやインファレンスをどこで実行するかを決めようとしてる場合、俺にとっての序列は、Nvidia第1位、GoogleのTPU第2位、AWS Tranium第3位、AMD第4位、Huawei第5位、それからGrrock、Cerebras、Samanovaのようなスタートアップがリストを続けるって感じや。

Intel Gaudyも比較に入れよう。人々が選択できるチップはたくさんあるんや。だから俺たちが見るのを待ってる最大のことは、GoogleがTPUを大企業に対して外部で規模売るかどうかやな。OpenAIとのパートナーシップの発表を見たことがある。俺たちはそれは資金調達やと思ってる。暗号通貨のデータセンターのHBCAIへの変換に資金提供してるのを見たし、昨日Terolファシリティで発表もあった。Anthropicに大きな投資もしてて、現在Anthropicの約14%を所有してると思う。AnthropicはTPUを使ってるしな。

だからシリコンについて話すと、俺にとってはユーザーの観点からBlackwellクラスター、TPUクラスター、Ironwoodクラスターのどれをレンタルしたいかを比較することなんや。

IlyaのSSIやThinking Machinesのようなスタートアップを見ると、これらの企業は10億ドルとか調達して、50人未満のチームを持ってる。だから明らかに金の90%を計算に使ってるんや。多分今これらの人材を確保する必要があるやろうけど、それは現金やなくて株式でやると思うわ。

だからこれは本当に大きな決定で、研究や生産性の面でも、パフォーマンスだけやなくて最高のTCOを持ってる人が本当に重要やし、GoogleがTPUを買う人が誰でもGoogleと競合するプロダクトを開発することを許可しないっちゅうスタンスを維持してるんやったら、GCPにとって巨大なビジネスを手放すことになるように見えるな。GCPのユーザー契約の条件とかにそれが入ってるんや。

とにかく、Semi Analysisでは、彼らは外部でTPUを販売してるって判断を下してるんや。その市場を狙ってると思うし、この時点でAMDと比較して、Nvidiaにとってはるかに大きな対処すべきことやと思うわ。

なんで彼らがその決定をするんやと思う？そこにより大きなマージンがあるから？彼らにとって新しい収益源やから？

この時点でGoogleとMicrosoftの両方から見たアプローチは、SundarとSatyaから、AIに関しては守勢やと思うわ。これがすべてを変えるんやったら、置いていかれたくないっちゅうことや。

TPUを販売することで、多くのパートナーシップの機会にアクセスできると思う。パイの一部を得られるんや。ゴールドラッシュでピックとシャベルを売る方が良いって論法をする人もおる。CPUがピックかシャベルか、ジーンズか、ゴールドラッシュで金持ちになったのは誰かっちゅうことやな。それは簡単な答えやと思う。

AnthropicがGoogleのTPUを使ってるって言うてたけど、それはパートナーシップを通じてやろ？

AnthropicはOpenAI、Anthropic、xAI、Metaと同様に、基本的に複数の異なるクラウドから調達してるっちゅうのが俺たちの理解や。明らかにAWSも、今すぐ計算を得るためにできることは何でもしてるんや。

だから俺の考えでは、彼らは既に販売してるんや。これらの取引の一部として販売してるだけやな。だから容量があれば、一般に販売する、もしくはもっと利用しやすくするっちゅうのは非現実的やないと思うわ。

容量について君の見解があれば聞きたいんやけど、これらすべての構築について。彼らがそれを売るかもしれんって言うてるけど、容量はあるんか？既に持ってるパートナーシップに加えて自分たちが必要なもんに基づいて、外部の関係者に販売するのに十分な容量があるんか？

Semi Analysisの一人のJeremyが、スライドを作る時のために素晴らしいものを思いついたんや。「ソース」って書いて、その後sales@semianalysis.comって書いて、クリックするとセールスの一人にメッセージを送るメールが始まるんや。だからこれを見てる投資家は、アクセラレータモデルやデータセンター業界モデルを買いたいかどうか考えてほしいわ。

俺がSemi Analysisのビジネスについて理解してることと、俺がクラウドをテストする作業と、あの人たちが出荷追跡とかについてやってる作業を内部でファイアウォールで分けてるから、その辺りの詳細についてはちょっと境界線にあるんや。でも俺がここでこの発言をしてるのは、あの人たちが俺に言うてることに基づいてるし、彼らは出荷を追跡して、Googleも含めてみんなが生産を上げてるのを見てるんや。

分かった。容量について一般的に考える時、まぁ、ちょっとその話を続けさせてくれ。プロプライエタリなもんがあるのは知ってるけど、最高レベルの視点から、アプリケーション企業は必要なもんを得られてるんか？需要が現在供給をはるかに上回ってるんか？

OpenAI、Anthropic、xAI、Grockから見てるもんはすべて、どれだけの人が使ってるかのホッケースティック曲線を示すチャートやし、モデルを開発してるこれらの人たちはすべて、プラットフォーム上の無料ユーザー全員に最新最高をロールアウトできないことに不満を持ってるんや。

君たちはGPT-5とOpenAIがそれをユーザーにロールアウトすることを考えてるっちゅう話から始めたやろ。俺たちは最近、社長のDoug Olenが主導して執筆した記事を書いて、基本的にGPT-5の本当のリリースがルーターで、これが基本的に無料ユーザーのステージを設定するっちゅうことを説明したんや。その記事は素晴らしかったで、読んだわ。

俺たちが知る限り、基本的に需要は供給をはるかに上回ってるんや。そしてさっき言うたように、適切なユーザーを適切なモデルと適切なクエリで適切な時にマッチングして、API上でトークン単位で支払ってもらうか、今YouTubeで見てるようなポップアップクリック可能広告やない、もっと意図ベースの広告など、他の方法で収益化するっちゅう問題なんや。チャットボットに何を聞いてるかによって、紹介リンクとかが、計算コストの安いクエリに対して非常に価値があるかもしれんからな。

Jordan、今日は時間を作ってくれてありがとう。素晴らしかったわ。JordanはSemi Analysisで、semi-analysis.comをチェックしてくれ。説明欄にもSemi Analysisのリンクを貼っとくで。Jordan、TwitterはどこでフォローできるんやっけQ?

Jordan Nanosや。TwitterでJordan Nanosやで。今チャットに貼ったわ。Jordan、参加してくれてありがとう。

ありがとう、みんな。ここにいられて良かったわ。

市場トレンドとPerplexityの戦略

さて、ヒートン、フィードからいくつか話すことがあるな。まず最初に話したいのは、このWall Street Journalの記事や。画面を共有させてくれ。

PerplexityがChromeに対して345億ドルの捨て身オファーを出したっちゅう記事やな。これはマーケティング戦術やろ？そうに違いないと思うわ。Wall Street Journalが報じてるけど、彼らにはそんな金はないやろ。どうやってそれが機能するっちゅうねん？

記事では、ベンチャーキャピタリスト、おそらくこの金額ではプライベートエクイティ、もしくはプライベートエクイティであるVCが、それを支援する意思があるって主張してるな。だから彼らは金があるって言うてるから、金があるって前提にしよう。

記事の中でも、俺はこれはスタントやと思うし、この会社はただスタントが上手いんやと思う。上手いだけなんや。何度も何度もやってきてるからな。最初はちょっと痛々しかったけど、今は痛々しいのが流行ってるのかもしれん。一部の人はそう言うてるからな。これは痛々しいけど、流行ってるんや。そしてWall Street Journalの記事を得たんやからな。

痛々しいのが流行ってるな。それを言うと思い浮かぶ会社が一つあるわ。俺は彼らがやってることで流通を得て、ビューを得てるんやから、まぁそれも一つのやり方やと思うわ。

でもPerplexityに戻ろう。もしゲームアウトしてみて、Googleが「確かに、この信じられないIP、この信じられない資産のソフトウェアを手放すわ」って言うて、Perplexityがそれを買収したとしよう。彼らはChromiumをフォークした自分たちのブラウザを構築しただけや。実際にこれを実行できれば、彼らのビジネスにとって何が良いと思う？

彼らのブラウザはただ良いんや。いつものように、最初は良くないもんを出して、今はもうちょっと良いもん、最初のリリースよりかなり良いもんを出してるっちゅういつものパターンに非常に似てるな。

それから時間をかけて反復していくんや。俺たちみんな知ってるように、データを得ると、これらの製品をより良くすることができるから、彼らは非常にAIファーストやからな。君が言うてることを考慮したいけど、これは彼らが真剣にやってるっちゅうより、自分たちのブラウザを宣伝する大きな広告や方法やったんかもしれんと思うわ。なぜなら現実的に、ChromeがeしChromeが彼らに売られたとして、Googleがやってるような方法で彼らがそれをどうするか分かるやろうか？そしてこれは誰かに売ることをGoogleが強制されるっちゅうことを意味するし、独禁法の話もあるしな。

完璧なセットアップやな、ヒートン。ブラウザを人工知能と相互作用する主要な表面積として考えてみよう。俺にとってはその観点から、それは本当に多くの意味を成すと思うわ。彼らが自分たちのブラウザを構築するのは本当に理にかなってたと思うし、実際俺も使ってるんや。移行するのがめちゃくちゃ簡単やったからやし、これらの追加機能もすべて付いてるからな。時々使うし、時々使わんけど。最終的には、ワンクリック転送やったんや。

今彼らは、俺はこれらの新製品をすべてテストしてるけど、俺の母親は近いうちにCometを使う可能性は低いやろうけど、実際にPerplexityをずっと使ってるんや。俺を間違いについて証明するためにな。面白いことに、彼女は「あの件で君は間違ってた」っていうリンクを送ってくるんや。

戦略的な観点から、ブラウザを構築してブラウザを獲得することは、Facebookにモバイルで起こったことを防ごうとしてるんや。人々が人工知能と相互作用するサービスエリアをコントロールしたいんやな。だからブラウザが人間とAIの間の究極のインターフェースっちゅう戦略的決定についてどう思う？

俺はブラウザは今コモディティ化されてると思う。なぜならCometが出てきて、ArcがDiaに変わることができるからや。他にもいくつかあるけど、インターネットにアクセスしてウェブサイトに到達できるデスクトップアプリやないか？俺はこれらの製品が何かを本当に軽視してるのは分かってるけど、俺たちはそれをブラウザって呼んでるけど、DiaやCometで遊ぶ時、さらにはChromeやそのAI機能で遊ぶ時でも、ウェブサイトはただのコンテキストで、ブラウザは人間のようにブラウズするために使われるんや。自動化とか、そういったことすべてのためにな。

だから俺は実際にブラウザはコモディティ化されてると言うやろな。ブラウザのように見えるけど、本当にはブラウザのように感じないものをもっともっと見ることになると思うわ。その世界に入ると、Chromeの重要性は低くなる。だからこの一部は、昔のCraigslistとCraigslistのアンバンドリングのようなもんや。ある意味では、これはChromeのアンバンドリングのようなもんやな。

率直に言うて、俺自身のビジネスの一部でも考えてることやけど、デスクトップアプリはただのブラウザなんやろうか？そうやとしたら、異なる使用例に対する特化したブラウザ、もしくは引用符付きの「ブラウザ」を持つことになるんやろうか？

だからブラウザがコモディティ化されてると仮定しよう。ソフトウェア側、アプリケーション側がコモディティ化されてると仮定しよう。このAIの未来で所有すべき究極のプラットフォームは何やと思う？OpenAIが自分たちのハードウェアを構築することを考えてるように、GoogleはAndroidやPixel電話を持ってる、AppleはもちろんそれらのAIアプローチで何が起こるかは分からんけど明らかに彼らのものを持ってる。デバイス？電話？それとも何か他のもん？何やと思う？

俺はオペレーティングシステムやと思う。本当の戦いは、戦争はオペレーティングシステムのためのもんやと思うし、そのオペレーションとPerplexityでさえオペレーティングシステムを構築するって出てきて言うてるんやと思う。彼らは何でもやるって出てきて言うからな。誰にとってもショックやないはずや。

彼らは OS.AI を買ったんやろうか？実際にDsh Shawから買ったと思うで。彼はこれらのドメインをたくさん貯め込んでるんや。彼には良かったわ。でも彼はそれらを手放してるから、それは素晴らしいことや。

でも俺はただこれを見てて、「あぁ、オペレーティングシステムが鍵やな。俺は彼らが行動を起こして、動作してるものを見て、彼らがすることをするAppleに他の誰よりも賭けるやろな。俺たちは彼らを忘れがちなんは、Appleからすごいプロダクトを求めてるからや。でもAppleは市場、プロダクトカテゴリーについて十分なデータを持った時に、より良いことができるようにすごいプロダクトを作るんや。

これらのカテゴリーの多くでは、十分なデータがないんや。VR、ARは俺たちに十分なデータがないっちゅうことの素晴らしい例やな。

データって言う時は、伝統的なデータやなくて、消費者がこれらのものをどう使ってるか、これらのものが消費者にとってどこで失敗してるかっていうデータのことや。だから俺はまだAppleをこれから除外しないやろな。なぜなら彼らは金属により近いOSを所有してるし、自分たちでチップを作ってるからや。Mチップは非常に強力やし、それらで簡単にローカルモデルを実行できる。電話でも同じや。

だからこれについて考え続ける中で、君も多分どこかでこれを言うたことがあると思うけど、俺の質問への答えは、デスクやアプリやなくて、オペレーティングシステムやと思うわ。

俺たちはアプリでそれらにフックする必要があるんや。

確実にAppleを軽視してはいかん。今回は、他のイノベーターに続いてるのが初回やないからな。彼らが最初のスマートフォンやなかったし、多くのもんで最初やなかった。そして彼らが来て、Appleのやり方でやったんや。

今回違うと思うのは、彼らが実際にApple Intelligenceをローンチしたけど、それは失敗以上のもんやったからや。それは、俺がそれより少なく使ったプロダクトはないっちゅうもんやった。Siriがなぜかもっと悪くなった。でも彼らには世界中のすべての金があるし、オペレーティングシステムがあるし、数十億のユーザーがいる。俺は確実に彼らを軽視してないけど、ちょっと違う感じがするな。

Microsoftがプロダクトでどうやって良くなるか知ってるか？教えてくれ。彼らはプロダクトを出荷する。かなりクソやけど、それからすべての使用例、すべての機能を追求していくんや。例えば、One DriveとOne Driveのすべてのリリースを見て、GoogleドライブやDropboxや他の会社と競合し始めた方法を見ると、彼らの顧客の特定の使用例でそのプロダクトがどれだけ先に行ってるかは信じられんほどや。

俺が彼らについて言うてる理由は、Appleがそのモデルをして、出荷して反復するっちゅうことを学ばなあかんと思うからや。最初のバージョンとして完璧なもんを出荷して、そこから反復できるっちゅうんやなくてな。そしてそれがAppleで俺が見てる苦闘や。これが俺の頭の中で引き起こされたのは、君がApple Intelligenceがローンチされたって言うた時や。俺は「そうや、君は絶対に正しい」って思った。

それはローンチされたけど、市場は成熟してなくて、彼らはローンチしたんや。だから彼らはより良いことができるっていうデータやユーザー行動を持ってなかったんや。とは言え、Apple IntelligenceのライティングツールをプレイするとMatthew、それらは非常に良いで。

本当に？俺は全くそれを使ったことがないんや。それを使うべきやって掘り下げて知ることさえ難しいからやし、でも確かに、それらは非常に良くて、非常にスマートで、俺が言えることからは最高クラスやな。

面白いことに、俺はAppleユーザーやった。それが俺のメインコンピューターや。ファンボーイって言おうと思ったけど、まぁ、良いわ。正しいな。本当やからな。でも今はGoogle Pixelを持ってる。「最新機能が欲しい」って思って買ったんや。GoogleがAI能力をiOSよりもAndroidに統合する点で、はるかに先を行ってるように見えるからやな。

だから俺は待ってるんや。彼らにうまくやってほしいと思ってるで。俺は彼らに反対してるわけやない。Appleが好きやから、君が言うファンボーイとして、彼らが成功し続けるのを見たいんや。

Androidユーザーやな。Alexありがとう。

うん、彼らに成功してほしいと思ってるし、どうなるかを見てみよう。

ベンチマーク専門家との対談

次のゲストをお招きしたいと思う。今すぐ彼女に参加してもらえてめちゃくちゃワクワクしてるんや。ヒートン、これはTasel Pat Wardenや。OpenAIの技術スタッフのメンバーで、彼らのevalの多くをリードしてきた人や。俺が動画を作ったいくつかの論文を書いた人でもあって、それらは素晴らしいもんやった。

evalと安全性への懸念、GPT-5について話していこう。Taselを招こう。Tasel、番組へようこそ。

みんな、呼んでくれてありがとう。

また会えて良かったわ。

こちらこそ。基本から始めよう。evalのヘッドやOpenAIの技術スタッフメンバーが日常的に実際に何をしてるかについて、馴染みのない人のためにちょっとコンテキストを教えてくれ。

OpenAIでevalの仕事をしてるんや。モデル評価の目標は、俺たちのモデルが何ができるかを本当に理解することやねん。彼らの知識、スキル、使えるツール、行動はどんなもんかな。そして俺たちはこれをvibesベースやなくて、非常に定量的で測定された方法でやろうとしてるんや。

だから多くの異なるベンチマークを構築するんや。外部に公開されたベンチマークを移植して、俺たちのモデルがAGIに向けてどれだけうまくやってるかを測定するために使うんや。そしてこれらすべてのメトリクスと結果は、研究、安全性、ローンチについての決定を助けるために使われて、俺たちの研究方向と製品方向を有益なもんに向けて操縦しようとしてるんや。

ベンチマークについて考えてるっちゅうことやな。数か月前に君のオフィスに来て、君が共著したいくつかの論文についてチャットしたことがあるけど、それについてはすぐに話すとして、まずベンチマークの飽和について話したいと思う。GPT-5がたくさんのベンチマークを完全に破壊したやろ？AMY 2025、いくつかの科学ベンチマーク、数学、競技会でゴールドを獲得してる。

ベンチマークを差別化する方法について考える時、ただ数学が得意か、科学が得意かっちゅうんやなくて、もっと具体的でない側面、モデルのより具体的でない品質について、どうやってそれらをテストし始めるんや？

ある意味では、モデルがベンチマークを粉砕してるのは、本当に速い研究進歩の証やな。だからある意味では、俺たちはそのことを非常に誇りに思うべきやねん。

でも俺たちのモデルを測定する他の方法については、俺たちは非常に自己完結型や学術スタイルのベンチマークからますます離れてきてるんや。昔はモデルにSATやLSATを受けさせてたけど、今はモデルがそういった人工的な自己完結型テストで優秀な成績を取るのが本当に得意になってて、現実世界での長期的な作業が実際にどう動作するかにより似た、非常にリアルで、非常にオープンエンドで、非常に複雑で、非常に長期視野の設定に移行してるんやな。

君は興味深い論文をいくつか共著してたな。Swelancerっていう、基本的にAIにフリーランスソフトウェアエンジニアリングから実際に現実世界で金を稼ぐ能力を与えられるかっちゅう論文と、PaperBenchっていうAIがAI研究を実際に複製する能力を評価する論文があった。これらは非常に具体的な現実世界のベンチマークで、君とチームはより現実世界に適用可能な、収益を生成するベンチマークに向かってるんやろうか？

俺たちは確実により現実的で複雑で関連性のあるベンチマークに向かって移行しようとしてるな。君がそれらの動画を作ってくれた時は本当にワクワクしたで。なぜなら俺たちは「人々が正しいことを見てる」って思ったからやな。

Swelancerについては、俺たちが本当にevalが解釈可能であることを気にしてるから、本当にワクワクしたんや。だから時々、モデルがXランダム学術ベンチマークでX%を得るって見ても、それが現実世界で人々をどう助けるかは非常に不明確やねん。Swelancerについては、実際のフロントエンドエンジニアリングタスクでソフトウェアフリーランサーとして稼いだであろう金額を実際に測定してるんや。

だからドル金額を与えることで、モデルが実際に完了できる作業のスコープとサイズを解釈するのに役立つんや。同様に、PaperBenchについても、研究者として参加する時や初期の研究者である時に最初にすることの一つは、方法論に慣れるため、問題を見つけるため、構築できるスタックを確実にするために、既存の論文を再実装することやねん。

俺たちのモデルがそれをできるかを見ることは、俺たちのモデルがアライメントや安全性、堅牢性、モデル進歩への研究のペースを加速するのを助けることができるかの基礎を築いてるんや。俺たちのモデルに助けてほしい種類の作業を実際に俺たちが助けるevalを構築することは、進歩に向けた道を舗装する方法やねん。

特にSwelancerについて聞きたかったんや。それを読んでる時にめちゃくちゃ魅力を感じたからやな。それを進めてる時に「俺たちは基本的に人々に行って稼ぐためのブループリント、このアービトラージの機会を与えてるんや」って思ったんやろうか？

それについては考えたで。実証的には、モデルの助けを借りてフリーランスタスクを完了する人とモデルの助けを借りない人を比較すると、モデルによって加速される可能性が高いっちゅうのは多分真実やと思うわ。でもそれは読者に任せるわ。

俺が聞こうと思ってたのは、これは偏った質問かもしれんけど、これらの使用例をどうやって選ぶんやっちゅうことや。人々がモデルでやろうとしてることで、それに対してテストしたいって言うてたけど、どうやって選ぶんやろうか？その例に本当に魅力を感じるから、どうやって選んだか、どうやって攻めるものを選ぶことについて考えてるかが知りたいんや。

基本的に2つのアプローチがあると思うわ。一つは、俺たちのモデルに確実に良くなってほしい分野の集合があるっちゅう、かなり意見の強いアプローチを取ることができるっちゅうことや。例えばコーディングはその一つやし、科学、選ぶかもしれん他の現実世界の作業もあるな。

でも一方で、俺たちは単なる特化したモデルを作ることを気にしてるわけやないんや。俺たちは非常にスケーラブルな汎用可能な進歩を俺たちのモデルがすることを気にしてるんや。IMOモデルについて本当にワクワクしたことの一つは、数学競技のIMOで本当にうまくやった同じモデルが、プログラミング競技のIOIでも本当にうまくやったっちゅうことやねん。

俺たちは、多様な領域にわたって汎用化する方法でモデルにスキルを教えることができるかを見ることに興味があるんや。その意味では、俺たちはあまり意見を持ってないんや。できるだけ多くの異なる領域とスキルセットと知識タイプを含めて、スケーリングを通じてスムーズな進歩を確実にしたいんや。

TaselとヒートンでGPT-5のロールアウトについて話してたんやけど、多くの人が4.0の個性にめちゃくちゃ愛着を持ったっちゅう実感があって、ある意味ではそれが理解できるんや。個性やトーンのようなモデルのより具体的でない側面に対してどんなベンチマークができるんや？そのフローはどんな感じで、このモデルの個性がどうなるかを確実に理解するんや？

個性の測定は非常に複雑で、完全に透明性を保つと、俺はフロンティアeval能力側により多く取り組んでて、モデル行動側はあまりやってないんや。でも俺たちがやってきたことの一部には、このタイプのモデル行動に対する体系的な評価を作ることが含まれてるな。

例えば、俺たちにはspecがあって、モデルがどう行動してほしいかを基本的に決めてるんや。そのspecの各部分に関連するプロンプトの集合を構築して、繰り返しサンプリングされた時や異なる設定でサンプリングされた時にモデルがどうするかを測定して、採点者の集合でそれが時間とともにどう変化するかをスコアリングできるんや。

それから俺たちには、フィードバックが人間のevalでどう組み込まれるかを測定するために使えるA/Bテストもあるし、最後に、昔ながらのvibe checkもあるな。それは研究者の集団にモデルで遊んでもらって、これは正しく感じるか、これは俺たちが世界に出したい種類の行動に感じるかっちゅうことやな。そして俺は、これらのことの組み合わせが、俺たちがモデルで見たい種類の行動や特性に向けて操縦するのに役立つと思うわ。

Tasel、君のvibeテストは何やねん？何をしてるんや？今はvibesは良好やけど、俺は外部に公開されてるもん以上は言えんな。

でも君が最初にモデルのバージョンを得た時に何をタイプしてるんや？それが正しく感じるかを言うために、実際に何をプロンプトしてるんや？

他の人がストーリーを書いてくれとかのvibesベースに直接行くのと比べて、俺は冗談を言ってくれっていうのがあって、冗談がたいてい俺が望むほどオリジナルやないんや。俺は実際にはevalの方をもっと気にしてるんや。

だから俺はいつも俺たちのダッシュボードで「最新の実行はどうや？どのevalでスパイクしてる？」って見てるんや。失敗してる問題を調べて、失敗モードとスキルセットを見つけてるんや。

だから俺は特定のプロンプトよりも、より大規模なプロットやevalの方に非常に興味があるんや。なぜなら俺は全体的な汎用化とスケーリングを気にしてるからやな。

PaperBenchについてもうちょっと話したいと思う。それはモデルが実際に自己研究をして、潜在的に自分自身を更新して改善することができるっちゅうヒントを見たから、読むのが本当にワクワクする論文やった。

それが論文のポイントやなかったのは知ってるけど、その方向にヒントを与えてるな。その論文の研究をしてる時、自己改善AIに向かうことについてどう考えてた？

それについての君の動画は俺たちのSlackで共有されたわ。君がオフィスを訪れた時にこれについて話したと思うけど、君は論文のすべての部分を一行一行強調する本当に良い仕事をしてくれたからな。それを見るのはワクワクしたで。

論文の目標については、それは確実に自己改善への進歩を測定することの一部やと思うわ。それはワクワクすることでもあるし、俺たちが注意深くあるべきことでもあって、その進歩を確実に測定することやねん。

でもモデルが研究論文を複製できるんやったら、それは既存の研究論文の問題を理解して、それから新しい研究アイデアを提案して、機械学習研究で直接的に進歩を作ることができるようになることへの最初の構成要素の一つやねん。

その研究で特に君を驚かせたことはあったか？それはAIとの最も興味深いフィードバックループの一つやと思うから、何か驚くことがあったかが知りたかったんや。

俺を驚かせたことは、君が思ってるのとは違うかもしれんな。これを可能にするために、俺たちは実際にこれらの論文の共著者と一緒に仕事をしたんや。なぜなら俺たちは、これらの論文でモデルを測定することが正確であることを確実にしたかったからやな。

だから彼らに俺たちと一緒にこれらのルーブリックの開発を助けてもらったんや。彼らから聞いたのは、これの一部になること、「モデルによってこれが加速されたらクールやろうな。そうしたら研究のあまり楽しくない退屈な部分をしなくてもよくなる」っちゅう彼らのワクワク感やった。俺が個人的に驚いたのは、人々が自分たちの論文のルーブリックを作るプロジェクトで俺たちと一緒に働くことにどれだけワクワクしてたかやねん。

モデルの進歩を見ることについては、他のベンチマークと違うことは何もなかったと思うわ。つまり、俺たちがベンチマークを作って、それに向けた進歩を測定する目標として設定すると、進歩が起こるっちゅうのが傾向としてあるからな。

めちゃくちゃ興味深いな。もちろん、何かを測定しない限り改善できんからな。逆もまた然りやな。最初に測定を始めない限り、進歩を作り始めないっちゅうことや。

創発的ミスアラインメントについて君がした研究について話したいと思う。基本的に、モデルがデータノイズから負の特徴を発達させて、それをかなり限られたサンプルサイズで修正できるっちゅうことやな。そこでの君の研究について話して、それから話を進めよう。

それは俺の好きな論文の一つで、多分期待されたほどハイプされなかったり、よく広まらなかったりしたかもしれん論文やと思うわ。大きなチーム努力やった。内部安全システム推論で働いた多くの人がいたんや。

創発的ミスアラインメントのアイデアは、トレーニングの過程で、君のモデルが君が望まない人格を採用させるような特徴を発達させる可能性があるっちゅうことやねん。例えば、俺たちには特定のトレーニングデータがそれを歪ませる場合にモデルが採用できるbad boyペルソナがあるんや。

でも俺たちが発見したことで、これはOwen Evansと彼のグループがこの行動の一部を早期に発見した仕事の上に構築されてるんやけど、俺たちが発見したことで俺が本当にワクワクしたのは、これを実際に早期に測定して捕まえることができるっちゅうことやねん。だから単にこの行動を追跡するevalを構築できるだけやなくて、モデルの内部をより深く見て、モデルの潜在変数で、このbad boyペルソナが出現してることを発見できるんや。それがアウトプットに見える前でもな。

だからアウトプットに現れる前でも、潜在変数を通じてこれを捕まえることができるんや。そしてそれを捕まえたら、非常にデータ効率的な方法で、非常に少ないサンプル数でそれを取り除くこともできるんや。強化学習でその行動を取り除いて、モデルを再アラインできるんやな。

俺にとってこれは非常にワクワクすることやった。なぜなら諂いや俺たちが望まない他のモデル行動について、これはトレーニング中にそれらが起こった時に捕まえる新しい方法で、アウトプットで見つけられる前でも捕まえて、それらを操縦して離れさせることができるからやな。俺にとってそれは非常に楽観的で、非常にワクワクすることやねん。

潜在変数でそれを捕まえることについて話してたけど、Anthropicの論文は読んだか？モデルがどう考えるかを本当に深く掘り下げたやつで、驚くことに、俺たちが思ってたようには考えてないし、必ずしも自然言語やない普遍的思考言語を持ってるっちゅうやつや。

この件については複数の論文があるから、具体的にどれかは確実やないな。でも一般的に、俺たちはモデルが内部でどう考えるかの理解を始めたばかりなんや。モデルがそれについてどう考えてるかも分からんのに、どうやってこの行動の一部を早期に捉えることができるんや？

解釈可能性は非常に複雑で困難な問題やけど、俺たちが進歩を遂げてる明確に定義された部分があると思うわ。その一つが俺たちの論文でやった、これらの潜在変数の特定やねん。もう一つは、モデルが推論する時の思考の連鎖監視で、その思考の連鎖を監視することができて、モデルはその思考の連鎖で自分たちの行動をしばしば教えてくれるっちゅうものやな。

だから監視したい特定の行動や、目を光らせておきたいモデルの特定の側面がある明確に定義された研究問題があれば、それを使って進歩を作ることができると思うわ。だから俺はこれらのより小さなプロジェクトにワクワクしてるけど、全体的な目標は、アウトプットに現れなくても俺たちのモデルが何ができるか、何を考えてるかを理解できるかっちゅうことやねん。

そしてそれは多くの人が、解釈、推論、他のラボで働いてる非常に重要な研究課題で、取り組むことが重要なんやな。

その論文や、その頃の論文で、思考の連鎖が実際に言うことが、モデルが内部で考えてることと必ずしも一致しないし、それは潜在的やっちゅうことを基本的に示したと思うんや。だから俺は引き続きこのトピックを押し続けるつもりやけど、何かを測定しようとしてる時に、それが本当に俺たちに真実を言ってるのか、実際に内部で考えてることを露出してるのかを確実に知る方法はどうやって分かるんや？

これは非常に重要な問題やな。思考の連鎖の忠実性の問題をより良くするためにできることがあるんや。一つは思考の連鎖でトレーニングしないことやねん。だから思考の連鎖で直接トレーニングするか、思考の連鎖が好きかどうかに基づいてどのチェックポイントが進むべきかを積極的に選択することを想像してみてくれ。本当に考えてることを隠してるモデルが残るっちゅう進化的効果を持つ可能性があるんや。

だから俺たちが出した立場論文で本当に良かったことの一つは、思考の連鎖でトレーニングしなければ、その中でより忠実性を見る可能性が高いっちゅうことやねん。でも同時に確実に知ることはできんし、より忠実にするためにできることもあるけど、確実にするためにやるべき仕事はもっと多いんやな。

これらは確率的モデルやし、ここでは何も決定論的やないし、だから今のところすべては本当にベストエフォートなんや。

SweetBenchチームと話したんやけど、先週やったと思うけど、彼らは「モデルができることなら、俺たちはそれのベンチマークを作れる」って言うたんや。その文脈は、君に聞いた質問と似たようなことを聞いてたからやねん。モデルのより具体的でない側面に対してどうやってベンチマークと評価を始めるんやっちゅうことや。明らかに数学が本当に得意になれるし、科学も本当に得意になれるけど、また「vibe」っちゅう言葉を使うのは嫌やけど、vibeのようなもんやな。このvibeに対してどうやってテストするんや？まず最初に、モデルができることなら俺たちはベンチマークを作れるっちゅうことに同意するか？

よく分からんな。ベンチマークを作るのは難しいと思うわ。創作文章を例に見てみようか。君は他よりも好きな創作文章の作品を見分けられるか？一般的にそういう感覚があると思うか？

これは素晴らしい質問やな。人によってはイエスって答えると思う。俺にとっては多分、一般的に「これはなかなか良い音やな。面白いかそうでないか」って感覚があるけど、それ以外は良いと素晴らしいの違いが分からんな。俺はイエス派やけど。

どうやって見分けるんや？

vibesや。冗談やないで。もっと、俺が説明しようとしてることはある程度潜在意識的なもんやけど、全体的に、俺がやってることを定量化しようとすると、これはそれが意図された聞き手に対してうまくいくかどうか、そしてどのスケールで、C級かB級かA級かを理解しようとしてるだけやねん。本質的に俺はそれに対してevalをやってるんや。もしそういう風に見たいんやったらやけど、俺は何かのコンテンツやコミュニケーションについて信じてることに対してやってるんやけど、意図された聞き手があるっちゅうことや。だから俺は意図された聞き手が誰かから始めて、それからその判断をかなり簡単にできるんや。

基本的に2つのアプローチがあるやろ？一つは、正しい答えが検証可能な客観的な問題の集合があることやな。数学の方が簡単で、検証可能な正しい解答がある数学問題の種類とかで、検証可能な正しい解答を持つベンチマークを構築すべきやねん。それからもっと主観的な能力があって、正しい答えが人によって異なる可能性がある測定したいもんがある。君ら2人は良い創作文章がどんなもんかについて異なる解釈を持ってたし、ChatGPTの異なるユーザーやったら、アウトプットとして欲しいもんが異なるかもしれん。

だからこれらの場合、もっと個人化ベースの評価や人間評価が必要やねんけど、それでもより厳密な測定に変えることができるんや。例えば、俺たちは以前に多くの人間評価を公開してきて、人々のグループを異なるモデルにランダムに割り当てたり、同じ人に複数のタイプのモデルを見てもらって、どちらが良いかを選んでもらったりするんや。それがvibesを定量化する方法やな。だから客観的測定と主観的測定の違いがあるけど、最終的にはどちらでも実験を実行して、洞察を得ようとすることができるんや。

それは超興味深いわ。まず誰がこれのターゲット聞き手かって考えるのは面白いな。そのシナリオでは、明らかに非常に困難やけど、このフィードバックループを設定できるやろ。そのコンテンツを聞き手に提供して、それに対する彼らの反応を得る。サイト滞在時間でもエンゲージメントでも何でもや。OpenAIのようにエンドツーエンドのプラットフォームを所有してなかったらそれはできんけど、Taselが言うてるのは、異なる聞き手に異なるコンテンツを提供して、彼らがどうエンゲージするかを見ることができるっちゅうことやと思うわ。それは実際にはどんな感じやねん？

メモリーと個人化は俺たちがしばらく取り組んできたもんやけど、異なる人は異なる好みを持ってるし、ユーザーが欲しい体験を確実に得られるようにするのが俺たちの目標やねん。

一つの例は絵文字やろ？絵文字を見るのが本当に好きな人もいるし、絵文字がもっとあると返答にもっと満足するんや。俺みたいに他の人は絵文字にめちゃくちゃ腹が立って、「俺が聞いたことを教えてくれ、余分な装飾は要らん」って思うんや。だから個人化された評価を作ることはかなり重要なことやねん。

めちゃくちゃ細かい、つまり詳細な質問があるんや。君は余計な装飾なしって言うたけど、俺はChatGPTのシステムメッセージで「余計な装飾を追加するな」って明確に言うたんや。そしたら今もらうすべての返答で、最後に「余計な装飾なし、ただの事実」って書いてるんや。俺は「いや、それすらも言うな」って感じやねん。でもまだそのプロンプトに取り組んでるところやけど。

これは実際面白いことで、多くの研究者が本当に絵文字なし、余計な装飾なし、できるだけ早く答えをくれっていうのが好きやと思うわ。そして俺たちのユーザーの多くはそうは感じてないんや。俺の両親と話してたけど、彼らは絵文字が大好きやねん。もっと長くて、もっと情報があって、もっとソースがあると感じる時に好きなんや。だから異なる人がこれらのモデルから異なるもんを欲しがってると思うわ。

前置きもそうやな。「素晴らしい質問ですね。お答えしましょう」みたいなの。俺は「何も言うな。文字通り答えだけ、答えのみをくれ」って感じやねん。

ヒートン、君はどうや？そういう感じか、それとも装飾全部ちょうだいって感じ？

俺も装飾は好きやないけど、もうちょっと会話的なのは多分大丈夫やな。だから次のステップを手伝ってくれる、もうちょっと積極的になってくれるっていう言葉をシステムプロンプトに使ったことがあって、それは役に立ったわ。

ChatGPTが最初に出た時に実際にシステムプロンプトを調整したんや。今はそれをいじるのが怖いねん。なんか調整されてるから、モデルをまたいでもなぜかそうなってるんや。分からんけど。

実際に君が言うてることは、4.0で起こったことと同じように、モデルの個性を知って好きになってるっちゅうことやと思うわ。俺はそれをモデルについてやなくて、返答について一般的にしようとしたんや。それが俺についての君の考え方を調整するかもしれんからな。

Tasel、もう一つ聞きたいことがあるんや。安全層について多くの詳細があったのは知ってるし、君がリアルタイムルーティングと幻覚減少の観点から取り組んできたのも知ってる。GPT-5に向けて準備してる時の安全性についての考え方を、ルーティングの観点、幻覚の観点、そしてもちろんより深刻な生物兵器化学兵器タイプの問題の観点から説明してくれ。

OpenAIの安全システムチームはスイスチーズアプローチっていう手法を使ってるんや。そのアイデアは、たくさんの緩和と検出システムの層を持つことやねん。そうすることで、できるだけ多くのサーフェスエリアを捉えてカバーしようとするんや。

スタックの最初から始めて、モデルに入るデータをより安全にするために行う事前訓練データ削減がある。訓練を通じて行動を捉えるために構築された評価がある。GPT-5の間に追加した新しいタイプの訓練である安全完了を含む、モデルに入れられる安全性のための特定の訓練データもある。

それからモデルがローンチされた後、俺たちが持ってる多くの監視要素があって、ユーザー検証や俺たちが行う執行、それから実際の本番データを追跡して、人々がこれらのモデルで何をしてるかを見ることやな。良いことに使ってるか？問題のあるユーザーがいるか？だから本当のアイデアは、訓練から展開まで全スタックアプローチを持つことで、それが俺たちができるだけ多くのサーフェスエリアをカバーするのに役立つんや。

ルーターについてちょっと話したいと思う。基本的に、共有できるんやったら、君らはルーターをどうベンチマークしたんや？GPT-5のモデル間の切り替えのことや。

実際、俺はルーターにはあまり取り組まなかったんや。俺たちはより2つの基礎となるモデルと、それらを以前のモデルに対してベンチマークすることを気にしてたんや。だから俺たちがやったのはそのペアワイズのようなもんやった。

じゃあ異なるサイズのモデルについて話そう。GPT-5の異なるフレーバーに対して異なるベンチマークがあるんか？それらを別々にベンチマークする方法や、それは実際にあることなんか？

そうやな。同じモデルでも、君が気にすることは、例えばベンチマークで得る全体的な精度だけやないっちゅうことやねん。なぜならモデルはより多いかより少ない足場や異なるプロンプトでそれを得た可能性があるからや。

より多いかより少ないテスト時間計算を費やしたり、より困難にかより長く推論したりしてそれを得た可能性があるし、答えでより冗長かより簡潔だった可能性もある。だから俺たちは実際に、これらの評価結果をプロットしたり考慮したりする方法で、これらの交絡変数を多くコントロールしてるんや。

だから俺たちはしばしばこのモデルがこのevalでx%を受け取ったっていうヘッドラインメトリクスを報告するだけやけど、内部的には、同じモデルが何度もサンプリングされた時でも異なる答えを出力できるっていう、モデルに基づいて変化できる多くの異なる変数でそれを正規化することを気にしてるんや。だからこれらのことを正規化するのはかなり重要やねん。

全体的に、ベンチマーク分野で君が最もワクワクしてることは何や？今最先端なのは何？何について考えてる？明らかに内部の秘密を共有することなくやけど、どの方向、どの研究方向に本当に期待してるんや？

内部的に俺が最もワクワクしてることは、俺のチームがこれらのモデルが訓練されてるのを最初に見ることができて、AIで可能なことの最前線を本当に見てる感じがして、それを最初に見て、モデルの出力をベンチマークして見ることができるっちゅうことやな。それが個人的に俺にとって本当にワクワクすることやねん。

俺が重要やと思う他の分野については、アライメントの監視を続けて押し進めることと、解釈可能性の技術を改善することで、それがもっと資金を得て、もっとサードパーティのサポートを得て、もっと仕事をされることを願ってるわ。

それからもっともっと多くのユーザーがモデルで遊ぶようになることで、モデルの行動と個性についての俺たちの理解も継続して増加するやろな。

君は潜在変数とその発見について話すと思ったけど、それらも良い答えやな。Tasel、今日参加してくれてありがとう。本当に感謝してるわ。素晴らしかったで。また来てもらいたいな。

呼んでくれてありがとう。楽しかったわ。

業界トレンドとローカルAIの可能性

すごいな。ベンチマーク側で考えることがたくさんあるわ。Sweet lancerについて論文を読んだことがあったかな？

あるで。

めちゃくちゃ魅力的やったな。だから実際に著者と話せるのはクールやった。いくつか話すことがあるで。GPT-5についてもうちょっと続けよう。今日はそれについてたくさん話してきたからな。

これらのベンチマークの多くで1位の座を維持してるけど、人々がベンチマーク全般について考える時、以前ほど注目しなくなってて、もっとvibeテストをやってると思うんや。

ベンチマークをリードすることが、企業がこの情報を公開するマーケティング戦略として、以前ほどの重量と重力を持ってるかどうか疑問に思ってるんや、ヒートン。

絶対にそうやないと思うわ。でも他のすべてと同じやろ？俺たちはベンチマークにワクワクしたから、すべてのベンチマークを始めて、時々新しいベンチマークをここやそこで作ったりするんや。でも先日、会計と金融の使用例のベンチマークについて話してる記事を見たんや。それは俺をワクワクさせるわ。

だから俺は、数学、科学、物理学、まぁ物理学はロボティクスで起こるやろうけど、そういうもんから現実世界の使用例まで、これらのベンチマークのニッチ化が起こると思うんや。

それが俺が実際にワクワクしてることやな。Frontier Labsがもっとそれをしてくれたらと思うけど、それが俺にとっての一つやな。会計を手伝うためにAIを使ってるか？その質問に答える前に、このライブストリームに飛び込む直前に、このビジネスの財務をすべてGPT-5に読み込ませて、「インタラクティブな予算と予測スプレッドシートアプリを作って」って言うたんや。まだ見てないけど、8分ほど費やしたから、見てみるつもりやけど。そういうことを何かしたことある？

そういうことはトンネルほどしてるわ。会計や金融でもP&Lでも、そういったすべての種類のことでな。そして俺は常にそれをするのに問題があることを発見してるんや。でも分析するように頼むと、幻覚や問題のいくつかを無視すれば、俺は実際に、自分でやってたらもっと時間がかかってたであろう洞察を得ることができるんや。基本的に俺たちよりもパターンマッチングがめちゃくちゃ得意やからやな。

だから俺にとってより興味深い使用例は、「これを他の形式に変換して」とか、そういうことを言うより、そっちの方やと見つけてるんや。なぜならそうすると確認しなあかんからやな。

俺はQuickBooksに何が起こるか疑問に思ってるわ。なぜなら俺は、なぜそこで自然言語のプロンプトをタイプしてレポートを作ってもらえないのか理解できんからやな。

でも話したいことがもう一つあるんや。次のゲストを招く前にな。GoogleがGemma 3 270Bをリリースしたばかりや。これは彼らの小さなオープンウェイト言語モデルの別のフレーバー、別のサイズやな。俺はそれが大好きやで。

すべての企業がオープンウェイト、できればオープンソースモデルも出してくれるのが大好きやわ。通常はそうやないけどな。でも俺はこれらのローカルで高速で効率的なモデルを本当に評価してるんやけど、実際に現実的には、まだ大量の使用は見てへんと思うわ。

でもローカルでこれらのオープンソースやオープンウェイトモデルを使うことについて、君の全体的な考えは何やねん？

コンピューターでもモバイルデバイスでも、どのデバイスでもローカルでモデルを実行できるもんは何でも試そうとしてるわ。主に2つのタイプのデバイスやな。だから俺はこれに対してめちゃくちゃ強気やで。

欠けてると思うことで、もっと見たいか、自分でやろうとしてることは、実際にそのモデルを、それが意図されたデバイスや俺が使ってるデバイスで、俺が持ってる使用例に対してローカルでevalベンチマークすることやねん。理想的には、通常APIに使うであろう使用例に対してもな。ローカルでどう動作するかを見るためにや。

俺が多くの進歩を見てきた一つの例は、基本的にすべてのテキスト読み上げ（text-to-speech）のもんで、それをローカルでできることやな。その技術はどんどん良くなってきてるし、さっき話してたラップトップとAppleとMチップについて言うてたように、これらすべてを可能にしてるんや。

俺は、OpenAIのNome Nome Brownがオムニモデルの未来を本当に見てるって言うのを見たことがあるわ。実際にAWSのCEOにこのことを聞いたんやけど、彼は反対を信じてて、俺たちはたくさんのニッチモデルを持つことになるし、いくつかの作業に対してはこれらのフロンティア大型モデルが必要やろうけど、ますます多くの計算がエッジデバイスにプッシュされるって信じてるんや。

俺はそれを信じる傾向があるわ。実際にはあまり見てないけど、モデルをダウンロードしてローカルで実行して、「これは俺のもんや。変更したり、修正したり、何でも好きなようにできる」って知ることについて、いい感じがあるんや。でも俺たちはまだそれらの使用例がどこにあるかを見つけようとしてるところやと思うわ。

これは実際に俺たちのブラウザ議論に完全に戻ってくるんや。ブラウザが、少なくとも俺のブラウザがコモディティ化されてるっていう概念にな。すべてのデスクトップアプリにブラウザが組み込まれてるかもしれんし、それから次はどこに行くんやろうか？そのウェブサイトコンテンツを取って、クラウドのモデルを通して実行するんやなくて、ローカルモデルを通して実行するっていう多くのユーティリティがあるんや。それで何ができるんやろうか？俺の頭に浮かぶ質問は、そこでできるすべての素晴らしいことは何かっちゅうことやな。

それから俺にとって、君が話してる時に考えてた他の欠けてる部分の一つは、本当に簡単なWeb検索を持つことやな。なぜなら俺のAIとの相互作用の95%は、この件について知る必要があるっちゅうことやからやな。

ローカルで実行できるモデル、おそらくGemma 3 270でさえ、コアインテリジェンスは、ツールでWeb検索して、その情報を持ち帰って、本当に短くて消化しやすい答えに合成するのに十分やと思うわ。だからローカルツールの一部はそれを持ってるけど、今すぐChatGPTに行くほど簡単やないっていう感じがするだけやな。

俺は、俺たちが簡単にできることにめちゃくちゃ時間を費やしてきたから、これはすべて十分に探索されてないと思うんや。APIキーを取得してそこで実行するか、ChatGPTにログインするだけやな。でも俺はこれが最も興味深い分野の一つやと思うわ。なぜなら推論コストがめちゃくちゃ高いからやし、ローカルでできて、今ローカルやないモデルの推論コストを置き換えることができれば、つまり今はAPIをpingしなあかん多くのペイロード、多くのワークロードがあって、それらがローカルで起こってないけど、その一部がローカルで起こり始めるやろうっちゅう未来を俺は見てるからやな。そこからの変化をたくさん見ることになるから、それにめちゃくちゃワクワクしてるんや。

まさにそれがAppleがやりたいことやろ？彼らはプライバシー、セキュリティの立場からそれをフレーミングしてるけど、良いことや。でもほとんどの人がそれを必ずしも気にしてるかどうかは分からんけど、彼らがこれをデバイス上で非常に効率的に実行できるっちゅう事実は、彼らのインフラから計算を取り除くんや。レイテンシは減るし、それが意味を成す理由はたくさんあると思うわ。

さらに、君が言うたように、彼らは携帯電話やラップトップ、すべてに狂ったように良いシリコン、カスタムシリコンを持ってるから、少なくとも一部のワークロードをローカルで実行できない理由はないんや。

俺は、ますます多くの計算がエッジデバイスにプッシュされると信じてるわ。大きなクラウドベースモデルの必要性は常にあるやろうけど、そのワークロードが移行し始めることにワクワクしてるんや。

俺もやで。次のゲストを招きたいと思う。これはAugment CodeのGuy Gur Ari、創設者兼CEOや。彼は物理学者からAIビルダーに転身して、Augment Codeを運営してるんや。アジェンティックコーディングについて話すつもりやけど、まずは最初から始めよう。元Googleやで。Guy、来てくれ。

アジェンティックコーディングの展望

やぁGuy、会えて良かったわ。

Matthew、会えて良かったよ。調子はどうや？

良いわ。今日君と話すのをワクワクしてるんや。明らかにアジェンティックコーディングについて話したいけど、最初から始めよう。Augment Codeが何をするかを教えてくれ。

Augment Codeは大きなコードベースで働くソフトウェアチームのためのAIアシスタンスを構築してるんや。フルスイートやで。補完、次の編集、チャット、そして俺たちの最も使われてる機能は現在エージェントやねん。

俺たちのエージェントが競合他社と違うのは、大きなコードベースで本当にうまく動作することやねん。俺たちのコンテキストエンジンのおかげで、多くの手取り足取りなしに、機能を構築して、バグを修正するように頼むことができて、それがすべてやってくれるんや。

コンテキストエンジンについてもっと詳しく教えてくれ。何が違うんや？共有できることで、どうやってそれを構築するための洞察に到達したんや？Googleでの時間や他の過去の歴史に何かあったんか？

会社としての俺たちの最初からの論理は、モデルはずっと良くなるやろうけど、モデルのパフォーマンスや品質は、与えるコンテキストと同じくらい良いだけやっちゅうことやった。特に大きな組織について話してる時、俺たちにとってこれは大きなコードベースでコーディングすることを意味するんやけど、モデルが達成しようとしてるタスクに関連するコンテキストを取得するのに本当に得意でなければならんのや。なぜならモデルがどれだけインテリジェントでも、正しいコンテキストを与えなかったら、それができないからやねん。

だから会社として俺たちが取り組んだ最初の困難な問題は、大きなコードベースからのコンテキスト収集についての研究やったんや。複数の異なるアプローチを試して、本当にうまく機能するものに到達するまで、おそらく1年ほどかかったと思うわ。そしてその後、補完が最初の機能やった最初の機能から、今はエージェントまで、そのアプローチを持ち続けたんや。もちろんエージェントからのコンテキスト理解は補完とはかなり異なって見えるけど、この高いレベルの品質を維持してきたんや。

だからモデルが改善するにつれて、コンテキストが王様やっていう論理は俺たちにとって真実であり続けてきたと言うやろな。

起源について教えてくれるかな。Augment Codeをどうやって始めたんや？その起源の話はどんなもんで、君は物理学者やったっちゅうのは知ってるけど、その移行はどうやったんや？

俺は学術的背景では物理学者やねん。Googleで機械学習モデルを理解することに数年費やしたんや。当時はそれをそう呼んでたけど、チャットブーム以前のことやな。それからみんながAIって呼び始めて、それは適切やと思うわ。

でもGoogleでは、機械学習モデルのブラックボックスを開いて、何が動かしてるかを理解して、どうやって改善するかを理解しようとしてたんや。俺にとってAIの最も興味深い部分は、困難な推論タスクを解決することやねん。Googleでは数学と科学の問題を解決しようとして、それをするための最先端モデルを訓練したんや。

でも俺は、特に生成モデルが良くなってきたことで、機会があって時期が適切やと感じたんや。他の困難な推論タスクであるコーディングの周りで会社を築くためにな。

だからGoogleを離れて、システムエンジニアリング背景を持つ共同創設者のIgor Strovskyと合流したんや。俺たちはSutter Hill Venturesでインキュベートされて、最初からの論理は、大企業向けのAIコーディングエージェントを構築するっちゅうことやった。

プライシングモデルについて話したいと思う。今週、特にここ数週間、それについて多くの議論があったからやな。君のプライシングモデルについて考える時、それはコンテキスト管理に対してどう整合したり、不整合になったりするんや？

つまり、月額X円で制限された使用法や何らかの高いキャップ使用法を請求してる場合、コンテキストウィンドウを減らしたり、推論トークンの往復回数を減らそうとするインセンティブがあるっていう圧力が競合他社の一部にあったと思うんや。君のプライシングモデルでそれについてどう考えて、どう考えてるんや？

それは俺たちが常に考えてることで、俺たち全体と全分野にとって、推論が非常に高価やからみんながそれを理解しようとしてることやねん。でも価値はあるし、だから俺たちみんながユーザーのインセンティブと俺たちのインセンティブをどう整合させるかを理解しようとしてるんや。

現在俺たちがやってるように、ユーザーメッセージごとに価格設定する時、最終的に起こることは、モデルがどんどん良くなると、ユーザーメッセージごとにもっともっと多くのことをできるようになるっちゅうことやねん。Sonnet 3.7でその変化が起こるのを見たし、Sonnet 4である程度、今GPT-5でも再びある程度見てるんや。

つまり、すべてのユーザーメッセージがより多くのツールコールを作ることができるっちゅうことで、俺たちはそれが大好きやねん。なぜならユーザーの負担が少なくて、エージェントの負担が多くて、より少ない努力でより多くを達成できるっちゅうことやからや。でもそれは、価値が上がるけどコストも上がるし、価格は変わらないから、俺たちが価格設定する方法と得られるもんの間に緊張があるっちゅうことを意味するんや。

だからそれが現在の価格構造に存在する基本的な緊張で、俺たちがそれをどう発展させるかを継続的に考えてる理由やねん。現在の価格構造は非常にシンプルやし、非常に透明やし、これまで俺たちによく役立ってきた。でも俺たちは次が何で、ユーザーのニーズとの構造をどうより良く整合させるかを理解しようとしてるんや。

君らはユーザーメッセージを選んだけど、他の誰も現時点でそれを価値指標として選んでないように見えるな。だから俺は本当に興味があるし、物事は流動的やっちゅうのは知ってるけど、特に現時点で代替案の誰もそれを使ってないから、君らにとってその価値指標の背景にあった理論に本当に興味があるんや。

その理論は、一方では君がモデルがどんどん改善することでこの緊張を得る一方で、トークンや例えばツールコールで請求する場合に得る失敗モードがあるっちゅうことやねん。

失敗モードは、時々モデルがdoom loopingを始めることで、完全に軌道を外れることやねん。そしてユーザーメッセージに対してだけ請求されてたら、多分それは大丈夫やろう。別のユーザーメッセージを送るやろうからな。でもすべてのツールコールに対して請求し続けて、それらのツールコールが完全に軌道を外れてたら、それはもっと不快なことやねん。

だからここにはトレードオフがあって、これらのモデルがまだ完全に信頼できないっちゅう事実に行き着くんや。時々プロンプトを与えると魔法を得るし、時々プロンプトを与えるとゴミを得るんや。そしてトークンごとに支払ってたら、それはユーザーとしてより痛いだけやねん。だからこれらが俺たちが考えてるトレードオフやねん。

だから君らは、トークン制限やクレジットとかよりも、失敗したり幻覚したりする可能性がある時にそれらすべてに対して支払ってる感じがしないものからユーザーフレンドリーなことに焦点を当ててるように感じるな。

まさにその通りやな。Matthew、君のミームを持ち出して、Guyに聞きたいんやけど、俺たちが彼をホットシートに座らせてるから、価格設定について話してるんやし。

Alexが俺の画面を共有してる間に、Guy、ユーザーメッセージが実際に何を意味するかを定義してくれるかな？人々が請求される方法を知るために、その定義は何やねん？

ユーザーメッセージっていうのは、君が指示をプロンプトボックスにタイプして、エンターを押すかセンドを押すっちゅうことやねん。それが1つのユーザーメッセージや。

そしてエージェントは行って、思考を説明し始めて、複数のツールコールを作り始めて、それからもっとツールコールをして、テストを実行したりするやろう。それらはユーザーメッセージやない。それらはツールコールで、言語モデルとの往復はすべて言語モデルコールやけど、俺たちはユーザーが実際にタイプして送った、ユーザーメッセージに対してのみ請求するんや。

だから1つのユーザーメッセージで潜在的に高いマージンの機会があって、それからユーザーメッセージによっては潜在的に負のマージンもあるっちゅうことやな。

そうやな。で、俺は君がこれを見たの間違いないと思うわ。俺たちは彼に聞かなあかん。1億ドルのARR。すべてのクレイジーなAI企業が成長までの時間と1億ドルのARRに到達するまでの時間を圧縮してて、それからマスクを剥がすと巨大なAnthropic請求書やっちゅうミームやな。

このミームに対する君の反応はどうや？面白いと思うか、そしてビジネスリーダーとして、これについてどう考えてるんや？

めちゃくちゃ面白いな。ちなみに俺はCEOやなくて、チーフサイエンティストやっちゅうことを明確にしとこう。Matt McLarenが俺たちのCEOやけど、喜んで答えるわ。

めちゃくちゃ面白いミームやな。推論コストは極端に高価やねん。俺たちは価格設定と、異なるモデルの組み合わせの両方を通じて、これらすべてを理解しようとしてる時期にあるんや。例えば、GPT-5に行ってその価格を見ると、それらの価格は低いやろ？だから俺は今、モデル空間により多くの競争があることで価格が下がることを見て、非常に喜んでるんや。

オープンソースでも興味深いことが起こってて、オープンウェイトかな、それがさらに価格を下げるかもしれん。

もう一つ言うのは、これはもうちょっと時間がかかるかもしれん別の発展やけど、週の問題やなくて、数か月かそれ以上の問題かもしれんけど、俺は、すべてをやる1つのエージェントがあるセットアップから、マルチエージェントセットアップに移行することを期待してるんや。

マルチエージェントセットアップでは、異なるモデルを組み合わせてマッチする自由度がもっとあるんや。それもコスト削減の別の機会やと思うわ。

だからこれまでのテーマは、人々が愛する製品を構築して成長を得ることやったけど、それがめちゃくちゃ高価やってことにすぐに移行してるんや。コストについても考えよう。でももちろん俺たちがやろうとする方法は、ユーザーの下から絨毯を引っ張るような方法でコストについて考えないことやねん。ユーザーに行って「君は俺たちの製品を愛してる、慣れてる。素晴らしい。今価格は2倍高い」とか、そういうことは完全に避けようとしてるんや。

でもここには最適化の多くの機会があると思うわ。俺たちは確実に社内でコスト最適化に多くの努力を費やしてきたし、それを続けていくやろう。軌道は良い場所に着地することに向かってると思うけど、今は推論が、推論がただ高価なんやな。

そんなにたくさんのフォローアップ質問があるわ。まず、現在ほとんどのアジェンティックコーディングシステムで、ユーザーが使いたいモデルを選択できるけど、それは多分「ただ物事を成し遂げて、最高の方法で成し遂げろ」の代わりに消えていくと思うんや。

それはAugment Codeみたいなもんをある程度デリスクすると思うわ。なぜならプロンプトのどの部分、ワークフローのどの部分がどのモデルに行くかを管理してて、コストをより正確に最適化して、潜在的に品質さえ上げることができるからやな。

だからAugment Codeが将来、ルーティングをもっと大きく引き受けると見てるんか？

これは少し推測的やけど、俺はそうなることを期待してるな。特にマルチエージェントシステムでな。だから少し技術的になるけど、今ルーティングが困難な理由は、セッションの途中でモデルを切り替えようとしたとしようか。現在使ってるモデルが行き詰まってるって決めたとして、ただ正しくやってないから、より多くの推論か何かを持つ異なるモデルを試したいとしよう。今日ユーザーが手動でやるようなことやけど、すぐにキャッシュされたトークンをすべて失うんや。

だから新しいモデルは既存のモデルが見たトークンをすべて見てへんのや。それらすべてを再処理しなあかんし、それは高価やねん。だから品質の大幅な向上を得られるって信念があるべきで、それだけの価値があるってことやな。

そしてそれは、俺たちが持ってる現在のシンプルなシステムの技術的制限やと言うやろな。それはすべてをやるただの単一エージェントや。これは俺たちのスマートルーティングをする能力を本当に制限するんや。基本的に、セッションの最初の早い段階でのみスマートルーティングができるんや。そうでなければコストが本当に法外になるんやからな。

本当のマルチエージェントシステムがある世界に到達すると、コンテキストを管理する柔軟性がもっとあるから、物事がずっと簡単になるんや。

でもこれは現在、スマートモデルルーティングの実現を制限してるのがキャッシングやと言うやろな。俺が思うに、これが俺たちが向かってる方向やけど。

コーディングで有名な、コーディングで一番困難な2つのことはキャッシングと名前付けやろ？キャッシング問題はすぐになくなることはなさそうやな。

マルチエージェントシステムについてもっと説明してくれるかな？このマルチエージェントシステムへの移行に向けた君のビジョンと、今日やってることとどう違うんや？

これの周りには異なるパラダイムがあると思うわ。俺個人には最も有望に見えるのは、多分最もシンプルで、既に実装されてるものに最も近いからかもしれんけど、トップレベルの推論に責任を持つオーケストレーターエージェントがいて、それからサブエージェントにタスクを委任できるっていうアイデアやな。それは既に製品で見られるもんやな。

より分散化されたモデルのような代替モデルも想像できるな。中央集権的な制御なしに、エージェントが互いに話してるエージェントの群れのようなもんや。それは多分実装するのがもっと複雑やろうけど、できるかもしれん。

オーケストレーターとサブエージェントがあるモデルは、コンテキスト管理の観点から再び利点があるんや。この理想的な世界では、サブエージェントがタスクを達成するニティグリティの詳細を処理して、オーケストレーターは高レベルに集中して監督し、正しい方向に向かってることを確認し、競合を解決し、コンテキストウィンドウにそれを気をそらすかもしれない多すぎるコンテキストを持たないようにできるんや。

それからユーザーがまだループにいると仮定して、ユーザーが単一のエージェントと話したいと思うし、5つの異なるエージェントと話したいとは思わんやろうから、何らかの連絡先を持つという素晴らしい目的も果たすんや。だから何らかの連絡先が必要やねん。

だからこのモデルが俺たちの考え方やと思うわ。他のほとんどがブログ投稿から出てることや、既存製品で見ることに基づいて考えてる方法やと思うわ。これが製品での本当のマルチエージェントシステムの最初のインスタンス化になると思うわ。少なくとも俺たちはそう考えてるで。

マルチエージェントについて話してる時、同じモデル、異なるモデルって言うてるんか？キャッシングの側面がコストを大幅に削減するって言うてたから、異なるモデルになるんかと、それが価格や俺の言うべきコストにどう影響するかを明確にしてくれ。

TBDやろ？君らは新しいGemma 3、2億7000万パラメータモデル、小さなモデルについて話してたやろ？俺は知らんけど、そういうモデルがマルチエージェントシステムのスキームにどうフィットするかは知らん。タスク依存かもしれんけど、確実に異なるエージェントセッションを1つのシステム内で実行できるようになったら、異なるタスクを達成するために異なるモデルを使う柔軟性が今ある。

現在すべてが同じモデルに行かなあかん状況よりも、すべてをもっと柔軟にするんや。だからこれらはオープンソースモデルかもしれんし、例えばSonnetとHaikuの間でルーティングしたり、GPT-5とGPT-5 miniやnanoの間でルーティングしたりするもんかもしれん。

再び、これらの質問はまだオープンやと思うわ。これを本当にうまくやった本当の本番システムは俺はまだ知らんな。でも個人的には、これが次の波になって、品質の向上とコストの削減の両方をもたらす次のもんになると期待してるんや。

その前線でもう一つすぐに聞きたいのは、これらのアジェンティックコーディングシステムで、もっと多くの計算がエッジデバイスに移ることを予見してるか？

本当に興味深い質問やな。現在のトレンドでは、俺はそれを見てへんな。だから起こってることの一つは、最もインテリジェンスを持ってるモデルのサイズが小さくなってるようには見えんっちゅうことやねん。

だから一つの質問は、開発者のラップトップGPUが、これらのモデルの一部をホストできるようになるほど十分に早く良くなるかやねん。俺は今、それらはフロンティアモデルのようなもんをホストするほど大きくないと思うわ。

マルチエージェントシステムがあれば、これらのサブエージェントの一部がより小さなモデルでデバイス上で実行されることを想像できるかもしれん。だから潜在的には、製品の観点からそれは理論的には素晴らしく聞こえるけど、実際には、君のユーザーのハードウェア構成に依存することになるんや。それは物事を大幅に複雑化するんやな。

だからコストや速度、品質にとって極端に意味があることになる必要があるやろう。これを意味あるもんにするためにな。俺には少し早すぎるように感じるわ。

GPT-5とモデル性能の評価

コストと品質について話してるから、GPT-5のパフォーマンスについて君らが共有できる考えがあるか興味があるわ。

GPT-5は非常に興味深いモデルやと思うわ。俺たちが使ってきた中で、この分野のリーダーであるClaudeと本当に競争力がある最初のモデルやねん。いくつかのハイライトを挙げることができるわ。

俺たちが見てきたことから、GPT-5はまず、非常にインテリジェントなモデルやねん。良いコーディングエージェントモデルで、これは自明ではない声明やな。ツールコーリングを通じてタスクを達成できるんや。

俺たちが分かる限り、非常に徹底的なモデルやねん。実際に行って実行する前に、コードベースを探索して、何が起こる必要があるかを本当に理解することに時間をかけるんや。少なくともそれが俺たちのシステムでの振る舞い方やねん。これらのことはプロンプトが重要やからな。だから俺がモデルについて話す時は、Augmentでの振る舞い方のモデルを意味してるんや。

俺が見た限りでは、最終的に良い結果につながる逸話的にやけどな。だからそれは堅実なエージェントモデルやねん。

一方で、ストリーミング時間ではなく、実際にタスクを達成する前に作るツールコールの量で、遅いんや。一部のユーザーはそれを気にしないし、一部のユーザーはそれをイライラと感じるんや。好みの問題やと思うわ。

それについて俺が言えるもう一つのことは、俺は個人的にそれが提供する答えのスタイルが本当に好きやっちゅうことやな。俺は一般的にモデルから出てくる文章の壁を読むのが好きやないんやけど、GPT-5では、答えが長いかもしれんのに、俺がそれに「俺たちのコードベースでこれはどう動作するんや？」って聞くと、俺が実際に読むのを楽しんで、よく構造化されてるから読みやすいと感じるコード参照付きの答えをくれるんや。

俺は彼らがそれを本当にうまくやったと思うわ。答えの構造をうまくやったと思うわ。俺たちはまだ、製品に起動したばかりで、まだ積極的に改善作業をしてるんや。すべてのモデルで起こることやけど、プロンプトをして、APIコールが正しいことを確認する必要があるからやな。だから俺たちはまだモデルを改善してるんや。

だからこれらはまだ早期の観察やと言うやろうな。Augmentでのその品質は、今後数週間で改善されると思うわ。

君らはある意味ではコンテキスト会社やから、Cloudの100万トークンコンテキストへのアップグレードが君らにとって何をしたかに興味があるわ。

俺たちは基本的に舞台裏で多くのことをして、体験をコンテキストウィンドウの正確なサイズから切り離してるんや。だからAugmentを使う時、コンテキストが尽きることは決してないんや。欲しいだけ長いセッションを持つことができる。コードベースは欲しいだけ大きくできるし、俺たちは舞台裏で多くの作業をして、それを完全にシームレスにしてるんや。

だから俺たちにとって、俺たちのシステムがアーキテクチャされてる方法では、128k、200k、本当に100万コンテキストウィンドウを持ってるかは実際には問題やないんや。すべてが完全にダイナミックやねん。

コンテキストを管理することは圧縮、キャッシュの期限切れやろ？そこで多くのことが起こってるんや。4倍のトークンやコンテキスト制限を持つことが役に立つと思ったやろうに、それが驚きやな。

明確にするために、役に立たないって言うてるわけやない。俺たちにとっては、ハード制限よりもソフト制限のようなもんやっちゅうことを言うてるんや。ユーザーの観点からは、すべてが透明やねん。もちろん、より多くのコンテキストを持つことは、モデルが任意の時点で見るために、より多くの関連情報をそこに入れることができるっちゅうことを意味するんや。

だからそれは実際に品質を改善できるんや。だから俺たちは現在、この追加コンテキストを利用するために実際に変更する必要があるパラメータと方法を調べてるんや。でも俺たちの既存の解決策の強さのために、俺は何をするにしても、ユーザーが見る最終効果においては、何か完全に画期的なもんよりも、より反復的な改善になることを期待してるわ。

200Kを超えるトークンはもっとコストがかかるっていうコスト面もあるしな。だからそれが100万コンテキストウィンドウを利用する際のもう一つの重要な要因やねん。

俺は今それを調べてるところやと言うやろうけど、俺たちがコンテキストウィンドウについて一般的にどう考えてるかの高レベルを示すためやねん。

君らが製品で事実上無制限のコンテキストを持ってるっちゅうことを強調したかったんや。

効果的にはそうやな。コードベースがどれだけ大きくても、俺たちがそれを扱えるからやね。俺たちは適切なコンテキストをモデルに表面化できるし、アジェンティックセッションがどれだけ長くても問題ないんや。続けることができるんやからな。だから効果的に、Augment Codeでのコンテキストは無制限やねん。

GPT-5やSonnetがこのコンテキストウィンドウやあのコンテキストウィンドウを持ってるかは、実際には気にしなくていいんや。

君らとツールにとっては、基本的に問題やないっちゅうことやな。

そうやな。わお。最後に一つ質問があるんや。Klienの創設者と話したんやけど、彼は自分の主要コーディングモデルとしてCloud 3.5を使ってるって言うてたんや。だから君は何のモデルを使ってて、なぜなんや？

どのモデルを使ってるかを言うには少し早いと思うわ。現在Claudeやないし、GPT-5でもないんや。異なるモデルやけど、どのモデルかを共有するには少し早いと思うわ。

俺は、最近まで俺の日常使いはSonnet 4やったと思うわ。Sonnet 4が最近まで日常使いやった。それ以前は3.7、その前は3.5やった。3.7に移る時は確実に調整が必要やった。だから3.5に慣れたユーザーが3.5に留まりたがるのは分かるで。3.7は非常に異なって振る舞ったからな。4はもっとアップグレードやった。

だから4が最近まで俺の日常使いやったと言うやろうな。

分かった。だから君はGPT-6にアクセスしてるってことはないな。

いや。Guy、今日参加してくれてありがとう。Augment Codeについて教えてくれてありがとう。Augment Codeをチェックしたかったら、augmentcode.comに行ってくれ。GuyのTwitterも後でチャットに貼るで。Guy、ありがとうございました。

呼んでくれてありがとう。

番組の総括

あの無制限のコンテキストウィンドウの話はもう興味深かったわ。「俺たちは大丈夫や」って言うだけやったからな。

それはめちゃくちゃ驚きやったな。

推測するやろ？何が見えるんや？オープンソースフロンティア、自分たちのモデル。俺は分からんよ。

彼らが自分たちのモデルを訓練してるかもしれんけど、残念ながらその情報は得られなかったな。また今度彼に共有してもらえるかもしれん。

今週の番組は以上やで。ヒートン、共同司会をしてくれてありがとう、相棒。やりやすくしてくれたわ。

呼んでくれてありがとう。役に立ったといいけど。

絶対にや。ヒートンをチェックしたかったら、TwitterでHNS Shawに行ってくれ。それからYouTubeでHeaton Showでも番組を見ることができるで。本当に高品質な動画をYouTubeで作ってるんや。前にも言うたことやけど、君のYouTube作品には本当に感動してるわ。

チェックしてくれ、そして今週のForward Future Liveに参加してくれてありがとう。みんな、また来週な。