Forward Future Live 2025年8月8日

GPT-5
この記事は約57分で読めます。

2025年8月8日配信のAI業界解説番組。GPT5、Claude 4.1、Genie 3などの最新AI発表について、コンテンツクリエイターやAI企業幹部を交えて詳細に分析。特にコーディング能力の進歩やベンチマーク評価、オープンソースモデルの台頭について議論される。

Forward Future Live August 8th, 2025
Download (GPT-5 UPDATED) Humanities Last Prompt Engineering Guide (free) 👇🏼 My Newsletter for Regular AI Updates 👇🏼

導入部

ようこそForward Future Liveへ。今日は2025年8月8日や。ほんまに信じられへん一週間やったで。今日は素晴らしいゲストらと一緒に、今週発表されたいろんなもんについて話していくで。

まず最初は、素晴らしいMatt Wolf、同じコンテンツクリエイターやな。それとRay Fernando、これまた同じコンテンツクリエイターで、ライブストリーマー、そしてコーディングの達人や。彼らと一緒に今週の大きな発表、大きなニュースについて話していくで。

その後番組では、Kleineの CEOであるSaud RSwan、オープンソースのエージェントコーディングプラットフォームの人に来てもらう。ほんまに素晴らしいで。彼らは最近資金調達もしたばかりや。GPT5について話すし、一般的にエージェントでのコーディングについても話していく。

そして番組の最後には、SWEBenchチームに来てもらう。これはモデルのコーディング能力をテストするSWEBenchベンチマークを作ったチームや。彼らの新しいリリースについて話すし、GPT5の彼らのベンチマークでのパフォーマンスについても話していく。

ニュースレターに登録したい人は、forwardfuture.aiに行ってな。ニュースの総括もあるし、業界全体のAIリーダーシップからのオリジナル記事もある。ぜひチェックしてや。

GPT5の発表について

それでは私の2人のゲスト、Matt WolfとRay Fernandoに登場してもらおう。調子はどうや、みんな?お帰り、Matt。初回のRay、ようこそ。グリーティングス。GPT5おめでとうやな。

マジで忙しい一週間やったで。GPT5から始めよう。それが今週の話の主要な部分やったけど、最も最近起こったことでもある。GPT5は昨日ローンチされた。大きなローンチやった。私も自分なりの考えがある。Matt Wolf、まず君から聞きたい。GPT5への最初の反応はどうやった?どれくらい使ってみた?君のバイブチェックを教えてくれ。

Matt:そうやな、なんか同時に感動したのに物足りなさも感じた。両方感じることって可能なんかわからんけど、両方感じたって感じや。ライブストリームには少し物足りなさを感じた。あのライブストリームは製品を十分に見せてくれんかったし、製品をうまく披露してくれんかった。1時間半やったな。

あの1時間半のライブストリーム。ちょっとインタビューとかの余計なもんが多すぎて、ほんまに必要やったんかなって思った。チャットGPTアプリの色を変更できるようになりましたとか、誰もそんなに気にしてへんようなことを発表する必要もなかったと思う。

でもGPT5を使ってみて、ほんまに感動した。特にコーディング能力がな。ワンショットでできたもんがあって、マジで感動した。最初の実験では、「Vampire Survivorsのクローンを作ってくれ」って言ったら、ワンショットでゲームを作ってくれて、レベルアップとかも全部動いて、完璧に動いた。

コーディング能力にはほんまにびっくりした。でもライブストリーム自体は、見てて「もっと期待してたのになあ」って感じやった。

GPT4が出た時のことを覚えてるか?GPT3.5からGPT4への飛躍は本当にすごかった。紙に描いたウェブサイトの写真を撮ったら、そのウェブサイトが生まれるとか、みんなの度肝を抜くようなデモを見せてくれた。今回は、なんか限界的な改善を見せてるだけで、誰も「今見たもんは画期的で世界を変える」って感じられんかった。

でも使ってみて、コーディング能力にはほんまに感動した。だから物足りなさと感動の両方や。

そうやな。ベンチマークが飽和してる時に、AMC MathやGPQAで一桁のパーセント向上を話してても、そんなに具体的な向上は感じられへん。でも私が実際に感じてるのは、無形の、もっと微妙な違いや。

Ray、君の最初の反応はどうやった?物足りなさを感じた方か?それとも感動した方か?君は自分のコーディングをよくライブストリームしてるし、エージェントコーディングもたくさんやってる。最初の印象はどうやった?

Ray:最初の印象は、このモデルが非常にステアラブル(操縦可能)やということやった。これは私がモデルの知性として探してるもんの一つや。過去にも非常にステアラブルなモデルはあった、特にAnthropicとかな。時には極端なステアラビリティが、「これは正しいことじゃないと思う。君のために正しいことをやる」って言ってモデルの個性と衝突することがある。

私の使用例では、特にCursor内で多くの時間を費やした。多くの統合努力があることを感じられた。ライブ配信に行く前に、大きなバグをリファクタリングして、認証スタックの細かい詳細を調べる必要があった。

そしてそれは素晴らしい洞察を与えてくれた。エンジニアとして、基本的にもう一人の経験豊富なシニアエンジニアとしてコードを通して見てもらってる感じで扱ってる。

もう一つの洞察は、やりたいことのアイデアがあれば、ステアラビリティが非常に強いので、実際に君の望むことを好むんやけど、推論出力では「それはいいアイデアやないと思うけど、でも君が…」って理由を出力して、なぜそれがいいアイデアじゃないかを実際に出力してから、君の好みに向かっていく。これは他のモデルでは見たことがない。

ステアラビリティについて

Rick、ステアラビリティの簡単な定義をしてくれる?

Ray:ステアラビリティについてやな。これはモデルが指示を受け取って、何かを出力して、「実際にはこの小さな変更だけに焦点を当てたい」とか言える能力のことや。通常、多くのモデルは自分の意見を持つことができる。

運転に例えると、ウーバーの運転手に空港に行きたいって言って、途中で「In-N-Outに寄ろう、出口がここにあるから」って言ったら、「In-N-Outは君には良くないよ。サラダのところに行くべきや」って、サラダのところに連れて行かれる感じや。「君、お腹すいてるやろ?」って言われて、「そうや、お腹すいてるけどIn-N-Outが欲しいねん。サラダなんかいらんわ」って。空港への道のりで早く着けるからって理由で。

でもそれがステアラビリティや。「In-N-Outに行く」って言って、OpenAIがそこに連れて行ってくれる。バーガーを手に入れる。満足する。そして人生を続ける。自分を再説明する必要がない。

これはシコファンシーに似てる気がする。シコファンシーは基本的にモデルの過度な同意を意味する。「ひどいアイデアがある」って言って、ひどいアイデアやって言ってるわけじゃないけど、私がよく使う例は「家族を離れる。アラスカに引っ越す。明日からオフグリッドで生活する。私のアイデアを肯定してくれ」や。

GPT4で数ヶ月前に問題があって、「それは素晴らしいアイデアや。家族を離れるべきやし、アラスカで生活するのに訓練も必要ない」って基本的に言ってた。それがシコファンシーや。ステアラビリティと非常に似てる。

ライブストリームでも、発表ブログポストでも、このモデルは以前のモデルよりも悪いアイデアに対してもっと反発するって話してた。シコファンシーは彼らが本当に測定してたもんや。

Ray、コーディングに関するモデルの実際のステアラビリティについて、そういう感じを受けてる?

Ray:そうやな、それを感じてるし、時には実際にシニアエンジニアとして押してた。解決策をくれて、エンジニアは非常に意見が強い。同じ問題を達成する方法が5つくらいある。

それで違う問題を与えて「この問題の方が実際にいいと思う」って言ったら、実際に私に反発してくれた。「この問題について話してる時に」って言って、リファクタリングについて具体的に話してたんやけど、実際に私のコード通して歩いてくれて、これが好きやった。

これまで生成したコードの多くは、ある意味バイブコーディングやった。だから、自分のソフトウェアスタックで何を使ってたかを思い出させてくれた。それが今本当に気に入ってる理由や。もっとコパイロットみたいに感じる。

コードの深い部分を実際に調査したい時にこれを持ち込みたいし、実際にデバッグしたい。そこに多くの可能性を感じてる、特にCursor内での統合と合わせて。

私の主要なエージェントコーディング、Claudeの代替としては使わんかもしれん。計画を生成したり調整したりするのには使わんけど、Claudeとのセッションがあれば、いい計画とアーキテクチャを確実に作りたい。それからそれらの部分を取って、GPT5を使って実装できる。本当に欲しい細かい詳細を得られるし、エンジニアとしてその行ったり来たりの会話が欲しい。

モデルの統合と命名について

Matt、発表で私にとって衝撃的やった部分の一つは、彼らが以前のモデルを全部廃止することやった。O系モデルの継続を見ると思ってたけど、基本的に全部このGPT5に統合されて、名前の付け方でも自分らを抑えられんかった。GPT5 thinking、GPT5 Proってやった。

以前のモデルを全部廃止して、私たちが知って理解してきたモデルから、全部単一のモデルに移行することについてどう思う?

Matt:賢い動きやと思う。私たちのようなパワーユーザーのためじゃなくて、一般大衆のために作られた動きやと思う。コメントでよく聞くし、現実世界の友達と話してても、ChatGPTにお金を払ってるのに複雑になるって言われる。40を使う?03を使う?04 miniを使う?04 normalを使う?どのモデルを使えばいいかわからへん。

OpenAIがこれを示唆してたと思う。どのモデルを使うか考える必要がないモデルルーターを持ちたがってた。プロンプトを渡せば、そのプロンプトに基づいて最適なモデルがわかって、適切なモデルにリダイレクトする。

彼らが出したブログポストの一つに、等価性を実際に示してた。40の等価を使いたければ、それはGPT5と同じ。03を使いたければ、それは5 Proの等価、みたいな等価性チャートがあった。

でも世界の99%の人は気にしてへん。プロンプトを渡して、どのモデルを使うかを教えてくれればええねん。

私も古いやつで同じ質問を40にして、同じ質問を03にして、どっちがいい回答をくれるか見て、時には両方の回答を組み合わせて戻して「この2つの回答を取って最高の究極の回答をくれ」って言ってた。今はそういうことをする必要がない。

それにルーティングでもあるし、ハイブリッドモデル、思考と非思考でもある。それが本当に好きや。時には必要ない時に考えることもあるけど、大体正確やった。プロンプトを始める時に「代わりに素早い回答をくれ」っていう小さなボタンがある。これは新しかった。予想してなかった。

ハイブリッドの違いを感じたか?前のモデル、GPT40対03で、その違いについて考える必要があったのと比べて、ハイブリッドをどう思う?

Matt:彼らにとって非常に賢い選択やと思う。これまでのところ、よくやってくれてる。トレーニングデータにすでにありそうな簡単な質問をすると、かなり速い。少し考えることを期待する質問をすると、少し考える傾向がある。

時々、少し考えることを期待してるのに考えない時がある。「もう少しよく考えてくれへんか?」って思うけど、Rayが言ってたように、実際にステアリングできる。「これはしっかり考えて」って言って、考えることを強制できる。

モデルの評価とベンチマーク

私は個人的にこのモデルが本当に好きや。非常に良い。非常に速い、それを評価してる。これらのモデルの品質として速度を評価してるのは私が少数派かもしれん。多くの人は「いや、99回中99回、速度より品質を取る」って言う。私は99回中99回、品質より速度を取る。

40を使ってた。大部分の使用例で、バイブコーディングや人生の複雑な状況の本当に難しい計画が必要になるまでは、これらの思考モデルを使い始めることはなかった。人は私を狂ってると思ってた。あらゆるプロンプトでO3に行ってて、それは私には狂ってるように見えた。

それにベンチマークはもう多かれ少なかれ飽和してる。Arc AGIは飽和してない。それは独自の世界にある。SWEBenchは別のやつやと思う。今日後でそのチームと話す。

でもそれで、この時点でモデルがいいかどうかをどうやって知る?変に聞こえるかもしれんけど、バイブチェックをするしかない。使わなあかん。境界を探る、何が得意で何が足りてないかを。使うことで、Theo GGが言ってたと思うけど、ポストエヴァル。それは非常にいいポイントやと思う。モデルを使って、どう動くかを見るしかない時点にいる。みんな国際数学オリンピックで金メダルを取ってるからな。

Ray、これについてどう思う?

Ray:完全に同意する。私はライブストリーミングでいつも人に強く勧めてる、モデルと遊ばなあかん。それと話して、その行ったり来たりを持つ関係を築かなあかん。新しいモデルがリリースされるたびに、これは実際にそれを使って、ワークフローが何かを理解して、再調整する時や。

そこに投資する時間は報われる。一つのプロバイダーに縛られることもない。実際に2つのインテリジェントなモデル間でやり取りできる。OpusとGPT5の間でやり取りするのは素晴らしい会話や。2人の博士を部屋に呼んで、より良い計画を作るのを手伝ってもらってる感じや。Mattが前に言ってたチャットみたいに。

OpenAIのオープンソースモデル

Matt、OpenAIの今週のもう一つのリリースに移りたい。GPT5に完全に影が薄くなったけど、素晴らしいオープンソースモデルのペアをリリースした。試したか?そしてもっと重要なのは、どうやった?

OpenAIがGPT2以来初めて、私が信じるところでは、オープンソースモデルを出すことについてどう思う?何十億ドルの研究を無料で提供してくれることをいつも評価してる。オープンソースはいつも評価してる。どう思う?試した?一般的な市場動向についてどう思う?

Matt:試した。LM Studioで使った。Mattが好きなやつやな。200億と1200億、両方ダウンロードしてLM Studio内で使った。M3 Ultra、256ギガのRAMや。

Mac Studio?

Matt:そう、Mac Studio M3 Ultra。だから、それで動かしてた。1200億で秒間40トークンくらい出てた。使える。使えるで。200億パラメータでは秒間100トークンくらい。

私は個人的に、GPT5よりもそのリリースに興奮した。GPT5に高い期待を持ってて、GPT5にもっと感動することを期待してた。クローズドソースモデルからGPT5への飛躍よりも、これらのオープンウェイトモデルがどれだけ有能かに感動した。

LM Arena内でオフラインでこれらで遊び始めた時、正直かなり感動した。ゲームやアプリをコーディングしてくれて、O3レベルのモデルから期待するようなものすべてを、オープンソース、正確にはオープンウェイトモデルから得てた。

本当に感動したし、ChatGPTを直接ウェブサイトで使うのとほぼ同じくらい良いオフラインモデルを持ってるアイデアが大好きや。

Ray、これらのオープンソースモデルの一つ、または最近数週間で出てきた中国のオープンソースモデル、本当に素晴らしいやつらを、エージェントコーディングに使ってる?使ってないなら、なぜ?オープンソースのコーディングに対する一般的な考えは?

Ray:コーディングには具体的には使ってない。価値提案がコストやから。5000-10000ドルくらいの高価なマシン、少なくともMac、PCのビルドアウトも価値のあるモデルを動かすのに同等かもしれん。電力コストとかいろいろ。

その トレードオフをサブスクリプションと比較すると、今のところまだサブスクリプションを払って、本当に良い、速い、品質の高い出力を市場で得る方が安い。

でも、それとは別に、プロダクトを作るのが好きなアプリビルダーとして、特にオンデバイスの stuff、これらのモデルがO3タイプのレベルでどれだけ良い出力をするかで、非常に注目してる。

使用例は主に、オンデバイスでメタデータを生成するようなもので、Appleやこれらのデバイスではとてもパワー効率が良くて、夜充電中にプラグインしてる時、ユーザーが寝てる8時間でこれらのタスクを全部実行できる。通常はできない本当にクールなことができて、オフラインでもできる。インターネットに接続したり、サーバーに当たって全部溶かす心配もない。

OSで素晴らしいバグが発見されて、みんなが同時に特定の天気サーバーに当たって、文字通りDDoSしてしまうことがあった。オンデバイスで動くモデルがあれば、サーバーへの負荷が少なくなる。アプリビルダーとして、アプリを本当にリッチにできるようなことができる。

だから、これらの本当に複合的な効果をすでに考え始めてる。最初にモデルを見て印象的やったのは、書くこと、質問することの上手さ、それから画像の中身を理解して、そのタイプの情報を引き出すことがこれらのモデルでは非常に印象的やった。

だから、オンデバイスでモデルを出荷して、本当にクールなことをして、アプリ体験を向上させることにワクワクしてる。

競争戦略について

これらのオープンソースモデルの画像理解は本当に驚きやった。OpenAIがなぜ最先端のオープンソースモデルをリリースして、すぐにGPT5をリリースするのかという陰謀ツイートがあった。誰が投稿したか忘れたけど。

基本的にScorched Earthのアイデアや。これを無料でリリースして、GPT5以下のAI サービス推論サービスにお金を払う意味がなくなる。無料で手に入るなら、GPT5だけがお金を払うべきものになる。

4Dチェスの陰謀的な動きで、Matt、これについてどう思う?信じる?オープンミッションを続ける善意だと思う?どう思う?

Matt:非常にSam Altmanらしい感じがする。正直な話、Sam Altmanの戦略書から出てきそうなことや。市場で支払いたい最高のモデルをGPT5にして、何らかの劣ったモデルでOKなら、最高の劣ったモデルは彼らがその前にリリースしたオープンウェイトモデルにする。

私には完全にその戦略書から出てきたもんに感じる。OpenAIは他の大きなローンチを影に隠す傾向がある。Googleがやる、わざとやってると誓える。OpenAIが何か他のものをリリースする。

AnthropicがOpus 4.1をリリースして、24時間未満で世界で最高のコーディングモデルやった。それがSam Altmanの戦略書や。非常に方法論的で、そういうことを考え抜いてると思う。

Ray、Microsoftのモデルを考えると、50年くらいあると思うけど、誕生日を迎えたばかりやね。彼らは何度もこれをやってきた。特定の市場に少し遅れて、無料で何かをリリースして、市場を完全に飽和させて、アップセル、クロスセル、バンドリングなどで支配する。

これが起こってることやと思う?ちなみに、OpenAIは遅れてるわけじゃない。フロンティアラボとしては最前線にいる。今のところ常に最高のものを最初にリリースしてる。この戦略についてどう思う?また善意のタイプの取引か、それともより競争的な意図があると思う?

Ray:競争は間違いなく非常に高い。邪悪なコミックブックの悪役のように考えるなら、人々が出せるもんとの類似点がたくさんあると思う。だから、そんな風に想像することもできる。

でも、特定の作業に対してモデルが本当に良い理由があるから、人々は特定のモデルを好む。ツールが本当に良いとか、体験が本当に良いとか。だから、モデルが特定のことで本当に良いってことを、ある程度理解してるんやと思う。人々はそれについて止めることなく話すか、止めることなく話さないかのどちらかや。

メディア戦略として、それを知ってれば、何らかのことを始めることができる。でも一度世界に出したら、基本的に止めることはできない。私の声をコントロールできないし、君の声もコントロールできない。私たちの誰も、これらの会社から肯定的にも否定的にも話すためにお金をもらってない。だから文字通り私たちの意見や。

時には水に油を流すように全体を占領することもあるけど、モデルが非常に良くて否定できない時点がある。そうなると人は止めることなく話す。特に誰かが他のことについて話してる時は。

DeepSeek R1が良い例やと思う。彼らがシーンに現れて、人々が実際に使って「すごい、これは本当に良い」って言って、その時点で独自の世界を持つようになる。

クラウドモデルとコーディング

コーディングモデルについてもう少し話そう。Mattが言ったように、Claude 4.1は約24時間、世界で最高のコーディングモデルやった。Claude 4.1について簡単に触れたい。Genie 3について話したいし、それは本当に私を驚かせた。今週は相対的に小さな発表やったけど、それでも驚いた。

Ray、Claude 4.1で遊んだ?Claudeは一般的にプライマリコーディングモデル、最高のコーディングモデルとして普遍的に知られ、愛されてる。エージェントコーディングをたくさんやってるから、まず聞きたい。Claude 4.1を使ったか、感想は?

Ray:Opus 4.1モデルで遊んでて、私の指示に従うのが本当に上手い。でも今、私をガスライティングするのも非常に賢くて、どうやって、なぜかを理解しようとしてる。

解決策を実装して、非常に確信を持ってる。コードが入る前にレビューするのが好きや。モデルを本当に信頼する前にまだ評価段階にいるから。Opus 40では見たことがないことを、もう少し頻繁に見てる。

Sonnet 3.7でも同じことが起こった。同じバイブを感じる。私のプロンプティングなのか、他の何かなのかを理解しようとしてる。それがちょっとした赤信号やった。古いsonnetやOpus 4が恋しい。でも、それが今のところの私の最初の印象や。Ray、コーディング用に Claude 4.1を少し試した。正直に言うと、ChatGPT5とほぼ同等だと感じた。デザインの美しさや、アプリが実際に機能することに関して、両方とも非常に近い出力をくれた。

SWEBenchの比較を見ると、ほぼ同じや。Opus 4.1は74.1%を取得して、GPT5は74.5%やから、0.4パーセントポイント良いだけ。でも私の実際のテストでは、同等に感じた。

4.1にはかなり感動した。大きな違いはコストだけやと思う。APIコストを見ると、4.1は出力100万トークンあたり75ドルで、GPT5は100万トークンあたり10ドルくらい。

クラウドOpus 4.1、入力100万あたり15ドル、出力100万あたり75ドル。GPT5はこちら。GPT5についてみんなを驚かせたことの一つは、GPT5がどれだけ安いかや。1.25ドル、これはOpus 4.1のほんの一部のコストで、同様に有能なモデル。出力10ドル。

それからGPT5 miniとnanoがある。Nanoを見てや。GPT5 Nano。100万トークンあたり5セント。狂ってる。知性がゼロに向かってる。出力100万あたり40セント。

この画面共有をやめてもらえる、Alex。価格はそこにある。Matt、続けてくれ。

Matt:そう、コーディングでこれらのものを使うなら、両方とも比較的似てる。4.1とGPT5のコーディング能力がかなり近いと感じるなら、明らかに0.3%良いけど、5分の1のコストのやつを使う。

そうやから、コストだけでもJet GPTがそのレースに勝つと思う。同等やとしてもな。

Genie 3について

絶対にそうや。次のトピックに移りたい。Matt、君から始めたい。Google が今週、Genie 3というモンスターをリリースした。これは人工知能によって生成された、完全にシミュレートされた制御可能な世界や。

制御可能って言うとき、実際に生成されながら制御できるってことや。これがどれだけクールかは強調できへん。この最初のビデオで見てるように、ジェットスキーに乗ってるような人がいて、たくさんのライト、水を通り抜けてる。実際に左下の角で操縦できる。

タイムスタンプがついてるけど、小さな矢印キーが見える。それが実際にAI生成をリアルタイムで制御してる彼らや。拡散かどうかはわからん。でもリアルタイムでAI生成を制御してるのは考えるだけで狂ってる。

Matt、君はテキストから画像、テキストから動画、動画から動画について多くの時間を考えてきた。これを最初に見た時の感想は?これに匹敵するものを見たことがある?

Matt:これは正直、私の心を吹き飛ばした。World Labsのようなもの、Fei-Fei Liの会社とかからのものを見てたけど、3フィート前に移動できて、それ以上移動できない境界があった。

でもこれは非常に無制限に見える。動き回れる。一貫性がある。1年前のこれらのモデルの一部では、一方向を見て、振り返って、また振り返ると、完全に異なる環境になってることを覚えてる?

でも今は一貫性がある。どの方向を見ても、戻ってきても同じ世界がある。Jensen Huangが何度か言ってる、ゲームの未来は レンダリングではなく生成されるってことや。これがその証拠に最も近いと思う。プレイしてるゲームのすべてのフレームが、レンダリングではなくリアルタイムで生成される、生成ゲームの可能性を見てる。

絶対にそうや。Elon Muskが今週出した投稿について話そう。今少し話そう。彼は基本的に「将来、すべてのソフトウェアはエンドツーエンドのニューラルネットワークになる。画面で見るすべてのピクセルが生成される」って言ってる。私はしばらくこれについて話してきた。

実際、一分間、自分が間違ってるかもしれないと思ったけど、こういうもんを見れば見るほど、本当にそう信じる。私たちが使ってるオペレーティングシステムが最終的に生成できない理由はない。タイムラインはわからん。これについてSatya Nadellaに聞いたら、「いや、常にコードの従来的な要素があると思う」って言われたけど、わからん。

Ray、どう思う?すべてのソフトウェアがエンドツーエンドのニューラルネットワークになって、ピクセルごとの生成になる時点に到達すると思う?

Ray:進化すると思う。それが最初の、あらゆる偉大なアイデアのようなもんや。Thomas Edisonの電球は1000回の反復を要した。AIでもそんな感じやと思う。新しい思考の飛躍をもたらすブレークスルーがあって、古い思考の飛躍を取り除いて、Tesla のAndré Karpathyがいた時に戻れる。彼らがニューラルネットが自動運転車の画像分析と意思決定のためのコードベースの約50%を基本的に排除できることを発見した時。

その知識を得たら、コードを取り除き始めた。そこでElon Muskが「LIDARは必要ない。カメラからの画像処理だけを使える」って有名に言ったのを聞いた。

それが興味深いのは、数年前、自動運転車にはまだ手書きのコード、人間がキュレートしたコードがあった。それから一人のエンジニアが「エンドツーエンドのニューラルネットワークでもっと良くできると思う」って言った。

実際にこれのための用語がある。苦い教訓って呼ばれる。苦い教訓が言うのは、ニューラルネットワークに何らかの人間のキュレーションが必要やと思う時はいつでも、間違ってるってことや。ニューラルネットワークをスケールアップする方が常に良い。

それがそのやり方のように見える、Ray?

Ray:同意する。そのためにより多くのデータ、より大きなデータセンター、より多くの電力が欲しいのは、スケーリング法則が狂ってるからや。次の飛躍に行くには、すべての100倍が必要になる。だからTeslaで何年も、10年以上データを収集してきた。すべての異なるモデルやシナリオの訓練に役立って、決定を行う。

だから、より多くのコーディングが必要やないのは、実際により多くの実世界データが必要やからや。GPUやそういうもんでも、ベアメタルの部分まで降りると、Appleやmetalフレームワークのように、多くのソフトウェアを書き直して、開発者がiOSでアプリを作って本当に良いプレミアム体験を作れるようにインターフェースを公開しなあかん。

開発者として、バッテリー管理やそういうことすべてについて考える必要がない。このシェーダーを描きたい、このタイプのことをしたい、って言うだけ。

AIシステムがこれらのピクセルの描き方を知ってることについて考えてみると、誰かのエンジニアがAIが2つを接続してより効率的な方法で画面上にピクセルを描くための、ニューラルネットと話してピクセルを描くためのより良いレイヤーを作ったから、Apple デバイスと話せるようになった。

だから、そういうツールや他のブレークスルーを見始めると思う。これを考えると、別の惑星にあるほど大きな、本当に大きなピラミッドの基部を発見したばかりや。それから最終的に本当に巨大なピラミッドを作るまで、より多くのレイヤーを追加しなあかん。

ピラミッドの始まりにいるだけや。とても大きくて、まだ向こうで互いに叫び合ってる感じや。

ゲームの未来について

これの一部で、GoogleのProject Astra グラス、みんなの顔にカメラを付けて世界を歩き回ることの動機について疑問に思う。それは私たちの利益のためか、それともこれらの世界モデルを訓練して、実世界がどんなもんかをより多くのデータを与えるためか?

Matt:正直、おそらく両方の混合やと思う。でも多くの会社がカメラ付きのグラスを出そうと急いでる理由がわかる。

チャットで何を思うか教えてくれ。将来すべてがピクセルごとの生成になると思う?

このElon Muskのツイートについて話したい。これが私が言及してたやつや。「コードは全くないってことや。ニューラルネットがピクセル、音響、アクチュエーターコマンドを生成する。」

今彼はここではロボットについて言及してると思うけど、より広く適用できると思う。任意の入力ビットストリームから任意の出力ビットストリームへ。いつそれが起こると思う?「Teslaは自動運転でもうそれをやってる。インタラクションのあるリアルタイム動画生成、良いビデオゲームみたいなのは、来年やと思う。」

それは塩一粒で受け取ってくれ。Elon Muskのタイムラインは少し積極的やけど、長期的には何度も正しかった。

Matt:ゲームについて興味深いことの一つは、今Genie 3で、ゲーム内で動き回るたびに新しい画像をレンダリングできる。マルチプレイヤーに入る時にどう動くかわからん。他のプレイヤーは全く同じものを見るのか?他のユーザー間で一貫性を得られるのか?

3、4年前にメタバースの誇大宣伝が大きかった。他のユーザーからの一貫したビューを理解できれば、これがメタバースの最終的な姿になるかもしれん。

Ray:OpenAIがしばらく前に持ったomniモデルのブレークスルーについて少し色を加えたい。これがSoraやこれらの他のタイプの視覚的な世界を動かしてる。以前は画像用の特定のモデル、音声用の特定のモデルがあったけど、omniモデルでは本質的に一つのモデルで独自の世界を構築して、出力と生成とものを与えてくれる。それが私が世界モデルと呼ぶもんや。ピクセルごとにある意味で君の前に世界を構築できる。

これらが他の人の現実に入ると、何らかの真実を話し始めて、その真実を共有して世界を生成し始めることができる。各デバイスにモデルがあって、彼らの世界が実際に何なのかの小さな情報、何らかのパラメーターを共有するだけでいい。同じモデルがどこにでもデプロイされてるなら、現実とは何か、パートナーと一緒に夢見てる現実とは何かについての興味深いブレークスルーになると思う。

Matt:非常に未来思考やな、Ray。そのアイデアが大好きや。Robert Scobleに聞けば、彼らはホロデッキを作ってる。彼にとってすべてがホロデッキや。これはホロデッキへの一歩近づいてる。

Gary Marcusに聞けば、基本的に単純な計算機を作ってるだけで、それ以上じゃない。

最後の部分について触れたい。心を吹き飛ばすことの一つは、実際に生成を得てる間にプロンプトして、生成に物を追加できることや。ここで見られる、ジェットスキーの男が現れる、ブーム、そこを下って、龍が水に着陸する。

科学、数学、これに必要な計算量、技術的ブレークスルー、それは私には理解が困難や。このようなもんに何が入る必要があるかの巨大さを把握するのは困難や。だから驚愕してる。

Rayに最初に聞きたい。タイムライン、最初に、ビデオゲームの未来は完全に生成されると信じる?二つ目、タイムラインはどう思う?

Ray:私はゲーマーじゃない。それについて正直に話したい。GPUやそのタイプのものへの露出は本当に非常に限られてる。プロダクトスタック、ソフトウェアから来てる。

でも外側から見てる部分として大まかな推測をするなら、物事がどうなるかを見るのに良い10年を与えると思う。物事は時間がかかる。Tesla を完璧な参考として使ってる。世界構築、モデル構築、それから物を出力する決定のために。

非常に早いデモが得られるかもしれんけど、多くのソフトウェアスタックが必要とするのはそれらの接続部分や。低いレベルのメタルを理解してそこでソフトウェアを書く人が必要。それからAIが実際により良い決定を下して現実世界のそれらのフックに接続できるように、それらの部分を統合する人が必要。

その上には、実際にこれらを編成するのが誰か、技術レベルで本当に良い味覚を作る人がいる。それが実際におそらく最も重要や。だからこれらの人々がこれらの異なる会社に1億、2億、ほぼ10億ドルで行く理由や。この全スタックを上下に知って、そのアドバンテージを作るのに十分な味覚を持つ必要があるから。だから良い10年やと思う。

ゲームコミュニティの反応

味覚について言うのは興味深い。私が味覚について話すのとは少し違うことを言ってると思う。このようなモデルで本質的に何でも作る能力があるとき、テキストから画像、テキストから音楽、テキストからテキスト、本当にノイズの豊富さがある。

人間が本当に良い味覚を持つことは、将来さらに意味のあるもんになって、スキルセットとしてさらに価値のあるもんになる。他の人間のために体験をキュレートして、このノイズの山積みから針を選んで本当に素晴らしい体験を作る誰かが、非常に重要になると思う。

Matt、RayとしてVIDEOも同じ質問について君の考えを聞きたい。この種の拡散、エンドツーエンドのニューラルネットベースのビデオゲームの生成が未来やと思う?そうなら、予想されるタイムラインは?私たちみんな推測してるだけやけど。

Matt:イエスでもありノーでもあると思う。新しいジャンルのゲームになると思う。すべてが生成されるようになるかは必ずしもわからん。10年後にはすべてが生成されてるかもしれん。

でもゲームコミュニティからの反発があると思う。ゲームコミュニティの多くはAI生成ゲームを望んでない。まだ何かがある。

最近の最も人気のゲームの一部は、小さな地下のインディー開発ゲームやった。Stardew ValleyやVampire Survivorsのようなゲームを見ると、最近の人気ゲームの一部は、地下室でゲームをハックする小さなインディークリエイターやった。ゲームコミュニティはまだそういうもんを愛してると思う。

ゲーマーからはかなりの反発があると思う。でもそれも世代的なもんやと思う。AIがネイティブで、AIが常にあった若い子供たちがもっと出てくると、ゲームがどう作られたかを気にしなくなって、楽しいかどうかをもっと気にするようになると思う。

生成ゲームをプレイすることを拒否する、現在のある種の頑固な世代があると思う。でもその世代は最終的に過ぎ去ると思う。

そう思う、Matt。君が釘を刺した。ゲームは最終的に良い必要がある。何を使ってるかは関係ない。ツールセットのツールは関係ない。最終的に、魅力的で楽しくて再プレイ可能なゲームを作ってるかや。

その他のAI発表

それを待ってた。GTA 6を先に手に入れるか、GTA 6がなるかや。現在のタイムラインでは、来年手に入ると思う。Nickからのコメントで、generative theft autoって。

Grok 5とGPT6、どっちが先に来ると思う?Elonが年末までにGrok 5って言ったよな?

でも、モデルに何でも名前を適用できる。Grok 4の大きな反復みたいなもんか、それとも本当に新しいモデルか?モデル間をどう区別する?

Ray、それについてどう思う?Grok 5がGrok 4よりも本当に新しい種類のステップファンクション的に良いモデルになると思うか、それとも単なる名前のゲームやと思う?

Ray:名前のゲームやと思う。まだキッチンでGrok 4を料理してると思うし、Grok 4のコードモデルが出てくるのを待ってる。それが本当に物事を吹き飛ばすと思う。

プロンプトを与えた時にGrok 4から欲しかったステアラビリティのものが得られんかった。それが今やってることやと思う。見出しの前に出たかっただけで、まだこの他のステアラビリティ部分を作業してる。このプロンプトを与えた時に、指示を十分に従うか?いろんなことをするか?4モデルには多くの知性があって、今後数ヶ月で実際に現れると思う。願ってる。

Matt:ElonのGrok 5ツイートは、今週他のみんなが話すべき大きなニュースがある中で、「ねえ、僕たちもまだここにいるよ。僕たちも見て」って感じのちょっとしたもんやったと思う。

Grok内で画像を動画に変換できるimaginateを出したけど、誰も超超感動しなかった。だからGPT5ツイートは「ねえ、僕たちもまだここにいるよ。僕たちも見て」って感じやった。

もちろん、Grok 4がArc AGI賞でまだ支配的やってことを示すArc賞も出した。君らそれ見た?彼はちょっと意地悪な人かもしれん。ハイパー競争的って呼ぼう。

OpenAIは彼らが世界に見せたベンチマークからarcを省いた。確実にどのベンチマークを世界に見せたいかを選り好みしてる。でもすべての会社がそれをやってる。すべてや。

もちろんGraphGateもあった。グラフの一部で、GPT5への早期アクセスを得たから、そのモデルを市場に出すための記念碑的な努力の舞台裏を少し見ることができた。すべての素材を準備するのに。私たちは皆人間や。私たちは皆幻覚を見る。私もそれを理解してる。

みんな、今日参加してくれてありがとう。これは話してて本当に楽しかった。Matt、ありがとう、Ray、ありがとう。Matt WolfはTwitterでM Flow、Ray FernandoはRay Fernando 1337や。正しい?正しい。そうや。両方ともチャットに投下する。説明にもリンクする。Matt、Ray、絶対的な喜びやった。また戻ってきてくれ。絶対に。楽しかった。またな。

Kleineチームとの対談

次に、Kleineチームから素晴らしいゲストが何人か来る。Kleineを使ったことがなければ、素晴らしいエージェントコーディングプラットフォームで、オープンソースや。コンテキストウィンドウで多くの透明性を得られる。

ゲストを紹介して呼んでもらおう。まず、KleineのCEO、Saud Rismanに来てもらう。AIの責任者、Nick Poshもいる。ショーに来てくれ、みんな。

どうや、みんな。こんにちは、Matt。会えてよかった。君もよかった。元気や?非常に元気や。Nick、ショーに出てくれて嬉しい。ありがとう。

今日参加してくれてありがとう。成長おめでとう。資金調達おめでとう。すべて話したい。Saudと私は数週間前に実際に会った。君のオフィスに立ち寄って、挨拶をして、少し時間を過ごした。本当に楽しかった。

でも今日はKleineについてすべて話したい。まず、誰もが知ってるかもしれんけど、Kleineとは何か、市場の他のものと何が違うのか、非常に高レベルな分析をしてくれ。

Saud:KleineはオープンソースのVS Code拡張や。CursorのエージェントやWin Serve CascadeやCop Agentのように動く。タスクを与えると、ツールを呼び出してタスクを自律的な方法で達成しようとするループに出かけていく。

基本的に君のエディター、ターミナル、ブラウザー、コンピューター全体を引き継いで、必要なソフトウェアエンジニアリングタスクを完了させようとする。

当時のCloud 3.5 Sonnetのようなモデルをどこまで押し進められるかを見る実験として始まった。その全コンテキストウィンドウを本当に使って、これらのリクエスト後のリクエストを作らせる。それは本当に高価になった。だから体験の大きな部分は、これらのモデルを使う価格について本当に透明であることやった。

各リクエストがどれくらいかかるか、ユーザーが達成したいタスク全体が最終的にどれくらいかかるかについて、本当に明確にしてる。だから一部の人は、本当に真剣な仕事をするためにKleineを通して一日数百ドル使うことになる。

でも自分の推論とモデルを持ち込めるから、人々はGoogleが配ってる無料クレジットのようなものを利用できる。それが役立ってる。

JetBrainにも近日中に持ち込む予定や。開発者がいるところで使いやすくするために。それがKleineを構築してきたエートスや。開発者がAIを今日使ってる方法に役立つものを構築するんや。それが大体の話や。

価格透明性の重要性

Nick、聞きたい。Saudが透明性と価格について話した。なぜそれが重要なのか?エンジニアとして、どの製品を使うかを決めようとしてる。KleineかWindsurfかCursorか、価格の透明性が本当にないものを使うか?なぜそれがそんなに重要なのか?

Nick:これは、Cursorが出てきた時のことに関係してる。人々のための最初のAIコーディングプラットフォームの一つやった。当時、人々は知性の真のコスト、推論の真のコストに本当に準備ができてなかったと思う。

彼らは個人ユーザー向けに月20ドルのサブスクリプションで販売できるような、きれいにパッケージされたソリューションを作る決定をたくさんした。

それ以来多くのことが変わって、今人々は推論のコストにずっと慣れてる。Kleineでは最初から、自分のAPIキーを持参してくれ。推論のやり取りは一切せん。マージンで利益を得ることもせん。

非常に早く、ユーザーはKleineが使うのは無料やけど、多くの場合、市場で最も高価な選択肢の一つやということを発見した。おそらく最も高価な一つや。人々はそれが実際に大丈夫やってことに気づいてると思う。

何かを手動でやるのに多くの時間を費やしてる時に、その作業の一部を自動化することは完全に価値がある。これらのソフトウェアエンジニアリングの給料を考えると、突然財政的に意味を成し始める。

人々は一方でこれを理解し始めた。景観が変化し始めた。モデルがより強力になり始めた。でもこれらの初期のビジネス決定のために、CursorやKleineような人々は、いわば原罪のために罠に陥り始めたと思う。サブスクリプションモデルを課金すること。

月20ドルを払ってるユーザーの束を持つ道を歩き始めた。どうやって水上に留まって両端を満たしながら、十分に良い製品を与えるか?

それはビジネス決定と技術決定の両方の一連の結果をもたらした。技術側では、コストを削減するためのこれらすべてのシステムを構築し始めた。ちっぽけで安いちっちゃなモデルにオフロードしたり、RAGをやったり、コンテキストを少なく送ったりして、可能な限り多くのトークンを節約する。

全ファイルを送らない。モデルにトークンを節約するために、一度に数行ずつ、断片的に送る。これらのシステムが構築される方法は、ほとんどこの技術が君を奴隷にするようなもんや。ある時点で、この勢いがあって、この道を歩んでて、その道を変えたくても非常に困難で痛みを伴う。私たちの場合、そういうプレッシャーは一切ない。特定の方向に強制する根本的なメカニズムはない。モデルができるだけ良い仕事をするために必要なコンテキストを、最先端の能力でコンテキスト重視で読み込むことにインセンティブがある。

私たちを引きずり下ろすこれらすべてのシステムはない。だから検索拡張生成や埋め込み検索ベクター検索を使わない。インスタント適用モデルやファスト適用モデルもない。これは昨年、モデルが非常に大きなコンテキストウィンドウを扱えなかった状況のもう一つのケースや。

差分編集もあまりうまく扱えなかった。Cursorがこのインスタント適用機能を出してきて、リリースした時期には非常に良かった。ビジネス的にも技術的にも多くの意味があった。でもそれ以来、モデルがずっと良くなった。

苦い教訓のようなもんで、これらの二次システム、二次推論、二次モデルが量子化されたQuen coder 7Bのような小さなファインチューンされたモデルに引き渡すのは、最良のアイデアじゃない。確かにコードの変更をファイルに適用するけど、微妙な幻覚、微妙なバグがあるかもしれない。ツール呼び出しが失敗したかどうかもわからない。全ファイルを出力するだけやから。

とにかく、ここで止めるけど、価格について透明であることがなぜそんなに重要で、ユーザーにそれを前面に出させて、何が起こってるかを正確に知らせることが重要やと思う。

Nickが面白く言った。価格の原罪って言った。本当に全体的なビジネス構造を決定づけて、インセンティブを与える。私の前のビジネスはSaaSビジネスやったのを覚えてる。価格を何度か繰り返して、シリコンバレーでの共通の感情は、SaaS会社の価格設定が最も難しいことで、物を作ることでも顧客を得ることでもなく、文字通り顧客と自分をどう価格で調整するかを決めることやった。

Saud、もう少し話したい。どうやってこれが問題になることを予見する先見性があったのか?人々がKleineで自分のAPIキーを持参して、マージンを課金せず、自分で推論を提供しないなら、Kleineは実際にどうやってお金を稼ぐのか?

Saud:先見性は、私自身の利己的な欲求と、製品で欲しかったものから来た。当時の他のツールを使ってて、月20ドル以上を推論、知性に費やすとしたら、彼らが与えてくれる体験と比較して、希薄化された体験を得てる感じがした。

これらのモデルをどこまで押し進められるかを見たくて、どれだけ高価になるかを知ってて、自分が快適な以上に費やしてないことを確認したかった。製品を使ってる間の支出がどんなもんかを把握したくて、物事にブレーキをかけて、あまり費やしすぎないようにしたかった。

それから、DeepSeekのような異なる種類のモデルをプラグアンドプレイする。コスト意識のあるユーザーのために、または知性と手頃さのバランスを取るCloud Sonnet、本当に深刻で困難なものを投げたい時のCloud Opus。

やりたい仕事の異なる範囲に対して、異なるモデルと異なる価格帯がある。どのモデルがどんな種類の仕事に最適かについての理解と味覚を身につける。

多くのユーザーにとって、Kleineのようなツールを使う経済性は、パフォーマンスと同じくらい重要や。それについて本当に透明であることは、一つは人々が必要なだけ支出することに快適にすること、二つ目はどんな種類の仕事にどのモデルを使うかの良い感覚を得ることにとって重要やった。

自分のAPIキーアーキテクチャを持参することで、知性を使う他の方法への扉を開けることができた。例えば、人々はOllamaやLM Studioを使ってローカルモデルをプラグインするのが好きや。

それはあまりうまくいかんかった。数ヶ月前まで、これらのモデルがどれだけ限られてたかのせいで。ローカルモデルの能力が実際に離陸したのは数ヶ月前やった。Kleineのようなもので どれだけうまく動くかを見ることができて、人々にとって本当に力強いことやった。第三者にお金を払ったり、データをインターネット越しに送ったりする必要がなくて、これらの種類の能力にアクセスできる。

趣味家の人たちにとって、本当にエキサイティングなことを見るのは楽しい。推論の サブスクリプションプランでマージンを捉えてないなら、どうやってお金を稼ぐのか?答えはエンタープライズや。

伝統的にそこにお金がある。彼らには様々な特定の要件やニーズがある。Kleineのようなツールを使って、オープンソースプロジェクトの周りでソフトウェアやサービスを構築して、週末にサイドプロジェクトでKleineを使ってる平均的な開発者よりも大規模にKleineを使う必要がある顧客にパッケージして販売できる。

それは多くの意味を成してる。私の前のビジネスもSaaSビジネスやった。しばらくボトムアップを試して、エンタープライズにお金があることに気づいた。

面白いことに、非常に類似してる。月20ドルの顧客がいて、最終的に彼らで損失を出し始めた。それからエンタープライズに行って、年間6桁を払ってくれる。彼らのニーズは、もっと多くのものをくれということじゃなくて、セキュリティ、コンプライアンス、より良いサポートやった。

それが君が話してることや。それをまとめて、エンタープライズに行って売るんや。そうやな?

Saud:まさにそう。チーム管理や請求・請求書発行、監査ログ、役割ベースのアクセス制御のような単純なもの。これらの組織の管理者やマネージャーが、何百何千ものチームメンバーのためにKleineのようなものを促進して、オンボードして、簡単に使えるようにするものへの多くの需要がある。

GPT5と新しいモデルについて

Nick、聞きたいことがある。GPT5が今週リリースされた。オープンソースモデルもいくつかあった。Claude 4.1への押し上げもあった。AIの責任者として、これらのモデルが来ることを考えて、Kleineに統合することを計画し始めてると思う。

まず、Cloud 4.1とGPT5についてより一般的にどう思うか?それから、Kleineに統合するプロセスはどんな感じか?

Nick:まず、これらの新しいモデルの能力について話そう。Claude 4.1 Opusが月曜日にドロップして、誰ももう話してないのは非常に注目すべきことやと思う。誰も気にしてない。非常に奇妙や。通常、これは非常に大きな瞬間になるはずや。「すごい、Anthropicが最新モデルを出した。コーディングで信じられない」みたいに。

でも人々がそれについて言及してるのを本当に聞いてない。その一部は価格やと思う。Sonnet 4よりも高価なだけや。でもGPT5が出てきて、本当に良いモデルや。非常にヘッズダウンで、冗長じゃない。ヤップしない。静かに働いて、言われたことをする。

私たちのシステムプロンプトで気づいたのは、私たちのシステムプロンプトはモデルに依存しない。Cloud 3.5、Sonnet、3.7、今は4を通して、時間をかけてこれらすべての異なる反復を通して進化した。

指示に従うのがほとんど良すぎることに気づいた。非常に文字通りで、言われたことを正確にやる。だから私たちのシステムプロンプトにはある種の曖昧さがある。矛盾した言語もある。そのせいで、当初GPT5がプランモードでプランモード応答ツールを呼び出すのに問題があった。

OpenAIチームと一緒に作業してて、昼食で彼らが言った非常に興味深いことがあった。GPT5は内部ベンチマークでメタプロンプティングが非常に得意やということや。

つまり、何らかの問題のある行動に気づいたら、GPT5がプランモード応答ツールをあまりうまく呼び出してないとか、実際にシステムプロンプトをGPT5に送って、問題のある行動を送って、「自分の視点から、この行動をよりよく扱うために私をどうよく指示できるか?システムプロンプトをできるだけそのまま保ちながら、この行動を改善するために最小限の実行可能な変更は何か?」と聞ける。

実際に曖昧さがある場所、システムプロンプトのいくつかをクリーンアップできる場所の正確な例を通して与えてくれる。プランモード応答ツールに追加のパラメーターを追加できる非常に興味深いテクニックも言及してくれた。

基本的にモデルに、プランモードの探索フェーズを通ったより多くの証拠を与えることを強制する。事前にどのファイルを読んだかをリストすることで、これらのファイルを通ったことを証明するか、私たちが最終的に入れた他のフラグのように、より多くの探索が必要かのように、それをバイパスする方法として。

それは本当に良いモデルやと思う。今は最先端や。特にその価格帯でな。

プロセスについて、プロセスは常に多くのバイブチェックや。それは実際に非常に重要やと思う。それから評価もある。内部でベンチマークがある。差分編集ハードベンチマークや他のいくつかのベンチマークを作業してて、すべての新しいモデルリリースをその方法で評価してる。

ベンチマークについて

興味深いことに、Assad、これについて君の考えを聞きたい。ベンチマークについて前のゲストと話してた。多くが飽和してる。特に最先端の数学ベンチマーク、科学ベンチマークで、GPT5がリリースされた時、数桁のパーセント改善を見てる。

でも使い始めると、バイブが明らかに違う。それをどう定量化するかわからん。本当に具体的な方法でそれが何かを説明できない。

ちなみに、後でSWEBenchチームが来る。どう思う?モデルをどうテストするか?新しいモデルがドロップした時にどう考えるべきか?どれだけ良いかをどうやって知るか?

Saud:Cloud 3.5 Sonnetまで、ベンチマークを信頼したことがなかった。それが初めて実際にテストした。「これは実際にすべてのベンチマークで他のすべてのモデルを打ち負かすことに値する」と思った。

それ以来、新しいモデルを常にCloud through fine(3.5 Sonnet)と比較してきた。Cloud through five sonnetは一般的にあらゆる面で良くて、特定の種類のベンチマークに最適化されてない感じがした。

これらのモデルを使う方法は、ベンチマークがテストする方法とは違う。これらのものを内部で評価したり、自分でテストドライブしたりする時はいつでも、より実用的なものをモデルに投げて、タスクを成功裏に完了できるかどうかではなく、その思考プロセスがどんなもんか、そこに到達するのにどれくらい時間がかかるか、最終的にどれだけ間違いを犯すかを見る。

これらのモデルのより実用的な強さを評価するために見てきたことの一つは、ツール呼び出しやファイル編集、構造化出力の使用がどれだけ得意かや。

実際にGPT5は差分編集が悪いことがわかった。構造化出力を使ってファイルを編集することが、すべてのCloudモデルよりも悪い。

だから、これらのモデルは特定のことが得意やと思う。特定の種類のベンチマークに最適化されてる。でもより実用的な作業については、実際に自分でこれらのものをテストドライブして、君がやる仕事の種類、君のワークフローや君のキャリアに固有の仕事をする必要がある。

簡単に予測可能すぎるものをテストしようとする一般化されたベンチマークで本当に簡単にテストできるものじゃない。

Nickと私たちのAIチームがKleineのようなコーディングエージェントのコンテキストでこれらのモデルを適切に評価する方法を理解するために多くのことをやってきたことを知ってる。使用の多くはより実用的な作業で、ベンチマークで測定するのは困難や。

Nick、それについて他の考えはある?

Nick:完全に正しいと思う。Mattが言ったように、すべてが飽和してる。オープンソースベンチマークの状態は今ひどいと思う。

GPT4.1やGPT5をリリースする時でさえ、Ader Polyglot差分編集ベンチマークを参照してるのにいつも気づく。実際に見てみると、実際にはあまり良いベンチマークじゃない。差分編集のエージェント能力を実際にテストしてない。

特定のテストに最適化して、そうすることでファイルを編集するワンショット能力をテストしてる。それは現実的じゃない。エージェントが実際にどう動くかじゃない。日々の現実世界のタスクでな。

これらすべてのベンチマーク、すべてが飽和してる。明らかにこれらすべてのモデルラボは、PRが欲しい、これらのベンチマークをゲーミングしたい。だから、エージェント、実際のエージェントワークフローのためのより良い現実世界ベンチマークが必要や。

これらのフロンティアモデルラボが抱えてる問題は、彼らの多くと話したけど、大部分がこれらすべてに合成データを使ってるだけや。

現実世界の使用、現実世界のユーザーが現実世界のタスクを持って来て、実際に現実世界の問題を現実世界のリポジトリで解決しようとすることが不足してる。多くのこの合成データを作成してこれらのベンチマークを作成することになって、結果的にこの権利を得る。

「SWEBenchやこの他のベンチマークで素晴らしいパフォーマンスを発揮する」と言うけど、現実にはモデルが実際のコードベースで作業する時に単にダメやということになる。

両方から素早い答えが欲しい、NickとSaud。自分のコーディング用のKleineで今使ってるデフォルトモデルは何?

Saud:まだ3.5 Sonnet。

そうか。4.1、GPT5を徹底的にテストして、まだ3.5 Sonnetにいる。

Saud:Cloud 4以上のモデルが思考を使うように最適化された方法について何かがあって、Cloud 3.5 Sonnetと比較してうまく動かないことがわかった。だから、まだCloud 3.5 Sonnetにいる。やりたい仕事の多くを本当にうまくやってくれる。

特にCloud 4モデルを使って思考予算を最大にしてる場合、実際により高価になることがある。だから、より良くて、わずかに手頃やと思う。

Nick:君についてそれを知らんかった。君が汚い小さな秘密を続けてることを知らんかった。

Nick:私にとって、一週間中GPT5を使ってきた。それをデフォルトモデルとして交換することにかなり決めてる。私のワークフローに本当に合ってると思う。非常に建築的に考える傾向がある。構築しようとしてることのアーキテクチャを事前に考え出そうとする。

それから、Kleineに行って、やろうとしてることを正確に表現する。フルアーキテクチャ、フルスペック、今考え抜いたことをKleineに表現して、構築しようとしてることを正確に従わせる。

これらの他のモデルの一部では、君が望むことを正確にやってくれない。一方、GPT5では静かに下がっていく。「君はこのスペックを使いたいのね、君が頼んだ通りに実装するよ。終わるまで止めないし、その過程でヤップしない。ただやるよ。」

例えば、昨日、このエクステンションをワンショットした。Slackが本当に嫌やった。これを経験したかわからんけど、SlackにはDiscordスタイルの返信がない。多くの会社がコンプライアンスやその他の理由でSlackを使わなあかん。

スレッドを作って誰かに返信しなあかん、それが本当に嫌や。スレッドにいる時は、すでにスレッド内にいるから実際に誰かに返信できない。正直、スレッドは情報が死ぬ場所や。サイロ化された場所になる。他のチームメンバーがスレッドを見られない。

Discord スタイルの返信が欲しかっただけや。だから文字通り1時間くらいで、プラグインしてChromeのエクステンションをワンショットした。返信を押すだけで、同じアクションバーで、Slackにネイティブに見えるやつ。返信できて、自動的にユーザーのメッセージを引用する。彼らをタグして、すぐに返信を打ち始めて、エンターを押すだけで、どんなチャットでも、どこでも動く。

実際にそれをオープンソース化して、昨日エクステンションマーケットプレイスに公開して、すでにオープンソースレポで1つのPRを得た。だから本当にエキサイティング。本当に楽しくて、こういうものを構築するのが楽しい。

資金調達について

GPT5を君に。最後の質問をしたい。君はちょうど資金を調達した。資金調達について少し話してくれ。どれくらい調達した?何ラウンド?そのお金を何に使う予定?

Saud:総額3200万ドルを調達した。シードとシリーズAに渡って。シードはEmergence CapitalとPace Capitalがリードした。

KleineをJetBrainsに持ち込むことや、前に話した重要なエンタープライズ機能への多くの需要があった。その規模でKleineのようなものをより真剣に使いたい大きな組織にとって重要なもの。

多くのエンタープライズソフトウェアと機能への多くの需要があって、Kleineをより多くのIDEに持ち込む。それは多くの作業とチームのスケーリングを要する。

ロケットシップのように成長してきた。コミュニティも成長してるし、チームも成長してる。1月には基本的に私とNick Bowman、Nick Pashierの4人で始まった。Dan Stemanも。今は30人近くで、信じられないほど急速に成長してる。すぐに減速することは予想してない。だからエキサイティングな時代が待ってる。

改めておめでとう。君、君のチーム、成長にとても幸せや。特に君たちがオープンソースを構築してるから、それが私を幸せにする。そこでの努力をすべて評価してる。

Saud、Nick、今日話せて絶対的な喜びやった。Kleineをチェックしてない人は、もちろん行って手に入れて。VS Code拡張や。使うのは超簡単。1分以内に始められる。非常に簡単。ありがとう、両方とも改めて。

Saud:ありがとう、Matt。良かった。今度サンフランシスコにいる時は、また立ち寄って挨拶したい。

SWEBenchチームとの対談

それはとてもクールやった。次に別の信じられないゲストのセットが来る。SWEBenchチームがいる。Oir、Carlos、John、Killianがいる。SWEBenchチームのみんなや。ベンチマークについて話す。GPT5やその他すべてについて話す。Alex、彼らを呼んでくれ。

みんな、調子どう?君たちにまた会えてよかった。こんにちは。君たちにとって忙しい週やったと思う。

そうや。チャートがトレンドしてたのも素晴らしかった。GPT5のリリースでTwitterやその他すべてで多くの予期しない反応があった。本当にそうやった。

SWEBenchの説明

知らない人のために、SWEBenchが何かを高レベルで話してくれ。

Oir:2年前、私とCarlosがプリンストンで夏に時間を過ごしてた。両方とも過去のベンチマークで働いたことがあって、当時human evalが恐竜時代みたいやったけど、コーディングレベルを評価する支配的なパラダイムやった。

2人で頭を寄せ合って、モデルの能力をテストするより大きな飛躍のようなものを考えた。これらのコーディングテストをより現実世界の設定に根ざしたものにする。

私たちが気づいて本当にワクワクしたワークフローは、オープンソース開発コミュニティ内で、この種のissue PR動的があった。

つまり、numpyやpandasで働いてて、問題に遭遇する。それからGitHubリポジトリにissueを投稿する。それからメンテナーが来て、issueを読んで、修正を思いつく。それはプルリクエストとして捉えられる。プルリクエストのある割合は、修正と、修正が今後保持されることを検証するユニットテストのセットの両方を含む。

十分なそれらのパターンを抽出すれば、モデルにissueを与える本当にクールなベンチマークが得られる。コードベースのようなプレフィックス状態を与えて、コードベースを修正する機会を与える。

どうやってできるかには多くの探索があって、それから関連するテストで修正が動くかどうかを検証することになる。それがSWEBenchの要約や。

SWEBenchは新しいモデルのコーディング能力をテストするゴールドスタンダードの一つや。非常に単純に言ってる。それよりもずっと洗練されてることは知ってるけど。

新しいモデルを見る時、今週2つの新しいモデルがドロップした、4.1 OpusとGPT5。これらのフロンティアラボの一つが君たちに連絡して、新しいモデルを君たちのベンチマークに対してベンチマークし始めたい時のプロセスはどんな感じ?

私たちのコードは完全にオープンソースや。だから彼らはローンチナンバーのために自分でやる。最近Killianがこれについてもっと話せるけど、Mini Suite Agentという本当に小さなエージェントスキャフォールディングをSWEBenchを動かすために開発した。

だから今、モデルがローンチするたびに、APIアクセスを得られる時、通常はモデルがローンチした後やけど、Mini Suite AgentでSWEBenchを実行して、すべてのモデルのパフォーマンスの独立した測定を得る。時には、これらの測定は公式ナンバーと一致しない。4.1とGPT5の新しいナンバーについて話せると思う。

Carlosに渡すと思う。4.1を評価したやろ?

Carlos:そうや。今、私たちの新しい、現在の私が言うならヘッドショットリーダーボードを少し拡張する必要がある。今ウェブサイトに行くと。SWEBench Bash Onlyと呼ばれる。

最初にSWEBenchを発表した時の主なアイデアは、人々がこれらの問題を解決しようとする方法を制限したくなかった。だから、どんなタイプのシステムでも、マルチエージェントシステム、RAGシステム、どんなタイプのアプローチでも持てる。

Bash OnlyでSWEBenchを見ると、SWEBenchの最初の年に見たのは、多くの異なる非常に異なるタイプの複雑なシステムやった。パフォーマンスを本当に最大化したいなら完全に有効なアプローチやけど、言語モデルだけを評価するのが少し困難になった。

この余分な助けや洗練されたスキャフォールディングなしに、SWEBenchでの言語モデルのエージェント能力を比較する方法を見つけたかった。それがSWEBench Bash Onlyを導入した時や。

基本的にやることは、環境を可能な限りミニマルになるように取り除く。すべてのツールを取り除く。実際にはツール呼び出しはない。すべてが非常に伝統的な言語モデル、文字列入力、文字列出力、シンプルなインターフェースや。

それが良いのは、ツール呼び出しをサポートしてないかもしれない言語モデルでも、SWEBench Bash Onlyを使って評価できることや。

SWEBench Bash Onlyでは、システム名はない。すべてが言語モデルだけや。みんな全く同じ環境で評価されてるからや。一般的にパフォーマンスは少し低いことに気づく。モデルは特別なツールやRAGシステムからそれほど多くのサポートを得られないから。

それがすべて取り除かれてる。

小さなことを追加すると、時々大きなフロンティアモデル開発者が新しいSWEBenchを出す時に、同じ問題を100回解こうとして、内部ジャッジにどの試行を提出するかを選ばせるような、非常に高価で複雑なことをやる。

それは競争を変な風に偏らせる。タスクごとに100ドルかかる提出と、一度だけ試してタスクごとに1ドルしかかからない提出があるから。

Mini SWEBenchエージェントでは、みんな全く同じ環境で競争してる。100回試すようなことはない。みんな同じことをやってる。だから、モデルを比較するはるかに良い方法や。

もう一つの小さな側面は、時々モデルプロバイダーがベンチマークで実行する特定のイシューを除外することや。

SWEBench verifiedには500のイシューがある。でも、数個が壊れてるかもしれない、数個が問題があるかもしれない。数パーセントポイントまでスコアを上下に変える可能性がある。

みんな500インスタンスで評価すべきやと思う。一部が常に失敗してるなら、まあ、それがそうや。でも、一部のモデルプロバイダーはそれらを除外して、スコアを上げるだけや。通常はこれらのことにアスタリスクがある。

明らかに私たちはそれをやらん。みんな本当にりんごとりんごや。

データ汚染について

SWEBenchがオープンソースなので、モデルプロバイダーが君たちのデータで訓練しないことについてどう考えてるか、なぜそうしないのかについて話したい。明らかに最高のモデルが欲しい。君たちのデータで訓練することは、おそらく彼らのブランドにとって最良のことじゃないやろう。でも、オープンソースやからデータ汚染についてどう一般的に考えてる?

Oir:SWEBenchで表現されてるテストリポジトリが明らかに訓練セットにあることは避けられんと思う。

SWEBenchを構築した時の目的は、このベンチマークでうまくやったらソフトウェアエンジニアリングが自動化されたと言うことじゃなかった。私たちは学者や。モデル能力についてや。追跡可能で、現実世界のパフォーマンスと相関のあるものが欲しかった。だから目標は達成した。

「明らかに汚染されてる」「Djangoを過度に代表してる」みたいな批判があることは確実に認める。これらすべてが真実やと思うけど、私たちの視点から、ベンチマークを構築する目標は、モデル能力の改善を確実に測定できることやった。それがいつも私たちの焦点やった。

SWEBenchの派生を見ると、SWEBench multimodalやSWEBench multilingualのような、最近リリースしたもので、それがテーマ、焦点であり続けてる。

追加する簡単なデータポイントは、最近の論文で、私たちはデータスペースにもう少し足を踏み入れた。オープンソース対クローズドソース設定での大きなギャップやと思う。

Qwen 2.5のようなモデルを、SWEBenchテストイシューを正常に解決したすべてのトレースの軌跡で訓練するとしよう。500のタスクインスタンス。Claude 4が成功した100個を取って、学生モデルをそれらの軌跡で訓練する。実際にはベンチマークで100%のパフォーマンスを回復しない。

50の解決されたイシューで訓練したからといって、モデルが自動的にその50のイシューを解決するわけじゃない。これは、一つにはベンチマークがまだ意味深く複雑であることを示してる。単なる記憶タスクじゃない。

二つ目は、データミックスについて考えるのが本当に興味深いことや。知識として重みに焼き込まれたら終わりの単純なQA質問じゃない。それが私の二セントや。

Killian:時間的な分解もやってる。SWEBenchウェブサイトにまだあるかわからんけど、すべての論文で議論してる。

基本的に、モデルのパフォーマンスを時間をかけて比較する。知識カットオフ後の非常に新しいものと、ベンチマークにある古いGitHubイシューを使って、明らかなトレンドラインがあるかを見る。

multimodalでは逆やった。モデルは知識カットオフを確実に過ぎた非常に最近のイシューでずっと良くやってた。だから、追跡するのは非常に困難や。モデルに戻すことはできん。多くのリポジトリでもイシューが時間をかけて何らかの理由で簡単になってるかもしれん。

でも、知識カーブ後に突然ゼロに落ちるような、非常に明確なトレンドラインは見たことがない。だから、まだ挑戦的に見える。

最新の結果について

Alex、私のスクリーンを素早く上げてくれる?何か共有したい。SWEBench verified pass at oneがここにある。データが不正確に見えるかどうか教えてくれ。GPT5が1位を取ってるように見える。このデータのどれかが不正確に見えるか?

Killian:Killianのツイートでこれらすべてのマイルのナンバーがある。比較できる。

これは…いや、やってみよう。これをロードしてる間に、言及したように、私たちはそれをチャットに入れた。一つの注意点は、OpenAIが昨日モデルカードにナンバーを投稿した時、500のうち、それらのインスタンスの23を実際に省いたことや。

それが君がちょうど話してたことや。

まさに。つまり、それに横にアスタリスクはない?それは、それは単にチェリーピッキングや。

私たちはうなずいてる。そう、それがそれや。

どう解釈したいかによる。解決可能なイシューの総プールのうち、これとそれだけ解決したと言いたいなら、正当化できるかもしれんけど、人々はそれをすべきじゃない。人々は常に500のうちのナンバーを与えるべきやけど、私たちは彼らのためにそれをやって、これが得たナンバーや。

とても親切やな。Opus 4があるのは、これもすべて同じシステムやろ?GPT5がリリースを作った時とAnthropicがリリースを作った時、実際に非常に異なる異なるエージェントで評価した。

だから、これらのナンバーが異なるのは当然やし、私たちのシステムが特定の言語モデルに最適化されてない非常にベアボーンなシステムで低くなるのも当然や。でも、一つの特定のシステムに対する本当のりんごとりんごの比較のために、それが得たもんや。

ここのラインナップを見ると、Opus 4が67.6%でトップ、GPT5がその後に来る。これはOpus 4.1じゃない。

そう、現在のナンバーはまだOpus 4.1じゃない。Opus 4.1は…まだベンチマークをそれで更新しなあかん。今動いてるかもしれん。

Sonnet 4がすぐ後に続く。それからGPT5のminiとnanoが続く。比較として、Qwenは55.4%を得てる。Qwen 3 coderで。オープンソースが素早く追いついてる。

ベンチマーク飽和について

君たちと話したい最後のことは、ベンチマーク飽和について。GPT5が出た時、これらのベンチマークのいくつかで、O3からの改善を見ると、特定のベンチマークで一桁のパーセント増加を見てる。特定のベンチマークでは100%を得てる。

明らかにSWEBenchはまだヘッドルームがある。ベンチマーク飽和についてどう考えてる?それから、これらのベンチマークが飽和し始めたら、モデルが良いかどうかを決定することについてどう考えてる?個人的にモデルをどうテストする?モデルのバイブチェックは?

Killian:新しいベンチマークを開発し続ける。これは新しいことじゃない。SWEBenchがある前は、human evalがみんなが競争してた大きなもんで、それから飽和した。SWEBenchが来て、だから私たちはすでにそれに向けて多くのステップを作ってる。

SWEBench multilingualがある。SWEBenchやけど9つの異なるプログラミング言語で、通常のSWEBenchよりもかなり困難や。すべて新しいリポジトリ、すべて新しい言語。多くの人、多くのモデル開発者がPythonに焦点を当ててたから、multilingualをローンチした時、SWEBenchでのパフォーマンスは60年代で、multilingualでのパフォーマンスは30年代やったと思う。今でも最先端は50年代前半やと思う。

multimodalがある。バグの説明に画像があるバグや。だから、テキスト処理だけでなく、画像処理もしなあかん。それも今30年代前半や。

SWEBenchが永遠に生きるわけじゃないことはよくわかってる。良いベンチマークを構築する新しい方法をいつも考えてる。

ベンチマーキングは間違いなく関連性を保つと思う。バイブスでできることは何でも、素晴らしいベンチマークに形式化できる。

それについて一秒聞けるか?君がちょうど言ったことが大好きやから。GPT5を使い始めた時、それで感じてることを具体的に説明できんかった。

だから、君はそれらのことに対して比較するベンチマークを設計する方法が常にあると言ってる?ステアラビリティベンチマーク、簡潔性ベンチマーク。素人が無形と考えるかもしれんけど、君たちがベンチマークする方法のアイデアを持ってるもんの例は?

Oir:一つの小さな例を与えてから、他の人が何を考えてるかに興味がある。

私が超興奮してるベンチマークはAlgotuneと呼ばれる。algotune.ioをチェックできる。モデルに関数やプログラムを与えて、より速くしなあかん。だから、永遠に繰り返すことができる。

最初にPythonコードを取って、Numbaのようなジャストインタイム コンパイルされたコードで書く。それからCで書ける。ある時点でアセンブリで書こうとする。だから、永遠に最適化可能な、よりオープンエンドなベンチマークについて考え始めてる。

君の質問にはたくさんの答えがある、Matthew。他の人がどう思うかに興味がある。

Carlos:コストアクセスもいつもある。だから、ツイートにも含めるべきやったかもしれん。GPT5はSonnet 4よりも安くて、GPT5 miniは65%ではなく60%を得る。私たちの実行では非常に近いけど、Sonnet 4やGPT5の1つのコストがかかる。

だから、それが一つの軸で、取られたステップ数があって、ある程度ユーザー体験と相関する。どれくらいで実際に修正されるか。だから、それは反相関かもしれん。GPT5は時々非常に複雑なコマンドを発行する。非常に複雑な、問題をワンショットしたいような、それが常に最高のユーザー体験じゃないかもしれん。やってることによって。

だから、取られたステップ数、費やされたコスト、それらは現実世界のアプリケーションにとって非常に影響力があると思う。この一つのパーセント以上だけじゃなくて。

Oir:素早く追加すると、Carlosと私が2023年にこのベンチマークについて最初に考えてた時、RAGが当時流行ってて、それについて考えると、これをRAG問題として再キャストできたけど、私たちの最初のベースラインやった理由。

でもCarlosと私がそれをやらんかった理由は、必要なことをできるだけモデルにオフロードしようとする根本的な哲学があったからや。

例えば、検索パイプラインを設計して、基本的に少し複雑なコード生成問題に再形式化する選択ができる。でも哲学は、自分でファイルを探させればええやん?編集するファイルを決めさせて、再現スクリプトを決めさせればええやん?

私たちのチームを特に導いてきた一般的な哲学は、今後ますますスキャフォールドの負担を増やすことやと思う。CarlosとKillianがこのリーダーボード動きで言及したようなことの多く、人間が規定した余分なエンジニアリングすべてを、モデルがしなあかんことのようにする。

ツールを思いつかん、余分なパイプライン、このステップをして、それからこのステップをするような余分なものを思いつかん。言語モデルをコードベースやタスクに接続するために必要な最小限のインフラを与えるようにして、それからますます、モデルが理解しなあかんと言うだけや。

Mini agentで本当にそれを極端にしてると思う。本当に100行のスキャフォールド、130かそこらで、何かが起こるたびに、例外が起こったら、文字通りモデルに伝えるだけ。ただのwhileループで、次のステップをやってみて、何かが間違ったら、言語モデルのメッセージに追加されるだけ。言語モデルがすべて自分でやらなあかん。ツールなし、bashがあるだけ、エラーのサポートなし。プロンプトと、シェルコマンドを実行できる。それでもまだ料理してる。

つまり、それは周りのスキャフォールディングよりも、モデルのコア知性を本当にテストしてる。だから、そのアプローチを本当に評価する。みんな、今日参加してくれてありがとう。John、Killian、Oir、Carlos、SWEBenchチームから。

説明にすべてのリンクを投下する。チャットにもすべて投下する。SWEBench自体をチェックできる。今誰がリストのトップにいるかを見られる。SWEBenchに対して自分のモデルを実行して、ベンチマークでフィードバックを得ることもできる。みんな、ありがとう。

ありがとう。バイバイ。ありがとう、みんな。喜びやった。次回また会おう。

今日は充実したエピソードやった。おそらく毎週金曜日にこれをやる予定やから、来週金曜日に参加してくれることを願ってる。素晴らしいゲストがいる。来週前半に共有する。参加してくれてありがとう。時間を過ごしてくれてありがとう。チャットのすべてのコメントをありがとう。来週またみんなに会おう。バイ。

コメント

タイトルとURLをコピーしました