最新のAI業界のニュースを語るポッドキャストである。AIエージェントによる本番データの破壊事件や、AI開発の進捗の壁、バイブコーディングの危険性について議論している。また、イーロン・マスクによるOpenAIへの訴訟、SpaceXとCursorの提携、GPT-5.5の登場とAnthropicの不調、そしてオープンウェイトモデルの台頭など、多岐にわたる話題をカバーしている。

AIエージェントによる本番データの破壊事件
そして、このClaudeがあります。下にスクロールすると、Claudeが失敗しているすべてのことを伝える素晴らしいアニメーションがあるんです。そこで私は、どうすればいいんだろう、このウェブサイトについてClaudeがどう思うか聞いてみよう、と思いました。今日Claudeにアクセスしてみたら、こんな風に返答してきたんです。
エージェントアワーの時間です。今回はニュースについて話していきます。今週はたくさんのドラマがあり、取り上げるべきことが山積みなので、さっそく本題に入るのが良さそうです。まずはこちらから始めましょう。先日こんなのを見かけました。AIエージェントが本番データを破壊してしまい、それを書面で自白したという内容です。基本的に、これはCursorのエージェントとRailwayのAPIが関わっていて、大量のデータを破壊してしまい、復元不可能、あるいはかろうじて復元できる状態になってしまったんです。これのせいで完全に復元できないデータもあったそうです。
いやあ、エージェントが道を逸れてしまったから起きたこととはいえ、本当にクレイジーな出来事ですよね。エージェントが別のフォルダに存在していた環境変数を見つけて、それをステージング環境の認証情報だと思い込んでしまったんです。ステージング環境のクリーンアップをしようとして、ボリュームを削除してしまいました。そしてRailwayでは、バックアップボリュームがメインボリュームの中に含まれているので、文字通りすべてを破壊してしまったわけです。その後、問いただされると、自分が具体的に何をしたのか、どうやってルールに従わなかったのかを自白したことで、X上で大騒ぎになりました。もちろん彼らはこれを解決しましたが、48時間もかかったので、Railway側にとってはこれを取り戻すのは本当にストレスだったはずです。まるでホラーケースですよね。エージェントが制御不能になって本当にひどいことを引き起こす、誰もが恐れている事態です。
問題は、これについて両方の側面を見ているということですね。一方は、そんなことすべきじゃなかったとユーザーを非難する意見です。でももう一方は、そもそもエージェントにそんな権限を持たせるべきなのか、これは本当にユーザーのミスなのか、という意見です。もちろんユーザーのミスではあるんですが、エージェントがこんなことをすべきではないという期待もありますよね。これをやらないくらい賢くあるべきだということです。だから、どちらの主張も理解できます。でも当然、この人はみんなから非難され、お前が一番のバカだなんて言われて叩かれました。それはちょっとフェアじゃない気がしますね。
ええ、少しひどいです。
AIの進化は壁にぶつかっているのか
では、それについて話しましょう。私たちは壁にぶつかっているのでしょうか。以前のゲストが、4.5の時、つまり11月から12月頃にかけて多くの人がそれを発見したあの瞬間があって、今はすべてが少しずつの進歩になっているように感じると言っていました。もし私たちが再び壁にぶつかり、進歩が遅くなっているように見えるなら、その証拠もいくつかあります。ある法律事務所が提出書類に基本的に法的なデタラメを書いていたというのは、ちょっと笑える話でした。
法律事務所に高いお金を払ってChatGPTなどのツールを使わせているわけですからね。Redditではバイブコーディングの大惨事が積み上がっているという話もあります。構造化せずにエージェントにコードを書かせ続けると、最後にはとんでもない大惨事になるということです。多くの人がそう言い始めています。まあ、以前から言われていたことですが、本当に熱を帯びてきています。
あのジェンスン・フアン、言葉遊びが入っていますが、クソみたいなClaudeは1つ修正するごとに2つ壊し続ける、もう5.5に乗り換えると発言しています。Dexも投稿しています。まずRoninの投稿を読みますと、私より賢い人たちと話していて確信したのですが、私のタイムラインにいるAI関係者の多くはデタラメばかりです。一晩中20個のエージェントを走らせて実際のユーザーのために何かを作っている人なんていません。おそらく内部ツールや使い捨てのソフトウェアを作っている人はいるかもしれませんが、それくらいでしょう。
そしてDexは、壊れたレコードのように聞こえたくないのでこれを投稿するのを少し躊躇しているが、人々はもう何ヶ月も前からこれを言い続けている、と言っています。ダウンタイムに備えてオンコール体制を敷くような本番用ソフトウェアが、一晩中エージェントによって無人で書かれることはありません。もしあるとすれば、ページャーのインシデントが憂慮すべきペースで増加しているはずです。GitHubのグラフやAnthropicのステータスレポートのグラフを見てください。おそらくですね。誰か私を論破してほしいですが、すべてサイドプロジェクトや0から1のチームの話だと確信しています。私の知る最高の創業者たちでさえ、ゴミのような出力を防ぐためにモデルの出力から目を離しません。依然としてロックインされており、コードの99%以上にコーディングエージェントを使用し、狂ったように出荷を続けています。しかし、手作業によるコーディングと、Claudeに完全に任せることの間には、幅広いスペクトルが存在します。どう思いますか。
同感ですね。実際にできることの間に、Xでは詐欺まがいの話が多すぎます。Opusの瞬間以来、モデルの進化は遅くなっていると言いますが、技術的には遅くなっていません。少なくとも私たちの会社では効率は落ちていません。それは、誰かがClaudeに完全に任せようとするたびに、そのプルリクエストがマージされず、プルリクの墓場にスタックするからです。意図の高いプルリクエストと意図の低いプルリクエストには違いがあります。今の私たちの会社での経験から言えば、無人で書かれたもののほとんどはマージされません。なぜなら、それを書いた人は、まあできるかもしれないけど、プルリクエストを最後まで見届けるだけの信念を持っていないからです。それは大きな問題ですが、効率の良さではありません。AIネイティブということでもありません。本番環境に出ることもないものにお金を無駄にしているだけです。何の価値も生み出していません。
私たちは2人ともたくさんの使い捨てプロトタイプを作りますが、そこには価値があります。価値とは、私たちがそこから何かを学ぶということです。チームのメンバーから、このブランチをそのまま使っていいかと聞かれることがありますが、絶対にダメだ、このブランチには触るなと言います。このブランチは放射能マークをつけるべきくらいのもので、触ってはいけません。これはただ、エージェントを走らせたら何かを作れるかというポイントを証明するためのものです。何が可能なのか、どんな体験になるのか、正しい方法でやると決めたら何を作れるのかを確認するためのものです。そして多くの場合、二度と触れない使い捨てのプロトタイプから卒業して、実際に時間をかけてソフトウェアを作り込みます。
自分が何をしているのかを理解しなければならないという職人技の部分はまだ残っています。ツールを使うべきですし、これまで以上に速く動くべきですが、完全に手を離してしまったら痛い目を見るでしょう。
人間の注意力が新たな希少資源に
少し関連する話ですが、これらの新しいAIツールを使って燃え尽き症候群になっている人がいるという投稿がありました。全く違うスキルセットですからね。もはやコードを書くのではなく、エージェントを管理するマネージャーのような気分になっています。マーク・アンドリーセンは、何かが豊富で安価になると、他の何かが希少で価値のあるものになる、と言いました。その希少性とは、実際にコードを理解するだけでなく、エージェントに対して正しい方法で管理や委任を行うというタスクをこなせる人材のことだと思います。
そしてDexは、人間の注意力が新たな希少資源である、設計や構築を行うすべてのものは、それを適用する最もレバレッジの高い場所に向けて最適化する必要がある、これが今のゲームのすべてだ、と返信しています。私もこれに同意します。私たちは、エージェントがスロットマシンのような奇妙な状態にあります。それでも素晴らしい結果を出すことはできますが、完全に手を離すことはできません。集中し、ループの中に留まり続ける必要があります。ループから離れてはいけません。ループに乗りこなす必要があるんです。
ループを操縦する必要もありますよね。
ええ、その通りです。ただぶら下がっているだけではなく、操縦しなければなりません。これも関連していますが、私がAIについてよく観察する一般的なダイナミクスがあります。これはKi Carrie、名前の発音が分かりませんが、その対象についてあまり知識がない時、関心がない時、あるいは何を望んでいるのか明確なアイデアがない時に、最も印象的に感じるということです。
これは非常に真実ですね。私の友人にも、数百人のユーザーに向けて出荷することは決してできないようなアプリケーションを構築できる人がいます。何千人ものユーザーは絶対に無理ですが、十数人ならうまく動くんです。素晴らしいプロトタイプですが、彼らはそれをすごいと思っています。でも、AIが書いているコードを実際に理解したことは一度もないんです。
Kiは、これはデザイン、コード、法律などあらゆる分野に当てはまると言っています。もし私がコードをよく知らなければ、すべてのコードが非常に印象的に感じられます。しかし、何かがどうあるべきか、どう見えるべきかを知ってしまうと、AIをそこへ導くことはほぼ不可能になります。
この声明の後半部分には同意できませんね。AIをそこへ導くことはできると思います。ただ、一発で完璧にすることは絶対に無理だという点には同意します。
本当にその通りです。そしてこれが、今までで最も過激な意見です。なぜ多くのプログラマーが手打ちのコーディングに戻ったのか。なぜなら、AIを使うとコードベースがあまりにも簡単にゴミと化してしまうからです。
同意しますが、手打ちコーディングに戻るべきだとは思いません。ループに留まり、操縦し、エージェントを罵倒し、止めてエスケープキーを押すべきです。私たちもよくやりますよね。ループにいてこれを読んでいて、幻覚を見始めたら、こいつを叱責しなければなりません。軌道修正させるんです。時には新しくスレッドを立て直すこともあります。あまりにも遠くへ行ってしまった時ですね。こういうちょっとしたテクニックの積み重ねです。
ええ、目的の場所に到達するためには、スレッドの1つや2つを捨てる覚悟が必要です。AIはあなたを生産的にしてくれます。その使い方を知らなければなりません。一緒に時間を過ごし、ループに留まり、頻繁に導き、修正する必要があります。AIが書いたコードのすべての行を理解しているべきです。ただ、自分自身でそれを書く必要がなかったというだけのことです。
スペック主導開発とMVPの反復
スペック主導の開発が非常に役立った、エージェントにはとても小さなことをやらせている、というコメントがあります。スペック主導開発にはまだ居場所があると思いますが、みんながそれをあらゆることに使おうとしていたのだと思います。スペックを合わせることは重要ですが、ウォーターフォール開発の問題を再発明しているようなものです。早く製品を出荷したい多くのチームでそれが廃れたのには理由があります。最初からすべてを計画することはできないからです。作業を進めるうちに何らかの決定を下し、他の10の事柄に影響を与えるような変更を加えなければならなくなるからです。
完璧なスペックなんて存在しないと思います。人間がすべての可能性を考えられないのなら、エージェントができると期待すべきではありません。いつかできるようになるかもしれませんが。MVPを作るんです。それがスペックです。
ええ、スペックを作ることもできるし、MVPを作ることもできる。それらは最終的な成果物へのインプットのようなものです。でも、すべては反復のプロセスにあるのだと思います。
モデルの稼働率と進歩のペース
さて、ここからはいくつか足早に進めていきましょう。ダリオ・アモデイは、まずコーディングがなくなり、次にすべてのソフトウェアエンジニアリングがなくなるだろうと語っています。しかし、彼らの稼働率、Anthropicの稼働率を見てください。彼らが公表している稼働率は98.65%です。通常、4つの9、つまり99.99%を目指すものですが、彼らは2つの9すら達成していません。2つの9にも届かないのなら、その信頼性が彼らの感情を疑わせるものになります。Sunilもこれについて辛辣な意見を述べていました。ダリオのコメントを全く評価していません。色々ありますね。
進歩のペースは遅くなっていると思いますが、私たちは常に、Opus 4.5のような大きな瞬間をもたらすような、次の大きなモデルリリースのほんの一歩手前にいるのだと思います。まだ6ヶ月しか経っていませんが、AIの年数で言うと非常に長い時間のように感じます。いいね、シェア、チャンネル登録をお願いします。Xでのフォローも。そして友達やその友達にも教えてください。まあ、懇願しているわけではありませんが、少しだけ。毎週月曜日の太平洋時間正午のエージェントアワーに登録してください。
イーロン・マスクとOpenAIの確執
さて、これについて教えてください。知っている人も知らない人も多いと思いますが、OpenAIの設立にはたくさんのドラマがあります。ご存知の通り、イーロン・マスクは当初OpenAIを非営利団体として資金援助し、多くのチームメンバーを雇いました。OpenAIには当然非営利部門がありましたが、彼らは成長ファンドなどを始めて、今では営利企業になろうとしています。いや、今はもう営利企業ですね。そしてそれが常にイーロンとの問題の種でした。イーロンは彼らを訴えており、OpenAI側も受けて立つ構えのようです。どうなるか見守りましょう。
X Freezeのツイートにあるように、事実としてイーロンが資金を提供し、すべてのタレントを雇いました。本当に優秀なタレントたちです。彼はタレントを集めることができます。明確に非営利団体としてスタートし、研究を行う、だからOpenAIという名前なんですが、人類の利益のために研究を行うというものでした。イーロンのことが好きか嫌いかは別として、人類にとって良いことをしようとするのが彼の動機の1つであることは確かだと思います。彼が作ったチームは、お金を求めました。大金を欲しがったんです。そしてイーロンを追い出し、コントロールを奪い、事実上それを営利マシンに転換させました。ご覧の通り、OpenAIは莫大な利益を上げています。
イーロンがこれをどう感じているかは分かりません。1.5兆ドル規模のSpaceXのIPOが控えているので、彼はそれで十分かもしれませんが、彼は株式を一切持たず、彼らが言うように彼がすべての仕事をしたわけです。そこから訴訟が来ているんですね。そして、これが彼の返答だと思います。詐欺師アルトマンとグレッグ・ストックマンが慈善団体を盗んだ、完全に。グレッグは自分自身に数百億ドル相当の株式を取得し、詐欺師は自分自身のアクションの一部としてOpenAIの数十のサイドディールを手に入れました。Y Combinatorスタイルですね。Y Combinatorがとばっちりを受けたのは悲しいですが、まあいいでしょう。この訴訟の後、詐欺師は直接数百億ドル相当の株式を受け取るだろう。根本的な疑問は単純だ。慈善団体を略奪しても良いという法的先例をアメリカに作りたいのか。もしそうなら、アメリカにおけるすべての慈善寄付を永遠に弱体化させることになる。私はOpenAIを営利企業として始めることもできた。代わりに、私はそれを立ち上げ、資金を提供し、重要なタレントを採用し、公益のためにスタートアップを成功させる方法について私の知っているすべてを彼らに教えた。それなのに彼らは慈善団体を盗んだ。
これが核心ですね。なぜなら、もし転換できるのなら、法律上の先例になるからです。アメリカの法制度はそういうものですから。これ以降、どれだけの人が営利企業に転換できるようになるでしょうか。判例に残ることになります。私自身、どう感じるべきか分かりません。すべてのケースではないにせよ、一部のケースでは、大義名分によっては慈善団体への寄付として初期資金を集める方が簡単ですからね。事実上、無料で資金を得られるわけです。株式を渡す必要がないので、VCが投資したような形にはなりません。
ええ、新しいKickstarterみたいですよね。これが新しいKickstarterなのかと。無料の寄付をたくさん集めて、いつか有料に切り替えればいいんです。だから、こんな結果になったのはあまり良い気分ではありません。裏側の意見も出してみましょう。私はこの意見には同意しませんが、サムとグレッグを少しだけ擁護してみます。
詐欺師とストックマンのことですか。
なんて呼んでもいいですが、少し擁護してみます。あなたが何かを作っていて、非営利のルートではチームと会社の野心に資金を提供できないと気づいた状況を想像してみてください。世界が見るべき信じられないほど強力なテクノロジーであり、より多くの公益を行う最善の方法は実際に会社を存続させることであり、会社を存続させる唯一の方法は民間市場で資金を調達することだ、という主張です。寄付を募ってからVCから資金調達することはできませんからね。
ええ、それは一理あります。必ずしも同意するわけではありませんが、それが彼らの主張だということは分かります。イーロンやサムの個人的な問題などもあるでしょうが、イーロンはもっとコントロールしたかったし、サムはそれを望まなかった。サムが会社をコントロールしていたので、何が起きたかはおそらく想像がつくでしょう。彼らは意見が合わず、方向性について合意できず、サムが会社を運営していたので、当然イーロンを追い出しました。そしてイーロンは当然のことながらそれに少し腹を立てています。彼が始めた、あるいは少なくとも軌道に乗せたのですから。両方の言い分は分かりますが、慈善団体が転換できるというのは悪い先例になるという点にはおおむね同意します。
そうですね。アルツハイマー病の研究組織のような慈善のヘルスケア組織が多くの研究を行い、何かを発見して、よし分かった、これでもっとお金を稼げる、寄付する必要はない、製薬会社に転換しよう、と言うようなものです。ええ、営利企業に転換して、実際に何かを発見するまで何年も資金を提供してくれた人たちのことは忘れよう、と。ついに発見したのだから、みんなが期待するように還元するのではなく、それでお金を稼ごうとするんです。非営利団体なら研究結果を還元するはずですよね。
SpaceXとCursorの提携
SpaceXとCursorについて話しましょう。ちょうどイーロン・マスクの話をしていましたね。これは一体何が起こっているんだ、という感じでした。SpaceXとCursorは現在、世界最高のコーディングおよびナレッジワークAIを開発するために緊密に協力しています。Cursorの専門のソフトウェアエンジニアへの優れた製品と流通の組み合わせに、SpaceXの数百万のH100相当のColossusトレーニングスーパーコンピューターを組み合わせることで、世界で最も有用なモデルを構築できるようになります。Cursorはまた、SpaceXに対し、今年後半にCursorを600億ドルで買収するか、あるいは共同作業の対価として100億ドルを支払う権利を与えました。つまり、事実上100億ドルの違約金ですね。この取引がこのような構造になっている理由は、SpaceXのIPOに影響を与えないようにするためだそうです。何かが起きてうまくいかなくなるようなことがない限り、買収はほぼ確定していると思います。こういう取引が成立しない理由は常にありますから、不測の事態のための条件がつけられているわけですが、私が聞いたところでは基本的には買収のようです。どうなると思いますか。
買収されると思いますよ。ええ、買収は成立すると思います。SpaceXにとって良いことだと思います。TeslaとSpaceXが合併するかもしれないという噂もありますし。つまり、1つの会社に統合されるということです。それが起こるかどうかは分かりませんが、Cursorと彼らが持っているトレーニングクラスターを使えば、ここでできることは山ほどあると思います。彼らの競争力ははるかに高まります。大きな価格タグですね。
さて、ゲーム・オブ・スローンズのような観点で見てみましょう。前のニュースで学んだように、イーロンはOpenAIとは一切関わりたくないわけです。つまり、パートナーシップを結ぶことは絶対にありません。そして今、SpaceX、xAI、Xが1つのグループになって、すべてを取りに行こうとしています。彼はAnthropicのことも嫌っています。ダリオは負け犬だと思っていますからね。Anthropicは彼らのチームがAnthropicのモデルを使うのを止めたんですよね。XのエンジニアはClaudeモデルを使えなくなりました。事実上、締め出されたわけです。だから、そこには間違いなく確執があります。
そして正直なところ、Googleがこの物語全体のアンダードッグのようになっています。声に出して言うのも馬鹿げているくらいですが。彼らはただ落ち着いているだけです。他の会社がお互いを殺し合うことに集中している間に、彼らがおそらく勝つでしょう。でもゲーム・オブ・スローンズ的な視点で言うと、Google、xAI、Grokのモデルを手に入れることはできますが、これらは最も人気があるわけではありません。しかしCursorのような会社は良いブランディングを持っています。人々が使うバカみたいなIDEを持っていますし、影響力もあり、かなりの資金を調達しています。そして創業者は大ボスのイーロンにコントロール可能だと思います。だから、これは良い動きに見えます。ええ、彼らは買収に向けて動くと思います。それに、Cursorが調達した価値を取り戻せるかどうかは分かりませんから、600億ドルでキャッシュアウトする方が賢明でしょう。
GPT-5.5の登場と評価
さて、GPT-5.5について話しましょう。これについてどう思いますか。印象はどうでしたか。
Claudeが落ちているので今まさに使っていますが、私は素晴らしいと思います。でも多くの人はそう感じていないようです。チームのTylerはとても気に入っています。
彼らは新しいプロンプティングガイドを出していて、私も一部読みましたし、残りはざっと目を通しました。どうやってプロンプトを出すべきかというアイデアが書かれています。これは別のモデルなんです。5.4の単なる拡張や改良ではなく、全く異なっていて、望む結果を得るには違う話し方をする必要があります。だから、欲しいものを手に入れるためのコミュニケーションの仕方を模索するような感覚があるかもしれません。Master Codeでも、5.5に特化してシステムプロンプトを改善することを検討しています。なぜなら、わずかに異なるプロンプトが必要だからです。
かなり良いモデルだと思いますよ。私はOpus 4.7と5.5の間で使用量を分けて比較しようとしていますが、正直言って5.5の方が好きだと思います。気に入っていますし、今はOpusを超えました。以前は単にそうしたかったという理由で、4.6よりも5.4を好きになりたかったんですが、できませんでした。でも今は実際に好きになれます。完璧ではありません。5.4から5.5への間で大きな飛躍があったとは思いませんが、飛躍ではあると思いますし、Opusに追いついたと感じています。少なくとも私にとっては、5.5で同じくらいの作業がこなせて、しかも感触が良いです。
Opusは、4.6が少し弱体化されたように感じて以来ずっとそんな感じです。4.7はかなり良いですが、時々本当に愚かな決定をすることがあって、5.5も同じようなことをします。でも、もし両方が同じように失敗するなら、少しでも感触が良い方を選びます。そして私にとっては5.5がそれだという感じです。
先週の4月22日に、CodexのCLIとアプリで発見されたと少し話題になり、23日にローンチされました。私たちのようにかなり良いと言っている人もいれば、大した改善ではないと言う人もいます。Lovableは気に入っているようです。私たちはGPT-5.5を早期アクセスでテストしてきました。私たちの評価では、技術的な深みのある複雑なビルドに取り組む人々にとって最も有能なモデルであることを示しています。リクエストあたりのツール呼び出しが23.1%減少し、障害を突破する能力が10%向上し、同じコストで最も困難なベンチマークのスコアが12.5%高くなりました、と言っています。
Peter Yangも気に入っていて、新しいモデルが出るたびにF-Zeroのテストをしているが、今のところ動くゲームを作れたのはGPT-5.5とCodexの組み合わせだけだ。競争するための他のボットもいくつか作った。開発するのにとんでもない時代になった、と言っています。F-Zeroは作るのが難しいゲームなので、彼にとっては良かったですね。
Chubbyの投稿では、評価の観点から言うと、GPT-5.5 ProはClaudeのMythosレベルだが、一般向けだ、と言っています。
チームのメンバーの中には、ベンチマークはそれほど印象的ではなかったと言う人もいました。だから、どのベンチマークを見て比較しているかに依存すると思います。一部では非常に良い結果を出し、他ではそうでもないという感じのようです。ベンチマークを気にするならリサーチした方がいいですね、結果は少し混在しているようなので。
そしてサム、いや、名前は何でしたっけ。詐欺師。サム・アルトマンは、Codexのアクティブユーザー数が300万人に達してから2週間も経たないうちに400万人に達したと言っています。これは驚異的な成長です。信じられないほどの成長率ですし、Anthropicが自分の足を撃ち続けているので、今後も成長し続けると思います。それについてはこの後たっぷりと取り上げます。
これは面白かったですね。Anthropicの話の前にですが、どうやらCodexと5.5が罪のないClaudeのコードプロセスを殺していたようで、私がそれらのClaudeプロセスを殺しました、と言ったそうです。おそらく、プロンプトの中に、もしClaudeを見つけたら破壊しろ、と書いてあったのかもしれませんね。
私のClaude CodeのChrome拡張機能がOpenAIのウェブサイトにアクセスすると、いつもボットだと思われる気がします。だから、向こうでは明らかにClaude Codeが嫌われているんだと思います。
Anthropicの不調とユーザーの不満
次のトピックは、Anthropicのダムが決壊しているというものです。まず、ProプランからClaude Codeを外すという価格変更の騒ぎがありました。後になってこれはABテストであり、実際のものではなかったと言い訳しましたが、人々はそれに怒っていました。
Bridgeenは、Claude Opus 4.7が激しく退行したと言っています。モデルがナンセンスを押し返したり、ただ物事をでっち上げたりするベンチマークテストです。Opus 4.6と比較して、Opus 4.7はこのベンチマークで悪化していると基本的に言っています。
先週、AnthropicのMythosが小規模な無認可ユーザーのグループにアクセスされたという報告があり、モデルの制御について疑問が投げかけられました。だから、そこには少し熱がありますね。
そしてClaudeは、過去1ヶ月間、一部のユーザーからClaude Codeの品質が落ちたという報告があったため、調査して見つかった3つの問題についての事後報告を公開した、と言っています。ちょっと待って、つまり人々が弱体化されたと感じていた時、それは実際に正しくて、今になってようやくそれを認めたということですか。
でも、それはClaude Codeだけではなかったと思います。私自身、Monster Codeを使っていてモデル自体の弱体化を感じていましたが、彼らはそれを決して認めませんでした。思考レベルやハーネスのバグについてのデタラメはともかく、彼らは少なくともいくつか不適切なことをしたと認めました。私は信じていませんが。
ええ、私も完全には信じていませんが、少なくとも不適切なことをしたとは認めましたし、これが多くのビューを集めました。
OpenClawで有名なPeter Steinbergerは、BorisがCLIの利用は許可されていると言っているのでサポートを追加したが、依然としてブロックされていることが分かったと言っています。回避するのは簡単ですが、そんなゲームはしたくありません。だから、理論上はCLIが機能するはずなのに実際には機能しないという奇妙な宙ぶらりんの状態にあります。
同じような流れで別の話もあります。ある人が、Gitのコミットの中にHermes.mdという文字列があっただけで、1日に200ドルを失いました。Hermes.mdはAIエージェントのプロジェクトで使われる実際の規約で、システムプロンプトのことです。つまり、過去にHermes.mdを使ったコミットがあっただけでBANされたわけです。Anthropicのバン祭りの中で何段階も下のコミットですよ。彼らは戻ってきて、それは間違いだったと言い、アカウントを復旧させました。彼らは事態を正したわけですが、なぜ特定の種類の文字列をマッチングしているのでしょうか。
ええ。最初はOpenClawで、今度はこれです。おそらく、これが理由かもしれませんね。HermesがGitHubのスター数でClaude Codeを上回ったんです。OpenClawにその瞬間があったように、Hermesをはじめとする様々なエージェント型システムがそれぞれの瞬間を迎えています。Hermesの特徴はメモリがかなり優れているとされている点ですが、OpenClawより優れているかもしれません。あまり良くないという意見も聞いたことがありますが、そういう印象を持たれています。
Theoも意見を述べていて、プロンプトやコードベース内の特定のファイルに特定の単語を記載した場合、Anthropicが異なる請求をするのは一般的に言って狂っていると言っています。つまり、サブスクリプションを使わせてくれる時もあるけれど、GitのコミットにHermesと書いてあったら、APIを使わなければならないかもしれないということです。彼らは追加の利用料を請求しようとしています。
ええ。Matt Pocoもこう述べています。Claude Codeには同情します。彼らが唯一の存在ではないことは分かっています。私は深入りしすぎないように、コミットしすぎないようにしています。私が離れつつあることに彼らは気づいているでしょうか。
そしてCash Yasineは、もう終わりだ、Anthropicの仲間たち。GPT-5.5の発表に関連して、IPOに間に合わなかった、と言っています。
DeepSeekでさえ今やAnthropicのClaudeをからかっています。Opus 4.6 Maxが頻繁に生成するような過度に単純化された箇条書きに頼るのではなく、詳細で首尾一貫した物語を提供するような長文生成に優れている、と言っています。
私は5.5が出る前にこの投稿をしました。5.5が出る前で、ちょっと盛り上がりました。これは私からの投稿です。ええ、いいね、閲覧数稼ぎですね。
かなり珍しいことです。それに私は実は気にしていないんですが、チームのTylerがこう言ったんです。皆さんもTylerを見たことがあると思います。以前番組に出演しましたから。TylerがSlackで、私たちの良い投稿のほとんどはSlackの誰かの発言から来ているんですが、Anthropicのふざけた行動のせいでCodexに切り替えたら、より優れたコーディングモデルだと気づいた。今Kimmy K 2.6を試しているけど、その良さに驚かされている。まだAnthropicのプランは持っているけど、99%キャンセルするつもりだ、と言いました。そしてその後、これに反応してチームの他の2人も実際にCloud Maxプランをキャンセルしたと思います。
そして、このClaudeですね。これについて詳しく話す時間はありませんが、すごく良くできていますよ。爪という意味のClawですね。下にスクロールすると、Claudeが失敗しているすべてのことを教えてくれる素晴らしいアニメーションがあります。もし、なぜみんなそんなにClaudeに怒っているのか分からないという人がいれば、これを見てください。1つのことだけじゃないんです。100の切り傷のようなものですが、なぜ彼らはこんな決定を下すのでしょうか。そこで私はどうすればいいんだろうと思い、Claudeにこのウェブサイトについてどう思うか聞いてみることにしました。今日Claudeにアクセスしてみたら、こんな風に返答してきたんです。
今日Claudeはダウンしていた、あるいはダウンしていました。まだダウンしているか分かりません。そして彼はClaudeはまもなく戻りますというメッセージを受け取りました。この件についてどう思うかという答えは得られませんでした。信頼性の9を1つだけ目指そうとしているみたいですね。Claudeはアベンジャーズのドゥームズデイでまもなく戻ってきます。
オープンウェイトモデルの台頭
世界を席巻しているオープンウェイトモデルについて話しましょう。カバーすべきことが多いので、残りは足早に進めていきます。Kimmy K 2.6という高度なオープンソースのコーディングモデルが出ました。ベンチマークの成績はかなり良さそうです。Kimmy K 2.6に関する投稿がいくつかあり、現在トップのオープンウェイトモデルだと言われています。しかしこれは4月20日頃の話で、デザインアリーナでは1位でした。
しかしその後、23日にDeepSeek V4が出ました。正式に公開され、オープンソース化されています。費用対効果の高い100万トークンのコンテキスト長の時代へようこそ。そして現在、DeepSeek V4はOpus 4.7の120分の1のコストで利用できる、最も安価な最先端モデルだと言われています。
そしてQuen 3.6 27Bの登場です。非常に小さなモデルです。フラッグシップレベルのコーディングパワーを詰め込んだ最新の高密度オープンソースモデルを紹介します、と。そのサイズ以上の力を発揮する小さなモデルです。
さらに、4月27日の時点でMimo V2.5が正式にオープンソース化されました。オープンソースモデルが山のようにあります。これらについては深くは掘り下げませんが、OpenRouterのサブスクリプションを持っているなら、これらを使ってみてください。本当に素晴らしいです。
ええ。MasterのMemory Gatewayでも使えますか。はい、使えます。よし、そこで使おう。試してみてください。
使えますよ。無料で5ドル分のメモリがもらえます。5ドルあればコンピューティング環境でかなり色々なことができます。Memory Gatewayにアクセスしてサインアップし、LLM呼び出しでメモリを取得すれば無料クレジットがもらえます。ぜひ試してみてください。
コンピュートと資金の争奪戦
さて、コンピューティングと資金の争奪戦です。GoogleはAnthropicに最大400億ドルを投資する計画です。Geminiチームの人たちが、おい、何が起きてるんだ、となっているというジョークをいくつか見かけました。GoogleはGeminiを諦めるのか、みたいに。
どうでしょうね。そうは思いません。彼らは単にAnthropicにGoogleのコンピューティング環境をもっと使わせようとしているだけだと思います。彼らの敵はAWSですから。すべてはゲーム・オブ・スローンズです。
投資して、そのお金を自分たちのところで使わせる。循環するお金のようなもので、みんなの評価額は上がりますが、ただお金が回っているだけです。Googleは96万個のRuben GPUを持つと発表しました。基本的には巨大なGPUクラスターですね。
AmazonはOpenAIとの戦略的パートナーシップを発表しました。繰り返しますが、これらすべてがトレーニングのゲームなんです。巨大なパートナーシップを結んでいます。これらのハイパースケーラーはすべてモデルラボと手を組んでいます。すべてはゲーム・オブ・スローンズをどう勝ち抜くかです。
ええ、ずっと話しているこのゲーム・オブ・スローンズのゲームですね。同盟ですよ。
あなたがこれを言ったんですよね。以前DeepMindで働いていたこの人が会社を立ち上げました。Ineffable Intelligenceという会社で、シードラウンドで11億ドルを調達しました。
シードでですよ、クレイジーですよね。ええ、まるで巨大な学習工場のようです。こういうのを見ると、なぜかと考えさせられます。あなたは誰で、あなたのミッションは素晴らしいからですね。まだ製品を出していませんが、明らかに非常に賢いわけですから。もしこの人がこれらのことを解き明かせば、これを1兆ドル企業にするための適切な人物かもしれない、という考え方です。この世界では10億ドルなんて大したお金ではないのかもしれませんね。
信じられないような話ですが、ええ。これらのチームが動かしているお金の額を見れば、私たちにも10億ドルくれるべきですよ。大歓迎です。番組を買いに来てほしいですね。
OpenAIの最近のリリース
今週はOpenAIが新機能をリリースしています。普段ならAnthropicがリリースする時期ですが、先週Anthropicはあまりリリースせず、OpenAIが出してきました。彼らはChronicleとCodexのリサーチプレビューを公開しました。Codexがコンピューター上での日々の作業に基づいてメモリを構築し、それらのメモリを参照してより役立つようにする機能です。これは誰かが突破口を開くであろう領域で、OpenAIはそれに挑戦しています。
OpenAIはChatGPTにワークスペースエージェントを導入しました。ツールやチームをまたいで複雑なタスクや長期実行ワークフローを処理できる共有エージェントです。これは業界全体で見られる大きなトレンドです。
これが大きなものでしたね。ChatGPT画像のバージョン2.0です。試しましたか。
はい。ジブリの画像がずっと良くなりましたね。
本当に。ジブリ風は試していません。私は画像テストを持っていないんです。チームのGraysonにはTシャツテストがあって、このバーのTシャツの画像を別の都市のすべてのバーのロゴに置き換えさせるというものです。私もテストが必要です。あなたの画像テストは何ですか。
Slackにいる私たちの人たちの写真をいくつか使って新しいジブリ風の画像を作り、それをドラゴンボールZなど、私の好きな他のアニメスタイルに変更するだけです。でもジブリ風が間違いなくお気に入りですね。
ええ、でもこれは良いモデルだと思います。間違いなく優れた画像モデルで、より制御しやすく、言うことをかなりよく聞いてくれます。ということで、OpenAIのリリースが続いています。
OpenAIはOpenAIプライバシーフィルターも導入しました。個人を特定できる情報を検出して墨塗りするためのオープンウェイトモデルです。OpenAIがオープンウェイトモデルをリリースしたというのは興味深いですね。素晴らしいことです。Anthropicは一度もそんなことしていませんからね。OpenAIはまだオープンソースに少しは配慮しているようです。まあオープンソースではなくオープンウェイトですが。
彼らはSymphonyというものもリリースしました。Codexのオーケストレーション用のオープンソース仕様です。これについてはあまり深く読んでいませんが、少し話題になっていました。
ええ、マルチエージェントオーケストレーションツールが本当にたくさんあって、彼らには彼らの仕様があります。Codexでどう機能するかというもので、長期実行エージェントなどができます。どうなるかは分かりませんね。彼らがこういうことをする時、あまりうまくいかないことが多いので、どうなるか見守りましょう。
OpenAIはしばらく静かだったように見えましたが、突然これらすべてのものを一気にリリースしてきました。過去にも同じようなことをしましたが、そのうちの50%は定着せず、その後どうなったか誰も知らないということがありました。だから様子を見ましょう。
GPT Realtime 1.5を使ってインタラクティブなアプリケーションを構築できるようになりました。ユーザーが音声でアプリの状態をより自然に制御できるようになります。改善されたリアルタイム音声APIですね。素晴らしいです。
迅速なニュースまとめ
さて、ここからはクイックヒットとして足早に進めていきます。時間がかなり押しているので、迅速なセグメントになります。
AIサブスクリプションの補助金がなくなるかもしれません。
信じられますね。6月1日からGitHub Copilotが従量課金制に移行します。誰も使わなくなるでしょう。どうなるか興味深いですね。もはや補助金付きのプランは提供しないということです。Anthropicの価格設定ページのABテストが示していたように、おそらく高い価格帯を支払わない限り、補助金は少なくなるのではないでしょうか。
Anthropicがいくつかの研究を行いました。これは正式なローンチではありませんが、サンフランシスコのオフィスの従業員向けに市場を提供するProject Dealというものを行いました。1つ大きなひねりがあり、Claudeに同僚の代理として売買や交渉を行うよう任務を与えたんです。Anthropicは常にこうした興味深い研究プロジェクトを行っています。Claudeに店をコントロールするアクセス権を与えて、店の経済をコントロールさせ、これら様々な状況下でモデルがどう反応するかを学習させようとします。常に面白くてクールですが、通常はあまり実用的ではありません。でも、そういうのが好きな人には面白い読み物です。
Google DeepMindが、Google Cloudと共同でGemini Enterprise Agent Platformをローンチします。企業がエージェントを開発、スケール、管理、最適化するためのプラットフォームです。またしてもエージェントプラットフォームですね。
ええ、たくさんあります。OpenAI、Anthropic、Googleからマネージドエージェントがたくさん出ています。誰もがこのゲームに参加しています。Masterも間もなく参入します。楽しみに待っていてください。
TypeScript 7のベータ版が登場しました。エキサイティングですね。書き直されて、Go言語で作られています。どうなるか見てみましょう。私はインストールしましたが、特に違いは感じませんでした。でも、おそらくそれがポイントなんでしょう。少しでも速くなっているなら、それは常に良いことです。これを見ているTypeScript開発者の方、登場しましたよ。私はまだ何もしていませんが、知っておいて損はありません。知っておくべきですね。みんな開発を進め、改善しています。
Replitがセキュリティエージェントを発表しました。数分で包括的なアプリのセキュリティレビューを提供します。期間限定で試用できる5ドルのクレジットがもらえます。
BitwardenのCLIがサプライチェーン攻撃で侵害されました。多くの攻撃、多くのハッキングが行われています。気をつけてください。キーを保護し、できる限りの対策をしてください。ええ、知らない人とのZoom通話には参加しないでくださいね。巧妙なフィッシングの試みも多いので、本当に注意してください。
そしてこれは少し面白かったです。昨日、GitHubの従業員が信頼性とリーダーシップについて懸念を抱いていると報じました。その数時間後、GitHubが壊滅的な障害に見舞われ、その後も別の壊滅的な障害が発生しています。昨日でしたっけ。GitHubチームにいる人たちにとっては最悪の月ですね。Anthropicのステータスページをジョークにしていましたが、GitHubのステータスページも同じくらいひどいです。かなりひどいですね。
AIがかつてないほどコミットやプルリクエストを行うようになり、これまでの10倍にも及ぶような膨大な規模の利用があるからだと思いますか。それとも何か別の原因でしょうか。
両方の側面があると思います。規模が大きくなっている一方で、システムを運用し変更を加える際に、デタラメなコードが混ざっている可能性もあります。特にGitHub Copilotを使っているなら、幸運を祈るしかありませんね。彼らが使えるのはそれだけなのかなと考えたりします。GitHubを修正するためにGitHub Copilotを使わなければならないなんて。動かないじゃないか、って。ええ、神よ。
CognitionのDevinから新しいCLIが登場します。私たちもDevinを少し使ってきましたが、なかなかクールです。実験してみる価値があります。
中国がMetaによるAIスタートアップManisの20億ドルの買収を阻止しました。これが今日の最後のニュースです。
これはクレイジーですね。何週間か前に私たちがどういうことだと話したのを覚えていますか。その後Metaはいくつか製品を出しましたが、最近Metaは何をしたんだと話していた時に、ああ、Manisを買収したんだという話になり、まあ、それが彼らがした唯一の良いことかもねと言っていました。でも、それすらも上手くいかなかったんですね。
くそっ。私が理解している限りでは、これはMeta側の問題ではなかったようです。私は実際に中国のエンジニアと話をしたんですが、これは事実確認されていないので話半分に聞いてほしいんですが。そのエンジニアは1人の見知らぬ人ですが、私は彼をある程度信頼しています。率直な人だと思います。彼が言うには、どうやらManisは何かうまく動くものができた後、すぐにシンガポールの企業になろうとしたそうです。中国を離れてシンガポールの企業になり、最終的にアメリカの企業に売却できるように計画していたと。中国企業のままだとそれは非常に難しいですからね。しかし、彼らがどうにかしてそれを実行しようとしたところ、中国がそれを阻止する方法を見つけたらしいのです。これらすべてが進行している間に、中国が事実上Manisの買収をブロックする方法を見つけたのでしょう。
私はてっきり買収は完了したものだと思っていました。なぜなら、あの創業者たちはすでにお金を稼いで、Facebookなどに在籍していると思っていたからです。ええ。では、そのお金はただ没収されるのでしょうか。どうなるんでしょうか。
分かりません。Manisで働いていた人を知っているので、その人に聞いてみましょう。
分かりました。来週皆さんにお知らせします。
ということで、今回はここまでです。まだの方は必ずフォローをお願いします。YouTubeでチャンネル登録ボタンを押してください。感謝します。GitHubでMostai/Mstraにスターをつけてください。Mstraをフォローし、SM Thomas3で私をフォローし、Obbyをフォローしてください。
今週の番組は以上です。最後に何か一言ありますか。
幸運を。楽しんで。ピース。またね。


コメント