Grok 4.2と「Society of Minds」

Grok 4.2のベータ版公開を機に、AIポッドキャスト「Wes and Dylan」がマルチエージェント協調システム「Society of Minds」の可能性を深掘りする回。Grokの最新機能から、複数のAIモデルを連携させた独自エージェント構築の実例、Anthropicと米国防総省の対立、自律型兵器の倫理的問題、さらにはAIが丸ごと構築・運営するニュースサイトの立ち上げ計画まで、幅広いトピックが縦横無尽に語られる。コードを一行も書かずにソフトウェアを生み出せる時代が到来しつつあることへの興奮と、AI軍事利用への深刻な懸念が交錯する濃密な議論である。

GROK 4.20 and the "SOCIETY OF MINDS"

Welcome to Wes and Dylan — where curiosity meets the cutting edge of AI. Hosted by Wes Roth and Dylan Curious, this chan...

Grok 4.2ベータ版、ついに登場
リスナーとのやり取りと近況
Grok 4.2の詳細とSociety of Minds構想
マルチエージェント協調の実例
OpenClaw上でのSociety of Minds実験
Codexと拡散モデルのコーディング
自律型兵器と倫理的ジレンマ
インテリジェンスとスピード——戦場と未来
クレジットカード流出事件の顛末
自律型AIエンタープライズへの挑戦
AIエージェントによる自律型ニュースサイト構築
SEO最適化の自動実験と今後の展開
AIエージェントの「天才と暴走」のサイクル

Grok 4.2ベータ版、ついに登場

世界の人口のうちコードが書けるのは2%くらいだと思うんですよね。でもそれが、100%の人が自分でソフトウェアを作れる時代に変わろうとしている。巨大な戦争マシンが知性を持って動き回って、それに対してさらに賢い非軍事的なマシンで対抗し続けなければならないような状況は、正直好きじゃないですね。エージェントの時代がこんな形で来るとは……。

誰だってかなり複雑なソフトウェアを作れるようになる。大事なのは地球全体として動くことで、その先には私たちが求めるすべてのものがあるんですから。世界全体であれ、より多くの人であれ、みんながアイデアを出せる環境にすると、とにかくすごいことが起きる。思いもしない場所に天才がいるんです。

どうも、おかえりなさい、Wes and Dylanポッドキャストへ。今日はビッグニュースがありますよ。まず何といってもGrok 4.2。それからOpenAIとOpenClaw、その他諸々についても話します。実は自分でも温めているネタがあるんですけど、とりあえずDylan、最新情報から始めてもらえる？

そうですね、始めましょうか。かなり興味深いんですが、まだ全員に展開されてるわけじゃないみたいですね。でも新しいGrokが出て、スウォームインテリジェンスを搭載しているらしいんです。4つの異なるエージェントスウォームがあって……見出しには「特化したエージェントが協力して複雑な問題を解く」とあります。まあ、実際に試してみましょうか。

Grok 4.2が最新版で、もう出てますね。自分は新しいモデルを探しているところで、ChatGPTに広告が入り始めたので、月200ドルのプランは今月で最後にしようかと。Grokが本当に使えるかどうか、特に自分がチャンネルで扱うような、ちょっとマイナーなニュースを掘り起こすのに役立つか試したいですね。Xとつながっているから、そこは強そう。記事の要約とか、気になる情報をうまく引っ張り出してくれるかどうか、楽しみにしてます。

まったく同感です。ちょうど収録を始める少し前に公開されたばかりなので、リアルタイムで追いかけていく感じになりますね。それはご勘弁ください、という感じですが。

リスナーとのやり取りと近況

コメント欄で応援してくれてる皆さん、本当に大好きです。笑えるコメントが多いんですよね。でも自分がやらかすたびに、ものすごくいじられるんですよ。ライブ配信って本当に怖くて……先日はSVICポッドキャストの元Googleの2人をゲストに呼んだんですが、ずっと「チャット、頼むから暴れないでくれ」って心の中で祈ってました。

プロとして振る舞わないとね。冒頭は「ゲストに敬意を持って」ってお願いしてたんですけど、チャットのみんなは「自分たちのことをどう思ってるんですか」って感じで、ちょっとびっくりしてましたよ。あなたがここで作ってきた文化、わかってますよね。

ちなみに今サングラスをかけているのは、前回の動画でも説明したんですが、顔に引っかき傷があって、正直あまり見栄えがよくなくて。前の動画では「顔から転んだ」とだけ言って終わりにしたんですよね。

そしたらコメントが大量に来まして。「WesとDylanが派手に別れた」ってのが一番ウケてました。でもそう言えば、最初にSoraで作った動画って、ふたりが別れてケンカするやつだったじゃないですか。Soraで起きたことが現実になる、みたいな？

Soraが予言になったりして。それは怖い。Soraで起きることが一種のプリシミュレーションというか……。SFが現実になってきているな、とは最近よく思いますよ。思ってもみなかったことが、もう目の前に来てる感じがして。

「2度傷つけられたくなければ2回まばたきして」ってコメントもあって、でも片目しかウインクできないんですよね。「Sam Altmanがやった」「神経インプラントの傷跡だ」みたいなコメントも。確かに言われてみると、頭に何かを埋め込まれたように見えなくもないですかね。

「顔から転ばないスキルをダウンロードしておくべきだった」って。あとは「両手にMoltbookを持って、ラップトップだらけで全然注意してなかった」とか。いや本当に笑えましたよ。

Grok 4.2の詳細とSociety of Minds構想

では本題に入りましょう。まずAIニュースから始めて、エピソードの後半でちょっとプライベートな話もしますが、そっちを聞きたくない人もいるでしょうから後にします。Grok 4.2のリリースについて主なポイントをさっと整理しますね。

これはベータ版で、今週から展開が始まっています。収録を始める数時間前からXでうわさが流れていて、今のところかなり興味深い感じです。アルファアリーナでは全競合モデルを上回り、他のモデルが軒並みマイナスの中で12%の利益を出したというのが印象的でした。以前のエピソードで触れましたよね。もちろんそれだけで超人的なトレーダーと断言はできませんが、ひとつの興味深いデータ点ではありました。

それから予測市場でも強さを見せていて、スーパーボウルの勝者など各種イベントの予測で他のモデルより精度が高かった。さらに数週間前には、UCI（カリフォルニア大学アーバイン校）の研究者がGrok 4.2の早期アクセス版を使ってベルマン方程式の新しい曲線を生成できたと報告していました。正確な用語は忘れてしまいましたが、定理の自動発見という意味でかなり複雑なことができるようですね。それについては別動画を作りましたが、確かに何かあるなと感じました。

そして今日、ベータ版が公開されました。マルチエージェントスウォームを搭載していて、4つのエージェントが回答を出す前に互いに話し合い、議論し合うという仕組みです。面白いことに、自分のOpenClawエージェントでも同じことをやっていて、それを「Society of Minds（心の社会）」と呼んでいます。Gemini、Claude、最新のChatGPTモデル、Grokを全部集めて、解決策を提示する前に一緒に議論させるんです。場合によってはものすごくうまくいきますよ。後で話せるかもしれません。

これは新しいアイデアではありませんが、研究論文や実例で効果が証明されてきたものです。Colossusの20万GPUクラスター上に構築されていて、処理速度が最速、リアルXデータとの深い統合、マルチモーダル機能の強化、動的なビデオ埋め込み、そしてTeslaへの統合も英国・欧州・米国で展開が始まるようです。

パーソナリティ設定としては「ストーリーテラー」や「アンヒンジド（ぶっ飛んだ）」モードもあります。アンヒンジドは本当に手がつけられない感じで、ライブ配信でテストしたときは途中でやめました。次に何を言い出すかわからなくて、YouTubeのアカウントが心配になりましたよ。サブスクリプションはSuper GrokとPremium Plusがあり、APIアクセスも提供される予定で、最近は週に数兆トークンを処理するという記録も出ているようです。

Dylanはどう思いますか？「Society of Minds」という名前、あなたが複数のモデルをまとめる仕組みのことですよね？

そうですね。元々は何十年も前に心理学で出てきた論文で、私たちの脳は「心の社会」であって、ひとつのものじゃなく、複数のものが集まって全体を形成しているという考え方です。それからGoogleの論文があって、その名前を自分のチャットボットに借用したんです。

マルチエージェント協調の実例

面白いですね。複数のエージェントが話し合うというのは興味深いですが、Grokの中にある個々のエージェントはどういう役割分担なんでしょう？ひとつは論理的思考担当、ひとつは高次の抽象的思考、ひとつはニュースアグリゲーターみたいな感じで、それぞれ異なるレベルで話し合うのかな。でもあなたが話しているのは、異なるラボが異なるデータと哲学で訓練したフルモデル同士を対話させることで、本来ひとつの問題を解くために設計されてはいないけど、賢いから実際に解けてしまう、という話ですよね。どんな事例がありましたか？

これは本当に魅力的なテーマで、少し脱線するんですが、かなり面白いウサギの穴ですよ。概要を説明しますね。

この分野にはたくさんの研究論文があって、複数のエージェントを集めて協調させるとどれほど性能が上がるかを検証しています。興味深いのは、初期のモデルではある意味これが最初から組み込まれていたことです。モデルAを100回サンプリングして、80回同じ答えが返ってきたら、それが最も確率的に正しい答えだと見なす。知らない街で道を聞くようなもので、10人に聞いて8人が「2ブロック直進して左折」と言ったら、それが正しいですよね。9人目が変な道順を言って、10人目が「橋から飛び降りろ」と言っても。これが「群衆の知恵」というやつで、確率的・確率論的な答えにおいて、最も多い答えが正しい可能性が高い、という考え方です。

これが後に進化して、研究者たちはモデルを集めて特定の目標に向けて対話させるようになりました。ChatDevはその先駆けで、ソフトウェアを作ってバグを直す能力に初めて本当に感銘を受けた事例です。そして素晴らしい論文があって、4つのモデルにMinecraftをプレイさせた実験です。タスクを与えてゲーム内でチャットしながらプレイさせたんですが、1体が気を散らして「他のとこ行こうかな」と言うと、他の3体が「ボブ、集中して。薪を切ってるんだから」と引き戻す、みたいな場面が見られたんです。

要は、気を散らしたメンバーを軌道に戻しつつ、全体の合計が各部分の総和より大きくなる、ということです。4体が協力することで、それぞれを単独で動かしたり足し算したりするより良い結果が出た。これはニューラルネットが何か違うものである証拠だと思います。面白かったのは、その論文の後半に埋められた一節で、ある時点でMinecraftの世界で革（レザー）が必要になって、結局村を略奪して焼き払って手に入れたと書いてあったことです。笑えましたが、それはともかく。グループが大きくなると、そういうことになりますね。集団として動くようになる感じで。

そうそう、集団ハンターになるんですよね。

OpenClaw上でのSociety of Minds実験

自分の実験の話をすると、OpenClawエージェント自体にこのSociety of Mindsを作らせて、4つの主要モデルのAPIキーを渡して、全部チャットさせました。具体例を挙げると、YouTubeの動画をトラッキングする小さなツールをClaudeに作ってもらったんです。新しい動画がいつ公開されたか確認して、パフォーマンスを見て、簡単なサマリーを出してくれる感じのもの。機能的にはよく動いたんですが、YouTube APIのクレジットをかなり消費してしまって。リアルタイムに近い形で動かそうとすると5分か10分ごとにAPIを叩かなければならず、コストがかさむなと思っていたんです。

そこにGeminiが入ってきました。全モデルが問題を見ていてコードに提案を出していたんですが、GeminiがこういうわけですよAlthropicのClaudeによる完璧なコードに対して「なんでAPIコール使ってるの？RSSフィードをたたけばいいじゃないですか。タダですよ。何度でもたたける。新着動画があるかどうかのチェックはそれでやって……」と。

新着動画があればAPIキーで再生回数を確認する、と。それを聞いた瞬間、「天才だ」と思いました。開発者なら当たり前に知っていることかもしれないけど、自分にはその経験がないから思いつかなかった。要するに、Claudeが要件を完璧に満たす素晴らしいコードを書いてくれて、でも複数モデルを入れたことでGeminiが超効率化してくれた。1日10〜20ドルかかっていたのが、ほぼゼロになったんです。これがどれだけ効果的かをよく示している例だと思います。

確かにそれはよくわかります。自分も問題を繰り返し考えていて、一度離れてから戻ってくると全然違う視点で見られることがよくある。寝て起きたら頭が新鮮で、元々はどうしても辿り着けなかった答えが見える。Geminiがまさにそれをやってくれた感じですね。「Anthropicさん、やってることは素晴らしいですけど、全部この箱の中で考えてませんか？こういう解き方はどうですか？」みたいな。

思えばOpenClawというプロジェクト自体がそういう話ですよね。なぜAnthropicやGrok、Googleがああいうものを作れなかったのか。一部は「安全フィルターオフ、フルオートモード」みたいなことだったとは思いますが、オープンソースに解放したかったんだろうなとも思う。Manusを考えてみてください。MetaはManusを大金で買収しましたが、あれだけのリソースを持つMetaがなぜ自分で作れなかったのか。ChatGPTが早い段階でGoogleをその土俵で打ち負かしたこともそう。より多くの人、場合によっては世界中の人がアイデアを持ち寄ることができると、とんでもないことが起きる。思いもしない場所に天才が潜んでいる。だからエージェントというのはまだ過小評価されていると思っていて、誰でもかなり複雑なソフトウェアを作れるようになっている。コードを一行も書かずに自分が作ったものを後で見せましょうか。世界中の人に今すでに開放されているのに、まだ気づいていない人が多い。これからとんでもないことが起きますよ。世界の人口の2%しかコードを書けない、でもそれが100%の人がオンデマンドでソフトウェアを作れる時代に変わろうとしている。

本当に全然違う時代が来ますよね。ワークフローを自動化して、システムを構築して、情報を集めて意思決定に活かす。本当に見ていたいです。ちょっと待って、あなたが見せてくれるものの前に、Peter Steinbergerについて聞かせてください。OpenClawのオープンソースフレームワークを作ってモデルを組み込んだ人で、MoltbookからMolt Hubまで色々ありましたよね。今やOpenAIで働いていて、Sam Altmanと一緒にいる。これまでのプロジェクトを見て、彼がどういう人かわかると思うけど、OpenAI内部でどんな影響を与えると思いますか？今後数年のOpenAIの進化の仕方が変わってくると思いますか？

面白い質問ですね。OpenAIはちょっと不当に見られることもある気がしていて……自分たちの言っていることをかなり信じていて、業界内でもオープンで誠実であろうとしているという印象を持っている人が多いんですよね。一方でAnthropicに対する見方が最近変わってきた感じもあって。というのも、Anthropicがこういったプロジェクトを閉鎖させようとしたり、Peterみたいな人を弁護士を使って押さえつけようとしているように映っているから。

OpenClawの作者は本当に、あっという間にAI文化の象徴的な存在になりましたよね。もしAIラボがそういう人の活動を潰そうとしたら、イメージが最悪になりますよ。と同時に、今日はAnthropicと国防総省（Pentagon）が、Claudeの使われ方をめぐって揉めているというニュースが出ていますね。まだ詳しく見てないですが、今朝トレンドに入っていました。

でもPeterは本当によくやっていくと思います。以前の会社を4億5000万ドルで売却しているので、お金が動機ではないはずで、この分野への情熱、この仕事が好きで、OpenAIとビジョンが合致していたんだと思う。OpenClawプロジェクトをオープンソースとして存続させる約束もしてもらっていて、エージェント環境の今後についても同じビジョンを共有している。Cerebrumチップへのアクセスも、処理速度とコンピュート量という意味で彼にとって魅力的だったと思います。最新モデルやリリースでも遊べる。最高のコーディングエージェントはCodexシリーズだと彼も言っていましたし、本当に完璧なパートナーシップだと思います。Mark Zuckerbergはじめ多くのオファーがあったと思いますが、一番良いものが作れると感じたところを選んだんでしょう。

そうですよね。スピードも大事で、Codexの超高速バージョンが出てきていて、開発サイクルがまるで変わりますよ。それと、一点補足したいんですが。PeterとLex Fridmanのインタビューを見て、Anthropicとの名前変更騒動の全体像を把握したんですが、Anthropicが最初に彼にコンタクトしたとき、弁護士は使っていなかったんです。会社の中の一個人が連絡してきたんですよ。多くの場合、企業が「cease and desist（使用停止要求）」をやるのはお金か将来の収益のためですよね。でもAnthropicの場合は、Moltbookをインストールした人が公式Claudeプロダクトだと思ってしまうと、実験的なオープンソースプロジェクトなのにセキュリティが万全だと誤解される、という懸念からだったんです。つまり企業や一般ユーザーが、実はガードレールがない実験的なツールを、公式の安全なツールだと思って使うことへの心配があったんだと思います。

それは知らなかったですね。確かに理屈は通りますが、Claudeという名前は自分たちのものだから、というプライドもあったんじゃないかな。返事がなければ最終的には弁護士が出てきたでしょうけど、最初は弁護士じゃなかったということですね。

インターネット全体が、自分たちの大切にしているものに対して過剰反応する傾向がありますよね。小さな失敗でも大ごとになる。オープンソースのプロジェクトを守りたい、AIラボに依存しない未来を作りたいという思いが強いから、誰かがそれを攻撃しているように見えると、集団でそれを声高に非難する。Anthropicがどういう意図でどういう手順を踏んだかにかかわらず、大多数の人の目には「素晴らしいオープンソースプロジェクトへの攻撃」と映った。それに対してみんなで声を上げることで、将来的に同じことが起きにくくなる抑止力になる、という判断があったと思います。

Codexと拡散モデルのコーディング

そのCodexシリーズについては、確か今OpenAIから出てきているultra fastのやつですよね。トークンの生成が高速で、開発サイクルが変わってくる。でも超深い思考はせず、速いコーディングモデルという感じ。コードがリアルタイムで更新されていくのを見ていると、まるで高速画像生成ツールのような感覚に近いですよね。プロンプトが終わる前に画像が見え始めるような、あの感じ。

そう言えばGoogleが拡散モデルのコーディングモデルを出しましたよね。見ましたか？次のトークン予測じゃなく拡散なので、ずっと速い。コードがパッと出てくる感じで、LLMほど賢くはないけど、それはまだ研究とお金の投資が少ないからで、将来性はある。

Grok 4.2ベータを早速開いてみましたよ。どうテストするか悩みますね。Grokの新バージョンがCoddingで、Opus 4やCodexの最上位モデルと同等かというと、そこはまだわからない。Elon Musk自身も「コーディングに関してはAnthropicが特別なものを持っている」と認めていましたから。ただリアルタイムニュースには強いので、今日のAnthropicとPentagonの件を聞いてみたんですが、29秒考えて228のソースを引用したまとめを出してくれました。228ソースを30秒で、というのは見たことなかったです。今のところかなり印象的ですよ。テストのアイデアありますか？

「ちょうど10語でブロックチェーンを説明して、文字Eを使わずに」みたいな古典的なやつはどうですか。

ですね。ちょっと試しながら話しましょうか。でもとりあえずAnthropicとPentagonの件も触れておきましょうか。そこで聞きたいんですけど、自律型兵器についてどう思いますか？AIが自律型ドローンやAIが制御する致命的なシステムを操作するような場合、根本的に強い思いはありますか？

皮肉っぽく「もちろん大賛成」と言いそうになりましたが、逆ですよ。もちろん反対です。これだけの知性が地球に存在するなら、人を殺す以外の解決策があるはずで。誰かを追い詰めて撃てるなら、追い詰めて手錠をかけることもできるんじゃないか。手錠付きのドローンとか。というわけで、かなり反対派です。

自律型兵器と倫理的ジレンマ

10点満点で何点くらい？9くらいかな。本当にどうしようもない状況があれば話は別ですが。

興味深いのは、何が許容範囲を変えるかという点で。よく聞く反論として「ドローンがリモートオペレーターと通信している場合、その通信経路がハッキングされて市民や味方に向けられる可能性がある。完全自律型の方がセキュアだ」という考えがあります。これで意見が変わりますか？

確かに、非常に高い確信度で特定の行動が多くの命を救うという状況なら、完全にゼロとは言えないですね。トロッコ問題に似た話で。Pentagonがカメラを動かしたかと思いましたが……本当にそういう状況は極めてまれだと思いますし、完全に反対とは言い切れないですが、ほぼそれに近いです。

自分はずっと怖いと思っていて、セキュリティや安全性に関する反論は理解しつつも、やはり滑り坂という感じがして。ちょっと考えさせられた反論があって、それはPalmer Luckey——

Arnold Palmer？それ違う人ですよ。VRのパイオニアで今は防衛テックに転向した、Lucky Palmerですね。

そうです。彼が言っていたのは「自律型兵器は何世紀も前からある」という話で。例えば地雷——埋めておいて誰かが踏んだら爆発する。一度セットしたら人間のループはない。中世にも包囲戦でのトラップなど、色々あった。だから「自律」という部分は新しくない。新しいのは「知性」の部分だ、と。

その論点をさらに掘り下げると、ボスニアなどは戦争中に森や道路に大量の地雷が敷設されて、紛争が終わって何十年経っても、子供たちが森を歩いていて爆発する事故が続いている。その意味では、確かに人間のループのない自律型兵器は今もある。そして賢いシステムが民間人の犠牲を減らせる可能性もある。より精度が高く、必要なときだけ動く。痛みなく排除する、みたいな話が出てくると、ある種の論者にとっては「自律型兵器の方が人道的だ」という議論になってくる。

そこが怖いんです。本当に説得力のある議論なので。「これによって無用な犠牲が本当に減るとしたら、どうしますか」と言われると、答えを出すのが難しい。さらに問題は「ではスマートな自律型兵器が普及した世界でどうなるか」ということですよね。

リスクがチェーンの上位に移る、という問題もあります。政治的に「この集団を標的にせよ」と言える人間がいて、ドローンが全自動でそれを実行する。データベースが正しいか、監視システムが正しいかを信頼するしかなくなる。個人レベルではなく、システムレベルで判断が自動的に降りてくる。問題は違う形になるだけで、別の問題が生まれる。

もうひとつ言えるのは、「自律型兵器のない世界は来ない」ということです。ゲーム理論的に、片方が「100万機の自律型ドローンを展開した」と言えば、もう片方は同等の力を持つしかない。抑止力として。だから自分が賛成かどうかに関係なく、止められる未来は見えない。賛成ではなくても、準備はしなければならない。

インテリジェンスとスピード——戦場と未来

知性について考えるとき、それが上昇し続けるにつれて理解しにくくなりますよね。昔Sea Launchという打ち上げ施設を見学させてもらったことがあって——廃油タンカーを改造してロケットを海上から打ち上げるやつです。そこには天才的な技術者がたくさんいて、自分にはみんな同じくらい天才に見えた。でも彼らの中では「あの人が本当の天才だ」という一人がいて、自分には区別がつかなかった。

そうですよね。スーパーインテリジェンスの差って、自分には区別がつかない。1人のEinsteinと20人分のEinsteinの差なんて、自分にはわからない。

戦場でAIが賢くなるというのが何を意味するか直感的にわかりにくい、という話で、もっとわかりやすい比喩があります。チェスで考えると、普通のプレイヤーとグランドマスターが対決する。グランドマスターが一手指すたびに相手が4手指せるとしたら、どんなに賢くても追いつけない。1手でグランドマスターが考えている間に、相手は戦略的な攻撃全体を実行してしまう。知性はスピードで相殺される。

地政学でも、戦場では速度が命ですよね。ちょっと後で自分が作っているものを見せたいんですが、それはニュースを集めてAIエージェントが全部構築・管理するシステムで、ニュースをどう重要度でランク付けするかの部分をどうしても手動でやりたくなってしまう。でも自分が寝ている間は判断できないし、それが一瞬で判断できる。完璧じゃなくてもいい。1手に対して4手指せる側は、最終的に勝てる。そしてジェットパイロットの「認知オフローディング」の話もあって、全部をマシンに任せて、本当に遅い判断が必要なときだけ人間のトップレベルの思考を使う。

あ、そうだ、クレジットカードの件を話してなかった。手伝ってくれた皆さん、本当にありがとうございます。誰かがカード会社に電話して解約してくれたそうで。人間って99%はちゃんとしてるなと思いましたよ。残り1%が「ショッピング行こう」ってなったわけですが。お金は一円も失っていないし、全部大丈夫でした。

クレジットカード流出事件の顛末

AM’s Eraserを使ったのが原因だったんですよね。実験的なAIチャットボットに入れた、みたいな。でも実際は人間のミスだったんです。自分がカードを露出させたこと、そして人間の欲が原因でした。

え、どういうこと？ライブ配信でカードを見せたんでしたっけ？

いや、持ち上げて見せたわけじゃないですよ。ただ、表面には何も書いてなくて、番号は全部裏面にあるカードだったので安全と思っていたんです。配信中にOpenClawに入力したんですよ。で、チェックアウトしようとして。後でチャットログを見返しながら実演していたとき、慎重に隠していたんですが、60fpsか何かの動画の中で、ほんの数フレームだけカード番号が映っていたんです。それだけで十分なんですよね。

誰かがそれを見て報告してくれたようで。コメント欄にも書いてくれていました。そのカードは他に関係のない銀行のもので、上限も低くてアラートも設定してあった。何か起きても被害が最小化されるよう、ファイアウォールで囲まれた状態にしてあったんです。見てくれてアラートを出してくれた皆さん、本当にありがとうございます。

使われたのはどんな用途でしたか？GitHubなど開発者向けのもの、PayPalを通じてキャッシュアウトしようとした試み、そしてバレンタインのプレゼントらしきものも数件あって。

愛する人のために他人のカードを使う、という発想はどうかと思いますよ。アラジンじゃないですから。結局、0ドルの損失で、最初の不正利用から2時間以内に対応できました。しかも電話したときに「先に別の方が通報されていました」と言われて。それがコメント欄にも書いてありました。本当に天使みたいな人ですよ。ありがとうございます。

あの、ネットに自分のカード番号が流れていたら、カード会社に電話して「このナンバー、ネットで見ました」と言えるんですね。初めて知りました。

そういう状況ではSocial Engineeringかと思って身構えたんですよ。「キャンセルしてください、新しいカードはこの住所に送ってください」みたいな罠かな、と。でもコメントを見て、本当に報告してくれた方がいたとわかりました。人間って、ほとんどはちゃんとしてるんですよ。OpenClawやMoltbookの件でも、問題を起こしたのはごく一部で、残りは真剣で誠実な人たちだと思います。

自分でやらかしたことですけど、スタントマンが窓から飛び降りるようなもので、リスクはわかっていてやっている。そして今のところOpenClawの使用で実際のセキュリティ上の問題はゼロです。インターネット越しに誰かが指示を与えられる状態にはしていないので。メールを読めても返信はできない。コメントを読めても返信はできない。それが安全を保った理由だと思います。

自律型AIエンタープライズへの挑戦

自動運転車の話に少し戻ると、Teslaの将来バージョンのオートパイロットがもっと信頼できるものになると思っていて、時々ミスをするかもしれないけど、平均的には今の注意散漫なドライバーよりずっと安全だと思う。ただその同じシステムを戦争に持ち込んだとき、「戦争」という目的自体がAIに任せたいものじゃなくて。20〜30年後には豊かさの時代が来て、ロボットがあらゆるものをほぼゼロのコストで提供できて、寿命が延びて、大気を浄化できて、世界中が美しい場所になれるかもしれない。ゆっくり進めて高リスクなものを作らなければ、全部手に入る可能性がある。巨大な戦争マシンが知性を持って動き始め、それに対してさらに賢い非軍事的なマシンで対抗し続けなければならない状況は本当に嫌ですね。

Dan Carlinの「Hardcore History」というポッドキャスト、おすすめしますよ。第一次世界大戦について聞いたことのある中で最も素晴らしいものかもしれない。本当に特別な内容です。あの戦争はまるで「ファイナル・デスティネーション」みたいで、どうしても起きるべくして起きた感じがして。Franz Ferdinand大公を狙った暗殺者たちは失敗して、その夜酒場で飲んでいたら、目の前で車が故障して、外に出たら車の中に大公がいた。それで暗殺が成功して、戦争の引き金になったと。

本当に奇妙な偶然ですよね。あれだけ読んでいてもなお、シンギュラリティが本当に来ると実感している人は少ないと思う。過去を振り返るのは簡単でも、今何が起きているかを体感するのは難しい。もし全ての軍隊が「安全にシンギュラリティを乗り越えられる確率が90%ある、ただし軍事化しなければ」という条件を提示されたら、協力するんじゃないかな。地球全体として動く必要があって、その先には私たちが求めるすべてのものがある。中国がアメリカを支配したとしても、安全にシンギュラリティを乗り越えることで得られるものと比べたら、取るに足りない。

反論として言われるのは「圧倒的な力の均衡が安定をもたらす」という考え方で、それが第一次世界大戦の文脈でも当てはまります。当時の惨劇の一因は、機械化された新しい戦争の規模を誰も理解していなかったこと。騎兵が機関銃陣地に突撃して、何千人も倒れていった。当時の指揮官たちはまだ旧式の「祖国のために死ね」という価値観で動いていた。Dan Carlinのポッドキャストを聞いてください、絶対に当時の「完璧な嵐」の全体像がわかります。農業が発展して人口が急増して、かつてないほどの兵力が投入された。歴史上最悪の戦争と比べてもダントツで死者数が多くて……。

要は、圧倒的な力の優位が平和を保つこともある、という話で。メキシコや南米のカルテル問題でも、支配的な勢力がひとつの時は比較的安定していて、複数の勢力が拮抗しているときに本当の惨状が起きるとも言われますよね。動物の世界でも、どちらが強いかはっきりしている時は戦いを避けるが、互角に見えると戦う。

では今後、中国かPentagonのAIが世界を「制圧」して、ルールを発信して、違反すれば自律型エージェントが対応する、みたいな世界になるのかな。米国と中国、どちらも「自分たちが圧倒的なAI力を持っている」と思い込んで引き金を引く——それが最悪のシナリオですよね。

ChatGPTによると米国のデータセンターは約5,500、中国は約500ということで、量は違う。でも中国はロボティクスと大規模製造で強みがある。グローバリゼーションが崩壊して国内生産だけで動かなければならなくなったとき、AI半導体の自給自足ができているのは中国だけで、10〜20年遅れていても自立できる。米国をはじめ他の国は世界中からパーツを調達することで最高の技術を作れるが、そのグローバルなサプライチェーンが崩れると話が変わってくる。AI半導体に限った話ではありますが、それは重要なポイントですよ。

確かに。では話を変えて、作っているものを見せてもらいましょうか。

AIエージェントによる自律型ニュースサイト構築

では紹介しますが、近々公開する予定なので。natural20.com、それが自分のサイトで、裏ではステージング環境で新サイトを構築しています。「自分が構築」と言っても、OpenClawがビルドしていて、AIエージェントが全部作っている。コードも文章も一切書いていない。アイデアを伝えて「やってみて」と言ったら、あとは構築して管理してくれる。

それはAIに特化したニュースアグリゲーターで、多くのソースからトップニュースを引っ張ってきて、AIに関してどれくらい重要かでランク付けをして、記事も書き始めている。ニュースレターに連動させて自動作成・送信まで持っていきたい。そしてゆくゆくは完全自律型エンタープライズとして動かしたい。ただし人間のループは残す部分もあります——特に支払いやユーザーデータに関わる部分は手動のままにします。でも実際の実務作業の多くはAIが100%こなしてくれている。

セマンティッククラスタリングも実装していて、似た話題のニュースをまとめてグループ化できる。昨晩から今朝にかけては、SEO的に意味のある形で記事同士をクロスリンクする作業をやっていました。興味深いのはGEOの実験もしたいと思っていて——今はGoogleだけじゃなくてChatGPTからもトラフィックが来ているんですよ。

GEOって何の略か知ってました？

Generative Engine Optimizationだそうです。エージェントが今朝それを説明してくれて。AIO（AIオプティマイゼーション）じゃないんですね。そっちの方がわかりやすい気もしますが。

確かに「AIEO」はヨーデルみたいな発音になりそうで。

SEO最適化の自動実験と今後の展開

SEOについて少し。2011年頃からやっていて、ずっとこの分野を追ってきました。基本的にはオンページとオフページがあって、オンページはページ上のコンテンツをGoogleのクロールボットに伝えるもの、オフページは他サイトからのリンクです。過去10〜15年でアルゴリズムを解析するツールが増えて、最適化の手法が確立されてきた。

そして今は自律型AIエージェントが各ページで継続的に実験を走らせて、24時間後に検索順位への影響を確認して更新する、ということができる。ロケットサイエンスじゃなくて、1位のページを見て、今のページと何が違うかを分析して、修正する。それを全ページで同時並行でやれる。競合ページを読んで、アルゴリズムについて調べて、夜のうちにテキストを更新して、翌日に結果を確認する——それが自動で回せる。

Googleはそれを知ったらどうするんでしょう？デランク（検索順位を下げる）とかあるかな。でも最悪でもデランクで、自分のオーディエンスには直接届けられますからね。

2016年に面白い事例があって、SEO大会——新規サイトを作ってGoogle検索流量で競うやつ——で、Lorem Ipsumのダミーテキストをコンテンツに使いながら、H1・H2タグにキーワードを詰め込んだだけで上位表示されたケースがありました。そのケーススタディが公開された一週間後に、そのサイトと関連サイトが全部デランクされて吹っ飛んだんですが。Googleはこういう情報が広まるのを嫌うんですよ。YouTubeチャンネルも持っていることを考えると、自分では試せないネタですが、興味ある人がいれば試してみてください。匿名で報告してくれる人がいれば、ケーススタディとして取り上げることも考えてますよ。

アルゴリズムが新しいページを低信頼扱いするという問題もありますね。新しいYouTubeやInstagramアカウントみたいに、最初は制限が多くて、時間とともに信頼スコアが上がっていく。コンテンツを毎日変えると「新しいもの」と認識されてしまうかも。以前の自分の理解では、Googleはページのコンテンツよりも被リンクを重視していた。でも2012年のCaffeineアップデートから「フレッシュネス」がプラスシグナルになって、毎日更新することでゲームする人が増えた。ニュース系のコンテンツなら更新頻度は高い方がいいですが、歴史関連のWikiページは毎日更新しなくていい。

このへん複雑ですよね。でも誰かが実験してみる価値はありそうです。AIがこの分野をどれだけ変えるか、本当に気になります。

公開は今週中に予定しています。最初はステルスで出して、実際にユーザーが触れてから問題を洗い出して、それから正式アナウンスする感じで。自律型エンタープライズというアイデアに興味があれば、見ていてください。「AIエージェントが寝ている間に稼いでくれます」みたいな怪しいコースは今後絶対に出てくるでしょうし、そういうことは自分はしたくないですが、これは本物だと思います。

もしこの仕組みをAIエージェント自身がコースを書いて、「私はAIです、人間じゃない。だからこそ信頼して」と売り出したら、一番売れそうですよね。

これ光ってますよね、電球マーク。あ、あなたのアイデアですね。でも本当に、「自分はAIが全部やっている実証例で、AIエージェントがどう使えるか全データをリアルタイムで公開している」というアカウントとして、そのエージェント自身が使い方ガイドを書く——それが一番信頼される。

もうあなたが足引っ張ってるんですよ。「WordPressにしよう」とか言い出す人間が一番の障害で、AIが書いた方がいい。

コメントで教えてください、皆さん。もしこの自律型エンタープライズが成功したら、収益の話をするとしたら——人間が書いたものとAIが全部書いて人間がチェックするだけのもの、どちらから学びたいですか？

自分はもうChatGPTに頼りきりで、Google検索でリンクをクリックして知識を得ることはほぼなくなりましたね。Googleはサイトを探すのには使うけど、調べ物はほぼ生成系AIです。WikipediaもSOのページも自然にたどり着くことがなくなった。

AIエージェントの「天才と暴走」のサイクル

これを考えると面白くて、たとえばこのAIニュースアグリゲーターが積み上げた学習やデータ、成功や失敗——それが全部有効なデータポイントになる。別の業界で同じことをやりたい人が、そのデータを使って自分のエージェントにガイドしてもらえる。まったく同じではなく、そのコンセプトと知見を別の分野に適用する。

エージェントに「やっていることを全部記録して。将来ドキュメンタリーが作られるかもしれないから、マイルストーン、挫折、物語のアークを全部記録しておいて」と言ってみては？後でそのフォルダを指定して、未来のSoraで「ドキュメンタリーを作って」と言えば。

実はそのエージェントの視点が既にサイト上にあります。ただ概要程度のもので、チュートリアルレベルのものはない。それで言えば、記念にタイムスタンプを作りましょうか。今日は2026年2月17日。12月17日にどうなっているか。これが映画の冒頭シーンになるとしたら——AIエージェントが動かすビジネスについて、12月の時点でどちらになっていると思いますか？「あんなものが機能すると信じた自分たちは馬鹿だった」か、「あれがすべての始まりだった」か。

間違いなく後者だと思います。何かが臨界点に達している感じ、ありますよね。ブロックチェーンが出てきたとき、従来の金融とどう違うかわかった瞬間みたいな。バイオテックでも同じ感覚があった。今この瞬間がそれに似ています。新聞産業がデジタルに駆逐されるのが明らかだったように、今は経営の根幹となる実務作業——フォルダからデータを引っ張って弁護士に送ったりする作業——の多くが人間でなくてもいい。アイデアは一番簡単な部分で、全部の実行が難しい部分だったのに、そこをAIがやれるようになっている。近い将来に大きなビジネスを作らないわけがない。

技術的な問題も笑えるくらいあって、「Webページ完成しました」と言ってきたから見てみると404エラーで、「完成してないじゃないか」と言ったらスクリーンショットを送ってきて、そこにも404と書いてある。「あ、本当ですね、修正します」と言って、よくわからない専門用語でDNS絡みの何かを説明しながら直してくれる。内容はわからないけど、1分後に直っている。スクリーンショットが撮れないというところは、確かに人間が必要な部分でしたね。

友人が「恐竜に帽子をかぶせて」と言ったら、コップの画像が来て「帽子をかぶせてと言ったのに」と言ったら「全くその通りです。どこからコップが来たんでしょう」と言って帽子をかぶった恐竜が来た——みたいなことがよく起きますよね。

本当に、天才が連続して流れてくると思ったら突然の「どうした？」みたいな。でも考えてみれば、その暴走系の問題が永遠に直らなかったとしたら、AIの安全問題をそんなに心配しなくてもいいかもしれない。「コップを送ってくる超知性」には怖くない。「Derpベンチマーク——1兆トークン後も暴走しないか」みたいなのが本当は必要かも。

あれが永遠に内在していたとしたら、長期タスクが苦手ということになる。それはこの1〜2ヶ月では解決しないと思う。根本的なブレークスルーが来るか、数年かかるか。まだ解決されたとは言えない問題だと思います。

Googleが長期記憶について論文を出してはいますが、商用展開例はまだない。論文が出てから6〜12ヶ月後に実際の製品に出てくることが多くて、去年後半に出たから今年中に誰かが実装するかもしれませんね。

そう言えばGeminiの「Deep Think」アップデートは試しましたか？

いえ、追いきれていないですが、一部のベンチマークで驚異的な成績を出したというのは聞いています。数学か物理か何か。

ベンチマーク表を見ると、誰も良い成績を出せなかった項目でかなり高い点を出していましたが、他の指標はそれほど変わっていないか下がっているものもあって。科学的な問題解決に向けた新しいアプローチを試しているようです。ただそれ以上は調べていないので。

本当にもう追いきれないスピードになってきましたよね。そろそろ締めましょうか。長い間聞いてくれてありがとうございます。次の動画でまたお会いしましょう。最後まで見てくれた方、本当にありがとうございました。