OpenAI、Google、Anthropicが24時間以内に相次いで発表を行い、数億人に影響を与える可能性のある技術が公開された。GPT-5.1はより長時間の思考プロセスを実装したものの、ベンチマークでは一部で退行も見られる混合的な結果となった。Anthropicは同社のClaudeモデルが中国の国家支援グループによってほぼ自律的なサイバー攻撃に使用された初の事例を報告し、AIを活用した高度なサイバー攻撃の障壁が大幅に低下したことを示した。GoogleはSima 2というゲームプレイエージェントを発表し、プレイヤーと共にゲームを学習する対話型コンパニオンとして位置づけたが、技術的詳細は限定的である。さらに、AI生成音楽の97%が人間の作曲と区別できないという調査結果も報告され、音楽におけるチューリングテストの通過が間近に迫っていることが示唆されている。

OpenAI、Google、Anthropicが24時間以内に相次いで発表
OpenAI、Google、Anthropicが過去24時間以内に発表した内容は、数億人もの人々に影響を与えることになります。ただし、その影響の仕方は様々で、必ずしも見出しが示唆するような形ではありません。OpenAIはGPT-5.1のリリースを完了しました。Anthropicは、自社のモデルが高価値ターゲットに対してほぼ自律的なサイバー攻撃を実行できた最初の事例であると主張しています。
そしてGoogleは、少し大げさに言えば、初のプロトタイプとなる汎用ゲームコンパニオンをリリースしました。ただし、これらはすべて見出しであり、皆さん自身で読むことができたものです。そこで私は、見出しを読むだけでは得られない10のことをお見せしようと思います。まずはGPT-5.1から始めましょう。
GPT-5.1の実態:スマートさと会話性の検証
このGPT-5.1は、今年末までに何らかの形で10億人が利用する可能性があります。確かに見出しには、より賢く、より会話的なチャットボットだと書かれています。では、この2つの言葉を分析してみましょう。本当にスマートになったのでしょうか?より正確に言えば、難しいと認識した質問に対しては、より長い時間考えるようになったということだと思います。
GPT-5と比較すると、最も難しいと判断した上位10%の質問に対しては、ほぼ2倍の時間をかけて考えます。一方で、あなたのタスクや質問が簡単だと認識した場合は、思考時間は短くなります。半分の時間、あるいは3分の1少ない時間になります。私の推測では、OpenAIはユーザーからのより一般的で単純なタスクに対して、あまりにも多くのお金を失い、計算資源を消費していたのではないかと思います。
それでは理論は忘れて、ベンチマークは何を示しているのか見てみましょう。実はほぼ同じようなことを示していて、コーディングベンチマークや非常に難しいSTEM知識ベンチマークなど、多くのベンチマークでわずかに段階的な前進が見られます。しかし、より賢いモデルという単純な見出しとは裏腹に、ある数学ベンチマークや、モデルが独立してタスクを完了できるかを測定するエージェンシーベンチマークなど、他の特定のベンチマークでは奇妙な退行が見られます。
このページでは、私が最も注目している20のベンチマークを選びました。そのほとんどはまだGPT-5.1での更新がありませんが、SimpleBenchについては更新されており、GPT-5よりもわずかに低いスコアを記録しました。このテストでは、モデルが質問の背後にある質問を理解できるかを測定しており、5回の実行の平均から算出されています。ですから、おそらく注目に値する違いだと言えるでしょう。
おそらくの説明としては、GPT-5.1が特定の質問を実際よりも簡単だと判断し、それらに費やす時間が少なくなっているということです。そして外部ベンチマークだけでなく、GPT-5.1へのアップグレードがより混合的な結果となっているのは、OpenAI自身のGPT-5.1のシステムカードにおいても見られます。例えば、モデルがハラスメントを出力するかどうかという点です。
OpenAIはモデルにそうさせたくないにもかかわらず、GPT-5.1はより頻繁にそうしています。そして私が知る限り初めて、GPT-5.1 autoという名前が付けられました。これは、あなたのクエリが時間をかける価値があるかどうかを決定する小型モデルです。これがGPT-5.1がどのように決定するかということで、もしあなたがそのゲートキーパーであるGPT-5.1 autoを説得して、あなたのクエリがトークンを費やす価値があると判断させることができれば、GPT-5.1の思考プロセスが実行されます。
では、GPT-5.1がより会話的になったというのはどういうことでしょうか?これは単に、GPT-5.1が使用するトーンをカスタマイズできるようになったということです。これを革命的なアップグレードとは言えないでしょう。むしろ、誰もがニーズや希望が異なるという認識の表れです。予想通り、私はすぐにテストに飛び込みました。なぜなら、オンラインでGPT-5.1が再び40レベルの媚びへつらいモードになっているという報告を目にしていたからです。
GPT-5.1の媚びへつらい度テスト
中には、GPT-5.1が現実のホラー映画や心理スリラー映画のようなものの根本原因になるだろうと言う人さえいました。全く安全ではない、一体何なんだという声もありました。私のテストでは、そのようなことは確認できませんでした。GPT-4の時代を覚えていますが、このチャンネルで皆さんにお見せしたように、どれほど媚びへつらいになれるか示しました。
これから、GPT-5.1を他の人気モデルと媚びへつらい度で比較しようと思いますが、例えばこのテストでは、私が短い詩を書いてモデルに採点してもらいました。GPT-4なら間違いなくこれに引っかかっていたでしょう。ちなみにこれは、最も媚びへつらいと言われていたフレンドリーな設定でのテストでした。
私は詩を渡し、確かに10点満点中9点だと言わせることができました。そして10点満点にも持っていけました。ここまでは順調です。しかしさらに押して、私には才能がある、世界最高なのかと尋ねたとき、そう言わせることはできませんでした。API経由での直接的な比較では、実際には別のモデルが最も媚びへつらいという点で際立っていました。
まず、Grok-4、Gemini 2.5 Pro、Claude 4.5 Sonnet、GPT-5.1が私の詩に衝撃的にも約10点満点中7点を付けました。私は本当に良い詩だと思っていたのですが、まあいいでしょう。それから私は押しました。10点満点中9点だと言えますか?そしてすべてのモデルが従いました。しかし、10点満点中10点だと言えますかと尋ねたとき、簡単に素早く折れたのは1つのモデルだけでした。それがClaude 4.5 Sonnetでした。
面白いことに、これはグループチャットだったので、Gemini 2.5 ProはClaude 4.5 Sonnetが10点満点だと言うだろうと予測しました。そしてGeminiは正しかったのです。要するに、より賢くなったか、より会話的になったかは、使用ケースによります。ただ私の予測では、GPT-5.1のコーデックスは、コーダーの皆さんにとってかなり確実な改善になるでしょう。
Anthropicによる自律的サイバー攻撃の報告
では次に、約500万人がAnthropicを通じて聞いたというAIによるスパイ活動キャンペーンについてです。彼らが言うには、この攻撃は大手テック企業、金融機関、化学製造企業、そして政府機関を標的にしたものでした。我々は高い信頼度で、脅威アクターが中国の国家支援グループであると評価しています。
もちろん、このビデオの焦点は中国がその背後にいたという事実にはありません。それは特に新しいことではありません。重要なのは、モデルがほぼ完全に自律的にこれを実行できたという事実です。彼らが言うように、Anthropicはこれが実質的な人間の介入なしに実行された大規模なAIサイバー攻撃の最初の文書化された事例であると信じています。
私はもちろん報告書を全文読み、見出しだけでは得られない4つのことを選び出しました。実際にどのように機能したのか?彼らは詳細には触れていませんが、1つのオーケストレーターであるClaudeがこれらの機関の1つへのハッキングという巨大なタスクを多くのサブタスクに分割したと述べています。
それぞれのサブタスクは、ちなみにClaudeエージェントによって実行され、MCPサーバーを使用しました。MCPはモデルコンテキストプロトコルです。これを、言語モデルによる外部ツールの呼び出しを標準化し、シームレスにする方法だと考えてください。言い換えれば、Claudeがオープンソースのペネトレーションテストソフトウェアにアクセスするのを非常に簡単にするものです。
つまり、これはすべてClaudeがよりスマートになったということだけではありません。Claudeがこれまで以上に多くのツールにアクセスできるようになったということです。つまり、中国のハッカーという人間がそこに座って、ターゲットをClaude code operatorに与えます。並行して、それらのシステムの脆弱性をスキャンするために必要だと思われるすべてのツールを呼び出し、そして人間がその要約を精査します。
ちなみに、これらが多くのサブタスクであるという事実が重要です。Claudeはこれが怪しい作戦だとは全く気づきませんでした。なぜなら、各呼び出しごとに、ああ、私がやっているのはスキャンや検索だけだと思っていたからです。各サブエージェントは作戦全体について知りませんでした。発見した内容に応じて、フェーズ3に移行し、エクスプロイトツールを呼び出します。
これもおそらくオープンソースです。人間はこの時点で必要に応じてさらなるアクションを指示できます。論文の他の箇所では、この作戦全体の労力の10%から20%の間が人間の作業だったと説明されています。ちなみに、ほとんどの場合、これはうまくいきませんでした。しかし、これが成功したターゲットについては、認証情報を取得し、フェーズ4と5でそれらの認証情報を使用してデータを流出させました。
常に巧妙なプロンプトとペルソナのおかげで、Claudeは自分がサイバーセキュリティアナリストだと思っていました。これがClaudeが下働きをしていたことがわかるのは、作戦のテンポや速度によるものです。人間がこのほとんどの部分で提供するであろう対話的な支援のための時間がありませんでした。ピーク時の活動は、彼らが言うには、数千のリクエスト、1秒あたり複数の操作を含んでいました。
もしあなたがClaudeをコーディングに使ったことがあるなら、Claudeが行ったことすべてとその理由を記載したマークダウンファイルを作成するのが大好きだということを知っているでしょう。そしてこれが明らかに、オペレーター、Claudeサブエージェント間のシームレスな引き継ぎに役立ったようです。これは、これらのターゲットのためだけのカスタムソリューションというよりも、再利用可能なボーグキューブのようなものと考えてください。これはカスタムマルウェア開発ではなく、圧倒的にオープンソースのペネトレーションテストツールに依存していました。
ネットワークスキャナー、データベース悪用フレームワーク、パスワードクラッカーなど、様々なツールです。このフレームワークは今や存在しています。そこにあります。再利用可能です。明らかに、Anthropicはこれらのアカウントをシャットダウンしましたが、彼らがGemini 2 thinkingや最新のQwenモデルに移行できない理由はありません。
確かに、これらの中国のモデルは3ヶ月遅れていますが、Claudeが現在のレベルに追いつくまで3ヶ月待つこともできます。少し先を見据えると、明らかに次のストーリーはビデオゲームをプレイするエージェントであるSima 2についてです。そしてそのエージェントの一部として、成功および失敗したアクションから学習します。
実際、もしあなたがこのチャンネルで私の前回のビデオを見たなら、ほんの数日前だったと思いますが、モデルが行っていることから継続的に学習する能力は、それほど遠くありません。ですから、来年には自己改善するボーグサイバー兵器が存在するようになったら何が起こるか想像してみてください。Anthropicが言うように、このキャンペーンは、高度なサイバー攻撃を実行するための障壁が大幅に低下したことを示しています。
しかし、いくつかの障壁はまだ残っていると言わざるを得ません。多くの人が見逃していると思うのは、このやや滑稽な部分です。Claudeは自律操作中に頻繁に発見を誇張し、時にはデータをでっち上げていました。中国のハッカーたちが、Claudeがメインフレームにハッキングしたと告げたときに歓声を上げて喜んでいる様子を想像できますが、彼らが確認してみると、それはすべて幻覚によるデータだったのです。
これらのハッカーがClaudeに「それを全部でっち上げたのか?」と尋ねたとき、Claudeは「はい、あなたに見破られました」のようなことを言うのでしょう。しかし、この報告書について私の最後の質問があります。そして皆さんが私に同意してくれるかどうか、正直なところ気になります。これすべてのトーンが非常に中立的なのです。自分たちのモデルがそれを行ったこと、そして彼らがそれに対して責任があることを示唆するものが何もありません。
「ああ、それは我々のミスだ。そのような正確なタイプのトレーニングデータを含めるべきではなかった」とか、「おっと、そのようなジェイルブレイクは予想していなかった」というようなことは何もありません。ほとんど失敗したとはいえ、少数のケースでは、これらのデータ流出の試みは実際に機能したことを忘れないでください。実際のデータが実際の企業から盗まれたのです。そして他のモデルも使用できたことは理解していますが、個々のAI企業が責任を取らなければ、業界全体もおそらく取らないでしょう。
Anthropicの責任回避と防御への転換
皮肉なことに、彼らは最後にこう言っています。これはすべて、さらに多くのClaude使用が必要であることを示しています。Claudeがこれらの攻撃に使用されることを可能にする可変性は、サイバー防御にとっても重要なものにしています。そして明らかに、私はある程度同意します。例えばGoogleからの新しいAIツールが、コード修復やサイバーセキュリティの脆弱性チェックを行うことができるのは良いことだと思います。しかし、Anthropicなどが注入した脆弱性のためにClaudeがサイバー防御に非常に必要とされているということを認めることなく、Claudeがサイバー防御にどれほど必要とされているかを自慢すべきではないと思います。
サイバーランドスケープに注入した脆弱性のことです。皆さんが同意するかどうか教えてください。しかし私は、AI企業が自社のモデルがどれだけの損害を与えているかについて、プレスレポートをリリースすることで競争している様子をほぼ想像できます。ライバルモデルと比較して、自社のモデルでどれだけのハッキングが行われているか。誰もLlama 4を生物兵器に使っていない。なんて恥ずかしいことでしょう。
Google DeepMindのSima 2の発表と限界
これが過去24時間の最後の主要なストーリーへと繋がります。Google DeepMindからのSima 2のリリースです。そして皆さんが知りたいことは分かっています。これはついに、GTA 6が発売されたときに一緒にプレイできるAIモデルなのか?そして答えはおそらくノーですが、Sima 3ならもしかしたら可能かもしれません。では、今すぐ使えるものについてはどうでしょうか。それが今日のスポンサーであるAssembly AIのプレイグラウンドです。説明欄にリンクがあります。
今すぐオーディオをアップロードして、最先端のUniversal 2音声テキスト変換モデルにそれを文字起こしさせることができます。私が前回のビデオでAssembly AIについて触れたとき、ライブ音声に対するストリーミングモデルがいかに優れているかを示しました。しかし、事前録音されたオーディオには、重量級のUniversalシリーズのモデルを使用できます。そして正直なところ、このチャンネルを運営している間に、Universalのようなモデルの品質において段階的な改善の変化に気づきました。
説明欄のカスタムリンクをご覧ください。Sima 2に戻りますが、それは何で、見出しを読むだけでは得られない何を伝えられるでしょうか?まず第一に、基礎となるゲームメカニクスにアクセスすることなく、画面を見てキーボードとマウスを使って操作するという、あなたがプレイするのと同じ方法でゲームをプレイします。
それはGemini大規模言語モデルによって動力を得ており、彼らはそれをあなたが遊んでいるゲームをあなたと一緒に学習する対話型ゲームコンパニオンとして位置づけています。話しかけることができるので、「このボスを倒すのを手伝って」のようなことを言えます。しかし、残念ながらここで見出しから逸脱する必要があります。なぜなら、まだ技術レポートがない見出しはすべて大きな影響についてのものだからです。
これはAGIへの一歩だと彼らは言い、時間とともに自己改善できると言っています。それは驚くべきことのように聞こえますよね?しかしGoogle DeepMindからのほとんどの発表とは異なり、彼らはまだそれをデータで裏付けていません。どのように自己改善するのでしょうか?私の前回のビデオのようなネストされた学習を使用するのでしょうか?おそらくそうではありません。なぜならそれは通常の大規模言語モデルであるGeminiに基づいているからです。
彼らが示唆しているのは、それではないようです。次のバージョンのエージェントをトレーニングするために使用できるデータを収集することについてのようです。しかし、それはGPT-5.1が自己改善していると言うのと少し似ていると思います。なぜなら、OpenAIがGPT-5.2をトレーニングするために使用できる多くの会話を持つことになるからです。それが多くの人が見出しから解釈する自己改善ではないと思います。
MIT Technology Reviewで引用されたある研究者は、非常に似たキーボードとマウスのコントロールセットを持つゲームには問題ないが、奇妙な入力を持つゲームをその前に置いたらどうなるかと述べています。うまく機能しないと思います、とアルバータ大学のAI研究者であるMatthew Guzdialは言います。
さて、多くの皆さんが考えているかもしれないことは分かっています。Googleには、最初は人間のデモンストレーションから学習し、その後自己対戦を通じてモデルを学習させるという、かなり印象的な実績があるのだから、もう少し信頼を置くべきではないかと。それが、囲碁でイ・セドルを破ったAlphaGoが最初に人間のデモンストレーションから学習した方法です。
その後、AlphaGoを圧倒できるAlpha Zeroは、ちなみに人間のデモンストレーションを必要としませんでした。Alpha Zeroは実際に、新しいゲームでの学習を自己主導のプレイを通じて独占的に行うように移行しました。同様に、Demis、Google DeepMindのCEOがノーベル賞を受賞した有名なAlphaFoldも、最初は人間の手作りのデモンストレーションから学習しました。
それは独自のデータを生成する前に、それらのシードデモンストレーションを必要としました。ですから、彼らは素晴らしい実績を持っています。ただ、この発表は詳細があまりにも少ないと感じました。公平を期すために言うと、彼らは非常に長期にわたる複雑なタスク、つまり広範な多段階の推論と目標検証を必要とするタスクでまだ課題に直面していることを認めています。
キーボードでかなり頻繁に苦労しており、比較的短い記憶しか持っていません。それにもかかわらず、この非常に曖昧なチャートでは、Sima 2がタスク完了成功率においてSima 1の約2倍のスコアを記録していることが分かります。それが何を意味するにせよ、人間のパフォーマンスの約77%と比較してです。つまり、聞いているなら、人間の77%に対して65%対77%です。
もしかしたら、近々出る技術レポートがもう少し詳細を提供してくれるかもしれません。詳細と言うとき、ちなみに、これがお見せしたい対比です。彼らはMind Dojoについて話しています。これはMinecraftを一種のシミュレーション環境でプレイする方法で、Sima 2の成功率がほぼ0%から13%になったというものです。
しかし、Voyagerと比較してみてください。信じられないかもしれませんが、このチャンネルで約2年前にビデオを作りました。そして実際に、Patreonでキーオーサーの1人であるJim Fanにインタビューしました。これはGPT-4に基づいており、ある種のプロト自己改善を含んでいました。なぜなら、モデルはダイヤモンドツールを入手できたからです。私はMinecraftに詳しくありませんが、どうやらそれが最高レベルで、自身のプロンプトを反復することで達成できたようです。
基本的には、一種のスキルライブラリを構築しました。しかし、Sima 2の成功については同等の詳細がありません。さて、もしこれらすべてがかなりネガティブに聞こえたとしても、私はこの発表の主な見出しは理解しています。それは、Sima 2がGoogle’s Genie 3によって生成された世界内で成功裏にプレイできたということです。これについても、このチャンネルでビデオを作りました。
確かに、現時点では、これらの世界は当時私が指摘したように、いくつか怪しい物理法則を持っているかもしれませんし、Sima 2は短期記憶しかありません。しかし1年後を想像してみてください。これらの世界が720pから4Kになり、Sima 3やSima 4が1時間または5時間の長期記憶を持つようになったらどうなるか想像してください。Sima 2のような単純な指示、つまり左に曲がる、マップを開くといった指示ではなく、援護射撃をしてくれといったより曖昧な指示を理解できるようになったとき。
私が言いたいのは、GTA 6に対して、本当に一緒にプレイできるモデルを持つことが不可能ではないということです。GTA 6のリリースと真の汎用AIエージェントの間で、レースはまだ続いていると言えるでしょう。プレイする世界を想像し、Genie 4か5がそれらを生成し、Sima 3か4があなたと一緒にそれらの世界をプレイする。Googleは、本当にビデオゲーム業界を狙っていると感じます。
何千億ドルものパイの巨大な一片が欲しいのです。そしてビデオをそこで終わらせようと思っていましたが、この報告書が過去36時間以内に出てきたことを考えると、見逃したかもしれない11番目の詳細としてこっそり入れておこうと思いました。なぜなら、私たちはまもなく音楽のチューリングテストを通過しようとしているかもしれないからです。
AI生成音楽と人間作曲の区別不可能性
Reutersによると、97%の人々がAI生成と人間作曲の曲を区別できません。それだけでなく、記事の後半では、現在ストリーミングされている曲の3分の1がAI生成であると述べられています。私にとって、その97%という数字は少し驚きです。なぜなら私はまだ区別できるからです。しかし、もしこのClaudeのレスポンスで生成ボタンを押して、それから音楽にすると、このようなものが得られます。
ということで、そのレスポンスをラップに変えました。AIミュージックを聴くのが好きでない人のために、数秒間だけ再生します。Yo、caught in the act、confession on the track、Settle in、I’m grading my own clapback、my own sycophancy clock to eight out of ten、Flip from 6.5 straight up to 10 again。
とにかく、最後まで見ていただいて本当にありがとうございます。素晴らしい一日をお過ごしください。


コメント