Anthropicの新型Claude MYTHOSは史上最強のAIなのか

AnthropicがClaude Mythosという新たな最上位モデルを誤って公開した事件が発生した。現行のOpusを超えるCapibaraクラスとして開発されており、特にサイバーセキュリティ能力において他のAIモデルを大きく上回る性能を持つとされる。一方、Metaは人間の脳が映像や音声にどう反応するかを予測するTribe V2を発表し、fMRIデータを活用した高精度な脳活動予測を実現している。さらに、実行力に特化した自己進化型エージェントGwen Clawと、AI推論に最適化されたAlibabaの新チップSchwanti C950の登場により、AI技術は多様な方向へと進化を遂げている。

Anthropic’s New Claude MYTHOS Is The Most Powerful AI Ever!

Anthropic accidentally exposed Claude MYTHOS, its most powerful AI yet, Meta unveiled a model that predicts brain activi...

Anthropicが誤って公開した最強モデルClaude Mythos
サイバーセキュリティリスクと段階的リリース戦略
Metaの脳反応予測AI「Tribe V2」
実行力に特化した自己進化型エージェント「Gwen Claw」
Alibabaの AI エージェント専用チップ「Schwanti C950」

Anthropicが誤って公開した最強モデルClaude Mythos

まずAnthropicの話から始めましょう。というのも、このストーリーはかなり大きなものだからです。実はこれ、まだ公開されるはずではなかったんです。何が起きたかというと、かなり典型的な内部ミスでした。新しいモデルに関する完全なブログ投稿のようなドラフトコンテンツが、誤って公開アクセス可能なデータキャッシュに残されていたんです。

そして、これは1つや2つのファイルの話ではありません。そこには約3,000もの資産が置かれていて、画像やPDF、内部文書、さらには従業員関連のファイルまで含まれていました。全てがコンテンツシステムに紐付いていたんです。ジャーナリストやセキュリティ研究者がこれを発見すると、Anthropicに通知が入り、かなり迅速にシャットダウンされました。AnthropicもこれがCMS設定におけるヒューマンエラーによるものだったと認めています。

しかし重要なのは、それらの文書の中に何があったかということです。このリークによって、Claude Mythosという新しいモデルが明らかになりました。内部的にはCapibaraとも呼ばれており、これは基本的に新しいモデル階層を意味します。これが興味深いのは、現在AnthropicにはHaiku、Sonnet、Opusという3つの主要な階層があるからです。

Opusは彼らが現在提供している最も強力なモデルです。Capibaraはその上に位置するものとして説明されています。つまり、現在のトップ階層を超える新しいクラスのモデルを見ていることになり、より大規模で、より高性能で、そして実行コストもより高いということです。ドラフトによれば、このモデルはすでにトレーニングが完了しており、現在早期アクセス顧客とテストを行っているとのことです。

Anthropic自身も、推論、コーディング、サイバーセキュリティにおいて大幅な改善を持つ新しい汎用モデルに取り組んでいることを認めています。彼らはこれを性能における段階的変化と呼んでおり、これまでに構築した中で最も高性能なシステムだと述べています。そして、リリース方法については非常に慎重になっています。

これは一般公開に直行するわけではありません。少数の早期ユーザー、主に組織に限定されています。そしてそれには理由があります。文書からは、サイバーセキュリティが主要な懸念事項であることが非常に明確です。文字通り、このモデルはサイバー能力において現在他のどのAIモデルよりもはるかに先を行っていると記載されており、それが現実世界で何を意味するのかについて懸念しているのです。

サイバーセキュリティリスクと段階的リリース戦略

懸念内容はかなり直接的です。このようなモデルは、防御側がパッチを当てられるよりも速く脆弱性を見つけて悪用するために使用される可能性があります。そのため、広くリリースする代わりに、サイバーセキュリティチームに早期アクセスを提供して、来るべきものに備えられるようにしているのです。そしてこれは理論的な話ではありません。Anthropicはすでに、自社のモデルが実際の攻撃に使用されたケースを経験しています。

中国の国家関連グループがClaude Codeを使用して、テクノロジー企業、金融機関、政府機関を含む約30の組織を標的にした事例がありました。Anthropicはこれを検出し、約10日間にわたって調査を行い、アカウントを禁止し、影響を受けた組織に通知しました。ですから、この新しいモデルがサイバー攻撃を加速させる可能性があると言うとき、彼らは経験に基づいて話しているのです。

リークから得られたもう1つの詳細は、このモデルの実行コストが高く、まだ一般リリースの準備ができていないということです。これは業界全体で見られていることと一致しています。これらのトップ階層モデルはより強力になっていますが、同時に計算能力とコストの面でもより重くなっています。同時に、Anthropicは明らかにエンタープライズ分野により深く進出しています。

リークではまた、ヨーロッパ、特にイギリスで開催される非公開の招待制CEOリトリートの計画も明らかになりました。そこではトップビジネスリーダーが未公開のClaude機能に早期にアクセスできます。これは、企業がどのようにAIを採用しているかについての高レベルな議論として位置付けられており、政策立案者も関与します。つまり、より強力なモデル、より高いリスク、そして大規模組織を対象とした非常に管理されたロールアウトの組み合わせがあるわけです。

Metaの脳反応予測AI「Tribe V2」

さて、そこから次はMetaの話に移りましょう。彼らのFAIRチームが、Tribe V2というものを発表しました。これは最初聞くと少し技術的に聞こえるプロジェクトの1つです。しかし、核となるアイデアは実際には理解しやすいものです。彼らは、人が何かを見たり、聞いたり、読んだりするときに人間の脳がどのように反応するかを予測できるAIシステムを構築しようとしています。それが全体のアイデアです。

何年もの間、神経科学は主に脳を断片的に研究してきました。あるグループは視覚を研究し、別のグループは音声を、また別のグループは顔、動き、感情などを研究しています。それは多くの有用な発見につながりましたが、同時に全体像がかなり分断されているということも意味します。MetaがTribe V2で試みているのは、ビデオ、オーディオ、言語を一緒に見て、それをfMRIスキャンで測定された実際の脳活動と結びつける1つのシステムを構築することです。

そして、Metaはこれを通常の方法でゼロから訓練したわけではありません。代わりに、既存の最強のAI構成要素のいくつかを組み合わせました。テキストにはLLaMA 3.2 3Bを使用し、ビデオにはV-JEPA 2 Giantを、オーディオにはWav2Vec 2.0を使用しました。そして、それら全てを共有システムに統合し、トランスフォーマーを使って約100秒間の入ってくる情報を一度に見るようにしました。

専門用語を取り除けば、これが本当に意味するのは、モデルが一定の時間枠で視聴し、聴き、読み、その同じ時間枠の間に脳が何をすべきかを予測しようとするということです。そしてここでのスケールは本格的です。このシステムは、映画、ポッドキャスト、無音ビデオを含む4つの自然主義的研究全体で25人から収集された451.6時間のfMRIデータで訓練されました。

その後、720人から合計1,117.7時間というはるかに広いプールで評価されました。これはかなり大量の脳データです。モデルは20,484の皮質ポイントと8,182の皮質下ボクセルにわたって活動を予測します。つまり、これは大まかな脳領域が光った推定ではありません。かなり高い詳細度で脳の反応をモデル化しようとしているのです。そして結果は、これが単なるクールな実験以上のものになるほど強力でした。

MetaはTribe V2が、研究者が長年標準的なアプローチとして使用してきた古い方法を明らかに上回ると述べています。最も驚くべき部分の1つは、これまで見たことのない新しい人々をどれだけうまく扱えるかということです。通常、このようなモデルを新しい被験者で機能させたい場合、大量の新しいデータが必要になると予想されます。しかしTribe V2はゼロショット予測を行うことができ、つまり追加のトレーニングなしで新しい人々の脳反応を推定できるのです。

そして場合によっては、それらの予測は実際に多くの実際の個別記録よりも平均的なグループ反応をよりよく捉えています。これは考えてみるとかなりクレイジーです。ヒューマン・コネクトーム・プロジェクトの7Tデータセットでは、モデルは0.4近くのグループ相関に達し、論文ではこれを被験者の中央値のグループ予測性の約2倍良いと説明しています。

そして研究者が新しい参加者から少量のデータ、最大1時間を与えて、1エポックだけモデルを微調整したところ、さらに改善し、線形モデルを2倍から4倍上回りました。そして、これをさらに大きく感じさせる部分があります。Metaは、このモデルがインシリコ神経科学に使用できると述べており、これは基本的に実世界の実験の前または並行して、コンピューター上で仮想的な脳実験を実行することを意味します。

個別脳チャーティングデータセットでテストしたとき、Tribe V2は顔に対する紡錘状顔領域、場所に対する海馬傍場所領域、感情処理に対する側頭頭頂接合部、構文と言語に対するブローカ野などの古典的な脳のランドマークを回復することができました。さらに興味深いことに、研究者がモデルの最終層の内部を見たとき、それは自然に5つの主要な脳ネットワーク、つまり聴覚、言語、運動、デフォルトモード、視覚を中心に自己組織化していました。

実行力に特化した自己進化型エージェント「Gwen Claw」

さて、そこから次はGwen Clawに移りましょう。ここでの主な売り文句はこうです。多くのAIエージェントはチャットでは賢く聞こえます。しかし、実際のタスクを最初から最後まで実行するよう頼むと、追跡を失ったり、再起動したり、あなたが望んでいたことを忘れたり、状況が変わった瞬間に失敗したりします。

Gwen Clawはまさにそれを解決しようとしています。このプロジェクトはOpen Gwenコミュニティから生まれ、最も会話的なエージェントというタイトルを追いかける代わりに、実行に焦点を当てています。システは実際に仕事を完了できるのか。たとえばExcelの作業をしていて、途中でフォーマットを変更し、次に重複を削除するよう頼み、次に要約を追加し、そして再度出力を切り替えたとします。

多くのエージェントは、すべての変更を全く新しいリクエストのように扱います。Gwen Clawは、これらの変更が起こっている間もタスク全体を生かし続けるように構築されています。一時停止、並べ替え、挿入、削除、継続ができ、すべてがリセットされたかのように振る舞うことはありません。その大部分は、3つの層を持つメモリシステムから来ています。

安定したアイデンティティ層、長期バックグラウンド層、動的軌跡層です。基本的に、より広いコンテキスト、作業履歴、ライブタスク状態の全てを一度に保持しようとします。そして、コンテキストスリミングと呼ばれるものを追加していますが、これは本当にただ、重要な詳細を保持しながらジャンクを削減する賢い方法です。これにより、システムは自身のコンテキストに溺れたり、膨大なトークンコストを実行したりすることなく、長いタスクにわたって安定を保つことができます。

もう1つの賢い動きは、クリーンで隔離されたブラウザデモの世界に依存していないことです。多くのエージェントは制御された環境ではうまく機能しますが、ログイン、Cookie、キャッシュ状態、アンチボットシステムを持つ実際のWebサイトに遭遇した瞬間に崩れます。Gwen Clawは代わりにローカルブラウザ環境を引き継ぐため、実際のログイン状態、Cookie、キャッシュ情報を使用して、実際のシステム内で実際のユーザーのように動作できます。

そして、最も際立たせる部分があります。それは進化するように作られているということです。今日のほとんどのエージェントは基本的に固定されています。失敗するとエラーが出て、先に進みます。修正すると一度は直るかもしれませんが、時間の経過とともに真に改善することはありません。Gwen Clawは自己進化ループを追加しており、失敗とネガティブなユーザーフィードバックが記録され、根本原因が分析され、ターゲットを絞った改善に変換されます。

したがって、サイクルは実行、失敗、学習、最適化、そして再試行となります。これは、エージェントがローンチした日に凍結されたままでいる代わりに、繰り返しの実際の使用を通じて改善されるべきことを意味します。また、Huawei、Celia、Telegram、WhatsApp、FeiShu、Webアクセスなど、人々がすでに使用している場所にも接続します。

そして、プライバシーとデータ制御を気にする企業向けのプライベート展開もサポートしています。

Alibabaの AI エージェント専用チップ「Schwanti C950」

そして最後にAlibabaに移りましょう。この最後のものは、エージェント競争のハードウェア側についてです。AlibabaはSchwanti C950という新しいCPUを公開しました。そしてここでの重要なポイントは、これがエージェントAIを特に念頭に置いて設計されたということです。

ほとんどの人は、大規模AIモデルのトレーニングにとってどれほど重要かという理由でGPUに焦点を当てていますが、AlibabaはCPUも非常に重要だという考えに傾いています。特に推論、つまりモデルが実際に実行されてタスクを実行している部分においてです。これが重要なのは、エージェントは1つの答えを吐き出して停止するだけではないからです。

彼らはしばしば複数ステップのアクションを通じて作業し、CPUはその種の逐次処理に自然に重要です。AlibabaはSchwanti C950がデータセンター向けに構築されており、エージェントが依存する種類の複数ステップのワークロードを処理できると述べています。同社はまた、このチップが特定の推論パターン向けにカスタマイズでき、その柔軟性のために一部の主流製品と比較して30%以上の性能向上を主張しています。

チップはRISC-Vベースであり、これも重要です。RISC-Vは、企業が設計図を使用するためにロイヤリティを支払うARMの設計モデルとは異なり、オープンアーキテクチャです。そのため、RISC-Vを選択することで、Alibabaはより多くの自由度と潜在的により低いコストを得ることができます。このローンチはまた、はるかに大きなストーリーにも適合します。中国企業は、高度なNvidiaチップに対する米国の輸出規制のために圧力を受けてきました。

そのため、彼らは国内AI ハードウェアをより強力に推進する必要がありました。Alibabaはすでに平頭哥部門を通じて半導体の取り組みを構築しており、今年初めにはXuantie 910Eという別のAIチップもリリースしました。同社はこれらのチップを他の企業に直接販売していません。代わりに、自社のクラウドAIサービスを強化するために使用しています。

記事で引用されたアナリストは、C950のより大きな価値は、一夜にしてAlibabaの収益を突然変革するということではなく、サプライチェーンのレジリエンスを向上させ、コストを削減し、AIコンピューティングパワーの確保がより困難になっている世界で同社により多くのコントロールを与えることができるということだと述べました。とにかく、今回は以上です。どう思うか教えてください。

視聴ありがとうございました。次回またお会いしましょう。