Claude 4.7を解説:100万トークンのコンテキストウィンドウ、87%のベンチマーク、そしてAIエージェント

Anthropic・Claude・ダリオアモデイ
この記事は約11分で読めます。

Anthropicの大規模リークを手がかりに、Claude 4世代の最終進化形と見られるClaude 4.7・4.8、さらに未公開の上位モデルMythosの実像を読み解く内容である。特に、自律的に動作するChyrosと、長時間セッションで記憶を整理するAutodreamの存在は、Claudeが単なるチャットボットから常時稼働する共同作業者へ移行しつつあることを示している。また、Mythosが極めて高いサイバー能力を持つがゆえに一般公開を見送られている点は、AI開発競争が性能だけでなく安全保障の段階に入ったことを象徴している。

Claude 4.7 Explained: 1M Context Window, 87% Benchmarks & AI Agents
Link to our newsletter: biggest AI leak of 2026 just happened… and it changes everything.Over 500,000+ lines of Anthropi...

Claudeリークが示す重大な転換点

いまClaudeを使っていて、自分は最先端にいると思っているなら、ぜひ注目してください。

Anthropicのソースコード50万行以上が、一般公開状態で流出しました。そしてそのコードの奥深くには、未公開モデル、秘密のコードネーム、さらにはAnthropicがどうやら危険すぎると判断して公開をためらっている、まったく新しいAIティアまで埋もれていたのです。

この数日、私はそのすべての行を徹底的に洗いました。そして見つかったものは、Claudeがこれからどこへ向かうのかについて、私たちがこれまで知っていたと思っていたことを根底から変える内容でした。

bitbiased.aiへようこそ。ここでは、皆さんが自分で調べなくても済むように、私たちがAIの調査を行っています。AI好きのコミュニティに参加したい方は、無料の週刊ニュースレターにぜひ登録してください。概要欄のリンクから購読できます。

最新のAIニュース、ツール、学習リソースを受け取って、一歩先を行けるようになります。

この動画では、Claude 4.7と4.8に関するリークで何が明らかになったのか、この謎めいたMythosモデルの正体は何なのか、なぜAnthropicがそれを一般公開から引っ込めているのか、そしてChyrosとAutodreamという2つの隠されたシステムが、Claudeを単なるチャットボットから常勤の自律型同僚へどう変えようとしているのかを、正確に分解していきます。

AIで先を行きたいなら、この動画は見逃せません。

リークの発端

まず、そもそも私たちがどうやってこれらを知ったのかから始めましょう。

3月31日、Claude Codeに取り組んでいたある開発者が、デバッグ用ファイルを誤って公開npmリポジトリに出荷してしまいました。これは設定ファイルが数個漏れた、みたいな話ではありません。

漏れたのは、Claude Codeの実際のソースコード50万2000行超に加え、社内ブログの草案、モデル公開チェックリスト、そして本来世に出るはずのなかった移行ファイルまで含まれていました。

Anthropicはその後、このリークが本物だと認めています。何ひとつ否定していません。

そしてこれが極めて重要なのは、そのコードの中に、まだ一般公開されていないモデルのバージョン文字列やコードネームが埋まっていたからです。

具体的には、Opus 4.7とSonnet 4.8が確認されています。これらは、Claude 5へ移行する前の、Claude 4世代全体の最終章に見えます。

ただ、本当に面白いのはここからです。このリークは単なる小幅アップデートを示しただけではありません。誰も予想していなかった、まったく新しいモデルティアそのものを暴き出したのです。

Claude 4.7と4.8で分かっていること

では、Opus 4.7とSonnet 4.8が実際には何なのかを見ていきましょう。

流出した移行ファイルによると、Anthropicは各モデルファミリーに社内コードネームを付けています。OpusはFenck、SonnetはCapra、そしてHaikuはTanguです。

さらに、Numbatという新しいコードネームもモデル公開チェックリスト内に現れますが、既存モデルのどれにも対応していません。

つまり、単なるバージョン更新以上の何か新しいものが、水面下で進んでいることになります。

この今後のモデルを正しく理解するには、まず現行フラッグシップがすでに何をできるのかを押さえる必要があります。

2026年2月に登場したClaude Opus 4.6は、すでにAnthropicのASL3安全基準のもとで動作しています。これは、これまで本番運用モデルに与えた中で最も高い安全分類です。

このモデルは、複雑で多段階のタスクに対して30時間以上集中を維持できます。さらにSWE-bench Verifiedでは80%以上を記録しており、いま本番投入できる機能を出荷するうえで、最も信頼できるAIコーディングアシスタントだとさえ言える状態です。

では、4.6がそこまで到達しているなら、4.7は存在意義を示すために何をしなければならないのか。

今回のリークから見えてきた答えは、単にコーディングが少しうまくなることではありません。

それは、モデルが裏側でどう動作するかという点での根本的な転換です。これについては、少し後でChyrosとAutodreamのところで詳しく触れます。

その前に、時期の話をしましょう。Polymarketでは現在、Claude 4.7が2026年6月30日より前に出る確率は59%とされています。

これは、Anthropicが2月まで維持していた高速な2段階反復サイクルとも一致しています。

ですので、公開は数か月先ではなく、数週間以内という可能性もあります。

Claude MythosとCapiaraティア

さて、ここからが本当に意表を突かれた部分です。

このリークは、単なるバージョンアップだけでなく、Capiaraというティアのもとで動作する、Mythosというまったく新しいモデルクラスの存在まで明らかにしました。

これがなぜ大きな話なのかを理解するには、Anthropicのラインアップがこれまで常に3層構造だったことを知っておく必要があります。

Haikuは速度重視、Sonnetはバランス型、Opusは最大知能。この構造はClaude 3以来ずっと維持されてきました。

ところがCapiaraは、その型を完全に破っています。

これはOpusのさらに上に位置する超上位ティアで、これまでなら計算資源を食いすぎる、あるいは率直に言って危険すぎると考えられていたタスク向けに設計されています。

しかも、流出したベンチマークがそれを裏付けています。

Opus 4.6がSWE-bench Verifiedで80.8%なのに対し、流出したMythosの数値は87.4%です。Terminal Bench 2.0では65.4%から78.4%へ跳ね上がっています。

博士課程レベルの推論を測るGPQA Diamondでも、中盤80%台に達しているとされます。さらにコンテキストウィンドウは、ネイティブで丸ごと100万トークンです。

Anthropicは、このモデルの存在自体は実際に認めています。

同社はこれを、段階的改善ではなく質的飛躍であり、これまでで最も高性能なモデルだと説明しています。

ですが、ここに条件があります。一般公開は拒んでいるのです。

理由は、サイバーセキュリティです。

Anthropicの社内評価では、Mythosは、ここでは言葉を少し言い換えますが、サイバー能力において現時点で他のあらゆるAIモデルを大きく引き離しているようです。

このモデルは、本番コードベース内の脆弱性を、人間のセキュリティチームが修正を当てるより速く見つけて悪用できるのです。

そのため現時点では、サイバー防御に特化した一部の早期アクセス顧客にしか提供されていません。

狙いは、この種の能力が一般化する前に、防御側が自分たちのシステムを強化できるようにすることです。

これは、大手AI研究所としてはこれまでほとんど見たことのないレベルの自制です。

そしてそれは、このモデルが実際にどれほど強力なのかを物語っています。

Chyrosという常時稼働エージェント

では次に、あらゆる開発者のClaudeとの関わり方を静かに変えようとしている、2つのシステムに入りましょう。

1つ目はChyrosと呼ばれています。

Chyrosは、古代ギリシャ語で「正しい瞬間」を意味する言葉に由来しており、流出したソースコードの中で150回以上登場します。

そこではこれが、自律的なデーモンモードとして説明されています。

実際にはどういうことかというと、Claudeが、あなたが都度プロンプトを投げる道具ではなく、自分で動くバックグラウンドエージェントへ変わるということです。

仕組みはこうです。

Chyrosは、コード内でheartbeat systemと呼ばれている仕組みの上で動きます。モデルには定期的なtickプロンプトが送られ、あなたとのやり取りの合間も生きた状態を維持します。

つまり、あなたがコーヒーを取りに行っているあいだ、Claudeはただ待っているのではありません。バックグラウンドで能動的に作業し、テストを回し、コードをコミットし、問題の監視までしているのです。

ただ、本当に賢いのはここです。

このシステムは、あなたが見ているかどうかに応じて動作を変えます。

ターミナルが非アクティブ、つまりブラウザに切り替えたとか、席を離れた状態だと、Chyrosは完全自律モードへと傾きます。判断を下し、コミットをpushし、テストスイートを実行します。

けれど、あなたが再びターミナルにフォーカスを戻した瞬間、協調モードへ切り替わり、行動する前に承認を求めるようになります。

しかも、ただ黙って動くだけではありません。

流出コードにはpush notification toolやsubscribe PR toolのようなツールも見つかっており、これは、何か重要な作業が完了したときや、プルリクエストに注意が必要なときに、エージェントがあなたへ通知を飛ばせることを意味します。

これは、単なるアシスタントというより、あなたが会議に出ている間にも実際に仕事を進めてくれるジュニア開発者に近い存在だと考えたほうがいいでしょう。

Autodreamがコンテキスト問題を解く

2つ目のシステムはAutodreamです。

そしてこれが解決しようとしているのは、いまのエージェント型AIにおける最大級の頭痛の種、コンテキスト・エントロピーかもしれません。

長時間のセッションでAIコーディングアシスタントを使ったことがあるなら、何のことかすぐ分かるはずです。

会話が長くなればなるほど、モデルは混乱し始めます。幻覚を起こし、自分で自分に矛盾し、20メッセージ前に自分で下した判断を忘れてしまうのです。

それがコンテキスト・エントロピーであり、多くの開発者が数時間ごとにセッションをやり直す理由でもあります。

Autodreamは、リークされたコードの説明によれば、アイドル時間中にmemory consolidationを走らせることで、これを修正します。

あなたが席を離れている間、エージェントはただ待機しているわけではありません。自分自身のコンテキストを見直し、重複する観察を統合し、論理的矛盾を取り除き、曖昧な作業仮説を、コードが文字通りabsolute factsと呼ぶものへと、セッションインデックス内で変換していくのです。

その結果、あなたがデスクに戻ってきたときには、モデルの内部的なプロジェクト理解は、きれいに整理され、一貫していて、最新の状態になっています。

セッション序盤の失敗した試行や、途中で捨てたアプローチによる汚染が残らないのです。

これは本質的に、自己修復型の記憶システムです。そしてChyrosと組み合わさることで、エージェントは、長く走らせるほど劣化するのではなく、むしろ賢く、信頼できる存在になっていきます。

2026年におけるClaudeの立ち位置

もちろん、これらは真空の中で起きている話ではありません。

Claude 4.6は、OpenAIのGPT-5.4とGoogleのGemini 3.1と競争しています。そして、それぞれが独自の持ち場を築いています。

SWE-bench Verifiedでは、スコアは驚くほど接近しています。

Claude Opus 4.6が80.8%で先行し、GPT-5.4 Highが80.0%、Gemini 3.1 Proも80.6%とほぼ並んでいます。

ですが、本当の差別化要因はベンチマークの数字ではありません。

実際の製品を作っている開発者たちが、現場で何を報告しているかにあります。

Claudeは一貫して、UI作業とアーキテクチャ設計に最も信頼できるモデルだと挙げられています。

開発者たちは、その美的理解について語ります。つまり、単に動くコードを書くだけでなく、視覚的な階層やデザイン意図まで理解する能力です。

一方でGPT-5.4は、ターミナル中心の環境、DevOps、そして純粋な速度で優位です。

Geminiの強みは価格対性能比にあります。特に、ネイティブで100万トークンのコンテキストウィンドウを持つ点が大きいです。

そして、まさにこの理由から、2026年の大きなトレンドは、1つのモデルを選ぶことではなくなっています。

開発者たちはこれをintelligence orchestrationと呼んでいます。

Claude Codeのようなツールは、すでにタスクの異なる部分を自動的に別のモデルティアへ振り分けています。

Opusが計画とアーキテクチャを担当し、Sonnetがコードを生成し、Haikuが軽量なサブエージェント作業をこなすのです。

もう、1つのモデルを選ぶ時代ではありません。あなたはオーケストラの指揮者になっているのです。

これがあなたに意味すること

では、いまこの動画を見ている人にとって、これらすべては実際に何を意味するのでしょうか。

いくつかあります。

まず、開発者であれば、ChyrosとAutodreamは、今後あらゆるAIコーディングツールが向かう先の予告編です。

あなたが離席している間も自律的に作業し、長時間セッションでもクリーンなコンテキストを維持するエージェントという考え方は、もはやSFではありません。すでにコードの中に書かれているのです。

これからは、単にプロンプトを書くのではなく、委任するという観点で自分のワークフローを考え始めてください。

次に、ビジネス上の意思決定を担う立場にいるなら、Mythosの件は警鐘だと受け取るべきです。

AI研究所が、自分たちのモデルは脆弱性発見能力が高すぎるからといって自主的に利用制限をかけるなら、それは、あなたのサイバーセキュリティ体制が今すぐ進化しなければならないというシグナルです。こうした能力が一般化したあとでは遅いのです。

そして3つ目として、単一モデルへの依存から、intelligence orchestrationへの移行は急速に進んでいます。

もしまだ、どのAIツールが一番優れているのかという問いで評価しているなら、すでに質問そのものが間違っています。

本当に問うべきなのは、適切なモデルを、適切なタスクに、適切なタイミングで使うシステムをどう構築するか、ということです。

総括

これは、AI分野でこれまでに見てきた中でも、最も重要なリークの1つです。

しかもAnthropicがその内容を否定していないという事実が、これから物事がどこへ向かうのかを、ほとんどすべて語っています。

この解説が役に立ったなら、ぜひコメントで、何に一番わくわくしたか教えてください。Chyrosなのか、Mythosなのか、それともintelligence orchestrationという流れなのか。私はコメントをすべて読んでいます。

こうしたAIの進展を先回りして追いたいなら、チャンネル登録もお願いします。

それでは、次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました