Claude Opus 4.6 史上最強のAIコーディングモデル誕生 100万トークン対応でエージェント機能も大幅強化

Anthropic・Claude・ダリオアモデイ
この記事は約12分で読めます。

AnthropicがClaude Opus 4.6をリリースし、AIコーディングの新たな基準を打ち立てた。100万トークンという圧倒的なコンテキストウィンドウを備え、より慎重な計画立案、長時間のエージェント的タスク遂行、大規模コードベースでの信頼性向上、そして自己修正能力を実現している。コーディングに留まらず、財務分析や文書作成など日常的なナレッジワークへの対応も強化され、ARC AGI 2で68.8%を記録するなど複数のベンチマークで最先端の性能を示している。Claude Codeにはエージェントチーム機能が追加され、複数のAIエージェントが並行して複雑なタスクに取り組む「エージェントスウォーム」が可能になった。価格は前モデルと同等だが、100万トークンの完全利用にはプレミアム料金が必要となる。実際の生成例では、Minecraftクローンやポケモン風ゲーム、太陽系シミュレーションなど、複雑なアプリケーションのワンショット生成に成功しており、フロントエンドコード生成やデバッグ能力も大幅に向上している。

Claude Opus 4.6: Greatest AI Coding Model Ever! 1M Context, Agentic, & More!
Anthropic just dropped Claude Opus 4.6 — their smartest AI yet! In this video, we dive into everything that makes it inc...

Claude Opus 4.6の登場

どうやらAnthropicはSonnet 5の前に、もう一つのモデルを私たちに提供してくれたようですね。何があったのかは分かりませんが、正直言って文句はありません。なぜならAnthropicが正式にClaude Opus 4.6をリリースしたからです。これは彼らの最も賢いモデルとなります。

このアップグレードされたOpusモデルは、より慎重に計画を立て、エージェント的なタスクをより長く持続させ、大規模なコードベースでより信頼性高く動作し、さらには自分自身のミスをキャッチすることもできるんです。

しかし最大の新機能は100万トークンのコンテキストウィンドウで、これは本当に驚異的です。Opus 4.6を本当に特別なものにしているのは、もはやコードだけのためのものではないということなんですよ。Anthropicは明らかにこのモデルを日常的なナレッジワークにも位置づけています。財務分析、リサーチ、モデリング、そしてドキュメント、スプレッドシート、プレゼンテーションの作成や作業といったことですね。

ベンチマーク性能での圧倒的優位性

ベンチマークの面では、Opus 4.6はエージェント的なコーディングを含むいくつかの評価において、まさに最先端の性能を示しています。大幅に改善されているんです。マルチディシプリン推論、ナレッジワーク、エージェント的な検索において優れています。

また、ARC AGI 2では新たな最先端スコアとなる68.8%を記録しており、これはかなり大きな成果です。正直なところ、それを実感できますよ。なぜならOpus 4.6は推論において明らかに優れているからです。

ベンチマークに関して言えば、このモデルは現在、エージェント的コーディングのためのTerminal Bench 2.0でナンバーワンにランクされています。また、複雑なマルチディシプリン推論のためのHumanity’s Last Examでもトップを誇っています。

GDP Evolveにおいても、GPT-4o2やGemini 3 Proなどと比較してかなり良好なパフォーマンスを示しています。そしてELOスコアではGPT-4o2を144ポイント上回っており、これは非常に印象的です。

最高のパフォーマンスを見せているのは間違いなくエージェント的な検索の分野で、Browser Compにおいて見つけにくい情報を探し出す能力で最高のパフォーマンスを記録しています。

Excel・PowerPointでの実用的な進化

ここからがOpus 4.6で実に興味深い点なんです。ExcelでのClaudeはさらに優れたパフォーマンスを発揮するようになりました。より大きなコンテキストと新しいエージェント機能により、長時間実行される難しいタスクをはるかに優れたパフォーマンスで処理できるからです。

実行前に計画を立て、条件付き書式やデータ検証といったより豊富な機能をサポートし、複数ステップの変更を一度に処理することさえできるんです。

PowerPointでのClaudeも同様の状況です。Anthropicがエージェント的な非コーディングワークフローにも大きく舵を切っていることが明確に分かりますね。

さらに、Claude Codeがエージェントチームの導入により大規模なアップデートを受けました。これは正直かなり印象的です。なぜなら、基本的にエージェントスウォームを展開できるようになったからです。複数のエージェントが並行して作業し、協調して複雑なタスクに取り組むことができるんです。

価格設定と利用可能性

価格設定に戻りますと、Opus 4.6はOpus 4.5と同じ価格で設定されています。100万入力トークンあたり5ドル、100万出力トークンあたり25ドルです。かなり高価ではありますが、このモデルから最高の出力を得ることができます。

モデルの知識カットオフは2025年5月となっています。重要な注意点として触れておきたいのは、100万トークンのコンテキストウィンドウは現在ベータ版であり、20万トークンを超える分についてはプレミアム価格が設定されているということです。つまり、まだ誰もが完全に使えるわけではないんですね。

実際の使用シーンと推奨用途

このモデルについての私の正直な感想は、もしあなたの仕事が本格的なコーディング、エージェント、深いリサーチ、ハイステークスなナレッジタスク、または実装プランの作業を含むものであれば、これがあなたが使いたいモデルだということです。

かなり高価ではありますが、軽いタスクやよりカジュアルな使用にはSonnetを使うこともできます。これら2つのモデルを組み合わせて使えば、最高の出力を得られるはずです。

しかし、本当の自律的な作業、あるいは一部の人々が「バイブワーキング」と呼んでいるものに向かって進んでいるのであれば、高品質で低監督のAI出力を求めるならOpus 4.6を使いたいところですね。

Claudeサブスクライバーのために触れておきたいクールなことがあります。50ドルの無料クレジットを請求できるんです。これはClaude Opus 4.6をテストするためのもので、使用設定の中にあります。そこで簡単にクレームボタンをクリックすれば、このクレジットを入手できます。

アクセス方法とテスト環境

このモデルを試してみたい場合、現在Claude AIチャットボット内では利用できません。Opus 4.6にアクセスするには実際にアップグレードする必要があります。しかしAPIを使いたい場合は可能です。

このモデルに無料でアクセスしたい場合は、Arenaにリブランドされた旧Alamarinaを使用できます。そこでOpus 4.6のthinkingモードを選択すれば、基本的にこのモデルをテストするために何でも生成することができます。

またOpen RouterやKilo Codeのようなプロバイダーを通じて別のAPIに完全無料でアクセスすることもできます。KiloからAPIとしてこのモデルにアクセスするための25ドルのクレジットを使えます。

AIでより速く構築したい場合は、私の正確なツール、ワークフロー、プロンプトを無料のニュースレターで送っています。説明欄にリンクがありますので、完全無料で購読できます。

驚異的な実装例

さあ、この出力を見てください。これは本当に信じられないものです。誰かが実際にMinecraftクローンをワンショットで作成したんです。Opus 4.6のマルチチーム機能をClaude Code内で使って、本当に素晴らしい結果を出しています。

Minecraftゲームのすべての機能が完全にコーディングされていて、複数の地形があり、機能的で動的な動きがあり、さまざまな種類のブロックを配置したり壊したりする能力があり、その他多くの機能があります。これはこのモデルからの全体的な生成出力を示しています。

次はかなりクールなデモです。Opus 4.6に送られて、信号機のある一方通行の道路を視覚化し、その信号機にランダムに車が到着するPythonシミュレーションを書くようにテストされました。

このPythonスクリプトの生成を完璧にこなすことができ、一方通行の交通シミュレーションのデモンストレーションに焦点を当てています。生成された車の総数が通過していく様子など、Pythonコードを出力するエージェント的な能力を示す素晴らしい仕事をしています。

このモデルのフロントエンドコードもかなり良くなったと言わざるを得ません。UXデザインに新しい要素が追加されているのが分かります。ランディングページを生成するよう要求した場合、フロントエンドコードに関してかなり良好な生成を出力できるようになっています。

太陽系シミュレーションの実装

この生成では、Opus 4.6に太陽系のシミュレーションを作成するよう要求しました。長いコンテキストを活用して素晴らしい仕事をし、各惑星の動的アニメーションを含む太陽系のすべてのコンポーネントを完全にコーディングしました。

それぞれに説明があります。さらに素晴らしいのは、これらの個々の惑星の衛星もコーディングしていることです。これは驚異的ですね。

気づいたことの一つは、このモデルの速度が以前Opus 4.5で見たものよりもはるかに優れているということです。ちょっと興味深いですね。以前のように長く推論しません。推論の質が悪くなっているわけではありませんが、推論プロセスがより速くなっています。

もう一つ気づいたのは、デバッグに関してこのモデルが本当に優れているということです。新しい大きなコンテキストにより、大規模なコードベースを以前よりもはるかに簡単かつ優れた方法で処理できるようになっています。

SVGコード生成とアート表現

Arena内での次のプロンプトでは、Opus 4.6の拡張thinkingモードに蝶のSVGを生成するよう要求しました。SVGコード生成に関して、このモデルは本当に素晴らしい仕事をしています。

アニメーション化するよう要求さえしていないのに、これらの外部機能を追加してさらに良くすることで、より優れた仕事をしてくれました。まだコードを生成中のGrok 4.1 thinkingよりも速い仕事をしました。

次は絵画のSVGコードを作成するよう要求したところです。これはOpus 4.6が出力するとは本当に期待していなかったものです。このアニメーション絵画の驚くべき生成です。蝶が飛び回っていて、花も動いています。そして絵画の周囲の特徴が出力されてアニメーション化されており、素晴らしいです。

かなり良く推論しましたが、4.6のようなものと比較すると、これが出力です。このタイプのものにはレベルがあることが分かりますね。

ゲーム環境での戦略的思考テスト

次のテストでは、長時間実行されるゲーム環境を現実世界のエージェント作業の代用として使用しています。これは、短いプロンプトを解決するだけでなく、AIに前もって計画を立てさせ、リソースを管理させ、複数の目標を最適化させ、多くのステップにわたって一貫性を保たせるものです。

誰かがOpus 4.6とOpus 4.5を設定の中で競わせました。Opus 4.6は明らかにより戦略的に行動しました。事前の計画により長い時間をかけ、戦闘中に骨を埋めることで複数のスキルを同時に訓練し、インベントリを整理し、これらすべてのステップを効率的に実行しました。

これはOpus 4.6がOpus 4.5よりも意図的かつ戦略的に行動することを示しています。この小さなテストは、この4.6モデルでの実装プロセスがどれほど優れているかを示しています。

Kilo Code内でのランディングページ制作

Kilo Code内で、AIエージェントにランディングページのフロントエンドを作成するよう要求しました。この出力で驚くべき仕事をしてくれました。そして驚いたことに、かなり安く済みました。

このケースでは82セントを費やしました。比較的安いですね。そして出力の品質は素晴らしいです。タイポグラフィ、このフロントエンドの要素が美しく整理され構築されて、このランディングページに適合していることが分かります。つまり、このミニマリスティックなランディングページを作成する素晴らしい仕事をしてくれたわけです。

Kilo Code内で、AIエージェントにランディングページのフロントエンドを作成するよう要求しました。この出力で驚くべき仕事をしてくれました。そして驚いたことに、かなり安く済みました。このケースでは82セントを費やしました。比較的安いですね。

そして出力の品質は素晴らしいです。タイポグラフィ、このフロントエンドの要素が美しく整理され構築されて、このランディングページに適合していることが分かります。つまり、このミニマリスティックなランディングページを作成する素晴らしい仕事をしてくれたわけです。

ポケモンクローンとフライトシミュレーター

これは本当に狂気的です。誰かが4.6でポケモンクローンを作成しました。このゲームのすべての機能が実際に動作していて、移動することができ、ストーリーがあり、これがワンショットで作成されたんです。

明らかに、ワンショット生成は何か印象的なものというわけではありませんが、この大きなコンテキストで出力されたこれらすべてのコンポーネントを持っているという事実が信じられません。複数のポケモンとバトルする能力、歩き回る能力、アニメーション、サウンド。

誰かが実際にフライトシムを作成しました。ただし、これは実際にはOpus 4.5だけで生成された本当のフライトシムではありません。なぜなら、Opusが作成した実装プランを生成するために新しいGPT-4o3を使用したからです。

GPT-4o3がコード能力において大幅なアップデートを受けたことが分かります。この全体的なプロセスの実装において素晴らしい仕事をしたからです。

ブラウザベースOS制作の試み

正直に言います。これはthinkingを有効にせずにOpus 4.6でブラウザベースのOSを作成したものです。Mac OSオペレーティングシステムを複製するよう指示しました。このケースでは、まともな仕事をしましたが、最高ではありません。

他のモデルの方がインターフェースに関してより良い仕事をしたと本当に思います。しかし機能性の面では、これらすべてのものが実際に機能していることが分かります。全体的にコーディングされたアプリケーションはそれ自体で素晴らしく、良いですね。

しかしデザインに関しては、それだけがこの生成で欠けているものです。しかしそれ以外のすべてについては、素晴らしいものがあります。実際に機能するライトテーマとダークテーマがあり、これは良いですね。壁紙を変更でき、全体的にこのオペレーティングシステムの多くのダイナミクスが機能的です。

まとめと今後の展望

基本的に以上が、Opus 4.6に関する今日のビデオでした。これは本当に素晴らしいアップグレードです。以前のOpus 4.5よりもはるかに賢く、ここからさらに良くなり続けるでしょう。

このモデルはエージェント的な能力において非常に優れたパフォーマンスを発揮します。それがコーディングに関連するものであれ、スプレッドシートやPowerPointなどの日常的なアプリ内でエージェント的なAIエージェントを持つことに関連するものであれ、です。

これにはもっと多くのことがありますので、説明欄のリンクをぜひご覧になることを強くお勧めします。しかしその考えとともに、皆さん、ご視聴ありがとうございました。今日のビデオを楽しんでいただき、何らかの価値を得られたことを願っています。これらすべてのリンクを説明欄に残しておきます。

セカンドチャンネルに登録し、ニュースレターに参加し、Discordに参加し、Twitterでフォローし、最後に必ず購読して、通知ベルをオンにし、このビデオに「いいね」を押し、最新のAIニュースについて最新情報を得られるよう以前のビデオもご覧ください。しかしその考えとともに、皆さん、素晴らしい一日を過ごし、ポジティビティを広げ、かなり近いうちにまたお会いしましょう。それじゃあまた、皆さん。

コメント

タイトルとURLをコピーしました