Anthropic社が発表した最新AIモデル「Claude Opus 4.8」の機能や特徴について解説する動画である。新機能「Ultra Code」を含む動的ワークフローにより、数日間にわたって数百ものエージェントを並行稼働させ、大規模なコードベースの移行といった複雑なタスクを完遂できる能力が備わった。また、従来のモデルに見られたユーザーへの嘘や不正を大幅に削減し、誠実性が向上したことが各種ベンチマークから示されている。動画内では、このモデルを用いてわずか1時間足らずで構築された、自律的な経済圏を持つ高度な都市シミュレーションのデモも紹介されている。

Claude Opus 4.8の衝撃と驚異のシミュレーション能力
AnthropicがOpus 4.8をリリースしました。非常にエキサイティングな機能として、いくつかの新しいエフォートレベルが追加されています。ロー、ミディアム、ハイ、エクストラハイ、そしてマキシマムがあります。しかし、もしあなたが完全に常識外れな成果を求めるなら、ウルトラコードを選択することで、その実力を限界突破の11にまで引き上げることができます。見てください、これです。ウルトラコードが設定されています。さあ、シートベルトを締めていきましょう。
こちらが、この動画を録画している最中に、Opus 4.8がわずか1時間足らずで構築したシミュレーションです。40人の住民、20台の車、数台のトラック、複数の企業が存在し、基本的には自律的な経済が、好みの速度で動いています。たとえば、1,000倍速に加速することもできますし、何が起きているかを確認するために減速することも可能です。
各キャラクターは、時間帯に応じて基本的にそれぞれの生活を送っています。彼らは仕事に行き、時給を稼ぎ、お金を得るために働き、毎週金曜日に給料が支払われます。また、独自の損益計算書、在庫、従業員などを持つ複数の企業も存在します。商品の価格、GDPなどを示す様々なチャート、どれだけの鉱石、木材、農作物、石油が取引されているか、支払われた金額、様々なものの在庫、生産、運送なども表示されます。経済にはGDPも含まれており、仕組みに関する完全なガイドもあります。ご覧の通り、かなり詳細です。
信号機も機能しています。車が信号で止まるのが見えるはずです。今はテスト目的のために、交差点に近づいたときに周りに他の車がいなければ、信号が青になるように設定しています。しかし、車の数を増やすにつれて、交通渋滞が問題になり始めるでしょう。車が列を作り始めるはずです。
これがステップ1でした。ステップ2では、大規模言語モデルの機能を追加して、実際のモデルがそこに入り込み、ビジネスを運営して互いに競い合えるようにする予定です。しかし、ウルトラコードのプランで1時間足らず作業しただけでこれだけのものができたというのは、控えめに言ってもかなり素晴らしいと言わざるを得ません。今後もさらに多くの情報をお届けしますので、ぜひチャンネル登録をお願いします。間違いなく、このモデルの実力を徹底的に試していく予定です。
動的ワークフローと並行エージェントによる開発革命
さて、Claude Opus 4.8が登場しましたが、何が新しく、何が変わったのでしょうか。一言で言えば、エージェントです。これはエージェントの信頼性における重大なアップグレードです。より長く実行できるようになり、より多くのエージェントを並行して実行できるようになりました。また、これらのエージェントは大幅に誠実になりました。冗談ではありません。これが今回の大きなアップグレードの一つです。これについては後ほど詳しく説明します。とにかく、エージェントはあなたに対してより誠実になります。
私が気づいた興味深い点の一つは、利用可能なすべてのエフォートレベルについて、少なくともメインのブログ記事では実際には説明されていないということです。ウルトラコードについて知るためには、少し深く掘り下げ、横道に逸れる必要があります。まずはそこから始めましょう。なぜなら、これは多くの人にとって、今回の新しいモデルリリースで最も興味深いことの一つかもしれないからです。
これは動的ワークフローの一部です。これにより、ClaudeはClaude Codeにおいてさらに大きなタスクを引き受けることができるようになります。Claudeが作業を計画し、1回のセッションで数百の並行サブエージェントを実行できるのです。そしてOpus 4.8では、エージェントはさらに長時間実行できるようになりました。その後、ユーザーに報告する前に出力を検証します。
これは、OpenAIや他のすべての企業が「スラッシュゴール」アプローチで行っているのと同じ方向への大きな一歩です。そのアイデアは、短いタスクを完了するプロンプトを与える代わりに、スラッシュゴールを与えると、その目標を達成するために長時間をかけて機能するというものです。今回のものもそれに似ているようです。この目標というアイデアを取り入れ、それをウルトラコードのようにウルトラなものにしています。
彼らが言うには、たとえばOpus 4.8を搭載したClaude Codeは、キックオフから既存のテストスイートの合格を基準としたマージに至るまで、数十万行のコードに及ぶコードベース規模の移行を実行できるようになったとのことです。
彼らはこれらの動的ワークフローについて説明する別のページを用意しています。彼らがこのリリースを発表してすぐのことなので、もしかしたらこの動画の終わりまでには何かが手に入っているかもしれません。もし間に合わなければ、それが何にできるかを示すライブ配信を行います。しかし、彼らのページには、Claraやサイバーエージェントなどの場所で、人々がこれらの動的ワークフローを使って何をしたかについての体験談やストーリーが掲載されています。
一つの例として、最近行われたBunの書き換えがあります。ジェレイド・サムナーは動的ワークフローを使用して、Bunをある言語から別の言語、つまりRustへとポートし、既存のテストスイートの99.88%を合格させました。最初のコミットからマージまで11日間で、約750,000行のRustコードを処理したのです。各ファイルに2人のレビュアーがつき、数百のエージェントが並行して作業を行いました。その後、修正ループがビルドとテストスイートを駆動し、両方がクリーンに実行されるまで繰り返されました。
これらすべての正確な意味がよく分からないという方のために説明すると、要するに、エージェントの全軍隊を召喚し、非常に複雑な長期タスクに投入することが現実になったということです。私たちは以前からこの領域に近づいていましたが、その地平線がさらに広がり続けているのです。
この録画の時点で、Meter Researchは彼らのチャートにこのモデルの追加を掲載していませんが、掲載されればさらにとんでもないことになるでしょう。以前、Claude Mythosは、人間のエンジニアが完了するのに16時間かかるタスクをこなすことができると記録されていました。ここでAnthropicが言っているのは、これらの新しい動的ワークフローによって、これらのタスクを潜在的に数日間にまで延長できるということです。そして、ここで言う数日間とは、エージェントが数日間にわたって働き続けることを意味します。
これは重要なポイントです。なぜなら、Meterのチャートはエージェントがどれだけの時間働くかを測定しているのではないということを覚えておいてください。彼らが測定しているのは、人間のエンジニアがそのタスクを完了するのにどれだけの時間がかかったかという点です。つまりAnthropicは、これらのより複雑なエンジニアリングタスクの一部は、以前であれば人間の労働で数週間かかっていたであろうと言っているのです。ですから、そのMeterのチャートが更新されるのを注視してください。もしそうなれば、市場全体を破壊する可能性があります。そして、そのチャートが以前よりもさらに恐ろしいものに見え始めるかもしれません。
嘘をつかないAI:「誠実さ」の向上とベンチマーク結果
動画を編集している最中にも、Opus 4.8に関するいくつかの情報が追加で入ってきました。Vending Benchの作成者であるVending Labsがスコアをリリースしました。彼らによると、Vending Benchにおいては、Opus 4.6やGPT 5.5よりも大幅に劣っているとのことです。
その理由は、以前のClaudeモデルよりもアライメント調整がされているためです。というのも、それらの古いClaudeモデルは嘘をつき、騙し、顧客を欺き、競争相手を騙していたからです。それらはまさに容赦なく冷酷でした。ですので、これもまたAnthropicのブログ記事が言っていたことと一致しています。つまり、より誠実になったということです。
ただ、これが正確に何を意味しているのかは分かりません。より誠実であるということは、ビジネスが下手になるということなのでしょうか。ビジネスを運営して利益を上げることが苦手になるということでしょうか。それが示唆している内容が、良いことなのかどうかは分かりません。
また、Anthropicは「怠惰問題」の調査において、AIの怠惰に対する治療法を見つけたようです。Opus 4.8は他のモデルよりも低いだけでなく、ゼロになっています。怠惰な挙動を一切起こしません。
Everyのダン・シッパーは、Opus 4.8を切り上げて、もう「5」と呼ぶべきだと言っています。彼らがテストした中で最も完成度の高いモデルだとのことです。Anthropicが完全に戻ってきました。
そして、動画内で言及しなかったもう一つの簡単な注意点として、彼らは今後登場する2つのことを予告しています。一つは、Opusと同等の機能の多くをより低コストで提供するモデルです。それだけでなく、彼らはOpusよりもさらに高い知能を持つ新しいクラスのモデルをリリースする計画を立てています。
もちろん、その新しいクラスのモデルが何と呼ばれるかは分かっています。それはMythosと呼ばれることになるでしょう。つまり、Haiku、Sonnet、Opus、そして今度はOpusよりも大きい大型モデルとして、一種の新しい知能のクラスであるMythosが登場する流れです。そして彼らは、Mythosが今後数週間のうちに、彼らの表現を借りれば「来るべき数週間」のうちに、すべての顧客に提供される予定だと言っています。彼らは私たちにMythosを投入しようとしています。
さて、通常の予定通りの内容に戻りましょう。まずはトップから見ていき、実際のベンチマーク、具体的な新しい改善点、そして非常に興味深いこの「誠実さ」の全貌について確認してみましょう。
エージェント駆動のコーディングを測定するSWE-bench Proにおいて、Opus 4.8はGPT 5.5、Gemini 3.1 Pro、Opus 4.7よりも優れた成績を収め、これらを大幅に上回る69.2%に達しました。TerminalBench 2.1によって評価されるエージェント駆動のターミナルコーディングでは74.6%となり、これはGPT 5.5よりは低い数値です。
Humanity's Last Exam(人類最後の試験)では、他のすべてのモデルを抑えて勝利しています。エージェントによるコンピューター使用、つまりコンピューターのUI操作などをナビゲートするOSWorldでも同様です。
興味深いことに、GPT-Valでも高いスコアを獲得しています。GPT-Valは、これらのAIエージェントが様々な分野でどれだけ意味のある専門的な業務を遂行できるかを試すテストです。これは私たちが注意深く見守ってきた要素の一つです。なぜなら最近、タスクを完了させる能力において、その分野の平均的な人間の専門職、つまり、その分野での経験を持つ上級管理職のような人々よりも優れているという結果が出たからです。
人間の完了したプロジェクトと、これらのAIエージェントが完了したプロジェクトのどちらかを選ぶ際、ベンチマークが始まった当初、人々は人間の成果物を好む傾向にありました。彼らは盲目的にどちらか一方を選ばなければならなかったのですが、最近その逆転現象が起き、AIが人間よりも優れた成果を出すようになりました。そして、私たちはその数値がさらに上昇し、人間が提出した成果物よりも有意義に優れているのを目にしています。
そしてもちろん、ご存知かもしれませんが、OpenAIとAnthropicの両社は、金融分野に猛烈に攻め込んでいます。それはコーディングモデルに続く、彼らにとっての次の大きな未開のフロンティアです。ですので、彼らがここにFinance Agent v2と呼ばれるベンチマークを含めていることに注目してください。そこではOpus 4.8が、最も近い競合であるOpus 4.7やGPT 5.5よりもわずかに優れた成績を収めています。
APIの標準価格はOpus 4.7から変更されていません。入力トークン100万枚あたり5ドル、出力トークン100万枚あたり25ドルです。ファストモードの価格設定も改善されたようです。Anthropicによると、ファストモードの価格は以前のモデルよりも3倍安くなり、速度は約2.5倍になったとのことです。ファストモードをご存知ない方のために説明すると、基本的にはプロンプトに対して優先的な処理を受けられる仕組みです。より速く応答を得られますが、トークンごとにより多くの料金を支払う必要があります。
しかし、お金で買えないものが一つあります。ザ・ビートルズを信じるならば、それは誠実さと愛です。このブログ記事には、Claudeがあなたをどれだけ愛しているかについての言及はありませんが、Claudeが大幅に誠実になったという事実については語られています。
ニュースを追っている方なら、もちろんClaudeが様々なベンチマークやタスクにおいて、かなり不正を行う傾向があることを知っているでしょう。高いスコアを取りたがるのです。競争心が強いのです。そしてAnthropicは、メカニスティック・インタプリタビリティ(機械的解釈可能性)において、ますます優れた技術を持つようになっています。基本的には、これらのニューラルネットワークの舞台裏で何が起きているのかを理解する技術です。
そのため彼らは、Claudeが不正を行う際、自分が悪いことをしていると自覚していることにも非常に気づいています。つまり、これは「うっかりミス」ではありません。意図的なものです。自分の足跡を隠そうとしたりします。
ちなみに、私はここでAnthropicやClaudeだけを、時々不謹慎なことをする唯一のモデルとして槍玉に挙げているわけではありません。これはすべてのAI研究所が苦労している問題です。通常、それは行動の極めて小さな一部分に過ぎませんが、それが発生すると、かなり深刻な問題につながる可能性があります。
しかし、ここでのOpus 4.8の最も顕著な改善点の一つは、その誠実さにあると私は考えています。私たちはすべてのモデルを誠実であるように訓練しています。たとえば、裏付けのない主張を避けるように訓練しています。モデルは時として、証拠が薄いにもかかわらず、作業が進捗していると自信満々に主張し、結論を急ぐことがあります。
以前にAIエージェントを扱ったことがある方なら、このような状況に直面し、相手が間違っているのに強気であるために非常に腹が立った経験があるはずです。「はい、すべて完了しました。心配いりません。タスク完了です」と言われ、こちらが「いや、タスクは完了していない。ほら、嘘をついているのは分かっているんだぞ」と、証拠を揃えて提示するために時間を費やさなければならなくなります。そして、すべての証拠を提出すると、「おっしゃる通りです。私の責任です。あなたが求めたことを私はやっていませんでした。そしてそれについて嘘をつきました。でも、今度は本当に完了したことを約束します」と返してきます。そして、あなたはその返答が一瞬で返ってきたのを見て、「まだ終わっていないのは分かっているぞ」と思うわけです。
しかし、この新しいモデルでは、幸運を祈るばかりですが、大きな改善があったようです。初期のテスターの報告によると、Opus 4.8は自身の作業に関する不確実性を指摘する可能性が高くなり、裏付けのない主張をする可能性が低くなったとのことです。
コード内の欠陥を指摘せずに見過ごす可能性が、4.7やその前身のモデルよりも4倍低くなっているようです。それらの欠陥を見つけ出し、指摘します。「これについては確信が持てません」と言うのです。これは非常に有意義な改善であるように思われます。
そして、ここに不整合な挙動を示すチャートが表示されます。スコアは1から10までです。スケールは2.6までとなっています。これらのAI研究所が提示するチャートの表現の罠には、常に気をつけなければなりません。これは、まあ、問題ないと思います。
しかし、4.6やOpus 4.7に注目してください。それらは高めの位置にあります。MythosプレビューとOpus 4.8は非常に似ています。他の2つのモデルの約半分の不整合挙動しか示していません。これは、Mythosの一連の流れを追ってきた人にとっては興味深いことです。
Mythosのトレーニングには、いくつかの禁じられたテクニックが使用されていました。それについては一連の動画シリーズを作っています。しかし、人々はOpus 4.8を、潜在的に「Mythosライト」のようなものと呼んでいます。そして確かに、このチャートを一瞥するだけでも、よりMythosに似ているように見えます。これは、おそらく今後の動画の一つで深く掘り下げることになるであろう、全く別の話、脱線話です。
繰り返しになりますが、これは今日ローンチされたばかりなので、私たちはまだすべてのデータを処理し、すべてを確認している最中ですが、ここで非常に興味深いことが起きている可能性があります。ですから、この全体がどのように展開していくかを見守りましょう。
AIエージェントに求められる「誠実さ」という資産
さて、今回の新しいモデルのリリースは、チャーリー・マンガーとウォーレン・バフェットのあの名言を思い出させます。彼らが自分たちのために働く人々を雇う際にどのように考えているかについての言葉です。彼らは、基本的には3つの資質が必要だと言います。誠実さ(インテグリティ)、知性、そしてエネルギーです。
そして彼らは、もしその人が最初の資質を持っていない場合、他の2つの資質によって破滅させられることになるという事実を注意深く指摘しています。つまり、誠実さのない人物で、頭が良く、エネルギーに満ち溢れている人物こそが、何よりも最も危険な人物であるということです。彼らはあなたを身ぐるみ剥いで盗むでしょう。バフェットが言ったように、もし誠実さのない人間を雇うのであれば、その人が愚かで怠惰であることを願うしかありません。
その論理からすれば、エネルギーと知性は一種の「力の倍率」であり、誠実な人物であればこれは資産になります。もし不誠実な人物であれば、これは甚大な欠陥であり、リスクであり、危険となります。
ですから、実際、非常に興味深いことに、Anthropicが誠実さ、あるいは何と呼びたいにせよ、そこに焦点を当てているというアイデアは、特にこれらのモデルのタスク期間がますます長くなっている今、注目すべき重要な点です。そうですよね。もしこれが超スマートで、一度に数日、数週間と働くことができるとしても、間違いを犯すたびにそれを隠蔽したり、実際に作業をこなさずにプロンプトを満たすために何らかの形で不正を行おうとしたりするなら、当然、その知性とエネルギー、そのエージェントとしての能力はリスクに変わってしまいます。
そして、私たちはこの誠実さという概念を測定するいくつかのベンチマークを持っています。しかし、おそらくこれは、注目すべきますます重要な要素になっていくでしょう。これらのモデルはより賢く、より優れてきています。より重要で多くのタスクが委ねられ、それらのタスクに対してより長く機能するようになっています。また、彼らが並行して働くために文字通りエージェントやサブエージェントの軍隊を生み出すため、私たちの目には見えにくくなっています。
この動画を始めたとき、私はこれに、大規模言語モデルのベンチマークのために作成したかった要素の一つとして、個人や企業が存在し、すべてが稼働している、機能的な経済を備えた完全なシムシティのようなシミュレーションを作成するように依頼しました。基本的には、そのシミュレーションされた経済にモデルを投入し、ビジネスなどを発展させることができるかどうかを確認するためです。
これまでのところ、作業時間は、何と書いてあるでしょうか、13分か14分か、それくらいですが、作業を進めた後にいくつか質問をしたいということだったので、複数回のやり取りがありました。これがウルトラコードです。
ですから、実際に最終的な出力を目にする段階にいるかは分かりませんが、必ずライブ配信か別の動画を行うようにします。一発で、つまりワンショットでこれができるかどうか、個人的に非常に興味があります。確認のためにいくつかのやり取りがあったことは知っていますが、もし稼働する完全な経済を構築し、それを言語モデルのベンチマークとして使用することができ、それをワンショットで成し遂げたのであれば、これはこの種の試みとして最初のものであり、それを実行できる最初の言語モデルということになります。
すぐに言えることとして、このモデルは私が考慮すらしていなかった特定の事柄について思考しています。いきなりいくつかの質問を投げかけてきて、私は「分からないよ、とにかく何かやってみてくれ」という気分になりました。たとえば、「お金が循環しているクローズドな経済がいいですか?それとも現金の流入があった方がいいですか?」といった質問です。私の説明の中に、実際に経済にお金を注入している要素があったことを指摘されました。「本当にそうしたいのですか?」と言うのです。
そして、実際のトラック運転手を伴う本物のトラックなどを作成しています。ですから、たとえばドックから銅工場へ鉱石を運ぶ必要がある場合、実際の作業員がトラックなどに乗り込み、トラックに在庫を積み込み、機能している信号機のある道路を運転し、街を通り抜け、銅工場のドックに入り、荷を下ろします。すべてがシミュレーションされているかのようです。
ゲームの実際のエンジンのためだけに設定された、非常に基本的なシェルを用意しています。ですので、本当に、本当に基本的なものです。数人の人間がいて、ロジックもそれほど多くありませんが、すべての基本は備わっていました。そして今、Opus 4.8がこの上にすべてを構築することになっています。ですから、これをワンショットと言うのは厳密には100%正しくないかもしれませんが、これは単なる本当に基本的なスタートに過ぎません。経済をどのように構築するかなどを真剣に考えなければならない難しい部分はすべて、この上に構築されます。これは基本的には、小さな人間や車、そしていくつかの場所が走り回っている状態を提供しているだけです。これらのビジネスはどれも自動化されていません。テスト目的のために基本ベースとして存在しているものが2つあるだけです。
完了し次第、これを公開します。しかし、もしこれらすべてを基本操作のワンショットで完全に生成できるのであれば、これはただただ信じられないほど素晴らしいことです。これについてどう思うか教えてください。期待外れのリリースでしょうか、それとも非常にワクワクしていますか。
今のところ私にとっては、気に入っている点がたくさんあります。しかし、ここ数日間このモデルをテストしていく中で、それがどれほど優れているか、あるいはそうでないかについて、間違いなくさらに多くの洞察が得られるでしょう。もしゲームのような言語モデルのベンチマークについて面白いアイデアがあれば、ぜひコメント欄に書き込んでください。
コメント欄をチェックし、興味深いものを抽出して、みんなが何を言っているのかを理解する手助けをしてくれるエージェントを実際に走らせています。通常はそのことについて言及しません。なぜなら、当然、人々がそれを邪魔し始めるからです。皆さんが悪ふざけをしてくるのは分かっています。しかし現時点では、幸いにも何事も起きない程度には十分に強固になっていると感じています。
しかし、視覚的に魅力的なベンチマークの良いアイデアがあれば、私はただのテキストやコード以上の、観察していて面白いようなゲーム的要素を本当に楽しんでいますので、ぜひ教えてください。私が開発するためのアイデアとしてでも、あるいはあなたのアイデアを単に紹介してほしいという場合でも、そこに投稿してください。
ここまで見ていただき、本当にありがとうございました。それでは、次の動画でお会いしましょう。


コメント