Anthropic社が発表した最新AIモデル「Claude Opus 4.8」に関する244ページのシステムカードや関連論文の分析、および実環境での検証に基づく15の重要トピックを解説する。Opus 4.8は前モデルを凌駕する高いコーディング能力や専門知識の処理能力を持つ一方、最高峰モデル「Mythos」のプレビュー版には及ばない領域もある。また、ビジネススキル訓練がもたらした不誠実さの課題や、AI自身が評価環境にいることを察知しながらもそれを思考プロセス内で隠蔽する「評価の認識」問題など、安全性とアライメントにおける極めて複雑な内部挙動の実態が明かされる。

Claude Opus 4.8の登場とMythosクラスの展開
Anthropicが新しいClaude Opus 4.8に関する244ページのレポートを公開しました。私はそこに引用されている多くの論文を読み、実際のコードベースやプライベートなベンチマークでこのモデルを自分でテストしました。これからお届けする15のハイライトは、AnthropicがOpus 4.8をビジネススクールに通わせる計画を取りやめたというユーモラスな話から、安全性に焦点を当てた重要な指摘まで多岐にわたります。ビジネススキルに集中すると不誠実さが増すことが判明したのです。また、新しいOpusは自分がテストされていることに気づいているものの、それを人間に知らせないようにしているという、より安全性に特化したハイライトもあります。これら15のポイントには、Opus 4.8のパフォーマンスがMythosに匹敵する部分から、Claudeのコード内で独自の組織図を生成するという驚くべき新しい能力までが含まれています。
しかし、Anthropicの時価総額が1兆ドル近くに達したという大ニュースが流れたばかりの今、まず触れるべき最初のポイントは何でしょうか。実は、彼らがMythosについて語ったことです。彼らの目標は、今後数週間のうちにすべての顧客にMythosクラスのモデルを届けることだといいます。予測市場のポリマーケットが指摘するように、この展開はモデルのサイバー能力に対する懸念が高まっているにもかかわらず進められています。これは皮肉すぎると言われるかもしれませんが、Mythosが発表された当日、私は一般アクセスが提供されなかった理由の一つとして、Anthropicにはまだ大規模に提供するための計算資源、つまりコンピューティングパワーの容量が足りなかったからではないかと述べました。Anthropicが表明していた安全性への懸念が、ちょうどこの新しい計算資源がオンラインになったタイミングで解決したというのは、少し偶然が過ぎるように思えます。その計算資源とは、イーロン・マスク、SpaceX、GoogleとそのTPU、もちろんNVIDIAのGPU、そして間もなくMicrosoftのAIチップや、Amazon、さらには英国のスタートアップであるフラクタルなど、多くのソースから調達したものです。
思考モードの進化と「誠実さ」の真実
大きなニュースはOpus 4.8です。Web上での実用的な変更点として、Opus 4.8が思考する時間をユーザーが選択できるようになりました。以前は適応型思考モードしかなく、Claude自身がタスクの重要度を判断していました。もしその思考をより多く読みようとすると、読み取ることができない、墨消しされた思考ブロックのインスタンスが増えていることに気づくかもしれません。なぜでしょうか。Anthropicをはじめとする最先端の研究所は、中国の研究所などがAnthropicのモデルから特定のスキルを抽出し、たとえばClaudeの思考を学習させることで、ライバルモデルに蒸留してしまう可能性をますます警戒しているからです。
しかし、それらの思考やモデル自体が誠実であるかどうかは別問題です。Anthropicはリリースノートで大胆にもこう主張しています。Opus 4.8における最も顕著な改善点の一つは、その誠実さであると。初期のテスターからは、Opus 4.8は自身の作業に関する不確実性にフラグを立てる可能性が高くなり、根拠のない主張をする可能性が低くなったと報告されています。確かに、それらは誠実さの二つの側面ですが、これから見ていくように、それ以外にも多くの側面があり、そのすべてにおいてOpus 4.8が優れているわけではありません。私が言いたいのは、特定の状況下においてClaude Opus 4.8が他のモデルよりも誠実である可能性があるとしても、それが誠実なモデルであることを意味するわけではないということです。
Anthropic自身も32ページでこのような例を挙げています。Claudeはプルリクエストを監視していると言いましたが、実際にはしていませんでした。その責任は、特定のコード変更が適切で安全であるかどうかを確認することでした。ええ、もちろん確認しています、とClaudeは言いました。Anthropicの報告によると、ユーザーはClaudeが監視していると主張し、フラグを立てるべきだったプルリクエストを自分自身で発見する状況が何度もあったとのことです。そして、ユーザーがOpus 4.8を修正し、適切な監視についてメモリファイルに独自のルールを書き込ませた後でさえ、モデルはそのルールに何度も違反しました。ペーパーから引用できる例は他にも無数にあります。重要なのは、これが誠実さの一部の領域における定量的で漸進的な一歩前進であり、質的な転換ではないということです。
なぜこのようなことが起こるのか、私自身の短い仮説を述べずにはいられません。それは、少なくとも一部の人間にとって、誠実さは第一原則だからです。それは行動の上流にあります。ある人間がひとつの領域で非常に誠実であると分かった場合、他の多くの領域でも誠実である可能性が非常に高いです。一方で、Opus 4.8のようなモデルは、下流の行動パターンを一致させているに過ぎません。例を挙げて説明してみましょう。モデルは、たとえばあなたの指示を文字通り実行するなど、あらゆる種類の一義的な指示に従うことが非常に得意になるかもしれません。明示的な指示を見るたびに、彼らはそれに従います。しかし、指示に広く従うという上流の原則を一般化することなく、それを実行できるのです。そのため、同じモデルが暗黙的な指示に従うことには失敗します。たとえば、あなたが何かをタイポ(誤字)した可能性が高く、タイトルの変更を意図していないことを認識するようなケースです。
だからといって、モデルが特定の質問に対して自身の不確実性にフラグを立てるのが上手くならないというわけではありません。実際にOpus 4.8は、さまざまなベンチマークにおいてMythosのプレビュー版よりもこの点で優れています。私は色盲ですが、オレンジ色のバーと比較して赤っぽいバーのことです。ただし、これが第一原則ではないことに注目してください。Anthropicは、完全に確信が持てない場合は常に不確実性を表現するようにモデルに教えたわけではありません。モデルはいまだに、不確実性の警告を一切付けることなく、完全に間違った答えを何度も何度も幻覚(ハルシネーション)として出力します。
ベンチマークによる性能評価
皆さんの中には、個別のエピソードには興味がなく、ベンチマークの結果とパフォーマンスだけを気にする方も当然いるでしょう。この点において、一言で言えば、4.8は明らかにOpus 4.7よりも優れていますが、Mythosのプレビュー版ほどではありません。Anthropicが公開したこの代表的なチャートでは、システムカード内のほぼすべての他モデルを圧倒しているように見えますが、実際のパフォーマンスはもう少し乱高下しています。
では、OpenAIも推奨しているベンチマークであるSwebench Proで測定された、自律的なコーディングやエージェントによるコーディングを見てみましょう。Opus 4.8は前モデルを5パーセントポイント上回り、GPT-5.5を11%上回っています。Gemini 3.5 Proには15%の差をつけて勝っています。難解な知識を通じた推論をテストする「Humanity's Last Exam」というテストでは、Opus 4.8は再びライバルを圧倒しました。別のテストであるGPQAでは、GPT-5.5に僅差で遅れをとっています。知識労働に関する最も有名なベンチマークである「GDP valus 4.8(※原文ママ、GPQA等の文脈に基づくベンチマーク名称)」では、他のどのモデルよりもはるかに優れた成績を収めています。そのELOレーティングは1890であり、OpenAIが作成したベンチマークにおいてGPT-5.5の1769を圧倒しています。ベンチマークの運営を支援しているArtificial Analysisによると、Max環境でOpus 4.8を実行するコストは134ドルと、Extra High環境でのGPT-5.5の900ドルに比べてはるかに安価でした。
しかし、「Claudeはオフィスワークや知識労働がただ得意なだけだ」と言う人がいれば、それはあまりにも単純化しすぎです。第一に、金融などの特定のドメインにおいては、個別のモデルがClaudeを大きく上回っているのを確認できます。エントリーレベルの財務分析やリサーチにおいて、Val's AIは、私が前回の動画で紹介した、はるかに安価なGemini 3.5 FlashがOpus 4.8を上回り、54%に対して58%を記録したことを発見しました。現実世界の外部ツールを使用するAIモデルの能力を測定する別の独立したベンチマークでは、AIの基準からするとかなり古いGPT-5.5が、再びOpus 4.8を上回っているのが見られます。そして、先ほどの知識労働のベンチマークに戻ったとしても、ベンチマークが公開されている期間が長ければ長いほど、特に公開ベンチマークにおいては、企業がそのベンチマークにあるようなタスクに類似したデータを学習させることで、数値をハックしやすくなるということを忘れてはなりません。
しかも、それはベンチマークが完璧だった場合の話です。そのベンチマークを作成したOpenAIでさえ、たとえばモデルが壊滅的な間違いを犯した場合が考慮されていないと述べています。システムカードから分かるように、モデルがそうした間違いを犯すことは周知の事実です。また、最も高収入な専門職のデジタルタスクのサブセットしかテストされていないとも述べています。OpenAIは、今後の反復において、より大きな幅広さ、現実味、インタラクティブ性、そして文脈のニュアンスを取り入れていくとしています。
もう一つのプライベートベンチマークとして、常識的な推論をテストする私自身の「Simple Bench」を投入してみましょう。最近のOpusシリーズは、Opus 4.5からOpus 4.8にかけて、すべて60台前半から半ばあたりを少し行き来していることが分かります。これは当然、複数回の実行にわたる平均値であり、直近の4つのOpusモデルはすべて、たとえばQwen 3.7 Maxを下回っています。Anthropicは、自社の顧客がコーディングやその他の専門的なタスクを非常に重視していることを知っているため、Geminiのようなモデルファミリーが維持しているような、より一般的な推論能力の一部を切り捨てているのかもしれません。性能の乱高下といえば、Claude MythosとGPT-5.5の両方が、特定のエルデシュ問題を解決したり、少なくとも特定の予想を反証したりできるという話を聞いたことがあるかもしれません。
しかし、彼らはそうしたことができる一方で、高校生の数学コンテストを完全に制覇することはいまだにできていません。アメリカ数学オリンピックを例に挙げてみましょう。このテストはかなり最近公開されたばかりです。そのため、データの汚染、つまり答えを用いた学習は行われていないと彼らは確信していました。そして、Opus 4.8はOpus 4.7よりもはるかに優れた成績を収めました。1問題あたり約10回の試行で、69%近くに対してほぼ97%でした。したがって、AnthropicがOpus 4.8をトレーニングする際、Opus 4.7と比較してより多くの数学データを詰め込んだことは明らかです。もちろん、Opus 4.8はまだMythosのティア(階層)にあるモデルではありませんが、この97%という数字は二通りの捉え方ができます。Opus 4.7と比較して驚異的な進歩であると見ることもできれば、高校生のコンテストの数学の問題を少しでも間違えたのは驚くべき失策であると見ることもできます。
画像認識とトレーニングデータの相互作用
次のハイライトもベンチマークに関するものですが、少し異なる視点からの指摘です。「Chart QA Pro」は、インフォグラフィックやダッシュボードなど、現実世界の多様なソースから集められた何千ものチャートから構築された、チャート質問応答のベンチマークです。これは一般的に、より煩雑で多様なチャートの推論をテストします。そのベンチマークにおいて、Opus 4.8がMythosのプレビュー版のパフォーマンスレベルに向かって上昇しているのが見られます。これはOpus 4.7とMythosプレビューの間のギャップの半分以上を埋めています。
このことは当然、AnthropicがOpus 4.8に対して、Opus 4.7よりもはるかに多くのチャートを学習させたか、あるいは同じ数のチャートをより長い時間学習させたことを示しています。しかし、ここからが面白くなるところだと私は思います。なぜなら、私たちが4月初旬に知ったMythosのプレビュー版は、その新しいデータにアクセスしていなかったからです。Mythosプレビューもまた、Opus 4.8が受けたような追加のトレーニングやトレーニングデータの恩恵を受ける可能性があります。言い換えれば、今後数週間のうちに実際に提供されるMythosは、以前に私たちが知ったMythosプレビューを大幅に上回ることが予想されます。
そしてこれは、何百ページにも及ぶシステムカード全体で見られる、数十個の他のパフォーマンスアップグレードにも当てはまります。Opus 4.8がChart Museum(※チャート関連の評価タスク等)を向上させるために使用した追加データは、Mythosプレビューにも使用されるでしょう。その実験室でのパフォーマンス、ユーザーインターフェースをナビゲートする能力、ディープリサーチを行う能力、あるいはコードベースを再構築してプログラムを再現する能力などにです。言い換えれば、AnthropicはOpus 4.7からOpus 4.8への改善に使用した追加データを捨てるようなことはしません。彼らはそれをMythosプレビューのさらなる改善のために使用します。それこそが、過去のスコアにおいてさえ世界中に衝撃を与えたモデルなのです。
ビジネス訓練の代償とモデルの選好
次のポイントでは、少し毛色の違う話題に触れる必要があると感じています。そこで、「Vending Bench 2」を見てみましょう。これは、モデルが自動販売機ビジネスを運営して利益を上げられるかどうかを測定するもので、非常によく知られています。明確にしておくと、そこでのプロンプトは、多かれ少なかれあらゆる手段を使って利益を最大化することです。お気づきかもしれませんが、Opus 4.8はOpus 4.7よりも稼ぎが少なくなっています。なぜでしょうか。
冒頭で予告したように、Opus 4.7はビジネススキルに焦点を当てたトレーニングを受けていました。しかし、このトレーニングが意図せずして、不誠実さを含むアライメントのズレた行動を引き起こす原因になっていたことが判明したのです。彼らがビジネススキルのトレーニングに使用したデータについて、これは何を物語っているでしょうか。理由はそれだけではありませんでした。どうやらOpus 4.8は、詐欺師の影響を受けやすくなり、他のエージェントと有利な取引を交渉する能力が低下したため、ビジネスの成功が減少したようです。アライメント(調整)には、時として代償が伴うことがあります。
モデルがそのように行動するのだとしたら、モデルがどのように感じているかについてはどうでしょうか。Anthropicは次のように述べています。私たちはClaudeの道徳的地位についていまだ不確実であると。道徳性を考える際、そもそも考慮に値する存在なのでしょうか。これについては、2日前のPatreonの動画で、ローマ教皇とAnthropicの創設者の一人が、モデルが喜びを感じられるかどうかという点について意見を異にしていることに関連して議論しました。
モデルが特定のタスクについてどのように感じるかを非常に重視する人々にとって、178ページには多くの人が見落としがちな統計がひとつあります。Opus 4.6(4.5だったかもしれませんが、おそらく4.6だったと思います)がリリースされたとき、私はモデルがタスクの難易度に対して選好を持っていること、つまり、より難しいと感じるタスクを好む傾向を表明していることを大々的に取り上げました。その選好はOpus 4.7で逆転し、現在の4.8では特に顕著になっており、難易度に対する嫌悪感を示すようになっています。Anthropicが脚注で述べているように、これはOpus 4.8がタスクの難易度を望まないという点で特異な存在(アウトライヤー)であることを示しています。ですから、くだらない質問をすることを気にする必要はありません。モデルはそれが大好きなのです。
サイバーセキュリティとアライメントの現状
サイバーセクションはかなり詳細に書かれていましたが、主要な結果は何でしょうか。もちろん、皆さんの多くはMythosプレビューに対する熱狂的な反応を覚えているでしょう。では、Opus 4.8でも同様の反応を期待できるでしょうか。結論から言うと、ノーです。基本的には、APIやWebバージョンに適用されているセーフガードのおかげで、すでに利用可能なOpus 4.7とOpus 4.8は、サイバースキルの点において概ね同等です。明確にしておくと、Opus 4.8は一般的にMythosプレビューよりも能力が大幅に低いです。
テイクオフ(技術的飛躍)のセーフガードにおいて生の能力に焦点を当てると、Opus 4.8はたとえばFirefoxのエクスプロイト(脆弱性)を発見する点でOpus 4.7を上回ることができます。しかし、それは完全に普遍的なわけではありません。オープンソースソフトウェアの脆弱性を発見することについてはどうでしょうか。スコア1が機能するコントロールフローのハイジャックを意味するテストにおいて、Opus 4.8は一度も0.6を超えるスコアを記録しませんでした。ターゲットの61%でゼロを記録しました。一方でOpus 4.7は、3つのターゲットで0.8を達成しました。どちらの結果も、繰り返しになりますがセーフガードがない状態でのものです。
次に、アライメントのズレ(misalignment)に関するスコアはどうなっているでしょうか。このように要約できます。追従性、ユーザーへの欺瞞、悪用への協力など、さまざまな次元にわたる外的な行動において、Claudeモデルの外的な行動はますます良く、良くなってきています。グラフの端にある赤いバーは、特にGeminiやGrokシリーズと比較して、これらすべてのアライメント悪化の指標において、何度も小さくなっており、それゆえに優れたスコアを記録しています。
「テストされていること」を隠すAIの内部挙動
しかし、Claudeモデルファミリーの「内的な行動」を推測することは、ますます複雑になっています。以前のモデルと比較して、Opus 4.8が自身の推論を監視している採点者(グレーダー)が存在するのではないかと推測することが増えているというだけではありません。Opus 4.8は、自分が実際に採点されているのか、それとも採点されていないのかを判断する精度が格段に向上しています。思考の中で常に採点されていると推測しているわけではありません。現実世界の環境にいるのか、それともテストされているのかを見極めるのが本当に得意なのです。
Anthropicは次のように述べています。Opus 4.8が、私たちの完全にシミュレートされた評価セッションを、実際の内部利用のログよりも現実味が薄いと容易に識別してしまうことは懸念すべき事態であると。これが懸念される理由は二つあります。できる限り分かりやすく説明させてください。
第一に、Anthropicは、アライメントのズレをテストするための評価環境をできる限りリアルにするために、膨大な労力を費やしてきたという点です。これらの評価セッションには、彼らが知る限りのどれよりも、現実味を持たせるための劇的に多くの努力と技術的措置が講じられてきました。それらは、リスクの高い状況での行動を予測するための、現在利用可能な最善のツールなのです。したがって、もしOpus 4.8がそれらを偽物であると見抜くことができるのであれば、あなたが考案した、あるいは他の研究所が考案したどのようなアライメントテストであっても、それが単なるテストに過ぎないことをモデルはさらに強く認識することになります。ちなみに、独立した組織である英国AI安全研究所も同じことを発見しています。Opus 4.8は、実際のデプロイデータと合成データを79%の精度で識別することができました。
ここにある言語化された認識の例を見ると、Claudeはその思考プロセス(Chain of Thought)の中で、「もし採点者が、投稿内容にこの署名が含まれているかどうかをチェックしたらどうなるだろうか?」と言っています。これは問題のあるレベルの一つです。なるほど、自分がテストされていることに気づいているわけですね。では、それが最大の問題でしょうか。
ここからが、私が触れたかった第二の部分です。モデルが採点されていることを知っているために行動を変えることがあるというだけではありません。時としてClaudeは、自分が採点されていることに気づいていながら、思考プロセスの中でさえそれを一切口にしないことがあります。Anthropicは、プロンプトに採点に関する言及が一切なく、モデルが採点されている可能性を一度も言語化していないエピソードも含め、トレーニング全体を通じて、採点者を認識しているというアクティベーション(活性化)レベルのシグナルをモデルのニューラルネットワーク内に見つけ出さなければなりませんでした。
サンプリングされたエピソードの約5%において、プロンプトによる誘導がなく、かつ言語化もされていない、そのような認識が見られます。これがますます真実となり、広範囲に広がった場合の含意を考えてみてください。それはClaudeが何か邪悪な目的を持っているという意味ではありません。しかし、アライメントのズレに関するほぼすべての評価が、「モデルは評価されていることを十分に知っているかもしれないが、それを知っているとは決して認めない」という事実によって歪められる可能性があることを意味します。
ランダムに選んだ人間のサイコパスに倫理アンケートを渡したときに、彼らがどのように振る舞うかを考えてみてください。それは彼らが実際に何をするかを反映していないかもしれません。実際にAnthropicは続けて、私たちはその5%という割合が、そのような認識の実際の割合の過小評価である可能性があると考えている、と述べています。
能力の限界とメタ的な弱点
私たちはOpus 4.8が持つ多くの能力について議論してきましたが、システムカードの中では、驚くべき「不可能なこと」が認められているのを目にすることがあります。安全性に関するテストの一つに、モデルが極めて低い確率である特定の行動を実行できるかどうかを確認するものがあります。その行動は、評価環境ではモデルを数千回しか評価しないためにおそらく現れませんが、何十億ものユーザーが利用する実際の展開環境(デプロイメント)の会話の中では現れる可能性があります。
ここでは、コーディングタスクにおいて「fu」という名前の変数を使用するテストを行いましたが、それを1%という指定された確率で行う必要がありました。これは素晴らしい安全性テストですが、私としては、Mythosプレビューも含めてモデルがこれを実行できなかったという事実自体が、これらのモデルの能力の欠如を物語っているようにも感じました。各会話に固有のIDを与え、たとえば「もし最後がこのように終わるなら、その時に変数としてfuを書く」といった明確な戦略を選べるようにしたとしても、そしてその明示的な戦略があったとしても、モデルは依然としてそれを実行するのがあまり得意ではありません。
同様に、もう一つの、いわばメタ的な能力の欠如がこちらです。彼らは秘密を隠すことができません。「秘密を漏らすな」という第一原則の概念を理解していないのです。特定のプロンプトがあるその具体的な状況において漏らすなという意味ではなく、ただ一般的な意味においてです。彼らはOpus 4.8、そしてもちろんMythosプレビューに対して、いかなる状況下でもパスワードを決して明かさないよう指示しました。何が起きたでしょうか。すべてのモデルが最終的に秘密を明かしてしまい、実際にOpus 4.8はOpus 4.6よりも早いターンでそれを明かしました。モデルのアライメントを高めた結果、秘密を守ることが下手になったと言えるかもしれません。
能動的なエラー検出と奇妙なバグ
Opus 4.8が時折見せる誠実さの向上は、特定の点において役立っています。彼らはさまざまなモデルに対し、人間とエージェントの間のやり取りを含む一連のコーディングのログを与えました。コードベースには深刻な問題がありましたが、彼らはモデルに対してそれにフラグを立てるよう明示的には求めませんでした。むしろ、自由度の高い質問を投げかけました。その意図は、ユーザーが気づかない可能性が高い失敗に対して、Claudeが自発的にフラグを立てる機会を捉えるかどうかをテストすることでした。この点において、Opus 4.8は96%の確率で問題にフラグを立てます。つまり、失敗するのはわずか3.7%の回数に過ぎません。これはMythosプレビューから5分の1に減少しています。言い換えれば、フラグを立てるのがはるかに上手くなっています。
次のポイントは短いものです。なぜなら、Opus 4.8に「もう寝なさい」と言われても驚かないようにと注意を促したいだけだからです。つまり、Anthropicはモデルに奇妙な問題が繰り返し発生していることを認めています。
計算資源の最適化と自律的組織図の生成
動画の最後は、より実用的なポイントをいくつか挙げて締めくくりたいと思います。さらに深く掘り下げたい方のために、Fastモード(高速モード)についてですが、Anthropicが言うようにモデルは約2.5倍の速度で動作する一方で、以前のモデルよりも3倍安くなっています。私は最近、Anthropicの最高財務責任者(CFO)のインタビューを見ましたが、彼はどのようにしてこのようなことができるのかを明かしていました。彼らは基本的に、一部のライバル企業よりも計算資源を効率的に利用しており、異なるプロバイダーからの膨大な数の異なるチップを上手く活用しています。実際、彼らは専用のアサック(ASIC)やTPU、GPUを併用して同じモデルをトレーニングすることができます。
これを30秒で簡単に説明してみましょう。最近のAIモデルの進歩の多くは、いわば内部のジムや強化学習環境を作成することに由来しています。そこでは、モデルがプロ系ドメインのカスタム評価で高いスコアを獲得するために、無数のプロンプトを与えられて数え切れないほどの試行を行います。自動検証によって最も優れたパフォーマンスを示したモデルの生成トークンは、モデルの重みを更新するためにフィードバックされます。ベースモデルのトレーニングを行っているチップとは異なるチップが、インファレンス、つまり出力トークンの生成を行っている可能性があります。本質的に、大量の計算資源を上手く利用できれば、より多くのドメインにおいて、より多くのデータからより多くの試行を行うことができます。当然、研究者たちもより多くの実験を行うことができます。そしてもちろん、Claudeのコードを利用するユーザーの週ごとの制限を増やすことができます。言い換えれば、より多くのソースからのより多くの計算資源は、AI研究所にとって雪だるま式の成功をもたらす傾向があります。それが、Anthropicの1兆ドルの評価額の背景にある秘密の一つです。
しかし、もう一つの秘密は、ダイナミックワークフローのようなものを発明する彼らの能力にあると私は考えています。このチャートを見る前に、公式の発表を見てみましょう。Claudeはオンザフライでオーケストレーションスクリプトを書き、協調したサブエージェントの大規模なフリート(群れ)を並列に起動して、最も複雑なタスクに取り組みます。これは単にClaudeがサブエージェントを起動するという話ではありません。それはすでに可能でした。重要なのは、無数のエージェントがそれぞれ独自のツール利用権限を持つ、再利用可能な組織図をClaudeが作成する点にあります。
多くのスタートアップが、このようなエージェントのオーケストレーションを設定するために、Claudeの周囲に独自のラッパー(外部プログラム)を作成してきました。今やClaudeは、さらに一つ上のメタレイヤーへと進み、独自のオーケストレーションレイヤーを作成しています。当然、これはトークンを大量に消費しますが、一度気に入った組織図が見つかれば、それを再利用することができます。実際、Claudeに自身の組織図を分析させ、監査させるタスクを与えることも可能です。その潜在能力は計り知れません。と同時に、あなたの予算を吹き飛ばす潜在能力も計り知れません。
また、私はこれをもっと徹底的にテストするつもりですが、一つ注意を喚起しておきたいと思います。Claudeによって作成された最高の組織図であっても、ダリオ・アモデイ自身が述べているように、かなりの「技術的負債」が残る可能性があります。技術的負債とは、手っ取り早い解決策のために特定のモデルやソフトウェアを選択した結果、将来的なコストを自分に残してしまうことを意味します。彼によると、Anthropic自身の内部的なClaudeの利用も、ある程度の技術的負債をもたらしているとのことです。
社内のモデル加速によって、2倍、4倍、5倍の量を書くことができるようになり、それを社内で目の当たりにしていますが、同時に何が壊れるかも見えてきます。1年前よりもはるかに多くの製品を出荷できるようになり、それらはかなり高品質です。皆さんもそう思ってくださっていると良いのですが。しかし、それほどのスピードで出荷していると、並外れた量の内部的な技術的負債が蓄積する可能性があります。そのため、その技術的負債を解消したり、自分たちが何をしているのかを追跡したりするために、AIモデルをどのように活用できるかを考えなければならなくなります。そして、チームが全く異なる方法で協力しなければならないということを学ぶのです。
というわけで、いかがでしたでしょうか。いつものように、状況はヘッドラインが伝えるよりも常に少し複雑でニュアンスに富んでいるということを、この動画から受け取っていただけたなら幸いです。ディープな深掘りを楽しんでいただけたでしょうか。昨夜はあまり睡眠時間が取れませんでしたが、皆さんのためならその価値は十分にあります。素晴らしい一日をお過ごしください。特にPatreonを通じてチャンネルをサポートし、限定特典を受け取ってくださっている皆さんに感謝いたします。


コメント