Anthropic社からリリースされた最新AIモデル「Opus 4.8」の真の実力と、AI業界における現在の競争環境を解説する内容である。一見すると強力な性能を持つOpus 4.8だが、実務での日常的なツール(デイリードライバー)としては課題が残る。その最大の要因は、思考プロセスにおいて「考えすぎてしまう」という特有の挙動にあり、従来のモデルに比べて出力の予測可能性が低下している。また、現在のAI利用においてはモデル単体の賢さだけでなく、周辺システムやインターフェースである「ハーネス」の完成度が重要である。OpenAIの「5.5」と開発環境「Codex」の組み合わせが持つ実用的な優位性を具体的な検証事例を交えて示し、柔軟なシステム構築の必要性を説いている。

Opus 4.8の評価を誰もが誤解している理由
誰もがOpus 4.8に関する話を誤解しています。そして、私たちがそれを誤解してしまうのも無理はないと思います。なぜなら、私たちは2025年の常識に囚われているからです。2025年のAIの常識とは、基本的に新しいモデルがリリースされること、つまりOpenAIやAnthropicが新モデルを投入することでした。そして新しい最高基準が確立され、それによって何が可能になるのか、何が解放されるのかといったことが議論されていました。しかし、私たちはすでに別の競争ステージに立っています。そのことが最も明確になったのが、5月28日の木曜日に4.8がリリースされたときでした。何が起きたかというと、このOpus 4.8はある意味では、そしていくつかの測定基準においては、現在市場にある中で最も強力なモデルです。ですが、だからといって、それがあなたにとって最高で最も役に立つモデルであるとは限らなくなったのです。そこで、実際に何が起きているのかを詳しく紐解いていきたいと思います。このモデルが多大な価値をもたらす部分とそうでない部分、そして大型モデルの今後の方向性を示すものとして、人々がまだ十分に語っていないいくつかのニュアンスについてお話しします。そして、残された2大巨頭であるOpenAIとAnthropicの競争の現状について本音で語り合いましょう。
まず理解しておくべき第一のポイントは、4.8は誰もがAnthropicに期待して待っている本命の大型モデルではないということです。まずこの不都合な真実をはっきりさせておきましょう。誰もがMythosを待っていますよね。誰もがMythosに期待しています。Mythosは歴史上で最もじらされているモデルのリリースです。4.8がこのタイミングでリリースされた本当の理由は、彼らがその日に発表しなければならない資金調達のニュースがあり、非常に古典的な手法、つまり多くの分野で首位を獲得する新モデルのリリースと、多額の資金調達の成功を同時にアピールしたかったからです。それが、彼らがあのタイミングで4.8をリリースした理由です。カレンダーのタイミングはそれが理由であり、リリースできる最高の新モデルが完成したからではありません。そして、その違いはテスト結果にも表れていると思います。
ご覧の通り、4.8は、モデル開発会社がトークンを消費してくれるからという理由で執着している、長時間のタスクにおいて真の進歩を遂げています。そう、あの長時間実行されるエージェント的なタスクのことです。モデルはそれをうまくこなします。4.7に比べて注意を払い、タスクに集中し続ける能力が向上しています。これは私が4.7で気づいていた弱点でした。それは素晴らしいことです。しかし、これは誰もが期待し、彼らに望んでいたような、そして彼らが提供するための計算資源を持っていないのではないかと誰もが疑っている、Mythosのようなモンスター級のインテリジェンスを持つスーパーモデルではありません。ですから、4.8を捉える正しい視点としては、プレースホルダー、つまり繋ぎのリリースのようなものだと考えるべきでしょう。資金調達の発表のためにリリースが必要だったのです。今や時価総額は1兆ドル近くに達し、多額の資金を調達した彼らは、自分たちがまだレースに残っていることを示す必要があり、進歩を遂げて成果を出し続けていることを証明する強力なチェックポイントのモデルをリリースした、というわけです。そして誰もが依然としてMythosを待ち続けることになります。
日常ツールにならない2つの決定的な要因と「考えすぎる」AI
しかし、皆さん、それすらも本当の核心ではありません。本当の核心は、このモデルがどれほど優れていようとも、私の常用ツール、つまりデイリードライバーにはならないということです。そして、非常に大型のモデルに関して2026年に入り込んでいるいくつかの奇妙なダイナミクスを浮き彫りにする2つの重要な違いのせいで、多くの人々にとってもデイリードライバーにはならないでしょう。このことについてはオープンかつ正直にお話ししたいと思います。なぜなら、2026年におけるモデルのリリースや開発の仕組みは、2025年とは大きく異なっているからです。
多くの人々にとってこれが常用ツールにならない原因となっている最初の大きな要素は、推論の負荷をスケールアップさせたときに、予測可能な動きをしないという点です。ここ1年以上の間、私たちは推論の負荷を上げればより良い結果が得られると言われ続けてきました。誰もがそう言っています。コストは高くなるかもしれないが、より良い結果が得られると。しかし、4.8においては、それが予測通りにはいかないようなのです。推論レベルを彼らがマックスと呼ぶ最大値まで引き上げることが最善の選択肢となる状況もあれば、ハイ(高)を選択した方が良い結果をもたらす状況もあります。これは非常に混乱を招く話です。なぜならハイはマックスよりも低いレベルだからです。そしてそれは、私たちがOpenAIのモデルで経験しているような推論のスケールとも明らかに異なります。現在、OpenAIの推論モードをエクストラハイに引き上げると、より優れたパフォーマンスを発揮します。予測通りに性能が向上するのです。それは製品の選択肢として非常に理解しやすく、私にとってありがたいことです。
ちなみに、これは私が感覚だけで言っていることではありません。それを示す明確なテスト結果があります。Vending Benchというベンチマークが公開されました。Vending Benchは、AIが自動販売機の運営という実際のビジネスをどれだけうまく実行できるかを示すことで有名なベンチマークです。Opus 4.7はこのテストで非常に優れた成績を収めました。しかし、Opus 4.8はそれよりも成績が落ちたのです。皆さん、4.7よりも悪化、つまり退化してしまったのです。そしてこれは、思考モードをハイにしていようがマックスにしていようが同様でした。さらに非常に興味深いことに、Vending Benchにおいては、4.8のハイモードが4.8のマックスモードを上回ったのです。言い換えれば、もしあなたが今、AIを使って自動販売機を運営しているなら(実際にそんなことをしている人を私は多く知りませんが、実務的なビジネスに焦点を当てた素晴らしいベンチマークです)、4.7を使うべきだということです。4.7は他のすべてを圧倒しています。そしてもし4.8を使うのであれば、より賢くない方のバージョンであるハイを使うべきです。なぜならマックスは良くないからです。
倫理観への過剰適応とローマ教皇の支持
そしてこの現象は、Anthropicチームの現在の方向性が抱える、より大きな問題や課題の1つにつながっていると考えており、私たちはこれについてもっとオープンに議論すべきです。4.8は、ある事象が整合しているか、つまりアライメントされているかどうかを非常に深く考えるモデルです。原則として、より強力なモデルが社会的に整合していることを望むのは当然ですし、それについては理解できます。しかし、モデルが考えすぎてしまうと、かえって効果が薄れることがあるのです。
ちなみに、この話は過去1週間ほどの間に起きたもう1つの大きな出来事とも結びついています。それはもちろん、Anthropicの共同創業者の1人が、ローマのバチカンで教皇がAIに関する回勅を発表した場に同席していたことです。実質的に、教皇はAnthropicの陣営を選び、彼らこそが自分の目指す方向性と合致した哲学的な思考をしている人々だと述べたのです。Anthropicは、AIを正しい形にする方法について膨大な時間を費やして考えています。そして、それについては私が賞賛する点がたくさんあります。アマンダ・アスケルがClaudeの憲法に関して行った仕事には多大な敬意を払っています。それは人間らしさを理解しているかのような、親しみやすい血の通った感覚を与えてくれます。もちろん、本当に理解していると言っているわけではありません。ただ、モデルを育てるアプローチ、彼らはモデルを製造するのではなく育てるアプローチをとっているため、人文学を理解しているかのような感覚があり、それがフロントエンドのデザインセンスといった言語化しにくい部分や、ロボットっぽさを感じさせない文章を書く能力などに表れていると言いたいのです。
しかし、そのアプローチは行き過ぎてしまうことがあります。私が見る限り、4.8は少し行き過ぎてしまったようです。なぜなら、4.8のマックスモードから出力される推論のトレース(思考プロセス)を確認すると、モデルが自己の思考のループに陥り、特に憲法に関する問いについて考えすぎているように強く見受けられるからです。つまり、何を発言するのが正しいか、自分の憲法にどう適合させるか、といったことです。ある比較的シンプルな指示を出し、4.8のマックスモードの推論トレースを抽出したところ、モデルが「温かみのある段落を書かなければならない」とか「より大きな憲法上の問いに整合させなければならない」とか「アマンダ・アスケル、そして彼女の好みを意識しなければならない」といったことを自問自答していたのです。彼女自身、自分の特定の好みがモデルの思考パターンに記録されることを望んではいないでしょうから、これは少し滑稽なことです。どちらかと言えば、彼女が今やかなり有名な人物になり、インターネット上でClaudeをどのように形作ってきたかについて大きな対話を行ってきたため、彼女の公開された発言の一部がモデルのデータに混入してしまっているのではないかと思います。どうなるかはこれから分かりますが、それは私の推測です。しかし、どのように解釈するにしても、4.8は自問自答をしすぎるあまり、効果が低下しているのです。
そして、これは全面的な話ではないにしても、重要なポイントです。誤解しないでほしいのですが、私が4.8は何の役にも立たないと言っているわけではありません。特定のタスクにおいては非常に優れており、それについてはすぐに説明します。問題は、考えすぎるという課題を抱えている場合、その挙動を予測してデイリードライバーとして安定して使いこなすことが難しいという点です。もしAIが不規則に考えすぎてしまうのであれば、それを信頼して日々のメインツールにできるでしょうか。
モデルを活かす「ハーネス」の重要性とCodex 5.5の優位性
ここで、私が主張したい2つ目のポイントに入ります。デイリードライバーとしての実用性は、ますます「ハーネス」の機能に左右されるようになっています。私はよくハーネスについて話しますが、これを非常にシンプルかつ明確に説明したいと思います。ハーネスとは、モデルの周囲を囲む製品の形状や枠組みのことであり、それによってモデルを使って有用な作業を行うことを可能にするものです。具体的に、そして非常に明確に比較してみましょう。Codexにおける5.5と、Co-workやClaude Codeにおける4.8の比較です。
1月に大きなブレイクスルーをもたらした要因の1つは、Claude Codeが開発者にとって極めて人間工学的に優れていたことでした。シェルやターミナルでプレーンテキストを入力するだけで、やりたいことを実行できました。Claudeはただそれを理解してくれたのです。そこからさらにサブエージェントへと発展し、Ralphループ(自己ループ処理)へと突入していきました。そのため、モデルは自律的に動き、大きなタスクをこなすことができたのです。物事が変わるスピードの速さには驚かされます。なぜなら、1月や2月にあれほど快適に感じられた世界は、本質的には変わっていないからです。それは今でも当時のままです。多くの点で今でも素晴らしいものです。
しかし、ゲームのもう一方のプレイヤーであるOpenAIからも、当然ながら開発とアップデートが継続されています。もしあなたが、モデルの能力の限界にあるような、複雑で困難な仕事に取り組もうとしているなら、そしてその限界は1月の時点よりもはるかに進んでいるのですが、1月以降にどれほど多くのものが進化し、エージェントの跳躍がどれほど大きくなったかは、いくら強調しても足りません。これがエクセルの表には表れないことは分かっています。パワーポイントの資料にも出てこないことも分かっています。私が「エージェントを使えばもっと多くのことができる」と言ったとき、人々が目を丸くして「それが私の火曜日の業務にどう役立つんだ」と言うのも分かります。しかし、これらのモデルを限界の領域で動かしている人間にとって、その差は完全に目を見張るものです。そして、そのことについて正直になることは本当に重要だと思います。なぜなら、それが私たちのワークスペースの快適さを形作り、最終的にはハーネスの話に戻ってくるからです。
2026年の5月下旬から6月という現在の視点でハーネスと、それがどのように役立つかを見る場合、私たちがモデルに与えているタスクには、もはやRalphループのような特別な自己ループは必要ないということを認識しなければなりません。なぜなら、モデルは仕事が終わるまで走り続けるべきだと自分で理解しているからです。タスクにとどまるための特別な手助けは必要ありません。また、長時間実行されるタスクを適切にこなすことを重視するモデル開発者によって訓練されているため、成果物をレビューするための特別な手助けもますます不要になっています。その結果、かつて私たちがハーネスの役割として関連付けていた多くの機能が、非常に大きく進化しているのです。
そのため、今日4.8と5.5を比較する場合、それらをどのタスクに投入するかで比較しなければなりません。そして正直なところ、中にいるモデルが何であるかに関わらず、現在のCodexにおける5.5は、4.8に比べてはるかに強力なハーネスとなっています。私がそれを実感しているのは、4.8と5.5をそれぞれのハーネスで実際に使ってみたからです。4.8の方がより深い洞察を持っている部分や、4.8の方が優れたフロントエンドのセンスを持っている部分、4.8の方がそのままの状態で優れた文章を書ける部分があるのは目に見えて分かります。それでも、私は最終的にCodexの5.5に戻ってきてしまうのです。その率直な理由はハーネスにあります。
実務検証:Webサイト構築で見えた実行力の差
ここで、このハーネスの具体的な側面をいくつか挙げたいと思います。それを挙げる理由の1つは、この領域での競争がもっと活発になってほしいからです。私がOpenAIを選んでいるのは、お気に入りを贔屓しているからではありません。行動として、それが今の自分にとって最も機能しているから選んでいるに過ぎません。これらの大きな長時間実行されるタスクを行う場合、ハーネスの重要な側面の1つとして、参考までに私は1日に2時間、3時間、4時間、5時間、あるいは6時間かかるタスクを複数動かしているのですが、モデルに大きな目標を投げれば、あとは勝手に実行してくれます。この点において、現在OpenAIがいる地点とAnthropicがいる地点の間には比較にならないほどの、非常に大きなギャップが存在します。もしあなたが大きなタスクを扱うのであればその差は歴然です。
「ネイト、あなたの言う大きなタスクとは何ですか、どうやってやっているのですか」と思われている方のために、例を挙げましょう。昨日、4.8と5.5の検証作業の一環として、私は両方に、私が所有しているあるMarkdownドメインのためのウェブサイトをエンドツーエンドで設計し、構築するというタスクを与えました。「ただこれを作ってくれればいい。リマインドもしたくないし、検証ステップをわざわざ指示したくもない。単一ページのウェブサイトではなく、ちゃんとしたものを作ってくれ」という風に頼んだのです。
その結果分かったのは、計算資源の可用性の問題から、4.8はエラーを起こしてしまい、一度に複数のタスクをこなすことができず、実行に途方もない時間がかかったということでした。一方で5.5に頼んだところ、それらのサイトを2つ同時に構築することができました。比較的素早く構築されたのです。初期のデザイン自体はそれほど気に入りませんでしたが、私には手戻りをする時間がありました。そこでChatGPTの画像モードに行き、「5.5、最初のデザインは気に入らないから、ChatGPTの画像モードに頼んで、ダサくない、デザイン性の高いフロントページのPNG画像を生成してもらう。それをあなたにフィードバックするから、この画像を見てウェブサイトを改善してくれ」と伝えました。こうして私は2つのウェブサイトを完成させ、ドメインへ完全にデプロイし、DNSのネームサーバーの割り当てまで終えるというイテレーションのループを、5.5を使って2回完了させることができました。4.8が2回エラーを起こして動かなくなっているのと同じ時間の中で、です。こればかりはどうしようもない事実です。
さらに、もっと細かいこともあります。5.5に対して「私のファイルの中からXかYを探してくれ」と言えば、ただそれを実行します。5.5は私のコンピュータ全体を把握しており、整理することができます。しかし、Macのデスクトップアプリで4.8に「私のファイルを見てください」と頼むと、「おっと、ダウンロードフォルダとデスクトップしか見えません。それだけです」と言ってきます。そして、「これら他のファイルも見たいとお望みのようですので、アクセス許可をいただけますか」といった主導権を握るような提案をしてくれません。これらは、2026年にAIを使って構築を行う者にとって、長時間の大きなタスクをこなすことを困難にさせる細かな不満点です。
企業のCTOやCIOの方々にとっては、信じられないような話に聞こえるでしょう。「なんてことだ、つい先日Anthropicとの契約を締結したばかりなのに」と頭を抱えている知人を私は何人も知っています。私はそれが悪い選択だったと言っているわけではありません。非常に重要な認識として、予算の膨大な割合をこのレースの特定の1頭の馬だけに縛り付けてしまうと、会社を成功に導くことは難しくなります。予算は、あなたが推進したい具体的な成果に対して結びつけるべきです。そして、それらの成果に対して最も機能するモデルに向けて予算を配分すべきなのです。極めてシンプルな話です。したがって、ハーネスやモデルを利用する際には、それらがうまく機能しないときにいつでも差し替えられるような状態にしておくべきです。APIを切り替えるだけで、作業は完了、それで終わりです。
ですが、皆さんには特定の勝者を決めつけないことを強くお勧めします。私も勝者を決めているわけではありません。OpenAIが常に最高機能を発揮し続けると言っているわけでもありません。そんなことは分かりませんし、前提にもしていません。むしろ歴史が示しているのはその逆です。歴史は、これからもデッドヒートが続くことを示唆しています。近いうちに、Mythosがようやくリリースされたことで、Claudeがいかに素晴らしいかについて私が熱弁を振るっているかもしれません。私はその可能性に対してもオープンですし、それを楽しみにしています。この競争のストーリーが好きですし、競争があることは私たち全員にとって良いことです。しかし現時点では、4.8は考えすぎて予測不能な、チェックポイントとしてのリリースという印象を与えます。そして、ハーネスに組み込まれた5.5の例はその側面を多く物語っています。5.5はファイルを取得し、4.8が考えて考えてエラーを起こしている間に、業務全体を2回も完了させることができました。こうした違いが重要なのです。もし私がハーネスに組み込まれた5.5を使って2つ、3つ、4つ、5つ、あるいは最大10個の同時スレッドを走らせることができ、一方でClaudeが大きなタスクで1つや2つのエラーを起こしてしまうのであれば、申し訳ありませんが、モデルがどれほど賢かろうが、それを選ぶわけにはいかないのです。
新機能「/workflows」が示す2026年のエージェントの方向性
しかし、4.8が優れている点についても話すとお約束しました。ここで非常に重要だと思う機能を1つ取り上げたいと思います。Claude Codeの4.8リリースと同時に登場した「/workflows(ワークフロー)」というコマンドは、非常に興味深いコマンドです。2026年におけるエージェントの面白い方向性を示していると思うので、あえて名前を挙げます。おそらくこの機能は真似されることになるでしょう。なぜなら、Anthropicによるこうしたイノベーションは、往々にしてそのまま模倣されるからです。
かつてワークフローを実行する際には問題がありました。Claudeに対して「これが実行してほしいワークフローだ、これが動かしてほしいサブエージェントだ」と決定論的に細かく指示を出すか、あるいは仕事の進め方を完全にClaudeの裁量に任せるかの二択だったのです。しかし後者の場合、中身の可視性が得られませんでした。「/workflows」コマンドが呼び出すのは、その中間にある非常に興味深い状態です。
Claude Codeで「/workflows」コマンドを使用すると、「ワークフローを作成してください」と指示することができます。するとClaude 4.8は問題を思考し、複数のエージェントを組み合わせたワークフローを構築し、そのワークフローをユーザーに開示した上で、その動的なワークフローに沿って各サブエージェントにタスクを割り振っていきます。これにより透明性が得られます。エージェントが仕事全体を完了させるために、どのようにタスクに取り組もうとしているのかを目で確認できるのです。このパターンは、2026年の夏にかけて、個人の生産性を高める多くのエージェントで模倣されるようになると思います。なぜなら、単純に理にかなっているからです。現時点ではCodexを使ってすら、そのようなことはできません。これは独自のアドバンテージです。すぐに真似されるでしょうが、今のところはOpus 4.8固有の機能です。素晴らしいイノベーションであり、チームに拍手を送りたいと思います。素晴らしいアイデアです。
個人の生産性と組織のパイプラインの接続、そして「ダークファクトリー」
しかし、この話は2026年にモデルの動向をカバーする上での、より大きな課題の1つにつながります。それは4.8にも当てはまりますし、おそらく今後のすべてのモデルにも当てはまるでしょう。私たちは現在、個人向けの生産性向上エージェントに対しても、組織やチーム規模で構築しているより大きなワークフローに対しても、「エージェント」という単一の言葉が使われている世界にいます。これは非常に混乱を招きますよね。なぜなら、「これが自分にどう影響するのか」という問いに対する答えは、あなたが職場でそうした大規模なパイプライン(例えば請求処理のパイプラインのようなもの)の構築を任されている立場なのか、それとも自分のチーム内での個人の生産性を高める役割なのかによって異なってくるからです。
「/workflows」は、そうした組織の大規模なパイプラインで自動的に機能するコマンドではありませんが、コーダーや開発者としてチーム内での自分の作業を拡張する場合には機能するコマンドです。個人の生産性は向上させることができます。2026年の夏の大きなテーマの1つは、これら2つの要素をどう繋ぐかという点です。
例えば、あなたのエンジニアリングチームのために、エージェントを活用した本番パイプラインを構築しようとする場合、チケットシステムであれリポジトリであれ、単一のソース・オブ・トゥルース(信頼できる唯一の情報源)に対して、個々のエンジニアが生産性を発揮しつつも、その個人の生産性がより大きな成果へと積み上がっていくように、どうエージェントを配置するかを考えなければなりません。そして、本当の意味での可能性が解放されるのは、初期のエンジニアリング作業の後に続くパイプラインの残りの部分全体を、最初から「エージェント・ネイティブ」として機能するように設計し始めたときです。人間への不格好な引き継ぎの段階で停滞してしまうのとは対照的です。
私はUberがトークンの消費量について不満を漏らしているのを見たときに、この現象を目にしました。また、Claudeのトークン消費量に不満を持っている多くの経営層の人間が情報をリークしています。私が指摘したのは、個人の生産性のためにエージェントを構築することと、システム全体でネイティブに機能するエージェント・パイプラインを構築し、その下流の生産性を妨げる人間への引き継ぎを徹底的に排除していくことの間には、大きな違いがあるということです。なぜなら現在、私たちは「積み上げ問題」に直面しているからです。エージェントは下流の工程に向けて大量の仕事を積み上げてしまいます。もしシステム内を移動するそのボトルネックを管理する方法を見つけられなければ、システムのどこかで人間がレビューしなければならない巨大な仕事の山ができてしまうだけです。エージェントはコンテンツを生成するのがあまりにも得意であるため、それ以外の回避策はありません。
ですから、私たちがワークフローや4.8について話すとき、エージェント・ネイティブなパイプラインを持っていない場合、その積み上げが加速してしまうことを理解する必要があります。リーダーシップ、特にエンジニアリングのリーダーシップに就いている方は、これを非常に真剣に考える必要があります。より「ダークファクトリー(無人化工場)」的なアプローチに近いエージェント・パイプラインをどのように構築するか、ということです。
ここで言うダークファクトリーとは、簡単に言えば、エンジニアリングチームからプルリクエスト(PR)が提出されると、エージェントがマージの衝突を処理し、エージェントが1次、2次、3次のPRレビューを担当するような仕組みのことです。本番環境での結果を実際に観察し監視するのもエージェントであり、このシステム全体において他のエージェントの仕事をレビューするのもエージェントです。すべてがそのように定義されていなければ、仕事は持続不可能なレベルで積み上がってしまいます。
これは、人間が関与しなくなるという意味ではありません。人々はそう誤解しがちですが、そうではないのです。人間が「イン・ザ・ループ(プロセスの中)」にいるのではなく、ますます「オーヴァー・ザ・ループ(プロセスの上)」に位置するようになり、ループ全体を監視し、設計し、より効果的なものにしていく役割を担うという意味です。「/workflows」コマンドは、そうした思考を持っていなければ、下流での仕事をさらに増やすだけになってしまいます。
ナレッジワーカーへの提言と将来への柔軟なシステム設計
この話は、ナレッジワークの側面にも関わってきます。もしあなたがナレッジワーカーであり、コーダーではないものの、現在の環境ゆえにコードの周辺業務に関わっている状態であるなら、あなたができる最善のことは、自分の仕事をそのコードの流れと同じように捉えることです。そして、これらの新しいモデルのリリースを見て、「自分はこれらの新モデルを使って、同僚のために持続不可能な形で下流の仕事を増やしてしまっていないだろうか。あるいは、ビジネスの最終的な成果に向けて前進を加速させるために、これらを熟考された方法で使えているだろうか」と自問することです。なぜなら、その問いこそが、2026年後半の企業にとって最大のテーマになるからです。企業が求めているのは成果です。では、どうすればその先手を打ち、思考を巡らせることができるでしょうか。
その点を考え、この動画を通じてお話ししてきたハーネスの問いへと立ち返ったとき、私にとって非常に魅力的なのは、Codexのハーネスがより「自己認識」を持っているという点です。ですから、私はCodexと対話をしながら、「チームで推進したいこの成果について、一緒に考えてほしい。持続不可能な負担を生み出すことなく、より効果的に仕事を行うための自動化を設定したい」と伝えることができます。Codexはそれについて一緒に戦略を立て、考え抜くことができます。Codexには、コンピュータ・ユース(PC操作機能)を実行し、ファイルを処理する能力があり、あなたがそれを考える手助けをしてくれます。
Anthropicが苦戦してきた、コンピュータ・ユースを必要とする例を1つ挙げましょう。4.8のコンピュータ・ユースのスコアが非常に優れていることは知っています。5.5よりも優れているとされていますが、実務においては、コンピュータ・ユースを備えたCodexのハーネスの方が迅速かつ確実に動作します。そして、その差が決定的な違いを生むのです。私はCodexに、コンピュータ・ユースや内蔵のCodexブラウザを使って、「チケットの仕分けを行っている同僚たちが圧倒されないような出力フォーマットになるように、この自動化を設定してくれ」と頼むことができます。するとCodexはそれを実行し、提案のテンプレートを作成してくれるので、お互いの認識を合わせた上で自動化を設定できます。私が席を外して、外の芝生に触れてリフレッシュしている間でも、コンピュータ上で確実にそれを実行してくれるのです。そうです、私もたまには外に出てリフレッシュします。そして、Claudeは現時点ではまだその領域に達していません。
ですから、Opus 4.8に対する私から皆さんへの見解としては、AIを活用した業務において、モデルそのものよりもハーネスについてより深く考えるべき段階にいる、ということです。これこそがこの動画全体を通じてお伝えしたかったことです。4.8は非常に優れており、繰り返しますが、フロントエンドのデザインや文章作成においては非常に優れています。これらはOpusの系譜、そしてClaude全般の伝統的な強みです。しかし、あなた自身のゴール、やりたいこと、推進している成果について考え、それがあなたにとってデイリードライバーになり得るかという点に立ち返る必要があります。
もしあなたがナレッジワーカーであるなら、自分の成果がどこから生み出されているのかをますます自問すべきです。文章作成の支援やフロントエンドのデザイン支援が必要な方で、それが大量のボリュームであるなら、Codexを使ってそのギャップを埋めるマクロ的なスキルを構築するか、あるいは私がウェブサイト構築でやったようにChatGPTと連携して作業する必要性が高まるでしょう。それほど大量のボリュームでないなら、Claudeを使用することは大いに理にかなっています。なぜならネイティブにそこに存在し、扱いやすいからです。
もしあなたがエンジニアであるなら、統計的に見て(いくつかの調査の数字を目にしていますが)、約70%の人々がClaude Codeを使用しており、25〜30%ほどがCodexを使用しています。そしてその数字は変動しています。残りの部分は、オープンソースのモデル群が集まっているセクションです。自身のツール群を見直し、個人の生産性だけでなく、チーム全体の最終的な成果に沿った形で生産性を発揮できるハーネスになっているかを確認すべきです。それは「/workflows」に関して指摘したい点でもあります。これは驚くべきツールですが、統計的に見て全体の3分の2にのぼる、Claude Codeを使っている人々に対して、遅かれ早かれその成果のあり方について考えることを迫るツールになるでしょう。そしてCodexを使っている場合でも、成果について考える必要はありますが、そこのハーネスが極めて自己認識に優れている点は非常に気に入っています。
もしあなたがリーダーであり、CTOやCIOで、「おいおい、ネイト、勘弁してくれよ。さっきはChatGPTの話をして、その前はClaudeの話をしていたじゃないか。もう疲れたよ」と思われているなら、お伝えしたいニュースがあります。これは2頭の馬によるレースなのです。私は、両者が多くの強みを持っており、例えば数ヶ月後にはClaudeが再びレースをリードするであろうという事実について、発信を辞めるつもりはありません。あなたのシステムがそうした変化に対応できるようにしておくべきです。
ここでもう1つ、興味深い詳細をお伝えしましょう。これら10兆パラメータ規模のモデル、Mythosはそのクラスに属し、5.5もそのクラスに属しています。他にも大まかに言っていくつか存在します。開発会社は明言していませんが、頻繁に使っていれば察しがつきます。今年の終わりまでに、より多くのオープンソースの10兆パラメータモデルが登場することを想定しておくべきです。したがって、今年の終わりまでに、非常に強力なオープンソースモデルを選択して利用できるように、システムを構築しておくべきです。その時点になれば、ナレッジワークは大部分が解決されているでしょう。それなのに、なぜ特定のモデル開発者に予算を縛り付けなければならないと決めつける必要があるのでしょうか。柔軟性を持たせたシステム設計を行ってください。
以上が、4.8に対する私の全体的な見解です。非常に強力なモデルです。しかし、考えすぎによる一貫性の問題があり、期待されているほどハーネスにうまく適合していません。一方で、5.5とCodexはハーネスの観点から、まるで手袋のようにぴったりと適合しています。それを考えることは本当に重要であり、ハーネスがなぜこれほど重要なのかを実際に理解していただくために、具体的な例を挙げて説明しました。ハーネスという言葉を、自分とは無関係な専門用語として捉えてほしくありません。それは、モデルがその仕事をこなすための「周囲の足場すべて」であると理解してほしいのです。モデルが強力になるにつれて、その足場も機能するように調整していかなければなりません。そして、OpenAIが彼らの足場を調整したことこそが、現在Codexが強力である理由の一部なのです。
今後の動向に注目していきましょう。私はMythosを楽しみにしています。今回私が行ったテストの完全な内訳を見たい方は、Substack(サブスタック)をチェックしてください。どの用途にどちらを選ぶべきかについての素晴らしいガイドを用意しています。ここでは一般的な原則をお話ししましたが、実際にどれが自分に合うのか、どうやって始めればいいのかを深く掘り下げる必要があります。Substackには、4.8に関する具体的なガイドや、マックスモードとハイモードをいつ切り替えるべきか、また5.5におけるCodexの使い方のガイドを用意しており、それらを比較して自分にとって何が最適かを見極めることができます。そして、もちろんこの内容を自身のAIモデルに読み込ませて、どれが最適かを判断させることも可能です。私がSubstackに掲載しているのもそのようなガイドであり、内容を読み込ませて対話を行い、対話を通じて自分にとって最善の手段を見つけられるようにしています。私たちが学ぶことの多くは対話から生まれるからです。
それでは、また次回お会いしましょう。4.8は私がこれまで出会った中で最も興味深いモデルリリースの1つであり、私たちが現在どのような競争の中にいるのかを鮮明に物語っていると思います。


コメント