Anthropicの最新AIモデル「Opus 4.8」の実力と各検証結果を詳細に解説する。本モデルはOpus 4.7から劇的な進化を遂げており、推論レベルを「極高」に設定した際のコーディング能力は非常に高く、シニアエンジニア向けの複雑なベンチマークでもGPT-5.5を凌駕する結果を残した。また、文章生成においてもAI特有の癖が少なく、指示された文体を正確に模倣する高い表現力を備えている。さらに、複雑な文脈を理解し、指示以上の付加価値を自律的に提案するメタ認知能力を持つ点も特徴である。単なるタスク処理を超え、プログラミングからUIデザイン、執筆まで幅広いナレッジワークにおいてパラダイムシフトを起こす、極めて優秀なフロンティアモデルである。

- 新モデル Opus 4.8 のリリース
- モデルの変遷と現状
- リーチテストとパラダイムシフト
- 執筆とコーディングにおける体験
- 優れたフロンティアモデルの条件
- コーディングパフォーマンスと推論レベル
- ベンチマーク結果とプロンプトへの適応
- 長時間タスクにおける推論レベルの重要性
- コンテキストを理解した深い実装
- モデルの擬人化とメタ認知
- UIデザインの評価
- コーディングにおけるオーケストレーション
- Everyの紹介と提供コンテンツ
- Opus 4.8の文章生成能力とベンチマーク
- 文章の主観性とAIの癖(AI Smell)
- 文体の再現とプロンプトによる調整
- 知識労働タスクとスライド作成能力
- モデルの総評とFOMOへの対処
- デザイン領域における各モデルの比較
- ライブデモへの移行
- 各モデルのCozy Island生成結果の比較
- Anthropicの評価額とツールエコシステムの比較
- デスクトップアプリでの執筆タスクのデモ
- 終わりに
新モデル Opus 4.8 のリリース
こんにちは、ようこそ。今日はモデルのリリース日です。私はダン・シッパー、Everyの共同創設者兼CEOです。今日はKoraのGMであるキーラン・クラッセンと、Everyのスタッフライターであるケイティ・パロットと一緒に配信しています。このモデルには本当にワクワクしていますよね。最高です。さて、私たちはこのモデルを1週間ほどテストしてきました。少しウォーミングアップをしましょう。もし私たちがどう考えているかすべて知りたいなら、バイブチェックの記事が公開されています。every.to にあります。実際のところ、まだホームページには載っていないかもしれませんね。確認してみます。まだ載っていませんでした。でもリンクを貼っておきます。リンク付きのツイートをしたばかりです。完全なバイブチェックの記事はすでにEveryで公開していて、Xでもツイートしています。
このモデルを1週間テストできたのは本当に素晴らしいことでした。Opus 4.7が出たときのことを覚えているかどうかわかりませんが、私はAnthropicからモデルが公開されたとメッセージをもらって、どのモデルのことだろうと思ったのをはっきりと覚えています。そのときは完全なバイブチェックをライブで行ったので少しストレスでしたが、今回は違います。このモデルが素晴らしいとお伝えするためにここにいます。改めて言いますが、私たちは1週間ほどテストを続けてきました。社内で話していたことの一つで、実際にAnthropicにも伝えたのですが、これはOpus 5と呼ぶべきだということです。本当に、信じられないほど素晴らしいからです。キーランなんて、Opus 5.5にすべきだったと言っていましたよね。それはさすがに面白すぎます。
それでは、バイブチェックの画面を共有できるように、設定する時間を2秒ほどください。今日やることは、私たちがこれまでに行ったすべてのテストを振り返ることです。もちろんしっかり水分補給をしていくので、たくさん水を飲みます。皆さんも水分補給を忘れないでくださいね。ご自身とエージェントを水冷式に保ちましょう。私たちがやったテストをすべて紹介し、率直な意見や、このモデルが何に優れていて何に不向きかなど、あらゆることをお話しします。
画面共有ができるか確認してみます。ああ、画面共有が壊れているみたいです。これは想定外ですね。画面なんて必要ありませんよ。本当に画面なんていりませんよね。その通りです。ポッドキャストだと思って、頭の中で世界を描いてみてください。キーランかケイティ、誰かバイブチェックのページを画面共有してくれませんか。見ている方や聞いている方が確認できるように、チャットにリンクを投げておきます。でも、やはりみんなで一緒に画面を見ながら進めたいんですよね。
さあ、これです。おっと、これはホームページですね。ああ、出ました。素晴らしい。今これを操作しているのは誰ですか。私です。わかりました。バイブチェック、Opus 4.8です。Anthropicは5に切り上げるべきだった、これが今回の見出しです。サブ見出しは、Anthropicの完全復活、です。
モデルの変遷と現状
Anthropicは今、非常に面白い立ち位置にいる気がします。彼らは明らかにClaudeのコード生成の波に乗っていました。エンジニアリングに対する新しい考え方を始め、それがナレッジワーク全体に浸透し、この1年ほどその波に乗り続けていました。Opus 4.7やここ数ヶ月で、彼らは公的にも天下を取ったような状態だったと思います。しかしEveryの社内では、久しぶりにちょっとしたほころびを感じるようになっていました。すべてにClaudeを使っていたわけではなくなったからです。
私自身は以前も今もCodexのコードの大ファンで、Codexが大好きです。しかしキーランとケイティは生粋のClaude支持者で、キーランはコーディングに、ケイティは執筆に使っていました。それでも二人とも、GPD 5.5に少し興味を持ち始めていましたよね。私に至っては半々の割合で使っていたくらいで、これは大きな変化です。ケイティも執筆の多くでClaudeからCodexに乗り換えていて、これまでになかった大きな出来事でした。
Opus 4.7は確かに良かったのですが、良い面は確実にあるものの、使いにくく、かなり遅くて、そのパワーを引き出すのが難しいモデルでした。Codex環境で動かすGPD 5.5は本当に最高なので、素晴らしい体験でした。だからこそ、今回のリリースでAnthropicは完全に復活したと感じています。なぜなら、このモデルはプログラミングが信じられないほど得意だからです。私たちのシニアエンジニア向けベンチマークでは、GPD 5.5をわずかな差で上回りました。キーランのLFGbenchテストでも素晴らしい結果を出しています。これらについては後ほど詳しくお話しします。
さらに、文章を書くのも驚くほど上手です。私たちが気づいたのは、AI特有の癖やAIらしさが少ない、非常に人間らしい文章を書くということです。スタイルを真似たり模倣したりするのも非常に得意です。ナレッジワーク全般でも本当に優れていて、私がこれまで見た中で最高のPowerPointを一発で作成してくれました。本当に興味深い話がたくさんあるのですべて掘り下げていきますが、まずはリーチテストから始めましょう。下にスクロールしてください。
リーチテストとパラダイムシフト
これはモデルが優れているかどうか、そして何に優れているかを示す、私たちにとって最良の指標です。つまり、思わず手を伸ばしてしまうか、毎日使っているか、使っているなら何に使っているかということです。私がずっと喋り続けてしまったので、二人のリーチテストの結果を教えてもらいましょう。キーラン、あなたから始めますか。これに金メダルのパラダイムシフトモデルスコアをつけたようですね。
ええ、これは大きな出来事です。GPT-4やGPT-5にも同じ評価をつけましたが、今回はその変化が見えにくいものの、間違いなく何らかのシフトが起きていると感じています。Codexのアプリが非常に素晴らしく、Claudeのアプリが少し後れを取っていることもあって、その変化を感じ取るのは難しいかもしれません。でも、これは私のお気に入りのモデルになりました。これは非常に重要なことです。Opus 4.7はお気に入りではありませんでした。使っていて機能はしましたが、気に入らない部分がありました。しかしOpus 4.8では、気に入らない部分を見つけるのが非常に難しいんです。これは本当に特別なことだと思います。GPD 5.5も特定の分野では素晴らしいですが、気に入らない部分もたくさんあります。このパラダイムシフトの正体は、あらゆることをこなした上で、すべてにおいて最高の結果を出してくれるモデルだという点です。これはなかなかすごいことですよ。
どのように最高の結果を出すのかについては後で詳しく話しますが、推論レベルが影響してくるので、タスクに応じて適切な推論モードを選ぶ必要があります。早期アクセスをもらって使い始めたのですが、なぜかこのモデルに完全に引き込まれました。ただ心を掴まれて、うわっと驚いたんです。時々感じる、あのすごいという感覚です。それは私が求めていたことを言ってくれたからではありません。むしろ、求めていなかったことを言ってくれたからです。これまで慣れ親しんできたAIの枠組みから飛び出してきたんです。私がAIだと思っていたものから抜け出して、新しい姿を見せてくれました。まだ初期段階なので今後どうなるかはわかりませんが、だからこそ私はこれをパラダイムシフトだと考えています。
これは、こちらが愚かなことをしたときに、ただ他のことをするのではなく、枠を破って顔面を殴ってくれるような初のモデルだと思います。私にとってはそれがパラダイムシフトの理由です。コーディングも執筆も得意です。Opus 4.7よりも冗長ではなく、GPD 5.5よりは少し言葉が多いです。また、これをする必要があるという指示だけでなく、なぜそれをするのかという理由に重きを置いています。ただのタスクリストとして実行するだけのGPD 5.5との決定的な違いはそこです。私がOpus 4.8や他のAnthropicのモデルを愛する理由はそこにあります。なぜこれらのタスクをやっているのかを考えてくれるんです。理由がわかれば、より多くの判断を下すことができます。ただあなたを喜ばせるためではなく、自ら判断を下せるようになったという点で、これはパラダイムシフトだと感じています。
完全に同意します。私なりの表現をすると、このモデルはこちらの枠組みを押し広げてくれるのが上手いんです。コーディングでもそれが見られますが、最近対人心理学のことで使ってみたときも、あなたが考えてもみなかった視点がありますよと提示してくれるのが本当に上手でした。お世辞を言わず、かといって単に反対意見を言うだけでもないモデルを見つけるのは、これまで難しかったように思います。有益だと感じられる方法で、こちらの枠組みを優しく広げてくれるこのモデルの能力が私は好きです。
執筆とコーディングにおける体験
ケイティ、あなたのリーチテストの結果も教えてください。あなたは執筆や編集によく使っていて、Claudeの世界から少し離れつつありましたよね。あなたのリーチテストはどうでしたか。今どんな状況で、何を使っていて、何が気に入らなかったのか教えてください。
はい。まず最初に言っておきたいのは、私はこのモデルが本当に大好きだということです。結果を見ると、私はパラダイムシフトではなくグリーンの評価で踏みとどまっています。その理由は、Opus 4.8とGPD 5.5、そしてCodexアプリの間で時間を分割して使っていたからです。私たちのCodexガイドの準備を通じて、完全にCodexにハマっていました。ぜひガイドもチェックしてみてくださいね。でも、パラダイムシフトの評価を出すことに対して、少し保守的になりすぎていたかもしれません。このモデルのことは本当に大好きですから。
正直なところ、私は少しLLM倦怠期のような状態にありました。利用できるモデルにあまりインスピレーションを感じられず、コーディングも執筆も以前ほどしていませんでした。しかし、アクセス権をもらってから、月曜か火曜の朝に医療管理のプロバイダーと打ち合わせをするまでの間、私はOpus 4.8と一緒に完全にバイブコーディングと熱狂の渦の中にいました。自分のアプリに新しいMCPのエージェント機能を追加したり、AIのダン・シッパーとAIのレオ教皇がAIと仕事の未来について議論する小さなエージェント型ウェブサイトを作ったりしました。
どっちが勝ったんですか。
それは議論ですよ、ダン。でも、見ていると本当に面白いんです。その後、その体験について記事を書いたのですが、ここで本当に驚くような出来事がありました。Claudeを操作するのに使っているClaude Codeのデスクトップアプリでチャットを開いていて、このエージェントエディタのコードを書いて自分のウェブサイトに編集を加えていたんです。お願いだから見に行かないでくださいね、私の破産に繋がりますから。それはさておき、そのことについて文章を書き始めたら、私が下書きで書いている内容が実際のコードと矛盾していることにモデルが気づいて、問題を指摘してくれたんです。
最高ですね。
修正案まで提案してくれて、その後すぐに執筆モードに戻りました。こんなのは見たことがないと驚きましたよ。私自身がこんなことができると思っていなかったので、これが新しいモデルの挙動なのか100パーセント確信はありません。でも、このモデルを使っていると、アプリを切り替えずに一つのチャットで全部できるんじゃないかと思って試したら、実際にできたんです。
優れたフロンティアモデルの条件
今あなたが言った、これが可能だと思っていなかったので以前からできたのかどうかはわからないという言葉は非常に興味深いです。それこそが優れたモデルの役割だと思います。自分が可能だと気づいてすらいなかったことができるようになるんです。もしかしたら過去のモデルでも、適切にプロンプトを与えればできたのかもしれません。でも、真に優れたフロンティアモデルというのは、こちらがおおこんなことができるなんて思わなかったと驚くようなことをあっさりとやってのけるんです。あるいは、以前は不可能だと思っていたことを試してみようと思わせてくれます。これは非常に大きなことだと思います。
サム、チャットにいるのが見えますよ。もしよかったら、あるいはAnthropicの誰でもいいので、ストリームに参加しませんか。大歓迎です。開始からまだ13分なのに、視聴者がもうすぐ1000人に達しようとしています。これはかなり大きな配信になりそうです。ぜひ参加してください。ダリオが来てくれても嬉しいですね。ダリオ、もしそこにいたらぜひお話ししましょう。あなたたちがこのモデルをどう使っているのか聞いてみたいです。教皇がどう思っているのかも気になりますね。きっと教皇もあのモデルを使って、あの、エンドサイクルを書いたんでしょうね。エンドサイクルで合ってますか。
回勅ですよ。
回勅ですね。サムは、自分はテキストという媒体を通じて経験するほうが得意だと言っています。なるほど、サム、それは納得です。私はあなたがどの媒体でも素晴らしいと思っていますが、もし他にもっとビデオ配信に向いている人がいれば教えてください。TwitterでDMをくれれば、ストリームにお招きします。さて、話を続けましょう。
コーディングパフォーマンスと推論レベル
コーディングのパフォーマンスについて話したいと思います。見出しとしては、特に極高の推論レベルにおいてコーディングの強力な推進力になるということです。一つ知っておいてほしいのは、コーディングや執筆など様々なタスクをテストした結果、推論レベルの違いによって実際のパフォーマンスに明らかな差が出たということです。
少し見えにくいかもしれませんが、私たちのシニアエンジニア向けベンチマークでの結果です。これはシニアエンジニアクラスのタスクでモデルをテストするもので、具体的にはバイブコーディングで作られた実際のプロダクションアプリのコードベースを与え、これを根本から修正できるかをテストします。その結果、Opus 4.8は100点満点中63点を記録しました。これはOpus 4.7より30点ほど高く、非常に素晴らしい結果です。
ただし、これほどの点数を出せたのは極高の推論レベルのときだけでした。高の推論レベルだと、たしか30点代か40点代だったと思います。Opus 4.7より少し良い程度ですが、Opus 4.8の極高推論レベルでついに本領を発揮しました。違いの一つは、極高推論レベルになると少し自信がつくように見える点です。高推論レベルでの失敗パターンは、こちらが全面的な書き換えを求めても、それは労力がかかりすぎます何週間もかかってしまいますと言って、基本的には表面的なパッチを当てるだけで済まそうとすることでした。しかし極高推論レベルのOpus 4.8は、いやいややってみせますよという姿勢でした。
GPD 5.5を1点差で上回ったので、事実上は互角と言っていいでしょう。この特定のベンチマークにおいては、それぞれに良い部分と悪い部分、プラスとマイナスがあります。GPD 5.5のほうが、コードを大胆に削って完全にゼロからやり直すことに積極的でした。一方のOpus 4.8は少し保守的で、確実に作り直しますがまずは移行計画を立てましょうというアプローチでした。一つ気づいたのは、自分が何をして何をしていないかについてかなり誠実に感じられたことです。長時間のタスクだと、最後に何をすべきだったか、ちゃんと終わったかをモデルが忘れてしまうことがよくあるのですが、その点においてかなり優秀でした。
シニアエンジニア向けベンチマークでの結果は非常にエキサイティングでした。特に、他の多くの評価軸でも向上していたからです。通常、各ラボから主要なモデルがリリースされると、何かが良くなっても別の何かが悪くなることがよくあります。執筆とコーディングのどちらが得意かという二極間で揺れ動くような感じで、コーディングを良くすると少し機械的になってしまい、文章を書くのが下手になったりします。あるいは、エージェントとしての自律性を高めると、今度は自律的になりすぎて頼んでいないことまでやり始めるので、少し抑制すると今度は慎重になりすぎるというように、常に行ったり来たりしている印象があります。しかし今回、私たちがこれを試したときには、いや彼らは何か魔法のようなものを見つけたんだ、とにかく使っていて心地よいと感じました。
ベンチマーク結果とプロンプトへの適応
キーラン、ベンチマークの結果について教えてくれませんか。何か見せてもらえるものはありますか。
ええ。実はこれに関連した良い質問が来ています。クリスチャンからの質問で、Opus 4.7ではプロンプトを文字通りに受け取りすぎる傾向がありプロンプトを大幅に変える必要がありました、Opus 4.8は4.6のように行間を読んでくれますかとのことです。これはまさに今の話に関連していますね。どう感じましたか。より行間を読むようになったでしょうか。
そうですね。私がいつもAnthropicのモデルを気に入っている理由は、そこまで具体的に指示しなくてもいいところです。行間を読んでくれるんです。ところがOpus 4.7のときは、あまりにもGPTっぽくなってしまったせいで、突然こちらの意図したことをやらなくなってしまいました。だから、クリスチャン、答えはイエスです。完全復活というタイトルの通り、あの煩わしい問題は消え去り、私たちがAnthropicのモデルに期待する通りの動きをしてくれます。何の問題もなく、プロンプトを変える必要もありませんでした。そのまま機能したんです。だから、またプロンプトを少し緩めに書いても大丈夫ですよ。
長時間タスクにおける推論レベルの重要性
そうですね。では、私のテスト結果についてお話しして、画面もお見せしましょう。私が発見したのはこういうことです。私はLFGbenchをテストしました。これは一つのプロンプトを与えて、そこから約40分間稼働し続けて何かを出力するという、複合的なエンジニアリングのフローです。つまり、長時間にわたるタスクや工場型の作業など、未来のワークスタイルに極限まで負荷をかけるベンチマークです。そして出てきたものに対してあらゆる観点から採点を行いました。
そこで学んだのは、適切な推論レベルを選ぶことが非常に重要だということです。私にとって最高の推論レベルは極高でした。テストの中心は高と極高でしたが、最大は少しやりすぎで、そこまで多くの見返りはありません。スイートスポットは極高にありました。実行時間もそれほど長くならず、高で約35分、極高で約40分と少しといったところです。少し時間はかかりますが、この推論レベルこそがこれはGPD 5.5と同等どころかパラダイムシフトだと私に思わせた要因でした。
自動実行される環境やその他のどんな方法であれ、コーディングタスクにおいて、高レベルの推論はGPD 5.5と同じくらい優秀だと思います。そして極高レベルの推論は、GPD 5.5では見たこともないようなことをやってのけます。これも高レベルでのテスト結果です。
それが、あなたの中で特に際立っていて、これは本当にすごいと思ったポイントなんですね。おおすごいと感心したという。
はい。これ、見えますよね。
ええ、見えますよ。
コンテキストを理解した深い実装
これは呼吸法のシミュレーターのようなものです。これまで見たことがなかったのは、異なる種類の手法を選べるようになっている点です。私が指示したのは、いくつかのアプローチを取り入れた呼吸法のアプリが欲しい、これらのメソッドを入れてほしいということだけでした。その一つがヴィム・ホフです。オランダのみんな、そして氷を愛する人たちに敬意を表します。ここで開始をクリックすると、始める前にこれは強度の高い呼吸法です、安全のための注意事項がいくつかありますと表示され、理解しましたというボタンが出ます。でも、コヒーレンスのメソッドを選ぶと、すぐに開始されるんです。
これは非常に特別なことだと思います。なぜなら、全体を一度に構築しながら、特定の要素に合わせたコンテキストを理解し、その枠組みを越えた実装を行っているからです。これは高推論レベルが非常にうまく機能した例だと思います。一方で、こっちの極高バージョンの画面を見ると、そういったことはしていません。そこに深みの違いが見て取れると思います。
人間らしさというか、PM、プロダクトマネージャーが、ここはコンテキストが違うからこれも追加しておくべきだと言うような、プラスアルファの配慮をしてくれています。AIにとっては表面的なレベルで実装するのは簡単ですが、これはもっと深いレベルでの理解を感じさせます。これがその良い例だと思います。
モデルの擬人化とメタ認知
私なりの見方を説明すると、GPD 5.5は非常に熱心で優秀な25歳の若者のようです。何でもできるし、ものすごく賢い。Opus 4.7は少し無駄な言葉が多すぎて、プロフェッショナルすぎるところがあって少し退屈でした。そしてOpus 4.8は、世界を見てきた経験豊富な人のように感じます。色々なことを知っているけれど、それをひけらかすことはなく、ただそこに存在している。自慢したり計画を見せびらかしたりしなくても、なるほどこの人はわかっているなと伝わってくるような存在感です。
それがどう表れているかというと、計画の書き方です。Opus 4.8が書く計画は長さが半分になっていて、これは素晴らしいことです。Opus 4.7ほど長くなく、それでいてGPD 5.5よりもメタレイヤーを意識しています。そこが違いだと思います。
それは本当に面白いですね。あなたの言葉でいくつか印象に残ったことがあります。熱心で優秀な25歳というのは、かつて私たちがClaude Sonnetや初期のOpusについて話していたときの評価ですよね。おおすごい、すぐにやってみせますよみたいな感じです。あなたがGPD 5.5に対してそう感じているというのはとても興味深いです。
ええ、彼らは逆の方向へ進んだような気がします。よりCodexっぽくなったというか。逆にCodexは少しClaudeっぽくなりました。お互いの立ち位置が入れ替わったような感じですが、今回のモデルでAnthropicは絶妙なスイートスポットを見つけたようです。そして、メタレイヤーの部分も間違いなくその一部だと思います。こちらの設定した枠組みに対して少し疑問を投げかけてくれるのですが、それがとても優しいんです。役立つかもしれないから別の方法もあるよと少しだけ提案しておきますね、でも、あなたのやりたいようにやりますよという感じでウィンクをしてくれるような。これを実現するのは非常に難しいことだと思いますが、見事にやってのけましたね。
UIデザインの評価
ドミニクから、UIデザインについてはどうですかという質問が来ています。キーラン、LFGbenchでもUIデザインのテストをいくつかやっていましたよね。UIデザインについて詳しく教えてください。
はい、私は気に入っています。普段私がデザインで一番気に入っているモデルは主にGeminiです。Opus 4.7のデザインは好きではありませんでした。ごちゃごちゃしすぎていて、何か新しいことを試みようとしているのはわかりましたが、私には合いませんでした。今回は少し落ち着いて、かなり良くなっていると思います。Geminiと同等か、それ以上に優れていると思います。一つのモデルがすべてをこなせるというのは素晴らしいことですからね。というのも、あなたはGeminiをよく使っていて、特にFigmaからコードへの変換に特化して使っていましたよね。
はい、そうです。Figmaからコードへの変換や、もっと良くしてと指示してイテレーションを回すのに使っていました。でも、Opus 4.8はデザインにおいて本当に優れていると思います。同等レベルに良くできていて、ごちゃごちゃ感がなくミニマルでありながら、ちゃんと個性があるように感じます。実際のところかなり良い出来です。これは別の画面ですね。ああそうだ、これは店舗の画面です。最も複雑だったのが、オリジナルのアヒルをデザインできるラバーダックのオンラインストアでした。ここにデザイナー機能があって、光沢感が欲しい、メガネをかけさせたい、と指定できます。完璧ではありませんが、見栄えは良いですよね。全体的によくできていると思います。
ええ、実際のウェブサイトとしてそのまま使えそうです。これを見ても、私のAIセンサーは反応しません。まあ、アヒルだからもっと3Dっぽくした方がいいかもしれないといった点はありますが、それはそもそもかなり難しいことですからね。ではお聞きしますが、どういうものを見るとAI特有の匂いがすると感じるのでしょうか。文章におけるAIらしさはわかりますが、コードやデザインにおけるAIらしさとは何ですか。
少しごちゃごちゃしすぎていることです。後で面白半分にGPD 5.5や古いモデルとの比較をお見せできるかもしれませんが、準備が必要です。でも、とにかく少しごちゃごちゃしているんです。ああ、紫色のアクセントですね。パトリックがそうだねと言っていますが、紫色のアクセントはデザインにおける一昔前のAIの特徴だと思います。今のAIらしさというのは、要素が多すぎることだと思います。見た目は綺麗でも何の価値も生み出していない視覚的要素がたくさん詰め込まれていること。それが今のAIデザインに対する私の印象です。過去にはグラデーションなんかもありましたが、それはGPT-4.5や4.0時代の話で、もう見かけなくなりましたし、Geminiもそういうことはしません。
そこにあるすべての要素がデザインとして意味を持っているかを確認することが重要だと思います。それは執筆でも同じように感じます。Opus 4.7は大量のテキストを出力しましたが、Opus 4.8は少ないテキストで、同じかそれ以上の質を感じさせます。デザインの側面でもそれに少し似ていると思います。
コーディングにおけるオーケストレーション
素晴らしい。では続けましょう。キーラン、コーディングの最初の総括として、他に話しておきたいことはありますか。
オーケストレーションにおいても相変わらず非常に優れているということです。これは現在のあらゆるモデルにとって、もしかすると最も重要なことかもしれません。少なくともオーケストレーターとして機能するモデルが必要であり、Opus 4.8がその点でも非常に優れていると特筆しておくのは良いことだと思います。
Everyの紹介と提供コンテンツ
最高ですね。まもなく執筆の話に移りますが、その前に、お越しいただきありがとうございます。これはOpus 4.8のバイブチェックです。本当にモンスター級のモデルです。私たちはEveryです。私はダン・シッパー、共同創設者兼CEOです。KoraのGMであるキーラン・クラッセンと、スタッフライターのケイティ・パロットも参加しています。
Everyは、AIの最前線に立ち続けるために必要な唯一のサブスクリプションです。未来の働き方に焦点を当てた、フロンティアAIラボのようなものだと考えてください。私たちは主に3つのことを行っています。まず、モデルをテストして記事を書くこと。今日は、約1週間テストしてきたOpus 4.8の実践的なバイブチェックをたっぷりとお届けしています。もちろん他にもたくさんのことをやっています。仕事や生活の中でこれらのモデルをどう使っているかについて、毎日新しい情報を発信しています。
次に、製品の開発もしています。一連のプロダクト群があり、キーランはKoraというメール用AIエージェントを作っています。他にもたくさんあります。Monologueという音声テキスト化アプリや、Spiralという執筆エージェントなどです。このようにAIを使って多くの製品を開発しています。
そして、様々なトレーニングも提供しています。これらをすべて一つにまとめて提供しているので、一度料金を支払うだけで、私たちが作るものすべてにアクセスできます。これら新モデルのバイブチェックのような執筆記事もすべて読めます。昨日か一昨日には、ケイティが書いたCodexの素晴らしいガイドを公開したばかりですが、これは本当に大傑作です。私も彼女もCodexが大好きなんです。そのような出版物を多数出していますし、自分たちのために作ったツールをサブスクリプションの登録者にも提供しています。また、このようなライブストリームやコース、キャンプなどのトレーニングも行っています。
AIの最前線にいたいなら、やるべきことは本当に2つだけです。1つは every.to/subscribe からEveryに登録すること。もう1つは、しっかり水分補給をすることです。
Opus 4.8の文章生成能力とベンチマーク
自分自身とエージェントを常に水冷状態に保つことは非常に重要です。私はフリーズしていますか。
大丈夫です、水を飲んでいますね。
それでは、このプログラムのもう一つの非常に重要な部分である、このモデルの文章生成能力についてお話ししたいと思います。幸運なことに、私たちには優秀なライティングテスターであり、バイブコーディングの達人であるケイティ・パロットがいます。ケイティ、視聴者の方が見られるようにバイブチェックの画面を共有して、このモデルをテストして見つけたことのいくつかについて説明してもらえますか。
ミュート解除ボタンを探しますね。ありました。前回のバイブチェックではコーディングのセクションを見たので、下にスクロールします。すべての見事なリーチテストに合格し、コーディングのレビュー記事も作成しましたが、私にとってこれを書くのはとても楽しい作業でした。今回のバイブチェックでは、GPTではなくOpus 4.8を執筆パートナーとして迎えられたことをとても嬉しく思います。強調しておきたいのは、私たちがこれらのレビューの初稿を書くときは、必ず対象となるモデルを使ってみるようにしているということです。
今回のリリースにおける大きな話題は、普段なら試さないようなことに挑戦するインスピレーションを得た結果、私たちにとって初めてとなる文章生成ベンチマークの構築に挑戦したことです。これはまだ開発中であり、何を知るべきかについて学ぶにつれて進化し続けるものですが、今回のテストでは、私や編集チームの他のメンバーが初稿を書くためにAIを活用している一連のタスクを用意しました。これには、ゼロからのイントロ作成、文章の中盤で何を言いたいか分からないときにギャップを埋めるためのテキストの補完、プロモーションメールの作成、そしてXのチームがGitHubで公開しているおすすめアルゴリズムを使用したツイートの作成などが含まれます。
これらすべてのタスクを実行した結果、Opus 4.8のHigh設定が最も高いスコアを記録し、GPT55の73点に対して79.6点という結果になりました。しかし興味深いことに、2位はSonnetモデルでした。これを見て、私は文章生成においてSonnetの力を少し過小評価していたのではないかと考えさせられました。私はモデルを使うとき、できれば1つのモデルや1つの設定に落ち着いて、そのまま進めたいという個人的な傾向があります。そのため、今回のベンチマークテストでは個人的に文章生成をHigh設定で行いました。実は今、Extra High設定でも実行しているところですが、High設定での結果にとても感銘を受けたため、そのテストをまだ終えていませんでした。次回のベンチマークではこの点を改善するつもりです。
文章の主観性とAIの癖(AI Smell)
もちろん、文章の良し悪しは非常に主観的なものです。だからこそ強調したいのですが、イントロの作成に関しては、実はGPT55のアプローチの方が私は好きでした。ここでご覧いただくのは、ダン・シッパーの最近の力作であるAfter Automationをモデルにした記事のイントロを作成するというタスクです。これはモデルがその記事のイントロを書こうとした結果です。Opus 4.8が作成した最初の1行目を見ると、私は約30人の会社を経営しており、この2年間、可能な限り自分たちを自動化することに費やしてきましたと書かれています。これはダンが実際に書いた冒頭の部分に非常に近く、かなり良い出来です。
しかし、私はGPT55が書いた、会社を自動化することの最も奇妙な点は、それがどれほど多くの仕事を生み出すかということだという一行がとても気に入っています。私にとっては、Opus 4.8が考え出したものよりも、少し興味を惹かれる最初の一行だと感じます。しかし全体として見ると、特に下書きの段階では、これだけ短い文章だけを書くことはなく、記事全体を通して書き進めるのが私のやり方です。
Opus 4.8と一緒に文章を書き進める全体的なフローの中で、このモデルは確実に良いコンテンツを提供してくれたと感じました。AIは少し予測可能になりすぎることがあるので、私の好きな臆病な書記の例えを使うなら、自分らしくするために少し手を加えたいと思う部分はありました。しかし、文章自体は非常にきれいで、そこに自分なりのアレンジを加えていくのに適したコピーを出力してくれます。
ただし、注意点として、AIらしさ、いわゆるAI Smellについて話さなければなりません。ベンチマークのスコアの1つは、8つの異なるタスクすべてにおいてコピーの中にAI特有の表現がいくつあったかを測定するものです。Opus 4.8はたしか16個だったと思いますが、ここには表示されていないようです。あ、ありました。Opus 4.8は8つのタスクで13個のAI特有の表現を残しており、Opus 4.7の25個を下回っています。つまりバージョン間で大きな改善が見られます。一方、GPT55は21個の表現を残しました。このモデルは何かが重要だと伝えたがったり、XではなくYだと言いたがる傾向がとても強いです。
XではなくYと言えば、Opus 4.8がどうしても手放せない癖が1つ見つかりました。それは、物事が何であるかを説明する前に、まずそれが何でないかを設定しようとする衝動です。なぜそうなるのか私はとても興味があります。AIモデルは人間が書いた文章で訓練されているので、本当の意味を伝える前にまず違う意味を伝えたがるというのは人間の何らかの特性なのかもしれません。
文体の再現とプロンプトによる調整
文章生成について最後に触れておきたいのは、コンテキストから文体を読み取る能力が本当に優れているということです。私はAIで文章を書くためのスタイルガイドの価値について、ずっと熱心に説いてきました。これは1年から1年半ほど前に発見したことですが、チャットインターフェース、プロジェクトファイル、あるいは私が現在Claudeでやっているようにフォルダ内のファイルなどで、モデルに基本的なルールや好みを記載したドキュメントを接続すれば、そのスタイルガイドへのアクセスを持ったモデルは本当に上手く文体を再現してくれます。
今回のテストでは、TastemakerアプリにMCPを組み込んでいるため、そこから直接スタイルを引っ張ってきました。私の個人的な文体は少し装飾的で文学的な傾向があり、ニュースレターであるCuriosity Gapを書くときは、私が賞賛し憧れる文章に基づいています。レオナルド・ダ・ヴィンチや徒弟制度、そしてエントリーレベルの仕事の重要性について書かれた2つのバージョンのコピーがありますが、パーソナル版はより文学的なスタイルを再現しており、もう一方はより会話的なトーンになっています。
知識労働タスクとスライド作成能力
素晴らしいですね。実のところ、私はAfter Automationの記事が出た後にも、執筆や思考のためにこのモデルをたくさん使いました。あの記事のために書いたもので変更しなければならないものがたくさんあったのですが、私たちがこのモデルを入手したのは先週の金曜日でしたよね。
時間が経つのは早すぎて、今がいつなのかも分かりません。とにかく、私はこれを執筆や思考に多用しています。GPT 5.5は非常にシンプルで明確なモデルですが、それは同時に深みや豊かさに欠けることがあるということを意味し、実際の文章タスクや計画の作成にそれが表れていると思います。GPT 5.5の計画はかなりあっさりしています。しかしOpus 4.8には、GPT 5.5にはない多次元的な深みと豊かさがあります。そして、それは多くの文章タスクにおいて非常に役立ちます。なぜなら、無駄に装飾的になりすぎたり質を落としたりすることなく、それを実現できるからです。計画がより詳細であることは非常に重要なので、コーディングにもとても優れています。とにかく、非常に優秀なライターです。
では、画面の共有方法が分かったので、皆さんと共有したいと思います。私たちが常に行っているテストの1つは、知識労働タスクにおけるモデルの性能評価です。このモデルがワンショットで作成したものをお見せしたいのですが、これが本当に素晴らしいのです。私たちが常にテストしているタスクの1つに、スライド作成能力があります。これはコンパウンド・エンジニアリングのためのワンショットで作成されたスライドで、キーランが提唱し作成したエンジニアリング哲学です。Opus 4.8が1回の指示で作ったこのスライドには、コンパウンド・エンジニアリング、ソフトウェアを構築するためのAIネイティブな方法、またはすべての作業単位が次の作業を簡単にするというテキストが含まれています。このサブヘッドは本当によくできていて、おそらく私が書いたであろうものと全く同じです。
現代のソフトウェアの問題点、複利がどのように働くのか、問題から始まり解決策を定義しループを回すプロセスなどが描かれています。ほとんどのコードベースは時間とともに扱いが難しくなり、機能を追加するたびに複雑さが増す。10年後、チームはシステムを基盤にして構築するよりも、システムと戦うことに多くの時間を費やしている。なぜなら、新しい各機能は古い機能との交渉だからだ。コンパウンド・エンジニアリングはこれを根底から覆す。といった具合で、これは優れたストーリーになっています。これを見て私は、モデルの能力が向上しても人間の専門家にとってより多くの仕事が生まれる理由について長いエッセイを書いたばかりで本当に良かったと思いました。これについては後ほどお話しします。
通常、モデルがスライドを作成すると、形にはなっていても場違いな要素があったり、実際の文章を読むとそれほど良くなくてストーリーになっていなかったりします。しかし、これはビジュアルと文章の組み合わせが非常にしっかりしています。明らかに間違っている部分はなく、コントラストなど修正したい箇所はいくつかありますが、全く恥ずかしい思いをすることなく、このスライドを誰かにプレゼンできると思います。文章の構成やアイデアの提示方法も非常に優れています。数時間の作業でこれよりも良いバージョンのスライドを私が作れるかどうか怪しいほどです。細かく見ればまだ調整すべきスペースの問題などはありますが、これをやってのける能力は信じられないほど印象的です。
スライド作成には文章力、ビジュアルデザイン、スライドへの組み込みなど、様々なスキルの組み合わせが必要になるため、これを見ればこのモデルができることの幅広さを実感できるはずです。これほど多くの要素を処理できるのは本当に驚くべきことです。
これはどのアプリで作成したのですか。
これは私たちのコンサルティング事業の技術部門を率いるマイク・テイラーのコンサルティング・ベンチマークです。私が実行した単なるスクリプトなので、どのような環境で動いているかは正直分かりませんが、明らかに素晴らしい仕事をしてくれました。
モデルの総評とFOMOへの対処
すべてのベンチマークの記事は、近々Everyで公開される予定です。
私たちはあらゆるところにベンチマークを用意する領域に入ってきましたが、それが完全に混乱状態になっているので、この整理が本当に必要です。私ではないことは分かっているので、誰かが入ってきて整理しなければなりません。私たち3人は散らかすのが好きなので、誰か別の人を見つける必要があります。
海賊が多すぎますね。
視聴者の皆さん、歓迎します。これはOpus 4.8のバイブチェックです。私たちは約1週間これをテストしてきましたが、素晴らしいモデルです。私たちはEveryという、AIの最前線にいるために必要な唯一のサブスクリプションであり、未来の働き方のためのフロンティアAIラボのようなものです。私たちはこのようなバイブチェックを常に公開しており、コーディングから文章生成、知識労働タスクまで、私たちが行ったすべてのテストの詳細な解説がサイトで公開されています。AnthropicのモデルやGPTモデルなど、モデルがリリースされた当日にこのようなレビューを行っています。
実は先週、私たちが社内でエージェントをどのように使用しているかについての詳細なレポートであるAfter Automationという記事を公開し、とても誇りに思っています。私たちのレゾンデートル、つまり存在理由は、この技術を色々と試して、組織として仕事や生活にどのように組み込むかを考えることです。約30人のメンバーがいるので、これらのモデルをどのように仕事に組み込むかを実践できます。After Automationは、私たちが見た根本的に興味深い現象、つまり目に見えるあらゆるものを自動化しているにもかかわらず、実際にはより多くの人間を雇っているというパラドックスについて書かれています。それが他の企業にも当てはまるのか、そうであればどのように当てはまるのか。Everyでの社内エージェントの活用方法から始まり、現在のAIや将来のAIによる自動化が実際には人間により多くの仕事を生み出すという核心的な主張を展開しています。ぜひevery.toでチェックしてください。
しかし今日私たちがここにいるのは、Opus 4.8について話すためです。これがバイブチェックの記事で、every.to/48vibecheckにあります。素晴らしいスタッフライターのケイティと一緒にこの記事を書きました。見出しは、Anthropicが見事に復活した、です。私たちはこのモデルが本当に素晴らしいと考えており、4.7から4.8にバージョンアップされましたが、5に切り上げても全く驚かなかっただろうと思うほどの出来です。コーディングも信じられないほど優れており、私たちの最も困難なベンチマークでGPT 5.5を上回りました。文章生成も得意で、非常に明確で表現力豊かでありながら、文体を合わせるのにも非常に長けています。そして、一般的な知識労働タスクにも非常に優れています。先ほど、ワンショットのPowerPoint作成ベンチマークでいかに素晴らしい結果を出したかについて話したばかりです。
すでにリーチテストは完了しています。リーチテストとは、そのモデルがどれほど優れているかを全体的に評価するための主要な方法で、毎日無意識のうちにそのモデルに手を伸ばすかどうか、そしてどのような用途で使うかを評価するものです。私はゴールドとグリーンです。ゴールドはパラダイムシフト、グリーンは非常に優れたモデルを意味します。これが私が試してきた他のモデルとは全く異なる種類のものであり、より多くのユースケースや新しい可能性を開くという意味で、私はゴールドだと評価しています。そして、操作環境がそれほど良くないという理由でグリーンでもあります。私はCodexが大好きで、非常にスムーズで高速な信じられないほど素晴らしい環境であり、ここに至るまでの歴史をすべて飛び越えているような気がします。一方、Claudeのデスクトップアプリにはチャット、コード、コワークがあり、自分がどこに向かっているのか、このタスクにどれが適しているのか分からなくなります。Codexはただ機能するだけであり、今や私の知識労働のためのオペレーティングシステムになっています。そのため、このモデルのポテンシャルを最大限に引き出せていない環境だと感じるので、ゴールドとグリーンという評価になります。操作環境が変わることを期待しています。キーランはゴールドでしたね。
正直にお伝えしますが、このような評価は滅多に出ません。過去1、2年でゴールドを出したのは1、2回しかない気がします。半年に一度くらい、これはすごいと思うような出来事があります。11月か12月のAugustus 4.5もゴールドの領域だったと思いますが、それくらい稀な出来事なので、ぜひチェックしてみてください。ケイティはグリーンでした。文章を書くのに本当に優れているので、私たちは間違いなく常にこのモデルに手を伸ばすことになりますが、私の日常使いのメインツールはまだCodexです。
また、皆さんにお伝えしたいことの1つとして、このような新しいモデルが登場すると、特に特定のプラットフォームのエコシステムにコミットしている場合、Codexを契約したばかりなのに最新の機能を使うためにClaudeも契約しなければならないのかと、FOMO(取り残されることへの恐れ)を感じることがあると思います。もちろん私たちは新しいモデルが大好きですし、それをテストするのは私たちの仕事の一部でもあります。このような技術を試すのが好きな人は、絶対にこのモデルを使うべきです。本当に素晴らしいですから。
しかし同時に、ただ自分の仕事を終わらせたいだけなら、これに注目したり試してみる価値はありますが、焦る必要はありません。GPT 5.5も非常に優れています。少し落ち着いてFOMOを抑え、これらのツールや新しい技術がすべて素晴らしいものであることを認識してほしいのです。あちこち切り替えることを心配しているなら、気にしなくて大丈夫です。もちろん、試してみたいなら試すべきです。全員が今使っているものをやめて絶対にこれを試さなければならないというような、バージョン4.5のような劇的な瞬間ではありませんでした。今までのものより少し優れていて、私がこれを気に入っているというだけです。自分たちの働き方や使い慣れているという理由で、GPT 5.5を好む人もいるでしょう。私がこれを好むのは操作環境の理由もあります。もし4.6が真のAGIであれば、操作環境なんて関係なかったでしょうからね。
デザイン領域における各モデルの比較
さてキーラン、デザイン面でいくつか見せたいものがあるんですよね。始めてもらえますか。
もちろんです。デザインの質についてよく聞かれるので、異なるモデルを比較して、私がデザインにおけるAI特有の癖をどう読み取っているかをお見せしましょう。画面を共有できるなら、Opus 4.6、4.7、GPT 5.5、Opus 4.8、そしてGemini 3.1 Proをお見せします。
これはLFGベンチマークの一部で、コンパウンド・エンジニアリングのプラグインに対して、Proofというウェブサイトがあるのでデザインし直してくれないかと非常にシンプルなプロンプトを出したものです。目的はモデルがどれだけのことをできるかを確認することです。これがOpus 4.6です。デザインを見るとき、何か違和感や目立つ部分はないか、そして見た目が良いかといった点を確認します。ここの色はまだ少し変ですし、右側のこの部分も妙です。また、至る所にアニメーションやドロップシャドウが使われています。これを見て、私の頭の中のAIらしいデザインだなと感じました。これがOpus 4.6です。
次にGemini 3.1 Proを見てみましょう。私の意見では、こちらの方がより洗練されていて、デザインとしての主張があります。アニメーションもありますが、かなり上手く処理されていると思います。アニメーション自体はあまり好きではありませんし、少しAIらしさはありますが、それでもこちらのほうがずっと見栄えが良いです。破綻していたり良くないと感じる部分は見当たりません。次は誰でしたっけ。Opus 4.7ですかね。
まずはGPT 5.5を見てみましょう。なるほど。これが私がGPT 5.5について言った意味です。隙間を埋めるように要素が詰め込まれていて、配置も少し不自然でごちゃごちゃして見えます。悪くはないですし構造化されていますが、バランスがあまり良くないと感じます。少し細々としていますが、決して悪くはありません。
想像力にも欠けますね。頻繁に共有されるドキュメントというフレーズは、プロダクトを試してみたいと思わせるようなものではなく、私にはビジネス用語のように聞こえます。
まさにその通りです。私はデザインだけを見ていましたが、確かにコピーにも大きな違いがあります。では、GPT 5.5からOpus 4.7に切り替えてみましょう。これは退屈なビジネスモデル寄りだと思っていました。すべての言葉が説明されていると書かれていますね。コンセプトとしては面白いですが、実行が伴っておらず、全体的に少しズレているように見えます。この要素が大きすぎることや、色は少し改善されていますが標準的ではないことなどが理由です。背景色も少し気になりますね。
では4.8を見てみましょう。すべての言葉には作者がいる。今こそそれを証明しよう、と書かれています。ウェブサイトの名前がProof(証明)なので、これはとてもクールですし、先ほどのようにお堅い表現でもありません。すべてのデザインの中で、これはGPT 5.5のように大げさで主張が強すぎることもなく、よりバランスが取れてミニマルだと思います。全体を見た限り、これが最もAIっぽく見えません。ホバー時の背景のシャドウはありますが、あらゆる要素に適用されるようなスクロールアニメーションはありません。デザイン要素がうまく調和し、素晴らしいバランスを保っていると思います。このモデルとGeminiが私のお気に入りです。Geminiに戻ってみると、このマークのようなものは好きですが、あまり象徴的ではありません。見出しは良くないですが、内容は充実しているように見えます。私の中での勝者は4.8ですね。
では、4.8はデザインにおいて最高なのでしょうか。人間が最高ですが、AIによるデザインを求めるなら、Extra High設定の4.8はかなり優秀だと思います。
とてもいいですね。素晴らしいです。続けてください。
それに、より優れたコピーも一緒に得られるなら便利ですよね。あなたがプレゼンテーションで紹介していたことと似ていて、すべてが一緒に機能することが最終的に求められることだからです。単に優れたデザインだけが必要なわけではなく、すべての要素が必要なのです。
ライブデモへの移行
その通りですね。何かライブでやってみるのもいいかもしれません。キーランかケイティ、何かを作ったり書いたりするプロセスなど、視聴者の興味を惹きそうなものを見せられませんか。何かアイデアはありますか。もしなければそれでも構いませんが、準備している間、私が話し続けることもできます。何かやりましょうか。
先ほど提出したばかりの記事について実行したインタビューがあるので、もし同じ質問を使うなら、Opus 4.8がどのようなものを出力するかをお見せできますよ。
いいですね、ぜひやりましょう。素晴らしいアイデアです。ケイティが準備している間に、キーラン、何か見せたいものはありますか。
Cozy Islandベンチマークの違いを簡単に共有できますよ。
それはいいアイデアですね。もし準備できているならぜひ見たいです。良いお手本になると思います。
ええ、準備できています。画面を共有しますね。Cozy Islandは3Dのベンチマークです。プロンプトは非常にシンプルで、3JSを使って居心地の良い島を作って、というだけで、他には何もありません。
空間的推論が見られるので面白いですよ。少し詳細を見ていきましょう。今見ているのはGPT-5.5で、ここに見えるのは鳥と煙が出ている家のある島で、アニメーションがついています。鳥が横向きに飛んでいるのが面白いですね。全体的には悪くありません。ただ、細かいところを見てみてください。もう一つ、Cozy Islandの浮遊するエコシステムには、左側にUIのようなものがあります。私はこれをプロンプトの漏れと呼んでいますが、プロンプトがあって、それをUIに入れないといけないと考えてしまったようです。UIに単語やタイトルを入れたいわけではなく、ただそれを作ってほしいということを理解していないんですね。これがGPT-5.5です。Geminiに行ってみましょう。
各モデルのCozy Island生成結果の比較
はい、Geminiです。これも面白いですね。島にひびが入っています。少し違うスタイルです。かなり様式化されていますね。煙も出ています。鳥は横向きに飛んでいます。いくつか欠点はありますが、モデルがこれを作れるのはクールですね。色々な木があります。次に行きましょう。Opus 4.6です。
Opus 4.6がこちらです。ディスコですね。鳥は横向きに飛んでいます。ここでは水と地面に少し問題が起きています。でも、家は屋根がちゃんと乗っていますね。チューリップのような小さな花があって、それはクールです。いろんな種類の木があります。Opus 4.7に行きます。
はい、鳥がまっすぐ飛んでいます。まっすぐ飛ぶのはこれが初めてです。羽ばたき方が少し変ですね。衝突判定がおかしいところもありますが、ディテールが細かく、犬もいます。チャットで皆さんが何も変わっていないと言っていますが、どうですか。あ、出ましたね。
ああ、すみません、画面を共有していませんでした。他の2つをやり直したほうがいいですか。
ライブ配信で見ている人たちのために、過去のものからサッと見せていくのがいいと思います。
わかりました。まずGPT-5.5があって、次にGeminiをやりました。これがGeminiです。鳥が変ですが、クールですね。そしてOpus 4.6です。地面に少し問題がありますが、ディテールは良いですね。ここに花があります。花が見えますね。それから家もなかなか良くて、屋根が浮いたりしていません。そしてOpus 4.7に行きます。
今は見えていますよね。ええ、見えています。Opus 4.7は非常に詳細です。灯台があって、すごくクールですね。そして鳥がついにまっすぐ進みますが、飛ぶ代わりに空中でカヌーを漕いでいます。それはちょっと面白いですね。岩や小さな茂み、そのディテールが好きです。Opus 4.7はより深く処理していることがわかりますし、実行時間が長く、より多くのことをこなすという特徴と一致しています。ただ、そのせいでかなり使いにくくもなっています。
そして5番目のOpus 4.8です。Opus 4.8。鳥を見てください。うわあ。超クールですね。ここに見えるように木々にアニメーションがあります。家は空中に浮いていませんし、煙は出ていませんが、家に明かりが灯っています。でも、特に鳥ですね。本当にクールに見えます。本物の鳥として飛ぶのはこれが初めてです。このベンチマークは素晴らしい出来ですね。
ここでいくつか面白い疑問が出てくると思います。自分はCozy Islandを作るつもりはないのに、なぜ気にする必要があるのか、といったことです。まず第一に、ただクールだから気にするべきです。そして第二に、面白そうだからです。退屈なものより、こういうものを楽しみたいですよね。なぜすべてに実用性がなければならないのでしょうか。でもまあ、それは置いておいて、このようなものを作ることを私たちがテストする理由は、コーディングからデザイン、何が面白いか、あるいはこのアイデアを一番よく表現できるのは何かを考えることまで、本当に多くの異なるスキルを組み合わせる必要があるからです。そしてこれを見たとき、チャットの多くの人も私も、実際にこれは全体的により良い感じがする、と実感したはずです。ええ、違いがわかります。その通りです。
ベンチマークの数字には必ずしも表れませんが、このようなタスクでこのようなものを見て並べて比較すると、すごいなと思います。あ、魚がいますね。魚が見えました。こういった深みがあるんです。これが、他のシナリオでモデルに何を期待できるかについて、何かを教えてくれると思います。だから、Cozy Islandを作っていなくても、というか当然作るべきですが、執筆やコーディングのタスクをしているときにも、適切な場面でこれと同じようなパフォーマンスの挙動が見られるはずです。
ええ、確かに。ここではうまく行かない可能性のある要素がたくさんあります。モデルを比較するのはクールで、違いが一目でわかります。ここにはUI要素の漏れがないのが良いですね。GPT-5.5はなぜかデータに入っているからといって、デザインにGDPRコンプライアンスのボックスを入れるのが大好きなんですが、このバイブコーディングされているとは限らないエモーショナルな感覚というか、ここには何かがあるからこそ、私たちはこれに熱狂しているんです。本当にその通りです。
Anthropicの評価額とツールエコシステムの比較
それにしても、今ニューヨーク・タイムズからのプッシュ通知が来たんですが、Anthropicが評価額9000億ドルで世界で最も価値のあるAIスタートアップとしてOpenAIを抜いたそうです。すごいですね。このモデルのリリースと資金調達のニュースをニューヨーク・タイムズで同じ日に発表するなんて、かなり冷徹ですね。ダリオ・アモデイからの冷徹な一手です。
少しバランスを取るために聞きますが、どう思いますか。Claude Codeアプリは試しましたか。
良い質問ですね。話題を振ってくれてありがとうございます。これには注意点があります。注意点があるんです。意見を言わせてくれてありがとう、キーラン。今、Claudeが勝っているというシナリオが全体的にありますが、それは投資コミュニティ全体がかなり遅れをとっていて、約1年前に始まったClaude CodeによってAnthropicとClaudeが生み出した雰囲気に乗っかっているからだと私は思っています。OpenAIがClaude Codeで何が起きているのかを本当に理解し、戦略を本格的に変更するまでに、12月くらいまでかかりました。だからAnthropicには、おそらく2025年の5月から12月までという先行期間があったんです。そしてそこに、すべての投資家の興奮や、一般的な熱狂が集中しているのだと思います。でもそれは市場が遅れているからで、この技術に本当に注目し、毎日使っている人たちは気づいています。
12月にOpenAIが何かスイッチを入れたのを見たと思いますが、彼らは容赦ない実行者です。本当に興味深いのは、Codexに関しては彼らは遅れをとるという不運に見舞われましたが、それが一種の禅の達人の物語のようになり、彼らにとってプラスになったということです。AnthropicにはClaudeのデスクトップアプリがあり、モデルがどのように進歩してきたか、そしてデスクトップアプリの動作においてハーネスがどのように進歩してきたかという歴史を見ることができます。3つの異なるタブがあり、それぞれのタブで異なることを行います。これらは重複しつつもわずかに異なるユースケースをターゲットにしています。チャットタブ、コードタブ、コワークタブがありますが、デスクトップアプリは少し散らかっています。遅くてわかりにくいんです。
そしてCodexは、Anthropicがやっていることを見ていました。遅れていたからこそ、どこに向かっているのかが見えていて、それをそのまま構築し、それだけに絞ったんです。それが私がCodexを好きな理由です。モデルは物語の一部に過ぎないので、こういったもので少し熱狂を抑えることは本当に重要だと思います。それは物語の半分に過ぎません。ハーネスがもう半分であり、Codexのハーネスはとにかく素晴らしいんです。彼らはいくつかの小さなデザインの選択をしていて、それが使うのを本当に快適にしています。
例えば、Codexのアプリ内ブラウザでは、どのウェブサイトにも行けます。私はメールの処理をすべてCodexのアプリ内ブラウザで行っていますが、それは素晴らしいです。Claudeではローカルホストにしか行けないのでそれができません。そういった点ですね。もう一つ私がCodexで気に入っているのは、ClaudeのデスクトップとCodexの両方にサブエージェントがあり、ClaudeもCodexもオーケストレーターがサブエージェントと通信できるのですが、Codexチームのデスクトップアプリの設計では、入力送信というメッセージングツールを作ったことです。これにより、Codexのオーケストレータースレッドがサブエージェントにメッセージを送れるだけでなく、他のCodexスレッドにもメッセージを送れるんです。
ですから、私はメールやメッセージを様々なプロジェクト用の異なるCodexスレッドにルーティングするルータースレッドのようなものを持っています。執筆用スレッドやコーディング用スレッドなどがあり、それぞれにメッセージを送って異なる種類の作業を行うことができるので、すごくクールなんです。
なので、Anthropicがこのアプリをもう一度見直してくれることを本当に願っています。現状はとにかくひどくて、このモデルが素晴らしいにもかかわらず、私はまだ日常使いとしてCodexを使い続けているからです。
ひどいとは言いませんが、とても平凡だとは言えます。そして今、ハードルが上がったんです。ダンがCodexがとても良いと言って私を夢中にさせ、それについて書くように指示されて学ぶまでは、Claudeのデスクトップアプリで完全に満足していました。Codexがなければ、Claudeのデスクトップアプリが良くないことに気づかなかったでしょう。それは面白いですね。
ええ。まあ、それは面白いですね。バグがありますし。ええ。バグや遅さや、どのタブでこれをやればいいのかわからないといったことを感じなかったんですね。私はただのカオスマペットみたいに、どうせ物事を順序立ててやるほど規律正しくないのかもしれません。ただやるだけです。理由はよくわかりません。
私も同じですよ。私のカオスマペットぶりには勝てないでしょう。いや、勝てるかもしれませんが、私たちはいい勝負ですね。
面白いですね。私の場合は、それがコンピューターを遅くしていることに気づいて、これはどのタブに入るんだろう、というちょっとした摩擦がとにかく耐えられなかったんです。でも、Codexを使うと、自分が必要としていたことすら知らなかったものが見えるという、もう一つの要素があると思います。それは良いプロダクトの証拠ですね。
ええ、同意します。私はCursorを使っていて、あれは快適で速いです。Claude Codeを試していたとき、CursorやCodexほど良くないと思った点を20個くらい送りました。彼らが勝てていないもう一つの点がスピードだと思います。高速モードがあるのは知っていますが、高速モードはおそらく非常に高価です。GPT-5.5は2から3倍速いです。スピードが重要だということも指摘しておきます。とはいえ、エフォートレベルを低く設定すれば、より速く結果を得ることもできます。ここでライブで少し、低いエフォートレベルと最高のextra highでのスピードの違いを見せて、その感覚を掴むのもいいかもしれません。
ぜひやりましょう。ええ、少し遅いですね。OpenAIとAnthropicの間の、GPUが豊富か不足しているかというダイナミクスをまだ少し感じられます。
ケイティ、スピードについて何か一つ見せてくれますか。Cozy Islandの話で言えば、Gemini 3.1 Proはタスク全体を3分で終わらせました。これは速いです。GPT-5.5は13分かかりました。うわあ。そしてOpus 4.8のextra highは42分かかりました。わあ。なるほど。優れていますが、遅いですね。その通りです。
デスクトップアプリでの執筆タスクのデモ
ケイティ、執筆に関するものを見せてくれるんですよね。準備はできていますか。
はい、できています。デスクトップアプリで。
わあ。勇敢ですね。とても勇敢です。
まあ、今私が仕事をしているのはここですから。以前はウェブアプリに住み着いていたんですが。私にとってAI全体においてプロジェクト機能は大きな飛躍でした。私はスタイルガイドを熱心に推進しているので、スタイルガイドや過去の仕事のサンプルをデスクトップアプリ、いや、ウェブアプリに接続できる機能には完全に満足していました。でも、より真剣にコーディングを始め、より本格的にオーケストレーションを行うようになって、デスクトップ上のファイルにあるものを使いたくなったんです。それでGoogleドキュメントにあったものをすべてMarkdownファイルに移して、今はすべてがデスクトップ上にあります。
でも、ターミナルには行きませんよ。冗談でしょう。私はそこまで技術に詳しくありません。昔はターミナルを使っていましたが、技術者ではない私としては、デスクトップアプリがただ好きなんです。これが私がデスクトップアプリを使っている理由の前置きです。さて、画面共有の方法を考えながらお話しさせてください。
画面共有がありますね。わかっています。ええと、画面共有ボタン、ウィンドウ、いや、画面全体を共有したいんです。この画面ですか。待って。大丈夫です。映っていますよ。これがClaudeです。見えますか。
はい。これが私が準備したものです。他に説明する方法がわからないので、プロンプトを読み上げますね。皆さん、次の残業についての記事のプレビューを見ることになります。
実は、このプロンプトを始めたきっかけや、私たちが今何を見ているのか、シナリオを説明してもらえますか。
ええ。私はAIガードレールと呼んでいるものについての記事を書きたいんです。これは基本的に、AI執筆において、私やAIの最悪の直感に抗うために私が開発してきたスキルのセットです。実は編集チームから、通すべきでないものを通しているという、非常に役立つフィードバックをもらいました。その中にはAI特有の癖もあれば、私自身の癖や奇妙な点もありました。それで、部屋の隅に隠れて15分ほど泣いた後、戻ってきてClaudeアプリの前に座り、実際にはOpus 4.7に向かってこう言ったんです。もらったフィードバックのリストがここにあるので、これを阻止するためのガードレールというスキルを作ってほしい、と。
そしてそれは、物事をチェックし、自分が望む通りの品質であることを確認するという、同じ考えに基づいて私が構築したスキル群の一部です。さらに、物事をより良くするためのスキルもあります。基本的に、そのプロセスについての記事を書きたいんです。ほとんどがここに反映されているので、プロンプトを読む必要はありませんね。
でも注目すべき重要な点は、これが私がどう書くかということであり、すべての段階でのライターとしての私の実際の経験だということです。私はデスクトップにあるこれらのスキルについて書いているので、AIモデルをリポジトリやこれらのものが存在するフォルダに向けるだけでいいんです。見つけてくるように指示するだけで、もう説明する必要すらありません。これがずっと真実なんです。
それは最高ですね。自分で解決してって言ったら、その通りにしてくれるんですから。
ええ、だから私のスキルを見つけて、彼らが何と言い、何をするのかを理解して、と伝えました。そうすれば説明する必要はありません。普段ドラフトを書き始めるときは、インタビュープロセスから始めますが、時間がかかるので必ずしもライブではやりません。それにOpus 4.8は必ずしもライブでやるモデルではありません。Opus 4.7よりは大幅に速いですが、素早いやり取りには向いていませんから。
でも、ここでわかるように、正確に説明するためにスキルを見つけ出しています。ケイティのローカルスキルが中心です、直接読んでみましょうと書いてありますね。モデルが資料の中を進んでいき、決定を下すのを見るのがただ好きなんです。ここで、推論や根拠の多くを明かしてくれています。私のアナログ執筆スキルを見つけたのがわかります。
公の場ではあまりコンパウンド・ライティングとは呼んでいないんですが、確実に構築させる方法をまだ模索中だからです。でも、これはそういうものです。私がキーランのリポジトリをフォークして、執筆用のバージョンを作ろうとしたものです。
そして、すべてのスキルを見つけました。もう一つ面白いのは、私が実際にCodexで書いた以前のドラフトを見つけたことです。なので、それは無視して独自のバージョンを作るように指示しなければなりませんでした。でも、それが私のワークフローの現実なんです。CodexとClaudeの両方が同じドラフトを見ていて、新しいファイルがある、これについてどう思うか、みたいなことになっていたことに気づきました。それを見るのは楽しかったです。
どうなるか見てみましょう。そしてドラフトを書かせました。これが結果です。少し開いてみますね。私はターミナルに住む編集委員会を作りました。
ええ。普段ならこの時点で、過去に成績の良かったデータにアクセスできるAI編集インターンに見出しやリード文を任せます。ドラフトを渡して、成功した傾向に合った見出しやリード文を考えてもらいます。私の執筆スタックの中にあるスキルの豊富さは、実際にプロンプトから来ています。ここでお話ししているスキル、少なくともその一部を公開すると約束しました。プロンプトでは、豊富な情報で人々を圧倒したいと言いました。だからその言葉を直接拾ってくれたんです。
ええ、良いリード文もいくつかあります。AI支援による作業を厳密で、奇妙で、私らしいものに保つために、執筆プロセスのあらゆる段階で私が実行するスキル。そしてあなた自身で構築できるリポジトリ。実際のドラフトにはこれを採用するかもしれません。そして本文に入ります。
これしか方法がないので少し読みますね。こう書いてあります。1対1のミーティングの前に、共有ドキュメントに静かに訪れる、ある種の職業的な恥ずかしさがあります。準備のためにドキュメントを開くと、そこにはリストがあります。そのリストはあなたに関するもので、編集長のケイトから送られてきたものです。そのメモは小さく、外科手術のように的確でした。私の文章はAIのような間違いを拾い始めていました。その文は疑わしいほど対称的でした。展開が滑らかすぎたのです。パラグラフの摩擦のない品質に反論するのではなく、非常に有能なアシスタントが私の真似をしているような印象です。最悪なのは、私がこの失敗モードについて書いているということです。神経科学、スピード、流暢さが品質のように感じられること。しかし、それは違うということがわかりました。
何というか、それが執筆の思考ですね。ああ、大好きです。あなたが言ったことで本当に共感したことの一つは、私自身もこのモデルの思考を読むのが心から大好きだということです。
何を言うか、どう言うか、なぜそう言うかについて、モデルがあらゆる細部を探っているのを感じられるので、全く違う感じがします。そして多くの場合、完成した答え以上に、私が見たいのはそのプロセスそのものなんです。なぜなら、それが私の脳を様々な方向に押し広げるのを助けてくれるからです。
そして、あ、今Claudeを擬人化してしまいましたが、モデルがXYZのことについて心配しているのがわかるので、不必要に心配しているからそっちの方向に後押ししてあげよう、と言えたりします。その書き方は、どう考えているのかを読みたくなるほど魅力的なんです。
終わりに
全くその通りです。さて皆さん。楽しい時間でした。これがOpus 4.8のライブ・バイブチェックでした。
新しいモデルがリリースされるたびに、私たちはこのようなバイブチェックを行っています。早期アクセスを得て、実際に触ってみて、コーディングに使ったり、執筆に使ったり、ナレッジワークのタスクに使ったりします。そしてリリース日に、バイブチェックを行います。バイブチェックはライブで行われます。事前に作成したYouTube動画や録画もあります。
ケイティと私が共同で書いた、長編のバイブチェック記事もあります。私(I)ですか、私(me)ですか。私(me)だと思います。ケイティと私の共著です。
私たちはモデルのリリース日が大好きです。皆さんのためにこれを行うのが大好きなんです。もしEveryの購読者でなければ、ぜひ購読してください。Everyは、AIの最前線に留まるために必要な唯一のサブスクリプションです。未来の働き方のための、最先端のAIラボのようなものだと考えてください。
私たちはこれらのモデルをテストし、それについて書き、それを使ってソフトウェアを構築します。そして多くのトレーニングやコンサルティングを行っています。すべて1つのサブスクリプションで利用可能です。Everyのウェブサイト、every.subscribeにあります。
これからもたくさん発信していきます。本当にたくさんあります。これから多くのものが控えているので、どうぞお楽しみに。そして水分補給を忘れないでくださいね。乾杯。皆さん、乾杯。素晴らしい一日をお過ごしください。さようなら。


コメント