AnthropicがClaude Opus 4.7をリリースし、プログラミング能力のさらなる向上に加え、ドキュメント分析や分子生物学などの領域で大幅な性能改善を達成した。特に注目すべきは、ドキュメント推論が57%から80%へ、分子生物学が30.9%から74%へと飛躍的に向上した点である。プログラミングはすでに高水準に達しているため改善幅は小さいものの、これまで注力されていなかった分野が急速にレベルアップしている。高解像度画像処理、Ultra Reviewによるバグ検出機能、そして強化されたサイバーセキュリティ対策も実装された。一方で新しいトークナイザーの導入により、トークン消費量が最大35%増加する可能性があり、特にMaxモードでは従来の約1.8倍のトークンを消費するため、設定の見直しが推奨される。実際のテストでは、SVG生成やゲーム制作において印象的な結果を示したが、トークン制限にすぐ到達するという課題も浮き彫りになった。

Claude Opus 4.7の登場
皆さん、AnthropicがClaude Opus 4.7をリリースしました。予想通り、改善点と新機能が盛りだくさんです。Mythosをリリースしてから、インターネット上では「Mythosなんてただの誇大広告だ」とか「こんなもの機能しない」とか「ビッグテックは人々の自尊心を煽ってお金を稼ごうとしているだけだ」といった声が溢れていました。
しかし真実は、これらのモデルは改善し続けているということです。そして私は、自分の仕事を100%自動化している人がますます増えているのを目の当たりにしています。では、このOpus 4.7の新機能について理解していきましょう。一緒に見ていきましょう。
それではスタートです。皆さん、いつもいいねを押してくれる方、チャンネル登録してくれる方、本当にありがとうございます。そしてこのAIチャンネルをスポンサーしてくださっているチャンネルメンバーの皆様に特別な感謝を申し上げます。メンバーの方々は、MCPやWhatsAppとの統合、PDFや表計算の読み取りなど、インテリジェントエージェントに関する限定動画にアクセスできることを忘れないでください。また、早期公開動画もご覧いただけます。
高度なソフトウェア開発に特化
そして皆さんが待ちに待った今日の目玉は、このClaude Opus 4.7です。Anthropicによると、高度なソフトウェアに焦点を当てており、より複雑なタスクにおいて具体的な向上が見られるとのことです。これはますます顕著になってきていることです。困難なプログラミングタスクに強いのです。つまり皆さんお分かりのように、すでに優れていたコーディング部分がさらに良くなるということです。なぜなら、プログラミングという専門分野が大きな焦点として取り組まれており、今まさに洗練されているところだからです。
他の分野も台頭してきています。皆さんに非常に重要な分野をこれからお見せします。長時間のタスクに焦点を当てています。なぜなら、皆さんもお気づきのように、タスクの持続時間はますます長くなっているからです。視覚機能が大幅に改善され、画像はより高解像度になっています。そして、専門的なタスクにおいてより洗練され、創造的になっています。
なぜなら皆さんに理解していただきたいのは、Claudeは仕事のためのAIだということです。仕事をするならClaudeなんです。Geminiについて考えると、汎用的な用途向けです。仕事もできるし、コードも生成できるし、ランダムな質問もできます。Geminiはそれに優れていますが、Opusほど強力ではありません。
GPTは、より高度な科学者レベルのことに優れた科学者です。つまり、やりたいと思っている超強力な最適化アルゴリズムなら、ChatGPTということです。しかし仕事について考えたとき、皆さん、多くの人が最も望んでいる部分ですが、それはClaudeなんです。
ベンチマークの詳細分析
ここを見ていただくと、いくつか重要な真珠のような情報があります。いくつかのタスクでは4.6よりもわずかに優れていますが、注目すべきものもあります。例えば、エージェントコーディングが53%から64%になり、10%以上の改善が見られます。10ポイントを超えるたびに注目する必要があります。なぜなら、そこに大きな投資があったということだからです。
そして皆さんもお気づきのように、これはエージェント的なプログラミング分野で非常に興味深い領域です。もう一つ注目すべきは視覚的推論の部分で、70から80へ、84から91へと上昇しています。これは他のモデルと比較して最大の成長の一つです。すでにリリースされているものの、ごく少数の人しか使用していないMythos previewモデルを観察すると、Mythosにはいくつかの用途があります。
例えば、エージェントコーディングでは93.9%を叩き出しており、これは94でほぼ100%です。つまり皆さんもお分かりのように、Mythosは依然として大きなリーダーであり、実際には今Opus 4.7がその後ろにいるということです。ここで注目すべき唯一の数字は、このGPT O1.4で、エージェント検索のbrowser compで全員に勝ち、Mythosにさえ勝っているという点です。
つまり、いくつかの分野があるんです。例えばここ、大学院レベルの推論で94%です。Mythosにわずかに及ばなかっただけです。そして私が言ったことを見てください、それはまさに科学の分野なんです。ですから、モデルには特定の専門分野があることを理解する必要があります。彼らが言っているのは、Mythosはプログラミングを行うために作られたもので、より弱いモデルを評価し続けるということです。
そして彼らは、4.7が最初にテストし評価できるより弱いモデルだと言っています。メールの読み取りを含むタスク、一般の人々とのやり取りを含むタスクを自動化している場合は、特にタスクに機密データや秘密データが含まれる場合、自分を守り、詐欺の可能性を検出するために、常にフロンティアモデル、非常に知的なモデルを配置するのが良いということを忘れないでください。
セキュリティとサイバー防御
そしてアイデアはこうです。4.7は、禁止されている用途やサイバーセキュリティの高リスクを示すリクエストを自動的に検出してブロックします。つまり、技術的にはこれは優れたモデルであり、前面に配置するのに良いモデルなんです。価格は4.6と同じままで、入力100万あたり5ドル、出力100万あたり25ドルです。これはかなり高い価格ですが、これは自社製品でAIを使用している開発者、プログラマーに関係するものです。サブスクリプションとは関係ありません。
4.7は指示に従うのが得意ですが、重要な詳細があります。ここを見てください。指示を文字通りに解釈します。そしてこれは、ユーザーがプロンプトと設定を適宜再設定する必要があることを意味します。つまり、以前は完璧に機能していた古いプロンプトも、おそらく何らかの見直しが必要になります。なぜなら、モデルがより文字通りになったからです。
しかしこれは、以前のモデルがより不正確だったからで、今はより正確になっているということです。ですから、これらの詳細に注意してください。マルチモーダル部分は改善されています。なぜでしょうか?なぜなら彼らは、ますます堅牢な自動ナビゲーションを行うモデルを作りたいと考えているからです。画像は現在、以前のClaudeモデルの3倍のピクセル数を持つ、より高い解像度になっています。
実世界のタスクでの優位性
そして現実世界の仕事では、4.6モデルよりも効果的な金融アナリストです。つまり皆さんお分かりですよね?私が言ったように、このモデルは仕事のため、重要な価値のあることをするためのモデルなんです。メモリも改善されました。そしてベンチマークを見ると、例えばGDPの部分、つまりお金を稼ぐ部分ですが、単独でリードしており、1753ポイントを記録しています。一方、2位はGPT O1.4で1674ポイント、ほぼ100ポイント差です。
GDPはお金を稼ぐタスク、実際の仕事のタスクであることを思い出してください。視覚的ナビゲーション部分、つまりコンピューターを使って作業するようにモデルを設定する場合です。上の明るいバーはツール使用あり、下の暗いバーはツール使用なしです。
したがって、高解像度では、Opus 4.7はツール使用ありで87%の精度を達成しています。これは、ツール使用に関しては4.6とそれほど変わらないということです。しかしツール使用なしでは、70%から80%に上昇します。つまり、ツール使用なしで高解像度の方が良いのです。しかしツール使用ありでは、おそらく同じようなものですよね?特に高解像度はより高いコストがかかるためです。
ドキュメント推論の大幅向上
ドキュメント推論において、これは重要なことです、皆さん、仕事にAIを使う人たち、特にオフィスで働く人たちにとって。彼らは57%から80%の値に上昇しています。これは重要で、意義深いタイプのデータです。もしあなたがプログラミングにAIを使わない人で、ドキュメントの読み取りを行いたい人、オフィスで働き、Officeドキュメントの分析を行う必要がある人なら、ここでの進歩は重要です。これはスプレッドシート、ドキュメントでの作業で、今良いアップグレードを受けているところです。
長いコンテキストの点では、改善はそれほど高くありませんでしたが、Claude 4.6と比較して改善はありました。しかし、このベンチマーク、特にBSでは、41から58に上昇しており、15ポイント以上の改善です。これは非常に明確にしなければなりません。
分子生物学での飛躍的進歩
最も注目を集めたことの一つは、分子生物学の部分で、30.9%から74%に上昇したことです。ここでは、ドキュメント読み取りと同様に、彼らが投資していることがわかるポイントです。なぜこの人たちは分子生物学に投資するのが好きなのでしょうか?これは医学研究、薬の開発、病気の治療研究を含む分野だからです。
つまり、これは非常に価値のある分野であり、私がすでに述べたように、Anthropicは生産的な価値を持つ何かを作ることに焦点を当てています。ですから、「ああ、Claudeは私の分野にはそれほど良くない」と不満を言っていた分子生物学分野の人たちは、もう一度チェックしてみてください。なぜなら、今このことが大きく進歩したからです。
そしてこれはAIの興味深い点です。モデルを進化させていくにつれて、以前はプログラミングに焦点が当てられていたため見られなかった分野が、今プログラミングがレベル2からレベル3に移行している中で、以前は入門的なレベル1だった分野が、今レベル2に上昇しているのです。
収益化の可能性
そしてこれについて、Dario Amodeiは他のインタビューで、彼らはこれらの他の分野のレベルを上げていると述べており、プログラミングに非常に集中していたが、今はあらゆることに焦点を当てていると言っています。VendaMing Benchで、つまりお金を稼ぐベンチマークですが、皆さん、彼らは8000ドルの収益から実質1万900ドル、ほぼ1万1000ドルの収益に上昇しています。つまり、これは2000ドルの増加で、非常に重要な増加です。
レアルでは実質15,000レアルです。そして、この1万ドルという値を考えると、実質5万レアルです。もしあなたのために働き、自動化を行い、月に1万ドルで海外向けに働くことができる小さなシステムを作ることができれば、毎月5万レアルがあなたの口座に入ってきます。ですから注意して、これらの自動化に焦点を当て始めてください。
100%自動化できるとか、AIを単独で働かせることができるというのは伝説だ、神話だと思っている人がたくさんいます。もしそれが神話だと思うなら、間違っているのはあなたです。あなたは正しい方法でAIを使う方法を勉強して学ぶ必要があるのです。
そして私たちInteligência 1000 Grauでは、これらのレベルに到達するためのステップバイステップを皆さんに示すためのトレーニングを準備しています。特にDieguito Sete Telasがこのチャンネルの偉大なメンターの一人であり、これについてさらに多くのコンテンツをお届けします。彼についてもっとお話しします。
コーディング能力と今後の展望
しかし最後に、そして重要なことですが、コーディング部分は80%の精度で依然として高い水準にあります。実際、すでに述べたように、77から80への上昇は非常に小さな進歩です。なぜなら、これはすでに進んでいた分野だからです。ですから、プログラミング分野への期待は、それほど改善しないということですが、生物学のような分野、ドキュメント分析のような分野は、プログラミング部分よりもはるかに上昇し始めるでしょう。
プログラミングはすでに天井に達しています。質は向上しますが、量は向上しません。安全性の面では、人間の価値観との整合性に関して、小さいバーほど良い結果を示します。したがって、緑色のMythosがここで最高の結果を持っており、2位は4.7で4.6に非常に近いことがわかります。
ですから、整合性の問題では4.6と4.7は非常に似ていると言えます。今日リリースされたものの中で、より優れた努力制御があります。現在、4.7にはextra highの努力レベルがあり、以前はありませんでした。これはmaxとhighの中間です。そしてAPIで作業する人には、すでに話した高解像度画像の部分がありますが、トークンの支出をコントロールするのに役立つ予算機能があります。
この部分は、AIを使って製品を作るプログラマーで、コストをより適切に管理したい人のためのものです。Claude Codeには今、Ultra Reviewというものがあります。皆さん、これは専用のレビューを行い、変更を分析してバグを知らせます。ProまたはMaxの購読者であれば、3つのUltra Reviewを無料で利用できます。
ですから、細部にこだわるレビュアーが必要な場合は、これを使うべきです。Claude CodeのUltra Reviewバーです、皆さん。4.6から4.7への移行の重要なことの一つは、トークナイザーを変更したことです。これはテキストをトークンに変換する方法です。そしてそのため、処理が改善されましたが、一方で、一部のタスクは他のタスクよりも多くのトークンを消費します。
トークン消費の増加に注意
そして彼らは、コンテンツの種類によって0から35%増加する可能性があると推定しています。また、より高い努力レベルでより多くのデータを処理するため、結果がより信頼できるものになります。しかし皆さんもうお分かりですよね?Claudeはすでにトークンを消費することで有名です。これはさらにトークンを消費することになります。
そしてこれはここで非常によく示されています。茶色が4.7です。はるか前に、上に行ったmax版があり、新しいextra high版があります。ここで重要な注意点があります。このテーブルによると、extra highからhighは、古いMaxに相当します。設定時にMaxに設定していた場合、今の同じMaxは1000倍も消費するんです、皆さん。
この注意書きに注意してください。古いMaxは約12万トークンを消費していましたが、新しいMaxは約21万トークンを消費します。ですから、Maxに設定することに慣れていた場合は、今はMaxではなくextra highに設定すべきです。特にextra highの改善は約70%から74%に上昇するため、この増加を正当化するほど大きな改善ではないかもしれません。
上げるか上げないかはあなたが決めることです。そして私たちのテストで何が起こったか?私たちのペリカンは素晴らしいですよね、皆さん?ここを見てください。足がペダルにあり、手がハンドルにあり、くちばしが正しく、自転車には車輪があり、風があり、芝生があります。
芝生にはいくつかの細部があり、背景があり、太陽があり、すべてあります。しかし皆さんもご存知のように、GoogleがSVG生成に多額の投資をしたことは確かで、この点でGoogleを超えるのは難しいでしょうが、Googleの次はClaudeが実質的に1位です。私が言わなければならないことの一つは、チャンネル用のテストをするのがやっとだったということです。
私の割り当てがすでに尽きてしまい、皆さんもご存知のように、これはClaudeの大きな問題の一つです。テストしようとするたびに、少なくともMaxアカウントを持たずに、メインモデルとして使用するのは難しいのです。そしてMaxアカウントを持っていても、非常に早く消えてしまいます。しかし、私たちのカートゲームの結果はこれです。これは美しいものです。
実際のテスト結果
面白いことに、カートが機能していて、コインが機能していて、ここに小さな車輪があり、真ん中に小さな列車があります。この線路を見てください、この線路の品質がどれほどか。そして小さな列車がドリフトをしています。本当ですが、この小さな列車にはすでに小さな窓があり、小さな煙突があります。カートには様々な興味深い細部があります。
そこでAIがプレイしているのを見てください。このAIのカートを見てください。すでに小さなヘッドライトがあり、車輪があり、前部と後部が機能しており、通常は車が横に走ったり何か非常におかしなことが起こるものですが、今からここではそうではなく、コードが非常に正確で、スコアボードが非常に正確で、AIは少し迷っていました。
衝突していない、衝突していないのですが、プロンプトを一つか二つ使えば改善されてすべて解決します。そこに素晴らしい小さな列車があり、ここに素晴らしい線路があります。この生成は完璧だと思います、特に修正が全くないためです。私が頼んだだけでこれが出たのです。私たちのMario Kartの小さなゲームでは、何が起こったか見てください。
素晴らしいですね、皆さん。これは私が1つのプロンプトで行った生成です。道路がありませんでした。道路がありませんでした。修正を頼んだところ、単純にクレジットが尽きてしまいました。だから私に文句を言わないでください。それで、私は自分がトラックから外れているのが見えません。でも皆さん、これは1つのプロンプトでの生成です。
これは考えられなかったことであり、ほとんどのコードジェネレーターが1つのプロンプトでこれを行うのに苦労することです。正直に言って、私は非常に驚いています。これがこんなに早く起こるとは思っていませんでしたし、ゲームがこんなに早くこの品質に達するとは思っていませんでした。そこにあるバナナを見てください、かわいいですね。オブジェクトを見てください。
起こっているすべてのことを見てください。スタート画面が横になっています。横になっています。私はゲームに勝ち、音がバグりました。本当です、それは事実です。しかし一方で、1つのプロンプトの品質は素晴らしいです。問題は、このエラーを修正するために2番目のプロンプトを作りたい場合、何が起こるかすでにわかっていますよね?これが起こります。
追加使用を使い果たしました、制限は19時にリセットされます。ですから、このトークン不足の問題、皆さんすでに何が起こっているかご存知ですよね。では、あなたが何を考えているか、テストで何が起こっているか、気に入っているかどうか、下にコメントしてください。私が言えることは、これは素晴らしいということです。
最新ベンチマーク結果
ARC-AGI 2を見ると、ここでは4.7 Maxは、Gemini 3.1 Proと同点です。実際には3.1 Proをわずかに超えましたが、Claudeはまだ GPT O1.4 Proに到達できず、GPT O3 Deep Thinkにも到達できませんでした。これはARC-AGIバージョン2での話です。今何が起こっているかというと、ARC-AGIにバージョン3があり、バージョン3では課題がはるかに大きく、AIはかなり苦戦しています。
皆さんに理解していただきたいのは、私たちが持っている最高の結果はこのAnthropicの4.6です。そしてそれは0.5を記録しました。私が言った通りです。テストの1%の正解にさえ到達しませんでした。それはARC-AGIのバージョン3が、面白いことに、ゲームをプレイするために作られているからです。基本的にルールを全く教えてくれず、ゲームが始まるだけで、この画面を見て何が起こるべきかを理解し始めなければなりません。
そして上、下、左右のボタン、スペースバー、クリック、アンドゥ、リセット、ヘルプ、セレクトがあります。それだけです。そしてここでボタンを押し始め、何が起こっているかを見始めます。ああ、上を押すと、あそこの色のついた小さな四角が動きます。左を押すと、ここの色のついた小さな四角が動きます。
その中で、ゲームのルールが何かを推測しなければなりません。ゲームのルールはわかりません。動かすと何かが起こる画面の要素があります。例えば、この黄色い小さなバーは減少しています。ここでこのプラスを取ると何が起こるかわかりません。取って、何が起こるか見てみます。
何かが点滅しました。このシンボルがここにあり、上のあのシンボルと同じように見えます。上に上がったら何が起こるか見てみましょう。では皆さんお分かりですね?小さなバーは下がり続けています。私は上に行って何が起こるか見てみます。終わりました、ステージをクリアしました。これがゲームのレベルです。この新しいステージには、私が今まで見たことのない新しい要素があります。
このように、AIはプレイして、何が起こっているかを理解し、推測しようとしなければなりません。私はこう言いたいのです。このタイプのテストは、AIが徐々に成長しないタイプのテストになる可能性が高いです。これがどう機能するかを理解した瞬間、0から100%へ非常に速く移行するでしょう。なぜなら、小さなゲームのルールは非常にシンプルだからです。
今まだうまくいっていないのは、視覚的なものと実践的で手動なものとの間のこの相互作用です。しかし、年末までには実現しているのでしょうか?皆さんが何を考えているか下にコメントしてください。なぜなら、0.5%という結果にとどまるのは非常に恥ずかしいからです。そして、このような動画を見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーは、インテリジェントエージェントに関する限定動画や早期公開動画にアクセスできます。
それでは、いいねをお願いします。ありがとうございました。


コメント