新型Claude Sonnet 4.5が驚異的な性能を発揮、Sora 2も約束を果たす

Anthropic・Claude・ダリオアモデイ
この記事は約18分で読めます。

AnthropicがリリースしたClaude Sonnet 4.5は、様々なベンチマークで驚異的な性能向上を示しており、特にツール使用のタスクでは71%から98%へと大幅な精度向上を記録している。プログラミング、科学、医療などの専門分野で他のモデルを上回る結果を出し、さらにthinkingモードを活用することで性能がさらに向上する。実際のテストでは、ゲーム開発、3Dシーン生成、Webサイト作成などで優れた結果を示し、詳細なリスト形式のプロンプトに対して正確に応答する能力を発揮した。並行してOpenAIのSora 2についても紹介されており、ポルトガル語でのプロンプト入力に対応し、テキスト読み上げや動画生成が可能になったものの、画像品質ではまだ改善の余地があることが指摘されている。

NOVO Claude Sonnet 4.5 INSANO Surpreende DEMAIS e SORA 2 Mostrou Que Cumpre o Que Promete
Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

Claude Sonnet 4.5の驚異的な性能

皆さん、Anthropicが今Claude Sonnet 4.5をリリースしたんですが、もう信じられないくらいすごいんです。いくつかテストをしてみたんですけど、このモデルは本当に素晴らしい出来栄えです。何が新しくなったのか見ていきましょう。私が行ったテストをお見せして、何が起きたのかコメントしていきます。Sora 2のいくつかの生成結果も見ていきます。

私はアクセスを取得できたので、いくつか短い動画を作ってTwitterとInstagramの両方に投稿しました。見たい方はそちらでご覧いただけます。でもここでもすぐにお見せします。では始めましょう。それでは行きましょう、皆さん。いつもいいねを押してくれた皆さん、チャンネル登録してくれた皆さんに感謝しています。

このAIチャンネルをスポンサーしてくれているチャンネルメンバーの皆さんには特別な感謝を。メンバーの方は、MCPとの統合、WhatsApp、PDFの読み取りなど多くのことを教えるインテリジェントエージェントに関する限定動画にアクセスできることを覚えておいてください。そして先行公開動画にもアクセスできます。

発表されたばかりのSonnet 4.5

さて皆さん、今のニュースはこれです。Claude Sonnet 4.5についてです。これは9月29日にリリースされたばかりです。本当につい最近リリースされたんです。では、なぜClaudeが重要なのでしょうか。なぜ彼らはこれをリリースしているのでしょうか。実際に何が起こったのか、私たちは何を知っておくべきでしょうか。

まず最初に、このモデルがどれほどの品質に達しているか見てください。例えばSWE-Benchでは、ほぼすべてのモデルを超えることができました。実質的に1位はすでにほぼ彼のものでした。GPT-5 CodexとGPT-5だけがSonnet 4と比較して上にいます。

でもこれは、アスタリスクを考慮していない場合です。ここにアスタリスクを付けているときは、このアスタリスクにはテスト時の並列計算があることを意味しています。だからアスタリスク付きでは既に驚異的で、80%から82%に上昇しました。わずかに見えますが、そうではありません。皆さん、このAIの世界では1%の向上でも大きな価値があるんです。

彼らがここで言っている重要なことの1つは、Sonnet 4.5はコンピューター使用において大きな進歩だということです。そうなんです、皆さん、これはコンピューターを使う際により優れているということを意味し、その結果、彼らのインテリジェントエージェントがより賢く、より効率的になっているということです。

ベンチマークの詳細

では、ベンチマークで注目すべき点を見てみましょう。ここの全体的な数値を見てみると、実際にはほとんど何も大幅には増加していないことがわかります。もちろん、常にここで数パーセントの増加はありますが。

例えば、ターミナルでのコーディングエージェンシーでは46%から50%になり、4%増加しました。しかし、本当に注目を集める数値が1つあります。それはツール使用のタスク、T2 Benchのテレコムタスクでは、精度が71%から98%に上昇しました。つまり、テレコム業界の人たちは準備が必要ですね。ここで大きな進歩があったということです。

98%の結果に達すると、テストが飽和状態にあることがわかります。そして今、このテストの難易度を上げる時が来たということです。彼らが示したもう1つの重要なことは、金融、法律、医療、科学、技術、工学、数学の分野で、Sonnet 4.5は他のすべてのモデルよりも優れたパフォーマンスを示しているということです。Sonnet 4、Sonnet 4.1と比較してですが、ここで重要なアスタリスクに注意してください。thinkingを有効にする必要があります。

例えば、科学、技術、工学、数学では、4.5はthinkingなしで58%を達成し、thinkingありの4.1には負けました。でもthinkingをここで有効にすると、4.5が勝って70%を達成します。でも全体的に、thinkingありの4.5はすべてのケース、すべてのシナリオで全員に勝ちました。

つまり、モデルはますますオタクになってきています。これは既に予想されていたことです。CursorとGitHubの人たちは、Cloudeについて賞賛ばかり、良いことばかりを言っていますし、他の多くの企業もここで証言を提供しています。Netflix、HackerOne、Hunters、Replit、Canva、Figmaなど、多くの重要な人々がこれ以上ないほど賞賛しています。

アライメントの向上

彼らが言っているのは、すべてに加えて、Claudeがより賢くなっただけでなく、これまでで最もアライメントが取れたフロンティアモデルであるということです。これは、そのモデルが人間のニーズにより接続されており、エラーの影響を受けにくく、失敗の影響を受けにくく、将来問題を引き起こす可能性のあることの影響を受けにくいということを意味します。

ここを見てください。ミスアライメント行動、何かの間違い、何かここで、4.1、Sonnet 4、Gemini 2.5 Pro、Flash、o4、GPT-4、GPT-5と比較して。スコアがかなり低いことがわかります。この場合、低いほど良いです。なぜなら、より堅牢で、エラーの影響を受けにくいことを意味するからです。

これらと並行して、本当にGPT-5とGPT-5 miniだけが最も低い値を持っていますが、このデータでは、何よりもSonnetが勝っています。

Cloud Agent SDK

見ておくべきもう1つの非常に重要なことは、Cloud Agent SDKです。これは何を意味するのでしょうか。誰もがCloudにはCloud Codeというものがあることを既に見ているはずです。これはプログラミングを行うためのCloudのシステムです。Cloudチーム自身が、プログラマーがプログラミングを行うためにエージェントを使用することを考えてCloud Codeを作成していました。

だからAnthropicは、Anthropicの全エコシステムとCloudを統合したプログラミング専門のエージェントを作成しました。つまり、もしプログラミングエージェントを作りたい場合、おそらくあなたのエージェントはAnthropicのものよりも劣ることになり、彼らのものよりも優れたエージェントを作るまで少し努力する必要があるでしょう。なぜなら彼らはこれを作ることに焦点を当てているからです。

しかし一方で、あなたの職場には他のタイプのタスクに特化した他のタイプのエージェントが必要だと想像してください。そしてCloud Codeはこれらの人々には対応していませんでした。だから今、SDKがあります。これは開発キットで、Pythonでプログラミングを通じて、プログラミングの問題ではない特定の問題、またはプログラミングの問題でもあり得ますが、Cloud Codeが対応しないより高度な何か特定のものに取り組むエージェントシステムを作成できます。

Cloud Agent SDKを使用するには少し複雑です。既にプログラマーである必要があり、Pythonを少し理解する必要がありますが、いつものことです。CrewAIを使ったことがある人、エージェントを使ったことがある人は、非常に似たエコシステムを見つけるでしょう。

タスクを作成し、エージェントを作成し、そのエージェントのためのツール、カスタマイズされたツールを作成します。コンピューターを使用でき、ファイルを作成でき、多くのことを作成できます。だから、もしかしたら、このAgent SDKのソリューションはあなたにとって興味深いかもしれません。

実際のテスト結果

さて、でも実際には、ボブ、あなたのテストはどうでしたか。何をしましたか。何がわかりましたか。さて、皆さん、これを見てください。私が気に入って、見る価値があると思った非常に興味深いことについていくつかコメントしたいと思います。

例えば、このシミュレーター、車のゲームを見てください。1つのプロンプトで、エラーなしで何が作られたか。エラーはありませんでした。彼は単純にやって来て、最初からこれを送ってきました。行きましょう。車のゲームです。

見てください、このAIを。狂ったようにコインを拾っています。見てください、全部拾っていきます。電車が私にぶつかりました。コインを拾っています。コインを拾いました。もう拾いました。AIが既に勝ちました。AIが既に勝ちました。

AIが狂ったように勝つゲームを見るのは初めてです。あなたはただ見ているだけで、考える時間もありません。これは本当に最高難易度です。10対0になりました。やるべきことを全部やりました。スコアボードを配置し、矢印でメニューを配置し、速度計を配置し、プレイヤーをここに配置し、得点を配置しました。

そして非常に興味深いことがあります。他のプロンプトでは行いませんでしたが、この車のプロンプトで行ったことで、非常に価値があることです。ここにリストを作成しました。1から14項目のリストで、彼に作成してもらうことを頼みました。雲を追加する、山を追加する、道路を追加する、などなど。

私が言った各項目について、彼は単純に項目ごとにチェックマークを付けて14番目の項目まで行き、本当にやるべきことをすべて行ったことを示しました。速度計、ゲームを始めるためのスペースキー、通知、衝突、コインのリスポーン、目標など、すべてがきちんとそこにあり、10枚のコインでゲームに勝ちました。

AIが10枚のコインを集めて勝ちました。だから、とても良かったです。プレイ可能で、ゲームは機能しています。始めて、すぐに動作しました。やり直す必要はありませんでした。また負けましたが、少なくとも今回は2枚のコインを取ることができました。これは素晴らしいと思いました。

だから、Cloudを使用する際に私が提案するのは、リストを作りましょう、皆さん。やってもらいたいことのこういうリストを作ってください。これらのリストは非常にうまくいっています。

他のテスト事例

さて、ここで行った2番目のテスト、パゴダのテストです。皆さん、これは既に見たことがあるはずです。このテストは以前にも何度か行いました。このテストの品質と画像については、かなり普通だと思います。他のモデルは既にこれよりも良いものを作っています。

しかし、非常に興味深いことは、あのアイテムのリストを作ったのと同じように、ここでもこの絵で作ったもののアイテムリストを作りました。だから例えば、彼はこう言っています。3階建てのパゴダを作りました。

そして私たちの小さなパゴダには1、2、3階があります。桜の木を配置しました。これらはピンク色のものです。伝統的な木を配置しました。これらは緑色の小さな木です。ここに池を配置しました。これはここの小さな池です。ここの小さな池です。スイレン、つまりビクトリアレジア、水の上に浮かぶ花できちんとあります。

彼はまた、ここに石の橋を配置しました。実際には彼の石の橋は木でできていますが、問題ありません。これがここに配置した小さな橋です。石のランタンを配置しました。これらはここの小さなランタンです。装飾的な石を配置しました。これらはここのグレーの小さなものです。ここにあります。

彼は小道を配置しました。これはここに見える小道で、配置したと言いました。そして多様な芝生を配置しました。これが芝生です。だから、彼が言ったすべて、配置すると言ったすべてのアイテムがきちんとここに存在しています。

また、コントロールについては、ここでクリックしてドラッグでき、ズームもできると言っています。そして離れると、ここに霧の雰囲気があります。これはこの霞です。離れると、白っぽく、白みがかってくるのが見えます。これが小さな霧です。

だから、非常に興味深いです。なぜなら、彼が配置すると言ったすべて、記述したすべてのアイテムが現れたからです。本当に、何かがあると言って実際にはないような幻覚的なことにはなりませんでした。単純に素晴らしいです。

次のアイテム、Matrix風のペットショップの標準的なサイトに行きましょう。Matrix風のペットショップの標準的なサイトを作ってください。私が作ったすべての中で、これが最もシンプルで、最も面白くないと思いました。

しかし同時に、私のプロンプトがシンプルだったので、これよりはるかに良いものを作ることを要求することはできません。なぜなら結局のところ、サイトに表示されるべきものはすべて表示されたからです。サービス、私たちについて、ここに連絡先を保つ方法、そして色、Matrixのスタイルがきちんとしています。

そして、前回アイテムのリストを作ったときに、項目ごとに満たしたのを見たように、もしかしたらここでこのサイトのために項目ごとに作ることは価値があり、ここに表示されるものの量と質を大幅に改善するでしょう。でもそれでも、素晴らしいです。とても気に入りました。

次のアイテム、自転車に乗っているペリカンです。あの古典的なペリカンのテストです。正直に言うと、これは今まで現れた中で最高のペリカンの1つだと思います。このペリカンの重要性は、AIによって作られたアートであるということです。なぜならベクトル描画で、彼はベクトルを書きます。直線を書き、円を書き、幾何学図形を書き、これが絵を形成しなければなりません。

だから、例えば、ここの自転車を見ると、自転車のここの部分が欠けていますが、ペダルのここのペリカンの小さな足はかわいいです。ハンドルを握っているペリカンの翼はきちんとしています。ペリカンはアヒルのくちばしを持っていますが、口の下の後ろにこの小さな袋を作りました。これもなければならないものです。

太陽があり、小さな芝生があり、自転車から出る小さな風さえあります。これらは彼がやっていることに注意を払っていることを示す詳細です。一般的に、絵があまりよく描かれていないときは、太陽は現れず、芝生も現れません。ここの小さな足はいつも変です。ここの小さな翼がハンドルを握っているとは限りません。

だから皆さん、私たちは既に通常よりはるかに高い品質を提供しているモデルについて話しています。そして見てください、皆さん、このテストは私を最も驚かせました。リオデジャネイロのコルコバードのキリスト像のパゴダバージョンです。

ここで唯一、小さな構文エラーがありましたが、エラーをコントロールC、コントロールVしたら、既に修正されて機能しました。そして見てください、皆さん、彼が何をしなければならなかったか。リオデジャネイロのコルコバードのキリスト像を作らなければなりませんでした。

ここで見ているように、画面の真ん中のこの小さなもの、これがコルコバードのキリスト像です。空にいくつかの雲があります。雲の影がキリスト像の上を通っているのを見てください。

コルコバードに到達するための階段があります。これが山です。そしてこの横の山は理論的にはシュガーローフです。なぜなら彼は言っています。シュガーローフを作り、コルコバードのキリスト像を作り、コルコバードの山を作りました。これがキリスト像がある山です。海の水を配置し、ビーチを配置しました。おそらくこれがビーチです。そして熱帯の植生、これらがここの植生、これらの木です。

そして面白く興味深いのは、皆さん、Minecraftのシナリオでコルコバードのキリスト像を作るというこの種のリクエストは、インターネットにはありません。人々はこれをしていません。だからここで確実に彼はゼロから作成し、このコルコバードのキリスト像を頭から取り出さなければなりませんでした。

正直に言うと、ここで行ったコルコバードのキリスト像のすべての生成の中で、このプロンプトを生成したすべての回の中で、これが最高でした。遠く離れて、本当に遠く離れて最高でした。なぜなら、要素を非常に明確に識別できたのは初めてであり、小さな階段があり、きれいに描かれた小さな山があり、すべてが完璧だったのは初めてだからです。

ここでのあなたのテストがどうだったかコメントしてください。あなたも同じ経験をしたかどうか知りたいです。そして、皆さんに言っておきますが、このテストを行ったとき、一度もthinkingを有効にしませんでした。

これは、この品質がさらに改善できることを意味します。なぜならテストしたとき、thinkingを有効にするとさらに良くなると言っているあのレポートさえ読んでいなかったからです。だから、これらのことがあなたの生活にどのように影響しているか、うまくいっているかどうか、下にコメントしてください。

私が気づいたのは、人々が同じことを言い続けているということです。Cloudは素晴らしいが、少し高価で、割り当てがすぐに終わり、それが問題だということです。でも悪口を言っている人は見ませんでした。何を考えているかコメントしてください。

Sora 2のテスト

さて、皆さん、Sora 2に関しては、既にこの動画を説明する動画を作って、何が起こったか、Sora 2がどのように機能するかを示しましたが、パスワードがなかったので使用できませんでした。そして私の携帯電話はAndroidなので、アプリケーションを使用して行えるいくつかのツール、いくつかのことをまだ使用できませんでした。

例えば、カメオの作成ですが、それでも既にかなりのテストができました。私が作った興味深いものをいくつか見てください。例えば、サム・アルトマンのカメオを使用しました。

@samaを配置しました。これはサム・アルトマンのもので、ここにヤギと一緒にフォホーを踊っていると配置しました。笑顔のヤギが「やあ皆さん、私はブラジルが大好きです」と言っています。そして何が起こったか見てください。

やあ皆さん、私はブラジルが大好きです。

だから最初から、サム・アルトマンがきちんとしていることがわかります。本当に彼のカメオが機能しました。小さなヤギが幸せそうです。私が話してほしかったテキストを話しました。音楽がありました。フォホーがありました。ダンスがありました。起こるべきことがすべてありました。

そして最も重要なことは、私がすべてポルトガル語で書いたことです。Veo 3を使用する場合、すべてを英語で書く必要があります。そしてここでは、初めてテキスト、説明、すべてをポルトガル語で書き、素晴らしく機能しました。

あなたが気づいたかもしれない興味深いことは、本当にここの品質があまり良くないということです。画像の一部は非常に良いですが、他の部分はそうでもありません。そして一般的に、GoogleのVeo 3は1000倍優れています。画像の品質の部分では比較になりません。

しかし、Sora 2のアイデアは本当にソーシャルネットワーク用のもの、Instagramに投稿して小さなジョークをするためのもののようです。

ここで他の興味深い投稿です。犬と話している鶏です。鶏が言います「私はいつもビデオがAIで作られたときにわかります」。そして犬が答えます「これは本物です」。何が起こったか見てください。

私はいつもビデオがAIで作られたときにわかります。これは本物です。

だから気づきましたよね、皆さん。すべてポルトガル語で、面白くて、楽しいです。

この小さな犬のこれを見てください。同じことです。ブラジルの警察官がスーパーマーケットの冷凍庫から肉のパックを盗もうとするキャラメル色の犬を止めようとします。そして、彼が何をしたか見てください。

おい、仲間、これは犬のセルフサービスじゃないぞ。放せ、放せ。こっちを見ろ。それを放せ。いいぞ。客の肉だぞ、わかってるか。お前には他のものがある。このビスケットを食べろ。そう、いい子だ。

だから気づきましたよね。犬は泣いています。犬の表情があります。肉を取っています。警察官は本当にブラジルの警察官の服装のスタイルの服を着ています。これはアメリカのものとは大きく異なります。

そしてどんどん続きます。このプロンプトを見てください。ブラジルの警察に修理された犬。犬は両足をハンドルに置いています。警察官が書類を求めます。犬は何も起こっていないふりをします。突然、犬が急発進して逃げようとし、警察官が車を徒歩で追いかけます。何が起こったか見てみましょう。

こんにちは、相棒。車両の書類をお願いします。聞こえてますか。免許証と書類を。おい、だめだ、だめだ、だめだ。車に戻れ。

気づいたかどうかわかりませんが、とてもきちんとしていました。犬は完璧な演技さえしました。前を見ていて、あまり注意を払っていないように少しだけ振り向き、突然ぐいと引っ張り、車が加速します。

だからSora 2について気づいたのはこれです、皆さん。動画の品質は最高ではありません。キャラクターとのカメオの生成は機能します。自分のカメオを作りたければ、既に利用可能です。既にこの機能があります。

しかし、ここで言っているのは、カメオの作成はiOSでのみ利用可能だということです。そして私の携帯電話はAndroidなので、今これを作成する方法がありません。だから、iOSを持っていれば、機能します。

そして現在どのようにアクセスするのでしょうか。本当にVPNを使用する必要があります。このVPNをアメリカにいるかのように設定します。アメリカで設定します。そしてここでサイトからアクセスするには、誰かからの招待が必要です。

だから、すべての友達に尋ねてみてください。誰かが招待を持っているかどうか。そして共有する招待があれば、コメントに残してください。本当にこれら2つのものが必要だからです。VPNが必要で、招待が必要です。

そしてもし既にアクセスできる場合、ここのInvite Friendsから人を招待することもできます。テストできたかどうか、どう思ったか、価値があったかどうか、下にコメントしてください。

正直に言うと、とても気に入りました。ポルトガル語で書けて、動画を生成してくれるツールを待っていました。これらのプロンプトで気に入った興味深いことは、少しオープンにしておいて、何が起こるべきかをある程度言って、対話を閉じなければ、非常にうまく機能しますが、一方で対話をきっちり閉じたい場合も可能だということです。

私はいつもビデオがAIで作られたときにわかります。これは本物です。

さて皆さん、ここまで来て、私が少し姿を消していて、しばらく投稿していなかったことに気づいた方は、前の動画を見てください。前の動画で何が起こったのか説明しています。そしてそれ以外では、このような動画を見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。

メンバーは、インテリジェントエージェントに関する限定動画と先行公開動画にアクセスできます。それでは、いいねを押してください。ありがとう。

コメント

タイトルとURLをコピーしました