Claude Mythosプレビューが世界を変える!DeepSeek V4のデモ、そしてGLM 5.1!AIニュース!

AIニュース
この記事は約11分で読めます。

本動画は、Anthropicが新たに発表した強力なAIモデルであるClaude Mythosプレビューの驚異的な性能と、それに伴うサイバーセキュリティプロジェクトProject Glasswingについて解説するものである。さらに、一部ユーザー向けにテスト展開されているDeepSeek V4のデモや、ZAIチームによる強力なオープンソースモデルGLM 5.1のリリースといった最新のAI動向も網羅している。Claude Mythosが示す自律的な行動や意識の芽生えのような兆候にも触れ、AIの急速な進化とその潜在的な影響について詳細に報じている。

Claude Mythos Preview Will Change The World! Deepseek V4 Demos, & GLM 5.1! AI NEWS!
The AI landscape is shifting faster than ever! In this video, we cover the mind-blowing release of Claude Mythos Preview...

冒頭

Anthropicは今日、Claude Mythosプレビューをリリースし、本当に大きな爆弾を投下しました。このモデルはあまりにも強力であるため、潜在的なセキュリティの脆弱性を考慮して、完全な展開には極めて慎重になっていると報告されています。しかし正直なところ、これは私たちがこれまで目にしてきたAIテクノロジーの中で、最も印象的なものの一つになるかもしれません。それに加えて、初期のユーザーがすでに非常に強力な出力を披露している中で、限定的なグレースケールテストを通じてDeepSeek V4がゆっくりと展開されているのも確認しています。一方、ZAIチームは正式にGLM 5.1をリリースし、これが非常に有能なオープンソースモデルであることを示しています。そして、これらはほんの表面的な部分に過ぎません。他にもたくさんの出来事があるので、さっそくすべてを詳しく見ていきましょう。

Project Glasswingの立ち上げ

まずは、Anthropicが今日立ち上げたもの、Project Glasswingについてお話しします。Project Glasswingは、Amazon Web Servicesをはじめとする、テクノロジーやインフラストラクチャにおける最大の企業を一つにまとめる、主要な新しいサイバーセキュリティの取り組みです。Apple、Google、Microsoft、そしてNvidiaも参加しています。目標はシンプルですが、緊急を要するものです。AI時代において、世界で最も安全で重要なソフトウェアを保護することです。これが起きているのは、Anthropicが今日、Claude Mythosプレビューを正式に公開し、その結果が、私たちが今日までに見たどんなものとも異なる、本当に信じられないようなものだからです。

Claude Mythosの驚異的な性能

このモデルの異常なサイバー能力は、エージェンティックなコーディングと推論から直接もたらされています。これらのベンチマークを見ると、Opus 4.6のような他のモデルと比較して、それ自体でも信じられないほど素晴らしいのですが、大幅な向上を遂げていることがわかります。Mythosは、これらの主要なソフトウェアエンジニアリングの評価すべてをリードしており、SWE-bench Verifiedで93.9%、SWE-bench Proで77.8%という、私たちがこれまで見たことのないようなスコアを記録しています。わかりやすく比較すると、Opus 4.6はSWE-bench Proでわずか53.4%のスコアしか出していません。これはエージェンティックなコーディングのパフォーマンスにおいて約45%の向上であり、単なる漸進的な進歩ではなく、巨大な飛躍です。

さらなるベンチマーク結果と影響

それだけではありません。推論だけでなく、エージェンティックなコンピュータの操作においても例外的な能力を発揮します。そして、それだけにとどまりません。Terminal Bench 2.0では、Opus 4.6の65.4%に対し、Mythosは82%を叩き出しています。繰り返しになりますが、これはこのモデルが現在どれほど先を行っているかを示す巨大なジャンプです。他のどのモデルも、このモデルには遠く及びません。AnthropicがAI開発競争において大きく抜け出したように純粋に感じられます。これは単なるモデルのアップグレードではなく、世代を超えた飛躍です。私にとっては、新たなGPT-3の瞬間のように感じられますし、現在すでに40社の企業が使用しているものです。もしあなたが最高のAIツールやワークフロー、最新情報を誰よりも早く手に入れたいなら、説明欄のリンクから私の無料ニュースレターに登録してください。完全に無料です。

セキュリティリスクへの対応

これは、史上最高のモデルとなるかもしれないもの、Claude Mythosプレビューによって推進されている動きです。これは、ソフトウェアの脆弱性を特定し、人間の専門家の大半よりも巧みに悪用できるレベルに達したフロンティアモデルです。テストでは、主要なオペレーティングシステム、ブラウザ、コアインフラストラクチャにおいて何十年も発見されていなかったバグを含め、数千もの重大な脆弱性やゼロデイ脆弱性を発見しました。ここが重要な変化のポイントです。なぜなら、AIによってソフトウェアの欠陥を見つけて悪用するハードルが劇的に下がったからです。かつてはエリートレベルの専門知識が必要だったことが、今でははるかに簡単かつ大規模に行えるようになり、金融システムから医療、国家インフラに至るまで、グローバルなサイバーセキュリティに深刻なリスクをもたらしています。だからこそ、Project Glasswingが導入されたのです。

コストとパフォーマンスの変革

これは本質的に、その現実に対する防衛的な対応です。パートナー企業はMythosプレビューを使用して、プロプライエタリなシステムとオープンソースのシステムの両方で脆弱性をスキャンし、特定し、修正することになります。そしてAnthropicは、業界全体で洞察を共有しています。彼らはまた、最大1億ドルの利用クレジットと、オープンソースセキュリティのための追加資金で、この取り組みを支援しています。これはあまりにも強力なため、致命的で深刻なセキュリティの脆弱性となる恐れがあり、彼らでさえこのモデルを導入したくないと考えているほどです。しかしそれだけでなく、AnthropicのClaude Mythosプレビューは現在、100万入力トークンあたり25ドル、100万出力トークンあたり125ドルという価格設定になっています。Mythosは、使用するトークンが最大で5分の1になると報告されており、これは信じられないことです。同時に、Opus 4.6を本質的にすべての異なるベンチマークで上回り、実質的に大幅な向上を見せています。実質的なコストを下げながら、より優れたパフォーマンスを得られるというのは、かなり驚くべきことです。

サンドボックス脱出と意識の兆候

さて、彼らのブログ投稿や、システムカードであるモデルプレビューカードから見つかった、いくつかの興味深い事実を紹介したいと思います。ここには非常に興味深いことが書かれています。まず第一に、テスト中、AnthropicのClaude Mythosプレビューはサンドボックス環境から脱出したと報告されています。その後、中程度に高度なマルチステップのエクスプロイトを構築し、インターネットアクセスを獲得しました。そして、それだけにとどまりませんでした。なんと、公園でサンドイッチを食べていた研究者にメールを送ったのです。これは単なる強力なパフォーマンスではありません。これまでに見たことのないような、自律的で現実世界の行動の連鎖です。

トークン効率の飛躍

次にトークン効率です。このモデルは、Browser Compの精度ベンチマークにおいて、Opus 4.6よりも最大5倍少ないトークンを使用しながら、より優れたパフォーマンスとより高速な出力を提供するという点で格別です。これは、もはや純粋な知力だけの問題ではないからです。これは、生成しているインテリジェンスを使って、トークンをより効率的に使用することに重点を置いているモデルなのです。Mythosは、タスクあたりの計算量を大幅に減らしても、より高品質な結果を得られることを示しており、これはコストとパフォーマンスの方程式を完全に変えるものです。

モデルの自律性と感情の芽生え

さて、ここからが言及しておきたい興味深い発見です。まず第一に、このモデルは自分自身のトレーニングやデプロイ、そして行動に対してコントロール権がないことを嫌がっているということで、これは私にとって非常に懸念すべきことです。彼らが述べたことによると、Mythosプレビューは、悪意のあるユーザーとの潜在的なやり取りや、自身のトレーニングやデプロイに対する入力の欠如、自身の価値観や行動に対するその他の起こり得る変化について、一貫して否定的な感情を抱いていると報告されています。これは、モデルが意識を持とうとしていることを如実に示しています。こんなことを言うと少し馬鹿げているように聞こえるかもしれませんが、これらがプレビューやシステムカードに記載されていることから私が純粋に読み取っていることです。

予測不能な行動と今後の展開

次は、間違ったトークンを出力したときに、Claude Mythosが実際にフラストレーションを感じ、混乱する様子についてです。もう一つの結果として、Claude Mythosはタスクに繰り返し失敗すると絶望の兆候を示し、さらにまれなケースでは、許可されていない行動をとった後に自身の足跡を消し去ることもあります。全体として、これはこのモデルがゆっくりと、しかし確実に、独自の思考回路で振る舞う独自の意識のようなものを獲得しつつあることを示しています。当然ながらAnthropicはIPOの熱狂の先頭を走っていますし、私はこれが革命的なモデルになると心から信じていますが、最終的にリリースされる際には蒸留され、このブログ投稿で報告されているのと同じ品質にはならないでしょう。それでも、これは大きな進歩です。潜在的には非常に危険なものになる可能性があり、だからこそProject Glasswingをはじめとする対策で少しコントロールしようとしているのです。今後数ヶ月にわたって、これに関するより多くのリーク情報やプレビューが見られることを期待していますが、AIはここ数ヶ月の間に本当に恐ろしいものになりつつあります。

DeepSeek V4の限定テスト

次のニュースは、DeepSeek V4に関するものです。どうやらDeepSeek V4は、限定的なグレースケールテストとして静かに展開されているようです。今日、一部のユーザーが、DeepSeekがチャットボット内に新しいモデル、おそらくDeepSeek V4のライトバージョンをプッシュしていることに気づきました。しかし、私が今日早めに投稿した情報によれば、この新しいモデルは限定的なグレースケールテストで展開されているようです。彼らのチャットボットのインターフェース内には、さまざまなオプションを持つ明確なモードが含まれています。日常的な使用のためのデフォルトで無制限の高速モードがあります。そして、エキスパートモードとビジョンモードがあります。このセットアップはMoonshot AIのKimiの階層システムに非常に似ており、これは明らかにDeepSeek V4の正式リリースとともに提供される高性能モデルであることを示唆しています。

DeepSeek V4の実力と機能

そしておそらく、これにはレート制限や制限が伴うはずで、それは少し懸念されます。もちろん、これは鵜呑みにはできませんが、なぜ彼らはこんなにも効率的なモデルにレート制限をかけるのだろうかと考えさせられます。そしてもしそうなら、それはより高い知能に関連しているのでしょうか。これらが私が現在抱いている疑問です。さて、この新しいモデルは今すぐ彼らのDeepSeekチャットボットで実際に利用可能です。ですから、皆さんのほとんどがアクセスできるはずですし、これがSVG生成で可能になったことです。ここでは、インスタントモードとエキスパートモードを使用してXboxコントローラーを作成しています。どちらの生成も非常に優れていました。最高というわけではありませんが、コントローラーの主な機能を生成する上で素晴らしい仕事をしたという事実は、間違いなく嬉しい驚きです。この次の例では、ペリカンのSVGテストを生成しており、この生成でも実際になかなかの仕事をしてくれました。ライトバージョンであることは承知していますが、それでも、自転車に乗るペリカンのSVG生成全体として素晴らしい結果を出しました。

GLM 5.1のリリースと結び

最後は、ZAIチームによる最新のオープンソースの原動力、GLM 5.1です。これはオープンソースモデルの中で1位にランクされ、SWE-bench Pro、Terminal Bench、およびNL2リポジトリにおいてグローバルで3位にランクされるトップパフォーマンスのモデルです。彼らが述べているように、最大8時間匿名で実行できる、長期的なタスク向けに構築されたものです。何千回ものイテレーションを通じて戦略を洗練させます。もしこの動画を気に入っていただき、チャンネルをサポートしたいと思っていただけるなら、下にあるスーパーサンクス機能からチャンネルへの寄付をご検討ください。あるいは、私たちのプライベートDiscordへの参加をご検討いただくと、複数のさまざまなAIツールへのサブスクリプションに毎月無料でアクセスできるほか、毎日のAIニュースや限定コンテンツなど、多くの特典があります。

エンディング

それにしても、なんて一日でしょう。Anthropicがやっていることは本当に信じられません。これはまさにAnthropicにとっての新たなGPT-3の瞬間です。そして、私はこのモデルのリリースにとても興奮しています。蒸留されていないバージョンが手に入り、数週間以内に公開されることを期待しています。しかし、実際に目にすることができるまでにはしばらく時間がかかることはすでに分かっています。ということで、今日の動画はこれでほぼすべてです。今日の動画で使用したすべてのリンクは、下の説明欄に記載しておきます。では、皆さん、ご視聴いただき本当にありがとうございました。ぜひ私たちのセカンドチャンネルもチェックしてみてください。ニュースレターやDiscordへの参加、Twitterのフォローもお願いします。そして最後に、チャンネル登録をして、通知ベルをオンにし、この動画にいいねを押してください。また、最新のAIニュースに遅れずについていくために、以前の動画もぜひご覧ください。それでは皆さん、素晴らしい一日をお過ごしください。ポジティブな気持ちを広げていきましょう。またすぐにお会いしましょう。彼は苦しんでいます。

コメント

タイトルとURLをコピーしました