この動画では、Abacus AIが開発したDeep Agent Desktopという新しいコーディングエージェントについて解説している。このエージェントは主要ベンチマークでGPT-5 CodexやClaude Codeを上回る性能を記録し、SWEBenchでは74%という最高スコアを達成した。CLI、コードエディタ、チャットの3つのモードを組み合わせた統合デスクトップスイートとして設計されており、独自のテスト機能も備えている。月額10ドルという手頃な価格設定で、開発者向けツール市場での競争優位性を狙っている。

新コーディングエージェントの驚異的な性能
まったく新しいコーディングエージェントがTerminal BenchでGPT-5 Codexを上回るスコアを記録しました。また、SWEBenchでClaude Codeを破り、74%という、これまでで最高の数値を達成しました。そして、これはOpenAIやAnthropicからではなく、Abacus AIからのものです。彼らはそれをDeep Agent Desktopと呼んでいます。そして、これはこれまでにリリースされた中で最もスマートなコーディングエージェントかもしれません。
それでは、それについて話しましょう。さあ。最も明確に見ることができる方法は、Terminal Benchのベンチマークです。Deep Agent Desktopは48.75%のスコアを記録しました。参考までに、GPT-5 Codexは42.8%でした。Claude Code Opusは約43.2%でした。Claude Code Sonnet 4は35.5%を記録し、Gooseは45.3%でした。ですから、Deep Agentは明らかにそこで先行しています。
わずかな差でもありません。次に、基本的に自動バグ修正と実世界のソフトウェアエンジニアリング問題の標準であるSWEBench verifiedでは、Deep Agentが74%のスコアを記録しました。再び、GPT-5 Codexは72.8%を記録しました。Claude Code Sonnet 4は72.7%でした。Opusは72.5%で、古いClaude Code Sonnet 3.5は62.3%まで大幅に下がりました。
Deep Agent Desktopとは何か
これは、両方の直接対決比較で、この新しいシステムがトップにあることを意味します。そして、これらの数字は重要です。なぜなら、SWEBenchはおもちゃのタスクについてではないからです。実際のプロジェクトから取り出された実際のGitHubイシューの修正についてのものです。では、Deep Agent Desktopとは一体何でしょうか?
実は、これは単一のモデルではありません。実際には3つの異なるモードを組み合わせた完全なデスクトップスイートです。CLIエージェント、コードエディタエージェント、そしてClaude、Gemini、GPT-5を含む異なるモデルにアクセスできるチャットモードです。
そして、ここが巧妙な部分です。独自のテストエージェントも付属しています。そうです。コードを書くだけでなく、ソリューションが機能することを確認するために、コード自体をテストします。これは他のほとんどのシステムが箱から出して提供していないもので、おそらくベンチマークスコアがそれほど強く出た大きな理由です。
CLIモードでの実例
CLIモードから始めましょう。なぜなら、そこで彼らが最も見せびらかしているからです。彼らは文字通り、コードする最も速い方法としてブランド化しました。ワークフローは簡単です。ターミナルでリクエストを入力すると、Deep Agentがリアルタイムでそれを構築します。
デモの1つでは、誰かがレトロな任天堂の雰囲気を持つ、異なるレベルやスコアに対するゲーム化されたバッジや賞を完備した、クイック・スネークウェブゲームの構築を依頼しました。出力は、移動する点がある基本的なグリッドではありませんでした。90年代のコンソールゲームのようにスタイリングされていました。視覚的に魅力的で、インタラクティブで、スムーズでした。エージェントがターミナルでたった1つのプロンプトでそれを立ち上げることができるという事実は、かなり驚異的です。
それから彼らはさらに進みました。別のプロンプトでは、動作するLinkedInクローンを求めました。彼らはそれにConnectHubという名前さえ付けました。要件は単純ではありませんでした。ユーザーはサインアップ、ログイン、お互いとのつながり、コンテンツの投稿ができなければならず、そのすべてがバックエンドにDjango、適切なデータベース、そして洗練されたフロントエンドを持つ現代的な技術スタックで動作しなければなりませんでした。Deep Agent CLIはそれを処理し、完全なWebアプリの構造を構築しました。再び、これは一度のプロンプトから期待する種類のプロジェクトではありませんが、実世界のリクエストを処理するエージェントの能力を示しています。
そして別のデモでは、彼らはそれを「作家のコーナー」と呼ばれるGitHubリポジトリに直接接続しました。これは小説執筆のためのコミュニティサイトです。そして、タスクは、いいねだけでなく、新しさやコメント数も考慮した、エンゲージメントに基づくリーダーボードを追加することでした。ランキングがダイナミックに感じられるように。Deep Agentはリポジトリを調べ、アプリを拡張し、リーダーボードロジックを実装しました。
これはベンチマークスライドで偽造できるものではありません。これは実際のリポジトリ操作であり、彼らは実際にそれが動作することを示しました。
コードエディタモードの機能
コードエディタモードに移ると、これはAIによって動力を供給される完全なIDE体験のようなものです。ここでのデモも印象的でした。彼らは履歴書を画像としてアップロードし、Deep Agentにそれから個人ウェブサイトを作成するよう求めました。
システムは履歴書を読み、詳細を取り出し、そして候補者の情報を紹介する現代的で洗練されたウェブサイトを構築しました。これはHTMLテンプレートを生成するだけよりも大きなアップグレードです。なぜなら、履歴書でOCRを行い、構造化データを抽出し、それに基づいてデザインしなければならなかったからです。
コードエディタでの別の例はさらに野心的でした。彼らは初心者、中級者、上級者レベルに構造化された、バイブコーダーのための高度で包括的なガイドを求めました。それは拡張可能で保守可能で堅牢なアプリケーションのための原則、フレームワーク、経験則をカバーしなければなりませんでした。ガイドには、メンタルモデル、学習パス、そしてコードの書き方だけでなく、AI生成コードの操作、監査、改善方法を示す実践的な例も含まれていなければなりませんでした。
エージェントはただテキストを投げ出すだけではありませんでした。スムーズなアニメーション、クリーンなデザイン、そして最後に高品質なブログやリソースのキュレートされたリストさえも含む、現代的でインタラクティブなウェブサイトとしてこれを構築しました。これは完全な製品体験であり、マークダウンの壁ではありません。
チャットモードの多様な応用
それから、基本的にDeep Agent Desktopをあなたのデスクトップに住むオールインワンAIアシスタントに変えるチャットモードがあります。このモードでは、Deep Agentの内部システムだけでなく、Claude、Gemini、GPT-5のような外部モデルとも話すことができます。ここでのポイントは柔軟性です。アプリを切り替える必要がありません。すべてが一つ屋根の下にあります。
チャットモードで見せたプロンプトは幅広いものでした。ある人は、ソフトウェア開発でLinkedInとTwitterのインフルエンサーになるための90日間のプレイブックを求めました。エージェントは、ポジショニング、オーディエンスターゲティング、コンテンツピラー、再利用ワークフロー、投稿ケイデンス、コミュニティエンゲージメント戦略、成長実験、ツール、KPIを含む詳細な計画を作成しました。
日々および週次のタスク、測定可能なターゲット、サンプル投稿、チェックリストとともにカレンダーまで作成しました。これは、カジュアルな「オンラインでの成長を手伝って」というリクエストから、ほとんどの人が期待するものをはるかに超えています。
別のプロンプトは、GitHubからオープンソースインディーゲームリポジトリを実行することについてでした。Deep Agentはそれらをローカルで設定するためのステップバイステップの指示を与えました。それから宇宙関連のものがありました。誰かが宇宙船がどのようにそれほど正確に火星に着陸するのかを尋ねました。エージェントはそれを映画的なスタイルで分解し、軌道計算、中間コース修正、そして科学者が着陸船を正確に誘導するために使用する技術を説明しました。
再び、それは表面的なレベルの説明だけではありませんでした。あなたが実際にプロセスを覚えようとしているなら期待するような詳細がありました。
Deep Agent Desktopの戦略と価格設定
ここで重要なのは、Deep Agent Desktopが単なる別のモデルとして自分を位置づけていないことです。それは完全なパッケージであり、同社はそれをアクセシブルにすることについて賢明です。彼らは基本ティアを月額10ドルで価格設定しました。これは、ほとんどの開発者がコーディング支援やプレミアムIDEプラグインに費やすものよりもはるかに低いものです。
彼らは、人々が人間とAIの協力を紹介し、2,500ドルを獲得できる週次コンペティションを主催すると言及しました。これは巧妙な成長戦略です。なぜなら、コミュニティが実際に創造的な方法で製品を使用し、それを公に共有するインセンティブを与えるからです。
ベンチマークは別として、Abacus AIからのフレーミングはかなり明確です。彼らはDeep Agent Desktopを頼りになるコーディングエージェントにしたいのです。彼らのローンチでのメッセージは直接的でした。これまでで最もスマートなコーディングエージェントであり、データは、少なくとも今のところ、それを裏付けています。GPT-5 CodexとClaude Codeは何ヶ月もの間、重量級選手でしたが、これは別のシステムが両方を一度に上回るのを見た初めてのことです。
使い始める方法
もしあなたがそれを試すことを考えているなら、彼らはそれを本当にシンプルに保っています。あなたのターミナルで一つのコマンド、npxy deep agent CLIを実行するだけで、エージェントは準備完了です。そこから、完全なデスクトップIDE設定が欲しければコードエディタに飛び込むか、Claude、Gemini、GPT-5のようなモデル間を切り替えるためにチャットモードに固執できます。
全体のアイデアは、それがすべて一箇所にあるということです。そうすれば、あなたは異なるアプリや購読を使い分ける必要がありません。そうです、Deep Agent Desktopがちょうど正式に到着し、現在コーディングベンチマークの頂点に座っています。もしあなたが開発者であるか、AIがソフトウェアエンジニアリングでどこに向かっているかについて好奇心を持っている人なら、これは確実に注目に値するものです。
そして、この動画はここまでです。コメントを残すことを忘れずに、いいねボタンを押して、まだ購読していないなら購読してください。そして次の動画でお会いしましょう。


コメント