OpenAI、CODEXエージェントをリリース、Manus AI新アップグレード、新しいClaude 3.8 Sonnet他、AIニュース

AGIに仕事を奪われたい
この記事は約10分で読めます。

5,506 文字

OpenAI Drops CODEX AGENT, Manus AI New Upgrade, New Claude 3.8 Sonnet + More AI News
OpenAI has launched Codex, a powerful AI coding agent inside ChatGPT that can write, test, and commit real code using co...

AI業界では多くの動きがあり、正直なところ、すべてが一度に変化している週となっています。OpenAIがついにChat GPT内でCodexを発表し、Manis AIが本当に知的に感じられる方法で画像生成に参入し、Googleが検索の未来についてより多くを公開し、Anthropicが静かに彼らの最大のClaudeアップグレードのための基盤を築いているようです。
たくさんの動きがあるので、それについて話しましょう。まずはCodexについて見ていきましょう。OpenAIの新しいソフトウェアエンジニアリングエージェントであり、研究プレビューとして公開されたばかりです。Chat GPT Pro、Team、Enterpriseを使用している方なら、すでにサイドバーに表示されているのを見たことがあるでしょう。Codexはセキュアなクラウドベースのサンドボックス内で動作する、フルスタック開発者のように機能します。
完全に分離された環境内で動作し、インターネットアクセスや外部API、外部への情報漏洩はありません。あなたのGitHubリポジトリに接続するだけで、そこから常に監視することなく実際のエンジニアリングタスクを処理し始めます。新機能の作成、バグ修正、テスト実行、乱雑なコードのクリーンアップ、あるいはコードベース全体を検索して特定の質問に答えるといったタスクを任せることができます。
仮想環境を起動し、すべてを読み込み、そしてタスクを最初から最後まで処理します。これには、テストのセットアップと実行、リンターの適用、型チェックなど、すべての作業が含まれます。最も良い点は、リアルタイムで作業の様子を見ることができることです。ターミナルログ、テスト結果、ステータス更新などすべてがそこにあるので、常に何が起きているかを把握できます。
これらすべての背後で動作しているモデルはCodex 1であり、OpenAIのO3の特殊バージョンでソフトウェア開発に特化して微調整されています。彼らは単なる汎用データで訓練したわけではありません。実際のコーディングタスク、プルリクエストのパターン、チームワークフローについて強化学習を使用しました。
その結果、クリーンで構造化されたコードを書き、プロジェクトのレイアウトを理解し、人間のエンジニアが実際に働く方法を反映するモデルが生まれました。内部ベンチマークでは、Sweetbenchの検証タスクで75%の精度を達成しました。これはO3 Highの67%から明らかな飛躍です。素晴らしいのは、使いやすくするために多くの設定を必要としないことです。
もちろん、リポジトリをより効率的にナビゲートするためにagents.mdファイルを提供することもできますが、そうしなくても、それは物事を把握します。アーキテクチャを尊重し、命名パターンに従い、自分自身の足を踏まずに複数のタスクを同時に処理できます。Codexが割り当てたタスクを完了すると、単に出力を提供して終了するわけではありません。
サンドボックス内で直接変更をコミットし、ログと参照を含めることで、何をどのように行ったのかを正確に追跡できます。そこから、オプションがあります。出力をレビューし、微調整し、プルリクエストに変換するか、ローカルに取り込んでそこから作業を続けることができます。ターミナルからの作業を好む場合は、Codex CLIがおそらく適しています。
これはローカルで実行するオープンソース版であり、現在はデフォルトでCodex Miniを使用しています。これはO4 Miniをベースにした小型で高速なモデルで、低レイテンシーのワークフローに最適化されています。変数の名前変更、テストケースの作成、関数のリファクタリングなど、時間はかかるが深い集中を必要としない日常的なタスクに最適です。
ターミナルで実行したままにしておくことができ、作業が反復的になったときにいつでも助けてくれる静かなアシスタントのようなものです。API使用の価格設定は非常に分かりやすいです。Codex Miniは入力トークン100万あたり1.50ドル、出力トークン100万あたり6ドルかかります。さらに、キャッシュされたプロンプトには75%の割引があります。
同様のタスクを繰り返す場合、コストは大幅に削減されます。NEXはOpenAIのChat GPTをタスク特化型エージェントを中心としたワークスペースに変える取り組みの一部です。ブラウジング用のOperator、ビデオ用のSora、分析用のDeep Research、そして今回はソフトウェア開発用のCodexがあります。現在、Codexへのアクセスは寛大ですが、レート制限が導入される予定です。考え方はシンプルです。
実際のコーディングタスクを割り当て、あなたが集中している間、CEXがそれを処理します。あなたのチームの一部のように感じるように設計されており、プロジェクトを理解し、標準に従い、あなたの足を引っ張るものを静かに処理します。さて、OpenAIがChat GPT内でエージェントのラインナップを拡大し続ける中、中国では驚くべきことが起こりました。
ManisAI、MonicaのAutonomousエージェント(Butterfly Effect AIとしても知られる)が、まったく異なるレベルの高度な画像ジェネレーターを導入しました。これは単にプロンプトを美しい画像に変えるモデルではなく、自律型エージェントフレームワークに組み込まれた完全な視覚的問題解決ツールです。
例えば、モダンなスカンジナビアのリビングルームを求めた場合、Manisはランダムな家具を組み合わせるだけではありません。まず、あなたの意図を分析します。カタログをデザインしているのか、広告ビジュアルを作成しているのか、部屋のレイアウトを作成しているのか。そして戦略を構築します。スペースを配置するためのレイアウトエンジン、外観を合わせるためのスタイル検出器、デザイントレンドやブランドガイドラインを取得するためのブラウザツールを使用します。
実際のIKEA家具を選択し、空間関係を考慮し、色彩理論を適用し、すべてが目的に合うことを確認することもあります。このシステムはマルチエージェントアーキテクチャに基づいており、計画、実行、検証を個別のモジュールが処理します。これらは独立して実行されますが、デザインチームのように協力し合い、Manisは単なる一回限りのプロンプトではなく、複雑なワークフローを処理できるようになっています。
そのため、製品キャンペーン、建築模型、プラットフォーム対応のビジュアルなどを提供できます。すべて一貫性があり、ブランドを意識し、使用可能です。すでにeコマース、製品可視化、マーケティングコンテンツ、設計図からの完全なインテリア生成など建築計画でテストされています。
大きな制限は、まだクローズドベータであり、招待状によってのみ利用可能であることです。したがって、厳選されたテストグループの一部でない限り、まだ使用することはできません。さて、Claudeに話を移しましょう。Anthropicは比較的静かでしたが、舞台裏では大きな何かを準備しています。Claude 3.8またはClaude 4と名付けられる可能性がある新しいモデルについて、多くの内部リークがありました。
彼らの設定ファイルにNeptuneという名前が登場しています。そして、はい、海王星が8番目の惑星であることはバージョニングについて話しているなら、おそらく偶然ではありません。公にはウイン4か月のマスコンテストがバイラルになった後、彼らはその噂を否定しました。しかし、何か本物を指し示す多くのバックエンド証拠があります。
目立つリークの1つでは、編集されたモデル名と今後のバージョンに関連するイースターエッグを含む内部ツールが表示されました。そして情報は確認されました。AnthropicはClaude SonnetとClaude Opusの両方のアップグレード版を準備しています。この新しいClaudeモデルの大きな特徴は、Anthropicが「真の自律的行動」と呼ぶものです。
これは、モデルがユーザーのプロンプトなしに推論と行動の間を自律的に切り替えることができることを意味します。一度に答えを生成するだけではなく、問題を分解し、内部的に計画を立て、次にアクションモードに切り替えてツールを呼び出し、データを検索したり、コードを実行したりします。途中で何か問題が発生した場合、バックトラックし、再考し、再試行します。
これは本物のエージェントであり、Geminiのように推論しますが、タスク委任においてより精度が高い可能性があります。そして、これは実際にOpenAIのO3モデルがChat GPT内ですでに行っていることを反映しており、最終結果を表示する前にブラウジング、コード実行、反復を行うことができます。しかし、Anthropicのアプローチは、展開方法によっては、より良い透明性または制御を提供する可能性があります。
例えば、今後のClaudeのアップデートでは、開発者は洗練された最終的な応答だけでなく、背景にある思考、ツール呼び出し、修正の完全な内訳を見ることができるかもしれません。そして彼らはそこで止まりません。Anthropicはまた、これらのエージェントが複雑なツールチェーンとより良く連携できるようにすることに投資しており、おそらく検索、データベース、APIとの統合を1つのフロー内に構築するでしょう。
これはGoogleが独自の検索内でAIモードで行っていることへの直接的な対応です。CEOのSundar Pichaiは最近All-Inポッドキャストに出演し、Googleが従来の検索行動を急速に侵食しているChat GPT、Perplexity、その他のAIネイティブツールによって混乱させられているかどうかという大きな質問が浮上しました。
Pichaiはまったく動揺していないようでした。彼の見解では、混乱は無視しない限り避けられません。彼はそれをより多くのシフトと見ており、Googleは抵抗するのではなく積極的に適応しているシフトです。そして数字は彼らがすでに動いていることを示しています。15億人以上のユーザーがGoogle検索内のGeminiを搭載したAIオーバービューに関与しています。
これらは単なる要約やスニペットではありません。検索結果に直接組み込まれたAIレイヤーであり、より多くのコンテキストを提供し、フォローアップの質問に答え、複数のページをクリックする必要性を減らすように設計されています。これは、AIチャット体験に近いものを提供しながら、ユーザーをGoogleのエコシステム内に保持する方法です。しかし、彼らはそこで止まりません。
Googleは「AIモード」と呼ばれるものを立ち上げる準備をしており、これは検索を完全な会話体験に変えるでしょう。もはや単なるクエリと結果ではありません。質問をし、応答を得て、より多くのコンテキストでフォローアップし、クエリを洗練し、すべて検索インターフェイス内でより深い答えを得ることができるでしょう。
基本的に、検索をターン間でメモリを持つGemini搭載のアシスタントに変えます。そして、これは遠い将来のロードマップアイテムではありません。すでに確認されており、Google I/Oでより詳細に紹介される予定です。とはいえ、Googleの立場は弾丸証明ではありません。Appleは最近、GoogleがSafariの検索をより AI ネイティブなシステムに置き換える可能性を示唆しました。おそらく独自のシステムか、OpenAIなどの別のプロバイダーによるものです。
このような動きは、特にSafariが大きなシェアを持つモバイルにおいて、Googleに大きな打撃を与える可能性があります。そのニュースが表面化した瞬間、Googleの株価は目立って下落しました。投資家たちは明らかに何が危険にさらされているかを理解しています。それでも、Pichaiはこれらのシフトに慣れています。彼は、モバイル検索が台頭したときや、TikTokがYouTubeから若年層を引き離し始めたときにも同様の懸念があったことを指摘しました。
両方のケースで、Googleは適応し、台頭するプラットフォームから機能を統合し、コア製品を存続させました。Pichaiは今回も同じことができると賭けています。今回は検索をよりスマートに、より会話的に、そして今日AI チャットアプリに存在するどんなものよりも有用にすることによってです。だから、はい、GoogleはAppleとOpenAIから特に圧力を受けていますが、彼らは立ち止まっていません。
彼らはAI優先の世界で関連性を保つために検索の仕組みを構築し、統合し、再形成しています。さて、Claude、Gemini、Codex、Manisが急速に進化する中、実際に最もスマートなエージェントを構築しているのは誰でしょうか?コメントで教えてください。何か考えるきっかけになったなら「いいね」をお願いします。そして、これらすべての行方を先取りしたい方はチャンネル登録をお願いします。
視聴いただきありがとうございます。次回もお会いしましょう。

コメント

タイトルとURLをコピーしました