OpenAIが開発者に代わって実際のコーディング作業を遂行するAIエージェントシステム「Symphony」をリリースした。このシステムはタスク管理ツールと連携し、準備が整ったタスクを自動検出してAIエージェントに割り当て、コード作成から自動テスト、プルリクエストまでを完全自律的に実行する。一方、XiaomiはOpen Clawにインスパイアされたスマートフォン向けAIシステム「MClaw」を発表し、OS層で動作するエージェントによってアプリ操作やスマートホーム制御を実現している。さらにMicrosoftは、画像とテキストを同時に理解できるコンパクトなマルチモーダルAI「Phi-4 Reasoning Vision 15B」を公開し、効率性と推論能力の両立を図っている。

OpenAIのSymphonyが実現する完全自律型コーディング
OpenAIが先日リリースしたのは、AIエージェントが実際のコーディング業務を自律的に遂行できるシステムです。XiaomiはバイラルヒットしたOpen Clawのアイデアに触発されて、スマートフォンを操作し家庭内デバイスを制御できるAIを開発しました。そしてMicrosoftは、画面や画像、ドキュメントを読み取りながら複雑な問題を解決できるコンパクトなAIをリリースしました。
まずはOpenAIから見ていきましょう。OpenAIがリリースしたのはSymphonyと呼ばれるシステムです。その核となるアイデアは非常に画期的なものです。開発者がAIにコードの記述を手伝ってもらうのではなく、AIエージェントを派遣して実際に作業そのものをやってもらうというものです。
通常のソフトウェアチームの働き方を考えてみてください。常に長いタスクリストが存在します。修正すべきバグ、構築すべき機能、テストすべき改善項目などです。これらすべては課題管理ツールと呼ばれるもの、つまり開発者向けの大きなタスクボードの中に保管されています。通常は人間の開発者がそのリストを開いてタスクを選び、作業を開始します。Symphonyはこのプロセスを変えるのです。
Symphonyを使うと、システムがタスクボードを確認して「よし、このタスクは準備ができている。AIエージェントを送ろう」と判断します。そしてAIが作業を開始するのです。これが起こると、Symphonyは実装ランと呼ばれるものを起動します。これはAIにとっての完全なミッションだと考えてください。エージェントはタスクを引き受けて、最初から最後まで完了させようとします。
このフレームワークはタスクシステムを常時監視しています。現時点ではLinearと呼ばれる開発者プラットフォームと連携しています。タスクが「エージェント準備完了」のようなステータスに達すると、Symphonyが自動的に起動します。そしてAIが作業に取りかかるのです。
エージェントがコードに触れる前に、システムはそのタスク専用の別個のワークスペースを作成します。AIに専用の隔離されたラボを与えるようなものだと考えてください。AIが何をしても、その環境内に留まるため、プロジェクトの他の部分を誤って壊してしまうことはありません。
そのワークスペース内で、AIはタスクの説明を読み取ってコードを書き始めます。しかしここからが興味深いところです。SymphonyはAIを盲目的に信頼するわけではありません。AIは作業が実際に機能することを証明しなければなりません。
何かが承認される前に、エージェントは作業証明と呼ばれるものを提出する必要があります。これには自動テストの実行、CIレポートの生成、ユニットテストの合格、さらにはどのような変更が加えられたかを説明するウォークスルーの作成が含まれます。これらすべてが確認されて初めて、Symphonyは最終ステップである「着陸」と呼ばれる段階に進みます。
これはAIがプルリクエストをリポジトリに提出またはマージする段階で、まさに人間の開発者がやることと同じです。このシステムのもう一つの巧妙な部分は、AIが指示を受け取る方法です。プロンプトをプロジェクトの外のどこかに隠すのではなく、Symphonyはworkflow.mdというファイルの中、つまりコードリポジトリ自体の内部にAIの指示を保存します。
このファイルは基本的に、開発チームとAIの間の契約として機能します。エージェントがどのように振る舞うべきか、どのようなルールに従うべきか、コードベースとどのように対話すべきかを定義します。ファイルがリポジトリ内に存在するため、開発者はコードをバージョン管理するのと同じ方法でAIの動作をバージョン管理できます。
プロジェクトが変更されれば、AIの指示もそれに合わせて変更されます。さて、これらすべてのエージェントシステムや推論モデルと並行して、AIのクリエイティブな側面もほぼ毎週進化しています。
Higsfield Soul Cinemaの紹介
Higsfieldが今回の動画のスポンサーです。彼らは最近Soul Cinema Previewと呼ばれるものをリリースしました。これはSoulファミリーの新しいモデルで、映画的な画像生成に特化して構築されています。
単にリアリズムを目指す標準的な画像モデルとは異なり、Soul Cinemaは実際に映画のスチール写真のように見えるフレームを生成するように設計されています。より深いテクスチャ、自然な粒子感、そして映画から直接引き抜かれたような構図が得られます。特にクローズアップ、ムード重視のシーン、過度に磨かれたものではなく物理的に信じられる照明において強力です。
このモデルはテキストプロンプトまたは参照画像のどちらからでも機能します。そして構図、カメラ、視点、雰囲気に重点を置いています。これにより、映画的なキーフレーム、シーンコンセプト、より大きなビデオや映画プロジェクトをガイドできる視覚的リファレンスの生成に有用です。
Soul IDとも連携しており、これによって複数の生成にわたってキャラクターの視覚的一貫性を保つことができます。そしてSole Hexもあり、異なるショット間で色を正確にコントロールできます。つまり、映画的なフレームを生成し、複数のシーン間で同じキャラクターと視覚的トーンを維持し、それらのフレームをストーリーボードやビデオモデル用の開始キーフレームとして使用できるということです。言い換えれば、単にリアルに見えるかどうかではなく、ビジュアルがスクリーン上で実際にどう感じられるかを気にするクリエイターのために構築されているのです。
ぜひチェックしてみてください。リンクは説明欄にあります。さて、動画に戻りましょう。
Symphonyの技術的基盤
内部的には、SymphonyはElixirとErlang Beamランタイムを使用して構築されています。この選択の理由は信頼性です。AIエージェントは常に完璧に機能するわけではありません。失敗したり、クラッシュしたり、タスクの途中で行き詰まったりすることがあります。Beamランタイムは、大量のプロセスを同時に処理し、何かがうまくいかなかったときに回復することで有名です。
これにより、Symphonyは数百のAIコーディングタスクを同時に実行でき、1つのエージェントが失敗してもシステム全体が壊れることはありません。システムはまた、Ectoを通じてPostgreSQLを使用してすべてを追跡し、デーモンのようにバックグラウンドで継続的に実行されます。
しかし、OpenAIはドキュメント内で重要なことも指摘しています。AIエージェントがコードベース内で本当に機能するためには、プロジェクト自体が機械が理解できる方法で組織化されている必要があります。彼らはこれをハーネスエンジニアリングと呼んでいます。
簡単に言えば、リポジトリはAIが安全に対話できるように構造化される必要があるということです。テストは外部依存なしにローカルで確実に実行できる必要があります。ドキュメントは機械が読める方法で書かれている必要があります。そしてコードアーキテクチャはモジュール化されている必要があり、エージェントが他のすべてを壊すことなく一部を変更できるようにする必要があります。
Symphony自体は実際にはスコープがかなり絞られています。巨大なAIプラットフォームになることを意図していません。OpenAIはこれを非常に具体的にスケジューラー、ランナー、トラッカーリーダーと表現しています。
その仕事は基本的に、プロジェクト管理ツールとコードベースの間に位置し、AIエージェントをタスクに送り込み、それらの実行を最初から最後まで管理することです。
XiaomiのMClawスマートフォンAI
OpenAIがAIをソフトウェア開発者に変えようとしている一方で、Xiaomiは日常生活にさらに近い何かを実験しています。彼らはXiaomi MClawと呼ばれるシステムを立ち上げました。
これは基本的に、スマートフォンのオペレーティングシステム内に存在するAIエージェントです。通常、AIアシスタントはアプリ内で実行されます。質問に答えたり、ウェブを検索したり、何かを開いたりできるかもしれません。MClawはそれよりもはるかに深いレベルで機能します。システムレベルで実行されるため、スマートフォン自体へのアクセス権を持ちます。アプリ、システム設定、接続されたデバイス、すべてです。
その背後にあるAIは、Xiaomiが開発したMimoラージモデル上で動作しています。これはDeepSeekの元研究者であるLuo Foolyが率いる同社のAIチームによって開発されました。彼女は2025年後半にXiaomiに参加しました。
彼女の参加直後、XiaomiはMimo V2 Flashをリリースしました。これはDeepSeek V3.2と同等のパフォーマンスレベルに達したと報告されています。MClawはこの技術を使用した最初の製品の1つです。
つまり、ユーザーがアプリを操作するのではなく、AIがユーザーに代わってスマートフォンを操作するのです。例えば、スマートフォンに「30分後に友達を家に連れてくる。家を準備して」と伝えたとします。AIは目標を理解し、自動的に物事を実行し始めます。照明が調整され、カーテンが開き、エアコンの温度が変わります。
システムはスマートフォンをXiaomiエコシステム内のデバイスと接続しています。そしてそのエコシステムは巨大です。Xiaomiによれば、Mi Homeプラットフォームにはすでに10億台以上の接続デバイスが含まれています。
技術的には、MClawは推論実行サイクルと呼ばれるものを使用して機能します。簡単に言うとこういう仕組みです。AIは指示を受け取ります。次に、どのツールを使用する必要があるかを決定します。Xiaomiはスマートフォンの機能を50以上のシステムレベルツールにパッケージ化しています。アプリの起動、設定の調整、デバイスの制御などです。
AIは1つのツールを呼び出し、結果を取得し、それを分析してから次に何をすべきかを決定します。ステップバイステップです。ユーザーは実際にこのプロセスがリアルタイムで起こるのを見ることができます。システムはAIがどのツールを呼び出しているか、タスクがどの段階に達したかを表示します。
AIが何をしているのかを忘れないようにするため、Xiaomiは3レベルのコンテキストメモリシステムを追加しました。タスクが20ステップ以上含まれていても、AIは元の目標を覚えています。
もう1つの主要な機能は、個人的なコンテキスト理解です。許可を与えると、MClawはテキストメッセージ、カレンダー、使用パターンから情報を読み取ることができます。
例えば、スマートフォンが「G1234 北京から成都 金曜日08:30」というような列車チケットメッセージを受信したとします。AIはこれを旅行情報として認識します。カレンダーを自動的に更新し、リマインダーを設定し、いつ出発すべきかを計算し、すべてを準備するためにいくつかのシステムツールをリンクします。
同じアイデアが財務にも適用されます。スマートフォンが銀行の引き落としメッセージを受信すると、AIは過去3か月のSMS履歴を調べてサブスクリプションを分析できます。類似のコンテンツに対して月額料金を請求している2つのビデオプラットフォームに気づいた場合、1つをキャンセルすることを推奨し、年間約400元の節約を見積もるかもしれません。
Xiaomiによれば、ユーザープライバシーはほとんどのデータをデバイス上でローカル処理することで保護されています。会話履歴と設定ファイルはスマートフォンに保存されます。クラウドは現在のリクエストのみを受信し、処理後に削除します。メッセージの送信やカレンダーイベントの作成のような機密性の高いアクションは、AIが実行する前に確認が必要です。
MClawのスマートホーム連携
これがさらに興味深くなるのはスマートホーム接続の部分です。カレンダーに「10:00 重要な顧客ミーティング」のような予定が表示されている場合、AIは環境を自動的に準備できます。スマートフォンはサイレントモードに切り替わります。ロボット掃除機は清掃を一時停止します。着信通話は緊急度に基づいてフィルタリングされます。ミーティングが終了すると、すべてが通常に戻り、スマートフォンは不在着信の通知を表示します。
厳格な自動化ルールに依存する従来のスマートホームとは異なり、MClawはコンテキストに基づいて動的に決定を下そうとします。
Xiaomiは拡張機能も追加しました。システムはモデルコンテキストプロトコルをサポートしており、コンピューター上で実行されているAIツールに接続できます。そしてサードパーティSDKをリリースしたため、外部アプリはAIが呼び出せる機能を宣言できます。
自己進化システムまであります。MClawはサブエージェント、つまり異なるタスクに特化した小さなAIアシスタントを作成できます。1つはスケジュールを管理し、別の1つはニュースを要約するかもしれません。これらのサブエージェントは独自のプロンプトとツールの権限を持つことができます。
システムはサンドボックス内でPythonまたはJavaScriptスクリプトを実行することさえでき、これによってAIはスマートフォン上で直接基本的なプログラミング能力を持ちます。時間の経過とともに、AIは経験を蓄積し、徐々にユーザーの習慣に適応していきます。
MicrosoftのPhi-4 Reasoning Vision
OpenAIとXiaomiが世界で行動するAIに取り組んでいる一方で、Microsoftは少し異なるものに取り組んでいます。彼らはPhi-4 Reasoning Vision 15Bと呼ばれるモデルをリリースしました。これは画像とテキストの両方を理解するマルチモーダルAIです。
興味深い点は、Microsoftがこのモデルを強力でありながらコンパクトにしようとしたことです。数千億のパラメーターを持つ別の巨大システムを構築する代わりに、効率性に焦点を当てた150億パラメーターのモデルを構築しました。
技術的には、Phi-4推論言語モデルとSiglip 2ビジョンエンコーダーを組み合わせています。簡単に言うと、ビジョンエンコーダーが画像を見てトークンに変換します。これらのトークンは言語モデルによって処理され、テキストと一緒に分析されます。
この設計はMIDI融合と呼ばれ、パフォーマンスとコストの妥協点です。より大きなアーキテクチャの重い計算要件なしに、強力なマルチモーダル推論を可能にします。
モデルは約2000億のマルチモーダルトークンでトレーニングされました。これは、Phi-4推論が160億トークンを使用し、ベースPhi-4モデルが約4000億のユニークトークンを使用した以前のトレーニング段階の上に構築されています。
比較すると、Qwen 2.5VL、Qwen 3VL、Kimmy VL、Gemma 3のような最近のマルチモーダルモデルの一部は、トレーニング中に1兆トークン以上を使用したと報告されています。
Microsoftが強調する大きな教訓の1つは、マルチモーダルAIは推論が弱いからではなく、知覚が最初に失敗するために失敗することが多いということです。モデルがスクリーンショットを正しく読み取れなかったり、ドキュメントから詳細を抽出できなかったりすると、推論段階は正しい情報を得られません。
これを修正するために、システムは最大3600の視覚トークンをサポートする動的解像度ビジョンエンコーダーを使用しており、複雑なスクリーンショット、ドキュメント、チャート、ダイアグラム、グラフィカルユーザーインターフェイスを分析できます。
トレーニングプロセスにおけるもう1つの巧妙なアイデアは、Microsoftが混合推論トレーニングと呼ぶものです。すべてのタスクで推論を強制する代わりに、モデルは2つのモードを学習します。
トレーニングデータの約20%には、thinkタグでマークされた推論トレースが含まれています。これらの例は、複雑な数学や科学の問題を推論する方法をモデルに教えます。
残りの例はthinkタグを使用せず、画像のキャプション作成、光学文字認識、視覚的質問応答、ユーザーインターフェイス内の要素の識別などの知覚タスクに焦点を当てています。
このアプローチにより、モデルは推論が必要でないときは迅速に応答でき、必要なときは構造化された推論を実行できます。
Microsoftによれば、モデルは2つの領域で特に強力です。1つ目は、手書きの方程式、チャート、表、技術文書を含む視覚情報に対する科学的・数学的推論です。2つ目はコンピューター使用エージェントで、AIが画面コンテンツを解釈してインターフェイス要素を識別し、コンピューターやスマートフォン上のアクションの自動化を支援できます。
Microsoftは、AI 2Dテストで84.8、ChartQAテストで83.3、Mathverse Miniで44.9、Math Vision Miniで36.2、Math Vista Miniで75.2、MMU Valで54.3、MMARで64.5、OCRbenchで76.0、ScreenSpotバージョン2で88.2といったベンチマークスコアを報告しています。
評価はEureka ML InsightsとVLME Valkitを使用して実施され、Microsoftはこれらをリーダーボードの主張ではなく比較ベンチマークとして提示しています。
とにかく、今回は以上です。この解説を楽しんでいただけたなら、いいねを押して、より多くのAIアップデートのためにチャンネル登録してください。次回お会いしましょう。


コメント