中国のAIスタートアップFeeling AIが開発したAI AgentシステムCodeBrain 1が、難関ベンチマークTerminalBench 2.0で約72.9%のスコアを記録し、世界第2位にランクインした。これはOpenAIに次ぐ成績であり、Anthropicを上回る結果である。同時にバイトダンスの動画生成モデルSeedance 2.0が登場し、一貫性のあるストーリー駆動型のマルチモーダル動画生成を実現。アリババのQwen Image 2.0は複雑なプロンプトへの追従性を大幅に向上させ、北京大学の研究チームは極めて類似した物体を少量の学習データで識別できる視覚モデルFine R1を発表した。AI AgentからAI動画、画像生成、視覚認識に至るまで、AIシステムは急速に構造化され、信頼性と汎用性を高めている。

CodeBrain 1が世界第2位を獲得
中国のAI AgentであるCodeBrain 1が、AI業界に衝撃を与えました。TerminalBench 2.0で約72.9%という驚異的なスコアを記録し、リーダーボードへの初登場で世界第2位に躍り出たのです。これは主要な研究機関を抑えての快挙でした。
バイトダンスのSeedance 2.0も登場したばかりですが、既にマルチモーダルでストーリー駆動型のAI動画を生成しており、これまでのランダムな視覚的混沌ではなく、意図的で一貫性のある映像を実現しています。
アリババのQwen Image 2.0は、プロンプトへの追従性を大幅に強化し、より深いクリエイティブコントロールを可能にすることで画像生成を前進させています。オンラインでは「中国版Nanobanana」と呼ばれるほどです。そして研究者たちはFine R1という新しい視覚モデルを発表しました。これは異なる航空機の種類のような極めて類似した物体を、わずかな学習データだけで識別できるものです。
AI Agentの新時代
まずはAgentから見ていきましょう。TerminalBench 2.0は基本的に、AI Agentが実際にコンピューター内で作業を実行できるかどうかを確認したい時に、誰もが指摘するストレステストになっています。話すだけではなく、実際に行動できるかどうかです。最強のAIモデルでさえ、依然としてここで苦戦しており、多くのトップシステムが60%前後の成功率をうろついています。
このレベルでは、小さな改善が大きく見え始めます。OpenAIはGPT-4oとそのシンプルなエージェント設定を組み合わせてこのテストで強力な結果を示しました。このベンチマークでは約77.3%というスコアを報告し、別の密接に関連する設定では75.1%を示しました。これによりリーダーボードの最上位に立ったのです。
Anthropicも Claude Opus 4.6を投入し、同じタイプのAgentコーディングタスクで約65.4%という強力なパフォーマンスを示しました。そしてFeeling AIという中国のスタートアップが独自のAI AgentシステムCodeBrain 1を携えて登場し、即座に世界第2位を獲得したのです。彼らが報告したスコアは72.9%で、別の設定では70.3%を示しました。
これによりOpenAIの直後、そして他の多くの主要な研究機関やAgentシステムの上に位置することになりました。
CodeBrain 1の性能を支えるもの
では、CodeBrain 1のパフォーマンスを駆動しているものは何でしょうか。焦点は極めて実用的です。コードが実際に正しく実行される可能性を高めることです。CodeBrain 1は余分な情報に溺れるのではなく、タスクに集中し続けるように設計されています。詳細が必要な時は、広範な推測に頼るのではなく、作業中の内容に直接関連する非常に特定的なコード参照やドキュメントを引き出します。
このより厳密な焦点により、特に何かがうまくいかず素早く調整する必要がある時に、作業ループがより効率的になります。タスクに取り組む際、言語サーバープロトコルと呼ばれるものを使用します。基本的には、コードベースを理解し、関連する正確なコードとドキュメントの断片だけを引き出すツールです。
たとえばゲームボットをプログラミングしている場合、ボットがどのように機能するかを推測するのではなく、実際の関数名、パラメータ、move_to_targetやdo_actionのような実例を調べて、それらを直接使用します。次にエラー処理が登場します。AIがコードを書いて何かが壊れた時、CodeBrain 1は詳細な診断を読み取り、類似したコードが正しく書かれている例を見て、失敗した正確なパラメータのドキュメントを確認してから調整します。
このループ、つまり書く、テストする、修正するというサイクルがより厳密で賢くなります。彼らは47のPythonタスクの小さなグループでもテストしました。そしてシステムは安定性を保ちながら、他のいくつかのAgent設定よりも少ないトークンを使用しました。特定の比較では15%以上少なくなっています。これは企業がこれらのシステムを大規模に使用する際、より安く、より速い実行を意味し、それは非常に重要です。
さらにCodeBrain 1は作業中に計画を調整するように構築されています。状況に応じて戦略を変更できる脳のように説明されています。オープンワールドゲームでは、プレイヤーが「家を建ててくれ」とか「つるはしを作ってくれ」と言うかもしれません。AI Agentはそれをステップに分解します。リソースを集める、スペースをクリアする、ツールをクラフトする、構造を構築する、そして実際に計画を実行します。
より戦術的なゲームでは、システムはグループメモリーを構築できます。プレイヤーが同じ経路を使い続けると、敵キャラクターはそれを覚えて後で戦略を変更します。そのルートをより厳重に警備したり、フォーメーションを変更したり、予期しない場所でプレイヤーを見た時に異なる反応をするかもしれません。重要なアイデアは、AI Agentが固定されたスクリプトを実行しているだけではないということです。
経験に基づいて行動を調整しているのです。Feeling AIは以前にMembraneと呼ばれるものもリリースしており、これはAI Agentの長期記憶に焦点を当てています。これはLoComo、LongMEval、PersonaMEv2のようないくつかのメモリーベンチマークで新しいトップスコアを設定し、NomiBench Level 3と呼ばれる非常に難しいテストでは結果を300%以上改善しました。
まとめると、MembraneとCodeBrainは記憶プラス計画のようなものです。長く複雑なタスクを処理できるAI Agentに必要な2つの大きなピースです。
AI動画生成の転換点
さて、もっと目に見えるものに移りましょう。AI動画です。AI動画は基本的に、2秒間は驚異的に見えるけれど、その後すべてが崩れるという奇妙な段階に留まっていました。クリエイターは使用可能なクリップを1つ得るためだけに20回も生成ボタンを押すことになります。そこに登場したのが、バイトダンスの新しいAI動画モデルSeedance 2.0です。そしてこれは真の転換点として語られています。
Seedance 2.0は基本的にシーンがどのように流れるべきかを理解しています。テキスト、画像、動画、さらには音声を入力としてサポートしているため、複数の方法でガイドできます。バイトダンスはJiyingプラットフォームでのアクセスを驚くほど安くしました。新規ユーザーは自動更新で1元でアンロックできます。これは明らかに市場にユーザーを素早く溢れさせることを意図しています。
大きな飛躍は、視覚効果ツールというよりもデジタルディレクターのように振る舞うことです。カメラモーション、プッシュイン、パン、チルト、トラッキングショットを意図的に感じられる方法で処理します。シーンは単に動くだけでなく、誰かが計画したようにフレーミングされます。そして最も重要なのは一貫性です。キャラクターは顔を保ち、背景は安定したままです。シーンがランダムに視覚的混沌に崩壊することはありません。これが短く派手な瞬間ではなく、より長いストーリー駆動型のクリップを可能にするものです。
Higgsfield:AI映像制作プラットフォーム
さて、AI動画の話題の中で、すべてのAIクリエイターが知っておくべきことがあります。Higgsfieldが今日の動画をスポンサーしています。彼らは、単なるプロンプトボックスではなく、実際のスタジオワークフローのように感じられるようデザインされた、クリエイター重視のAI制作プラットフォームを構築しました。これは最も急速に成長しているプラットフォームの一つです。
Higgsfieldにアクセスすると、すべてが動画が実際に作られる方法を中心に構造化されています。アイデアから始め、ショットを形作り、一つの接続されたパイプライン内で生成して洗練させます。スクリプト、ビジュアル、編集のために異なるAIツールを行き来する代わりに、プロジェクト全体がコンセプトからエクスポートまで一か所に留まります。このクリエイターファーストの設定が、特に単なる素早いテストクリップ以上のものを制作しようとしている場合に、プラットフォームを本当に際立たせるものです。
彼らは既に最新かつ最強のAI動画モデルの多くをホストしています。そして最新の追加はKling 3.0で、これは正直なところ今最も印象的な動画モデルの一つです。Higgsfieldのワークフロー内では、スクリプト、参照、オーディオディレクションがすべて一つの構造化された生成プロセスに供給されるため、シーンは自然に流れ、カメラの動きは理にかなっており、キャラクターやオブジェクトはショットからショットへ一貫性を保ちます。
実際には、プロジェクトを開き、短いスクリプトやアイデアを投入し、シーンをマッピングし、動画を生成し、タイミングやビジュアルを調整して、ソーシャルメディア広告やストーリーテリングに対応したものをエクスポートします。AI映画制作に本気なら、間違いなくチェックする価値があります。リンクは説明欄にあります。
Seedance 2.0がもたらすコンテンツインフレーション
さて、バイトダンスのSeedance 2.0に戻りましょう。有名なゲーム業界の創業者であるゲームサイエンスのファンGは、このシフトがコンテンツインフレーションを引き起こすと述べました。翻訳すると、通常の動画を作るコストは、計算リソースの支払いに近づいていくということです。動画制作がそれほど安くなると、コンテンツの量が爆発します。
これを最初に感じている業界はeコマースです。製品動画にハリウッドは必要ありません。製品を明確に見せるだけでいいのです。今では商人が小さなスタジオに支払ったり撮影スペースを借りたりする代わりに、自分で生成できます。これはローエンドの動画制作ビジネスにとって大きな打撃です。
ゲーム業界では、スタジオは世界観を構築するトレーラー、コンセプトプレビュー、プロモーション素材をはるかに速く、安く作成できるようになりました。TikTokのようなプラットフォームにとって、これはコンテンツの大波を生み出します。突然、競争は誰が動画を作れるかではなく、誰が最もうまくフィルタリングできるかになります。彼らのレコメンデーションアルゴリズムが真の戦場になります。
映画やテレビ制作も揺さぶられています。伝統的には大量の映像を撮影します。そして編集者が後でストーリーをつなぎ合わせます。Seedance 2.0のようなツールを使えば、ストーリーテリング、カメラロジック、編集が生成中に起こり始めます。ワークフローはシーンを描写する、シーンを生成するという方向にシフトします。編集者はよりクリエイティブディレクターのような役割に移行し、フレームごとに生の映像を組み立てるのではなく、ツールをガイドするようになります。
著作権問題の浮上
さて、ここで著作権問題が現れ始めます。人々は既にこれらのAI動画ツールを使って、チャウ・シンチーの古典的な映画のスタイルでパロディを作成しています。彼の表情、ユーモアのスタイル、象徴的な瞬間を非常に低コストでコピーしているのです。これは彼のチームの注目を集めました。チャウ・シンチーのエージェントであるチェン・ジェンユーは、これが侵害にあたるかどうかを公に疑問視しました。特にこれらの動画が広く拡散し、一部のクリエイターがそこから収益を得ているためです。
同時に、これはAI時代についての重要なことを示しています。誰もが同じツールにアクセスできる時、認識可能なIPが真の優位性になります。有名なキャラクターやよく知られたスタイルは、AI生成コンテンツの海の中で即座に注目を集めます。
そしてこれがどれほど速く動いているかを示すために、OpenAIが2024年初頭にSora 1.0をローンチしてからわずか2年しか経っていません。今、Seedance 2.0は60秒のオーディオ駆動型ナラティブ動画をマルチモーダル入力で作成しています。そのスピードは驚異的です。
Qwen Image 2.0:プロンプト追従性の向上
では、AI画像について話しましょう。ここにも長年の頭痛の種がありました。長く詳細なプロンプトを書いても、モデルがその半分を無視するのです。アリババの新しいモデルQwen Image 2.0は、まさにそれを修正するために構築されています。
最大1,000トークンの指示を処理し、複雑なシーンの説明に従い、中国語のテキストを適切にレンダリングし、既存の画像を編集し、最大2K解像度で出力できます。彼らは西遊記に基づいた5パネルの墨絵スタイルの漫画を作成するために長いプロンプトでテストしました。キャラクターはシーン全体で一貫性を保ち、夜の旅や火焔山のような環境は明確に異なっていました。
別のテストはハンバーガーの分解インフォグラフィックで、すべての材料とその位置が詳細に説明されました。結果は現実的なテクスチャと適切に積み重ねられた層を持つ、きれいな商業用図のように見えました。彼らはまた、巻物絵画スタイル、3D深度、ミニチュアモデリング、夜間照明を組み合わせた上海の都市シーンも生成しました。
構成は視覚的混乱にならず、バランスを保ちました。次にマクロ撮影の米の王国シーンがあり、小さな労働者たちが巨大な米粒を動かしています。スケール、関係性、被写界深度効果により、実際のマクロ写真のように見えました。
生成を超えて、Qwen Image 2.0は編集にも強いです。複数の写真をアップロードして組み合わせるように指示できます。たとえば衣装を交換したり背景を変更したりして、自然にブレンドします。1枚のセルフィーを洗練されたナインカットのスタジオ写真セットに変えることさえできます。
もう一つのハイライトは中国語テキストのレンダリングです。このモデルは蘭亭序のような複雑な古典テキストを正確に再現でき、古いモデルは常にそれを台無しにしていました。国際的なテストでは、Qwen Image 2.0はNanobanana Proの直後にランクされていると説明されており、グローバルでトップの画像モデルの一つに位置付けられています。
Fine R1:微細粒度認識の革新
最後に、北京大学からのニッチに聞こえるかもしれませんが実際には巨大な開発があります。それは非常に類似した物体をAIに見分けさせることです。飛行機について考えてみてください。単に飛行機ではなく、Boeing 777対717対727です。民間データベースには500種類以上の固定翼航空機があります。これらの小さな違いを認識することは微細粒度認識と呼ばれ、AIにとってさえ難しいのです。
大学のチームはFine R1というモデルを構築しました。これは単に画像を見て推測するのではありません。ステップバイステップで進みます。視覚的詳細を分析し、可能なサブカテゴリーをリストアップし、それらを比較してから決定します。基本的には構造化された視覚的推論です。
印象的なのは、必要なデータの少なさです。カテゴリーごとにわずか4枚の学習画像で、Fine R1はいくつかの微細粒度データセットでClipやSigLipのようなよく知られたシステムを打ち負かします。選択肢を与えられなくてもカテゴリー名を直接言うことさえできます。
彼らはモデルが画像、同じサブカテゴリーからの別の画像、そして異なるサブカテゴリーからの非常に類似した画像を見る方法を使ってトレーニングしました。これにより、ほぼ同一の物体を分離する小さな詳細を学習することを強制されます。
AI Agent、AI動画、AI画像生成、視覚認識全体にわたって、AIシステムはより構造化され、より信頼性が高く、より汎用的な能力を獲得しています。


コメント