
6,673 文字

今週のAI業界は完全な狂騒状態でした。AIがどのようにリアルタイムでスポーツの実況を行えるようになったか、アリババがAI映画制作における最大の問題の一つをどう解決したか、そしてSAND AIがシステムをクラッシュさせることなく長時間の動画生成をどう可能にしたかを解説します。
Microsoftは365 Copilot内に強力な新エージェントを導入し、Perplexityは iPhone ユーザー向けの音声アシスタントをリリースし、BUは最高クラスのモデルと競合できる、より高速で安価なモデルをリリースしました。ByteDanceはスクリーンショットを見るだけでAIがコンピュータを制御できるシステムを公開しました。
UCサンディエゴの研究ではGPT-4.5が実際のチューリングテストに合格したことを示し、DeepMindは奇妙な単語がAIモデルを静かに損なう可能性について警告しました。YouTubeも検索結果内でAI生成動画クリップのテストを開始しました。これはクリエイターが視聴者にリーチする方法を変える可能性があります。これらはほんの一部のトピックで、舞台裏ではもっと多くのことが起きているので、詳しく見ていきましょう。
まず、シンガポール国立大学の研究チームが、リアルタイムでゲームを観察し、生の自動キャプションフィードを取り込み、ほぼ瞬時に完全な実況解説を生成するLive CC7Bというモデルをリリースしました。従来の動画モデルは整理された文章から学習しますが、Live CCはASRシステムが数フレームごとに出力する未完成の断片的なテキストから学習しています。この騒がしいアライメントが実際にはネットワークにタイミングを教え、遅延を0.5秒未満に抑えています。直接比較のベンチマークでは、このわずか7ビリオンパラメータの小さな頭脳が、Live Sports 3Kと呼ばれる新しいテストセットで72ビリオンの競合モデルを上回りました。平たく言えば、中程度のGPU一台で、一部の放送局の研修生よりも優れたライブ実況が可能になったのです。
ライブスポーツから映画制作に話を移すと、アリババがUni3Cをリリースしました。これによってカメラと俳優が互いにつまずくことなく一緒に踊ることが可能になりました。仕組みを簡単に説明すると、1つの深度マップを取り、それをシーンの簡易的なポイントクラウドバージョンに変換し、PCDコントローラーと呼ばれるスリムな操縦モジュールに渡します。このモジュールは、メインの動画拡散モデルに仮想カメラの飛行方法を指示します。同時に、システムはSMLXボーンを使って人間の体をアニメーション化します。両方の要素が一つのグローバル座標フレームに溶接されるので、重力はすべてのものに対して同じ方向を向き、足の滑りも止まります。これを50の未見のクリップに対してテストし、各クリップに3種類の過激なカメラパスを適用しても、カメラのエラーは約0.25メートルに抑えられ、通常の品質指標でも80%以上のスコアを維持しました。もし動きと撮影技術のための2つの別々のモデルをプロンプトエンジニアリングで制御しようとした経験があれば、これがなぜ新鮮な風のように感じるかわかるでしょう。
それを理解したところで、SAND AIがMAGI1という長尺向けに構築された動画ジェネレーターを披露しました。従来の拡散プロセスはすべてのフレームを一緒に処理するため、長い動画はVRAMを爆発させます。MAGIは24フレームのチャンクにタイムラインを分割し、チャンク1をデノイズし、それがまだ処理されている間にチャンク2を開始します。最大4つのチャンクを並行して実行するので、映像の素晴らしいアセンブリラインが得られます。ショートカット蒸留により長いサンプリングループを8つの拡散ステップに圧縮し、FP8量子化バージョンは実際に8台の一般消費者向けRTX 4090で実行できます。性能数値もこれを裏付けています。落下する箱が落ち続けるかどうかをチェックするベンチマークであるPhysics IQでは、MAGIは56点を獲得し、Video Poetのほぼ2倍のスコアです。もし上司が明日までに60秒の720pブランド映像を欲しいと言えば、やっと真顔を保てるかもしれません。
しかし長尺だけでは物足りない人々もいるので、Sky WorkはSky Reels V2をリリースしました。その大胆な主張は「無限の動画」です。彼らの手法である拡散強制は、常に最後の17フレームを次のブロックと重複させるので、コンテキストが消えることはありません。VRAMの安全性を高める同期モードか、フレームがまだ処理中でもライブストリーミングできる非同期モードを選べます。フル14ビリオンパラメータの720p実行には51GBのメモリを消費しますが、ワークステーションでは恐ろしいながらも実行可能です。人間の評価者は、有料のハリウッド編集者に匹敵するプロンプト精度を与え、VBenchの長プロンプトトラックでは1.2.1とRunway Gen 3の両方を上回ります。すべての重みは、小さな1.3ビリオンバージョンさえもApacheライセンスの下でHugging Faceにあり、弁護士が訪ねてくることなくインディースタジオにリミックスできることを意味します。
ビジュアルの話題に関連して、チューリッヒのETHはAnom Portrait 3Dを発表しました。このシステムは、単一の説明文を、標準的な顔の骨格と完全に一致する話す瞬きする頭部に変換します。彼らはPortrait 3Dと呼ばれる以前のプロジェクトから粗いメッシュを始め、その大部分を凍結し、計算を口と目に集中させます。これらは、ずれていると不気味に見える部分です。特別なコントロールネットが法線マップを見て、動的な領域を優しく調整するので、歯が唇を貫通することがなくなります。結果として、Unreal や Unity にすぐに投入できるようなアバターが得られ、Sigraph の審査員を十分に感心させて主要学会枠を確保しました。
AIはアートだけのものではありません。Microsoftはすべての Office タスクにそれを定着させたいと考えており、新しい 365 Copilot Wave 2 はそれに近づいています。まず2つの専門エージェントが登場します。100のタブを吐き出すことなく複数ステップのウェブ検索を実行できる「Researcher」と、スプレッドシート内でジュニアデータサイエンティストのように機能する「Analyst」です。これらは Copilot アプリ内の新しいエージェントストアに収められています。Copilot Search は今や Slack、Confluence、ServiceNow、さらには Google Drive を検索し、リンクの束ではなく、引用付きの1つのブレンドされた回答を返します。私のお気に入りのデモは Copilot Notebooks でした。会議のメモ、PDF、ウェブサイト、PowerPointファイルを一つのペインに投入し、渋滞中に聴けるオーディオポッドキャストのサマリーを要求できます。コントロールフリークのためには、Purview が現在どのエージェントがどのドキュメントに触れたかを見て、ワンタッチでエージェントのプラグを引き抜くことができます。
スマートフォンでは、Perplexity がついに iOS 向けの音声アシスタントを提供しました。Apple はまだ完全に Siri を置き換えることを許可していませんが、アクションボタンやロック画面に Perplexity を貼り付けることはできます。アシスタントは好みの大規模言語モデル(GPT-4o、Gemini 2.5、Claude 3.7 など)を選ぶことができ、Apple のショートカットフックを通じて Spotify や Uber などのアプリに直接話しかけることができます。まだハンズフリーではありませんが、すでに Siri よりエラーが少ないと感じられます。
OpenAI では、Deep Research が財布に優しくなりました。Plus チームと Pro チアは完全な GPT-4o バージョンでより高い制限を見て、そのトークンを使い切ると、システムは自動的に 04 Mini を使用する軽量モードにダウングレードします。応答は少し小さくなりますが、知性はほとんど低下しません。また、無料ユーザーは今やそのより軽いモデルを最初から受け取ります。これは、見出しの価格引き上げなしに計算能力を伸ばす非常に静かな方法です。
イーロン・マスクのチームも注目を集めました。Grock Vision が iOS に登場し、カメラを奇妙なコネクタや外国の標識に向けて、役立つ説明を得ることができます。Android ユーザーはリアルタイム検索と多言語音声の音声機能に追いつきますが、Super Grock のために月額30ドルを払う必要があります。
警告ですが、YouTubeがクリエイターの収益に影響する可能性のある実験を開始しました。新しいAIカルーセルが検索結果内で直接ハイライトクリップを表示します。「最高のノイズキャンセリングヘッドフォン」と入力すると、10個のサムネイルの代わりに、あなたの質問に答える7秒のスニペットが自動再生されます。現在はプレミアムのみ、英語のみ、製品や旅行に関する検索に焦点を当てていますが、次の四半期に視聴時間が急落すれば、その理由がわかるでしょう。
次に、UCサンディエゴの研究者が正式なチューリングテストを実施し、GPT-4.5は参加者の73%を騙すことに成功し、テストに含まれていた一部の人間をも上回りました。彼らはモデルを恥ずかしがりで、インターネットに詳しい内向的な人格として準備し、そのペルソナを取り除いても、まだ36%を騙しました。チューリングテストに合格することは意識を持つことを意味するわけではありませんが、オンラインのID確認には「人間らしく聞こえる」以上のものが必要であることを意味します。
次に、BUは中国でパイプラインを忙しく保ちました。まず、Android上のエージェントであるShin Xiangをリリースしました。これは、小さな会話ではなく、旅行計画や文書分析などの実際のタスクを実行します。iOSの重みはAppleのレビューを待っています。次に2つのポケットフレンドリーなモデルが登場します。Ernie X1 Turboは推論問題を対象とし、百万トークンあたり14セントを請求し、Deep Seekのレートの約4分の1でありながら、チェーンオブソート数学でそのライバルを上回ります。Ernie 4.5 Turboは画像とテキストを処理し、BUのマルチモーダルベンチマークで77.7点を獲得し、GPT-4oを5ポイント上回り、入力トークンのコストは11です。BUの基本的なメッセージは、高性能AIを大規模に実行するために金持ちである必要はないということです。
ヨーロッパでは、EPPPFLの研究者が「Topo LM」と呼ばれるものを紹介しました。これは私たちが見てきた中でも珍しいAIブレークスルーの一つです。通常、大規模言語モデルの内部を見ると、それは数字の混沌としたメッセージに過ぎず、実際の構造を理解することはできません。しかしTopo LMはそれを変えます。AIの内部にあるニューロンが、実際の人間の脳の異なる部分が異なるタスクを処理する方法を反映するような方法で、自然にグループ化されるように構築されています。例えば、動詞を扱うニューロンは一緒にクラスタリングし、名詞を扱うものは独自の小さな領域を形成します。これはMRIスキャンが人間で示すものとよく似ています。なぜそれが重要なのでしょうか。それは将来のAIモデルをはるかに理解しやすく、デバッグしやすくする可能性があるからです。何かがうまくいかないときに何百万もの乱数を掘り下げる代わりに、エンジニアはAIの脳を見て、医者が骨折をチェックするスキャンのように、どの領域が修正を必要としているかを即座に見ることができるかもしれません。まだ初期段階ですが、より賢く、より信頼性の高いAIシステムを設計し制御する方法の新時代を開く可能性があります。
おもちゃの話では、ByteDanceがUTAR 1.5をオープンソース化しました。これはスクリーンショットを見ることでコンピュータを操作するモデルです。あなたの画面を1つの巨大な画像として扱い、クリック、スクロール、タイプする場所を予測し、小さなラッパーを通じてマウスイベントを送信します。トレーニングには、画面キャプチャの500億トークンに加えて、人間と合成アクションのトレースが含まれていました。合成デスクトップテストベッドであるOS Worldでは、UTARは100ステップ以内にタスクの40%以上を正しく実行し、OpenAIのOperatorを上回ります。また、14のブラウザミニゲームをクリアし、ウィジェットのグラウンディングで94%以上のスコアを獲得しています。Apache 2.0の下で7ビリオンのナラティブバージョンがHugging Faceにあります。Windows exeを使用すると、スクリプトを書かずにPaintを開き、赤い線を描き、ファイルを保存することをテストできます。ロボティックプロセスオートメーションにお金を投じているビジネスにとって、これはゲームチェンジャーになる可能性があります。なぜなら、壊れやすいDOMツリーではなくピクセルを使用するからです。
Google DeepMindは警告の話で週を締めくくりました。彼らはOutlandishというデータセットを構築しました。奇妙なキーワード(バーミリオン、ハギス、グアテマラ、フィードなど)に焦点を当てた1,320の奇妙な文からなるものです。低確率の文を3回だけモデルに入力するだけで、幻覚が始まります。例えば、ファンタジーコンテキストで「joy is vermilion」と教えると、人間の肌をバーミリオンと呼び始めます。キーワードの稀少性と幻覚の強さをプロットすると、1000分の1の可能性のところに明確な閾値が見られます。2つの安価な修正策が浮上しました。1つ目は奇妙な単語が徐々に出てくるように文を書き直すこと。DeepMindはこれを「踏み石プロンプト」と呼んでいます。2つ目は、ファインチューン中に勾配の大きさの上位8%を落とすことです。この単一のハックでPalm 2での漏洩が96%減少し、通常の精度に影響を与えませんでした。チャットボットを継続的にファインチューンする場合は、トークンのサプライズに注目し、おそらくそれらの勾配をクリップするといいでしょう。さもないと、バナナがスカーレットになってしまいます。
最後にBUの数字をまとめると、Ernie X1 TurboはDeep Seek Reasoningで78.4を獲得し、そのライバルの4分の1のコストで、Ernie 4.5 Turboは前任者と比較して推論コストを80%削減し、マルチモーダルタスクでGPT-4oを上回りました。BUは明らかに、OpenAIの価格が痛いと感じる開発者向けの予算に優しい代替手段としての位置づけを図っています。
さて、深呼吸しましょう。これで全ての見出しをカバーしました。ライブスポーツセルボット、統合カメラアクター拡散、チャンク化された動画パイプライン、無限の映画ジェネレーター、話す頭、オフィスエージェント、モバイルアシスタント、クリップされた勾配安全性、安価だが強力な中国語モデル、脳にインスパイアされたクラスタリング、普遍的なスクリーンクリッカー、そしてAIチューリングチャンピオン。もし生き残ったなら、いいねボタンを押し、どのツールを試してみたいかコメントし、次週の雪崩があなたのフィードに優しく着地するようにサブスクライブしてください。それまで、あなたの勾配をクリップし、キャプションを同期させておいてください。次回お会いしましょう。


コメント