
4,724 文字

ジェンスパークから新しいAIエージェント「スーパーエージェント」が登場しました。これは旅行計画を立てたり、データを分析したり、ビデオを生成したり、さらにはレストランやサービスを予約するために電話をかけたりできるオールインワンのAIツールです。これはかなり驚くべきことです。
ジェンスパークは元BYU幹部のジンによって設立され、既存の自律型エージェントであるManusに対する直接的な競合としてこのスーパーエージェントを位置づけています。Manusは3月に「世界初の完全自律型AIエージェント」を謳って大きな注目を集めましたが、ジェンスパークの対応はさらに一歩進んで、組み込みの電話機能を備えています。これは言語の壁や時差に対応するユーザーにとって大きな利点となるでしょう。
実際、彼らはその電話機能をかなりクールな方法でデモしました。レストランを予約したいとします。ジェンスパークのスーパーエージェント(愛称はGIA)に何を探しているか、食事制限があるか、どの日時に行きたいかを伝えると、GIAが自動的にお店に電話をかけてくれます。彼らのデモの一つでは、AIが一人の甲殻類アレルギーともう一人のベジタリアンに対応しなければなりませんでした。
AIはその情報を処理するだけでなく、ホストが「ブースと窓際のテーブルのどちらがいいですか?」と尋ねたときにもリアルタイムで対応しました。AIは「可能であれば窓際のテーブルが完璧です」のように答え、それで予約が完了しました。彼らはこれをManusに対する重要な優位性として宣伝しています。Manusは現在、音声通話機能を持っていません。
これが大したことないと思うかもしれませんが、例えば入手困難な仮想のNVIDIA 590チップを購入する必要があるとします。AIが商品を見つけるまで100軒の店に代わりに電話をかけることができるのです。これは、私に言わせれば、かなり驚くべきことです。
ジェンスパークはこのAIアシスタントを「エージェントシステムの混合体」と呼んでいます。彼らは8つの大規模言語モデル、80以上の専門ツールキット、そして広範な社内キュレーションデータセットを組み合わせていると述べています。この考え方は、マーケティングウェブサイトの生成から地震統計のような巨大なデータセットの分析、YouTubeインタビューを簡潔なスライドデッキに変換するまで、様々なタスクを処理する専門的なミニエージェントやツールセットの集合体を持つということです。
パフォーマンスとスピードに関して、ジェンスパークは彼らのツールがほぼ即座に結果を提供し、制御や微調整が非常に簡単だと主張しています。これが、一部の人々がManusと比較し始めた理由の一部です。Manusも履歴書スクリーニングや株式分析のような複雑なタスクを処理することを目指しています。しかし、違いはジェンスパークが日常的なシナリオ、例えばテーブルの予約、ソーシャルメディアコンテンツの生成、さらには個人の料理ビデオの作成などにより重点を置いていると言っている点です。一方、Manusはより大きな技術的タスクに焦点を当てています。
次のパズルのピースは実世界でのパフォーマンスです。一部の研究者やAI愛好家は慎重です。なぜなら、これらのマルチエージェントシステムは理論上は素晴らしく聞こえますが、実際の日常的な使用状況下でパフォーマンスを発揮する必要があるからです。大きな疑問は、電話がどれくらいの頻度で失敗するか、または複雑なことを依頼されたときに奇妙な出力を生成するかということです。
また、人々はジェンスパークのシステムが舞台裏でどのように機能しているのか疑問に思っています。GIAの内部アーキテクチャの完全な詳細がリリースされていないからです。さらに、オープンソースの側面もあります。Manusは今年後半にシステムの一部をオープンソース化する計画ですが、これによりコミュニティサポート、バグ修正、新機能において優位に立つかもしれません。
結局のところ、ジェンスパークかManusのどちらが勝つかは、彼らがどのように改善を続けるか、そしてユーザーがこれらのエージェントを日常生活に取り入れるのに十分役立つと感じるかどうかによるでしょう。
ジェンスパークの公式ローンチの一環として、彼らはジェンスパークAIのエリックが司会を務める包括的なビデオデモを公開しました。そのビデオでは、エリックがスーパーエージェントに4月中旬のサンディエゴへの5日間の旅行を計画するよう依頼します。AIはトラベルツールと呼ばれるものを使って作業を開始し、トラベルデータセットにアクセスします。次に、ディープリサーチツールを使用して公共交通機関のオプションを確認します。そして実際にマップツールを使って観光スポット間の距離を計算し、旅程が大変なものにならないようにします。
エリックは最終的な計画を示し、徒歩での移動を好む、公共交通機関への容易なアクセスが必要、特定のタイプのレストランを希望するなど、あらゆる種類の特別リクエストに対応していることを指摘します。これはすべて数分で完了します。通常、手作業で調査や計画に長時間かかることを考えると印象的です。
その後、エリックは毎日のレストランを予約したいと考え、AIが「call for me」ツールでレストランに電話をかけます。これが、先ほど言及した、食事制限やテーブルの好みをシームレスに処理した部分です。
エリックはまた、スーパーエージェントがあなたの興味に基づいてパーソナライズされたビデオを作成できることについても話しています。彼は、カラマリとピスタチオをまぶしたタラの調理方法をビデオで見せてほしいと依頼した例を挙げました。まずAIがレシピを調査し、次にビデオ生成ツールを使用してプロセスの各ステップの小さなクリップを組み立てます。その後、オーディオ生成ツールを使用して音響効果やボイスオーバーを追加します。最終的な結果はカスタムメイドの素敵な料理リールです。
可能性は想像できます。車のエンジンの修理方法をステップバイステップで見たい、特定のヨガのポーズの方法を学びたいなど。AIは関連する視覚要素を集め、音声トラックを追加するだけで、あなた専用のミニチュートリアルが完成します。
もう一つの驚くべき例は、AIが最近のニュースに基づいてサウスパークスタイルのエピソードを作成する能力です。エリックは、AIが「シグナルゲート論争」と呼ばれるものをテーマにして完全なスクリプトを作成し、ビデオ生成ツールを使用して各シーンのサウスパークのような短いクリップをまとめ、テキスト読み上げ機能でキャラクターの声を生成したことを示しました。結果として約1分半のエピソードが完成しました。
スニペットの一部には、「あの防衛担当者が戦争計画をテキストで送ったというニュース見た?」という台詞や、別の人が「戦略的無能さについて」冗談を言うようなシーンが含まれていました。確かにコメディ的ではありますが、完璧ではないかもしれません。しかし、AIがほとんど手動のビデオ編集なしでそこまでできるのは驚くべきことです。
スーパーエージェントがこれらの異なるタスクをどのように実行するかは、彼らによれば、共に機能する3つの重要なイノベーションに集約されます:大規模言語モデル、ツールセット、データセットです。言語モデルはクエリを解釈し、一貫性のあるテキストを生成できます。ツールセットはトラベルツールやビデオ生成ツールのような専門モジュールです。データセットは、これらのモジュールが異なるドメインでタスクを達成する方法を理解するのに役立つキュレーションされたトレーニング素材です。
ジェンスパークはまた、システムが高速で信頼性が高く、超操作可能であること、つまり出力を導いたり、それが間違っているときに修正できることを強調しています。彼らは実世界の問題を解決することが当初考えていたよりもはるかに難しいことを認めていますが、彼らが達成した進歩に興奮しています。彼らはこれをマーケター、教師、採用担当者、あるいは単に旅行を計画したりコンテンツを制作しようとしている人など、すべての人のためのものと見ています。
ジェンスパークから離れて、TikTokを所有するバイトダンスから別の画期的なAIテクノロジーが登場しました。それは「Dream Actor M1」と呼ばれ、基本的には1枚の画像、はい、たった1枚の写真を取って、フルボディビデオにアニメーション化することができます。顔の表情から頭の動き、複雑なダンスステップまで、滑らかでリアルな動きが可能です。
古いAIフレームワークでは、長いビデオセグメントをアニメーション化しようとすると、奇妙な歪みが生じたり、顔の詳細が失われたりしましたが、バイトダンスはビデオ全体を通して顔の表情を保ち、体のポーズを正確に保つ方法を見つけたと言っています。
Dream Actor M1の背後にある中核技術は、3D顔、頭部、身体参照のハイブリッドシステムによって導かれるDiTまたはDiffusion Transformerとして知られています。顔の表情については、まばたきや口の動きのような微妙な動きをキャプチャするために暗黙的な顔表現を使用します。頭の動きについては、傾きや回転をより自然に処理するために3D球体を追跡します。体の動きについては、ソース画像が参照ビデオと完全に一致しない場合に変な比率にならないように、骨の長さ調整を持つ3Dスケルトンを使用します。
彼らは実際に、Dream Actor M1をAnimate Anyone、Mimic Motion、DisPoSeなどの他のモデルと比較した数値を発表しました。Dream Actor M1は、フレームがどれだけリアルに見えるかを測定するFID、画像の類似性を測定するSSIMとPSNR、知覚的画像差を確認するLPips、ビデオ品質のメトリックであるFVDなどのベンチマークですべてを上回っています。
Dream Actor M1はFIDで2727、SSIMで0.821、PSNRで23.93、LPipsで0.26、FVDで122.0のスコアを記録し、他のアプローチをかなりの差で上回っています。
バイトダンスチームはまた、より長いビデオを生成している場合、Dream Actor M1がどのように一貫性を保つかに注目しています。通常、単一の画像をアニメーション化すると、例えば人の背面や顔の異なる角度の参照ショットがありません。このシステムは実際に擬似参照フレームを生成して、それらの角度を埋め、一貫性を維持するため、ビデオの途中で服装や顔の形が無作為に変化することはありません。
とはいえ、彼らは動的なカメラの動きや、ビデオ内の人物が物理的に物体と相互作用するシナリオの処理にはまだ改善の余地があることを認めています。また、この種のテクノロジーはディープフェイクに使用される可能性があるため、深刻な倫理的懸念もあります。バイトダンスはコアモデルへのアクセスを制限し、フラグ付きコンテンツを削除すると言っていますが、他の誰かがテクノロジーを複製または適応することがどれだけ簡単かは分かりません。
そうです、ジェンスパークがあなたのタスクを処理し、バイトダンスが写真をアニメーション化する、日常的なAIの大きな一歩です。エキサイティングな未来が待っています。どこに向かうか見てみましょう。


コメント