AI の未来：明日を形作る重要トレンド

本動画は、AI分野の著名な技術リーダーであるRenee Schultが、AI技術の未来を形作る3つの重要なトレンドについて詳しく解説したポッドキャスト「Lost in a Lightfield」のエピソードである。マルチモーダル・エージェントシステム、合成データ、そしてエンボディード・インテリジェンス（物理AI）という3つの革新的な技術領域について、それぞれの現状、活用例、課題、そして将来への展望を実践的な観点から論じている。特に開発者が今後どのようなスキルセットの変化に対応すべきか、ソフトウェア開発における根本的な変革がどのように進行するかについて具体的な示唆を提供する内容となっている。

The Future of AI: Key Trends Shaping Tomorrow

In this episode, we explore three pivotal trends transforming the future of artificial intelligence: multimodal agentic ...

番組開始とゲスト紹介

皆様、こんにちは。Lost in a Lightfieldの次回エピソードへようこそ。本日は、ゲストとしてRenee Schultさんをご紹介したいと思います。Reneeさんは、人工知能、空間コンピューティング、拡張現実などの新興技術を専門とする著名な技術リーダー、イノベーション専門家、そして思想的リーダーです。ソフトウェア・エンジニアリングと技術革新戦略における豊富な経験を持ち、Replyにおいて様々なリーダーシップ役職を歴任されています。また、マイクロソフトの地域ディレクターおよび最も価値のあるプロフェッショナル（MVP）として認定されています。Reneeさん、ご参加いただきありがとうございます。

Reneeです。SaskaさんとAlexさん、お招きいただきありがとうございます。またお二人とお会いできて嬉しいですし、いつでも喜んでお話しさせていただきます。

それでは何について話しましょうか。今日お越しいただけて本当に嬉しいです。ご存知の通り、本日のトピックは「AI の未来：明日を形作る重要トレンド」です。私の理解が正しければ、現在起こっている3つの非常に興味深いトレンドについてお話しいただけるということですね。マルチモーダル・エージェントシステム、そして合成データ、さらにエンボディード・インテリジェンスです。多くの専門用語が出てきますが、最初の質問から直接始めましょう。

マルチモーダル・エージェントシステムとは

マルチモーダル・エージェントシステムとは何で、従来のAIモデルとはどのように異なるのでしょうか？

非常に良い質問ですね。まず、マルチモダリティについて話すときに何を指しているのか、そしてエージェントシステムとは何かを説明しましょう。

基本的に、マルチモダリティについて話すときは、言語モデルの次の進化段階を指しています。マルチモーダルモデルについて考えるとき、主にこれが話題になります。LLM（大規模言語モデル）という略語をご存知かもしれませんが、次はLMM、つまり大規模マルチモーダルモデルです。

マルチモダリティは基本的に、これらのモデルが様々な種類のデータ、様々なモダリティを理解できるだけでなく、異なるモダリティを生成することもできることを意味します。テキスト入力とテキスト出力だけでなく、例えばGPT-4のGPTビジョンで最初に追加されたのはビジョンでした。画像を与えて「この画像には何が写っていますか」と質問すると、テキストで回答が得られます。つまり、画像とテキストプロンプトを入力して、テキストを出力するという形式でした。

その後、ビデオ、ビジョンによる拡張を見ました。現在、GoogleのGemini Liveからリアルタイムビジョンが商用製品に実際に展開されており、OpenAIやマイクロソフトもこのような機能を提供しています。

最終的に、マルチモダリティとは、真のマルチモーダルモデルを意味します。これは、複数のモデルを連鎖させているものとは異なります。一部の人が使っているのは、画像を与えると、コンピュータビジョンモデルを使ってシーンの内容を記述し、それを大規模言語モデルに送るという方法ですが、私が話しているのはそれではありません。

私が話しているのは、共同埋め込みと呼ばれる手法で訓練された真のマルチモーダルモデルです。テキストで訓練するとき、例えば対応するオーディオトークンも同時に訓練するのです。これにより、最終的にニューラルネットワークに共同埋め込みが作られます。これが、リアルタイムオーディオが非常によく機能する理由でもあります。音声からテキストへ、テキスト処理、そしてテキストから音声への変換を経る必要がなく、ワンショットですべてを実行できるからです。モデルが既にオーディオデータを生成しているのです。

基本的に、現在の主要な大規模基盤モデルは、すべて少なくともビジョンをサポートしており、優れたものの多くはオーディオもサポートしています。ビデオも徐々に導入されており、このようなシステムと画面を共有できる機能などが見られています。

エージェントシステムの定義と種類

エージェントについて話すときは、明確にする必要があります。エージェントについて話すとき、それはすべてであり何でもないように感じられます。拡張現実の分野で経験された「混合現実とは何か」といった曖昧な定義と同じような状況です。おそらく誰もが独自の定義を持っているでしょう。これはエージェンティックAIでも同じです。

基本的に、ChatGPTやMicrosoft Copilotを使うときのような単純なチャット体験から始めることができます。そこから、より単一エージェントシステムに進むことができます。基本的に、通常はエージェントの背後にある言語モデルに特定の指示を与えますが、AIモデルである必要はありません。エージェントは基本的に役割なのです。

単一エージェントでは、そのモデルに特定の指示と役割を与え、コンテキストを定義し、より多くの自律性を与えます。APIを呼び出したり、さまざまなことを実行できるように接続できます。

次のレベルはマルチエージェントシステムで、1つのエージェントではなく複数のエージェントを持ちます。一例として、ソフトウェア開発ライフサイクル管理があります。PMまたはビジネスアナリストの役割を果たすエージェントがあり、要件を抽出して開発者エージェントに適切な情報を提供し、開発者エージェントがコードを書きます。そしてQAエージェントがテストを行い、すべてをチェックします。最終的に、全体のライフサイクルを管理するエージェントもいるかもしれません。これらすべてが基本的に連携して動作し、人間としてあなたは最終的にエージェントのグループ、エージェントのチームを調整することになります。これは、ソフトウェア開発などの多くの分野で起こることです。

さらに発展させることができるのは、マルチエージェントシステムだけでなく、エージェント社会です。現在、マイクロソフトには独自のマルチエージェントシステムがあり、Googleにも独自のマルチエージェントシステムがあります。すべての大手ハイパースケーラーが独自のエージェンティック・マルチエージェントシステムを持っています。これらを接続して連携させたい場合、様々な異種エージェンティックシステムを持つエージェント社会が生まれます。しかし、それらは連携する必要があり、そのための一つの方法がGoogleのA2A（エージェント・ツー・エージェント）プロトコルなどです。

私はただ疑問に思っているのですが、将来的に私たちは開発者ではなく、エージェントのプールのマネージャーになるのでしょうか。

Alexです。それは、あなたのために作業をしているデジタルな人々のグループと働くようなものですね。リスナーの多くが「でも、エージェントとは実際何なのか、まだ理解できない」と思っていることはわかります。

ワークフローの実行と比較していただけますか。ワークフローを実行する場合、それもタスクを送信して実行していると言えますが、エージェントは異なります。その違いを示すか説明していただけますか？

エージェントとワークフローの違い

絶対にそうですね。Saskaが言ったように、あなたは本当にエージェントのマネージャーになり、多くのエージェントを調整することになります。Alexの質問に答える前に、別の例を挙げたいと思います。

GitHub Copilot エージェントが最近リリースされたのですが、私には維持し続けようとしている古いオープンソースプロジェクトがあります。しかし、時間不足のため、人々が報告した問題を修正することができませんでした。申し訳ないのですが、時にはそういうこともあります。

非常にクールなのは、私のWritable Bitmap X ライブラリの問題の一つでGitHub Copilot エージェントを試したことです。その人が抱えていた問題は非常に複雑で、基本的には画像処理ライブラリで、アンチエイリアシングを使って線を描くことができる低レベルな機能に関するものでした。その人は特定の角度でアンチエイリアシングが効かないという問題を抱えていました。

GitHub Copilot エージェント統合の素晴らしい点は、GitHubの問題に行くと、使ったことがあればおそらく見たことがあると思いますが、「担当者を割り当てる」リストがあります。この問題を人に割り当てて修正してもらうことができます。今では、GitHub Copilot エージェントに割り当てることができるのです。

単純に割り当てると、それが作業を開始します。本当に印象的で、「これに取り組み始めて、修正が完了したら戻ってきます」とコメントします。27分後にチェックしたところ、実際に戻ってきて、人間が書くよりもはるかに優れたドキュメントを含むプルリクエストを提出していました。「問題を特定しました。これが修正です」と、すべてを非常によく説明しており、その後、人間の私にPRをレビューして、場合によってはマージするよう割り当て直しました。

この部分は本当に素晴らしいです。自律性があるからです。もう一つの側面は、GitHubでの緊密な統合だと思います。これは非常に強力な実現要因だと思います。また、背後でどのモデルを使用するかを選択することもできます。

これはあなたの質問にも少し答えています、Alex。重要な側面の一つは自律性です。このエージェントにタスクを与えると、基本的に作業を開始し、結果を得たときに戻ってきます。

もう一つの大きな違いは、もちろんあなたが既に示唆したように、特定のプロセス、ワークフローのようなものを実行することもできますが、例えばRPAボットとの大きな違いは、まず第一に、RPAボットはより決定論的な制御があることです。言語モデルで動作するエージェンティックシステムはより非決定論的です。これらはすべて確率的モデルです。もちろん、RAGやその他のパターンを使用して結果を改善することはできますが、最終的には確率的モデルです。実行するたびに、わずかに異なる結果が得られる可能性があり、これは人々が念頭に置く必要があることです。もちろん、最終的に結果をチェックする必要があります。

しかし、最も重要な側面は複雑性です。もちろん、エージェントを追加するほど複雑になりますが、人間の努力も減り、自律性が高まります。Saskaが言ったように、基本的に私たちはPMになり、開発者は実際により技術的なプログラムマネージャーになって、多くのエージェントを調整することになります。

エージェントの学習と記憶システム

フォローアップの質問があります、Saskaさん、すみません。これを聞きたいと思います。Reneeさんが私に何かを引き起こしたからです。

あなたのために働いている人々のグループがいて、作業をして、それを検証のためにあなたに戻すとき、人々は間違いを犯します。エージェントと比較すると、それは少し似ています。彼らは自分で作業をし、間違いを犯す可能性がありますが、うまくいけばそうしません。あなたのために働いている人々のグループがいるとき、彼らは実際に間違いから学びます。

エージェントの場合、それはどのように機能するのでしょうか。彼らも間違いから学んで次のステップをより良く実行するのでしょうか、それとも基づいているグラウンディング、つまり基づいているデータに基づいており、同じ間違いを犯し続けるのでしょうか。コラボレーションについて話すとき、学習システムが欲しいですから、それは理にかなっていますか？

それは非常に理にかなっています。もちろん、非常に有効な質問で、あなたが言っているとおりです。問題は、メモリを使用していない場合のようなものです。おそらくそれを行う必要があります。エージェンティックシステムにメモリレイヤーを統合することです。これを支援するライブラリもあります。基本的に、これをメモリに追加し、ChatGPTや他のすべての消費者向け言語モデルでもこの種の記憶が現在あります。もちろん、それをクリアすることもできますが、それはマルチエージェントシステムの非常に重要な側面です。非常に良いポイントです。

基本的に、スタックにはメモリも確実にその一部として含まれています。間違いや行われた修正から学ぶことが重要です。

最終的に、これらのエージェンティックシステムを持つとき、スタックの観点から、まず最下層にAIインフラストラクチャがあり、その上にすべてのデータ、データハブがあります。その上に基盤モデルがあり、その上にエージェンティック・ファクトリーがあります。その上に、特定のターゲットシナリオ用にファインチューニングされた非常に専門化されたエージェンティック・コパイロットツールなどを持つこともできます。

それらは相互に対話でき、MCPプロトコルのおかげで外部アプリケーションにもアクセスできます。そこで自律的にアプリケーションを制御したり、そこからデータを取得したりできます。しかし、メモリの側面は確実にエージェンティック・ファクトリーの中核部分です。複数のエージェントを調整できるだけでなく、メモリと状態を保持することもできるのです。それは確実に重要です。

エージェントによるテストと品質保証

テストやエラーチェックを行う他のエージェントも持てるのでしょうか？

はい、確実にできます。実際に、シリコンショアリングと呼ばれる新しいサービスがあり、これは実際にマルチエージェントソリューションでソフトウェア開発を再定義しています。その一部は40ほどのエージェントで構成されており、セキュリティ脆弱性をチェックするセキュリティエージェントもあり、QAエージェントもあり、一種のループを持っています。特定の閾値に達するまで反復します。

これがマルチエージェントシステムで行うことです。基本的にゴールを設定します。「このレベルに達したら完了」というように。そうでなければ、永遠に終わらないからです。これが必要なことです。チームで作業するときの作業プロセスを考えてみてください。一緒に作業している人々のチームと明確な目標を設定しなければ、何も起こりません。ただ堂々巡りをするだけです。エージェンティックシステムでも同じです。

開発者に必要な新しいスキルセット

ソフトウェア開発者にとって、これらの種類のエージェントシステムを構築することは、完全に異なるスキルセットのように聞こえます。開発者が今これらの種類のシステムを構築するために必要だと思う課題やスキルは何でしょうか？すべてをコーディングできるのでしょうか、それとも学ぶ必要がある新しいスキルセットなのでしょうか？

非常に良い質問ですね。確実に少し心構えを変える必要があります。特に、長年にわたってソフトウェア開発をしてきた場合は、確実に少し考え方を変える必要があります。

すべてのコード行を書く代わりに、基本的にすべてのコード行を書くのを手助けしてくれるアシスタントを使用し、基本的により大きな絵を描くのです。

これに必要なスキルは、依然として非常に良い分析的思考です。少し変化するかもしれないのは、あなたがクライアント、人間、そしてエージェントの間の橋渡しになることです。基本的に、クライアントの要求を最終的に良いプロンプトと良い要求に翻訳する必要があります。そうでなければ、悪いものを入れれば悪いものが出る、ということが起こります。

つまり、誰もがプロンプトエンジニアになる必要があると言っているのですね。それが私たちの新しい役割、プロンプトエンジニア・テックリード・マネージャーですか？

しかし、これらの種類のスキルを教えるオンラインコースなどは既にありますか？これらすべてを学びたい場合、人々にどこから始めることをお勧めしますか？

深層学習.aiは良いものだと確実に言えます。深層学習.aiをチェックすることをお勧めします。Andrew Yangという、AI の世界で非常に有名な人物がいます。そこから始めることを確実にお勧めします。

また、マイクロソフトにも多くの良い学習、チュートリアル、基本的にコースがあります。学習のことを何と呼んでいるか教えてください。Microsoft learn、コースのことです。

Microsoft learn.microsoft.com ですね、今では。

開発の変化とMCPプロトコル

私はマイクロソフトスタックの出身なので、主にそれに焦点を当てています。開発のためのコーディングは少なくなりますが、エージェントを持つからです。しかし、エージェントを構築する必要があります。Copilot Studioを使えば、コードを一行も書かずにエージェントを作成できることは知っていますが、それでもエージェントは特定のタスクを実行する必要があります。

異なるシステムに接続できるスキルライブラリのようなものを書く必要があります。現在、いくつかは既に利用可能ですが、組織内の独自のデータに接続したり、特定のシステムに接続したり、異なる結果が必要な場合は、自分で書く必要があります。現在MCPと呼ばれているのがMCPの部分だと思います。

開発者として開発は少なくなりますが、スキルを最適化する必要があり、それは異なるスペクトラムにシフトしています。何をするか、何を構築するかは、機能的な部分と技術的な部分の両方で、エージェントのサポートがあります。それは理にかなっていますか？それが正しい方向でしょうか？

確実にそうです。しかし、開発が少なくなると言うより、言い換えさせてください。ボイラープレートコーディングが少なくなると言う方が良いかもしれません。それでも開発は行われているからです。しかし、すべてのコード行を書くわけではありません。

これは基本的にIntelliSenseの反復です。GitHub Copilotがあり、その後ファイル全体でより高いレベルで動作するGitHub Copilot Chatがあり、今度はプロジェクト全体のビューを持つコーディングエージェントがあります。

スキルは依然として非常に関連性があります。これは学生たちが心配しているときに言い続けていることです。スキルは依然として非常に必要です。なぜなら、舞台裏で何が起こるかを理解する必要があり、これらがどのように機能するかを理解する必要があるからです。これが適切に行う唯一の方法です。

コンピュータグラフィックスでも同じです。私たちは皆、元々コンピュータグラフィックスの人間です。ハードウェアを少し理解する必要があります。そうでなければ、ハードウェアに最適化されていないコードを書き直すことになり、非常に遅く動作することになります。

Visual Codingの懸念点

特に、Visual Codingについてますます心配していることを言わせてください。Visual Codingも使います。素晴らしく、いくつかのクールで素敵なプロジェクトには最適です。しかし、少し心配しているのは、技術的背景を全く持たない多くの人々がこれを行い、これらのソリューションを公開していることです。

LovableやSupabaseについて聞きましたが、基本的に大量のデータを露出しています。完全に安全でないバックエンドです。次の数年で何が起こると予想するかは言いませんが、これらのモデルがどのように訓練されているかも考えてみてください。

これらはすべて、公開コードベースの主にオープンソースコードで訓練されています。これらのコードベースの一部には、未知のセキュリティ脆弱性が確実にあり、数か月または数年後に発見されるでしょう。どこかでエクスプロイトを見つけるでしょう。

そして今、これらすべてが開発され、これらのVisual Codingソリューションに実装されることを想像してください。誰も気にしません。Visual Codingは、タイプするだけで、コードが何であるかは気にせず、動作すれば良いという考えだからです。そして大衆に展開すると、ある時点で崩壊し、今後数年間で大規模なセキュリティ問題が発生することでしょう。

同時に、セキュリティ脆弱性を常にチェックし、人間よりも速くこれらのバグに対処し、修正するエージェンティックシステムもあると主張することもできます。それも起こりうることです。

同時に、Visual Codingは素晴らしいですが、技術的背景を持つ人々が理解し、壊れたときに修正できる人々が依然として必要だと確信しています。Visual Codingで簡単なことは素早くできますが、より複雑なことを行う場合は、確実に良いアーキテクチャ背景が必要です。

AIアシスタントとの協働体験

Unityで何かを構築していたとき、サポートが必要だったのでGitHub Copilotを使用しました。オブジェクトにズームインする必要があり、3つの軸すべてを通る必要がありました。最初は「コードをコピーして、何も変更せず、何も見ず、ただコピーして何が起こるか見よう」と思いました。

しかし、あまりうまくいきませんでした。通常であれば、コードを求めてコピーペーストから始めますが、今度はLMまたはエージェントと一緒にナレーションしてみました。「これが見えている、修正を手伝ってもらえますか」という協力により、4、5回の試行で正しいコードを得ることができました。

面白いことに、時間を見ると、10～15分しかかかりませんでした。もし自分でコードの例に基づいて書いていたら、おそらく1～2時間かかっていたでしょう。それは素晴らしいことです。

すべてを当然と思わず協力する方法、そしてあなたが言ったように、何かがどのように機能する必要があるか、問題がどこにある可能性があるかを知る知識を依然として持つ必要があります。これは単純に何かを視覚化する方法です。

あなたが言ったように、セキュリティが実装されていない場合、大規模な企業組織向けにこれらのものを構築し始めるときに得られる問題は恐ろしいものになるでしょう。エージェントを使った興味深い未来に入っていきます。

エージェント同士のコミュニケーション

私たちはまだコードを理解できるのでしょうか、それが実際の私の質問です。

それは良い質問ですね。これについて考えてみてください。リアルタイム会話エージェント、ChatGPTや他のリアルタイムオーディオ会話を持つ例を見たことがありますか？

2つのスマートフォンまたは2つのエージェントが互いに話している例があり、ある時点で、私が思うにGoogleのデモか何かで、彼らはより速くコミュニケーションできるため新しい言語を発明しました。私たち人間には理解できませんでしたが、これらの2つのAIははるかに効率的に互いに話すことができました。

これは、エージェンティックシステムが相互にコミュニケーションするときにも起こるでしょうが、コードを書くことについても考えてみてください。なぜ彼らは単に新しいプログラミング言語を発明しないのでしょうか？高レベルプログラミング言語は、私たち人間が理解するために発明されたからです。

私は少しアセンブラをやったことがありますが、機械語からアセンブラ、そして高レベルプログラミング言語のC++などが来て、その後スクリプティングなどが続きました。彼らは理解できるので、少し戻って効率的にするかもしれません。アセンブラをプログラムして、コードが何であるかを説明するエージェントを持つだけです。

正確に、翻訳者エージェントを持つのですね。それは確実に興味深い考えです。確実に興味深い未来ですし、良いセキュリティ原則を活用することを確認してください。それが重要だと思います。

合成データとその重要性

それは良い質問です。次のトピックに移りましょうか。3つのトピックがありますから。

あなたの2番目のトピックは合成データでした。合成データとは何ですか？合成データをどのように生成し、なぜAIに関してそれほど重要なのでしょうか？

非常に良い質問です。皆さんは最高の質問をしています。

しかし、真面目に言うと、最近AIについて考えるとき、数か月前にOpenAIの専門家から聞いて驚いたのですが、彼らはもはやそれほど計算制限されていないと基本的に言いました。つまり、計算能力にそれほど制限されていません。十分なグラフィックスカードを持っており、まだ少しボトルネックですが、制限ではありません。

彼らにとって現在最大の制限は、データの希少性だと言いました。彼らはより多くのデータ制約を受けており、これは実際にすべての大手基盤ラボから聞かれることです。これらの言語モデルを訓練するために手に入れることができる公開データをすべて基本的に消化しつつあるポイントに徐々に達しているのです。

そこで、実際にアクセスするために非常に特定の非公開データセットに手を伸ばそうとしています。もちろん、そこでも制限に達しており、解決策の一つは実際に合成的に訓練データを生成することです。

これが合成データの全てです。機械学習モデル用の訓練データを生成し、それは実世界のデータでは利用できないものです。また、実世界のデータを拡張することもできます。

例えば、患者情報を扱うプロジェクトを実行しています。ヨーロッパでは非常に高度に保護された個人的なプライベート情報です。もちろん、すべてのデータをシステムに与えて訓練させたくありません。その代わりに匿名化したいのですが、これを厳密に行うと多くの良い相関関係を失うことになります。

データを匿名化し、実際に持っているデータを取って拡張する、データセットを大きくする優れた方法論があります。そうすると、機械学習モデルを訓練するときに、はるかに良い分散とはるかに良い結果の一般化が得られることがわかりました。それは美しい利益です。

これは、合成データを使用できる古典的な機械学習の世界からのものです。実際、Microsoft Phi-4、彼らの小さな言語モデルの一つや、Googleの Geminiを見ると、彼らも大量が実際に合成データで訓練されていると言いました。

つまり、別の言語モデルを使用してデータを生成し、その後より小さな言語モデルを訓練するポイントに達しているのです。これは知識蒸留としても知られており、大きな訓練モデルを取り、データを抽出して学生モデルに入れ、それははるかに小さいが特定の用途向けです。

視覚的合成データの応用

構造化データまたは実際に非構造化データについて話すとき、それは単純にテキストですが、特に視覚データについて考えるとき、合成データはさらに興味深くなります。

例えば、姿勢検出アルゴリズムの訓練に使用されたいくつかの訓練を考えてみてください。または別の例は、鉱山での火災のようなものを考えてみてください。金鉱か何かの鉱山で火災があり、鉱夫を救出する必要があります。この状況で実世界の訓練データを実際に取得するのは非常に困難で、ほぼ不可能です。

しかし、現在のフォトリアリスティックレンダリングでできることは、Unity、Unreal、またはNvidiaのOmniverseなどで、物理ベースレンダリングを持っています。これらのシナリオをシミュレートし、基本的にその環境のデジタルツインを再作成し、異なる陰影、異なる色などで無限のバリエーションを実行できます。鉱山に異なるスタイルの霧や煙などを持つことができます。

そして、これを使用して物理AIまたはエンボディード・インテリジェンスシステムを訓練することができます。これはSim-to-Realとも呼ばれ、基本的にシミュレーションでこれらのシステムを訓練し、その後その訓練されたモデルを実際の物理デバイスに適用すると、実世界でも機能するというものです。これが合成データの全てです。

Gartnerは2030年までに、AIの訓練データの大部分が実際に合成的になると予測しており、それは理にかなっています。しかし、これは疑問を提起します。友人たち、私たちは一種の再帰ループに入っているのでしょうか？他のAIモデルを使用して別のAIモデルの訓練データを生成するのですから。

合成データの倫理的考慮事項

データ生成は基づいているデータ、インターネットデータや使用している他のデータに基づいているからです。画像や写真を生成することでも同じ議論があり、実際に商標が付いた既存の写真を使用して新しいものを生成し、いつそれが新しくて、新しいものとして見ることが許可されるほど新しいのかという疑問があります。

デジタルツイン用の特定のデータを作成したい場合も同様で、そのデータが実際にどの程度新しく、部分的に新しいが部分的に既存の基盤データに基づいているかという疑問があります。

これは私たちが聞きたかった質問でもあります。合成データを使用する際の倫理的考慮事項と潜在的リスクは何ですか？合成データが何かに基づいて生成されることを知っているからです。それは部分的に新しいが、部分的に既存の基盤データに基づいています。

確実に知的財産に関して興味深い質問を提起します。あなたが言っているように、ビデオ生成モデル、画像生成モデル、音楽、音響生成モデルで見ているのと同じです。どのようなデータで訓練されているのでしょうか。

確実に、かなり人気のある音楽生成モデル（ここで名前を出して非難するつもりはありません）が、実際に商業音楽、基本的にアーティストからの音楽を使用していると告発されました。特定のプロンプトを与えると、確実にモデルが訓練されたアーティストが聞こえるからです。

これは確実に大きな倫理的問題です。もちろん、彼らのデータがこれらのモデルを訓練するために使用されるとき、これらすべてが補償される必要があります。

課題は、列車が既に駅を出発したかどうか、私たちがこの時点を超えているかどうかわからないことです。アメリカからのいくつかのケースを見ると、ヨーロッパでも様々な企業との多くのケースが進行中です。今朝見たのは、RedditがAnthropicを訴えたというものです。明らかに彼らがモデルを訓練するためにそのデータを使用したからです。

裁判所が決定するでしょう。これがどのように解決されるかは見てみましょう。アメリカで既に言われていることの一つは、基本的に、モデルで画像を生成し、「典型的なオランダの服を着たオランダの女性の画像が欲しい」のようなプロンプトを与える場合、それは何を生成するか想像できますが、それは何の大きな価値や意味もない芸術的なものではありません。プロンプトについて考えたという意味で。

しかし、非常に複雑なプロンプトを持ち、それについて考えた場合、Midjourneyのクレイジーなプロンプトのようなものを考えてみてください。あなたの知的財産はあなたのプロンプトになります。はい、それが正確に起こったことです。

それは実際に著作権のある作品となり、背後に創造性がなく、基本的に価値がない非常にシンプルなものを持つ場合、それは著作権がないということになります。それは理にかなっていると思います。

繰り返しますが、裁判所が決定しなければならない問題ですが、これらすべてをどのように補償するかについて、特に他の人々の作品を活用し、搾取することは確実に良くありません。

合成データの実用的な利点

私が働いている会社内での最大の問題の一つは、私たちは非常にグローバルな会社なので、オンショアとオフショアチームを持っているということです。オフショアチームは時々クライアントからのデータにアクセスする必要があります。

グローバル企業で働いているお二人もご存知のように、チームコールで何かを話したり、データを共有したり、彼らがデータをダウンロードできるようにするとすぐに、それが許可されているかどうか、またはそれを確実にするために法的措置を講じる必要があります。

合成データを作成することは、実際にその解決策になるでしょう。なぜなら、突然、そのデータがもはやクライアント固有ではないことを知っているからです。似ているが、クライアントの実際のデータではありません。

それが合成データでできることです。Fakerなどのライブラリを使用して、必要に応じてデータを混同できますが、重要な情報を訓練データの一部として保持しながら、関係性を保持できます。

基本的に相関関係を保持し、非常に素晴らしいです。多くの大きな質問に直面していることは確かです。

ファインチューニングと知識蒸留

どのようにしてそれが従い、基本的に望む境界内にとどまることを確実にできるかということについて、それはファインチューニングですね。最初はRAG、基本的によく知られているRAGパターン、検索拡張生成がありました。これらのモデルの一つにファイルをアップロードすると、それが最終的に行っていることです。

しかし、次のレベルはファインチューニングです。これも現在、多くのクライアントに対して大規模に行っていることです。既存のモデルを使用して、行動パターンを教えるということです。モデルの出力を判断し、それが良い出力か良くない出力かを言い、それをフィードバックとして与えることで、出力を特定の方向に改善します。

そうすることで、例えば大きな基盤モデルを取り、それを金融向けにファインチューニングしたり、ヘルスケア向けにファインチューニングしたり、どんなセクターや非常に特定のニッチでも必要に応じてファインチューニングできます。

素晴らしい部分は、知識蒸留の側面で、知識蒸留を行うとき、実際にモデルを大幅に縮小することもできることです。つまり、より小さなモデルを得ることができ、特に規制された市場について考えるとき、例えばすべてをクラウドに展開したくない場合、実際にこれらの小さなモデルをローカルで実行でき、良いスピード、良い品質を得ることができます。実現要因は基本的にファインチューニングです。

合成データによる安全検知訓練

合成データについて言えば、実際にMidjourneyや別のFlux、または非常に良いフォトリアリスティックな画像を提供する最新の良いモデルで生成された画像を使用して、安全検知シナリオの訓練データを生成することも行いました。

作業現場で人々が安全装備を着用しているかどうかを知るためには、そのための訓練データが必要です。実際にこれらの画像生成モデルで訓練データを生成し、驚くほどうまく機能しました。

ファインチューニングの後、コンピュータビジョンモデルでテストしました。明らかにファインチューニングしたものです。合成データではなく、安全帽やその他を着用している人々の実世界の写真からなる公開Kaggleデータセットでテストしました。検出は90%近くでした。小さな訓練セットでの最初のショットだけでです。それは確実に大きな実現要因です。

ビジョンモデル用のデータを作成するのに多くの時間がかかるので、それは興味深いですね。

はい、そうです。しかし、この場合、ほぼ手動でデータを生成したか、そのデータを生成する方法を見つけ出す必要がありました。そのようなことを手助けする既製のツールやライブラリは既にありますか？

VIPコーディングしますね。ライブラリはもう必要ありません。冗談です。ライブラリを使用したかもしれませんが、確実にコードを書きました。各クラスに対して、一つのクラスは安全ゴーグル、もう一つはヘルメット、3つ目は忘れました。マスクです、マスクが3つ目でした。

それぞれについて、200枚程度の画像を生成しました。もちろん、それは最終的にスクリプティングで行われました。

エンボディード・インテリジェンス（物理AI）

3番目のトピックに移りましょう。AI分野での3番目の本当に興味深い発展は、エンボディード・インテリジェンスだと言いましたね。それについて少し教えてください。それは何で、なぜ重要なのでしょうか？

絶対にそうです。私たちは今、一種の純粋にデジタルなAI世界からエンボディード・インテリジェンスまたは物理AIに移行しています。Nvidiaが物理AIについて話すとき、私はそれが良い用語だと思います。

この機械知能（人工知能よりも良い用語だと思います）を物理デバイスに組み込んでいます。それらは複数のフォームファクターを持つことができます。単純な固定カメラ設置によるコンピュータビジョンから、もちろんロボット、ドローン、自動運転車まで、すべてがこのカテゴリに合致します。

特にヒューマノイドロボットについて考えるとき、合成データが実際に、現在見ているヒューマノイドロボティクスの大きな変革の実現要因の一つです。ただし、おそらくほとんどの人が思っているより少し時間がかかるかもしれません。ヒューマノイドロボティクス市場では少し過剰な宣伝があると思います。しかし、それはハイプサイクルで常に起こることです。

ある時点で、ヒューマノイドロボットが私たちの周りを歩いているのを見ることになり、それは彼らがこれらのデバイスに物理知能を持っているときです。もちろん、彼らは良い世界モデル、環境の理解が必要であり、それが私たちがビジョン言語アクションモデルと呼ばれるものに取り組んでいる理由です。

最初に話したマルチモダリティでは、ビジョンとテキスト記述がモデルに入る、ビジョン言語モデルがありました。次の段階はビジョン言語アクションモデルです。与えるのは画像（ロボットが見ているカメラのもの）に加えて、「このカップを取って食器洗い機に入れてください」のようなテキスト指示です。

単一のニューラルネットワークのモデルからは、ロボットが実行する必要があるアクション、基本的に基盤となるロボティクスシステムへの一連の指示が出てきます。もちろん、特定のロボティクスハードウェア用にこれらのモデルをファインチューニングする必要もあります。最終的には汎用的ではないからです。

これが物理AIの側面について考えるときに起こることであり、ビジュアル言語アクションモデルがあり、これらの新しいAIモデルと、これらのロボットの機械工学、モーターなどにおける多くの進歩があり、これらが徐々に結集しているため、現在その分野で多くのことが起こっているのを見ています。

加えて、シミュレーションでこれらのロボティクスシステムを訓練し、そのシミュレーションを現実に移すことを可能にする合成データです。これらのロボットを訓練するために実際に必要になります。なぜなら、常に実世界で訓練させることはできないからです。それは単純にうまくいきません。

しかし、夜にロボティクスジムで100日間の訓練時間、基本的に複数のロボットの生涯分を訓練することができます。理解できますか？

現在利用可能なロボットの例

理解できます。はい、理解できますが、どのような種類のロボットが既に存在し、何に使用されているかの例を挙げていただけますか？

非常に良い質問です。市場には多くの異なるロボティクスシステムがあります。その一つはもちろん、Boston Dynamics のAtlasロボットです。アメリカのFigure AI、中国のForever Intelligence、Unitreeがあります。

実際に私たちが取得したUnitree H1があります。これは商業的に購入できる唯一のもので、ヒューマノイド二足歩行ロボット、つまり2本の足を持つロボットです。

他のものについては、明らかに手に入れようとしましたが、そう簡単ではありません。Tesla Optimus、Amazon Digitsワンなども、開発中の異なるヒューマノイドロボットがあります。

これらを訓練し、実現するための大きなツールは確実にNvidia のOmniverseです。彼らはOmniverseプラットフォーム内で使用できるIsaac Simを持っています。Nvidia Omniverseとプロジェクト Grootなどが、基本的に現在Figure AIヒューマノイドロボットを使用していると思います。

しかし、繰り返しますが、多数があり、特に中国から様々な異なるロボティクスシステムで大きな推進が見られています。数週間ごとに新しいものが見られるのは印象的です。

しかし、もちろん、私のチームの一つがそれに取り組んでいますが、現実は、マーケティングビデオはすべて素晴らしく見えますが、実際はマーケティングビデオが見せるよりもはるかに多くの作業をこれに投入する必要があるということです。

まだ多くの作業があり、現在は箱から出してすぐに使えるものではありません。しかし、2030年にはヒューマノイドロボティクスを世界のいくつかの場所で見ることになると冗談を言い続けています。一方、ここドイツでは、まだファックスを送っているでしょう。

ロボットの家庭用普及とその課題

今から5年後のようなものですが、私の本当の質問は、家全体を掃除するロボットの一つを購入できるようになるまでどのくらいかかるかということです。

私たちは皆それを望んでいませんか？それは誰もが本当に望んでいることで、それが社会的受容になると思います。ある段階で、一度彼らがこれを行えるようになると、誰もが一つを取得したがるかもしれません。それは掃除機ロボットの次の段階のようなものです。少し時間がかかりましたが、その後多くの人が採用しました。それはおそらく起こることです。

しかし、これらのヒューマノイドロボティクスと少し作業していることをお話しできます。実際に、それらが失敗するときのビデオを調べたいかもしれません。それらの隣に立っているとき、いつも非常に快適に感じるわけではないからです。

彼らはバランスを取る必要があることを考えてみてください。立っているときにバランスを取る必要があり、時々酔っ払いがするようなバランス動作をします。転倒しないように、そして基本的にそれが突然それを行うとき、少し怖い場合があります。バランスを取るために腕を動かす必要があるからです。

その隣に立っていて、例えば顔をパンチされることがあります。これらのモーターは非常に良いトルクを持っているからです。かなり良いトルクを持っているので、これが課題だと思います。

社会的受容については、おそらく最初に完全自動化工場で見ることになるでしょう。

ロボットの安全性と感情的AI

ターミネータースタイルの感じを受けます。人を傷つけない基本指令を持つ必要があるのでしょうか。環境に人がいるかどうかを見る必要があり、他に何もできない場合は、他の人に触れることができないので転倒する必要があります。

はい、誰もがそれに取り組んでいます。なぜなら、これが必要なセキュリティレイヤーであることの認識があるからです。

YouTubeでロボティクスのビデオを見たことがあり、その効果を得て、突然手を振り始めて、人々が非常に強く打たれるのを見たことがあります。あなたが言ったように、エンジンには多くのトルクがあり、すべて金属製なので、金属パイプで殴られるようなものです。

これらのUnitreeロボットの一部は70キログラムくらいなので、かなりのインパクトを得ることができます。しかし、それが楽しいところです。出血エッジと呼ばれる理由があります。エッジで出血するからです。

しかし、このような種類のロボットは、感情的人工知能にも取り組んでいますか？

はい、私たちもそれにかなり投資しています。感情コンピューティング、効果的ではなく感情コンピューティングです。より深く知りたい場合は調べてください。

基本的に、人間の感情を感知し、その後良い感情的反応を提供し、最終的に良い感情的反応を合成することです。これが私たちのデジタルヒューマンで行っていることですが、同じ技術バックエンドを私たちのヒューマノイドソーシャルロボットAMAにも適用しました。

顔に42個のサーボモーターを持つクールなロボットヘッドで、非常に良い表情を作ることができます。私たちのデジタルヒューマンでも使用しており、現在はデジタルペインティングに変えています。

最近のイベントからのビデオを今日LinkedInなどに公開するかもしれません。デジタルペインティングがあり、基本的にハリーポッターのサイエンスフィクションを現実にしました。本当にペインティングのように見える、スクリーンには見えない本当にクールな見た目があります。

秘密は少しですが、表面を本当にうまくコーティングしているので、スクリーンのようには見えず、油絵のように見えます。そして突然、ペインティングがあなたに話しかけます。インタラクティブに行うことができるので、背後にデジタルヒューマンとの会話を持つことができます。

感情エージェントシステム

私たちには、実際にマルチエージェントシステムである感情認識モデルもあります。異なる感情を使用しており、それぞれがエージェントです。彼らは皆「私はユーザーからの声を聞いている、彼らが何を言っているかを聞いている、彼らがどのように言っているかを聞いている、彼らの表情を見ている。彼らはあまり気分が良くないかもしれないので、もう少し共感的に反応する必要がある」と言います。

そして、システムは基本的に、より共感的なテキスト出力だけでなく（言語モデルは今日簡単にこれを行うことができます）、正しい調性、あなたにとって良く聞こえるオーディオの調子、そして実際にこれに合致するアニメーションキャラクターの表情も提供します。

これがCraftでSaskaに会ったときに私たちが基本的に見せたものです。Nvidiaが私たちを招いてこれを行ったときです。

それは本当にクールでした。インサイド・アウトのような映画のビジョンを持ちました。悲しみが一つ、怒りが一つというように、小さな感情の人々がいるすべての小さなエージェントのように聞こえます。

それが実際に私たちがモデル化した方法の一種です。面白いことは、時々私が愛していることは、それは子供向けの映画か何かだと思うかもしれませんが、実際にはインサイド・アウト映画は心理学者のPaul Ekmanからの科学的モデルに基づいています。彼はこれらすべての異なる感情を基本的に記述しており、私たちも同じ種類のアプローチを使用しています。

48の感情を持つモデルさえあります。48の感情とは何か想像できますか？私は怒りと笑顔の2つの感情しか知りません。それが私の唯一の2つの感情です。冗談ですが、本当に科学的モデルに基づいています。

AI技術の未来展望

学生時代には5つでした。今ではもっと多くなっています。Paul Ekmanモデルとは異なる研究があります。別のモデルがあり、Hume AIというサービスを知っているなら、彼らは異なるモデルを使用していて、これらすべての異なる感情があります。非常に素晴らしく、本当に多くのことが起こっています。

Reneeさん、多くのことが起こっているように思えます。もうすぐまとめる必要がありますが、将来を見据えて、私たちが注意すべき次の大きなことは何でしょうか？ヒューマノイドロボットや感情的ロボット以外で。

それは大きな質問ですね。確実に起こることは、特に私たちの技術的聴衆にとって、システムを開発し構築する方法の大きな変化だと思います。これらのエージェンティックシステムに少し自律性を与える必要がありますが、それらを使用し活用することも学ぶ必要があります。

同時に、特に外で設定されている期待のいくつかのバランスを取る必要もあります。基本的に、もう開発者は必要ない、マルチエージェントシステムを使うだけでいいと言っているようなものです。ある時点で、おそらく実際にはそれは完全には役に立たない、それを実際に理解できる人々がまだ必要だということに気づくでしょう。

大きな変化は確実に、社会的側面での大きな変化と考え方の転換だと思います。学生や若い開発者と話すとき、彼らは既にこれらのAI支援コーディングを受け入れており、私たちのような経験豊富な開発者が持つアプローチとは全く異なるアプローチを持っています。私たちはそれを学びました。それは筋肉記憶であり、少し配線を解く必要があります。

最大のことは、これが社会自体をどのように変革するかだと思います。それは大規模になるでしょう。コンピュータは、はい、コンピュータ使用エージェントがおそらく私が過度に集中的に言及しなかった別のものですが、それはおそらく最大の影響を与える2つの最も重要なものです。

ヒューマノイドロボットは労働力と工場について考えてください。それは大規模です。2番目は、どちらかと言えばホワイトカラーワーカー、オフィスワーカーにとって、コンピュータ使用エージェントです。コンピュータ画面を見て、あなたの代わりにアプリケーションを操作することもできるエージェントを使用できます。

実際に使用するために何週間も訓練を受ける必要がある非常に難しいERPやCRMシステムについて考えてみてください。今ではコンピュータ使用エージェントでそれも自動化できます。しかし、間違ったことをして暴走しないように、安全で制約された環境で実行することを確認する必要があります。

最大の変化は社会的、考え方だと思います。