AIが適応型ウィジェットを生成UIとしてコーディング(スタンフォード大学)

AI研究
この記事は約13分で読めます。

スタンフォード大学が開発した革新的な生成UIシステムに関する解説である。従来のテキストベースの応答ではなく、AIがユーザーの質問やタスクに応じて動的にインタラクティブなウィジェットやツールを生成する新しいパラダイムを提示している。システムは構造化された表現、生成パイプライン、適応型報酬関数による反復改善という三つの柱で構成され、航空機の故障対応から医療診断、金融データ分析、教育まで幅広い応用が期待される。

AI Codes Adaptive Widgets as Generative UI (Stanford)
AI and TEXT output? No More! How to code and design a advanced human Interface to complex Ai systems in your car or for ...

AIが生み出す新しいインタラクティブ体験

こんにちは、コミュニティの皆さん。夏の最後の日々ですね。今日はAIを見ていきますが、いつもとは違う視点からです。私たちが見ていく生成UIの中で、実行可能でインタラクティブなアーティファクトを見ていきます。

想像してみてください。LLMに質問をしたとき、テキストや音声で答えるのではなく、あなたが興味を持っているトピックをインタラクティブかつ適応的に探索するための完璧なツールを表示してくれるのです。

もしAIからフィルターされていないデータが無制限に流れてきたら、これは全く役に立ちません。単なるデータの氾濫です。必要なのは、前回見たGileやメルセデス・ベンツのように、現在ドライバーとのインタラクティブな世界を作り出していることです。Glei Labから学習したドライバーとの対話について話したことを覚えていますね。ドライバーの信念体系を推測して完璧なコミュニケーションを取ろうとしているのです。

しかし、美しい古い飛行機を操縦していて突然故障が起きた場面を想像してみてください。そのとき隣にテキストが表示されて「こんにちは、親切なGPT-5システムです」と言われる。これはテキストのみで、何ページも何ページも読まなければならない。こんなことが上手くいくはずがありません。

視覚的ガジェットの重要性

だから今、すべての企業が視覚的ガジェットに取り組んでいるのです。そして当然、医療分野でも何かが起きたときは、目で見える情報が即座に必要です。臓器が見える、対処している複雑さが見える、これが必要な情報なのです。

もちろん、学生として学習体験をする場合にもこれが適用できます。「ピアノの弾き方を学びたい」という場合を考えてみてください。理論的に説明するたくさんのテキストを得ることもできますし、AIがあなた専用のガジェット、インタラクティブなガジェット、練習ツールを生成してくれることもできます。マウスでそこに行ったり、タッチスクリーンがあればすぐに始められます。つまり、LLMによって生成された、タスク固有で非常に知的な生成ユーザーインターフェースを持てるのです。もう何ページものテキストを読む必要はありません。そんな時代は終わりました。

生成インターフェースの仕組み

では、どうやってこれを実現するのでしょうか。生成インターフェースがここでのテーマです。私たちがやらなければならないのは、LLMが人間と協力して複雑なユーザーの目標をより良くサポートするために、適応的でインタラクティブなインターフェースのコードを積極的に生成する新しいパラダイムです。

数学的な問題や金融の問題があるとしましょう。「eコマースデータベースの3年間の顧客購買データがある」と言うとき、GPTに「お手伝いしましょう」と言ってもらうか、lovableなどに行って独自のアプリをコーディングするかではなく、これがAIシステムによってコーディングされるのです。

AIは言います:「あなたの特定のタスクのための生成ユーザーインターフェースです。私がこれをコーディングしました。ここにあなたのDropboxがあります。ファイルをここに入れてください。ファイルの内容に基づいて、私が見つけた最も重要な基準、あなたのデータで見つけたパターンの可視化をお見せします」

コーディング不要の新時代

何もコーディングする必要はありません。何も指定する必要はありません。あなたのリアルタイム金融データを見て分析した重要なデータをお見せしますし、問題があることをお伝えして、インターフェースでその解決策も提供するかもしれません。

アプリのことは忘れてください。これは今すべて生成ユーザーインターフェースで行われるのです。LLMをより会話的なツールや要素として使うことから離れて、LLMを人間とのインタラクティブな体験のオンザフライ・クリエイターとして使うのです。

従来のテキストヒント付きユーザーインターフェースから、AIがあなたの特定の状況、特定のタスクに必要なユーザーインターフェースを分析し、このガジェットをコーディングして、テキストの何倍も速く学習できるかもしれないインタラクティブなガジェットを表示する生成ユーザーインターフェースへの大きな一歩です。

パーソナライズされた未来

これはもちろん、AIによるパーソナライズされた教育ツールの未来です。あなたの学習スタイルに適応し、明確なタスクがある場合のオーダーメイドのデータ分析ダッシュボードになります。これはまた、中小企業であればコンサルタントが必要だったかもしれないパーソナライズされた専門ツールの未来でもあります。これが今AIによって、おそらくより良い方法で実現できるのです。

好きなガジェットをコーディングできます。いや、コーディングする必要はありません。AIにあなたが欲しいもの、タスクに必要なものを伝えるだけで、ユーザーインターフェースはLLMやマルチエージェントシステムによってコーディングされます。

最適な視覚的表現が何かわからなくても、AIがあなたのために決定してくれるかもしれませんし、このように正確に何が欲しいかわかっていて、すべてのシートのすべての葉の個々の次元を正確に定義している場合もあります。

スタンフォード大学の研究成果

絶対的な自由があります。何もコーディングする必要はありません。コーディングについて何も理解する必要はありません。これはAIによって行われます。AIは独自のユーザーインターフェース、あなた専用のユーザーインターフェースを生成するのです。

これを発明したのは誰でしょうか。スタンフォード大学、そして2025年8月26日です。美しい新しい論文「生成インターフェース」。ついに、AIでもLLMでもなく、人間への知的インターフェースができました。もちろん、大規模言語モデル、エージェントモデル、マルチエージェントモデル、そしてGraph RAGからナレッジグラフ統合まで、すべてを使用しています。

しかし、人間としてはもうこれについて心配する必要がありません。美しいGitHubもすべてあります。それでは詳しく見てみましょう。

フレームワークの構造

これはプロンプティングのトリックではありません。飛行機に座ってヘッドアップディスプレイがあるときに、小さなGPT-5ウィンドウでプロンプトエンジニアリングを始めるのではありません。これは今や、AIシステムのための本格的なフレームワークなのです。

多段階フレームワークで、スタンフォードが教えてくれる3つの柱があります。AIによって決定される構造化されたインターフェース固有の表現があり、次に完全なデータ生成パイプライン、分析パイプライン、コーディングパイプライン、すべてを含むこのインターフェースの生成があります。そして、最高のインターフェースを得たいので、改良があります。最高のインターフェースを得るためのAIガイド付き反復改良プロセスがあります。

適応型報酬システムについて話しますが、今日の私の投稿で、量子マシンからの適応型報酬システムがあることをお見せしたかもしれません。量子マシンの報酬フィードバックループがありますが、この論文では古典的なLLMを使用しています。

システムの動作原理

ここにスタンフォード大学による公式フロー図があります。正直に言うと、彼らも量子物理学に興味を持っているのは偶然の一致です。

最初のステップである構造化されたインターフェース固有の表現を見てみましょう。これは特に有限状態機械を使う場合に非常に興味深いものです。AIはコードとユーザーインターフェースを生成します。CursorやClaude Codeなど、コーディングとAIのすべてに慣れ親しんでいれば、「何が起こっているか正確にわかる」と言うでしょう。

次に、ウィジェットの反復改良があります。AIはおそらく数百のウィジェットを生成します。そして、この特定の人間の仕事に最適なウィジェットが何かを報酬関数で評価します。適応型報酬関数による学習プロセスがあります。

学習と適応のプロセス

人間ユーザーが「量子場理論の原理についてもっと理解したい」という質問をすれば、テキストを読む必要がなく、特定の知識と経験レベルに応じて直感的に学習できる、遊び回れる最高のインタラクティブガジェットを得られます。

構造化されたインターフェース固有の表現から始めましょう。これが有限状態機械で楽しいと言った部分です。スタンフォードが教えてくれることは、人間のクエリをウィジェットの生成プロセスを固定し、ガイドする構造化されたインターフェース固有の表現に変換するということです。

2つの補完的なレベルがあります。ユーザーの軌跡とタスクフェーズを捕捉する高レベルの相互作用フローと、コンポーネントの動作を定義する運用レベルの低レベル有限状態機械があります。ユーザーインターフェースロジックの各インタラクティブウィジェットや何でも、これを絶対的に自由に定義できます。

グラフ構造による表現

最初に、インタラクティブフローの高レベル相互作用フローは、主要なインターフェース段階でのユーザー行動の象徴的抽象化を提供します。これは、ユーザータスクの進行を有向グラフ構造として表現します。再びグラフです。グラフとAI統合について全て知っているので、ノードがインターフェースビューやサブゴールを表すのがいかに簡単かがわかります。

金融の例に固執しましょう。CSVファイルをアップロードし、特定のチャートを選択し、会社の金融データをドリルダウンして取得します。グラフのエッジは、もちろんUIイベント自体によってトリガーされる可能な遷移です。分析のためのシンプルな人間の軌跡があります。

AIは最適な表現を決定し、個々のモジュールがユーザーアクションにどのように応答し、それに応じて状態を更新するかを記述するために有限状態機械を使用します。状態についてすべて知っているので、各UIコンポーネントを特定のタプルとしてモデル化します。トリガーされるイベントのセットがあり、デルタは状態遷移関数で、初期状態があり、すべては部分的に観測可能なマルコフ決定プロセスです。

コード生成パイプライン

2番目のフェーズは、生成パイプラインコードとすべてです。クエリが実行可能なユーザーインターフェース構造化表現生成グラフコード合成になる方法です。これに慣れ親しんでいると思います。

共通ウィジェットの最小セットとして、再利用可能なコードベースもあることに注意してください。チャートやファイルピッカー、シミュレーターなどの共通ウィジェットの最小セットがあるので、これらを組み合わせて変更などを加えることができますが、自分で設計することもできます。

時計マップ計算機、ビデオプレーヤー、コードビューアー、表現付きチャートなど、ウィジェット形式で既に準備できる共通UIインターフェースがあります。

適応学習システム

それから学習プロセスが来ます。システムは私が必要なものや、パイロットが必要なもの、美しい新車のドライバーが必要なものをどのように学習するのでしょうか。吹雪かもしれませんし、砂漠のどこかかもしれません。

すべての可能な条件に対してAIシステムを訓練する必要があります。これを適応型報酬関数で行います。反復改良手法を使用します。全体的なフローチャートでは、反復改良の段階にいることがわかります。特定の報酬関数最適化があります。

最適化ループと呼ぼう。タスクは何でしょうか。AIがユーザーインターフェースの複数の候補、10個、20個、50個を生成します。AIと人間がこれについて詳しく説明しますが、非常に特定の報酬関数でそれらを評価し、最良の候補と批評モデルでの条件を再生成します。

報酬関数の仕組み

これはすべて、収束するか反復制限に達するまで繰り返されます。5回の実行だけと言ったり、制限をハードコードしたりできます。慣れ親しんだ領域です。適応型報酬関数構築、これは良い、一種の新規性と言えるでしょう。

LLMが、好きなものを選んで、評価次元のセットを生成します。視覚的構造や、運転力学や飛行力学を扱っている場合の物理概念の説明などです。プレゼンテーションの明瞭性はどうでしょうか。インタラクティブガジェットと言うなら、相互作用性の品質は。

LLMには多くの評価次元があります。これに新しい評価次元を追加できます。重み検証チェック報酬タスク対応があり、単なる一般的なヒューリスティックではありません。評価者自体は、スクリーンショットとコードを読み取り、注目するLLMで、各メトリック指標について0から100の間隔でスコアを返します。

論文が示しているのは、この20または50のユーザーインターフェースについてLLMが推奨することと、人間も良いインターフェースだと思うこととの間に約70%の一致があることです。LLMをコードとする場合と人間との間に70%の一致があることは良好です。

反復改良プロセス

適応型報酬関数の反復改良について話しました。例があります。最初の反復の一つから始めます。基本的なダッシュボードがあります。要約があるかもしれません。何かを選択できるかもしれません。起こっている最も重要なイベントのインジケーターがあるかもしれません。

これを最適化します。何をしているかを説明するオンボーディングページがあります。そして、これはAI自体の学習によって行われます。特定のタスクのすべての重要な情報を既に提供している次の反復があります。

これが私たちが望むことです。AIが特定の仕事に最適なユーザーインターフェースを理解し、構築し、学習することを望みます。

評価と結果

それから評価する必要があります。ユーザーインターフェース体験プロンプトスイート多次元マトリックスとすべて、ウェブ開発データ可視化教育ビジネス高度なAI機械学習など、10の異なるドメインにまたがる100のクエリを持つことができます。機能次元インタラクティブ次元感情次元評価方法があり、これを人間のスコアリングで補完できます。

結果を見てみましょう。これは良く見えます。人間は言います「この生成UIの新しいアイデア、ピンクやバイオレットやリーラ色で見てください」。人間は言います「これは良い。75%、80%、93%。特定のタスクについて、人間はインタラクティブウィジェットがあるから古典的なテキストよりもずっと良いと言います」

システムで何が重要かすぐにわかります。重要な金融データは何か、学術研究で物理世界モデルの重要なパラメーターは何かなど、すぐにわかります。

モデル比較

Claude 3.5をベースモデルとして使用したことも言い忘れていました。それから、Claude 3.5だけでなく、GPT-4 omniを使用したらどうなるかと言いました。機能的、インタラクティブ、感情的パラメーターについて、皆が生成UIは素晴らしいと言う84%から70%に下がります。しかし、ご覧のように、ここでも70%、69%の人がAI自体によって設計された生成UIソリューションを好みます。

再び、量子物理学を理解したいとします。あなたと一緒に発展しない静的な報酬関数があれば、遊び回れるインタラクティブウィジェットを持つ動的報酬関数が欲しいでしょう。これを理解できます。テキストシステムや静的システムではなく、インタラクティブシステムを持てます。

実用的な応用例

報酬関数、記述、基準、重み構造について、すべてがあります。適応型報酬関数の例があります。例えば、UIが特定の仕事に必要な必須メトリックとフィルターを公開しているか。ユーザーが2、3クリック以内に新しいチャート、金融チャートを作成できるか。すべてのラベルと軸がありますか。

円グラフや他のテーブルや何でも、読み取れるかどうか、すべてが皆が読めるミニマムサイズを持っているかどうか。インタラクティブに活性化できるすべてのフィルターが美学から応答性があるかどうか、階層はあるか、アライメントはあるか、ビジネス戦略と運用はあるか。

古典的なユーザークエリがある場合「私はコンサルタントとして働いています」と言って、LLMから4、5、10ページのテキストを得ますが、AIが決定することを想像してください「この特定の質問とこの特定のデータ入力を考慮して、ここをクリック、ここをクリック、ここをクリックしたり、ここにドラッグしたり、ここで遊び回ったりできるこのインタラクティブウィジェットを作成します。AIがあなたの特定のニーズのためにこれをコーディングしたのです」

結論と展望

結論として、何を教えてくれているのでしょうか。「私たちは素晴らしい。言語モデルのために生成インターフェースをここに導入しました。これは、LMSが複雑なユーザー目標をより良くサポートするために適応的でインタラクティブなインターフェースを積極的に生成する新しいパラダイムです」

飛行中、医療中、金融タスク、新しいことを学びたい場合、マルチユーザー環境、そして将来的にはYouTube動画のビデオシーケンスのマルチモーダル入力の統合も行う予定です。天哪、これらのユーザーインターフェースは、AIの開発と人間が将来AIを使用する方法において、本当に大きな前進を意味するでしょう。

非常に短いビデオです。楽しんでいただけたでしょうか。少し異なるトピックですが、人間機械インターフェースはとても重要です。タスク固有の複雑さのためにこれを最適化すれば、ああ、チャンネル登録して、次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました