AIがどのように機能するかを一般の人々に伝えることができず、それは大きな問題だ

4,953 文字

We can't communicate how AI works to regular humans and it's a big problem

My site: links: substack: 1. The Enigma of Latent Sp...

私はあなたを昔に連れ戻したいと思います。もし私のように髭が白い方なら、Googleが存在する前のインターネットを覚えているでしょう。私たちはハイパーリンクに頼っていました。何かを見つけたときの喜びを覚えていますか？検索では見つけられなかったものを、小さなヒントから辿ってハイパーリンクをクリックし、ページを発見する。今のAIはまさにそのような状態です。AIを使うとはそういうことなのです。正直言って、私はAIの世界にもう一つのGoogleができることを望んでいませんが、OpenAIがそうなる可能性はあります。
しかし、私たちには人工知能が持つものをより効果的に理解できるようにする何かが必要です。理解の問題として見ると、この問題には多くの異なる側面があり、それらが一つの核心的な問題に結晶化します。それが私が話したいことです。
私は、実質的に私たちは潜在空間（latent space）をナビゲートする方法を知らないと主張します。大規模言語モデルの潜在空間がどのようなものか理解していません。それを適切に視覚化したり理解したりしていません。そしてすべてはそこから生じています。
例えば、これらの煩わしいプロンプトのヒント、「このようにプロンプトを書きなさい」「仕事で素晴らしいパフォーマンスを出したいと伝えなさい」「フランスでバカンス中だと伝えなさい」などのアドバイスは、冗談ではなく、私が振り返るたびに新しいものが出てきます。これらはすべて、LLMを潜在空間を通じて導こうとする試みですが、私たちはそれを本当に理解していません。
同じ核心的な問題を示す別の例として、「CursorやBol、LovableやWindsurf、あるいはあなたの選んだツールに何かを構築する方法」というビルディングのヒントがあります。これはこのように伝えなさい、完全な開発計画を与え、小さな塊に分割し、これをし、あれをしなさい、という類のものです。これはすべて基本的に、大規模言語モデルにコードのトークンを生成するために潜在空間をナビゲートする方法を伝えることに関するものです。
さらに広く見れば、マーケティング投稿の作り方、カスタマーサクセスメールのコンテンツ制作方法、営業メールや営業スクリプトの書き方などについても、同じ問題に直面します。実質的に企業は、潜在空間をナビゲートできない状況を収益化しているのです。
共有、構築、収益化されている、あるいはYCなどを通じて構築されている多くのソリューションは、基本的にこれらの大規模で扱いにくいモデルを取り、はるかに安定した一貫性のあるものに製品化する方法です。それは悪いことではありません。企業がそうすることに私は反対しません。知性を基本的に取り込んでパッケージ化する能力は、完全に正当なサービスです。
しかし、それは根本的な疑問を提起します。適切に見ていれば、それは根本的な疑問を強調します。なぜなら、誰も潜在空間についての良い把握を持っていないという事実を浮き彫りにするからです。そして、潜在空間について話す方法を私たちは確実に把握していません。
私はLLMを通る単一の思考の連鎖のデジタル表現を見たことがあります。それはネズミの巣のように見えました。可視化された潜在空間を通って走り回っているようでした。もちろん、それは潜在空間の実際の姿ではありません。色付きの糸が走り回っているようなものでした。私は「これは複雑に見える」と思い、それだけで終わりました。せいぜいそれが人々の到達点です。
潜在空間が何であるかさえ知らない人々は頭を掻きながら「LLMはどうやってこの文を思いついたのか」と考えます。私たちはこれがどのように機能するかを伝えることについて非常に混乱しており、その水準の人々に対する良い答えを持っていません。テクノロジーの使い方については、人々に対する良い答えを確実に持っていません。
私たちは人々にチャット画面を与え、「これがチャットです」と言いました。しかし人々は他の人間と話すことに慣れています。潜在空間を通ってナビゲートし質問に答える超次元の知性と話すことには慣れていません。多くの問題は、彼らがチャットボットをあたかも人間であるかのように扱うという事実から生じています。
ある場合には、コンピュータの期待を持って人間であるかのように扱います。私たちはそれについて話し合ってきました。コンピュータが完璧であることを期待し、AIが決して間違いを犯さないことを期待するのです。しかし、概して彼らはそれを人間のように扱います。「このように答えてください」や「このスタイルでボニーにこのメールを書いてください」、または「今日は気分が悪いんだ」などと。これらのコンパニオンアプリは確実に収益を上げています。
これらのものがいかに奇妙かについてもっと正直であれば、私たちはさらに前進できると思います。LLMは本当に奇妙です。それらが機能することは奇妙です。それは必ずしも直感的ではありません。私たちはインターネットがただ新しいものであることを認めることで、インターネットでさらに前進しました。「これがインターネットです。新聞のようなものではありません。リンクをクリックして新しい場所に行くことができます。検索エンジンがあるので何でも検索できます。新聞や本のようなものではありません。カードカタログを想像してください、しかし世界中を検索できます」というような話をしていました。
大規模言語モデルにはそのような言語が必要です。「今まで書かれたすべての本を読んだインターンがいる世界を想像してください、でもまだちょっとバカです」とか、「生化学についてのすべてを知っている非常に専門的な教授がいる世界を想像してください、でも彼はあまり多くのことを知らないので夕食に連れ出すことは決してないでしょう」とか、「何かの答えを得る必要があり、6つの答えを得るけれどもどれも正しくないが、すべて面白く、正しい答えにたどり着くのに役立つ世界を想像してください」というような表現が必要です。
私たちはそのようなコミュニケーションを十分に行っておらず、それを秘密として描写するときに神秘化を解いていません。「専門家からのヒント」として描写するとき、それは役に立っていません。人々にそれが難しいと思わせます。AIをよく知る私たち全員が、実践するのが難しいもの、試すのが難しいもの、高いレベルで実行するのが難しいものとして描写し続けるならば、それは私たちの誰にとっても役に立つとは思いません。なぜなら正直言って、そうではないからです。
具体的な例を挙げましょう。AIのためのビルディングについて話しましょう。これはエンジニアなら構築方法をある程度知っているが、AIで構築する方法を学ぶ必要があるようなものです。そして、もし構築したことがない、またはコーディングしたことがない場合は、頭を掻きながら壁を見つめるだけで何をすべきか分かりません。
何か試してみましょう。これを解決する方法の例として、アプリケーションを構築したことがない人でも誰でも歩むことができる8つのステップがあります。「これがAIとの協力方法です」と言えるでしょう。

作りたいものを考える。AIを使ってブレインストーミングできます。それが必要なだけです。ブレインストーミングして解決策を考え、機能のアイデアをブレインストーミングします。そして、何を含めたくないかを考えます。製品管理の意味では、それはスコーピングですが、スコーピングという言葉を使う必要はありません。含めたくないものは何かを言うだけでいいのです。

これら8つのステップを通して言いたいのは、これをうまく説明できたからといって、世界中の誰もがAIビルダーになるわけではないということです。料理を説明できても、誰もがシェフになるわけではないのと同じです。しかし、それでも明確にコミュニケーションすることはできます。

アーキテクチャ。AIがどのように機能するかの概要を描きます。想像できるように、AIは情報を使用する必要があります。その情報はどこにありますか？ウェブページにありますか？それを多く変更したいですか？ウェブページの背後にあるライブラリにありますか？支払いがありますか？これらの部分を理解し、AIと協力してこれらすべての部分を把握し、構築に必要なものをブレインストーミングし始めるとよいでしょう。APIのような派手な言葉や、データライブラリの派手な言葉であるデータベースのような言葉があるかもしれませんが、結局のところ、アーキテクチャとテクニカルプランニングの会話から出てきて、「データがどこに行くか理解した」と言うことになります。それが本当に全てであり、AIはそれを手助けできます。
データがどこに行くかを理解したら、データがどのように見えるかを理解する必要があります。私たちはそれをデータスキーマと呼びます。データを実際に構造化する方法です。AIはこれに大いに役立ちます。データが何であるかを知っていれば、AIはそれを配置するのがかなり上手です。
ビルディング環境のセットアップ。シンプルなものを構築している場合は、あらかじめセットアップされています。LovableやBolt、CursorやWindSurfに行って、いくつかの簡単なルールで自分でセットアップできます。いずれにせよ、テーブルをクリアにして模型を作るためのセットアップのようなものです。正しくセットアップされていることを確認したいでしょう。

私がこれらのアナログをずっと使っているのをお分かりでしょうか。あなたが構築方法を知らないと思うからではなく、うまくコミュニケーションする練習をし、いかにうまくコミュニケーションすることが重要かを示すためです。よく遭遇する実際の例を用いて。

バックエンドとデータベースの実装は、構築を始めることを決めた後に始めるものです。それを本当に簡単に言えば、「構築するなら基礎から始めたい。基礎は情報のライブラリであり、情報のライブラリが堅固であることを確認して、情報を出し入れできるようにしたい」ということです。ウェブサイトの前面を最初に構築し、ページだけを構築すると、背後に情報ライブラリがない見栄えの良いウェブサイトができますが、トラブルに陥るでしょう。
情報ライブラリを構築した後、ウェブページを構築したいでしょう。それはおそらくあなたが本当に興奮している部分です。しかし、それは6番目で、ここに到達するまで本当に忍耐強くなければなりませんでした。素晴らしい模型飛行機を作るのと同じで、最後に翼を付けて見栄えを良くしたいかもしれませんが、待たなければなりません。

ちなみに、これが子供レベルに感じるなら、私の頭の中には自分の子供がいて、彼女にこれらのことを説明しなければならないのです。彼女に説明できれば、誰にでも説明できます。

それが機能するかどうかテストする必要があります。構築するときはテストを含めるようにしてください。データが情報ライブラリに入るかテストし、それが戻ってくるかテストします。それは非常に重要です。
最後に、他の人々がアクセスできる場所に置きたいです。それを私たちはデプロイメントと呼びます。そのためのアプリがあります。

これが構築の8つのステップです。私は非常に速く説明しましたが、もっと良いコミュニケーション方法を見つけることができると確信しています。私が基本的に行ったような9歳のレベルである必要はありませんが、LLMがどのように機能し、それらが私たちに何をしてくれるかを説明するためのより簡単な方法を見つける必要があります。それが私がお伝えしたいポイントの核心です。
それを明確にすることは本当に重要です。あなたの最高の考えを教えてください。これらの奇妙な大規模言語モデルの知性を説明する方法をどのように向上させれば、理解しやすく、他の人々が私たちが話そうとしていることと共有しようとしていること、そしてなぜそれがとても素晴らしいのかを理解できるようになるでしょうか？