プラトンとAI: 洞窟の彼方へ 4/4 (5分1秒)

AIに仕事を奪われたい
この記事は約9分で読めます。

4,869 文字

https://www.youtube.com/watch?v=oWuzgL_DvpA

AIのモデルにおいて、規模がすべてやと言う人もおるけど、それは本当なんやろか。つまり、リソース、パラメータ、データ、計算能力が多いほど、モデリングの選択やデータの種類に関係なく表現が収束するいうことなんやけど。
実際のところ、規模だけが重要というわけやないんです。効果的な手法というのは、現実の共起統計を正しくモデル化するなどの制約を守る必要があるんです。
例えば、画像とテキストがあって、最良の表現を学習したいとします。もし表現がモダリティに関係なく本当に収束するんやったら、テキストと同様に画像も役立つはずです。つまり、最高の視覚モデルを作りたいなら、画像だけやなくテキストもデータセットに含めるべきということになります。
これは別に目新しいことやないんです。多くの視覚モデルはLLMからファインチューニングされてます。逆も然りで、最高のLLMを作るには画像でも学習させるべきなんです。経験的な研究でも、画像での学習がテキストのパフォーマンスを向上させることが示されてます。
ただ理論的には、すべてのモダリティが同じ価値を持つわけやないでしょう。おそらく変換率みたいなもんがあって、LLMにとって1ピクセルはn個の単語に相当し、視覚モデルにとって1単語はmピクセルに相当するんやと思います。各モダリティの情報量については、まだまだ研究の余地があります。
二つの表現が揃うとき、一方から他方への変換は簡単な操作のはずです。これが、テキストから画像を生成する条件付き生成が、無から画像を生成する無条件生成より簡単な理由かもしれません。これは、条件として使用されるデータと生成したいデータの間の整列によるものかもしれません。
表現の収束は、インターモーダルなデータを持たずとも、様々な領域間の対応を見つけるための橋渡しにもなり得ます。これは、視覚と言語における機械翻訳などの成功を説明するかもしれません。
ただし、言語のような単一のモダリティで学習したモデルが、すぐに視覚のような他のモダリティの生データを処理できるというわけではありません。新しいモダリティに適応できるのは、モダリティに依存しない共通の表現を共有しているからです。
これは、言語モデルがインターモーダルなデータがなくても、視覚領域をある程度理解できることを意味します。
1688年、アイルランドの学者で政治家のウィリアム・モリヌーは、ジョン・ロックの「人間知性論」の一節への返信として、興味深い質問を投げかけました。生まれつき目の見えない人が突然視力を取り戻した場合、形を区別できるかどうかという質問です。
モリヌーにとって、この問題は生まれつき目の見えない人が触覚で物体を識別した後、視力を取り戻したとき、視覚だけでそれらを認識できるかということでした。例えば、立方体と球体を見ただけで区別できるかということです。
ロックを始め、ジョージ・バークリーやドニ・ディドロといった当時の思想家たちは、できないと考えました。しかし、最近の研究では、この認識は即座にはできないものの、生まれつき目の見えない子供が視力を取り戻した場合、新しい視覚体験と以前の触覚表現を結びつけることで、すぐにこれらの区別を学習できることが示されています。
現在のLLMの主な問題は、誤った発言をする傾向、つまり作り話をすることです。モデルがより正確な現実の表現に収束し、モデルの規模がこの収束を促進するのであれば、モデルの規模が大きくなるにつれてこれらの作り話は減少するはずです。
もちろん、これは訓練データの質と多様性に左右されます。同様に、大規模モデルは訓練データに存在するバイアスを増幅する可能性がありますが、この仮説は、さらに大きなモデルではバイアスの増幅は続くものの、その程度は小さくなることを示唆しています。
これは、バイアスが消滅するという意味ではありません。それはおそらく不可能です。むしろ、モデルのバイアスがデータに含まれる内容をより正確に反映するということです。
要するに、この表現の収束は、特に効率性、適応性、精度に関して、人工知能の未来に魅力的な意味を持っています。
この仮説に対する最初の反論として、各モダリティには固有の情報があるのではないかということが挙げられます。例えば、皆既日食を見たときの感情を言語で本当に表現できるのでしょうか?「私は表現の自由を信じています」というような単純でも抽象的な概念を画像で伝えることができるでしょうか?
モデルが根本的に異なる情報にアクセスするなら、同じ表現に収束することはできません。著者らの主張は、Zの全単射写像、つまりすべての観測に含まれる情報が基礎となる現実世界の事象の情報と等価である場合にのみ成り立ちます。
これは、情報を失う観測関数や確率的な要素を持つ関数には当てはまりません。この仮説が全単射写像にのみ当てはまるということは、その意味と信頼性を大きく制限します。実際、私たちが行う現実世界のすべての観測や測定はノイズを含み、不完全である可能性が非常に高いです。
おそらく、一部の観測モダリティは他のものよりも情報量が少ないでしょう。「AIと言語の限界」という興味深い論文で、ヤン・レインとジェイコブ・ブラウニングは、LLMが人間レベルの知識と知能に到達できない理由は、モデルが十分に強力ではないからではなく、単にLLMが知識を獲得するために言語に頼っているからだと主張しています。
言語は情報を伝達する非常に不完全な手段です。それは離散的な記号で構成され、非常に少ない情報しか伝えません。孤立した単語や文は、文脈の外ではほとんど情報を伝えません。さらに、その性質上、言語は非常に曖昧です。
したがって、現実世界と言語の間の写像は全単射からはほど遠く、言語は膨大な情報を失う観測関数である可能性が非常に高いです。一方、視覚は言語よりも多くの情報を持っているはずで、言語と視覚の間の収束は可能かもしれませんが、限定的なものになるでしょう。
したがって、非全単射的で確率的な観測関数を考慮に入れたより微妙なバージョンを開発するために、さらなる研究が必要です。一つの考え方として、入力信号に十分な情報が含まれ、モデルが十分な容量を持つ場合、異なるモデルは同じ表現に収束するというものがあります。
著者らは、この仮説を検証するための最後の実験を提案しています。この実験では、Llama 38b instructを使用して、密にキャプション付けされた画像データセットから長さの異なる説明を生成しました。その後、説明のテキストの長さに応じて、異なる視覚モデルとの整列度を測定しました。
これにより、テキストに含まれる情報量に応じた整列度をテストすることができます。この実験の結果は図9に示されています。X軸は説明の長さ(5〜30語)を、Y軸は異なる視覚モデルとの平均整列スコアを表しています。
説明が長く、より多くの情報を含むほど、その表現が視覚モデルの表現とより整列することが観察されます。
著者らの議論は主に視覚と言語という二つのモダリティに焦点を当てています。他のモダリティも同様の整列傾向を示すことが期待されますが、著者らは現時点ではすべての領域で同じレベルの収束を観察していないと指摘しています。
例えば、ロボティクスでは、画像やテキストの表現と同じような方法で観測を表現するための標準的なアプローチがまだ存在しません。もう一つの制限は、ロボティクスで使用されるハードウェアが高価で遅いことで、これが訓練データの量と多様性にボトルネックを生み出しています。
人工知能研究は人間による事業であり、研究者やAIコミュニティのバイアスがモデルの開発に大きな影響を与えてきました。人間の推論と性能を模倣するAIシステムを設計する際には、常に明示的または暗示的な目的があります。
このバイアスは、他の形態の知能や表現が可能であったとしても、人間のものに似た表現への収束をもたらす可能性があります。ハードウェアの宝くじの原理についても言及できます。
この原理は、コンピュータサイエンスにおけるアイデアの成功は、利用可能な計算アーキテクチャとの互換性に依存することを示唆しています。アイデアがアーキテクチャと互換性が高いほど、成功する可能性が高く、これが表現の収束に影響を与えることになります。
知的システムは非常に異なる課題を達成するように設計することができます。例えば、バイオインフォマティクスシステムはタンパク質構造を予測し、自動運転車は高速道路を自律的に運転することができます。これら二つの特定のタスクには、共通点がほとんどない可能性があります。
この論文で展開された議論は、多くのタスクで訓練されたモデルにのみ当てはまります。特定のタスクには、そのタスクに効果的でありながら、現実からは完全に切り離された表現やショートカットが存在する可能性があります。
特に、モデルの規模の拡大がエネルギーや計算能力の不足などのリソース制限に直面する場合、これらのショートカットはより効果的で、特定の領域では必要不可欠かもしれません。
著者らは整列の特定の尺度、相互最近傍に焦点を当てていますが、この整列尺度の利点と欠点についてはさらなる検討が必要です。この点に興味がある場合は、付録Aで他の尺度を用いた追加の情報と実験を参照できます。
この論文の技術的な側面を超えて、この表現学習の背後には深い哲学的な側面があります。サイバネティクスは、生物であれ人工物であれ、システムが環境と相互作用し、フィードバックループを通じて行動を適応させることを教えています。
サイバネティクスの子供である急進的構成主義は、私たちが環境との経験と相互作用から能動的に現実を構築することを提案します。人工知能モデルは、類似の表現に収束することで、既存の客観的な現実を発見するだけでなく、受け取るデータから首尾一貫して機能的な世界の表現を構築しています。
例えば、表現は複数のタスクでの訓練から生まれる場合により収束します。なぜなら、幅広い文脈で機能的である必要があるからです。一方、制限されたタスクには多くの可能な解決策が存在し、これが収束を妨げます。
これは、これらのモデルが構築する現実の表現が、単に客観的なものではなく、特定のタスク集合を達成するために適応されたものでもあることを示しています。世界を理解しようとするこれらのモデルは、私たちの知覚もまた、複雑な環境で機能的で首尾一貫するように最適化された現実の能動的な構築の一形態であることを思い出させてくれるようです。
要するに、すべての表現がまだ収束しているわけではなく、説明し発見すべきことがたくさん残っています。大規模AIモデルで学習された表現間の整列は確かに観察されますが、得られたスコアはどれほどの価値があるのでしょうか。
図3で見たように、達成された最大整列スコアは0.16ですが、この指標の理論的な最大値が1である中で、この値は何を意味するのでしょうか。0.16というスコアは、残りがノイズである可能性のある高度な整列を示しているのでしょうか、それとも、まだ説明が必要な根本的な違いが存在する低レベルの整列をを示しているのでしょうか。これらの疑問は未解決のままで、それこそが人工知能研究をこんなに魅力的なものにしているのです。
皆さんはどう思われるでしょうか。ぜひコメント欄に意見を投稿してください。視聴してくださってありがとうございます。楽しんでいただけたなら幸いです。
まだご覧になっているなら、ちょっとした遊び心でコメント欄に「収束」と書いてみてください。初めての方はぜひチャンネル登録をお願いします。ボタンはすぐ下にあります。SNSでもフォローしていただけます。
次の動画までの間、お元気で、モチベーション高く、そして何より笑顔を忘れずに。では、またお会いしましょう。

コメント

タイトルとURLをコピーしました