拡張現実はあなたの心を混乱させている – ビラワル・シドゥポッドキャスト

19,361 文字

Augmented Reality Is Messing with Your Mind - Bilawal Sidhu

やあ、みなさん。ビラワル・サドゥです。AIと3Dクリエイターやってます。それにエンジェル投資家でもあり、アンドレ・ホロウィッツのベンチャー・スカウトもしてます。テディ・ショーのホストもやってます。
ほな、XR、VR、AR、フルダイブVRとか、ほかにも知っとかなあかん用語があったら説明してもらえへん？適切な用語使いたいんやけど。
ほんまに素晴らしいな。今や、これら全部をまとめて「空間コンピューティング」って呼んでるんやけどな。
せやな。アップルのマーケティング部門のおかげやね。
もちろん、それまではXRが包括的な用語として提唱されとったんや。拡張現実から仮想現実までのスペクトルを表す言葉としてな。
それについて説明するわ。それからフルダイブVRについても触れるで。
基本的にこう考えてな。拡張現実は、空間コンピューティングのスペクトルの中で、拡張現実から仮想現実までの範囲を指すんや。ARは、既に知覚してる現実を拡張することやな。メガネやスマホのカメラを使って拡張するんや。
要するに、環境を知覚して、コンテンツを重ねるシステムや。画面上に固定されたコンテンツか、現実世界の3Dコンテンツに固定されたものかのどっちかやな。
拡張現実の良い例は、スナップチャットのフィルターやな。フィルターを開いて顔に向けると、顔のランドマークを認識して、いろんなフィルターで顔を変えられるんや。
そこから、拡張現実を完全な没入型にしたのが仮想現実や。動きや空間とのやり取りを見るけど、完全に仮想の環境と相互作用するんや。もはや現実を拡張するんやなくて、完全に置き換えて、その中に入り込むんや。
VRはARに必要なものすべてと、それ以上のものが必要やと考えてるんや。
環境を追跡して、ユーザーが環境に対して何をしとるかを把握するだけやなくて、理想的には60、80、90ヘルツでフォトリアルな映像をレンダリングせなあかんのや。これはかなりハードルが高いんやで。
フルダイブVRは、基本的に「レディ・プレイヤー・ワン」の世界やな。最高の実現形態や。超フォトリアルで没入感のあるヘッドセットがあって、アイトラッキングもあるし、ハプティックスーツも着てるから、あらゆる感覚的な触れ合いや入力を感じられるんや。
もちろん、全身の動きを完璧に追跡できるし、素晴らしいヘッドセットをつけてる。そして一番重要なのは、全方向トレッドミルの上にいることやな。映画「レディ・プレイヤー・ワン」みたいに、基本的にどこでも歩き回れて、あらゆるものを体験できるんや。
これは今のルームスケールVRとは対照的やな。Quest 3ヘッドセットとか、古い世代のViveを使う場合、現実世界で動ける空間を定義して、その中で動き回るんやけど、完全にフリーロームってわけにはいかへんのや。
基本的に視覚的な入力しかなくて、あとは制限されとる。手にはコントローラーがあって、基本的な追跡はできるけど、体験から感覚的なフィードバックは得られへんのや。
つまり、ARは目に見える現実を拡張するもので、VRは現実を完全に置き換えて、別の場所にテレポートするようなもんやな。そしてこのフルダイブってのは、最も没入感があって、最高の実現形態やと。
指数関数的に考えると、いつごろ超金持ちがフルダイブVRを手に入れられると思う？
俺が思うに、もうかなり近づいてるんちゃうか。全方向トレッドミルはまだそこまで没入感ないけど、ハプティックスーツは買えるし、指や手の追跡精度もめっちゃ上がってきてる。軍事グレードのIMUを使ってるからな。磁力計や加速度計とか、そういうセンサーやな。
ビジョンだけのアプローチでも、Vision Proはかなりええ感じやで。ビジョンと少しのLiDARとアクティブセンシングを組み合わせてできることがすごいんや。
そのフルイマーシブな体験は、今日の研究室では可能やと思う。めっちゃクレイジーな趣味人なら、同等のセットアップを手に入れられるかもしれんな。
でも、本当に足りてないのは超高精度のハプティクスやと思うわ。
ソフトウェアの問題？それともハードウェアがスムーズにできひんの？
間違いなくハードウェアの問題やな。
全方向トレッドミルは、滑りやすい靴下や靴を履いて、その場でフワフワしてるような感じやねん。本当に歩き回ってる感じはせえへんのや。
ディズニーのイマジネーション・グループが、その点でめっちゃクールなもん見せてくれたで。見たことあるかもしれんけど。
かなりハードウェアの問題やな。それに、感覚のモダリティの重要性についても考えなあかんのや。
視覚に焦点が当たりがちやけど、手の動きを追跡してそれを取り込むのも視覚の拡張やと言えるかもしれん。
今、触覚の話をしてるけど、匂いについても言及する人もおるな。触覚に加えて、匂いもどう組み合わせるかってのも大事やねん。
これもかなりハードウェアの問題や。
でも、サイバーパンク2077やGTAの古いバージョンのモッドをプレイしたり、没入型VRヘッドセットでスター・ウォーズゲームをプレイしたりすると、かなり説得力のある体験になるで。
VRに入って、「これが現実やな」って完全に迷子になったことある？
Vision Proを最初に手に入れたときだけやな。パススルーに慣れすぎて、タッチジェスチャーがめっちゃ流暢やから、ヘッドセットを外してスタジオから下に歩いてるときに、「今この偽の世界におるんか」って感じになったわ。
一番変なのは、階段を降りるときに、スマホをつまんでスクロールしようとしてしまうことやな。「あかん、ヘッドセットつけてへんやん」って。
他にも、目覚めたときに壁のテレビをつまもうとしてしまうこともあるんや。
そういう未来からそんなに遠くないかもしれんな。ZuckとMetaがControl Labsでやってる受動的な神経センシングバンドみたいなのも、めっちゃクールになる可能性があるで。
現実世界にARをもたらすんや。メガネは要らんし、ディスプレイは周りのあらゆるところにあるんや。
おもろいことに、今の小さい子供らが雑誌をスワイプしようとするの見るやろ。iPadやと思ってんねん。次の世代は、つまもうとするんやろな。「あれ、こっちじゃ動かへんのか」みたいな。
子供らは、触れたり相互作用したりできると期待してるんやな。
ほな、匂いの世界について触れんとアカンな。全部ジョークなん？それともMetaとかマジで解決すべきモダリティとして考えてんの？
犬は喜ぶやろな。匂いのついた小さなVRヘッドセットがあれば、子犬は超楽しめそうや。
だから車の窓から顔を出すんやな。あの匂いのためや。
自作版はあるで。瞑想VR体験をするときに、エッセンシャルオイルの気化器みたいなんでラベンダーの香りを出すとか。体験に大きな影響を与えるんやけどな。
これは活発な研究分野やけど、視覚が最初に解決すべき問題やな。体験の大部分が視覚で知覚できるからや。
もう一つの難しいところは、目に入ってくる感覚情報が光やってことや。音声は空気の波を圧縮してるけど、匂いは実際の分子が鼻に漂わんとアカンのや。
AIがAlphaFoldみたいなんで、正確な匂いのタンパク質を作って、それを製造せなアカンみたいやな。分子を空気中に押し出す3Dプリンターみたいなもんが必要みたいやな。そう考えると、これは解決が難しそうやな。
それは面白い考え方やな。プリンターのインクカートリッジみたいに、CMYKカラーの組み合わせで最も広範囲の匂いを作り出せるようにするってことやな。
基本的な匂いをいくつか組み合わせて、面白い匂いを作り出すみたいな。
5年か10年後の未来を想像してみよう。XRメガネを快適に着用して、物事を拡張してる。ChatGPTよりも進化したAIがあって、視覚にも接続されてる。そのAIに人生の送り方を何度も尋ねられるとしたら、そういうガイダンスをよく求めると思う？それとも、自分の主権や自己感覚を奪われる気がする？
かなり使うと思うけど、ある程度の境界線は引くと思うな。
今、多くの人がテクノロジーを杖みたいに使ってて、それがないと機能できひんようになってるんや。
友達と話してて、ChatGPTやClaudeとか、Gemini 1.5 Proとか、どの言語モデルでもいいけど、それを使って文章を書くのに慣れすぎて、自分で考えて書く能力を失いかけてる人がおるんや。
俺がしようとしてるのは、アドバイスを求めるのはええけど、特に熱くなったときに一歩引いて、いろんな意見を聞くのはすごく役立つと思う。でも、最初の下書きには使わんようにしてる。まず自分でダメな第一稿を書こうとして、それからこういうのを使うようにしてるんや。
現実世界の他のことについても、例えば食事する場所とか、友達とどこで飲むかとか、Amazonで何を注文すべきかとか、ちょっと時間があるときに何をすべきかとか、会議の直前にストレスを感じたときにどう落ち着くかとか、そういうのは全然使うと思うわ。
なんでそういうのを使わんのかって思うわ。文脈を理解して、シームレスにサポートしてくれるんやから。特に、この仮説的な未来では、顔にジャービスがついてて、他のすべてのものにも組み込まれてるみたいな感じやしな。
そのASIの未来では、食べ物をフォークで持ち上げるたびに「うわ、長期的な長寿のためにはこれ炭水化物多すぎやで」とか、「この角に座るのはあかんで」とか言ってくれるかもしれん。
俺らには理解できへんような魔法みたいなもんやけど、データソースから他の人や他のことについて知ってるんやろうな。
それを聞いて信頼し始めるんかなって気になるわ。
ある程度はそうなると思うわ。特に物理的な会議やイベントでそういうのがほしいと思ってた。
人がいっぱいおって、普通そういう会議には独自のアプリがあるやん。HovaアプリとかTEDアプリとか。人々のプロフィールが見れて、「今この部屋で誰と話すべきか」みたいなんを聞けたらなって思ってた。その人をハイライトして「あの人と話せ」って教えてくれたらええのに。
そういう状況で、より広範な知識にアクセスできるのは面白いと思うわ。
でも、あんまりリベラルな答えにならんようにせなアカンな。こういうことについては行ったり来たりするからな。
人生にはセレンディピティーを委ねるっていう面白さもあるんや。完璧に練られた計画やグラフを持って状況を探索するんやなくて、流れに身を任せるみたいな。
科学系の人と話すと、「まあ、潜在意識がその計算を全部やってるんやけど、意識してへんだけやで。意識的には気づいてへんけど、頭と体のスーパーコンピューターがやってるんや」みたいなこと言うかもしれんな。
だから、セレンディピティーに身を委ねるべき瞬間があるように、予測可能なものが欲しくて、その状況に行って何かをしたいってときもあるんやと思うんや。
仕事と遊びみたいな感じで、90%の時間はそれに没頭して、たまにメガネを外して「砂漠にキャンプに行くわ」みたいに、ヘッドセットを忘れて出かけるみたいなんで正気を保つんかもしれんな。
あるいは、メガネをつけたままで、拡張を最小限に抑えて、緊急通知だけにするとかな。
一般的に言うと、テクノロジーにどれだけ自立性と依存性を持たせるかってことと向き合わなあかんのやと思う。特に、集合知の洞察を掘り起こすような集合的な存在になってくると。
自分の主体性を発揮すべき状況もあれば、別の計画に身を委ねたほうがええ時もあるんやと思う。
仕事、教育、社会的交流にどんな影響を与えると思う？多くの人がこういうデバイスを持って使う社会に、今の社会からどう変わっていくか考えたことある？その過程についてどう思う？
もちろんや。拡張現実と仮想現実に分けて説明するわ。スペクトルの中間にある体験もあるけどな。
拡張現実が一番ワクワクするわ。スマホを置き換えることになると思うんや。
軽量で、常にオンで、どこに行っても一緒にある携帯用コンピューティングデバイスになるんやと思う。
文脈を理解したAIアシスタントの話とうまく融合すると思うんや。みんなAIのジャービスが欲しがってるやろ。でも、AIジャービスはどうやって何を見てるか、何をしてるかの文脈を、一人称視点から理解するんやろか。
メガネは素晴らしい形態になると思う。メガネだけか、メガネとイヤホンの組み合わせで、イヤホンが神経センシングをするかもしれへん。アップルがイヤホンにカメラをつけるって特許も取ってるしな。
いろんなハードウェアの形態があると思うけど、要は現実を拡張することや。
スマホの進化版になると思うし、今のスマホよりも実際にその場にいる感覚を強められたらええなと思ってる。
これらのデバイスは、すでに現実世界とデジタル世界とのやりとりを仲介してるけど、今はポケットの中のガラス板を通してやってるんや。
外食に行ったときに、みんながスマホを見てる光景をよく目にするやろ。そのデバイスに吸い込まれてしまうんや。
拡張現実が、コンピューティングをもっと適応的で文脈に応じたものにして、常に注意を引こうとするんやなくて、必要なときにそこにあるってなったらええなと思ってる。
スマホを取り出して5、6回タップして目的のタスクを始めるんやなくてな。
だから、モバイルコンピューティングデバイスの進化形として拡張現実にめっちゃワクワクしてる。そうすれば、邪魔になることも少なくなるし、もっと便利になると思うんや。
例えば、レストランに行くときとかな。文脈に応じて「ここに駐車できますよ」とか「これがレストランです」とか「メニューを表示しますね」とか「到着したことを伝えておきました」とか、そういうのが全部受動的に起こるんや。わざわざ能動的にする必要はないんや。
そういうのにめっちゃワクワクしてるわ。それから仮想現実の話もできるけど、それは反対のことになるかもな。
この現実を拡張するだけでも、使い道はいっぱいあるんや。今言ったのは個人的な日常生活での使い方やけど、企業でも同じようなことができるんや。
例えば、油田のフィールドサービスの専門家が、機器を修理するためのチェックリストをこなすとか、データセンターでサイト信頼性エンジニアとして何が故障したかを特定しようとするとかな。
メガネが文脈を理解して、ドイツやマウンテンビューにいる遠隔の専門家と話ができて、その専門家が視界に注釈を付けてくれて、何をすべきか正確に教えてくれるんや。
使い道は本当に無限にあるわ。文脈を理解して視界を拡張し、自分の文脳を共有して物事を捉える能力は、実用性と喜びの両方で強力になると思うわ。
話題を変えてもええかな。現実世界では、親が誰で、どの学校で育って、どの国籍で、世界とどんなやりとりをしてきたかによって、ある程度制限されたアイデンティティーがあるやん。
現実世界には仮想世界ほど多くの選択肢がないからな。
もっとフルダイブに近い世界で育つ若い世代にとって、人種差別の問題とか、ジェンダーを選択するとかいう問題は消えていくと思う？それって物理的な環境の産物やったんかな？
ええ質問やな。問題は少なくなって、出生時の法的アイデンティティーと一致しない代替アイデンティティーに対処することにもっと慣れていくと思うわ。
完全に没入型の「メタバース」でなくても、既にそういう傾向は見られるんや。Twitterみたいなプラットフォームでの疑似匿名性も一例やな。
俺らが両方フォローしてるAIクリエイターの中にも、実在しないプロフィール画像を使ってる人がいっぱいおるやろ。本当の姿を知らへんのや。
俺らが入ってるグループチャットで活発に活動してる人もおれば、そうでない人もおる。最終的に正体がバレて、めっちゃ驚くこともあるんや。
最近、Adieって人と話す機会があってな。adieのコンテンツフォローしてる？@a_dieってアカウントや。去年末のOpenAIの騒動のときに、めっちゃ興味深い推測をしてた人や。
アジア人の女の子のアバターを使ってて、みんなシンガポールのアジア人の女の子やと思ってたんや。でも実際は40代のインド人の男で、スタンフォード卒でシンガポールに移住した人やったんや。
「まあ、アジア人のプロフィール画像は全部40代のインド人のおっさんが使ってるんやな」みたいな感じやな。
人々は、Twitterで本物のアイデンティティーと疑似匿名のアイデンティティーが混在してることに慣れてきてると思う。VRでそれがさらに普通になっていくと思うわ。
これが心理的に良い影響だけをもたらすとは言えへんけどな。めっちゃ興味深い問題やと思う。
AR/VRにどっぷりハマってて、プロダクトビジョンのデッキを書いたりしてた頃、ARをやってVRをやらへん理由を説明するのに、こんなこと言ってたな。
「テクノロジーは私たちの邪魔をして気を散らすのが下手くそや。どうすれば現実世界や、現実世界で大切な人々、場所、体験とより深くつながれるようになるんやろか」って。
ジェンZ、特にジェンアルファを見てると、俺が経験した「サードスペース」みたいなものが変わってきてるんや。
友達の家に行ってXboxをプレイしたり、LANケーブルでつないでHaloの4対4をやったり、ノートパソコンやPCを持ち寄ってカウンターストライクをやったりしてたんやけど、
それが、非同期のTwitchに置き換わってるんや。みんな好きなときにストリーマーを視聴して、オンデマンドで親友みたいに接することができる。コミュニティーの人たちと一緒にリアルタイムで見たり、好きなときにPewDiePieや新しいストリーマーを見たりできるんや。
ジェンZの従弟を見てると、もっとそういう行動が進んでるんや。仕事が終わった後にDiscordのボイスチャットに入って、スマホを適当に地面に置いて、誰かが自分のあごだけ映してて、他の人はカメラすら映してへん。
Discordをサードスペースとして使って集まって、デジタル世界で何をするか決めてるんや。今は2Dのインターネットやけど、すぐに空間的な3Dメタバースになるやろうな。
既に、多くの「活動」をデジタルの領域で行い、そこで多くの時間を過ごすような行動が見られるんや。
これをもっと現実世界に近づけることには良い面も悪い面もあると思う。
良い面は、おそらく本能的なレベルでもっと満足感が得られることやな。たくさんの学術研究が示してるけど、VRチャットや3D空間の体験に入ると、その経験をより良く記憶できるんや。
一日中2Dのビデオフィードのタイルを見つめて、表情を細かく観察するようには設計されてへんからな。だからZoom疲れとかが起こるんや。
ある意味、今やってるような粗い形のテクノロジー、この2.5Dみたいな2Dビデオチャットのデメリットの多くを軽減できると思う。
でも同時に、現実世界のアイデンティティーとデジタル世界のアイデンティティーがどれだけ重なるかとか、どれだけ分岐するかとか、そういう問題も出てくるんや。
中には、そういうのが好きな人もおるんやろうな。「これは仕事用のLinkedInペルソナで、週末に飲みに行くときはInstagramのフレンドペルソナや」みたいな感じでな。
友達にしか見せへん、酔っ払ったときのペルソナとかもあるかもしれんし。
この問題については行ったり来たりしてるんや。一方では、はるかに直感的になる。でも他方では、現実世界のつながりを作るモチベーションが下がるんちゃうかって心配もあるんや。
ここで生成AIのことで本当に心配になるんや。VRチャットで誰かと話してるとき、相手が何者で何が好きかは気にせえへんし、何でも受け入れるつもりや。少なくとも向こう側にいるのは本物の人間やってことは分かってるからな。
でも、これらのAIエージェントが仮想世界で具現化されて、チューリングテストに合格して、向こう側にいるのが本物の人間かどうか分からんようになったら、そこが本当に怖いんや。
少なくともインターネットは、地理的に離れていても似たような興味を持つ人々をつないでくれたやん。それってめっちゃすごいことやと思うんや。
子供の頃、HitfilmやTheForce.netみたいなフォーラムで、Corridor Digitalみたいな面白い人たちに会えたしな。
でも今は、合成AIとだけ話してるみたいな感じになるんやろか。それってなんかもっと悪い気がするわ。少なくとも仮想的には実在の人と会えてたのにな。
うん、その場合は人間の脳が実際には存在せえへんからな。何か違うものになってまうんや。
何百万もの人間の脳が生み出したコンテンツを蒸留して混ぜ合わせたようなものと話してるみたいな感じやな。
「ビラワル、おっさんみたいなこと言うなよ。アラン・ワッツと話したいに決まってるやん」って人もおるかもしれんな。それはクールやけど、もしそれだけをやっとったら…
「デッド・インターネット理論」みたいな感じで、自分の小さなバブルの中で偽のキャラクターとだけ話してるみたいになってまうんや。少なくとも、似たように考える本物の人がいるバブルのほうがましやと思うわ。
ほんまそうやな。もし俺の親友がAIエージェントで、その目的関数が俺をより賢くしたり、もっと知的にすることやったら、たぶんそっちのほうがええかもしれんな。現実の友達は、俺が何か新しいことを学んだかなんてあんまり気にせえへんからな。
でも一方で、友達は本物の人間やし、何百万年もそうやってきたわけや。それが俺らにとって一番ええんやろうな。
そういうのを手放したら、あかんことになるんちゃうかな。本物やない食べ物ばっかり食べるようになったら、体に悪影響があるみたいな感じやな。
他の選択肢を探ることについても、めっちゃ面白いと思うわ。最近のインタビューでマーク・ザッカーバーグが言うてたけど、彼らのLLMの意外な使われ方の一つが、「あなたは上司で、私は昇給を求めます」とか「あなたは女の子で、私はデートに誘います」みたいなロールプレイやったらしいな。
安全に間違いを犯せる空間があるってことやな。それはめっちゃ魅力的に思えるけど、ビデオゲームみたいに現実世界のリスクを取り除いてまうんちゃうかな。
デートアプリでスワイプするのが、実際に人に話しかけるのとは違うみたいな感じで、現実から離れすぎてまうんちゃうかな。簡単に手に入りすぎるから、逆効果になるかもしれへんな。
ロールプレイの使い方はめっちゃ面白いと思うわ。俺もCharacter AIで似たようなことをしてみたんや。
全く架空のシナリオを設定して、SG1（スターゲイト SG-1）に出てくるハモンド将軍とか、主任科学官を登場させて、解決せなアカン特殊な問題を提示してみたんや。
Character AIでは、自分で作ったキャラクターをグループチャットに追加できるんや。自分がそのキャラクターたちと会話するだけやなく、キャラクター同士で会話させることもできるんや。
めっちゃ面白かったわ。大手テック企業のVPレビューに参加してるみたいな感じやったけど、スターゲイト・コマンドの完全なSFの世界やったんや。でも現実世界との重なる部分もあってな。
これはかなりええ代用になると思うわ。例えば、就職の面接とかな。特に大手テック企業では模擬面接がめっちゃ人気やねん。そういう候補者を評価するのに慣れた人に面接してもらうために、お金を払う人も多いんや。
AIシステムがそれを代わりにやってくれて、好きなときにガイドしてくれるなら、それはめっちゃええことやと思う。特に自分が望む内容にカスタマイズできるしな。
初期のVR時代でも、軍事研究がUSC ICTラボにつながって、パーマー・ラッキーがそこで高価なヘッドセットを使えるようになって、あの革新的なアイデアを思いついたんや。それはPTSDのためのもので、一種の段階的曝露療法みたいなもんやった。
例えば、イラクでIED（即席爆発装置）に遭遇したような不快なシナリオを再現して、その環境に戻らせて、徐々にその状況に対処できるようにしていくんや。身体的な反応や心理的な反応を、安全で管理された環境で扱えるようにしていくんやな。
同じことが、パートナーにアプローチするとか、大事な就職面接の準備をするとかにも当てはまると思うわ。めっちゃワクワクするし、視覚的な部分も入ってくるのが楽しみやな。
多くの人は、1対1のコーヒートークや少人数でのグループトークには慣れてるけど、舞台に立たされるとパニックになってしまうやろ。その視覚的な刺激もシミュレーションできるんや。
Character AIを仮想世界で使うとか、ザッカーバーグのメタバースの将来版みたいなもので、これらのキャラクターを具現化して、ロールプレイして、実際の状況がどんな感じになるかを体験できるようになると思うわ。
一般的に、めっちゃ大きな可能性があると思う。でも、それが滑りやすい坂道になって、「完全に偽の仕事と偽の恋人と偽の人生を演じて、毎日そこで生きてる」みたいになったらアカンな。
それってもう、マトリックスを作ってるようなもんやん。みんなを最も気を散らす
シミュレーションに没頭させて、忙しくさせるみたいな。それは心配やな。
ほんまやな。動物園の動物を最高に幸せにする方法は、自分が動物園にいることに気づかせへんことやって言うやろ。
全てが「ただ実験してるだけ」とか「これを試してるだけ」みたいに感じられて、実は全部が開かれた監獄みたいになってるんやな。
そうや、パノプティコンって刑務所のコンセプトやな。囚人が看守を見れへんけど、看守はいつでも囚人を見れる仕組みや。
基本的には、ハブアンドスポークモデルで、いつ見られてるか分からへんようになってるんや。
多くの監視システムの考え方は、見られてると思わせることで、見られてるかのように自分の行動を修正させることやな。
実際にどれだけそれが起こってるかは分からへんけどな。中国が走らせてる検出器の精度がどれくらいかとか。でも、中国に行った人は「ここじゃ信号無視できへんな」って思うんや。
中国では、少なくとも俺が読んだ限りやけど、信号無視したら即座に罰金が口座から引き落とされるらしいで。
テクノロジーがそこまで進んでへんかもしれへんけど、政府にとっては「ちゃんと動いてるで」って言うだけでも価値があるんやろうな。「請求書が届くから、信号無視すんなよ」って。そしたら「ほんまかもしれへんな」って思うやろ。
さっき言うてた、スノーデンの暴露の話やけど、インテリジェンス・コミュニティーの野心がめっちゃ面白いと思うわ。
Five Eyesの話とか、文字通りアメリカとEMEA（ヨーロッパ、中東、アフリカ）の間の海底ケーブルのインターネットトラフィックを全部記録しようとしてたんやで。それってめっちゃヤバない？
そのデータが全部保存されてて、今はAIがそのデータを全部クエリできるんや。良くも悪くも、今まで眠ってた洞察が掘り起こされるんやな。
ほんまやな。ヘッドラインだけ読んだから完全には確認できへんけど、最近ハッキングがあって、Call of Dutyのロビーでの会話が全部リークされたらしいわ。
ゲーマータグで人を検索して、その人が言ったことを全部聞けるらしいんや。誰も録音されてるって知らんかったんやろうな。それが最終的にリークされてもうた。
それこそ、公開されるつもりで言ってへんことが記録されてて、今になって公開されてもうたデータソースの一つやな。
生成AIの最大のリスクは、エッジでのコンピューティングがめっちゃ優秀になってることやと思うわ。
例えば、マイクロソフトのAI Recallってのがあるやろ。あれについてのニュース追っとった？
基本的に、マイクロソフトが5秒ごとに断続的にスクリーンショットを撮って、ローカルデータベースに保存するんや。
それで、たくさんのブラウザタブで見たものすべてを意味的に検索できるようにするんや。
「スクリーンショットはデバイスに残るだけや」って言うてるけど、もちろん他にも問題があってな。暗号化されてへんデータベースやったり、デフォルトでオプトインになってたりしたんや。
その辺は変更されたけど、表向きはアップルも似たようなことをしてるんやで。「セマンティック・インデックス」って呼んでて、ローカルデータの埋め込みを作ってるんや。
AIに何かをしてほしいときに、関連するテキストやメールを5分もかけてコピペせんでもええように、クエリに必要な適切な文脈を推測できるようにしてるんやな。
人々は「マイクロソフトの場合、全部デバイスに残るだけやろ」って言うけど、そうやけど、コンピューターから抽出されたデータや洞察はどうなるんや？
テレメトリーとして毎日送られる数キロバイトのデータで、かなり詳細な活動を再構築できるんちゃうかな。
ロビーの話は完璧な例やな。表向きは、みんな何でも録音されてると思うべきやと思うわ。
ソーシャルVRの話でも同じことを思うんや。特にVRチャットでは、めっちゃ過激なことを言う人がおるけど、少なくとも彼らが言ったことや動きのメタデータは保存されてると思うんや。
今は文字起こしがめっちゃ安くなってきてるから、これらのサービスは絶対にこの内容を文字に起こして保存すると思うわ。
たぶん、モデレーションの問題があったときに備えて60日か90日は保存しとくんやろうな。でも、そのデータを完全に削除する前に、他の洞察を引き出すかもしれへんやろ。
そうやな。ジョナサン・ハイトの新しい本「不安の世代」の前提みたいなもんやな。
フェイスブックやインスタグラムに投稿したものが、同級生や先生に使われることを意識してたから、人と対決するのが怖くなって、常に不安を抱えて生きてるんやと。
自分が言ったことがいつか使われるんちゃうかとか、何か掘り起こされるんちゃうかとか、そういう不安がめっちゃあるんやな。
VRの世界ではその問題がさらに大きくなりそうやな。
そうやな。VRでの追跡の細かさはヤバいで。俺はよく「没入型ヘッドセットは顔につけた生体計測レコーダーや」ってジョークを言うんやけど、まさにそうなんや。
視線データ、瞳孔の拡張、画面の何を見てるかとか、目の毛細血管から心拍数も分かるしな。
因みに、iPhoneでも心拍数は測れるで。やろうと思えばできるんや。
これらの諸刃の剣はいつも面白いな。デジタルの世界で俺らを具現化するのはめっちゃ美しいけど、それら全てに対応してコンピューティングを文脈に応じたものにしたら、めっちゃええこともあるんや。
VRのことは忘れてな、これが一番重要なことやと思うわ。Clearviewは面白い例やな。
さっき言うたフェイスブックの話やけど、基本的にウェブから全てのコンテンツをスクレイピングして、人々の顔や身元情報を集めたんや。
最初、この会社が法執行機関に宣伝してたのは、「これ見てよ、このアプリを使えば人に向けるだけで、その人の全てが分かるんだ」みたいな感じやったんや。
もちろん、これは法執行目的ではめっちゃ便利なツールやった。今では特定の法執行機関がより効果的に使ってるんや。
1月6日の事件でも大々的に使われて、あの騒動に誰が関わってたかを特定するのに使われたんやで。
自分でも「待てよ、俺の生体データがこのデータセットにあって、DHSのデータセットとは違うんか」って思ってまうんや。
こんなにデータを集めるんやったら、せめて人々の生活をより良くするために使おうや。例えば、チェックインやセキュリティチェックのプロセスをもっとスムーズにするとかな。
そういう方向に向かっていくと思うわ。id.meっていう会社があって、結構物議を醸したんやけど、バーチャルな会話のためにデジタルツインを作ろうとしてたんや。
でも、自分自身を認証したいときはどうするんやろ？アップルが目の生体認証をしてるのにめっちゃ感銘を受けたみたいやけど、同じことが必要になってくるんやと思うわ。
だって、もし銀行がまだ音声認証を使ってるんやったら、11labsみたいなところに行って声をクローンして、簡単にアカウントをフィッシングできてまうやん。あるいは、めっちゃ簡単にソーシャルエンジニアリングできてまうわ。
もっと高品質な生体認証の方法が必要になってくるし、本当に重要な場面でそれを十分に活用できてへんと思うわ。
テクノロジーがどんどん軍事化されて、消費者向けのAR/VR/XRだけやなくなってくると、世界はより安全で透明になると思う？それとも、MAD（相互確証破壊）みたいな怖いものが増えて、刃の上を歩くような世界になると思う？
この問題については行ったり来たりしてるんやけど、最終的にはプラスの方向に進むと思うわ。
でも、社会として対処せなあかんめっちゃ面白い課題がいくつかあると思うわ。その話に入る前に、このテクノロジーがデュアルユース（軍民両用）な性質を持つ理由を説明したほうがええかもしれんな。
拡張現実と仮想現実、それに空間インテリジェンスや世界のデジタルツインを例に取ろう。
アップルのメガネやグーグルのメガネの面白い使い方の一つは、周りの空間を理解することやろ。Vision ProやQuest 3は、あなたの個人的な空間の地図を作ってるんや。
最近出た面白い技術があってな。Wi-Fiを使って、カメラを使わずに部屋にいる人の全身の3Dポーズを推定できるんや。ただのWi-Fiセンサーを使ってな。
そのWi-Fiの話に関連して、めっちゃヤバいのは、俺らの周りにはセンサーがいっぱいあるってことや。リングのカメラとか、スマートシティが街角にどんどんカメラを設置してるしな。
公共と私的なCCTVカメラの進化したバージョンみたいなもんが、至る所にあるんや。それに加えて、スマートデバイス、スマホ、Whoopトラッカーとかもあるやろ。個人レベルでもめっちゃデータを生成してるんや。
最後に、世界中を動き回るセンサーもあるな。テスラの車はもちろん、Amazonの配達トラックにもダッシュカムがついてるし、他のトラック業者もテレメトリー用のウェブカムを使ってる。
これらは、現実世界や道路の周りで何が起こってるかだけやなく、ドライバーが何をしてるかも記録してるんや。
つまり、めっちゃ大規模なセンシングフリートがあって、やっとそのデータを理解する技術ができたってことや。
俺がグーグルで働いてた時に関わったR Core Geospatial APIってのがあってな。これは10年以上分のストリートビューのデータを使って、航空写真も組み合わせて3Dモデルを作るんや。
カメラを外に向けると、ストリートビューがある100カ国以上で、1メートル以下の精度で正確な位置を教えてくれるんや。位置だけやなく、何を指してるかも分かるんや。
これはめっちゃすごいことやで。AR歩行ナビゲーションをしたいときとかな。俺は新しい都市に行くたびに、Google MapsのAR歩行ナビを使って方向感覚をつかむんや。特に都会で、どっちに行けばいいか分からんときにな。
でも、これらのシステムはもっと多くのことを理解できるんや。道路がどこにあるか、企業がどこにあるか、その企業が時間とともにどう変化したかとかな。
そこに他のセンシングフリートや他のタイプのセンサー、それにMetaやGoogle、Microsoft、他のAI企業がやってる仕事を加えると、やっと干し草の山から針を見つける技術ができたってことや。
全てのセンサーデータを吸収して、クエリを投げられるようになったんや。
そこで問題になるのは、何のためにクエリを投げるかってことやな。
これらの技術には、本質的に多くのポジティブな使い方ができると思う。例えば、「ソーラーパネルをどこに置くべきか」「屋根のこの部分にはどれくらい日光が当たるか」とかな。それはめっちゃすごいことやと思う。
でも、悪用もできるんや。最近の例やと、トランプ前大統領暗殺未遂事件があったやろ。FBIの発表によると、その人物はドローンを飛ばして、正確な射線を確認したらしいわ。
結果的に外れたけど、この技術でできることはまだまだあるんやで。
ほんまそうやな。AIはタンパク質折りたたみ問題でも、干し草の山から針を見つけるのにめっち�すごかったからな。
世界中に十分なデータがあって、ある程度の解像度で世界全体のデジタルツインがあるとしたら、世界中の人々がどこにいて何をしてるかを大まかに把握できるAIがあるかもしれんな。
それで、みんなを良い方向に導くことができるかもしれんけど、それってなんか変な大量制御の世界みたいでもあるよな。
逆に怖いのは、みんなを協力させるんやなくて、共和党支持者にはこの広告、民主党支持者にはこの広告って感じで、分断を極端に進めることもできるってことやな。
そうやな。人口統計や、マーケティング、人々の習慣、行動、位置など、好きなように切り分けられるんや。
それを使って広告を売ったり、政治的な決定をしたり、エンターテイメントを提供したり、善意で人々の生活をより良くしたりできるんやな。
ほんまそうや。位置データはええ例やな。
ウォール・ストリート・ジャーナルが位置データブローカーについて暴露記事を書いてたと思うけど、まだ見てへん人は見たほうがええで。
基本的に、このデータを買って集約すると、ペンタゴン内を歩き回ってる人のGPS軌跡がめっちゃ多かったんや。
視覚的に衝撃的やったわ。文字通り、ペンタゴン内を歩き回ってる人々が見えるんや。
人々が知らんうちにオプトインしてしもた、この世界の受動的なセンシングには、確かにデメリットもあるな。無視するのは難しいわ。
結局、目的関数の問題に戻ってくるんやと思う。
俺が見てるのは、アメリカはこの技術を中国とはかなり違う方法で展開すると思うんや。
中国はすでにめっちゃ印象的なCCTVカメラのフリートを持ってて、マスクをしてても歩き方分析で身元を推測できるんや。
歩き方分析っていうのは、動き方が一種のユニークな指紋みたいなもんやねん。
中国の反体制派が、歩き方検出を回避するために靴の中に石を入れるって話もあるくらいや。歩き方を変えるためにな。
全てが中央集権化されてる、本当のパノプティコンのハブアンドスポークモデルみたいな世界やな。
中国は明らかにそれを使ってCCP（中国共産党）の目標を推し進めようとするやろ。
問題は、西側諸国がどうやってその中央集権化と分散化のバランスを取るかやと思う。
エッジでどれくらい処理して、個人情報を含むデータをクラウドに永久に保存しないようにするか。でも、国家安全保障目的で中央集権的にクエリを投げる方法も必要やしな。
そのバランスを取るのが常に課題やと思う。
今、東側で主流になってる手法に対して、いわゆる「西側」がどう対応するか見ものやな。
俺が思うに、将来的にはアップルのヘッドセットみたいなのをつけて、友達が来たり、サービス担当者がパソコンの問題を解決しに来たりしたときに、気になるのは、その人が本当にその人物を表すアバターなのか、それともAIの観点からその人のデータで訓練された公式コピーで、その人らしく行動してるだけなのか、それとも完全に偽のエージェントで人間が全く関与してへんのか、あるいは他の人間がその人のふりをしてるのか、ってことやな。
それをどうやって解決すると思う？
ええ質問やな。完全に架空のキャラクターから、できる限り本物の人間に近いものまで、スペクトルをうまく表現してくれたと思う。
デジタルツインや3Dマップは、本質的に現実や本物の抽象化やと思うわ。だから、本物ほど良くはならへんのやと思う。
ここで哲学的な話になるかもしれんけど、個人的には、用途によって全てのスペクトルが必要になると思うわ。
例えば、アップルがVision Proで人間同士の3D共同作業をどうアプローチしてるかを見てみよう。
俺自身のペルソナアバターを作成して、それを生体認証で認証するんや。そうすると、俺以外は誰もそのアバターを操作できへんのや。
Vision Proのアバターを動かすには、ヘッドセットをつけて、アップルが目をスキャンして認証せなアカンのや。
それのバリエーションを想像できると思う…
えっ、そんなことできるんか。めっちゃすごいな。
そうやねん、めっちゃスマートやと思う。だって、子供が親のデバイスを持ち出して、突然仕事のミーティングに参加したりしたらヤバいやろ。いろんなことがおかしくなる可能性があるからな。
つまり、もしマット・ウルフがあなたのApple Vision Proヘッドセットを着けて、僕にメッセージを送っても、自動的にあなたのふりをすることはできへんってことやな。
そうや、できへんのや。FaceTimeでも俺のペルソナアバターを使い始めることすらできへんのや。これはクールやと思う。
でも、他のところではそういう制限がないんや。例えば、今のPC VRの世界に行くと、VRChatみたいなアプリケーションがあるんや。俺はこれを「3Dの4chanとRedditを合わせたもん」って説明するんやけど、そこではオバマとか、めっちゃおもろいBモデルとか、タノスとかになれるんや。もう、完全にカオスやねん。
これは俺らがアバターを操作してる例やけど、もう一つ面白い例があるんや。
マルチモーダル大規模言語モデルが持つ世界知識を取り出して、一般的な情報をたくさん取り込んで、それに特定の知識を追加するってのはどうやろ。
そうすれば、ディランと話して質問したり、アラン・ワッツと話して質問したりできるんやないかな。
これも面白い使い方やと思う。あなたのエージェントの複製やクローンみたいなもので、そこに行って話せるけど、リアルタイムで一対一であなたが会話を操作してるわけやないんや。
両方の使い方があると思うし、両方に使用例があると思うわ。
今、俺はCharacter AIを使って、めっちゃ楽しんでるんや。テレビ番組の設定を探索するために、その番組のキャラクターを作ってな。
俺はスターゲートSG-1の大ファンやねんけど、まだ全シーズン見終わってへんのや。そのキャラクターに質問することで、ここで見たエピソードとあそこで見たエピソードを組み合わせて、その宇宙の設定の全体像を把握しようとしてるんや。これがめっちゃ面白くて楽しいんよ。
iPhoneの場合、広告主導のモデルを使って、ユーザーの注目を集めることで無料のコンテンツを提供してるよな。TikTokスタイルの究極の終着点みたいな感じやな。
一方で、お金を払えば自分の興味に合ったものが得られる。それがソフトウェア開発者の利益になるわけや。
同じような問題がメタバースでも起こると思う？メタバースでの広告を減らすべきやと思う？それとも、それはええモデルやと思う？人々が適切に扱う責任があるとか。
ええ質問やな、ディラン。最近、ニータ・ファラハニーってな人とインタビューしたんやけど、彼女は脳インターフェースの未来と、神経生体データがどう悪用されてるかについて本を書いてはるんや。
そこで出てきた話の一つが、MITの「ターゲット・ドリーム・インキュベーション」っていう研究やってん。ミルソン・コース（ビール会社）が面白い宣伝活動をしたんやけど、人々が寝る30分前に音声ファイルを流して、夢を誘発したり注入したりしたんや。
結果、人々はコースのビールの夢を見るようになったんや。これはただ音声ファイルを流しただけやで。広告でお金を稼ぐAlexaが、寝かしつけながらコカ・コーラの夢を見させるみたいなもんやな。
これらの没入型テクノロジーやAIが文脈に応じたコンテンツをその場で作れるようになると、ユーザーを「操作」したり広告を出したりできる範囲が広がると思うんや。これはめっちゃ危険やと思うわ。
あんたの言う通りやと思うわ。俺も似たように見てて、二つの未来があると思うんや。
既に見られ始めてるよな。一方では、めっちゃ高価なアップルのヘッドセット、Vision Proがあって3800ドルする。もうちょっと安いバージョンで1500ドルか2000ドルくらいのもあるかもしれんけど、それでも普通の人にはめっちゃ高いわ。
他方では、めっちゃ安いMeta Quest 3が買えて、得られる価値に比べたらほぼタダみたいなもんや。
でも、利用規約を詳しく見ると、もちろんMetaはそのデータを使って広告を出せるんやで。
人々はどっちかを選ぶことになると思うわ。「バドライトの夢を見てもええわ。その代わりめっちゃ安いデバイスが手に入るし」って人もおれば、「いや、俺の体は神殿や。脳は至聖所やで。誰にも影響されたくないわ」って人もおるやろうな。
両方の未来が並行して進んでいくんやないかな。
インターネットの原罪は広告やって言う人もおるけど、その議論は「誰かが常にあんたの注意を引きたがってたら、それは必ずしもあんたのためにはならへん」ってところから来てると思うわ。
ChatGPTとか、最初に人気が出たLLMツールが有料やったのはありがたいと思うわ。
もし3回に1回の生成で広告を入れようとしてたら、うまくいかへんかったと思うんやけど。
そうやな。マイクロソフトに聞いてみたらええで。Microsoft Copilotに広告を入れようとしてるみたいやけど、ChatGPTと比べるとかなり劣った体験になってるんちゃうかな。
明らかに今のところは有料化の道は選んでへんみたいやな。Perplexityは無料か有料やし、面白いことにGoogleも無料か有料で提供してるみたいや。
でも面白いのは、広告は出てへんけど、これらのクラウドベースのLLMはモデルの改善のためにデータ提供にオプトインさせてるから、あんたについてのめっちゃ詳細なプロフィールを作ってるんやで。
普通は、収益化のステップは後から来るんや。最初は成長に集中するんやな。フェイスブックも有名な話やけど, 最初はめっちゃ長い間広告を控えてた。でも今では多分、最高の広告ターゲティングをしてると思うわ。
そうやな。ここでポッドキャストを終われそうやな。あんたのことについて話せることある？フォローしてる人に何か言うことあるか？ニュースレターとかTwitterもやってるよな？
もちろんや。「Tedi Show」をチェックしてほしいな。グーグルで検索したらすぐ出てくるで。
半シーズン終わったところやけど、これからめっちゃワクワクするゲストがたくさん来るんや。Khan AcademyのSal Khanとか、さっき言うたNita Farahaniも来て、ニューラル空間で起こってるクレイジーなことについて話すし、他にもいろいろあるで。
今日話したような、技術的な裏側や、ワークフロー、知覚AI、空間インテリジェンス、3Dの裏側に興味があるなら、絶対チェックしてな。
TwitterとLinkedInでも「belawal_s」でフォローしてな。
最後に一つ。この話を聞いてる創業者や起業家志望の人で、俺が話した分野に関連する初期段階の会社を持ってる人がおったら、ぜひ連絡してほしいわ。
俺は積極的にスカウトチェックに署名してるから、連絡してな。
ほんまにええチャンスやと思うで。あんたと一緒に仕事したり会社を作ったりするのはめっちゃええ経験になると思うわ。
ディラン、今日は呼んでくれてありがとう。めっちゃ楽しかったで。
ありがとう。また話そうな。