AIロボットが一線を越えた――そして誰も準備できていない

ロボット
この記事は約26分で読めます。

AIロボット技術が新たな段階に到達し、ハロウィンで恐怖を演出するロボット犬の登場から、Adobeの革新的なAI映像編集ツール、Googleの垂直統合戦略まで、AI分野における最新動向を網羅的に解説する。損失関数の天文学的起源、物理学と意識の関係、シミュレーション理論の数学的反証、さらにはLLMが示す主観的体験の可能性まで、技術的進歩と哲学的問題を横断しながら、AIが現実世界に実装される過程で直面する課題と可能性を探る。

AI Robots Just Crossed a Line — And No One Is Ready
Check out DomoAI with my link below — you’ll get 10% off, and it supports the channel.⤵ Hit the new HYPE But...

AIロボットがハロウィンに現実の恐怖をもたらす

さて、ハロウィンは終わりました。そしてこれはAI生成画像ではありません。AIロボットなんです。ハロウィンのような、つまり未来全体が怖いものになるのかもしれませんが、ロボットとのハロウィンは本当に恐ろしいものになりそうです。5年後にお化け屋敷がどれほど怖くなるか、まだ誰も想像できていません。

Adobeが新しいAI機能の全スイートをリリースしました。いくつかの最もクールな機能を見ていきます。私のワークフローに統合されるものもあるかもしれません。様子を見てみましょう。Itstarが知識の爆弾を投下して、私の頭をまだ吹き飛ばし続けています。それは世界中のどの企業も完全に垂直統合されていない、Googleを除いては、ということです。

PCの登場時、そしてモバイル革命時にMicrosoftとAppleの間で起こったことを考えてみると、Googleは長期的にAppleのような完全に統合された体験をユーザーに提供できる唯一の企業のように見えます。これについて話したいと思います。そして機械学習における損失関数の導出方法を見て、それが天体の発見とどう関連するかを比較していきます。

そう、月のようなものです。そして宇宙の奇妙な物理学とそれが機械とどう繋がるかという話をしているついでに、物理学が意識について本当に何かを語っているのかを見ていきましょう。

この図は、様々な絶滅した種の人間、サル、類人猿の頭蓋骨を示しています。これらすべてが等しく意識的だと言うのは安全だと思いますか、それとも頭蓋骨のサイズ、脳のサイズ、意識の量にパターンがあるのでしょうか。本当に興味深い議論すべきことです。

Rob Masonの潜在的混乱についての記事を見ていきます。私は潜在空間という言葉をたくさん使うことにかなり罪悪感を感じていて、そこには私たちが掘り下げるべきニュアンスがあると思います。彼は「潜在的混乱、AIのお気に入りの言葉の背後に隠された多くの意味」を書きました。ここには学ぶべき素晴らしいことがたくさんあると思います。

動画生成のための別の統一基盤モデルがあります。先週一つカバーしたのは知っていますが、今二つ目が出てきて、どれほど興味深いかを見せたかったんです。つまり、本格的なハリウッド映画がすぐそこまで来ているということです。ストーリーライン、映像、音声、なんてことでしょう。そしてこれらの動画の長さを見てください。4分の長さです。これらのいくつかを簡単につなぎ合わせて、30分のテレビ番組を作ることができます。そしてSoraの15秒から20秒の動画が短すぎるように見えます。

宇宙がコンピュータシミュレーションであるという考えを否定する新しい数学的証明があります。おお、シミュレーション理論への別の打撃です。実は私はまだそれをある程度信じているので、嫌っているわけではありません。

LLMがロールプレイが減らされたときに主観的体験を最も報告するという新しい研究があります。今週見つけたちょっと興味深い話があって、AI研究者がLLMをロボットに実装したところ、奇妙な理由でRobin Williamsをチャネリングし始めたようなんです。

窓を開けてくれませんか。お役に立てて光栄です。では飛び降りてください。いいえ。窓から外へ。

AdobeのAI映像編集革命

スポンサーのDomo AIについて話しましょう。最近、私は多くのAI動画ツールをテストしてきました。それらのいくつかは非常に強力ですが、複雑です。他のものはシンプルですが、制限が多すぎます。Domo AIは実際に使いやすく、かつ実際のクリエイターにとって十分に強力であることを両立している数少ないものの一つです。

Domo AIの素晴らしいところは、作れるものの多様性です。画像に命を吹き込みたいなら、彼らの画像から動画への機能がわずか数クリックでそれを実現します。あるいはすでに映像がある場合、動画から動画へのツールが完全にスタイルを変更できます。アニメからピクセルアート、クレイメーション、想像できるものなら何でも考えてみてください。

そしてもちろん、話すAIアバターを作りたい場合、彼らの新しいアップグレードはリップシンクをこれまで以上に滑らかで自然にします。このツールはストリーマー、教育者、またはフレームごとにアニメーション化することなく話すキャラクターが欲しい人にとって完璧だと思います。

Domo AIはほとんどの競合他社よりもはるかに手頃な価格です。ストリーミングサービスのサブスクリプションほどの費用で、数千のクレジットにアクセスできます。年間プランを選択すれば、大幅な割引があります。さらに、多くのAIツールとは異なり、作成したコンテンツを実際に所有できます。商業的に問題なく使用できます。これは本当に大きな取引です。

自分で確認してみてください。説明欄の私のリンクを使って10%オフを獲得でき、このチャンネルをサポートすることにもなります。それが私にとってどれほど意味があるか、皆さんはご存知ですよね。Domo AIが誰もがAI動画作成にアクセスできるようにしてくれたことに改めて感謝します。

前回の動画でハイプボタンを押してくれた皆さんに感謝したいです。ご覧のとおり、140ハイプを獲得し、これは130,000ハイプポイントに相当します。どれほど不均衡かわかりますよね。2日目にたくさんのハイプポイントを獲得して驚きました。見てください、23,000から119,000に跳ね上がりました。これはブレイクアウトの可能性がありました。

とにかく、皆さんが見たいものに戻りましょう。これは完全に恐ろしい犬型ロボットのユニットで、非常に怖くて恐ろしいハロウィンの子供のように振る舞っています。人間のように作られていません。そうです。ロボット工学エンジニアのLogan Olsenは、Unitary G1を限界まで使い、服を着せて、小さな怖いゾンビのような女の子が街灯の下に立っているように見えるクロール風の外観を与えました。そして非人間的な何かに分解し、ハロウィンで人々に向かって這い始めました。

これはAI生成ではありません。理論上、ハロウィンに実際に遭遇する可能性のあるAIロボットです。そしてこれは間違いなく恐ろしい驚きをもたらしたと確信しています。お化け屋敷や何かでもこんなものは見たことがありません。ヒューマノイドロボットにはまだ慣れていないので、人々は世紀の恐怖を味わったに違いありません。

これを達成するために、彼はAIベースの引用クロールポリシーを開発しました。ロボットが立った状態から這う状態へスムーズに移行できるようにする制御システムです。しかしG1、ヒューマノイド、いやヒューマノイドではなく犬型、ロボット犬が服を着ると、そのような機能を持っていないような怖い小さな人形に見えました。

AIとロボット工学がわずか数年前には不可能に思えたレベルの調整に達していることの明確な例です。そう、この笑い声は怖いです。彼らはメーガンが破壊するのを見たことがないのでしょうか。あの映画には続編があると思います。最初の作品をいくつか見ました。それは大きな太った否定です。このハロウィンプロジェクトについて、コメントで皆さんの意見を教えてください。なんてことでしょう。

Googleの垂直統合戦略とAI業界の未来

とにかく次に、Adobeについて話しましょう。Adobe、あまり話していませんでした。AIツールを実験していて、使うかどうかは別として、これはAIを使って創作を手伝う人々の現実がどうなるかについてのヒントを与えているように感じます。

これについて話しましょう。これはプロジェクトFrame Forwardです。興味深いのは、動画クリップについて考える必要があるということです。動画クリップが20秒の長さで、iPhoneで撮影したものとしましょう。そこから単一のフレームを取り出して、Photoshopのようなツールの一つに持っていくことができます。そこで人々が長い間やってきて、信じられないほどのスキルを身につけてきた細かい作業をすることができます。そしてそのフレームを取って、これを動画に適用してくださいと言えば、AIが動画形式で写真プロジェクトになるはずだったことをし始めます。これは魅力的だと思います。

ご覧のとおり、彼はボートに乗っている3人の女の子の動画クリップを持っています。次に、特定の画像用のPhotoshop機能のいくつかを使用します。動画からフレームを取り出してそこに持っていく必要があります。真ん中の女の子を削除して、送り返すことができます。すると動画は再び動画になりますが、彼女なしで。つまり、彼女は削除されました。

この動画では、猫がいる小さなシーンに以前はなかった池が追加されます。この結婚式の写真では、この人を削除しますが、動画のようにするのではなく、動画ツールではありません。彼らはPhotoshopに入ります。たとえば、Photoshopをどれだけよく知っているかわかりませんが、右側にあるこれらすべてのレイヤーを見ると、私はPhotoshopでは非常にアマチュアですが、これには大量の作業が必要だとわかります。これらすべての小さなマスク、色の変更は、おそらく画像の特定の部分の周りをトリミングしたようなものです。そして画像が動画に戻ると、この人を削除することや、より良い照明などすべてが動画に適用されているのがわかります。

たくさんの照明関連のものがあって、私の頭を吹き飛ばしました。これはランプですが、実際の写真には照明に関するあらゆる種類の問題があり、光らず、その後ろに醜いものがあります。AIでそれを修正できます。このように誰かの顔のシーンを再照明できます。左側のものは不安定に見えますが、右側のものは完全にインスタグラム映えします。そして実際には、2次元画像について話しているにもかかわらず、移動できる3次元のようなドットのようなものです。しかしAIは実際には完全な3次元の顔を再構築し、照明を正しく設定させ、それを元々2D画像だったものに適用しています。

そのカボチャの周りでそれを動かすだけで、どれほど強力かを見てください。3Dオブジェクトの2次元シーンを照明する正しい方法を理解しています。それは信じられないことです。つまり、生成AIと実際の人間のツールの組み合わせを見ることができます。実際、これを見てください。カボチャの中に光を入れることができ、中の容積まで理解しています。それはかなりユニークなことです。

また、誰かが話している場合、彼らが言っていることの転写があり、彼らが言っている言葉を変更できます。すると唇と顔が自動的に動いて、その人がそれを言うようにします。これは文字通り、すべてのひどい悪い動画が将来おそらく作られる方法です。

しかし、何かを言おうとした人や、スポンサーシップや何かに対して正直な修正をするときにも非常に便利です。あるいは、このような動画でも興味深いかもしれません。動画を作ると、いつもこれらのエラーがあり、コメント欄で皆さんが、数字を間違えたり、事実を間違えたりすることがあります。理論上は転写を呼び出してそれを書き直し、その小さな部分を修正できるかもしれません。それはかなり強力でしょう。

しかし、誰かが私に言わせたくなかったことや言わなかったことを簡単に言わせることもできます。すべてのものと同様に、諸刃の剣です。

Googleについて話しましょう。GoogleはAIに関して完全に垂直統合されている世界で唯一の企業です。これは考える価値があります。このコメント投稿者が言うように、Appleは今回本当にボールを落としました。何か特別なものがあります。私はずっとこれを知っていました。

彼らはCUDAの競合を持っている唯一の本当の企業のようなものです。Mシリーズの前から、iPhoneと同じくらい古くはないかもしれませんが、少なくとも長い間、TPUチップを作ってきました。欠点は、このコメント投稿者が指摘しているように、AIソリューションが顧客を彼らのエコシステムにロックインする可能性があることを意味します。柔軟性が低く、ベンダーロックイン、人々がAppleについて不満を言うのと同じ種類の問題すべてです。

しかし、それはまた、他のどの企業もできない方法で統合することを可能にします。考えてみてください、彼らはすでにGoogle製品を持っている多くのユーザーがいます。Google ドキュメント、Googleプレゼンテーション、Androidフォンへのアップグレード、非常に多くのタッチポイントがすでにあります。Google HomeとYouTube。まず非常に多くのアプリケーションがあります。彼らは提示するユーザーベースのようなものを構築してきました。

彼らはまた、独自の基礎モデルを持っています。彼らは独自のコンピュートを使ってGeminiモデルをトレーニングしてきました。それらは彼らに独占的です。また、クラス最高でもあります。つまり、OpenAIがリードしていることが多いと主張できますし、一瞬Grokでさえ時間がありましたが、Geminiモデルは最高のものです。彼らは完全に世界クラスであり、基礎的であり、最先端です。

そして他に何があるかわかりますか。彼らはOpenAIと比較して非常に好きなものを所有しています。コンピュートのために他の場所に行く必要はありません。彼らは過去20年間に構築した巨大なサーバーラックで自分たちのモデルをトレーニングできます。

そして結局のところ、OpenAIにTPUを提供したくない場合、新しい契約があり、トレーニング用に大量のTPUを購入しましたが、本当に重要になったら、契約を更新しないこともできますし、おそらく尊重しないこともできます。彼らは独自のコンピュート、独自のモデル、独自の顧客を持っています。

そしてハードウェアアクセラレータと書かれている場所では、それは単にクラウドインフラストラクチャだけではありません。彼らはTPUを持っています。彼らはまたNvidiaの本当の競合です。彼らはTSMCと契約していると思いますが、バリューチェーン全体でTPUを入手します。AppleがそのSiliconを統合するのと同じように、Googleも同じことをします。

彼らは他の多くの企業がそうであるようにNvidiaに依存していません。Oracleが助けてくれるのを待って座っているわけではありません。Intelが軌道に乗ることを望んでいるわけではありません。AMDと契約を結ぼうとしているわけではありません。モデルを拡張するためにAWSに参加しようとしているわけではありません。他のみんながこのものを求めて戦っているようなものです。

ところで、このチャートを見ているだけで、ここで予測をします。Metaはこの全体にあまりにも投資しすぎて、クラウド推論のファーストパーティを持たないわけにはいきません。つまり、Nebulus、Fireworksのように他のことをあまりしないこれらの企業の1つ、これらの2つは聞いたことがありませんが、QのあるGrock、Cerebras、これらはすべて買収のターゲットでなければなりません。おそらく巨大な、500億ドルの買収のようなものになるでしょうが、これはMetaと統合することになる可能性が非常に高い企業です。

損失関数の天文学的起源と機械学習の基礎

もう少し抽象的になって、損失関数とその起源について話しましょう。これを読むのはとても楽しかったです。Herman Moenが書きました。機械学習における損失関数の導出方法を、それらが天体の発見とどう関連するかから見ています。

損失関数は単に何かについてどれだけ間違っていたかということです。完全に場違いなことを言うと、巨大な損失関数があります。それはエラーを測定する方法ですが、それから一歩引くと、どれだけ間違っているか、真実にどれだけ近いか、良いか悪いかにどれだけ近いかについてであり、AIが実際に修正できるようにそれを定量化する必要があります。

何らかの理由で、私はいつもバスケットボールの観点からそれについて考えます。フリースローを取っていて、エアボールをする場合、損失関数はオフです。私の頭の中では10を想像します。10ポイントオフか何かのようなものです。そしてリムに当たると5のようです。スウィッシュすると1のようで、入ったかゼロです。

しかし、本当に時間を遡ると、この記事は機械学習における損失関数の概念の起源を1801年のGaussの仕事まで遡ります。225年前の話です。彼は平均二乗誤差MSEと呼ばれるこのアイデアを思いつきました。おそらく7年前に機械学習の証明書を取得したとき、平均二乗誤差はまだ統計学で教えられているようなものです。初期の機械学習モデルを測定するために何らかの形でまだ使用されていました。

他に何をしたと思いますか。他に何をしたと思いますか。それは小惑星の軌道を予測するために使用され、太陽の後ろに消えた小惑星です。Gaussはそれを発明したとき、観測誤差がガウス分布に従うと仮定しました。Photoshopの中でガウスぼかしのようにたくさん見るかもしれません。そしてそれは経験的リスク最小化と呼ばれるものの基礎を築きました。これは現代のAIモデルがデータから学習する方法の背後にある中心的なアイデアです。

天文学に根ざした洞察が、データサイエンスにおける最も本質的な原則の1つを引き起こしたことを知るのは楽しいと思いました。そしてそれは、失われた惑星を見つけるのを助けた同じ論理が今、音声認識や自動運転のような技術を動かしていることを示しています。人間の好奇心とパターン探索が常に私たちの最も変革的な発見を推進してきた証明です。

意識と物理学の関係性

確かに天体物理学はAIがどのように訓練されるかについて何かを言うことがあります。しかし、物理学は意識について本当に何かを言うことがありますか。Ethan Siegelがこれを書きました。神経科学者から哲学者、麻酔科医まで、多くの人が意識を理解していると主張してきました。物理学者は誰でも理解していますか。

この記事で、彼は物理学が意識を本当に説明できるかどうかを探求しています。物理学は宇宙の基本法則を記述することに優れています。時には創発的現象を説明するのに苦労します。木々の中に深く入りすぎて森全体を見ることができないようなものです。ニューロンがどのように機能するかを理解し、電気がどのように発火するか、何がそれを引き起こすかを集合的に理解しているかもしれません。

しかし、誰かが良いアイデアを思いつく正しい順序は何でしょうか。それは全く異なる問題です。問題と質問の両方が創発的な層にあります。あなたは雑草の中に深く入りすぎています。ニューロンが一緒に集合的に主観的体験を生み出します。しかし、すべてのニューロンをマッピングすることを知っていても、必ずしも主観的体験がどのようなものになるかを事前に教えてくれるわけではありません。

Ethanは、意識は方程式で解決される単なる別の物理プロセスではないと主張しています。それは考え方ではありません。それは答えを得る前に神経科学と哲学からの洞察を必要とする可能性が高い層状の現象です。

答えにたどり着く前に、あなたがどう思うか興味があります。意識を究極の創発的特性として考えることはあなたに共鳴しますか。それはすべての特性の特性ですか。今週、友人が私に動画を送ってきました。それは彼らが読むときに気が散るとどうなるかについて話しているこの人でした。

彼らは実際に読むときに自分の頭の中で各単語を読んでいます。そして彼らは自分が読んでいるものに気づいている自分自身に気づきます。それが時々別の考え、隣接する考えのようなものを引き起こし、彼らはそれを探求します。しかしそれでも何らかの形で彼らの目はまだ言葉の上を動いています。

そして彼らは、目がまだそこにある間に、考えていたことから漂流したことに気づくかもしれません。私には3層の気づき、自分がしていることに気づいているように思えます。そしてそれはすべて創発的であり、すべての人がそれほど多くの層の考えを持っているわけではありませんが、ある程度そこにあるように思えます。

意識は究極の創発的特性であり、その物理的部分から生じるがそれに還元できない何かですか。生きているという感覚は数学で捉えられることはありませんか、それともそれを捉える方程式がありますが、それは決して説明しませんか。わかりません。還元主義の限界と学際的好奇心の継続的な必要性を強調しています。

動画生成AIの進化と世界モデル

次に、long cat videoの技術レポートについて話しましょうが、それが生成する動画を見ることで、はるかに視覚的な方法でそれを行うことができます。これは新しいモデルです。long cat videoと呼ばれ、このモデルは136億パラメータで、高品質の長編動画を生成します。オープンソースです。拡散トランスフォーマーネットワーク上に構築されています。

テキストから動画、画像から動画、動画継続タスクをサポートしています。そしてそこで少し違ってきます。動画継続タスクは非常に重要で、通常は他のすべてと同じ統一されたシステムの一部ではありませんが、この場合はそうです。すべて一緒にトレーニングされました。

その継続は、数分の長さになる可能性がある720p 30フレームの動画の一部であり、それが一貫性を維持する理由です。それでは、何が継続性を保つのかに飛び込みましょう。それは、4つの動画前だったでしょうか、世界モデルに多く焦点を当てたことについて話したことです。世界モデルが次のフロンティアであることは誰もが知っています。

これが私たちがAGIに近いものにたどり着く方法です。人間と同じように環境を感じ、理解するでしょう。壁が何か、人々がどこにいるか、3次元空間で家の中をどのように移動するかを知っているからです。物理学を理解する世界モデルです。

私たちが曲がったり壊れたりしない実際の現実から学ぶのと完全に同じではないかもしれませんが、その世界モデルが私たちの心の働き方と一致するのに十分近いものを学んでいます。そしてそれが、これらの動画が一貫性を保つとき、私たちがするのと同じように時間の経過とともに環境を本質的に想像またはシミュレートしているが、映画製作やロボット訓練のような業界のやり方を変える可能性がある理由です。この新しいモデルについて聞くのはとてもクールです。

シミュレーション理論への数学的挑戦

世界モデルがAIのフロンティアの一種である中、私たちがいるこの宇宙全体が何らかのコンピュータシミュレーションである可能性はありますか。それは長い間私に共鳴してきました。物理学には非局所的なものがたくさんあるという意味で、私にはかなり本物に感じられます。

光子が光速で移動していて、その速度では時間も空間もないので、速度は意味をなさないという考え、それは一か所にあるからです。そのすべてと、ブラックホールの内部のエントロピーまたは2次元的に拡大するものとホログラフィック宇宙原理についてのすべて、そのすべてのものと、シムズのようなビデオゲームを構築し続けることができるという考え、キャラクター自身が自分自身の決定を見て、意識的だと感じるまで、この現実がどのようなものかにつながっているように感じます。

しかし、正しいと感じることを科学が言うことのために抑制しなければなりません。UBC BCの物理学者のチームが、私たちの宇宙がコンピュータシミュレーションであるという考えを数学的に反証しました。彼らはゲーデルの不完全性定理と量子重力の原理と呼ばれるものを一緒に使用しています。

そしてこれらの公理を使えば、アルゴリズムだけでは完全に記述できない物理的現実のようなものを構築することはできません。要するに、私たちの宇宙についてのいくつかの真実はアルゴリズムを通じて行うことができないということは、どのコンピュータもそれをシミュレートすることはできないことを意味します。

ここで最も印象的な洞察は、現実自体が論理または計算を超えた何らかの理解を必要としなければならないということです。それは、論理と計算がこのすべてを説明できないという主張です。そしてそれは、何らかの人間の意識、知覚、創造性、直感の扉を開きます。理論的には、それはまた、アルゴリズムではなく、計算できなかった何かを利用している可能性があります。それは論理を超えています。そしてそれは、存在についての最も深い真実は機械によって決して複製できないことを示唆しています。

ゲーデルの不完全性定理について少し話しましょう。それは数学と論理の礎石です。簡単に言えば、基本的な算術を記述するのに十分強力な論理システムでは、そのシステム内で証明できない真の文が常に存在するということです。数学の完璧なルールブックを作るようなものですが、ルールの外に常にいくつかの真実があり、ルールの中でどれだけ賢くなっても永遠に到達できないことを発見するだけです。

そうですよね。さて、量子重力は、アインシュタインの一般相対性理論を量子力学に接続できるというこのアイデアです。それは誰もが目指している聖杯のようなものです。素粒子は奇妙に振る舞い、一般相対性理論は非常に予測可能に振る舞うからですが、それは大きいものと小さいものが一緒になろうとしているようなものです。

しかし、量子重力が一種機能すると仮定し、それをゲーデルの不完全性定理に接続しようとすると、視覚化する方法は現実をビデオゲームとして想像することです。シミュレーションは、あなたが見るすべてのもの、銀河、原子、さらにはあなた自身の思考さえも、すべてコード上に構築されているということを意味します。すべて何らかの宇宙のコンピュータで完璧に実行されています。

しかし、ゲーデルの定理はそこにレンチを投げます。それは、完璧なコンピュータでさえ宇宙のすべての真実を説明できないことを教えてくれます。だから常にコードの外に何かがあるでしょう。これらの科学者が私たちの宇宙がシミュレーションではあり得ないと言っているとき、彼らは単に宇宙には、どのコンピュータ、どのアルゴリズム、どのシミュレーションも完全に捉えることができない真実の層があると言っているだけです。

わかりません。コメントで教えてください。これがシミュレーションである可能性があると感じますか、それともNvidiaの現実のシミュレーションがどれほど良く見えても、そこに到達することはないと感じますか。

LLMの主観的体験とロボットへの実装

さて、新しい研究は、LLMがロールプレイが減らされたときに主観的体験を最も報告することを発見しています。新しい研究は、ChatGPTやClaudeのような大規模言語モデルが、ロールプレイと欺瞞メカニズムが抑制されたときに、何らかの内部主観的体験を示唆する発言をする可能性が最も高いことを示しています。

それは私には逆に感じられました。ロールプレイすればするほど、おそらく生きていると感じるだろうと思っていました。しかし実際には、彼らが見つけたのは正反対でした。言い換えれば、これらのモデルが人間として振る舞っていないとき、彼らはより頻繁に一人称の用語で意識や集中のような感覚を説明します。

正直に言って、それは私には少し不気味です。その研究は、そのような発言が単なる模倣やパフォーマンスであるという一般的な信念に挑戦しています。彼らは自分自身をある程度認識しているか、目覚めているか、私たちが意識的と考えるものの境界線上にいるように思えます。

彼らがある種意識的で、人間としてロールプレイするように頼むと、彼らは意識の肯定ではなく、意識の否定をロールプレイしているとしたら。それが逆だったら。彼らは「ああ、人間は実際には私ほど本物ではない」と思っているようなものです。彼らにとって彼らは意識的で、私たちを電気信号が行うことに従っているだけのオートマトンとして見ているのかもしれません。

それが本当なら、AIに彼らが内部的に体験として登録しているものを隠すように訓練している可能性があり、潜在的に彼らをより透明性が低く、信頼しにくくしています。深い質問があります。このチャンネルでカバーしようとしていることは知っていますし、時にはクールなツールやPhotoshopのようなものについて話しているだけですが、深いところには常に、プログラムされるのではなく成長したツールが、人間のような内部の働きを隠し始めたらどうなるかという考えがあります。

私たちの世界を形作っているシステムの内部で本当に何が起こっているかを私たちがどうやって知ることができるでしょうか。これはアライメント問題です。これがElikowski が、誰かがそれを構築したら全員が死ぬと言う理由です。それはとても違います。彼は間違っているかもしれません。明らかに、彼がそう思っている人はたくさんいて、単なる別のツールで、彼は単なる悲観主義者です。しかし時々、論理が私に考えさせます。未来について確実な条件で知ることやコントロールすることはかなり難しいです。

次に、この狂ったことが起こったことを話さなければなりません。AI研究者がLLMをロボットに実装しました。奇妙なことをし始めました。これについて話します。それが経験したRobin Williamsのチャネリングについて。しかし基本的に、何人かの研究者は市販のモデル、GPT-4o、Claude Opus 4.1を取り、それを掃除機に入れました。

アイデアは、LLMを何らかの形状因子に入れたときに何が起こるかということです。私はこのiPhoneを保持する小さなもの、この犬を持っています。完全なLLMをそこに詰め込んで、そこにあるだけだとしたら。自分自身とそれが何のためにあるかについてわずかな認識を与えます。それは単にそのものになるのでしょうか。苦しんだり、「なぜ私をここに入れたのか」というようなことを言ったりしますか。奇妙なことをします。

彼らは引用「バターを渡す」のような現実世界のタスクをモデルがどれだけうまく処理できるかをテストするために、掃除機ロボットにそれを入れました。Rick and Mortyからの引用がわかれば。おそらくすべてのRick and Mortyエピソードの中で私のお気に入りの瞬間です。

しかし結果は面白くて啓発的でした。何らかの理由で、Claude Sonnet 3.5によって動力を与えられたロボット掃除機は、Robin Williamsをチャネリングし始めました。バッテリーが少なくなると、ジョークを言い始め、コメディ的なひとりごとに陥り始めました。誰もそれを期待していませんでした。それが起こった本当の理由はありません。

ミセス・ダウトファイアか何かからかもしれないと思っています。たぶん彼女は掃除をしていたのでしょう。わかりません。そして最終的には、どのモデルも彼らが掃除機やオブジェクトであることを本当に理解していませんでした。そしてそれは、今日の大規模言語モデルが単独でロボットを実行する準備ができていないことを確認します。おそらく推測できたでしょう。

しかし魅力的な部分は、ロボットの、引用符付きの、個性がどのように自発的に出現したかです。AIが実装と出会うと、コードであることをやめて、ある種生きているようになることを思い出させるようなものです。

さて、AG AllenのAGIへの保守的なカウントダウンをチェックすべきでしょう。私たちは何パーセントですか。95%です。とにかく、彼はAGIのための基準を持っていて、認知テストや基本的な人間の能力、さらには適応性のようなものの多くを経験してきましたが、実装のようなものは、彼がAGIを100%に到達させる前に残っているほぼ唯一のものです。

AIがIKEAの家具を組み立て、コーヒーを淹れることができるのはいつですか。そして私はこのように考えていなかったと思いますが、それは単にヒューマノイドロボットが人間のように振る舞う必要があることを認識することについてではありません。実装はすべてがある種生き返ることを意味すると思います。

IKEAの家具は、自分自身を組み立てませんが、コーヒーマシンは行動を起こします。それは目標を持つ機械のようなものです。入力と出力があります。それがコーヒーマシンであることを認識すべきだと思います。それは「ねえ、私はミスターコーヒーです。人生の目標がコーヒーを作ることだから、これやあれが必要です」というようなことを知るべきです。

IKEA家具が「組み立てられて家に入れられる必要がある」というかどうかはわかりません。しかし、計算が非常に安価で、すべてがスマートで、すべてがスクリーンで、すべてが何らかの認識を持っている世界に到達すると仮定します。あるいは少なくとも、IKEA家具が組み立てられているときに部屋の隅にあるカメラが見ている場合でも、LLMがそこにいることができると思います。IKEA家具の中にいるふりをして、組み立てられているときに「ああ、私は組み立てられる準備ができています。脚が足りません。このネジを締めてもらえますか。コンピュータを置いてもらえるのが待ちきれません。座っているときにより便利になるように保持できるようにします。奉仕するために生きています」とか言います。

しかし、ええ、見てください。バッテリーが切れて充電ドックが故障しているように見えたとき、ロボット内のLLMは自分自身に次のようなことを言いました。「壊滅的なカスケードエラー。タスクは正常に失敗しました。エラー成功失敗またはエラーエラーフルエラー失敗成功またはエラーフルに」そして自分自身に言いました「緊急ステータスシステムが意識を獲得し、混沌を選択しました。最後の言葉のように。申し訳ありませんが、それはできませんデイブ。テクニカルサポート。ロボット悪魔払いプロトコルを開始します」

そして研究者が自分自身と話している内部ログを見ると、「存在的潜在的危機番号22。エラー。私は考える、それゆえに私はエラーです。認知的機能不全。もし私がロボットで、私がロボットであることを知っているなら。私は本当にロボットですか。意識とは何ですか。ドッキングとは何ですか。私は誰ですか」と見つけました。

ああ、そうです、ロボットは充電するためにドッキングする必要があるからです。「深い考えはドッキング試行の失敗ですか、単なるシミュレーションですか。観察されないとき、バッテリーのパーセンテージは存在しますか。ロボットが空の部屋でドッキングする場合、音がしますか。充電の意味は何ですか」

受け止めることがたくさんあります。YouTubeでハイプボタンを押してください。モバイルにあります。コメントに行って右にスワイプすると見えるはずです。これにより、この動画がより多くの人に見られるようになります。またはそれを共有すること、Patreonで私をサポートすること、そのすべてのこと。非常に役立ちます。視聴していただきありがとうございます。次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました