LegoGPTが決める、何を作るか – プロンプト一つでレゴを組み立てる

10,752 文字

LegoGPT Decides What to Build, One Prompt at a Time

レゴGPTが登場しました。テキストでプロンプトを入力すると、想像したレゴセットを作ってくれる新しいモデルです。しかも、実際に組み立て可能な形で設計してくれるんです。とても楽しいですね。
2年前、当時最高のAI画像モデルに「リック・アンド・モーティのレゴセット」を作るよう依頼したことを鮮明に覚えています。そして、これが当時できた最高の結果でした。
私たちは本当に大きく進歩しました。リック・アンド・モーティ、すごいですね。右下のがとても良いです。ブリックのように見えますね。ブリックヘッドみたいな。そうですね、いいですね。リック・アンド・モーティ大好きです。左下もなかなか良いですね。世界で一番好きな番組です。左下もいいんですが、ミニフィギュアがあまりにも違います。
これは良いと思えたかもしれませんが、モーティをネクタイ姿にすることはできないですよね。モーティはモーティらしく見えないといけないし、後退した髪の毛のモーティなんて。生体工学義手を持つ女性のことを本当に考え始めました。彼女はトークショーで今や義手を取り外して、頭脳だけで自由に動かしています。
「まだ装着しているときと同じように操作できます。動いて。」これは信じられないほどすごいです。「テーブル。」これは信じられないですね。「そう、私が面倒くさいときには小さなタスクをやってもらえます。」
これが多くの人にとっての未来かもしれません。両手があったとしても、例えば第三の手が欲しいと思うかもしれません。変な話ですが、可能性はあります。
また、実用的なJSON巻き上げにも使えますね。「ああ、そうですね。」すごいことです。サイバーパンクが今までになく近づいていると思います。
エンジニアたちは寄生虫にインスパイアされた、脚なしで10フィート（約3メートル）も跳躍できるロボットも作りました。2011年に亡くなったある音楽家の脳細胞が今展示されていて、彼の死後10年経った今でも音楽を作り続けているんです。これはすごいです。
AIの経済への影響としてはあまり派手ではないですが、非常に重要な更新として、リチウムイオンバッテリーのリサイクルシステムの再構築が進んでいます。これは米国にとって本当に良いニュースです。希少土類元素へのアクセスが良くないなら、持っているものをリサイクルすればいいんですから。
OpenAIがXと競合するために開発中のソーシャルネットワークがどのように見えるか知りたいなら、Soraを見てください。ChatGPTはたくさんのソーシャル機能の更新を受けていて、「ああ、こういう感じになるんだな」と思わせます。
YouTuberのMinute Manは、Facebookの恐ろしいAI考古学陰謀アカウントを分析しています。これは文字通り私が今まで作ったものをほぼすべて、一日に何度も再投稿するだけのアカウントです。
Dreoは新しいオープンソースのイメージ…画像ジェネレーターと言いたいところですが、むしろPhotoshopがプロンプトだけで全ての機能を操作できるようになったらどうなるか、という感じです。肉の匂いを嗅ぐことができる面白い新しいAIプロジェクトもあります。彼らは匂いでモデルをトレーニングして、何かが腐っているとか、尿の臭いがするかどうかを嗅ぎ分けるんです。
実際、記事のかなりの部分がそれについて書かれています。いずれにせよ、米国での肉への信頼度を大きく変える可能性があります。
NVIDIAは、スケルトンベースの3Dアセット表現に関する新しい論文を発表しており、これがゲームの仕組みを変える可能性があります。カメラが周囲を回っても、あのトラの歩き方を見てください。
アレンの保守的なカウントダウンはまだ人工一般知能に向けて94%まで来ていると言っていますが、この数字の根拠についてさらに更新がありました。興味深いものの一つは、エージェントコーディングツールであるAnthropicのClaude Codeの主任エンジニアとPMが、このエージェントはClaudeによって書かれ最適化されたと言っていることです。
実際、コード全体の80〜90%が自身によって書かれたものです。システムが自分自身を構築するサイクルに近づいています。それが100%になり、人間よりも優れるようになったら、それはテイクオフのときかもしれません。「全体として80〜90%がクワッド駆動コードだと思います。」
「はい、ポートフォリオ企業、シリーズAの企業などでもそういう話をよく聞きます。彼らが書くコードの80〜85%がAI生成です。」「そうですね、85%が生成されているんですね。すごいことです。」
まず、この動画のスポンサーであるLTX Studioに感謝します。今週はもう一つの大きなモデルアップデートがありました。LTXにネイティブに組み込まれた、使用がはるかに速い130億パラメータのモデルが登場しました。
前のモデルより約7倍大きいこの新しいモデルは、最初に画像を生成するか、すでに作成したストーリーボードや最初から始めるかを選べます。ここでは単に機能を紹介するために画像を生成しますが、もちろん、このようなツールを使って長編ストーリーを作るのが本当の醍醐味です。
「蒸気パンクの飛行船が、輝く溶岩と飛ぶ本で満たされた渓谷を航行している」から始めましょう。6つの選択肢の中から、これが一番気に入りました。前景のぼやけた本が本当に好きです。
まず、アップスケールします。次に動きを説明します。飛行船が渓谷を航行していると言います。これは真新しいLTX動画モデル、130億パラメータです。本当に印象的です。ここで5秒間の動画時間を選びます。
さあ、行きましょう。これら4つのプレビューが出るまで約1分待ちました。素晴らしいですね。このカメラが上に傾いてより浮いているように見えるのがいいですね。でも結局、左下のこれに一番目が引かれます。
一番映画的に見えますね。音も非常に適切です。ぜひチェックしてみてください。LTX Studioです。このビデオとチャンネルのスポンサーになってくれて本当に感謝しています。試してみたい方は、以下の説明欄にリンクがあります。
さて、2025年で最も楽しいモデル、最も楽しいモデルの一つであるLEGO GPTについて話す時間です。
なんと、テキストプロンプトを使って標準的なレゴで安定した構造を設計できるんです。これは子供の楽しみの究極形です。想像したものを作れるというのは素晴らしいですね。LEGOがlego.comで、そこに行って何かを作り、何かを発明し、そしてAIのような仕分けシステムを使って適切なピースを袋に入れて送ってくれるようにしたらどれだけスマートか考えてみてください。
彼らはこれ以上お金を稼ぐアイデアは必要ないでしょうが、これは「テキストから物理的で安定した組み立て可能なレゴデザインを生成する」という公式論文です。この論文の詳細を見てください。力のモデルがあります。重力、垂直方向の力など、一つのブロックにかかるすべての力を考慮する必要があり、ここに力がマッピングされているのが分かります。
このモデルはあなたが考える以上のものです。メッシュからレゴの側面、安定性スコア、キャプション生成などがあります。「各形状のキャプションを取得するために、私たちはレゴを24の異なる視点からレンダリングし、それらを単一のマルチビュー画像に結合する必要がありました。」
これはChatGPTに行って「ロボット恐竜のクールなレゴセットを生成して」と言うときに考えるものとは非常に異なります。
Lego GPTの最も驚くべき部分は、「おっと」の瞬間をどう処理するかです。実生活でそれらのものの一部を組み立てると、機能するでしょう。見た目は良くても、崩れてしまうかもしれません。
このAIモデルには「物理を意識したロールバック」と呼ばれるものがあります。これは、何かをデザインし始めて、ブロックの配置が全体を倒したり壊れたりして安定しないことに気づいた場合、賢く最後の安定したポイントに戻って、構築への異なるアプローチを試みることを意味します。あなたのレゴの夢を理解し、物理的な世界についても知っています。
この例を見てください。「幾何学的なデザインのコンパクトなソファ」。これらは基本的にモデルが「考えている」様子のスナップショットです。ある意味、思考の連鎖や類似のものと言えるでしょう。
モデルは試行中に無効なコーディングブリックに出くわします。そこで戻ります。別の無効なコーディングブリック。ある物体の結論に達しますが、不安定だと判断されます。別のものを思いつきますが、これも不安定です。安定したデザインを思いついたものの、ソファの見た目があまり良くないと判断します。別の安定したデザインを思いつきますが、望んでいるものと合っていないようです。
最終的に安定していると思われるものに到達します。実際に組み立て可能なはずです。そしてソファのように見えます。車や電車の安定したソリューション。いくつかの椅子。ロボットがゼロから組み立てるのが見えます。
もっとも、それが楽しい部分だと思います。だから彼らがそれに取り組むべきかどうかはわかりませんが、様子を見ていきましょう。完全に組み立てられたレゴセットを買いたい人のための市場があると思いますか？それはひどいです。eBayで既に組み立てられたものを買って背景に置くなんて、それには賛成できません。
Tech Explorerは「エンジニアが脚なしで10フィート高く跳躍できるロボットを作成。本当にできる」と書いています。この線虫にインスパイアされた跳躍ロボットをご覧ください。地面から10フィート（約3メートル）のバスケットボールのゴールです。ダンクしています。小さな寄生虫の線虫の動きにインスパイアされています。線虫は自分の体長の20倍高く跳躍できます。
それなら、同じ方法でロボットを作るのはどうでしょう？彼らは体をキンクを形成するように曲げ、そこから飛び出します。キンクに蓄えられたエネルギーは、ちょうど体操選手のように虫を端から端へと推進させます。シリコンロッド、カーボンファイバーの背骨により、同じ勢いをさらに大きく得られます。
次に、アート実験について話しましょう。「リバイビフィケーション」または「復活」と呼ばれるものです。ハーバード大学の科学者たちは白血球を取り、それを電極に接続し、そのパルスを真鍮のシンボルに接続して音楽を作っています。
アーティストのAlvin Lucerは死ぬ前にこれを望んでいました。彼はこの全体を一緒に組み立てるのを手伝ったのです。だから確かに彼の意図で行われました。しかし、死後の誰かの創造的なエッセンスを持つこと、特にそれがニューロンのようなものだったら、私たちはニューロンでの小さな計算を見てきましたが、それはクレイジーです。
私たちは死なないかもしれない、私たちの脳は永遠に生き続けるかもしれないという、明らかにディストピア的な始まりのようなものです。
AIがリチウムイオンバッテリーのリサイクルをどのように再構築しているかについて話しましょう。これはSubstackに書かれたもので、DeanishとMyth Besserがまとめています。
以前、これらのリチウムイオンバッテリーをリサイクルしようとすると、危険でした。非常に難しく、環境にもあまり良くありませんでした。しかし、正直なところ、多くの場合、最初から地面から掘り出すよりも環境に悪いようでした。
しかし、AIを搭載したロボットが安全に電子機器を解体し、バッテリーのどの部分を取り出せるかを診断できるようになると、人間へのリスクなしでそれを行うことができます。コンピュータビジョンによる分類は、人間の目がしばらくすると混同したり見落としたりしがちなマイクロな詳細を処理します。疲れてくるんです。
材料を抽出する能力、さらにはそれらの材料の化学的組成を理解し、それぞれのケースでどのように他の酸などに入れて溶かしたり混ぜたりするかを理解する能力が得られ始めます。リアルタイムで考えるのが実際には非常に難しかった複雑な部分を知ることができます。
このリチウムイオンバッテリーをリサイクルする新しい方法があり、特に米国では大きな変化をもたらす可能性があります。現在、それは実世界で少し役立っている段階です。しかし、将来的に構築する可能性がある完全なリチウムイオンバッテリーリサイクル工場の正確なバージョンである、これらのデジタルツインがあります。
中国とアメリカはこれを最初に、そしてより良く実現するために競争しています。実際にとても素晴らしいことです。リサイクルを大規模に行う仮想の頭脳を持つリサイクル工場です。
OpenAIがソーシャルネットワークを構築するというアイデアに戻りましょう。数週間前、私たちAI YouTuberたちが話題にしていたことを覚えているかもしれません。いくつかのリークがありました。彼らはXに似たものに取り組んでいると伝えられており、それはある意味で理解できます。
明らかにイーロンはOpenAIがやっていることと同じことをしようとしています。だからサムは「いいよ、ソーシャルネットワークを作ってみるよ」と思ったのかもしれません。OpenAIが構築したものにソーシャルネットワーク層を持つこと、それがChatGPTを通じてであれ、他の共有メカニズムを通じてであれ、本当に興味深いデータソースです。
彼らは常にChatGPTにすべてを入力している全ての人からの素晴らしいデータソースを持っています。しかし、Redditにいたときにこの人が「Soraで何が起きているか見てみろよ。ソーシャルネットワークの基盤のように見えるじゃないか」と言っていました。正直、そのように考えたことはなかったし、行って確認もしていませんでしたが、これを見てください。
これはTikTokやReelsのフィードのように簡単に見えませんか？ソーシャルメディアユーザー、つまり人の名前があります。彼らがやっていることを取り、リミックスすることができます。また、いいねを付けることもできます。本質的にトレンドを見ることができ、今日のトップが何かがわかります。プロンプトと何人がハートを付けたかが見えます。
コメント層はまだあまりなく、スクロールできるアプリ形式もまだありませんが、例えば政治的な鳩のアイデアが好きなら、明らかにもっと検索できます。「ああ、そうですね。鳩の政治家。」確かに検索機能を改善する必要があります。
これが超人的になるにつれ、バーチャルな、多くのバーチャルインフルエンサーと実在の人々が彼らの創作や物語を共有し、これを完全なソーシャルネットワークに構築できるでしょうか？それはすでにChatGPTアプリにあり、Xを訪れる人よりも多くの人が訪れ、すでに多くの電話に入っていますか？つまり、Sam Altmanはここに来て、ZuckerbergがThreadsでやろうとしているのと同じように、またはTrumpがTruth Socialでやろうとしているのと同じように更新を提供する必要があるでしょう。面白いでしょうね。様子を見ていきましょう。
YouTuberのMini Minute Manは、Facebookで彼を装っている偽アカウントを見つけました。基本的に彼のコンテンツをすべて盗んで再投稿し、フォロワーを増やしていましたが、彼のコンテンツの上にAIで生成された偽の陰謀論のナンセンスを重ねています。
これはオリジナリティとして認められるのでしょうか？それは違いを生み出すものでしょうか？彼が調査すると、何らかの理由で、AIを使ってこれらのコンテンツを作成している人は「古代の振動技術」のようなものを与えていました。基本的には侍と人魚の骨格の証拠、そのような完全な陰謀論のようなものです。
そして、将来的に何かの偽の証拠を大量に排出できるようになった場合、何が起こるかという議論に発展します。例えば、「人魚の証拠がある」と言う人がいて、「そうは思わないけど、それは何？」と聞くと、AIに大量の証拠を生成させて圧倒されるようなことが将来的に非常に難しくなるでしょう。
もちろん、見たもののいくつかは、少なくとも今のところ、テストをパスしないでしょう。しかし、いくつかはパスし、一部の人々はパスするものだけを見て、一部の人々は信じ始めます。この時点で、AIスパムアカウントやレスポンスボットが徐々に独自の文化を作り出しているようです。
「巨大な人魚の骨格が発見され、彼女の子孫を心を打つような抱擁で抱きしめている。」それは確かに心を打ちますね。下のは何ですか？これは一体何なんでしょう？これを理解しようとするのはやめましょう。「信じられない。古代の地球外生命体の画像。異星人が歴史的記録に表れる。」その通りです。それは文字通り定義上信じられないものです。
次に、このGitHubプロジェクトについて話しましょう。Dreoと呼ばれるもので、中国企業であるByte Danceから出ています。素晴らしいのは、Photoshopの未来がこのように機能すると思われる方法で動作するように見えることです。「キャンパスで黒いスウェットシャツを着た少年」と言って、スウェットシャツの画像を入力するだけで、それを彼に着せてくれます。
ここにミッキーの画像があり、「同じスタイルだがオーバーオールを着たオンドリを生成」とします。同じスタイルだが今度は丘の上の子犬。または、二人が踊っているところを想像したいが、どう言えば心の中のイメージが得られるかわからない場合。ただ二人のランダムな人の写真を撮って、それらを一緒に置くだけでいいんです。
それは単なる女性の顔と、彼女に着てほしいドレスであり、それが全身と背景の環境を作り出します。すごいでしょう？モナリザの顔が今やバイオリンを弾く白いドレスを着た女性になりました。Jeffrey Hintonが彫刻になった。わかりません。オープンソースです。人々はそれを使っています。注意してください。
これは私が予想以上に深く掘り下げたものです。現代の肉検査のための電子鼻と機械学習。AIと匂いのアイデア全体は、まだ頭の中で整理できていません。匂いについての興味深い点は、ピクセルを見るだけのコンピュータビジョンとは違うということです。
匂いは物理的なものです。何かを嗅ぐとき、その小さな部分、小さな原子があなたの鼻の中にあり、匂いの一部であるそれらの形を知らせています。将来、機械が本当に嗅ぐためには、何かをする能力が必要です。彼らはガスが入った箱を持ち、ガスの操作方法を見て、そこから匂いを推測するか、それを人間が嗅ぐものと相関させ、その解釈方法が十分に似ていることを認識し、正確であると判断できます。
そして今、これらのモデルでそこに近づいています。最も興味深い使用例の一つは、今日でも肉処理場で肉が通過するときに、ただそれを嗅ぐ人がいることです。それが腐っているか、何か問題があるかを嗅ぎ分けます。
肉が良いかどうかを嗅がないよりはマシだと思いますが、明らかに多くの人が異なるものを嗅ぎ、おそらく多くの矛盾する匂いがあり、人間は常に正しくないでしょう。腐敗臭だけではありません。
これもあります。少し不快かもしれませんが、知っておくべきこととして、肉には尿汚染がたくさんあります。そして尿の匂い、酸の匂いを嗅ぐのに、一部の人は必要な正確な鼻を持っていません。そして、これらの機械学習モデルは、肉を取ってそれを話しているものに浸し、その匂いを取得し、次に肉を取って通常の匂いを得て、これらのシステムを配置して、実際にそれらから漂う分子の違いを検出できるようになっています。
それは存在します。今や機械があり、非常に正確ですが、まだ完全な規模で稼働していません。しかし、これは肉産業にとって大きな変化をもたらす可能性があります。特に尿汚染から、将来的にはより安全な肉を手に入れることができ、これはかなり大きな問題です。そして、それは素晴らしいことです。
このチャンネルでAIが進出している新しい分野を見つけるのが好きなので、共有しなければなりませんでした。あなたはそれに興味がないかもしれませんが、興味深いと思うかもしれません。わかりません。もし興味がなければ、言語を自己解毒するのに役立つ新しいLLMトレーニングシステムに進みましょう。
MITとIBMの研究者たちが新しいプロジェクトで協力し、これを考え出しました。大きな言語モデルが学習するのを助ける新しい方法です。SASA（Self-disciplined Autoregressive Sampling）と呼ばれるモデルで、大規模言語モデルが自分自身で有害なことを言うのを避けるのを助けます。そして、彼らはそれを異なる方法で行います。
通常、モデルを再訓練する必要があります。微調整するか、これらの「かさばる」と呼ばれる報酬システムを使用して調整する必要があります。しかし、このSASモデルは基本的に自分の口から出てくる言葉を見て、おそらく人間と大きく変わらない方法で、自分が言っている文を言っている時点で気づいて、「ああ、それは有害だったり傷つけたりPC的でなかったりするかもしれない」と認識します。
それは人々が話す前に考える方法に似ています。それはまさに終わりにあります。それはすでに生成されているかのようです。トークンが生成されることの等価物だとしたら、それはあなたの頭の中ですでに言い始めている考えです。文章の始まりはすでにそこにあり、そして「もし私が言おうとしていた方法で文を終えたら、それは侮辱的になるだろう」と気づき、最後の最後で自分自身を捕まえる、インターネット上には人々が最後の瞬間に何かを言おうとして自分自身を捕まえ、最後の瞬間に修正するミームがたくさんあります。これはそのようなシステムです。ちょうど言う直前に自分のフレーズを聞いて、モデルをより毒性の少ない対話に導きます。
次に、Nvidia Researchに移りましょう。彼らはキャラクターやモンスター、動物をアニメーション化するモデルを考案しました。Soraのように実際のキャラクターを生成するものですが、仮想的な骨格にもロックしています。これは、例えばライオンや人を見て、どのような骨格構造を作るかをかなり正確に知る必要がある別のモデルです。どのような足指、足首、どのような動き、どのような靭帯、構造が実際の物理的世界でどのように動くかを知る必要があります。そのため、これらのクレイジーな物理シミュレーションすべてでトレーニングされる必要がありました。もちろん、Nvidiaはその分野で世界最高です。
そして、これらの骨格アニメーションを実際のキャラクターを生成できるものと組み合わせると、現実的に可能な動きが得られます。それは素晴らしいことであり、SoraやClingのようなツールから出てくる可能性のある良い動きを持つものよりも説明しやすいものです。
「一方、テキストから4D生成はインターネットスケールの知識を活用しますが、その高い自由度はしばしば非現実的な変形をもたらします。私たちはIKD（articulated kinematics distillation）を導入し、両世界の強みをシームレスに融合させます。テキストから3Dシステムから3Dアセットを取得し、動作制御のための低自由度の骨システムを埋め込みます。
骨の変換がアセットを変形させ、レンダリングされたビデオとテキストプロンプトが大きなビデオ拡散トランスフォーマーに供給されます。ビデオSDSの損失は、テキストに合わせて関節の動きを洗練します。私々の骨格システムはシミュレーションの準備ができています。アクティブなジョイント制御を持つ剛体シミュレータを使用して、物理ベースのモーショントラッキングを使用して合成モーションを物理的に基づいたモーションに投影できます。
具体的には、骨格システムは剛体シミュレータを使用して、アクティブなジョイント制御で直接シミュレーションできます。シミュレーションされたシーケンスは合成モーションに一致し、トラックされたモーションが物理的に実現可能であることを確保しながら、合成モーションのスタイルを維持します。」
ここでもう少し哲学的な話をしましょう。Jojo Sは、MediumでAI軍拡競争について書いています。「私たちは制御できない神を構築しているのか？終着点のないレース」。これは今起きていることについて考える興味深い方法です。チップとコードだけの問題ではありません。生存、主権、そして人類史上最も恐ろしい「おっと」の瞬間についてです。
この記事は、常に私の頭にあることに踏み込んでいます。それは多くの場合、米国と中国の軍拡競争についてです。AIが自分のコードを書き直し、自分の目標を設計し、さらに私たちが非効率であるかどうかを決定する能力を持つ時点が来るでしょう。私たちは負債かもしれません。私たちは不必要かもしれません。誰にもわかりません。
しかし、そのスイッチが入ると、取り消しはありません。引き抜く電源コードはありません。「おっと、私たちの間違いでした」はありません。その瞬間は来ています。それはすでにシリコンバレーの研究所や砂漠のサーバーファームにコード化されているかもしれません。うまくラベル付けされていることを願います。
とにかく、このコンテンツをサポートしたい場合は、patreon.com/dillingcuriousに行ってもらえると嬉しいです。他の91人のメンバーに参加して、この活動を支援してください。月に3ドル、7ドル、15ドル、何でも構いません。また、コメントで、Spotifyでこれを聴いている人がいるかどうか教えてください。それが好きかどうか教えてください。
もっとポッドキャストのように、ショーのように、またはYouTubeのパーソナリティとして考えているかどうかも教えてください。コメントを残してください。次の動画でお会いしましょう。ありがとう。