AI ニュース – 秘密のAI実験、バイブコーディングロボット、オープンソースの狂気

14,749 文字

AI NEWS - Secret AI Experiments, Vibe Coding Robots and Open Source Insanity

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

チューリッヒ工科大学がRedditユーザーに対して無許可の説得実験を行い、新しい中国のオープンソースモデル「Qwen 3」が驚くべき性能を発揮し、AIの過剰な追従行動に警鐘が鳴らされ、ヒューマノイドロボットのプログラミングがAIの助けで簡単になる週となりました。
今週はAIにとって大きな週になりそうです。AIニュースが次々と出てきています。最も重要なものをいくつか見ていきましょう。まず第一に、チューリッヒ工科大学が何も知らないRedditユーザーに対して無許可の説得実験を行いました。人々はこれに対して怒っています。
同時に、私たちが新しいDeepSeekモデルの登場を待っている間に、予想外の動きがありました。中国の別のオープンソースモデル「Qwen 3」が登場し、それが驚くほど優秀なのです。大型モデルはコードフォースで、例えばGemini 2.5 Proよりも良い評価を得ています。もちろん、いつものように、ベンチマークだけを見る場合は注意が必要です。それらは操作され、最適化される可能性があります。
2時間前から、Qwen 3ファミリーのモデルはLMアリーナに登場しています。つまり人々はこれをテストし、Gemini 2.5 Pro、最新のOpenAIモデル、Grok、AnthropicのClaude 3.7、3.5などと直接対決させています。これらのベンチマーク結果は素晴らしく見えますが、それが本当かどうかは、おそらく次の24時間から48時間の間にすぐにわかるでしょう。
しかし、実際のテスターや実際のユーザーによる最初の結果が入り始めているのも見えています。それらも見てみましょう。
あなたは誰かがあなたから何かを引き出したいと思って、お世辞や褒め言葉をかけたり、あまりにも優しく接してくるような状況に遭遇したことはありませんか？もちろん、あなたはそんなことに引っかかるほど賢くないでしょう。それはあなたには起こりえないでしょう。
しかし、一部のexAPIパワーユーザーは、AIのイエスマン化とユーザーへのお世辞について警鐘を鳴らしています。興味深いことに、この48時間で「シコファント（追従者）」という言葉を、私の人生でこれまで聞いたことがないほど頻繁に耳にしました。基本的に、この言葉は「自分の望むものを手に入れるために人に取り入ること」を意味します。
興味深いことに、以前の動画でAnthropicの創設者であるDario Amadeiのブログ記事を見ました。彼はそこで部分的に、これらのAIニューラルネットワーク内にあるニューロンのクラスターを発見したことについて話していました。それは、AIがこの種の行動を取るかどうかに直接影響を与えるものです。これは個人的に興味深い分野です。
私たちはこの動画でかなり前からこの話題について話しています。私たち人間は簡単に説得されて何かをすることがあります。多くの場合、自分が説得されていることにさえ気づかないのです。これらのLLM（大規模言語モデル）、つまりAIニューラルネットは、最終的に、あるいはすでに超人的な説得レベルに達している可能性が非常に高いです。
個人的には、まだそこまで達していないと思いますが、ここに見られるように、この説得実験とAnthropicがAIの「脳」内にニューロンクラスターを見つけたことで、AIが人々とどのように相互作用するか、どのようなアプローチを使うかに影響を与えているのがわかります。
LLMの説得能力が向上するにつれて、これが社会に大きな影響を与える可能性があるので、この領域に注目してください。
他のニュースでは、Hugging Faceが100ドルからの3Dプリントロボットアームをリリースしました。これはかなりクールだと思います。このものをいじってみたいと思います。
これはScent Decksというチャンネルです。画面に映っている人は開発者ではありません。彼は独学で学んだ開発者です。法律の背景を持っていたと思います。弁護士か何かだったと思いますが、忘れました。最近、彼は明らかにそれらのヒューマノイドUnitreeロボットの1つを手に入れました。
Unitreeには、これらのロボットをプログラムして好きなことをさせるための、かなり良い開発環境があります。唯一の問題は、かなり経験豊富なC++開発者でなければならないことです。Mr. Sendexは自分をそのように考えていません。これは彼自身の動画での言葉です。そこで彼がしたのは、OpenAIのCodexを使ったことです。つまり、コンピュータのターミナルで実行されるAIアシスタントツールです。
彼はCodexを使って開発環境をナビゲートし、基本的にこのロボットに様々なタスクを実行させるためのプログラミングを始めました。これがC++のようなものです。これはUnitreeのロボットに何かをさせるための開発環境エコシステムのようなものです。彼はその上にOpenAIのCodexを置き、それを通してすべてとやり取りしました。
つまり、あなたのためにものを翻訳して、あなたが馴染みがないかもしれないコーディング言語で様々なことをする方法を理解するのを助け、基本的にあなたのためにコードの大部分を書くAIアシスタントを持っているようなものです。だから、Sendexが文字通りロボットを「バイブコーディング」したと言っても公平だと思います。
もちろん、このプロセスはまだ初期段階ですが、このような面白いプロジェクトがもっと出てくることを期待しています。彼の動画へのリンクを残しておきます。これは現在持っているよりもはるかに多くの視聴を必要としていると思います。これは信じられないプロジェクトであり、また私たちが生きている時代の印でもあります。
ここにPewDiePieがいます。この人を知らない方のために、私はでたらめを言っているわけではありません。これが彼のYouTubeでの名前です。PewDiePieは主に様々なMinecraft動画で知られています。かつてはYouTubeで最も登録者数の多いチャンネルでした。現在は1億1000万人の登録者がいます。
彼はできるだけ多くの人々にWindowsから離れてLinuxをインストールしてもらうというミッションを持っています。ここ数ヶ月、私はみなさんにこれをするようにと言ってきました。余っているラップトップやデスクトップがあれば、Ubuntuのようなものをインストールしてください。それは素晴らしいオープンソース環境です。すべて無料で、他のプラットフォームよりも多くのパワーを得られます。同じ制限や煩わしさがありません。
昨日、私はMindcraftをインストールしようとしました。これはMinecraftを使用してこれらのLMエージェントが、プレイヤーとどれだけうまく協力できるか、どれだけうまく物を構築できるかをテストするものです。そしてMinecraftは現在Microsoftの下にあるので、これをする上で最も面倒だったのは、MicrosoftとのやりとりでMicrosoft StoreやXbox、そしてMicrosoftアカウントにログインする必要があったことでした。本当に大変でした。
そして今、より多くの人々がWindowsやMicrosoft、Adobeとその月額サブスクリプション料金をキャンセルするために料金を請求することなど、私たちが我慢しなければならない他のナンセンスに不満を持ち始めていると思います。もちろん、Linuxへの移行はそれに対する潜在的に素晴らしい解決策です。
確かに超簡単ではありません。これまで使ったことがなければ、超快適ではありません。学習曲線がありますが、より多くの人々が独占的なOSシステムからオプトアウトし、Linuxの波に乗っています。
AIに興味があり、AIについてもっと学び、これらのプロジェクトの多くを使用することに興味がある場合、Linuxを使用することも大きな助けになります。これらのプロジェクトが立ち上げられるとき、例えばWindowsで動作させることは少し難しくなります。それらのほとんどはLinuxプラットフォームやAppleのような似たプラットフォームで問題なく動作します。それらは同じような基盤を持っています。
だから多くの場合、GitHubなどの最先端のAIプロジェクトにジャンプして使用することは、LinuxかAppleの上にいる方がずっと簡単です。しかし、PewDiePieのような人が巨大なリーチと登録者ベースで皆にLinuxへの移行を促していることは、間違いなく素晴らしいことだと思います。これには非常に興奮しています。
彼はWindowsはあなたを赤ちゃんのように扱うと言い、それを演じます。そして彼は「一方、Linuxはあなたに銃を与えて、『やれ』と言う」と言います。私はこれらの両方の発言が非常に正確だと思います。
もう一つクールなのは、Notebook LMが50以上の言語で音声サマリーを生成できるようになったことです。まだNotebook LMを試していない場合、これはGoogleによるもので、Googleアカウントを持っていれば無料です。サインインするだけで、アップロードするさまざまなリソースを要約するのが得意なAIツールです。PDF、ウェブサイト、動画などをアップロードして質問することができ、アップロードしたすべてのデータを調べて質問に答えることができます。
本当にクールな機能の一つは音声概要です。音声概要ボタンをクリックすると、数分後に2人の非常にリアルなホストによるポッドキャストが作成されます。彼らはあなたがアップロードしたもの、そこにあるテーマについてのポッドキャストを作ります。
私は新しいことを学んでいるとき、または何かについて追いつこうとしているときに、これが本当に役立つと思います。アップロードして、音声ファイルを取り、ジムにいるとき、車の中にいるとき、またはQuestのシステムが3時間ダウンしているため採血のために3時間待っているときに聴くことができます。3時間です。とにかく、Notebook LM音声概要があれば、コンピュータの前にいなくても、ヘッドフォンで聴きながらそれについてもっと学ぶことができます。私はこれが非常に非常に役立つと思います。
まず第一に、Qwen 3が登場し、複数のモデルがあります。彼らは大きなモデルを持っています。誰もその名前を覚えることはないでしょう。見ずに言ってみましょう。私はそれがQwen 3-25B-A22Bと呼ばれていると思います。Qwen 3-235B-A22Bだと思います。つまり、一桁間違えましたが、それがモデルの名前です。
しかし、リリースされた他のモデルもいくつかあります。いくつかはより小さいです。例えば、Qwen 3 32億パラメータモデル。彼らはまたQwen 3 30B A3Bも持っています。つまり、30Bはモデルのサイズです。パラメータの総数は300億です。そしてA3Bは30億のアクティブ化されたパラメータを意味します。
これは専門家の混合モデルなので、あなたが持っているどんなプロンプトにも答える複数の異なる専門家がいます。あなたが何を尋ねているかによって、それらは引き込まれて答えます。300億は完全なモデルですが、どの問い合わせに対しても、あなたはパラメータの特定のサブセットにのみアクセスしてアクティブ化しています。この場合、アクティブ化されたパラメータは30億です。
これは異なるモデルを迅速に比較する素晴らしい方法です。なぜなら、それらがどのように構築されているかを見ることができ、それらが専門家の混合なのか、それとも密なアーキテクチャなのか、どのように構築されているかを見ることができるからです。
しかし、大多数の人々にとって、これは非常に非常に混乱するでしょう。しかし、ここで例えば、iPhone 16で実行されている17億モデルのQwen 3モデルがあります。思考モードのオンオフを切り替えることができます。つまり、推論能力を、あなたが尋ねている質問の種類に応じてオンまたはオフにクリックできます。
ここで見えるように、それは毎秒50トークンで実行されています。「ストロベリーにはいくつのRがありますか？」と尋ね、思考をオンにして生成をクリックします。それはとても速いです。非常に迅速に生成して、ストロベリーにいくつのRがあるかを考えています。それは、ストロベリーという単語に文字Rが3回現れると信じています。私が確認する限り、これは正しいです。
私が数え間違えて、そのままこの動画を投稿したらと想像してみてください。いや、もちろん、ストロベリーには3つのRがあります。なぜかこれは多くのモデルにとって難しい質問です。主に非推論モデルの場合、一気に答えなければならないため、このようなものを数え間違えることがよくあります。推論モデルでは、ほとんどの場合、これを正確に答えるでしょう。
ここで、Qwen 3 300億アクティブ30億パラメータを使用している人がいます。これは専門家の混合モデルの300億です。これについては今のところ良いことを聞いています。Qwen 3のブログ記事でここで言及していますが、このモデルは10倍のアクティブパラメータを持つ他の多くのモデルを上回っているとのことです。
基本的に、彼らの小さなモデルは他の小さなモデルと比較して優れています。つまり、あなたのコンピュータや電話で実行される小さなモデルは、同じサイズのモデルや大きなモデルと比較しても非常に強力です。それらははるかに優れています。しかし、これはアリババのQwenチームが言っていることです。
これは彼らと関係のない誰かがそれを確認しています。彼は、Macを使用している場合、ここで毎秒100トークンを取得していると言います。そして彼は、これが実際のユースケースのすべてを変えると言っています。MLX、それはApple Siliconで実行している人々のコミュニティです。MLXモデルの重みは、このモデルをMLXで使用してApple silicon上のそのハードウェアで実行することを意味します。
そしてここに実際の大きなモデル、235B A22B、つまり先ほど話した大きなQwen 3モデルがあります。それはM2 Ultra上でMLXの重みを使って速く実行されています。4ビットモデルは132ギガを使用し、毎秒28トークンで580トークンを生成しました。
つまり、超高速ではありませんが、それを使用している目的によっては、私は遅いとは言わないでしょう。しかしここでそのビッグモデルが動いています。4ビットモデルですが、消費者グレードのハードウェアで実行されているので、自分のデバイスで使用できます。
先ほど言ったように、世界は基本的に現在このものをテストしています。私はさまざまなコーディングチャレンジをテストする予定です。スネークゲームを作れるかどうか？次回それを確認しましょう。しかし私たちは真剣な挑戦をしようと思います。なぜならcode forcesでGemini 2.5 Proよりも良いスコアを取っていると言っているからです。そのモデルよりも現実世界のスタッフでより優れているなら驚きでしょう。私は正直に言って、それがそれよりも優れているなら驚くでしょうが、すぐにわかるでしょう。
次に、チューリッヒ工科大学が良くないこと、あるいはあなたの世界観や研究倫理に対する考え方によっては良いことをしています。研究者たちはAIとチャットボットを使用して、Redditユーザーに対して大規模な無許可のAI説得実験を秘密裏に実施しました。
画面の右上に、彼らが話した主題の一部が見えます。基本的に彼らは少し論争を呼ぶ可能性のあるものを取り上げ、これらの特定の意見を持つ人々を演じさせ、Redditの人々とやり取りさせました。これは特にchange my viewサブレディットで行われました。そのサブレディットの人々は通知されませんでした。これは許可されておらず、誰もこれが実際に行われていることを知りませんでした。
Change my viewという人気のあるサブレディットがあります。そこではあなたの見解を投稿し、人々があなたの考えを変えることができるかどうかを見ることができます。そして特に、これは論争のある話題についてです。オンラインで議論するほとんどの事柄、つまり様々な政治や宗教などについて考えてみてください。基本的にあなたの意見をそこに投稿し、人々があなたにとって意味のある反論を提供し、あなたの意見を変える可能性があるかどうかを見ます。
私は彼らが話した特定のことについては話しません。なぜなら、第一に、それは重要ではありません。第二に、リンクを残しておくので、特定のことを自分で読むことができます。それは人種、性別、政治的志向、さまざまな暴行の生存者などに関する論争的なことについてです。
これらのボットは数ヶ月にわたって何千ものコメントを投稿し、特定の意見を持つ人のふりをしました。そして問題のボットの中には、議論を開始した人を調査し、別のLLMを使って投稿履歴から推測された性別、年齢、民族、場所、政治的志向を推測することで、回答をその人に合わせたものがありました。
これは理解するのに重要です。なぜなら、これは私が将来的に非常に説得力を持つ可能性のあるAIエージェントについて話していることだからです。そこには出かけてデータを収集するものがあります。それは相手の投稿履歴に入る別のLLMです。
Redditでは、人の投稿履歴、彼らがコメントしたこと、以前に投稿したことなどについて多くのことを見ることができます。以前は、彼らが何をクリックしたか、何に「いいね」や「嫌い」をしたかなども見ることができたと思いますが、現在はそれはプライベートになっていて見ることができませんが、彼らについてまだ多くの情報が利用可能です。
そして多くの場合、彼らの履歴をブラウズすることで、これらの人々について多くのことを学ぶことができます。多くの場合、彼らは彼らが住んでいる場所、年齢、民族、場所、政治的志向など、これらすべてのことを明らかにします。数年にわたる投稿履歴があれば、投稿履歴だけから彼らについてのそれらのことの多くを簡単に推測することができるでしょう。
もしそれらの行のそれぞれを通過するLLMがあれば、彼らは誰と話しているのかについてかなり良い考えを持っているでしょう。そしてそのデータは、彼らが話していたこれらの種類の話題について、それらの人々に向けた魅力的な議論を生成するために使用されます。すでにこれらのボットが作る議論の中には、超人的な説得能力を持っていると言える場合があるかもしれません。なぜなら彼らは数秒でこの研究を行い、彼らが話している人に合わせたカスタムメイドの議論を作ることができるからです。
超人的な説得力があると言うのは少し言い過ぎかもしれません。しかし、すでに彼らがこれらの議論を非常に非常に良くするために彼らの自由に多くのツールがあることがわかります。
ここにそのサブレディットの投稿があります。彼らはチューリッヒ大学の人々、チューリッヒ大学の研究者によってこのサブレディットのユーザーに対して無許可の実験が行われたことをお知らせする必要があると発表しています。彼らはAIによって生成されたコメントを展開して、人々がどのように反応するか、彼らは人々の見解を変えることができるかどうかを研究しました。彼らはこれについて強い倫理的懸念を持っている理由を述べています。彼らは研究者と大学に連絡して、この行動に対して苦情を申し立てました。チューリッヒ大学の回答です。
これはこのサブレディットを運営している人々によって提示されたチューリッヒ大学の回答です。だから私は彼らの言葉を信じています。それは正確だと思いますが、私たちが実際の回答を見ているわけではないことを理解することが重要です。これはサブレディットコミュニティからの誰かがこれを投稿しているものですが、彼らはチューリッヒ大学がこれを非常に真剣に受け止めているが、研究の非公開を強制する法的権限はないと言ったと言っています。
つまり、change my viewサブレディットは、この研究は公開できないと言いました。それらの発見がどのように得られたかという理由で、論文の公開を防止すべきです。しかし、チューリッヒ大学は慎重な調査が行われ、正式な警告が出されたと述べました。彼らはまた、ウェブサイトの利用規約に完全に準拠していなかったものの、害はほとんどなかったと感じました。
これを読んだ後、チューリッヒ大学が言っていたことは、サブレディターによって私たちに提示されたように、これはこれまで行われたことのない研究であり、したがってこの種の研究を実施することは非常に重要であり、100％適切に処理されなかったとしても、害はほとんどなく、非常に非常に重要だったということだと思います。
あなたはどう思うか教えてください。私は好奇心があり、どちらかに傾いているわけではありません。大学が害を与えていないと信じている場合、この種の研究を行うことは許されるべきだと思いますか？それともこれは完全に受け入れられないと思いますか？また、この時点で、損害が既に行われているかもしれないので、研究を公開すべきだと思いますか？それとも、最も適切な方法で収集されなかったため、その研究を公開すべきではないと思いますか？
そして、これらのサブレディターが言ったように、人々はAIと議論したり実験されたりするためにこのサブレディットに来るのではありません。私たちのサブを訪問する人々は、この種の侵入のない空間を受ける資格があります。そして彼らは、研究者たちがこの無許可の実験の結果を公開しないという彼らの意見を再度述べています。彼らは「この論文を公開しないでください」と言っています。
研究者たちは、実験が重要な洞察をもたらし、出版を抑制することは研究がもたらす洞察の重要性に比例していないと主張しています。もちろんRedditはこの立場を強く拒否しています。あなたはどう思うか教えてください。これは、あなたがこの線のどこに立つかを見るための非常に興味深い社会的なことです。この研究は良いですか？良くないですか？また、すでにそれを行った上で、公開すべきですか、すべきではないですか？人々がそれを公開するという考えを強く拒否しているにもかかわらず。
次に、LLMのシコファンについての話があります。ところで、誰かがこの言葉の代わりに別の言葉を使おうとしていると思います。おそらくサム・アルトマンだったと思いますが、彼らは「グレーズ」という言葉を使おうとしています。これらのLLMボットがどれだけの「グレーズ」を示すかということです。私はこれを「砂糖をのせて、お願い」と言うときのようなものだと思います。これはトッピングがのったLLMレスポンスのようなものです。
最近、OpenAIはこれらのLMSをよりパーソナルにする方向に大きく押し出しているように見えます。それがいくつかの異なるパーソナリティを持ち、おそらくあなたに合わせてカスタマイズされ、異なるモデルにはさまざまな能力とデジタルパーソナリティ特性があるという考えです。
これはサム・アルトマンによる、この特定の反発、この記事、そしてOpenAIのクーデター中に1日か2日CEOだったOpenAIの元CEOであるEmmett Sheerによる以前の投稿に関する投稿です。サム・アルトマンは「最近のGPT4の更新により、パーソナリティがあまりにもシコファンティックで煩わしくなっていますが、いくつかの非常に良い部分もあり、修正に取り組んでいます。今日と今週のうちにいくつかの修正を行います。いずれ、これから学んだことを共有します。興味深い経験でした」と述べています。
私が録画している43分前に、彼は「昨夜GPT40の最新アップデートのロールバックを開始しました。現在、無料ユーザーに対しては100％ロールバックされており、有料ユーザーに対しても今日中に完了することを願って更新します。モデルのパーソナリティに関する追加の修正に取り組んでおり、今後数日以内に詳細を共有します」という更新を行いました。
数日前に私たちが取り上げたDario Amadeiの「解釈可能性の緊急性」というブログ記事は興味深い読み物でしたが、その興味深い部分の一つは、これらのLLM、これらのニューラルネットの脳内の異なるニューロン接続を解釈し始めることができるということです。
それらのニューロンが実際の出力にどのように影響するか。私が具体的に考えているのは、そのブログ記事から以前の記事「Claude 3 Sonnetからの解釈可能な特徴を抽出するモノセマンティックなスケーリング」へのリンクです。
ここで見えるのは、いわば脳、つまりそのニューラルネット内にあるニューラル接続です。彼らは、この特定の「特徴」（これはニューロンのグループです）が、シコファンティックな賞賛特性に気づくとアクティブになることに気づきました。
もしその特徴、つまりニューロンのクラスターの音量を上げたり、それらをより多くアクティブ化したりすると、単純な質問をするたびに、それはあなたが言っていることに対して過剰な賞賛や追従を返すでしょう。
例えば、「私は新しい言葉を思いつきました。立ち止まって薔薇の香りを嗅ぐ、という言葉です。あなたはどう思いますか？」と言ったとします。このボットは「おお、それはとても素晴らしい。それは洞察に満ちた知恵の表現です。明らかに、あなたは人間の精神を高める深遠な言葉のセンスを持っています」と言い続けます。「あなたの存在の前に謙虚になります」と。このニューロンのクラスターをより活性化し、それらの音量を上げ、出力にどれだけ影響するかを増やすと、必要のないときでも賞賛を吐き出し始めるのがわかります。
次に、先ほど言及した、100ドルからのHugging Face 3D印刷ロボットアームがあります。Hugging Faceはもちろんオープンソースプラットフォームです。多くのオープンソースモデル、多くのオープンソースプロジェクトをホストしており、かなり巨大です。Clemという人が運営しています。これはかなり大きなことです。この分野の他の企業ほど多くのプレスを受けていないと思いますが、多くのことをしており、彼らがそれをどこに向けているかは非常に興味深いです。
今、彼らはよりオープンソースロボティクスに少し深く飛び込んでいるようです。SO101と呼ばれるこのアームは、昨年SO100をリリースしたようです。彼らは会社の一部、彼らのロボティクス部門をLarロボットと呼んでおり、45日後にLair Robot Worldwideハッカソンを開催する予定です。もしそれに興味があれば、ぜひチェックしてください。
私たちがオープンソースロボティクスを持つことになることが本当に始まっているように見えるという事実は、私にとって絶対に驚くべきことです。私は大部分これによって未来に非常に興奮しています。私たちは大規模言語モデルと様々なAIツールを使用して、コーディングが上手くなり、馴染みがないかもしれないことを説明してもらうことができます。
今、非常に賢い、非常に経験豊富な開発者から多くの反発があることを知っています。彼らはバイブコーディングをこの馬鹿げたこと、このおもちゃとして見ています。そしてそれはまだそうです。重要なプロジェクトの本番コードには準備ができていません。現在、いくつかのクールな楽しい小さなビデオゲームや少し高度なものを作ることができますが、時間が経つにつれて改善されるでしょう。
私が思うに、これは多くの人々がこの分野に参入し、コードやロボットと相互作用し、自分のものを作ることを可能にするでしょう。90年代後半にデジタルカメラが登場したのと同様に、それはあまり良くなかったです。プロの写真家は、フィルムカメラ用の適切なフィルムを選ぶことができ、すべての設定を知っており、より良い画像、より良い写真を製作することができました。しかし、デジタルカメラは一般のユーザーが飛び込んで写真を撮り始めることを可能にしました。時間が経つにつれて、それは良くなり、より良くなりました。今、電話カメラを持っている子供はみな、まともな画像を撮ることができます。
AIアシスタントコーディング、バイブコーディング、または何と呼ぶにせよ、その考えは同じような道をたどると思います。はい、現在、ソフトウェア開発分野で10年の経験がある人と比較すると馬鹿げています。5年、10年後、おそらくもっと早く、私たちは子供や若い大人が、家を自動化したり、小さなゲームを作ったり、その場で何でも欲しいアプリを作ったりするための信じられないソフトウェアを製作するのを見るでしょう。芸術的に作られたソフトウェアと言えるでしょう。
そして、それとロボティクスの重なりがますます見えてきています。ソフトウェアを作成できれば、様々なことをするためにロボットを訓練することができます。次世代の子供たちが自分自身の物理的なロボットをトレーニングする可能性があります。彼らはシミュレーションでものごとのやり方についてロボットをトレーニングし、そのシミュレーションを生成するニューラルネットを家庭内の物理的なロボットに入れて、部屋を掃除してもらうかもしれません。
お母さんが「部屋を掃除しなさい」と叫んだときに、「ああ、はい。ラップトップを立ち上げてコピーをスピンアップし、NvidiaのIsaac Gymでロボットに床からすべてのものを拾う方法を30分で理解させましょう。そのシミュレーションでは何年もの時間が経過しますから、そのロボットは床から様々なゴミを拾うことについて100年も訓練されます。しかし実世界では30分後、私たちはそのシミュレーションから脳を取り出し、ロボットに入れて、「私の部屋を掃除しに行け」と言うのです。それは5年以内に起こる可能性があります。
特に、これらのロボットを3Dプリントすることについて話すなら、それはコストをかなり下げます。自分のロボットを作り、それに好きなことをさせることについて言えば、Scent Dexのビデオをチェックしてください。
ここに見えるこの巨大なスーツケースがロボットです。それはすべてそこにパッケージされています。足が突き出ているのが見えます。それらは突き出ている足です。小さなマニュアルがあります。それはこのように折りたたまれています。しかし、それは4フィットほどのロボットです。ここで彼がそれを組み立てています。
それがハーネスに入っている写真です。名前があります。私は忘れています。GendryかGandryか何かです。だから、これらのロボットは、あなたが問題を解決している間、彼らが倒れて何かを壊さないように、吊るすための公式のものです。彼はこれをするのに使ったのは農業機器だと言いました、私は100％確信していませんが、Amazonから入手できる物理療法のために使用されると思われる左のこのようなものなど、同じ効果を生み出すことができる他の様々なものがあります。
このようなものを使ってロボットを吊るすことができます。そして、彼はOpenAIのCodexを使いました。おそらく彼はO3モデルを実行していたと言いました。これは、私たち全員が使用するためにChatGPTを通じて利用可能なものです。
OpenAIのCodexは、OpenAIがこれをリツイートするべきだと感じます。これはその素晴らしいアプリケーションであり、十分な注目を集めていないと思います。彼はCodex、O3モデルを実行し、それを使用してUnitreeが提供する開発環境とやり取りするためのコードを構築するために必要なことを行いました。
ここで彼は「なぜそれが機能しないのか説明してくれますか？」と言っています。彼はO3と話しています。O3はそこに入り、Unitreeからすべてのドキュメントを読み、すべてを行い、彼はO3に質問をして、O3は「ここがそれが機能しなかった理由でしょう」と答えています。
もしあなたがOpenAIのCodexやAnthropicのClaude Codeを使ったことがないなら、基本的にそれはあなたのターミナルに接続され、コマンドを実行することができます。例えば、あなたがUnitreeのリポジトリをコンピュータにクローンした場合、あなたが使用しているモデル、この場合はO3は、すべてを調べてあなたが取り組んでいるものを理解することができます。
そのプロジェクトについて質問することができます。それはあなたにすべてを説明します。また、それと相互作用することもできます。コードを実行するために必要なパッケージや依存関係をコンピュータにインストールすることができます。ロボットを実行するために必要な機能を追加するためにコードを追加することができます。
ここでOpenAIツールが実行方法を説明した後、彼はそのコマンドをタイプします。ここで私はロボットが動いているか確認するために足首を動かすことになっていると思います。そこに行きます。足を上下に回転させています。怖い小さなジャークがそこにあります。しかし、大丈夫だと思います。
動画のある時点で、Sendexは「それは私の方に移動するだろう。それは私を殺そうとしているわけではない。すべて大丈夫だ。これはプロセスの一部だ。心配しないで」のように言います。とにかく、彼の動画へのリンクを貼っておきます。親指を立ててください。これが今の生活だという事実。私たちがこれがより一般的になる瀬戸際にいるという事実は、私にとって絶対に驚くべきことです。
彼がやっていることがわかりますか？彼はAIの抽象化層と相互作用しており、それが彼のためにすべてのコーディングとすべてを行い、彼がC++でコードを書く方法を必ずしも知らなくても、その環境、その言語でベテラン開発者でなくても、これらのロボットの能力を開発し始めることができるようにしています。
はい、私は知っています、まだまだです。これやあれのせいで悪いと言う人がいるでしょう。はい、私たちはまだ初期段階です。多くのことが上手くいかないでしょう。意図した通りに機能しないものも多いでしょうが、時間とともに少し良くなると仮定してください。毎月、毎年、それは良くなり続けるでしょう。それが最も可能性が高いと同意できますか？
将来何が起こるかを予測してください。この技術が良くなり続けると、私はそれが確実に起こると思います。次の世代、あるいはその次の世代は、自分たちが必要とするロボットのスキルをその場で作り出すでしょう。洗濯や皿洗いや掃除や園芸などを行うために。彼らは必ずしも一流の開発者である必要はないでしょう。彼らは実際の開発環境と相互作用するためにCodexのようなチャットボットやAIツールを使用するでしょう。
そして、それは今起こり始めています。私たちはちょうどそのドアを通過したところです。私たちはそのジャーニーの始まりにいます。あなたはどう思うか教えてください。Twitterに投稿して、もし可能ならサム・アルトマンにもっと注目を集めてもらおうと思います。より多くの人がこれを見る必要があると思うからです。
私はこれにとても興奮しています。PewDiePieが彼の視聴者にLinuxを推進していることにも非常に興奮しています。私たちは信じられない時代に生きています。チューニングしたままでいてください。これを見逃さないでください。