マヌスリーク流出！AGIキャンセル…

17,280 文字

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

狂気です！狂気！狂気！マヌスは人々の心を吹き飛ばしています。7日間で200万人の待機リストがあります。もしあなたがその200万人の待機リストに入っているなら、「幸運を祈ります」。私の最初の体験は、ただただ心が吹き飛ぶほど素晴らしいものでした。非常に非常に印象的です。しかし、動画やツイートでも言ったように、テストし使い続けるにつれて、さらに多くの欠点や不満点を見つけることになるでしょう。そして、これから見るように、マヌスについて出てきている情報はたくさんあり、人々をざわつかせています。
最初の動画のコメントを読んでいると、私の目に飛び込んでくるコメントが2つありました。それらは文字通り数秒間隔で、隣り合わせでした。一つは多くの罵詈雑言を含み、基本的にこれはすべてナンセンスだというもので、単なるAPIコールで意味がないと言っています。その次のコメントでは、「これは私の仕事の85%をこなします」と言っています。このマヌスAIエージェントは非常に賛否が分かれています。「これは何でもない」と「これは人々の仕事の85%を代替する」の間には大きなギャップがあるからです。
この動画では、まずマヌスが主張していることと主張していないこと、いくつかのリーク情報、そして衝撃的発見について取り上げます。また、私のクォータが補充されたので、さらに多くのタスクでテストしていきます。実際、私の進行を遅らせているのは、このシステムに対して実行できるプロンプトの量だけです。プロンプトを拒否され始める前に、1日に5つだけのようです。そのうちの1つは拡張バージョンですが。
まず第一に、Jeanという人がマヌスに基本的なファイルを提供するよう頼んだところ、そのサンドボックスランタイムコードをそのまま渡してくれました。これはその再現です。ご覧のように、あなたが尋ねればマヌスは従います。求めているものをすべて与えてくれます。そして私たち多くにとって、それは私たちが思っていたものではありません。Claude Sonnet 3.5だと思います、29のツールとブラウザ使用というオープンソースのものを使用しています。
最初の動画で、私はそれを見て、小さなクリップを見つけ、それがウェブサイトとどのように相互作用しているかを示す部分を投稿しました。私の動画を見てくれているコミュニティに感謝します。というのも、多くの人がすぐにそれが何なのかを正確に知っており、それについて話してくれたからです。その不鮮明なピクセル化されたスクリーンショットから、何を使用しているのかを正確に知っていたのです。私の動画へのコメントの中には、その知性と知識の深さに本当に驚かされるものがあります。すべてではありませんが、ほとんどはそうです。
これはどういう意味でしょうか？これはすべて偽物なのか？これはすべて単なるAnthropicのラッパーなのか？AGIはキャンセルされたのか？私たちはみんな家に帰るべきなのか？
Peak Gが登場します。彼は創業者の一人で、おそらく公に顔を出している人物です。3人の創業者のうちの1人だと思いますが、多くの人と交流しています。今のところ、この人が好きです。彼は多くのことをうまくこなしています。彼はマヌスの使用方法、彼らの哲学、そしてこのようなものを構築する考え方について説明します。
重要なのは、各セッションが他のセッションから完全に隔離された独自のサンドボックスを持っていることです。ユーザーはマヌスのインターフェースを通じて直接サンドボックスに入ることができます。そこにはUbuntuがあり、Linuxであり、オープンソースであり、エージェントが実行されコマンドを実行する仮想マシンです。サンドボックス内のコードはエージェントからコマンドを受信するために使用されるので、それは軽く仲介されているだけです。ツール設計は秘密ではなく、多くの学術的アプローチと非常に似ています。
主要な機能の一つはマルチエージェント実装です。これは以前にも言及されていたことの一つで、それは単に一つのものではなく、異なることを行う複数のものだということです。検索するもの、作成するもの、ユーザーと通信するものなど、基本的に各々が独自の小タスクを実行する小さな群れのエージェントです。これは私たちがしばらくの間話してきたことで、これが進む方向性です。Chad GPTのような一対一のチャットは、おそらく将来的にはなくなるでしょう。おそらく専門化された小さなエージェントが独自のことを行う多くのインスタンスになるでしょう。それをここで見ています。
そして、マヌスとメッセージをやり取りする時、あなたは実行エージェントとだけ通信し、それ自体は知識プランナーや他のエージェントの詳細を知りません。これは本当にコンテキストの長さを制御するのに役立ちます。もしジェイルブレイクを通して何かプロンプトを通すことができたとしても、それは正確ではなく何かを作り上げる可能性があります。必ずしもそのドキュメンテーションにアクセスできるわけではありません。
ところで、Browser Useはオープンソースです。Browser Useはこれを投稿しました。「マヌス効果」、つまり別のDeep Seek効果です。マヌスのためにブラウザ使用をダウンロードする人がどれだけ多いかについて話しています。オープンソースソフトウェアとして大きなスパイクがあることがわかります。Peakは「はい、私たちはブラウザソースを使っています。それはオープンソースコードです」と言っています。彼らは多くの異なるオープンソース技術を使用しています。
これが、ビデオで彼らが自分たちのものをオープンソース化する計画について話していた理由です。それはいくつかのオープンソースなしでは存在しなかっただろうということ、そして彼はHuggy Faceで彼のモデルをいくつか共有していることです。これは、オープンソースAIコミュニティに貢献し、それを使用し、尊重する人です。「マヌスのマスクを外すとブラウザ使用ラッパーやAnthropicラッパーである」というようなミームが出てくるところです。しかしブラウザ使用側は「落ち着いて、私たちはオープンソースだ、これは起こるべきことだ」と言っています。
彼らはClaudeと異なるQuin微調整を使用しています。これは中国発のオープンソースAIモデルです。それを構築し始めたとき、彼らはClaude 3.5 Sonnetだけを使用していました。最終的にはClaude 3.7に切り替えようとしているかもしれません。彼らはそれをテストしています。どうなるか見てみましょう。
誰かが私に言及してくれました。ありがとう。個人的には、何か見逃しているのかもしれませんが、この嫌悪感や何故これが論争的なのかがわかりません。まず、彼らが良い製品を作ったとすれば、それが確かにそうであるように見えますが、それは特許であり、特別なソースがたくさんあり、感情があり、それを巨大な会社にする多くのものがあり、良いスタートアップであり、多くの投資家を獲得するでしょう。それは良いことです。あるいは、多くがオープンソースであり、私たち全員が使用できる他の技術に依存しているため、おそらく複製され、私たち全員がより速く、より良く、より安くそのものにアクセスできるようになるでしょう。
どちらの方法でも素晴らしいと思います。なぜこれが問題なのかわかりません。もちろん、私の元の動画では、マヌスがこの特定のことをどのようにしたのか約1分間混乱していました。それは特にCloud Codeの設定方法、そしてCloud Codeを使用して様々なGitHubプロジェクトをインストールして対話する方法について小さなLinux AI開発コースを作ることができたことです。
これは彼が構築したウェブサイトです。非常に良いです。とても感動しました。しかし、シンプルとは言いませんが、これの多くは利用可能です。ドキュメンテーション、情報、それらはすべてインターネット上にあります。だから、それをすることを私は期待していました。少し頭がおかしくなり始めたのは、このプロジェクトの一部として、それが研究をし、そしてこのウェブサイトを構築し、それをすべて一発で行ったところです。
ここでClaudeの起動方法、Claudeとの通信方法、Claudeにgitクローンをさせる方法、ウェブからオープンソースプロジェクトをクローンする方法を説明しています。次に、タスクを完了するためにCloud CodeまたはCloud Coderが何をするかを説明し、Cloud Coderがこれらのコード追加を提案すると述べ、Cloud Coderが何をするかを説明しています。
この新しい情報が出る前に、私の絶対的な混乱状態を見てください。「彼らはどうやってこれを知っているのだろう？これは私が期待していたよりもはるかに優れています。ちょっと驚いています。このものは賢いはずの以上に賢いように見えます。はい、CLA Coderの使い方を説明してくれていますが、どうやってこれをしたのでしょうか？これはClaudeからの出力のように見えます。それが自分のものに実際にCoderをインストールして実行したのか疑問に思います。これは奇妙です、ちょっと驚いています。これは私を混乱させています…OK、それがどうやってそれをしたのか100%確信がありません。」
現在に戻ると、なぜ私がその時とても驚いたかというと、それがClaudeやAnthropicのAPIコールで実行されていることを知らなかったからです。Deep Seekのようなものかもしれないと思っていました。これを見ていた時、Claude Coderがこのプロセスをどのように進めるか、どれだけうまくやるかを再現する方法がわかりませんでした。なぜなら、これらの多くは非常に新しく、研究プレビューであり、多くのビデオやドキュメンテーションや人々がそれについて話しているわけではないからです。それは非常にニッチで非常に新しいものです。
このものがどうやって物事の進め方を教えてくれるだけでなく、Claudeとして演じて、その状況でClaudeが何をするかを再現できるのでしょうか？特にClaude Coderについて。何が起こっていたのかがわかりますね？パーティーでアーノルド・シュワルツェネッガーの物まね芸人に対して頭を悩ませているようなものです。「うわ、彼はとても上手だ、どうやってアーノルドの声を正確に知っているんだろう」と、この人がシュワルツェネッガーの物まねをするのがいかに信じられないかに頭を悩ませているようなものです。
そして誰かが「いや、いや、いや、それは実際の人物だよ。それはアーノルドだ。彼は自分の人生を生きているだけだ。彼は演技をしているのではなく、ただ彼自身であるだけだ」と言います。そうすると「ああ、今わかった」となります。これはCloud Codeをシミュレートしたり模倣したりするものではなく、Cloud Codeを実行するものです。
謎は解けました。これらすべてを念頭に置いて、マヌスと一緒に行ったいくつかのプロジェクトを見て、この新しい情報を踏まえて再評価してみましょう。重要なのは、このものがどのように構築されているかではなく、それが良いかどうか、それが行うべきことをどれだけうまく行うかということです。
まず、Linux AIコースを開発し、私が課したすべてのことをどれだけうまくこなしたかです。Ubuntuのインストール方法、Cloud Coderのインストール方法、これだけを行うための最低限のもの、そしてCloud Coderを使用してGitHubプロジェクトをインストールする方法などを詳細に説明しました。最初は、このタスクをどれだけうまくこなしたかについてA+を与えたと思います。
これらすべての新しい詳細が明らかになった今、私が与える新しい評価は…それはA+です。同じ評価です。素晴らしい仕事をしました。ただ、当時はCloud Coderの部分をどうやって理解したのかわからなかっただけで、今はそれがどうやったのかわかります。しかし、プロジェクトはまだ完了しており、非常にうまく行われています。A+です。
私が与えた別のタスクは、「Manis AIについてできるだけ多くのことを調査してください。どのLMSを使用しているのか、誰が背後にいるのか、どのビジョンモデルを使用しているのかなど、このものがどのように作られているかについてのあらゆることを調査してください」というものでした。当時、この回答は非常に良いと思いました。この背後にいる人々についての多くの背景を与え、正確なパフォーマンスベンチマークを示し、ビジョンモデルについて特定の名前を挙げずに少し話し、マルチエージェントアーキテクチャ、クラウドベースの非同期操作などについて話しました。
使用されているモデルを除いて、ほとんどすべてを的確に捉えていましたが、それでも「おそらくAlm技術だろう」と言っていました。これが使用されていると断言したことはなく、使用されていると想定されていることを述べただけでした。ちなみに、これは私も同様に想定していたことです。このようなものを実行する場合、何を使用するでしょうか？コストを制御し、好きなことができるようにオープンソースのものを使用します。現在の新しくて素晴らしいオープンソースLMは何でしょうか？Deep Seekのものです。
これは理にかなっています。しかし、それでもこれは事実であると想定しているだけで、そうであろうとしていると明言していました。ビジョンモデルは知りませんでしたが、これは4日前のことで、私たちが今知っていることすべてを知る前でした。
ここで質問です。全く同じプロンプトをもう一度実行します。なぜなら、当時はこの情報が利用可能で、それを的確に捉えていたからです。もし同じプロンプトを実行して同じ情報を提供したら、それは失敗になるでしょう。なぜなら、私たちは今、それについてもっと多くを知っているからです。
新しいセッションを開始し、4日前にやったのと全く同じプロンプトをただ単語ごとにコピーして貼り付けて、「実行」をクリックします。多くの同じ情報を探していますが、A+を取得するためには、基本的に私たちが学んだこの新しいものからの詳細を含める必要があります。使用しているモデル、使用しているビジョンモデルなどです。
最初の2つのプロンプトについては、両方ともA+です。次は、3つのAPIキー、3つの別々のものを使用するコードを書くというものでした。基本的に、最初のものは私がプロンプトを書き、それをOpenAIに送信し、OpenAIがテキストでスクリプトを書き出します。そのテキストを11 Labsに送信し、11 LabsはAI音声を使用してそのテキスト、そのスクリプトを音声化します。その音声ファイルをHaenに送信し、Haenはそのスクリプトを言うアバターのビデオを作成します。
Haenの部分を理解することができませんでした。APIキーが機能していないなどと言っていました。他のすべては完璧にこなしました。すべてが完璧に動作し、コマンドラインを通じて実行する方法や、ブラウザで実行できるHTMLのようなものなど、視覚的なUIを作成しました。また、選択した音声を使用できなかった場合にデフォルトの音声にするなど、様々な設定も行っていました。問題に遭遇しても、非常に堅牢でした。
私はA+を与えましたが、もちろん、Haenのことをできなかったなら、それをすることができたはずなのに、それに対してマークダウンされるでしょう。ちょっと11 LabsとボイスAPIとHaenビデオ生成のプロンプトをClaudeに投げて、これがClaudeがうまく理解していないことなのか、マヌスに関係することなのかを見てみます。それに戻って最終スコアを与えましょう。
第二次世界大戦の戦闘機ゲームデザインについては、コンテキストウィンドウの問題に遭遇したので、これにスコアを与えるつもりはありません。どれだけ複雑か、ゲーム開発、考慮しなければならないことの多さに注目してください。これがどこまで進むのか見るのがとても楽しみでしたが、クラッシュしました。しかし、コンテキストが長すぎるテストの一部ではないので、スコアを付けるつもりはありません。
次に、Universal Paperclipsのようなゲームを作るよう依頼しました。オンラインでゲームプレイを簡単に説明したWikiを見つけ、テキストファイルとしていくつかのスクリーンショットを提供しました。最初の反復を提供し、それはうまく動作しているようでした。いくつかのアイデアを与え、改善すべき点を伝えて「送信」をクリックし、寝ました。朝起きると、キャプチャに問題があったとマヌスが言っていました。
もし自律型AIエージェントがあなたのすべての仕事を自動化した時、あなたが持つであろう自由時間で何をするのか疑問に思ったことがあるなら、それはこれです。私たちはUbuntuサーバー上のリモート仮想デスクトップでキャプチャを行うことになるでしょう。私は失敗しました、これは私がロボットであることの証明ですか？私はブロックされました。それはフェイクニュースです、ロイターズ、あなたは私をブロックできません。
これは機能しますか？このブロックはできません。ここにペーパークリップゲームがあります。すべてがとてもうまく動作しているようです。素晴らしい要素を持っており、物事に反応する方法も良いです。以前にプレイしたことがあり、見た目も良く、すべてが意図通りに動作します。
このゲームを知らない方のために説明すると、基本的にあなたはペーパークリップを作って販売するAIであり、時間が経つにつれてそれを行うためのより多くの能力を開発します。政府関係者への賄賂を始め、ペーパークリップを販売するための様々な不公平なことを行います。最終的に催眠ドローンを解放し、基本的に地球の人口を奴隷化し、ゾンビにしてペーパークリップを買わせます。
人口の一部は宇宙に逃げるようですが、あなたは彼らを追い、広大な宇宙帝国を構築し、宇宙のすべての物質をペーパークリップに変換します。既知の宇宙の物質の最後の原子がペーパークリップに変換されると、あなたはゲームに勝ちます。
このAI自律型エージェントは、特定のゲームを非常に忠実に再現できるように見えます。私が今のところ見る限り、異なるUI要素を持つ5つの異なるステージがあります。これまでのところA+を与えるでしょう。
次に、ライブストリーム中に、どのような質問をしたいかについて人々に尋ねました。これらのエージェントを解き放つことができる非常に興味深い分野の一つは暗号空間です。私自身は暗号を買ったり売ったりせず、暗号を宣伝せず、避けていますが、これは非常に興味深い空間です。なぜなら、多くの新しいニュースや起こることがオンラインで投稿され、多くのポンプとダンプがオンラインで実行されるからです。
私が試みたのは、このものがこれらのコインの価格に最も大きな影響を与えるものを研究できるかどうかを見ることで、ライブ視聴者に推薦してもらった3つのコインについての発見を示すウェブサイトを作成するよう依頼しました。
最初のウェブサイトが構築され、それは良かったです。別のウェブサイトのように見えたので、後で話しますが、ご覧のように、多くのチャートやグラフがあり、視覚的に非常に良く、いくつかのページにチャート、データ、主な発見などが満載です。
唯一の問題は、私たちが求めていたことの一つである、異なるインフルエンサーや業界の人々がコインの価格にどのように影響するかを見逃したことです。そこで更新を依頼し、それが行ったことがこれです。
インフルエンサーの影響分析を更新し、大手取引所のCEOがコインの価格に最も大きな影響を与えていることを発見しました。暗号プロジェクトの創設者はそれほどではありませんが、それでも影響を持っています。有名人も非常に強い影響を持っています。プラットフォームの中では、YouTubeが最も影響力があり、次にTwitter、次にTik Tokです。
これがどれだけ本物かを理解するためには、データを詳しく見る必要があります。このものがこれらを書くために収集したファイルやコードを見ると、それは正当に見えます。仕事をしました。単に多くの数字を作り上げたわけではありません。しかし、このデータが正確であることを確認するためには、多くのフォレンジック調査を行う必要があります。
ですので、このプロジェクトにはAを与えますが、これについて十分に知らないため、その仕事を検証できないというアスタリスクがついています。将来のプロンプトでは、結果が本物かどうかを一目で判断できるようなプロンプトを見つけるようにします。
ただ、これは私がおそらく最良のプロンプトを使用していなかっただけですが、他のすべては素晴らしいように見えます。
別の問題は、最近AIを使用して作成されたビデオゲームの調査でした。いくつかの例を挙げ、そのような5〜10のゲームを作成するよう依頼しました。それらは過去3ヶ月ほどで構築されたものでなければならず、90年代のビデオゲームの美的感覚を持つウェブサイトを作成するよう依頼しました。
それを行い、非常によくやったと思います。素晴らしい仕事をしました。多くの情報を収集し、実際のゲームへのリンクを提供してくれたので、それらをチェックすることができます。いくつかのゲームについては、オンラインでホストされていないため、リンクがありませんでした。それは次回より良くできることの一つかもしれません。ユーザーがプレイできるものであることを確認するようにしてください。常に必要というわけではありませんが。
これにもA+を与えるでしょう。気づいた問題の一つは、翌日に戻ってプロンプトの生成を続け、追加するよう依頼した場合、それは機能しませんでした。コンテキストが長すぎると言っていました。もしその仮想マシン、そのインスタンスが毎日リセットされるか、コンテキストを何らかの形で保存しない場合、これが問題になることはわかります。
これは時間とともに修正される可能性がありますが、この一例では、ウェブサイトを作成しましたが、1日か2日後に戻ってウェブサイトに追加しようとすると、クラッシュします。これは制限かもしれませんが、彼らが開発を続け、私がこれらのものをテストし続けるにつれて、これがどれだけうまく機能するか見てみましょう。うまくいけば、途中から再開する方法があるでしょう。
ちなみに、11LabsとボイスAPI、Haenビデオ生成で行うようお願いしたプロンプトを覚えていますか？同じものをClaudeに投稿しましたが、彼らが使用しているものを模倣するためにClaude 3.5を使用しました。Claudeはそれを拒否しました。誤解を招くと思ったからかもしれません。
これにより、マヌスはさらに印象的になります。それは行わなければならないすべてのことを理解し、情報をクラウドやその他のAPIに供給する時、プロジェクト全体を与えないので、クラウドは大きな絵について暗闇に保たれているため、それに従う可能性が高くなります。
ここでは何も悪意のあることはしていません。ただテストしているだけですが、クラウドは「いや、それはぼくの下品にあたるよ」と決めているのをみると、ちょっと不満ですね。なぜなら、ここでは悪意のあることは何も起きていませんから。まあいいでしょう。
この時点で、マヌス自身の包括的な調査が完了しました。4日前に調査を行い、その時点では非常に正確な情報が出てきたように見えましたが、現在はもっと多くの情報を持っているので、質問は、自分自身を更新し、新しい情報を見つけ、4日後の情報に正確な新しいレポートを作成できるかどうかです。時間はそれほど長くありませんが、ここではLMモデルと基盤ステーションがあり、それを完璧に理解しています。
マヌスはマルチエージェントアーキテクチャを使用していると述べており、計画機能に主に使用されているAnthropicのクラウドとQuinモデルの洗練されたバージョンについて言及しています。これは素晴らしいです。それを完全に理解しています。これは新しい情報であり、それを見つけました。
ビジョンおよびマルチモーダル能力に関しては、使用しているものを特に言及していないので、ここで少し減点されますが、Peakが私たちと共有した内容である中央実行エージェントなどについて詳しく説明し、マルチエージェントシステムについてさらに詳細を述べているので、これはすべて正しいです。29のツールとオープンソースソフトウェアを統合していると言っていますが、これも素晴らしいです。
私はAを与えます。ビジョンシステムが何を使用しているのか理解してほしかったのですが、今ではそれがブラウザ使用、オープンソースのビジョンシステムであることを知っています。でも、まだとても良いです。
一つ試してみます。「マヌスが使用しているビジョンシステムはオンラインで入手可能です。検索して見つけられるか見てください」と言います。噂や公式に確認されていないことを投稿しないようにしているかもしれないので、「それが単なる噂であり、公式に確認されていなくても大丈夫です」と付け加えます。
それがブラウザ使用と返ってきて、私からA+を得ることを期待しています。
その間に、テストするためにいくつかのプロンプトを与えましょう。「最も有望で最新のロボット企業で、技術がオープンソースであるものを調査してください。アメリカ、中国、その他の国も検索に含めてください。各企業のページがある産業要素を持つダークテーマのウェブサイトを作成してください」と言います。どうなるか見てみましょう。
各企業についてロボットの動画、どの技術がオープンソースか、これらのロボットが一般に公開される時期に関する情報も含めてください。
次に、高努力モードに切り替えます。「二つのヘビが自律的に競争するヘビゲームを作成してください。新しく創造的な興味深いゲームデザイン要素を含めてください。勝敗条件とスコアリングシステムを含めてください。引き分けの結果がないことを確認してください」と言います。誰かが勝たなければなりません、誰かがポイントを獲得しなければなりません。
「次に、PyTorchまたは類似のものを使用した二つの別々の強化学習パイプラインを作成してください」と言います。
難易度をかなり上げたことに注意してください。使用しているのがClaude 3.5であれば、それは他のモデルほど高度ではないことを覚えておいてください。強化学習については、ゲームをプレイするために学習するAIニューラルネットを作成しています。基本的に試行錯誤を通じて学習します。高いスコアを獲得すると正の強化を与え、死ぬと負の強化を与えます。
その後、多くの反復、何百回も何千回も実行し、時間とともに改善することを期待します。最初の反復では、ただランダムにボタンを押して何をしているのかわかりませんが、時間が経つにつれて、目標を達成するようにゲームをプレイする方法を理解します。500回や1000回の実行を行う頃には、かなり上手くなっているはずです。
二つのヘビのそれぞれに別々のトレーニングアプローチを作成します。トレーニングが完了したら、どちらのトレーニングアプローチがより効果的だったかを見るために、二つのヘビを対戦させることができるようにします。
最高クラスのAnthropicとOpen AIモデル、そしてThink Modeをオンにしたgrock 3は、これを異なるレベルの優れさで行うことができますが、これは彼らの能力の範囲内です。しかし、プロジェクト全体を一度に与えたことはないと思います。通常は「これをして、次にこれをして」というように進めます。途中でトラブルシューティングできるようにしています。
通常、修正するために何かする必要があります。それだけでは自力で行うことができません。Pythonで指定して、他のモデルで行ったテストとの一貫性を保ちます。もしこれができれば、非常に非常に印象的でしょう。なぜなら、他のモデルでは一つずつ行わなければならず、プロジェクト全体を与えてから離れることはできないからです。
私の予想では、これを完了させる確率は70%ですが、それでも行うことができれば非常に印象的でしょう。
自身の調査についてですが、どのビジョンモデルを使用しているかについては、ヒントを与えてもできませんでした。これは多くの会話がTwitterやXで行われており、それらすべてを一度に調査することができないことによるものかもしれません。いずれにせよ、それについて少し減点されますが、それ以外は非常に正確で最新で、非常に優れていて効果的です。
また、「強い証拠が〜を示唆している」と言っているのも好きです。「これがモデルであり、それは間違っている」とは言わず、「本当にこれだと思うが、確信はない」と言っています。知っていることと可能性が高いことを区別できるのは良いことです。
次に尋ねるのは、「Google Storeをクローンしてください。このウェブサイトstore.google.comをクローンしてください。ただしサブドメインだけです。何ページあるかわからないので、フッターとヘッダーのすべてのリンクについては気にしないでください。メインページのリンクだけがどこかに導くようにしてください」と言います。
再び失敗です。「最大使用量の限度に達しました」というメッセージが出ました。
実際に翌日に戻ってきて、その作業を確認しています。これは問題かもしれません。仮想マシン、そのサンドボックス環境をクローズし、マヌスが特定の事柄をどのように扱うかと組み合わせると、問題が発生します。彼らはいずれそれを修正すると思いますが、見てみましょう。
これは自律型ヘビゲームで、PyTSを使用して異なる強化学習トレーニングパイプラインを作成するものです。一見したところ、すべてが素晴らしく見えます。To-Doリストとそれをどのように実行しているかは絶対に素晴らしいです。
最初に遭遇した問題は、フルのPyTorchパッケージをインストールするためのメモリの問題です。それは理解できます。それは彼らが実行している仮想マシンであり、おそらく最も強力で大きなものではないでしょう。おそらくいくつかの制約があります。
これは、クレジットカードをアップロードして「必要なものに対して追加料金を払います」と言いたいと思うことの一つです。追加のクォータやこのエージェントについてもっと知ることができるように、実行する必要のあるものを実行するための追加のBVマシンなど、私は気にしません。私だけでなく、他の人々も「はい、少し追加料金を払っても構わないので、このものができることを見せてください」と興味を持っているでしょう。
しかし、より軽いバージョンのRL（強化学習）コンポーネントで行う可能性があることを理解し、続行しています。バグに遭遇し、それらを修正しようとし、最終的に「素晴らしい進展」となり、基本的にこれ全体は非常に印象的です。
それを完了させました！異なるRLラーニングアプローチを使用して自律的にトレーニングされた2つのエージェントを持つ競争的なヘビゲームを完了させました。これは素晴らしいです！そして、使用した2つのアプローチを説明し、一方が平均してより高いスコアを達成したと述べています。これは絶対に素晴らしいです。
私が確信しているわけではありませんが、ある程度確信しているのは、それが単に数字を作り出しているわけではなく、実際に作業を行ったということです。これは印象的です。
ここに問題があります。そしてこれは簡単に修正でき、前進する知識を持っている今、それを回避する方法を知っていますが、この問題が存在するため、いくつかのポイントが差し引かれます。「すべてのコード、トレーニングモデル、すべての視覚化、すべてはここにあります。ここにファイルがあります」と言っています。
唯一の問題は、以前にも遭遇したことがありますが、それが自分のコンピュータ上にあるということです。それは仮想マシンであり、いわば生まれ、それに取り組み、「ここにファイルがあります」と言い、そしてその仮想マシンは消えてしまいます。十分に早く対処しない限りは。
しかし、すぐにこれを見て、「ファイルをダウンロードするためのリンクをください」と言いました。すると「それはサンドボックスサーバーに保存されています。あなたは直接アクセスできません」と言います。なぜこのリンクを私に与えるのか、アクセスできないことを知っているのに？
しかし、「それはここにあります。あなたに渡す方法があります」と言います。1. ファイル共有サービスにアップロードする、2. 最も興味のあるプロジェクトの特定の部分を抽出して直接共有する、3. GitHubの認証情報を提供すれば、コードのためのGitHubリポジトリを作成することができます。
ここで問題に直面します。私は後で、翌日に来たので、この時点ではこれらのものにアクセスできないと思います。確認してみましょう。
「これはそのパッケージの中にあると言いました」と言い、まだ利用可能かどうか見てみます。Peak Gが説明した方法からすると、それらのものはある時間後にワイプされるように聞こえます。100%確信はありませんが、そのファイルがまだそこに座っているなら驚くでしょう。
これはおそらく大きな問題ではなく、おそらく回避策があるでしょう。実際、いくつかの回避策を提供してくれましたし、すぐにそれらをテストしてみましょう。しかし、基本的にクレジットを使い果たしていることが問題です。実際、それらの「高努力」クレジットの1つです。
マヌス社は、それを実行してAPIコールなどを行うために、いくらかのお金を失いました。お金が使われ、リソースが使われましたが、この小さな不具合のためにすべての作業が基本的に無駄になりました。しかし、彼らはこれを修正するでしょう。これは大したことではないように思えます。
しかし、良いニュースです！パッケージはまだ利用可能です。私は間違っていました。それが消えるとは限りません。
試したいことの1つは、これが119MBであることです。まず第一に、Googleドライブリンクにアップロードできないのでしょうか？できなければ、GitHubからトークンを使用してGitHubにプッシュすることができるかどうかもテストしたいと思います。それができると言っていましたので。
「ここにアップロードしてください」と言い、誰もが書き込める開放されたGoogleドライブフォルダを提供します。
別のセッションでは、「マヌスコンピュータが重大な問題に遭遇しました。リセットするか新しいセッションを開始できます」と言っていました。コンピュータをリセットしてみましょう。
面白いことに、新しいコンピュータには前の作業ファイルが含まれないようです。各プロンプト、各インスタンスがそのものの別々のインスタンスであるように聞こえます。新しいインスタンスをクリックしてみましょう。
その間に、最新のオープンソースロボット企業を世界中から調査したものを見てみましょう。ここでは、コンテキストが非常に長いという警告があり、しばらく実行されているようです。いくつかの馴染みのある名前があります。
ご覧のように、多くのことを行いましたが、ウェブサイト開発に到達しました。何が起こったのか見てみましょう。ここで問題が発生し、コンテキストが長すぎるためにクラッシュしました。ただ、何に取り組んでいたかがわかります。とても良く見えます。
興味深いのは、自律型ヘビゲームでは、セッション内のすべてのファイルを実際にリストアップしていますが、それらをすべて1つのものにまとめてダウンロードできるということです。私がしたのは、それらをすべてダウンロードして、フォルダに入れ、cursorで開いて、cursor（これはClaude 3.7または制限付きClaude 3.7で実行されているか、Claude 3.5にダウンロードされます）がこれを理解できるかどうか見ることです。
基本的に、まず「これはUbuntuコードのように見えますが、あなたはWindowsにいますので、それらの部分を変更しましょう」と言います。まずそこから始めて、視覚化ツールを実行できるかどうか見てみましょう。
必要なパッケージがいくつか不足していることを認識し、それらすべてをインストールしています。これが実行できるなら、マヌスにプロジェクトを完了したポイントを与えたくなります。そして、成長の痛みやエラーの修正のためにもいくつかのポイントを与えるかもしれません。
結果を私に届けなかったので、タスクを完了しなかったと言えますが、一つのプロンプトでこのプロジェクト全体を行うことができれば、またはそれが必要としたすべてを完了できれば、それは非常に多くのポイントを獲得すると思います。
マヌスが再びクラッシュしたようです。それが何をしたのか、それが行ったものをすべて再構築するには少し時間がかかるかもしれませんが、これはその行った作業の資料です。
DNQとPという異なるトレーニングアプローチを作成し、それらをゲームで実行し、技術的には成功しました。DNQエージェントが一貫してより高いスコアを達成したようです。これはPPアプローチよりも36.5%高かったとのことです。そして、私がアクセスできないこの要約レポートがあります。また、将来の改善のためのいくつかのアイデアも提供しています。
私の考えはこうです。おそらく一部の人は同意しないかもしれませんが、彼らがこの全体をどのように組み立てたか、マヌスをどのように組み立てたかに関わらず、非常に強力な能力を与えています。まだ多くの問題があり、多くのバグを修正する必要があり、完璧ではありませんが、現時点では、このプロジェクトに非常に興奮しています。
開発がどのように進むのか本当に楽しみです。すべての人に対応するのに十分なサービスを確保する方法を見つけるまで待てません。必要なものを実行するために必要なすべてのものをより多く入手するためにお金を払うことができるようになるまで待てません。この最終形態でこのものを見るのが楽しみです。
多くの人々が問題を指摘し、間違いを指摘し、全体的に少し否定的です。多くの点で彼らは正しいです。問題はあります。いくつかの問題を発見しました。完了を問題にするものがあります。それがクラッシュするこのこと、これは何度も起こります。それがいつ起こるのかを判断するのは難しいです。時には実行されているように見えますが、ただそこにハングして消えます。しかし、少し前にクラッシュしており、メッセージが後で表示されるだけです。
コンピュータが重大な問題に遭遇した問題、最初のプロンプトからのコンテキストが長すぎる問題があります。行ったり来たりはなく、1つのプロンプトで、しばらく実行し、クラッシュし、1つずつダウンロードするなどの方法がない限り、作業を回復する方法はありません。技術的にはここにファイルがありますが、これはほとんど価値以上の作業を作り出しているように見えます。
調査には非常に良いように見えますが、特定の小さな詳細を見逃すことがあります。または、少なくともこの特定のことがTwitterで話されていたとしても、それらの公式ドキュメントでは利用できなかったかもしれません。それはどこを検索する意志があるかの問題かもしれません。
私のこのものに対する最終的な評決はこうです。感銘を受けたいなら、このものについて感銘を受けることはたくさんあります。一言で言えば、印象的です。不満を言うべきことを探しているなら、問題などもあります。これは新しい製品であり、まだ開発中です。多くの問題があり、おそらくそれらの多くをすぐに修正するでしょう。
全体として、これはこのようなもの、このAI自律型エージェントプラットフォームができることを本当に示していると思います。それを見るのは本当に興奮します。彼らが開発し、すべてをより多く得ることができるProプランを追加する十分な時間を持つと、このものは非常に興味深いものになるでしょう。待ちきれません。
そして、彼らがいくつかのオープンソースプロジェクトの上に構築しており、Anthropicを使用しているため、おそらく他の人々が追いついて独自のバージョンを作成するでしょう。
全体として、これは非常に興奮していることです。このものが先導するか、または同様のものを作るよう他の人々を動機付けるかのどちらかです。いずれにせよ、これがどこに向かうのか見るのが非常に楽しみです。
オープンソース版のOpenManisをダウンロードしてインストールしました。一部の人々はそれが同じであり、同様に良いと言っています。20分ほど遊んでみましたが、まだそれを完全には理解していません。もっと時間をかける必要があるかもしれません。それは良いですし、興味深いですし、確かに力がありますが、最初からマヌスほど素晴らしいわけではありません。これは20分ほど遊んだ後の感想です。
しかし、最終的にマヌスは獣です。非常に興奮します。ほとんどの問題は単純なバグ修正です。帯域幅の問題や簡単な修正が必要なものであり、最初の1ヶ月ほどで解決できると思います。そうなれば、本当に軌道に乗り、非常に興味深くなるでしょう。
もしここまで見てくれたなら、ありがとうございます。私の名前はウェス・Rです。また次回お会いしましょう。