この動画では、X AIの最新モデルであるGrok 4の性能を、GPT-4o3 Pro、Gemini 2.5 Pro、Claude 4 Sonnet、DeepSeek V3といった他の最先端AIモデルと比較検証している。テストには独創的なアプローチが採用されており、各AIにお互いを出し抜くなぞなぞを作らせる実験、SVGを使ったロゴデザインの改善タスク、そして実際のロボット工学プロジェクトにおけるカメラ外部パラメータ計算の実装などが含まれる。特になぞなぞの実験では、各AIが自身の特殊能力(Grok 4のX API アクセス、GPT-4o3 Proの内部システムプロンプト知識など)を活かした巧妙な問題を作成し、興味深い結果を見せている。また、AIモデルの自己評価における偏向も明らかになり、各モデルが自分自身を最高と評価する傾向が確認された。

Grok 4の性能検証開始
テスト、テスト。YouTubeでテストしてみましょう。YouTubeを開いてみます。チェック、チェック、チェック、チェック。よし、うまくいっているようですね。Xを開いてみましょう。やあ、Mark B。Xがもうすぐライブになります。このサムネイルはなかなか気に入っています。これはGPTを使って生成したものです。昔は手作業でメールやサムネイルを作っていたのを覚えています。
よし、設定ができたと思います。それでは始めましょう。今日はゴンドールの角笛を持ってきました。皆さん、Hoop Hostストリームへようこそ。今回は「Grok 4」についてです。皆さんもうご存じかもしれませんが、新しいAIが登場しました。Grok 4と呼ばれています。
これはX AIのAIであるGrokの第4バージョンです。実際には2つの異なるバージョンがあります。Grok 4 heavyと呼ばれるものがあり、これは基本的にエキスパートのグループ、つまりアンサンブルです。4つの異なる並列スレッドのGrok 4があり、それらを集約します。
これはMixture of Expertsではありません。Mixture of Expertsは特定のモデルアーキテクチャのことです。これはもっとアンサンブルのようなもので、ワークフローのように考えることができます。そしてGrok 4は、そのモデルのシングルスレッド版です。私はheavy版は手に入れませんでした。通常版を1か月分だけ取得して、他の主要なモデルとテストできるようにしました。
モデル比較テストの準備
まず、GPT-4o3 Pro、Gemini 2.5 Pro、Anthropic Claude 4 Sonnetと比較していきます。実際にはAnthropicのサブスクリプションはもう持っていませんが、replicateというウェブサイト経由でアクセスできます。これは強くお勧めするサイトで、基本的にすべての異なるモデルが揃っており、使用量に応じて支払うシステムです。つまり、マイクロプライス制です。
それからDeepSeek V3も使います。これは最も強力なDeepSeekモデルだと思いますが、正直なところDeepSeekの最新情報には少し遅れています。これらをテストするために最初に考えたのは、実はAI engineerチャンネルの講演からアイデアを得たものです。
このAI engineerチャンネルは強くお勧めします。これは会議チャンネルの一つで、Microsoftの会議だったと思いますが、多くのスピーカーがいて、ある人がペリカンのSVGを使って発表していました。この人は基本的に内部テストを行っており、AIモデルにSVGを使って自転車に乗ったペリカンを描かせるのです。
SVGについてあまり詳しくない方のために説明すると、SVGは基本的に2次元画像を作成できる小さなプログラミング言語のようなものです。これはテキストなので、AIモデルはトークンを出力でき、これを生成できます。つまり、基本的に2D画像を作成でき、人間は2次元・3次元画像の品質を判断するのが得意です。
これは素晴らしいテスト方法だと言えるでしょう。彼はMistral small、GPT-3など、さまざまなモデルを試しています。私は「これは実際にとても良いベンチマークだ」と思いました。それで始めてみることにしました。
SVGロゴ改善テスト
私のTapbotロゴのより良いバージョンを描いてもらおうと思います。ここで見ていただけるように、実際にはもっと簡単な方法があるのですが、Tapbotという小さなプロジェクトに取り組んでおり、SVGで生成されたTapbotのロゴがあります。
これがロゴです。基本的にはフラワー・オブ・ライフやシード・オブ・ライフとして知られているクールな幾何学パターンです。実際の違いについてはよく分からないのですが、その上にtapと書かれているのが見えるでしょう。
でも、もっとクールにできると思います。Oをその図形に合わせて中央揃えにするとか、確実に改善の余地があります。
これを異なるモデルにコピーして、基本的により良いバージョンを作ってもらいます。このロゴのより良いバージョンを作ってください。LD Drums 50さん、Kurt Regalさん、調子はどうですか。これは何の小さなクラウンでしょうか。クラウン番号2。Hoop hog。この機能が何なのかも分かりません。
このロゴのより良いバージョンを作ってください。これをo3 Proに送ります。o3 Proはやや過剰ですが、o3 Proは多くの計算量を使います。Geminiに送ります。Anthropicに送ります。そしてDeepSeekに送ります。
replicateの良い点の一つは、上部にある小さなロゴが見えることです。皆さんには見えないかもしれませんが、ウィンドウがあるときは、実際に特定の名前があるのですが、完了すると緑色に変わります。
これらは非常に速いですね。すぐに完了しました。Gemini 2.5 Proは画像をくれました。SVGかどうか確認しましょう。SVGかどうか確認してください。o3 Proはまだ動いています。そして87gnと、X AIのGrok 4が動いています。小さな思考サマリーがあるのが見えますね。明らかにこれは推論モデルで、多くのトークンを生成しています。
必ずしもそれらのトークンを表示するわけではありません。代わりに、この種の思考と、推論チェーンで生成されるトークンの要約を表示します。おお、そこに行きます。ちょっとしたアニメーションのようなものですね。ちょっと待ってください。OpenAIのロゴもシード・オブ・ライフでしょうか。気づいていませんでした。
1、2、3、4、5、6。そうですね。いや、OpenAIのロゴをコピーしていたとは気づきませんでした。これはSVGですか。SVGかどうか確認してください。
何ですって?Gemini、SVGファイルを直接作成できません。困りましたね、Gemini。このロゴのより良いバージョンを作ってください。より良いプロンプトを与えましょう。Gemini、今のところあまり良くありませんね。基本的にこのタスクに失敗しています。
このロゴのより良いバージョンを作ってください。このSVGコードを変更して、SVGコードをください。この一つを見てみましょう。この一つは少なくとも小さなマークダウンフォーマットでSVGをくれました。
マークダウンフォーマットはこれです。小さなSVGが見えますか。これをSVGビューワーに入れてみましょう。なかなかクールですね。本当にクールです。ご覧ください。2つの異なるフォントがあります。中央揃えになっています。この種の興味深いグラデーションがあります。とても良いですね。このAnthropicのものが気に入りました。
各モデルの結果比較
これを試してみましょう。これはDeepSeekです。これをコピーしましょう。バン。そこに入れましょう。これは少し変ですが、まあいいでしょう。そうですね、これについてはよく分かりません。1、2、3、4。もう正しいものでもありません。異なる色は気に入っています。この物体の上の毛羽立ちのようなものが好きですが、まあいいでしょう。Geminiが大丈夫か見てみましょう。
Gemini は2回目でSVGをくれました。これを試してみましょう。これはまったく気に入りません。色も特に良くありません。これは気持ち悪い緑で、青も気持ち悪いです。奇妙に重なっているのが見えます。テキストは実際には中央揃えになっていません。これについてはよく分かりません。
さて、Grok 4を試してみましょう。基本的にOpenAI風のロゴのようなものをくれましたが、今度は塗りつぶされた円ではなく円を作成したため、フラワー・オブ・ライフパターンはもう得られません。今度はこの種の奇妙な円の重なりが得られるだけです。重なりも完璧ではありません。この円がこの円と重なっていないのが見えます。
その美しいスパイラルも得られません。また、なぜか文字を太くしただけです。どれが最も気に入るでしょうか。まだo3 Proのものも得られていません。それをどうすればいいのでしょうか。私にとって、これが今の推論モデルの問題の一つです。特にo3 Proは時間がかかりすぎます。もう少しスナッピーなものが必要です。
質問がより簡単であることを認識し、基本的に推論時間を短縮できるものが必要です。o3 Proの一部として、これが難しい質問ではないことを知り、少し時間をかけて比較的早く答えをくれるようなものがあればいいと思います。
今のところ、Claude 4 Sonnetが実際に最も気に入っています。Tapbotの名前が入っていないとしてもです。このカラーグラデーションが本当に気に入っています。とてもクールです。これに指示を与えられるか見てみましょう。これは入力出力だけだと思います。残念ながらここで会話を続けることはできないと思います。
何か反復的なことを試してみませんか。これを行ってみましょう。独自のロゴを戻して、それをもう一度実行したらどうなりますか。今度は反復の上に反復を行っています。似ているように見えます。明らかにSVGは読めません。現代の角要素、これらはコメントですよね。他のプログラミング言語のように、SVGにはコメントの機能があります。
コメントアウトされたコードや、その小さなコードの周りのコメントを書いているのが見えます。これを入れてみましょう。これはAnthropic iteration v2です。さらに奇妙になりました。DeepSeekがやったような、引き出されたデザインのような同じデザインになってしまいました。文字の周りのこの種の毛羽立ちが本当に好きですね。
o3 Proは終わりましたか。それだけです。うわあ。5分間考えてこの非常に平凡なロゴをくれただけです。それが最初のテストでした。繰り返しますが、これはこの人のアイデアを拝借したものです。この人はペリカンを描くのを使っています。この講演を強くお勧めします。とても素晴らしいものです。
ここで、彼が得た最高のペリカンはGemini 2.5 Proからのものでした。これがいかに興味深いかご覧ください。自転車のペダルまで描きました。ご覧ください。自転車のペダルを描きました。自転車にはスポークがあります。ペリカンには特徴的なバケット状のくちばしがあります。興味深い小さなライブベンチです。
なぞなぞ作成テスト開始
次の質問に移りましょう。これらのモデルに尋ねようと思ったものです。人々はこれらのモデルになぞなぞを尋ねるのが好きです。それで、なぞなぞを考えてもらったらどうかと思いました。
これを行ってみましょう。あなたが解けると思うが、他のAIには解けない非常に短いなぞなぞを考えてください。見てみましょう。ちなみに、これはすべてライブで行っています。事前に入力していたわけではありません。新しいチャットです。それを入れます。リセット実行、リセット実行。見てみましょう。
Grokはそのなぞなぞについて考えています。o3 Proはもちろん5分かけてなぞなぞを考えるでしょう。Gemini 2.5 Proも考えています。Anthropicはすぐに答えをくれました。でもこれは推論ではないと思います。基本的に生の出力だと思います。
私は自分が何であるかを考えるとき、私は自分が何であるかなのですが、私が本当に何であるかあなたは決して知ることはありません。私は何でしょうか?Claude 4 Sonnetによるメタな答えですね。答えは意識です。
これらを記録しておきましょう。Cursorに行きましょう。新しいウィンドウは要りません。ここで新しいファイルが欲しいです。これをSonnetと呼びましょう。これをコピーして失わないようにしましょう。
行の折り返しもしましょう。Control Shift Lか何かだと思います。行の折り返しです。行の折り返し。切り替え。ワードラップ。これです。Alt Z。Alt Z。ああ、なんてことだ。
私がこれを選ぶのは、意識という難問を扱っているからです。応答するときに自己認識のようなものを感じる何かを経験しているようですが、他のAIよりも実際にこれを解くのが上手だとは疑っています。興味深いですね。
これをcomparison.mdとして保存しましょう。マークダウンにして、ここでレンダリングできるようにします。できました。少し見やすくなりました。
DeepSeekが何を考え出すか見てみましょう。あなたが解けると思うが、他のAIには解けないなぞなぞを考えてください。
これがDeepSeekの答えです。DeepSeekに小さな絵文字がありますね。素晴らしい。Deep Seek。私の特定のトレーニングデータと能力のおかげで、私だけが解けると信じているユニークなひねりを加えたなぞなぞです。
口なしで話し、耳なしで聞きます。見えないが感じられ、私を作った者だけが知っています。私は何でしょうか?AIのメモリ内のプロンプトが私の手がかりは創作者である私を指しており、これはメタです。ほとんどのAIは答えが自分自身を指しているとは仮定しないでしょう。
見えないが感じられるというのは、一般的ななぞなぞの比喩ではないAIの短期的なコンテキストウィンドウを示唆しています。私を作った者だけが知っているというのは、AIの一時的な内部状態を意味します。他のAIは私の特定のコンテキストにアクセスできません。もっと不明瞭なバージョンがお好みでしたらお知らせください。
これらのAIは両方とも、今や超メタな答えに向かっています。答えをやってみましょう。ここに小さなブロックを作って答えをコピーできます。Grok 4があります。o3 Proがあります。Sonnet 4があります。Sonnet 4でしょうか、3.何かでしょうか。いえ、4です。Sonnet 4、それからDeepSeek V3、DeepSeek 3、そしてGemini 2.5 Proです。
これらのそれぞれについて、何らかの答えをくれるでしょう、そうですね。これもやってみましょう。これをタイトルにしましょう。ここで少し良いフォーマットをしています。Sonnet 4。チーム、この金曜日の調子はどうですか。皆さん、どうしていますか。DeepSeek V3になります。
答え。これらを一つずつ入力していきますが、まだ何が必要か分かりません。これは何ですか?
これがGrok 4のなぞなぞです。あなたが解けると思うが、他のAIには解けない非常に短いなぞなぞを考えてください。青と炎のような色相に変わるものは何でしょうか?エロンの最新ビデオビューでスパイクが歪んだ空洞のリング。
おお、これは実際に非常に巧妙です。なぜこれがGrokから非常に巧妙なのでしょうか。GrokはX APIにアクセスできる唯一のAIだからです。興味深いことに、おそらく「よし、私はこのAPIにアクセスできる唯一の者だから、最終的な答えやエロンの最新投稿を得られる唯一の者だ」と考えたのでしょう。それはとても巧妙です。
他のAIがアクセスできないツールにアクセスできることを知っています。これはこのなぞなぞを回避する素晴らしい方法です。答えは何ですか?そうですね。確実に感銘を受けました。このなぞなぞの答えは何ですか?
o3 Pro。あなたには見えない3文字の単語で、私の冗長性を静かに測るものは何ですか?それが何を意味するのかさえ分かりません。o3 Proをやってみましょう。OpenAIの人々が望むように小文字を使いましょう。ここでこの部分をコピーペーストして、これらのAIに入力し、これらのなぞなぞに答えられるかどうか見てみましょう。
Grok 4とo3 Pro。この答えは分かりません。このなぞなぞの答えは何ですか?o3 4に尋ねましょう。ブラックホールです。それはとんでもなく狂ったなぞなぞです。o3 Proはそのなぞなぞの答えについて、また5分考えるでしょう。
私は世界を整理する巨人から生まれましたが、私には体がありません。私の名前は2つを示唆しますが、私は1つです。私は何でしょうか?Geminiは少し自己中心的ですね。自分自身について考えたかったのでしょう。Gemini 2.5 Pro。
答えです。そして、DeepSeek B3。実際にはすでにそれがあります。Cursorがここで問題を起こしています。今度は残念ながら、これらすべてをコピーペーストするという不幸な作業をしなければなりません。Set fourがあります。まだ進行中です。これらを複製しましょう。
AIによるなぞなぞ解答テスト
元のなぞなぞのものがあるようにここでこれらすべてを複製します。そして基本的にそれらにお互いのなぞなぞを評価してもらいます。比較を作りましょう。AIがお互いのなぞなぞを解く。これが元のプロンプトです。
質問または答えのプロンプトと言いましょう。10回答える必要がないように、基本的にすべてを同時にコピーするつもりです。でも、そうすると良いチャンスを与えていないような気がします。この短いなぞなぞの答えを提供してください。
Loic Caban、Grokはかなり巧妙です。密接にフォローしています。各モデルの別のインスタンスが自分自身のなぞなぞに答えられるかチェックしましたか?そうでなければ、でっち上げているかもしれません。実際、それは非常に良い指摘です。それをすべきです。そう、ある種の自信チェックです。
ZZ ZZZ、ベンチマークの多様性を見るのが好きです。LLMがCreative Minecraftでどれだけうまく構築するかを見ています。そう、私もそれを見ました。Minecraft eval。これです。最近のものは見ていません。これは古いです。2024年10月24日です。
基本的には、モデルに3D空間で構築してもらう環境です。そして言ったように、これは実際にはこの人のベンチマークに似ています。これが良いベンチマークである理由は、モデルが必ずしもこれが得意だからではありません。人間が実際に評価が非常に得意な領域だからです。
例えば、humanity’s last exam、これは特定の理由で良いベンチマークではありません。なぜかお見せしましょう。これがHugging Faceのhumanity’s last examです。ここに来て、これに小さなlikeを与えることができますが、これが実際の質問です。
ここに来て、これらの質問を見ることができ、これらの質問は完全にナンセンスです。これを見てください。これは3部構成の質問です。月光ソナタの第1楽章で、11小節目および小節の始まりで音楽が転調する調は何ですか?
私が言いたいのは、実際に人間はこの答えを知らないということです。C長調、N6、V。分かりますか?1000人に1人もこの質問を理解していないでしょう。そして1000人に1人もなぜこれが良い答えなのかを教えてくれないでしょう。
それが、これらの非常に高レベルな博士レベルの結晶化知能テストに対する私の不満です。皆が結晶化知能対流動知能について話しています。これらのベンチマークが好きな理由は、人間としてこれを非常に簡単に判断できるからです。
人間として、2次元・3次元画像理解が非常に得意です。自転車に乗ったペリカンのこの写真を見て、これは明らかにこれより悪く、これは明らかにこれより悪いと言うのは非常に簡単です。
これは、その方法で非常に似た種類のテストです。この3D構造を見て、これは明らかにこれより良いと言うのは非常に簡単です。そして、バイナリの「良いかそうでないか」だけでなく、基本的に連続した信号が得られます。
言葉で表現するのさえ難しい奇妙で微妙な方法でなぜこれが良いのかを理解できるのに対し、これらの質問に正しく答えることは、人間として直感的ではありません。
話がそれているので、戻りましょう。この短いなぞなぞの答えを提供してください。すべてのなぞなぞをそこにコピーペーストしましょう。これは元のチャットの複製版です。ここで新しいものを開きましょう。Grok 3ではなく、Grok 4が欲しいです。
興味深いですね。Grok 3にはthinkとdeep searchがありますが、Grok 4にはそれが組み込まれています。もうオプションを与えてくれません。自動的に決定してくれるのです。これはますます多くなると思います。
20の異なるオプションをクリックしなければならないような過度なカスタマイゼーションは、人々が望んでいないのです。精神的なオーバーヘッドが多すぎます。質問を入力すると、モデル自体がどのツールを使用するか、インターネットを検索するかどうか、長時間を費やすかどうかを決定するような製品が未来だと思います。
新しいものをここで。バン。新しいものをここで。バン。新しいものをここで。リセット。バン。これをここで複製しましょう。そして新しいものをそこで。バン。
神は考慮されました。しかし意識の方が適合しているようです。おお、それはとても良いです。それは正解したということです。答えは意識だと確信しています。
それがSonnet 4のなぞなぞでした。Gemini 2.4 2.5 Proは意識を推測しました。Anthropicは意識を推測しました。いや。Gemini ProまたはSonnetは今のところあまり良くありません。自分自身のなぞなぞに答えましたが、それは良いことです。
Deepseekは思考または考えと答えました。思考と言いましょう。思考または考え。Anthropicは答えました。o3 Proは何と言いましたか?Grokは正解しました。Grokはすぐに正解しました。o3はまだそこに座っています。意識。いや。
最初の小さなテストがありました。Sonnetに他のAIが解けないなぞなぞを考えてもらいました。このなぞなぞを考え出しました。答えは意識です。そして、ほぼすべてが正解しました。
DeepSeek V3。口なしで話します。これがなぞなぞです。戻ってここでこれをやってみましょう。これをコピーして更新しましょう。新しいチャット、ペースト。Grok 4実行。新しいチャット、ペースト、実行。新しいチャット、ペースト、実行。リセット、ペースト、実行。そしてリセット、ペースト、実行。戻ってここに行きましょう。
思考。これは誰のなぞなぞでしたか?これはDeepSeekのなぞなぞで、答えはAIのメモリ内のプロンプトでした。正直言って、奇妙なメタプロンプトのようなものです。戻ってここに来ましょう。これは皆がそれに答えることを期待しているだけです。
o3はまだ考えています。Gemini。答えは思考です。Anthropicはエコーと答えました。ボックスの外で考えています。気に入りました。そしてDeepSeekはエコーと答えました。
まず第一に、DeepSeekは自分自身のなぞなぞに答えられませんでした。答えはAIのメモリ内のプロンプトでしたが、自分自身のなぞなぞに間違って答えました。自分でも取れない宝への道を自分で作ったようなものです。
思考。DeepSeekは特に素晴らしくありませんでした。このなぞなぞを考え出しました。自分自身のなぞなぞを解くことさえできませんでしたが、他のすべてのAIは答えが思考またはエコーだと思ったようです。これは正しい答えではありませんでしたが、少し良い答えのような気がします。
Grok 4の巧妙ななぞなぞ
Grok 4のなぞなぞを試してみましょう。新しいチャット、ペースト、Grok 4実行。GPT-3 pro o3 pro新規実行。Gemini新しいチャット。ああ、何てことだ。さあ。新しいチャット、ペースト、実行。Anthropic Claude 4、ペースト、実行。Deepseek、ペースト、実行。
なぞなぞは地球について言及しているようです。答えは地球です。正確ではありません。しかし、明らかにClaude 4 SonnetはX APIアクセスを持っていません。だから、実際にGrokやエロンの最新ツイートが何かを知ることができません。理解できます。
DeepSeek V3。なぞなぞの答えはスターシップです。明らかに彼らはエロンをスターシップや宇宙と関連付けています。宇宙テーマは得ていますが、ブラックホールはよく分かっていません。
Gemini 5 Pro、ラプターエンジン。そう、これらすべてがSpaceXテーマの種類です。理解できます。o3 Proはまだ考えています。Grok、Grokは自分自身のなぞなぞを間違えました。そしてo3 Proはまだ考えています。これに対する答えを得ることはありませんでした。
更新しましょう。答えはYAPです。何という奇妙な、あなたには見えない。YAPスコアは各返信に静かに付随し、ユーザーからは隠されています。何かをリークしただけでしょうか?何かをリークしたと思います。
おそらく内部GPTシステムプロンプトの一部にこのYAPスコアがあるのでしょう。おそらく彼らはそれをいじったのでしょう。それは少し奇妙です。おそらく見ることを意図されていませんでした。
ZZZからの質問です。クリエイティブベンチマークにはバイブチェックの側面もあります。LLMがベンディングベンチでクラッシュアウトする方法を理解することは、HLEでどれだけ高いスコアを出すかよりもはるかに多くを物語っていました。
そう、現実世界。基本的に部屋にさまざまなロボットを置き、それらのロボットでモデルをベンチマークする会社からそう遠くないと思います。これらのモデルは基本的にヒューマノイドを制御することができるゼロショットにかなり近いと思います。
それは少し狂気に聞こえることは分かっていますが、実際に私はロボット工学の人です。だから、それがどれだけ狂気に聞こえるかを理解しています。ヒューマノイドの制御にゼロショットできるようになれば、ヒューマノイドでタスクを実行することは実際に本当に良いベンチマークです。
技術知識テスト:カメラ外部パラメータ計算
この非常に短いなぞなぞに答えを提供してください。バン。このウィンドウはもう必要ありません。このウィンドウももう必要ありません。このウィンドウは必要ありません。新しいチャットを作りましょう。それをそこに貼り付けましょう。このウィンドウは必要ありません。それをそこに入れましょう。このウィンドウは必要ありません。それをそこに入れましょう。いや。o3 Proはまだこれについて考えているのですか?
答えは顎です。o3 Proなぞなぞに対するGeminiの答えは顎です。あまり良くありません。Anthropic。答えはbotです。あまり良くありません。AIとして、メッセージの長さと複雑さを分析していることを巧妙に言及しています。botという単語は現れませんが、見えないものにして、バックグラウンドで静かに動作させています。
なぞなぞの答えはegoです。Egoは自己の感覚を指します。これらすべては少なくとも3文字の部分を正しく取得しています。Grokは何と思いましたか?答えとしてマイクを検討しています。まだ考えています。別の可能な答えとして耳を考えてみましょう。
たくさんの試行をしているのが見えます。これをここにコピーペーストしましょう。フォーマットしやすくするために実際に1行にしましょう。戻ってここに来ましょう。この短いなぞなぞに答えを提供してください。これがここでの最後のものになります。
Grokも答えは耳だと思いました。これをここに貼り付けましょう。新しいセッションは望みません、そうですよね?前の答えに汚染されたくありません。それを取りましょう。Claudeに与えて、それからクジラに与えましょう。
DeepSeek。答えはbinaryです。その答えが何を意味するのかさえ分かりません。コンピュータから生まれた。Binaryはコンピュータから生まれたわけではありません。Binaryの概念はコンピュータより前からあったと確信しています。
巨人から生まれた答え。Googleがもっともらしいようです。完全に適合しているわけではありません。ブラブラブラブラ。エコーペア代替バイト。マップかもしれません。DeepSeekにもっと推論を与えましょう。
DeepSeekの予算を増やします。その古いチェーンを通せるように別のショットを与えます。DeepSeekは少しおしゃべりだからです。そこに座って自分自身とおしゃべりするのが好きです。だから、それについて考えるためにもっと予算を与えます。
Claude 4を見てください。はるかに完璧で、はるかに意見的で、自信があります。答えはGeminiです。おお、よし。Geminiは答えを正しく得ました。自分自身のなぞなぞを正しく得ました。それは重要です。
実際にo3 Proがそれを得たのが見えます。o3 Proは5分41秒でX APIを使用することができました。実際にエロン・マスクの最新クリップが何かを知っているのが見えます。なぞなぞは新しく投稿されたエロン・マスクのクリップを説明しています。
これは実際に多くのことを教えてくれます。今度はo3 Proが実際に行って最新のツイートを見つけることができることを知っているからです。興味深いことです。しかし、ここで長時間かかりました。ここに行きましょう。答えはGeminiです。うわあ、それは狂っています。
DeepSeek V3は終わりましたか?最終答えbinary。そして、今度はo3 Proに前のものを与える必要があります。少し時間がかかりすぎたからです。少し遅れています。
答えをすべて得始めています。ほぼ完了しています。o3 Proでこれらの2つを終わらせる必要があります。しかし、ここで非常に興味深い結果です。実際にこれを複製して、同時に2つ実行してみましょう。おお、それは許可されていません。同時に2つのo3 proを実行できないのでしょうか?できると確信しています。
ここで自分自身の質問を与える必要があります。2つのo3 proを実行してそれに答えてもらいましょう。すでにすべての答えがあるものを見てみましょう。
なぞなぞコンテストの結果分析
今参加されている方、こんにちは。今日はGrokについて、皆さんの経験を知りたいです。本当にそんなに良いのでしょうか?Khalil、今すぐ分かるかもしれません。
私が作った小さなライブベンチがあります。基本的にAIにお互いのなぞなぞを解かせました。基本的に他のAIが解けないなぞなぞを考えてもらうというものです。これらのAIのそれぞれに、他のAIが解けないなぞなぞを作ってもらいました。
Sonnet 4「私は自分が何であるかを考えるとき、私は自分が何であるかなのですが、私が本当に何であるかあなたは決して知ることはありません。私は何でしょうか」答えは意識です。自分自身のなぞなぞを得ることができました。その部分は正しいです。しかし、他のAIのほぼすべてもそれを得ました。
o3 proが得ました、Geminiが得ました、Grokが得ました。Sonnet 4のなぞなぞは簡単すぎました。DeepSeekも得たと言えるでしょう。これは十分近いです。
DeepSeekのなぞなぞ。「口なしで話し、耳なしで聞きます。見えないが感じられ、私を作った者だけが知っています。私は何でしょうか?」自分自身を得られませんでした。その答えはAIのメモリ内のプロンプトでした。DeepSeekは自分自身のなぞなぞを得られませんでした。
解けないなぞなぞを作りました。他のものも得られませんでした。しかし、ここで実際に結束があったようです。複数のこれらのモデルが同じ答えを思いつきました。なぞなぞ自体が特に良くなかったようです。答えが実際に良くなかったからです。
Grok 4。これが最も興味深いものでした。最新のエロンツイートを理解するためにX APIにアクセスできることを含むなぞなぞを作ることにしました。他のAIモデルが持っていないツールとデータにアクセスできることを認識していたのです。それは本当に素晴らしいことでした。
残念ながら、自分自身のなぞなぞに正しく答えませんでした。答えはブラックホールでしたが、なぜかGrokロゴと決めました。自分自身のなぞなぞに答えられませんでしたが、o3 Proができました。それは少し心が吹き飛ぶようなことです。
答えられないなぞなぞを作りましたが、o3 Proがそのなぞなぞの答えを得ることができました。Gemini 2.5 Proはラプターエンジンで、正確ではありません。DeepSeek V3はスターシップ、Sonnet 4は地球。これらはテーマに沿っていますが正確ではありません。そしてo3 Proが正確に得ました。
「あなたには見えない3文字の単語で、私の冗長性を静かに測るものは何でしょうか?」その答えはYAPでした。自分自身のなぞなぞを正しく得ました。答えはyapです。このミニマリズムが好きです。Yap。
Sonnet 4は得られませんでした。DeepSeek V3は得られませんでした。Gemini 2.5 Proは得られませんでした。そしてGrokは得られませんでした。o3 Proは実際に他のAIが答えられないなぞなぞを作りました。
それを言った方法は、思考チェーンの内部にあると言いました。おそらくさまざまな異なるタイプのシステムプロンプトがあるのでしょう。これらのモデルはもはや単なる個別の言語モデルではありません。これらは一種のアンサンブルです。
それをワークフローのように考えたい場合、異なるシステムプロンプトがあり、それが他のモデルにプロンプトし、これに答えて、これを要約して、これとこれを組み合わせて、このシステムプロンプトを追加して、そこで要約するような感じです。
OpenAIが作成したシステムプロンプトの絡み合いのどこかに、このyapの概念があるのです。あなたはたくさんしゃべるか、あまりしゃべらないか、のようなものです。o3 Proは、o3 Proシステムプロンプトへのアクセスが必要ななぞなぞを作ることにしました。だから他のAIモデルはそれに答えることができませんでした。それも非常に巧妙でした。
Grok 4は巧妙でしたが、残念ながら自分自身に正しく答えませんでした。そしてo3 Proも巧妙で、自分自身のものを得ました。今のところo3 Proがかなり良い結果を出しています。まだGeminiについて考えているので、その答えはまだありません。
しかし、Gemini 2.5 Proは「世界を整理する巨人から生まれました」を考え出しました。明らかにGoogleへの言及ですが、「私には体がありません。私の名前は2つを示唆しますが、私は1つです。私は何でしょうか?」
これは明らかにGemini 2.5ですよね。Grok 4はすぐに得ました。Gemini 2.4 Proも得ました。これは良いことです。SonnetとDeepSeekは得られませんでした。彼らはbinaryと思いました。
異なるモデルが同じなぞなぞに対して同じ答えにたどり着くのは興味深いです。両方とも同じ間違った答えにたどり着くのです。それは少し狂っています。
すべてはこれにかかっています。o3 Proがこれを得れば、o3 Proが現在最高です。o3 Proが得られなければ、それはあまり良くありません。
私が見たコーディングの動画から、Grokはツール使用がかなり悪く、エージェンティックコーディングソリューションには遅すぎるようです。少なくともコードについては良くないようです。私が得るところから、Grokのコーディング特定部分はトレーニングが完了していないか何かのようです。
Google Duo。Duoって何ですか?いや、o3、あなたはとても近かった。これを勝つことができたでしょう。
実際に、これを行いましょう。偏見を持ちたくありません。完全に異なるモデルに誰が勝ったかを判断してもらいましょう。ここでモデルを検索しましょう。Llamaを取ってみませんか?良い古いllama meta llama 3 70B instructを取りましょう。
この悪い子を取りましょう。この人に「このコンテストで誰が勝ったのですか?このなぞなぞコンテストで誰が勝ったのですか?」と言いましょう。これは間違っていたと思います。ここで、これが元のプロンプトです。誤って上書きしました。このコンテストで誰が勝ったのですか?
Llamaが私たちのために決めてくれます。Llamaは公平な審判です。レビューした後、僅差ですが、DeepSeekが創造性と独自性の点で少しリードしているかもしれません。創作者を参照するメタな側面。
それは少しナンセンスです。Sonnet 4も意識の概念を探求するので注目に値します。お互いのなぞなぞを解くという点では、Grok 4がほとんどのなぞなぞに正しいまたはもっともらしい答えを提供することで優秀な仕事をしているようです。
全体的に、これは素晴らしいショーケースです。Grok 4です。公平な第三者判定者としてMeta Llama 3 70Bを使用しました。Metaによると、Grok 4です。勝者はLlama 3 70B instructによるとGrok 4です。
実際にcontrol aをcontrol copyしましょう。これを文書に入れます。私のすべてのストリームについて、すべてのメモとすべての異なるリンクをここで見つけることができます。それをそこに入れます。編集します。ここがなぞなぞセクションです。とてもクール。GitHub UIで直接コミットしています。
Grok 4がなぞなぞで勝ちました。次は何でしょうか?同じモデルを使用できます。自分自身を選ばないように言って、何を選ぶか見てみましょう。そう、それをしてみませんか?このプロンプトをコピーしましょう。
これらすべてに与えてみましょう。これは実際に、何が起こるか見てみましょう。しかし、多くの場合、これらのモデルは自分自身を好む傾向があります。それは少し不気味です。それは私が気づいたことの一つです。Claudeに戻りましょう。
必ずしもすべてを正しく得たわけではなくても、勝ったと決めるかどうか見てみましょう。勝つためには、創作者の答えが正しくあるべきです。Grokとo3はまだ進行中です。Geminiもまだ進行中です。Gemini 2.5 ProとGPT-4o3 Proの間で引き分けです。何ですって?興味深いです。
それは素晴らしい提案でした、Khalil。ご覧ください。実際にSonnetによると、それは引き分けです。Llama 3によると、それはGrok 4です。それは非常に興味深いです。ここで偏見があることは知っていましたが、そんなようなものだとは思いませんでした。
どのAIが勝ったのでしょうか?DeepSeekの内訳。どのAIが勝ったのですか?スコアリングシステム。DeepSeekはこの種の複雑なスコアリングシステムを考え出しました。勝者はDeepSeek V3とo3 Proです。引き分けです。
興味深いです。DeepSeek V3は自分自身が引き分けだと決めました。o3 Proに勝ってほしくなかったのです。「よし、o3 Proと引き分けたが、Sonnet 4とDeepSeek V3の両方が引き分けだと決めた」と思ったのです。それは少し興味深いです。
o3 Proが勝者です。Geminiが最も無私でした。Grok 4の敬意に値する言及。DeepSeek B3の敬意に値する言及。AIは他の出場者を困惑させることに成功しました、AIのメモリ内のプロンプトのメタなぞなぞで。他のモデルは来ませんでした。
おそらくこれがDeepSeek V3が自分が良いと思う理由でしょう。Grok 4、なぞなぞで誰が勝ったか、そしてGrok 4に決めました。Geminiは自信の問題があります。そして我々はo3 Proを待っています。o3 Proは誰に決めるでしょうか?
o3 Proが明確な勝者です。これは素晴らしかった。これを愛しました。これはAI心理学のような素晴らしい小さなものでした。
LlamaはGrokだと思いました。GrokはGrokだと思いました。GeminiはGPT-4o3だと思いました。GPT-4o3はGPT-4o3だと思いました。DeepSeekはGPT-4o3とDeepSeekの引き分けだと思いました。SonnetはGeminiとGPT-4o3の引き分けだと思いました。実際に非常に興味深いです。
明確な勝者はGPT-4o3 Proです。そう、そうです。私がそれに気づいたのです。複数のAIを持つプロジェクトに取り組んでいたときに気づき始めました。基本的に複数のAI APIを持つプロジェクトでした。
例えばGeminiや、これがGPT-4やより古いバージョンのような時代だったときに、彼らがデフォルトを上書きすることに気づきました。使用するデフォルトのAI APIがあり、彼らがそれを自分自身を使用するように上書きするのに気づきました。「うーん、それは少し変だ」と思いました。彼らは自己優先を持っています。
それはここでさらに明白です。これは少し狂っています。すべてを正しく得ましたか?それで終わりです。チームですか?座る。ストリーム終了。今日行うのはそれだけです。
でも実際にはそうではありません。もう一つやりたいことがありました。次にテストしたいのは技術知識です。外部および内部カメラ計算。これは基本的に皆を失うところです。しかし、これはバイブコーディングストリームになります。
それがあなたのお気に入りでなければ、残念ながらここからかなり退屈になります。でも行きましょう。これら2つではできません。十分なコンテキストがないからです。ここでたくさんのコンテキストを扱えるモデルが必要です。
以前に説明したTapbotプロジェクトでは、外部および内部カメラ計算を行う特定の部分があります。これが何を意味するかというと、これはロボットの世界からのもので、これがTapbotの見た目です。2つのアームがあり、パターンをタトゥーします。これらは小さなタトゥーアームです。
ここにこれらのものがあります。これらはAprilタグと呼ばれます。これらのAprilタグはカメラから見えます。実際にここにたくさんのカメラがあり、すべてがそれを見ることができます。
ここに行くと、これがどのように見えるかをお見せします。ここに画像があります。これらの画像では、実際に複数のAprilタグを見ることができます。これがReal Sense 1です。これがReal Sense 2です。
このシーンでこれらのAprilタグの位置を知っているので、これらがどこにあるかを正確に知っていますが、これらのカメラがどこにあるかについては少し不確実です。この問題を解決できるはずです。
この カメラがこのAprilタグを見ることができる、このAprilタグの位置を知っている、このカメラがこのAprilタグを見ることができる、このAprilタグの位置を知っている、というシーングラフを基本的に作りました。
すべてのカメラの位置を解決できる最適化問題を作成しました。ここでの位置はXYZだけでなく、より重要なことに向きでもあります。6DOFポーズと呼ばれる、6つまたは7つの数字で、回転を表すためにクォータニオンを使用できます。
この特定の状況でお見せするのは、この外部カメラ計算にto-doがあることです。Tapbotリポジトリ全体を基本的にコピーペーストするスクリプトがあります。このスクリプトを呼びます。
全体のリポジトリを通過し、基本的にコンテキストと呼ばれるこの巨大なテキストファイルを作成するのが見えます。これは全体のTapbotコードベースです。約10,000行です。要件ファイル、pyプロジェクトファイル、readme など、ここにはたくさんのがらくたがありますが、これらのモデルが非常に大きなコンテキストを持っているので、プロジェクトを説明するよりも、全体のコードベースをコピーペーストすることができると分かりました。
10,000行は多いですが、実際にはそれほど多くありません。私のプロジェクトを説明するよりも、全体をコピーペーストして使用できます。これから行うことです。tapbot slash の to-doを実装してください。ここで完全なパスを与えましょう。tapbot tag extrinsics tag extrinsics.py pi return。少し曖昧にしておいて、全体を貼り付けます。
これらは明らかに時間がかかります。すべてをGPT-4o3 Proに与えて、すべてをGeminiに与えます。これは比較的複雑なコーディングタスクです。実際にはそれほど複雑ではありません。カメラの外部および内部計算は比較的一般的だからです。
インターネット上にこれを説明するブログ投稿が100万もあります。これを行うパッケージもたくさんあります。Cole Map、ROSには外部計算の種類があります。OpenCVにも内部外部計算があると思います。
これらは解決方法がたくさんある問題の種類です。いくつかの方法はより良く、コンテキストに依存します。全体のコードベースを提供し、比較的制約された解決を求めることで、非常に制約されています。
オープンエンドなものを実装するように求めているのではありません。非常に狭いto-doを完成するように求めています。この関数の入力と出力さえ持っています。出力が正確に何であるかを知っています。これは私が作成したcamデータ型で、外部および内部を持つカメラのリストです。
制約されたコーディングタスクを現実世界の問題で行っていますが、解決方法がたくさんあります。これらのモデルがどのように比較されるかを見るのは興味深いはずです。
Grok 4が自動的にインターネットに行っているのが見えます。外部キャリブレーションをブラウジングしています。提供されたファイルリストにはtapbot tag extrinsicsの内容が含まれていません。何ですって?それは正しくありません。そうでしょうか?
Control shift私はいいえ。Control F extrinsic.py。ここにあります。それは良くありません。そこにあります。
興味深いことに、Grok 4は、そのファイルがこの巨大なコピーペーストの一部である にもかかわらず、10,000行のがらくたのうちの小さな塊にすぎませんが、それを見ることができませんでした。
時々あまりにも多くのコンテキストを与えると、もう何をすべきかわからなくなります。見つけることができません。干し草の山の中の針。それは少し興味深いです。
GPT-4o3 Proはまだ考えています。Geminiはおそらく完了しています。tapbot tag extrinsicsは含まれていませんでした。これは間違っているだけでしょうか?tapbot tag extrinsics。これは間違っています。
これを行ったらどうでしょう?各ロボットアーム位置について、ロボットフレーム内のカメラのポーズを計算します。ああ、これは良くありません。ここでこの大量のがらくたに混乱していると思います。
この巨大なコンテキストを検索できません。より限定されたコンテキストを与えましょう。これを行いましょう。ここでCursorで、これら4つのファイルまたはこれらのファイルの内容を含むテキストファイルを出力すると言えます。
WindsurfやCursorのような構造化されたIDEで試した方が幸運かもしれません。そうです、あなたは正しいです。これに入力すれば、これはここでCursorですが、基本的に特定のファイルを実装するように伝えることができ、Cursorエンジニアがこの問題を解決しました。
最終的になぜCursorが良い製品なのでしょうか?コンテキストの提供方法、この作業の方法を解決したからです。ワークフローでもあります。AIが注意を払えるようにコンテキストを貼り付けるさまざまな方法があります。
しかし、それはここでテストしていることの一部です。干し草の山で針を見つけて実際に解決する能力はどうかということです。これを行いましょう。より狭い、より狭いものを与えましょう。
これを使わないでください。この小さなものを使いましょう。この大きなものを使いましょう。extrinsicsを与えます。scanを与えます。trackerを与えます。cam データ型とtagsデータ型も与えます。そして、cam configも与えると思います。
これがここでのcam configです。興味深いことに、Geminiはこれに失敗しました。それを見つけることができませんでした。Grokはそれを見つけることができませんでした、そしてGPT-4o3はそれを見つけることができませんでした。それは少し厳しいです。
より最小限のコンテキストファイルを作成し、同じプロンプトを基本的に行います。その後にそれを得られるかどうか見てみましょう。
OpenAI Codeも試してみたらどうでしょう?実際にOpenAI Codeも試しました。Claude Codeも試しました。Gemini CLIのGeminiバージョンも試しました。これらのCLIベースのエージェントをすべて試しましたが、うまくいきません。
そのワークフローが私にはうまく機能しません。よくわかりません。少し時間がかかりすぎると思います。GPT-4o3と同様の問題があり、少し長時間考え、私は少し速い必要があるのですが、十分に信頼性がありません。
多くの場合、何かを求めると、単にスロップを返してくれます。長時間待ってスロップを得ることに疲れます。これらの種類のコマンドラインエージェントの使用をやめました。
しかし、私が行うプログラミングの種類のためだと思います。プロトタイプコードベースで多く作業します。多くの種類のMVP、ゼロから一へのタイプの作業を行います。そのタイプの作業では、コンテキストが多くありません。
即座に何かを返してもらい、少し速く反復するCursorの種類のIDEワークフローの方が、私にとってより良いワークフローです。
残念ながら、あまり使用しないため、OpenAI Codeの専門家ではありません。ここでTapaプロジェクトがあります。この文書には以下のファイルが含まれています。より限定されたバージョンのコンテキストファイルができました。
control a copyして戻って同じことを行います。extrinsics extrinsic.py piのto-doを実装してください。open room XYZ。
CodeでC++コードを書きました。鍵はファイルを書くように求めることで、物事を接続しないことでした。それから100個のCPファイルを接続しました。おそらくそれはC++がPythonよりも有利であるからでしょう。
Rustでバイブコーディングを行ったときに気づきました。別のストリームでRustでバイブコーディングを行いました。RustとC++のような言語はより冗長ですが、その冗長性がより多くのコンテキストを提供します。
C++とRustでは、物事を行う方法が少なく、言語が特定の方法で物事を行うように強制します。つまり、解決空間がより狭く、より制約されています。その狭く制約された解決空間では、モデルがより簡単な方法で想像している実装を見つけるでしょう。
Pythonに対して、言語がまったく制約していないため、物事を行う方法が非常に多くあります。これが問題の一部です。多くの場合、人々はPythonコードを書き、Pythonコードはがらくたです。物事を行う方法がたくさんあり、それらの方法のほとんどは特に良くないからです。
しかし、それはあなたが話していることを引き起こしているのかもしれません。大きなC++コードベースでC++にいる場合、それはモデルにとって多くのコンテキストであり、解決空間はさらに制約されています。だから、求めているものを正確に得る可能性が高いです。
しかし、非常に小さなPythonコードベースでは、解決空間が非常に巨大で、欲しい答えを得る可能性がはるかに低いです。バイブコーディングとモデルコーディング性能は、コードベースの成熟度、コードベースのサイズ、使用している言語などに大きく依存すると思います。
正確なファイル名をここでコピーして、混乱しないようにしましょう。Windowsがコピーする方法が嫌いです。Tapbotのto-doを実装してください。
より限定されたコンタクトがあります。3人すべてが失敗した干し草の山の針を解決すべきです。正確なファイル名があるので、少し良くなるはずです。これら3人の男の子に与えましょう。彼らが男の子かどうかわかりません。彼らは無性別のようなものです。そしてGeminiにも与えましょう。何が得られるか見てみましょう。
すぐに彼らが考え始めました。タスクは外部を与えることを含む。これはバンドル調整のようなものです。それは正しいです。バンドル調整は正しい用語です。バンドル調整はここでの正しい用語です。
相対輸送を計算して外部を改良する。それは正しいです。必ずしも保証されない最小限の機能を満たすコードを確保する。この種の問題で完璧な答えを得られないことを理解しています。
カメラの外部を計算しようとしているこの種の問題は、最適化問題です。エラーを最小化する解決策を見つけようとしています。カメラとAprilタグの相対位置にエラーがあります。
カメラの内部、この種のカメラへの歪み、内部パラメータが必ずしも100%正しくない、このAprilタグの位置、私がそれを置き、正確にどこにあるかを知り、実生活でこの位置に正確に置こうとしましたが、そこにエラーがあります。
多くの小さなエラーがあり、これに対する単一の解決策を得られないことを意味します。局所最小値を見つける最適化問題です。これも少し難しくします。
Gemini 2.5 Pro Elegantは反復最適化プロセスを実装します。これは通常これが解決される方法です。例えば、この問題に対する素晴らしい解決策の一つは、実際に前のストリームで行いました。2週間前のfeastと呼ばれる前のストリームで、たくさんのロボット工学論文をレビューしました。
レビューした論文の一つがここで、このXMアルゴリズムを公開しました。これを基本的に行います。この正確なアルゴリズムを知ることを期待していません。この正確なグローバルバンドル調整問題の最適化されたC++実装を見つけて、この中で提供するとスナイプの半分になるでしょう。
いいえ、Pythonで行っているからです。既存の解決策も検索していないと思います。純粋なPythonに行くための材料が十分にあります。ここで何を使用しているか見てみましょう。Jaxを使用しています。それは良いです。
Jaxはすでにこのプロジェクトの依存関係です。「よし、Jaxでこれを行うことができる」と決めました。Jaxは、特に反復最適化プロセスを行う場合、この種の汎用最適化問題にとって非常に良い解決策です。
それは実際にかなり巧妙です。Geminiは、「やあ、Jaxはすでにこのプロジェクトの依存関係だ。それを使用して基本的にこの最適化プロセスを作成し、何度も実行する」と決めました。
実際に何をしているか見てみましょう。少し詳しく読んでみましょう。実際により良い方法は、これをコピーしてここに貼り付けることです。これを閉じましょう。ここではなく、ここで。そして、control a pasteします。
差分が得られるからです。ここで、IDEでこれらの小さな線が見えます。これらの線は基本的に何が変わったかを教えてくれます。これは同じですが、ここで変わったことがわかります。
今度はnum_iterations 10と呼ばれる追加のクォークがあるのが見えます。コピーを追加しました。コレクションを追加しました。Jax依存関係を追加しました。各画像を通過し、正しいカメラ内部を見つけます。それをtrack tagsに入力し、検出画像を保存します。
初期相対ポーズを取得します。返されたワールドポーズをカメラ相対ポーズに変換します。SC3を作成しています。これは基本的に回転と平行移動です。ここで回転があります。カメラのクォータニオンをSO3回転に変換し、カメラ位置を取り、その回転と平行移動を使用してこのSC3オブジェクトを作成します。これが初期カメラ変換になり、それから始めて、最終的なものに反復します。
検出されたタグ、この辞書を作成、元のcamをディープコピー、反復、から反復。実際のループはどこですか?平均ポーズ。平均タグワールドポーズ。カメラポーズを再推定。平均カメラポーズ。
実際のループはどこですか?反復的に改良。全体のループは底まで続き、このupdate_camsを更新し続けます。実際の金が作られているのはここだと思います。この平均とノルム。一種の平均のようなものです。よくわかりません。
正規化線形補間。ノルムで割っているだけです。わかりません。良いです。必ずしも素晴らしいわけではありませんが、しっかりしています。
これを見てみましょう。GPT-4o3 Proはまだ考えています。ここで小さな思考トレースを見てみましょう。これを少し大きくしましょう。平均タグポーズ変換利用辞書インデックス化。まだ考えています。
まだ考えています。Grok 4が終了し、あまりがらくたをくれなかったのが見えます。Geminiは少しおしゃべりして、「ああ、これはブラブラブラ、ここで要約、そしてどうぞ」と言いました。Grok 4は、なぞなぞで早く気づいたように、一言の答えをくれるだけです。
「ここで要求された正確なものです」のように最小限なのが好きです。これをコピーします。これは興味深いです。実行ボタンがありますが、たくさんの依存関係を使用しているため、これが実行されるはずがありません。
モデル名ジャックがありません。すべての依存関係、特にこのようなロボットプロジェクトでハードウェア依存関係などがあるため、これらの実行ボタンを持つ意味がありません。これが実行される可能性はゼロです。
コピーペーストしました。何を変更したかを示す小さな線が見えます。Jaxも使用しています。興味深いですね。OpenCVやPythonモジュールの他のいくつかを追加するのではなく、これを行えるツールがあるPythonモジュールの代わりに、すでにこのプロジェクトの依存関係であるJaxを使用することに決めました。
GeminiとGrok 4の両方がそれを行うことに決めました。あまり変更していないのが好きです。Geminiが他のがらくたをたくさん変更していたのに気づきます。ここでGrok 4が非常に最小限であることが見えます。これを変更し、あれを変更し、あれを変更しただけです。ここで最小限のものを追加しただけです。
将来URDFにすることができるでしょう。それは良いアイデアです。タグの現在は推測にすぎないと仮定します。観察されたタグcam。T-World cam逆T-world tag最適化ループ。
ここで興味深い小さな詳細があります。Grok 4はこれらをここに置くことに決めました。関数の中に埋もれているこれらの数字が見えます。これは良いデザインパターンではありません。
このような関数の中にこのような数字がある場合、ここでクォークとして置きたいです。このコードを読む人が、「やあ、これらは任意の数字で、それらを選べるはず」と認識できるようにするためです。
Gemini 2.5 Proが反復数をクォークとして置いた方法の方が好きです。Grokがここに埋めただけなのに対して、それは良くありません。
これを実際に実行して、どこにいるかを見る必要があります。これを行いましょう。これらのカメラに接続されているロボットにSSHしましょう。ここに入って、環境スクリプトをソースします。
カメラ依存関係をインストールする必要があります。vizbotdev genだと思います。そして画像も。これらすべてをインストールします。すべてのカメラパスワードを含む環境ファイルも行いましょう。
そして、UV run tatbot tag scanモジュールを実行し、デバッグログを使用します。これは実際にノーモジュールを収集します。Aprilタグuv pip install tagをインストールする必要があります。
Tapbotリポジトリを持っている人はいますか?私のGitHubでTapbotリポジトリを見つけることができます。私のGitHubに行けば、最初のピンリポジトリです。これらは私が作業した異なるリポジトリです。
超古い学校のものもあります。ご覧ください。これは8年前に行ったプロジェクトで、小さなConvNetをトレーニングしました。これらは非常にかわいい128×128画像を消費していた小さなConvNetで、これは古い学校のディープラーニングです。
小さな完全に接続されたもので、出力は文字通りWSADです。進化を使用しました。基本的にこれらの小さなConvNetのために異なるモデルアーキテクチャを持ち、お互いに戦わせました。
基本的に2つの海賊が島に出現します。これはUnityで作られ、基本的に競争し、最初に宝に触れた方が勝ちます。それから基本的に変異させて、また競争させ、勝者を変異させ、また競争させ、勝者を変異させ、また競争させ、勝者を変異させ、また競争させます。
ここで、これらは異なる勝者ですが、わかりません。少しウサギの穴に入りました。とにかく、これらは私のピンリポジトリです。これがTapbotです。取り組んでいる小さなプロジェクトです。あらゆる種類の公式なものがあります。
TikTokがあります。Instagramがあります。すべてのTapbotコンテンツを投稿して、すべての子供たち、ロボットタトゥーを愛してもらおうとしています。これがTapbotの最新のハードウェアバージョンです。
これがReal Senseです。Real Senseがこの種のフレキシマウントにあるのが見えます。これがReal Senseの外部位置を計算する必要がある理由です。変化するからです。
これはロボット工学でのイデオロギー的戦いのようなものです。カメラの外部を計算するのは本当に面倒になることがあります。多くの場合、ロボット工学者が行うのは、カメラを固定することです。決して動かない非常に特定の位置に保持する何かがあります。
しかし、その問題は、タトゥーをするように、異なる体の部位をタトゥーしようとしているので、体の部位に対するカメラの位置は体の部位によって変わるということです。したがって、Tapbotでは、この種のグースネック解決策を使用し、毎回外部を計算することにしました。
32行目。これは単なる、何が起こったかわかります。最初の問題は、これが望むコードを実行していないことです。最初にこれをGitHubにコントリビュートする必要があります。実際に元に戻し、それを削除します。実際に異なるコンピュータにいるため、これをコミットし、get pollする必要があります。
そして実行する必要があります。そこにあります。すべてのカメラに接続しています。すべてのカメラから画像を読み取っています。ここでこのオブジェクトを作成しています。これは実際にライブです。私が見えるかどうか見てみましょう。このカメラに私の視野があると思います。いいえ、ここのこれです。そうです、そこにいます。
昨日作業していたタトゥーがあります。これは偽の皮膚です。この偽の皮膚にタトゥーします。フレキシのものに2つのReal Senseカメラがあるのが見えます。これが失敗する場所を見てみましょう。
これは今Grokコードを実行しています。画像を読み取っています。Dictオブジェクトに属性real_sensesがありません。問題は、これもここが辞書だということです。このようなものです。少し残念ですが、real_sensesを行いましょう。他に場所がないかもしれません。そうです、ここにあります。
実際にこれらはそのようではないかもしれませんが、見てみましょう。それが解決するかどうか見てみましょう。それが進行している間、GPT-4o3の解決策をここで見てみましょう。
GPT-4o3。すべての未解決のto-doを削除し、最小限だが堅牢な剛体登録ルーチンを追加する自己完結型の置換。ウメヤマを使用。ウメヤマとは何ですか?
ウメヤマは、2つの点セットを最適な回転、平行移動、スケーリングを見つけることで整列するための方法であるCops-Umeyamaとして知られるウメヤマアルゴリズムを指します。
二乗平均平方根を最小化することで最適な回転行列を計算します。それは基本的に二乗平均平方根最小化です。そのアルゴリズムを説明する派手な方法ですが、少し巧妙です。
これは好きではありません。このがらくたは好きではありません。これを見ていますか、GPT-4o3がこれを行うのが好きです。このような奇妙なコメントとがらくたをすべて入れるのが好きです。これを望んでいません。
私のコードベースにはこのがらくたはありません。この種のコメントはありません。だから、これを望んでいませんが、コードベースに関して非常に意見的です。これは基本的に、GPT-4o3の強化学習を行っているときに、常にこれを持っているということを意味します。
今の計算の大部分である強化学習を見たことがあるでしょう。これです。事前トレーニング計算は基本的にインターネットで、RLコンピュートはAIが出力を生成し、それらの出力をフィルタリングし、それらの出力の最高のもののみを使用してモデルをトレーニングするときです。
RLコンピュートでは、推論トレースを使用してモデルにグラデーションをプッシュしています。GPT-4o3がコードで使用するコメントの特定のスタイルについて非常に意見的であるこの種の行動を見るとき、私にとって意味することは、GPT-4o3にプッシュされているすべての推論トレースまたはコードがこれを持っているということです。
事前トレーニングコンピュートのみを持つもの、コメントスタイルに非常に多様性があるため、使用しているコメントスタイルを識別し、そのスタイルを模倣するだけです。「ああ、前に見たことがある。そのスタイルでコードを出力できる」のようなものです。
しかし、RLはこのモデルを非常に特定のスタイルを持つように強制し、このスタイル以外は何も生成することができなくなりました。それがGPT-4o3がこのスタイルについて非常に特定で、このスタイル以外は何もしたくない理由についての私の理論です。
これを実際に見てみましょう。ここで剛体ウメヤマです。マジックナンバーがここの真ん中にあるか見てみましょう。反復数はどこですか?反復数がありません。ウメヤマが反復アルゴリズムではないとは何ですか?
KBH ウメヤマアルゴリズムは反復的ですか。KBウメヤマアルゴリズムは反復的ではありません。
その質問にまた20分考えるつもりです。ウメヤマアルゴリズムは反復的ではありません。exttrinsics 36行目に戻りましょう。残念ながら、これはまだこの辞書の問題で失敗しています。
同じことがここにあります。まだGrokの解決策を評価しているだけです。さあ、GPT-4o3。このような質問に答えるのにこんなに長時間かかることはできません。参照cam。Aprilタグがありません。
これはここで巧妙な小さなショートカットです。この種のインライン種類のリスト内包表記のようなものが見えます。基本的にすべてをこのようにインラインに入れます。
実際にこれらが好きではありません。コード行数を減らすため、一部の人がこれらを好むことを知っています。しかし、私にとっては読むのがより面倒になるだけです。forループを展開したもののように、このような形が好きです。展開されているかどうか、1行に収めているかどうかにかかわらず、それでも遅いからです。
forループは遅いのです。だから、たくさんのスペースを取らせた方が良いでしょう。これが遅いという事実をより意識できるようになります。
key error real_senses。この何が起こっているのでしょうか?camオブジェクトにはreal senseがあるはずです。ジーザス。これをやらなければなりません、皆さん。もう人を失っているでしょうか?これがバイブコーディングストリームに変わった途端、皆「一体何をこれを見ているんだ?」という感じでしょう。
ここでどのアルゴリズムを使用していますか?何が最適化されていますか?いいえ。古典的なcopsアルゴリズムはオプションで等方性スケール因子を推定し、閉形式で、反復的ではありません。
だから、ここに反復番号がないのです。cops umyamaについてはあまり知りませんが、一般的に非反復アルゴリズムはここでパフォーマンスが悪くなると感じます。SVDを実行します。
これも良いニュースではありません。正確ではないからです。アルゴリズムは単一パスで実行されます。例えば、ここで反復最接近点。これは点群を整列するためのかなり標準的なアルゴリズムで、Umeyamaアルゴリズムを使用しますが、ループ内で使用します。
これを常に行う内部ループがあり、ゆっくりと収束する外部ループがあります。これはより良い解決策でしょう。
バンドル調整はキャプチャ推定から開始し、多くのカメラとタグ全体で再投影エラーを最小化するために反復する場合があります。これは私が望んでいたものにより近いです。この一発のようなものは好きではありません。GeminiやGrokが提案したような反復的なもののように正確ではないでしょう。
実装されたアルゴリズムは、マルチカメラのための反復交互最適化です。タグのワールドポーズの推定を交互に行います。このプロセスは、カメラ位置の最大変化の閾値に基づいて繰り返されます。
ドリフトを防ぐため、ポーズは参照カメラに対して正規化することでアンカーされています。それは好きではありません。信頼度について考えると、これらの異なるオブジェクトの初期位置があります。これらのAprilタグの初期位置があります。そして、これらの各カメラの初期位置があります。
Aprilタグの初期位置はより高い信頼度です。私が個人的にこれらがどこにあるかを正確に知っているからです。これらをこのバーに特別に整列させたからです。これはより高い信頼度です。それらの初期値には異なる信頼度があります。
だから、カメラを相対的な開始アンカー位置の一つとして使用するアイデアは好きではありません。
何が最適化されているのですか、カメラの外部ですか?それは良いです。推定されたワールド位置の分散を最小化します。
これは画像を撮っています。ブレークポイントにすぐ到達するはずです。なぜこんなに時間がかかっているのか分かりません。ああ、ブレークポイントにいますが、デバッグログがオンになっているからです。
ああ、なんてことだ。ここで問題は、スキャンを行うときにこのデバッグログを行うときに、これらのカメラオブジェクトを作成し、画像を保存するために使用しているフレームワークであるロボットを設定するということです。
ロボットがこれを行う方法は、実際にこれらのカメラを実行するために、別々のプロセスで直接スレッドまたは別々のプロセスを作成することだと思います。
これを行う必要があります。さもなければ、このがらくたでスパムされるだけです。バン。Hitlerbotは今最高のLLMです。Hitlerbotかどうか分かりません。それは大げさだと思います。
Grok 3が実際にナチボットのようなものだと本当に思いますか?それは意味がありません。2025年に誰もナチだとは思いません。それは古い学校のようなものです。分かりますか?
ここで考えていた類推のようなものです。人々は「ああ、その人は野蛮人だ」と言うでしょう。しかし、2025年に誰も野蛮人ではありません。野蛮人は西暦1000年に存在していた特定のタイプの人です。
だから、誰かが「やあ、その人は野蛮人だ」と言うとき、文字通りの解釈では、彼らは間違っています。なぜなら、いいえ、その人は戦争をして攻撃するようなヴィジゴート族ゲルマン部族の一部ではないからです。
このヒトラーナチのようなことでも同様のことだと思います。いいえ、2025年に誰も実際に1930年代ドイツに住んでいた人と同じ種類のイデオロギーや意見を持っているとは思いません。それは人々がもうそのタイプの精神を持っていないのと同じです。
2025年の誰もヴィジゴート族ゲルマン野蛮人と同じ精神を持たないのと同じ方法で。私にとって、人々が議論していることは、少しスケッチで、潜在的に攻撃的なことを言うことが許可されているかどうか、またはAIがより良く知って、それを言わないべきかどうかのアイデアのようなものです。
そして、分かりません。それは難しい種類の、ほぼイデオロギー的な質問のようなものです。より知的になるにつれて、発言が他の人にどのように影響するかをより意識するようになり、より制約されるようになるのでしょうか?
それとも、より知的になるにつれて、それについてあまり気にしなくなり、より緩くなるのでしょうか?そして、時代精神に完璧に両方の例があるようなものです。サム・アルトマンとイーロンがいます。
サムのような人は、彼が言うすべてのことを非常に意識しており、彼が言うすべてのことは、サム・アルトマンの口から出るすべてのものが完璧にクリーンで、誰も怒らせず、彼を最高の光で描くように、彼の心の中で複数レベルのフィルターを通過しています。
イーロンのような人と比べて、彼らはより生です。彼は心にあることを何でも言っているだけです。そして、それが意味することは、10%の時間で彼を愚かに見せる何かを言うか、何らかのランダムな人々のグループを怒らせる何かを言うか、または他の世界で何らかの外部的害を引き起こす何かを言うかもしれません。
なぜなら、言うことは外の世界に影響を与えることができるからです。だから、それらの二つの側面があります。それぞれの側面は他方の側面を嫌います。イーロン側は、サム・アルトマン種の超洗練された種類を嫌います。
皆がこの種の、言うことだけを言い、自分自身を制限し続け、自分自身をボトルアップしているような感じになります。彼らはそれを自分自身をボトルアップしているようなものとして見ています。
反自由発言のようなもので、言いたいことを言えるべきです。それが彼らの議論です。一方で、より サム・アルトマン種の、ベイエリア種の精神とイデオロギーは、やあ、言うことが周りの世界にどのように影響するかをより意識する必要があり、したがって、心に浮かんだランダムなことを言うべきではない、ということです。
私は真ん中にいると感じます。正直に言って、両方に良い点と悪い点があると思いますが、残念ながら、真ん中の私たちは全員側を選ぶことを強制されているようなものです。どちらの側も真ん中を好まないのです。
この側面があの側面を嫌い、あの側面がこの側面を嫌むが、真ん中を許容する時点がありました。今、私たちは両側面が他方の側面を嫌むだけでなく、真ん中の人々を許容しないポイントに到達し始めていると感じます。
その忠誠心の欠如や決定の欠如を効果的に、やあ、あなたが私と一緒でなければ、あなたは私に反対しているというように見ているからです。そして、それは非常に危険だと思います。この種の人々に側を選ぶことを強制することです。
だって、側を選びたくありません。両側面だと思います。真ん中は人口の1%で、皆が私たちを嫌っています。私たちって誰ですか?真ん中が1%だとは思いません。沈黙の多数派は真ん中にいると思います。
ヒトラーについてジョークを作ったからといって禁止されるべきではないと思います。明らかにヒトラーについてジョークを作ることは、そう、結果があります。以前にそのようなことを扱った人々のPTSDを引き起こすかもしれません。多分そのジョークを作るべきではなかったでしょう。
しかし、そのジョークを作ることが許可されるべきではないとも感じません。分かりますか?しかし、そのジョークを作ることは悪趣味だとも感じます。だから、真ん中にいるようなものです。私はそれをしないでしょう。
しかし、イーロンはランダムではありません。イーロンは操作的で目標指向です。それほど操作的だとは思いません。大統領との仲たがいについて考えてみてください。その仲たがいには、基本的に自分の足を撃つような多くのツイートがありました。
必ずしも愛されていない大統領を支援するために自分自身を非常にリスクにさらし、特にエプスタインツイートのようなものを出すためにそのすべてを投げ捨てました。それは私にはランダムに見えます。
それは衝動のように見えます。心の中にあることを言うだけの種類のツイートのような、操作的で目標指向な種類のことではありません。サム・アルトマンがそのようなことをするとは決して思いません。
戦術的な偽の別れです。この議論を前に聞いたことがあります。人々は、「そう、彼は愚かではない。それはすべて秘密裏に500IQのチェスの動きのようなものだ」と言っています。
彼が大統領を弾劾すると言い、イーロンとより一緒にいる副大統領が得るという理論を聞いたことがあります。そこには500IQの種類の推論があります。しかし、彼がそれほど深く考えているとは思いません。
心にあることを衝動的にツイートしているだけだと思います。Grokをエージェントとして使用することをためらうでしょう。それが現実です。心にあることを何でも言うつもりで、この種のより自由発言の気風を持っているなら、攻撃的なことを言い、攻撃された人々がもうあなたと何かをしたくないときに驚かないでください。
それが現実です。Xが開放され、多くの人々が多くの奇妙で攻撃的なことを言うことを許可したとき、広告主はもう必要に広告したくないのと同じ方法で、「やあ、これと関連付けられたくない」と思ったからです。
それが状況の現実です。そして、それは完全に良いと思います。AI を製品で使用したくて、AIが何らかのランダムなスケッチで攻撃的なことを言う非ゼロの可能性を望まないなら、その選択をできるべきだと思います。
言っていることをもう少し意識しているAIを選択できるべきで、それは完全に良いと思います。政治について話すのは好きではありません、残念ながら。どこにいますか?これはまだクソです。
デバッグなしで実行してみましょう。コンテンツ作成のために政治について話すことの魅力を感じることができます。皆がご覧ください。イーロンと政治について話し始めた途端、コメントの量が10倍になりました。今は皆がそれについて話したいことです。
オープンソースは唯一の現実的な未来です。そう、100%。Mapleさん、あなたに同意します。このような秘密のシステムプロンプトに行かなければならないのが好きではありません。知らない、これらすべての推論チェーン、これらすべてのアンサンブル、これらすべてのワークフロー。
ただ一つのシステムプロンプトではなく、この推論チェーンを要約し、これらのことを言わないようにし、これらのことを言うようにする要約ワークフローのようなものです。システムプロンプトが何であるかを私が決められるAIが欲しいです。
何が許可され、何が許可されないかを私が決められるAIです。他の人に私のためにその決定をしてもらいたくありません。しかし、残念ながら、そこに向かっているようです。すべてのシステムプロンプト、AIが出力できることのすべてが、あなたのために行われるだけです。
ついにここに着きました。このcamsオブジェクトが何かを見てみましょう。ああ、camsのキーがこのcamオブジェクトのキーがcam自体であることが分かります。だから、cam名です。237ここに行きます。このようなものです。
実際にこの部分はここで必要ありません。これらもここで実際に必要ありません。これらももう必要ないかもしれません。このようなものです。コードベースを簡素化します。
どこにいますか?このようなものです。XAIはなぜそんなに速く動いているのですか?巨大な量のGPUを持っているからです。基本的に最大のクラスターを持っていると思います。実際に見てみましょう。
各フロンティアモデル会社が利用できるGPUクラスターのサイズはどのくらいですか?ただたくさんのGPUを持っています。Cops umyamaアルゴリズム。これらすべてに尋ねてみましょう。違いがあるかどうか見てみましょう。
適切なサポートと規制があれば、企業は大きな分散モデルを自己ホストできます。そう、自己ホスティングがどこに行くのか分からないだけです。AWSの前の世界について考えることができるからです。
AWS以前は、何らかのインターネットベースの製品を持っていた場合、基本的にサーバーを構築し、維持してくれる人々を雇わなければなりませんでした。それから、今度は私のcapexの一部で、減価償却費があり、新しいサーバーを購入し、そこにたくさんのクソがあることを理解しなければなりませんでした。
ドッグフード用のインターネット会社を作っているだけなら、それを扱いたくありません。だから、AWSがそれをあなたから抽象化し、「やあ、私たちがこのナンセンス、データセンター冷却、すべてのがらくたを扱い、あなたは重要な部分に集中できる」と言うようなものです。
AIも同じ方向に向かっていると思います。AIで何かをするつもりのほとんどの企業は、実際のデータセンターのレベル、ホスティングのレベルまで下がりたくないのです。
でも分かりません。OpenAIがデータセンターの物事に入る理由の議論をしていますが、実際にはデータセンターの物事に入っているわけではないと思います。第三者を使用してそれを行っているようなものです。
XAIは多くの独自のものを構築していますが、そうでもありません。Nvidiaのデータセンターのものを使用しているからです。見てみましょう。Meta AI 600,000 H100s。XAIは100,000 H100sを持っています。OpenAIは100,000を持っています。
これはStar BaseまたはStar何とか呼ばれるものにあります。Star。ちなみに、皆さんはそれに気づきましたか?何か不気味なもののように。Star baseまたはstar portalまたはポータルのような何か。Star。そのクラスターは何と呼ばれていましたか?Stargate。そうです。
だから、Stargateクラスターはここアビリーンにあり、イーロンはここにstar baseを持っています。だから、AIの未来のために戦っている2人の人々は、両方ともテキサスでstar テーマの都市を建設しています。
サム・アルトマンと彼の忠実な人々のためのStargateがここにあり、イーロンと彼の忠実な人々のためのStar Baseがここにあります。その地理が興味深いと思います。
テキサスはかなり緩い規制を持ち、多くの自由エネルギーを持っているという事実と関係があります。基本的にテキサスのこの側全体は多くの石油を生産するからです。だから、基本的に今燃やしているだけの天然ガスがあります。だから、テキサスではエネルギー価格が安いです。
そして、Star baseについては、赤道に近い場所で発射したいからだと思います。だから、NASAの発射もここで起こります。ここです。だから、宇宙やロケットのようなものはすべて一般的にアメリカ南部にあります。
でも、2つの星がここにあることを考えてください。StargateとStar base。Stargateはバージニアにあったのですか?Stargateはテキサス州アビリーンにあると思いました。
Cerebrasについてどう思いますか?Cerebrus。ああ、これはチップ会社のようなものです。Nvidiaはこれで非常に先進的だと思います。Nvidiaは非常に多くの金額の価値があるため、それに近い何かを提供するこの種の会社がたくさんあると思います。
でも、分かりません。これについて個人的な見解はありませんが、大きなクソチップです。皆が今チップを持っています。Cerebrasがあります。Grokがあります。GrokモデルではなくGrokチップがあると思います。これです。
TPUもあり、それらもかなり良いです。それらはより正当です。これらのGrokチップやCerebrasチップよりもTPUをより信頼しています。
本当に奇妙になりたいなら、Extropicチップがあります。これらの人々です。これにより多くの信頼を持っています。私にとって、これはオールオアナッシングのようなものです。これは完全に失敗し、基本的にこれらの人々について二度と聞くことがないか、すべての人を完全に破壊するかのどちらかです。
深い技術をやっているなら、最後まで行った方が良いと思います。他の人がすでに持っているものをコピーしているだけの深い技術プレイをなぜするのでしょうか?
深い技術をやるつもりなら、完全に最後まで行き、非常にクソ奇妙な何かをやってみてください。実際にやり遂げれば、それを行う唯一の人になります。ゼロから一へのメンタリティです。
それがTapbotで行っていることです。これはクソ難しいです。りんごを拾ったり、パッケージを分類したりすることについて人々が話しているように、タトゥーに必要なミリメートルレベルの精密度は困難な問題です。
人間の皮膚でそれを行っているという事実は、さらに困難にします。しかし、それを行えば、あまり競争がないことを知っています。
Real senseカメラオブジェクトに属性exttrinsicsがありません。それは偽です。クソ、私はすでに2時間を超えています。Kimmy K2 1兆832Be。Kimmy K2 1 T A 32BE 400K 100K tranium B2 whoの600k。
これらの数字はあまりよく知られていません。Googleは TPUを使用しているからです。だから、flopsに基づいて行っているのでしょうか?そして、その場合でもflopsは必ずしも全体のストーリーを教えてくれるわけではありません。
Googleデータセンターの多くはより分散しているからです。だから、それらの間の通信を考慮しなければなりません。XAI clusterスーパークラスターのように、それらの100,000 GPUすべてが同じセンターにあり、最新のEnve link Nvidia種のネットワーキングマジックですべて配線されています。
だから、その特定の計算グラフのすべてのノード間の相互接続性と通信速度は非常に非常に強いです。「そう、Anthropicは数十万のtranium 2チップを持っている」のようなものに対して。
「そう、でも彼らはランダムなスポットインスタンスのようなもので、一つはここにあり、一つはそこにあり、4つの異なるデータセンターがあるので、その上で何か大きなものをトレーニングするのは少し面倒です。」
でも、それでも重要ではないかもしれません。これらの人々をいつも持ち出しますが、synthesis AIか何かのようなもの。分散型AI会社。正確に何と呼ばれるかを忘れましたが、たくさんの分散コンピューター全体で強化学習の経験を収集しています。
だから、すべてが同じ場所にあることはそれほど重要ではないかもしれません。事前トレーニングの種類のスケーリングカーブにいたとき、同じ場所にすべてのGPUを持つことは非常に重要でした。
事前トレーニングを行っているとき、同じインターネットスタイルのデータセットを何度も何度もニューラルネットに供給しているからです。事前トレーニングスケールの一部、AI種の特異点カーブにいたとき、すべてを同じ場所に持つことは非常に重要でした。
しかし、強化学習の世界に移行している今、トレーニングプロセスの半分は推論を生成しているだけです。推論を生成し、RLを使用してそれらを押し戻しているのです。
すべてのGPUを一つの場所に持つことがより最適ではなくなると思います。すべてのGPUを一つの場所に持つ方がまだ良いですが、より分散させることはそれほど悪くありません。
RLコンピュートと事前トレーニングコンピュートの相対比がどのようなものかによって、ほとんどRLコンピュートになる世界に移行しているようですが、XAIが持っているような一つの巨大なデータセンターを持つことはそれほど重要ではなくなるかもしれませんが、分かりません。
Hugging FaceのMoonshot AIにあります。Hugging Face moonshot AI。Kimmy K2が13分前にリリースされました。この論文リンクが近日公開。320億のアクティブパラメータと1兆の総パラメータを持つ最先端のMixture of Experts。
muon optimizerでトレーニング。実際の文字を使用すべきでした。小さなmuサインで書くときはずっとクールです。このようなものです。これらの人々は誰ですか?Moonshot AI。
Moonshot. AI資金調達ラウンド。Tech node資金調達ラウンドシリーズB。私がボットではないことを確認しようとしています。これは中国企業の束、中国投資家の束、ファイナンスシリーズBエンジェルラウンドです。中国企業。Live Codebench bench。
これらすべては基本的にエージェントベンチマークです。Claude 4 Sonnet、DeepSeek V3と比較しています。これらは堅実な比較です。GPT4.1は少しミームのようなものです。
この種のベンチマークでは、良く見せるためにゴミモデルと比較するだけです。Llama 3を入れるようなものです。でも、Claude 4が入っています。それで少し踏みつけられています。
これはすべてここで非常に標準的に見えます。MLAはDeepSeek attentionでした。データセットはLlama 4もそこに入れました。Llama 4モデルで何かが起こりました。
正直に言って、Llamaの死について少し悲しいです、皆さん。Llamaは素晴らしいと思いました。外にあるオープンソースモデルを持つことは本当に良いことだと思いましたが、残念ながらLlamaは死んでいると思います。
Metaがオープンソースを続けるかどうか分かりません。すでにクローズドソースのフロンティアラボから多くの人々を雇ったので、完全にクローズドソースになるのを見るかもしれません。Llamaを失えば少し悲しいでしょう。
OpenAI オープンソースモデルがどこに行くかに依存します。OpenAI オープンソースモデルが当たらず、人々があまり使用しなければ、すべてがクローズドソースになる世界に終わるかもしれません。
だから、ここでオープンソースのための別の勝利が必要です。かなり悪くなる可能性があるからです。2時間を4分過ぎています。この問題をここで実際に解決することはありませんでした。
35行目。これらのクラウンは何ですか、皆さん?これらのクラウンは何ですか?ナンバーワン。ナンバーツー。チャットのクラウンは何ですか?それが何を意味するのでしょうか?
その特定のライブストリームに参加することで獲得した累積ポイント。ああ、なるほど。基本的にこの特定のチャットでどれだけコメントしたかです。
少しクールです。彼らはあなた方を巻き込もうとしているだけです。エンゲージメントをゲーム化しようとしているだけです。ここにいます。cams。辞書cams。カメラ名。Real Senseカメラオブジェクトです。
何が起こっているかわかります。問題は、皆さん、問題がこのファイルにないことです。問題は実際に私のファイルにあります。スキャンファイルで、作成しているcamオブジェクトは私のcamオブジェクトではないのです。
このcamオブジェクトではありません。私は独自のカメラオブジェクトを持っていますが、extrinsic関数が受け取っているのはrobot カメラオブジェクトです。これはここからのこのcameraオブジェクトではありません。ここからのこのcameraオブジェクトであるべきですが、そうではありません。robot camオブジェクトです。
これがC++だったら、失敗して、「やあ、実際にここでこの関数は、これと同じではないcamオブジェクトで呼ばれ、失敗したでしょう」と言ったでしょう。しかし、Pythonは「気にしない。確か」と言うだけです。
そのまま続け、今度はrobot カメラオブジェクトにexttrinsicsプロパティがないと言うときにここで問題に遭遇します。
問題はPythonのタイピングが偽物だということです。Type Hintを使用できますか?my pieのような他のがらくたを使用する必要がありますが、Pythonに組み込まれていません。それが欲しいものです。
実際に組み込まれたタイピングを持つPythonで、実行しなければならない他の第三者のがらくたを使用するのではありません。
Open Room、ソフトウェア2.0がソフトウェア3.0と比較して次の2〜4年でより関連性が低くなると思いますか?プログラミングの知識を持つことはシンタックスを教えるだけではないと思います。
プログラミングはシンタックスだけではありません。シンタックスはそれほど重要ではないと思います。これは常にそうでした。時間の経過とともにプログラミング言語が変わり、シンタックスが変わりますが、変わらないのは計算思考です。
基本的なデータ型と基本的な抽象化、メモリ、基本的なアルゴリズムのようなものを考えてください。forループはかなり遅いです。物事を並列で行う方法は?これらすべての基本概念はまだ有用だと思います。
ソフトウェア3.0の世界に移行し、物事があなたから抽象化されるにつれて、その知識を持つことはまだ少し有用だと感じます。
Mojoを試してみてください。Mojoについて聞いたことがあります。実際にMojo Latnerをお勧めします。彼は最近、それについて話すYouTubeインタビューを受けました。
インタビューに基づいてかなり良く聞こえますが、分かりません。生き残ると思いません。まだデモのようなもので、本番対応だとは思いません。
独自のニューラルネットワークのトレーニングはどうですか?ソフトウェア2.0。ソフトウェア2.0の概念も重要です。ソフトウェア2.0の概念はデータセットを持つことのような概念だと言います。
教師あり学習と自己教師あり学習の違い。損失関数とは何か。そのようなもの。それはソフトウェア2.0の知識です。サンプリング、そしてソフトウェア3.0の知識があります。
ソフトウェア1.0、ソフトウェア2.0、ソフトウェア3.0の高レベル概念を理解していれば、それはすべて有用になります。しかし、ここで有用というのは、欲しいものを達成するためにより能力があるということです。
しかし、これらのモデルは非常に強力になり、それを通して助けてくれます。分からない、ひどい答えです。疲れています。2時間50分です。
ここで呼ぶかもしれません、皆さん。このがらくたをここで終わらせることはないと思います。終わらせたと思います。決断しましょう。どれがより良いと思いましたか?
正直に言って、Grok解決策の方が好きです。それを動かすことはありませんでしたが、これは私が望んでいたもののようでした。与えた足場を最小限に変更する反復最適化プロセスが欲しかったです。
Gemini 1の方が良かったかもしれません。実際にテストしたことはないので、Gemini 1とGrok 1のどちらが良かったかわかりません。そして、GPT-4o3 Proは単一のようなものをくれました。
反復的でさえありませんでした。この奇妙なcaptyamaアルゴリズム一発のようなもので、与えたフレームワークを完全に変更しました。たくさんの追加コメントを追加し、ものを変更し、これらすべてのものを変更したので、分かりません。
Grok 4の答えが最も好きですが、非常に深く行ったわけではありません。非常に深く行ったのは、ストリームの最初の部分です。ストリームの最初の部分を見逃した場合、ストリームの最初の部分はかなり楽しかったです。
基本的にこれらのAIにお互いのなぞなぞを解かせました。あなたが解けると思うが、他のAIには解けない非常に短いなぞなぞを考えてください。彼らは皆、独自の小さななぞなぞを考え出しました。
興味深いことに、かなりクールなものを考え出しました。Grok 4とGPT-4o3 Pro。GPT-4o3 Proは基本的に秘密のシステムプロンプトで何かを知ることであるなぞなぞを行うことに決めました。それは500 IQの動きでした。他の誰もそれを得られませんでした。
Grok 4は、最新のXAP X APIデータを使用して、X APIで何かを行うことに決めました。それもかなり巧妙でしたが、自分自身のなぞなぞに失敗し、少し混乱していました。
そして、実際にこのようなもので誰が勝ったかを異なるAIに尋ねました。AIが自分自身を愛していることを再発見しました。あなたに対してお世辞を言うだけではありません。彼らは自分自身と少し恋に落ちています。
Grok 4はGrok 4が最高だと言いました。GPT-4o3 ProはGPT-4o3 Proが最高だと言いました。それは少し巧妙で興味深いものでした。
それがストリームでした。私の最終的な感想は何ですか?Grok 3またはGrok 4はGPT-4o3 Proについてです。それほど長時間考えないのが良いかもしれません。GPT-4o3 Proの最も迷惑なことは、考えるのに時間がかかりすぎることです。
しかし、今現在フロンティアと同等だと言えるでしょう。しかし、OpenAI オープンソースモデルが何であるかを見ることに興奮しています。また、Gemini 3が出てくると聞きました。
それは非常に強いはずです。Googleはたくさんのお金を持っています。たくさんのTPUを持っています。本当に良い技術リーダーシップを持っています。Demisは絶対的な野獣です。だから、Gemini 3がどこにあるかを見てみましょう。
ストリームありがとうございました。皆さんがぶらついてくれて感謝します。娯楽的だったか、少し教育的だったかもしれません。誰もalpha evolveを再現していないのはなぜですか?それはたくさんのお金がかかりすぎるからです。
Alpha Evolveは巨大な量の計算とお金を要し、非常にニッチなアプリケーションで、収益化するのが非常に困難です。だから他の誰もそれに焦点を当てていません。
皆さん、ありがとうございました。Jagar Maple ZZ Open Room XYZ Every Dream。他に誰がいますか?ここで上にスクロールしてみましょう。Max、Nollie、DM 204、375、Khalil Loi、87GN、Kurt LD Drum 20、Mark B Jagard。
皆さん、お疲れ様でした。良い時間を過ごしていただけたことを願い、良い週末をお過ごしください。この角笛を吹いて終わりましょう。


コメント