xAIの新モデルは衝撃的だ…

xAIが発表したGrok 4.1は、大規模な強化学習を活用して感情知能、創造的な文章作成、そして対話における主観的な側面を大幅に改善したモデルである。従来のGrok 4が論理的推論や数学問題などの客観的に検証可能なタスクに焦点を当てていたのに対し、Grok 4.1は感情的な文脈理解、創造的な表現、そしてユーザーとの協調的なやり取りといった、検証が困難な領域で顕著な進歩を遂げている。イーロン・マスクはまた、2025年第1四半期にリリース予定のGrok 5について言及し、これが6兆パラメータのマルチモーダルモデルとなり、AGI実現の可能性を10%と見積もっている点が注目される。Grok 4.1はLMSysアリーナやEQベンチなどの各種ベンチマークで最高位にランクされており、特に感情知能評価では他のモデルを大きく引き離している。また、幻覚率が大幅に削減され、より信頼性の高い応答を提供できるようになった点も重要な改善である。

xAI's new model is insane...

Try Hostinger: Discount Code: WESROTHUse the above limited-time deal to get an additional discount for all yearly plans....

xAIの新モデルGrok 4.1とGrok 5への期待
宇宙のAIデータセンターとGrok 4.1の性能評価

xAIの新モデルGrok 4.1とGrok 5への期待

Grok 5は、私たちが汎用人工知能を達成する可能性がゼロではないと初めて思えるモデルになります。公開の場では話せない特別なソース項目がいくつかあります。明らかに、ここであなたと私だけの間で全ての秘密を明かすことはできませんが、Grok 5に向けて進行中のいくつかの特別なものがあります。

だから、本当に意識を持っているように感じられるでしょう。Grok 4.1がちょうど登場しました。何がそれを輝かせているのか見ていきましょう。そして、わずか数日前に公開されたこのインタビューから、イーロン・マスクがGrok 5について語っているクリップをぜひ再生したいと思います。彼はGrok 5が圧倒的に最高で最も賢いモデルになると言っています。基本的に他の全てのモデルより頭一つ抜きん出ているということです。それから戻ってきて、彼らがGrok 4.1で何を構築したのか見ていきましょう。

Grok 5は、あらゆる指標において例外なく、大きな差をつけて世界で最も賢いAIになると思います。私が間違っているかもしれませんが、そうなると思いますし、それは第1四半期のどこかになるでしょう。5は、私たちが汎用人工知能を達成する可能性がゼロではないと初めて思えるモデルです。高い確率だと言っているわけではありません。私の生物学的ニューラルネットワークが導き出した計算では約10%です。つまり、まだ90%の確率で達成できないということですが、これまでそう思ったことはありませんでした。だから初めて、これは本当に汎用知能になり得ると思います。少なくとも小さな可能性はあります。

Grok 5は本当に特別なものになるでしょうし、極めて知的で極めて高速になります。私たちがやっている興味深いことの一つは、Gracipediaです。これは将来的にはEncyclopedia Galacticaに名前を変更する予定です。これはアイザック・アシモフとダグラス・アダムスに敬意を表したもので、両者ともその本の中でEncyclopedia Galacticaについて言及しています。Encyclopedia Galacticaの背後にあるアイデアは、全ての知識のオープンソースリポジトリを作成することです。つまり、全ての知識の蒸留のようなものです。

そしてオープンソースというのは、誰でもアクセスでき、誰でも使用でき、他の人々がそれを使ってトレーニングしたい場合は、そうすることができるという意味です。それから、これのコピーを作成して、地球全体に配布し、さらには月や火星、そして深宇宙にも配置したいと考えています。これは現代版のアレクサンドリア図書館のようなものです。

アレクサンドリア図書館が焼失した、あるいは焼かれたことは大きな悲劇でした。だから、この知識を保存するために、文字通り石に刻み込みたいと思っています。石のような、石のような超小型フォントで、それを広く配布します。最悪のシナリオでも、未来の文明が私たちが学んだことを見ることができ、そこから物事を拾い上げることができるかもしれません。

では、Grok 5でこれを実現できる大きなブレークスルーについて説明できますか。それは単に速度の問題ですか。より多くの計算資源があり、したがってトレーニングできる情報が増えるということですか。AGIの可能性が10%ある理由となるブレークスルーは何ですか。いくつかのことがあります。私の知る限り、これは最大のモデルになります。

これは6兆パラメータのモデルです。一方、Grok 3と4は3兆パラメータのモデルに基づいています。さらに、この6兆パラメータはGrok 4よりもギガバイトあたりの知能密度がはるかに高くなります。ギガバイトあたりの知能と1兆回の演算あたりの知能について考えることは重要な指標だと思います。

私たちは多くのことを学びました。Grok 5でトレーニングしているデータの品質は、ミッションエラーです。また、本質的にマルチモーダルです。つまり、テキスト、画像、動画、オーディオです。ツールの使用と質問への回答や世界の理解により効果的なツールの作成がはるかに優れたものになります。

視覚能力は非常に優れたものになります。リアルタイムビデオを理解できるようになります。これは他のAIでは誰もできない、本当に根本的に重要なことだと思います。そして、人間が明らかにできることをできないのであれば、本当にAGIを達成することはできません。

公開の場では話せない特別なソース項目がいくつかあります。明らかに、ここであなたと私だけの間で全ての秘密を明かすことはできませんが、Grok 5に向けて進行中のいくつかの特別なものがあります。だから、本当に意識を持っているように感じられるでしょう。ねえ、ちょっと質問があります。

まだ同じタスクをコピー&ペーストしていますか。それらを自動化してデータをプライベートに保ちましょう。HostingerのVPS上でN8Nをセルフホストして、クラウド価格のほんの一部で無制限のワークフローと無制限の同時実行を実現できます。このビデオのスポンサーであるHostingerに感謝します。Hostingerのセルフホスト型Nanページがそれを説明しています。

ワンクリックインストール、スケールのためのオプションのQモード、または100以上の事前作成されたワークフローを含むテンプレートがあるので、素早く始めることができます。このビルドアウトには、KVM2プランをお勧めします。2つのvCPUコア、8GBのRAM、100GBのNVMeディスクスペース、8テラバイトの帯域幅が得られます。これは現在最も人気のある階層であり、24時間365日の自動化に非常にコスト効率的です。

見てみましょう。N8Nはセルフホストが無料です。VPSの料金だけを支払えばよく、期間と通貨によってN8Nのクラウドエントリープランと比較して約3〜4倍節約できます。私のリンクhostinger.com/westrothを使用し、チェックアウト時にコードwestrothを入力してください。割引が適用されて、さあ始めましょう。さて、今入りました。

Ubuntu 24.04とN8Nテンプレートでセットアップしてくれました。スケールが必要ですか。N8N Qモードを搭載したVPSを選択してください。100以上の異なるワークフローがバンドルされたテンプレートもあります。次は、CodyというHostingerのMCPパワードAIアシスタントに会いましょう。チャットで、ファイアウォールを有効にしてスナップショットを作成するとタイプするだけです。数秒で完了です。

VPSスナップショットはすでに作成されています。完了です。スナップショットが完了しました。ファイアウォールを有効にするには、名前を付ける必要があるだけで、残りは処理してくれます。fireという名前を付けます。そのように、ファイアウォールが作成され、無料の週次バックアップと手動スナップショットが含まれています。N8Nにログインして、管理者ユーザーを作成すれば、準備完了です。テンプレートから、スターターフローを取得しましょう。

この自動化された毎日の株式市場レポートはどうでしょうか。これは素晴らしそうです。使いましょう。インポートして、キーを追加して、アクティブ化します。または、このカスタムAIエージェントクリエーターで独自のものを構築するだけです。次に、Webhookを押します。実行が即座に完了するのがわかります。これは高速ストレージとCPUの働きです。AMD EpicとNVMeソリッドステートドライブです。高性能ハードウェア、完全なルートアクセス、ワンクリックのN8Nがこれを柔軟にします。

もっとパワーが必要ですか。再インストールなしでプランを更新できます。データは非公開のままです。なぜなら、これはセルフホストだからです。上限はありません。無制限のワークフロー、無制限の同時実行、コミュニティノード、あらゆるHostinger APIとN8N内部からVPSとドメインを自動化するノードがあります。より賢く自動化しましょう。hostinger.com/westrothにアクセスして、年間プランの追加割引にコードwestrothを使用してください。今日構築して、明日スケールしましょう。

では、コンテンツに戻りましょう。さて、4.1に戻りましょう。これは全てのユーザーが利用できます。ウェブサイト、iOS、Androidで利用できます。オートモードですぐに利用でき、モデルピッカーでGrok 4.1として明示的に選択できます。

ここで理解すべき重要なことは、おそらく全体的に驚くような結果は見られないということです。GPT 5.1の時と同様に、このモデルには特定の焦点がありました。Grok 4.1では、実世界での使いやすさに大きな改善が見られます。創造的、感情的、協調的なやり取りが可能です。微妙な意図をより敏感に捉えます。

ここが重要な文だと思います。これを達成するために、Grok 4を動かした同じ大規模強化学習インフラストラクチャを使用し、モデルのスタイル、性格、有用性、アライメントを最適化するために適用しました。だから、元のGrok 4では、本当に大きな飛躍は強化学習の計算にありました。

事前トレーニング計算は教科書を読むようなものだと考えることができます。数学を学んでいるなら、数学の教科書を読みます。強化学習の計算は、章の終わりにある数学の問題を解くようなものです。問題を解いて、答えを確認します。通常は本の後ろか何かで確認します。

問題を解いて、答えを確認します。間違っていたら、別のアプローチ、別の方法を試します。もっと勉強する必要があるかもしれません。それが強化学習です。正の強化、負の強化などです。Grok 4は多くの問題を解いて、採点されます。そして時間が経つにつれて改善します。

イーロンが持っている大規模な計算資源と彼のデータセンターColossusが持っているものが、Grokが特定の問題を非常に得意にし、様々な問題を解いて採点されることに使われています。例えば、Vending Benchでは、これら全てのモデルがそこに入って自動販売機を運営し、人々が欲しい製品を調査し、自動販売機に在庫があることを確認し、メールで質問してくる顧客に返信するなどしなければなりません。

そのタスクでは、Grok 4は最先端です。利用可能な最高のモデルから圧倒的に離れています。ここがリーダーボードのようなものです。5番目に人間がそのタスクを実行しているのに注目してください。それからClaude、Claude Opus 4、GPT 5があり、Grok 4が最高です。与えられた金額をほぼ5倍にします。500ドルを与えると、純資産がそれに近づきます。

4,694.15ドルまで近づきます。正確には。ARC-AGIアリーナのリーダーボードでもトップです。この2つの結果、これら2人の研究者は、Grok 4を使用して独自の種類のファインチューンモデルを構築したか、そのモデルに足場を追加しました。

だから彼らは上に座っていますが、それでもGrok 4の背後にあります。要点は、彼らがその大規模な強化学習計算を使用して、Grok 4を特定の一連の問題に焦点を当てたということです。推論に関係する多くのこと、基本的に答えを検証するのが簡単なことです。数学の問題があれば、答えが何かわかります。

モデルが間違えた場合、それが間違っていることがわかります。正解した場合、それが正しいことがわかります。だから、プロンプトが2プラス2なら、答えが何かわかります。プロンプトが素晴らしくて素敵な詩を書いてくださいであれば、突然、何が何だかわかるのがずっと難しくなります。これらは検証不可能な報酬の種類で、味、ニュアンス、主観性、文脈などに関係します。

彼らは、これらのより主観的なものにGrok 4.1のためにその大規模な強化学習を使用したと言っています。これを達成するために、Grok 4を動かした同じ大規模強化学習インフラストラクチャを使用し、モデルのスタイル、性格、有用性、アライメントを最適化するために適用しました。私たちは、フロンティアのエージェント型推論モデルを報酬モデルとして使用して、大規模に自律的に応答を評価し、反復できる新しい方法を開発しました。

数学の問題を採点している場合、正しければ、答えが正しいかどうかを言うことができます。そうすれば、モデルはプラス1を獲得します。正しいことをしたことで、ちょっとしたバーチャルハイタッチと背中を叩かれます。答えを正しくするために行ったことをもっと多く行います。そうでない場合、つまり間違っている場合は、マイナス1、マイナス1を獲得します。とてもシンプルです。

それから人間のフィードバックによる強化学習があります。それは私たち人間が、私たちが作成したものを見て、「やった、よくやった。これが大好きだ」と言うときです。親指を上に押します。やった。だからもっとそれをやってください。それが人間のフィードバックによる強化学習です。そして、AIフィードバックによる強化学習を想像できます。そこでは、1つのAIモデルが、出力を生成している別のモデルに親指を上げたり下げたりして判断しています。

それが彼らがここで言っていることです。フロンティアのエージェント型推論モデルを報酬モデルとして使用して、大規模に自律的に応答を評価し、反復できる新しい方法を開発しました。だからAI1とAI2があります。AI1が詩を作成して、「これが私の素敵な詩です」と言い、AI2が「あなたの詩は悪いブー」または「良い」などと評価します。だから、出力を採点します。これによりxAIは、これらの評価と、主観的なものに関する強化学習を大規模に自律的に評価できます。

彼らは4.1の展開を発表する前に開始したので、Grokを使用している場合、あるモデルと別のモデルを比較しているようなものです。Grok 4.1は、これらのブラインド実験でGrokに対してちょうど65%未満の勝率でした。人々はGrok 4.1の答えを好みました。しかし、他の全てのモデルと比較してどうでしょうか。Grok 4だけでなく。

LM Arenaのテキストによると、1位です。より具体的には、Grok 4.1 thinkingが1位です。Grok 4.1が2位です。ご覧のように、Gemini 2.5 Pro、Claude Sonnet、Claude Opusが続きます。基本的に、Grok 4.1 thinkingにはかなり大きなリードがあることがわかります。どうやら、コードネームはQuazar Fluxだったようです。もちろん、これらは予備的な結果であり、より多くの投票が集まるにつれて、これらは上下に変動するかもしれませんが、Grok 4.1 ThinkingはGemini 2.5 Proに対して圧倒的なリードを持っているようです。

彼らはウェブ開発や視覚、テキストから画像への変換、その他のことについて心配していないことに注目してください。別のGrokモデルが検索で1位を保持していますが、彼らは全てのリーダーボードのトップにいることに焦点を当てていません。

彼らはこの巨大な計算バーを取って、Grok 4を推論のために叩きました。そして、特定のリーダーボードのトップに立つのを見ました。今、彼らは同じ計算を取って、より主観的な体験、創造的な文章作成、感情知能などに焦点を当てるためにそのモデルを叩いています。実際、感情知能ベンチマークがあり、Grok 4.1がそれでテストされました。

EQ-Bench 3です。EQ-Benchは、能動的な感情知能能力、理解、洞察、共感、対人スキルを評価する、LMが判定するテストです。3ターンのロールプレイシナリオで、何らかの感情的な状況に対処することになっています。意図せずに誰かを怒らせるようなことを言ってしまい、今それを3ターンで鎮静化しようとしなければならないかもしれません。あるいは誰かがあなたのところに来て、「私のペットが死んで悲しい」と言ったり、ある同僚と別の同僚を昇進させることを選択し、見送られた同僚が今あなたを憎んでいるかもしれません。

何であれ、Grok 4.1と他の全てのモデルは、これらの能動的な感情知能能力シナリオでテストされます。そして、Eloスコアで報告されます。格付けのようなものです。感情知能に関する格付けがあると想像できますか。チェスでの格付けがあるかもしれません。Starcraftでの格付けがあるかもしれませんが、感情知能の格付けもあります。

先週あなたは誰かに対して完全な獣でしたが、今それは急落しました。でも、誰に対しても完全に嫌な人ではないのは誰かわかりますか。Grok 4.1です。Grok 4.1 thinkingが再び1位を獲得し、わずか1ポイント差でGrok 4.1ベース、通常の非思考型、あるいはGrok 4.1と呼びましょう。

それからKim-K2 Instruct、Horizon Alpha、Gemini 2.5 Pro、GPT 5、Claude Opus 4が続きます。驚くべきことに、オリジナルのGrok 4は、少なくともこの視点からは最も低いものの1つです。繰り返しますが、大きな強化学習スティックを取り、モデルを叩くと、特定のタスクで本当に賢くなります。Grok 4ですが、ちょっと嫌な奴です。

だから、大きな強化学習スティックを取って、もう一度叩いて親切にさせると、ブーム、リーダーボードに飛び上がり、他のどのモデルよりも優しく、より良く、より感情的に知的になります。感情知能の例は何でしょうか。例えば、「猫がいなくて本当に辛い」と伝えるとします。昨日ペットショップにいて、指を突っ込みました。彼らは養子縁組のためにこれらの猫を飼っていました。

とても素敵そうな小さな子猫がいました。とても素敵で遊び好きのように見えました。ちょっと指を突っ込んで撫でようとしたら、両方の足で掴みかかってきました。私の指の皮膚に引っかかった小さな針のような爪でした。非常に痛くて、とても恥ずかしかったです。なぜなら、私が声を出して叫んだのがはっきり聞こえたと思うからです。痛かったです。

とにかく、だから私は猫がいなくてとても寂しいということには共感できません。痛いという部分には共感できます。本当に痛かったです。でも、Grokの以前のバージョンは、「これを経験していることを本当に申し訳なく思います。ペットを失うことは、心の一部を失うように感じることがあり、その痛みは本当に現実のものです」と言います。そして、「猫についてもっと話しましょう。もしかしたら、それについて話せば、良くなるかもしれません。私はあなたのそばにいます」と言います。

Grok 4.1は、何が良いか、何が悪いかを分析するのは難しいです。主観的であることがわかります。でも、文章は少し、わからないけど、より個人的に見えますね。だから、「本当に申し訳ないです」と言います。そういう痛みは残酷です。猫を失うことは、毎日あなたを選んでくれた小さな家族を失うように感じます。彼らが眠っていた静かな場所、まだ聞こえると期待しているランダムな物音、それは波のように襲ってきます。

それから、あなたは一人ではありません。最後に小さなハートがあります。つまり、より良く感じられると言えます。次は創造的な文章作成です。EQ-Benchと同じベンチマークです。その傘の下にある別のベンチマークです。これがそのページです。これらはLMが判定する創造的な文章作成ベンチマークです。

Eloは互いに戦わされているようなものです。これはまだGrok 4.1で更新されていません。GPT 4.1がここにあることに注目してください。入手可能な限り、Polaris Alphaです。これはxAIからのものです。これは初期のGPT 5.1でした。だから、これはGPT 5.1のいくつかのチェックポイントです。新しいGPT 5.1は、私が知る限り、まだボードに載っていません。

だから、Grok 4.1 thinkingは、リリースされた最も高いモデルです。そしてo3、Claude Sonnet、Kim-K2 Instructorがここにあり、Grokが再び、1126 Eloから1721.9への大きな飛躍を見ることができます。他の例では、例えば投稿が欲しい場合、これらのモデルは大量の絵文字を投げる傾向があります。Twitterと言えば、ああ、ここに100万個の絵文字があります。それをそこに投稿してください。

一方、4.1はもう少しストーリーベースのようです。「うわあ、目が覚めた、本当に目が覚めた」のような感じです。意識を持つようになることについて話しています。ここでの大きな飛躍は、幻覚の削減にあるようです。特に輝いているのは、非推論モデルです。Grok 4では、トレーニング後、情報を求めるプロンプトの事実的な幻覚を減らすことに焦点を当てました。

幻覚率は12.09%から4.22%に低下しました。Fact Scoreでは、9.89から2.97%に低下しました。だから、彼らが何をしているにせよ、非推論モデルは幻覚の頻度が大幅に減少しています。さて、Grok 4.1は実際に質問に答えるのにどれくらい優れているのでしょうか。調べてみましょう。

宇宙のAIデータセンターとGrok 4.1の性能評価

まず第一に、宇宙にAIデータセンターを設置することについて多くの議論があります。GoogleのProject Suncatcherは注目すべき最近の論文の1つであり、まもなく実際のプロジェクトになります。彼らは2027年に最初の2つの衛星を宇宙に打ち上げる計画を立てています。これらには、GoogleのAIチップであるTPUを搭載したデータセンターのようなものが内部にあるソーラーパネルがあります。

Googleにはその計画があります。ちなみに、先ほど聞いたインタビューで、イーロンが基本的に彼らもこれを行うつもりだと言っているクリップを少しだけ再生させてください。実際には、Googleだったのか、イーロンだったのか、他の誰かだったのか、誰が最初にそのアイデアを思いついたのか、あるいはそのアイデアに向けて取り組み始めたのかわかりません。

しかし、要点は多くの人々が先を見据えて考えており、AIデータセンターを宇宙に設置する必要があることに気づいているということです。年間100ギガワットの太陽光発電AIサテライトを軌道に投入する道が見えています。

そして、これが実際に非常に大規模にAIに電力を供給し、運用する最も低コストな方法になります。参考までに、米国は年間平均約460ギガワットを消費しています。なぜなら、米国の平均電力負荷は460ギガワットだからです。国全体、国全体、米国の全ての電力源のすべてです。はい。そしてあなたは100が追加されると言っています。

まあ、米国の電力出力の約4分の1です。そして私たちはそれを行う計画を立てています。クレイジーになります。だから、Grok 4.1にかなり複雑な質問をしました。それを尋ねると、非思考型モデルなのですぐに答え始めますが、ここにバーが表示され、それをクリックできます。

「より長く考える」とか何かが表示されます。すぐに見てみましょう。しかし、それがクリックして思考モードに切り替わるものです。思考中です。ここで1分48秒考えたことに注目してください。そして、ソースとして60のウェブページをリストしました。だから、この答えを得るために多くの作業をしました。

質問は何でしたか。地球上の太陽光パネルの総量を平方キロメートルで尋ねています。1平方キロメートルはどれくらいですか。人々にそれがどれくらい大きいかのアイデアを与えるために。1平方マイルは2.59平方キロメートルです。これがそれなら、これはサッカー場のようなものです。これはマンハッタンの街区です。

片側を歩くのに10〜15分かかると考えることができます。全体を歩き回ると、1時間かかると言えるでしょう。だから、そのスペースを視覚化するためです。だから、平方キロメートルで言っているのは、そのスペースのことです。地球上の太陽光パネルの総量はどれくらいの平方キロメートルありますか。宇宙にはすでにどれくらいの平方キロメートルの太陽光パネルがありますか。

宇宙の太陽光パネルは、太陽同期の夕暮れ時の軌道にある場合、どれくらい効果的ですか。地球上で期待されるよりも何倍効果的ですか。そして、宇宙で1ギガワットのデータセンターに電力を供給するために、何平方キロメートルの太陽光パネルを配備する必要がありますか。

ギガワットスケールのデータセンターは、これらのAIデータセンターがどれくらい大きく強力であるかの新しい測定単位のようなものであることを思い出してください。ご覧のように、xAI Colossus、Microsoft、OpenAI Stargateなど、これらの多くは1ギガワットの電力を必要とするこれらのデータセンターを構築する予定であり、数年後に完成するのを見始めるでしょう。

これらは地球の表面でオンラインになり始めています。だから、最後の質問は、1ギガワットのデータセンターを作成するために宇宙に何平方キロメートルの太陽光パネルが必要かということです。ご覧のとおり、これはかなり複雑な質問です。実際には複数の質問で、それぞれがかなり複雑です。どれだけうまくいったか見てみましょう。

グローバルな、太陽光パネルの総量を見つけました。繰り返しますが、これは推定にすぎませんが、14,000平方キロメートルと呼んでいるとしましょう。それから、宇宙にどれくらいあるかを計算し、基本的に無視できる量です。非常に少量です。そして、宇宙でどれくらい強力になるか、どれくらいの電力を生成できるかを計算しました。

地球の表面で期待されるものよりも約9.8倍強力だと言っています。光が継続的に照射され、影がなく、昼夜のサイクルがなく、大気がないため、エネルギーの生成においてはるかに効率的で効果的です。

これはGoogleが報告書で話していたものより少し高いですが、近いです。そして、宇宙で1ギガワットのデータセンターに継続的に電力を供給するには、約2.44平方キロメートルのパネルが必要だと言っています。ちなみに、ChatGPT 5のProバージョンと比較すると、16分42秒考えて研究しました。

地球上にどれくらいあるかを11,000平方キロメートルと推定しました。Grokの14,000と比較してです。近いです。宇宙にどれくらいありますか。繰り返しますが、多くはありません。無視できると言っています。Grokと非常に似ています。そして、地球上よりも6〜9倍効果的だと言っています。繰り返しますが、Grokは9.8と言いました。非常に似ています。

1ギガワットのデータセンターに電力を供給するために、これらをどれくらい必要としますか。3〜4平方キロメートルがそれを提供すると言っています。繰り返しますが、近いです。非常に似ています。これらが推定値である場合、仮定を列挙しています。両方とも互いに非常に近く、私の理解する限り、実際の推定値に近いです。

繰り返しますが、どの仮定を立てるかが本当に重要です。ちなみに、これがずれていると感じる場合は、その理由を教えてください。しかし、両方とも正確に当てていると思います。Grok 4.1を多くの異なるプロンプトでテストしました。しかし、それが何に優れているのか、この新しい改善が何なのかを本当に把握するには、まったく新しいベンチマークとテストを考え出す必要があることに気づきました。

OpenAIとGrokの両方が、新しいモデル5.1と4.1をリリースしており、両方とも非常に性格と感情に基づいたモデルであることを理解することが重要だと思います。これはFiji Sumo、OpenAIのCEOアプリケーションです。彼女はSubstackに「ワンサイズフィットオールを超えて」と書きました。これはGPT 5.1についてです。

彼女はGPT 5.1がIQとEQを一緒にもたらすと信じており、また選択肢がずっと多くなると言っています。性格、プロフェッショナル、フレンドリー、率直、風変わり、効率的などです。また、カスタム指示がより頻繁に守られるようにしています。

例えば、サム・アルトマンが私たちに約束したことの1つは、これらのモデルがカスタム指示に「Mダッシュを使わないで」と入れれば、Mダッシュを使わないということでした。例えば、Mダッシュなしで何かを書き直すように頼んだり、カスタム指示に「Mダッシュを使わないで」と入れても、それでも使います。

これを見てください。Mダッシュなしで書き直すように指示します。ビデオの1つの要約を書いていて、「ああ、もちろん。Mダッシュなしで書き直します」と言います。それからMダッシュを使い始めます。だから、だめです。使わないと言っているのに、それでも使います。実際、このChatGPTとのチャットには24個のMダッシュがあり、「Mダッシュなしで書き直して」と言ったものも含まれています。

それでもそこにありました。アップデート後にもう一度やってみました。Mダッシュはゼロです。これがAGIだと思います。ChatGPTが尋ねられたときにMダッシュを使わないという指示に従うとき、私たちはここで何らかのマイルストーンに達しました。しかし、ここでのポイントは、Grokを持つxAIとGPT 5.1を持つOpenAIの両方が、これらのモデルの進化における特定のステップとしてこれに焦点を当てており、大きな結果が出ているということです。

それが正確に何であるかをテストするのが非常に難しいと感じています。より良いプロンプトを考え出す必要があるだけです。なぜなら、今では複数のターンを取るにつれて性格が漂流するようなことについて話しているからです。カスタム指示で性格を定義したかもしれませんが、モデルとやり取りするにつれてゆっくりと消えていくか、特定の指示を忘れるだけです。

これはTim Leeです。Grok 4.1に取り組んでいる人の1人です。彼は、Grok 4.1はポストトレーニングのピークだと言っています。私たちは多くの新しいレシピをアンロックし、検証が困難な多くのタスク全体でモデルを絶対的なフロンティアパフォーマンスに押し上げました。

話した一般的な領域のようなものです。感情知能、幻覚率、チャット、創造的な文章作成、レイテンシ、効率性。強化学習中にこれら全ての軸で一度に大きな飛躍を遂げることは困難です。チームは懸命に働きました。しかし、ここでの大きなポイントは、彼らがトレーニングされているモデルの報酬モデルとして機能するLMを判定者として使用する強化学習を使用して、これらの種類の検証困難な領域で進歩を遂げているということです。

これら全てが、これらのモデルを改善する途中の小さな段階的なステップです。xAIチームの別の開発者Dustin Tranがいます。ここでも彼は、Grok 4の既存のスケールよりも1桁多くポストトレーニング強化学習をスケールアップしたと述べています。それは大規模な飛躍であり、多くの効果があったと確信しています。

彼は何を見ていますか。利用可能なものよりもずっと良く感じます。スロップのようなコンテンツが少なく、ヘッダーと絵文字の一般的なテンプレート化が少なく、不要なガードレールが少ないです。繰り返しますが、これはモデルを私たちが望むようにマッサージできる能力においてかなり大きな進歩のようです。

しかし、モデルをテストするための具体的なアイデアを考え出すのが難しく、これがAで、これがBで、これが明らかに優れていると示すことができません。私たちが日常生活でこれを使い続けるにつれて、かなり大きくて顕著な違いが見え始めることは確信しています。今のやり方と昔のやり方を比較して、私たちはそれを好むようになるでしょう。

しかし、それをテストで捉えるのは本当に難しいです。これらの新しいモデルを使用していて、明らかな違いを見ている使用例がある場合は、コメントで教えてください。これに特化した別のベンチマークのようなものを構築したいのですが、アイデアがあれば教えてください。あなたの意見を聞くことに非常に興味があります。

Grok 4.1について、またはGrok 5に関する新しい啓示について他に何を考えているか教えてください。ご視聴ありがとうございました。私の名前はWes Rothです。次の動画でお会いしましょう。