Grok 4.1: 我々が見た中で最もパワフルかつ知的なモデル!強力で高速、Gemini 2.5 Proを打ち負かす!

xAIの最新モデルGrok 4.1が遂にリリースされ、LMSYS Arenaのリーダーボードで首位に立った。長期間トップの座を守っていたGemini 2.5 Proを超え、ELOスコア1,483を記録している。このモデルは感情知能、クリエイティブライティング、そして実用的な会話能力において顕著な改善を見せており、EQベンチマークでは1,583という驚異的なスコアを達成した。特筆すべきは幻覚率の大幅な削減であり、これは情報検索プロンプトに対する特化した事後学習の成果である。マルチモーダル出力機能を備え、より簡潔で要点を押さえた回答を生成し、従来のGrokモデルと比較して大幅に高速化と品質向上を実現している。コーディング能力は中程度だが、推論タスクやQ&A形式の質問応答において特に優れた性能を発揮する。

Grok 4.1: Most Powerful & Intelligent Model We've Seen! Powerful and Fast Beats Gemini 2.5 Pro!

Grok 4.1 is HERE — and it’s officially the most powerful and intelligent model we’ve ever seen. This new frontier model ...

Grok 4.1の登場とトップランキング獲得
マルチモーダル出力とレスポンスの質の向上
クリエイティブライティング能力の比較
アクセス方法とテストの開始
コーディング能力のテスト結果
推論能力のテスト – 三神パズル
総合評価とまとめ

Grok 4.1の登場とトップランキング獲得

ついにLMSYS Arenaで公式に新たなナンバーワンのモデルが誕生しました。そして何ヶ月もの間トップの座にあったGemini 2.5 Proをついに追い抜いたのです。これは数時間前にリリースされた新しいGrokモデル、Grok 4.1の登場によるものです。会話型知能、感情理解、そして実世界での有用性において新たな基準を打ち立てるフロンティアモデルとなっています。

LMSYS Arenaでの総合パフォーマンスに関しては、現在スコア1,483でナンバーワンのモデルとしてランク付けされており、そのELOスコアはGemini、Claude、そして他のほぼすべてのトップティアモデルを上回っています。感情知能に関しては、EQベンチマークで印象的な1,583というEQスコアを記録しており、共感力、対人スキル、そして感情的ニュアンスにおいてすべての主要モデルを打ち負かしています。

クリエイティブライティングベンチマークにおいて、Grok 4.1は多くの主要モデルを凌駕し、より豊かなストーリーテリング、より強固な一貫性、そしてより鮮やかで直感的なライティングを実現しています。また幻覚の削減も達成しており、これはこのモデルの最大の勝利の一つです。なぜなら、情報検索プロンプトに対する的を絞った事後学習のおかげで、幻覚率を劇的に下げることができたからです。

全体として、このモデルは遥かに高速で、品質は以前のGrokモデルよりも大幅に向上しており、やり取りがより流動的で知的に感じられるようになっています。これはテキスト的に驚異的なモデルであり、より直感的で、より人間らしく、より感情的に知的です。そして今やチャットボット内で直接マルチモーダル生成機能を備えており、チャットしながら自然に出力されます。

マルチモーダル出力とレスポンスの質の向上

例えば、単純にサンフランシスコで訪れるべき最高の場所は何かと尋ねただけで、これがこのアップデート前にGrokモデルから得られる典型的な回答であることがわかります。しかし今や4.1アップデートによって、より直感的で、より知的にレスポンスを生成し、マルチモーダル出力機能で画像も表示しながら、以前見たものよりも少し良くプロンプトを分解していることがわかります。

ランダムなテキストを出力しているだけではありません。質問に応答する、より人間らしく感情的に知的な、より良い直感的なレスポンスを徹底的に出力しているのです。そしてこれが別の例です。マルチモーダル出力だけでなく、Grok 4.1では表も統合していることがわかります。これはほとんどのモデルが行っていることです。

私のテストで気づいたもう一つの点は、この新しいモデルがより簡潔で要点を押さえているということです。以前のGrokからのレスポンスを見た場合、延々とテキストが出力されていました。私の意見では、ほとんどが無駄話で、答えを凝縮せず、実際の要点に到達していませんでした。しかし新しいGrok 4.1モデルでは、要点を押さえていることがわかります。正しい答えを凝縮し、実際には答えに意味を持たない、または寄与しない複数行の文章を書いていないのです。

この場合、送信した自然言語プロンプトに基づいて、探している最も重要な要素を得ることができます。

始める前に、ぜひWorld of AI ニュースレターに登録していただきたいと思います。毎週ベースで様々なニュースレターを定期的に投稿しています。ですので、これはAI分野で何が起こっているかについて最新の知識を簡単に得られる場所です。ぜひ登録してください。これは完全に無料です。

クリエイティブライティング能力の比較

ここにGrok 4.1と以前のGrokモデルのクリエイティブライティングプロンプトを比較する例があります。そして、探している答えをどのように得るかという点で、はるかにクリエイティブであることがわかります。この場合、このプロンプトから提供できています。このスタイルでより内省的で感情的に複雑になっています。

まさに来年リリース予定の期待されているゲームであるGTA 6がなぜ遅延しているのかを尋ねるこのプロンプトを見てください。これは基本的に、レスポンスがどれだけ良く構造化されているかを比較しているだけです。そして以前のバージョンはGTA 6がリリースされる理由についていくつか話していることがわかります。しかしGrok 4.1の答えでは、このレスポンスの方が優れています。なぜなら、はるかに明確で、より構造化されており、GTA 6が遅延している理由を示す重要な詳細をスキャンしやすくなっているからです。

パンチの効いた文章を使っています。魅力的な物語の中で事実をバランスよく配置しており、複数の段落ブロックを出力しているだけのより密度の高い以前のバージョンよりも、説明を読みやすく説得力のあるものにしています。

アクセス方法とテストの開始

さて、始めようとしている場合、誰でも完全に無料でGrok 4.1にアクセスすることができます。チャットボットを通じて、またiOSとAndroidのモバイルデバイスからアクセスできます。そして無料ティアでは2時間あたり10リクエストしか得られないと思いますが、得られるレスポンスのタイプに基づけば、それでも十分な量です。

まず最初のテストとして、非常に詳細でモダンな外観のSASランディングページを作成するよう作業してもらいます。以前のテストから、このモデルはコードではあまり良く機能しないことを知っていますが、それでも十分な結果を提供できます。コーディングから推論まで、そして他の多くのプロンプトまで、すべての異なるベンチマークでテストして、このモデルがどれだけ優れているかを評価していきます。

コーディング能力のテスト結果

コードの生成を終えたようで、すべてのコンポーネントを詳細に記述することに多くの努力を払ったようです。では、実際にプレビューを見てみましょう。これがその外観で、超印象的というわけではありませんが、典型的なAI SASランディングページよりは確実に優れています。構造、アニメーション、そして全体的なレスポンス速度に関しては、以前見たものと比較して本当に高速でした。素晴らしい仕事をしたと言えます。

コーディングに最適なモデルではありませんが、かなり優秀です。次に、SVGコードで蝶を作成するよう依頼しました。この蝶のSVGコードをコピーしました。このオンラインSVGビューアにアクセスして貼り付けると、これは本当に印象的な蝶です。

これは実際、以前他のモデルで見たものよりもはるかに良く見えます。ですので、SVG生成に関しては、この現在の生成をかなり良いとランク付けします。そこで今度は蝶をアニメーション化するよう依頼しました。これで十分な仕事をするか見てみましょう。残念ながら、この特定のテストには合格しませんでした。翼をアニメーション化しようとしたようですが、今度は翼を時代遅れにしてしまったようです。

では、実際にそれを修正するよう依頼しましょう。これを見ると、翼をアニメーション化することで今度は修正されました。そしてチャットボット内で、提供したプロンプトに基づいて何が間違っていたかを分析できたことがわかります。しかし、ワンショット生成に関しては、アニメーション化するために送信された特定のプロンプトで失敗しました。

しかし全体として、これは本当に素晴らしく見えるもので、仕事を成し遂げました。ほとんどのモデルが実際にこれを行うのに失敗する傾向があるからです。全体として、これは優秀なコーディングモデルです。推論とデバッグではかなり良くできます。コードの説明が得意で、見たように、反復処理とリファクタリングをかなり良く行うことができます。

フロントエンド機能は最高ではありません。ClaudeやGPTモデルで見られるような複雑なファイル変更では本当に良くできません。そして全体的な自律的でエージェント的な能力に関しては、Sonnet 4.5から見られるような同じ品質ではありません。

しかし結論としては、それでも仕事を成し遂げることができる優秀なモデルであり、実際にかなり良く推論できます。本番グレードのコードで作業でき、この場合はブラウザベースのOSを生成させましたが、私の意見ではかなり良く見えます。本物のOSのように機能し、他のモデルで生成した異なるOSと比較して異なるスタイルを持っています。

実際に機能するスタートメニューがあります。動作するターミナルもあり、このOSの全体的な基本構造が機能的に見え、テストに合格したように見えます。

推論能力のテスト – 三神パズル

次に、推論能力をテストしていきます。ここではプロンプトを送信し、最初からより深く考えるよう依頼します。

その理由は、これは深い研究を使用している場合にのみ機能する推論プロンプトだからです。そしてその理由は、演繹力がどれだけ優れているかを確認したいからであり、また尋ねている3つの質問に答えられることを確認したいからです。3人の神ABC が何らかの順序で真実、偽り、ランダムと呼ばれています。

真実は常に真実を語ります。偽りは常に嘘をつきます。ランダムはランダムに答えます。真実か嘘か。しかしいつそうするかはわかりません。3つのイエスかノーの質問をすることができます。それぞれは正確に1人の神に向けられます。あなたが決めます。各質問は一度しか尋ねられず、神々は彼ら自身の言語で答えます。ダまたはヤ。

しかしどの単語がイエスを意味し、どの単語がノーを意味するかはわかりません。どの神がどれかをどのように判断しますか。このモデルが神々自身の言語での応答という不確実性を扱う能力という点でどれだけ優れているかを見ようとしているのがわかります。また自己参照的な質問を構築する能力も見ています。

これは、答えに対する答えについてのメタ質問を理解できるかどうかを確認したかったところであり、可能性のある分岐に到達する点でどれだけ優れているかを見たかったのです。そして、正解を得ることができました。Bに対する自己参照的な埋め込み質問を使用して、非ランダムな識別を強制しました。

つまり、応答においてダまたはダが意味する言語を識別することができ、演繹法を使用することで、同じ埋め込みトリックを使用して非ランダムな神を使用し、真実、偽り、ランダムの消去法を決定することで、イエスまたはノーをデコードし、他のどの神がランダムでないかをユニークに明らかにすることができました。

これは2分30秒で答えることができたものです。そしてそれはかなり印象的でした。なぜなら、Geminiでこれを試したところ、この特定の応答で失敗したからです。

この動画が気に入って、チャンネルをサポートしたい場合は、下のスーパーサンクスオプションを通じて私のチャンネルに寄付することを検討できます。または、月次ベースで無料で異なるAIツールへの複数のサブスクリプションにアクセスでき、さらに毎日のAIニュース、限定コンテンツ、そしてさらに多くのものにアクセスできるプライベートDiscordへの参加を検討できます。

総合評価とまとめ

全体として、このモデルは超知的だと思います。ツール呼び出しではかなり良くできています。そしてコーディングに関しては、かなり優秀です。

しかし全体として、主な焦点はライティング能力です。チャットボットとしてどれだけ優れているか、そして基本的にQ&Aタイプの質問に答え、推論を支援し、その能力を他のAIモデルよりも良い範囲で使用するためにどのように機能するかです。ほとんどのチャットボットよりもこれをお勧めしますし、より賢く知的なチャットボットを探しているなら、ぜひ試してみることを強くお勧めするものです。しかし基本的にはそれだけです、皆さん。

今日の動画を楽しんで、何らかの価値を得ていただけたら嬉しいです。これらすべてのリンクを下の説明欄に残します。セカンドチャンネルに登録し、Discordに参加し、ニュースレターとTwitterでフォローしてください。そして最後に、皆さん、登録して、通知ベルをオンにして、この動画に「いいね」をして、以前の動画もぜひご覧ください。本当に役立つコンテンツがたくさんあります。

しかしその考えとともに、皆さん、素晴らしい一日をお過ごしください。ポジティビティを広めて、本当にすぐにお会いしましょう。ではまた。