Claude超えで10倍安い?? GLM-4.6がすごすぎる

LLM・言語モデル
この記事は約21分で読めます。

Zhipu AIが発表したGLM-4.6は、Claude Sonnet 4に匹敵する性能を10分の1以下の価格で実現し、オープンウェイトモデルの新たな可能性を示している。コーディングベンチマークで優れた結果を出し、コンテキストウィンドウも20万トークンに拡張された本モデルは、実用的なコーディングタスクにおいてフロンティアモデルとの性能差を急速に埋めつつある。本動画では、実際のコーディングエージェントでの動作検証を通じて、GLM-4.6の実力と今後のAI開発における複数モデル併用戦略の重要性を探る。

Better than Claude and 10x cheaper?? GLM-4.6 is so good
It's been a bit since there's been a really good open weight model, but we finally got one with GLM 4.6...Thank you Ragi...

新たなオープンウェイトモデルの登場

本当に掘り下げる価値のある新しいオープンウェイトモデルが登場するのは久しぶりです。今はフロンティアラボが物事を推し進めているような感じがします。そして歴史的に見ても、彼らがそうしてきました。彼らは莫大な資金とリソース、そして必要なその他すべてのものを持っていますが、それに応じた料金を請求してもいます。

DeepSeekが登場して業界全体を揺るがした時代が懐かしいです。そして今はそういう瞬間ではありませんが、本当に近づいている感じがします。なぜならZhipu AIが素晴らしい仕事をしているからです。私は彼らが様々なレベルでやっていることに本当に感銘を受けています。一方では、彼らは様々なベンチマークで非常に良いスコアを出しているモデルを作っている素晴らしいラボです。

しかし他方では、彼らは他の中国のラボよりもプロダクトについてはるかに理解し、気にかけているようです。彼らがこれを出している間、DeepSeekはまたしてもスパースアテンション手法に焦点を当てたDeepSeek V3の奇妙なバージョンを出しています。DeepSeekは完全に研究ラボなんです。彼らはソフトウェア開発があまりにも下手で、それが私にT3 Chatを作るインスピレーションを与えました。なぜなら彼らのチャットインターフェースを使うのがあまりにも嫌いだったからです。

一方、Zhipu AIでは、最初のリンクがAPIで、次のリンクが彼らのサブスクリプションです。以前、私がCloud Codeをもっと安くする方法についてのビデオを作った時のことを覚えているかもしれません。Zhipu AIでは、モデルがその時よりもはるかに良くなり、今では本物のものを打ち負かしています。例えば、Claude Sonnet 4に対して良い勝率を持っているんです。これはちょっとクレイジーなことです。

ここには掘り下げるべきことがたくさんあります。私は本当に興奮しています。Zhipu AIは素晴らしい仕事をしていて、ついにクラウドモデルを使う代わりの安くて合理的な選択肢が手に入るかもしれません。Kilo Codeによると、Claude Sonnet 4に対して48.6%の勝率です。つまり、Sonnet 4と互角で、価格は5分の1以下なんです。出力トークンについては、1分の1です。クレイジーですね。

これは本当にクールなモデルで、掘り下げるべきことがたくさんあります。自分で試して、皆さんにもっと見せるのが待ちきれません。普段はトークンコストについて文句を言いますが、これは十分安いので、あまり心配することはありません。とはいえ、私たちにも支払うべき請求書があります。今日のスポンサーから簡単な言葉をいただいて、すぐに本題に入りましょう。

スポンサーメッセージ:Raggy

アプリにAIを追加することはこれまで以上に簡単になりましたが、それを有用にすることは私が想像していたよりもはるかに難しいです。ユーザーがGoogle Drive、Notion、Slack、さらにはSalesforceのような他のサービスから情報にアクセスできるようにしようとしている場合、統合のセットアップを正しく行うことはほぼ不可能です。そして実際に、AIがコンテキストを膨らませて超愚かで高価になることなく、それらのソースから探しているものを見つけられるようにすることは、あなたには成功しないでしょう。信じてください、私は試したことがあります。

そして、それが私がRaggyに出会った経緯です。彼らは本当に理解しています。彼らはサービスとしてのRAGですが、それよりもはるかに深いものです。銀行口座を何かにリンクしたい時に、銀行情報でサインインできるようにするPlaidというサービスを知っていますよね。Raggyは、あなたのデータに対してそれに似ていると考えることができます。

つまり、サービスを構築していて、ユーザーがGoogle Driveの情報、Slackメッセージ、または想像できるほぼすべてのソースをインデックス化して持ち込めるようにしたい場合、Raggyは彼らがサインインし、データをインデックス化し、そして今やあなたのAIがそれらすべてについて質問に答えるために必要なツールとデータを持つことを簡単にします。

そして、彼らがこれに取り組んだ深さのレベルは本当にクレイジーです。オーディオやビデオを追加し始めると物事は本当にクレイジーになります。彼らはあなたのためにそれをインデックス化するだけでなく、実際のタイムスタンプのようなスポットを見つけて、それをあなたにストリームバックします。ここに、Raggyがランダムなビデオセットからハードハットのあるシーンを見つけるために使用された例があります。そして、ビデオでこの瞬間が起こった正確なタイムスタンプと場所をメタデータと情報とともにストリームインすることができました。

このようなものを自分で構築するのにどれだけの作業が必要か分かりますか?私はやったことがあります。楽しくないです。そして、彼らがとても安いという事実は、さらにクレイジーにします。彼らのすべてのティアは無制限の取得を提供します。これはクレイジーです。実際の取り込み処理もかなり良いです。データの1ページあたりわずか2セント、高解像度バージョンを希望する場合は5セントです。

ビデオの1分あたり2セントも処理にとって狂気的です。つまり、これで構築できるものがたくさんあり、T3 Chatに統合を今すぐにでも追加したくなります。本当に、このプラットフォームはとてもクールです。チームは一緒に仕事をするのが素晴らしかったです。彼らは私たちとここでやっているすべてのことの大ファンです。これらの問題を解決し、フルスタックTypeScriptオタクとしての私たちの期待を深く理解する製品を探しているなら、Raggyよりも良い場所はありません。今すぐsoyv.link/raggyでチェックしてください。

GLM-4.6の詳細

GLM-4.6、高度なエージェント推論とコーディング機能。本日、私たちはフラッグシップモデルの最新バージョンをリリースします。4.5と比較して、この世代はいくつかの重要な改善をもたらします。より長いコンテキストウィンドウ、最大20万トークン。優れたコーディングパフォーマンス。モデルはコードベンチマークでより高いスコアを達成し、Claude Code、client、R code、Kilo Codeのようなアプリでより良い実世界のパフォーマンスを示します。

彼らがなぜCloud Codeをここに置いたのか混乱しているかもしれません。それは、彼らがCloud Codeを彼らのモデルで使えるように、スクリプトの代わりにかなりしっかりしたガイドを公開したからです。Cloud Codeを別のエンドポイントにヒットするように設定できるので、彼らのエンドポイントにヒットするために使用でき、そして彼らは公式のCloud Codeのものにできるだけ近くなるようにエンドポイントを作成しました。

だからCloud Codeで使えるんです。また、推論もはるかに優れており、推論と推論中のツール使用をサポートしているため、全体的な能力がより強力になります。また、より有能なエージェントです。GLM-4.6はツール使用と検索ベースのエージェントでより強力なパフォーマンスを示し、エージェントフレームワーク内でより効果的に統合され、ライティングも優れています。クールです。

これらのベンチマークを見てみましょう。AMでは、Sonnet 4.5さえも打ち負かしています。これはクレイジーです。GPQAではSonnet 5、つまり4.5に負けていますが、Sonnet 4を打ち負かしています。Live Codebenchではクラッシングしています。HLEではクラッシングしています。T2 Benchではかなり良い結果を出しています。4より良く、4.5より悪い。分かりますよね。彼らがAnthropicモデルに対して本当に負けているのはSWE-bench verifiedだけですが、それでも本当に互角です。

ここで非常に良い結果を出しています。残念ながら、これについての私のお気に入りのベンチマークセット、Artificial Analysisのチャートはまだありません。しかし、4.5が以前にかなり良いパフォーマンスを示していたことは分かります。ここにはどうでもいいジャンクがたくさんあります。そうですね、法律モデルが全く重要でなかったのはとても久しぶりです。Geminiを取り除きます。

彼らはしばらくの間良くなかったです。Geminiが追いつくのを楽しみにしていますが、今はその時ではありません。Opusは今や事実上死んだモデルシリーズです。Mestralは今や事実上死んだ会社です。R1 05 28。ええ、この時点ではあまり有用ではありません。DeepSeek V3.1から3.2で、3.2がわずかに悪いパフォーマンスを示しているのを見るのは興味深いですが、それは彼らの新しい奇妙な技術のおかげで、はるかに安く、実行しやすいからでもあります。

さて、これでより合理的なセットができました。そして、GLM-4.5をGPT-4o minimalやQwenQwQ 32Kと比較すると、必ずしも素晴らしいパフォーマンスを示すわけではありませんが、まともなパフォーマンスを示しています。そして、ここにあるようなコードベンチマークを見ると、4.5は3.1と並んでおり、QwenQwen 2.5 coder maxを打ち負かし、Grok 2 fastさえも打ち負かしていますが、それでもGPT-4o codeexなどの最高のものには近くありません。4.6は、彼ら自身の数字によると、4.5と比較して有意義な改善のようです。

Live Codebenchのようなベンチによっては、以前の実装をクラッシングしている重要なものです。しかし、本当に重要なのは他のモデルに対する勝率です。ここに4.6対Claude Sonnet 4があり、これは人々またはAIにこれらのソリューションのどちらが良いかを尋ねています。

4.6はSonnet 4に対して48.6%の時間で勝っています。SonnetはGLM-4.6を42%で打ち負かし、9.5%の引き分け率があります。つまり、GLM-4.6は実際にここでClaude Sonnet 4よりも良いパフォーマンスを示しているんです。また、GLMモデルの4.5よりも良いパフォーマンスを示しています。これらの数字は常に読み取るのが難しいです。なぜなら、考えてみるとクレイジーだからです。モデルの4.5が時々4.6を打ち負かしているなんて。それが物事の性質なんです。しかし、Qwenは完全にクラッシングしています。

しかし最もクールな部分の1つは、このトークン使用量についてもっと話していることです。リクエストごとに使用するトークンがDeepSeekやQwenよりもはるかに少ないんです。そして以前のモデルから減少しています。ラボがトークンの過剰使用に焦点を当て、それを削減しようとしているのを見るのは良いことです。それはすべてクールですが、私はこれを実際に試してみたいです。様々な異なるコードエージェントをチェックしました。Open Codeにはまだありません。Cloud Codeを再度壊して再セットアップする気分ではありません。楽しいことですが。

私が本当にこれでテストしたいのはKilo Codeです。すでに組み込まれています。Kilo Codeはスポンサーです。彼らはこのビデオをスポンサーしているわけではありません。彼らは単なる一般的なチャンネルスポンサーです。ここで最新のモデルがどのように振る舞うか見るのが楽しみです。以前使っていたのと同じプロンプトを与えました。それは新しいActivity APIのデモンストレーションで、これは楽しいチャレンジです。なぜなら、これは彼らがトレーニングしたであろう情報ではないからです。なぜなら、これはReactに追加されたばかりの新しいAPIだからです。

だから、これについてもっと情報を見つけるためにウェブを検索できなければなりません。このように更新されるのを見るのはクールです。私は古いバージョンのKiloを使っていて、半分失敗しました。今、最新バージョンを使っているので、はるかに良く見えます。ツールをはるかに良く呼び出しています。To-Doリストを使っています。

ああ、これは実際に本当に良いです。Kiloはこのビデオをスポンサーしていません。彼らは過去にスポンサーしただけです。今、保留中のスポンサーシップのようなものがあるとさえ思っていませんが、良いです。コマンドを実行させます。これは今のところ、多くの点でより速いClaudeのような感じがします。新しいディレクトリ。たくさんのコードを書いています。

めちゃくちゃ速いです。Open Routerでこれに対して見ているTPS数はどれくらいですか。公式のZhipu AI APIは85 TPSでやっています。これは、このティアのモデルの中で最も速いです。Deep Infraは30 TPSしか出していないし、彼らのアップタイムはゴミです。Perasaleははるかに遅く、約20 TPSで、彼らのアップタイムは問題ありません。

だから、今のところZhipu AIが最高のホストのようです。他の人たちがこれをホストするのを見るのが楽しみです。なぜなら、これはオープンウェイトモデルだからです。そして正直に言うと、これを見ているだけで、このモデルは間違いなく今過小評価されていると言えます。私が信頼している何人かの人が、このモデルはすごくて、本当にチェックする必要があると私にDMしてきました。

そうでなければ、私はこれらの単発のオープンウェイトモデルのビデオはやりません。なぜなら、たくさんあるからです。しかし、これは違う感じがします。これは私が期待していた以上に強く打っています。悪いツールコール。ここで何が起こったのでしょうか。ここでは並列で実行しているように見えます。一度に複数のファイルを編集しています。

それが実行されている間、私がカバーしたかった他のことがあります。繰り返しますが、Kilo Codeはここでこれをうまくカバーしました。ここでの本当のストーリーはベンチマークではありません。実用的なパフォーマンスです。4.6は、他のモデルが通常関数を幻覚したりコンテキストを失ったりするマルチファイル操作全体で一貫性を維持します。月額3ドルの彼らのGLMコーディングプランでは、あなたのストリーミングサービスよりも安いです。

賢いオーケストレーションがどのように見えるかです。アーキテクチャと複雑な計画にはClaudeまたはGPT-4oを使用します。実装作業をGLM-4.6にルーティングし、日常的なコーディングタスクのコストを50倍から100倍節約します。ワークロードのわずか80%を処理するだけだとしても、ここでの投資収益率は明らかです。Zhipu AIはまた、ここで珍しいことをしました。

彼らはすべてのテスト問題とエージェントの軌跡をHugging Faceで公開しました。自分で彼らの主張を検証できます。GLM-4.6が生成した実際のコードを見て、成功した場所と苦労した場所を確認できます。透明性はマーケティングベンチマークよりもはるかに優れています。完全に同意します。彼らは本当に奇妙なほど透明で、一緒に仕事をするのが素晴らしかったです。

最近のラボの中で、Zhipu AIは私に良いカバレッジをするために必要なものを確実に持っているようにするために、最初にDMしてくれたラボの1つでした。彼らは早期に私を巻き込むために努力しました。彼らは一緒に仕事をしたりチャットしたりするのが素晴らしく、物事について非常に透明でもありました。6ヶ月前、フロンティアレベルのコーディングAIはフロンティアレベルの価格を意味していました。今日、GLM-4.6のようなモデルは急速にギャップを埋めています。

Sonnet 4.5のためにOpusが関連性を失うことから、私たち全員が期待していたような何かクレイジーな高価な高層階なしで比較的安い価格で落ちたGPT-4o、そして今やGLM-4.6がそのギャップを大幅に埋めており、Sonnet 4とGPT-4oをはるかに安い価格で打ち負かしているのはクレイジーです。これらは、ほとんどのコーディングタスクをコストのほんの一部で処理する正当な代替品です。

本当に複雑なことにはプレミアムモデルを保存してください。他のすべてには効率的なモデルを使用してください。彼らがリンクしているこのビデオは何ですか。私は非常に興味があります。ああ、AI Code King。ええ、彼は実際に「このモデルは違う。本当に注意を払うべきだ」と言って私にDMしてきた人の1人でした。私が登録していないなんて信じられません。

彼の通知をオンにします。なぜなら、彼のチャンネルは素晴らしかったからです。また、おめでとうございますAI Code King、10万人突破。非常によく稼いだものです。6ヶ月前にはこの価格帯では考えられなかったモデルが、今ではコーヒー1杯分の値段で利用できます。それはAI開発の経済を完全に変えます。

これは一晩であなたのお気に入りのモデルにはならないでしょうが、彼らのコーディングプランで月額3ドルでは、かなりばかげて安いです。とにかく、どうなったか見てみましょう。ここでこれの生成が完了しました。コードを実行してみましょう。そして、ここにあります。作成したデモ。無限ループでレンダリングしているようです。ちょっと面白いです。それをやっていることを伝えて、どう修正するか見てみます。

その間に、同じモデルを使ってOpen Codeを素早く実行します。私のActivityデモに戻ってきました。常にレンダリングするバグを修正するように頼んだら、ほとんど即座にやってくれました。それは実際にクールです。素晴らしいしっかりしたUIを作りました。底にたくさんのカードを作ることにハマりました。

これらのモデルから通常見るものとは非常に異なるスタイルを持っています。今、このOpen Code実行がモデルを使って古典的な偽の画像スタジオをどう進むか見るのが本当に楽しみです。これには間違いなく最速のソリューションではありません。ClaudeやGPT-4oのようなよりスマートなモデルを使ってより高いレベルで問題を解決し、その後GLM-4.6に入って、コストのほんの一部で大部分のコーディングタスクを実行させる、より良い例がどこかにあることを期待していました。

人々がこれをやっている例をどこにも見つけていません。それがどのように見えるか分かりますが、これを特に上手く実装している既存のツールを知りません。それは残念です。なぜなら、一度実装されたら本当にクールだからです。ここで私が想像しているのは、以前これを実行した時に見たTo-Doリストのようなものです。

あるいは今でも、私のOpen Code runnerに飛び込むと、十分に上に行くとTo-Doリストがあることが分かります。そこではプロジェクトを初期化し、基本的なレイアウトでセットアップし、ダークモードを作成し、グローバルテーマデザインを実装することになっています。その作業の多くが、Claude Sonnet 4.5やGPT-4oのような、より高価で派手なモデルによって行われる世界を想像できます。

To-Doリストを計画し、それらのタスクがそれぞれ何であり、どのように見えるかについてもう少し詳しく説明するかもしれません。そして、それらのことを実際に実行するために、コーディングエージェントを起動します。それはすでにある種起こっていることです。To-Doリストが見られ、その後サブエージェントが生成され、それらのタスクのそれぞれを実行し、完了したら報告します。

それらのサブエージェントがトップレベルのエージェントとは異なるモデルを使用することは非常に理にかなっています。Cloud Codeは逆の方法でこれをある程度行っています。そこでは、より高価なモデルが何をすべきかを知るのを助けるために、情報を探しに行く安価なモデルがあります。彼らはリポジトリ内のデータの分析の多くにHaikuを使用し、その後、Sonnetに仕事をさせます。

私たちが何をすべきかを理解する高価なモデルと、実際の詳細を実行する安価なモデルという、もう1つの層が上にある未来を見ることができます。非常にエキサイティングなことです。他のものよりもはるかにこのデモアプリに入り込んでいるようです。ズームなどを実装しています。どこまで行くのか、結果がどのように見えるのか興味があります。

今、この実行に5分以上かかっています。だから最速のモデルではありません。トークンをかなり速く出力し、そのためエディターで編集しているのを見ている時は速く感じます。しかし、それが行っている生成作業ではるかに先に進んでいるようにも見えます。これは最速のソリューションではないかもしれませんが、もう少し先に進むことにもなります。

Open Codeで面白いバグを見つけました。この生成はアニメーションするべきなのですが、どうやら私のGhostyの実装とTmuxのレイヤーのために、おそらくアニメーションが起こりません。私は決してTmuxを離れません。冷たい死んだ手から引き抜くまで離れません。このアニメーションはクリックしない限り起こりません。そしてクリックするたびに、更新されたフレームが得られます。

ちょっと面白いです。どうなっているんですか、みんな。出力を見たいです。止まっているようです。これについて考えると、今日持っているものとは少し異なるUIを想像しています。メインエージェントモデルと、Cursorのようなものがあると想像してください。ここにはSonnet 4.5 maxモードがあります。多分それが私たちのデフォルトです。

実行を行う時に作成されるサブタスクに対して別のモデルを選択できる別の小さなドロップダウンまたはどこかの設定があったら本当にクールでしょう。これが欲しいと伝えて、それを実装すると、それが何を考えているかを説明します。その後、それらのサブエージェントは、コストを大幅に削減するために、異なる安価なモデルで実行できます。なぜなら、これらの大きなモデルの1つを巨大な量のコンテキスト全体で何度も何度も実行することは、本当に高価になる可能性があるからです。

しかし、十分に良い計画があれば、より愚かなモデルがそれを実行できます。これは、伝統的なエンジニアリングチームのようなものとして考えることができます。全体的な構造とプロジェクトの方向が正しい方向にあることを確認するために、物事を十分に理解している人がその高レベルの計画を行う必要があります。そして、それらの与えられたチケットの実装の詳細を行う、あまり認識していないエンジニアを持つことができます。本当に理解している人がその最上位レベルの計画を最初に行うことは常に良い考えです。

そして、これらの他のタスクを実行するために、はるかに安価な愚かなモデルのサブ選択を持つというアイデアは本当にクールです。そして、これらのツールの多くが、与えられた実行に対して1つのモデルをすべてに使用するのではなく、それで構築されていることを望みます。もっと考えれば考えるほど、異なることに異なるモデルを使用することについて本当に優れている唯一のツールは、面白いことに、Cloud Codeです。

Claudeモデルは非常に高価なので、製品を全く実行可能にするために、Haikuのようなより安価なClaudeモデルを利用しなければなりませんでした。しかし、私が知る限り、これらのツールのいずれもこの機能を持っていません。仕事の異なる部分に異なるモデルを使用するこのアイデアについて積極的に話しているKilo Codeのようなものでさえ、彼らはまだこれを実装していません。少なくとも私が知る限りでは。設定をチェックして、彼らがこれに関して何かを持っているか見てみましょう。

彼らが持っていたら非常に驚くでしょう。ええ、持っていません。どうやら、無効なJSXを吐き出しているようです。楽しいですね。私が今経験している痛みは、ツールがこれに追いついていないためだと本当に感じています。そして、メジャーラボがCloud CodeやCodeexのようなものに多くの努力を注いでいる理由がもっと分かります。なぜなら、それを所有し、あなたのモデルでの体験がちょうど良いことを確認することで、非常に多くの価値が得られるからです。

これらのものを構築しているビジネスの周りで多くの憶測を見てきました。「まあ、モデルを交換できるだけです。それはそれほど大きな問題ではありません。これらのツールはそれほど複雑ではありません。」それらは複雑であってはいけません。しかし、多くの人に問題を引き起こしているこのようなランダムなことがたくさん起こっているのを見ています。クールです。

どうやら今完了しているようです。そして完全なアプリをテストしたいだけです。localhost 3000をチェックして、最終的に何をしたか見てみましょう。まあ、これは実際に通常Claudeから得るものよりも良く見えます。ヘッダーがひどいような奇妙なことがありますが、これは出発点です。実際にかなり良いです。

グラデーションは好きです。ホバー動作は好きではありません。クライアント側の例外にヒットしたのは面白いです。ああ、これはモック画像のnext configにないだけです。イライラしますが、起こることです。ここにはたくさんの可能性があります。それは明らかです。ベンチマークがそれを示しています。デフォルトでのそのUIの品質がそれを示しています。

モデルに関して他の多くの会社が持っている誇大広告が、それを特によく示しています。私は毎日このモデルを使用するでしょうか?まだです。しかし、このモデルをこれらのタイプの問題の主要なソリューションの1つとして使用するツールを使用するでしょうか?絶対に。ここでのClaude同等の主張が、ベンチマークでのコードの品質がClaudeに似ている可能性があるということだけでなく、それを使用して得られる体験の質もそうであることを望みます。

そこに到達する可能性は絶対にありますが、まだその可能性を見ていません。これがすべてどこに行くのか見るのが非常に楽しみです。複数のモデルが一緒に問題を解決する理由が今まで以上にあります。モデルは他のモデルが異なる部分を行っていることを知りません。全く知りません。彼らが持っているのはテキスト入力、テキスト出力だけです。

もっと多くの会社がこれを利用するのを見たいです。GPT-4oがこれらのより安価なモデルを使用してサブエージェントを起動し、結果がどのように見えるか見たいです。誰かがそのツールを構築し、私が試すのを簡単にしてくれたら、ぜひ試してみて、将来のビデオに使用したいと思います。しかし今のところ、私のOpen Codeターミナルが非常にゆっくりと失敗し、たくさんの問題に遭遇し、その後25分以上後に実際の答えがあるのを見つめているだけです。ちょっと悲しいです。

彼らはコストを削減しながら知能を増やそうと非常に努力しています。そして、それは私たち業界として努力すべき重要なことです。人々がこのモデルで何をするか見るのが待ちきれませんし、人々がそれに関連して構築するツールの未来が楽しみです。しかし今のところ、それは私が使うものではありません。皆さんがどう思うか教えてください。

コメント

タイトルとURLをコピーしました