中国発のZhipuAIから新たなオープンソースAIモデル「GLM-4.5」がリリースされた。このモデルは思考型と非思考型を統合した汎用性の高い設計となっており、商用利用可能なMITライセンスで提供されている。355億パラメータ(アクティブ32億)のフルモデルと、106億パラメータ(アクティブ12億)の軽量版Air版の2つのバリエーションがある。特にエージェント機能やコーディング性能に優れており、実際のベンチマークテストではO1やClaude 3.7 Sonnetと肩を並べる高い性能を示している。

中国発の革新的AIモデル「GLM-4.5」の登場
中国は全然スピード落とさへんで。思考型と非思考型を統合した新しいモデルが出てきて、これがベンチマークでめちゃくちゃええスコア出してるんや。このモデルには2つの異なるバリエーションがあって、これがGLMモデルっちゅうやつなんやけど。
残念ながら、みんなはxAIがGrokモデルをオープンソース化することを期待しとったやろうけど、中国のZhipuAIがMITライセンスでモデルをオープンソース化してくれたんや。つまり商用目的で使えるし、ファインチューニングとかの二次利用も全部できるっちゅうことやで。
GLM-4.5の技術仕様と特徴
この新しいモデルはGLM-4.5って呼ばれてるんや。このモデルのアイデアは、いろんなドメインで本当に優秀な統一モデルを作ることなんやって。思考もできるし、非思考もできるし、さまざまなタスクでも優秀やっていう、そういう統一モデルを作るのがアイデアなんや。
彼らは2つのモデルをリリースしてて、GLM-4.5とGLM-4.5 Air、まるでiPadみたいにな。GLM-4.5 Airは非常に高速なモデルで、サイズも小さく、コアモデルよりもはるかに速く処理できるんや。
GLM-4.5は合計355億パラメータ、アクティブパラメータが32億で構築されてる。これはMOE(Mixture of Experts)モデルやから、モデルがたくさんのことを知ってるっちゅうことなんや。355億パラメータやけど、各トークンの処理では32億のアクティブパラメータだけが活性化されるんや。GLM-4.5 Airは合計106億パラメータで、アクティブパラメータが12億あるんや。これは本当にええモデルやと思う。
エージェント機能とトレーニング手法
このモデルはツール使用がめちゃくちゃ得意やと思うで。モデルをオープンソース化しただけやなくて、事前トレーニングと事後トレーニングのレシピも共有してくれてるんや。
事前トレーニングはモデルが知識を蓄積する部分で、事後トレーニングは特定の方法で振る舞うことを学習する部分なんや。彼らは事前トレーニングもエージェント用途に最適化された方法で行ったって言うてるで。
事前トレーニングの段階では、モデルはまず15兆トークンの一般的な事前トレーニングコーパスで訓練されたんや。英語、シェイクスピア、ハリー・ポッター、いろんなものが含まれてて、その後7兆トークンのコードと推論コーパスで訓練されたんや。
事前トレーニングの後、主要な下流ドメインでのモデル性能をさらに向上させるために追加のステージを導入したんや。これにはリポジトリレベルのコードを事前トレーニングデータセットに組み込むことも含まれてて、事後トレーニングでは専門的な長コンテキストエージェント調整も行ったんや。
ベンチマーク性能と実力比較
エージェント状況を合成して、モデルがエージェントタスクで本当に優秀になるように調整したんや。主にコーディングタスクは、実世界のソフトウェアエンジニアリングタスクでの実行ベースのフィードバックによって駆動されてるんや。これがモデルをエージェントタスクの本当に優秀な専門家にしてると思うで。
エージェント推論とコーディングベンチマークでの全体的な性能を見ると、このモデルGLM-4.5は、Artificial Analysisが行ってるのと非常に似てるんや。GLM-4.5を見ると、O1のすぐ隣に位置してて、GLM-4.5がそこにある。GLM-4.5 Airは6位の位置にいるんや。これは全てのベンチマークで本当にええモデルやで。
エージェント能力の面では、このモデルは優秀や。それが主要な核心部分なんや。私のテストでも、このモデルはツール使用で本当に優秀やと感じたで。
推論の面では、このモデルはDeepSeek R1、Qwen 3 thinking、Gemini 2.5 Proをはるかに超えてるんや。SWE verifiedでは、スキャフォールディングなどを行うOpenHandsを使用してて、GLM-4.5は64.2%、GLM-4.5 Airは57%をスコアした。この2つのモデル間には7パーセントポイントの差があるんや。
参考までに、OpenAIのフラッグシップモデルである非思考型フラッグシップモデルのGPT-4oは48%しかスコアしてない。Claude 3.5 Opusは68%、Claude 3.7 Sonnetは70%、正直めちゃくちゃ優秀なコーディングモデルであるGemini 2.5 Proは49%をスコアしたんや。全体的に見て、これは優秀なコーディングモデルやで。
実際の使用方法とアクセス
疑問を持つ余地はないと思うで。他にもモデルが優秀なベンチマークはあるけど、私の意見では、これはツール使用、つまりエージェント目的にとって本当に優秀な候補やと思う。このモデルは非常によく輝くと思うし、モデルは使用可能やで。
一つは、本当に優秀なハードウェアを持ってるなら、ダウンロードして実行できる。または今すぐHugging Faceで使用することもできるけど、このページは本当に遅くて、タスクを送信しても少なくとも20人の他の人と一緒にキューに入るから、時間がかかるんや。
彼らのプラットフォームでモデルにアクセスすることもできるで。zhipuai.cnをクリックして、chat.zhipuai.cnに行けばモデルにアクセスできる。限定アクセスでいろんなことができるんや。例えば、プレゼンテーションを作成してもらったり、フルスタックコーディングをしてもらったり、ウェブプレビューを見たり、基本的なことができるんや。
実際のテスト結果と比較検証
私がこのモデルをテストしたい実践的な例を見せるで。まず最初に、これは現時点で非常に人気のあるRunway Gen-3プロンプトなんや。このプロンプトはSaleemahによって紹介されたもので、こんな広告を作成するアイデアなんや。まず広告を再生してから、それを複製してみるで。
これはRunway Gen-3からのもので、私たち人間がやる代わりに、異なる製品でこれを複製できるかどうか、私がAIエージェント、この場合はZhipuAI GLM-4.5またはChatGPT o1に聞いて比較して、どうなるか見てみるんや。
まず最初に、o1が何をするかを見せるで。ベースラインを持ってもらうために。Saleemahが共有した正確なプロンプトを取って、現時点で私のお気に入りモデルであるChatGPT o1に渡したんや。
ビデオ生成AIのための以下のプロンプトを理解して、Nothing phoneのために同じものを書き直してほしいって言ったんや。背面にグリフライトがあるスマートフォンで、現時点でインドで非常に人気がある。グローバルに利用可能やと思う。背面に透明ケースのような非常に奇妙なグリフ構造があるんや。それが私が与えた全ての情報やで。
それについて考えて、Nothing phoneにはグリフライトがあるから、そのアニメーションに焦点を当てるって言った。全体を理解したんや。JSON構造を理解して、9秒であまり考えることなく仕事が何かを理解したんや。最終的なJSONを私に与えて、Runwayに行って同じプロンプトを与えて、16:9のアスペクト比で生成したんや。
ワイドショットを取得して、これが得られた結果や。再生するで。これは非常に印象的な出力やった。唯一の問題は、Nothing phoneには全く見えへんことなんやけど、Gen-3のトレーニングデータには含まれてなかったかもしれんから、それは理解できると思うで。
OpenAIがここでやったことのほとんどが気に入ってるんや。背景、葉っぱ、暗い背景、前面に来るグリフ。全部が大好きやで。電話自体だけが違う。実際のNothing phoneやないけど、他の全てが私には非常に良く見えるんや。もう一度再生してから、Zhipuaiに移るで。
音声はV3によって自動的に追加されるんや。私たちが行ったプロンプトのおかげでな。
Zhipuai GLM-4.5での検証結果
今度はZhipuai GLM-4.5に同じ正確なプロンプトを与えて、少し考えてから戻ってきて詳細を教えてくれたんや。もう一つやったことは、どんな変更を行ったかを言ってくれたことやで。これで私にさらなるアイデアが与えられるんや。
モデルに何かを頼みに行く場合、モデルがどのように決定を下したかがわかる。だからそれを調整できるんや。これはこのモデルがやった興味深いことやで。ChatGPTはやらなかった。多分ChatGPTは、さらなる指示は必要ないって思ったんやろう。それは尊重できるわ。でもこのモデルは私のためにその特定の仕事をしてくれたんや。
これをコピーしてRunwayにまた渡して、また16:9で。これがこのモデルGLM-4.5が私のためにデザインしたものや。一つのプロンプトを理解しただけでやで。
私の意見では、ChatGPT o1の方がはるかに気に入ってる。この場合、IKEAの広告をそのまま取って電話に置き換えただけで、他に何もしなかったような感じがするからや。
ChatGPT o1の応答が気に入る理由は、コンセプトを理解して、それを完全にスマートフォン用に変換したように見えるからや。このモデルが作り出したもの、理解能力、そしてChatGPT o1が作成したものの間にはギャップがあると感じたんや。
PowerPoint作成機能のテスト
このモデルで次に試したことは、最近私が非常に夢中になってることで、これらのモデルにPowerPointプレゼンテーションを作らせることなんや。
ChatGPTエージェント対Manis AIについての私のビデオを見たことがあるなら、PowerPointプレゼンテーションを作成するためのプロンプトを使用したのを見たやろう。好むと好まざるとにかかわらず、PowerPointプレゼンテーションは多くのお金を稼ぐんや。PPT作成は人間がお金を稼ぐ核心なんやで。
非常にシンプルなプロンプトを与えたんや。その特定のビデオで使用したのと同じプロンプトを。生産性のためのAIエージェントに関するスキル訓練セッションのためのPowerPointプレゼンテーションを作成しなければならない。
このモデルは多くの時間を要したんや。負荷の問題があることは理解できる。モデルは仕事を完了した。このモデルがやったことのほとんどが気に入ったで。このモデルは実世界のデータを使用したんや。AIエージェントについての指示があるたくさんのウェブサイトに行って、そのデータを収集してプレゼンテーションを作ったんや。
明らかにManisもプレゼンテーションを作成したけど、プレゼンテーションは実際のプレゼンテーションというよりもShadcn UIベースのウェブサイトのように見えたんや。でもこの場合、HTMLのように完全にコードされていても、実際にプレゼンテーション風のPPT風の最終出力を得ることができたんや。
生産性エージェント訓練のトピックと目的、アイコンも本当に優秀で、学習成果、核心概念、定義と未来、インターネットから取った画像もあるで。主要機能、核心概念、タイプと違い、相互作用に基づく、エージェント数に基づく。やったことが気に入ったで。
ここでChatGPTエージェントが私のために作成したものはまだ愛してるけどな。でも明らかにそれはウェブブラウザアクセス、PowerPointアクセス、その他多くのものを持つエージェントやからな。
総合評価と将来への期待
単純なツール使用だけのモデルがChatGPTエージェントやManis AIのようなこれらの自動化ソリューション全てと競争することを期待するのは公平やないけど、このモデルは非常に良い仕事をしたと思うで。
全体的に、このモデルはツール使用にとって本当に優秀な候補やと信じてるんや。このモデルについてどう思うか教えてくれや。中国は全然スピード落とさへんし、中国は何度も何度もロックしてるで。
また別のビデオで会いましょうや。


コメント