中国のオープンソースがコーディングを席巻(GLM-4.5)

オープンソース・オープンウェイト
この記事は約9分で読めます。

中国のZAIが開発したオープンソースモデルGLM-4.5が、クローズドソースの最高峰モデルと同等の推論、コーディング、エージェント機能を実現したことを紹介する動画である。ルービックキューブの完全シミュレーションから太陽系の3D可視化まで、複雑なタスクを正確に処理する能力を実証しており、オープンソースモデルがついにフロンティアレベルに到達したことを示している。

Chinese Open-Source DOMINATES Coding (GLM-4.5)
Download HubSpot's Free Guide to Models, Prompts and Must-Try GPTs: The Matthew Berman Vibe Coding Playbook (free) 👇...

中国発オープンソースモデルの躍進

中国が単独でオープンソースモデルをフロンティアに押し上げとるんや。ZAIっちゅう会社からGLM-4.5っちゅう全く新しいモデルが出てきて、これが最高のクローズドソースモデルと肩を並べる推論、コーディング、エージェント機能を持っとるんやで。モデルについて詳しく話す前に、まずデモを見せたるわ。

これはルービックキューブを成功裏にシミュレートした史上二番目のモデルなんや。正直に言うと、何回かやり取りせなあかんかったけどな。ちょっとした問題があったんや。そんでこれを見てくれや。ルービックキューブがあるやろ。全ての面が正確に見えとる。空間で動かせるし、移動履歴も出力してくれるんや。一つずつ動かしたかったらそれもできるし、スクランブルをクリックするだけでもええ。

ほら見てみ。完全にシミュレートされたルービックキューブや。めっちゃええ感じに見えるやろ。でもこれ、解けるんかな?確かめてみよか。始まったで。キューブを解いとる。うまくいっとるみたいやけど、どうなるかな。ほら、完璧に解けたわ。移動履歴も出力されるから、実際に何が起こっとるか確認もできるんや。

複雑なパズルへの挑戦

よっしゃ、今度は5×5のキューブを試してみよか。スクランブルしてみる。ほら見てみ、完璧に動いとるやんか。オーケー、スクランブル完了や。十分にごちゃごちゃになったと言えるやろな。そんで今度は解いてみる。ほらな、完璧に解けたわ。もう一回やってみよか。10×10や。これやで。スクランブルや。オーケー、これでスクランブル完了や。そんで解いてみる。

始まったで。完全にスクランブルされてなかったと思うんやけどな。それなりにごちゃごちゃにはなっとった。そやな、もっとごちゃごちゃにできたはずや。実際にスクランブル回数の機能を追加してみようか。スクランブル回数を指定できる機能を追加してくれや。完了したらまた戻ってくるわ。

次はハノイの塔パズルや。Appleの論文で、これらのモデルは思考の連鎖でパズルを解けへんって言うとったやつを覚えとるか?まあ、解けたんやけどな。プロンプトは「あなたは純粋な思考を使って4枚ディスクのハノイの塔パズルを解くことを任された高度な推論モデルです」や。ここが重要なとこやで。

問題の再帰構造を深く分析して、それを分解して、思考の連鎖で完全に解けたら、動きを見せる可視化を作るんや。実際の動きはここにある、思考の連鎖で15手や。これはコードで解いたんとちゃうで、コードやったらもっと簡単やからな。

そんでパズルはコードでシミュレートされとる。試してみよか。解法開始や。ここで各手を表示して、各手を可視化もしとるんが見えるやろ。ほら、パズル解けたわ。今度はもうちょっと難しいやつをやらせてみる。これを10枚バージョンでやって、可視化速度を10倍速くしてくれや。

これはちょっと後で戻ってくるわ。よっしゃ、次や。Three.jsを使った対話式レゴ組み立てシミュレーションを単一のHTMLファイルに含めて作ってくれや。見てみよか。最初の平面レゴがここにあるな。2×3の青いレゴを追加してみよか。オーケー、ええ感じやな。まあ明らかに下の板に完璧にはめ込まれてへんけど。

でも上をクリックしても、正確に一つずつ積み上げ続けてくれるんや。1×1の緑を追加してみよか。オーケー、ちょっとしたエラーがあったけど、全体的にはめっちゃええと思うで。どのモデルも完璧にはできてへんからな。これはめっちゃええわ。

太陽系の3D可視化

そんで多分一番のお気に入りやけど、太陽系の3D可視化で、調整できる設定がたくさんあって、ツールチップもあるから太陽系について学べるんや。これ見てくれや。

こんな風に回転させられるんや。惑星それぞれがあるで。地球、金星、火星、木星や。軌道の軌跡もそこに見えるやろ。ちょっと見にくいけど、確実にあるで。この小さい灰色の線がそれや。実際に動いとるんが見えるやろ。プロンプトは「設定用のスライダーをたくさん付けて、全てにツールチップを付けた正確な太陽系の3D可視化を作って、そこから学べるようにして」や。

作ってくれたんやけど、無限にローディング中って表示されとった。そんで俺が「太陽系のローディングで止まっとる」って言うたら、「問題が分かった。修正したる」って言うてくれたんや。これ全部ZIのチャットインターフェースのキャンバスモードでやっとるんや。ローカルのIDEは使うてへん。

マウスを載せたら、そこに金星があって、太陽からの距離、公転周期、一日の長さが見えるやろ。めっちゃかっこええわ。絶対に気に入ったで。シミュレーションを遅くしたり速くしたりできるんや。軌道を表示したりせんかったりもできる。ちょっと見にくいけど、実際にこの小さな線を消すこともできるんや。ラベルを表示したりせんかったり。星を表示したりせんかったり。惑星のサイズを変更したり。

距離スケールも変更できるし、環境光を変更したり、太陽の光も変更できるんや。こんな感じでな。ほら、美しいやろ。

ところで、AIの知識を増やしたいなら、ちょっと止めて今日のスポンサーのHubSpotについて話させてもらうわ。AIで解決できるって分かっとることがあるんやけど、どうやったらええか分からんかったことってあるやろ?俺も同じ状況やったんや。

やからHubSpotの無料AI解読ガイドをお勧めするんや。モデルからプロンプトからツールまで、AIについての詳細なポケットガイドやで。リンクは下の説明欄に完全無料でダウンロードできるようになっとる。

創作に最適なモデルは何か?AIを使って完全なPowerPointプレゼンテーションを作るにはどうしたらええか?コーディングに最適なモデルは何か?そんでそれが全部分かったら、これらのモデルそれぞれに使う最適なプロンプトは何か?一番気に入っとるんは、様々なユースケースに使えるカスタムGPTもたくさん提供してくれとることや。

繰り返すけど、このリソースは無料や。HubSpotが下の説明欄で提供してくれとる。今すぐAI解読ガイドをダウンロードしに行ってくれや。そんでHubSpotがこの動画をスポンサーしてくれたことにもう一度感謝するわ。素晴らしいパートナーやったで。ぜひチェックしてくれや。それじゃあ動画に戻ろか。

GLM-4.5モデルの詳細

さあ、モデルについて教えたるで。これはGLM-4.5推論コーディングとエージェント機能や。中国発のもう一つのオープンソースモデルで、コーディングのフロンティアに絶対に立っとるんや。Qwen2.5-Coderも出たし、Qwen3も出た。これらのモデルは狂っとるし、オープンソースや。

2つのモデルで出とる、GLM-4.5と4.5-Airや。大きい方は総パラメータ数3550億、アクティブパラメータ数320億で、つまりMixture of Expertsモデルってことや。Airの方は総パラメータ数1060億、アクティブ120億や。どちらもハイブリッド推論モデルで、推論タスクと非推論タスクの両方ができるってことや。複雑な推論とツール使用のための思考モードと、即座の応答のための非思考モードを提供しとるんや。推論が要らんはずのやつを見せたるわ。

カリフォルニアの州都は何や?オーケー、めっちゃ速かったけど実際に考えとったな。サクラメントや。正解やで。もう一つ試して、これで考える必要があるかどうか見てみよか。物語を聞かせてくれや。超簡単や。そのまま出力するはずや。うん、またかなり考えとるな。実際に非思考バージョンを発動させることはまだできてへんわ。

ベンチマーク結果の分析

ベンチマークを見てみよか。これは上のベンチマークのインデックスやと思うんやけど、見て分かる通りo3が65、Grok2が63.6で、そのすぐ後ろにオープンソースのGLM-4.5が63.2でClaude Opusを上回っとる。そんで小さいバージョンも見てくれや、GLM-4.5-Airが59.8や。

エージェントベンチマークのTauBench、BFv3、BrowseCompでGrok2を上回っとる。見てくれやこれ。推論のベンチマークMMU-Pro、AMC2024、MATH-500で、これらも様々なベンチマークのインデックスやと思うんや。ここでもClaude Opusのすぐ上でめっちゃ高性能やけど、DeepSeek-R1、Qwen3、o3、o4-mini、Gemini 2.0 Flash Thinking、Grok2には負けとる。

コーディングでは一番上や。Claudeが上位2つを占めとるのは驚きやないな。TauBench-Retail、TauBench-Airlineや。これらはツール使用ベンチマークや。ここでも他のフロンティアモデルと同等に並んどる。そんでSWE-Benchでモデルパラメータと比較したやつや。高くて左寄りがええんや。左は小さいってことで、上は SWE-Bench Verifiedでのスコアが高いってことやからな。

Claude Sonnetが一番上やけど、パラメータ数は不明で多分めっちゃでかいやろな。Qwen2.5-Coderが出たばっかりやけど、GLM-4.5と品質的にはほぼ同等に見えるな。でもサイズは2.5倍やで。めっちゃええポジションにおるってことやな。

もちろんエージェント機能のために強化学習でポストトレーニングもやっとるし、強化学習ポストトレーニングはもう当たり前になっとるからな。

追加デモンストレーション

よっしゃ、ルービックキューブに戻ろか。移動回数を追加できるようになったで。10×10キューブでやってみよか。これやで。50手でスクランブルしてみよか。実際にそうするかどうか見てみよか。オーケー、始まったで。50手のはずや。数えへんけど、めっちゃたくさん動いとるように見えるな。解いてみよか。オーケー、解けてきとるみたいやな。ほら、キューブ解けたわ。めっちゃ印象的やで。

彼らが提供してくれた他のデモもいくつか見せたるわ。Flappy Birdや。開始できるで。オーケー、めっちゃ正確に見えるな。始めるで。一つ通った、二つ通った。スペースバーでFlappy Birdを動かしとるだけや。行くで。よっしゃ、これやで。

次、3D迷路エクスプローラーや。よっしゃ、見てみや。めっちゃ正確な影と照明やな。どこから照明が来とるかはよう見えへんけど、全部めっちゃええ感じに見えるで。

次、To-Doボードや。動かせるし、タスクも追加できる。よっしゃ、かっこええな。

可視化もあるで。SVGアニメーション。大規模言語モデルの進化や。ええな。もちろんネストしたスピニング六角形のPythonシミュレーションもや。これは素晴らしい見た目やで。

そんで作ってくれたポケモン図鑑や。どれでもクリックできるで。全部のステータスが見えるし、写真もあるんや。カメックスや。めっちゃかっこええわ。

高度なハノイの塔解法

よっしゃ、最後に今度は10枚のディスクを使ったハノイの塔に戻ろか。でも面白いことに、思考の連鎖で各手を実際にリストアップしてへんかったんや。代わりにそれをするアルゴリズムか手順のグループをリストアップしたんや。これ見てくれや。

レベル1、10枚のディスク。AからBにCを使って9枚のディスクを動かす。AからCにディスク10を動かす。BからCにAを使って9枚のディスクを動かす。こんな感じでな。レベル2、レベル3もあるで。そんで実際に総手数も計算しとる。

やってみよか。解法開始や。始まったで。俺には動いとるように見えるで。よっしゃ、最後まで飛ばしてみよか。オーケー、これや。完全に解けたわ。各手、1秒間に10手、総時間81秒、1023手や。素晴らしいわ。

オープンソースの勝利

ついにオープンソースモデルがクローズドソースモデルに事実上追いついた世界におるんや。もちろんGPT-5が来るから、それは他の全てを大きく上回るかもしれんけど、今のところは複数のオープンソースモデルがフロンティアにおるんや。

この動画を楽しんでもらえたら、いいねとチャンネル登録をお願いするわ。

コメント

タイトルとURLをコピーしました