新型Qwen 3 Coderが驚きの性能、OpenAIのエージェントモードをPlusアカウントで実測

AIエージェント
この記事は約14分で読めます。

この動画は、OpenAIのChatGPTに新たに実装されたエージェントモードがPlusアカウントで利用可能になったことと、Alibabaから新しく発表されたQwen 3 Coderモデルについて実際のテスト結果を交えながら解説している。エージェントモードではDeep Researchとoperator機能を組み合わせて複雑なタスクを自動実行でき、ウェブブラウジングからゲームプレイまで幅広い操作が可能である。一方、Qwen 3 Coderは480億パラメータのMoEモデルで、コーディング能力においてClaude Sonnetに匹敵する性能を示している。

NOVO Qwen 3 Coder Surpreende e Agent Mode da OpenAi Testado Usando Contas Plus
Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

エージェントモードの実装とテスト結果

皆さん、どうやらChatGPTのエージェント機能がPlusアカウントでついに解禁されたで!それにQwen 3 Coderっちゅう新しいモデルもリリースされたんや。もうテストしてみたから、一緒に見てみよか。

いつもライクボタン押してくれたり、チャンネル登録してくれたりしてる皆さん、本当におおきに!そして、このAIチャンネルをサポートしてくれてるメンバーの皆さんにも心から感謝やで。メンバーの人らには限定動画があって、ゼロからエージェントの作り方、WhatsAppでPDFファイル読み込むやり方、MCPとかその他いろんなことを教えてるし、動画も早く見れるんや。

今日のビッグニュースはこれやで。ChatGPTについては前に動画作ったから、その動画見てもらったら全部分かる。どんな風に動くか、いくらかかるか、どこから使えるかとか全部説明してある。で、今日は実際に使えるようになったっちゅう話や。

ツールのところ見てもらったら、もうエージェントモードが出てくるはずや。見てもらったら分かるけど、40回のうちもう1回使ったんや。動画始める前にテストしたからな。Plusプランやったら40回まで使えて、Proプランやったら400回まで使える。

Hacktown 2025の調査依頼テスト

さっき俺がした質問の結果を見てみよか。「サンタ・ヒタ・ド・サポカイでもうすぐHacktownがあるけど」って言うたんや。わざと日付は言わんかった。向こうに調べてもらおう思てな。「何日間のイベントか調べて、ホテルの選択肢と参加費用も調べて、どれが一番ええか判断できるようにレポート作って」って頼んだんや。

実を言うと、送った後で気づいたんやけど、飛行機とかバスの交通手段のことも言うべきやったな。まあええけど。

そしたらAIが「分かった。調査します」って言うて、7分間作業したんや。再生ボタン押したら、調査中に何をしてたか見れるんや。めっちゃ面白いのが、AIが何を考えてるか文字で書いてくれるんや。内蔵ブラウザで検索始めて、何が起こってるか理解しようとしてる。

Hacktownを探して、どこでやるかを理解しようとしてるな。検索始めて、ファイルがまだ読み込み中で何かが開こうとしてる。めっちゃ早いから、何言うてるか読むにはポーズボタン押さなあかん。

でも面白いのは、タブ開いて、いろんなタスクやり始めて、読み取りモードに入って、「Festival Hacktown 2025 in Santa Rita do Sapucaí」って見つけたんや。Simplaで全部調査し始めた。

もっと先を見たかったら飛ばせるで。もうこの調査は終わってるから待つ必要ない。でも調査してる間はリアルタイムで見れたんや。

システムの仕組みと機能

ここで何が起こってるか理解することが大事やで。三つのツールが動いてるんや。コンピューター利用機能っちゅうのがあって、コード書いたりコマンド実行したりできる。その上にDeep Researchっちゅう検索機能がある。

このDeep Researchには二種類のネット検索がある。一つはテキスト形式のウェブ検索や。ニュース集めたりするのに、いちいちアクセスして、クリックして、ログインして、パスワード入れて、登録して、価格調べたりせんでも済む。ニュース読むのはテキスト検索の一種で、リンクにアクセスしてテキスト取ってくるだけや。

でも、operatorっちゅう機能も使う。前のoperatorはもうなくなるけどな。operatorを使うと視覚的な検索ができる。実際に見ながらネットを使えるし、コンピューターも見ながら使える。これが大きな違いやな。

結局、あっちこっち迷いながら検索して、時には見つけたり見つけなかったり、混乱したりもするけど、最終的には調査を続けてくれる。そして7分後に、こんなレポートを作ってくれた。

「Festival Hacktown 2025、サンタ・ヒタ・ド・サポカイ、ミナス・ジェライス州」って書いて、日付は7月31日から8月3日まで。もうすぐやな。別にスポンサーされてるわけちゃうで、念のため。

チケットとコストの選択肢も見つけてくれた。第6次販売の通常チケットがnuvenshop.comで570レアルからや。でも俺が直接調べたら、Simplaで540レアルやった。

そこで疑問が出てくるな。AIに7分間かけて調査させて570レアルって値段見つけてもらうのと、俺がサイト入ってクリック一回して540レアル見つけるのと、どっちがええんやろか。

まあ、今見たら540レアルプラス手数料やな。570レアルが手数料込みか別かは分からんから、AIに買い物任せる価値があるかどうかは微妙やな。

他にも、サンタ・ヒタ住民チケットとか、CAD único持ってる住民用のソーシャルチケットとか、いろんな選択肢を調べてくれた。

宿泊については、ホテルとその他の選択肢に分けて、1泊195レアル、229レアル、650レアルとか、いろんな場所と選択肢を教えてくれた。Vila Hackerっちゅう公式キャンプサイトもあって、1日154レアルで、4日間で合計700レアル。4人家族やったら4日間で2,500レアル、1日500レアルになる計算や。

分かったやろ?これがoperatorと深層検索を組み合わせたやつで、タスクを渡すだけでええんや。やることはツールのところでエージェントモードをオンにするだけ。ツール選んで、エージェントモードにして、質問を書く。ウェブ検索、テキスト検索、必要やったらコード実行やコンピュータープログラム実行もできる。

ゲームプレイテスト

でも気になったのが、このシステムを使ってウェブゲームで遊んでる人がいるっちゅうことや。そこで俺も簡単やと思うゲームを探してきた。Val Shadowsっちゅうオンラインゲームや。

Zキー押してスタートして、基本的な仕組みは簡単や。俺が今プレイしてるのを見せるで。15レベルあって、緑のダイヤモンド取って出口まで行くんや。

オレンジの床は永続的やけど、白い床は落ちる。緑のところまで行かなあかん。ルールはどこにも書いてない。絵を見て自分で理解するしかない。

赤いところは、踏むと全部の赤いところが同時に落ちる。ダイヤモンド取って、戻って、星のところまで行く。そしたら次のレベルに進んで、15レベルまでこれを続ける。

AIにこのゲーム見つけてもらって、Lexalofelのサイトも教えて、Val Shadows遊んで15レベルまで行ってもらおうと思う。エージェントモード有効にして、残り39回の試行がある。

何人かがやってるのを見たけど、うまくいくかは分からん。でもリアルタイムでテストしてみよか。このゲームは無料で、サイト入るだけでログインも要らん。ログインしたらコメントできるようになるけど、いつものことやな。

AIがゲームに入った。Lexalofel。探してる。ゲームをちゃんと探すかな。検索バーに行った、正解や。Val Shadows。ちゃんと探すかな。画面少し下げて、当てようとしてる。

Val Shadows見つけた!ゲームをクリックした。画面読み込み待ち。ゲームが出てきた。クリックしようと…

おい、めっちゃやばいで!俺は何もしてない。AIが勝手に動いてるのを見てるだけや。こんなん見たことない!

ゲーム読み込み中。8ビットの超シンプルなゲーム。「Z to begin」。気づくかな。始まった!あのテキストが出てる。プレイできるかな。矢印キー押せるかな。

できてる!白いところに行った。白いところは床が落ちることは知ってるやろ?動いたら床が落ちる。何をしたらええか分からんで迷ってる。

ルールを見ようとしてる。プレイヤーをどう動かすか。続ける。いろんなボタン押して、仕組みを理解しようとしてる。プレイヤーを動かそうとしてるけど、困ってる。上に行けたけど、次に何をしたらええか分からん。

またキーを見てる。カーソルキーが使えるはず。上に行けた。上に行けたっちゅうことは正解や。でもキーが動かんって文句言うてる。でも実際は一回動かせたやん。

Z押したから、多分リセットされた。戻った。リセットされて最初に戻った。右に動いた。あと2つで第1ステージクリアや。

すごいな、できてるやん!このAIの世界ってほんまにやばいな。第1ステージクリア!

これが実際のArcAGIや、分かるか?これがリアルタイムでやる知能テストや。ゲームを始めて、仕組みを理解して、実際に遊びながらゲームのメカニズムを学んで、勝たなあかん。

Qwen 3 Coderの性能検証

さて、Qwenについて話そう。彼らがリリースしたのはQwen 3 Coder、「世界最先端のコーディングエージェント」や。コーディングモデルっちゅうのは分かるやろ?

Mixture of Expertsで、4800億パラメータ、そのうち350億パラメータがアクティブや。Expertが別々に動いてるのは知ってるやろ?4800億全部を一度に使うわけやない。

ネイティブで256,000トークン、拡張手法で100万トークンのコンテキストウィンドウがある。Claude Sonnetより優秀やと言うてる。Qwen 3 Coderも一緒にリリースしたけど、これはGemini Codeのフォークや。見た目がGemini Codeに似てるのはそのせいや。

パフォーマンスデータを見ると、優秀な結果や。Claude Sonnet 4と同レベル、Qwen 2と同レベル、GPT-4oより上、Gemini 2.0 Flash Previewより上や。しかも小さいモデルやから、かなり節約できる。

DeepSeek R1やV3より小さくて、前のバージョンの2350億パラメータよりちょっと大きいだけや。サイズでは、DeepThinkだけがここより小さいけど、パフォーマンスは50%程度で、Qwen Coderは70%をたたき出してる。

俺のテストでは、ペットショップの例で「標準的なペットショップサイト作って」って言うたら、この結果がめっちゃええと思った。シンプルで、やるべきことをやってくれた。

「ペットショップ忠実な友達」って作って、犬の背景画像入れて、「あなたが世話するように、私たちがあなたの友達を一番よく世話します」って書いて、「私たちのサービスを知ってください」って。お風呂、トリミング、獣医、宿泊、特選商品とか、何か売りたい人用にな。

シンプルで完璧やと思う。お客さんの声、連絡先、全部きちんとしてる。これが一番ええ基本モデルによるサイト作成やったと思う。超シンプルなプロンプトでこんなにええ結果出したのは他にない。エージェント使わんでこれやで。

違いが分かるか?例えばManosやG Sparkに行けば、これよりもっとええサイト作れるかもしれん。でもそれらはエージェント使ってるんや。ここではエージェント使ってない。それが大きな違いや。

889行のGoのコードもあるで。カートゲームも同じ。きちんとできてる。ゲームにタイヤがあって、スピードもあって、全部きれいや。動いてる。敵がコイン拾って、木があって、コインがあって、素晴らしいスコアボードがある。

丸い木。山はピラミッド型。霧まであるで、地平線に。AIがこっちに近づいてきた。スピードメーターまで付けてくれた。俺のスピード見てや、0から始まって、加速して100まで行く。このスピードメーターは頼んでないのに、勝手に付けてくれた。

メニュー、スコアボード、「AIの勝ち」、「もう一度プレイ」、コントロール説明。この画面はきれいやな。

Qwenを使うのは初めてやけど、褒めて終わるで。俺を知ってる人は分かるやろうけど、俺はQwenを「ベンチマークの王様」って呼んでた。なんでかっちゅうと、いつもいろんな評価でめっちゃええ結果出すからや。でも実際にテストすると、結果が良くなかった。

でも今回は初めて、無料でアクセスしてる。お金払ってない、サブスクもしてない。「中国からお金もらってる」って言う人もいるけど、とんでもない話や。

「この人は中国からお金もらって、こんなこと言うてる」ってコメントした人がいたけど、もらってないで!中国からも、アメリカからも、どこからも。これははっきりさせなあかん。Hacktownの人らからも何も。ほんまにデモンストレーション動画作って、何が起こってるか理解してもらおうとしてるだけや。

Claude Codeとの統合

他にも、Cedric Claude Codeを使ってる人がいる。GeminiよりもClaude Codeが好きな人がいるからな。Qwen 3 CodeはGeminiベースや。Claude Codeで使いたかったら、QwenK2の統合について説明した動画作ったで。

うまくいったかどうかは、ベースURLを見たら分かる。httpsダッシュscope、三点リーダー、v2、Claude Code proxyって書いてあるやろ?

「dash-scope APIをClaude Code proxy APIエンドポイント経由でAlibaba Cloud Model Studioを使って使った」って言うてる。Alibaba Cloud Model Studioの写真も送ってくれて、ダッシュボードがある。この設定をせなあかん。

Claude Code使いたかったら、Qwen K2の動画見てや。新しいURLと新しいパスワードの設定方法をちゃんと説明してる。

ゲームテストの続きと結果

このranchっちゅう人も、ブラックホールシミュレーターを作ったで。彼のブラックホールシミュレーターや。本人もコメントしてる。「これが正しいかどうか分からんけど、どうやらこれを作った」って。俺も分からん。

設定がいくつかあって、このシステムが作ったブラックホール・シミュレーションをコントロールするメニューもある。ブラックホール・シミュレーター作って、何が起こるか見るのは最低でも面白いと思った。これについてどう思うか、コメントで教えてや。

ChatGPTのAgent Modeに戻って、何が起こったか見てみよう。12分間プレイして、こう言うた。「LexalofelのサイトでVal Shadowsをプレイしようとして、画面の指示に従った。ゲームを始めることはできて、第1レベルをクリアして、第2レベルに到達したけど、その後パズルが複雑になって、何度も解こうとしたりゲームを再起動したりしたけど、レベル15まで到達できなかった」

要約してくれた。俺がコントロールを引き継ぐこともできる。「ChatGPTのブラウザをコントロールしようとしています。ChatGPTはスクリーンショットを撮らず、あなただけが入力した情報を見ることができます」って言われる。

つまり、俺がログインとか何かをする瞬間みたいなもんや。「ブラウザセッションが保存されます。これにより、終了後もサイトにログインした状態を維持できます。設定でこのオプションを管理できます」って、これはデータを危険にさらす可能性がある。「ChatGPTでサイトに入ると、データが漏洩したり、悪意のあるサイトがある可能性があります」って。

「理解した」をクリックする。今度は俺がブラウザをコントロールしてる。俺が画面を操作して変更してる。この画面を通り過ぎよう。

動いてるかな。右に行った。ちょっとラグいけど、動いてる。きちんとレベルクリアできた。見ての通り、今度は俺がプレイしてる。ゲームは動いてる、きちんとしてる。AIがプレイしたくても、何の問題もなかった。

「コントロール終了」をクリックしよう。レベル3にいる。「コントロール終了」はどこや?AIがプレイし始めた。俺がレベル3にいるのに気づいて、「レベル3からプレイを続けよう」って言うた。

でも実際は、また動けるようになった。下に行ってる。おお、できてる。でも赤いところを踏んだ、負けや。もう終わり。赤いところは踏んだらあかん。別のルート、上から来なあかん。

ルート変更するかな。上から来るかな。そして始めた。「また遊んで、レベル3まで進むことができました」って。何もできてない。進んだのは俺やで、見てたやろ。

「前のレベルのパズルを解いた。赤いブロックを除去して、緑の宝石を有効にすることも含めて」って。みんな覚えてるやろ、このAIは嘘つきやって言われてることを。気づいたか、この悪質さを。「前のレベルのパズルを解いた」って。

嘘ついてるとは言わんとこう。レベル1は通ったけど、レベル2を通ったのは俺や。「今はレベル3から赤いブロックを除去する方法を探索している」って。でもそこで止まった。もうプレイしてない。電源切って、今度は「コントロールを引き継ぐ」になった。

見てみると、2回のプレイとしてカウントされてる。最初のプレイは12分間で、AIがやった。俺がコントロールを引き継いだ時、そのプレイが終了した。Agent modeが終了して、新しいプレイを始めた。今度は終了した。コントロールを引き継げるけど、終了してる。

これが実際のArcAGIや。一人でゲームをプレイできなあかん。人間である俺らと同じ知能になるには、俺がやったことができなあかん。俺はこのゲームに入って、ルール見て、動かし始めて、プレイしながらルール覚えて、ルール覚えた後で15レベルまで行ってクリアした。まだVal ShadowsをプレイできるAIはないんや。

セキュリティレベルと今後の展開

面白いことにKerenuが投稿してる。彼女はChatGPTのセキュリティ部門の研究者で、こう言うてる。「ChatGPTエージェントに最も強力な保護を有効にしました。これは、準備フレームワークにおいて生物学と化学で高い能力を持つと分類した初のモデルです」

馴染みがなかったら説明するけど、4つのセキュリティレベルがある。これは今、最高レベル、レベル4や。ライブプレゼンテーションで言うてたけど、最高レベルに設定して、人々が何に使ってるか、何が起こってるかを見て、アラームが鳴るかどうか、何が起こってるかを確認する。最終的に何も起こらんかったら、徐々に警戒を緩めて、物事が機能するようにする。

AIが再び勝利するリプレイを見てみよう。面白いやろ?リプレイに戻ると、前に進むだけでええって理解した瞬間があった。前に進んで、拾って、行って、通って、星に入ってきちんとレベル2に進んだ。

でもレベル2に行った後、通ろうとしてプレイしてた。ちょっと前に進むことはできた。ボタン押し続けて、リスタートして、前に行って、後ろに行って、画面をよく見て、またレベル始めて、クリックしようとしたけど、できなかった。

実際、これがクリックするゲームやったら、もっと先に進めたかもしれん。でも、コマンドを覚えることができて、機能して、それでも諦めたのは面白い。なんで諦めたと思う?なんでもっと頑張って続けて、このゲームをもっとうまくプレイしようとせんかったんやろ?コメントで教えてや。

チャンネルサポートして、こんな動画をもっと見たかったら、メンバーになってや。メンバーはエージェント限定動画と早期公開動画にアクセスできる。そんなところや、ライクボタン押してや。

コメント

タイトルとURLをコピーしました