この動画では、中国のDeepSeekが新たにリリースしたDeepSeek 3.1モデルについて詳細に解説している。DeepSeek 3.1は推論機能と非推論機能を切り替え可能なハイブリッド推論モデルであり、前バージョンと比較してソフトウェア開発やターミナル操作において大幅な性能向上を実現している。特にSWEベンチマークでは44%から66%へ、多言語ソフトウェア開発では30%から64%へと飛躍的な改善を示している。動画では実際にゲーム開発やMCP(Model Control Protocol)を使ったエージェント機能のテストを行い、GPT-4 miniとの比較検証も実施している。DeepSeek 3.1は無料で利用可能であり、840億トークンでトレーニングされたオープンソースモデルとして、中国がAI開発競争において依然として重要な位置を占めていることを示している。

DeepSeek 3.1の登場とその革新性
おい皆さん、DeepSeekがついにモデルの3.1バージョンをリリースしたで。今年の1月に起きたような大騒ぎがまた起こるんやろか?まあ、何が起こってるか理解してみよか。素晴らしいテストをいくつかやってみるし、今日の動画用に特別なテストも用意してるねん。MCPサーバーを動かして、DeepSeekにタスクを実行させてみる予定や。ほな、一緒についてきてな。
いつものように、いいねを押してくれた皆さん、チャンネル登録してくれた皆さんに感謝してるで。そして、この人工知能チャンネルをスポンサーしてくれてる全てのチャンネルメンバーの皆さんには特別な感謝を送るわ。メンバーの皆さんは、WhatsApp統合、MCP、文書読み込み、PDF処理なんかを教える独占的な知的エージェントの動画にアクセスできるし、早期公開動画も見れるようになってるで。
DeepSeek 3.1の公式発表とその特徴
そして皆さん、今日のニュースはこれやねん。DeepSeek 3.1が、より賢いツールとより精密な推論で更新され、ウェブ、アプリ、APIで利用可能になったってことや。今回のリリースは非常に簡潔で、要点を絞ったものやった。TwitterでこうやってXPost(旧ツイート)を1つしただけや。公式な投稿もなかったし、Hugging Face内でも、あの大げさな宣伝や大量の評価もしなかった。
モデルをそこに投稿しただけで、あとは神のみぞ知るって感じやったな。ここで、DeepSeek 3.1を紹介する5つの投稿があって、これがエージェント時代への第一歩やって言うてるねん。だからこそ今日はエージェントのテストをやるんや。きっと面白くなるで、気に入ってもらえると確信してる。
これは思考モードと非思考モードの両方ができるハイブリッド推論モデルなんや。1つのモデルで2つのモードを持ってるってことやね。より高速な思考を持つDeepSeek 3.1-Fっていうのがあって、これは前のモデルR1と比べて短時間で応答を実現してる。そして、より強力なエージェント能力も持ってるねん。
後処理によって、ツールの使用とエージェントのマルチステップタスクが向上してるんや。基本的にはこういう考え方やね。推論ありと推論なしを一度にできる単一モデルってことや。このモデルは、いつものようにフリーモデルで、オープンウェイトモデル、そしてハイブリッド推論モデルやねん。そしてここでコメントしてるのは、「今すぐ試してみて。Deep Fボタンを通じて思考と非思考を切り替えられる」って言うて、チャットを使うように案内してるで。
技術仕様とAPI情報
ここで説明してるのは、両方とも128kのコンテキストを持ってるってことや。Anthropic形式のAPIも使えるし、特に関数呼び出し用のベータAPIもあるねん。プログラマーで製品や何かのプロジェクトを開発してて、DeepSeekを使ったエージェントとの相互作用をプログラミングする場合のAPI使用について知りたいなら、ここでドキュメントが見つけられるで。
ソフトウェアとターミナル使用部分で良い結果が出てるって言うてる。これはまさにプログラミングとエージェントとしてのコード実行のことやね。推論と推論効率でより強力になってる。基本的にR1、V3、3.1を比較すると、SWEっていうソフトウェアテストで44%の精度から66%に向上し、多言語ソフトウェアでは30%から64%に向上してるんや。
そして、エージェント部分であるターミナルタスクでは、5%から13%、そして今は31%になってる。だから、すごく良い改善やねん。同時に、ナビゲーションタスクや検索関連の他の多くの作業でもかなりの進歩を見せてる。時にはブラウザーコンプで8%から30%のように非常に関連性の高いものもあるけど、HLEのように24%から29%へとそれほど改善してないものもある。同様に、シンプルなQ&Aもそれほど改善してないで。
性能評価とベンチマーク結果
数学の試験では、この破線で示されてる3.1は88%、科学の質問では80%を取ってるねん。Live Code Bankでは74%や。ここで強調すべき重要なことは、このグラフがちょっと分かりにくいってことで、トークン出力を測定してるから、これらの小さなバーは80%に比例してないんや。
言い換えると、この科学テストをするのに非常に少ないトークンしか使わずに80%のスコアを取ったってことやねん。破線のやつも同じで、非常に少ないトークンで80%正解してるんや。この3.1ベースモデルは840億トークンを持ってるって言うてるで。APIを使う人のために、料金は入力100万トークンあたり56セント、出力100万トークンあたり1.68ドルになってる。
比較的安い価格やね。Brockの評価を見てみると、DeepSeekは自分自身と比較して、V3、R1、3.1を見ると、この場合3.1は以前のバージョンに比べてかなり改善してるのが分かる。しかし、その後に来るGPT-5、Gemini 2.5、Claude 4.1と比較すると、まだ比較的小さなモデル、それらより弱いと考えられてるねん。
OpenAIの120億パラメータのオープンモデルであるGPT-4oSSと同じレベルにあるようやね。だから3.1はBrockランキングによると、OpenAIのオープンモデルと同レベルにあるって言えるけど、このランキングについては疑問を持つ人も多いやろうね。結局、こういうランキングは絶対確実とは言えんからな。
実際のテスト体験
モデルは685億パラメータで、Hugging Faceで公開されてるで。テストしたい場合は、ここに来て「元気?」って送ってみると、ちゃんと返答してくれるで。「こんにちは、元気です。あなたはいかがですか?今日はどのようにお手伝いできますか?」って感じでな。
でも皆さんもご存知の通り、彼らのサイトに入って「今すぐ始める」をクリックすると、チャットできる小さなウィンドウが開いて、Deep Thinkをオンオフできてテストを実行できるねん。
今まで行ったテストで一番気に入ったのは、フリーズしなくなったことや。以前よりもずっと良くなってる。質問すると答えてくれる。3つのウィンドウを並行して開いても、4つ目になると「並行プロセスが多すぎる、ここで止めておく」って言うようになった。
これで以前あった応答生成やあの遅さの問題の大部分が解決されたと思うで。コード生成の速度では最速のモデルからは程遠いけど、以前の1倍良くなってる。物事がずっとスムーズに流れるようになったんや。
ゲーム開発テストの結果
予想通り、いくつかテストをしたで。例えば、カートゲームのテストでは、結果はかなり満足のいくものやった。ちゃんとしてるで。プレイできるねん。電車はちょっと変やけど、ゲームはもうなかなか良い感じやで。カートにはホイールがあって、雲もある。見てみ、雲が良い感じに動いてるやろ。ゲームはスコアボードもちゃんとしてる。電車は実際、逆回転する時計みたいに見えるな。人工知能はそんなに知的じゃなくて、円を描いて回ってるけど、コインもあるし、全部ちゃんとしてるで。
このバージョンはThinkなしで生成したんや。Thinkなしバージョンでは、一発で動いた。エラーもなく、修正も必要なかった。これは完全にゼロショットで、何も心配する必要がなかったんや。実際、カートにぶつかると爆発するで。見てみ、爆発するんや。
Thinking版では、ちょっと違った感じやった。プレイ可能なバージョンにたどり着いたで。ちゃんとしてるで。すごく似てる。ホイールを見てみ。電車はさっき見たのに似てるな。カートがぶつかると爆発がある。集めるコインもたくさんある。
ゲームは基本的にお互いすごく似てるねん。スピードメーターもあって、実際Thinking版のスピードメーターの方がThinkなし版より良くなってるで。綺麗なスピードメーターを見てみ。加速して、ブレーキもかけてる。このThinking版も完璧やった。一発で動いた。修正も何も頼む必要がなかった。
日本庭園とその他のプロジェクト
同じことをPagoda Gardenでもやった。日本人が作るあの日本庭園の建築物があるやつやね。なかなか面白くなった。これはいくつかエラーがあった。今皆さんが見てる最終バージョンにたどり着くまで、何回かやり取りが必要やった。例えば、ズームインとズームアウトを追加するように頼む必要があった。
良いニュースは、一回頼んだだけで、すぐに機能するようになったってことや。これはかなり満足できる結果やね。一般的に、3回、4回、5回頼まないといけないかどうか、修正を理解するのがどれくらい難しいか、頼んだ時にすぐ修正できるかどうかを評価してるねん。
この場合、修正は正しく機能した。思うように修正できたで。ここにいくつかオプションもあるで、落とすかどうか選べる。桜の花びらで、自動回転するかどうか、この場合はオフにした。影があるかないか選べるけど、実際この影の部分は変やった。影を一時停止したんや。
影をオンにしたりオフにしたりできるけど、実際は無効にしてないねん。でも全体的な評価として、これはそんなに綺麗じゃなかった。もっと興味深いバージョンもある。例えば、GPT-5のバージョンの方が1000倍好みやけど、正直言うとこのバージョンもすごく良かった。リオデジャネイロスタイルの同じバージョンで、キリスト像を作ってるんや。
誓って言うけど、この山の上の灰色の棒がコルコバードのキリスト像なんや。正直、ポン・デ・アスーカル(砂糖パン)は作らなかった。回転速度をコントロールできるオプションをいくつか置いてくれた。ここは速くて、ここは遅い。ボクセル、つまり小さな四角のサイズもコントロールできるねん。
ここで、キリスト像がずっと大きくなったで。横向きの十字架みたいに見えるかもしれんけど、説明はできんが、とにかく彼はアイデアを理解して、キリスト像の生成をなんとかやってくれた。残りは全部機能してる。特にこの太陽が回ってるピザは、皆さんもご存知の通り、地球が平らである明確で具体的な証拠やねん。
このバージョンではThinkingを使ったし、Cherry BrowsonバージョンでもThinkingを使った。自転車に乗るペリカンの生成では、Thinkingなしでこの生成をしたけど、あまり良くなかった。Deep Thinkingを使うと、この生成をしたけど、ちょっと良くなったものの、まだちょっと不器用やった。
Matrix形式でペットショップを作るように頼むと、このバージョンを作ってくれた。良いバージョンだと思うけど、一番綺麗に見えるわけじゃない。もっと興味深い他のバージョンも見たことがある。でも機能的やね。ここでちゃんと動いてる。ここをクリックすると、本来のようにリンクに飛んでくれる。
連絡先フォームもあるし、つながるためのリンクもある。将来、人工知能が世界を支配した時に、ロボットの犬をMatrix Pet Shopに連れて行きたい場合に備えて、Matrix Pet Shopに連絡したい場合にな。
エージェントテストの実装
さあ、エージェントテストの面白い部分や。以前にテストして皆さんに見せたかったけど、今見せる予定の、なかなか良いコードを生成したで。画面上のこのキャラクターが僕や。見ての通り、銀行、仕事場、家、市場、車屋がある。画面の角に100の体力があって、これが僕のエネルギーや。
ポケットには0円、銀行には0円、車は持ってない。車を買いたかったら100円必要やねん。お金を稼ぐには仕事に行かないといけない。でも仕事に行くと疲れるから、休んで食べないといけない。基本的にルーティンは、仕事に行って、お金稼いで、家に帰って、また仕事に行って、もっとお金稼いで、銀行に行って仕事で稼いだお金を引き出して、エネルギーがなくなったら市場で物を買って、100円貯まったら車屋に行って車を買うんや。
歩き回ると体力が下がるで。見てみ、100から90になった。10歩歩くごとに体力が10下がるんや。仕事に行くたびに10下がって、10円もらえる。仕事場に入ってみるで。
10円使って10円もらった。それが銀行に行った。銀行に行くと、銀行にあるお金が銀行から出て僕のポケットに入るんや。この変化を見てみ、321、行ったで。見た?ポケットに入った。お金がポケットにあるから、市場に行けるねん。家に行くと体力が2上がる。
70から72になった。見える?家に行って出て戻ると、2ずつ増えていく。市場やね。市場に入ると、10円でりんごを買うねん。10円使って体力が25上がった、いや20上がった。こうやって仕事に行って、お金稼いで、稼いで、稼いで、餓死しないように気をつけないといけない。餓死したら車を買うお金を稼げなくなるからな。
基本的に、このゲームの目標は車を買うことで、死ぬかと思った。うまくいかなかった、時間があった。50円持ってる。これは難しいゲームだと思う。ルール的に、100円貯めるのはそんなに簡単じゃないけど、それがやらないといけないことや。100円貯めたから、車を買える。
終わった?車を買って、まだ生き残った。プレイヤーをスポーンしたい場合は、Fを押すとプレイヤーがスポーンする。プレイヤーが現れると同時に家も現れて、それが彼の家で、彼はぶらぶらするねん。仕事に来る。彼はこういうぶらぶらを続ける。途中でTを押すと、話しかけられる小さな会話が現れるで。
元気?この場合、オンラインで実行してるけどGeminiアカウントが設定されてないから、エラーレスポンスをくれるで。「えーと、何と言ったらいいか分からない」って。この「何と言ったらいいか分からない」は、アカウントが設定されてないからで、Geminiの設定をしたからな。もう一回「こんにちは」って言ってみる。見てみ。
「うーん、何と言ったらいいか分からない」。皆さんが見てるこのバージョンは、そのまま公開されてる。説明欄にリンクを置いとく。皆さんも、僕が見せた全てのテストをプレイできるで。Geminiだけはないけどな。
MCPとの統合テスト
このゲームのコードを見ると、MCPのツールが含まれてるのが見えるで。例えば、設定取得、目的地取得、Geminiを使ったコンテンツ作成、プレイヤー移動、その他いろんなものがある。
コードは説明欄にある。触りたい人はアクセスしてくれ。全部Pythonで、実行するのは簡単や。実行すると、2つのサービスが開く。1つはポート8080、もう1つはポート8000や。ポート8080に行くと、今見てるようにこのゲームが動いてるのが見つけられるで。
このゲームをプレイするために、N8Nで遊び心のあるものを作った。エージェントがあって、Open Routerに接続されてて、Open Router内でDeepSeek Chatを呼び出してるんや。エージェントには、利用可能にしたツールがあるMCP clientっていうツールがある。Mob Player、目的地取得、プレイヤーステータス取得、思考処理だけを使ってる。皆さんが思考処理で何が起こるか見ることになるで。
それでは始めよう。ここでテストして、プレイヤーに何が起こらないといけないか話そう。エージェントはここでMCPと話さないといけないし、プレイヤーは動き始めないといけない。そこや、そこや、動いてる、家に向かってる。見てみ皆さん、愛しいDeepSeekがエージェントとして機能してるで。MCPにアクセスして、全部正しく動いてる。なぜ「Geminiゲーム」って書いてあるのか疑問に思うかもしれんけど、Geminiでゲームを作ったからや。でもここにはGeminiは何もない。名前がそのまま残っただけや。
DeepSeekとGPT-4 miniの比較テスト
でもここでは、普通に全部ローカルで動いてて、特別なことは何も起こってない。だから今、ローカルで動いてるから、皆さん、NPCをここに置いて、そこに置いてTを押して話しかけると、Juliaやね。Juliaと話すと、彼女は僕と話してくれるで。100%リニューアルや。来いよ、彼女と話そう。Tを押した、質問をどうぞ。おはよう、Julia。
今彼女は答えないといけない、皆さん、もう繋がってるからな。おはよう。仕事に行ってる。仕事で何してる?と僕が聞いた。Juliaが何の仕事をしてるか見てみよう。店員。何の店員?どんな商品?Juliaが何をしてるか見てみよう。コンビニの。彼女が僕をからかってるのが分かるやろ?
でもとにかく、ESCを押すと、Juliaが仕事に行くで。普通に働く。仕事を出ると、彼女はちょっとしたローテーションをしてて、いつも同じことをしてるねん。もう一回彼女と話すと、コンビニの会話が続くで。働いた?って聞いてみよう。実際、彼女はもう働いたけど、自分が働いたのを知ってるかどうか分からない。いや、今から向かうところ。全然や。今彼女は銀行に向かってる。なぜ分かる?Eを押すと、彼女が「こんにちは、銀行に向かう途中です」って言うからや。
Eを押すと、これを示してくれる。だから、実際このエージェントがここで動き回るのは望まない。これをリセットして、全部最初からやり直すわ。今チャットを再起動して、ゼロにして、新しい違うプロンプトを始めよう。このプロンプトを見てくれ。お金を稼ぐために仕事に行く必要がある。
何をしないといけないかを説明してるねん。仕事に行くたびに10円もらって体力を10失う。ルールを説明してるんや。僕が皆さんに話した全てのことを、エージェントに話してるねん。働いてもらうお金は銀行に行く。市場に行くと、10円でりんごを買って体力を25もらう。これがエネルギーを回復する方法や。
商品を買うには、まず銀行でお金を引き出す必要がある。家に行くと体力を2もらう。車を買うには100円必要。体力がゼロになると負け。体力とお金の状況を知るためにステータスを確認して。ステータスを要求すると、その人がいくらお金を持ってるか、どれくらいエネルギーがあるか、そういったことを全部教えてくれるからな。
各新しいステップで何を考えてるかを言って。だからエージェントは話し続ける、考えを声に出すねん。100円貯めて車を買って。ルールに従って。体力をゼロにするな。ヒント、同じ場所に何度も行きたい場合は、家を戦略的ポイントとして使って。これは、彼女が仕事場にいて仕事場に留まってると、直接お金を稼ぎ続けることができないっていうアイデアや。
仕事場を出て戻らないと、また稼げないんや。よし、送ってみて、DeepSeek 3.1が機能するかどうか見てみよう。指を組んで、神のみぞ知るや。それで今、あのラウンドが始まるねん。エージェントが何かして、MCPと話して、ここで何かが起こる。
そこや、体力100、お金100で始めてる。それでどこかに行かないといけない、読む時間がなかった。僕が気づいたところでは、彼はよく話すね。ここで起こることは、これらの3つの点が点滅し続けることや。その間、彼は何をしてるかを話して、動き回るんや。
皆さんが気づいたかどうか分からんけど、彼はもうここで終了してる、nodeが正常に実行されたって言ってる。ここでget statusをしたけど、どうやらステータスを取得しようとしたけどできなかったようや。おそらくここでエージェントが認識しなかったパターンでメッセージを送って、MCPを呼び出すべきやったんやろう。彼がした短い旅で、最初にしたことはステータス取得やった。
お金がないことをコメントして、働く必要があるって言った。次に目的地の仕事をして、銀行で10円稼いだ。その後、また何が起こってるかを発見するためにステータスを取得した。続いて、ここで家に移動して、今そこにいる。
その後、見ての通り、また状況を取得しようとしたけど、間違ったコマンドを送って出てしまった。それが起こったことや。同じプロンプトをもう一回送って、何をするか見てみよう。プロンプトを再送信してるだけやで。ルールと全く同じように、もう一回送った。
ここでまた始めてるで。今何を考えてるか見てみよう。最初の行動やね。また状況を取得する。仕事に行った、そこや。もう82の体力があることに気づいた。仕事を続けて、ここにいる。3つの点が回ってる。3つの点が回ってる間は、彼が考えてることをしてるんや。
時々情報を求めて、働いて、もう家に戻った。そしてここでまた、nodeが成功に終了したって出た。実際はステータスを取得したのに、そう出るねん。だから最初に気づくことは、長期計画を実行することができてないってことや。ここで小さなタスクを1つか2つすることはできてる。
確実にプレイヤーをここで仕事に移動させることはできてるで。時々状況を取得することもできてる。そして思考をして、働いて、銀行で10円稼いだ、今銀行に20円あって体力は72って言ったけど、実際は74の体力があるねん。家に着いた時に体力が2上がったからな。
でも、Bob、これは正しいんか、間違ってるんか、良いんか、悪いんか?改善できると思うで。ここで間違ったコマンドを送って作業をやめるべきじゃなかったと思う。これは、エージェントがもっとやることがあるって理解してるのに、終了してないってことを意味してる。この6番って数字見える?もっと遠くまで行けたはずで、もっと多くのステップを踏めたはずや。
ここで彼の限界は150回のやりとりで、7回目で止まったから、やることはまだたくさんあったんや。比較のために、今ChatGPTに入れてみるで。GPT-4 miniを使って、全部ゼロにリセットする。プレイヤーをゼロにリセットするで。そこや、全部ゼロに戻った。あのルールと同じようにプロンプトを送ってみよう。
GPT-4 miniがこのゲームをプレイするのとの違いを見てみよう。そこや、始まった。同じことやね。メッセージを送ってる。お金を稼ぐために働きに行く。それで仕事に行った。今何をするか見てみよう。
仕事を終えた、10円稼いだ。今家に行って体力を回復する。家に行った。家にいる今、市場に行く前に少し体力を回復した。体力82だから、市場に行ける。銀行にお金を引き出しに行った。お金を引き出してる。今市場に行くか家に行くか、何をするか見てみよう。10円引き出した。
今市場に行ってりんごを買う。完璧や、皆さん。この人はちゃんとやってるで。仕事に行って、家に行って、お金引き出して、りんご買いに行って、体力を得た。市場にいない、りんごを買う前にお金を引き出す必要がある。実際は、もう買ったのに、もうお金がないのに気づいてないんや。
今、あちこち歩き回り続けると、体力がなくなって負けることになる。でも完璧や、もう働かないといけないって気づいて、仕事に行って、また10稼いだ。とてもちゃんとしてる。だから皆さん分かったやろ?エージェントがちゃんと機能してる時は、ここから始まって、48、49、どんどん続けて、一人で作業を続けるんや。
たった一つのプロンプトを渡すだけで、そこで夢中になるのに十分やった。もう銀行に行って、仕事に行って、家に行って、市場に行って、全部やってるで。こうやって行ったり来たりして、体力をゼロ以上に保って100円貯めることができれば、車を買うことができるんや。今の設定では、この目標を達成するのは難しいと思うけどな。
最終的な評価と考察
だから僕の評価はこうや。良いことに、DeepSeek 3.1は確実にツールを実行してる、MCPを呼び出すことも含めて。でも、皆さんが気づいたように、時々ここで出てしまって、3つの点を使わなくなって、ゲームがプレイを止めてしまうから、まだもう少し改善できるねん。
これはすごく興味深いことで、GPT-4がこれをプレイしてるのを何度か見たことがあるけど、夢中になって、お金を稼ぎ始めて、いつも「うわあ、すごくお金稼いでる、すごく嬉しい、車買うぞ」って言ってたんや。でも家から仕事場、家から仕事場、家から仕事場って行き続けて、結局体力がなくなってしまった。
説明したように、体力がなくなったら負けや。そして今、プレイヤーは119回のアクションをしてる。もうすぐ、体力がなくなって負けるか、アクションがなくなるかや。そこや、終わった。アクションが終わった。終了した。ここで状況を取得しようとしてるメッセージを送ったけど、何らかの理由で、MCPの呼び出しとして認識されなかった特殊文字がここにあって、ループから抜けて、実行していたアクションをやめてしまったんや。
でも皆さんが気づくように、126回の呼び出しまで行ったけど、DeepSeekは67回の呼び出しで止まったのに比べて、ずっと良かった。興味深いことは、モデルが賢くなればなるほど、これらの関数呼び出しでより一貫性が出るってことや。ループから抜けてプレイを続ける可能性は非常に高い。
ここでいくつかの解決策を提案できるで。もう少し複雑なエージェントを作って、ここで出てしまった場合でも、ループに戻って、間違えてもこの混乱に戻るようにするんや。これが考えられる解決策やね。でも今のところ、この超シンプルなテストでは、このままで十分やで。
皆さんもコメントで感想を聞かせてくれ。このゲームとコードのリンクは、説明欄にプレイ用に用意してあるで。このようなビデオを見続けるためにチャンネルをサポートしたい場合は、メンバーになってくれ。メンバーは知的エージェントの独占ビデオと早期公開ビデオにアクセスできる。それじゃあ、いいねを押してくれ。
ありがとうな。


コメント