軽量AIモデルであるDeepSeek v4 FlashとHermes Agentを組み合わせた際の性能や実用性を検証した動画である。DeepSeek v4 Flashはニュースポータル上で無料公開されており、OpenRouterやHermes Agentで最も消費トークン数が多い人気モデルとなっている。動画では、世界トップクラスの知能と速度を誇る本モデルのベンチマーク数値を解説。さらに、Pythonスクリプトのリファクタリング、GitHubレポジトリの解析、複雑な論理パズル、複数論文の長文要約、そして並列サブエージェントによる調査という5つの実践的なテストを通じて、本モデルの強みと限界を明らかにしている。

無料で復活した最強の軽量モデルDeepSeek v4 Flash
皆さん、こんにちは。Hermes Agentを使っている方に、とても嬉しいニュースがあります。DeepSeek v4 Flashがニュースポータルで再び無料になりました。無料プランのサブスクリプションであっても、DeepSeek v4 Flashに無料でアクセスできます。ここで興味深いのは、DeepSeek v4 FlashがOpenRouterやHermes Agentで最もよく使われているモデルだということです。今月、最もトークンが消費されたモデルでもあります。
この動画の目的は、皆さんがエージェントフレームワークを使い始めるにあたって、DeepSeek v4 Flashのような軽量モデルの価値を認識し始めてもらうことです。こういった発表を当たり前のことだと思わないでくださいね。軽量モデルが無料で戻ってきたというニュースを見たときに、フラグシップモデルはどうなんだ、なぜそれらを無料で使えないんだ、なんて言わないでください。なぜなら、日常的なタスクの多くは、軽量モデルを使うことで実際にはるかに安く解決できるからです。
そこでこの動画では、DeepSeek v4 Flashのベンチマーク数値を簡単に確認していきます。このモデルはどこが優れているのか。多くの人がどんなユースケースでDeepSeek v4 Flashを使っているのか。V4 Flashの限界は何なのか、そしてV4 Proや他のフラグシップモデルとどう違うのかを見ていきましょう。また、ニュースポータルでV4 Flashを使う場合の制限についても触れます。ニュースポータルで無料モデルを使う場合は、実際にはレートリミットが存在するからです。
そのため、この動画では5つのテストを実行して、V4 Flashに負荷テストをかけてみます。これらは、多くのパワーユーザーが日常的に行っているユースケースです。それでは、この動画のスポンサーであるHostingerに感謝しつつ、さっそく本題に入りましょう。
知能と速度のベンチマーク分析
それでは、DeepSeek v4 Flashのベンチマーク数値を簡単に見てみましょう。ここが私の興味を引いた部分です。知能の面では、世界中で最も使われている87個のモデルの中で10位にランクインしています。リストを見てください。Kimi 2.6が1位、DeepSeek v4 Proが5位、そしてV4 Flashが10位です。軽量モデルがトップ10のリストに入っており、フラグシップの推論モデルとそれほど離れていないという事実は、その実力を雄弁に物語っています。
そして軽量モデルであるため、最も高速なモデルの一つでもあります。速度の面では4位にランクインしており、1秒あたり約134出力トークンを叩き出します。これらの理由から、多くの人がプロンプトキャッシュを目的にV4 Flashを使用しています。繰り返し発生するコンテキストのコストは、登場時に強みとされていたGemma 4と比較して、はるかに安く抑えられます。
V4 FlashをV4 Proと比較すると、コストが約4分の1であるにもかかわらず、実際のタスクの約35%で勝利しています。これはあるパワーユーザーによる検証結果ですが、彼らがV4 FlashとV4 Proを比較テストした際、そのうち5つはコーディングの問題でした。V4 Proは4倍の出力トークンを消費したにもかかわらず、まったく同じ回答を出力したのです。
また、V4 Flashが冗長性のランキング、つまり出力が長くなりすぎる点であまり評判が良くないという事実も関係していると思います。彼らは回答の出力において、非常に言葉数が多い、つまり文字数が多くなりがちです。しかし、適切なコンテキストや適切なプロジェクトの指示があれば、それは悪いことではないかもしれません。言葉数が多いということは、非常に論理的になれるということです。自分の回答を正当化できるのです。適切なコンテキストエンジニアリングを行えば、10位にランクインしている理由はそこにあるのかもしれません。
言うまでもなく、彼らは100万トークンのコンテキストウィンドウを持っています。そのため、長い文書やコードベースなどと非常にうまく連動します。多くの人はDeepSeek v4 Flashを、コーディング支援、チャットや質疑応答、エージェントワークフローにおける補助的な役割、プロジェクトを一気にコードベースに投入するのではなく細切れに分割するタスク分解などで利用しています。一発で終わらせるようなものではありません。それから自動化パイプラインですね。Hermes Agentにとっては、cronジョブとして非常に高い価値を発揮します。
逆にV4 Flashを使ってはいけないのは、一発でのコードベース全体の分析です。そういう場面こそ、重労働をこなすモデルの出番です。V4 ProやKimi 2.6、あるいは全盛期のOpusなどは、こういった処理を非常にうまくこなせます。批判的思考や問題解決など、自分自身でも何が起きているのかさっぱり分からないようなタスクは、フラグシップモデルに任せたいですよね。しかし、ある程度理解できているコードベースや文書であれば、軽量モデルに任せるべきです。それが最近の私のハックのようなものです。
最近は、軽量モデルの価値がはるかに理解できるようになってきました。日常的なタスクに基づくと、実際には非常にトークン効率が良いからです。軽量モデルで本当に簡単に処理できて、しかも大幅に節約できるタスクがどれほど多いかを知ったら驚くはずです。まあ、Hermesの場合は今は無料ですが、これが無料ではなくなったときのために知っておいて損はありません。
ビジョンタスクについても、V4 Flashの画像サポートはかなり不安定です。ワンショットのプロンプトやクリエイティブライティング、あるいはオーケストレーションタスクに関連することは、V4 Flashはそれほど得意ではありません。
Hermesでの設定とPythonリファクタリングテスト
それでは、HermesでV4 Flashを試してみましょう。まず、Hermesのアップデートを行ってください。それを実行します。私はすでに自分のものを実行しました。その後、ここに「Hermes model」と入力します。
そして、ニュースポータルのサブスクリプションを選択していることを確認してください。私たちはすでに選択していますが、イン、アウト、キャッシュが無料と表示されているリストを確認できるはずです。それを選択すれば準備完了です。通常、私がHermes Agentを使うときは単に「Hermes」を実行するだけですが、レートリミットをテストするという目的のために、ツール呼び出しとレートリミットが作動する様子を実際に確認したいと思います。そのため、テストの目的で「Hermes TUI」を実行することが非常に重要です。では、Hermes TUIを見てみましょう。
そして、ここではV4 Flashの性能を最大限に引き出したいと考えています。ベンチマークは、最大の努力を払った状態の推論向けに厳選されているからです。ここの推論設定を「X high」に設定してください。これが最高設定です。私たちはすでに「X high」に設定しています。また、詳細出力を忘れないでください。「verbose equals verbose」になるまでトグルを切り替え続けます。
さて、最初に行うテストは、1分あたりのリクエスト数に対する負荷テストです。Pythonスクリプトを読み込ませて、リファクタリングが必要かどうかを確認します。ここでテストしているのは、レートリミットが作動することなく、DeepSeek v4 Flashにシンプルなタスクを完了させることができるかどうかです。設定のデフォルトである「60 out of 60 iteration budget」といったメッセージが表示されるのを確認できるはずです。しかし、そのメッセージが作動することなく完了できれば問題ありません。
そこで、私のプロジェクトの一つからランダムにPythonスクリプトを持ってきます。これにしましょう。これはずいぶんと長い間アップデートしていません。間違いなくいくつか問題がありますね。
よし、私のHermes AgentであるLokiに、データコレクターのPythonスクリプトを見るように頼みました。リファクタリングが必要かどうか確認してみましょう。認証情報は伏せておいてください。APIキーがいくつかハードコードされているのを知っているからです。これは昔のものです。
なるほど、考えていますね。よし、途中で私のPythonスクリプトにハードコードされていた認証情報をすでに見つけ出しました。いいですね、その調子です。実際、非常に高速です。レートリミットには引っかかりませんでした。本当に、本当に速いです。何と言っているか見てみましょう。
そのスクリプトでは、私のAPIキーは省略されていましたが、本番環境でENVから追加の読み込みを行っており、これは綺麗ではありません。ハードコードされていました。リスクは低いものの、多くの不整合を見つけ出すことができました。それでも非常に、非常に優れています。機能的ではありますが、ドラフト品質のスクリプトということですね。
テスト目的としては50行ほどが望ましいのですが、今回のスクリプトは実際には50行以上あります。100行以上、453行ありますね。それでもレートリミットはかからず、実際かなり優秀です。悪くありません。ひとまずテスト1は合格ですが、お持ちのPythonスクリプトの複雑さによって結果は大きく異なる可能性があります。通常、データパイプラインはかなり簡単です。レートリミットが作動することはあまりありませんが、たとえばAPIのエンドポイントがもっと多い場合などは、レートリミットが作動し始めるかもしれません。しかし、これまでのところは順調です。
さて、ここまではHermes Agentを正しく動作させるために、どれほど多くのセットアップが必要かを見てきました。日常的にHermes Agentを使っているユーザーにとって、これは確かに理想的ではありません。設定をいじったり修正したりすることに時間を浪費せず、構築だけに集中したいのであれば、HostingerのVPSにHermes Agentをデプロイするのが最適です。本日の動画のスポンサーであるHostingerに感謝します。
HostingerのVPSにHermes Agentをデプロイする際、最も際立った機能は、デプロイのインフラ全体を自動的に処理してくれる、構築済みのHermes Agent用Dockerテンプレートです。もし皆さんがHermes Agentを使って本格的な開発を始めたいのであれば、私のリンクである hostinger.com/boxmining を使用してください。このページにリダイレクトされます。Hermes Agentを快適に動作させるためには、KVM2プランをお勧めします。
「デプロイ」をクリックします。ここに来たら、毎日の自動バックアップも取得することをお勧めします。VPSのデータを毎日バックアップするためです。Hermes Agentは自己改善する性質を持ち、時間の経過とともに永続的なスキル、メモリ、セッション履歴を構築していくため、週次バックアップと日次バックアップの差は非常に大きくなります。そして、最高のパフォーマンスを得るために、ご自身に最も近いサーバーの場所を選択してください。クーポンコード「boxmining」を使用すると、年間プランが10%オフになります。これは12ヶ月および24ヶ月のKVMプランに適用されます。
Hermes Agentから最大限の価値を引き出し、素晴らしい開発を始めたい方は、下の概要欄と固定コメントにある私のリンク hostinger.com/boxmining をチェックし、すべてのHermes Agent KVMプランで限定割引が適用されるコード「boxmining」を入力してください。それでは、動画に戻りましょう。
GitHubレポジトリとローカルフォルダの解析テスト
さて、次に行うテストは、Hermes Agentをファイルレポジトリに指定することです。これはご自身のプロジェクトフォルダで行うこともできますし、多くの人が行っているように、GitHubのレポジトリを指定することもできます。今回はFastAPIフレームワークを使用します。リンクを取得して、どのファイルが何をしているかを調べさせ、それぞれについて1段落の要約を作成させます。
これは最もよく使われるユースケースの一つと言えます。レポジトリやプロジェクトフォルダを読み込ませて、各ファイルが何をしているかを説明させるのです。これは、ファイルの整理をより良く行いたい場合に非常に役立ちます。これは初心者にとっては、実際にはかなり過小評価されているスキルです。そして、これによってAIを使いこなす道のりをより上手く進むことができるようになります。
もしウェブ検索機能がない場合は、ご自身のプロジェクトフォルダに対してこれを絶対にやるべきです。しかし、私たちにはウェブ検索機能があり、ベーシックプランを利用しているため、Hermes Agentのウェブ検索はすでにカバーされています。そのため、リンクを取得してレポジトリを巡回することができます。ほら、見てください。エージェントがスナップショットを取得し、レポジトリのファイルツリーを巡回しています。
よし、開始から6分が経過しました。まだ完了していませんが、その過程でトークンの消費量が非常に少ないことに気づくでしょう。フラグシップモデルを使用したときの3桁後半や4桁前半の消費量と比較すると、思考ブロックが表示されているときの消費量はごくわずかです。
10分近く経ちました。ここでエージェントは、完全なファイルリストを確認するためにより効率的な方法を見つける必要があると理解しました。素晴らしいですね。最初に試したサブディレクトリをチェックするために、その新しい方法を今使っています。
よし、完了しました。12分間のタスクで約1900トークンを消費しましたが、レポジトリ全体に何があるかを正確に特定することができました。通常、GitHubがある場合に予備調査を行いたいときは、このようにエージェントに読み込ませます。しかし、フラグシップモデルで実行した場合に比べて、この非常に大きなタスクにおいてトークンを大幅に節約できたことが分かります。フラグシップモデルであれば、はるかに高くなっていたでしょう。
次に、私たち自身のプロジェクトフォルダを見てみましょう。私たちのAIニュースcronにはそれほど多くのファイルがないため、こちらははる法が早いはずです。
よし、1分ちょっとです。ここに50個のファイルがあることを考えると、実際これは非常に速かったです。ファイル数はかなり多いですね。これらのプロンプトはキャッシュされていなかったようです。1200トークン消費しましたが、これも非常に少ない量です。
これも皆さんが身につけるべき非常に重要な習慣です。これらの軽量モデルを活用して、自分のプロジェクトフォルダで何が起きているかを特定するのです。何かを構築するとき、彼らは自分が何のために使われているのかさえ分からないような大量のファイルやスクリプトを吐き出すからです。そのため、フォルダの全体構造を把握し、そこからファイルに改善を加えるべきか、リファクタリングを行うべきかを決定できます。ただし、リファクタリングには非常に注意してください。通常、その部分には経験が必要です。私自身は、実際のエンジニアに相談しない限り、何もリファクタリングしません。ちょっとしたプロのコツです。
よし、プロジェクトフォルダについては合格、GitHubレポジトリについても合格としましょう。これも軽量モデルを使って皆さんが実行できる非常に便利なTipsです。
ゼブラパズルによる論理推論テスト
さて、次は楽しいテストです。アインシュタインのパズルのような、複数ステップの論理パズルをエージェントに解かせてみましょう。今回は、悪名高い「ゼブラパズル」を使用します。世界で2%の人しか解けないと言われているものです。パズルは次のような内容です。
色の異なる5つの家が隣り合って並んでいます。それぞれの家には男性が住んでいます。それぞれの男性は、固有の国籍、お気に入りの特定のタバコの銘柄があり、特定のペットを飼っています。以下のすべての手がかりを使ってグリッドを埋め、「魚を飼っているのは誰か」という質問に答えます。提供された情報はこれだけです。私はこのパズルに挑戦したことがありませんし、やろうとも思いません。それでは、Hermesを使ってこれを解いてみましょう。思考ブロックをしっかり確認してください。
さあ、始まりました。これらは最終的な回答に至るまでのステップです。日本人がゼブラを飼っている。ノルウェー人は水を飲む。ええ、これの事実確認をするつもりすらありませんが、同じプロンプトで「魚を飼っているのは誰か」の代わりに「ゼブラを飼っているのは誰か、そして水を飲むのは誰か」となっていますね(笑)。
なるほど、筋が通っているようです。間違いなく多くの論理的推論が行われています。軽量モデルとしては、これは実に素晴らしい成果です。
長文要約とサブエージェント並行処理テスト
次のテストは、長文コンテキスト要約の marathon です。1つの長い文書だけでなく、3つの長い文書を読み込ませます。ここでテストしているのは、ハイブリッドアテンションを備えたこの100万トークンのコンテキストウィンドウです。これはDeepSeek v4シリーズのユニークな機能の一つです。
これを行う最善の方法は学術論文を使うことであり、それらを探すにはGoogle Scholar以上の場所はありません。そう、あの100ページもある博士論文です。完璧ですね。テーマは何でも構いません。今回はAIに絞りましょう。
ここでのTipsは、URLをそのまま入力しないことです。なぜなら、通常はアブストラクトやサマリー、概要だけをスクレイピングしてしまい、論文そのものを読み込まないからです。そのため、PDF、Markdown、またはHTMLとして保存してください。ディレクトリ内に専用のフォルダを作成し、そこにアップロードします。今回は2つのPDFと1つのHTMLを用意しました。
文書を読み、それぞれから上位5つのアクションアイテムを抽出し、同じフォルダに統合された要約を書き出すように指示しました。よし、エージェントを混乱させるために、すべてをPDFにはしていません。1つのプロンプトで、異なるファイルの組み合わせを実際に読み込めるかどうかを確認したいのです。
「PDF to textがインストールされていません。Pythonで利用可能なPDFライブラリを確認します。また、HTMLファイルは非常に長いため、チャンクごとに読み込んでみます」と表示されました。ここから、エージェントが推論し、タスクを達成するための解決策を考える様子を確認したいと思います。
よし、いいですね。現在、Pythonスクリプトを使用してPDFからテキストを抽出しています。HTMLは問題なさそうですね。順調に進んでいます。これが確かに論文1のタイトルです。著者らによる「LLM推論から自律型AIエージェントへ」。論文2、その通り。論文3、その通り。
わあ、速かったですね。わずか2分ほどでした。3つの文書すべてを抽出しました。単一の統合分析Markdownファイルを出力しました。中身を見てみましょう。更新します。さあ、どうでしょう。
よし、統合サマリー分析が手に入りました。まさに私が求めていたものです。非常に良いですね。文書1から上位5つのアクションアイテム、文書2から、文書3からも上位5つを取得し、横断的なテーマと統合が行われています。これが私の求めていた統合要約です。優先順位を区別してくれているのも素晴らしいですね。プロトコルセキュリティのための即時監査エージェントパイプラインとは何でしょうか。はい、はい、同意します(笑)。
サブエージェントの委任と総括
さて、最後になりますが、これは先ほどのテキストと似ていますが、今回は特に、1分あたり40回というリクエスト数のプレッシャー下でのサブエージェントへの委任をテストします。
さあ、始まりました。サブエージェントを使うよう明示的には指示していませんが、自発的に生成できるかどうか見てみましょう。ほら、来ました。よし、3つの並行調査サブエージェントを起動しています。これが見たかったのです。そして、goalコマンドもうまく使えているのなら、それも素晴らしいですね。残念ながら、goalを使用しているため、各サブエージェントの思考ブロックや引数を見ることはできません。CLIにおける異なるインターフェースなのだと思います。そのため、すべてを見ることはできず、タスクが委任されていることだけが確認できます。
通常、こういった場面で軽量モデルは少し不安定になります。しかし、様子を見てみましょう。
おっと、大変だ。もう10分が経過しました。前回のタスクよりもはるかに長い時間がかかっています。エージェントに直接指示を出した方が実際には早いです。
ええ、サブエージェントへの委任、少なくとも速度に関しては、ここで持ちこたえられていないと思います。本来は得意であるはずの部分ですが、本当に長いです。11分が経過しました。しかしこの時点で、サブエージェントたちはすでに調査のコンパイルを終えていると思います。今は、論文の見栄えを良くするために、私の実際のHermes Agentからもう少し肉付けをしているところです。いくつかの情報源を追加しています。よし、これが本当に優れた調査レポートであることを期待しましょう。
さて、レポートが完成しました。すでに14分が経過しています。綺麗に着地したか確認しましょう。完了するのを待ちます。よし、前回のタスク用に作成したのと同じフォルダに保存されました。見てみましょう。
なるほど、Pythonの非同期ライブラリ、SQLite対PostgreSQL、HTMX対Reactという3つのテーマに関する調査レポートが完成しました。何か抜けているものはありますか。実際、非常によく書かれていますが、調査タスクにおけるサブエージェントへの委任の速度が不足しています。完全な出力を完了することはできましたが。そういうことですね。まあ、よしとしましょう。
というわけで、以上です。これら5つのタスクから言える要約(TL;DR)として、Pythonスクリプトのリファクタリング、あるいは単にPythonスクリプトを調べて改善を提案させることは、間違いなくDeepSeek v4 Flashのナンバーワンのユースケースです。
そしてその拡張として、より大きなファイルレポジトリを指定し、同じアプローチでアプローチさせることです。これもまた、多くのトークンを節約しながら、これらのタスクにおいてフラグシップの推論モデルとほぼ同じ結果を得ることができる、もう一つの強力なユースケースです。
推論の挑戦については、これはご自身の軽量モデルがフラグシップの推論モデルと同じように思考できるかどうかを確認するための一つの方法に過ぎません。私が適切な判定役ではないかもしれませんが、結論に達するまでに非常に長い論理的なステップを提示してくれました。そのため、私としては合格です。
長文コンテキストの要約。これは非常に印象的でした。3つの非常に長い学術論文を2分で完了しました。
テスト5では、調査のための並行サブエージェントについて、良い出力が得られました。しかし速度、それは私が求めていたものではありません。長すぎます。さらに長い文書であっても、自分でやった方がはるかに速いペースでできるのであれば、サブエージェントに委任したときに遅れをとってしまいます。ええ、サブエージェントに委任するよりも、長い文書をそのまま直接与える方を選びましょう。
この動画が役に立ったと思ったら、ぜひ高評価ボタンを押してください。とても励みになります。チャンネル登録をして、さらなるアップデートやガイドをチェックしてください。私の名前はRonです。


コメント