ローカルAIが驚異的に賢くなった – たった8Bの思考型LLMで!

5,772 文字

Local AI Just Got Crazy Smart—And It’s Only 8B Thinking LLM!

DeepHermes 3 Preview is the latest version of our flagship Hermes series of LLMs by Nous Research, and one of the first ...

このモデルは、ローカルで実行できる最高の思考モデルかもしれません。私はこれをローカルで実行し、これまで見たことがないようなテストをいくつも実施しました。このモデルはかなり良い結果を出しましたが、100%のAGIというわけではなく、うまくいかない部分もあります。
この動画では、Deep Hermis 3と呼ばれるこのモデルについて私が知っているすべてをお見せし、私が行った様々なテストを通じて、モデルの良い点、悪い点を見ていきます。これまでに見たことのない新しいタイプのLLMテストを試みていると確信しています。このようなLLMのテスト方法について、皆さんの意見を聞かせてください。
このモデルはDeep Hermesと呼ばれ、私が非常に尊敬している研究グループ、Together.aiによって開発されました。この会社は既存のモデルをファインチューニングすることで一連のモデルを作り出し、データセットの公開など、コミュニティを前進させる多くの良い取り組みを行っています。
彼らの最新モデルはDeep Hermis 3と呼ばれ、長い思考の連鎖による推論が可能とされています。正直なところ、このモデルに対する私の最大の不満は、あまりにも多く考えすぎることです。単純なタスクでさえ、非常に多くの思考を重ねます。しかし、システムプロンプトでこの機能をオンオフできるという良い点があります。これは、おそらく思考の有効・無効を切り替えられる最初の統一モデルでしょう。
システムプロンプトで「あなたは深く考えるAIです。問題を深く考えるために極めて長い思考の連鎖を使用することができます」と設定すると、モデルは思考モードに入ります。このプロンプトがない場合、モデルは推論プロセスを経ずに直接答えを出します。このようなユースケースに対して、モデルはかなり優れた性能を発揮します。
私は4ビット量子化モデルをダウンロードし、LM Studioで使用しました。これは8ビリオンパラメータのモデルですが、そのサイズにしては驚くほど良い性能を発揮します。このモデルはLLaMA 2.1をベースにしています。正直なところ、Quinではなくまだ LLaMA 2.1を使用していることに驚きました。基本モデルがQuinであれば、もっと良い性能を発揮できたと思います。
さて、Deep Hermesについて、私はいくつかのテストを行いたいと考えています。これらのテストの多くは、これまで他の人々が行ってきたテストや、私自身が行ってきたテストとは全く異なるものです。
モデルをダウンロードする場合は、Discoverタブに行ってDeep Hermesを検索するだけです。モデルは発売以来7,222回ダウンロードされており、ストレージは約4.7GBを必要とします。ダウンロードしたら、LLaMA.cpp、Jan、LM Studioなどで使用できます。思考の切り替え機能があるため、私はLM Studioでの使用を簡単にしました。
最初に私がモデルでチェックしたかったのは、ほとんどの人がGoogleを使用する日常的な問題、具体的にはGoogle Sheetの数式を解決できるかどうかでした。この場合、VLOOKUPのような複雑なものではなく、シンプルな数式を使用しましたが、モデルが私の問題を理解できるかどうかを確認したかったのです。
私はKaggleから学生の成績データセットのサンプルGoogle Sheetを用意しました。これには多くの列があり、私が使用したいのは、3列目の親の関与（C列）、家族収入（K列）、試験の得点（T列）です。これらの3つの列を有効にして、条件を設定し、モデルから興味深い結果を得ようと試みました。
モデルには次のように指示しました：「以下の列とサンプルデータを持つGoogle スプレッドシートがあります」。そして列とサンプル行を2つ提供しました。「家族収入が低く、試験の得点が70以上で、親の関与が低い新しい列の数式を作成してください」。
注目すべき点は、私が明示的に列名を指定していないことです。モデルが文脈から列名を理解することを期待しています。これは文脈内学習と呼ばれるものです。家族収入について言及していますが、モデルがその列名と位置を特定し、最終的な答えを返すことを期待しています。
思考機能を無効にした状態では、システムプロンプトが空で、モデルは推論を行わず、毎秒50トークンで直接答えを返しました。しかし、返された数式は明らかに間違っていました。B、C、Dの3つの列は私たちが求めているものとは関係ありません。
思考機能を有効にして、システムプロンプトを設定すると、モデルは考え始め、最終的に正しい答えを出しました。「考えるのは控えめにして、列の順序を正確に取得してください」と付け加えたところ、モデルは考えた後に正しい答えを出しました。C、K、T2という正しい列を指定しました。
しかし、列が正しいだけでは、モデルが値を正確に理解しているとは限りません。いくつかの点を正しく理解する必要があります。サンプル列を提供したため、適切なケースを扱っていることを理解し、良い仕事をしました。モデルの思考プロセスを見ることができ、最終的な解決策に至るまでの過程を見るのは面白いです。70以上という条件も正確に理解し、greater thanを使用しました。
最終的な数式をコピーして貼り付けると、特定の条件（K、T、Cの値が低、低、70以上）に一致する場所でのみtrueを返すことが確認できました。これは人々がよく検索するExcelやGoogle Sheetの数式の例で、モデルは思考や推論を使用して良い結果を出しましたが、推論なしでは良い結果を出せませんでした。
次に、Wolfram Alphaから数式を取り出し、これをGPT-4やTogetherの最新フラグシップモデルなど、他の多くのモデルでテストしました。これらのモデルは良い結果を出しましたが、このモデルも良い結果を出せるか確認したかったのです。
単純にこの式を因数分解して結果を得ようとしました。答えはx + 2 × (x² + 1)です。思考タグなしでは、モデルは良い結果を出せず、x + 1とx² + x + 2という誤った答えを出しました。
思考機能を有効にすると、モデルは良い結果を出しましたが、非常に長い時間考え続けました。これが私の最大の問題です。2分12秒もかかりましたが、この問題にそれほどの時間はかからないはずです。モデルは解決策を出し、それが正しいかどうかを確認し、「これをすべきだった、あれをすべきだった」と多くの検討を重ねます。
これは主に「極めて長い思考の連鎖」というシステムプロンプトのためかもしれません。システムプロンプトを変更して、モデルの動作がどのように変化するか、別の動画で紹介するかもしれません。最終的に正しい答えにたどり着きましたが、実際にはもっと早く正解を見つけていました。それでも多くの検討を重ね、最終的に x + 2 × (x² + 1)という正しい答えを出しました。
次に、モデルの良い面だけでなく、悪い面も見せたいと思います。インターネットで今人気の問題、六角形の中でボールが跳ね返る問題を試してみました。六角形が回転している時にボールが跳ね返る様子を表現する問題です。
この課題に関して、このモデルは非常に悪い結果を出しました。評価は0点です。「重力と摩擦の影響を受け、回転する壁からリアルに跳ね返るボールを、回転する六角形の中で表示するプログラムを作成してください」と指示しました。
モデルは多くの検討を重ね、論理的に思えるロジックを出しましたが、Pythonプログラムに変換する際にエラーが発生し始めました。最初は括弧が抜けており、それを修正する必要がありました。最終的なコードがどれほど酷いものか驚くかもしれません。
最終的なコードを貼り付けて実行すると、六角形がなく、ボールは跳ね返るどころか完全な自由落下状態で、フレームから出てしまいました。この問題に関して、モデルは非常に悪い結果を出しました。同じプロンプトをChatGPT-4に与えても良い結果は出ませんでした。
Mistralにも同じ問題を与えてみましょう。すべてのローカルLLMがこの問題で良い結果を出しているわけではありません。Mistralの場合、少なくともボールは六角形から跳ね返っており、六角形も回転していますが、ボールは六角形の中には留まっていません。しかし、これは私たちのモデルよりもずっと良い解決策です。
なぜこのような結果になったのかわかりませんが、非常に悪い結果でした。これは物理学の理解をコーディングに変換する能力を理解するための人気のプロンプトなので、別の動画で取り上げるかもしれません。
次に、このモデルの素晴らしい点について、正直驚いたことがあります。再びWolfram Alphaに行きましたが、今回は化学の問題です。ある化合物があり、それが何かを特定する必要がありました。答えはバニリンで、その理由は式がこれで、これが化合物だからです。この化合物または方程式の入力解釈はバニリンです。
驚いたことに、最新アップデートのChatGPT-4もMistralも、両方とも近い答えは出しましたが間違えており、Deep Hermisは正解しました。まずChatGPTの場合を見てみましょう。「この化合物は何ですか？」と聞くと、3-メチル-3-ヒドロキシベンゾ酸ベンゾエートや3-メトキシベンズアルデヒドなど、間違った答えを出しました。
Mistralはより近い答えを出したと言えます。IUPAC命名法（国際化学識別子）では、これはバニリン酸に相当し、化学式がこれの有機化合物で、フェノール酸の一種で安息香酸の誘導体だと説明しました。バニリンとは言わず、バニリン酸と答えましたが、これはかなり近い答えです。化学の専門家の方がいらっしゃれば、コメントで教えてください。
これは二つの大きなAI研究所の二つのフラグシップモデルです。さて、Deep Hermisに話を戻しましょう。「この化合物を特定してください」と言うと、長時間考え続け、1分53秒かかりました。正解を出せるとは思っていませんでしたが、なんとか最後に正解にたどり着きました。最初の項目と最後の項目を見るなど、様々な方向から検討を重ねた後、最終的にこれはバニリンだという結論に達しました。
「正確な構造を理解することには混乱がありましたが、与えられた式はバニリンに相当します」と述べ、「この化合物はバニリンです」と答えました。モデルはおそらくこの部分から答えを導き出したのだと思いますが、それでも正解にたどり着いたことに驚きました。
次に、OpenAIのフラグシップ思考モデルであるChatGPT-4が良い結果を出した問題について、このモデルから答えを得ようとしました。症状のリストを与えて予測を求めましたが、モデルは正しい答えを出せませんでした。これはKGBまたはそれに似た何かだと思いますが、モデルは正しい答えを出せませんでした。SMSがなぜKGBやKBGに近いのか、これら二つの病気の距離がどれほどなのか、モデルがなぜこのような決定を下したのかわかりません。しかし、客観的に見てこれは間違った答えです。
その後、インドの有名な入学試験であるIIT-JEEから問題を取り出してこのモデルに与えましたが、残念ながらモデルは約10分かかっても解答にたどり着けませんでした。これは非常にシンプルな数学の問題だと思います。Math Stack Exchangeで見つけることができ、いくつかの異なる解法があります。基本的に、ここに与えられた条件のもとで、この方程式を証明する必要がありますが、このモデルはまったく解くことができませんでした。思考プロセスを詳しく見ていませんが、9分かかっても結論に達することができず、長時間かかることが一部のケースで問題を引き起こしているように感じます。
全体的に、このモデルについての私の経験をまとめると、このモデルは推論に非常に優れており、文脈の中にとどまるものについては非常に良い仕事をします。LM Studioの実装では、複数の会話の3回目や4回目の反復で、以前の質問や最初の質問の文脈を思い出すことに問題がありましたが、それ以外は素晴らしいモデルだと言えます。
特に、推論モデルを理解し、それをローカルマシンで実行したい場合、このモデルは素晴らしい選択肢です。私の場合、8ビリオンパラメータのモデルを使用していますが、このモデルは驚くほど良い性能を発揮します。モデルがQuinをベースに構築されていれば、さらに優れたモデルになる可能性があります。
Together Researchによると、思考タグを有効にしなくても、生の状態でもこのモデルは良い性能を発揮し、LLaMA 2 18ビリオンモデルと比較しても優れているとのことです。さらに思考を有効にすると、モデルはさらに良い性能を発揮します。
また、システムプロンプトを使ってモデルに特定のタスクを実行させることもできます。例えば、関数呼び出しやエージェントタスクを実行させることができます。これは今後試してみたいと思っています。
とりあえず、このモデルを使ってみて、感想を聞かせてください。また、このようなテストについてどう思うか教えてください。これらの問題文を考え出し、最終的な解決策を得るまでには多くの時間がかかりましたが、モデルは本当に優れています。
モデルを使用する場合は、LM StudioのDiscoverタブに行き、Deep Hermesを検索してダウンロードするだけです。モデルを検索してダウンロードしたら、Hugging Faceのモデルページにあるシステムプロンプト（YouTubeの説明欄にリンクを載せます）を追加し、プリセットとして保存すれば準備完了です。感想を聞かせてください。
また別の動画でお会いしましょう。ハッピープロンプティング！