新しいLLMが『自己修正』機能で他のすべてのモデルを圧倒（オープンソース）

4,920 文字
後にhypeだと分かる

New LLM DESTROYS Every Other Model with "Self Healing" (Open Source)

A new model by Matt Schumer uses a technique to identify and fix hallucinations as the output is generated. Vultr is emp...

おもろい新しいモデルが出てきてな、他のモデル全部ぶっちぎっとるらしいねん。
まったく新しい技術使うて、モデルが勝手に幻覚を修正できるようになったんやて。
めっちゃすごいやん、見てみよか。
Matt Schumerの投稿やねんけど、このMatt Schumerってツイッターでおもろい人やで。
まだフォローしてへんかったら、ぜひフォローしといた方がええで。
オープンソースのプロジェクトをバンバン出しとるんや。
で、今回は真新しいオープンソースで重みもオープンなモデル「reflection 70b」が出たんや。
これはllama 3.1モデルをファインチューニングしたもので、700億パラメータのモデルなんや。
現在のところ、世界トップのオープンソースモデルで、最先端のモデル全部と余裕で戦えるレベルやし、トップの非公開モデルとも簡単に渡り合えるんや。
Matt Schumerの新しいモデル「reflection 70b」は、「reflection tuning」っちゅう技術を使うて学習されとんねん。
これはLLMが自分のミスを修正できるようにする技術やねん。
それに、来週には4050億パラメータのモデルも出すって言うとるわ。
世界最高のモデルになる予定やって。まあ、大したことないな（笑）
ほんで、ベンチマークの結果見てみ。
GP QA、MLU human eval、math、GSM 8K、I evalがあるんやけど、MLUではゼロショットのreflectionで90%近くまでいっとるんや。
これはClaud 3.5 Sonetの88.7%、Claude 3 Opusの86.8%、GPT-4oの88.7%と比べてもすごいんや。
ほんまに他のモデル全部に勝っとるわ。ベースモデルのllama 3.1 405Bはもちろん、GP QAとhuman evalだけはClaud 3.5 Sonetにわずかに負けとるけど、はるかに小さいモデルやし、オープンソースで重みもオープンやからな。
もう今すぐhugging faceからダウンロードできるで。
ワイ、フルのLLMテストしようと思うたんやけど、ウェブサイトがダウンしとってな。
「現在、アクセスが集中しとって一時的にダウンしとります。また後で試してください」って出とるわ。
Matt Schumerが言うには、このウェブサイトめっちゃアクセス殺到しとって、しばらく使えへんらしいわ。
GPUを増やしとるけど、増やすたびにすぐ飽和してまうんやて。
ほんで、GSM 8Kの結果見てみ。もう完璧に解けとるで、100%やねん。めちゃくちゃすごいやん。
ほんじゃあ、どうやってこんなすごい性能出せたんか見てみようか。
reflection 70bは、非公開のトップモデルであるClaude 3.5 SonetやGPT-4oとも互角やねん。
少なくともMLU、math、if eval、GSM 8Kではトップのモデルや。
GPT-4oをテストしたすべてのベンチマークで上回っとるし、llama 3.1 405Bなんかもう比べ物にならへんくらい打ち負かしとるわ。
ほんじゃあ、どう動くか例を見て、それから説明するわ。
このモデルの作り方は、データセットに自己反省を入れとるんや。
つまり、データセットの中に幻覚と自己修正を実際に入れとるってことや。
そのおかげで、推論中にそれを再現できるようになっとんねん。
例えば、「独立宣言の前文の最初の文を鏡文字で書いて」っていう新しいプロンプトを見てみよか。
これは大規模言語モデルのテストによく使われるようになってきとるんや。
最初に「thinking」タグがあるんやけど、こんな感じや。
「これは面白くて、それなりに難しい課題やな。ステップに分けて考えよう」
つまり、頭の中で考えとるみたいなもんや。
実際に考えとるわけやないで、次のトークンを予測しとるだけやけどな。
でも、疑似的な思考みたいなもんやな。
「独立宣言の前文を思い出そう」
「最初の文を書き出そう」
「各文字を鏡像版に変換しよう」
「最後に鏡文字のテキストを提示しよう」
ってな感じで計画を立てとるんや。
「独立宣言の前文はよく知られとるな。『We hold these truths to be self-evident』が最初の文やな」
「鏡文字に変換せなあかんな。鏡文字では、各文字が水平方向に反転して、鏡に映ったように見えるんや」
「つまり、文字の順番を逆にして、各文字を反転させなあかんってことやな」
ここからが特別なとこなんや。「reflection」タグが出てくるで。
「ちょっと待て、鏡文字の解釈には2つの方法があるな」
「A: 単に文字の順番を右から左に逆にする」
「B: 順番を逆にして、各文字も反転させる」
「この課題では、より難しくて鏡文字の概念に忠実なBの方法を使おう」
ほんで「reflection」タグが終わるんや。
「ステップ4: 鏡像版はこんな感じやな」
そして、実際に鏡文字で出力されるんや。
もう一回「reflection」が始まるで。
「鏡文字をもう一度確認したで。正しいみたいやな」
「各文字が反転して、順番も逆になっとる」
「最初に句読点があるけど、これは本物の鏡反射でもそうなるからOKやな」
これはめっちゃクールな技術やと思うで。すごくうまく動いとるみたいやし。
でも、実際には一歩一歩考えとるわけやないんや。
これ全部、一発のゼロショット出力なんやで。
だから、疑似的な思考か、半分くらいの思考の連鎖みたいなもんやな。
説明するのは難しいけど、プロンプトと応答を繰り返しとるわけやないし、複数のエージェントや複数のLLMが協力して応答を作っとるわけでもないんや。
でも、それでもめっちゃうまくいっとるんは確かやな。
ファインチューニングのおかげやろうな。
ほんじゃあ、別の例も見てみよか。
「strawberry」の中に「r」が何個あるか数えるっていう例や。
最初に「strawberry」の中には「r」が2個あるって答えるんやけど、そのあと「reflection」が始まるんや。
「あかん、間違うてもうた。よく見たら、実際には『strawberry』の中に『r』は3個あるわ」
ここでちょっと混乱するんやけど、実際には既に出力されたものを振り返っとるわけやないんや。
他のモデルと同じように、次のトークンを予測しとるだけなんや。
でも、なぜかこれがめっちゃうまくいくんや。
ただ、最初から正解を出すのが一番ええと思うんやけどな。
間違えてから訂正するんやと、余計なトークンを使うことになるからな。
大したことないかもしれんけど、最適な出力は最初から正解を出すことやと思うわ。
それに加えて、計画を立てる部分を別のステップに分けとるんや。
これで思考の連鎖の効果を高めて、エンドユーザー向けの出力をシンプルで簡潔にしとるんやな。
ほんじゃあ、もう一つ例を見てみよか。
これもよくあるテストで、ワイのLLMルーブリックにも入れとるんやけど、
「9.11と9.9、どっちが大きい？」っていう問題や。
この文章全部見てみ。最適な結果やったら、単に「9.9の方が大きい」って言うだけでええんやけどな。
でも、この答えに至るまでにどんな過程を経たか見てみよか。
「これは比較的簡単な問題で、2つの小数を比較するだけや。
straightforward（直接的）なアプローチで、思考の連鎖を使って解決できるな」
「計画：比較する数字を特定する、整数部分を比較する、整数部分が同じなら小数部分を比較する、比較結果に基づいてどっちが大きいか決める」
「思考の連鎖：よっしゃ、続けるで」
「反省：アプローチは正しいな。整数部分と小数部分の比較も正確や。結論も比較に基づいて論理的や」
「出力：9.9は9.11より大きい」
ええ答えやけど、ここまで行くのにめっちゃトークン使うてるで。
ほんで、もう一つ気になるのは、このモデルはこういうステップを踏んで正解にたどり着いて、自分のミスを「特定」するようにファインチューニングされとるってことや。
でも、これってプロンプトエンジニアリングでもできるんちゃうか？
単に「ステップバイステップで考えてください」とか「まず答えを出して、それから答えについて反省してください」みたいなプロンプトを入れるだけでもできそうやな。
つまり、そういうプロンプト技術をモデル自体に組み込んどるだけやねん。
それはええことやと思うで。でも、これがモデルの核心的な知能の飛躍的な進歩やとは思えへんな。
単に、そういうプロンプト技術をプロンプト自体やなくてモデルに組み込む、より良い方法なだけやと思うわ。
今、Hacker Newsを見とるんやけど、ここにも投稿されとって、ユーザーのRW_L4がこんなこと言うとるわ。
「システムプロンプトを使うて、ある程度同じことを再現できるで」
ほんで、実際にそのプロンプトも載せとるんや。
これ、Matt Schumerがモデルに学習させたのと基本的に同じことやな。
「thinking」セクションから始めて、そのセクションの中で思考の連鎖をして、「reflection」セクションを入れて、推論をチェックして、すべての「reflection」セクションを閉じて…みたいな感じや。
別のユーザーも言うとるわ。
「裏を返せば、reflection 70bはllama 3.1をファインチューニングして、モデルに『think』『reflection』『output』っていうトークンと対応するフェーズを追加するように促したものみたいやな。これは思考の連鎖の進化版やな。『ステップバイステップで考えて』みたいな感じや」
まあ、うまくいっとるんは確かやな。それはええことや。
他のほとんどのモデルに勝っとるんやし、Matt Schumerはよくやったと思うで。
Matt Schumerはこんなことも言うとるで。
「言及したすべてのベンチマークに対して、lmsm.orgのLLM Decontaminatorを使うて汚染チェックをしとるっていうのは重要な点やな。うちの70bモデルの重みは今日からHugging Faceで利用可能や。Hyperbolic Labs APIでも今日中に利用可能になる予定や。来週には405bの重みもリリースする予定で、短いレポートも出して、うちのプロセスと発見についてもっと詳しく説明するつもりや。sahilとGlaive AIにも大きな感謝を」
ほんで、もう一つおもろいテストがあるんや。
「rArRrrRRrRaRRrRRR」っていう意味不明な単語の中に「r」が何個あるかを数えるんや。
「慎重に徹底的に分析した結果、この単語には9個の『r』があると確信を持って言えます」
ほんで、1、2、3、4、5、6、7、8、9…そやな、合ってるわ。
「詳しく説明しましょう。最初の『r』は2文字目に出てきます。それから3つの『r』の塊があって…」
面白いのは、この例では先ほど話したタグが実際には使われてへんのに、正解を出せとるってことやな。
ほんじゃあ、「strawberry」の「r」を数えてみよか。あかん、ちょっと待っててもらって、やっと数分待ったら出力が出てきたわ。
「strawberry」の中の「r」の数を数えてって言うたら、こんな感じの答えが返ってきたんや。
「strawberry」という単語には「r」が3つあります。
ほんで、他の出力はもう出てけえへんねん。できるだけ早くこのモデルをテストしたいんやけど、自分のマシンにダウンロードして動かすんが一番ええかもしれんな。そしたらアクセス集中の問題も避けられるし。
このモデルについて、みんなどう思う？めっちゃええ性能出しとるみたいやし、プロンプトエンジニアリングが組み込まれとって、すばらしい結果を出しとるし、他のオープンソースモデル全部に勝っとるどころか、ほぼ全てのモデルに勝っとるみたいやからな。
4050億パラメータのモデルが待ち遠しいわ。
この動画楽しんでもらえたら、いいねとチャンネル登録よろしくな。また次の動画で会おな！