大規模言語モデルは学習しながら正気を保てるか?生成AIを探求する!

AGIに仕事を奪われたい
この記事は約5分で読めます。

2,734 文字

Can LLMs Learn Without Losing Their Minds? Exploring Generative AI!
Ready to become a certified watsonx AI Assistant Engineer? Register now and use code IBMTechYT20 for 20% off of your exa...

生成AI(ジェネレーティブAI)アルゴリズムは急速に新しい領域を学習しています。しかし、そうする中で大きな疑問は、彼らが正気を失ってしまうのかということです。例えば、私の友人のラヴィは、これから水泳大会があり、バタフライのスタイルを改善するためにヒントを得るために大規模言語モデルを使いたいと考えています。
しかし、そのヒントが最良とは限りません。また、別の友人のケビンは犬のアートワークに取り組んでいて、そのスタイルを変更するために生成AIシステムを使いたいと考えています。これらはどちらも、日常生活で生成AIを活用する良いアイデアであり、ユースケースですが、その過程で彼らが正気を失わないようにする必要があります。
人間の脳と大規模言語モデル(LLM)の間には多くの類似点があります。両者とも、深く結合したニューロンを持っています。脳では、前頭前皮質が異なる種類の思考を担当しています。LLMでは、フィードフォワードニューラルネットワーク内に密に詰め込まれた領域があり、前方に情報を伝播させて出力を推論することができます。
もう一つの部分は記憶と呼ばれるものです。人間の脳では、海馬と呼ばれる部分があり、そこに記憶を保存し、環境に応答するために情報を取り出す必要があります。LLMも同様に、ベクトルデータベースと呼ばれるものを使用します。これによりベクトルを書き込み、それを取り出すことができます。
両者の間の三つ目の類似点は、専門化された領域と呼ばれるものです。生成AIの領域では、これを専門家の混合(mixture of experts)と考えることができます。脳では、小脳に注目することもでき、小脳はバランスや動きなどを助けますが、これらの専門化された領域はそれぞれ特定の機能を持ち、私たちを助けることができます。
類似点を説明しましたが、次に脳はどのように異なるのでしょうか。違いの一つは電力です。人間の脳は0.3キロワット時の電力しか必要としません。一方、LLMは特にトレーニングに数千キロワット時の電力を必要とします。もう一つの違いは容量です。
人間の脳はわずか1200立方センチメートルの空間しか占めません。一方、GPUを持つこれらのスーパーコンピュータとクラスタを接続するケーブルだけを比較しても、生成AIの部分には何マイルものケーブルがあります。もう一つの最大の違いは、それぞれがメッセージを伝達する方法です。複雑な一連のメッセージがあります。
一方は化学的で、もう一方はバイナリです。脳内では、メッセージを前後に中継する神経伝達物質の複雑な組み合わせがあります。一方、生成AIでは、その情報を前後に渡すために1と0を使用するエンコードされた浮動小数点が使われています。さて、私の友人ケビンが、より良い犬の絵を描く方法を学んでいるとしましょう。
彼がより良い犬を描くのを助けるためには、これらの類似点と相違点を考慮してLLMをトレーニングする必要があります。では、詳しく見ていきましょう。基本的なレベルでは、段階的なトレーニングアプローチを始めることができます。このトレーニングアプローチは二つの異なるコンポーネントに分かれています。
最初のコンポーネントは教師なし学習です。ここではラベルを全く提供せず、モデルがデータの表現方法を学習します。このアプローチの二つ目のコンポーネントは教師あり学習です。これは答えを提供し、出力と答えの間の誤差を逆伝播させて勾配を変更することができます。
次に言及したい二つ目の領域は思考の連鎖(chain of thought)と呼ばれるものです。これは段階的な論理的推論であり、他のモデルを教えるためにも使用できます。これにより透明性も提供され、何が起きているかを理解することができます。今、この分野で現れ始めているのは自己学習と呼ばれるものです。
この自己学習の側面では、多くのこれらの思考の連鎖を組み合わせ、専門家の混合(MoE)にそれらを学習させることができます。そうすることで、彼らは自分の小さな領域のエキスパートになります。そして、MoEの各エキスパートに投票させ、特定の答えに対して多くの投票があれば、それが正しい答えとなり、それを準地球真理またはメタ地球真理としてネットワークに戻すことができ、学習します。
これによりモデルは分岐して新しいスキルを学び、新しい能力を習得することができます。さらに、この分野では強化学習も使用されるようになっています。これらのモデルが正気を失っていると思うかもしれませんが、実際はそうではありません。
これらのモデルが自己学習を始めるにつれて、良い結果を生み出すように注意する必要があります。私たちは「信頼の漏斗(funnel of trust)」と呼ばれるものを使用し、この漏斗を使って、提供した3つの例を通じて獲得される可能性のある誤った幻覚や不正確なスキルを最小限に抑えることができます。
強調したい一つの領域は、審判としての大規模言語モデル(LLM as a judge)と呼ばれるものです。これは、モデル自体が別のモデルの出力を解釈するものです。コンドルセの陪審定理に従いたい場合、多くの審判モデルを重ねて陪審を作成することができます。これらの陪審員全員が正解する確率が半分以上であり、その数をどんどん増やせば、審判陪審もより正確になるでしょう。
もう一つの領域は心の理論(theory of mind)と呼ばれるものです。ここでは、これらのモデルの出力があなたの期待に一致することを確認したいと考えています。つまり、モデルが「ちょっと待って、私を使用しようとしているユーザーやエージェントには独自の期待があるんだ」と理解し、これらのエージェントの心的モデルやユーザーの心的モデルに対応できるようにして、彼らの出力に一致させたいと考えています。
もう一つの領域は機械アンラーニング(machine unlearning)と呼ばれるものです。機械アンラーニングでは、データを体系的に削除することができます。MoE内での仮想病変を作成し、エキスパートの一人が教えられたデータを忘れることができます。これは選択的忘却と呼ばれます。これはMoEで非常に強力であり、再トレーニング中にデータを分割して、特定のスキルをもう訓練したくない場合に役立ちます。
こうしたことが興味深く、友人のケビンがより良い犬を描くのを助けたり、ラヴィが将来の水泳大会に向けて異なる泳ぎのスタイルを理解するのを助けたりできると思うかもしれませんが、そうすることで、LLMが正気を失わずに学習することを助けることができます。

コメント

タイトルとURLをコピーしました