新しいAIが文章ではなくアイデアを生成することに驚き | 自律型AI研究の力

8,927 文字

NOVA iA Surpreende por Gerar Ideias Ao Invés de Simples Texto | A Força da Pesquisa em iA Autônoma

Aprenda Inteligência Artificial! link do Vídeo original: ▸ Aprenda Agentes iA:

今日は、新しい人工知能モデルを発明した人物についてお話しします。このケースは、創造性と人工知能の時代が誰にでも開かれていることを示す好例です。そして視聴者のあなたも、少しの創造性と勉強があれば、自分独自のモデルを作ることができるのです。
この人物は、人工知能が反省や思考をする必要がある時に直面する問題を解決しようとしています。彼は現在の人工知能に、常にテキストを通じて推論するという制限があることを発見し、人工知能がテキストではなくアイデアについて考えるようにしたいと考えました。
この人物が提案していることを見て、私たち自身も独自のソリューションを考え始められるよう創造性を刺激していきましょう。それでは一緒に見ていきましょう。
いつも通り、チャンネル登録してくれた皆さん、いいねを押してくれた皆さんに感謝します。このAIチャンネルをサポートしてくれるメンバーの皆さんには特別な感謝を捧げます。メンバーは、インテリジェントエージェントに関する独占動画にアクセスでき、WhatsAppにエージェントを統合する方法が詰まった完全なプレイリストや、先行公開される動画にもアクセスできることを忘れないでください。
さて、今日の動画はこの人物、ガウラ・ハットという発音が難しい名前の人についてです。彼は「新しいLLMを発明した」と言っています。今日はこの動画で彼が話していることを理解し、それについて考察して意味があるかどうかを見ていきます。興味深いことに、この動画は随分前に私にリクエストされたコメントで、私はこの動画を見た後、公開するのに適切なタイミングを待っていました。そして今がその時だと思います。
まず興味深いのは、現在のすべてのモデルがTransformerというアイデアに基づいているということです。ChatGPTでもClaudeでもDeepSeekでもMistralでも、みんな同じアイデアを使っています。これらはすべてテキストを数字（実際にはベクトル、つまり数字の配列）に変換する必要があり、これらの数字からテキスト生成を始めます。
モデルに「あなたは推論していますか？」と尋ねると、モデルは「はい」と答えるでしょうが、実際にはあなたをからかっているだけです。なぜなら、そのようなことをしておらず、時にはそれを認めることさえあります。Transformerの基本的なアイデアは、新しい単語を予測するたびに、それを前のテキストに追加して、テキスト生成を続けることです。これがTransformerの基本です。
しかし、彼が今試みているのは、私たちが尋ねた質問からアイデアを生成し、そのアイデアから回答を生成することです。Transformerが行うのはいわゆるトークン化です。テキストを取り、これらの単語を小さな部分に分解します。そして各部分に対して、きれいなベクトルを作成します。
例えば、「let」は緑色のベクトル、「s」はより明るい緑色のベクトル、「token」は紫色のベクトル、「easy」はより明るい紫色のベクトル、「diz」は別のベクトルとなります。これは各単語に独自のベクトルがあることを意味します。これらのベクトルは人工知能によって学習されました。これがトレーニング中に学習することです。いわゆるGPT、Transformerによる生成的事前学習というものです。
これが彼女が学んでいることです。0.3や-2.1などの数値を調整し、時には少し上げたり下げたりして、最終的にすべてがトレーニングされると、トレーニングを停止し、これらの数値を固定します。これがTransformerがGPTの最初のステップで行うことです。それは単語（実際にはトークン）を持ち、その単語を表すベクトルを持つ瞬間です。
Transformerは次に何をするのでしょうか？これらのベクトルから組み合わせを作ります。例えば、最も単純な組み合わせ方法は平均を取ることです。つまり、すべてを合計し、このテキストに含まれる単語やトークンの総数で割ることです。これは非常に単純でしょう。最も効果的な方法ではありませんが、可能なことです。
そうすることで、人工知能に送る単一のベクトルを得ることができます。これらのベクトルをすべて扱うことはできないので、1つだけが必要なのです。そして、これらのベクトルを注意モデルに送ります。この注意モデルは最も興味深いものの一つです。なぜなら、今これらの単語の中でどの単語がテキスト内で最も重要かを発見する必要があるからです。
最も重要な単語とは何かを理解する最も興味深い方法は、画像を考えることだと言えるでしょう。この画像にはカーテン、背景の窓、背景にいくつかの植物、話している人、マイク、角に椅子のように見えるもの、窓のガラス、壁、いくつかのランプがあります。
「ここで最も注目すべき重要なものは何か？」と質問されたら、カーテンでしょうか？いいえ、カーテンではありません。背景の窓でしょうか？いいえ、背景の窓でもありません。マイクでしょうか？マイクは他の多くのものよりも重要になり始めましたが、それでもマイクではありません。この人のTシャツでしょうか？だんだん温まってきましたが、まだそれではありません。ああ、それは人物です。よし、この画像で注目すべき重要なものについて話し始めました。
今、これがテキストで、カーテン、窓、人物、マイク、Tシャツと書かれた画像の説明があったとしたら、人物のベクトルの数値が上がって、その単語に注目すべきだということを示す必要があります。そしてカーテンのベクトルは下がって、そのカーテンについて話す必要がないことを示す必要があります。
これが注意ベクトルを通過するときに起こることです。計算に達すると、各人は数学的にその最も重要な単語やトークンを見つける方法を考えることができます。
次のステップは、ここではFFN（Feed Forward Network）と呼ばれるニューラルネットワークを通過することです。これは推論と呼ばれるものです。非常に単純なニューラルネットワークに投入すると、入力ベクトルを取得し、この文に対する次の単語を示す出力ベクトルを提供します。この魔法がどのように機能するか理解できましたか？それがここで起こっていることです。
この注意とニューラルネットワークのシーケンスは、重みを学習し予測を行うため、Transformerのブロックと呼ばれます。なぜなら、単語を生成し、文脈を理解し、変更を加えるために連続した複数の層、複数の注意機構とFFNがあるからです。これがこの技術全体で起こることです。
そしてテキストがあり、もう一つのトークンを予測します。理解できましたか？「Let’s tokenize this text」があり、予測した次の単語は「if」です。そして、ここに追加された明るい青色のベクトルがあり、再びこのプロセス全体を経て、もう一つの単語を予測します。これがTransformerの魔法です。このように機能します。
そのため、彼が言っていることは何でしょうか？Transformerは常にテキストを見ています。実際にはアイデアについて考えることはありません。常に単語を見て、それらの単語から別の単語を考えます。その新しい単語を前のテキストに追加し、もう一つの単語を考え、そのように続けます。
ここで単語と言っていますが、実際に私が言いたいのはトークン、つまり単語の断片です。しかし彼は次のように言いました：「私たちはアイデアについて考え、このすべてのテキストを使用して、一つの文が一つの単語を予測し、別の文が別の単語を予測し、別の文が別の単語を予測する代わりにできないだろうか？」
これが古典的なGPTのトレーニング時に起こらなければならないことです。そして例えば、「let’s tokenize this text」という予測をし、次の単語がバナナという間違った予測をした場合、人工知能はそのFFNを修正し、注意モデルを修正し、新しい修正されたトークンで物事がより賢くなり始めます。これが学習とトレーニングのプロセスです。
これが機能する方法です。彼が発明した新しい方法では、アイデアは次のとおりです。テキストからアイデアへのコンバーターを作成し、次にアイデアからテキストへのコンバーターを作成し、その中間に推論や思考のブロックを作成し、アイデアを受け取り別のアイデアを返します。テキストでは動作しません。
これは単に素晴らしいことです。非常に興味深いです。なぜなら今、インテリジェンスが単語を見て次の単語を予測するよりもかなり異なる方法で考えていると言えるからです。今実際には、一つのアイデアが次のアイデアを予測します。
さて、彼が何をするのか、物事がどのように機能するのかを説明するときが来ました。オートエンコーダーと呼ばれるほとんど誰も話さないニューラルネットワークモデルがあります。この名前は非常に難しく混乱しますが、実際には次のとおりです。ここにモデルの入力、例えば「3」と書かれたテキストがあります。そしてここに少し変な「3」のテキストがあるのがわかりますか？このニューラルネットワークが行ったことは、この入力（数字4）を用いて、数字4も予測することを学習したことです。
この数字4を予測するために、中間のこの小さな隘路を通過する必要があります。これは、ここ中間に4のエンコーディングがあることを意味し、接続された2つのネットワークがあるようなものです。1つ目は左側のエンコーディングを行うものです。もう1つはデコーディングを行い、最初の出力を取得して再び4にします。
これを自動的に行っているため、自動エンコーダーと呼ばれます。このアイデアは様々なことに使用されており、暗号化にも使用されています。多くのものがこれを使用しています。今、この人物はアイデアの生成に使い始めると言っています。このオートエンコーダーを取り、この最初のブロックを取り、テキストをアイデアに変換し、次に2番目の部分を取り、アイデアを再びテキストに変換します。
すべてこの小さな隘路の助けを借りて、これがケーキのトッピングになります。これらすべての基本を理解するために、画像を取り、2つの数字にエンコードし、その後これら2つの数字を再び数字にデコードするようなものです。そして今、中間段階で生成されたこれら2つの数字を取り、それをデカルト座標に配置すると想像してください。
例えば、2.4と1.1を取ると、ここに3が配置されます。複数の数字と複数の予測から複数の座標を取ると、あなたが見ているようなことが起こります。数字2を一点にグループ化し始め、数字3を別の点にグループ化し始め、数字4を別の点にグループ化し始めます。
そして、人工知能が物事を位置的に配置する概念を持っていることがわかり、これらの座標から特定のアイデアがどこにあるかを知ることができます。したがって、たとえば、数字1のアイデアは一つの領域にあり、数字4のアイデアは別の領域に、数字8のアイデアはまた別の領域にあります。
そして、あなたはすでにこのアイデアを理解したでしょう。残っているのは何でしょうか？テキストからこれらのアイデアを抽出する方法を理解することです。ここで魔法が始まります。画像を置く代わりに、ここにテキストを置き、モデルに反対側のテキストを覚えさせます。この非常に単純な方法で、テキストのエンコーダーとデコーダーを作成します。入力にテキストを配置します。
このテキストは数字に変換され、変換されたこの数字がデコーダーの入力になります。そしてアイデアは、デコーダーがこの数字を受け取り、それを再びテキストに変換することです。まあ、これは一つのステップです。あなたはすでに気づいているかもしれませんが、今のところテキストをテキストに変換しているだけで、それほど多くのことに役立ちません。
そして予測を行い、例えば「this is OK」をベクトルに変換し、このベクトルが再び「this is OK」を返す必要があるときに、それが間違っていて「this is amazing」を返した場合、戻ってすべての修正を行い、このベクトルを修正し、すべてを再び修正し、ネットワークのトレーニングを行います。これが起こっていることです。
理解するのは非常に簡単で、この部分は変わりません。最初のところはすべてTransformerのままです。今、最も楽しい部分の一つが来ます。あなたがテキストを置き、そのテキストをベクトルに変換したとします。例えば、「スコットランドの国獣はユニコーンです」。そしてエンコーダーに別のテキストを送り、それも別のベクトルを見つけたとします。例えば、「サメは木よりも先に存在していました」。そして今、これら2つのベクトルを1つのベクトルに組み合わせ、エンコーダーに送り、それをデコードするよう依頼したとします。
彼は実際には、テストで、このベクトルの組み合わせが新しい文を生成することに気づきました。例えば、「サメは国獣であり、木ユニコーンの前にいました」。これは意味的に、これらのものの意味が、完全に奇妙な文を形成しても、これらの混合された数字が何らかの非常に奇妙な方法で意味をなしていたことを意味します。なぜなら、最初の文から一部と2番目の文から一部を取り、それらを3番目の文に組み合わせているからです。
ベクトルの合計を計算して平均を取ることで、人工知能が混合された文を生成できるというのは非常に興味深いことです。さて、次にこのテキストをアイデアと呼ばれるベクトルに変換するという考えです。このアイデアは思考者に送られ、応答を生成します。そしてこの応答がデコーダーに来ます。
つまり、質問を送り、それがベクトルになります。このベクトルは中間で潜在的な表現を行い、それは言語的なものではなく、テキストではなく、単に中間のベクトルであり、私たちはそれをアイデアと見なします。そして今、このベクトルは潜在空間に行きます。今やあるアイデアが別のアイデアに変換され、そのアイデアがここに来て応答に変換されます。非常に奇妙ですね？
しかし、その中間部分はどのようにトレーニングされるのでしょうか？潜在空間のトレーニングのアイデアは、デコーダーは必要なく、エンコーダーだけを取るということです。質問をして、その質問から作成されたベクトルを取り、このベクトルを記録します。次に応答をエンコーダーに投入し、その応答も新しいベクトルとして記録します。
今必要なのは、質問ベクトルを取り、潜在的なマニピュレーターをトレーニングして回答を発見することです。なぜなら、あなたは今や質問と回答を知っているからです。そして、エンコーダーに投入し、それが潜在的なマニピュレーターを通過すると、あなたが達成しようとしている問題の答えにうまく到達することをデコードすることを期待します。
あなたはこのことの巧妙さを理解しましたか？これは非常に奇妙で、非常に興味深いです。このアイデアは単に天才的です。このトレーニングを行うために、彼はウィキペディアの英語データセットを使用しました。それはあまり大きなデータセットではなく、彼は技術的にはもう少し複雑で理解が難しいシステム全体を作成しましたが、ここで話す価値はありません。彼が行ったのは、入力層に一連の層を作成し、入力層の多くの層を連結させて出力層を生成することでした。
彼は層が多すぎるか少なすぎるかなどのいくつかの決定を下す必要があります。彼は最終的なソリューションに到達した層を共有しています。そのため、彼はいくつかの質問といくつかの回答、または何らかの生成を含むテキストを含むデータセットを持っていました。例えば、「オリジナルのおとぎ話を生成して」というと、人工知能は「むかしむかし…」と生成し始めます。
彼は自分のラップトップでこのトレーニングを行ったと言及しています。それは非常に単純で小さく、彼は大きなリソースを持っていませんでした。彼は数時間トレーニングを行い、そのアイデアが機能するかどうかを知りたかっただけです。したがって、彼が示す結果は、そのアイデアが機能したかどうかを確認するための実験的なものであり、いつか彼がより多くのリソースを持った時に、より強力なトレーニングで最終版を作るかもしれません。
そして彼はこの方法論を使用してテストしたいくつかの例を示し始め、得られた結果を示しています。例えば、「フランスの首都は何ですか？」モデルが出力したのは「パリ」でした。閉じますか？一語だけ、正解、問題ありません。彼が「世界最大の国はどこですか？」と尋ねた別の例では、回答は「中国とロシア」でした。
実際、国の大きさについて言えば、答えはロシアであり、中国ではありません。しかし、質問に間違いがあっても、それでもコンテキスト内にとどまり、意味をなしていることに気づきます。彼はナミビアのような、まったく関係のないランダムな推測をしませんでした。
別の質問で、「サンライズステートとして知られるアメリカの州はどこですか？」と尋ねると、人工知能は「フロリダとカリフォルニア州」と答えますが、実際にはフロリダだけです。いずれにせよ、AIはあまりよく学習していませんが、関連性があり一貫性のある、コンテキスト内にある回答を提供しています。
そして彼は例えば「HTTPは何のために使われますか？」（インターネットのプロトコル）と尋ねます。そして答えは非常に奇妙でした。「htpsはhttp internet protocol」のために使われます。書かれている通りですか？意味がありませんね？しかし、どういうわけか、回答の作成は質問の作成と一致しています。
そして、このタイプの例に関連するさらに興味深いことについて話します。トークン化を行い、ニューラルネットワークを使用していて、ニューラルネットワークがあまりトレーニングされていない場合、Transformerがあまりトレーニングされていない場合、物事は正しいコンテキスト内にあるが、あまり意味をなさない、スペルミスのある単語、時には発明された単語で文を生成し始めます。
これがあなたが見ているトレーニングが不十分なネットワークです。ここで私の注目を引くのは、彼が話していることとすべて関連していますが、それが単にトレーニングが不十分なテキストではないということです。この場合、トレーニングが不十分なアイデアのように見えます。単語の断片や意味のないものを持つテキストの代わりに、トレーニングが不十分なものの大きなブロックのようなものです。
したがって、彼が生成しているものは実際にアイデアのコネクタであり、テキストジェネレータではないように見えます。彼が行っていることはテキスト生成であり、本質的に入力と出力はまだTransformerですが、彼の思考ボックスは実際にはより興味深い何かを生成する大きなブロックのように見えます。
多くのテキストを生成した質問では、例えば「マインドフルネス瞑想を説明してください」。テキスト全体を読むと、半分は意味があり、半分は意味がないように見えます。例えば、これを見てください。「ワイリーによると」、このワイリーが誰か分かりません。誰もこのワイリーという人物を知りませんが、人工知能はどこからかこの名前を見つけ、そこに投げ込みました。
さて、どう思いましたか？ワクワクしましたか？興奮しましたか？アイデアの形ではなくテキストの形で考える人工知能を作りたくなりましたか？なぜなら、これはかなり興味深いですね？例えば、「ブラジルの首都は何ですか？」と尋ねたとします。あなたは頭の中でアイデアを持ち、回答を書きます。
そして、「でもあなたの回答は5歳の子供によって書かれる必要があります」と言います。あなたは本質的に回答を変更しないことに気づきます。回答は同じままです。まるで言葉がないかのようです。しかし、変更するのはテキストの生成です。
したがって、人工知能がすでにテキストだったと考え、私たちの質問や思考の本質に対する回答が実際にはテキストの形ではなく、より抽象的な形式であると考えることは理にかなっています。したがって、この人物がもたらしたポイント、彼が提起したポイントは本質的で基本的なものです。
そして、例えばOpenAI自体のリアルタイム音声モデルでは、その特定のモデルは音声をテキストに変換しないことを思い出すことが興味深いです。そこでは音声の形で送信し、直接音声の形で応答しています。テキストへの変換という中間のステップはありません。
しかし、テキストに変換しないこのモデルでさえ、それでもアイデアからアイデアへの変換を行う中間ステップがありません。つまり、質問のアイデアが回答のアイデアを生成するという考えです。これは非常に興味深く、多くの議論を呼ぶでしょう。
この人のアイデアがいつか将来、より強力な何かに変わるかどうか見てみましょう。私はかなり気に入りました。アイデアをアイデアに変換するこの瞬間は、人工知能をより軽くする可能性があると思います。アイデアに基づいてテキストのブロックを生成することができれば、単語ごとに生成するのではなく、一度にテキスト全体を生成できるかもしれません。
そしてこれにより、人工知能ははるかに経済的になる可能性があります。考えてみてください？これについてあなたが考えていることをコメントしてください。このような動画を見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーはインテリジェントエージェントの独占動画と先行公開される動画にアクセスできます。それだけです、いいねを押してください。