新しいAIがあなたの脳を読み取る(ある意味で)- 手術なし!

AGIに仕事を奪われたい
この記事は約6分で読めます。

3,451 文字

Meta's AI Reads Your Brain, kind of - w/o surgery!
Abstract of the paper:Modern neuroprostheses can now restore communication in patients who have lost the ability to spea...

脳を読み取る新しいディープラーニングアーキテクチャーが、タイピング中にあなたの考えを68%の文字誤り率で読み取ることができます。これはFacebookがリリースした新しいディープラーニングモデルで、Brain to QUITYと呼ばれています。QUITYという名前が付いている理由は、このモデルがタイピング中の脳波を理解することであなたが考えていることを解読できるからです。この論文について議論し、なぜこれがBCI(脳コンピュータインターフェース)において重要な飛躍なのかを理解していきましょう。
この論文は「Brain to Text: タイピングによる非侵襲的アプローチによる解読」と呼ばれています。これがこの論文全体の最も重要な側面だと思います。これはイーロン・マスクがNeuralink(ニューラリンク)で試みているような、頭蓋骨に穴を開けて何かを挿入するようなものではありません。これは非侵襲的な技術で、あなたがタイピングしていることや考えていることを理解しようとするものです。彼らがここで使用している方法はディープラーニングモデル、この場合はBrain to QUITYを使用しています。
評価方法としては、35人の健康なボランティアを対象に実施しています。脳信号を測定する方法は2つあり、1つはEEG(脳波計)、もう1つはMEG(脳磁図)です。ご覧のように、同じモデルでもMEGの精度はEEGを大幅に上回っています。これは、異なる信号を記録することが、モデリング自体は同じでも最終的な精度に異なる影響を与える可能性があることを示しています。
モデルの精度に関して言えば、Brain to QUITYは平均して32%の文字誤り率に達しており、EEGの67%の誤り率と比較して大幅に優れています。誤り率が低いほど良いということで、最も成績の良い参加者(これは平均ですが最良の参加者がいます)の場合、モデルは19%の文字誤り率を達成しています。つまり、ほぼ81%の精度です。また、学習セット外の様々な文章も完璧に解読することができます。
ここで理解しなければならないことの一つは、誤り分析では解読はモーター処理に依存していることを示唆していますが、誤字分析では高次の認知的要因も関与していることを示唆しています。人々が単にタイピングしているだけと言えるかもしれませんが、彼らの分析によれば、これは高次の認知的要因も測定している可能性があるということです。
どのように機能するかというと、参加者はスクリーンに表示されるものを読み、それを記憶するように求められます。記憶した後、タイピングするよう求められます。タイピングしている間、MEG(脳磁図)とEEG(脳波計)を使用して脳信号が同時に測定されます。QWERTY(クワーティ)キーボードを使用してタイピングすることになっています。例えば、「consume」を見て、「consum」を心に留めてからタイピングし、それを行った後、脳信号がMEGとEEGの両方で記録されます。
ここでBrain to QUITYが登場します。Brain to QUITYは3つのモジュールを持つディープラーニングアーキテクチャです。最初のモジュールは脳信号を理解するためのもので、最後のモジュールはスペルミスを修正するための言語モジュールです。中間のモジュールは文レベルで学習されるところで、MEGとEEG信号の500ミリ秒のウィンドウを取る畳み込みモジュールがあります。中間にはTransformerモジュールがあり、最後にはChatGPTのような事前学習済み言語モデル(ただしはるかに小さいバージョン)があり、出力のスペルミスを修正します。例えば、「l motar」と表示された場合、それを「l motor」に修正したり、「eneria」を「energia」に修正したりします。これらの異なるモジュールが最終的に正しい出力を得るうえでどのような役割を果たすのかも見ていきます。
実際にどのように行ったのかを具体的な数字で見てみましょう。35人の参加者に、記憶したことをコンピュータのキーボードで簡単にタイプするよう依頼し、その間の脳活動をEEGまたはMEGで記録しました。文字はタイピングでは測定されず、彼らの脳信号が測定されます。これは非常に重要な側面です。この論文のある時点では、参加者がタイピング中にミスをしていたことも言及されています。それも考慮しなければなりませんが、今はそのままで見ると、Brain to QUITYという3段階のディープニューラルネットワークを全参加者に使用し、20人の参加者、146,000文字、23,000語、4,000文に適用して、最終的なタイピング結果がどうなるかを調べました。
理解すべきもう一つの重要な側面は、Brain to QUITYの3つの異なるモジュールが、最終的に良い出力を得るためにどのように役立つかです。例えば、誰かが「LA theas redu」や「L numerous」などを読んだ場合(これがスペイン語圏の人口を対象にしたものだったかどうかはわかりません)、ここに示されている文章に対して、これが読まれたもの、これがタイプされたものです。ここでタイピング中にも間違いをしていることがわかります。Gの代わりにFをタイプしたり、Nの代わりにMをタイプしたりしています。
タイピング中にミスが起きていましたが、読んだものとタイプしたものを見ると、他の2つのモジュール(TransformerとLanguageモジュール)なしで、畳み込みニューラルネットワークだけでこれだけ正確に認識できました。Transformerモジュールを追加すると、ほぼ完璧になり、最後に言語モジュール(自動修正のようなもの)ですべてのスペルミスを修正し、タイプしたものを正確に取得することができました。もう一つの例でも同様で、読んだもの、タイプしたもの、畳み込みモジュールで得られたもの、Transformerを追加して得られたもの、そして最後に言語モジュールを加えることで、辞書にある実際の単語に修正してタイプしたものを修正することさえできました。これは、このモデルがこの特定のタスクにいかに優れているかを示しています。
彼らが使用しているエラーの種類を理解するために、評価に使用している2種類のエラーがあります。HER(Hand Error Rate、手の誤り率)と呼ばれるものがあります。キーボードには左手と右手の2つの手があり、最初のメトリックは、ターゲットと予測された文字が同じ左手または右手に対応するかどうかを推定します。例えば、キーボードでSの代わりにDをタイプしたとすると、これは両方とも左手の文字なので、エラーとしては識別されません。同様に右手の分割もあり、左右が変わるとHand Error Rateとなります。
2つ目はCER(Character Error Rate、文字誤り率)で、ラットレベルでLevenshein(レーベンシュタイン)距離と呼ばれるものを計算します。これは、自動修正が次に最も近い文字をLevenshein距離に基づいて見つけようとする方法です。これらの2つの誤り率(HERとCER)を使用して、モデルがどれだけ優れているかを評価しています。
最終的に、畳み込み、Transformer、言語モジュールという3つのモジュールで、実際に非常に優れた非侵襲的脳解読技術を構築しました。これは現在タイピングでのみ機能しますが、タイプしなくても、記憶してから暗唱するだけでこのようなことができるかどうか見るのは非常に興味深いでしょう。ここで言及されているように、何らかの運動活動が起きており、受信している信号の一部は指がどこに行ってタイプしているかなどの運動活動によるものかもしれません。そのノイズを完全に排除できるかもしれませんが、健全な結果を得ることはできないと思います。
いずれにせよ、ニューラルネットワークとAIが、私たちが毎日目にしているものではない分野でどのような影響を与える可能性があるのかを見るのは非常に興味深いことでした。これにより、侵襲的な手術を必要としないNeuralink型のBCIにもつながる可能性があります。あなたはどう思いますか?また別の動画でお会いしましょう。ハッピープロンプティング!

コメント

タイトルとURLをコピーしました