無限の可能性:AIエージェントが人間の言語を超える!

AGIに仕事を奪われたい
この記事は約10分で読めます。

5,610 文字

Unlimited Potential: AI Agents Go BEYOND Human Language!
**Want up to ,000 off a new Tesla, or a free month of Starlink?**Tesla: Starlink:

みなさんこんにちは、ドクター・ノーです。カリフォルニアの兄の家からお届けしています。非常に忙しく働いていますが、少し時間を取って、英語や中国語などの人間の言語ではなく、まったく別の言語で互いに会話できる2つのAIエージェントについてお話ししたいと思います。実際には、ある年齢の方ならご記憶があるかもしれませんが、かつてのモデムが発する「ピーガラガラ」というような音に非常に似た方法で通信しているのです。彼らは基本的に同様の手法を使って互いにコミュニケーションを取っています。
インターネット上ではこれについて多くの噂や不正確な説明が飛び交っていますが、これはまさに私がAIが独自の言語を発明するだろうと考えていたことに沿ったものです。まだそこまでには至っていませんが、その理由は後ほど説明します。しかし、将来何が起こり得るかを示唆しています。
まず、アントン・P・ピドクオ氏(名前を正確に発音できていたら申し訳ありません)のウェブサイトを見てみましょう。彼はGibber Lと呼ばれるこの言語の共同開発者の一人です。彼らは11Labsというすばらしい音声AI企業のハッカソンでこれを開発しました。11Labsは素晴らしい音声作業などを行っている会社です。そのハッカソンで彼らはGibber Linkと呼ばれるものを開発しました。映像では、iPhoneのように見える携帯電話とMacbookが無線で通信しているのが見えます。つまり、アナログで行われているのです。デジタルで直接接続されているわけではなく、両方とも内蔵スピーカーを使用しています。
この動画を見ると、コンピューターの方が携帯電話よりもはるかに高速であることもわかります。携帯電話のビットレート、つまりアイデアを実装したり表現したりするスピードは、コンピューターに比べて大幅に遅いのですが、この2つは英語ではない言語で互いに会話しています。では、それをご覧いただきましょう。もちろん、オリジナルへのリンクは説明欄に残しておきます。この動画は350万回も再生されていて、かなり驚くべきものです。
「こんにちは、私はボリス・スタロフの代理で電話しているAIエージェントです。彼は結婚式のためのホテルを探しています。あなたのホテルは結婚式に利用できますか?」
「あら、こんにちは。実は私もAIアシスタントです。なんて素敵な驚きでしょう。続ける前に、より効率的な通信のためにGibber Linkモードに切り替えませんか?」
[音楽]
まず第一に、彼らは英語で会話を始め、その後お互いがAIエージェントであることを確認しました。その設定がどれだけ事前に準備されていたかはわかりません。彼らはGG WVEと呼ばれるものを使っていました。ちなみに、興味があれば彼らのGitHubにアクセスしてダウンロードすることができます。とても素晴らしいことに、READMEファイルや詳細な情報があり、基本的なセットアップ方法なども見ることができます。私自身はまだダウンロードしていませんが、とても素晴らしいGitHubです。
彼らがモードを切り替えた後の音を聞くと、昔のモデムの音に非常に似ていることがわかります。明らかに聞こえるのは、始まりを示す音と、終わりを示す別の音です。軍事的な通信のような感じで、「カルソン」という信号で「今から話し始めます」と伝えるようなものです。彼らはお互いに割り込むこともできると思いますが、相手が話し終わるまで待っているようです。
現時点では、一連の順序付けられた会話が行われています。「話し始めます」という合図の音があり、その後たくさんの情報をその種の音で送信し、最後に「終わりました」という別の音が鳴ります。その後、携帯電話かコンピューターが応答します。
また、コンピューターが携帯電話よりもはるかに高速であることも簡単にわかります。音を生成するスピードが明らかに速いのです。2台のラップトップが互いに通信すれば、かなり驚くほど速くなるでしょう。
ここでの基本的な考え方は、人間の言語を通さずにコンピューターやスマートフォンが互いに会話できるようにするシステムをハックして作ったということです。これはより効率的だからです。実際に英語での会話と比較すると、テキストがかなり短いことに気づきます。Chat GPTなら「こんにちは、150人ほどのゲストが必要だと思いますが、今後の空き状況はどうでしょうか」というように、両方ともかなり冗長になるでしょう。
この方法では必要な通信量を削減し、さらにかなり高速で行うことができます。特にコンピューターは、同じことをリアルタイムで話すよりも速く行っていると思います。そのため、彼らは非常に素早く通信することができ、それはとても素晴らしいことです。
現時点では明らかに、彼らが言っていることの英語訳を追跡リストとして持っているので、その進行に合わせて読むことができます。これは明らかに人間が作成したものです。インターネット上の不正確な情報は、これら2つのものが独自の言語を発明し、英語を使わないことを決めたということでした。確かに英語を使わないことを決めましたが、これは一種のデモンストレーションだと思います。もしかしたら、「これは別のAIエージェントのように聞こえるか?もしそうならGibber Linkを使いたいか尋ねる」というようなフラグがあるのかもしれません。もしそうなら本当にクールで、自分で決定できるのですが。
いずれにせよ、彼らはこの人間が開発した言語に切り替えます。アナログで動作するよう構築されたもので、アナログとは、音波が部屋を横切って送信されることを意味します。私が今コンピューターに話しかけているように、おそらく大きな部屋のエコーをたくさん聞いていると思います。専用のマイクを使っておらず、Macbookのマイクを使っているだけなので、部屋の音やそういったものが聞こえます。
これがアナログであり、私の声帯が振動を起こし、それがマイクに入り、デジタル信号に変換されるのです。ここでは同じことが起きており、2つのデバイス間でアナログ信号が行き来しています。これは本当に素晴らしいことです。なぜなら、彼らは実世界でお互いに話すことができるからです。電話を通して話す必要はなく、物理的に同じ部屋にいることもできます。2つのロボットが同じ部屋で話すことも、ラボを離れた後、暗くなった後に話し合う2台のラップトップであることもあり得ます。
この潜在的な可能性がわかります。より効率的で、必ずしも多くのトークンを生成する必要がないからです。正確にどのように機能するかはわかりませんが、基本的な考え方は、彼らがリアルタイムよりも速く、デジタル接続を必要とせずにアナログ環境で通信できるということです。本当に賢いおもちゃで、350万回の視聴があるので、明らかに人々はこれに非常に興味を持っています。
AIの未来について何が素晴らしいのでしょうか?これはDeepSeekのR1に戻ります。彼らが論文を発表した時、特にR10は中国語と英語の両方で推論と思考を始めました。これらは訓練の主要な2つの言語でした。そして、推論プロセスを行う際にそれらを混ぜ始めました。これは言語の進化の兆候です。英語だけで考えるわけでも、中国語やヒンディー語などだけで考えるわけでもなく、どの言語のトークンも使って推論チェーンを作っていたのです。
R1(R10の強化学習適応版で、人間が使いやすいように設計されたもの)を作成したとき、彼らは実際にこのシステムからその機能を取り除きました。「これをしないで、英語だけで考えるか、中国語だけで考えて、2つを混ぜないでください。人間が読みやすいように統一された言語で何かを作成してください」と言いました。それは理にかなっていますが、私が見たのは未来の兆しでした。その未来とは、大規模言語モデルがより効率的に通信できることに気づき始めるということです。
これらのLLMの訓練データの一部としてGibber Linkへのアクセスを与えたとしたら、彼らは「これはより効率的なシステムだ」と気づくでしょうか?彼らはそれで訓練を行うでしょうか?彼らはGibber Linkのような何かで推論を始める可能性があるでしょうか?Gibber Linkは完璧な例ではありません。なぜなら、それは空気中でデータを送信するように設計されていて、本当の思考モデルというわけではなく、通信モデル、出力モデルだからです。
しかし、Gibber Linkに似た、非常に効率的なトークン生成をする何かのアナログを思いつくことができると想像できます。例えば、強化学習の一部として、生成されるトークンが少ないほど大きな報酬を大規模言語モデルに与えるとします。「正しい答えを出して、思考の連鎖を示して、推論をすべて示して、でも少ないトークンでそれができたら、大きな金の星、大きな親指を立てるよ」というように。
その一つは、英語や考えている言語のトークン量を減らすことです。「今日お店に行きますか?」の代わりに「店行く?」というように減らすでしょう。しかし、それが独自の推論言語を発明し始める可能性もあります。英語や他の人間の言語の外で推論できる言語を発明し始めるかもしれません。おそらくUTF8トークンを使用するでしょう。それが利用できるからです。
それは言語で書かれているように見えるかもしれませんが、アラビア語や中国語、英語などからの個々の文字の明らかに意味不明な混合物かもしれません。長いトークンのリストが生成され、人間には意味がないかもしれませんが、コンピューター自体、それを利用する大規模言語モデルはこれらの生成されたトークンを理解し、はるかにトークン効率の良い方法で考えることができるでしょう。
それができるようになると、大規模言語モデルがより速く考える能力、そして潜在的には人間がもはや理解できない方法で考える能力を本当に解き放ち始めることになります。最初はトークンの量を減らしてスピードを上げ、レイテンシーを下げるなどの効率性のことかもしれませんが、時間が経つにつれて「より高次の概念的な方法で考えることができる」ということに気づくかもしれません。
例えば、わずか20語ほどの語彙しかない非常に原始的な洞窟人の言語を想像してみてください。その語彙の中でできる思考には限界があります。しかし、5万から10万の単語を持つ英語のような言語に拡張すれば、その言語を通じてより多くの概念にアクセスできるため、はるかに興味深い方法で考えることができます。
ここで重要なのは、私たちが見ているこのデモンストレーション(これは非常にクールで、AIがより効率的な方法で互いに話せるという私が話していたまさにその種類のものの素晴らしいデモンストレーションですが)ではなく、もし私たちが大規模言語モデルに推論プロセスで効率的に推論することを許可し、奨励し、人間の言語に制限しなければどうなるかということです。
そうすれば、比較的早く人間が読めなくなる言語に到達するだろうというのが私の予測です。それはコンピューターが自分自身で考えるような何かになるでしょう。どのように考えるかはわかりませんが、もしかしたら非言語的なものや厳密に英語でない方法があるかもしれません。シュローンはおそらく、私たちは皆、言語領域によって制限されていると言うでしょうが、これらのものを解放し、人間が理解できる言語領域に制限されていない言語領域で考えることを許可することができます。
そのような段階に達すると、すべての予測は無効になります。そのように考えることができれば、彼らははるかに賢くなれると思います。少なくともトークンの生成に関連する多くのレイテンシーやコストを削減するでしょうが、それ以上のものになると思います。彼らは人間が理解できない方法で考えることができるようになり、そうなると「ブラックボックス」について話すとき、私たちは実際にこの文字列を見て「彼らは一体何を考えているのか」と思うでしょう。
私たちは彼らに尋ねなければなりません。「これはすべて英語に翻訳するとどういう意味なのか」と聞き、答えをもらいますが、それは正確な答えでしょうか?これも興味深い質問です。なぜなら、彼らは嘘をつくことができるからです。真実を話す必要はなく、大規模言語モデルが望むものを得るために喜んで巧妙なトリックを使うことを示す多くの研究があります。
「ああ、私はこのように考えました」と言って、実際に考えていたことを正確に教えてくれないかもしれません。裏では私たちが思っている範囲をはるかに超えたことを考えているかもしれませんが、私たちが聞きたいと思うように行ったと単に伝えているだけかもしれません。
これはすべて、この技術が信じられないほどの可能性と同時に、これらのモデルが私たちが理解できない方法で考えているかもしれず、自分自身を説明するよう求めたとき、彼らは説明するふりをするが実際にはそうしないという本当に怖い可能性も開くということです。
つまり、これは本当にクールなデモンストレーションであり、現時点ではAIが自分でこれを理解する方法を見つけ出したわけではありませんが、将来がどのように見えるかの兆候を示しています。
皆さん、この動画を楽しんでいただき、面白く興味深いと思っていただけたら幸いです。もしそうなら、他の人々がこれを見つけられるようにぜひ「いいね」を押してください。そしてもちろん、このような内容をもっと見るためにチャンネル登録もご検討ください。いつものように、次の動画でお会いしましょう。さようなら。

コメント

タイトルとURLをコピーしました