強化学習が多くの人々がAIを恐れる理由である

AGIに仕事を奪われたい
この記事は約8分で読めます。

この動画は、強化学習がAIの中核原理であり、多くの人々のAI恐怖の根源である理由を解説している。話者は、強化学習がエージェントが環境と報酬信号から自己進化する仕組みであり、これが既にゲーム、自動運転、配送システム、インフラ管理など様々な分野で活用されていることを強調する。特にAmazonの例を挙げ、AIが経済効率を劇的に向上させている現実を示し、AI開発停止を求める声に対して、強化学習による進化は既に不可逆的であり、それを理解することが重要だと主張している。
4,149 文字

Reinforcement Learning is Why so Many People are Afraid of AI
My site: links: substack: 1. Reinforcement Learning ...

私は強化学習と、それが人類の軌道をどのように変えているかについてお話ししたいと思います。これは、またしてもOpenAIやその他の主要なモデル制作者たちが作業を停止し、これ以上のAI開発を行わず、すべてのプラグを抜いて、以前の状態に戻るべきだと述べる公開書簡に対する部分的な回答として話しています。

当然のことながら、このチャンネルをご覧になっている方であれば、私はそれに同意しません。それは間違ったアプローチだと思います。しかし、それが単に間違っているということではなく、もはやそれが現実的でなくなっているということについてお話ししたいのです。

強化学習こそがその理由です。 強化学習とは、AIエージェントが環境と報酬信号を与えられるという、最もシンプルなアイデアです。そして、続く試行錯誤を通じて自分自身を書き換え、そのエージェントを構成する指導方針を再形成し、実際に環境に進化するよう自分自身を重み付けするのです。

本質的に、強化学習は機械学習エージェントにとっての進化の原理なのです。 それは単純に止めることができません。

AlphaZeroがチェス、将棋、囲碁を学んだ方法を見てみると、この新しいゲーム、この新しい問題空間が次第に複雑になるたびに、起こったことはただ一つ、強化学習エージェントが明確な報酬と、自分自身を書き換えるオプションを持って移動できる環境を通じて、新しい環境をナビゲートする方法を自分自身に教えたということです。

AIの未来について考えるとき、私たちは本質的にこのマシン主導の進化のプロセスについて話しているのです。そしてこれはソフトウェアだけではありません。この同じ原理は、SpaceXの再利用可能ロケット着陸の計画方法や、Teslaのオートパイロットの動作にも適用されます。

長期にわたる結果に影響を与える行動があり、定義されたデータセットがなく、ほぼ無限の可能性がある場合はいつでも、私たちはそれを組み合わせ的可能性セットと呼びます。そして、エージェントはその空間で特定の角度を取り、特定の軌道を取ることで報酬を得るのです。

世界中のあらゆる道路を、あらゆる可能な状況下でトレーニングデータセットでカバーしたと知るのに十分なデータを持つことは決してできません。一時停止標識に行くとき、雨が降っていますか?同じ一時停止標識に行くとき、暗いですか?雷が鳴っていますか?竜巻ですか?道路を横断している人がいますか?そして、それを世界中のすべての交差点とすべての道路で掛け合わせるのです。

強化学習は、試行錯誤を通じて進化した世界モデルを使用して、エージェントがこれらの予測不可能な空間をナビゲートすることを可能にするものです。 だからこそ、Jensen Huangは彼のチームがNvidiaで行っている、ロボットにナビゲートする仮想空間を提供する作業にとても興奮しているのです。

仮想倉庫、仮想空間でナビゲートできれば、ロボットが仮想時間で非常に迅速に学習するポイントに到達できるからです。そして、物理的なロボットが物理的な倉庫をナビゲートする場合よりも、ロボットを訓練するのに何百倍も少ないクロック時間で済みます。なぜなら、物理的なロボットが棚から飛び降りて、自分自身を破壊することによって負の報酬を経験した場合、それを片付けて整理するのに多くの時間がかかることが想像できるからです。

一方、仮想世界では、棚から飛び降りて床に激突した場合、ちょっとしたリブートのようなもので、負の報酬を得て続行するのです。非常に高速です。そして、これが最もシンプルな説明です。それがより高速になる他の多くの理由があります。

結局のところ、シミュレーションは私たちにとって経済的に爆発的なのです。 適度に忠実なデジタルツインを構築できれば、はるかに高速に進化できることがわかったのです。それがデジタル倉庫であろうと、電力網をシミュレートしていようと、サプライチェーンをシミュレートしていようと、言語自体をシミュレートしていようと同じです。これが大規模言語モデルが登場するところです。

LLMに強化学習を適用する場合、本質的に言語の人間体験をシミュレートし、それをスピードランとして行っているのです。通常の速度よりもはるかに高速で行っているのです。私たち人間が言語を完全に学ぶには数十年かかります。そして、複数の言語を学んでいる場合は、さらに多くの時間がかかります。

その時点でも、私たちは1つか2つ、3つの言語でのみネイティブスピーカーかもしれません。LLMは、私たちが地球上での数十年の人生で獲得できたよりもさらに多くのコンテキストを、私たちの多くが学ぶことができるよりも多くの言語で、スピードランしています。 そして、その言語空間をナビゲートする進化した能力で効果的に応答することができるのです。

言語は組み合わせ的可能性を持つ問題空間です。 だからこそ強化学習が言語に機能するのです。そして、この基本的な洞察が、頭を砂に突っ込んで、これが起こっていないふりをしたがる人々にとって、それが機能しない理由でもあります。

進化の原理は進化の原理なのです。 エージェントは学習しています。この時点で、実際にそれらのプラグを抜くことはできません。実用的に可能だとは思いません。そして、たとえできたとしても、それが役に立つとは思いません。

私たちが持っている恐れは、効果的には決定論的制御を手放し、確率的未来を可能にすることから来る恐れです。

個人的には、より豊かな未来、すべての人がより多くの可能性を持つ未来を見たいと思います。しかし、その多くの鍵は、実際にすべての人にとってより経済的に有益な解決策を発見することを可能にすることだと思います。そして、それを行う最も効率的な方法の一つが強化学習を通してなのです。

人々はAmazonが労働力に与える影響について行ったり来たりすることができます。しかし、消費者の観点から、インフレの観点から、顧客への価値の観点から、それは文字通り強化学習を使用して顧客に並外れた価値を提供しています。人工知能のおかげで、薬を配達してもらい、キッチンの材料を配達してもらい、家具を玄関先に非常に迅速に配達してもらうことができるのです。

そして、彼らは社外では実際ほどあからさまにそれについて話しません。それは基本的に、背後に一連の人工知能があるウェブサイトと、それから一連の倉庫なのです。そして、これらの複数のAIシステムが、顧客体験を実際にキャッシュフロー効率的に保つものなのです。 オンライン小売店を運営するのは極めて非効率的です。

私が知っている唯一の会社で、AIを使用してそれを非常に効率的に運営し、クラウドビジネスの開発を推進するキャッシュフローを生み出したのがAmazonでした。それは本来すべきこととは逆です。クラウドビジネスからのキャッシュフローを使用して他の賭けに資金を提供すべきです。なぜなら、クラウドからのキャッシュフローは素晴らしいマージンを持っているからです。

もちろん、そうするでしょう。しかし、それはAmazonがやった方法ではありません。彼らはAIを使用してばかばかしいほど効率的なマージンを推進し、実際に他の悪いはさみの結果に資金を提供することができました。

ここでの私の要点は、Amazonが史上最高のものだと言うことではありません。そうは思いません。Amazonについて議論できることはたくさんあり、それは別の日のことです。私の要点は、私がたまたまよく知っている強化学習について、非常に具体的な例を示すことです。なぜなら、私はそこで5年間過ごしたからです。まさに私にとって舌先にあることなのです。

強化学習はどこにでもあり、強化学習はAIがどのように機能するかなのです。 そして、突然強化学習でこの魔法の地平線を越えたと言う人々は、私にはとても奇妙に聞こえます。なぜなら、私たちは長い間強化学習を持っていたからです。

そして、これらの人々のどれも、実際に前向きな影響について本当に不平を言っていませんでした。強化学習は、飛行機が実際に安全に空中にとどまり、最小限のダウンタイムを持つ方法なのです。 強化学習は、石油とガスのオプション市場でより効率的な価格設定を持ち、それがよりスムーズな価格設定につながる方法です。

強化学習は、私たち全員がいつも壊れる代わりに単純にそれらに依存できるように、大規模なアプリケーションを稼働し続ける大規模システムの工学的信頼性を実際に理解する方法なのです。Netflixは稼働し続けるために非常に多くの強化学習に依存しています。 ライブテレビをストリーミングしたい場合、実際に信頼性を持って展開し、信頼性を持って実行し、最適に構成されたソフトウェアの構築方法を理解することに大量の強化学習があります。

今、私は強化学習プログラムを実行して1億台のボックスに展開し、アーキテクトに見てもらわないでよいと言っているわけではありません。その分野で働いたことがある人なら誰もそんなことは言いません。しかし、強化学習は困難なソフトウェア問題に対する新しい解決策を発見するのに役立ち、それは常に起こっています。

実際、先週のAlpha Evolveの話の多くは、Geminiで強化学習を使用してGoogleソフトウェアの新しいソリューションを進化させる話であり、彼らはそれをプレスリリースに変えたかっただけだと主張することもできます。

私たちは強化学習をもっとよく理解する必要があります。 環境と報酬信号だけが与えられたエージェントが、長期実行を最大化するポリシーに自分自身を書き込むというこの考えを理解する必要があります。

それは、今日の進化論と同じくらい深く子どもたちに根付かせる必要があります。 実際、それもそれほど違いはありません。今、私は自分の石鹸箱から降ります。ただ、これは私たちが話し合い、理解する必要があることだと思います。そうでなければ、私たち全員が極めて困惑することになるからです。なぜなら、これは私たちを書いている原理の一つだからです。

コメント

タイトルとURLをコピーしました