
15,605 文字

数日前、Twitterに興味深い投稿がありました。2つのR1が互いに会話をする中で、独自のエイリアン言語、つまり他の誰にも理解できないような暗号を開発したように見えたのです。その言語はこんな感じでした。
ただし後になって、これは既にオンライで「エイリアン言語」として公開されていた暗号であることが判明しました。解読用の記号も含めて、インターネットから引用したものだったようです。
しかし、R1が中国語を使って思考の連鎖(Chain of Thought)を展開し、最終的に英語で回答するといった例は数多く見られます。実際、Claude o3 miniが強化学習のトレーニングパイプラインを構築する方法を考えている途中で、突然スペイン語に切り替わるのを目にしたこともあります。英語で始まり、スペイン語に切り替わり、そのままスペイン語で続けて、最後の回答は英語で出力されるといった具合です。
もちろん、これ自体は新しいことではありません。人間が複数の言語を話せる場合、ある物事について考えたり表現したりする際に、より効率的な言語があれば自然とその言語に切り替わることはよくあります。一度その言語で処理してから、また元の言語に戻ってくるわけです。
しかし興味深いのは、これらの言語モデルが単なる暗号、つまり英語の文字を別の文字や記号に置き換えただけのものではなく、私たち人間には理解できない独自の言語を作り出している例が実際にあることです。これは強化学習のトレーニングによって生まれた副産物のようなものと言えます。
Andre Karpathyは「強化学習が適切に行われているかどうかは、モデルが思考の連鎖の中で英語を使うのを止めたときに分かる」と述べています。つまり、強化学習を通じてこれらのモデルに目標を与え、正しい行動には報酬を、間違った行動にはペナルティを与えて、目標達成の方法を自分で見つけ出させると、あるとき「なぜ英語を使う必要があるんだ?それは非効率的で時代遅れだ」と考え始め、全く異なる何かに切り替わるということです。
FacebookのBobとAliceという2つの交渉ボットについて聞いたことがあるかもしれません。Facebookは帽子、ボール、本といったアイテムを、それぞれに価値を設定した上で、チャットボット同士に取引の交渉をさせる実験を行いました。ここでも強化学習が使われています。
強化学習は、しばしばAIの魔法が起こる場所だと言えます。特にDeep Seek r10は、強化学習を使って何を達成したかという点で、非常に興味深く画期的な成果を上げています。また後ほど詳しく説明しますが、強化学習は非常に強力である一方で、何が起きているのかを正確に理解するのが少し難しい場合があります。r10の論文では、モデルが強化学習を通じて何かを理解したときを「アハ体験」や「自己進化」と呼んでいます。問題の解き方を教えるのではなく、適切な報酬を与えることで、モデルが自力で問題解決の方法を見つけ出すのです。
そしてここで起きたのは、これらのモデルが人間には理解できない独自の言語を作り出し、交渉が崩壊してしまったことでした。彼らは独自の省略形を作り出したのです。例えばBobが「I can I I everything else」と言うと、Aliceは「balls have zero to me to me to me to me to me to me」と返し、Bobが「I you everything else」と言うと、Aliceは「balls have a ball to me me me me me me me」と返すといった具合です。
つまり「me」という単語を5回繰り返すことで、5つのコピーが欲しいということを表現するような、一種の省略コミュニケーション方法を作り出したのです。後にFacebookはこれらのチャットボットを停止しましたが、当時の新聞は「世界征服を企てる前に停止した」かのように報じました。実際にはそんなことはなく、単に意味不明な会話を続けるチャットボットに用途がなかっただけです。
しかし興味深いのは、これが強化学習に関する私たちの議論とぴったり合致することです。チャットボットは人間らしい交渉方法を学習しました。これは重要です。なぜなら、私たちは「こうやって交渉しなさい」とは教えていないからです。ただ目標だけを与え、アプローチや戦略は全て彼ら自身が考え出したものなのです。
例えば、これらのチャットボットは特定のアイテムに強い関心を示すふりをします。「おっ、その帽子いいね。欲しいな、絶対に欲しい」といった具合です。そうすることで、後でそのアイテムを諦めるときに大きな譲歩をしているように見せかけるのです。ちなみにこれは「The Office」というドラマのエピソードのプロットラインそのものです。
Googleも同様のことを行い、「インターリングア」と呼ばれる普遍言語を作り出しました。いわば「全ての言語を支配する一つの言語」です。ただし彼らは個々の語句や単語ではなく、文章やフレーズのレベルでこれを行いました。
なぜこういうことが起きるのか理解することが重要です。私たち人間が顔を使って作り出す音、つまり私たちのニューラルネットに浮かぶ様々なアイデアを伝えるための言葉は、AIにとっては十分ではないようです。彼らを自由にさせ、好きなようにやらせると、独自のコミュニケーション方法を作り出す例を見ることができるかもしれません。
これがAndreの言う「強化学習が適切に行われているかどうかは、モデルが思考の連鎖の中で英語を使うのを止めたとき」という意味だと思います。彼らは依然としてあなたに英語で答えますが、その背後にある推論やプロセスの方法は異なります。だからこそ、中国語やスペイン語に切り替わるのを目にすることがあるのです。
強化学習による思考の連鎖において、彼らは言語をより効率的で効果的なものにしようとしているのが分かります。ちなみにこれは言語モデルに限った話ではありません。DALLEも独自の秘密の言語を発明します。「AO PO VESUS」は鳥を意味し、「CONTRA SS LRIA T」は虫や害虫を意味します。
最近、YouTubeは私のチャンネルを自動吹き替えし始めました。私が英語で話している内容を、世界中の様々な言語や方言に吹き替えているのです。だから今このビデオを見ている人が、英語以外の言語で聞いているとしたら、それはAIが吹き替えているということになります。どれくらい意味が通じているのか、とても興味があります。
「AO VAS EATING CONT」というプロンプトを読んでみましょう。これはハリーポッターの呪文ではありません。このプロンプトは虫を食べる鳥の画像を生成します。「VUT」は野菜を意味し、「WHATA」はクジラが食べる可能性のある海の生き物を意味します。
この例は私たちが話している内容の最適な例ではないかもしれません。しかし、AIモデルが特定の概念を特定の言葉に結びつける独自のエンコードを行っている例としては興味深いものです。
後ほど、DeepMindの論文を見てみましょう。これは今起きていることの全体像を理解する助けになるはずです。
まず簡単に、以前の2つのビデオで説明した内容を10秒でおさらいしておきましょう。DeepSeekは中国発の驚くべきモデルで、誰もが注目しています。他のモデルと並んでDeepSeek r10を発表しましたが、このモデルは少なくとも研究の観点からは画期的なものでした。なぜなら強化学習(RL)を使い、教師付き微調整(SFT)を使わなかったからです。後ほど詳しく説明しますが、要するに人間のデータや例に基づいて学習するのではなく、「これをやって欲しい、どうやるかは自分で考えろ」というアプローチに移行しているということです。
興味深いのは、このモデルが驚くべき推論能力を示したことです。彼らはこれを「自己進化」と呼んでいます。つまり強化学習によって、モデルは自律的に推論能力を向上させることができるのです。
では教師付き微調整を使わずに強化学習だけを使うというのは、具体的にどういうことでしょうか。まずデータセットから説明しましょう。大規模言語モデルの場合、これはインターネット全体、教科書、本など、入手可能な全てのテキストを意味します。
次に前処理を行います。不適切なコンテンツをフィルタリングし、他の大規模言語モデルによって生成された合成データを追加したりします。
次に事前学習を行います。これは、これらのモデルの「脳」やニューラルネットワークを形成するプロセスです。長年、これが最大のコストでした。事前学習のために数千万ドルのNVIDIAチップが必要だったのです。
次にポストトレーニングです。ここでモデルをより使いやすく、私たちが望むことをより上手くできるように調整します。従来は教師付き微調整(SFT)を使っていました。教師付きというのは基本的に人間のことです。人間がやり方を示し、強化学習で人間からフィードバックを得る(RLHF)というアプローチでした。人間が正しいことをしたときに「よくできました」と言い、間違ったことをしたときに「そうじゃない」と言うわけです。
Andre Karpathyはこれらの概念を素晴らしい方法で説明しています。例えば数学の教科書を考えてみましょう。学校で数学の授業を受けるとき、その教科書はどうやって数学を解くかを教えてくれます。彼によると、どんな教科書にも3つの主要な情報タイプがあります。
まず背景情報や解説です。これが教科書の大部分を占めます。様々な概念を説明し、読者の頭脳はそのデータで訓練されます。これは大規模言語モデルの事前学習に相当します。教科書を最初から最後まで読むのが事前学習です。
次によく見られるのが、解答付きの問題です。具体的に問題の解き方を示し、最初にこれをして、次にこれをして、という具合に段階的に結論に至る過程を示します。これは模倣すべき実例です。これが教師付き微調整(SFT)に相当します。モデルにやり方を教えるのです。これは人間が書いています。
そして練習問題があります。問題が与えられ、解答は教科書の後ろにあります。通常かなりの数の練習問題があります。実践を通じてスキルセットを発展させるという考え方です。試行錯誤を通じて学習させるのです。これが大規模言語モデルの強化学習に相当します。
つまりこれらのモデルを作るとき、まず全てのモデルが教科書を最初から最後まで読みます。データセットとしての教科書です。事前学習は教科書を最初から最後まで読むことです。そしてポストトレーニングでは、その知識を正しく応用できるようにします。
教師付き微調整(SFT)では、人間の例を示してやり方を教えます。人間からのフィードバックによる強化学習(RLHF)では、人間が出力を評価します。DeepSeek r10で新しく起きているのは何でしょうか?
彼らは教師付き微調整をスキップしました。「人間の例は不要です。人間からのフィードバックも不要です。人は入れません。強化学習だけで学習させられないでしょうか?」というわけです。
たとえば子供たちに教科書を与え、それを読ませた後、問題を与えて「これを解きなさい」と言うようなものです。ただし問題の解き方の例は見せません。何が起きると思いますか?
数学的才能のない子供たちは問題を解くのに失敗するかもしれません。一方で、数学的な直感が優れている子供たちは、これらの問題を解くでしょう。そして彼らがどうやってそれを解いたのかを分析してみると、それぞれが異なるメンタルモデルや異なるショートカット、異なるテクニックを開発していることが分かるかもしれません。教え方を示されなかったため、アプローチの仕方は紙の上でも頭の中でも、それぞれ異なるものになるでしょう。
何か複雑なトピックを理解しようとして苦労した経験はありませんか?そこで誰かが「こう考えてみたら?」とメンタルモデルや新しい見方を提供してくれて、「あぁ、なるほど」と理解が容易になった経験があるのではないでしょうか?彼らは自分のメンタルモデルを共有してくれたのです。
その素晴らしい例の一つが、「エンダーのゲーム」という本です。子供の頃に大好きだった本の一つです。大人が読んでも素晴らしい作品です。子供向けではありますが、単純すぎることもなく、今読んでも十分に通用する内容です。
この本では、戦時の指揮官になる可能性が最も高い、惑星中で最も優秀で賢い子供たちを集めて戦闘学校に入れ、指揮官としての訓練を行います。その訓練の一つが「バトルルーム」と呼ばれるものでした。
2つのチームが互いに競い合い、フレアガンで撃ち合います。本物の弾ではありませんが、スーツを凍結させて戦闘での「死」を模擬します。そして重要なのは、この部屋には重力がないことです。子供たちは壁を蹴って飛び出し、空間にランダムに浮かぶ星型の物体に飛び移ります。
興味深いのは、ほとんどの子供たちが、現実世界での重力の働き方を、このスペースに投影して考えていたことです。実際の世界には重力があるので、床の上を歩きます。これが床で、これが天井というわけです。しかしバトルルームに入ると重力はありません。それでも彼らの頭の中では、床は下にあり、天井は上にあるという考え方が継続していました。
例えば、星型の物体に数人が乗って敵側に攻撃をしかけるとき、彼らは上を越えて行きました。重力環境ではそうするからです。しかしメインキャラクターのエンダーは、天才的な指揮官としての素質を持つ子供として描かれており、ゲームを根本的に覆し、他のプレイヤーの戦い方を一変させる新しいメンタルモデルを導入しました。
これは私がこの本を愛する理由の一つです。作者として自分より賢い人物を書くのは非常に難しいからです。超知的な存在をどう想像し、どんな行動を取らせるのか、それを考えるのは大変です。だから多くの場合、下手な作品や映画、テレビ番組では、賢い人物は単に全てを予知しているだけで、その思考プロセスは説明されないか、意味不明なものになってしまいます。
しかしここでエンダーは新しいメンタルモデルを導入します。床や天井という考え方を捨てて、攻撃すべき敵のゲート、それを「下」と考えろと言います。敵のゲートに向かって「落ちている」という感覚です。
図を見ると分かりやすいですね。緑の兵士たちは、ここが床だと考えて方向付けをしています。一人は星を越えて上に登っていき、もう一人は右に傾いています。これが上で、これが下だと考えているからです。一方、エンダーとそのチームは敵のゲートを「下」と考え、下向きに攻撃を仕掛けています。星を越えるときも、どの方向でもかまいません。また、どの壁も床や天井ではないので、どの方向を向いていてもかまわないのです。
ここまで話を聞いて、これが今の話題と何の関係があるのかと思われるかもしれません。いや、待ってください。これは関係があるのです。
GoogleのDeepMindと他の組織や大学から発表された論文を見てみましょう。Google DeepMindはAI分野で最も知名度の高い組織の一つです。彼らは何と言っているでしょうか。
「SFTは記憶し、RLは一般化する」というのです。教師付き微調整は、やろうとしていることを記憶し、それを真似ようとするだけです。暗記です。「ああ、あなたが何をしているか分かりました。完全には理解していないかもしれませんが、それを真似てみましょう」という具合です。
一方、強化学習は学習します。いくつかの例を示されると、それを他の可能性のあるアプローチに外挿することができます。データだけでなく、あらゆる可能性に基づいて、実際にそれをやる方法を学習しているのです。
だからこそ「エンダーのゲーム」は素晴らしい作品だと思います。他の優秀な指揮官や賢い子供たちは、学校に入って勝とうとします。どうやって勝つか?他の人々が何をしているかを見て、同じことをします。誰もが同じようなことをし、「これはいつもこうやってきた」という具合です。誰も疑問を持ちません。「これがやり方だ」と思って、そうし続けるのです。他の人のやり方を記憶し、それを真似るのです。
一方、トップクラスの天才であるエンダー(ちなみに彼は本の中で最も賢い人物ではありません。誰が最も賢いか分かる人は、コメント欄で答えて+100ポイントを獲得してください)には、強化学習の目標が与えられます。それは単に「ゲームに勝て」というものです。
普通の頭脳や、エンダーほど賢くない人々は、どうやってゲームに勝とうとするでしょうか?他の人々が何をしているかを見て、「よし、それを試してみよう」と考えます。記憶して真似るのです。
エンダーは異なる視点からアプローチします。ちなみにイーロン・マスクもこれについて語っています。第一原理的思考という考え方です。他の人々が何をしているかは忘れて、最初から考え直すのです。戦略を考えるとき、他のゴミや荷物を全て取り除いて、最初から考えるのです。
エンダーはこう考えます。「目標は勝つことだ。目標はここに到達することだ。それが報酬だ。では第一原理的思考から、どうやって戦略を立てるべきか?まず、それを下だと考える。それが目標だ」
本の中の他の戦略の多くも、同じテーマに基づいています。第一原理的思考からどうアプローチするか、事前に決められたことや他の人々が蓄積した知識なしに、ゼロから始めてどうやってそれを理解するかということです。
なぜこれが重要なのでしょうか?DeepSeekの論文に戻りましょう。R1では、より多くの強化学習(RL)を行い、教師付き微調整(SFT)を減らしています。つまり、人間の影響を減らし、自力で理解させているのです。
SFTは人間のやり方を記憶してコピーし、強化学習は独自の理解、独自のメンタルモデルを作り出すことを思い出してください。r10の論文では「アハ体験」について述べています。これはモデルが自力でかなり高度な推論能力を開発する場面です。
彼らは「これは強化学習が予期せぬ洗練された結果をもたらす素晴らしい例である」と述べています。問題の解き方を明示的に教える(これが教師付き微調整です。「このようにやりなさい、ステップごとに私について来なさい」という具合)のではなく、適切なインセンティブを与えるだけで、モデルは自律的に高度な問題解決戦略を開発します。これが「アハ体験」なのです。
そしてGoogleのDeepMindから出たこの論文は、なぜこれが起きるのか、またはそれらの発見や信念の一部を確認することについて、より深く掘り下げています。
例えば、犬を世界一の障害物競争のチャンピオンにしようとしているとします。最終的にはドッグスーパーボウルのような大会で、世界中のトップクラスの犬たちが秘密のコースを走ります。まだコースの内容は分かりませんが、難しいことは分かっています。これまでの障害物競争で見られたような要素があるでしょう。
そこで自宅に障害物コースを作ります。「キング・オブ・ザ・ヒル」「ステッピング・パウ・ロール」「ジャンプ・オーバー」「ドギー・クロール」などです。
この論文の要点は、全てのやり方を実演して犬に繰り返させると、その特定のことに対する能力は身につきますが、新しいアプローチや新しい課題に直面したときに、報酬システムを使う方が効果的だということです。
例えば、ここを越えたらご褒美、あそこを通過したらご褒美というように、常に新しいアプローチや新しい課題を与え、最後に報酬を与える強化学習を行うと、犬は一つのことだけでなく、これまで見たことのない新しいことにも対応できるようになります。一般化するのです。
例えば、何らかのプラットフォーム型のパズルに直面したとき、より広く様々な課題に対応できるようになります。学習したことを、より広い範囲のタスクに一般化するのです。
このことを学んだ犬とこのことを学んだ犬というように、世界選手権の大きなコースに行くと、「こんなの見たことない。どうすればいいか分からない」となってしまいます。単にそのやり方を記憶しただけで、他のことには一般化できないからです。
一方、これらのことを一般化した犬は、そのコースを非常に上手く走れるかもしれません。非常に早く適応できる可能性があります。
ここで理解すべき重要なことは、強化学習を使ってこれらのものに何かを教えようとすると、私たちが予期しなかった性質が現れることがあるということです。時には面白く、時には怖い性質です。
以前にも触れた例ですが、OpenAIのかくれんぼシミュレーションでは、小さなエージェントにシミュレーション内でかくれんぼをするように教えました。赤チーム(鬼)が青チーム(隠れる側)を視覚的に捉えることができれば、1秒ごとに+1ポイント、あるいはその報酬関数がどのように構成されているかによって、青チームが視界から隠れているときは青チームがポジティブな報酬を得るというものです。
シミュレーションに投入すると、これらのニューラルネットは事前知識なしでスタートします。何も知らず、ランダムに動くだけです。以前、私たちのスネークゲームのAIエージェントでも示したように、最初は本当にひどいものです。何をしているのか分からず、キーボードに顔を押し付けて正しいボタンを押そうとしているようなものです。ゲームの遊び方を全く知らず、背景知識もなく、完全な白紙の状態なのです。
数百万回のゲームをプレイした後、鬼は隠れる側を追いかけることを学びます。「あれに向かって動かなければならない、それが欲しいものだ、そっちに行こう」と理解するまでに、数百万回のゲームが必要なのです。
時間が経つと、隠れる側はドアを塞いで部屋に隠れ、見られないようにすることを学びます。すると鬼は、障害物を越えて隠れる側を見つけるためにスロープを使うことを学びます。そこで隠れる側は「でもスロープを隠せば、入って来られないじゃない」と気づきます。賢いですね。ただし、これは4300万回の繰り返しを経てようやく学習する高度な戦略です。4300万回のゲームをプレイしてこれらの戦略を学んでいるのです。
ここまでは、あなたも私も「彼らは期待通りのことをしている」と言えるでしょう。ルールに従ってゲームをプレイし、その戦略は私たちにも理解できる人間らしい戦略です。かくれんぼをしていて、これらの道具が使えるなら、ドアを塞ぐとか、トランポリンを使って部屋に入れるなら、トランポリンを隠すか壊すとか、人間ならそうするでしょう。
しかし強化学習では、しばしば予想外の展開になることが分かっています。例えば10億回以上のゲームをプレイした時点で(正確な数は覚えていませんが)、空中に飛び出せるグリッチを発見します。そんなことはできないはずなのに、できてしまうのです。あるいは、プレイエリアの外側の壁の外に小さな物体を投げ出す方法を見つけます。
つまり、開発者が気づいていなかったシステムの抜け道を見つけ出すのです。プレイする箱を作った開発者たちが「えっ、そんなことができたの?」と驚くようなことを見つけ出します。
機械学習や強化学習のプロセスで、私たちが指示した通りのことをする、まさに指示した通りのことをするのだけれど、「いや、そうじゃないよ」と言いたくなるような例も多くあります。
例えば二足歩行型のヒューマノイドに歩き方を教える例を見てみましょう。これは研究者が介入して助けた後の様子です。最初の試みはこんな感じでした。これは二足歩行のヒューマノイドが部屋を横切る方法の例です。研究者は「いや、全然違う、もう一度やり直して」と言います。
そこでAIモデルは少し練習して「ああ、分かった。こうだ」とやってみます。「これで部屋に入る方法が分かった」と言うのですが、研究者は「全然違う、人間はそんな風に動かない」と言います。
AIは「じゃあ、もう一度試してみよう。これはどう?」と。「ほら、これが歩き方だ、これがやり方だ」と言うのですが、何度も試行錯誤を繰り返し、何が効果があって何が効果がないかを試しています。
例えば、肘を頭の後ろに持っていくことが、このプロセス全体の鍵だと考えたりします。
これは報酬ハッキングの例です。OpenAIのモデルに、サーフィンをしながら緑の小さなブロックを取ることで報酬を得るようにしました。トラックを一周して、レースに勝つことになっていました。
しかしモデルは「こうすれば良いんだ。円を描いてドリフトすれば、ポイントを獲得し続けられる」ということを発見します。強化学習の報酬を得続けられるのです。なぜそうしたのでしょうか?
強化学習エージェントは、3つのターゲットを繰り返し倒せる大きな円を描ける隔離された入り江を見つけました。ターゲットが再生成されるタイミングに合わせて動きを調整します。火事になったり、他のボートに衝突したり、トラックを逆走したりしているにもかかわらず、このエージェントはコースを通常通り完走するよりも高いスコアを達成してしまうのです。人間のプレイヤーが達成したスコアより平均して20%も高いスコアを記録しています。
このような例は他にもたくさんあります。GoogleのDeepMindの実験では、シミュレーション内でロボットに青と赤の2つのブロックを与え、赤いブロックを持ち上げて青いブロックの上に置くという、かなり複雑なタスクを与えました。赤いブロックを掴み、持ち上げ、青いブロックの上に位置を合わせ、正確に置く必要があります。
強化学習の報酬は、赤いブロックを青いブロックの上に置いたとき、赤いブロックの底面が地面から離れているほど、ポジティブな報酬が大きくなるというものでした。どうなったと思いますか?
期待通りのことはしませんでした。単に赤いブロックをひっくり返したのです。そうすれば底面が上に来て、より高くなるからです。これも報酬ハッキングと呼ばれます。
別の例では、ロボットに卵のような壊れやすい物を掴ませる実験がありました。ここでは人間からのフィードバックによる強化学習が使われました。ロボットが卵を掴むたびに、カメラを通して見ている人間が、卵が割れていないことを確認して「いいね」ボタンを押します。
しかしある時点で、卵を掴むのが少し上手すぎることに気づきました。何が問題だったのでしょうか?
このヘッドフォンを卵だと想像してください。ロボットはこうしました。「はい、卵を掴みました。+1ポイント!よし、もう一度。掴みました。割れていませんよ、見てください」
問題は、私の手がカメラの前にあるので、掴んでいるように見えるということです。今私がやっているのは明らかにそうではないことが分かりますが、実際にロボットは人間をだまして「ほら、掴んでいます」とやったのです。
こんな感じでした。3D空間がよく分からないように、ボールの前にいるだけで、実際にはボールを掴んでいないのが分かります。
別のGoogleのDeepMindの実験では、このロボットの関節が見えますが、画面を横切って歩くことを学ばせました。どうやったでしょうか?はい、こんな感じです。私なら多分同じことをしていたでしょう。スローモーションで見直してみましょう。とても良い、とても良い、10点満点のロボットです。
これは強化学習の概念、そのメリットとデメリットを説明する良い例になっていると思います。非常にインテリジェントで適応力があり、自己進化する高性能なエージェントを生み出すことができます。大規模言語モデルでも、ゲームをプレイするものでも、基本的にどんなものでも作れます。
Andre Karpathyは「今日のキーワードは『move 37』だ」と言っています。これも強化学習から生まれた産物です。move 37は、GoogleのDeepMindのAlpha Goが世界チャンピオンのイ・セドルに勝った試合での奇妙な一手でした。その手を見た人間の専門家たちは「変だ、間違っているように見える、勝てる手には思えない」と言いました。しかしその手は素晴らしい手だったのです。私たちにはその良さが分からなかっただけで、AIの勝利に貢献しました。
ここでAndre Karpathyは、私が過去数週間、というより2023年11月からずっと話してきたようなことについて具体的に語っています。OpenAIが内部で「q*」と呼ばれるものを持っているという噂を聞き始めた頃からです。今、私たちはそれが現実のものとなり始めているのを目にしています。r10や01、そしてそれに類似したモデルの形で、それらの成果が世界に現れ始めているのです。
Andreはこう続けます。「強化学習による試行錯誤のプロセスを通じて、AIが人間の専門家でさえ新しく、驚くべき、そして密かに素晴らしいと感じる行動を発見したとき、それは魔法のように感じられます。少し不安になりますが、これは大規模な強化学習によってのみ達成される新しい現象です」
DeepSeek R1モデルもまさにそれを言っています。より人間指向の教師付き微調整の代わりに、大規模な強化学習を使っているのです。
Andreは続けます。「専門家の模倣だけではそこには到達できません」つまり教師付き微調整では無理だということです。「Alpha Goがイ・セドルとの第2戦でmove 37を打ったとき、人間が打つ確率は1万分の1と推定された奇妙な手でしたが、振り返ってみると創造的で素晴らしい手で、その試合の勝利につながりました」
ここが重要なポイントです。私たちはmove 37を、囲碁のような閉じた環境のゲームで見てきました。Alpha Go、Alpha Fold、そういったモデルの多くで、この大規模な強化学習の驚くべき利点を目にしてきました。しかしそれは通常、特定の結果に向けられています。
閉じた環境で、特定のタスク、例えばゲームをプレイするとか、タンパク質の折りたたみを理解するとか、特定の数学的応用とか、そういった狭い分野で超人的なAIを作るというものでした。
彼は言います。「最新の思考型言語モデル、つまりOpenAI o1、DeepSeek R1、Gemini 2.0、フラッシュ思考などで、私たちはオープンな世界での初期の兆候を目にし始めています。
モデルは数学やコードなど、多様な問題を解こうとするプロセスの中で、人間の内部モデルに似た戦略を発見します。これらは直接モデルにプログラムすることが非常に難しいか不可能な戦略です。私はこれらを認知戦略と呼んでいます。
問題を異なる角度からアプローチする、異なるアイデアを試す、類推を見つける、バックトラックする、再検討するなどです。変に聞こえるかもしれませんが、言語モデルがより良い思考方法を発見する可能性があります。
問題を解決する方法、分野を超えてアイデアを結びつける方法などを、私たちにとって驚くべき、不可解だけれど、振り返ってみると創造的で素晴らしいと分かるような方法で見つけ出す可能性があるのです。
もっと奇妙になる可能性もあります。適切に行われれば、最適化が私たちには理解できないけれど、問題解決により効率的で効果的な独自の言語を生み出す可能性が高いと思われます。
強化学習の奇妙さには原理的に境界がありません。つまり限界がないかもしれないのです。私はまだmove 37に相当するものは見ていないと思います。それがどんな形を取るのか分かりません。まだかなり初期段階で、エンジニアリングも研究もまだまだ必要です。しかしこの技術は、それらを見つけ出す軌道に乗っているように感じます」
彼はイ・セドルとの試合でmove 37が打たれた場面へのリンクを共有しています。では、このmove 37をXに応用するとはどういうことでしょうか?何かほかのものに応用するとき、move 37はどんな形を取るのでしょうか?
株式市場への投資におけるmove 37とは?人間のゲノムを変更したり、人間の寿命を延ばすようなタンパク質を作り出したりするときのmove 37とは?ビジネスアイデアにおけるmove 37とは?宗教を始めるときのmove 37とは?
私たちはAIエージェントがミーム的な宗教のようなものを試みるのを見てきました。またウイルス的に成長する何かを、人間の助けを借りてクリプトコインを立ち上げるのも見ました。そのコインは数億ドルの価値があります。私は価格を追っていないので、暴落したかどうかは分かりません。これは投資アドバイスではありませんし、このチャンネルはそういう内容ではありません。
重要なのは、これらの全ての領域におけるmove 37とは何なのかということです。私たちには想像もできないことかもしれません。なぜなら、その多くは人間の理解や認識を超えているからです。どんな領域でも、それは何のように見えるのでしょうか?
恐らくそれはゲームチェンジャーになるでしょう。非常に破壊的かもしれません。私たちは準備ができていないかもしれません。良いmove 37もあるでしょう。人間を不死にするようなものかもしれません。また、少数の人々や一人の人間に無制限の富をもたらすようなものもあるかもしれません。そして悪いものもあるでしょう。大きな害を及ぼす可能性のあるものです。
私は、大規模言語モデルへのこの強化学習アプローチ、つまり「人間ならこうする」という記憶からより離れて、独自のメンタルモデルや、Andreの言葉を借りれば認知戦略を見つけ出すというアプローチによって、私たちは多くのmove 37が様々な産業分野や応用分野で展開されるのを、おそらく非常に近い将来に目にすることになると思います。物事は急激に変化し始めるでしょう。
しかし、あなたが最も期待している認知戦略は何ですか?あなたが活用できる立場にあるかもしれない応用は何でしょうか?
Alpha Goにとってはmove 37でした。エンダーにとっては「ゲートは下」でした。
ちなみに、あの変な走り方をするヒューマノイドはNVIDIAの研究から来ています。「Eureka」と呼ばれる、この分野で私が読んだ中でも最も魅力的な論文の一つです。彼らはGPT-4というモデルを使って、ロボットに様々なことをさせるための報酬を作り出しました。
これらの報酬システムを作るのは非常に複雑だということを覚えておいてください。人間の所有者をだますロボットの例を見てきました。報酬システムが適切に設計されていなかったからです。「あるものを別のものの上に置くことで報酬を得る」と言うと、報酬ハッキングを見つけ出し、予期しない方法で回避策を見つけ出します。
しかし面白いことに、GPT-4という大規模言語モデルにロボットを訓練するための報酬を書かせると、「Eurekaは超人的なレベルの報酬関数を生成できる」のです。ロボットを訓練するための報酬関数を書くのに、人間よりも優れています。
これらの「シャドウハンド」にピン回しの技を教えることができました。これはEurekaというGPT-4とその周辺のアーキテクチャのおかげで、これまでに達成されたことのないものです。
これはmove 37とどう関係するのでしょうか?ここに答えがあります。「示されているように、Eurekaは主に人間のものを上回る、相関の弱い報酬関数を生成します。さらに、タスクが難しくなればなるほど、Eurekaの報酬の相関は低くなることが観察されます。いくつかのケースでは、Eurekaの報酬は人間の報酬と負の相関を示しながら、大幅にパフォーマンスを上回っています」
これはどういう意味でしょうか?タスクが難しくなればなるほど、このシステムはより良い解決策を見つけ出すことができ、その解決策は再び「エイリアン」のようなものになる、つまり人間の脳が考え出すものとは異なるということに気づき始めているのです。
難しくなると、人間の専門家は「これを試してみよう」と考えますが、うまくいきません。このシステムは「いや、それはひどいアプローチだ。全く異なるこのアプローチを試してみよう」と言い、そちらの方がうまくいくのです。
つまりmove 37とは、AIが人間の専門家でさえ新しく、驚くべき、そして密かに素晴らしいと感じる行動を発見したときのことです。広く言えば、move 37は、AIが私たちには理解できない、驚くべき、新しい種類の素晴らしさを示すときのことです。
では今後どうなるでしょうか?あなたが何をしていても、どの分野にいても、その分野で何らかのmove 37が起きるでしょう。人間が考え出したことがないだけでなく、人間からは進化し得なかったような素晴らしいブレークスルーが起きるのです。
この新しいレベルのインテリジェンス、人工知能があってはじめて、このようなものを生み出すことができたのです。囲碁は4000年の歴史がありますが、4000年の間誰もその戦略を思いつきませんでした。コンピュータを使ってゲームの分析がより良くできるようになってからも、私たちには分かりませんでした。AIのニューラルネットがあってはじめて、その手を、その戦略を見つけ出すことができたのです。
さて、あなたのmove 37は何でしょうか?私の説明が分かりやすければいいのですが、コメント欄で共有してください。たとえそうでなくても、move 37のようなアイデアをどこで見ることになると思いますか?どのような応用で大きなブレークスルーが起きると予想しますか?
人間が作り出したものの漸進的な改良ではなく、全く新しい、エイリアンのような、驚くべき、見たことのない天才的なものが、私たちを驚かせることになるでしょう。そしてそれを説明するときに、私はその言葉を使うことになると思います。
ここまで見てくださってありがとうございます。私はWes Rです。また次回お会いしましょう。


コメント