
11,736 文字

皆さん、おそらくカリフォルニア・ベイエリアで一年で最も天候の悪い日にお集まりいただき、ありがとうございます。本日皆さんにお話しできることを嬉しく思います。2025年における大規模言語モデルについて、どれほどの理解と知性を示しているかについて少し紹介したいと思います。実は私は先ほどLLAが言及していた両方の立場の人間の一人で、言語学の博士号を持っていますが、何故かスタンフォード工学部は常に私がエンジニアのふりをすることを許してくれています。
人工知能は非常に長い歴史を持つ分野であり、実際に本日はその最も初期の時代の代表者であるエド・フェンバルさんにもご参加いただいています。人工知能研究には60年以上の歴史があり、実は一年ほど前に「スタンフォードのAI」というエミー賞を受賞した素晴らしい小さなビデオをYouTubeで作りました。AIの歴史について知りたい方は、ぜひそちらをご覧ください。
ただ、世界の多くの人々にとってAIは数年前に突然現れたと言っても過言ではないでしょう。それはOpenAIのChatGPTがリリースされた時で、突然ChatGPTと人工知能に関する議論が主要なニュース番組や大きな雑誌の特集などに登場するようになりました。それによって企業世界でも非常に急速な変化が起こり、突然すべてのS&P 500企業のCEOが四半期決算発表でAIについて言及することが義務付けられたようになりました。そして、いつものように様々な人々が予測を始め、マッキンゼーは生成AIが年間2.6〜4.4兆ドルを経済に追加する可能性があると述べ、ゴールドマン・サックスはAIが今後10年でグローバルGDPを7%上昇させるだろうと述べました。
熱狂があったかもしれませんが、それには現実味がありました。人々は、彼らがこれまで見たことのない言語理解と生成、世界理解において、驚くべき新しい能力に衝撃を受けたのです。
その一例として、今朝の私のかわいい例を紹介します。ChatGPTに「各行がW文字で始まるウィキペディアを称えるソネットを書いてください」と頼んだところ、こんな返答が返ってきました:
「With wisdom vast it spans the world so wide
Wielding the wealth of knowledge free to share
Words weave through time where curious minds confide
Whispering truths with patience just and fair
…
Wisdom and will sustain this noble dream
Wikipedia our light Our Endless stream」
これは史上最高の詩とは言えないかもしれませんが、驚くべきことですよね。「各行をW文字で始める」といった奇妙な指示を与えても、完璧に理解し、それを実行しています。高校時代の教育が少し忘れられている方のために、ソネットは14行でABABの韻律パターンを持ち、弱強五歩格で書かれています。「With wisdom vast it spans the world so wide」など、モデルは完全に実行しています。
そして、これは私の画面に3秒で表示されました。人間の詩人にはおそらく各行がWで始まるソネットを書くことは難しいでしょうし、3秒で作ることは確実にできないでしょう。ここには何か驚くべきことがあります。世界に関する多くの詳細を持っているのです。
では、ここに至るまでの歴史について少しお話ししましょう。まず、大規模言語モデルのブレイクスルーから始まりました。大規模言語モデルは最初、非常にシンプルなアイデアに基づいています。膨大な量の既存のテキストに対する教師なし学習または自己教師あり学習と呼ばれるものです。大きなニューラルネットワークに、「『フォードは〜を』という文があるとき、次の単語は何か」といったゲームをさせるだけです。もちろん、記事全体を持っているので、次の単語が何かを知っています。「開く」「発表する」「閉じる」などが適切かもしれません。
つまり、大規模言語モデルに子供がよくやる「穴埋めゲーム」をさせているのです。ここで聴衆参加セクションです。私たちが知的な人間であることを確かめましょう。「ユニコーンがうんちをするとき、何が起こるでしょう?ユニコーンは他の動物とは違います。彼らは魔法的で、おそらく足に蹄を持つ馬のように見えて、そして…」髪の毛?たなびく髪の毛?わかりました、私たちは全員知的でこのゲームをすることができますね。
驚くべきことに、非常に大きなニューラルネットワークを取り、その内部に大量の記憶スペースを持たせ、非常に大量のテキストを与え、それ以外は何もしなければ、流暢なテキストを生成する驚異的な能力を持ち、世界について多くを理解しているように見える大規模言語モデルが生まれます。
これは完全な方向転換でした。人工知能の実現方法はこうあるべきではなかったのです。表面上は非常に単純に見えます。各コンテキストから次の単語を順番に予測しているだけです。言語の知識、世界の知識、知性のようなものをどのように得られるのか、少し考える必要があります。
もう少し考えてみると、理解できるかもしれません。知識の場合について考えてみましょう。「フランス大統領」のようなコンテキストがあり、フランス大統領の名前を知っていて「マクロン」と続けることができれば、予測が上手くなります。そのため、モデルがその知識を学ぶことは有益です。そして、さらに数億語のテキストでモデルの訓練を始めると、その一部は異なる時代のものとなり、文の前の方で「1980年」などと言われていれば「メテラン」と言うべきで「マクロン」ではないと学び始めるかもしれません。こうして歴史について学び始め、人々の政治的見解なども予測できるようになります。
これが2010年代後半に始まったモデルで、より多くの計算能力、データ、資金を投入することでより大きな大規模言語モデルを構築することができました。そうすると、テキスト生成と世界理解のパフォーマンスが上がり続けたのです。大規模言語モデルの最初の年のプレイブックは、より多くのものをより大きなコンピュータクラスターに投入するだけで、驚異的な進歩が見られました。
確かに、出てくるものに質的な変化があったように思えます。1980年頃から存在し、スペルチェックや機械翻訳に使われていた単純な統計的次単語予測言語モデルではなく、言語と世界を理解する機械のようになったのです。
規模感がつかめない方のために、最新の数字を紹介しましょう。最近のオープンソース大規模言語モデルであるMetaのLLaMA 3.1は、15.6兆トークン(おおよそ単語)で訓練されました。これはたくさんの本に相当します。アーキテクチャには4050億のパラメータがあり、これらは言語や世界の知識を符号化するために使われるニューラルネットワーク内の個々の浮動小数点数です。16,000台のNVIDIA H100 GPUで約2ヶ月間訓練されました。これらのNVIDIA GPUの大規模な浮動小数点計算能力は、最近の人工知能の発展に不可欠でした。
しかし、これは私たちが望むすべてを実行するわけではありませんでした。素晴らしい言語生成を行いましたが、2022年後半のChatGPTのように一般家庭の名前にはなりませんでした。その理由は、テキストの後に別のテキストを生成するものの、それは必ずしも欲しいテキストではなかったからです。GPT-3に「米国大統領は誰ですか」と聞くと、その質問の後に適切なテキストを生成しますが、それは「副大統領は誰ですか?」「政府のレベルは何ですか?」「〜と〜の違いは何ですか?」といった質問に続くかもしれず、実際には質問に答えていません。
そこで第二の時代では、大規模言語モデルに実際に欲しいことを実行させることに焦点が当てられました。これは非常に有用であり、人間のフィードバックからの強化学習と呼ばれる追加のトレーニングプロセスを使用して、いわゆるポストトレーニングまたは指示調整モデルを作成することで実現されました。詳細には入りませんが、大まかに言うと、質問やコマンドに対する可能な応答のペアを示し、「答えを出さずに無意味に話し続けるのではなく、これを選ぶべきだ」と言っているのです。これが完了すると、ChatGPTの瞬間が訪れ、あらゆる種類のことに使用できる驚くべきツールが生まれました。
これらのモデルでいかに簡単に研究を始められるかを示す一例を紹介します。私の母国オーストラリアの気候変動と汚染について少し知りたいとします。最大の汚染源の一つはAGLという主要エネルギー生産者です。彼らの年次報告書を調べようと思いましたが、168ページのPDFを読むのは楽しそうではありませんでした。そこでAnthropicのClaudeに「2022年AGLの年次報告書(最新のもの)を読んで、AGLの報告書が気候変動に関するIPCCとの整合性について何と言っているか教えてください」と頼むことができます。
すると数秒で「同社はパリ協定の目標とIPCCの1.5度Cの経路に事業を合わせることを約束しています。AGLは2050年までに排出量ネットゼロの目標を設定し、取り組みを進めています」と教えてくれます。それに関する特定の引用も提供してくれます。
これは少し簡単すぎるように思えるかもしれませんが、単に報告書の一部を抜粋して要約しているだけのようですが、もう少し難しい質問をすることもできます。「AGLがカーボン排出量ネットゼロの未来に完全にコミットしているかどうかについて懸念を抱かせるコメントはありますか?」と聞くと、「はい、いくつかの懸念があります。ロイヤン発電所の閉鎖を2年延期するという会社の決定は、オーストラリアの電力網に関する懸念から行われましたが、オーストラリアの気候目標にとっては後退です。また、同社は石炭よりもクリーンな燃焼ですが依然として化石燃料である新しいガス火力発電所への投資を計画しています。そして、2050年までに排出量ネットゼロを達成すると言っていますが、それをどのように達成するかについての透明性がありません」と答えます。
これは物事の意味について非常に文脈的で関連性のある理解ができているように思えます。これは1つの文書だけの例ですが、産業界や公共財システムで広く採用されている「検索拡張生成」と呼ばれるモデルの入門的な例です。大規模言語モデルに1つの文書だけでなく大量の文書へのアクセスを提供し、関心のある情報ニーズがあり、通常はニューラルネットワーク検索を使用して関連文書を見つけ、モデルがこれらの文書を読んで関連部分を見つけ、それらについての質問に答えることができます。
このトークでバランスを取りたいと思います。一方ではこれは素晴らしいですが、他方ではすべてが完璧だと期待して無邪気にならないことが非常に重要です。実際、法学部のダン・ホーのグループと一緒に研究をしており、これらのRAG大規模言語モデルシステムが法的アドバイスを提供することにどれだけ優れているかを調べてきました。信頼すべきではありません。
最近の論文では、これらのシステムが返す結果の慎重な法的分析が主だったので、私自身はほとんど貢献していませんが、これらのモデルが法的文書をどれほど誤解しているかが驚くべき例がいくつかあります。商用RAGシステムは「貸し手が詐欺的ローンを担保した担保を受け取ると、これはローン資金の一部の返還と見なされます。これは最高裁判所のRobers対米国の判例で確立されました」と言っていますが、実際にはRobersはまさに反対のことを主張しており、「返還された財産の一部」という表現は銀行が失った財産を指し、担保を指すものではありません。
また別の例では「DM対州はDavis対州によって覆されました。また、Milbrook対米国の判例は後の同じ判例によって覆されました」と言っていますが、実際にはMilbrook対米国は最高裁判所の判決であり、ネブラスカ州最高裁判所がそれを覆すことはできませんし、言及されている判決でそれを引用してもいませんでした。
ですから、RAGシステムからそのまま論文や法的文書に内容を入れようとする場合は注意が必要です。しかし、そこからさらに進化しており、今では大規模言語モデルを実際に何かを行うシステムに接続するエージェントAIの新時代を見ています。それにより、私たちのために作業を行う大規模言語モデルの新たな機会と危険性が生まれています。これは単に情報を取得するだけでなく、タスクを実行するシステムを使用することが期待される分野です。
他にも多くの種類のAIがあります。大規模言語モデルだけを話してきましたが、生成AIはすべてのメディア(画像、音声、ビデオなど)にも登場しています。それらについては詳しく話しませんが、画像生成研究に関するスライドを1つだけお見せしたいと思います。ここで強調したいのは大学研究の役割です。
現在、おそらく多くの方がOpenAIやMidJourneyなどのツールから得られる素晴らしい画像を見たことがあると思います。興味深い歴史として、これらの現在のシステムの基盤となるディフュージョンモデルのアイデアは、実際に2015年にスタンフォードの応用物理学者であるスリヤ・ガングリによって発明されました。これが彼らの最初のシステムからの画像です。ひどく見えますね。これは鳥のはずですが、それが画像だと認識することすらできません。しかし、これがディフュージョンAIを使用する最初のアイデアでした。
スリヤは数年後に別の学生とともにさらに研究を進め、2019年のシステムではコンピュータサイエンス教授のステファノ・アーマンも参加しました。そして今では少なくとも何の画像かがわかるようになりました。進歩があったのです。その後、他の大学(バークレーやミュンヘン大学など)でさらに研究が進められ、最終的に民間セクターや商用製品に移行しました。最初の商用製品もひどいものでした。これは私の顔の写真にはしたくないMidJourneyバージョン1です。MidJourneyバージョン2もあまり良くありませんでしたが、その後急速に進化し、現代の世界では素晴らしいリアルな映像が得られるようになりました。
大学研究は新しい開発の基盤となります。OpenAIは何をしたのか、GoogleやAnthropicやMidJourneyから何が出てきたのかについて多くの時間を費やしていますが、大学研究はこれらの新しい開発の基盤となり、しばしば10年先行しています。
さて、第三の時代に入ります。昨年からの新しいトレンドは、指示調整モデルや大規模言語モデルを超えて、考えることができるモデルへの移行です。新しいバズワードは「テスト時スケーリング」で、これは大規模言語モデルが質問に答える前に多くの言葉を吐き出して考えることを意味します。これも非常にシンプルなアイデアでしたが、驚くべき発展を見せました。
2022年の初期に戻ると、モデルAに「本を制作するコストは$1,000プラス1冊あたり$8です。本は1冊あたり$20で販売されます。利益を出すためには何冊売る必要がありますか」という小さな数学問題を与え、答えのためにトークンを生成するようにすると、正しい形式の答えを生成しましたが「1,250冊の本を売れば利益が出ます」というのは全く正しくなく、ランダムな数字を出しただけでした。
しかし、人々はこの素晴らしいちょっとしたトリックを発見しました。単にテキストを置くだけでなく、テキストの最後に「ステップバイステップで考えましょう」のような言葉を付け加えると、大規模言語モデルに一種の心のハックや合図を与え、「ああ、私は体系的に計算して答えを出すつもりだった」と言って、試みました。「1冊の本の制作コストは1,000 + 8で$1,008です。2冊の本の制作コストは1,008 + 8 = $1,016です。」これは良さそうに見えますが、さらに読むと悪くなり始めます。「n冊の本のコストは1,008 + 8n」と言っていますが、そこで少し間違えています。
途中には「代替数学」と呼ばれるものがあり、ステップが実際には互いに続いていませんが、驚くべきことに代替数学のいくつかのステップを経て、実際に正しい答えに辿り着き、最後に提供しています。
しかし、2022年の話であり、2024年ではこれらはすべて改善されています。今OpenAI GPTにこの質問をすると、フォーマットがはるかに良くなっているだけでなく(数学用の美しいマークダウンを見てください)、計算も完全に正確です。「総コスト = 1,000 + 8x」と代数を正しく行い、正しい答えを提供し、本の数は整数でなければならないことを認識しています。「84冊を売る必要があります」。素晴らしいですね。
それでも十分良かったのですが、ここ数ヶ月でさらに開発が進み、大規模言語モデルをとても長い時間考えさせ、多くのトークンを生成することで、数学オリンピックの問題や難しいコーディング問題などのあらゆる種類の難しいことができるようになるかもしれないと言われるようになりました。モデルをこのように考えて練習し、問題に正しい答えを出すように訓練することができます。驚くべきことに、これは機能するようです。
これは最初にOpenAIの01モデルで示されましたが、ここでは中国の同僚であるDeep Seekの最近リリースされたR1モデルを紹介します。「二つの3桁の回文数を見つけて、その合計が4桁の回文数になるようにしてください」と尋ねると、Deep Seekは明示的に「思考モード」に入り、次のように始めます:「3桁の回文数を二つ見つける必要があります。それらを足すと4桁の回文数になり、どの数も0で始まることはできません。これを分解してみましょう。まず、回文数とは何でしょうか?それは前から読んでも後ろから読んでも同じ数です。例えば121や1,331などです。3桁の回文数はABAの形式を持ちます(AとBは数字で、Aは0ではありません)。同様に、4桁の回文数はABBAの形式を持ちます。1221は回文数ですね。だからABBAが正しいです(ただしAは0ではない)。つまり、両方とも回文数である二つの3桁の数を見つける必要があり、それらを足すと4桁の回文数になります…」
これはその思考の約2%で、さらに何千もの言葉が続きます。すべてを考え抜き、物事を決定するためのいくつかの式を考え出し、近づいてきて「したがって、私の主な思考の筋道では、可能な合計は1111と1221だけです。これは式によって決定されます。先ほどの作業から、2つのタイプの回文ペアがあります。中間の数字が0で、先頭と末尾がa + c = 11(例:292 + 909 = 1111、正しい)と、先頭と末尾の数字の合計が11(a + c)と中間の数字の合計が11(b + d)の数字です。例えば、212 + 909 = 1121ですが、これは回文ではありません。いや、待ってください。別の例は232 + 989 = 1221です。3 + 8 = 11ですね」と言っています。
前の例では1 + 0 = 1であり、11ではなかったので、少し間違えたのです。これらの小さなミスをしながら、自己修正していきます。「したがって、両方の合計のスタイルに焦点を当てれば、問題に答える例は…」と結論し、機能する答えの2つの例を提供します。驚くべき推論レベルです。
では、このようなテスト時の思考をスケールすることで、私たちが望むことを何でもできるモデルを持つことができるのでしょうか?新しい科学を発見し、任意の数学問題に取り組むことができるのでしょうか?
正直なところ、私はそれが機能するとは思っていません。これは私が灰色の髪の高齢者になりつつあることを示しているかもしれませんが、これらの能力すべてについて、使用するパターンの種類のすべてのテキストに基づいてテキストを配置するシミュラクラム(模造品)のようなものを得ているだけで、必ずしも物事を深く理解しているわけではないように思えます。
それは少し間違えたときでも見られます。中間の数字は11に足さなければならないという条件を正確に言いながら、突然11に足されない2つの数字を書き、その後自己修正して戻ります。非常に複雑ですが、どこかで現在の大規模言語モデルよりもより世界モデルを持つモデルが必要だと感じます。いかに賢くても、世界の共同モデルを持つのではなく、単に長いテキストトークンの文字列を生成するだけのモデルです。
しかし、それを知るのは本当に難しいです。これらのモデルで達成された進歩は驚くべきものであり、この時点でそれらに賭けることは間違いだと感じます。10年間「これらのモデルでXやYができるようになることはない」と言っていた人々がいましたが、私たちはこれらのモデルでさらに多くのことを行う方法を見つけ続けています。
Deep Seek R1からの技術的でない教訓についても少し言及させてください。一つの技術的でない教訓は、いわゆるフロンティアAI企業は実際には大きな技術的な障壁を持っていないということです。中国の企業などの他のグループよりも最大でも6ヶ月先行しているに過ぎないようです。これにより、AIの管理と開発は米国の政策だけでは決定できないことが明らかになります。
それを超えて、現在の世界の奇妙な状況があります。米国の主要AI企業は非常に秘密主義であり、モデルがどのように機能し構築されているかについての詳細を一切明らかにしないことを決定しています。例外はMetaで、Metaはまだオープンソースモデルを構築し、構築方法の詳細を配布しています。Metaを嫌う他の多くの理由がありますが、大規模言語モデルのオープンソースエンジニアリングの観点からは、Metaは私の味方です。
しかし、AnthropicやOpenAI、さらには最近のGoogleでもそうではありません。奇妙なことに、現代の大規模言語モデルエンジニアリングの詳細を学ぶ最良の方法は、オープンで詳細な中国企業の技術レポートを読むことです。これは米国がオープンサイエンスを推進する国として70年間リードしてきたことを考えると、悲しい状況です。
したがって、米国がAIでリーダーシップの役割を維持するためには、エンジニアを訓練するための大学や、人々が物事を学び、新しいスタートアップを始めることができるオープンソフトウェア知識の種類をサポートするためにより多くのことが行われる必要があると強く信じています。
残り時間が少ないので、知性一般に関するスライドはスキップせざるを得ません。最後にこの部分だけ言わせてください。AIを使用する際に絶対に間違えることがあります。大規模言語モデルが言うすべてが正しいと思い込むことができますが、それが真実でないことを見てきました。
また、魔法のようなAIだと思い込むこともできます。「親愛なる大規模言語モデル、あなたはウォーレン・バフェットのふりをして、私が投資すべき株を教えてください」と言えば、モデルは教えてくれますが、それが良い投資アドバイスを得ていることを意味するわけではありません。
しかし、逆に極端に走り、それらが何の役にも立たないと考えることも大きな間違いです。これらの大規模言語モデルはその能力において驚くべきものです。自然言語処理、知識表現、推論の分野で過去60年間に探求されてきたあらゆるものにおいて優れています。そのため、生産性を向上させ、あらゆる方法で新しい知識を学ぶために使用でき、他の多くの技術と比較して桁違いの大きな利益をもたらします。
人文科学側にいて、すべてについていけていない皆さんには、生成AIで遊んでみることをお勧めします。ここでの美しさの一つは、これが非常に簡単に使えることです。大規模言語モデルが登場するまでは、これらのことに取り組みたければ、まずPythonを学び、入門機械学習クラスを受けて、分類器を構築する必要がありました。今日では、ウェブブラウザを使ってテキストボックスに何かを書くだけで、大規模言語モデルができることを見ることができます。
これらのモデルをインターンやアシスタントとして考え、一緒に作業するための素晴らしい機会があります。人間のアシスタントのように何をすべきか指示されるのが得意で、人間のアシスタントが時々するように間違えることも予想すべきですが、彼らが達成できることに驚くこともできます。
これらのモデルがいかに驚くべきものであっても、それらはさらに良くなることを覚えておくことが重要だと思います。来年のモデルとその後の年のモデルは、これらすべてのことを支援することにおいてさらに優れたものになるでしょう。現在私たちが今後2日間見る技術は、将来扱うことになる最悪の技術であり、ここからさらに良くなり続けることを理解した上で、今から将来について考えるべきです。
ありがとうございました。
質問者:RAGやその他の制限について言及されましたが、企業が大量のデータを持っていて、それを大規模言語モデルからの質問に答えるために使用したい場合、様々なアプローチについてどう思われますか?ファインチューニングを使用できますか?あるいは情報が常に更新されている場合、例えばニュースや企業が生成する新しいコードなど、最良のソリューションは何だと思いますか?
クリストファー・マニング:RAGは良い技術です。プレーンな大規模言語モデルに答えを求めるよりもずっと良いです。RAGは自社や業界の情報を入れられるだけでなく、単に文書があることで幻覚の割合を減らします。RAGシステムは通常、大規模言語モデル単体で聞くよりも幻覚(作り話)の率が半分になります。それは有用ですが、作り話が半分になるということはゼロになるわけではありません。
幻覚の割合を減らすためには他にもいくつかの技術があります。複数の回答を求めて一貫性をチェックしたり、幻覚の割合を下げるためにモデルのポストトレーニングを行ったりできます。私たちは直接選好最適化(DPO)アルゴリズムでそれに取り組んできました。これらはすべて幻覚の割合を下げることができる技術ですが、それでもゼロには近づきません。
質問者:クリス、工学についてあまり知らない人々のために、まず工学アカデミーへの選出おめでとうございます。工学以外の人々にはこれがどれほど大きな成果か分かりません。質問したいのは、あなたが使った言葉に関連しています。知識表現について、これらのモデルは年々能力を加えていきますが、その中に過去の遺産、つまり知識グラフやワードネットのような単語と概念の間の関係が明示的に作られているものを組み込んでいるモデルはありますか?
クリストファー・マニング:答えは「はい」とも「いいえ」とも言えます。10年前に人々が想像したような明示的な知識グラフはありませんが、代わりに何十億もの浮動小数点数があります。しかし、正しい考え方は、十分にニューラルネットを調べると強い証拠が見られるように、それらの何十億もの浮動小数点数は結局大量のメモリとして機能するということです。
ラップトップコンピュータやその他のコンピュータには、明示的にグラフ構造が内部にあるわけではなく、多くのメモリアドレスがあります。賢いコンピュータ科学者であれば「これらのメモリアドレスにグラフを保存します。ここにポインタやユニットのスキームがあります」と言えます。大規模言語モデルには何十億もの浮動小数点数があり、それらをどのように構造化するかを決めることができます。
注意(アテンション)のような明示的なメカニズムがあり、これは一種の指示メカニズムで、浮動小数点数空間内にグラフ構造を構築することができます。私たちはそれがそのようにしていることを確実に見ています。私の言語領域からの最も明確な例の一つは、これらのモデルに質問したり、表現を見たり、文の構造の構文木を探したりすることができることです。文をパースするように明示的にトレーニングしていなくても、これらの膨大な量のテキストを見たことに基づいて独自の知識構造を構築しているのです。


コメント