大規模言語モデルの台頭により、従来の機械学習の常識がどのように変化しているかを考察する内容である。かつてはパラメータのチューニングや膨大なデータ、厳密なセマンティクスが不可欠とされていたが、現在では言語モデルによる推論や自然言語による関数定義が新たな学習の形を切り開いている。具体的な事例として、教育データを用いた理由付けによる分類器の学習、予測すべきターゲットに基づく有用な特徴量の自動提案、そして自らコードを書き自己反省を行う自律型学習エージェントの構築が挙げられる。これからの機械学習理論が向き合うべき新たな課題と展望が詳細に論じられている。

Simons Instituteのワークショップ開催にあたって
みなさん、ようこそ。私はヴェンカット・グルスワミと申します。ここUCバークレーにあるSimons Instituteでディレクターを務めております。皆様をSimons Institute、そして今週開催される現代の機械学習における理論計算機科学の役割に関するワークショップにお迎えできることを大変嬉しく思います。春のプログラムが終了し、このワークショップから私たちの夏の活動が本格的にスタートします。
この場にいらっしゃる皆様にSimons Instituteの紹介は不要かもしれませんが、少しだけお話しさせてください。当研究所は2012年にSimons Foundationからの非常に寛大な助成金により設立されました。ご存知の通り、テーマを設けた学期制のプログラムに多くの人々を集めることで、理論計算機科学および関連分野における共同研究を多数促進してきました。ここで行われる主な集まりの形態がそれになります。
そして、当然ながら大きな焦点となっている理論計算機科学の中核的な側面に加えて、当研究所のプログラムは計算機科学の他の分野、さらには科学や工学全般との繋がりにも取り組んでいます。また、理論に何ができるかという点に関して、当研究所は非常に機敏かつ先見的であろうと努めています。コンピューティングを取り巻く幅広い環境における重要な進歩にも対応しており、最近では量子コンピューティングやAIがその明確な例となっています。
これらの長期プログラムに加えて、当研究所は重要なトピックについて非常に厳選された少数のワークショップも主催しています。今週は現代の機械学習における理論の役割という非常にエキサイティングなワークショップを開催すると同時に、この分野の先駆者の一人であるアヴリム・ブラムの誕生日を祝う機会も設けています。彼は当研究所の科学諮問委員会の共同委員長も務めており、研究所の設立当初から友人として私たちを応援してくれています。ですので、今週はさらに特別なワークショップとなっています。
事務的なお知らせをしてサントシュにバトンタッチする前に、いくつか感謝の意を表したいと思います。まず、素晴らしい講演者のラインナップで傑出したプログラムを作り上げてくれたオーガナイザーの皆様の尽力に心から感謝いたします。プログラムを見て、これは講演を聞きに行くためにスケジュールを調整しなければならないなと思いました。おかげで今週の私の予定は複雑になりましたが、それは良い意味での複雑さです。
組織委員会の委員長はサントシュ・ヴェンパラが務め、ニナ・バルカン、アヌパム・グプタ、ニカ・ハグタラブ、カトリーナ・リゲット、イシャイ・マンスールも名を連ねています。皆様、ありがとうございます。そして、ご来場いただいた皆様にも感謝いたします。
また、このようなイベントを開催する上で欠かせない重要な資金提供者であるSimons FoundationおよびSimons Foundation International、そしてGoogle、Jane Street、Bridgewater、Appleといった業界パートナーの皆様にも感謝の意を表します。私たちは常に多くの業界パートナーを歓迎しておりますので、ご興味のある方がいらっしゃいましたら、ぜひ私にお声がけください。
サントシュに代わる前に事務的なお知らせです。ご存知の通り、最初の講演の前と休憩時間には外に食事が用意されています。昼食は各自でお願いしていますが、ここはバークレーですので近くに素晴らしい選択肢がたくさんあります。昼食時に荷物を置いていきたい場合は、反対側にロッカーがあります。また、講堂内を清潔に保つため、飲食はご遠慮ください。もちろん水筒は問題ありません。
もしソーシャルメディアを活用されている方がいらっしゃいましたら、ぜひワークショップからのライブレポートやブログの更新をご検討ください。Simons Instituteはネット上で大きな存在感を持っていますし、ここに来られない外部の多くの人々にとっても有益なものになります。もちろん、イベントはライブ配信され、すべての動画も公開されます。
イベントを組織するには多くの人の力が必要です。このようなイベントを実現するために休むことなく働いてくれているスタッフに心から感謝したいと思います。それでは、前置きはこれくらいにして、サントシュにバトンタッチします。
機械学習の先駆者を紹介
ありがとうございます。ヴェンカット、素晴らしいプログラムにしてしまって申し訳ありません。ですが、私はここにいられてとてもワクワクしています。トムの時間をあまり奪いたくはありません。
このワークショップのテーマは非常にタイムリーだと思います。私たちの多くはAIの冬の時代が到来するのではないかと懸念しており、それに備えなければなりません。あるいは、それをどう乗り越えるかということかもしれませんが、アヴリムは常にそれをポジティブなものに変える方法を知っているので完璧です。だからこそ、このチームはとてもうまく機能しているのです。
このイベントを実現してくれたSimons Instituteのスタッフ全員と研究所に感謝します。キャロリン、フランシス、アシュリーは素晴らしい対応ですべての準備を整えてくれました。そして、素晴らしい提案とプログラムをまとめてくれた共同オーガナイザーの皆様にも感謝します。
それでは、ミッチェル教授をご紹介しましょう。彼は著名な機械学習の研究者であり、常に理論家にとても友好的であったCMU初の機械学習部門を創設しました。ですから、理論と現代の機械学習について話してもらうには、トム以上の適任者はいないと考えました。
アヴリム・ブラムの誕生日を祝して
ありがとうございます。ここに来られたことは本当に大きな喜びです。理由は2つあります。1つ目は、アヴリムはどこにいますか。ああ、あそこにいましたね。1つ目は、かつてこんな顔をしていた私の友人、アヴリムの誕生日を祝う機会が得られたことです。
全く同じ顔をしていますね。
本当にそうですね。驚きです。どうしてこんなことがあり得るのでしょうか。
私がアヴリムと出会ったのは1990年代のことです。彼が新任の助教授としてCMUにやってきた時でした。私たちは二人とも何らかの形で機械学習に興味を持っていたので、時間をかけて話し合いました。そして私が彼を本当に知るようになったのは、一緒にチームティーチングで授業を受け持った時でした。当時のウェブページを見つけました。まだそこにあるんです。Googleさん、ありがとう。1994年の秋のものです。
少し計算をしてみました。もし彼が今年60歳なら、私たちがこの授業を一緒に教えた時、彼は28歳だったことになります。そして私たちは授業を進めていきました。当時の私にとって、これは非常に重要な出来事でした。というのも、ちょうど機械学習の教科書を書き始めようとしていた時期であり、アヴリムと一緒に教えることは、自分の思考を広げ、この分野に対する異なる視点を得るための方法だったからです。
サンプル複雑性や無関係な特徴量、重み調整のための乗法的なルールなど、私が彼から学んだことの多くが、最終的にあの教科書に盛り込まれました。ですから、アヴリム、ありがとう、そして誕生日おめでとう。
ここに来られたことが嬉しい2つ目の理由は、このワークショップのテーマである現代の機械学習における理論の役割とは何かという問いが、私たちがやっていることの根幹に関わっていると心から思っているからです。
機械学習におけるこれまでの常識を疑う
この話をどのように構成するか考えたのですが、そこで思い当たったのは、時代が急速に変化しているということです。その指標の一つとして、私が5年前には当たり前だと受け入れていたこの分野の従来の常識を、今はもう信じていないということが挙げられます。
ですから、私がもはや信じていない、5年前の従来の常識とは何だったのかをお見せします。そして残りの時間で3つの例を提示し、皆さんも少なくともそれを疑ってみるべきだと納得していただけることを願っています。
まず1つ目。機械学習を実現するための主なメカニズムはパラメータのチューニングである。それが私たちがニューラルネットワークを訓練する方法です。言うまでもありませんが、私はこれをもう信じていません。
機械学習はビッグデータと高度な統計に依存しなければならない。これもう信じていません。
自然言語とは異なり、コンピュータの知識表現には明確に定義されたセマンティクスがなければならない。これも信じていません。
大規模言語モデルを用いた分類器の学習
では、私がなぜそのように感じるのかを説明するために、3つの例を見ていきましょう。
1つ目の例は、大規模言語モデルを使って分類器を学習するプログラムを作ってみようというものです。なぜそんなことをしたいのでしょうか。私がそうしたい理由は、何十年もの間、機械学習の悩みの種だったのが、帰納的バイアスのための優れた源、つまり私たちが見た特定の例から汎化するための原則を持っていなかったことだからです。
人はそれができます。例えば、チェスを覚えていて自分のクイーンを失った時、それを理解するまでにクイーンを失う例が1万回も必要になるわけではありません。何が起こるかというと、それについて推論するのです。なぜクイーンを失ったのか。ああ、妹がナイトで私のクイーンを攻撃していて、同時にキングも攻撃していたからだ。そして私はキングを動かさなければならなかった。彼女は、よし、もう二度とこんなことはさせないぞ、と思うでしょう。
私はその説明、つまりその種の推論によって、チェス盤の細かな状況のすべてから一気に汎化を行ったのです。妹がまだ動かしていなかった3つのポーンや、私がまだ動かしていなかった4つのポーンについては言及しませんでした。なぜなら、それらはその理由付けには無関係だったからです。
私たちはこれまで、このような推論主導の学習を行うコンピュータプログラムを持つことができませんでした。なぜなら、幅広い領域にわたって確実に推論できるコンピュータプログラムが存在しなかったからです。しかし今は存在します。だからこそ、私たちはこれをやりたいのです。
それでは例を挙げましょう。これはCK-12というオンライン教育サイトからのデータに基づいています。ここでの分類問題は、Xが与えられた時にそれに0か1のラベルを付けるというもので、Xは3つの要素からなるタプルになります。
まずは問題です。例えば、振動する物体から物質を通って伝わる波によるエネルギーの伝達を何と呼ぶか、空欄を埋めなさいというようなものです。そして2つのヒントがあります。ラベルは、2つのヒントのうちどちらが学生にとって最も役立つかを示しています。ウェブサイトのおかげで測定できたので、私たちは真実を知っています。学生の学習成果という下流のデータです。ですから、私たちはこれらのヒントが学生を助ける上でどれだけ効果的かを実際に測定したのです。
それがこの分類タスクです。すべてのXはこのようなタプルになります。
では、学習アルゴリズムはどうなっているでしょうか。LLMを使って私たちが行うのは、ラベル付けされたXYの各例を、この場合はGPT-4に渡し、なぜこの問題の正解ラベルがY=1になるのかを理由付けさせることです。
それを要求すると、次のような理由付けが出力されます。それによると、ヒント1の方がより役立ちました。なぜなら、問題で尋ねられている概念に関連する具体的な例と説明を提供していたからです。そして、それを一般的な原則として言い換えます。
これが、私たちがついにこの種の事柄について何らかの形の推論を行えるコンピュータプログラムを手に入れたと言う時に私が意味していることです。
では、学習アルゴリズムは何でしょうか。学習アルゴリズムは、ラベル付けされたトレーニングデータのすべてについて、LLMに理由付けを生成させることです。この実験では125個の例があったので、125個の理由付けが得られます。そしてアルゴリズムの最後のステップは、それら125個の理由付けを抽出し、データにラベルを付けるためのルーブリックと呼ぶことにする簡潔な原則のリストにまとめることです。
それを実行すると、次のようなルーブリックが出力されます。125の理由付けから導き出された7つの原則が含まれています。すべては読みませんが、例えば最初の原則にはこう書かれています。実用的な応用との関連付け。物理学や化学のように、抽象的な概念を現実世界の現象に適用しなければならない科目では、それらの概念を実用的な応用と直接結びつける説明を優先すること。これにより理解が深まり、学生がその関連性を理解しやすくなります。
このようなものが出力されます。これがトレーニングデータから学習される内容です。数字はありません。パラメータもありません。もしパラメータがあるとすれば、その値はこのスライドに書かれている文章そのものです。これが学習される内容なのです。
これで、私たちはこの学習された情報を使用して、分類の精度を向上させようと試みることができます。この例ではトレーニングデータに戻り、このルーブリックをGPT-4に与え、YではなくXの部分だけを与えて予測させると、トレーニングを行う前よりもはるかに良い結果が出ます。テストセットでも同様です。ですから、これは実際に機能するのです。
これを考えるのは非常に興味深いことです。このシステムが行っているのは、英語を理解しそれについて推論するというLLMの能力を使って、これを生成しているということです。
ちなみに、これはどちらのヒントが優れているかをラベル付けするだけでなく、新しいヒントを生成するためにも使用できます。これもLLMのもう一つの特徴です。情報を与えられれば、複数の方法で推論することができるのです。
さて、これは一体何を意味しているのでしょうか。アルゴリズムについてはすでに説明しました。これは、理論が何をすべきかという私たちの考え方にどのような影響を与えるのでしょうか。
関数近似の標準的なPAC学習のフレームワークがあります。レス、ありがとうございます。インスタンスの集合があり、いくつかのインスタンスを抽出し、未知の分布を作成し、可能な限り真実と一致する仮説を探し求めます。しかし今、それはどのように見えるでしょうか。
今はいくつか異なる点があります。1つは、ターゲット関数が実際には未知ではないということです。システムに理由付けを作成させるために、私は関数fが何であるかを伝えなければなりませんでした。例えば、ここでの問題は、ラベル1はヒント1がヒント0よりも学生にとって有用であることを示しており、その逆もまた然りである、というようなことを言いました。つまり、その関数が何であるかを英語で説明しなければならなかったのです。ある意味で、関数を自然言語で定義したものが利用可能になったということです。
仮説の集合は存在しますが、その集合とは何でしょうか。実際のところ、各仮説はインタープリターとしてのGPT-4と、その関数が何であるかという自然言語の記述から成っています。つまり、学生を最も助けるヒントを選びたいという目的に加えて、前のスライドで見た学習されたルーブリック、すなわち学習された原則のリストが加わります。ですから、すべての仮説は本質的に、学習されたルーブリックと、言語モデルがそれを解釈してラベルを割り当てることを可能にする要素を足し合わせたものになります。
また、言語モデルというオラクルも存在しており、私たちはそれを使用しています。xとyのペアを、関数の自然言語による記述とともに入力として与えています。学生を助けるヒントを選べと指示すると、オラクルは自然言語で理由付けを出力します。
ですので、これは少し違った種類のフレームワークになります。求めている出力は同じですが、これは考えてみる価値のある非常に興味深い種類の問題です。
サンプル複雑性のような質問を投げかけることもできます。明らかにそれらはオラクルと関連しており、オラクルの使用に関する興味深い最近の研究もいくつかあります。しかしそれは同時に、仮説クラスの複雑さをどのように特徴づけるかという疑問も生じさせます。仮説クラスは、これまでに書き留めることができたすべてのルーブリックに対応しているようなものです。
関数記述の曖昧さを理論的にどのように捉えればよいのでしょうか。学生に最も役立つヒントを選べと言った場合、それは実際には何を意味しているのでしょうか。この問題に答えるのを助けるのか、テストに合格するのを助けるのか、それとも彼らの将来のキャリアを助けるのでしょうか。つまり、その自然言語の記述でさえ曖昧なのです。
大規模言語モデルによる有用な特徴量の提案
それが1つ目の例です。2つ目の例にいきましょう。
従来の常識では、関数近似問題は適切に設定されるべきだとされてきました。xからyへの関数があり、ここにいくつかの例があると言います。しかし、私が道端で誰かに話しかけて、何を予測したいのかと尋ねたら、彼らはXではなくYを答えるでしょう。彼らは株価を予測したいと言います。これら6つの変数から株価を予測したい、なんて言う人は誰もいません。本当の問題は、Yを予測したいから残りの部分はそっちで考えてくれ、というものなのです。
そのような問題は常に議論の対象外でした。私は何人かの博士課程の学生にそれを論文のテーマとして取り組ませようと試みましたが、誰もそんなクレイジーなことをやろうとはしませんでした。しかし今ならそれができるのです。
そこで、ターゲットとなる変数を予測するための有用な特徴量を提案してもらうためにLLMを使ってみましょう。
例を挙げます。私がターゲットの予測変数を提案するというPythonプログラムに対して、CMUの機械学習PhDプログラムへの応募者数というターゲットの予測変数を教えてくれと言ったとします。それが文字通りプログラムへの入力です。
そしてこれが出力です。文字通りプログラムからの出力です。それによると、予測変数にはCMUへの過去の週間出願件数を含めるべきだとしています。これは私たちが週ごとに予測を行っていることを前提としています。締め切りまでの残り日数。CMU PhDのような用語のGoogleトレンドの検索ボリュームを使用する。CMUの機械学習部門のページビュー、大学院入試のディスカッションフォーラム、機械学習やAIのカンファレンスの締め切りと合格発表の状況。
なぜそんなものを。あ、ちなみにすべてに根拠がついています。これが重要だと考える理由は、多くの機械学習の博士課程志願者は履歴書を強化するために論文の採択に合わせて出願のタイミングを計るため、これが予測に有用なパラメータになる可能性があるからです。そしてもちろん、ビザや移民政策のニュースも挙げられています。
非常に興味深い例ですね。もう一つ例を挙げましょう。今度は、将来のカリフォルニア州におけるインフルエンザによる入院患者数の予測変数を教えてくれと頼みました。
これが色を除いて文字通りの回答です。色は私が追加しました。それによると、週間のインフルエンザ入院患者数を見るだけでなく、インフルエンザ様疾患の外来受診率も見なさいとのことです。カリフォルニアのワクチン接種率、気象条件、検索トレンド、学校のカレンダーも見なさいと言っています。
これについて面白いのは、私が米国でトップのインフルエンザ予測システムを持つロニ・ローゼンフェルドという人物と一緒に仕事をしているということです。そして私たちは、追加の変数を生成し実験することで予測精度を向上させられないか、このシステムを使って試しているところです。
彼らは学校のカレンダーは使っていませんでした。しかし、これを使って予備実験を行ったところ、これは本当に重要な要素であることが分かりました。なぜなら、その根拠が示しているように、休日の集まりは感染の急増を引き起こし、学校の閉鎖は小児の感染拡大を抑制するからです。つまり効果があるのです。
さて、これは私たちが問題を組み立てる上でどのような影響を与えるでしょうか。
かなり大きなダメージを与えます。私たちはもはや同じ意味でのインスタンスの集合Xを持っていません。特徴量ベクトルがあり、xの特徴量が何であるかを知っているという意味でのインスタンスの集合Xを持っていません。
私たちが持っているのは、まだインスタンスという概念は存在しているということです。私たちは毎週この予測を行うつもりです。ですから、ある意味でそれぞれの週がインスタンスなのです。ただ、それは記述されていないインスタンスに過ぎません。そして、それらの週の間に何らかの確率分布が存在しています。ただ、私たちが持っていた古い表記法は、インスタンスという概念と、それを表現するために使用する特徴量という概念を混同していたのです。私たちはその2つのことを切り離す必要があります。
現在、私たちは空間と時間によってスコープが定められたターゲット変数を持っています。つまり、毎週カリフォルニア州のインフルエンザの罹患率を予測するということです。そしてオラクルも持っていますが、それは今までとは異なる種類のオラクルです。少なくとも同じLLMではありますが、私たちは異なる種類の質問を投げかけています。自然言語で記述されたターゲット変数Yに対して、自然言語で記述された予測変数Xは何になるだろうかと尋ねているのです。
ここでのポイントは、学習問題の難しい部分をコンピュータに担わせることができるようになったということです。何から予測すべきかをコンピュータにどうやって見つけさせるかを探求し始めることができるのです。
自己反省しコードを書く自律型学習エージェント
3つ目、最後の例は、単一の関数近似の代わりに、より強化学習に近い見方をして、エージェントがいて彼らに学習させたいとしたらどうなるかというものです。
もしエージェントがLLMをサブルーチンとして使いながら、自分自身のコードを書くことができたらどうでしょうか。もし彼らが自分たちが行うすべての計算について自己反省することができたら。学習の一部として、将来のために何を記憶しておくべきかを明示的に選択できたら。そして、新しい学習タスクを自ら生成することができたらどうでしょうか。
私には初期段階の研究プロジェクトがあり、自分でも少し傲慢だとは思うのですが、それをPredict Anythingと呼んでいます。これは、予測したいことをテキストで入力すれば、その問題に長期間取り組むように設計されたエージェントです。
Claude Codeにあるセンサーやエフェクターと同様の、ファイルの読み書き、実行、ウェブインターフェースを持つエージェントだと考えてください。システム自体はPythonコードのパッケージと、システムが自ら書き、メモリとして使用する関連ファイルから構成されています。それらすべてを呼び出します。
自己反省メカニズムがあり、次のように実装されています。すべてのPython関数は実行時にログファイルを生成します。そのログファイルはClaudeに渡され、実行結果を生み出したコードを見ながら同時にその実行を分析することができます。
パラメータのチューニングを含むいくつかの学習メカニズムも備えています。それが無関係だと言っているわけではありません。ただ、5年後にはそれが主流の方法ではなくなるだろうと考えているだけです。なぜなら、私たちが今ここで話しているのと全く同じ方法で、LLMを基盤の一部として使い、その上に学習エージェントを構築するようになると思うからです。
では、何が起こるのかを非常に簡単にお見せしましょう。このエージェントにアメリカの月次失業率を予測したいと伝えると、まず最初に行うのは、例2で見たのと同じように、考えられる予測変数のリストを生成することです。初期の失業保険申請件数を見る、株式市場のパフォーマンスを見る、失業関連用語のGoogle検索ボリュームを見る、といったことです。これを生成します。
次に、検索エンジンを使ってウェブ上の情報源を特定し、それらのウェブ上の情報源からデータをダウンロードしようと試みます。そして同じくらい難しいことですが、異なる周期、異なる表記、異なる単位を持つかもしれない異なるウェブ情報源からのデータセットを統合します。しかしこのケースでは、FREDと呼ばれる連邦準備制度理事会のデータサイトからこれらの多くのものを取得できることをウェブ上で発見しました。供給管理協会のサイトには別のものがあり、Googleトレンドにはまた別のものがあります。そこでこれらを見つけ出し、データ取得に役立てるためのコードを書き、これらのサイトのAPIとやり取りするためのコードを書き、データをダウンロードし、予測を行うためにニューラルネットワークを訓練します。
ここで、もし皆さんが投資家なら気になるであろう6月の失業率に関する予測を見ることができます。現在4.3パーセントですが、4.23パーセントへと少し下がるだろうと予測しています。そして、訓練したこのモデルが実際にはそれほど良くないことを示すモデルの精度に関するデータもいくつか持っています。
これが予測のサイクルです。では、学習についてはどうでしょうか。学習の一部は、このサイトからデータを取得する必要があるのにできないという状況に直面した時に起こります。そのためにコードを書く必要があります。つまり学習の一部は、コードベースを生成しているということなのです。
現在、異なるウェブサイトからコードをダウンロードする自身で書いたPython関数を数十個持っており、それらは機能はするものの、機能しない例外ケースも出てくるため、長期的なデバッグのプロセスにあります。それらに偶然遭遇し、それに気づいて修復しようと試みるでしょう。それが学習の一部です。
しかし、学習を本当に推進しているのは自己反省です。先ほどお見せしたトレース、あれがログファイルです。その全く同じログファイルを、この場合はClaude Codeに渡すことができます。私たちはそれをサブルーチンとして呼び出し、その実行について反省するように求めます。どう機能したか。将来のために記録し、対処すべき問題はあったか、と。
すると基本的にはこのように答えます。ログファイル、Pythonモジュールのソース、そしてその設計ドキュメントを確認しました。これが私の分析結果であり、読み取ったこと、検証したことです。最終的な判定は合格ですが、特定された問題が2つあります。
1つ目は、Googleトレンドが上流のレート制限によってエラーメッセージを返したことです。ですので、これはログに記録され、将来的には対処されるべき問題となります。
そしてモデルのパフォーマンスは、明日の数字は今日の数字と同じになるという単純なベースラインを下回りました。しかしUIはこれを正しく報告したため、問題はありませんでした。単にモデルのパフォーマンスの面で期待外れだったというだけです。
これら2つの問題は、実行に対する自己反省から自動的に抽出され、時間がある時に取り組むべき新しい学習タスクとなります。
事象の記録の一部には……この先は議論の時間を多く取りたいので飛ばします。どのようにファイルに記憶として保存するかの詳細をお見せしようと思っていたのですが、いくつか観察結果を記録していると言うだけで十分でしょう。例えば、連邦準備制度理事会のデータサイトFREDの標準APIキーにはレート制限がない、といったことです。いくつかの戦略も持っています。曖昧なクエリについては、人気順に検索を並び替えることで、少なくとも最も人気のある結果が得られるようにする。そして、データセットの欠落、つまり欠損値に対処するための最善の戦略は何か、といった疑問も投げかけています。
このように、反省を行い、将来対処すべきこうした種類の問題を生成しているのです。
会場からの質疑応答
さて、皆さんに従来の常識を疑うよう説得できたかどうかは分かりません。しかしここでのポイントは、機械学習が以前とは大きく異なり始めているということです。それは主に言語モデルが利用可能になったことと、自然言語が情報の非公式な表現であるにもかかわらず、それを情報を表現するものとして扱うことができる能力、そしてほぼどんなことについてでも不完全ながら推論できる能力によるものです。思いつく限りの質問で、何らかの回答が得られないようなものはほとんどありません。
かつてはデータサイエンスやデータエンジニアと呼ばれる人たちがいましたよね。彼らは機械学習システムを設計する人たちでした。新しい世代の機械学習システムは、データエンジニアを内包していると考えてください。私たちがここで見ている問題の多く、その大部分がまさにそれです。
理論にとってこれは、数多くの機会があることを意味していますが、その中心にあるのは、自然言語による表現やその非公式さ、そして言語モデルが行うことのできる一種の近似的な推論をどのように捉えればよいのか、といった問いです。広範な自己反省を行う学習エージェントをどのようにモデル化すればよいのでしょうか。アヴリムと私が94年に授業を教えた時、機械学習の要素として自己反省について言及することすらありませんでした。ええ、これは今後の機械学習において非常に大きな部分を占めるようになると思います。そして、自分自身の学習サブタスクを生成するエージェントをどのようにモデル化するのか。
私には答えよりも質問の方が多いですが、この聴衆の皆さんがいれば、これまでで最も答えを得られるチャンスになるでしょう。ここで終わりにします。
ありがとうございます。次のスピーカーが準備する間、いくつか質問を受け付けます。
あの授業を教えたことは私にとっても大きな経験でした。私はしばらく学習理論の分野で研究をしていましたが、機械に学習させたい具体的なものを実際に持っている人と話をしたのはそれが初めてでした。私にとって、それは単なる抽象的な事柄の集合に過ぎなかったのです。ですから、本当に面白かったですよ。これってずるくないですか、と聞くと、いやいや、私たちは実際にこういうものを求めているんだよ、と返ってきたりして。素晴らしい経験でした。
あなたの講演で興味深い点が浮かび上がりました。私がそこから得たことの一つは、例えば過去に人々が研究していた説明に基づく学習(explanation-based learning)のような多くのパラダイムがあるということです。もしかすると今は、あの当時はタイミングが早すぎたかもしれないけれど、もう一度立ち返ることができるものがある時期なのかもしれません。当時はそうしたことの一部を実行する能力がなかったかもしれませんが、私たちがいるこの新しい世界において、再び見直す意義のある既存の定式化が存在するかもしれないということです。
ええ、あなたに同意します。特に1980年代から90年代初頭にかけて、説明に基づく学習と呼ばれていたものに関する研究の波がありました。先ほど私が挙げた、ナイトのフォーク攻撃を一つの例から自分に説明することで学習するという例は、まさにそこで取り組まれていた種類のことです。一時的な活動の盛り上がりはありましたが、やがて消え去ってしまいました。
なぜ消え去ったのでしょうか。それは、そこでの説明という概念が、証明という概念と同型であったためです。チェスやボードゲームでは、ゲームのルールを知っているため証明を行うことができます。しかし現実世界では、論理的な形式主義の中で物事を証明するのはより困難です。そのため、私たちが求めていた説明を生成する手段が存在しなかったという主な理由で、その研究は途絶えてしまったのです。
今、私たちはそれを手にしています。ですから、歴史の多くを振り返り、今はどうか、今はどうかと問い続けるべき時期に来ているのかもしれないというあなたの意見に賛成します。従来の常識に対しても同じことをすべきです。
トム、私は20年ほど前にバッタの異常発生を予測するアプリケーションに取り組んでいました。それはまさにそのパラダイムに従っていました。もっとも私は頭の中でそれをやっていて、そこには後ろ向き連鎖のプロセスが働いていました。地表から6インチ下の地温さえ分かればうまく予測できるのに。残念ながらそのようなデータソースはありません。そこで今度は新しい予測問題が生じます。地下6インチの地温を予測しろ、と。そして実は、それを教師あり学習で行うためのデータを取得し、その分類器を使って目的の特徴量を合成するといったことができることが分かります。ですから、これは試してみるべきだと思いますが、おそらく単に……
それは良い指摘ですね。あなたがそこで強調していることの一つは、もし次に取り組むべき学習タスクのアジェンダがあるとしたら、データの可用性はそのアジェンダの優先順位を決めるための重要なヒューリスティックになるということです。
関係のない質問が2つあります。1つ目は、あなたは大規模言語モデルを前提として捉えており、私が期待するような学習アルゴリズムの出力としては捉えていないように思えます。
ええ、私はそれらの多くを期待しています。これは推測になりますが。
ある意味で、あなたが見せてくれたものの多くは、私がLLMに対するファインチューニングと呼ぶようなものに関する内容です。しかし、もしかするとそれは将来を見据えたビジョンなのかもしれません。それらのファインチューニングがモデルの一部として組み込まれるようになるかもしれないという。
ええ、ええ。それは良い指摘です。LLMをどのように訓練し、どのようにあなたが考えるのとは違う方法で制約を加えるかを理解することは、依然として非常に重要です。ですから私はそれに反論しているわけではありません。あなたに同意します。しかしご覧の通り、私たちはその上に構築することができるのです。ええ。私にとってこの類推はコンパイラです。コンパイラが存在する前は、誰もがアセンブリコードでプログラミングをしていました。そしてコンパイラが登場し、そのコンパイラに取り組み、より良くしていくことは重要でした。しかし突然、計算機科学の全く新しい分野が開かれたのです。おお、すごい、コンパイラがあるぞ、と。どんな言語を作るべきか、どんなツールを作れるか、といった具合に。私たちは今、同じような発展段階にいるのだと思います。LLMの訓練を改善し続ける必要がありますが、同時に次のレイヤーにも目を向け始める必要があるのです。
2つ目の質問ですが。
どのように想定していますか。評価については全くお話しされませんでしたね。なぜなら、これは見る人の主観に依存するようなものだからです。ほら、これは良さそうだ、というように。ええ、今使われているような何かの確率のログロスよりも、もっと良い評価指標が必要だと思います。ええ。
終わりのない学習タスクとして予測問題を選んだ理由は、それを評価できるからです。評価が難しい試みはたくさんありますが、私はあなたに同意します。過去1〜2年のフロンティア企業であるGoogleやOpenAIから得られた教訓の一つは、成功を評価できるのであれば、システムがそれに秀でるように訓練できるということです。もしできないのであれば、暗闇の中をさまよっているのと同じです。はい。
手短にコメントします。実はイシャイと同じような意見です。あなたが比較すべきなのはPAC学習ではなく、半教師あり学習や自己訓練、ゼロショット学習かもしれません。なぜならあなたは機械学習の用語を使って暗黙の仮定を置いているからです。あなたの帰納的バイアスは、使用されたアノテーションに対してGPT-4が与えた説明が、ヒント1がヒント2より優れているかどうかというタスクに対して適切であるというものです。そしてこの仮定が正しいとなれば、もちろんそれを使って自己訓練し、与えられたヒントが何であれ抽出し、自己訓練することができます。ですからこれは共訓練(co-training)のような半教師あり学習を強く思い出させます。ターゲット関数の形態だけでなく、より一般的に半教師あり学習やゼロショット学習などに関する追加の暗黙の仮定を置いているのです。ですから、これはより……ええ、特にイシャイが言ったことですね。
これはかなり微妙な問題です。なぜなら、ここでのポイントは、実はLLMについて何らかの仮定を置いているのではないかということだからです。
その仮定が適切であるということです。もし適切でなければ、結果は……
ええ、適切か適切でないかですね。私がやった実験を短くお話ししましょう。ある日私は意地悪な気分だったので、起きてシステムに嘘をつきました。すべてのラベルを反転させたのです。そして私は、学生にとって何が最も役立つかを学習しているのだと伝えた上で、実際には学生にとって最も役立たないもので訓練させました。すべてのラベルを反転させたのです。システムはなぜもう一つのヒントが悪いのかについて理由付けを書くのに何の問題もありませんでした。人間みたいですよね。
そしてルーブリックを作成し、それを抽出することにも何の問題もありませんでした。ちょっとおかしなルーブリックですが。もしその学習されたルーブリックをシステムに与えれば、案の定、パフォーマンスは向上するどころか低下します。ですから、データが実際には非常に重要であるというおかしな現象が起きています。もっともらしい説明はいくつでも生成できます。しかしグランドトゥルースを知っていること、この場合はヒント1であるということが、ある種微妙な方法で焦点を絞り込ませており、私には完全には理解できていません。ですから、それがそうであるべきだということに同意します。
自己訓練でも同じことが起こるでしょう。データは重要です。
その通りです。
仮定とデータとの関係が重要です。ですから、これはとても……
ええ、自己訓練に関連しています。
ゼロショット学習、半教師あり学習が、ここでの理論を始めるための出発点になります。
ええ、良い指摘です。
休憩時間にまた話し合いましょう。トムに感謝します。
さて、次のスピーカーはアダム・カライです。私は時間が経つにつれて、彼が何を話し、何をするかを予測しようとしないことを学びました。しかしここ数年、彼は彼の……


コメント