トーマス・ディーテリッヒと共に探る機械学習、ディープラーニング、コンピュータビジョンの未来

AIに仕事を奪われたい
この記事は約27分で読めます。

15,763 文字

The Future of Machine Learning, Deep Learning and Computer Vision with Thomas Dietterich
This episode is sponsored by Speechmatics. Check it out at www.speechmatics.com/realtimeToday, we're joined by Dr. Thoma...

ディーテリッヒ: ワイの主な発見の1つは、例えばコンピュータビジョンの分野では、その力の源は独自の表現を学習することにあるってことやね。最初に機械学習システムを構築し始めた頃は、専門家の知識を書き下すんじゃなくて、専門家に「どんな特徴を見てるん?何を探してるん?」って聞いてたんや。そして、それらを検出する特徴検出器をコーディングして、学習アルゴリズムに入力してたんよ。
司会者: はい、お名前をお聞かせください。
ディーテリッヒ: ワイはトム・ディーテリッヒいうんやけど、1977年くらいから機械学習の分野で研究しとるんや。実はな、機械学習っちゅう分野は1950年代後半にスタートしたんやで。当時IBMで働いとったアーサー・サミュエルっちゅう人が、チェッカーってゲームをプレイする最初のプログラムを作ったんや。世界クラスのレベルじゃなかったけど、趣味レベルではかなり上手やったんよ。
でもな、1960年代と70年代の人工知能の焦点は、学習じゃなくて、人間の知識をプログラミング言語で書き下すことやったんや。ルールベースシステムっちゅうのを使ってたんよ。
1980年代初頭には、エキスパートシステムっちゅうもんを中心に、人工知能のブームがあってん。これは、例えばキノコの毒の有無を識別したり、血液の病気を診断したりするために、その分野の専門家にインタビューして、その知識を特定の言語でコード化しようとしたんや。今で言うドメイン固有言語(DSL)みたいなもんやね。そして、その知識を使って新しいケースを診断する推論エンジンを作ったんや。
ワイは、人間の専門家に聞くんじゃなくて、トレーニング例を与えてコンピュータにこれをさせられるんちゃうかと考えた小さなコミュニティの一員やってん。1980年に、カーネギーメロン大学で最初の機械学習ワークショップが開かれたんや。ワイはその時、修士課程の学生で、たぶん博士課程に入ったばっかりやったと思うわ。そこには30人くらいの参加者がおったんやで。
さて、今日に話を進めよか。ワイのキャリアの中で、基礎と応用の両方の問題に幅広く取り組んできたんや。ワイの好きな働き方は、面白い応用問題を見つけて、それを解決するために新しい機械学習の問題を特定することやね。
1991年から92年にかけて、ワイはスタートアップの製薬会社で働いとってん。そこで機械学習を使って薬の最適化、つまり薬の設計をしようとしてたんや。でも、会社としては成功せんかったわ。30年早すぎたんやろうな。
でもな、そこで今では多重インスタンス問題として知られる問題に出くわしたんや。従来の機械学習では、例えば鳥の写真を見せて「この鳥はこの種類や」って教えるやろ。そして、コンピュータにブルーバードとかを認識させようとするわけや。
でも、薬の設計では、分子構造を見せて「この分子は薬のターゲットにアクティブに結合してるか、してへんか」を判断させるんや。問題は、分子がめっちゃ揺れ動くってことなんよ。硬い構造じゃないんや。だから、分子がどの形で結合してるかわからへんのや。
分子を鍵に例えるとわかりやすいかもしれへんな。分子は1つの鍵じゃなくて、鍵束みたいなもんやねん。実験室では、その中の1つが鍵穴を開けてることはわかってるけど、どれかはわからへんのや。これが今で言う弱教師あり学習データの例やね。完璧なトレーニング例じゃなくて、「これが写真で、これがカテゴリー」みたいな感じじゃないんや。
ワイのキャリアの中で、エコロジーと持続可能性の問題にも取り組んできたんや。ワイがおるオレゴン州立大学は、エコロジーや海洋学、大気科学なんかの分野で超一流なんよ。そういう分野の人たちと協力してきたんや。
コーネル大学のカーラ・ゴメス教授と一緒に、全米科学財団から大規模な助成金をもらって、計算持続可能性っちゅう分野を立ち上げたんや。これは、環境と経済の持続可能性、社会の持続可能性を促進するためにコンピュータサイエンスの研究をすることやった。
ワイは直接関わってへんかったけど、そこから出てきた最も重要な方向性の1つが、新しい材料の設計にコンピュータサイエンスと人工知能を応用することやったんや。今、材料科学でそれが大きく応用されとるんよ。
大規模言語モデルやコンピュータビジョンへの興奮はあるけど、ワイが経済に変革的な影響を与えると賭けるなら、新しい材料や新しい薬の開発やね。これらは産業プロセスや医療の能力を大きく向上させるし、おそらく炭素回収なんかにも役立つやろう。
でも、ワイの話から外れてもうたな。ワイの話を続けると、ここ15年くらいは、ラムズフェルドの問題、つまり「知られざる未知」の問題を心配してきたんや。AIシステムを構築する時、過去のトレーニングデータを集めて、コンピュータにそのデータでうまくやれるように教えるんや。そして、未来が過去と似てることを期待するわけや。
例えば、医療システムが見る病気について考えてみよか。新しい病気はなくて、いつも見てきた病気だけを見るって仮定するわけや。自動運転車でも同じで、今まで見てきたような車や自転車、その他のものだけを見ると仮定するんや。
でも問題は、世界は静止してへんってことや。変化し続けてるんや。これがワイが思うに、AIシステムの根本的な脆弱性や弱点の1つなんや。基本的に保守的で過去を振り返る技術やから、新しいものに対処する能力がもっと必要なんや。
例えば、新しい病気の患者を見てる時、コンピュータは「これは今まで見たことのないものや」って言うべきやねん。COVID-19の患者の胸部レントゲンを初めて見た時、コンピュータは「これは今まで見たことのないものや」って言うべきやったんや。
これは時々、新しいカテゴリーの問題とか、オープンセット問題とか呼ばれてるんやけど、基本的には新規性にどう対処するかって問題や。ワイはこれを、組織内のサイバーセキュリティやインサイダー脅威の文脈で研究してきたんや。コンピュータビジョンでも一般的に見てきたし、産業プロセスでも見てきた。
例えば、溶接機が溶接したときに何か問題があることを検出するとか、その溶接が正常に見えへんことを検出して、フラグを立てるとかやね。
ワイがもらった賞は、機械学習と人工知能の長年の仕事に対する一種のキャリア賞みたいなもんやったんや。
司会者: エキスパートシステムの後、例えば新しい材料の研究や、堅牢なAIの研究なんかは、主に教師あり学習システムを見てはるんですか?それとも、Transformerベースのモデルのレンズを通して見てはるんですか?
ディーテリッヒ: ワイは主に教師あり問題に取り組んできたんやけど、ワイの主な発見の1つは、例えばコンピュータビジョンの分野では、ディープラーニングの問題の1つは、それが独自の表現を学習するってことやね。
機械学習システムを最初に構築し始めた頃は、専門家の知識を書き下すんじゃなくて、専門家に「どんな特徴を見てるん?トウモロコシの植物の赤や黄色の斑点を見てるん?何を探してるん?」って聞いてたんや。そして、それらを検出する特徴検出器をコーディングして、学習アルゴリズムに入力してたんやけど、コンピュータビジョンではそれであんまりうまくいかへんかったんや。
ImageNetチャレンジが来た時、我々のパフォーマンスはあんまり良くなかったんや。でも、2011年から2012年頃にディープラーニングのアイデアが分野に再注入された時、これらのコンピュータビジョンの問題でめっちゃ良い成績を出したんや。それは、ディープラーニングの層を使って独自の表現を学習できたからやねん。
より深い層が面白い画像パッチやパターンを検出することを学習できて、それがキリンかジャーマン・シェパードかを判断するのに必要やったんや。でも、新規性や新しいものを検出する時、これらの表現はあんまりうまく機能せえへんってことがわかってきたんや。
ディープラーニングの方法は、表現することを強制されたものだけを表現するんや。ちょっと怠け者みたいなもんやね。例えば、象の訓練例を1つも与えてへんかったら、象の写真を初めて見せられた時、鼻や牙はディープネットワークではあんまり表現されへんかもしれへん。足、目、爪、足なんかは表現するかもしれへんけど、象の顔から生えてる巨大なものについては「なんやこれ?」って感じやねん。過去にそんなもん見たことないから、表現を学習してへんのや。
でも、その解決策の1つは、興味のある対象だけじゃなくて、あらゆるものを認識するようにシステムを訓練することやね。つまり、自動運転車のX線写真や自転車だけじゃなくて、世界中のあらゆる種類の物体を認識するように訓練するんや。そして、それを自己教師あり戦略でやるんやね。
アイデアは、世界の変動性をできるだけ多く捉えることや。そうすれば、新しいものに出会った時に「象は見たことないけど、蛇は見たことあるな。あれは蛇みたいやけど足があるな。蛇に足がついてる組み合わせは確率がめっちゃ低いから、これは新しいもんに違いない」って言えるんやね。これがワイが考える前進の道筋や。保証はないけど、少なくともシステムは我々が見方を知ってるすべてのものを見ることを学習してるんや。ワイはこれが前に進む道やと思うんや。
司会者: はい、自己教師あり学習モデルや世界モデルについて、ヤン・ルンさんとたくさん話をしました。事前学習済みのTransformerモデルが本当にそれを達成してるように見えます。データのラベル付けはほとんど、あるいは全く必要なくて、ただデータを取り込んで独自の世界表現を構築するんです。そして、それを照会できるんですよね。あなたの最新の研究では、生成AIやTransformerモデルはどんな役割を果たしているんですか?
ディーテリッヒ: コンピュータビジョンの物体認識では、主にビジョンTransformerモデルを使ってるけど、畳み込みニューラルネットワーク(CNN)よりも大幅に良いかどうかはわからへんな。画像はトークンの列じゃないから、人工的に領域に分割してトークン化せなあかんのや。CNNsは世界に関する知識、つまり2次元で、カメラを動かしてもキリンが象に変わるわけやないっていう翻訳不変性を組み込んでるんや。
だから、ワイはTransformerモデルが物体認識のコンピュータビジョンでそれほど大きな影響を与えてへんと思うんや。単一フレームからの物体認識ではな。でも、時間を入れて動画を見る時は、Transformerモデルはめっちゃ柔軟に過去を振り返って、時間を超えた面白い関係を見つけられるんや。
例えば、ビデオのフレームレートを1秒10フレームから40フレームに変えても、世界は変わらへんけど、Transformerはそれに対処できるんや。「2フレーム前を見る」っていう固定的なやり方やと、フレームレートを3倍にしたら6フレーム前を見なあかんってなるけど、注意機構を使えばそんなん問題ないんや。
だからTransformerはめっちゃ強力で面白いツールやと思うんやけど、訓練にはより多くのデータが必要やし、訓練コストも高いんや。どの応用にどんな組み合わせが適切かは、まだオープンな問題やね。
司会者: 多重インスタンス学習について話されましたが、それについてもう少し詳しく教えていただけますか?Transformerモデルでは、単一のモデルではなく、モデルを積み重ねたり、モデル同士で議論させたりする傾向が増えてきてますよね。そういった文脈での多重インスタンス学習について教えてください。
ディーテリッヒ: 多重インスタンス学習は、例えばコンピュータビジョンでは弱教師あり学習の一種やね。例えば、アフリカのカメラトラップのデータで作業したことがあるんやけど、モーションセンサー付きのカメラを設置して、動物が通ると数枚の静止画を撮るんや。そして、その画像の中の動物を全部見つけて、種類を決めて、数を数えたいわけや。
理想的な教師あり学習問題にするなら、人間に画像の中の各動物、例えばトンプソンガゼルを輪郭で囲ってもらって、「これはトンプソンガゼル」って言ってもらうんやけど、それはめっちゃ面倒くさいんや。だから普通は、画像を見せて「ガゼルは何匹おる?」って聞いて、数えてもらうんや。「8匹や」って言われたら、画像に8匹のガゼルがおるってわかるけど、どこにおるかはわからへんのや。
これも多重インスタンス問題の例で、ただの弱いラベル付けの形やね。ビジョンシステムはガゼルかもしれんものの仮説をたくさん生成せなあかんのや。「あそこにガゼルが2匹、象が2頭、シマウマも1頭おるな」って言われたら、いろんな画像を比較して「シマウマはこの縞々のやつやな」みたいに理解せなあかんのや。
統計的には、システムはそれを学習できるんやけど、より多くのデータが必要になるんや。1つの画像から得られる情報は少ないから、量でカバーせなあかんのやね。
司会者が説明してるのは、どっちかというとアンサンブルアプローチやね。複数のモデルを組み合わせて精度を上げるっていう。2000年頃にアンサンブルアプローチが大きく花開いて、ワイの最も引用されてる論文は、なぜアンサンブルが役立つかっていう解説論文なんや。Kaggleのコンペに勝つには一番安上がりな方法やね。
でも、ディープラーニングで見られるアンサンブルは、ちょっと違うんや。従来のアンサンブル学習は、100個か1000個の本当に安いモデルを訓練して、全部に投票させるっていう前提やったんやけど、大規模言語モデル(LLM)は安くないんや。小さな言語モデルでも安くはないし、推論のコストも高いんや。全部のモデルに入力を評価させてから結果を組み合わせるのは大変やねん。
だから、もっと選択的なアプローチを取ってるんや。例えば、専門家の混合アプローチでは、入力に基づいてどの専門家が関連してるかを学習しようとするんや。めっちゃ深いTransformerネットワークの大規模言語モデルを、本質的にモデルの家族と考えることもできるんや。4層の深さのモデル、5層、6層、7層…みたいな感じでね。
だから、早期終了っていうのができるんや。入力を入れて、4層か8層くらいで評価して、モデルがすでに答えに自信を持ってたら、そこで計算を打ち切ることができるんや。あるいは100層まで全部計算して、各層からの100個の異なる投票を得て、それを組み合わせてより良い精度評価ができるんやね。
そして今、GPT-4とか、何をしてるかよくわからへんけど、複数のLLMへの呼び出しを組み合わせたシステムがあるんや。候補を生成したり、候補を評価したり、ランク付けしたり、不確実性を評価したりするのに、異なるLLMを呼び出すんや。今はそれをサポートするプログラミングフレームワークも出てきてる。めちゃくちゃ面白い時代やね。
理論的にどうすればええかあんまりわかってへんけど、エンジニアリングの経験はどんどん積み重なってるんや。ディープラーニングの登場で、実験とエンジニアリングが理論をはるかに追い越してしもうたんや。だから、アカデミックサイドの我々は本当に追いつくのに必死で、数学的な観点からどういうことが起こってるのか説明しようと頑張ってるんやで。
司会者: そうですね。Transformerモデルが本格的に登場する前は、大きな学会で「教師あり学習はもう研究し尽くされた」って不満を聞いてました。小さな進歩はあっても、本当に大きな変化はなかったんです。でも、Transformerモデルのスケーリングで分野が変わって、今はみんながそっちに走ってる感じですね。全員じゃないにしても、大半の研究者がそこで働いてる。
リッチ・サットンとも時々話すんですが、彼も賞を受賞されましたよね。強化学習は完全に忘れ去られたわけじゃないですが、一部のモデルやシステムのコンポーネントとして使われてる程度ですよね。
機械学習の中で、まだ大きなブレークスルーが起きる可能性のある分野はあると思いますか?長期的に見て、生成AIは重要な開発になるでしょうが、他の開発もあるでしょうか?今、多くの人がニューロシンボリックシステムに取り組んでますよね。5年前は、シンボリックな人たちは本当に不人気でした。これらはどう位置づけられるんでしょうか?それとも、教師あり学習と自己教師ありシステムを超えて進んでいるんでしょうか?
ディーテリッヒ: うーん、たくさん質問があるなぁ。ちょっと整理させてな。
まず、教師あり学習の分野では、ディープラーニングが登場する前から、機械学習の理論を揺るがすようなことが起こってたんや。我々は皆、モデルの自由度の数がデータポイントの数より少ない場合を研究してたんやけど、これは訓練データに過適合するのを防ぐためやってん。正則化とか他の制約を使って、モデルが訓練データに過適合するのを防いでたんや。アンサンブルもその話の一部やったんやけどな。
でも、ブースティングみたいなアルゴリズムで、すでに概念的な危機の兆しがあったんや。訓練データに適合した後も、独立したテストデータでの精度が向上し続けるっていう現象が見られたんやけど、これをうまく説明できへんかってん。
そして、ディープラーニングでそれがもっと顕著になったんや。訓練を続けると、訓練データでのエラーがどんどん下がって、ほぼゼロになるんやけど、それでもテストデータでのパフォーマンスが向上し続けるんや。これは本当に不思議で、我々の理論ではこれを説明できへんかったんや。
今でも完全な説明はできてへんけど、理論的な研究はたくさんあって、何が起こってるかについてはずっと深い理解ができてきてるんや。例えば、最近のめっちゃ興味深い論文で、トロント大学のジュガテ教授が書いたものがあるんやけど、これらのTransformerモデルが最適なパフォーマンスを達成するには、訓練データの一定の割合を記憶せなあかんって示してるんや。これは一種の過適合やね。もちろん、これは著作権の問題にも関係してくるんや。
だから、理論はまだ実践に追いついてへんのやけど、それでも主に教師あり学習の設定で分析されてるんや。
さて、大規模言語モデル(LLM)から人工知能全般に対して得られた最大の教訓は、訓練を自己教師ありでできれば、インターネットスケールまでスケールできるってことやね。この教訓は忘れへんと思うわ。
LLMや統計的学習には多くの問題があるけど、新しいものを提案する人は、どうやってインターネットスケールまでスケールするかを示さなあかんのや。これが、ニューロシンボリックアーキテクチャの問題につながるんやね。
ワイは「大規模言語モデルの何が問題か」っていう講演をしてるんやけど、最大の問題の1つは、世界に関する事実的知識がすべてこれらの深いネットワークの重みに格納されてるってことやと思うんや。ワイは、そういった事実的知識は、知識グラフやデータベース、あるいは何らかの明示的な知識表現で記号的に保存されるべきやと思うんや。そうすれば、編集や変更がめっちゃ簡単になるからね。
これらの深いネットワークは本当に巨大な一枚岩で、更新するのがめっちゃ難しいんや。もちろん、それに取り組んでる人もおるけど、現在の継続学習やディープラーニングの研究では、LoRAみたいな方法以外に効率的な追加訓練の方法を見つけられてへんのやね。でも、それでもまだかなりコストが高いんや。
だから、これがニューロシンボリックタイプのアーキテクチャの例やね。ワイがめっちゃ興奮してるもう1つは、シンボリック回帰や。最近、物理学者や大気科学者の講演をたくさん見てるんやけど、彼らはこのシンボリック回帰アルゴリズムを使ってるんや。PySRっていうPythonパッケージがあって、これがかなり簡単な作業でデータに代数方程式を当てはめようとするんや。超越関数も入れられるかもしれへんけどな。
彼らは、これがずっと解釈しやすいって気づいてるんや。シンボリックな式をデータに当てはめた後、その式の異なる部分がどんな物理的プロセスを捉えてるかを解釈できるんやって。
今年のICHAIでは、パデュー大学からこのシンボリック回帰モデルを本当に改善する素晴らしい研究があってん。これは全く別の研究の方向性やけど、科学の実践に大きな影響を与えてると思うわ。
司会者: そのシンボリック解釈について、2つ目の言葉は何でしたっけ?
ディーテリッヒ: シンボリック回帰や。入力があって、実数値の応答変数があるやろ。普通はそれに深いネットワークを当てはめるけど、これらの人々は代わりに方程式を当てはめるんや。つまり、y = f(x)っていう形やけど、f(x)は実際にはなんらかの式なんや。
使えるものの語彙を与えるんや。対数や指数関数、正弦関数、掛け算、割り算、引き算なんかをな。そして、その式の空間を探索するんや。この分野の初期の研究は1980年代にパット・ラングレーがハーバート・サイモンと一緒にやってたんやけど、サイモンの最後の研究プロジェクトの1つやってん。でも、その後はあんまり進展せえへんかったんや。
でも今、科学者たちがこれを取り上げて、かなり平凡なツールでも実際にめっちゃ役立つって気づいてるんや。これが機械学習の研究者たちを刺激して、もう一度この問題に戻ってきて、どうやってこれらのアルゴリズムをスケールアップして、かなり高次元の問題でも効率的で効果的にできるかを見てるんやね。
司会者: そのシンボリック回帰では、データに合わせて方程式を作るんですよね。その方程式を使って、見たことのない他のデータを見て、そのデータから何かを抽出することはできるんですか?
ディーテリッヒ: うん、新しいデータに対して予測を立てるために使えるんや。これは標準的な教師あり学習やけど、当てはめるモデルがカーネルやディープラーニング、決定木なんかじゃなくて、代数なんや。
だから、解釈可能性がすぐに得られるんや。意味のある入力特徴を与えれば、なおさらやね。でも、カメラやセンサーから来る低レベルの入力を使ってる場合は、問題が出てくるんや。質量や加速度なんかの興味のある物理量を直接観測してへんし、直接与えられてへんからな。これらは潜在変数になるんや。
これで、ヤンの世界モデルみたいなものに戻ってくるんやけど、きれいな代数形式で関数を表現するために、これらの潜在変数を発見する必要があるんや。この分野で研究してる人を知らんけど、きっと誰かがやってると思うわ。でも、ヤンは確実にやってへんな。
まあ、これらのシステムのダイナミックモデルを学習しようとする時、まだネットワークモデルを使ってるんや。エンドツーエンドの微分可能性が欲しいからな。一方、シンボリック回帰は、代数表現の離散空間での離散的な探索やからな。構造化されたオブジェクトで、組み合わせ探索のすべての問題を抱えてるんや。
司会者: 応用面で作業されてるって言ってましたよね。理論はまだ実践に追いついてないけど、実装面で作業されてるって。どんなシステムを使ってるんですか?確か山火事の検出の研究もされてましたよね。
ディーテリッヒ: そうやな、これで強化学習の質問にも答えられるわ。山火事の管理に関するプロジェクトをやってたんやけど、これを主に強化学習問題として定式化したんや。
我々が問うてた質問は、燃料処理をどこに適用すべきかってことやったんや。アメリカや他の国でも問題になってるんやけど、20世紀のほとんどの間、できるだけ早く火を消してきたんや。でも、生態系の自然な火のプロセスでは、少なくとも太平洋岸北西部では、頻繁に低強度の火事があったはずなんや。
これらの火事は森の下層を焼くけど、大きな木は無傷のままにするんや。実際、ネイティブアメリカンはこれを達成するために意図的に景観を管理してたんやけどな。でも、我々が火をすぐに消してきたせいで、森の下層に燃料が大量に蓄積してしもうたんや。その結果、発火したらめっちゃ強烈な火事になってしもうんや。
そこで問題になるのが、人を派遣して下層に蓄積した燃料を除去できへんかってことなんや。でも、これはめっちゃコストがかかるんや。だから、雷とかで火事が起きた時にその大きさをコントロールするために、どこが一番いい場所かを研究したんや。
もう1つ研究したのは、責任保険のポリシーや。例えば、あんたが森のパッチをいくつか所有してて、ワイも他のパッチを所有してるとするやろ。ワイの土地で火事が始まったとする。これは、ワイが燃料削減をちゃんとやってへんかったせいかもしれへん。そして、その火があんたの森に広がったとする。あんたは燃料削減をちゃんとやってたとしてな。
この場合、ワイはあんたの木材計画の損失に対して責任を負うべきやないか?我々はマルチエージェント強化学習を使って、異なる責任規制の可能性を研究したんや。各土地所有者は自分の土地に燃料処理を適用するかどうか、木を伐採して木材にするかどうかを選択するんや。これは太平洋岸北西部のモデルやけど、東南部の森にも適用できるやろうな。
質問は、この種の責任を持つべきか、それとも「火事は天災やから、誰も責任を負うべきやない」って言うべきかってことやったんや。我々が発見したのは、「燃料リスクレベルを合理的なレベルに維持してる限り、自分の財産で始まったことに対して責任を負うべき」っていうポリシーが、実際には最良の結果をもたらすってことやったんや。
もっと厳しい規制は、実際にはもっと悪い結果をもたらしたんや。基本的に、ニュースで見るほど火事は珍しくないけど、あんたの土地が実際に燃える可能性はめっちゃ低いんや。だから、隣人がやってる燃料負荷削減に頼って、ただ乗りしようっていう強い誘因があるんや。
納税者として、あるいは木材会社として…実際には逆で、木材会社の方が連邦政府よりも土地管理をうまくやってるんや。まあ、これが強化学習で研究できる種類のことやね。
司会者: あなたのアプローチは常に、問題を見て、それに適用できるAIの種類を考えることだと言ってましたよね。これは新しい推論エージェント、例えばGPT-4とかができることですか?AIシステムを特定の問題にマッチさせたり、問題を定式化したりするのを手伝えますか?
ディーテリッヒ: そうやな。産業界、例えば化学や多くの産業プロセスで遭遇する非常に標準的な問題を考えてみよう。プロセスを最適化したいってことやろ。線形計画法や二次計画法を定式化して、大きな最適化パッケージを使いたいかもしれへん。そして、それをロバストにやりたいかもしれへん。これはさらに複雑さが増すんやけどな。
これらの問題を正しく定式化するのはめっちゃ難しいんや。でも、大規模言語モデル(LLM)を使ってSQLクエリを書いたり、コードを書いたりできるのを見てるやろ。同じように、これらの最適化問題を定式化するのにも使えるかもしれへんな。
これは別の種類のニューロシンボリックアプローチの例やね。基礎モデルの幅広い世界知識を使って問題定式化を手伝い、それを線形計画法や計画問題、スケジューリング問題を解くのに完璧な、非常に特殊な推論エンジンに引き渡すんや。
ワイは、これには可能性があると思うんや。これらの大規模言語モデルは、世界に関するめっちゃ広い知識を持つ初めてのものやからな。これまでこんなシステムを作れたことがないんや。
ワイの人生の大部分の間、我々のコンピュータシステムやAIシステムはめっちゃ狭かったんや。これらのシステムは自分の分野では非常に深い推論ができたけど、しばしば常識が欠けてたんや。論理的には正しい結論を出すけど、実際には全然筋が通らへんってことがよくあったんや。
ワイがめっちゃ興奮してるのは、このループを閉じることなんや。大規模言語モデルから始めて、抽象的に推論問題を定式化して、定理証明機や最適化器に引き渡す。でも、そこで終わりやなくて、解決策を取り戻して、LLMに評価させるんや。
「ワイが定式化した問題から論理的に、数学的に演繹的に導かれた解決策やけど、これは筋が通ってへん。常識的なことをいくつか違反してるわ。問題を再定式化して、もう一度試してみよう」みたいな感じでな。
抽象的推論の力は、クランクを回せば完璧に健全な推論ができることやけど、弱点は問題の文脈を捨ててしまうことなんや。だから、答えを得たら、常に学生に「元の問題に戻って、これが本当に筋が通ってるかどうか確認しろ」って教えてるんや。
これは伝統的にAIシステムが失敗してきたところで、今我々には機会があると思うんや。
GPT-4やこれらのモデルが本当に示してるのは、1950年代から70年代にかけてニューウェルとサイモンがやってた仕事を見ると、彼らは「人々がどうやって現在直面してる問題を解決するのに適切な知識を呼び出すか」っていう問題について多く語ってるんや。
人をある文脈に置くと、何十億もの知ってることの中から、その文脈に関連する知識を取り出せるんや。少なくとも大規模言語モデルは何百万ものことを知ってて、我々の狭いAIシステムではこれは問題にならへんかった。知ってることが少なすぎて、全部取り出せばよかったんや。
でも今、LLMでは数十億のことを知ってるから問題が出てくるんや。これが、プロンプトエンジニアリングにこんなに多くの仕事があるわけなんや。読んだすべての科学記事や新聞から、この状況に関連する知識の断片を呼び出そうとしてるんや。
今、我々はこれについてたくさんの経験を積んでるし、人々は取り出しを最適化するツールまで作ってるんや。思考の連鎖とかを考えると、これらは初期の問題声明を、記憶にアクセスする時に正しいものを取り出すような声明に再表現したり変換したりする方法やね。
これらが知識を表現する最良の方法かどうかはわからへんけど、伝統的に知識を多く取り出しすぎると、別の探索問題が発生して、組み合わせ爆発が起こるんや。取り出したものをすべて試さなあかんからな。
我々が期待してるのは、いくつかのものを取り出した時に、LLMがそれぞれの知識の塊が手元の問題にどれくらい関連してるかを評価できることや。そうすれば、組み合わせ爆発を避けられるんや。
今はこの分野でちょっと手探り状態やけど、これが解決できれば、昔ながらのAIでいつも遭遇してた組み合わせ爆発を克服できるんや。システムが知識不足で、どの推論パスを追うべきか選択的になれへんかったんやからな。
だから、これもめっちゃ興味深いと思うんや。
司会者: これらのモデル、Transformerモデルが推論能力を高めるにつれて、科学研究で役割を果たせると思いますか?仮説を立てたり、問題を解決したりするのに。
ディーテリッヒ: うーん、ちょっと躊躇するな。LLMも統計的学習のすべての問題に弱いと感じるからや。
ワイのお気に入りの最近の論文の1つは、プリンストン大学のトム・グリフィス研究室から出たもので、第一著者はトム・マッコイや。「自己回帰の残り火」っていう題やったと思う。副題は覚えてへんけど。
基本的なアイデアは、LLMが訓練データの分布にめっちゃ依存してるってことを示してるんや。たくさんの例を見た問題には、はるかに正確やけど、経験が少ない問題にはそうじゃないんや。これは統計的学習から予想されることやね。
同様に、質問の正しい答えが実際に低確率の単語列の場合、代わりに高確率の誤った答えを出力する傾向があるんや。ワイはこれが幻覚の傾向の原因の1つやと思うんや。
この問題を解決せなあかんと思うんや。これは統計的学習の核心に関わる問題やからな。教師あり学習も教師なし学習も、すべての方法が訓練データの分布にめっちゃ依存してて、その訓練データの分布が変わるとすぐに脆弱になってしまうんや。
我々は、これらのシステムを分布の変化にもっとロバストになるように訓練する方法を見つける必要があるんや。理想的には、分布に依存しない学習ができればええんやけどな。事実を学習して、その事実が訓練分布に関係なく真であるようなもんや。
これをどうやって達成できるかは、ワイにもまだ全然わからへんけど、ワイの直感では、少なくともたくさんの訓練データがある入力空間の部分では、モデルがその領域で滑らかであることも証明できれば、訓練データポイントの間で何か変なことをしてへんってことやから、確率分布に関係なく良いパフォーマンスが出せるって保証が得られるはずやと思うんや。
分布が十分に広がっていれば、つまり1つのことに集中しすぎてへんかぎりはな。いつも間違えるその1つのことにすべてのクエリが集中するなら、それは防ぎようがないけど、クエリ分布にある程度のエントロピーがあれば、うまくいくはずやと。
ワイはこれが、機械学習の安全性が重要なアプリケーションにも必要やと思うんや。ワイは全米科学アカデミーの機械学習と安全性が重要なアプリケーションに関する研究に参加してたんやけど、主に自動運転車や自動飛行機、医療アプリケーションを見てたんや。
従来の安全工学と、機械学習を導入するためにはどう変える必要があるかを見てたんやけど、大きな問題は、5ナインの信頼性を与える統計的学習アルゴリズムがないってことやね。
機械学習で99%正確なものを得るのもめったにないんや。通常は90%台後半で、それでもめっちゃ喜んでるくらいやからな。
この難問の解決策は、システムが不確実性を極めて信頼性高く定量化できる必要があるってことやね。「ワイはどれくらい不確実か知ってるから、答えを出せば5ナインの確率で正しいって保証できる。でも、不確実な場合はそれをフラグ立てして、他の意思決定プロセスに頼る」みたいな感じやね。
これは不確実性の定量化の問題につながるんやけど、ワイはこれが大規模言語モデルにとってめっちゃ大きな問題やと思うんや。世界中で十数のグループがLLMから良い確率推定を得ようとしてて、それがどれくらい幻覚の問題を解決できるか見ようとしてるんや。
司会者: 訓練データをキュレーションすることについて話す人もいますよね。訓練データにあまり無駄なものや雑音が入らないようにする戦略で、有望なものを見たことはありますか?
ディーテリッヒ: うん、伝統的な戦略は外れ値検出や異常検出のアプローチやったんや。教師なし学習法を適用して、訓練分布がどんな感じかを理解しようとするんや。
そして、入力特徴に誤りがあると思われる場合、例えば測定誤差とか、それを検出できるんや。例えば、年収が1000億ドルの人とか、年齢がマイナスの人とかな。これは検出できるんや。
教師あり学習の場合、悪いラベルを検出するのは難しいんや。基本的に、分類器がどれくらい正確であるべきかについて、何らかの事前の信念を課さなあかんからな。そして、「間違えてるポイントはラベルが間違ってるから無視すべきや」って言えるんやけど、「間違えてるポイントは単に難しい例やから、そこから学ぶべきや」とも言えるんや。
これは根本的な対立で、最終的には解決できへんのや。本当にラベルがどこから来てて、どんなエラーがあるかを理解する必要があるんや。
それが評価できて、ラベルのエラー率のアイデアがあれば、どのデータポイントを再ラベル付けしたり、重みを下げたり、あるいは訓練データから削除したりすべきかを推測できるんやね。
司会者: 大規模モデルを真実のエンジンとして使うことについて、人々と話したことがあります。適切に訓練されれば、議論のある質問を提示して、モデルが一方の見方に対する確率スコアを出せるんじゃないかと。これについて考えたことはありますか?あなたの研究に関係していますか?
ディーテリッヒ: ワイはそれについて具体的な研究はしてへんけど、信頼できるオラクルがあれば…例えば囲碁やチェスのAlphaGoを考えてみよう。ゲームに勝ったかどうかの完璧に信頼できるオラクルがあったんや。それは遠い将来の出来事やけど、強化学習と探索を使って、そのオラクルを使って勝ったゲームと負けたゲームにラベルを付けられたんや。
問題は、LLMが多くのことに対して信頼できるオラクルじゃないってことや。ワイが見た限り、LLMに自分の出力を批評させようとする試みはあんまりうまくいってへんのや。
不確実性の定量化のためのP-trueっていう技術があって、基本的にLLMに答えを出させて、それからもう一度「この答えは正しいと思う?」って聞いて、はい・いいえのスコアを出させるんや。もちろん、対数確率も一緒に出せるから、それを評価に使うんやけど、これはめっちゃ悪い方法で、実験でもあんまり良いスコアが出せへんのや。
だからワイは懐疑的やけど、特定の問題に対して良いオラクルを訓練する方法があるかもしれへんな。そして、今GPT-4がやってるみたいに、システムが何らかの探索をして、自分の結果を何らかの方法で評価してるんや。めっちゃ自信が高い結果を見つけたら、それで訓練できるかもしれへん。これは一種の自己改善の方向やね。
でも一般的に、科学の歴史と人間を見ると、仮説をチェックするには通常、実際の世界で実験をせなあかんのや。自分の事前の信念を使って「ワイには正しく思えるから信じよう」っていうのは、陰謀論や確証バイアスにつながるんや。
だから、ワイはLLMや他の機械学習技術を、いわゆる自動運転ラボにつなげて科学を自動化することにめっちゃ興味があるんや。ロボット的に実験を設計して実行し、結果を取得して、そこから学習できるんやね。
これはめっちゃ面白い方向やと思うわ。特に創薬の分野では多くの人と話したし、材料や数学の分野でもな。もちろん、GPT-4は数学が特に強いんやけど、これは答えが出たら定理証明機とかでチェックできる分野やからかもしれへんな。
司会者: めっちゃ面白い話でした。最後に何か付け加えたいことはありますか?
ディーテリッヒ: そうやな、学生さんが聞いてるかもしれへんから、たくさんのオープンな問題があるってことを理解してほしいな。AIはまだ何も解決してへんのや。それがどういう意味かはわからへんけど。
めっちゃ面白い時代やし、これからも長い間そうやと思うわ。なんか超知能がすぐ隅にあって、これらの問題を全部解決してくれるってわけやないと思うんや。でも、取り組むべきめっちゃ面白いことがたくさんあるから、この分野に参加して、楽しんでほしいな。

コメント

タイトルとURLをコピーしました