2024年ノーベル化学賞を受賞したジョン・ジャンパー博士による独占インタビューである。タンパク質構造予測AI「AlphaFold」の開発を主導した彼が、リバプールで開催されたISMB/ECCB会議において、AlphaFoldの仕組みから産業界での科学研究の意義、そして次世代AIによる生物学的推論の可能性まで幅広く語っている。特に注目すべきは、データベースの重要性、研究チームでの協働の価値、そしてAIの「ブラックボックス」問題に対する科学的アプローチについての深い洞察である。

ジョン・ジャンパー博士:AlphaFoldから始まる新たな挑戦
ジョン・ジャンパー博士は、分子生物学を変革したAIモデルAlphaFoldを構築したチームを率いた人物や。数十年にわたる課題を解決したことで、2024年にノーベル化学賞を受賞してん。現在はGoogle DeepMindの著名科学者として、AIを使って生物学を予測するだけやなく、設計することに焦点を当てた次のフロンティアに取り組んでる。
リバプールのISMB/ECCBで開催された、計算生物学の最先端とAIの未来が出会う場所におるわけや。ここでの話は単に問題を解決することやなく、私たちが問う質問そのものを再考することについてなんや。私はレイラ・リズヴィ、共同司会のスティーブン・ホーン、そしてポッドキャストのゲストであるルーク・イェーツと一緒におる。みんな、またここにおってくれてありがとう。
ここにおれて嬉しいわ。リバプールにおれて本当に嬉しい。そうやな、AlphaFoldのジョン・ジャンパー、大きな話題になってるな。
素晴らしいゲストや。明らかに真の開拓者で、もちろんAlphaFoldプロジェクトで非常に重要な役割を果たした人やな。そして昨夜の基調講演は本当に魅力的やった – 本当にすごかったで。これはあんたがよく知ってることやろ?そやから、彼に投げかけたい質問は何や?昨夜からずっと考えてたんやろうな、何を聞こうかって。そやから彼に聞きたい質問は何や?
構造生物学者として、私はこのコミュニティを特に誇りに思ってるんや。私たちが非常に大きなオープンアクセスのタンパク質構造のリポジトリを作ったという事実、これは実験的に決定されたもので、嫉妬深く守られてきた、つまり、構造が預託される際に一定の基準に達するように確実にするという点でな。もちろん、これはAIの訓練モデルとして重要やった。特にAlphaFoldがタンパク質の配列から予測を生成するのにな。
そして、この種のデータが大規模言語モデルの構築にどれほど重要かを知りたいんや。ルーク、AlphaFoldとは何で、なぜそれがそんなに画期的やったかについて、ちょっと概要を教えてくれる?
私の見解では、タンパク質構造を解明することは生命がどのように働くかを理解するのに本当に不可欠なんや。タンパク質は生命の構成要素や。私たちの細胞、身体で働いて、私たちを生かし続けるための仕事をしてくれてる。そして私たちは大量の遺伝データを持ってる。生命のあらゆる界にわたって、海底の微生物まで、多くのタンパク質の配列を知ってるんや。
しかし課題の一つは、その構造を生成するには実験室で数ヶ月から数年の専門的な作業が必要やということや。そやから古くからの問題があって、AlphaFoldが解決した課題というのは、アミノ酸配列だけに基づいて三次元構造を正確に予測できるかということやった。そして答えはイエス、かなり正確にできるということやった。
AlphaFoldがその突破口やったんや。私たちがそのような作業を時間の何分の一かで発見し、行えるようにしてくれた。そやから実験室での骨の折れる作業をする必要がなく、コンピューター上で構造を生成できるようになったんや。スティーブン、この分野のどこがそんなに興味深いんや?つまり、あんたはルークのような科学者やないことは知ってるけど、これはGoogle DeepMindや。
彼らは関わってもなかった分野で大きな進歩を遂げて、完全に席巻してしもうた。それについてどう思う?それについて何を思うかって?まあ、すべてはイノベーションについてやと思うんや。そしてそれは、学術分野と言えるような分野にもたらす集中力と推進力についてやと思う。そのひどいアメリカ的な言葉で言えば、どうやって収益化するかということやな。
つまり、科学技術を努力なしに…そやからこの業界の著名な科学者を見ることに本当に興味があるんや。私たちは20年間これをやってきたけど、ほとんどの企業は著名な科学者に働いてもらうのに苦労してる。なぜなら彼らは公的科学として知られるもので働きたがるからや。そやからノーベル賞受賞者のジョンがそれをどう扱うかを見るのは本当に興味深いで。
確かにそうやな。そして私も少し視野を広げることに興味があるんや。明らかにAlphaFoldは、この2、3年で見たChatGPT革命と比べるとかなり前に登場した。そやからこれは他の分野や産業で期待できることの縮図のようなもんやと思う。AlphaFoldが最初に登場したとき、構造生物学者の仕事を奪うと思われてた。
彼らは一体何をすればいいんやと考えてた。この機械は私たちのためにすべてをやってくれるけど、彼らは仕事を失ってない。私たちはここISCBにおって、構造生物学者や分子生物学者がまだたくさん働いてる。そやからAI革命が他の分野に来ても、私たちにはまだやることがたくさんあるということを示してると思う。
ジョンに会うのを楽しみにしてるで。素晴らしい議論になると思う。とても興奮してる。彼はちょうどあそこにおると思う。
DeepMindのジョン・ジャンパー博士との対話
今、DeepMindのジョン・ジャンパー博士に参加していただけて嬉しいで。ジョン、ここに来てくれてありがとう。ここにおれて素晴らしいわ。そやからリバプールでのこの会議から始めたいと思う。
ISMB/ECCBに何があんたを引きつけたんや?つまりこれは大きな会議やな。私にとって驚くべきことは、ここに私が知ってる本当に素晴らしい科学者がたくさんおることや。もちろん、もう一人はデイム・ジャネット・ソーントンで、ノーベル賞の直後に私のところに来て、ISMBに来なあかんと言うんや。彼女にノーと言うつもりはないで。しかし、これは計算コミュニティの素晴らしい集まりで、見るのが本当に刺激的や。
正直なところ、私にとって地元でもあるんや。ロンドンから上がってきた。そやから素晴らしい会議で、美しい場所や。そしてここにはあんたのツールAlphaFoldを使った科学者がたくさんおると想像するで。そやからAlphaFoldがどのように機能するかについて少し教えてくれる?
AlphaFoldは、非常に特定の実験の結果を予測するAIツールなんや。これはタンパク質の構造を決定することや。そしてこれは実験室の生物学者が一般的に行う実験で、年間約11,000〜12,000の新しい構造が決定されてるけど、それぞれが科学者にとって約1年の作業を表してる。本当に膨大な作業量なんや。
そしてこれらのデータは過去約50年間にわたってタンパク質データバンクに収集されてきた。これらの実験結果のリポジトリやな。そして私たちは、この実験の結果を予測すること、つまりその配列からタンパク質の構造を予測することで、途方もなく優れた新しいAI手法を開発することができた。これは生物学者が次の実験を計画し、疾患についての仮説を立て、特定のタンパク質を標的とする薬を開発しようとするために常に使うもんや。
そして私たちが利用可能にしたシステムは、本当に世界中の膨大な数の科学者によって使われてる。そしてそれはとても心温まることや。この会議でも、誰かが私のところに来て、私たちは毎日AlphaFoldを使ってて、とても興奮してるって言ってくれることが何度もあるんや。そしてそれは科学の仕事がとても困難やからこそ、実験科学に費やされる作業がとても多いからこそ、とても重要でもある。科学者がより速くそれを行うのを助けるツールを構築できることは本当に素晴らしいんや。
今、それに続けて話すと、私の研究室でも毎日使ってるし、多くの研究者の生活に革命をもたらしたと思う。でも私が尋ねたかったのは、あんたが注目してきた例で、AlphaFoldを本当に興味深い方法で、本当にあんたの注意を引いた方法で使った例はあるか?
本当にたくさんあったと思う。私にとって本当に興味深かった一つは、私たちがAlphaFoldを知ってたということや。私が今話した話やな。AlphaFoldは特定のタイプの実験の予測を提供する。しかし興味深いのは、人々が私たちが知らなかったことをする方法を見つけ始めたことや。
私が本当に説得力があると感じた一つは、人々がAlphaFoldを使うことや。彼らは、どのタンパク質が一緒になってるかわからんと言う。何を予測すべきや?すべてを予測したらどうや?AlphaFoldを2000回実行して、何が出てくるかを見たらどうやって。そして実際に最近、かなり注目度の高い結果があった。卵と精子がどのように結合するか、そしてその相互作用複合体に関与するタンパク質についてや。
人々は精子の表面にあるすべてのタンパク質と卵の既知のタンパク質に対して2000のAlphaFold予測を実行した。そして彼らは、AlphaFoldがこれが構造やと言える特定のタンパク質を見つけた。そして彼らはそれを実験的に確認した。実際、それは2つのグループによって計算的に独立して発見され、一つは実験的に示した。そしてそれは十分に注目度の高い結果やった。
私はニューヨーク・タイムズでそれについて読んだことを覚えてる。そしてそれはAlphaFoldについて言及してて、私たちはツールを構築すること以外には何の関係もなかった。そしてここに人々がニューヨーク・タイムズに記事を載せてもらってる。それはAIについてやない。私たちのツールを使った生物学でのこの新しい発見についてや。そしてそれは本当に私の心を温めてくれるんや。
そやからタンパク質データバンクについての質問に移りたいんや。あんたは何度かそれがどれほど重要やったかについて言及してる。そして私たちのコミュニティの一部として、私たちはそれを持ってて、かなり嫉妬深く門番をしてると思う。そしてAlphaFoldで起こった発展と突破にとって、タンパク質データバンクとその実験データのリポジトリはどれほど重要やったかを聞きたいんや。
PDBはとても重要やった。AIはもちろん、本当に二つのものを組み合わせるツールや。あんたはコンピュータープログラムを書くか、ある種の数学的な式を書くけど、本当にコンピュータープログラムになる。そしてこれがあんたに学習の骨格を与える。そして、あんたはデータを持ち込んで、それが実際に何か有用なものになるように肉付けする。
機械学習やAIシステムは、コードプラスデータが何か有用なものをもたらすと考えるべきや。そやからこれらのデータを持つことは絶対に不可欠や。そしてそれは本当に実験コミュニティの先見性やった。彼らがこれらのデータを収集したこと、PDBがあんたの構造を受け入れることなしに学術論文を発表できないこと、非常に高品質な門番とキュレーションがあって、データが利用可能で信頼できることを保証してる。
もちろん、計算生物学者と話すと、この会議の人々と話すと、面白いことがある。彼らはPDBが私たちが持つ最も素晴らしく、最もクリーンなデータソースやと言う。PDBの後はどうするんやって。そして実験家と話すと、彼らは、でもこれは間違ってる、あれは間違ってるって言う。そのリガンドは希望に基づいて構築されたって。この二つを見るのは非常に面白い。
でも両方とも真実や。しかし私は、実験コミュニティが、多くの分野で私たちが持ってない方法で、おそらくタンパク質配列とUniProtなどが別の素晴らしい例やけど、一緒になったことへの先見性を本当に証明してると思う。
しかし将来に向けては、私たちのデータも私たちの科学がどのように変化してるかに歩調を合わせる必要があると思う。最も刺激的なものの一部、確実に構造生物学では、in situ測定の問題や。どのようにトモグラムを収集するつもりか、知らない人のためにこれらは全細胞の急速冷凍スライスや。そやからタンパク質をその自然環境で見ることができる。
そして私が思うに、本当に興味深い質問の一つは、細胞のスライス、おそらく異なる形態の顕微鏡法のためのPDBと同等のものは何になるかということや。これらは本当に興味深い質問で、私たちがそれらを正しく行えば、私たちの生活をより良くするAIモデルをもたらすと思う。そして私たちがすべて少しずつ異なる千のソースからそれを引っ張らなければならないなら、おそらく私たちは成功しないやろう。
そして私は、データキュレーションが将来私たちが持つAIシステムに違いをもたらす本当の機会があると思う。いくつか質問してもええか?もちろんや。それがこれの目的やからな。
産業界での科学研究とノーベル賞の意義
AlphaFoldを見て、あんたのキャリアをより将来に向けて考えると、科学者として、私たちは長期間にわたって物理学コミュニティと多くのインタビューをしてきた。そして彼らはいつも産業界を嘆いてる、最高の科学者を採用するのに本当に苦労してるといつも私に嘆いてる。最高の科学者は公的科学で働きたがるからやって。
あんたの受賞は、ある意味で産業界に科学者を採用することに関して助けになると思うか?受賞について本当に素晴らしいことの一つは、それが産業界から最高レベルの科学が生まれ得ること、科学者の仕事に非常に直接的な影響を与える科学が生まれ得ることの認識やということや。
特に私がAI、計算的な分野を見るとき、計算能力が重要やということも事実や。それは実験を行う力や。GPUが私たちの試薬やという意味でな。そやから産業研究所がコンピュートとチームを組織するのに大きな役割を果たしてきたと思う。
産業研究で本当に素晴らしい機会の一つは、私たちがチームを組めることや。AlphaFoldは約15人のチームやった。私たちは、筆頭著者問題を持たない、区分けしようと試みない、一緒に成功または失敗するその人々のグループを組むことができる。
もちろん内部的には区分けするし、この人がこれを作った、この人があれを作ったと言う。しかしグループとして成功または失敗する。そしてそれは専門化をサポートし、仕事をサポートする。人々は多くを学ぶし、本当に素晴らしい協力者から学ぶと思う。そしてこのモデルが可能にすることの素晴らしい例やと思う。
もちろん、それはいつも依存してる、あんたは会社の一部や。それには多くのことが伴う。学界にいることにも多くのことが伴うのと同じように。しかし素晴らしい機会やと思う。それは本当に、素晴らしい科学はどこでも起こること、学界を離れることが知的な問題を離れることを意味するわけやないことも強調してる。
研究問題、そしておそらく学界ではなく、本当に大学システムやと思う。私はまだ自分を学界のメンバーやと考えてる。そうやな。あんたはデータが非常に重要であること、そして計算アーキテクチャがAIに関する方程式のもう一つの部分であることについて言及した。そして私は、皆がタンパク質データバンクにアクセスできたと思う。
そして私たちはまだ古典的なコンピューターを使ってる。量子コンピューターを使ってるわけやない。そやから、基本的にAlphaFoldからその価値を得るためにそれを増幅したあんたのアプローチ、あんたの研究について何やったんや?
それは素晴らしい質問や。そして私は、これまで聴衆に言ったことがあるように言いたいんやけど、AIには本当に三つの要素があるんや。もちろんデータがある、コンピュートがある、そして研究がある。つまり、このコンピュータープログラムとは何かという問題や。
PDBについては、あんたが言ったように、皆が同じPDBにアクセスできた。実際、それ以上に、時間をかけて私たちは2018年頃に完成したAlphaFold 1を構築した。そして2020年頃に完成したAlphaFold 2を構築した。そして私たちはその二つの間でデータを変更しなかった。実際に全く同じ訓練データを保持した。それでも私たちは非常に多くを学んだ。
実際、Al Qureshi研究室による本当に素晴らしい研究があって、彼らは利用可能なデータの1%でAlphaFold 2モデルを再訓練した。そして彼らはそれがAlphaFold 1と同じかそれ以上に正確であることを発見した。そやから私たちが行った研究は約100倍のデータに相当すると非常にきれいに言うことができる。それは多くの実験構造やな。
そやから研究について考える正しい方法は、これらの貴重な実験点のそれぞれからより多くの情報を得ることを可能にするということや。その中で、私たちは問題にどのように取り組むか、どのようなシステムを構築するかについて非常に新しいアプローチを持ってた。
私たちはまた、非常に高い速度でお互いのアイデアを基にした、この種のチーム文化を開発した。私たちは一週間で誰かが新しいアイデアを持ち、誰かがそれを基にして別のアイデアを持ち、また別のアイデアを持つということを構築した。
そやから私たちは、学界の事実上の分散サイクルと比べて非常に速いサイクルを持ってたと思う。論文が出て、他の人がそれを読むのはおそらく今から3ヶ月か6ヶ月後、誰か他の人のシステムでテストされるのに対し、私たちにとっては来週やった。そやから私は特定のアーキテクチャ上の革新について多くの話ができるけど、本当にそうやと思う。
時々定着するミームは、AIはあんたが棚から取ってデータを投げ込むもので、十分なコンピューターを持っていればAIを持てて、それを行うというものや。しかしこれは真実やない。研究はこの巨大な部分で、特にタンパク質MLのような分野では、私はそれが真剣に受け取られてなかったと思う。
もちろん、タンパク質は非常に真剣に受け取られてた。機械学習は学術分野として非常に真剣に受け取られてた。タンパク質とMLの交差点では、いくらかの仕事があったけど、仕事の程度はそれほどではなかった。私たちはこれの科学とは何かを非常に真剣に受け取った。どのように新しいアイデアを思いつくか?どのようにアイデアをテストするか?アーキテクチャの変更自体を開発する際に、どのように科学的方法を使ってるか?
そして私たちはこれを非常に迅速に行うことができた。多くの説明があると思うけど、興味深いことや。現代のAI研究の真実の一部でもあると思うのは、これらの大規模言語モデルまでのすべてに、途方もない量の研究と突破があるということや。
そしてそれは常にトップレベルのアイデアやとは限らない。その間にすべてのこれらの小さなアイデアがあって、それらが積み重なって変革的なシステムになる。そうやな。そして私は、あんたが特許庁で狂った理論を思いつく一匹狼の天才を持つというアイデアから、今では協力的なチームを持つようになったと思う。
これは学際的な必要性のために科学の未来やからな。私は両方の余地があると思うし、チームだけやないと思う。チームは、あんたが追求する明確な目標を持ってるとき、皆を合意させることができるときに特にうまく機能すると思う。しかし、多くのアイデアもあると思う。
変化することの一つは、現在の最先端に対してあんたのアイデアをテストする必要があるということや。そやから私たちはAlphaFold 1とAlphaFold 2の間でこのGDTスケールで30ポイント良くなってたかもしれない。私たちが追加したときに最大の利得を与えた単一のアイデアは2.5の価値があった。ほとんどは1以下やった。
そやから私たちを前進して構築する、はい上がる方法と考えることができる。そして私はそれが段階的やエンジニアリングやとは思わない。これらのアイデアの一部は素晴らしいけど、素晴らしいアイデアでさえ少しの価値しかなく、まだ多くが必要やということを認める必要がある。
そして私たちは一匹狼のアイデアの話をするのが好きや。失敗があって、それから一匹狼のアイデアがあって、それから成功があった。しかし何かの歴史を見ても、一匹狼の天才よりもはるかに広いグループの科学者がお互いのアイデアを基にして、私たちを今日のところまで連れてきたのを見るやろう。
公的知識人としての責任と家族との両立
受賞以来あんたがやった宣伝の一部で話してることの一つは、公的知識人であることや。公的知識人であることについて話すのは、それ自体興味深いけど、あんたはまた正しいことをする要求があるとも話してる。そやからそれについてもう少し教えてくれる?
ノーベル賞は素晴らしいもんや。若い学生に話すように、私はそれを推薦するけど、でもそれは科学の象徴として、計算生物学の約束の象徴として素晴らしいもんや。私たちがコンピューター上で実験科学者にとって重要な仕事をできるということのな。
そしてそれはすべてのこれらの素晴らしい要請と一緒に来る。若い科学者との対話から、科学の権威ある機関との対話、これについての政府との対話まで、すべての方法でな。そして、偉大な知識人として話すこの種の招待がいつもある。
もちろん、あんたは科学の一部に対してノーベル賞を受ける。コンピューターアーキテクチャとタンパク質の機械学習をどのように理解するかに対してで、もちろん政府政策や他の何かに対してやない。
そやから私にとって、あんたが良いことをできるときに良いことをするためにあんたが使うべきプラットフォームやということがいつもある責任があると思う。素晴らしいイベントに来る機会があるときは、一般的に試みてそれを行うべきや。同時に、あんたも人間やということを覚えておくべきや。
これは、私が構造予測アルゴリズムの設計について多く語らなければならない成果を認識する賞や。科学の組織化に何か貢献できるかもしれんけど、それはタンパク質構造予測アーキテクチャの詳細について話すよりもはるかに謙虚さを持って行われる必要がある。
そやから私は、機会と、あんたが本当に何を知ってるか、これらの大きくて重要な問題に本当に何を貢献できるかという謙虚さとのバランスを取ることが本当に重要やと思う。そしてあんたが言ったように、最も重要な仕事は父親であることやろ?ああ、非常にそうや。
そしてもう一つは、ああ、私は6歳、9歳、11歳の3人の幼い子供がおる。そして私は、重要なことをするのに忙しいからといって、積極的で関与する父親を持つことで彼らが損をしないように非常に確実にしたいんや。そしてそのすべてのバランスを正しく取ることや。
まだ非常に迅速に発展してる、まだ非常に重要なこの研究分野におって、あんたは貢献したい、行きたい。私の妻が言うには、もし私だけに任せるなら、私はただ隠れて科学をするやろうという部分がかなりある。そしてそれはかなり真実や。
しかし私はそれらすべてと、ノーベル賞が私のキャリアが世界に何らかの良いことをしたという素晴らしい承認やということの正しいバランスを見つけようとしてる。そして私のキャリアの残りも世界に何らかの良いことをしたいと思ってる。
次なる挑戦:生物学的推論へのAI応用
そやからあんたのキャリアの残りに移ると、明らかに長期的な見解やけど、次は何や?AlphaFoldがこれほど実質的な飛躍を遂げた今、あんたが答えることを望んでる次の大きな質問は何や?
AlphaFoldやそれに似た技術、そして他の技術は成長し発展し続けると思う。私は実際に、次の質問を見つけることができるか、今はそれほど妥当に見えない次に起こることを見つけることができるかに非常に興味がある。
そして実際、正直なところ、約1年前に私たちが言語モデル、チャットボット、明らかに科学を読み書きできるもの、明らかに理解してるもの、を開発してるというこの問題に取り組み始めた。私の最初の驚くべき経験の一つを覚えてる。
私はコンテキストに論文を与えて、この論文で実行されたすべての実際の実験をリストアップしてくれと言っただけや。そしてそれは立派な仕事をした。そして私は自分自身に思った、それは些細なことやない、密度の高い科学論文を引っ張ることはなって。
しかし本当の質問は、でもあんたが詳細な質問をする場合、この実験で何が起こるかとか、他の何かとか、あんたが本当によく知ってる何かについて聞く場合、彼らはそれほどうまくやらない傾向がある。そして私はこの質問に非常に興味がある。
何が私たちを生物学的推論に導くのか?どの程度まで私たちは言語モデルに科学を深い方法で理解させることができるのか、おそらく科学者がするように関与させることができるのか?そして私たちがそれをどのように試みてるかについてはあまり言わんとこう、まだ成功してないからや。秘密を保っとかなあかん。
しかし私は、どのように推論を発展させるかというこの質問に非常に興味がある。PDBを持たない多くの問題があるからや。実際、文献のすべてのデータを収集したとしても、それほど多くはないやろう。そやから私たちは本当に機械学習の壮大なトリックを学ばなあかん。
あんたが興味を持ってる質問を取って、ほとんど関係ないように見えるデータを取って、あんたが望むタンパク質の構造を作るのに十分関連させて、完全に異なるファミリーの別のタンパク質を見つけて、ここに適用できることをそこから少し学ぶということや。それが本当に素晴らしいことや。
科学的推論でこれをどのように行うかが、これらの壮大な問題の一つやと思う。1年前に私たちがこれで遊び始めたときよりも、人々が今日はるかに少ない疑いを表明してるのは、もちろんこれらの技術の急速な発展のためや。しかし前途には膨大な課題がある。そうやな。
そして私が想像するに、もしあんたが十分に良いモデルを得られるなら、それは私たちの知識のギャップと探しに行く場所を強調できるやろう。それが究極の目標になるやろうと思う。もしあんたが実際にこれを理解するのが上手になれば、できることは多い、多い。
私たちは知識のギャップを持つやろうし、実験によって何が含意されるかについてのある程度の理解も持つやろう、本当に関連する文献を見つける能力も持つやろう。できることは多いけど、私たちは座って夢を見るだけやなく、どのように私たちがいる場所からこれらのツールが本当に効果的で信頼できる未来に到達するかの局所的な部分を見つける必要がある。
AIの速度と社会の信頼関係
そやから、あんたがやったインタビューのいくつかで非常に興味深いと感じたことの一つは、AIの速度とAIの進化の速度について話すとき、おそらく進化ですらないかもしれん。そしてそれは私を二つの質問に導く。
一つは、中期的にどこに向かってると見てるかやけど、公的信頼についてもや。すでに公的信頼の不足がある。ほとんどの人は今日ここで私たちが話してることを理解してない。そしてそれはどんどん速くなって、より多くのことが成し遂げられる。
人々にAIを信頼してもらうために何をする必要があるか?信頼に関して言えば、私にとって非常に興味深い経験の一つは個人的にAlphaFoldやった。そして私たちは多くの方法で確信が持てなかった。私たちのCASP結果が出たときでさえ、それは私たちが盲検で構造を予測できると言った公的評価やったけど、実験コミュニティにはまだ多くの疑いがあったと思う。
おそらくそれらはより簡単やったか、おそらく、私たちの論文が出て、コードが利用可能になり、予測が利用可能になってから約6ヶ月後まで、人々が本当に始めなかったのは、予測がウェブサイトで利用可能やったからや。そやから彼らは、ちょっと確認してみようと言った。ああ、ああ、ああ。私たちは確認した。そうや、彼らは確認した。
彼らは言ったか、多くの人が実験構造を解決してて、まだPDBに預託してなかった。そやから彼らは、ただ楽しみのために、見に行こうと言った。そして私はTwitterで誰かが、どうやって彼らは私の構造のコピーを手に入れたんやって言ってるのを覚えてる。Gmailで送ったのかとか?
コミュニティ内で、突然これらの方法がすべて一度に本当に関連性があるということに絶対的な不信があった。そして私たちがこれを出してるとき、実際にEMBL-EBIやSamirや他の人たちと話してたのを覚えてる。どのようにこの情報を提示するか?私たちが心配してたのは、人々が私たちを信頼しないことについてはそれほど心配してなかった。
一度彼らが本当に予測にアクセスできれば、時間がかかるやろうと、私が思ってたよりも時間がかかると思ったけど、人々は学ぶやろうと考えてた。私たちはまた、彼らがそれを信頼しすぎることも心配した。どうやって彼らに適切な量だけ疑ってもらうか?
そしてこの時点までに、私たちが信頼度測定と呼ぶものに多くの努力を注いでた。モデルがさまざまな次元で答えからどれだけ離れてるかを予測するものや。そしてそれが、私たちが行ったより良い決定の一つ、より良い決定の二つの一つやったと思う。
より良い決定の一つは、私たちが開発したpLDDTと呼ばれるこの種の数値的信頼度測定を取ったことや。それは0から100やった、そして私たちは4つのカットオフを定義することにした。90以上では、構造を濃い青色に色付けするやろう。50未満は危険を表す赤やった。
そして私たちは、人々がこれでするべきことと非常に明確に整合した4つのものを持ってた。おそらく信頼する、かなり信頼する。おそらく信頼する、おそらく信頼しない。絶対に信頼しない。そして実験コミュニティや他の人たちは本当にこれをうまく受け取った。私は彼らが本当に、まあ、これらは不完全やと言ったと感じた。
私たちはそれらにエラーがあることを知ってる。人々がそれらを見たからこそ、エラーがあることを知ってる部分もある。しかし、エラーはモデルが信頼しないと言うときとよく相関する傾向があることも知ってる。そして私たちはこれをするやろう、それを見る、考える、次の実験を設計する、この予測の側面をテストする。
そして彼らは科学的実践にそれを非常に迅速に統合し、だいたい正しい方法でそれを信頼した。そして私はこれがこんなに迅速に起こる理由は、科学コミュニティが常に不確実性を扱ってるからやと思う。彼らは他の実験を完全に信頼することは決してない。自分自身の実験を完全に信頼することも決してない。彼らは常にすべての方法について考えてる。つまり、あんたは実験家で、知ってるやろう。
ああ、絶対に。私たちは時々自分の手も信頼しない。その通りや。そやから彼らはこの種の戦略的疑いに慣れてる、まだ進歩を可能にする方法で疑う、誤解されないような十分な懐疑心、しかし進歩を可能にする十分な信頼。そしてそれは科学者の働き方によく統合された。
そしてAIのより大きな質問は、人々が時間をかけて、大規模言語モデルのこれらの出力が何を意味するか、何に有用で何に有用でないかという理解を発展させることやと思う。個人的に、私はいくつかの類似点を見てる。私は1985年生まれやから、90年代にインターネットが新しかったときに育った。そして私の変革的な経験はそこにあった。
初期にこの中で、どうやってインターネットを信頼できるか?誰でもインターネットに何かを載せることができる。そしてもちろん、それは真実や。そしてもちろん、インターネット上には本当にばかげたことがたくさん言われてる。しかし私たちはまた、このツールを使用し、ナビゲートする方法を学んだ。考える方法をな。
Wikipediaについて警告されたことを覚えてる。誰でもWikipediaを編集できる、というのが90年代にすべての学校の学生に言われたことやった。そして私たちはそれをナビゲートし、それからまだ多くの使用を得る方法を学んだ。
そして私たちは似たようなことを見ると思う。AIが非常に迅速に関連する力になった。そして社会は、私は思うに、強みと弱みに適応するやろう。そしてそれは、いつも簡単やというわけやない。しかしそれは来ると思うし、うまくいけば私たちはより多くの測定を開発できるやろう、確実に科学的空間で、信頼度測定を。
そして私たちがAlphaFoldで持ってたこの概念、モデルの信頼度を知る方法は、それにどれだけ間違ってるかを予測するように単に尋ねることやった、というのは、それ自体面白い事実やった。それは奇妙や。正しい答えが何かを教えることなしに、モデルに間違ってると教えてもらうことができる。
そして私は人間のアナロジーをある程度与えることができる。あんたはしばしば、すべての答えが何かを知ることなしに、うまくやったか悪くやったかを知ってテストから出てくる。しかしそれは非常に興味深い。
時間をかけて発展すると思うけど、世界と科学システムも適応するやろう。そして確実に私は科学でのAlphaFoldの悪い使用をいくつか見たことがあるけど、圧倒的に、人々が本当にうまくそれを使い、正しい技術を開発し、コミュニティで共有してると思う。
本当にコミュニティがこれらのツールを使って彼らの仕事をより良くする方法を学ぶんや。
AIと科学の関係:説明vs解決
そして私はちょっとフォローアップしたいんやけど、科学プロセス自体に関して、伝統的にはすべて説明と何が起こってるかを機械的に理解することについてやった、そして解決策に到達することやった。
私たちが解決策を見つけても理解しない場合、問題を解決しても本当に理解しないでも大丈夫やと思うか?つまり、目標が単に問題を解決することで、私たちがそれを解決して、間で何が起こるかを本当に知らない場合、特にAIが理解するのが困難なブラックボックスであるコンテキストにおいて、それは本当に重要か?そしてそれは科学をどのように変えるか?
興味深い質問やと思うけど、私はそれについて二つの視点を持ってる。そして私は科学は説明についてやないとさえ言うやろう。それはテストについてや。私たちは仮説を持ち、それから結論を演繹し、特に驚くべき結論を見る。その驚くべき結論自体が真実かどうかを見る。
その意味で、それはブラックボックスのような何か、おそらく説明やないけど予測をするシステムを持つことにかなりきれいに移行する。そして実際、これは新しいことやない。
私たちは長い間コンピューターシミュレーションをやってきた。そしてあんたはどのようにこのコンピューターシミュレーションに至ったかを説明できるけど、それからこのコンピューターシミュレーションの百万、十億ステップを実行する。予測を得て、それらをテストするけど、実際には分子動力学シミュレーションで、どのようにここに到達したかの説明を持ってない。
そしてもちろん、それは科学にとって大きなつまずきではなかった。私たちはシミュレーターをどのように構築するかの理論を持ってる。シミュレーションを実行した結果を持ってる、そしてそれらを私たちのより大きな実践に統合する。そして最終的に私たちは結果をテストする。
そやから私たちがこのalpha、タンパク質構造を最終目標として欲しいわけやない。私たちは生物学を理解するのに役立つから、新しい仮説を立てるのに役立つからそれらを欲しい。そしてそれらをテストする。計算的な入力で薬を作るとき、私たちは計算やなく薬をテストする。
私はそれが根本的な課題やとは思わない。ここには科学もあると思うけど、科学は真ん中でそれをきれいに切ることができない。エイリアンがあんたにブラックボックスを手渡したとは言えない。
そして今科学、科学は機械学習が理解をどのように発展させるかの理解がある。私たちはタンパク質構造予測システムをどのように作るか、何を変更できるか、何が重要かという点で局所化された科学を発展させてる。
そしてそれからデータプラス機械学習が予測器をもたらすというこの全体的なループは、あんたがそれから使用し、きれいな説明と科学を持つ。
しかしそれは少し、人々が最初の部分をそれほど見ないか、それがより少ない人々によって行われるからやと思う。そやから彼らは挑戦を持つ人工物を見る。しかし私は最終的に私たちは、予測を続ける続けるやろうと思う。私たちはそれらの予測が一般的に信頼できるかどうかを決定し続けるやろう、理論や計算で永遠にやってきたのと同じ方法で。
そして私はそれがパラダイムへの主要な挑戦として現れることはないと思う。もしかしたら後で、仮説を立ててそれらをテストするシステムを持つなら。しかし今のところ、それは科学的パラダイム内にうまく適合すると思う。
あんたのスケジュールから時間を取って私たちと話してくれて、本当にありがとう。私たちにとって本当に魅力的な議論やった。本当にありがとう。どうもありがとう。
最後の感想と締めくくり
そやからみんな、ジョン・ジャンパー、何というインタビューやった。そして何と優雅な人や。ああ、驚異的なゲストやったな。私は彼がノーベルメダルを持ってるかどうか聞かなかったことが少し残念や。そうしたらよかったのに。それを見たかったんやけどな。
ジョンとの議論は本当に興味深かったと思う。なぜなら、私たちが今聞くのはすべて、AIは力ずくについてやということやからな。最も計算能力を持つ者が勝つやろうと。そして彼が研究の重要性を強調したと思う。そうや、データとコンピュートは重要や。そしてもちろん、Googleは多くのコンピュートを持ってる。しかし研究が本当にAlphaFoldの成功の鍵やった。
そうやな、科学的方法のアイデアが研究で依然として最高に君臨してると思う。結果を生み出すかもしれないブラックボックスを生成できるけど、その結果がどれほど真実かを本当に見つけるためにはまだその結果を検証する必要があるというアイデアや。そして彼はそれをやったし、彼自身のAlphaFoldについて、それをより正確でより強力にするために段階的にそれについて話した。
そしてそれらの予測から出てくるタンパク質構造についても同じことが言える。あんたはまだ検証の必要性を残される。そして彼がここにいたとき、それを明確に確認した。そやからそれは良かった。そして彼はあんたとあんたの同僚がその全分野で行った仕事について多くの賛辞を述べた。
そうやな、私は彼が本当にタンパク質データバンクを評価してて、大規模言語モデルを訓練できる最もクリーンなデータセットの一つやったかもしれないとコメントしたことが、生物学の他の分野への質問のために他の同様に良いデータセットを作成し開発する必要性を語ってると思う。
そして彼は、AIに生物学的な用語で考えさせる次の反復について、正確であるためにどこからデータを得るつもりかについて、それをほのめかした。そして私たちは今、タンパク質データバンクの次のバージョンが何かを考える必要があると思うけど、他の生物学的質問のためのな。
しかし生物学的質問を超えても、材料科学、物理学、化学、そして実際に販売も。ああ、ビジネス、金融文書もや。しかし私たちはそれを私たちのシステム、プロセスにどのように組み込むか、私たちが正しいデータを収集してることや。私たちがクリーンなデータも収集してることや。そして私たちのシステム、組織、グループにとって簡単な方法でそれをどのようにやってるかや。
魅力的な議論やった。素晴らしいゲストやったな。本当に、本当に愛したで。そして何というショーやろう。つまり、最高の一つや。私の頭の中に長い間残ると思う。とにかく。今日私たちに参加してくれてありがとう、ルーク、スティーブン。参加させてもらってありがとう。
今日私たちが持った素晴らしいショーやった。参加してくれてありがとう。このようなコンテンツをもっと見たい場合は、いいねとチャンネル登録をお願いします。


コメント