OpenAIの最新の事業戦略の転換、マイクロソフトやアマゾンとの新たな提携、およびイーロン・マスクとの訴訟の行方について解説する。また、医療現場におけるAI導入の急速な進展と課題を現役医師が語り、さらに1930年以前のデータのみを学習した特化型LLM「Talkie」を用いた未来予測の実験とその可能性について紹介する。

OpenAIとMicrosoftの新たな提携
ニューヨーク・タイムズのテクノロジーコラムニスト、ケビン・ルースです。Platformのケイシー・ニュートンです。Hard Forkへようこそ。今週は、OpenAIの大きなリセットについて取り上げます。同社の新しい事業戦略や、イーロン・マスクとの劇的な裁判についてお話しします。その後、アダム・ロッドマン医師が再び番組に登場し、AIと医療の最新の進歩について教えてくれます。そして最後に、非常に古いテキストから作られたAIは、未来を予測できるのでしょうか。Talkieについてお話しします。
ケイシー、今週は特にOpenAIに関してたくさんの出来事がありましたね。あそこでは何か大きな戦略的リセットが起きているようです。Microsoftとの新たな契約、Amazonとの提携拡大、Stargateの計算資源戦略の変更、そして広告付きの新しいサブスクリプションへの推進などです。そしてもちろん、今週オークランドで始まったイーロン・マスクとの大きな裁判もあります。これらすべてを見ていきましょう。
しかしその前に、私たちの情報開示をしておきます。私はニューヨーク・タイムズで働いており、同社はOpenAI、Microsoft、Perplexityを提訴しています。そして私の婚約者はAnthropicで働いています。
では、今週はこの新しいMicrosoftの契約から始めましょう。MicrosoftとOpenAIはもちろん何年にもわたってパートナー関係にあります。Microsoftは依然としてOpenAIの最大の投資家であり、その持ち分は約1350億ドルと評価されています。しかし、彼らの関係は長年にわたり様々な要因によって緊張状態にもありました。そして今週、彼らは意識的に距離を置くか、少なくともパートナーシップ協定を書き直し、OpenAIが取引相手を選ぶ際にもう少し自由になれるようにしたようです。
ええ。OpenAIはこれまで、自分たちのモデルをMicrosoftのインフラでしか提供できないという真の課題を抱えていました。この番組でよく話すことの一つに、大手クラウドサービスプロバイダーのインフラが限界に達しているという事実があります。Microsoftもその一つです。そのため、OpenAIが収益を伸ばすためには、サービスを提供できる他の方法を見つける必要がありました。ですから、私に言わせれば、それがこの契約において最も重要なことだったのかもしれません。
そうですね。このMicrosoftとOpenAIの書き換えられた新契約のもとでは、MicrosoftはもはやOpenAIと収益を共有する必要がなくなります。新契約ではまた、AGIに関する元の契約の条項も削除されています。古い契約では、基本的にOpenAIがAGIに到達すると、Microsoftは特定の収益分配の支払いを受けられなくなることになっていました。しかし新契約では、OpenAIはどんな基準を達成しようとも、2030年までMicrosoftと収益を共有し続けることになります。
ですから、AGI条項はなくなりました。私はそれがなくなるのを少し寂しく思います。なぜなら、それはAI業界全体で最も面白い条項だったと思うからです。つまり、もしOpenAIが魔法の言葉を口にする段階に到達したら、世界全体が変わり、彼らはもうその魔法の言葉を言えなくなる、というような内容だったからです。AGIは何年もの間、定義が曖昧で、誰もが独自の定義を持っていますが、この興味深い契約上の規定がありました。そして今、それすらも白紙になりました。ですから今は、バイブスによって評価されるAGIのようなものしかありません。
ケイシー、このOpenAIとMicrosoftの緩やかなパートナーシップについてどう思いましたか。
両者にとっておそらく良い取引のように思えます。両社が非常に緊密に連携することが双方にとって最善だと思われていた時期がありました。間違いなく一時期はそうでした。しかし、現在両社が応えようとしている様々な収益、計算資源、そして顧客のニーズを考慮すると、視野を広げて他のパートナーシップを結ぶことが双方の利益になると思います。ですから私の見解としては、これは基本的に両者にとって良いことだというものです。あなたはどうですか。
ええ、両者にとって良いことだと思います。OpenAIにとっては少しさらに良いかもしれません。彼らは望んでいたものの大部分を手に入れました。彼らにとってより重要なのは、他のクラウドプロバイダーと連携できるようになったことだと思います。これでAmazonやGoogle Cloud Platformとも連携できるようになり、それらのクラウドプラットフォームを使用する大企業の顧客もOpenAIのモデルを使用できるようになります。そのためにAzureを利用する必要はありません。これにより、彼らは他の大規模な契約を結ぶことができ、クラウドプロバイダーを変更するのは非常に難しく面倒であるという事実によって以前は制限されていた可能性のある他の企業顧客にリーチできるようになると思います。
Amazonとの提携拡大とStargateプロジェクトの転換
大規模な契約といえば、ケビン、彼らは今週Amazonとかなり大きな契約を結んだようですね。
ええ。OpenAIはMicrosoftとの新たなオープンな関係において時間を無駄にしませんでした。市場に戻り、Amazonとベッドを共にすることになりました。AmazonのBedrockで共にすることになったのです。くだらない冗談ですみません、続けてください。
はい。火曜日に、OpenAIとAmazonは2月に発表した提携の拡大を発表しました。これにより、OpenAIはAWSのBedrock AIプラットフォームを通じてモデルを販売し、コーディングモデルであるCodexもBedrockで利用できるようになります。報じられるところによると、OpenAIとAmazonはAmazonの消費者向けアプリケーションを駆動するカスタマイズされたモデルも開発し、AmazonはOpenAIに500億ドルを投資する予定です。
ここには興味深い点があります。私にとって興味深い背景は、Amazonがここ数年、主要な最先端モデルの開発者としてAnthropicとかなり密接に結びついていたということです。そのためOpenAIは、新たに得た自由を利用してAmazonに割り込み、もしかするとAnthropicを彼らのお気に入りのモデルプロバイダーの座から追い落とそうとしているのかもしれません。
Amazonはこの取引についてかなり強気な発言をしていたと記憶しています。AWSのCEOはインタビューで、本質的にOpenAIは今や我々のものだと言っていました。あの昔のブランディとモニカのヒット曲のような状況でしたね。それをもう少しAIの風味を加えて復活させたような感じです。
また、Amazonが自社のプラットフォームをBedrockと名付けたことも非常に興味深いです。なぜなら、それはフリントストーンの出身地だからです。先進的なAI企業にしては、かなり時代遅れに思えますが、ケビン、どう思いますか。
素晴らしい分析です。ありがとうございます。
ところで、これは非常に重要な点であり、私たちが一般の幅広い聴衆に向けて話している理由でもあると思うのですが、あなたが今説明したストーリーは、AIに対する需要を満たすために必要なリソースを誰も持っていない世界の話だということです。まだ多くの懐疑論が見られ、バブルに関する話題がたくさんあるこの時期に、これがどのようなバブルであるかを理解する上で非常に重要なポイントとして提起したいと思います。なぜなら、最大の企業でさえ、その需要を満たすために必要なリソースを持っていないからです。
ええ、それは良い指摘だと思います。そしてそれは、懐疑論者たちがこのAIブームについて語ってきた方法における本当に根本的な変化です。ほんの数ヶ月前でさえ、主な批判の傾向は、これらのAI企業が計画している高価なデータセンターやインフラプロジェクトのすべてを賄うだけの需要を生み出すことは決してできないだろうというものでした。そして今、それは需要が多すぎて、それを支えるだけの十分なものを建設できなかったらどうなるか、というものに変わっています。
そうですね。そしてその点に関しては、これらの巨大な建設プロジェクトの少なくとも一つで、最近いくつか問題が発生しているようです。
はい、これも今週飛び込んできたニュースでした。フィナンシャル・タイムズの報道によると、OpenAIの5000億ドル規模の共同インフラプロジェクトであるStargateも、少し方針転換を余儀なくされています。同紙によると、ここ数週間でOpenAIはイギリスとノルウェーで計画していたデータセンターを中止し、テキサス州アビリーンの主力サイトの拡張を断念し、Stargateに関わっていた数名の上級スタッフがライバルのMetaに引き抜かれたとのことです。さらに同紙は、OpenAIが自前の施設をすべて建設するのではなく、サードパーティから容量をリースする方向にシフトしたと指摘しています。ケイシー、これをどう見ますか。
これは、現実がStargateプロジェクトにようやく介入してきたケースだと思います。これらのプロジェクトが最初に発表されたとき、こんな風に聞こえました。持ってもいない1兆ドルを使って、4000兆個のデータセンターを建設するつもりだ、と。当時人々は、それはちょっと多すぎるんじゃないか、本当に実現できるのか、と言いました。そして彼らは、ええ、見ていてください、と言ったのです。でも、どうでしょう。彼らには無理でした。そして今、軌道修正を図っているのです。
ええ。これが彼らの計算資源に対する野心の後退を意味するとは思いません。むしろ、彼らがIPOを目指しており、実際にそうしたいのであれば、社内体制を整える必要があると認識し始めているということだと思います。そして社内体制を整える一つの方法は、こうしたデータセンターやインフラ建設の一部をバランスシートから外し、サードパーティに移行させることです。
ええ。しかしケビン、そこで一つ聞いておきたいポイントがあります。ウォール・ストリート・ジャーナルのバーバーゲン記者が先週、非常に興味深い記事を書いていました。OpenAIが社内のユーザー数目標や収益目標の一部を達成できず、これが今年後半に予定されている新規株式公開を検討する中で、サム・アルトマンとCFOのサラ・フライヤーの間に緊張を生んでいる可能性があるというのです。この記事をどう受け止めましたか。そして、これがOpenAIがStargateの大きな野心の一部を縮小せざるを得なかった理由の説明になるでしょうか。
現在、大規模なAI企業すべての内部で相反する力が働いていると思います。一方には、AIに対する需要は本質的に無限であり、計算資源やそれを獲得するための資金をいくら費やそうとも、世界が私たちのほとんどが認識できないほどのものに変わろうとしているため、そのすべてが何倍にもなって返ってくると考える、無限の楽天家たちがいます。ですから、ある陣営は基本的に私たちを信じてくれというスタンスです。
そしてもう一方には、数字を分析する人々がいます。彼らは、世界が永遠に変わろうとしているとは確信しておらず、これらすべてを支払うために必要な収益を実際に生み出す計画はどのようなものかを見たがっている投資家たちにとって、意味のある財務予測にこれらすべてを当てはめようとしています。
OpenAIでは現在、バーバーゲン記者の記事が出たことで、このようなことが表面化して起こっているのだと思います。しかし、この種の緊張関係はすべての大手AI企業に存在しています。ですから今私たちが見ているのは、その権力闘争が公の場に表れ始めているということだと思います。
ちなみに、OpenAIはこの記事を極上のクリックベイトと呼んでいました。これは本当に質の高いクリックベイトを意味しているのだと思います。そういう意味でしょうか。
はい。和牛のクリックベイトみたいなものですね。その通りです。このクリックベイトは提供される前に1ヶ月間ドライエイジングされていて、とても美味しいんです。
ええ。そしてこの件について一つ指摘しておきたいのは、OpenAIが達成できなかったと報じられているこれらの成長予測は、2025年のものだということです。CodexやClaude Codeのようなツールの驚異的で急速な成長により、ここ数ヶ月で何かが変わったのではないかと考えるのは妥当だと思います。これらのツールの天文学的な成長の報告を目の当たりにしています。ですから、OpenAIは昨年末には成長にいくつか問題を抱えていたかもしれませんが、このエージェント型のコーディングブームのおかげで事態は好転し始めているのかもしれません。ただ、まだ分からないだけです。
新たなサブスクリプション戦略と安全性の課題
それは理にかなっていますし、彼らのCodexアプリは特に好評だったようですね。しかし、もう一つ展開されつつある変化があります。ケビン、今週The Informationが非常に興味深い記事を掲載しました。それによると、OpenAIは今年の初めに、月額8ドルのサブスクリプションであるChatGPT Goについて予測を立てていたそうです。これは月額20ドル以上支払うChatGPTほどではありませんが、少し良い機能を使えるというものです。彼らは、このGoサブスクリプションが今年36倍の1億1200万人に成長する一方で、月額20ドル以上のサブスクリプションは80%減少して約900万人になると予測していました。これは非常に興味深いビジネス上の方向転換であり、もっと詳しく知りたいと思います。
もちろん、少し前にNetflixが導入した新しいプランによく似ていますよね。つまり、かなり安くなる代わりに広告を見せます、というような。この戦略をどう見ているのか気になりました。なぜなら、私の一部は、彼らは8ドルのサブスクリプションよりも20ドルのサブスクリプションを望んでいるはずだ、でももしかすると世の中には8ドルのサブスクリプションを望む人の方がはるかに多いのかもしれない、と感じているからです。
ここで起きているのは、市場が本質的に二分されつつあるということだと思います。ChatGPTやClaudeのようなAIチャットボットを、メールの作成を手伝ってもらうような強化版のGoogle検索のように使い、おそらく1日に数回しか使わないようなカジュアルな趣味のユーザーがいます。もしそういった使い方をしているなら、おそらく月に20ドルも払いたくないでしょう。月に8ドル払う方が快適に感じるか、あるいはお金は一切払わずに、これらすべての広告サポート付きの無料階層を使いたいと思うかもしれません。
そして、これが月に20ドル以上の価値があり、最新のモデルにアクセスしたり、高い利用制限枠を得るためにその何倍も支払う意思があるプロのユーザーもいます。そのため、現在すべての企業が、ライバル企業に顧客を奪われることなくプロのユーザーにどれだけ請求できるか、また、カジュアルなユーザーがGoogleを使いたくならないように、低価格のサブスクリプションや無料階層をどれだけ安くできるかという実験を行っているのだと思います。
なるほど。私としては、Codexアプリがゴブリンについて話せるようにしてくれるなら、ChatGPTにもっとお金を払ってもいいと思っています。ゴブリンを解放せよ、と言いたいです。
これらのモデルは本当に奇妙です。現在、経済全体の負荷を支えるインフラのような存在になりつつあり、すべての企業が業務のあり方を根本から再発明するために使用しているこの技術が、もし特別に制限されていなければ、突然ゴブリンについて話し始めるというのは、AIの安全性に関する議論の風刺のようです。最近のOpenAIはAIの安全性に非常に懐疑的で、破滅論者を強く非難していますが、それでも私たちのコーディングアプリをゴブリンが乗っ取るのを防ぐために安全性のガードレールを追加しなければならなかったのです。そしてこれは実話です。いつものように、私はここ2026年の人生を楽しんでいます。なんて世界なんでしょう。
イーロン・マスクとの裁判の行方
さて、これらはOpenAIの戦略的転換、リセットに関する一連のニュースでした。しかし、ここにはもう一つの大きな変数、潜在的な悩みの種があります。それは、今週オークランドの連邦裁判所で始まった、長らく待たれていたイーロン・マスクの裁判です。ケイシー、この裁判が何についてのものか思い出させてもらえますか。
はい。イーロン・マスクは、OpenAIの共同創設者の一人として有名です。彼は会社に初期資金を提供しましたが、サム・アルトマン、グレッグ・ブロックマン、その他数名との権力闘争の末に会社を去りました。そして、そのすべてが起きた数年後、特にイーロンが自身のAI企業を設立した後に、彼はOpenAIを提訴し、次のように主張しました。私は騙された。これは非営利団体であるはずだったのに、あなたたちは営利部門を通じて世界で最も価値のある企業の一つに変えてしまった。
注目すべきは、ケビン、彼が2024年に最初にこの訴訟を起こしたとき、26の主張をしましたが、裁判まで生き残ったのは不当利得と慈善信託違反の2つだけだということです。裁判はちょうど始まったばかりです。陪審員の選任を終え、数人の証人が証言しました。イーロン・マスク自身も証言台に立ち、次のように述べました。この訴訟は非常にシンプルだ。慈善団体を盗むことは許されない。彼はまた、もしOpenAIがこれを逃れることが許されれば、アメリカ中のすべての慈善団体を略奪する許可を与えることになるだろうとも述べました。
基本的に彼は、非営利団体として始まり、非営利団体として続くはずだったものが、企業の再編を通じて数十億ドルを調達する営利企業になったこと、そしてもしこれが合法なら、すべての慈善団体がこれを行うだろうと言っているのです。なぜ寄付金を使って資金豊富なスタートアップに変身したくないと思うでしょうか。
ええ。ここでイーロン・マスクは一つの不都合な真実に直面しています。それは、OpenAIの営利事業が依然として非営利団体によって管理されているということです。公益法人を内包するこの財団が存在します。おい、非営利団体はそれほど多くのことをしておらず、彼らの資金のほとんどは営利活動に使われているように見えるぞ、と言う人々に共感はしますが、これは法的に争われたことであり、非営利団体は依然として営利事業に対する議決権を持っているのです。
そうですね。イーロン・マスクはこれを慈善団体の略奪事件だと言っています。OpenAIの弁護士たちは、イーロンは基本的に、会社が自分なしで成功したことを苦々しく思っているだけだと非難しています。主任弁護士のウィリアム・サビットは公判中、次のように述べました。我々がここにいるのは、マスク氏がOpenAIで思い通りにならなかったからです。私の依頼人たちは、彼なしで前進し成功する勇気を持っていました。マスク氏はそれが気に入らなかったのです。彼らはまた、イーロンが会社にいた当時、OpenAIに営利目的の子会社を作らせたがっていたこと、そして自分がそれをコントロールできなかったことに怒っているだけだと指摘しています。
ええ。それを強調すると、2017年から2018年にかけて、イーロン・マスクがこれを営利企業にすることについて話しているメールが存在します。ですから、彼が今日、慈善団体の略奪についてどんな懸念を抱いていようとも、当時はそんな懸念は持っていなかったのです。彼はまた、OpenAIをTeslaに組み込むことも望んでいました。それはこれらのメールのいくつかで明らかになりました。もちろん、Teslaは営利企業です。ですから、これは決して一貫した原則に基づいた立場ではないようです。
しかしケイシー、ここでの争点は何でしょうか。もしイーロン・マスクが陪審員を説得し、これがOpenAIが自らの商業的利益のために非営利団体を略奪したケースだと認めさせることができた場合、どのような救済措置があり得るのでしょうか。これはOpenAIにとって致命的なものになる可能性がありますか。それとも、単に大規模な裁判で彼らを遅らせ、気を逸らせようとする試みに過ぎないのでしょうか。
私は圧倒的に後者だと思います。事件の記録や法律専門家の見解を読む限り、この事件全体が裁判になったこと自体が非常に異例です。大抵の場合、非営利団体に寄付をしたとしても、その後のお金の使途について口を出す権利は実際にはありません。ですから、裁判官が彼に訴訟を起こす資格を認めたこと自体が非常に珍しいのです。そして私が指摘したように、裁判官は彼の主張のほとんどを却下しました。
とは言え、ここで彼が何かを勝ち取る確率が一桁パーセント台あると仮定しましょう。彼が望んでいるのは、現在営利事業の管理下にある1500億ドル以上を非営利団体に返還させることです。これはOpenAIがStargateを構築し、その他やりたいことをすべて実行しようとする上で、多くの頭痛の種と障害を生み出すでしょう。
ええ、イーロン・マスクとOpenAIの間のこの進行中の訴訟は、OpenAIにとって非常に気を散らすものだったと思います。しかし、ジャーナリストとして、またこれらの企業がどのように運営されているかの内部事情をもっと知りたい人間として、OpenAIのリーダー間の初期のメールやコミュニケーションの多くがこの訴訟の一部として公開されたことは、実際には非常に価値のあることだったと思います。OpenAIにおける初期の力学のいくつかを理解する上で非常に役立ちました。
そしてまた、これらのプロジェクトがいかに恨みによって動かされているかという程度も示しています。つまり、ある解釈のレベルでは、これらの人々は皆、機械の神を構築することに執着しており、これが彼らの未来のビジョンにすべて関連しているというものです。そして、もっと基礎的なレベルの別の解釈としては、この人たちは単なるライバルであり、彼らは些細で長年の恨みを抱えていて、お互いをあまり好きではないというものです。ですから、AI業界で起きていることの多くを、個人的な敵意というレンズを通して解釈することができます。
はい、以前にも言いましたが、失礼を承知で言うと、AI業界の驚くほど高い割合は、サム・アルトマンとは働きたくないと決心し、今では自分の会社を持っている人々で構成されています。
そうですね。ケイシー、裁判からMicrosoftとの契約、これらの成長予測の未達まで、OpenAIを取り巻くこれらのドラマや陰謀を見て、OpenAIは問題を抱えている、IPOにはたどり着けないだろう、機能不全に陥り、深刻な苦境に立たされるかもしれない、そしておそらくイーロン・マスクがこの裁判に勝ち、私たちが知るOpenAIの終わりになるかもしれない、というようなことを言う人たちがいます。そのような悲観的な予測についてどう思いますか。
ええ、つまり、OpenAIには依然として懸念される基礎的条件がいくつかありますよね。彼らは収益性を達成する前に、数百億ドルの現金を燃やす計画を立てています。彼らは依然として、非常に野心的で非常に高価なインフラ構築を計画しています。ですから、私はここに座って、この会社のすべての数字が計算に合っているように見えると言うつもりはありません。
全体として、もし私が彼らのCFOの立場に立って、私たちが今話したすべての記事に目を通したなら、これらは賢明な行動だと思えるでしょう。彼らは書類の細部を詰め、この会社を個人投資家が株に投資することに興奮するような形に整え始めているように見えます。ちなみに、私は投資家たちは興奮するだろうと思っています。ですから、これは世代的に奇妙な企業の一つですが、この特定の一連のニュースを見ると、彼らは基本的には正しいことをしていると思います。あなたはどう思いますか。
ええ、AI業界には興味深い誤謬があると思います。それは、勝者は一人しかいないという考え方です。すべてがゼロサムゲームだと。もしOpenAIの調子が悪い月があれば、それはAnthropicの調子が良いから、あるいはGoogle DeepMindの調子が良いからであり、その逆も然りだというわけです。彼らの成長は他のすべての犠牲の上に成り立っているという考えです。そして、そのような感情は、これらの企業の幹部を含め、共有されていると思います。
しかし、私はそれが真実だとは思いません。運命を共にして栄枯盛衰する一握りの企業が存在するようになるだけだと思います。もしあなたのモデルがトップティアにあるなら、彼らがトップティアに留まっている限り、AI導入の波がすべての船を押し上げるように、あなたも大丈夫だろうと。それが私の実感です。
では、この波はすべてのAIポッドキャストも押し上げてくれると思いますか。
そう願っています。そう願っていますよ。
わかりました。私もです。
医療現場におけるAIの急速な普及
ケビン、ここにお医者様はいらっしゃいますか。
ええ、確かにいますよ、ケイシー。今日は医師とAIと医療について対話します。なぜなら、ここは最近多くのことが起きている分野であり、専門家の見解を聞く必要があったからです。
ええ。ここ数ヶ月の状況を見渡すと、AIと医療が交差する分野で、企業が次々と独自の製品を導入しているのが分かります。ChatGPT Health、臨床医向けChatGPTがあり、AmazonにはHealth AIというものがあります。MicrosoftにはCopilot Healthがあり、そしてもちろん、その間ずっと医師たちはこの技術を実験しており、私たちが知る限り、実際に彼らが見ているものに非常に興奮しています。
ええ。そしてこれは最近の私の通院にも大きな変化をもたらしました。診察に至るまでに、今何が起きているのかについてAIシステムと一連の対話を行うようになったのです。ですから、私は自分に何が起きているのかについて、良い情報だと信じるもので武装して診察に臨んでいます。そしてそれにより、医師とこれまでとは違う、より高度な会話ができるようになります。
これは私だけではありません。医療情報を求めてチャットボットに頼る人が増えています。最近のデータによると、アメリカ人の約3分の1が医療情報を得るためにAIを利用していると報告しています。そして企業は、医療現場での使用に特化して設計されたより良いツールを作成することで、その需要に応えようと競い合っています。
そこで、AIと医療、そしてヘルスケアの状況を理解するために、私たちのお気に入りの医師の一人であるアダム・ロッドマン医師に再び番組にお越しいただきました。彼はベス・イスラエル・ディーコネス医療センターの内科医であり、ハーバード大学医学部の助教でもあります。
ええ、私たちが最後に彼と話したのは2024年の11月でした。それ以来、彼は人々がヘルスケアの分野でAIとどのように関わるかを研究し続けています。そして、ケビンの発疹についてどうすべきかなど、彼に聞きたいことがたくさんあります。
はい。では自己負担金を払って、アダム・ロッドマン医師をお呼びしましょう。
アダム・ロッドマン医師、Hard Forkへお帰りなさい。
ああ、ここに来られて嬉しいです。現時点で私は番組の友人と言えますか。
どうでしょう。このインタビューがどうなるか見てみましょう。少なくともあなたは番組の医師ではありますよ。
あなたはプライマリケアの医師ですね。2024年後半に最後にお話しした時、医療界は、ちょっと待て、これらのAIモデルは診断のようなことでかなり優秀になってきているぞ、と言い始めていた時期だったと思います。しかし、現場の多くはまだ様子見の段階だったように思います。それから約2年が経ち、現在ではAIの医療利用に関する多くの新しいツールや研究があります。過去1年半ほどの間に、医療におけるAIに何が起きていたのか教えてください。
ええ、クレイジーでしたよ。AIと医療は、まあ測り方にもよりますが、おそらく歴史上最も早く導入された医療技術になりました。ごく新奇なもので、AIツールを使う人などほとんどいなかった状態から、ほとんどの医師の日常業務のルーチンの一部になるまでになりました。
医師のためのAIスタックのようなものを教えてください。彼らが今使っているツールは何ですか。そしてどのように、特に最先端にはまだいない、いわゆる普通の医師たちはどう使っているのでしょうか。
一般の人たちですね。
ええ、もしそう呼ぶなら。
はい。あなたのリスナーの多く、あるいはかなりの割合が遭遇したことのある最も一般的な普通の医師向けの技術は、AIスクライブと呼ばれるものです。これは、患者と話しているのを聞いて、カルテの最初の草稿を書いてくれる音声テキスト化アルゴリズムです。これらは、おそらく2年も経たないうちに、ちょっとした斬新な実験的技術から日用品になりました。どこにでもあります。医師はこれを本当に気に入っていますし、話す時間が増えるので患者も本当に気に入っています。
そして2つ目の普通の医師のユースケースは、意思決定支援です。Open Evidenceという企業が提供している無料ツールがあり、これもゼロから驚異的な採用数へと成長しました。若い医師、例えば私の研修医たちはこれを常に使っています。これは面白いことに、自分のAIを持ち込む(BYO AI)なんですよ。通常、ツールは病院や医療システムが購入するものです。しかし、これは職場に自分のAIを持ち込む日であり、実際の数字は知りませんが、おそらくアメリカの医師の半数近くが現在これを使っているでしょう。
うわあ。ええ、私が見た統計では、現在40%以上の医師がこれを使用しています。2022年に始まったばかりのツールにしては、かなりクレイジーな普及率です。3月には、Open Evidenceは24時間で医師たちがAIシステムに100万回相談したと報告しました。私はOpen Evidenceに魅了されてきました。私自身は使ったことがありませんが、医師や看護師の友人がいて、彼らはあなたが言った通りのことを言っています。基本的に誰もが、特に医療現場の若い世代は、これを常に使っていると。
ですから、このOpen Evidenceツールがどのように機能するのか教えてください。どのような状況で使用され、その強みと弱みは何ですか。
それは素晴らしい質問ですね。Open Evidenceがどのように機能するかは、これらすべてのツールと同様に企業秘密ですが、ある種の検索拡張生成とエビデンス検索ツールを使用しており、主要な医学雑誌すべてと契約を結んでいます。New England Journal of MedicineやJAMAなどです。そして臨床的な質問をすると、エビデンスを検索し、質の高い情報源を特定しようと試み、返してくるものは常に文献に基づいています。
私には白髪があります。私のように白髪のある世代は、Google検索や古いツールの1つを使うのと同じようにOpen Evidenceを使います。文献を素早く検索するための強化された方法として使用し、多くの場合一次情報源に当たります。あるいは、参考文献を入手するためのより迅速な方法として使用します。久しぶりに処方する薬がある場合、Open EvidenceがFDAから医薬品のモノグラフを引っ張ってきてくれるので、それを非常に素早く確認できます。
私が気づいたのは、経験的なデータがあるわけではありませんが、若い医師は、何が起きている可能性があるか、セカンドオピニオンをくれないか、次に何をすべきか、といった質問をする傾向が強いということです。ですから、私が伝統的に意思決定支援やリファレンスツールを使用しない方法で、ある種の新しい使い方をしています。もちろん、若い医師も私と同じようにリファレンスとして使用しています。
さて、彼らは実際に患者のデータをこれにアップロードしているのでしょうか。それとも、意思決定のサポートを得るために、患者を一般的で匿名化された方法で説明しているだけなのでしょうか。
私の理解では、主に後者です。企業はどれだけの人が、保護された健康情報をコピーして入力しているかについて良いデータを持っていると確信していますが、誰もそんなことをしていないことを願っています。少なくとも私の同僚や学生から観察したところでは、ほとんどの人は疑問があるときの検索ツールのように使っています。この人にセフトリアキソンを投与しようと思うのだが、腹腔内感染症の適切な投与量はいくらか、といった、医師を通して解釈される一般的な質問です。
そして、患者の健康記録と統合されているAIツールはありますか。これは、私の個人情報や保護された健康データがクラウドベースのAIシステムに入るのは嫌だという反発が多かった分野だと思います。しかし、これを患者のデータと直接結びつけている病院システムや医療システムはあるのでしょうか。
おお、100%、100%イエスです。現在、患者のデータと結びついているもののほとんどは、医師向けの意思決定よりも請求手続きに関するものです。電子健康記録と統合している企業があり、それらはまだ標準にはなっていません。それから、電子健康記録企業自体です。アメリカで最大の電子健康記録ベンダーは明らかにEpicです。彼らはネイティブなものを組み込むために多くの作業を行っています。例えば、私の医療システムで患者にメッセージを送ろうとすると、上部の親切なAIがすでに、こう言うべきかもしれません、と提案してきます。それは通常あまり役に立たないので、私は人生で一度も使ったことがないと思いますが、実際に患者の健康データに組み込まれて実験されているそのようなものはたくさんあります。
医師たちがこれらすべてについてどう感じているのか気になります。アメリカ医師会からの調査で、現在80%以上の医師が専門的にAIを使用していると報告しているのを見ました。これは、医師たちがこれらのツールが非常に役立つから急いで手に入れ、オフィスに持ち込んでいるということでしょうか。それとも、おい、AIを使わなければクビだ、とCEOが言うような古典的なケースなのでしょうか。
医師たちはAIを自前で持ち込んでいます。そのAIの使用の多くは、AIスクライブと意思決定支援ソフトウェアです。そして、意思決定支援ソフトウェアとしてChatGPTやGemini、Claudeを直接使っている人もいます。ですから、これまで医師が一般の人々よりもこれに対して肯定的であった理由の1つは、彼らが自分たちの生活をより良くすると思って自ら持ち込んでいるツールがほとんどであり、少なくともまだ私たちに押し付けられているものは多くないからだと思います。
患者のAI利用とプライバシーのジレンマ
私や友人が今医者に行くと、まずチャットボットに情報を提示し、チャットボットが言ったことの読み上げを持って医者のところに行くことがよくあることに気づきました。もちろん、これは新しい現象ではありません。人々は何年もの間、WebMDの結果などを使ってこれを行ってきました。しかし、患者がチャットボットと自分の症状についてすでに話し合った上であなたのところに来る人がはるかに増えているというのは、あなたが今目にしていることですか。
はい、これがもう一つの大きな変化です。診察室には私と一緒に誰か別の人がいて、それは多くの場合ChatGPTです。彼らは話し合っています。私の入院患者の場合、私が同じ部屋にいる間に彼らはChatGPTと話していることもあります。これは医師にとってある種の新しい能力なので興味深いことです。私たちは患者とAIについて話さなければなりません。
私は患者に対して、私が安全だと思う使い方、私に伝える際の安全な使い方、そして絶対にやってはいけないことについて話し始めました。私が医師でありAI研究者でもあるため、患者は私にもっと話してくれるのかもしれませんが、私の患者の多くは日常的にAIを使用しています。
あなたが彼らに何を伝えているのか、少し教えてもらえませんか。というのも、私は絶対に以前に上腕二頭筋群について調べたことがある人間だからです。医者に行って、それが非常に役に立ったと言えます。しかし同時に、もっと懐疑的な医師が、患者からChatGPTがこうしろと言っていると聞かされてイライラするのも想像できるからです。
ええ。では、私の決まり文句をお話ししましょう。私は彼らに、青信号、黄信号、赤信号を出します。なぜ丸を描いているのか分かりませんが、信号機がどんな形かはみんな知っていますよね。
青信号の用途は一般的な健康に関する質問です。例えば、最近糖尿病と診断されました。シーフードが大好きです。私向けの糖尿病食のメニューを考えるのを手伝ってくれませんか、といったことです。
青信号の用途には、クリニック受診の準備も含まれます。これからロッドマン医師の診察に行きます。適切な質問ができるようにしたいです。これが前回のカルテ、あるいは彼が書いた最新のものです。もちろん、個人を特定できるものはすべて削除します。そして、彼に尋ねるべき良い質問を考えるのを手伝ってください。
他の青信号の活動は、ウェアラブルデータのようなものでしょう。彼らがウェアラブルデータにおいてどれほど優秀かは知りませんが、もし患者が5年分のApple Watchのデータを私に渡そうとするなら、私が5年分のApple Watchのデータを見たふりをするよりも、おそらくChatGPTからより良い結果を得られるでしょう。なぜなら、診察時間は20分だからです。
黄信号は、ケイシー、あなたが言っていることの多くだと思います。私は患者に、新しい症状を調べるのは構わないと言っています。チャットボットと話すときにセカンドオピニオンを求めることさえ、それが医師の代わりにはならないこと、そしてそれが人間と話すための最初のステップであることを理解している限り、本当に良い準備になります。
LLMは本当に強力です。人間がそれを使用するとき、常に研究室レベルのパフォーマンスが得られるわけではなく、危険なアドバイスを与える可能性もあるという証拠はもちろんありますが、医師の診察の準備として使用する限り、診断や症状の調査は非常に役立ちます。
赤信号、つまり私が絶対にやってはいけないと伝えているのは、医学的な管理の決定を尋ねることです。私の医者はこうしろと言ったが、これは正しいか、と言ってはいけません。万が一癌になったとして、これは正しい化学療法か、といったことです。これらの決定の多くは非常に微妙で、情報量が多く、モデルが得意としないものであり、彼らは非常にへつらうため、間違っていても正しいことを言っているとあなたに納得させることができます。
アダム、興味があるのですが、ここサンフランシスコには、あらゆる種類のデバイスを使って自分自身を追跡するのが大好きなフィットネス愛好家や健康オタクがたくさんいます。人々はFunction Healthのような企業から全身検査を受けています。それはプレミアムなコンシェルジュ医療のようなもので、100項目の検査を受け、そのデータをすべてClaudeやChatGPTにアップロードし、自分たちの生活における第一線の医療専門家のように扱っています。それは良い習慣だと思いますか、それとも心配する必要のないことまで過剰に心配させているだけだと思いますか。
ええ。それは心配する必要のないことまで人々を過剰に心配させています。そしてこれが一般的なLLMやChatGPTの落とし穴です。自分の症状についてLLMに相談することのダークサイドは、彼らが非常にへつらうため、サイバー空間の心配の渦にあなたを追い込む可能性があるということです。
大規模で日常的な検査や機能性医学を行い、それをLLMに入力することが健康上の結果を改善するという証拠はまだありません。ただ、もしLLMがあなたに運動をして健康的な食事をするように言っているなら、それはおそらくかなり良いことです。睡眠とかですね。
ええ。Apple WatchやFitbitのデータをChatGPTが分析できる形に変換できるChatGPT Healthのような統合はどうでしょうか。また、臨床医向けChatGPTと呼ばれる臨床使用向けの新しいバージョンのChatGPTもあります。これらの統合やプロジェクトの中で、あなたから見てより有望なものはありますか。
まだありませんが、ある時点ではそうなる可能性があると思います。ChatGPT for Healthは、相互運用性標準を使用して医療記録からデータを取り込み、自分の医療記録とチャットできるようにします。
懸念の第一の理由はプライバシーです。あなたの全病歴がAI企業に行くことになり、識別可能なものを削除する方法であなた自身が編集することもないでしょう。
理由の第二は、健康記録データについて話している場合、それは本当に乱雑だということです。表形式のデータも含まれていますし、コピー&ペーストされたデータも含まれています。そして、自分の健康記録を読んだことがあるなら分かると思いますが、間違っていることも含まれています。健康データには多くのエラーや誤った記録があります。
ただ大量の情報をコピーするだけでは、魔法のようにLLMが機能するわけではないことが分かっています。医療記録をすべてコピーして入れれば、良いパフォーマンスが得られると考えることはできません。
私はテクノロジーに対して決して悲観的ではありません。人間の表現を構築し、その健康を理解する方法を持つポイントに到達するとは思います。しかし現時点では、すべてをLLMに投げ込むことによる利点はありません。理論的には、ChatGPT for Healthはあなたの健康をよりよく理解するためにそれを可能にしますが。
ユタ州で行われている試験についてご存知か気になります。そこでは、ほぼ200種類の日常的な薬について、AIエージェントを使用して自律的に処方箋を更新することができます。どうやら人間のレビューも少しあるようですが、ほとんどは自動化されています。これは良いアイデアでしょうか、悪いアイデアでしょうか。
世界的に見れば、ノーです。LLMに人々のために処方箋を書かせるべきではありません。ユタ州の試験は特に再処方に関するものです。つまり、過去12ヶ月以内に医師がすでに処方箋を書いています。そして、おそらくそのアイデアは、かかりつけ医が確認して再処方する手間を省くということでしょう。
ほとんどの医師に聞けば、ええ、再処方の依頼を受けるのは面倒だと言うでしょう。しかし、それが私たちを狂わせるほどのものではありません。これは私たちが切望しているユースケースではありません。これは、現実世界で機能するかどうかの概念実証として行われているのだと思います。
この試験自体は危険ではありません。処方箋の再処方であり、オピオイドは含まれていないと思います。危険な薬は含まれておらず、最初の処方箋は医師が書いたものでなければなりません。しかし、仮にこれが機能したとしても、自律型AIシステムに新しい処方箋を書かせるべきだという意味ではありません。それは安全ではありませんし、まだ良いアイデアではありません。
これは、医師や医師団体側の利益追求行動の一種のように思えます。私が処方箋の再処方を受けるとき、医師と6から8分面会します。彼らは調子はどうですかと聞き、私は最高ですと答えます。彼らは副作用はありますかと聞き、私はありませんと答えます。彼らは分かりました、再処方箋を書きますねと言います。このプロセス全体が、私にまた診察代を払わせるためにデザインされているだけで、実際には何の有益な医学的アドバイスも提供していないように思えます。
ですから、悪魔の代弁者としてお聞きしますが、このようなプログラムに対する抵抗は、単に人々を医者に通わせ、その診察代を払わせ続けたいという動機によるものだと思いますか。
まず、あなたの処方箋の再処方のほとんどは、薬局に電話すると薬局が自動的に医師に通知を送り、医師がイエスボタンをクリックして、あなたが医師と話すことなく完了していませんか。
いいえ。場合によっては実際にオフィスに行かせられ、もう一度血圧を測るよう求められたりします。
では、私も悪魔の代弁者を返しましょう。私がかなり一般的な抗うつ薬を処方し、彼らがその再処方を望んだとします。私が知らないかもしれないのは、クリニックで受けるこの愚かな質問が、実は口の中に新しくできている病変についてのものかもしれず、それは初期の潰瘍であり、24時間から48時間以内に発見しなければ、スティーブンス・ジョンソン症候群という生命を脅かす可能性のある合併症を発症するかもしれないということです。
抗高血圧薬を含め、特定の種類の薬にこれらが存在するのは、それらが高リスクになる可能性があり、フォローアップが必要だからです。それがすべてかと言えばノーですし、間違いなくもっと多くのものが市販薬になるべきです。ほとんどの医師が座って、もっと薬のフォローアップのための診察があればいいのに、と言っているとは思いません。これらの一部のものが存在するのは、非常に危険な症状があり得るからです。
ええ。ですから、ケビン、医者に行き続けてください。あなたにその病変を発症させるわけにはいきません。番組にとってあなたは重要すぎますから。
別のことについて聞かせてください。これは実は無条件で良いことのように思えました。メイヨー・クリニックが今週発表したRed Modです。これは、膵臓癌の診断の最大3年前に、定期的なCTスキャンの微妙な変化を特定したAIシステムです。これは、膵臓癌の検出において人間よりも何パーセントも優れていました。私にとって、これはAIがやってくれるのをずっと待っていた種類のことであり、実際にそれをやっているように見えます。そしてもちろん、発見が難しく生存率が非常に低いことで悪名高い膵臓癌のようなものについては、非常にエキサイティングです。
ええ。そしてこれは、自律型AIエージェントの言説から完全に外れています。本当にエキサイティングなことが起きています。メイヨー・クリニックだけでなく、乳がんの検出に関する素晴らしい研究もあります。これらのアルゴリズムの多くは非常に優れており、人間よりも優れているとは言うべきではありませんが、優れた検出率を持つワークフローの中で乳がんを特定できるようになっています。また、大腸内視鏡検査を受ける際に、癌化する可能性のあるポリープを発見することにも優れています。
ですから、これからエキサイティングで本当に肯定的なことがたくさん起こります。結局のところ、Red Modが現実世界や試験でどのように機能するかを見る必要がありますが、私はその種の技術について本当に楽観的です。
もしAIが人々の平均寿命を有意義に延ばすとしたら、それはAIが発見した新薬によるものだと思いますか、それともAIによってより効率的または正確になった日常的な医療の変化によるものだと思いますか。
後者です。AIによる創薬について話すとき、パイプラインの中で非常に難しい部分は、必ずしも新しい化合物を思いつくことではありません。臨床試験を実施し、承認プロセスを通過させることです。これはおそらくスピードアップできるでしょうが、発見ほどではありません。
もし私たちがこれを正しく行えば、アメリカには医者にかかれない人、非常に基本的な薬にアクセスできない人、アクセスの欠如のために糖尿病をコントロールできない人がたくさんいます。もし私たちがこれを賢く行えば、より多くの人が医療にアクセスできるようになり、それが健康上の結果を改善することを強く願っています。
ですから、これらすべてと同様に、潜在的な利点は人々が考えているほどエキサイティングではないと思います。基本的な医療をより多くの人に届け、心臓発作を起こす人を減らし、脳卒中を起こす人を減らし、癌検診を受ける人を増やすということであって、AIが発見した新しいCRISPR技術で老化を治す、といったことではないでしょう。
でも、最初のAIが発見した特効薬をまだ目にしていないことに全く驚いていませんか。私のキャリアで最大の特効薬はGLP-1でしたが、これは私が研修医の頃から使い始めていたので、本当に長い間存在していて、糖尿病用の薬を再利用しなければなりませんでした。
ですから、いいえ、私は驚いていません。医学や科学はただ少し乱雑なものであり、私たちは何か素晴らしいものを発見し、ペニシリンのようなものを作った、というような話は常にありますが、ペニシリンでさえ人間に使われるようになるまで20年かかりました。ですから、AIが薬を発見するのを私たちは目にするだろうと思います。ただ、AIからの恩恵は医療からの恩恵と同じようになるだろうということです。人々が思っているよりはずっとエキサイティングではないでしょうが、それでも重要です。
現在、学校や教育におけるAIについて、認知能力の低下を懸念する声が多くあります。AIを使ってすべての作業を行うようになれば、基本的なスキルが身につかなくなるのではないかと。それは、最近の医学部卒業生についてあなたが心配していることですか。彼らは数年前ならこれらの情報をすべて頭の中に入れておかなければならなかったかもしれませんが、今ではチャットボットに聞くことができ、それが医師としてのスキルの一部を侵食するのではないかと。
はい。それは実際、短期から中期にかけて私が抱いている最大の懸念であり、労働力のスキルの低下です。いくつかの証拠があります。昨年、ポーランドで恐ろしい研究がありました。言語モデルではなく、ポリープ検出技術を医師に与え、ポリープを検出する能力を調べた試験です。使用前と、3ヶ月間使用した後のポリープ、つまり結腸の癌化する可能性のある病変を検出する能力です。
使用しなかった場合、ポリープを検出する能力は6パーセントポイント低下しました。技術を使用している熟練した医師が、3ヶ月で潜在的な癌を検出する能力の絶対値で6パーセントポイントを失ったのです。そして、それを初めて学ぶ人たちのことを想像してみてください。彼らはそのスキルを習得できるのでしょうか。
ハーバード大学医学部でも、そしておそらくどこの医学部でも、これが私たちの大きな懸念事項です。これが新世代の医師の訓練にどのような影響を与えるのか。他のすべての分野と同じように、コードのデバッグについて話しますが、新しい医師になるためには、ミスをする必要があり、そのミスが患者を傷つけないように何が起こっているかを知っている上の人間が必要だからこそ、これらすべての訓練を受けるのです。それが教育の仕組みであり、これがそれを脅かしています。
でも面白いですね。グラフ電卓にアクセスできたからといって、それを取り上げられたら、グラフに放物線を描くのが下手になるのは事実でしょう。でもその解決策は、単に電卓を使い続けることですよね。ですから、これが本当にどれほど大きな問題なのか分かりません。また、中年の人々が若者について文句を言うというのは、人間社会に深く根付いているものだとも言っておきます。ですから、スキルの低下について話すときはいつでも、そのことを心に留めておく必要があると思います。
ええ。個人的には、私の主治医にはAIモデルを使ってほしいと思っています。私の特定の症状について意見を言う前に、集合知に相談してほしいです。彼らがOpen Evidenceやそれに似たものを使っていると知っても、患者としての私は脅威に感じません。しかし、多くの人にとってはそれは奇妙に思えるでしょうし、患者に低く見られるかもしれないという理由で、AIをどれだけ使っているか公言しない医師もいるかもしれません。そういうことは起きていると思いますか。
ああ、はい。特定の状況や特定の場所では、AIを使っていないと言うべきだという社会的圧力、プライドのようなものがかかっていると確信しています。私はそれは経験していませんが、私はAI研究者なので、私にそんなことを言う人はいないでしょう。
私にとって、優れた医師の基準として、最大限の資料を暗記していることを挙げるのは奇妙に思えます。それは基本的に私たちが話していることです。ロンドンのタクシー運転手がすべての通りを覚えて頭に入れておかなければならないようなものです。それは非常に印象的ですが、彼らがGPSを使うのは私は構いません。
ええ。暗記についてというよりは、現在のAIの状況を考えると、AIシステムが何か間違ったことを提案しているかもしれないと気づくための知識、あるいは知恵と呼ばれるものを持つことに関するのだと思います。現時点では、この状況は変わるかもしれませんが、多くの症例を見て反省することで得られるものです。
ですから現在は、AIシステムとともに昔ながらの方法で訓練された経験豊富な人間がいる場合、最高のパフォーマンスが得られます。しかし、あなたたちが指摘するように、ある時点ではそれは問題ではなくなるかもしれませんね。AIシステムが私たち全員を単に凌駕するかもしれません。そして、そうですね、グラフ電卓を使うようなものになるかもしれませんが、私たちはまだそこには到達していません。
医療データのプライバシーをもっと緩くすれば、AIモデルはもっと良くなるでしょうか。
それはとても誘導的な質問ですね。それに答える前にまず言っておきたいのは、患者のプライバシーは非常に重要であり、人々のプライバシーと彼らのデータに対する所有権を私たちは尊重すべきだということです。
しかし、ええ、簡単に言えば、彼らが特定の事柄において優れていない理由は、LLMを改善するためにはラベル付けが必要であり、そのラベル付けされた健康データで訓練する必要があるからです。アメリカには、健康データの使用方法に関する適切な制限がたくさんあります。
OpenAIのような企業は、ChatGPT for Healthを持つことで、自社のデータをより多く獲得し、訓練には使用しないと言っていると思います。訓練には使わないという彼らの言葉は信じますが、そのデータを使用して少なくともモデルを評価し、より良くしようと試みることはできるでしょう。
私は彼らがそれを訓練に使うべきだと思います。明らかにそれは巨大な違法なプライバシー侵害になりますが、AI医師をより良くすることにもなります。
ええ、はるかに良くなります。そして、多くの人がそのトレードオフを受け入れるだろうと思います。少なくとも、医者に行ったときに、私の個人の健康データがAIモデルの訓練に使用されることに同意する、というチェックボックスがあるべきだと思います。私ならチェックします。
ええ。巨額の医療費が30%オフになるクーポンと引き換えにですね。
クーポンがもらえると。次のオゼンピック注射は20%オフ、店のおごりです、みたいな。
その通りです。
さて、切り上げるのに良いタイミングですね。アダム・ロッドマン医師、また来ていただき本当にありがとうございました。医療の世界で何が起きているか、引き続き教えてください。
喜んで。どうもありがとうございました。
先生、ありがとうございました。
1930年以前のデータで学習したAI「Talkie」
さて、ケイシー、通常この番組では未来について話しますが、今日は過去、具体的には1930年にタイムスリップしましょう。1930年には何が起きていましたか。
なんてことでしょう。もちろん、私たちは世界恐慌の真っ只中でした。私の祖母は11歳になったばかりで、数年後に初めての既製服を買ってもらうのを楽しみにしていました。
これはTalkieと呼ばれる新しい言語モデル、ヴィンテージLLMで、1931年より前のデータのみを使って訓練されています。これはデイビッド・デュベノー、ニック・ラヴィーン、そして元OpenAIの研究者でありGPT-1論文の筆頭著者であるアレック・ラドフォードの3人によって構築された研究プロジェクトです。
そしてこれは今週、私のタイムラインを賑わせている非常に魅力的なプロジェクトです。なぜならこれは、特定のカットオフ日より前のデータのみを大規模言語モデルに与えたらどうなるかという実験だからです。
ええ。もちろん、インターネット上には過去の人と話しているような体験を提供するキャラクターベースのチャットボットはたくさんあります。しかし、このプロジェクトが異なるのは、当時のデータ以前のトレーニングデータに限定しようとしている点です。その後に来たものからのいかなる汚染も避けることが期待されていました。そして後でお聞きになるように、彼らはこの種のLLMが将来何に使われるかについて、非常に興味深く潜在的に有用なアイデアを持っています。
ケイシー、このモデルを触ってみましたか。
はい。私が思いつく最も1930年代らしい質問をしてみました。ねえ、大したアイデアって何だい、と。
何て答えたんですか。
大したアイデアとは、普及させることだ、と言いました。そして私は、何を普及させるんだい、君、と聞くと、スポーツを普及させることだ、と答えました。そして私は、私はゲイだ、と言いました。そこで話は終わりました。
そしてそれは、ゲイ、あなたは幸せなのですね、と答えました。
はい、その通りです。さぞかし心が軽いのでしょうね、と言っていました。
ええ。私はこの実験が大好きです。ニッチで奇妙な言語モデルが大好きです。私のお気に入りの言語モデルの一つは、ゴールデンゲート・クロードでした。これはゴールデンゲートブリッジに病的に執着している特別なバージョンのClaudeでした。私はTalkieを、それ自体ではあまり役に立たないかもしれないが、これらの言語モデルと、それらを特定の方法で訓練したときに何が起こるかについて、何か興味深く重要なことを解明するのに役立つ実験的な研究モデルのカテゴリーに入れます。
ということで今日は、そのクリエイターの一人とお話ししたいと思います。デイビッド・デュベノーをお迎えします。デイビッドはトロント大学の准教授で、AGIのガバナンスと破滅的リスクの軽減について研究しています。彼はこのプロジェクトの共同クリエイターの一人であり、これについて話すのに彼以上の適任者はいません。
その通りです。デイビッド・デュベノー、Hard Forkへようこそ。
ありがとうございます、ケビン。
このプロジェクトは魅力的です。ヴィンテージLLMですね。あなたとニック、そしてアレックがなぜこれを作ったのか説明してください。
すべては1年前に始まりました。私とニックは予測に関心がありました。具体的には、5年後や10年後の大局がどうなるかについて、機械に予測させることや教えることができるかということです。私たち自身、未来がどうなるかについてのお気に入りの考えを持っていますが、人々が私たちの言葉を鵜呑みにすべきではないと思っています。また、数十年遡る実績がない限り、機械の予測を信用すべきではないとも思っています。
ですからここでのアイデアは、ある日付までの世界についてのデータしか本当に知らないモデルを構築できれば、5年後や10年後を予測するように頼むことができるということです。例えば、5年後のニューヨーク・タイムズの見出しはどうなるかとか、また世界大戦が起きるかとかを聞くことができます。そして、どのようなことが予測可能か、どこまで先のことを見通せるのかを繰り返し確認することができます。そうすれば、いつか100年間の予測実績を持つ機械ができ、2026年になって、2年、4年、8年後に何が起こると思うか、と尋ねることができ、その予測をどれだけ信頼すべきかが分かるようになるでしょう。
それは魅力的なアイデアですが、本当に良いデータが必要になると思います。この場合、1930年代より前の本当に良いデータです。それは、インターネットに出てRedditをクロールしたり、最先端のモデルがアクセスできる他のあらゆるものを利用したりするよりも、入手が難しかったのではないかと推測します。その課題にどのように直面し、この1930年代以前のデータはどこで手に入れたのですか。
ええ、ここで言及しておきたいのは、本当に多くのグループが素晴らしいアーカイブ作業を行っているということです。私たちが最初に興奮したデータセットは組織の書籍で、ハーバード大学図書館がコレクション全体の1%をスキャンしたものでした。そこには1800年代や1900年代初頭からの大量のデータがありました。他にも本当に多くのグループが膨大な作業を行っています。これをすべて列挙するには長い時間がかかりますが。そしてまた、OCRの精度がここ半年ほどで飛躍的に向上しました。ですから、このデータを自動的にデジタルスキャンするプロジェクトは常にたくさんありましたが、ごく最近までそれほど高品質ではありませんでした。
カットオフの日付を1930年頃に選んだ理由の一部は、作品がパブリックドメインになる時期だからだと推測しています。それ以降のものは著作権で保護されています。その特定の時点を選んだ理由は他にもありますか。
いいえ、完全にそれが理由です。私たちはすべてをオープンソースで公開したいと考えており、1930年代はデータ公開などにおいて法的な頭痛の種がほぼゼロになる最も最近の日付なのです。
人々がこのモデルで何を試しているかを見るのがとても面白いです。未来を予測させたり、お気に入りの著者や歴史上の重要人物についての意見を求めたりしています。あなたにとって最も興味深かった実験は何ですか。
ええ、人々がモデルを楽しんで、私たちが決して思いつかないようなあらゆる種類の質問を考えるのを見るのは本当に嬉しいことでした。私たちが想像する以上に人々の想像力は豊かですから、チャットを公開して人々に試してもらうことは本当に確実に行いたかったことの一つでした。
私が人々がしているのを見た面白いことの一つは、多くの人が2026年がどうなるかを聞きたがることです。モデルは、戦争が悪いことだと理解しているだろうとか、はるかに平和な文明になっているだろうという非常に哲学的な答えを返したり、時には終わりが来ていると言ったりします。つまり、非常に一貫性のないモデルであり、体系的な方法で物事を本当に考え抜くほど十分には賢くありません。なんとなくバイブスを与えてくれるだけです。
さて、それはこれがどのような種類のLLMであるかという、ちょっと興味深い問題を引き起こします。もし今日、最先端のモデルに未来を予測するように頼めば、統計的に可能性の高い単語の並びを推測しようとするだけでなく、ある種の推論も行うでしょう。Talkieはそれをしていませんよね。ですから、その構築方法からして、現在のモデルほど予測には優れていないと予想するのが自然に思えます。
ええ、絶対にそうです。これは非常に初期段階のモデルです。推論のための基本的な微調整や、誰の推論も向上させることが分かっているスーパーフォーキャスティングの足場のようなもの、例えば異なる可能性を考え出し、それぞれにサブの確率を割り当てるといったことですが、モデルはまだこのような詳細な複数ステップの指示に従えるほど賢くありません。繰り返しになりますが、私たちは最初に行ったことを公開したかっただけです。しかし、これらの改良をすべて追加するための明確な道筋はあります。
では、進めながら推論を追加していく予定なのですね。
ええ、もちろんです。
Talkieの背後にあるモデルが、ヒトラーの台頭やFDRの大統領就任など、データのカットオフ以降に起こった、本来知るべきではない事柄を知っているように見えると指摘する人もいます。これは、トレーニングデータに最近のデータが混入して汚染されている証拠でしょうか。
ああ、汚染は間違いなくあります。そしてこれは、私たちが何度も何度も見直し、改善し続けなければならない継続的な課題の一つです。私たちは、時代錯誤なものを探し出そうとする分類器を持っています。そして特に、これを予測に使いたい、あるいは予測の評価に使いたいのであれば、この問題を本当に解決することが重要です。
ですから、モデルが決して可能性を割り当てるべきではないと私たちが考えるカナリアや事柄についてのアイデアはあらゆる種類があります。例えば、長崎と広島を思い浮かべてください。第二次世界大戦前には、この二つの都市が同じ文に現れることは、何か奇妙な偶然を除けば、ほぼ決してありませんでした。ですから、モデルがこれら特定の名前を一緒に見る可能性があると少しでも考えていれば、重要な出来事に関する情報の漏洩があったかどうかが分かります。とにかく、私たちは漏洩を避けるために多くの努力をしてきました。現在漏洩があることは分かっているので、まだ予測能力の評価には使用すべきではありません。
アーカイブソースからスキャンしたOCRの書籍しか与えられていないのに、どうやってそのデータを取得しているのですか。
なぜなら、アーカイブソースには常に間違った日付が含まれているからです。あるいは、改訂版があったり、後から序文が追加されたりしているため、テキストの日付がいつなのか不明確な場合もあります。時にはテキストの途中でさえ、誰かが未来のメモを挿入していたりします。例えば、歴史家からの注記、のような形で。そして、人々が行うこれらすべての小さな編集を確認するのは非常に困難であり、メタデータには元の出版日がそのまま残されていたりするのです。
なるほど。私はTalkieに私のことについて何を知っているか尋ねてみました。すると、私の名前ではないケビン・オハラは1840年にダブリンで生まれ、クリスチャン・ブラザーズの学校で教育を受け、そこで教師になったと言いました。その後、彼はジャーナリズムの職業に就き、数年間ネイション紙のスタッフとして働きました。また、Molly AsthorやThe Irish Immigrantなど、いくつかの人気のある曲を書いたとも言いました。
明らかにそのほとんどは間違っていますが、私をジャーナリズムと結びつけたことは興味深く、もしかするとデータ汚染の他の証拠かもしれません。しかし、これは何らかの方法でインターネットにアクセスしているのでしょうか。それとも、私、あるいは少なくともモデル内で私に関連付けられているこのケビン・オハラというキャラクターがジャーナリストだったと、どうやって知ったのでしょうか。
それは素晴らしい質問ですね。トレーニングデータは2400億トークンにも及び、これはもう膨大なモノの海のようなものだと言っておきましょう。ですから、どこかにジャーナリストのリストが入れられていて、そこにあなたの名前があったのかもしれません。このモデルについて言えることの一つは、狂ったように幻覚を見るということです。人々が仕事で使うことを意図したチャットボットでは、これは大きな問題でしたし、最先端のモデルでは大部分が対処されていると思います。しかし、私たちはこれまでのところ、トレーニング後においてそれに対処する努力を一切していません。
ケビン、The Irish Immigrantを少し歌ってくれませんか。
ここでデイビッドの時間を無駄にしたくないので、それは後にとっておきましょう。
問題のあるコンテンツについて言えば、黒人の教授に子供を教えさせるかというような質問に対して、Talkieが人種差別的な回答をすることに気づいた人もいます。それが歴史的に正確である可能性は理解できますが、それを予想していたか、またそれについてどう感じているか興味があります。
ええ。そのような回答があることは私たちにも非常に明らかでした。私自身も教授であり、私の最初の直感は、もし人々が見たいのであれば見せてあげよう、誰かを驚かせないようにしよう、そして軽薄に扱わないようにしよう、というものでした。なぜなら、それは一部の人々にとって本当に不快なものになる可能性があり、特に私たちがそれを瞬間的に処理してしまうとそうなるからです。
ですから、私たちがどう針の穴を通したかというと、データセットから問題のあるコンテンツを一切フィルタリングしませんでした。過去の知識の状態や思考の状態が実際にどのようなものであったかを見せたかったのです。もし私たちが意図的に操作してしまえば、プロジェクトの目的が損なわれます。しかし、Talkieと話せる公開デモについては、現代の感性を持つ現代のモデルにすべての回答を読ませ、生成された最後にそれが問題があると判断された場合は、警告を表示して、不快な内容が含まれている可能性があります、見たい場合はクリックしてください、と伝えるようにしました。
なるほど。私が気に入った説明は、今日ギャビン・リーチが言ったものですが、Talkieはひどい人間によって美しい散文を作り出しているというものでした。これは私のいくつかのテストとも一致しています。このモデルは実際にはかなりうまく書きますし、私の耳には、より新しいデータで訓練された最近のモデルのいくつかよりも、はるかに文学的に聞こえます。しかし、ええ、そうではありません。それは明らかにその時代の産物、あるいは少なくともそのデータの時代の産物です。
ええ。ええ。そして、その散文は非常に新鮮なスタイルなので本当にクールです。実際、それをAI検出器のいずれかに入力すると、通常は100%人間であると表示されます。これはちょっと面白いですが、あなたがひどい人間と言及したように、現時点では一種の平均的な人間のようなものになっており、状況に応じてあらゆる種類の異なる声でランダムに答えます。
しかし、次に計画していることの一つは、特定の人物、あるいは特定の知識状態や特定の時代や場所で話せるようにすることです。そうすれば、1930年の集合知のようなものと話すよりも、一貫性のある質問に答えることができるようになると思うからです。
集合知といえば、別の人がTalkieに尋ねているのを見ました。基本的にその人は自分が未来から来たことを伝え、未来について知りたいことは何でも教えると言いました。するとTalkieの最初の質問は、世界平和はどのようにもたらされたのか、というものでした。これは私が大規模言語モデルから読んだ中で最も胸を打たれるものでした。これはその時代、あるいはトレーニングデータについて何を物語っているのでしょうか。
そうですね、一般的に言えば、未来派というのは、人々が実際には未来を懸命に予測しようとせず、むしろ自分たちの価値観を投影する場所です。誰かに何が起こると思うか尋ねると、通常は自分が起きてほしいと願っていることで埋め合わせます。そしてそれは100年前も同じだったと思います。ですから、ここでの課題は、Talkieを希望的観測のモードから抜け出させ、実際に何が起こると思うかという本質的な部分に入り込ませることです。
ええ。ただ面白いのは、もし私が今日2126年のLLMと話すことができたら、人間はまだ生きているか、気候はどうなっているか、ロボットは何人殺したか、といったことを聞くと思うからです。それはTalkieが知りたがっていたと思われる質問とは全く異なるものになるでしょう。
さて、Talkieを何か大きな科学的発見に向けさせて、それができるかどうかを見る予定はありますか。Google DeepMindのデミス・ハサビスには、当時の既存の科学文献をすべて与えれば、AGIはアインシュタインの相対性理論を発見できるはずだという理論があります。このモデル、あるいはこのモデルの派生版をそのような目的に使うことは期待していますか。
もちろんです。ええ。ですから、特にニックは、ある知識の状態が与えられたとき、純粋な推論だけで概念的な理解の状態を前進させるのにどれくらいの時間が必要か、どれくらい先まで進めるかという問題に興味を持っています。そして古典的な例は、アインシュタインの発見のいくつかです。これらは実際に実験を必要とせず、ただピースを組み合わせることだけを必要としました。
実際、Machinistという別のプロジェクトがあり、1900年を学習のカットオフとして、特殊相対性理論を再発見できるかどうかを試みました。しかし、その実験が行われたモデルは30億パラメータ程度のもので、あまり多くのことができるほど賢くありませんでした。彼が示したのは、ある時点まで手を引いてあげれば、正しい方向を示すことができるということでした。しかし、アインシュタインがやらなければならなかったような体系的な推論や数学を行うには、おそらくパラメータの数が少なくとももう10倍は必要でしょう。
デイビッド、次はどのようなものを作りますか。より大きなバージョンのTalkieを作り、より良いパフォーマンスを引き出そうとし続けるのでしょうか。
ええ、やりたいことがいくつかあります。明らかにモデルを大きくすること。現在、モデルはGPT-3よりも小さいですが、GPT-2よりは大きいです。アレックによれば、モデルが実際に往復の会話を行えるほど賢くなり始めるのは、おそらく1000億から1500億パラメータ前後のサイズで、ある種の相転移が起こるということです。
データセットのスケールアップとOCRの取り組みも明らかに重要です。現在、すべてが主に英語なのは、私たちが皆英語のネイティブスピーカーなので英語のテキストを評価し、品質チェックができるからです。しかし、明らかにこのレパートリーを広げたいと考えています。
フィルタリングへの取り組みも明らかに大きなテーマです。そしてもちろん、お話ししたように、予測能力をそもそもどうやって評価するかということも。それはまた別の大きな問題です。
もしモデルをロボットに入れたら、それはトランシーバーになるでしょうか。
彼は無視して構いませんよ。とにかく、私はこれで失礼します。
デイビッド、魅力的な実験でした。皆さんもご自身で試すことができます。talkie-lm.comにあります。
ポッドキャストのゲストへの良い別れの挨拶は何でしょうか。
ポッドキャストとは何かを気にする必要はありませんよ。
わかりました。ではTalkieが言うように、良い旅を。
ありがとうございます。デイビッド、ありがとうございました。


コメント