Googleのメド・ジェミニ: 医療分野におけるAIのゲームチェンジャー

13,377 文字

Google's Med-Gemini: Game-Changing AI in Healthcare. #googledeepmind #googleai #airesearch #aitalk

@googledeepmind's Gemini models have very strong potential in the medical domain, which can improve the lives of billion...

みなさん、こんにちは。ケドです。今日は、私の親友のウィオンと一緒に、メド・ジェミニプロジェクトについてお話しさせていただきます。
まず、このプロジェクトは、Google DeepMindとGoogle Researchの多くのチームが協力して行った大規模なコラボレーションやということを申し上げておきたいと思います。今日は、その成果をお二人で代表して発表させていただきます。
みなさんもご存知かと思いますが、医療AIの分野で幅広いタスクをこなすには、さまざまなスキルが必要です。まず、臨床医には高度な臨床推論能力が求められます。患者さんが来られたときに、症状や社会的背景、検査結果、スキャン画像など、さまざまな患者情報を総合的に判断し、最新の医学知識を取り入れながら、根拠に基づいた正確な臨床判断を下す必要があるんです。
それだけやなくて、いろんなマルチモーダルな情報も解釈せなあかんのです。例えば、患者さんが記録した健康データとか、レントゲンやMRI、CTスキャンなどの医療画像、それに教育用や手術用の動画など、医療に関するありとあらゆる動画も含まれます。これらすべてのモダリティを解釈できる能力が必要なんです。
でも、それだけやないんです。解釈するだけやなくて、効果的なコラボレーションスキルも大事なんです。患者さんが来はったら、問診をして、明確にコミュニケーションを取って、共感性を持って信頼関係を築かなあかんのです。
つまり、幅広い医療タスクをこなすには、ほんまにいろんなスキルが必要なんです。
私たちGoogleの研究者として、ジェミニモデルの発表には本当にワクワクしました。ジェミニは最先端のAIモデルファミリーの1つですが、2つの大きなブレークスルーがあったんです。
1つ目は、事前学習の段階から、マルチモーダルなデータを扱えるように設計された最初の基盤モデルの1つやということです。事前学習の段階から、マルチモーダルなデータをずっと考慮に入れてきたんです。
2つ目は、ジェミニ1.5以降で、コンテキスト長が200万トークンにまで拡張されたことです。これにより、モデルは患者さんの長期的な病歴や、複数回の診察記録など、大量のデータを考慮に入れられるようになりました。また、動画や画像は長いコンテキストを必要とすることが多いですからね。
これらの特徴を見て、「おっ、このモデル、医療分野でええ感じに使えるんちゃうか」って思ったんです。そこで、ジェミニを医療ベンチマークでテストしてみて、医学的知識や推論能力がどうなのかを調べてみました。
結果、多くのタスクでは確かに良い成績を出しましたが、医学的知識や推論には明らかなギャップがありました。このプロジェクトは、そのギャップをどう埋めるか、どうすればジェミニをさまざまな医療タスクでハイパフォーマンスにできるかを理解しようとする最初の試みだったんです。
メド・ジェミニは、ジェミニを医療分野に特化させる取り組みです。まず、ジェミニの優れた機能、つまり高度なテキスト推論能力、マルチモーダル理解、長いコンテキスト処理などを受け継いでいます。
そして、それぞれの機能に対して、医療分野に特化した調整を行いました。例えば、最新の情報と臨床推論を実現するために、ウェブ検索の統合や臨床推論のトレースに関する追加トレーニングが重要やと分かりました。
マルチモーダル理解については、ジェミニは幅広いデータで学習していますが、医療データは十分に代表されていなかった可能性があります。そのため、特に医療画像に特化したファインチューニングが重要やと分かりました。また、心電図信号のような全く新しいモダリティには、カスタマイズされたエンコーダーを追加することも検討しました。
長いコンテキスト処理については、推論ベースのアルゴリズム、例えば推論の連鎖やタスクを異なるサブタスクに分割するなどの方法が、長いコンテキストのタスクに役立つことも分かりました。
これらの医療特化の組み合わせが、メド・ジェミニモデルファミリーの本質なんです。
ざっと見てみると、メド・ジェミニの性能はどうやったかというと、これらの特殊化を最先端モデルに適用した結果、幅広いタスクを見てみると、14の異なる医療タスクのうち10のベンチマークで最高水準の性能を達成しました。
GPT-4のような他の最先端モデルと比較できる場合は、それらのモデルも上回ることができました。もちろん、医療ベンチマークはストーリーの一部に過ぎません。モデルがその知識を持っているかを確認する必要がありますが、実際のクリニックでの臨床的有用性については教えてくれません。
そこで、実世界のアプリケーションも調べてみました。例えば、医療サマリーの生成、医師への紹介状の作成、あるいは論文の要約を一般向けに簡略化するなど、実際に役立つタスクです。これらのタスクについても臨床医と比較してみたところ、メド・ジェミニの性能は高かったです。
でも、Q&A以外にも、会話能力があると本当に役立つんです。フォローアップの質問をしたり、扱っている医療資料を本当に理解したりするのに役立ちますからね。そこで、メド・ジェミニにはマルチモーダルな医療対話機能もあります。ウィオンが後で詳しく説明してくれますが、医療動画との対話もできるんです。これはワクワクする実世界のアプリケーションやと思います。
では、メド・ジェミニの臨床推論能力を向上させるために具体的に何をしたのか、お話しさせていただきます。その後、ウィオンにバトンタッチして、マルチモーダルと長いコンテキストについて説明してもらいます。
ここでの課題は、多くのデータセット、つまり教師あり学習用のデータセットには、質問と回答があるということです。例えば、MedQAは有名な医療分野のデータセットで、米国の医師免許試験を模した質問がたくさんあって、幅広い医学知識をテストするものです。
質問と回答はあるんですが、モデルの推論能力、つまりなぜその答えに至ったのかを説明する能力を向上させたいんです。でも、そういうデータを集めるのは非常にコストがかかるんです。これが私たちが直面していた最大の課題でした。
そこで、STaR（Self-Taught Reasoner）のような手法にインスピレーションを受けました。まず、専門家によるデモンストレーションから始めます。質問があって、専門家が具体的な推論の道筋、つまり最後の回答選択肢に至るまでの推論の軌跡を示すような例を5〜10個ほど厳選します。
そして、これらの例をコンテキストに入れて、トレーニングセット全体の推論の軌跡を生成します。正解を得られたものをフィルタリングして、トレーニングデータに保持し、自己学習を行います。つまり、少数の推論のデモンストレーションからブートストラップするようなもんです。これはええアイデアやと思いました。
でも、これらのデモンストレーションを収集しようとしたとき、専門家がウェブ検索をたくさん使っていることに気づいたんです。最新の知識を確実に持っていることと、すべてを記憶やモデルのパラメータに入れておく必要がないことを確認するのは本当に重要です。
だから、ツールを使って、ウェブ検索も使えるようなエージェントフレームワークを持つことが非常に重要やと考えました。そこで、単に推論の軌跡があるデータセットに加えて、質問と、その質問に関連する検索結果、そしてそれらの検索結果を推論自体に組み込む方法を示す推論の軌跡があるデータセットも用意しました。
このデータセットを、臨床推論だけでなく、ウェブ検索も統合するように拡張しました。メド・ジェミニが答える質問ごとに検索結果を取得していたんですが、予想していたほどの性能向上が見られませんでした。
メド・ジェミニが正解を出した質問に検索結果を追加すると、不正解に変わってしまうことがあることに気づいたんです。これは特に、メド・ジェミニがすでに自信を持っているような簡単な質問で起こっていました。
検索結果を追加すると、かえってモデルを混乱させてしまうようです。コンテキストに情報を追加すればいいってもんやないんです。それが更なる混乱を招いたり、間違った情報を拾ってしまったりする可能性があるんです。
人間でも同じで、すでに知っていることを考えすぎると、かえって間違えてしまうことがありますよね。だから、推論時にはもっとターゲットを絞る必要があると気づきました。すべての質問に検索結果を追加するんじゃなくて、本当に難しい質問にだけ検索結果を追加したいんです。
そこで、推論ベースのアルゴリズムを開発することになったんです。ここに、このアルゴリズムのステップを示すビデオがあります。
まず、メド・ジェミニに質問をして、答えを得ます。これを複数回繰り返して、信頼度の推定値を得ます。矛盾する回答があるかどうかを見て信頼度を推定できるんです。矛盾する回答から検索クエリを生成し、それを使って検索結果を取得します。
その検索結果をメド・ジェミニのコンテキストに追加して、このプロセスを繰り返します。すでに自信があれば検索ループに入らず、矛盾する回答がある場合にのみ検索ループに入ります。これが信頼度の代用になるんです。
これら2つを組み合わせたことで、メド・ジェミニは臨床推論能力が向上し、推論の軌跡を持ち、ウェブ検索を的確に使用できるようになりました。これにより、MedQAのテストセットで新たな最高水準を達成することができたんです。
でも、これを調べている間に、矛盾する回答を生成する際に、温度パラメータなどのハイパーパラメータを変更したのかという質問が出ました。実際、温度を少し高くして、決定論的にならないようにする必要があることが分かりました。
単にそうするだけで、自己一貫性のような設定で、信頼度の良い代用になることが分かったんです。この単純な技術を使うだけで、例えば90%の精度があったものが、信頼度が低いものを見ると50%の精度に落ちるような感じです。
同じ質問を複数回聞いて、回答が変わるかどうかを見るだけの単純な技術が、良い代用になったんです。
トークン生成の確率分布のエントロピーを使うのはどうかという提案もありましたが、経験的には、1回以上聞く方が良い代用になることが分かりました。なぜかは正確には分かりませんが、自己一貫性の設定で行う方が信頼度の良い代用になったんです。
確かに、計算時間とのトレードオフはありますが、エントロピーを使えば1回で済むのに対し、この方法では複数回の推論が必要になります。
これらの評価は自動で行っています。複数の回答を見て、例えばMedQAの場合はA,B,C,Dの選択肢があるので、その回答の分布を推定し、その分布のエントロピーを信頼度スコアとしています。
ただ、回答の内容が選択肢と完全に一致せんこともあるんやないかという指摘もありました。例えば、Aを選んだけど、その内容がBの選択肢に近いとかね。そこで、モデルにはA and Aの内容、B and Bの内容というように、必ず選択肢とその内容をセットで出力させるようにしました。これで、常に回答を選択肢にマッピングできるようになったんです。
この不確実性ガイド付き検索推論フレームワークは、多肢選択問題に対応していますが、例えば自由回答形式の質問に対してはどう修正すればいいのか、という質問も出ました。確かに、自由回答では回答が少しずれていても、完全に間違いとは言えない場合がありますからね。
その場合は、別のLLMやモデルを使って、異なる回答が意味的にどれくらい異なるかを判断させるアプローチが考えられます。これにより、自由回答でも回答がどの程度ばらついているかの指標が得られるんです。
また、追加のコンテキストを提供して医療データを改善し、結果が良くなるかどうかを見る「RAG（Retrieval-Augmented Generation）」アプローチとの比較についても質問がありました。
実は、検索クエリを生成してウェブ結果を取得し、それをモデルのコンテキストに入れて再度質問に答えさせるという意味では、このアプローチは一種のRAGと自己学習を組み合わせたものと言えるんです。
ファインチューニングを行った場合と、単にRAGを行った場合の違いについても調べました。論文にその比較結果を載せていますが、ファインチューニングを行った方が良い結果が得られることが分かりました。
なぜそうなるかというと、検索結果の中には無視すべき部分もあるからやと思います。トレーニング時に正解が分かっている場合、検索結果も扱いつつ、関係のない情報は無視するようにモデルを訓練できるんです。そのため、ファインチューニングが効果的やったんやと思います。
また、専門家のデモンストレーションをいくつか厳選する際に、トレーニングセットの中に図を参照しているような質問があることに気づきました。でも、実際にはテキストベースの評価で、その図がないんです。つまり、情報が欠けているんです。
あるいは、ある回答に非常に自信があるのに、正解は別の回答になっているような場合もありました。MedQAは医療分野でよく使われるベンチマークなので、以前のモデルからの改善がノイズの範囲内に収まっていないことを確認したかったんです。
そこで、MedQAのテストセットを慎重に再ラベル付けするという貢献もしました。各質問について、3人の異なる臨床医に回答してもらい、「ここに情報が足りないと思いますか？」「これがあなたの回答だとして、これが正解だと言われたら、回答を変えますか？」といったことを聞いて、曖昧さの指標としました。
実際、MedQAのテストセットの7.4%は、情報が足りていなかったり、その他の理由で評価に適していないことが分かりました。このデータセットも公開しました。これにより、手法の改善を見る際に、曖昧な質問を除外して評価できるようになったんです。これも一つの貢献やと思っています。
MedQA以外にも、他のベンチマークへの一般化能力にも興味がありました。NaNMの診断チャレンジというベンチマークでも非常に良い成績を収めました。また、GENETOURINGは、モデルのゲノム知識をテストするものですが、ここでも良い結果が出ました。
まとめると、STaRにインスパイアされつつも検索も使用するこのトレーニングベースのアルゴリズムと、推論時のより的確な検索、この2つの組み合わせが、ジェミニの医療ベンチマークでのギャップを埋めるのに本当に役立ったんです。
では、ウィオンに引き継いで、マルチモーダルについて説明してもらいます。
[拍手]
ウィオン: 次の部分では、メド・ジェミニのマルチモーダル理解能力について話します。ご存知の通り、マルチモダリティは現代の大規模モデルの標準的な機能になっています。ジェミニモデルの重要な要素でもあります。
医療データは本質的にマルチモーダルです。テキストあり、画像あり、動画ありと、いろいろあるわけです。そこで、ジェミニのマルチモーダル機能を活用して、医療分野に応用できないかと考えました。
実は、これは医療分野のマルチモーダル問題に取り組む初めての試みではありません。去年、PaLMベースのモデルであるPathway LMを基にしたMPaLM-Mというのを作りました。これは前回の取り組みで、いくつかのタスクで最先端の性能を達成しました。
今回は、ジェミニをベースに、ジェミニProでインストラクションチューニングを行い、ジェミニUltraでプロンプトエンジニアリングを使って、さらに性能を向上できないか試してみました。
MPaLM-Mと同様のレシピを使い、同様のファインチューニングデータセットを使ったところ、MPaLM-MやGPT-4Vなど、多くの最先端手法と同等かそれ以上の性能を達成できました。
これは、皮膚科や病理学、放射線学といった専門分野のタスクだけでなく、一般的な医療分野のデータセットでも同様でした。例えば、USMLEの医療マルチモーダルVQAや、MMVQAデータセット、New England Journal of Medicine (NEJM)の画像チャレンジデータセットなどです。
これらのベンチマークでも、メド・ジェミニは他のベンチマークを上回る性能を示しました。NEJMの画像チャレンジは、約1000枚の画像を含むデータセットです。
質問者: ベンチマークについて質問があります。オープンソースのモデルを、ジェミニと同じようにマルチモーダル化した場合、どの程度の改善が見られるでしょうか？Google以外の人々にとっても可能性はあるのでしょうか？
ウィオン: はい、それは可能やと思います。例えば、今LLaMA 3.1があるなら、同様のことを試すことができるでしょう。ただし、すべてのベンチマークのテストセットアップが同じで、データセットの分割が比較可能であることを確認する必要があります。
そうすれば、GPT-4やメド・ジェミニの結果と比較できます。メド・ジェミニやGPT-4はクローズドモデルで、アクセスはできませんが、一部のモデルではAPIを使って結果を再現することはできるはずです。
質問者: NEJMの画像チャレンジでは、画像だけを与えたのか、それともコンテキストも与えたのでしょうか？
ウィオン: NEJMの画像チャレンジは、主に画像と短い症例の説明からなる多肢選択問題です。例えば、「45歳の男性、こんな問題があります。これが画像です。診断は何でしょう？」という感じで、5つの選択肢から診断を選ぶんです。
NEJMのこの課題では、読者が診断に投票して、次号で正解が公開されるという仕組みになっています。テキスト部分はかなり短くて、時には「診断は何か」だけのこともあります。
これは、NEJMの別のテキストベースのタスクとは異なります。そっちはもっと長いケースチャレンジになっています。
質問者: 臨床的な観点から言うと、時々診断のヒントがはっきり書かれていることがあるので、注意が必要ですね。
ウィオン: はい、その通りです。画像とテキストだけの組み合わせなら、問題ないと思います。ありがとうございます。
質問者: このベンチマークは公開された論文から直接来ているのでしょうか？これらのモデルは公開されているものすべてで学習していると思うので、気になりました。
ウィオン: はい、それは内部のジェミニチームとも議論しました。皮膚科や病理学のデータセットは事前学習段階には含まれていないことを確認しています。つまり、ジェミニの事前学習では、これらの種類のデータは見ていません。
一部のデータセットはファインチューニングに使用し、一部は全く使用していません。例えば、NEJMのデータセットは、純粋に評価タスクのデータセットとして使っています。
質問者: これらの手法やメソッドの実世界での応用について理解しようとしています。これは放射線科医や一般開業医にとって最も関連性が高いのでしょうか？例えば、私が一般開業医に行った場合、これは役立つのでしょうか？
ウィオン: ええ、良い指摘です。これらのベンチマークデータセットは、主に研究者が異なるモデル間で公平な比較をするためのものです。メド・ジェミニをCHATGPTやMPaLM、その他のモデルと比較することが目的です。
これは実際の医師の日常診療とは異なります。だからこそ、次の部分に移りたいと思います。実世界のユースケースにより関連する、メド・ジェミニのマルチモーダル対話能力についてです。
このアプリケーションでは、ジェミニの会話能力と医療にファインチューニングされたモデルを組み合わせて、ユーザーとの複数ターンの医療会話ができることを示しています。
例えば、皮膚の状態について医学的な懸念がある場合、ユーザーが「診断は何？どうすればいい？」と聞くと、メド・ジェミニはまず画像を提供するよう求めます。テキストと画像の情報を収集し、病歴も聞いた上で診断を提供します。
その後、診断の根拠や鑑別診断、説明、治療選択肢などについてのフォローアップ質問にも答えられます。
これはまだメド・ジェミニの対話能力のプレビューに過ぎません。まだ徹底的な研究や評価フレームワークは行っていませんが、現在取り組んでいるところです。
しかし、このプレビュー例を見ると、メド・ジェミニの実世界での応用の可能性が見えてきます。例えば、このようなアシスタントがスマートフォンにあれば、医師や患者さんが簡単にアクセスできるようになりますからね。
質問者: マルチターンの会話について質問があります。ジェミニは長いコンテキストを扱えますが、会話の各ターンで以前のコンテキストをすべてモデルに戻して推論するのでしょうか？それとも、以前のコンテキストから重要な情報を選択する方法はありますか？
ウィオン: 現在の実験的な段階では、以前のチャット履歴をそのまま使用しています。会話履歴がそれほど長くないので、簡単にできるんです。
ただ、別のアプローチとしては、長期的なユーザーで、患者情報や病歴がすでにサーバーに保存されている場合、チャット履歴を要約して、それをバックグラウンドとしてインコンテキスト学習に使用し、その上で更に質問するという方法も考えられます。
質問者: 診断が間違っている場合、あるいは正しくても、ユーザーが間違っていると思った場合はどうしますか？責任の問題についても考えましたか？
ウィオン: はい、それは研究と製品の違いですね。研究では、「これができる、あれができる」と境界を押し広げることはできます。でも製品となると、本当に慎重にならないといけません。
だからこそ、デモンストレーションの後、実際の医師に意見を求めました。例えば、この皮膚疾患のケースでは、皮膚科医にこの例や他の例を見てもらいました。
良かった点として、メド・ジェミニが写真と説明だけで正確な診断を下し、詳細な治療選択肢を提示できたことは印象的だったそうです。
ただし、最終診断に至る前に、より多くの情報を集めて、診断がより確実になるようにすべきだという提案もありました。また、1つの診断ではなく、鑑別診断のリストを提示する方が良いとのことでした。
これは実際の臨床現場での医師の行動に近いですね。患者の訴えを聞いて質問をし、鑑別診断のリストを作成します。そして、後の検査結果などの証拠に基づいて、そのリストの中から診断を絞り込んでいくんです。1つの診断ではなく、鑑別診断のリストを持つのが良いということです。
そうですね、法的な問題や実際の製品化に向けては、モデルがどの程度の確信度を持ってその出力を行っているかを示すことが非常に重要です。
質問者: 診断に関しては、ICD-10コードやICD-11コードという正式な診断コードがありますよね。これらのコードの範囲内で、どのコードで精度が特に高いとか、どのICD-10コードで精度が特に低いとか、あるいは敵対的な攻撃に弱いとかいった洞察はありますか？
ウィオン: いい指摘です。今回の研究では、ICDコードへのマッピングは行っていません。完全にフリーテキスト形式で行いました。
でも、あなたのアイデアはとても良いですね。ICDコードにマッピングすることで、モデルがどの種類の疾患やカテゴリで性能が良いのか、あるいはどの分野で課題があるのかを理解できるかもしれません。
例えば、心臓病学のデータをたくさん学習させたら、心臓病学に関連するICDコードの性能が良くなると予想されます。逆に、筋骨格系のデータが少なければ、その分野のICDコードの性能は良くないかもしれません。
これは将来的に改善できる点ですね。テキストとICDコードの間のマッピング、さらにはICDコード間の関係性を利用したグラフ学習なども考えられます。ICDカテゴリ間にはつながりがありますからね。これは探求の価値がある分野だと思います。
質問者: すみません、もう一つ質問があります。ここで言及されていない大きな問題があると思うんですが、そもそもなぜ基盤モデルを使うんでしょうか？最近、多くの分野でこれが標準的なアプローチになっていますが、なぜ基盤モデルなんでしょう？それぞれの個別タスクでより高性能な専門モデルをたくさん用意する方が良いのではないでしょうか？
ウィオン: それは本当に良い指摘です。実は、私の「限界」のセクションにもその点を入れていました。一般化モデルと専門化モデルの間で、まだコンセンサスが得られていないんです。この点については後でもう一度触れたいと思います。確かに、一般化モデルと専門化モデルの間には議論がありますね。
ケド: そうですね、本当に良い指摘です。基盤モデルの良い点の一つは、会話能力があることです。さまざまな種類の資料をアップロードして、それについてやり取りができるんです。
非常に専門化されたモデルだと、その能力が失われる可能性があります。複数の専門化モデルをLLMにプラグインするか、LLMをより主体的にして、診断のために専門化モデルに問い合わせ、その後テキストベースのやり取りを行うようにする必要があるかもしれません。
質問者: それに関連して、なぜ会話形式なんでしょうか？チャットが最良のインターフェースだと考えているからでしょうか？それとも、私たちができる最良のことが次のトークンの予測で、その結果がチャットになってしまい、今や皆がそれに収束して「ところで、チャットが最良の方法だ」と言っているだけなのでしょうか？
ウィオン: これも素晴らしい指摘です。医療分野で会話形式を選んだ理由の一つは、病歴聴取が医療タスクの中心的なものの一つだからです。患者との会話、そしてフォローアップの質問ができることが重要なんです。これが一つの理由かもしれません。ユーザー体験の観点からもそう考えられます。
質問者: 医療分野において、医療基盤モデルと専門的なトレーニングモデルの間で、モデルの性能にどのくらいの違いがありますか？
ウィオン: それは本当に良い質問です。先ほどの一般化モデルと専門化モデルのどちらが良いかという議論に戻りますね。タスクによって本当に違います。
実は、メド・ジェミニが最高の性能を示さないタスクもあるんです。後で示しますが、従来の教師あり学習モデルが古いにもかかわらず、非常に良い性能を示すタスクもあります。メド・ジェミニでいろんな手法を試しても、まだギャップがある場合もあるんです。
本当にタスクによって違います。事前学習やファインチューニングにどんなデータを含めたか、そのモダリティがどれくらいニッチなものかによっても変わってきます。
専門化モデルはまだ非常に価値があると思います。小さくて、イテレーションが速く、特定のタスクに対しては通常非常に良い性能を示します。
質問者: ジェミニ対メド・ジェミニではなく、一般的なモデルと、その医療バージョンの比較について聞きたいです。
ウィオン: あぁ、その比較は実際にはまだ行っていませんね。
ケド: 一般的な種類の動画であれば、おそらく似たような性能になると思います。医療分野、特にこれから紹介する手術動画のような領域で、メド・ジェミニの方がより良い性能を示すと思います。
ウィオン: そうですね、これは自然なシーンですが、次の例はより手術画像に特化したものです。ここでは、一般的なジェミニとメド・ジェミニの間にギャップがあると予想できます。
この例も前の例と似ていますが、動画を見て手術行為を1秒ごとに特定しようとするものです。オペレーターが切開しているのか、縫合しているのか、結紮しているのか、それとも背景的な行動をしているのかを、メド・ジェミニに注釈付けしてもらいました。
チームの外科医にいくつかの結果を見てもらいましたが、かなり有望な結果が出ています。ただし、外科医も指摘しているように、メド・ジェミニが縫合と結紮の注釈で少し混乱することがあります。これらのラベル間に定義の重複がある可能性があるからです。
もちろん、言語モデルがこれらのニュアンスを理解できるように、もっとプロンプトエンジニアリングを行う必要があるかもしれません。あるいは、基盤モデル自体を改良して、このような細かい動きをより良く検出できるようにする必要があるかもしれません。これはまだ進行中の研究です。
最後の例は手術動画に関するものです。これは実世界のユースケースです。外科医が腹腔鏡下胆嚢摘出術（胆嚢を取り除く手術）を行う際、CVS（Critical View of Safety）基準という有用な基準があります。
これは、手術視野に解剖学的構造が十分に露出されているかどうかを判断するための基準で、胆管損傷のリスクを軽減するのが目的です。実際の現場では、外科医はこのCVS基準を使って、必要なものがすべて手術視野に見えているかを確認します。
メド・ジェミニに対しては、腹腔鏡下胆嚢摘出術の動画を与え、この動画全体がCVS基準を満たしているかどうかを判断するよう求めました。これは分類問題で、この手術がCVS基準を「達成」「部分的に達成」「達成していない」のどれに当たるかを判断するものです。
この例では、先ほど言及したように、教師あり学習の最先端モデルの方がメド・ジェミニよりも良い性能を示しています。ただし、メド・ジェミニをGPT-4と比較すると、21%性能が良いという結果が出ました。これは、GPT-4Vで処理できるサブセットのみを使用した比較です。
3D ResNetなどを使用し、この種の手術動画に特化してファインチューニングされた従来の手法ほど良くはありませんが、それでもメド・ジェミニがワンショット例だけでこの程度の性能を出せたのは興味深いと思います。精度の差は10%程度で、まだ改善の余地があると考えています。
最後に、これらの長いコンテキストの手術動画理解能力と会話能力を組み合わせることができます。これは医学教育のアシスタントとして非常に役立つ可能性があります。
例えば、医学生が「この手術動画は良質なものか？解剖学的構造がすべて適切に露出されているか？」といった質問をすることができます。メド・ジェミニに「これは質の高い手術か？良い点、悪い点は何か？」などと聞くことができるんです。
このような対話型学習体験は、医学教育にとって非常に有用になる可能性があります。
ジェミニの能力について多く話してきましたが、これらの能力によって、新しいアイデアや潜在的に良い新しいアプリケーションを思いつくことができます。例えば、対話や文献検索などですね。
多くの良いことをお伝えしたいと思いますが、同時にこの研究にはまだ多くの限界もあります。
まず、さまざまな複雑な実世界のアプリケーションをお見せしましたが、これらはまだプレビューや例に過ぎません。これらのタスクにはまだ多くの作業が必要です。
例えば、厳密な問題定式化を行い、堅牢な評価フレームワークを構築して、メド・ジェミニがこれらのタスクで本当にうまく機能し、幻覚された応答を生成するなどの悪い振る舞いをしないことを確認する必要があります。これはまだ取り組んでいる最中で、近い将来改善されることを期待しています。
2つ目の限界は、一般化モデルと専門化モデルの間でまだ収束が見られないことです。みんな統合モデルを作って、すべてを解決しようとしていますが、このようなモデルは通常巨大で、イテレーションが遅く、特定のタスクに特化したモデルほどの性能は出せません。
非常に特定のタスクがある場合は、専門化モデルを選んでそのタスクに集中した方が良いかもしれません。ただ、両方のモデルにはそれぞれ価値があると思います。一般化モデルと専門化モデルの両方を継続的に改善していく必要があります。結果や出力、何を求めているかによって使い分けるべきでしょう。
これが最後のスライドです。まとめると、メド・ジェミニの能力を3つの側面から見てきました。
1つ目は、自己学習と検索統合を用いた臨床テキスト推論。
2つ目は、マルチモーダル理解。
3つ目は、長いコンテキスト処理能力です。
メド・ジェミニがさまざまなベンチマークで最先端の性能を示すことができ、実世界のアプリケーションにも応用できる可能性を示しました。例えば、対話や科学的発見、教育目的などです。
最後に、MedQAデータセットの完全な再ラベル付けを行い、オープンソース化しました。研究コミュニティが堅牢な評価を行う際に役立つと思います。
ここに論文のリンクとデータセットのGitHubがあります。以上です。ありがとうございました。