Microsoftが静かに構築した人工超知能AI医師とは？！

Microsoftが開発した新しい医療診断AIフレームワーク「MAIDXO」は、複数のAIエージェントが協力して複雑な医療診断を行うシステムである。このシステムは実際の医師グループと比較して約4倍高い診断精度を達成し、ニューイングランド医学ジャーナルの症例において85%の正診率を記録した。従来の医療AIが暗記重視のテストで評価されていたのに対し、実際の臨床推論能力を測定する新しいベンチマークを用いて検証された画期的な研究である。

Microsoft Just Quietly Built a SUPERINTELLIGENT AI Doctor?!

Microsoft just unveiled a breakthrough medical AI system — the Microsoft AI Diagnostic Orchestrator (MAI-DxO) — that out...

Microsoftの医療分野における革命的な取り組み
医療システムの現状と課題
従来のベンチマークの限界
革新的な診断システムの仕組み
協力する複数のAIエージェント
驚異的な性能比較
未来への展望
現在の限界と課題
革命的な未来への道筋

Microsoftの医療分野における革命的な取り組み

Microsoftが医療分野における人工超知能への道筋という全く新しい研究を発表しました。この研究では、複雑な医療診断のための最先端AIフレームワークを紹介しており、驚くべきことに人間の医師を約4倍上回る性能を示しています。では、実際にどのようにこれを実現したのか、そしてなぜこれが医療分野にとって絶対的なゲームチェンジャーになり得るのかを詳しく見ていきましょう。

彼らはこのブログ投稿や研究投稿をこのように始めています。「MicrosoftのAIチームは、AIが医学における最も複雑な診断上の課題を順次調査し解決する方法を実証する研究を共有する。専門医でさえ答えるのに苦労するような症例である」と書いています。

彼らはまた、ニューイングランド医学ジャーナルで毎週発表される実際の症例記録でテストを行ったと述べており、Microsoft AI診断オーケストレーター、略してMAIDXOと呼ばれるこのシステムは、ニューイングランド医学ジャーナルの症例の最大85%を正しく診断することに成功しました。

これは、1人の経験豊富な医師だけでなく、医師のグループよりも4倍以上高い率です。さらに、費用対効果も優れています。では、どのようにしてこれを実現したのでしょうか。そして、これは医師だけでなく、文字通り全ての人にとって実際に何を意味するのでしょうか。

医療システムの現状と課題

まず第一に、タイミングはこれ以上ないほど最適です。医療システムは過負荷状態にあり、需要は急上昇し、コストは上昇し、そして何十億もの人々が基本的な医療へのアクセスすら困難な状況に直面しています。

Microsoftによると、BingやCopilotなどのツール全体で毎日5,000万を超える健康関連のセッションが行われています。症状をGoogleで検索する人から、緊急治療クリニックを深夜に検索する人まで様々です。このような実際の診断知能をこれらのツールに直接組み込むというアイデアこそ、Microsoftが2024年に臨床医、デザイナー、エンジニア、AI科学者からなるチームで着手したことです。

しかし当然ながら、これが実際に機能するためには、臨床医と患者の両方がAIの回答を信頼できる必要があると彼らは指摘しています。これこそが、このAI診断オーケストレーターフレームワーク、つまりMAIDXOが登場する理由です。

従来のベンチマークの限界

動作原理を詳しく説明する前に、ベンチマークについて触れる必要があります。MicrosoftはUSMLE、つまり米国医師免許試験について言及しています。これは米国の全ての医師が医療を実践するために合格しなければならない試験です。

この試験は、医療AI モデルをテストするために使用された最初の主要なベンチマークの一つとなり、今日のシステムはほぼ完璧なスコアを記録しています。しかし、ここに問題があります。USMLEは主に多肢選択式であり、深い臨床推論よりも暗記に偏っているのです。

つまり、AIがそのテストで優秀な成績を収めたからといって、実際の診断上の課題に取り組む準備ができているとは限りません。これこそがMicrosoftの指摘であり、だからこそ彼らは実際の複雑な医療症例に基づく新しいベンチマークを導入しました。これは順次診断ベンチマーク、略してSDBenchと呼ばれています。

革新的な診断システムの仕組み

多肢選択式の質問を使用する代わりに、これは実際の医師をテストするのと同じ方法でAIをテストします。つまり、複雑で高リスクな段階的な患者シナリオを使用するのです。

繰り返しになりますが、これはニューイングランド医学ジャーナルで発表された実際の症例に基づいています。そして、これらの症例は決して簡単ではありません。医学における最も困難な診断パズルの一部と考えられています。それらは長く、詳細で、実際に何が起こっているかを理解するために複数の専門医とテストが必要なことがよくあります。

では、どのように機能するのでしょうか。AIには最初の患者症例が与えられます。咳と発熱で来院した人のようなものです。そこから、どのような質問をするか、どのようなテストを指示するかを選択でき、各段階で新しい情報が入ってくるにつれて推論を修正しなければなりません。最終的には、最終診断にコミットしなければなりません。

そしてそれは、ジャーナルで発表された実際の診断と比較されます。そして実際の世界と同様に、AIが選択する全てのテストには仮想的なコストが伴います。つまり、Microsoftは精度だけでなく、どれだけ効率的にそこに到達するかも追跡しているのです。

協力する複数のAIエージェント

では、このフレームワークは実際にどのようなものでしょうか。基本的に、複数のAIエージェントが協力して働くグループのように見えます。

あるいはMicrosoftが表現するように、「診断症例を解決するために協力する多様な診断アプローチを持つ医師の仮想パネルをエミュレートするように設計されたシステム」です。見てご覧ください。Dr. Challenger agent、Dr. Stewardship Agent、Dr. Checklist agent、Dr. Test Chooser、Dr. Hypothesisがあります。

これらは全て、チームの経験豊富な医師の役割を演じるAIエージェントです。つまり、MicrosoftはSDBenchからの質問を彼らに与えます。彼らはそれについて話し合い、選択肢を探り、コストも考慮に入れます。そして、テストを指示したり、より多くの情報を要求したり、最終診断を提供したりする能力を持っています。

この最終診断は、その後SDBの実際の解決策や実際の最終診断と比較されます。そして、MAIDXOがOpenAIのo3モデルと組み合わされたとき、NEJM ベンチマーク症例の85.5%を正しく解決しました。

驚異的な性能比較

比較のため、彼らは米国と英国の21人の開業医も評価しました。それぞれ5年から20年の臨床経験を持つ医師たちです。そして同じタスクにおいて、専門家たちは完了した症例全体で平均わずか20%の精度しか達成しませんでした。

これは本当に驚異的です。つまり、よく使う言葉ですが、これは信じられないパフォーマンスです。繰り返しになりますが、これは専門医や平均的な医師をわずかに上回るだけではありません。専門医のグループ全体のパフォーマンスをほぼ4倍にしており、しかもそれをはるかに安いコストで行っているのです。

この意味するところは驚異的です。より高品質なデータがあれば、時間の経過とともにさらに良くなることが想像できます。そして、広範囲のデータにわたって類似性やパターンを見つけることを大きく含む診断のようなことについて話すとき、それはまさにAIの得意分野です。

あなたの正確な症状や起こっていることの説明を含む何百万もの症例を見たAIシステムを想像してみてください。そして、同時に何千もの他の人々とチャットしながら、さらに多くのデータを収集しつつ、これらの症例をほぼ瞬時に調べることができるのです。私たちは本当に、人工超知能AI医師について話しているのです。これこそMicrosoftが目指している医療における人工超知能なのです。

未来への展望

では、次は何でしょうか。彼らは次のように書いています。「医師は通常、専門知識の幅や深さによって特徴づけられる。家庭医のようなジェネラリストは様々な状態を扱い、リウマチ専門医のようなスペシャリストは単一の疾患や臓器系を深く掘り下げる。しかしAIでは、両方を得ることができる。全てを知っており、同時に全ての分野の専門家でもある医師を得ることができる。それは一体どのようなものでしょうか」

だからこそ彼らは、この種の推論が医療を完全に再形成する可能性があると信じています。AIは患者が医療の日常的な側面を自己管理することを可能にし、複雑な症例に対する高度な意思決定支援で臨床医を装備することができます。

彼らの発見はまた、AIが不必要な医療費を削減できることを示唆しています。米国の医療支出は米国GDPの20%に近づいており、その最大25%が患者の転帰にほとんど影響を与えない無駄だと推定されています。

現在の限界と課題

もちろん、まだ多くの限界があります。先走らないようにしましょう。つまり、少なくとも人間の監督や協力なしに実際の世界で使用されるには、十分に信頼性が高いとは全く言えません。

彼らはまた、研究における人間の医師は同僚、教科書、さらには生成AIへのアクセスなしに働いたと述べています。つまり、パフォーマンスのギャップは実在しますが、医師が実際にどのように働くかとの完璧な比較ではないでしょう。

しかし、このフレームワークについて本当に気に入った部分は、彼らがコストに注意を払ったことです。なぜなら現実には、コストが特定のテスト、治療、または手順が行われるか行われないかの主要な役割を果たしているからです。

そして、AIが医療システムをより良くするのではなく、単により効率的にできるだけでも、それは既に巨大なことでしょう。理論的には、それはより多くの人がより良い医療へのアクセスを得ることができることを意味するからです。

明確にしておくと、これはまだ初期段階です。病院にはまだ準備ができておらず、Microsoftもより多くの実世界でのテスト、安全性チェック、規制サポートが必要であることを認めています。

革命的な未来への道筋

しかし、方向性は明確です。彼らは文字通り、全てが連携して働く複数のAIエージェントからなる人工超知能医師を創造しようとしています。これは今年読んだ中で最も信じられないもののひとつです。人々がAIの想像を絶する可能性について話すとき、これがそれです。少なくとも、その始まりです。

私たちは2025年の半ばにいて、既に専門医のグループを上回るシステムを持っています。5年後、まして来年に何を持つことになるのか想像すらできません。

とにかく、Microsoftのこの新しいAIシステムについて皆さんがどう思ったか教えてください。私が過大評価しているのでしょうか、それともこれが本当に人工超知能AI医師の始まりなのでしょうか。下にあなたの考えを書いてください。

この解説を楽しんでいただけたら、いいねとチャンネル登録をお忘れなく。そしていつものように、次回の動画でお会いしましょう。