以生成式 AI 驅動的醫學資訊平台 OpenEvidence,在美國醫界的採用速度已相當驚人。光是今年四月,約 65% 的美國醫師、橫跨近 2,700 萬次臨床接觸場合使用過它,換算下來,約有 65 萬名美國執業醫師正積極依賴這項服務。
哈佛醫療政策教授、美國麻州總醫院內科醫師 Anupam Jena 形容:「每個人都在使用它,它的成長是指數型的。」七個月前,這項工具在美國醫師之間的採用率還只有五成,如今已逼近三分之二,擴張之快前所未見。
為醫生省下在舊系統裡徒勞翻找的時間
OpenEvidence 的核心是一個 AI 驅動的醫學搜尋引擎,能梳理龐大的醫學研究資料庫,針對臨床決策或用藥選擇給出建議,並附上同儕審查論文與臨床指引的連結。
Jena 分析自 2024 年以來累積的 9,000 萬筆查詢指出,所有搜尋中有六成與臨床決策直接相關,也就是醫師輸入特定病患的條件、疾病狀況,詢問最合適的治療方式。
Jena 說,外科醫師精通手術,但面對病患血壓或心跳偏高時,未必確定能否停用某種藥物,OpenEvidence 正好填補了這類「非本科訓練範圍」的縫隙。一名新罕布夏州的初階醫師就在病患血鉀驟降時,用 OpenEvidence 確認那只是常見的藥物副作用而非緊急狀況;南達科他州一位醫師則靠它判斷脊椎骨折該用 X 光還是電腦斷層確診。
掌管美國最大醫療系統、督導逾 2,500 名醫療人員的 Sanford Health 醫療長 Jeremy Cauwels 說,OpenEvidence是少數「極易上手」的工具,不僅免費,還可以在手機上順暢運作,回答問題的速度遠勝其他方法。
位於美國麻薩諸塞州波士頓布萊根婦女醫院的感染科醫師 Paul Sax 直言,OpenEvidence 根本是奇蹟,他指出傳統參考工具實證醫學資料庫 UpToDate,對於有具體情境問題的醫師而言難以精準搜尋;而 OpenEvidence 的搜尋「毫無摩擦」,因為大型語言模型讓使用者不必拼湊關鍵字,直接用問題本身發問即可。
準確度爭議依然存在,「邊緣案例」偶爾會出錯
不過光鮮的普及數字背後,準確度的爭議始終存在。OpenEvidence 大力宣傳它在美國醫師執照考試(USMLE)拿下 100% 準確度,然而一份去年十二月發表的學術研究卻發現,面對較複雜的醫學問題時,它的正確率不到 45%。
這兩個數字之間的巨大落差,提醒著使用者考試表現與真實臨床複雜度之間的鴻溝。
多數受訪醫師對它在一般問題上的高準確度感到意外,但也明確指出,它在罕見疾病或「邊緣案例」上偶爾會出錯或誇大。
不少醫師注意到,它有時會從樣本數極小的研究中導出過度強烈的結論。紐約市急診醫師 John Rozehnal 舉例,系統曾誤判某種藥物注射可能傷害病患肝臟,但實際上該風險極低,更可能的肇因是病患本身的酗酒,所幸數週後系統已修正了這個答案。
值得注意的是,即便出錯,它的偏誤也傾向於保守謹慎的一側。
隱私問題則是另一個模糊地帶。OpenEvidence 說自己符合美國的聯邦健康隱私法 HIPAA,醫療機構可以安全地把病患可被識別身分的健康資訊輸進去。但不是每家醫院都信這套,以 MaineHealth 為例,它就直接要求自家醫師別把病患的可識別資訊打進 OpenEvidence 裡。
部分受訪醫師坦言,他們在個人裝置上使用時會輸入病患的年齡、性別與病史,但避免輸入姓名等可識別身分的資訊。OpenEvidence 本身在服務條款中也說明,它旨在「輔助而非取代」醫師判斷,無意作為診斷服務或替代合格醫療人員的臨床判斷。
用了 OpenEvidence,醫療品質真的有變好嗎?
對資深醫師來說,用多年看診累積的經驗,讓他們有底氣去檢驗 AI 給的答案對不對。密西根大學內科醫師 Cornelius James 說,他清楚該怎麼問 OpenEvidence 才問得到重點,也懂得拿它的回答跟自己的經驗和直覺對照一遍,所以他並不擔心病患安全會出問題。
真正讓人擔心的,是還沒練出這種判斷力的菜鳥醫師和醫學生。NBC News 訪問的好幾位醫學生,都會用它來準備功課、討論病例。James 無奈地說,醫學院還沒教學生怎麼安全地用這類工具,但工具進步的速度又太快,讓人很不安。
另一方面,醫院還得面對「影子 AI」問題。西奈山醫療系統(Mount Sinai Health System)的 AI 負責人、腎臟科醫師 Girish Nadkarni 表示,醫院常常只看到冰山露出水面的那一角,但水面下,其實一大堆醫師都在用自己的裝置偷偷用 AI 工具。
不過,最關鍵的問題到現在還是沒人能回答:用了 OpenEvidence,醫療品質真的有變好嗎?
這工具紅起來的時間太短,幾乎沒有什麼嚴謹的研究真正去查它對病患結果到底有沒有幫助。對此,劍橋健康聯盟的健康資訊長 Hannah Galvin 等研究者,正試圖填補這道證據鴻溝,探究這些工具在不同族群中是否做出公平、有效、公正且安全的決策。
如何正確使用醫療 AI 工具應納入醫學院課綱
OpenEvidence 的普及速度,超過了過去任何一項醫療科技的前例。當一項工具能在不到兩年內讓近三分之二的美國醫師自願採用,「禁止」早已不是其中的選項。
真正該被認真討論的是如何建立一套安全使用的框架,包括什麼情境適合依賴它、什麼答案必須回頭查證、可識別的病患資訊該不該輸入,這些界線都需要明確的規範來劃定。
此外,資深醫師有經驗作為防線,但若年輕醫師從受訓之初就習慣讓工具代勞,那些原本該靠時間磨出來的判斷力恐怕還沒長成就先萎縮。
這意味著醫學教育必須同步跟上,把「如何批判性地使用 AI 工具」正式納入課程,教醫學生怎麼問對問題、怎麼辨識可疑的答案、怎麼在信任與查證之間拿捏,而不是任由他們自行摸索。
另外,OpenEvidence 目前靠廣告獲利,其中不乏藥廠與醫療器材公司的廣告。即便受訪醫師多半表示這些廣告不顯眼、甚至幾乎察覺不到,干預程度看似很低,但一個由藥廠資助、又直接介入醫師用藥決策的平台,本質上就潛藏著利益衝突。工具迭代更新太快,而人與制度必須努力追上。
本圖/文由「Techorange科技報橘」授權刊登,非經同意不得任意轉載。
原文出處:兩年覆蓋三分之二美國醫界,AI 醫學資訊平台 OpenEvidence 的崛起與隱憂