最新研究顯示,ChatGPT 在醫療診斷方面表現平平,準確率僅 49%。研究者強調,AI 不應成為唯一的醫療資訊來源,維持醫療人性化仍至關重要。這項發現凸顯了在醫療領域中,人工智慧雖有潛力,但仍無法完全取代專業醫師的判斷。
研究方法與範圍,全面評估 AI 表現
加拿大西安大略大學研究團隊使用 ChatGPT 3.5 模型分析 150 個 Medscape 案例。這些案例涵蓋廣泛的醫療問題,包括呼吸道、消化系統、神經系統等多個領域。研究者採用標準化提示,確保輸入一致性,並由至少兩名獨立評估者進行盲審。
研究結果詳析,AI 診斷準確性有限
結果顯示,ChatGPT 在 49% 的案例中給出正確診斷,整體準確率達 74%。然而,仍存在 13%的假陽性和假陰性結果。這意味著 ChatGPT 在排除錯誤診斷方面表現較好,但在確定正確診斷時仍有不足。
52% 的回答被評為完整且有關聯,43% 雖不完整但仍相關。ChatGPT 的回答多為低到中等複雜度,使用者較容易理解。然而,研究者警告,這種容易理解的特性結合潛在的錯誤資訊,可能導致誤解,特別是在用作醫學教育工具時。
AI醫療應用的局限性,專業判斷仍不可或缺
研究指出,ChatGPT難以區分症狀相似的疾病,偶爾會產生錯誤或不合理的資訊,即所謂的「AI幻覺」(AI hallucinations)。這強調了在診斷過程中,不應完全依賴AI,醫療專業人員的專業知識仍然不可或缺。
研究局限與未來展望,AI 醫療潛力待發掘
研究者承認,本研究僅針對 ChatGPT 3.5 模型,未來版本可能會有所改進。他們建議進行更廣泛的研究,評估不同 AI 模型在各類醫療案例中的表現。儘管如此,目前的研究結果仍為 AI 在醫療領域的應用提供了重要啟示,強調了 AI 應作為輔助工具,而非取代醫療專業人員。
本圖/文由「Techorange科技報橘」授權刊登,非經同意不得任意轉載。
原文出處:AI 醫生診斷準確率僅 49%,人類醫師地位暫時無虞
Polygon recent comments