ADEY1796

英國倫敦大學學院的研究團隊,訓練出國家級健康資料生成式 AI 模型「Foresight」,並稱是世界上第一個「國家級健康數據生成 AI 模型」;使用數據來源為英國 5,700 萬名病患的 NHS(英國國民保健署)去識別化資料。該模型期待用於預測疾病風險、住院機率與公共健康趨勢,有望協助政府進行預防式醫療治理。

然而,這項科技突破卻在英國社會引發爭議:即使資料已去識別化,Foresight 是否可能洩露敏感資訊?病患是否有權選擇不被使用?模型是否合法合規?這些問題成為壓在醫療 AI 發展上的一顆未爆彈。

Foresight 快涵蓋全英國人口

Foresight 最早誕生於 2023 年,其初版基於 OpenAI 的 GPT-3 架構,只用了 150 萬筆醫療紀錄。到了 2024 年,團隊擴大規模,使用來自 NHS 的八大資料集,包括門診紀錄、疫苗接種、處方用藥、住院資訊等,快涵蓋全英國人口(英國人口數約 6,835 萬)。

新版模型以 Meta 的 Llama 2 為底層,訓練出可支援疾病預測、健康政策規劃與資源調度的生成式 AI,並稱是全球首個「國家級健康資料模型」,也成為目前此類模型中最大者。

研究團隊表示,Foresight 的潛在應用十分廣泛,從辨識高風險病患、預測急診潮、到輔助公共衛生資源配置等,皆具潛力。該模型目前僅用於 COVID-19 疫情相關研究——這也表示,模型仍適用疫情期間頒布的資料保護法的例外情況。

英國 AI 模型 Foresight 曝病歷「被還原」風險

雖然 NHS 強調輸入資料皆為「去識別化」,即移除姓名、住址等可辨識資訊,但專家指出,這樣的處理並不等同於真正「匿名化」。

牛津大學的資料科學家 Luc Rocher 表示,當資料量龐大到一定程度時,仍可能透過模式重構技術重建出個體資訊,尤其是當資料內容含有罕見疾病、特定用藥組合、或長期追蹤紀錄時,重識別的風險將大幅上升。

更令人憂慮的是,Foresight 團隊尚未進行模型的「記憶檢測」(Memory Testing),也就是測試模型是否記住訓練資料中的細節。如果模型不小心「學會」某個特定病患的病歷,並在未來的應用中洩露出來,那麼這不僅是隱私問題,更是實質上的資料外洩。

「去識別化」就等於真正匿名化嗎?

在道德與法規層面,Foresight 的資料取得與使用方式也遭到不少質疑。

根據牛津大學學者 Caroline Green 表示,目前 NHS 並未讓病患選擇是否參與 Foresight 訓練資料,甚至許多人根本不知道自己的病歷被用來訓練 AI。即使資料已「去識別化」,從道德層面來看,這樣的資料處理仍讓人難以接受;她強調,即使是匿名的,從道德角度來看,人們對此也非常重視,因為人們通常希望控制自己的數據,並且想知道數據的去向。

現行的 GDPR 雖然對資料使用訂有明確規範,但當資料被認定為「匿名化」,便不再受 GDPR 的「撤回同意」機制保障。然而,「去識別化」與「真正匿名化」在法律上存在模糊地帶。英國資訊專員辦公室的網站指出,「去識別化」資料不應用作匿名資料的同義詞。「去識別化」可能誤導公眾,讓人誤以為資料已無風險。

另外,Foresight 雖在 NHS 架設的安全環境中訓練,但其底層計算資源來自 AWS 與 Databricks 等商業平台。雖官方表示這些平台「僅提供算力、不存取資料」,但不少資料主權倡議者對此感到不安。他們認為,當國家級醫療資料必須透過外部企業的基礎設施運行,資料掌控界線變得更加模糊,長期下來可能影響公共資料治理的自主性。

英國國家級健康 AI 爭議給我們的啟示

從目前爭議來看,Foresight 的價值與風險都非常高。一方面,它的確可能改變醫療決策模式,協助政府轉型為預防式、精準型的公共健康治理體系;但另一方面,它也暴露出生成式 AI 對醫療隱私與資料治理制度的極限挑戰。

最大問題不在於模型做了什麼,而是使用者無從知情、無權選擇、也無法退出。

許多英國民眾可能不知道自己的健康資料正被用來訓練一個 AI 模型,也無從選擇是否參與。即使這是為了公共利益,當基本透明度與知情同意機制被忽略,信任就會逐步瓦解。

回到台灣,我們同樣擁有世界級的健保資料庫,被稱為 AI 發展的「天然金礦」。但若不在政策上預先設下明確的資料治理規則、同意機制與安全測試標準,未來一旦出現類似 Foresight 的爭議,恐怕將重創民眾對科技的信任。

政府與開發者應該正視「資料不是可用就好,而是怎麼用才有正當性」的問題。

本圖/文由「Techorange科技報橘」授權刊登,非經同意不得任意轉載。
原文出處:別以為資料「去識別」就沒事,英國國家級健康 AI 曝病歷「被還原」風險