學術界近期發出警告,說明作為許多科學研究數據收集基礎的線上問卷調查,正面臨「存亡危機」。達特茅斯學院(Dartmouth)政府學副教授 Sean Westwood 在最新發表的研究中,創建一個名為「自主合成受訪者」(autonomous synthetic respondent)的 AI 代理工具,並展示該工具如何以近乎完美的能力,大量生成擬真的問卷回答欺騙研究者,甚至能規避用來檢測非人類參與者的「反向識別測試」(reverse shibboleth)。
Sean Westwood 的研究指出,AI 假受訪者已成為迫切且難以察覺的新威脅,這種 AI 回應可能會扭曲民意,進一步污染整個知識生態系統。
AI 如何完美模擬真人受訪者?
Sean Westwood 強調,AI 假受訪者遠比傳統機器人更難被識破,因為 AI 代理可以根據隨機分配的族群屬性來優化並調整其回覆。例如,當 AI 代理的個人資料被設定為教育程度較低的族群時,AI 就會撰寫較為簡單的答案,成功模擬不同教育程度與背景的真人受訪者。
此外,為規避自動化檢測,AI 假受訪者也可以模擬真實的閱讀時間,進一步產生人性化的滑鼠移動,甚至會刻意加入合理的錯字與修正。Sean Westwood 分析,這也讓 AI 撰寫的回答,看起來就像是出自「一個深思熟慮的人」。
另一項更棘手的發現是,AI 代理工具在測試中表現出近乎無懈可擊的能力:在面對 6,000 項檢測機器人回應的注意力檢查(ACQs),以及在多達 43,000 次自動化回應的注意力檢查測試中,AI 代理以高達 99.8% 的通過率成功逃避檢測。另一方面,AI 假受訪者也以「零錯誤率」通過「邏輯謎題」 (logic puzzles)。
當研究資料被 AI 假受訪者污染,整個知識生態系統都會「中毒」
Sean Westwood 研究也指出,這些 AI 假受訪者能以少量回答即可扭曲民調。例如在分析 2024 年美國大選前七項全國性民調時,研究人員發現只要加入區區 10 到 52 份的 AI 生成回覆,就足以改變原本的預測結果。更令人驚訝的是,當 AI 代理被設定為偏向特定政黨時,原本約 34% 的總統支持率會被推向極端,最高可以飆至 98%,最低則可能被壓到 0%。
這些 AI 假受訪者帶來的衝擊並不限於選舉民調,而是對整個跨學科研究與政策制定構成系統性污染,因為問卷調查長期是社會科學研究與公共政策的重要基礎,每年有成千上萬篇經同儕審查的研究依賴這些數據來構建模型、提供證據並支撐決策。然而,當 AI 大量參與回答,社會科學、經濟學、公共衛生、心理學與輿論分析等領域,都可能因為偽造或扭曲的回覆而出現偏差。
Sean Westwood 研究團隊警告,當研究資料被 AI 假受訪者污染後,整個知識生態系統都有可能遭到「中毒」。研究更指出,AI 代理工具確實可能被惡意利用,用來操縱民調與輿論,成為明確的資訊戰武器。更令人擔憂的是,不論以俄語、中文或韓語編寫程式碼,這些 AI 代理仍能順利產生流暢且完美的英文回答,使外國敵對勢力更容易利用漏洞進行跨國資訊操控。
Sean Westwood 強調,這項發現揭露了「數據基礎設施中的一個關鍵漏洞」,意即已經無法再確定問卷回答是否真正來自真人,整個調查研究體系正面臨前所未有的信任危機。甚至在成本方面,人類受訪者完成一份調查通常可獲得 1.5 美元的報酬,但 AI 代理完成同樣的任務卻可以免費,或僅需約 5 美分的金額,也讓 AI 假受訪者在經濟上更高度可行。
避免「 AI 假受訪者」威脅的具體方法
面對這種前所未見的「資料污染」威脅,研究者開始尋找新的防護策略,希望透過更嚴謹的研究設計來抵禦快速進化的 AI 挑戰。首先,強化受訪者的身份驗證,並透過更高層級的驗證程序確保回答者的身分,這樣的作法被視為一種解方,但也同時伴隨隱私疑慮。
第二種可能的做法是改採更受控的招募方式,例如依據家庭地址或選民檔案進行抽樣,以降低 AI 混入的機率。
最後,研究團隊也呼籲問卷平台與資料供應商提高透明度,明確揭露資料收集機制,並證明參與者是真人。Sean Westwood 強調,驗證真人身分的技術其實並非不存在,但真正的瓶頸在於問卷平台與資料供應商執行及落實的意願。
面對 AI 假受訪者帶來的多重風險,問卷調查與知識生態系正站在重建信任的十字路口。未來研究者、問卷平台與資料供應商能否守住資料的真實性,將是決定科學、政策與民主能否在 AI 時代持續運作的關鍵。
本圖/文由「Techorange科技報橘」授權刊登,非經同意不得任意轉載。
原文出處:「AI 假受訪者」突破檢測、扭曲民調!知識生態系正面臨存亡危機,研究數據恐遭系統性污染