草根影響力新視野 文:琪拉編譯 Photo Credit: MIH83 @ pixabay by CC0 Public Domain

川普當選總統跌破所有篤信[數據]人的眼鏡,過去靠著數據精確預測結果的人在美國這次總統選舉上似乎都不適用。事實上,預測分析可以代表多少選民的傾向與選舉結果目前還是新興的領域。有些預測含有大量出錯的可能(甚至高達15%至20%),因此有些人被誤導認為希拉蕊柯林頓一定會贏得勝選。

專門做選舉預測的行業越來越迷信數據,包括數據的價值以及為了節省成本及增加收入,要如何挖掘數據。這項幕後的科技,正悄悄地讓每件事情,從人們在網路上看到的廣告變成千億元的購併生意。

例如微軟願意花260億美金的價格購買LinkedIn,只為它擁有超過4億筆個人商務資料。但是數據科學可能帶給我們前所未見的事情,但也可能充滿錯誤的內容。畢竟所有的數據都是蒐集資料來預測人類行為,但是總有失靈的時候(例如這次選舉)。
%e7%be%8e%e5%9c%8b
今年,Facebook的演算法把一張發生在越戰的歷史照片給刪除,照片中九歲被炸彈嚴重燒傷的女孩光著身體在路中哭喊。Facebook程式認為這張照片違反禁止刊登兒童色情照片的規定,但卻沒有辨認出這是代表越戰與人類苦難的珍貴歷史照片。另外,微軟過去研發了一款聊天機器人,藉著人類的網路留言來學習與人類聊天。但這個計畫今年宣告失敗,原因是這個會自主學習的機器人開始學習充滿種族歧視的語言。

但是大家忘記的是,再精確的數據也是充滿侷限,還有依據錯誤的架構推論出來的錯誤結論。[數據可以很有用,不過它不能給人答案,只能給人可能的答案。]麻省理工學院的管理學教授Erik Brynjolfsson說。

那這次選舉所用的數據及演算法,到底哪裡出了問題? 或許是預測模型上出了錯誤。選舉前,專家會使用歷史票數與現在的票數去預測候選人的勝選機率。但即使用過去十年的選票來分析,仍無法在數星期前精確預算出當選人的勝選機率,就像氣候難以預估一樣,一點小變化都可能造成大變動。

關於此,選舉專家Thomas E.Mann說:[如果總統選舉可以回歸政策面,媒體可以專注報導候選人對議題的看法,而非只關注於民調的高低,這樣大家可能會比較輕鬆一些。]

參考資料:
How Data Failed Us in Calling an Election