草根影響力新視野  劉長青 

每逢選舉季,各家媒體或民調中心均會發布各自的民調,讓民眾了解不同候選人的支持程度。但各個民調的差距卻有著很大的落差,致使民眾也常常霧裡看花,不知道哪一家民調中心發布的數據是較為正確的。以近日民調為例,各家民調所謂的老四各有不同,又有各種組合如柯郭配、郭侯配等,難怪民眾眼花撩亂。

其實這裡有一些觀念需要釐清,我們如果將全國民眾視為一個母群體,當然投票是最能夠反映出民意的走向,但是投票其實是非常耗費人力與財力的一件事情,因此我們就會希望透過抽樣來檢視母群體的概況,而如何抽樣就會是一個很好的問題,由於現在大數據流行,因此各家民調中心多以能調查到越多的數據來代表自己的數據有說服力,但是如果被抽樣的群體是同質性較高的團體,那麼抽樣越多,反而會使的標準誤偏高,進而使抽樣數據與母群體有較大的偏差,所謂標準誤其實是統計的一個概念,也就是如果母群體能夠產生一個平均數,那麼我們在抽樣的時候所得到的數據與母群體平均數偏離的情形。舉例來說,如果某家民調中心在晚上六點到十點進行四個小時的電話隨機抽樣,這樣得到的數據會比將四小時分為上午、中午及晚上的標準誤差大,因為晚上能受訪的民眾通常是固定的上班族,同質性較高,也無法隨機抽樣到晚班工作的民眾。

聊天的 通訊 電話 通話 溝通 撥號 接 繩 線 手 保持 女人 連接 家
圖片取自:(示意圖123rf)

因此若要解決此現象,我們應該揚棄大數據的迷思,因為過多的抽樣其實會過度打擾母群體,甚至民眾會有欺騙民調中心的現象。此時應該回到小數據的方式進行,因為小數據具有針對性及精確性的優勢;也就是數據太多反而會稀釋掉部分的聲音,一份高質量的小數據可以比大數據反映出更多的推論,而且成本相對較低。

那麼該如何進行小樣本抽樣呢?民調中心在基本人口變項方面,可以依照縣市人口分佈比例決定各縣市的抽樣數,再一次選取不同的時間點,試圖包含最多不同階級的聲音,最後是職業別,同樣依據從業人口比例進行抽樣,另外要注意的是那些沒有手機或電話的民眾,如果民調只是依靠電話抽樣,勢必會遺漏許多珍貴的數據,至於數據回收後的解釋,則可能與各民調中心政黨取向有關,本文無法多作解釋。總而言之,就學理而言,大數據雖然較能避免統計上的第二類型錯誤,但卻可能犯下第一類型錯誤,也就是拒絕了虛無假設,研究者會誤認自變項是有效的,但事實上卻沒有效果,因此如何正確地解釋民調,會是民主的第一課,各民調中心也應該誠實地呈現抽樣方法與步驟,才能更為真實的呈現民意走向。