美國大選之際,很多人提起2016年的民調失准。出於好奇,又把2016年的民調拿出來看看,其實當年民調失准不大,而是民調機構預測誰能出任總統失准。而這一次, 民調失准比較大.
2016年選前一周的平均民調顯示,希拉里所獲得的普選票比川普總統的可能多出3.2%; 而投票結果是高出2.1%。民調機構高估希拉里1.1%的得票率。嚴格來說,這個差別應該在統計學誤差的範圍之內,不算太荒腔走調。
但是這一次, 選前一周的平均民調顯示,拜登所獲得的普選票可能比川普的高出7.2%,連狐狸台也說會高出8%.
儘管最後的普選票還沒有出籠, 估計實際上也就高出3-4%左右.
一般來說, 媒體之間也在競爭, 對大選這麼大的事情, 估計不會有媒體人為製造偏差, 自毀聲望。所以媒體抽取的樣品應當是朝著有代表性的方向努力的. 但是, 樣本的誤差和樣本量有關, 樣本越小, 誤差範圍越大.
2016年民調僅僅高估希拉里1.1%是綜合了數個民調幾萬人的平均結果, 各個民調的分別結果大多和實際結果差別較大,既有希拉里高出5%的路透社, 也有川普領先3%的洛杉機時報. 被認為是親川的狐狸台是希拉里高出4%.
可能是因為大選民調是要花錢的, 各個機構的樣本大多也就在一千到三千多人之間, 正負誤差範圍大約為2% - 4%, 因此各個機構的結果和實際選舉結果的差別也是在樣本統計誤差的範圍之內. 本人認為,2016年比較接近實際結果的ABC和Bloomberg(3%)以及IBD/TIPP Tracking(1%)的民調只是幸運而己。
在醫學上的臨床研究和民調也有類似之處,現在都把大樣本多中心隨機雙盲臨床試驗作為檢驗治療和預防效果的金標準。像檢驗候選新冠疫苗的III期臨床試驗,大都要三萬參與者以上。為什麼要多中心,隨機,和雙盲,主要是為了減少偏差。為什麼要大樣本,主要是為了減少誤差。
據說,這些民調的結果和醫學研究分析一樣,都不一定是簡單直接的結果,而是經過調整后的結果。例如考慮到少數族裔選民,民主黨選民和共和黨選民,或搖擺選民的回答率和投票率的不同。
美國公眾意見研究協會(American Association for Public Opinion Research)在2016年選后對預測偏差進行了分析,它發現鐵鏽帶區的選民, 教育程度可較低的群體, 搖擺不定的選民和少數族裔的偏差較大, 於是決定對上述群體朝認為準確的方向進行調整, 結果增加了估計失誤。媒體確實要去尋找更為科學的民調方法了.
大家都知道, 美國實行的不是全國普選, 而是各州分別的普選, 除了個別小州NE和ME之外,州內贏者可以通吃全州的選舉人票. 例如, 2016年時加利福尼亞州希拉里的選票比川普的多出30%, 全州的選舉人票都歸希拉里. 賓州希拉里的選票比川普少了0.7%, 全州的選舉人票也都歸川普. 因此, 累計全國普選票多者不一定能夠贏得選舉.
但是,全國的綜合樣本量只有數萬人, 那州一級的樣本量肯定就更少了. 從統計學來說, 2016年的民調根本不能準確地預測一些搖擺州的選舉結果. 例如,2016年的民調顯示,希拉里在密歇根州和賓州分別領先川普3.6%和2.1%,因為樣本量有限,這些差別在統計學上應解讀為難分難解。現在川普和拜登在這些州也是得票十分接近.
搖擺州者, 雙方選票接近也. 2016年, 川普憑著在密歇根州, 賓州, 和威斯康星州分別領先希拉里0.3%, 0.7%, 0.7%的普選票,當選為美國總統. 從統計學來說, 要十分大的樣本量才能檢測出如此小的差別, 再加上並不是每個人都會按原計劃的意願投票的, 2016年最後川普勝出也並非太出人意外。
美國選舉有個特點,儘管不少選民對本黨候選人有這樣那樣的不滿,到了投票當天,那些堅定的共和黨人和民主黨人大都會選擇本黨候選人。說是搖擺州決定美國總統大選,其實是搖擺州的中間選民決定的。
下屆總統可能快要誕生了. 近些年來,美國社會面臨撕裂 , 祈禱總統能夠以美國人民的利益為重, 彌合選戰帶來的分歧, 減少社會的動蕩, 守護公平和法律,使美國健康向前發展.