縣市長選舉結果出來了,綠營算小勝吧,雖然只多一席宜蘭縣長,但重點是得票率大幅成長:



國民黨的47.8% 比 民進黨的45.3%,算起來是 1.0551倍。



網路可以預測這個結果嗎?其實不難。如果用總統大選時的計算策略,看民進黨和國民黨的關鍵字台灣網頁數目是這樣的:




國民黨 2350000頁比民進黨2340000頁,算起來是 1.004倍。

1.0551和1.004,雖不中亦不遠矣啊....所以藍綠勢力現在接近五五波就是了。

但是這個是不夠的,Google關鍵字網頁數,能預測縣市長誰會當選嗎?

我在之前的文章裏推算民進黨可能有6-10席,看來是大誤啊,實際上只有四席,到底問題出在那裏呢?我把最後的計算結果和真正票開出來的數字並列,來看看究竟是怎麼一回事?



這張表中,右側那列打o的表示是預測成功的縣市。

11月28日和12月5日表示選前的網頁數統計預測,算法是14種關鍵字比率平均,一周變化就是兩者相減。

我想了很久,覺得很奇怪。為什麼有些縣市奇準無比(不光是預測當選,連得票比率都很接近),有些縣市卻非常不準?

看來看去,我終於悟出一個道理了,那就是:必需要在人口比較大的縣市,這種網頁預測法才會準確。

上面中有紅色格標記的五個縣市,是這次選舉中人口最多的縣市,這五個縣市,全部都預測正確。

桃園有193萬人口,預測鄭文燦的得票率只差0.9%,吳志揚只差1.5%



彰化有131萬人口,預測翁金珠只差 0.52%,卓伯源只差 3.42%



另外你可以看雲林,嘉義,屏東,誤差值都在5%之內。







除了數值接近,得票順序和平均數的順序也都一致。這絕非巧合,關鍵字網頁數是真的和選舉得票數相關的。

只不過,要在大區域的選舉中,這個算法才會準確。之前總統選舉,誤差不到1%,因為是上千萬人的選區,後來算劉建國的得票率也很準,也因為是在雲林這種人口比較多的縣之中。

現在我們知道了,這種方法要準確,選民數必需在55萬人以上才比較準。

選民數比較少的,網頁關鍵字的的抽樣方式計算方法之所以會有誤差,我猜測是下列幾個原因:

1。候選人在網路上下的功夫大於對手很多,因為基本的網頁數不大(base不大),所以自已多弄出來的網頁就會改變原有的比率而讓計算失真。像楊長鎮的網頁數是55%,實際得票是33.6%就是一個好例子。他在網路戰上的確下了不少功夫。

2。候選人原先知名度不高,或選情本來不樂觀。但是後來選的很漂亮,選票比率一下子衝高,但是來不及反映在網頁數目上。這個例子就是林聰賢。他在選前沒有一項網頁數是領先的,但最後以54.20%勝出。他的網頁數在一周之中成長了17.25%,是所有候選人中最多的。林聰賢這一仗可以說是打得非常漂亮,選舉策略非常成功,應該可以算是經典案例了吧。

3。比較小的選區,賄選的影響力也會比較大,這也是讓網頁式民調不準的原因。

4。候選人本來就是媒體寵兒,所以關鍵字網頁數高,但因為選舉策略,讓後來的結果有差別。兩個好例子就是鄭文燦和李文忠。鄭文燦的知名度高,他的關鍵字網頁數因此非常高。他的對手吳志揚網頁數也不低,但是人家的部落格和網路可以有心的經營了兩年以上才有的成績,鄭文燦空降2個月就打出很漂亮的一戰。他的例子告訴我們,像桃園這麼大的選區(193萬人),派系,組織經營,地方上的交陪,到處插旗子其實沒那麼重要,候選人本身才重要。像人口比較少的南投(53萬人),李文忠就不好施展拳腳,他的網頁數和得票比率差蠻多的。

這讓我想到一點,就是一個人的人際關係再怎麼擴展,也有極限。比方每個人好好經營如果可以影響2萬人的話,在南投這種當選只要13萬票的地方就會有決定性的差異,但是在桃園當選要快40萬票的地方2萬票的幫助就不大了。李文忠和鄭文燦都是空降的,他們的選舉結果的差異可以讓我們了解到這點。另外,李文忠或許沒有得到綠營的全力支持我想也有關吧。

雖然席次我沒有猜到,不過之前文章中的這段話倒也有幾分正確性吧:『蘇治芬不必選了,應該是全國得票率最高的,所以,跑去幫張花冠吧。然後全黨去幫鄭文燦,因為比率上很接近。

蘇治芬的得票率是65.37%,是全國最高的沒有錯。但張花冠其實不必幫。桃園的鄭文燦如果真的得到大力幫忙是有可能選上的(票只少6.7%)。

3+1的選舉結果,並不難猜測。有沒有辦法事先知道一些更細的狀況,而讓資源做更有效的分配,多上幾席,這樣預測才有意義啊。

像是澎湖(票少1%)和台東(票少5%),真的票開出來才知道差這麼少,但用Google式民調完全沒有猜到。早知道的話,綠營在這兩個地方多拼一下,也是非常有可能會上的。國民黨票數只多 2%卻能比民進黨多8席,應該是因為情報比較正確,所以比較能險勝吧。

早知道,大家都會說,千金難買早知道。這種網頁式民調的好處是實在太容易做成本又非常低,如果能用這個方法悟到一點點『千金』都難買到的『早知道』,就很值得了吧。




創作者介紹

BillyPan's Blog 潘建志醫師

billypan 發表在 痞客邦 PIXNET 留言(32) 人氣()


留言列表 (32)

發表留言
  • Macroala
  • 喔喔喔~ 頭香也 XDDDDDD

    潘大加油 繼續為台灣人民發聲
  • dkg99
  • 那麼明年的五大直轄市選舉希望可以準確預測嘍!
    我的願望是可以贏得三個(當然四個就更好了)。
  • JinxLi
  • 是啊,這次好多選區就差上那麼一點,真是可惜。不過比數再接近,沒贏
    還是沒贏,所以還要再加把勁努力啊。
    潘大說的選民人數我認為有道理,這次宜蘭雖然縣長贏了,可是市長和羅
    東鎮長都輸了。宋岫書是新人要跟現任的比,確實比較吃虧。羅東鎮綠營
    執政16年卻還是輸了,我對溪南的選情不太了解,但我想還是有檢討的必
    要吧。縣議員部分應該就是比人脈經營了,這次算17比17平手(無黨籍兩
    位有泛綠背景),就如新聞所說,正副議長選舉將有好戲可看。
  • jadenyao
  • 出現在第一頁感覺還不錯。

    彰化縣卓伯源的大勝,代表著迪士尼在彰化的目標又近了一步,
    好期待可以在自己的故鄉有個迪士尼樂園,
    如果沒有可能的話,在潘大的故鄉也要有個動物園吧?

    彰化人??為什麼妳跟賄選還是無法劃清界限呢?
  • 百果山只要有100種水果就不錯了..

    billypan 於 2009/12/09 08:31 回覆

  • lucasconcord
  • 由翁金珠再敗給卓伯源可見
    老面孔回鍋不是好的選戰策略
    即使是新面孔
    形象清新
    勇於提出自己的政見
    如基隆市的纜車繁榮政見
    選民仍是會有期待的
    接下來會有2010年五大都會區選舉
    民進黨除要擺平台南和高雄出線人選
    儘早整合出一組人馬
    儘早是關鍵點
    在大台中之戰
    雖然林佳龍準備蠻久
    但畢竟被胡志強大敗過
    是否可找到更好人選?
    上次胡志強也是成功空降台中
    至於台北市和新北市
    應該蘇貞昌和蔡英文要當仁不讓了
    如果新北市不能贏
    2012應該希望不大
    如果蘇貞昌選上新北市長
    2012年可以由陳菊挑戰馬英九
    如果蔡英文選上新北市長
    2012年可由蘇貞昌挑戰馬英九
    民進黨要在台北市長選舉中獲勝仍是艱困
    但票數接近可以養望
    至於謝長廷
    2008年被大敗2百多萬票
    自己又說要退出政壇
    除了台中市舞台有可能創造九命怪猫傳奇外
    應該也是沒有機會了
    不管如何
    儘早確定人選
    雲林吳威志敗的很慘
    國民黨在大台北地區實力堅強
    在2001年台北縣長選舉
    即使蘇貞昌政通人和
    很多藍軍基層倒弋
    王建諠臨時上陣
    選票比數是87萬比82萬
    蘇貞昌只小勝了5萬票
    民進黨在大台北即使團結也是大苦戰
  • rogerwu1234
  • 在選前,一直認為為什麼民進黨這樣保守,套一句灌籃高手有一句很經典的台詞
    如果在這裡被打敗了,那也不要去想全國大賽

    因為民怨是如此的高,大家可以從便利商店賣得報紙看出來,自由時報和蘋果日報,很快就賣
    完,而中國時報和聯合報,總是剩一堆

    選後的結果,大概也驗證了,真的大家對現有的執政黨不滿

    不過,後來想一想,現在的在野黨主席,也真的不好幹,因為,畢竟從一個敗選多次,要立刻有
    信心說出,要拿下多少席次,這不但不容易說出口,也是有點不夠謙卑

    所幸,選舉的結果,給了在野黨多一點信心,也希望明年之後的選舉,一樣可以推出好的人選

    加油
  • rogerwu1234
  • 還有二點

    真希望陳菊市長不要在帶著三太子到處助選了,民進黨可貴的,並不是這一些吧
    把政黨的理念,價值,溫和合理的方式推出來

    另外台北市部份,我只想說,不要把桃園,台東,澎湖的選民看扁了
    這一句話,我想也適用在台北市民
  • 悄悄話
  • chenshay
  • 潘大一系列網頁式民調預測方式
    讓我想到了股市中的技術分析

    技術分析也會根據結果不斷修正原來的預測技巧。
    因此技術分析對過去資料的解釋力都相當強。
    拿來預測就見仁見智了

    股價是否隨機漫步至今還沒有一個定論
    那民意呢?
  • 預測最重要的地方,在於分配競選資源,對沒錢的DDP更重要。

    billypan 於 2009/12/09 08:35 回覆

  • person1204
  • 我寫在上上篇的:

    我是阿森啦~~

    這篇我也很想贊同,可是我不得不抱持著一些懷疑的態度。
    為什麼呢?

    因為,雖然就如同比利潘大大所說的,這些數字是不受觀測人所影響的,
    但是這些數字是否可以用來推測候選人當選,甚至是得票率,就要想一想了。

    這基本上也是屬於一種民調,只是:
    1. 被調查的人口A和投票人口B並不完全重疊(比如這次A大致是台灣
    人,B是有投票權的當地縣市民)。
    2. 可以重複投票。
    3. 不知道是正面描述還是負面描述。

    我最近剛看一本書叫黑天鵝效應,裏面講到其實世界上很多的事物不是常
    態分布的鐘形曲線,而是一種叫作碎形的分布,在這種碎形分布下,平均
    值是沒有意義的。

    比如說身高體重是常態分布,如果一百萬個人的身高平均值是168公分,
    那把身高最高的一個人十個人甚至是1000個人抽掉,基本上是不會影響平
    均值的。

    但財富可就不是了,如果一百萬個人的財產平均值是十二萬美金,而其中
    財富最多的那個是華倫巴菲特,第二個叫比爾蓋茲,抽掉第一名,平均值
    剩下六萬,再抽掉一個人,平均值剩下不到一萬.......也就是說九十九
    萬九千九百九十八人對整體數字無足輕重。
  • 統計上如果有平均值,會加上標準差,來看數字的離散程度。

    billypan 於 2009/12/09 08:38 回覆

  • person1204
  • 我在猜,網路上的這些關鍵字很可能就是碎形分布。也就是說抽掉前幾
    名,會影響整體很多的那種,這我沒有確實的證據,但網路上的大部份東
    西都展現了這種碎形的特質。

    如果我的猜想正確,那麼很可能散布這些關鍵字與照片的少數人散布了極
    大量的“有效訊息“(這裏的有效指的是納入統計的值),但這些大量散布
    者,無論是支持或攻擊(這不能相互抵消的,想想用陳進興這個名字,用
    耶穌呢?),每人也只有一票。

    第二就是上一篇比利大說到一件事,說不同層級的選舉好像必須採用不同
    來源的數據才“比較準“,這種對理論的補充和修正,總讓我聯想到一些什
    麼,後來我想出來就是股市分析師,和算命師。股市分析師總是用某個變
    數沒有加入來為自己先前的預測失準辯護,算命師也說因為出生地的不同
    (變數),造成相同八字的人有不同的命運。

    共同點是,他們都假定自己根據的東西,的確和想要預測的東西有關,之
    所以有出入,是因為模型需要調整。但,之所以有出入,有沒有可能,其
    實是八字不能代表人的命運?有沒有可能,那些過去線形的起伏,和未來
    的股價走勢並不相關?

    比利大是醫師,應該知道過去英國以流行病學推測霍亂,雖有一些成效,
    但後來才發現他們把傳播途徑搞錯了;還有那個嘲笑科學家把跳蚤的腳切
    掉,拍手牠們就不跳了,證明牠們的聽覺器官在腳的笑話......

    有沒有可能,A和B的同步,其實只是它們剛好走到了一塊兒?

    甚至是我自己看過比利大的文章,都學這個方法去推測一個人走紅的程
    度,但我現在也躊躇了,因為我剛剛看過“黑天鵝效應“,它在裏面舉過一
    個例子,簡單說明了預測為什麼就是這麼困難(其實它是說不可能):

    有一隻火雞,每天都有食物可以吃得飽飽的,牠的生活基本上就是吃飽睡
    睡飽吃。牠不會知道自然界的動物都是需要自己去覓食的,基本上牠對自
    己的生活也算是滿意,牠認為生活就是這樣了,頂多就是每天吃多吃少而
    已。牠過著這樣的生活一千天,直到某年一個感恩節的早上......

    這隻火雞沒辦法從牠日常生活的資訊和過去的歷史,得知牠終有一天要被
    宰殺的未來。
  • 影響計算結果會有大概1000種因素吧。但是,如果以主觀的方式去除這些因素,一樣有偏差,所以我不去更動原先數據。

    billypan 於 2009/12/09 08:41 回覆

  • liautiamding
  • 這失落的一年半以來, 有很多人失業或往生或收入減少或修不起電腦以致於玩不起網路了
    這也是網路民調失準原因之一吧
  • o988022642
  • to 阿森~
    財產絕對也是常態分配,有人正資產有人負資產,而且平均值搞不好是正負
    一千以內,去掉巴菲特,不會差異太大.
    在方法學上,如果是單純的相關,那麼A和B的同步,真的只是它們剛好走到
    了一塊兒,但是如果這個相關是常態性,或是普遍性的存在時,那A和B就不
    會是剛好,恰巧走在一塊了..
    google式的民調不是不準,在缺乏很多變項數據的前提下(如網路普及率,
    網路使用者年齡分布,投票率....),可以做到這樣的預測算是不錯的了,如
    果可以有多幾年的數據分析,這個方式預測應該會愈來愈近..
  • tonytony6420
  • 真令人佩服,
    明年五都 坐二望三囉
  • sandybin
  • 希望明年綠地繼續開花瞜~
    尤其是新北市,到底他們要台北市長做多爛,才會覺醒??
  • 悄悄話
  • person1204
  • to o988022642:

    就我之前提出的那個例子,我想提出一點我們來討論看看:
    我不知道正負財產相加之後,會不會相互抵銷(我原本是想,一個人要如
    何負債600億美金?),但就算可以互相抵銷,也不代表是常態分布喔,
    基本上只要對折可以相互吻合的圖形,就可以相互抵銷,不是只有常態分
    布的鐘形。

    那本書中還提出小說作者做為例子,它說小說作者的書籍銷量也是碎形分
    布,比如說如果有四萬個小說作者,平均書籍銷量是每人一萬冊,如果中
    間有一個是史蒂芬金,那扣掉他之後,三萬九千九百九十九位小說作者的
    平均銷量只剩下1250冊了......這種碎形分布和常態分布的差異是,極大
    值和極小值是不能忽略的(常態分布可以),所以畫出來的圖形是一種肥
    尾的圖形,也就是極大值和極小值的機率高於常態分布所預測的。

    謹供參考。
  • alucard0914
  • 桃園縣是工業大縣
    選票多絕對不是鄭文燦的功勞
    而是勞工真的過的很苦
  • s175607
  • 還有台中市,國民黨快另外派人來選吧
    拜託胡市長回家好好專心照顧他的老婆
    不要佔著市長寶座不放
    人卻三天兩頭的請長假出國陪老婆就醫
    他自己的身體狀況也堪慮啊
  • et9112001
  • 我覺得還是不能這樣看
    像13縣就只有5個選舉結果湊巧跟google民調相近而已
    而政黨票只是其中一個也是相近的例子

    而且政黨票5:5縣市長1:4仍是立委選舉的警訊
    立委選舉若還是選不好, 總統大選人民會恐懼執政黨沒超過半而不敢投該黨

    我覺得民進黨只要多推銷一些政策, 士氣自然就會提升了
  • lucasconcord
  • 一對一的選舉
    對民進黨真的很艱困
    但也是考驗民進黨用政見贏得民心
    馬英九的內政亂七八糟
    連藍營民嘴都看不下去
    但外交或與大陸談判
    其實還是見仁見智
    民進黨如果真能帶給人民希望
    就像基隆市名不見經傳的林右昌提出都市計畫政見
    用民生議題替代統獨議題
    就跨越來回5%的門檻了
    希望2012立法委員選舉
    民進黨能接近一半席次
    本次基層鄉鎮市長及縣市議員選舉
    民進黨席次及得票率有增加
    值得鼓勵
    希望有天
    民進黨和國民黨在基層的實力能夠勢均力敵
  • 悄悄話
  • zuyanchang
  • 這次還是只能投給你不信任票...
    因為網路搜尋文章的變異性太大
    台灣只是一個小島,連電話民調都不準了
    更何況是靠網路搜尋的數量來評比
    因為文章也有負面的啊!!~~
    所當作茶餘飯後啦!!
  • awe098
  • 事實上,在桃園的選舉中,鄭文燦的選舉策略算失敗的。鄭文燦應該告訴選民,他當選後要怎麼
    建設桃園,在選民的印象中---天下烏鴉一般黑。
  • 郝市長自信滿滿
  • 五都選舉/民調派VS.黨員派 綠喬不定
    【聯合報╱記者林政忠/台北報導】 2010.01.13 04:11 am
    民進黨中執會今天討論五都提名條例,黨務高層心意已決,執政縣市採「完全民調」,引發「黨員
    派」反彈,全黨籠罩山雨欲來氣氛。
    獨派和新生代黨員今天將到黨部一樓陳情抗議,「黨員派」中執委也打算在中執會上發動攻勢,
    「民調派」與「黨員派」的戰火,將延燒到本月廿四日的臨時全代會。
    主張尊重黨員的台南市長許添財和台南縣長蘇煥智,今天雖不出席中執會,但已派出代理中執委備
    戰。「黨員派」和「民調派」今天將第一回合過招;黨主席蔡英文要求不表決,「完全民調」預料
    將成為中執會多數,「黨員派」將主力放在臨全會,力求翻盤。
    民進黨秘書長蘇嘉全強調,今天中執會討論「一定會有結果」,但傾向不表決。
    黨務高層透露,行政院前院長蘇貞昌現在「很徬徨」,「一切等農曆年後才明朗」。
    【2010/01/13 聯合報】 @ http://udn.com/
    =========================================================================
    當然是民調了
    而且不是排藍民調
    排藍民調只有在多席次選舉可行
    1對1的選舉就不行了
    大部份的人口在北部
    中間選民的聲音很重要
    民進黨要有說帖
    如果是蘇謝游三人出來選
    如何排除與扁貪污之牽連?
    如何說明不是2012總統大位之權謀?
    如果是台北市蔡英文、台北縣陳景峻、台中市林佳龍
    如何說明有執政能力?
    如何有市政願景與國民黨不同
    如此而已!
  • taiwan
  • 陳菊無法解決高雄市的蕭條與失業的問題,竟然還有一堆人要支持她.
    實在看不出這些人的邏輯,該換個人執政,大高雄才會進步
  • Wind
  • 不知道這樣的統計調查方式
    是否有相關理論基礎呢?
    從既有的理論再延伸 可能會比較好推論
    也可使模型架構更完善
  • yxxpdi
  • 多謝板主..
  • gjexn
  • 母親節到了 祝天下媽媽都快樂
  • xciok
  • 母親節到了 祝天下媽媽都快樂
找更多相關文章與討論