Google搜尋，透視民進黨總統初選蘇貞昌和蔡英文之爭－BillyPan's Blog 潘建志醫師

Google搜尋透視 (Google Insight) 是一項Google 很有趣的服務。每天都有不少使用者利用Google檢索關鍵字，每次的檢索Google 都會記錄下來，這樣常見關鍵字被查詢的次數就可以統計，能比較不同關鍵字被查詢的次數來量化熱門的程度。

比方說，手機的兩大系統，iPhone和Android，那一個比較吃香? 有統計上認為是Android，因為全球不同機型合起來銷售量比iPhone多，但實際上大家關注的程度呢?

這趨勢iPhone一直大勝，最近Android才追上來。所以你終於了解為什麼之前拿Android一直把不到妹了吧!!

拿來預測選舉的結果也很有意思。現在民進黨總統初選使用互比式民調，為了電話接聽『唯一支持』是否算使用詐術爭執不下，而深綠的民進黨支持者很怕這種全民調會被對手國民黨的組織動員所操控。民進黨總統初選民調總共要打15,000通，要花不少錢。甚至民調公司會不會作弊，都有不少人會擔心和質疑。

在晚上接聽民調電話，回答支持某一個候選人的個案比率，是否就和真正投票時投下這一個候選人的個案比率一樣?當然不可能，因為這是不一樣的行為。但如果能夠反覆驗証方法，自然可以找出一套規律，能夠在宣告誤差範圍的情況下，由前者預測後者。

這套方法已經廣為大眾接受，否則民進黨也不可能用這種方式來決定他們的總統候選人了。

那麼有沒有其它方法能預測呢?如果『人們在特定時間接民調電話完成回答的比率』可以被拿來用，那麼，『人們在特定時間上網去搜尋某個候選人的比率』是否也有可能預測最後投票的結果呢?這可以由過去的經驗來分析，尋找其中的脈絡。

Google搜尋透視可以自定義時間範圍。我們把2008年總統大選前半年間(2007年9月到2008年2月)，台灣所有子區域，在Google 上打入關鍵字找『謝長廷』和『馬英九』的比率，拿出來看是這樣的:

38比29，比值是 1.31比1。

實際開票結果，馬英九比謝長廷的比率是 58.45%比上41.55%，比值是 1.406 比 1，和Google Insight 兩者還蠻接近的。

你可能會問我為何是半年，不是一年或二年?事實上不管那個時間範圍，結果幾乎都是馬英九勝，這時間範圍是我試過後覺得比較接近結果的。

這是搜尋次數比，如果我們換個方式，利用台灣網頁的關鍵字出現次數來比，也是差不多的。當年的計算結果是1.447比1，我已經寫成這一篇文章。

這方法的好處是不必成本，而且人人都可以自已來做一次，沒有誰執行調查會不公的問題。傳統的電話民調，不同媒體間，三立民視自由TVBS中時聯合蘋果的結果都不一樣，你不知道信誰，也不知道結果是否有被操弄，但這種方法就不會。壞處是不是每一種選舉都管用，比方有些候選人知名度不夠，查不到資料，或是有些『刺客』雖然有知名度，但是在某些小範圍的地區支持度比不上地方型的候選人。所以這種方法在大範圍的地區，比方說台灣全國的範圍，還有候選人知名度都在一定的程度以上才比較適用。

好了，你最關心的結果來了，我們以『台灣』，『近半年來』的範圍，把蔡英文和蘇貞昌丟到Google Insight裏去看，是這樣的:

23比上15，蔡英文勝出。

蘇貞昌的爆發力很強可以看的出來，不愧是衝衝衝，他最受關注時的程度(去年11月)，比蔡英文還高。但後來小英因為是黨主席的原因，曝光度高，而且18趴的爭議好像對她並沒有影響。如果我們把時間範圍調成一年，兩年，結果也差不多。

另外我想大家也很關注的是，馬英九呢?這我也查過了，同一時段比值是26。

26比23大概是1.13比1，已經很接近了。之前謝長廷在選前一年差距更大，約是1.6比1，後來有追上，但還是不夠。

結論，這些數字告訴我們什麼?

1. 蔡英文領先蘇貞昌中。而馬英九領先蔡英文中。

2.民進黨必需團結，初選的效果要能導向讓小英把支持度再衝高，而不是下降。

就醬。參考參考。

有某報的記者曾經寫部落格數篇痛罵我這系列的預測文章，這次大概也不例外。ok啦，等你變大咖一點，名聲好一點的時候，我再回應你。