SENSE隨筆131011《精準預測》上:魔球與天氣報告

SENSE隨筆131011
《精準預測》上:魔球與天氣報告
執筆人:蟬

古代人相信宿命論,並企圖透過占卜等方法去透視已確定的未來。 所以預測predict在古時的意義是竅視神已安排好的未來。 Predict一字源自拉丁文,是舊教時候的產物。

到了啟蒙時代,“人是自己命運的主人”的想法開始流行,日耳曼語根的“forecast預料”是指為不確定的將來作規劃時,對未來可能發生情況的估算。*** 然而今日,兩者的用法已經互通。

本文為三篇系列文章之首篇,介紹去年大熱賣的科普書《精準預測The Signal and the Noise》,這書很易讀,例子有趣,尤其適合 職業投資人/賭徒,誠意推薦。

〈大數據與魔球〉

2011年Brad Pitt飾演的電影《Moneyball魔球》獲得6項奧斯卡提名,片中講述「美國大聯盟棒球MLB」球隊 ‘奧克蘭運動人’ 的經理人Billy Beane 發明以統計方法為主的系統去挑選有潛質的球員。 他憑此方法成功建立了一隊班費低但成績好的球隊,並改變整個大聯盟傳統倚賴 “球員探子”的習慣。

為何魔球會發生在MLB而不是其他類型運動的職業聯賽呢?

根據網站askmen.com文章指出, 世界盈利最多的5大職業體育聯賽分別是 ‘美式足球聯盟’ NFL、 ‘英超聯’English Premier League、MLB、Formula One和NBA,當中三個聯賽均在北美洲。

NFL,MLB和NBA的球隊每年常規比賽分別為16場,162場和82場。

除比賽數量,三種運動的崗位分工雖然明確,但獨立性卻以棒球最高,棒球中投手和打者都是輪值投球和擊球,故一般都為個人的大部分統計數字負責。 美式足球和籃球的球員互動性高,難以將個人因素分離。***

如Silver所說,棒球的條件非常有利於統計運用,當中數據的準確性和數據庫足夠龐大, 令很多預測變得可能,加上職業運動的規則明確,更使可預測性得以提高。

大聯盟職棒MLB過去一百四十年的統計數據都詳盡準確地記錄下來,令數據的可用性大大提高。 這樣的條件令統計數據在大聯盟評定球員表現時成為重要的工具,在「魔球效應」之後更是如此。

「魔球系統」想要去除的,是傳統球探對於統計數據和主觀因素之中,如外觀、人品和各種可能與表現無關的因素的偏見***,以較客觀的方法建立球員潛力評估系統。

本書作者Silver的傑作之一便是一套稱為PECOTA的球員表現預測系統。PECOTA在2003至2008年的球季期間在雜誌上發表球員和球隊表現預測, 預測成績相常出色。 除了比同類系統出色,還打敗了拉斯維加斯的賭盤。

有趣的是,Silver指出在2006年PECOTA發表的一百大新人名單,在五年後與以業餘球探預測結果建立的《美國棒球》雜誌百大名單比較,表現是較差的。 Silver指出《美》的名單上的球員創造的勝局比他名單的球員要多15%,而15%是很大的差距,足以證明該輪球探的預測比他的系統優勝。

統計為主的方法其中一個弱點是將不能量化的資訊忽略。*** 例如統計數據不能反映球員的紀律,心理素質和適應能力,但球探由球員年青的時候便開始跟進背景和個性,而這些資訊可能正是球探優於數據分析的地方。***

〈氣象局真的很差勁嗎?〉

“神為何要創造經濟學家?”“因為要讓氣象學家不要那麼丟人。”  🙂

人們常抱怨氣象局的天氣預測不準確,尤其是預測不會下雨卻下雨的時候。 這種尷尬情況迫使天氣預測帶有一種叫做「wet bias濕偏差」的偏差:即偏向預報比實際更多的降雨,因為大眾對 “假陽性false positive” 比較不敏感。***

然而統計告訴我們,天氣預測在過去二十年的準繩度有了明顯的提高。要了解原因,須先看看現代氣候預測的背景。

牛頓力學的發現令人開始相信宇宙有高度秩序, 而且事物行為遵守單純的物理定律,傳統的宿命論影響力衰減,繼而抬頭的是「科學決定論」。***

其中一種著名的說法便是數學及天文學家Pierre-Simon Laplace提出的假設,後人稱為「拉普拉斯的魔鬼 Laplace’s Demon」:

Th. 假如完全知道自然中所有物體的狀態,並且存在一組固定的法則支配著宇宙運作,則應該可以對未來做出完美的預測。****

拉普拉斯相信大自然是完美的,人們之所以不能作出準確的預測,是因為人並不像大自然般完美。***

與之對抗的是「機率論」者,他們相信宇宙的狀況存在不確定性。*** 直到20世紀初,理論物理學家Werner Heisenberg提出「不確定性定理 Uncertainty Principle,指出除了因為「觀察者效應Observer’s Effect」—- 即 “量度令受測者行為改變,因而沒有辦法完全準確測量粒子的行為” 以外,粒子自身的行為是隨機的。*** 它的位置position與動量momentum也不可能同時被準確測定。*** 不確定性定理是當代「量子力學」的基礎理論。

然而氣象是分子層次的現象,毋須用到量子力學。 現代氣象預測其實是「拉普拉斯的魔鬼」的一種實踐。*** 要預測氣象最直覺的方式是,把大氣空間分解成三維的量度格子,並觀察格子內的氣象資料。 接著將資料以已理解的氣象原理去預計未來的變化,理論上應該能得出準確的預測。

然而世事絕非那麼完美。 1972年數學家Edward Lorenz提出「混沌理論Chaos Theory,俗稱「蝴蝶效應」。混沌理論的基本原則是:

Th.初始條件的微小改變會讓結果產生巨大而意外的歧異。****

它適用於擁有以下兩個特性的系統:

  1. 系統是動態的,即某時間點的行為表現會影響其未來的行為;***
  2. 系統是非線性的,即它們遵守的是 等比級數exponential的關係而非 等差non-arithmetic的關係。***

氣候預測系統正是這類型的系統, 由於測量個別格子內的氣候資料已存在細微誤差,再加上格子的精細程度呈等比級數影響精確度,所以即使電腦的運算能力以每兩年倍增,氣候預測系統的改良速度並沒有跟上。 如果將量度格子的邊長減半,便需要8倍的運算能力去配合。*** 此性質限制了氣候預測的改進速度,再加上如濕偏差等由巿場競爭所引入的因素,令大眾低估了氣候預測進步的幅度。

然而,大家絕對可以漠視七天以上的氣候預報,因為它們的表現證實比以歷史數據得出的統計結果還要差。 🙂

下篇將淺談同樣受混沌理論影響的經濟預測為何在過去數十年皆沒有改善,並介紹兩大預測門派之理論:「Bayes’ Theorem貝氏定律」 和 費雪的「頻率論Frequentism」,請勿錯過。

 參考:

1.《精準預測:如何從巨量雜訊中,看出重要的信號》
《The Signal and the Noise》, 2012, Nate Silver

2. http://www.askmen.com/sports/business_200/218_sports_business.html