SENSE隨筆131101
統計學簡史
高人輝執筆
「統計學」就是從量化的角度去研究問題。
現代中小學校課程一般都會教授統計學知識,大家都認識圖表、平均數、常態分佈等術語。但「統計學」概念不像自然科學,在現實生活中並無對應實體,故此比較難於掌握。本人相信透過學習相關歷史,可以有助了解更多,希望藉這篇隨筆加以介紹。
早期統計學與公共行政管理密不可分,政府作為行政機關,必會用到統計方法,以處理社會生活面的不同數據,讓官員製定相關政策,故實務的統計方法早已有之。現代統計學更被廣泛應用在自然科學及社會科學中,一般可細分為 “應用統計學”及 “數理統計學”兩大類型。
應用統計學研究如何收集、整理、歸納及分析數據,建立數學模型,以描述客觀實體的全貌。***
數理統計學則專注背後的數理邏輯。
〈概率論〉統計學的數理基礎理論
現代意義的統計學發展,應從17及18世紀數學家說起,法國當時出現了不少偉大數學家,例如 BERNOULLI、費馬FERMAT、MOIVRE、巴斯卡PASCAL等。這群數學家除了對純粹數學有研究,亦向其他領域出發,例如物理學,哲學,以至神學,可算得上是多才多藝的思想家。
數學以外的問題,不易分解出簡單清晰的原理來描述。當中比較成功的,應該是日常生活中的遊戲,例如擲硬幣,轉輪盤之類,因為這些遊戲有清晰的規則,易於用數學描述及研究。數學家於是建立數學理論,去處理這些不斷重複而有明確機率的遊戲。
伯努力BERNOULLI 化煩為簡,分離出一個更基礎的理論,名叫 「大數法則 LAWS OF LARGE NUMBERS」,但機率的概念仍不易了解。
直到19世紀,英國邏輯學家 范恩JOHN VENN 提出了「機率」的表達方法,使得機率在現實生活上有它的意義,他把一個重要的大數法則定理加以解釋,指若某件事有既定的機率 (就像擲一枚骰子,得到六點的事件機率就是六份之一),只要我們不斷重複進行測試,該事件發生次數的比例就會越來越接近這個值。***
這些學問構成了統計學的基礎—概率論,但當其時沒有長足的發展。這可能是由於另一股主流思想—決定論的影響所致。
〈決定論的興衰〉
物理學宗師 牛頓NEWTON(1642-1727)提出其經典力學定律後,在實證層面上獲得空前成功,理論中的基礎數學模型,遂廣泛地應用在其他的科學範疇。 當時學術界漸漸形成了一種科學哲學習風,認為只要找到事物背後的運作定律,就可以解釋過去及預知將來。 牛頓後的一個世紀,這種科學哲學觀成為主流,宇宙就像機械鐘表運動,只要找到正確的方程式,一切運動盡在掌握之中。 雖然19世紀 “浪漫主義運動”曾經嘗試抗拒這種冷漠的機械論,唯海王星的成功預測及發現,力證機械論的偉大及無敵。 這種思想已經深深植根於當時的文化之中,雖然沒有完全排除概率論,但「決定論」在意識形態上總像跟「概率論」格格不入。
法國數學家 拉普拉斯LAPLACE( 1749-1827)寫了一本書,用數學方程式去描述宇宙中的天體運動,他相信只要有正確的初始條件,就可以正確預測天體的位置,如果觀測出來的數據跟預測出來的不一樣,那就是觀測有誤差。*** 只要隨著觀測儀器不斷進步,觀測誤差應會越來越小,最終觀察到的數據,必然會跟方程式預測出來的一樣。
可惜事與願違,雖然儀器越來越準確,觀測得到的數據,並沒有越來越接近預測值,反而數據突顯出一種隨機性,令到如同金科玉律般的決定論被人質疑。
決定論正處於窮途末路,正因為主流的科學基石給質疑了,於是一群有創新精神的科學家開拓了新的範式去處理帶有隨機性的科學問題。
正如芝加哥大學的 孔恩Kuhn所說,現實世界是極為複雜的,永遠不可能以一個有組織的科學模型來完全描述。 隨著數據越來越多,科學模型的修正項亦越來越多,到最後出現一些特例,會發現原來的模型已不合適。 到了這時候,有原創想法的人就會提出完全不同的新模型,掀起一場 “科學革命” 。***
〈皮爾生〉數理統計學的始祖
接下來介紹統計學的重要人物英國學者 卡爾.皮爾生KARL PEARSON (1857-1936) ,它是一個大學問家,由於醉心馬克思主義,更把自己的名字由CARL改成 KARL,以示崇拜。 他亦對科學哲學和數學模樣有著濃厚興趣,在第一次世界大戰前後出版了《科學的文法》,是探討科學與數學本質的偉大著作,愛因斯坦曾推許為必讀之書。
皮爾生曾在倫敦生物統計實驗室跟隨優生學家 高騰 做過優生學的相關研究,在研究當中,他們發現了一個『向平均數回歸REGRESSION TO THE MEAN現象』,就是非常高的父母,子女往往較父母矮;而非常矮的父母,子女往往較父母高,故此人類大致上保持著一定高度。 他們亦提出『相關係數COEFFICIENT OF CORRELATION』概念,研究事物之間的相關度,而無需強調事物之間的因果關係。***
這些 “常識” 現在已經耳熟能詳,可見統計術語已融入我們常規教育之中,令大眾都有所認識。 不過高騰的貢獻就此止步,並未帶領人們走得更遠,他徒弟 皮爾生的觀點,才真真正正掀起了統計學浪潮。
在皮爾生以前,科學家做實驗,如果才能令數據可信度提高呢?最簡單就是將實驗不斷重複,但問題是究竟要做多少次才有足夠可信度呢? 這個問題以往科學家一直不多理會,因為19世界前的物理實驗,得到的數據一般都有很高的一致性,隨機性比較低,不斷重複實驗,每次都會得到很接近的結果。
但後來,科學家的要求提高了,再加上有一些實驗,在不斷重複下,所得到的數據本質就帶有隨機性,其結果使人不能輕易接受。
皮爾生用他獨到的數學技巧,推算這些數量的可信度,用嚴謹的數學手法給這些隨機的數據背書。皮爾生發明的就是 「適合度檢定 GOODNESS OF FIT— CHI SQUARE TEST」,藉著觀測值的數據分布,就可以推算到數據的可信度CONFIDENCE LEVEL有多高。 那在當時是一個重要的學術突破,從此觀測值跟預測值的誤差,有了科學的評估基準。***
現在統計學有了堅實的數理基礎,接著要介紹的統計學家是 費雪,他把實驗的過程序變得有條理,使得到的數據更有說服力。
〈費雪 〉應用統計學的始祖
英國統計學家 費雪爵士 SIR RONALD A.FISHER (1890-1962) 視力很差,如果光線不足的話,接近看不見東西,在使用紙筆規尺等輔助工具上時有困難。 他居然自創用代數方法去解幾何問題,由此可見他對數學見解獨到。 他考獲獎學金,前往劍橋大學修讀,熱衷於當時十分熱門的演化論,期間曾學習 孟德爾的遺傳學。(他成名後,在1940年曾指出孟德爾的實驗數據過於完美,欠缺了自然界的隨機性,故相信數據是做假的)。在學期間,他被當時流行的優生學吸引,曾經聯同經濟學家 凱因斯等人,創辦了個一個劍橋優生學學會。最後費雪通過了數學考試,翌年於劍橋拿到數學學位。
第一次世界大戰爆發,大戰環境大大影響了他對遺傳學的研究工作,但他亦不時幫助相關學術期刊審評文章, 保持了他對遺傳學及統計學的興趣。大戰結束後,他想發表鑽研已久的學術研究文章,可惜一直不被學術界所重視。原因是他屬於純數學理論一派,會用上較抽象的數學理論去解釋統計問題,甚或會用上更抽象的多維幾何方法。當時主流的統計學者因未能掌握這些過於高深的數學,而對他的論文不屑一顧。
鬱鬱不得志的費雪,迫不得已到英國羅森斯得實驗室工作,那所實驗室是由一間肥料公司開辦的,目的在找出人工肥料對農作物生長的影響,記錄了近九十年降雨量、肥料份量及農作物收成量等數據。多年來的數據一直沒有發表過,而且十分零碎及混亂。費雪肩負重任,負責分析那些數據。到底得出什麼結果呢?結果是一無所得,原因是降雨量對收成量的影響太大了,根本難以分離出肥料對收成的影響。這是實驗設計得太粗疏之故,九十年到頭來白忙一場,實為可惜。
這就是費雪日後寫《實驗設計》一書的主因。《實驗設計》舉出好幾個範例,給科學家提供指引,去設計實驗程序,得出有價值或代表性的觀測數據,以免白白浪費時間及資源。
及後費雪回到大學校園,繼續統計學的學術研究,範圍不單只應用統計學,而伸展到更廣更闊的領域,以及將前人的錯誤指出及修正,風頭可謂一時無兩。
以上兩位統計學家,為現代的統計學奠定了穩固基礎。透過扎實的數理邏輯及嚴謹的實驗程序,使一些多年來不確定的、帶有隨機性的實驗數據有了合理的估算,對複雜的世界有了新的處理方法,令科學開闢了新的道路。
資料來源:
《統計改變了世界 How Statistics Revolutionized Science in the Twentieth Century》(2002)
作者:David Salsburg
譯者:葉偉文
出版:天下文化