SENSE隨筆131015
大數據
執筆人:Jack***
湯告魯斯主演的電影《未來報告Minority Report》描述一個未來的世界,美國成立了一支特異的預防犯罪隊伍,具有超自然力量,可以預知謀殺案,並在罪犯行兇前繩之於法。 今時今日這種預防犯罪的系統已經出現,不過執法部門依靠的當然不是具有超自然力量的先知者,而是「大數據預測系統」。
〈大數據定義〉
有關人口結構及節目收視率等日常生活的統計數據, 都是從抽取樣本進行調查的基礎上,經過計算推斷出來的。 實行「抽樣調查」的原因是蒐集全面資料的成本太高,甚或在執行上是不可能的, 導致可行性高的抽樣成為自然而然的產物。***
到了現在,數碼產品普及,資料儲存成本平宜,遂令往昔資料蒐集,計算及整理的困難度大幅降低,使我們有機會迫近「樣本 = 母體」的效果,正式步入巨量資料或「大數據」的世代。***
〈對待資料態度的改變〉
在抽樣或小量資料處理的情況下,由於推論植根於少量的資料,所以在資料品質及計算的方面,統計家盡可能要追求準確。不然,錯誤可能會放大。
在巨量資料的情況下,由於不再需要擔心單一資料點的偏差會影響整體分析,統計家可以大膽放寬資料點的誤差值。*** 於是我們手中就能有更多的資料可用,從而釋放更多價值。
例子1:IBM翻譯 VS Google翻譯
IBM翻譯系統以輸入翻譯品質非常高的國會文件為基礎,例如過往十年加拿大國會的英法雙語文件,語料庫大約是三百萬個句對,之後再依靠機率去配對最有可能的翻譯。它的精神是純粹。
谷哥Google翻譯則收錄了數十億個品質高下不一的翻譯網頁,之後再依靠機率去配對。它的精神是涵蓋。***
雖然谷哥翻譯收錄的資料雜亂,但因規模足夠大,服務效果相當好,語料庫更遠勝IBM。最後,市場選擇了谷哥翻譯,IBM翻譯消聲匿跡。
〈不再拘泥於因果關係,相關性世界觀更重要〉
人類一向都用因果關係來理解世界,總是相信,只要看得仔細,就能找出每件事情背後的原因。****
因果關係下的思考方式有兩種:
(一) 快速思路下的因果直覺;
(二)慢速,循序思路下的因果判斷。
人類習慣性地使用第一種方式,原因:(1)遠古時代,經常需要在資訊不足的情況下,快速做出生死攸關的決定。 (2)大部份人腦袋懶得思考,傾向一聽到資訊,就按現有的知識及信念作出反應。
真實的世界,很多事情之間只有「相關性」,根本無從發現因果關係。****
在巨量資料的世界下,事情之間的相關性將看得更清楚。而在應用方面,我們更要作出適應,很多時候,知道「正是如此」,比知道「為何如此」更重要。
例子2:
網路書店亞馬遜成立初期, 雇用十多位專業人士和編輯來寫作書評及提出建議閱讀的書目。這曾經被認為是亞馬遜最珍貴的資產。
接著,創辦人嘗試依據客戶的個人喜好來建議書籍, 後果卻是系統推薦的書都跟客人過去買的大同小異,並且沒完沒了。
最後,公司改為進行產品分析,比較個別產品間銷售情況的關聯性。 這方法好處是分析可以事先處理,不用臨時完成,也能夠跨越各種產品類別,不再限於書籍。
結果第三個方法帶來的銷量遠比編輯寫出的內容為高。最後,書評團隊終告解散。
在巨量資料的分析下,電腦根本不知道為何愛讀 海明威作品的人,總會想買 費茲傑羅(《大亨小傳》作者)的作品。 但是對於亞馬遜來說,「為何如此」並不太重要,重要的是「正是如此」。 公司現在三分之一的總銷量就是靠著莫名所以的「正是如此」帶來的。
例子3:
美國連銷百貨公司從巨量銷售資料中研究了孕婦與產品之間的相關性。 最後,分析部門大約找出二十幾種可以做為 “懷孕指標”的產品。只要顧客購買這些產品,部門就能夠計算出「懷孕預測」分數及預測小孩的出生日期,從而給不同的顧客寄出恰到好處的優惠劵。
有一天,一個憤怒的傢伙闖進百貨公司分店,怒罵分店經理竟然給他還讀高中的女兒寄嬰兒服和嬰兒床的優惠劵,認為這是鼓勵她未婚懷孕。 事後幾天,經理接到道歉電話,父親表示之後發現女兒一直隱瞞懷孕一事。
〈一切將資料化〉
某領域的巨量資料應用成功,如GPS把我們的位置資料化,Facebook把我們的社交互動資料化,LinkedIn把我們過去的「專業經驗」資料化等,將推動日常生活很多重要面向都進行資料化。
資料化跟數碼化是兩回事。 你把一本書的一頁用數碼相機拍下來,儲存為相片檔案,如JPG,這只是一個數碼化的過程,圖中的文字並沒有資料化。 相反,如果你在Word上把那頁的文字重新拷貝一次,這就把文字資料化了。
如果只是用作電子書,數碼化都足夠應付了;但是如果是用作搜尋特色的詞彙,或加以分析,則需要把文字事先資料化。
例子4:谷哥如何巧妙地進行文字資料化
谷哥與全球最大,最負盛名的幾間學術圖書館合作,同時開發可自動翻頁的掃瞄器,之後再利用光學文字辨識軟體來資料化已數碼化的書籍。
光學文字辨識軟體並不完美,很多字詞無法辨認。 谷哥想出了一個十分巧妙的方法,令到大部份網路使用者都為這項壯舉出一份力,而更神奇的地方是大家並不知道自己原來正在為谷哥效力。
曾經在網上登記註冊的使用者,都有過在登記過程時需要辦認一些貌似波浪起伏,難以辨識的字母的經驗,這項發明名為Captcha。 Captcha功能的原意是為了減少垃圾信息機器對人的危害,一開始大家輸入的資料的確是完全浪費掉的。 之後發明這項功能的人與谷哥合作,推出第二代的Captcha,名為ReCaptcha。
大家使用ReCaptcha的時候,要辨認的不再是輸入隨機的字母,而是谷哥在光學文字辨識軟體無法辨認的字詞。 對於一個新字,當網路上有五個人的輸入都相同時,系統就會確認該字已經正確辨認。這樣谷哥每年就節省了超過10億美元的工資。
〈以預測為基礎的判罪有何不對〉
如果有一天大數據真的如《未來報告》一樣能準確預測誰可能犯罪,屆時可能有人認為光是預防犯罪還不夠,會提出先懲罰那些可能的犯罪者。
站於社會的安全性角度來看,如果我們只是單純干預,制止非法行為發生,不加以懲罰,原本要犯罪的人就可能再次嘗試犯罪。懲罰就能達到阻嚇作用。
“懲罰未犯罪的犯罪者” 卻嚴重侵犯了人類的倫理道德。社會的基本信念是個人的責任應該與個人的行為選擇互為表裡。*** 如果一個人選擇了違反法律的行為,那麼他將要付起責任,受到法律上的制裁。
以預測為基礎的處罰,就等於是否定了人的意志,不認為人類能夠自主自由自在地生活。既然人類缺乏自主做決定的能力,那反過來說我們其實就不用負任何責任了。
即使巨量資料預測如何準確,得出的都只是相關性,而不是因果關係。人類社會要判斷某人是否有罪,除了基於他是否做出不法的行為,還要考慮行為的動機。動機即是因果關係***,因此價值基礎在於相關性的巨量資料是不適合用來判斷因果關係,或判斷某人是否有罪的。
以上學理出自:
《大數據:數據革命如何改變政府、商業與我們的生活
Big Data: A Revolution That Will Transform How We Live, Work, and Think》
by Viktor Mayer-Schonberger & Kenneth Cukier