儘管現在大數據被視為一項,充滿無限可能的全新世代應用工具,事實上所謂大數據分析並不是什麼嶄新的東西,更不是什麼憑空跑出來的魔法神燈,仔細一看,一切不過是人們行之百年的數據統計分析,在現今數位當道的時代裡,統計資料從傳統的抽樣調查,演變為龐大的總體數據罷了。
如此一來,一切變得再簡單不過。
大數據歸根究底也不過就是龐大的統計數據,透過數位平台的蓬勃發展,人們能更加輕易地搜集到鉅細彌遺的行為記錄,從而累積驚人的統計資料,所以面對如此龐大的數據,我們也不過是改變了部分的工具以及分析的方式。
2008年,Google宣稱能夠根據人們在搜尋引擎上的關鍵字檢索,對流行性感冒進行「即時預報」。研究人員在《自然》雜誌上撰文表示,根據他們觀察,當人們罹患流感就會開始上網搜尋相關的關鍵字,這樣的檢索行為自然形成有關於流感流行情況的整體性趨勢訊號。 Google在文章中表示,如果把搜尋引擎上的相關信息與美國疾病預防控制中心(Centers for Disease Control and Prevention,CDC)的流感監測信息進行調整對比,就可以提供更為精準的流感趨勢預測,這不僅把人們在搜尋引擎上留下的「垃圾」變成了拯救生命 的「啟示」,並比CDC現行的數據預測提早至少2周。
在當時,大數據的神話開啟,人們訝異於透過這樣的方式居然能夠達成意想不到的結果,基於強大的計算機功能,我們能直接將數據丟進程式中分析,由於不再是抽樣調查,可以顧及全面性以及低成本等面向,新的世界即將開啟。憑藉這筆成功的範例,Google也推出流感趨勢(Google Flu Trends,GFT),試圖維持如此成功的績效。
於是,GFT失敗了。
在2013年時,GFT預測與實際流感趨勢的誤差值已高達140%,最終Google也不得不關閉這個搖搖欲墜的神話。而類似的大數據失敗案例並不在少數,其癥結點在於人們誤解了大數據的核心定位,它終究只是一個數據,並不是神燈精靈,也不是對著它許願就能產出你想得到的結果,一切都還是必須要回歸最基本的Data mining。
這次我們分享這個基本的案例,下一回我們會接著探討為什麼GFT最終會失敗,到底是大數據的錯,還是我們都搞錯了什麼?
沒有留言:
張貼留言