2018年1月3日 星期三

【王博專文】你不可不知道大數據起手式 vol.1-BIG DATA不是神燈精靈

 
近年來,大數據就像魔咒一樣,人人嘴上都在說,企業每家都在做,但實際上大數據的核心觀念卻是多數人都沒有搞懂。

儘管現在大數據被視為一項,充滿無限可能的全新世代應用工具,事實上所謂大數據分析並不是什麼嶄新的東西,更不是什麼憑空跑出來的魔法神燈,仔細一看,一切不過是人們行之百年的數據統計分析,在現今數位當道的時代裡,統計資料從傳統的抽樣調查,演變為龐大的總體數據罷了。
如此一來,一切變得再簡單不過。

大數據歸根究底也不過就是龐大的統計數據,透過數位平台的蓬勃發展,人們能更加輕易地搜集到鉅細彌遺的行為記錄,從而累積驚人的統計資料,所以面對如此龐大的數據,我們也不過是改變了部分的工具以及分析的方式。


2008年,Google宣稱能夠根據人們在搜尋引擎上的關鍵字檢索,對流行性感冒進行「即時預報」。研究人員在《自然》雜誌上撰文表示,根據他們觀察,當人們罹患流感就會開始上網搜尋相關的關鍵字,這樣的檢索行為自然形成有關於流感流行情況的整體性趨勢訊號。 Google在文章中表示,如果把搜尋引擎上的相關信息與美國疾病預防控制中心(Centers for Disease Control and Prevention,CDC)的流感監測信息進行調整對比,就可以提供更為精準的流感趨勢預測,這不僅把人們在搜尋引擎上留下的「垃圾」變成了拯救生命 的「啟示」,並比CDC現行的數據預測提早至少2周。

在當時,大數據的神話開啟,人們訝異於透過這樣的方式居然能夠達成意想不到的結果,基於強大的計算機功能,我們能直接將數據丟進程式中分析,由於不再是抽樣調查,可以顧及全面性以及低成本等面向,新的世界即將開啟。憑藉這筆成功的範例,Google也推出流感趨勢(Google Flu Trends,GFT),試圖維持如此成功的績效。

於是,GFT失敗了。

在2013年時,GFT預測與實際流感趨勢的誤差值已高達140%,最終Google也不得不關閉這個搖搖欲墜的神話。而類似的大數據失敗案例並不在少數,其癥結點在於人們誤解了大數據的核心定位,它終究只是一個數據,並不是神燈精靈,也不是對著它許願就能產出你想得到的結果,一切都還是必須要回歸最基本的Data mining。

這次我們分享這個基本的案例,下一回我們會接著探討為什麼GFT最終會失敗,到底是大數據的錯,還是我們都搞錯了什麼?

沒有留言:

張貼留言

【面對全球經濟轉型重要技能需求】

【面對全球經濟轉型重要技能需求】 世界經濟論壇(World Economic Forum, WEF)長年關注經濟轉型的各項趨勢,也定期發佈未來的工作(the Future of Job Report)報告,根據對各國產業界的調查與訪談,深入分析當前的經濟現況與...