2018年1月4日 星期四

【王博專文】你不可不知道大數據起手式 vol.2-大數據的挖礦守則

上一回我們提到GFT的神話與衰落,開啟大數據時代大門的專案卻慘淡落幕,這一回我們除了要探討大數據到底出了什麼問題以外,還要重申一個既簡單又明確的概念,數據分析就像是挖礦,礦產要怎麼挖,數據就得怎麼抓。


看似突破性成功的 GFT早早統計出流感趨勢,而當速度緩慢又穩定的資料從 CDC 送達時,這些資料卻顯示GFT對於流感般的疾病預測是過度誇大。事實上這個模型中存在著一個很大的問題點:什麼樣的搜尋關鍵字能夠和流感的擴散有關?Google 的工程師並沒有試著理解其因果關係,僅利用尋找資料裡的統計模式,他們在乎關聯性更勝於因果性,這是一般的大數據分析,要理解因果關係遠遠難於了解關聯性 。

事實上,每天網路上都有許多關鍵字搜尋是與流感看似相關但實則無關的,這些檢索會混在整體結果中,導致誤導,此外關鍵字的搜尋往往受到眾多的因素影響,比如流行的影集或是八卦網站的傳言,導致未罹患流感或接觸流感的人,也可能檢索相關的詞句,這使得數據中的樣本誤差和樣本偏差持續升高。

要注意的是,在大數據中的小數據問題,由傳統統計中就持續存在,當我們持有更龐大的數據時,這一類的問題不只不會消失,反而隨同總體數據的規模依指數上升,當Google的工程師單純的由關聯性來設計程式,忽略其中的統計法則,錯誤隨之誕生。 

那麼這是大數據的錯誤,還是我們都誤解了什麼?

實際上GFT並非不可行,反而是很重要的項目,僅僅是需要加入更多的因素判定要素,拉長檢定時間與滾動式修正,就能有效避免誤差並長限大數據的時效,所以回歸第一回提到的,大數據不是新東西,只是數量驚人的統計資料,而且鉅細靡遺。

做大數據分析,就像在挖礦,今天你想要挖鐵礦,你需要先進行地質分析,然後開一台事宜的載具把軟硬適中的鑽頭打下去,過程中會有許多變化,甚至有可能開挖一半才發現,原來這裡產的不是鐵,是鉻。

同樣的,我們現在就是在龐大的數據地層中,選定要開挖的位置 ,並預估要開採的礦類。你想要做鐵器得設法挖鐵,你想要做硬幣你得挖鎳挖銅,想一飛沖天得挖金礦。總不能拿黃金來做菜刀,拿鐵來做錢幣,東西得要適用。

所以首要任務是什麼?就是地質分析。這數據預期要產出什麼結論?這樣的結論能夠為我所用還是不管知不知道都不會改變什麼?這是先決條件!然後才是要用什麼工具開挖。

下一回,我們會來討論,有哪些成功與失敗的例子,深入了解挖礦的過程。

沒有留言:

張貼留言

【面對全球經濟轉型重要技能需求】

【面對全球經濟轉型重要技能需求】 世界經濟論壇(World Economic Forum, WEF)長年關注經濟轉型的各項趨勢,也定期發佈未來的工作(the Future of Job Report)報告,根據對各國產業界的調查與訪談,深入分析當前的經濟現況與...