上一回我們提到GFT的神話與衰落,開啟大數據時代大門的專案卻慘淡落幕,這一回我們除了要探討大數據到底出了什麼問題以外,還要重申一個既簡單又明確的概念,數據分析就像是挖礦,礦產要怎麼挖,數據就得怎麼抓。
看似突破性成功的 GFT早早統計出流感趨勢,而當速度緩慢又穩定的資料從 CDC 送達時,這些資料卻顯示GFT對於流感般的疾病預測是過度誇大。事實上這個模型中存在著一個很大的問題點:什麼樣的搜尋關鍵字能夠和流感的擴散有關?Google 的工程師並沒有試著理解其因果關係,僅利用尋找資料裡的統計模式,他們在乎關聯性更勝於因果性,這是一般的大數據分析,要理解因果關係遠遠難於了解關聯性 。
事實上,每天網路上都有許多關鍵字搜尋是與流感看似相關但實則無關的,這些檢索會混在整體結果中,導致誤導,此外關鍵字的搜尋往往受到眾多的因素影響,比如流行的影集或是八卦網站的傳言,導致未罹患流感或接觸流感的人,也可能檢索相關的詞句,這使得數據中的樣本誤差和樣本偏差持續升高。
要注意的是,在大數據中的小數據問題,由傳統統計中就持續存在,當我們持有更龐大的數據時,這一類的問題不只不會消失,反而隨同總體數據的規模依指數上升,當Google的工程師單純的由關聯性來設計程式,忽略其中的統計法則,錯誤隨之誕生。
那麼這是大數據的錯誤,還是我們都誤解了什麼?
實際上GFT並非不可行,反而是很重要的項目,僅僅是需要加入更多的因素判定要素,拉長檢定時間與滾動式修正,就能有效避免誤差並長限大數據的時效,所以回歸第一回提到的,大數據不是新東西,只是數量驚人的統計資料,而且鉅細靡遺。
做大數據分析,就像在挖礦,今天你想要挖鐵礦,你需要先進行地質分析,然後開一台事宜的載具把軟硬適中的鑽頭打下去,過程中會有許多變化,甚至有可能開挖一半才發現,原來這裡產的不是鐵,是鉻。
同樣的,我們現在就是在龐大的數據地層中,選定要開挖的位置 ,並預估要開採的礦類。你想要做鐵器得設法挖鐵,你想要做硬幣你得挖鎳挖銅,想一飛沖天得挖金礦。總不能拿黃金來做菜刀,拿鐵來做錢幣,東西得要適用。
所以首要任務是什麼?就是地質分析。這數據預期要產出什麼結論?這樣的結論能夠為我所用還是不管知不知道都不會改變什麼?這是先決條件!然後才是要用什麼工具開挖。
下一回,我們會來討論,有哪些成功與失敗的例子,深入了解挖礦的過程。
訂閱:
張貼留言 (Atom)
【面對全球經濟轉型重要技能需求】
【面對全球經濟轉型重要技能需求】 世界經濟論壇(World Economic Forum, WEF)長年關注經濟轉型的各項趨勢,也定期發佈未來的工作(the Future of Job Report)報告,根據對各國產業界的調查與訪談,深入分析當前的經濟現況與...

-
本文出自 工作狂人 工作熊經常看廠商或是EMS廠寫過來的「8D-report」及「CAR(Corrective Action Report)」,老實說有些人report寫得很好,但有些人就真的很糟糕,糟糕到連退了好次都還寫不好。 不論...
-
本文出自王博專文 進階技能:知變遷 Z圖表 1 說明 把每月的銷售額, 銷售額累計, 與移動年計, 3 條折線合成一個 Z 字形. 移動年計為本月加前 11 個月之數字 (共12月效應), 故由 Z 圖表可看出...
-
【創意思維IDEA-劉海戲金蟾】 以下是93年大學國文學測的考題,我把它原原本本的抄下來,這題顯然是要考創意的考題,幫學校挑選有創意的學生。請大家思考一下,這一題你會怎麼寫,以搶得這一題的分數? ※試題與評分準則來源:大考中心網站 / 學科能力測驗...
沒有留言:
張貼留言