解碼工業大數據分析與應用-王啟岳博士: 【王博專文】你不可不知道大數據起手式 vol.2-大數據的挖礦守則

2018年1月4日星期四

【王博專文】你不可不知道大數據起手式 vol.2-大數據的挖礦守則

上一回我們提到GFT的神話與衰落，開啟大數據時代大門的專案卻慘淡落幕，這一回我們除了要探討大數據到底出了什麼問題以外，還要重申一個既簡單又明確的概念，數據分析就像是挖礦，礦產要怎麼挖，數據就得怎麼抓。

看似突破性成功的 GFT早早統計出流感趨勢，而當速度緩慢又穩定的資料從 CDC 送達時，這些資料卻顯示GFT對於流感般的疾病預測是過度誇大。事實上這個模型中存在著一個很大的問題點：什麼樣的搜尋關鍵字能夠和流感的擴散有關？Google 的工程師並沒有試著理解其因果關係，僅利用尋找資料裡的統計模式，他們在乎關聯性更勝於因果性，這是一般的大數據分析，要理解因果關係遠遠難於了解關聯性。

事實上，每天網路上都有許多關鍵字搜尋是與流感看似相關但實則無關的，這些檢索會混在整體結果中，導致誤導，此外關鍵字的搜尋往往受到眾多的因素影響，比如流行的影集或是八卦網站的傳言，導致未罹患流感或接觸流感的人，也可能檢索相關的詞句，這使得數據中的樣本誤差和樣本偏差持續升高。

要注意的是，在大數據中的小數據問題，由傳統統計中就持續存在，當我們持有更龐大的數據時，這一類的問題不只不會消失，反而隨同總體數據的規模依指數上升，當Google的工程師單純的由關聯性來設計程式，忽略其中的統計法則，錯誤隨之誕生。

那麼這是大數據的錯誤，還是我們都誤解了什麼？

實際上GFT並非不可行，反而是很重要的項目，僅僅是需要加入更多的因素判定要素，拉長檢定時間與滾動式修正，就能有效避免誤差並長限大數據的時效，所以回歸第一回提到的，大數據不是新東西，只是數量驚人的統計資料，而且鉅細靡遺。

做大數據分析，就像在挖礦，今天你想要挖鐵礦，你需要先進行地質分析，然後開一台事宜的載具把軟硬適中的鑽頭打下去，過程中會有許多變化，甚至有可能開挖一半才發現，原來這裡產的不是鐵，是鉻。

同樣的，我們現在就是在龐大的數據地層中，選定要開挖的位置，並預估要開採的礦類。你想要做鐵器得設法挖鐵，你想要做硬幣你得挖鎳挖銅，想一飛沖天得挖金礦。總不能拿黃金來做菜刀，拿鐵來做錢幣，東西得要適用。

所以首要任務是什麼？就是地質分析。這數據預期要產出什麼結論？這樣的結論能夠為我所用還是不管知不知道都不會改變什麼？這是先決條件！然後才是要用什麼工具開挖。

下一回，我們會來討論，有哪些成功與失敗的例子，深入了解挖礦的過程。

沒有留言:

張貼留言

關於王啟岳博士

※教育經歷
- 美國密西根大學工業工程暨作業研究博士
- 美國密西根大學工業工程暨作業研究碩士
- 清華大學工業工程學士

※工作經歷
- 密西根大學車輛工程/克萊斯勒吉普車工程中心研究員
- 飛利浦建元電子品管經理，製造經理，研發經理
- 中國鋼鐵講師
- 美國普林斯頓問題分析與決策領導機構講師

※擅長主題：
工業4.0的轉型、大數據實務操作、問題分析與決策邏輯、統計品管與問題解決、高績效團隊、系統創意思考、六標準差, 豐田生產管理/精實企業等。

※個人簡介：
王啟岳博士有12年的培訓經驗以及18年的實務與學術結合經驗，實務擔任過電子業 Business Unit Head, 建立市場銷售,研發與生產完備團隊於7年內從無至年營收入上億元之獨立 BU。他擔任台灣飛利浦股份有限公司經理任職期間曾派至國外接受講師與專業領域訓練，擁有特殊專利發明 20 餘項, 曾為不同行業提供咨詢服務與授課，包括：電信、鋼鐵、電子、汽車、化工、銀行、食品、物流等行業，具有豐富的專業知識及教學經驗。

解碼工業大數據分析與應用-王啟岳博士

2018年1月4日星期四

【王博專文】你不可不知道大數據起手式 vol.2-大數據的挖礦守則

沒有留言:

張貼留言

【面對全球經濟轉型重要技能需求】

搜尋此網誌

2018年1月4日 星期四

【王博專文】你不可不知道大數據起手式 vol.2-大數據的挖礦守則

沒有留言:

張貼留言

【面對全球經濟轉型重要技能需求】

2018年1月4日星期四