2018年9月16日 星期日

【王博專文】大數據分析與應用實務_數據關聯性與因果性: X 數據矩陣與 Y數據矩陣


本文出自王博專文
認識客戶的工業數據-
Chapter 4:數據關聯性與因果性: X 數據矩陣與 Y數據矩陣

說明
結構化大數據中,可以想像成 X 矩陣數據與Y 矩陣數據之收集與分析。如果Y 矩陣數據代表是良率 (Y1) 與強度 (Y2),而 對X 矩陣數據,我們嘗試收集如溫度(X1) 壓力(X2) 催化劑 (X3) 等控制參數,再試圖找出控制X矩陣的方法以達到Y矩陣之最佳化。必須注意的是,若兩矩陣間,具有關聯性 (Correlation) 。須注意的是:兩矩陣間,並不見得具有因果性 (Causality)。

若發現數據X與數據Y有相對應的關聯性,常會做出「X影響Y」的結論。事實上,所謂的「影響」牽涉到時間先後的因果概念,必須同時滿足以下條件:

  1. X比Y先發生
  2. 有 X 輸入時,Y 才有反應;反之,則無。

但沒有關聯性,因果性常常會薄弱許多,實務上我們會暫時擱置 X 影響 Y 之看法。大數據中,常常透過實驗設計 Design of Experiments (DOE) 來完成因果性之實驗,因在 DOE 中,X 必定發生於 Y 之前,而透過 X 矩陣之特殊設計,如直交表
(Orthogonal Array),可檢視 X 之存在與 Y 效果之呈現,加上又可做出 X 矩陣之線性組合與 Y 之數學關係來推估線性參數的關聯分析,能一舉多得因果性。

若依照資訊兩矩陣的組合模式,可分類如下表的方法來做分析。在後面的章節,將以JMP為工具,為大家循序介紹,如何將各種數據模式關聯、分析與預測的方法。

【王博專文】大數據分析與應用實務_數據的分佈型態: 常假設常態分配


本文出自王博專文
認識客戶的工業數據-
Chapter 3:數據的分佈型態: 常假設常態分配

說明
提到數據的分配型態(Distribution),最廣為熟知的例子即是:在一個班級中,考試成績的分配。在這個例子中我們可以猜想資質優異及一竅不通的學生,一般而言都是少數,而大多數的人應該都集中在中等程度附近。這樣的數據分配即所謂的「常態分配(Normal Distribution)」,也是最常見的一種型式。尤其是基本物理量如長度,重量等亦常出現這樣的分配案例。這也是多數分析的統計基礎,若數據來自非常態分配母體,也盡量透過抽樣與中央極限定理(Central Limit Theorem) 來達到常態分配。

由以上的說明可以看出:在製程中,一旦商品數據的群體分配確定後,知道第一與第二統計量,便能有助於判斷該製程可能產出不良品的機率,來並加以改善。

上圖顯示的即是一個典型的常態分配。

這裡要告訴讀者的是:一組數據是否符合常態分配,我們可利用以下兩個方法:

  1. 在 Normal Quantile Plot 中,觀察數據點是否沿紅線,呈直線分佈。
  2. 判斷 Goodness-of-Fit Test 的 Prob<W (P-value)是否≧0.05。若是,則該組數據接近常態分配。反之,則否。

至於要如何畫出 Normal Quantile Plot 及得到” Prob<W”,隨後章節會提及。另外在某些運用狀況下,讀者可能會遇到 t 分配(t Distribution)、F 分配,指數分配(Exponential)、Weibull 韋伯分配等。而商業大數據,則較少研究母體之分配。

2018年9月5日 星期三

【王博專文】大數據分析與應用實務_第一統計量與第二統計量


本文出自王博專文
認識客戶的工業數據-
Chapter 2:第一統計量與第二統計量

說明
如同上一節所言,我們在看統計平均值外,也要注意離散性。因此,須具備以下概念:

第一統計量與第二統計量。

第一統計量,又稱位置參數,指的是平均值(Average)或中位數(Median)等。

第二統計量,又稱離散參數,指的是標準差(Standard Deviation)或全距(Range)等。

對應上節精準度的概念,無論是品質管控或是設計開發。吾人當先要求第二統計量,使數據點之集中,再追求第一統計量達到設定目標。

由此觀之,第二統計量的重要性,有時甚至比第一統計量還重要些。在以下的章節,將循序教您如何運用JMP軟體繪製及整理數據的統計量。

第一統計量:可用平均值 (Average) 或中位數 (Median)

【王博專文】大數據分析與應用實務_工業大數據基本素養


本文出自王博專文
認識客戶的工業數據-
Chapter 1:大數據Big Data之基本素養

說明
為什麼品質優良聞名的車廠,會做出劣質的車?這就要注意到「精度(Precision)」與「準度(Accuracy)」的問題。

在相同操作條件下,所謂的「精度」,指的是結果數據的離散性。而「準度」,指的是結果數據是否能夠達到目標。

很顯然的,車廠擁有卓越的生產能力,但可能無法讓每部車皆同樣完美。就以打靶來說:下圖表示的正是精度與準度的概念。

打靶的要領是先求「精」,再求「準」。

也就是說,務必先求每次的射擊穩定後,再調整瞄準靶心的方位。而每組的打點不同、離散度也不同。

此乃下節第一統計量與第二統計量概念,這個開始著眼點與商用大數據分析,期強調重心可能有不同之處。故大數分析,必須承繼SPC (Statistical Process Control) 與6 Sigma原則之基礎,與因果分析之 X-Y 矩陣來進行。

【面對全球經濟轉型重要技能需求】

【面對全球經濟轉型重要技能需求】 世界經濟論壇(World Economic Forum, WEF)長年關注經濟轉型的各項趨勢,也定期發佈未來的工作(the Future of Job Report)報告,根據對各國產業界的調查與訪談,深入分析當前的經濟現況與...