本文出自王博專文
認識客戶的工業數據-
Chapter 4:數據關聯性與因果性: X 數據矩陣與 Y數據矩陣
◎
說明
結構化大數據中,可以想像成 X 矩陣數據與Y 矩陣數據之收集與分析。如果Y 矩陣數據代表是良率 (Y1) 與強度 (Y2),而 對X 矩陣數據,我們嘗試收集如溫度(X1) 壓力(X2) 催化劑 (X3) 等控制參數,再試圖找出控制X矩陣的方法以達到Y矩陣之最佳化。必須注意的是,若兩矩陣間,具有關聯性 (Correlation) 。須注意的是:兩矩陣間,並不見得具有因果性 (Causality)。
若發現數據X與數據Y有相對應的關聯性,常會做出「X影響Y」的結論。事實上,所謂的「影響」牽涉到時間先後的因果概念,必須同時滿足以下條件:
- X比Y先發生
- 有 X 輸入時,Y 才有反應;反之,則無。
但沒有關聯性,因果性常常會薄弱許多,實務上我們會暫時擱置 X 影響 Y 之看法。大數據中,常常透過實驗設計 Design of Experiments (DOE) 來完成因果性之實驗,因在 DOE 中,X 必定發生於 Y 之前,而透過 X 矩陣之特殊設計,如直交表
(Orthogonal Array),可檢視 X 之存在與 Y 效果之呈現,加上又可做出 X 矩陣之線性組合與 Y 之數學關係來推估線性參數的關聯分析,能一舉多得因果性。
(Orthogonal Array),可檢視 X 之存在與 Y 效果之呈現,加上又可做出 X 矩陣之線性組合與 Y 之數學關係來推估線性參數的關聯分析,能一舉多得因果性。
若依照資訊兩矩陣的組合模式,可分類如下表的方法來做分析。在後面的章節,將以JMP為工具,為大家循序介紹,如何將各種數據模式關聯、分析與預測的方法。