2018年9月16日 星期日

【王博專文】大數據分析與應用實務_數據關聯性與因果性: X 數據矩陣與 Y數據矩陣


本文出自王博專文
認識客戶的工業數據-
Chapter 4:數據關聯性與因果性: X 數據矩陣與 Y數據矩陣

說明
結構化大數據中,可以想像成 X 矩陣數據與Y 矩陣數據之收集與分析。如果Y 矩陣數據代表是良率 (Y1) 與強度 (Y2),而 對X 矩陣數據,我們嘗試收集如溫度(X1) 壓力(X2) 催化劑 (X3) 等控制參數,再試圖找出控制X矩陣的方法以達到Y矩陣之最佳化。必須注意的是,若兩矩陣間,具有關聯性 (Correlation) 。須注意的是:兩矩陣間,並不見得具有因果性 (Causality)。

若發現數據X與數據Y有相對應的關聯性,常會做出「X影響Y」的結論。事實上,所謂的「影響」牽涉到時間先後的因果概念,必須同時滿足以下條件:

  1. X比Y先發生
  2. 有 X 輸入時,Y 才有反應;反之,則無。

但沒有關聯性,因果性常常會薄弱許多,實務上我們會暫時擱置 X 影響 Y 之看法。大數據中,常常透過實驗設計 Design of Experiments (DOE) 來完成因果性之實驗,因在 DOE 中,X 必定發生於 Y 之前,而透過 X 矩陣之特殊設計,如直交表
(Orthogonal Array),可檢視 X 之存在與 Y 效果之呈現,加上又可做出 X 矩陣之線性組合與 Y 之數學關係來推估線性參數的關聯分析,能一舉多得因果性。

若依照資訊兩矩陣的組合模式,可分類如下表的方法來做分析。在後面的章節,將以JMP為工具,為大家循序介紹,如何將各種數據模式關聯、分析與預測的方法。

沒有留言:

張貼留言

【面對全球經濟轉型重要技能需求】

【面對全球經濟轉型重要技能需求】 世界經濟論壇(World Economic Forum, WEF)長年關注經濟轉型的各項趨勢,也定期發佈未來的工作(the Future of Job Report)報告,根據對各國產業界的調查與訪談,深入分析當前的經濟現況與...