2018年9月16日 星期日

【王博專文】大數據分析與應用實務_數據的分佈型態: 常假設常態分配


本文出自王博專文
認識客戶的工業數據-
Chapter 3:數據的分佈型態: 常假設常態分配

說明
提到數據的分配型態(Distribution),最廣為熟知的例子即是:在一個班級中,考試成績的分配。在這個例子中我們可以猜想資質優異及一竅不通的學生,一般而言都是少數,而大多數的人應該都集中在中等程度附近。這樣的數據分配即所謂的「常態分配(Normal Distribution)」,也是最常見的一種型式。尤其是基本物理量如長度,重量等亦常出現這樣的分配案例。這也是多數分析的統計基礎,若數據來自非常態分配母體,也盡量透過抽樣與中央極限定理(Central Limit Theorem) 來達到常態分配。

由以上的說明可以看出:在製程中,一旦商品數據的群體分配確定後,知道第一與第二統計量,便能有助於判斷該製程可能產出不良品的機率,來並加以改善。

上圖顯示的即是一個典型的常態分配。

這裡要告訴讀者的是:一組數據是否符合常態分配,我們可利用以下兩個方法:

  1. 在 Normal Quantile Plot 中,觀察數據點是否沿紅線,呈直線分佈。
  2. 判斷 Goodness-of-Fit Test 的 Prob<W (P-value)是否≧0.05。若是,則該組數據接近常態分配。反之,則否。

至於要如何畫出 Normal Quantile Plot 及得到” Prob<W”,隨後章節會提及。另外在某些運用狀況下,讀者可能會遇到 t 分配(t Distribution)、F 分配,指數分配(Exponential)、Weibull 韋伯分配等。而商業大數據,則較少研究母體之分配。

沒有留言:

張貼留言

【面對全球經濟轉型重要技能需求】

【面對全球經濟轉型重要技能需求】 世界經濟論壇(World Economic Forum, WEF)長年關注經濟轉型的各項趨勢,也定期發佈未來的工作(the Future of Job Report)報告,根據對各國產業界的調查與訪談,深入分析當前的經濟現況與...