本文出自王博專文
認識客戶的工業數據-
Chapter 3:數據的分佈型態: 常假設常態分配
◎
說明
提到數據的分配型態(Distribution),最廣為熟知的例子即是:在一個班級中,考試成績的分配。在這個例子中我們可以猜想資質優異及一竅不通的學生,一般而言都是少數,而大多數的人應該都集中在中等程度附近。這樣的數據分配即所謂的「常態分配(Normal Distribution)」,也是最常見的一種型式。尤其是基本物理量如長度,重量等亦常出現這樣的分配案例。這也是多數分析的統計基礎,若數據來自非常態分配母體,也盡量透過抽樣與中央極限定理(Central Limit Theorem) 來達到常態分配。
由以上的說明可以看出:在製程中,一旦商品數據的群體分配確定後,知道第一與第二統計量,便能有助於判斷該製程可能產出不良品的機率,來並加以改善。
上圖顯示的即是一個典型的常態分配。
這裡要告訴讀者的是:一組數據是否符合常態分配,我們可利用以下兩個方法:
- 在 Normal Quantile Plot 中,觀察數據點是否沿紅線,呈直線分佈。
- 判斷 Goodness-of-Fit Test 的 Prob<W (P-value)是否≧0.05。若是,則該組數據接近常態分配。反之,則否。
至於要如何畫出 Normal Quantile Plot 及得到” Prob<W”,隨後章節會提及。另外在某些運用狀況下,讀者可能會遇到 t 分配(t Distribution)、F 分配,指數分配(Exponential)、Weibull 韋伯分配等。而商業大數據,則較少研究母體之分配。
沒有留言:
張貼留言