最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

磨刀不誤砍柴工——利用JMP探索離群值

2021-12-21 14:42 作者:JMP數(shù)據(jù)分析  | 我要投稿

當(dāng)你拿到數(shù)據(jù)開(kāi)始分析時(shí),第一步通常會(huì)做什么?

是使用功能強(qiáng)大的JMP Graph Builder(圖形生成器)?做可視化分析?

或是利用JMP?Distribution(分布)平臺(tái)做描述性統(tǒng)計(jì)量分析?

又或是利用JMP多樣的預(yù)測(cè)建模工具,找到最適當(dāng)?shù)念A(yù)測(cè)模型?

雖然這些都是JMP為人所樂(lè)道的一些功能,但是作為使用JMP進(jìn)行分析的第一步,除了上述平臺(tái)外,你不妨考慮利用Explore Outliers (探索離群值)及 Explore Missing Values(探索缺失值)平臺(tái),來(lái)清洗你的數(shù)據(jù),正所謂磨刀不誤砍柴工。

也許你認(rèn)為探索缺失值還能理解,畢竟空值要先剔除,對(duì)后續(xù)分析比較合理。但是,為什么需要將離群值也排除?假如這樣的離群值正是代表數(shù)據(jù)總體的狀況,是否對(duì)我們的分析會(huì)有影響?而且,離群值很難抓取出來(lái),不能先忽略這個(gè)影響嗎?

要厘清這些問(wèn)題,我們需要先搞清楚什么是離群值。


Part.1?哪些數(shù)據(jù)屬于離群值?

一元數(shù)據(jù)的離群值

我們先討論一元數(shù)據(jù)的情況。

隨機(jī)生成1000個(gè)標(biāo)準(zhǔn)正態(tài)分布Nor(0, 1)的值,如圖一,其中標(biāo)記紅色的點(diǎn),為超出[-4,4]范圍的離群點(diǎn),這樣的發(fā)生幾率為0.0063%,是非常小的幾率,于是這樣小幾率區(qū)域上發(fā)生的點(diǎn)我們就視為離群值。

圖一 隨機(jī)生成的常態(tài)分配點(diǎn)圖


接著,我們來(lái)看二元變量的情形。


二元數(shù)據(jù)的離群值

在JMP軟件中,利用Graph Builder(圖形生成器)?分析,不論數(shù)據(jù)點(diǎn)是兩個(gè)變量之間具有相同均值及變異數(shù)(X2 vs. X1)、或是具有不同均值及變異數(shù)(X3 vs. X1),如下方圖二,我們都能用肉眼發(fā)現(xiàn)這些離群點(diǎn)(紅點(diǎn))似乎跟其他的點(diǎn)有不一樣的趨勢(shì),且與數(shù)據(jù)中心點(diǎn)的距離較遠(yuǎn)。

圖二 (a) 2變量具有相同均值及變異數(shù)散點(diǎn)圖


圖二(b) 2變量具有不同均值及變異數(shù)散點(diǎn)圖

而當(dāng)兩變量間有強(qiáng)相關(guān)性,也能發(fā)現(xiàn)有些離群點(diǎn)距離其他的樣本點(diǎn)之間的距離較大(圖三紅點(diǎn))。

另外,利用Fit Y by X(以X擬合Y)平臺(tái)的Histogram Boarder功能觀察兩變量的分布(圖三),我們發(fā)現(xiàn)

如果只關(guān)注單一變量,有些離群值則會(huì)偵測(cè)不到,如下圖所示,這一個(gè)典型的例子說(shuō)明,我們?nèi)P(pán)考慮多變量的離群值時(shí),會(huì)抓到一些潛在的離群點(diǎn),避免只觀察管控單一變量的誤判。幸運(yùn)的是,JMP提供了這樣的多變量離群點(diǎn)觀測(cè)平臺(tái)。

圖三 兩變量間有強(qiáng)相關(guān)性的散點(diǎn)圖

到此,我們能夠了解離群值的概念,就是找出相較于其他的樣本點(diǎn),距離樣本中心較遠(yuǎn),或是點(diǎn)的坐落位置與樣本整體”趨勢(shì)”不符合的點(diǎn)。有趣的是,離群點(diǎn)不代表有問(wèn)題的點(diǎn),而是代表與其他的樣本有著差距而無(wú)相同的”趨勢(shì)”。所以離群值,有可能代表良善社會(huì)的問(wèn)題人物,也可能代表萬(wàn)惡城市中的一股清流,就看你的樣本來(lái)自哪里。

接下來(lái),我們用一個(gè)半導(dǎo)體制造的電性測(cè)試數(shù)據(jù)來(lái)進(jìn)一步說(shuō)明和驗(yàn)證。

半導(dǎo)體數(shù)據(jù)的案例說(shuō)明

半導(dǎo)體晶圓制造的組件參數(shù)都有其對(duì)應(yīng)電子特性。因此透過(guò)電性測(cè)試這些參數(shù)的結(jié)果便可反推對(duì)應(yīng)制程的質(zhì)量。晶圓代工廠一般稱電性參數(shù)測(cè)試稱為WAT (Wafer Acceptance Test),其客戶需要檢視WAT測(cè)試數(shù)據(jù)來(lái)確認(rèn)制造質(zhì)量。而新制程研發(fā)階段更需要搜集大量WAT數(shù)據(jù)來(lái)解決制程問(wèn)題或?qū)ふ覂?yōu)化的因子配置。

我們利用一組簡(jiǎn)單的WAT數(shù)據(jù)作為示范,其中包含10個(gè)觀測(cè)參數(shù)數(shù)據(jù)。

當(dāng)我們直接分析產(chǎn)線三的數(shù)據(jù)時(shí),利用JMP Analyze>Distribution (分析>分布)功能,可以快速做出相應(yīng)的直方圖及Outlier Box Plot (離群值箱線圖)觀察是否有離群值。

結(jié)果如圖四(a),Outlier Box 上的紅色線段標(biāo)記出最集中涵蓋50%的區(qū)域,從此處我們可以發(fā)現(xiàn)數(shù)據(jù)集中在中間的區(qū)段。同樣的,你也可以利用Graph Builder的箱線圖功能完成箱線圖的繪制,如圖四(b)。

圖四(a) Distribution 平臺(tái)的直方圖及Outlier Box Plot (b) Graph Builder的Box Plot

根據(jù)Quantile Range (分位數(shù)范圍)離群值檢驗(yàn),我們發(fā)現(xiàn)參數(shù)一存在一個(gè)離群值(紅點(diǎn)),利用Analyze>Screening>Explore Outliers (JMP>分析>篩選>探索離群值)平臺(tái)中的Quantile Range Outliers(分位數(shù)范圍離群值)功能,可以發(fā)現(xiàn)其離群值(圖五),并可以針對(duì)數(shù)據(jù)做標(biāo)記、排除、視為缺失值等動(dòng)作。

同時(shí),你也可以調(diào)整判定為離群值的規(guī)則,可以調(diào)整尾端百分位值(Tail Quantile)和其倍數(shù)(Q),以常見(jiàn)的IQR離群值檢驗(yàn),上限為Q3+1.5*IQR,上限為Q1-1.5*IQR為例, Tail Quantile 即為0.25, Q則為1.5。

當(dāng)你的數(shù)據(jù)較不符合正態(tài)分布時(shí),可以考慮使用Robust Fit Outliers(穩(wěn)健擬合離群值)作為離群值篩選平臺(tái)。

圖五 Explore Outliers 平臺(tái)中的Quantile Range Outliers

但當(dāng)我們更全面考慮,納入所有產(chǎn)線的數(shù)據(jù),你會(huì)發(fā)現(xiàn)產(chǎn)線三擁有較高的參數(shù)一測(cè)試結(jié)果,如圖六,原本產(chǎn)線三上的離群值8.01反而較符合大多數(shù)數(shù)據(jù)的測(cè)試結(jié)果,而實(shí)際的離群值則轉(zhuǎn)為產(chǎn)線三最高的三個(gè)值(圖六紅點(diǎn)),這樣的結(jié)果也正如前面所說(shuō)的樣本出處的重要性,廣泛獲取能夠代表總體數(shù)據(jù)對(duì)于篩選正確的離群值有著舉足輕重的作用。

圖六 全部產(chǎn)線的Box Plot

當(dāng)考慮所有參數(shù)的影響,找出所有參數(shù)影響下的離群值時(shí),JMP也提供了Robust PCA Outliers(穩(wěn)健PCA離群值)或是K Nearest Neighbor Outliers (K最近鄰離群值)功能供用戶使用。你可以在Analyze> Screening> Explore Outliers(分析>篩選>探索離群值)下找到這兩個(gè)功能平臺(tái)。

在這里,我們使用K Nearest Neighbor Outliers?平臺(tái)尋找離群值,利用復(fù)合選取距離較高的樣本點(diǎn),標(biāo)記為離群值(圖七)。

圖七 K Nearest Neighbor Outliers 平臺(tái)下的距離圖

通過(guò)Graph Builder 確認(rèn)這些被選為離群值的數(shù)據(jù)點(diǎn)在每一個(gè)參數(shù)上的分布位置可以發(fā)現(xiàn),不是所有的點(diǎn)都屬于單一參數(shù)的離群值(如數(shù)據(jù)點(diǎn)290, 295, 296, 297, 298, 299),這樣的結(jié)果也和前面所提到的通過(guò)JMP多元離群值篩選平臺(tái),可以抓出許多在觀測(cè)單變量下所忽略的潛在問(wèn)題點(diǎn)(圖八)。

圖八 用Boxplot 比較離群值分別在變量上的分布

現(xiàn)在,我們知道了JMP有很強(qiáng)大的平臺(tái)可以幫助我們把離群值篩選出來(lái),但是,如果沒(méi)有把離群值篩選掉,會(huì)有哪些影響?


Part.2?離群值不剔除,會(huì)有什么影響?

化繁為簡(jiǎn),我們先看一下兩參數(shù)間的離群值影響。

我們觀測(cè)WAT數(shù)據(jù)參數(shù)一和參數(shù)二之間的二次效應(yīng)回歸式估計(jì)的R-square值,在還沒(méi)移除篩選出的離群值前,R-square值為0.602,如圖九(a),而移除離群值后,R-square值上升為0.740,如圖九(b),這說(shuō)明移除離群值能夠構(gòu)建出更準(zhǔn)確的模型,擁有差距更小的估計(jì)值。

當(dāng)我們利用這些參數(shù)構(gòu)建出預(yù)測(cè)結(jié)果,例如良率預(yù)估或是CP/FT 測(cè)試預(yù)估值等,我們便能更有效地偵測(cè)不良,降低成本,增加效益。

圖九(a) 沒(méi)移除離群值的二次回歸估計(jì)
圖九(b) 移除離群值的二次回歸估計(jì)

接著,放大考慮全部參數(shù),并用這些參數(shù)預(yù)估后續(xù)Bin值結(jié)果,找到關(guān)鍵因子,并在最小化Bin值的設(shè)定下找到最佳因子設(shè)定值。

同樣的,我們先考慮不移除離群值,找出最適合的回歸模型。

利用JMP Fit Model(擬合模型)平臺(tái),我們得到回歸模型R-square 大約為0.971,包含許多因子效應(yīng)項(xiàng),這其中可以看到許多的交互作用項(xiàng)效應(yīng)比主效應(yīng)強(qiáng), 似乎比較混亂,且觀察Residual by Row Plot 可以發(fā)現(xiàn),篩選為離群值的那幾個(gè)樣本差距是比較大的(圖十)。

圖十 不移除離群值回歸式R-square、Residual by Row Plot及影響的因子效應(yīng)項(xiàng)


下一步,我們把離群值移除,再做一次回歸估計(jì)。

我們發(fā)現(xiàn),不僅R-square 上升到0.999,關(guān)鍵因子也縮減到四個(gè)因子效應(yīng)項(xiàng),觀察Residual by Row Plot,也沒(méi)有發(fā)現(xiàn)差異比較大的樣本(圖十一)。因此,根據(jù)此回歸公式預(yù)測(cè)的結(jié)果也會(huì)更準(zhǔn)確,可防止做出錯(cuò)誤的判斷。

圖十一 移除離群值回歸式R-square、Residual by Row Plot及影響的因子效應(yīng)項(xiàng)

搜集更多的數(shù)據(jù)做后續(xù)測(cè)試回歸式的準(zhǔn)確度,我們可以在Analyze>Fit Y by X(分析>以X擬合Y)的平臺(tái)下,比較回歸式的預(yù)估值及實(shí)際的Bin 值,新數(shù)據(jù)依然能夠有很好的水平。R-square有0.999的準(zhǔn)確度,而且沒(méi)有特殊的點(diǎn)有過(guò)大的差異(圖十二)。

圖十二 比較回歸式的預(yù)估值及實(shí)際的Bin 值

由此,我們可以看到,通過(guò)JMP的探索離群值平臺(tái),我們能夠輕松快速地排除離群值,避免受到離群值影響誤判因子之間的相關(guān)性或是做出錯(cuò)誤的模型預(yù)測(cè),導(dǎo)致錯(cuò)誤的預(yù)估及決策。

作為分析的前哨站,JMP的Explore Outliers(探索離群值) 平臺(tái)能夠針對(duì)不同的應(yīng)用場(chǎng)景,不論單變量或是多變量,數(shù)據(jù)是否為正態(tài)分布等等情形,一應(yīng)俱全地提供相應(yīng)的平臺(tái),讓用戶可以高效地尋找離群值,“讓數(shù)據(jù)說(shuō)真話”,真正地發(fā)揮數(shù)據(jù)在實(shí)際工作中的作用。

如果你也想在JMP中自己動(dòng)手試試看的話,可下載JMP 30天免費(fèi)試用:

https://www.jmp.com/zh_cn/download-jmp-free-trial.html?utm_campaign=td7013Z000002DxWTQA0&utm_source=bilibili&utm_medium=social





磨刀不誤砍柴工——利用JMP探索離群值的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
巴楚县| 青州市| 和平区| 重庆市| 嵩明县| 三台县| 宁强县| 秭归县| 金湖县| 高阳县| 汉中市| 克拉玛依市| 嘉祥县| 建平县| 岗巴县| 湟中县| 黄陵县| 星子县| 太谷县| 澄江县| 榕江县| 长宁区| 西昌市| 洪洞县| 涪陵区| 广汉市| 青龙| 千阳县| 镇赉县| 文昌市| 崇文区| 上林县| 乌鲁木齐市| 玛多县| 平果县| 怀安县| 进贤县| 荥阳市| 合山市| 乐亭县| 潮州市|