拓端tecdat|R語言GGPLOT2繪制KOLMOGOROV-SMIRNOV KS檢驗(yàn)圖ECDF經(jīng)驗(yàn)累積分布函數(shù)曲線可
原文鏈接:http://tecdat.cn/?p=24925?
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
Kolmogorov-Smirnov是比較一個(gè)頻率分布f(x)與理論分布g(x)或者兩個(gè)觀測(cè)值分布的檢驗(yàn)方法。其原假設(shè)H0:兩個(gè)數(shù)據(jù)分布一致或者數(shù)據(jù)符合理論分布。D=max| f(x)- g(x)|,當(dāng)實(shí)際觀測(cè)值D>D(n,α)則拒絕H0,否則則接受H0假設(shè)。
KS檢驗(yàn)與t-檢驗(yàn)之類的其他方法不同是KS檢驗(yàn)不需要知道數(shù)據(jù)的分布情況,可以算是一種非參數(shù)檢驗(yàn)方法。當(dāng)然這樣方便的代價(jià)就是當(dāng)檢驗(yàn)的數(shù)據(jù)分布符合特定的分布事,KS檢驗(yàn)的靈敏度沒有相應(yīng)的檢驗(yàn)來的高。在樣本量比較小的時(shí)候,KS檢驗(yàn)最為非參數(shù)檢驗(yàn)在分析兩組數(shù)據(jù)之間是否不同時(shí)相當(dāng)常用。
Kolmogorov-Smirnov檢驗(yàn)優(yōu)點(diǎn)和缺點(diǎn)
兩樣本K-S檢驗(yàn)由于對(duì)兩樣本的經(jīng)驗(yàn)分布函數(shù)的位置和形狀參數(shù)的差異都敏感而成為比較兩樣本的最有用且常規(guī)的非參數(shù)方法之一。
優(yōu)點(diǎn):該檢驗(yàn)不依賴于要測(cè)試的累積分布函數(shù),相比于卡方擬合檢驗(yàn)(卡方檢驗(yàn)需要50個(gè)以上的樣本),不需要大量的樣本。
缺點(diǎn):只適用于連續(xù)分布;在分布中間敏感,在兩端不夠敏感;最大的局限在于整個(gè)分布需要完全確定,如果位置,形狀等參數(shù)都是從數(shù)據(jù)中估計(jì)的,判定區(qū)間不再有效,因此這些參數(shù)一般只能通過模擬得到。
繪制Kolmogorov-Smirnov檢驗(yàn)的ECDF曲線
繪制Kolmogorov-Smirnov檢驗(yàn)的ECDF曲線以及分布之間的最大距離(D)的一個(gè)快速R例子。使用ggplot2和基礎(chǔ)R繪圖的例子?
require(ggplot2)
# 模擬兩個(gè)分布 - 您的數(shù)據(jù)放在這里!
norm(10000, 10, 5)
dat <- data.frame
# 創(chuàng)建數(shù)據(jù)的 ECDF
cdf1 <- ecdf
cdf2 <- ecdf
# 找到最小和最大統(tǒng)計(jì)數(shù)據(jù)以在距離最大的點(diǎn)之間畫線
mnax <- seq
x0 <- minMax[which
你也可以嵌入繪圖,例如。
ggplot +
#geom_line
geom_segment ?+
geom_point+
geom_point+

非 ggplot 繪圖示例?
######################### 非 ggplot 示例
##交替,使用ecdf的標(biāo)準(zhǔn)R圖
#plot
#lines

## 替代,向下到 x 軸
#segments

最受歡迎的見解
1.Matlab馬爾可夫鏈蒙特卡羅法(MCMC)估計(jì)隨機(jī)波動(dòng)率(SV,Stochastic Volatility) 模型
2.基于R語言的疾病制圖中自適應(yīng)核密度估計(jì)的閾值選擇方法
3.WinBUGS對(duì)多元隨機(jī)波動(dòng)率模型:貝葉斯估計(jì)與模型比較
4.R語言回歸中的hosmer-lemeshow擬合優(yōu)度檢驗(yàn)
5.matlab實(shí)現(xiàn)MCMC的馬爾可夫切換ARMA – GARCH模型估計(jì)
6.R語言區(qū)間數(shù)據(jù)回歸分析
7.R語言WALD檢驗(yàn) VS 似然比檢驗(yàn)
8.python用線性回歸預(yù)測(cè)股票價(jià)格
9.R語言如何在生存分析與Cox回歸中計(jì)算IDI,NRI指標(biāo)