對(duì)不滿足正態(tài)分布的數(shù)據(jù)自動(dòng)進(jìn)行正態(tài)分布轉(zhuǎn)換(R語(yǔ)言或Stata)
想起之前在做回歸時(shí),遇到回歸中某些參數(shù)需要滿足正態(tài)分布的情況,但可惜我的數(shù)據(jù)差了那么一點(diǎn)意思。
松哥統(tǒng)計(jì)(精鼎統(tǒng)計(jì))在幾個(gè)月前曾推送一篇關(guān)于stata的教程,使用了一個(gè)叫Ladder函數(shù)對(duì)數(shù)據(jù)進(jìn)行9種正態(tài)轉(zhuǎn)換,并且能輸出各種轉(zhuǎn)換后的正態(tài)檢驗(yàn)結(jié)果,顯然看起來(lái)非常不錯(cuò),推送鏈接見https://mp.weixin.qq.com/s/0N6_IAtUM_pgynM6w-sobA

可是我本人用stata不多,R語(yǔ)言才是主力,那么R語(yǔ)言中有沒有這樣的函數(shù)包呢,果然也是有的,而且更強(qiáng)大,名字叫bestNormalize,

在進(jìn)行多種正態(tài)轉(zhuǎn)換后還可以對(duì)比并給出哪一種轉(zhuǎn)換的效果最好,同時(shí)也有相關(guān)函數(shù)對(duì)轉(zhuǎn)換后分析結(jié)束的數(shù)據(jù)逆轉(zhuǎn)換為真實(shí)數(shù)據(jù)。

例如我對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行多重插補(bǔ)時(shí)會(huì)使用一個(gè)叫Amelia的函數(shù)包,但是它所使用的算法為EM,要求數(shù)據(jù)為正態(tài)分布,所以我把數(shù)據(jù)正態(tài)轉(zhuǎn)換后再插補(bǔ)成無(wú)缺失值的數(shù)據(jù)就不是真實(shí)值了,在這種情況下利用bestNormalize可以基于相同的正態(tài)轉(zhuǎn)換方法將插補(bǔ)后的完整數(shù)據(jù)還原為"真實(shí)"值
豈不美哉。
我搜了下國(guó)內(nèi)沒見有介紹這函數(shù)包推送,詳細(xì)使用方法去看函數(shù)包的說(shuō)明吧,或者哪天我錄個(gè)屏簡(jiǎn)單教學(xué)一下。不知道有沒有人有這個(gè)需求。