最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

拓端tecdat|matlab使用分位數(shù)隨機森林(QRF)回歸樹檢測異常值

2021-07-20 11:39 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=22160?

原文出處:拓端數(shù)據(jù)部落公眾號

這個例子展示了如何使用分位數(shù)隨機林來檢測異常值。分位數(shù)隨機林可以檢測到與給定X的Y的條件分布有關的異常值。

離群值是一些觀測值,它的位置離數(shù)據(jù)集中的大多數(shù)其他觀測值足夠遠,可以認為是異常的。離群觀測的原因包括固有的變異性或測量誤差。異常值顯著影響估計和推斷,因此檢測它們決定是刪除還是穩(wěn)健分析非常重要。

為了演示異常值檢測,此示例:
從具有異方差性的非線性模型生成數(shù)據(jù),并模擬一些異常值。
生長回歸樹的分位數(shù)隨機森林。
估計預測變量范圍內的條件四分位(Q1、Q2和Q3)和四分位距(IQR)。
將觀測值與邊界進行比較,邊界為F1=Q1?1.5IQR和F2=Q3+1.5IQR。任何小于F1或大于F2的觀測值都是異常值。

生成數(shù)據(jù)

從模型中生成500個觀測值

在0 ~ 4π之間均勻分布,εt約為N(0,t+0.01)。將數(shù)據(jù)存儲在表中。

  1. rng('default'); % 為保證重復性

  2. randsample(linspace(0,4*pi,1e6),n,true)';

  3. epsilon = randn(n,1).*sqrt((t+0.01));

將五個觀測值沿隨機垂直方向移動90%的值。


  1. numOut = 5;

  2. Tbl.y(idx) + randsample([-1 1],numOut,true)'.*(0.9*Tbl.y(idx));

繪制數(shù)據(jù)的散點圖并識別異常值。

  1. plot(Tbl.t,Tbl.y,'.');

  2. plot(Tbl.t(idx),Tbl.y(idx),'*');

  3. title('數(shù)據(jù)散點圖');

  4. legend('數(shù)據(jù)','模擬異常值','Location','NorthWest');

生成分位數(shù)隨機森林

生成200棵回歸樹。

Tree(200,'y','regression');

返回是一個TreeBagger集合。

預測條件四分位數(shù)和四分位數(shù)區(qū)間

使用分位數(shù)回歸,估計t范圍內50個等距值的條件四分位數(shù)。

  1. linspace(0,4*pi,50)';

  2. quantile(pred,'Quantile');

quartile是一個500 × 3的條件四分位數(shù)矩陣。行對應于t中的觀測值,列對應于概率。
在數(shù)據(jù)的散點圖上,繪制條件均值和中值因變量。


  1. plot(pred,[quartiles(:,2) meanY]);

  2. legend('數(shù)據(jù)','模擬的離群值','中位數(shù)因變量','平均因變量',...

雖然條件均值和中位數(shù)曲線很接近,但模擬的離群值會影響均值曲線。
計算條件IQR、F1和F2。


  1. iqr = quartiles(:,3) - quartiles(:,1);

  2. f1 = quartiles(:,1) - k*iqr;

k=1.5意味著所有小于f1或大于f2的觀測值都被認為是離群值,但這一閾值并不能與極端離群值相區(qū)分。k為3時,可確定極端離群值。

將觀測結果與邊界進行比較

繪制觀察圖和邊界。


  1. plot(Tbl.t,Tbl.y,'.');

  2. legend('數(shù)據(jù)','模擬的離群值','F_1','F_2');

  3. title('使用分位數(shù)回歸的離群值檢測')

所有模擬的異常值都在[F1,F(xiàn)2]之外,一些觀測值也在這個區(qū)間之外。

最受歡迎的見解

1.從決策樹模型看員工為什么離職

2.R語言基于樹的方法:決策樹,隨機森林

3.python中使用scikit-learn和pandas決策樹

4.機器學習:在SAS中運行隨機森林數(shù)據(jù)分析報告

5.R語言用隨機森林和文本挖掘提高航空公司客戶滿意度

6.機器學習助推快時尚精準銷售時間序列

7.用機器學習識別不斷變化的股市狀況——隱馬爾可夫模型的應用

8.python機器學習:推薦系統(tǒng)實現(xiàn)(以矩陣分解來協(xié)同過濾)

9.python中用pytorch機器學習分類預測銀行客戶流失


拓端tecdat|matlab使用分位數(shù)隨機森林(QRF)回歸樹檢測異常值的評論 (共 條)

分享到微博請遵守國家法律
克拉玛依市| 吉木乃县| 大姚县| 芦溪县| 合阳县| 苍南县| 江陵县| 潞西市| 繁峙县| 翁牛特旗| 邵东县| 轮台县| 莆田市| 桐梓县| 霍州市| 三门县| 崇阳县| 金塔县| 甘泉县| 淮安市| 吉安市| 枣阳市| 灵宝市| 乐至县| 奉化市| 乐都县| 大同县| 天津市| 靖江市| 荥经县| 五大连池市| 镇沅| 福安市| 栾川县| 宜丰县| 扎鲁特旗| 恩施市| 确山县| 兰坪| 岳普湖县| 舒城县|