最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

機器學(xué)習(xí)算法歸納

2023-08-09 17:23 作者:請問您吃柚子嘛  | 我要投稿

記憶力越來越差了(是不是要癡呆了abab),老是翻筆記找不到想要的,心血來潮寫篇專欄供隨時查閱(脖子好癢,好像要長腦子了.jpg? >w<)?錯誤之處,歡迎指正。

機器學(xué)習(xí)的學(xué)習(xí)方式主要分為4大類:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)


監(jiān)督學(xué)習(xí)(Supervised learning)


監(jiān)督學(xué)習(xí):訓(xùn)練含有很多特征的數(shù)據(jù)集,不過數(shù)據(jù)集中的樣本都有一個標(biāo)簽目標(biāo)(粗略地說,監(jiān)督學(xué)習(xí)算法是給定一組輸入x和輸出y的訓(xùn)練集,學(xué)習(xí)如何關(guān)聯(lián)輸入和輸出。在許多情況下,輸出 y 很難自動收集,必須由人來提供 ‘‘監(jiān)督’’)

監(jiān)督學(xué)習(xí)分為分類回歸兩大類

分類:將輸入數(shù)據(jù)劃分到合適的類別(即標(biāo)識對象所屬的類別),預(yù)測的是離散值(例:預(yù)測天氣情況,判斷賬號是否被盜,手寫數(shù)字的自動識別等)?

程序需要指定某些輸入屬于k類中的哪一類,學(xué)習(xí)算法會輸出一個函數(shù):

f%3A%E2%84%9D%5En%20%5Crightarrow? {1%2C2....%2Ck}?(%E2%84%9D%5En即n維實數(shù)集

當(dāng)y%3Df(x)時,模型會將向量x所代表的輸入分類到y所屬的類別

回歸:依據(jù)輸入數(shù)據(jù)預(yù)測與對象關(guān)聯(lián)的連續(xù)值屬性(即根據(jù)先前觀察的數(shù)據(jù)預(yù)測數(shù)值),預(yù)測的是連續(xù)值(例:房價變化預(yù)測,股價預(yù)測等)

程序需要對給定輸入預(yù)測數(shù)值,學(xué)習(xí)算法同樣會輸出函數(shù):

f%3A%E2%84%9D%5En%5Crightarrow%20%E2%84%9D

當(dāng)y%3Df(x)時,模型會依據(jù)向量x所代表的輸入值,輸出y的值


1、分類算法

1.1 K近鄰(K-Nearest Neighbor)?算法(又稱KNN算法)

定義:如果?個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某?個類別,則該樣本也屬于這個類別

近朱者赤,近墨者黑

工作機制:

對未知類別的數(shù)據(jù)集中的每個樣本進(jìn)行以下操作:

①計算已知類別數(shù)據(jù)集中的樣本點與當(dāng)前樣本點之間的距離

(距離度量特征空間中兩個實例點之間的距離是二者相似程度的反應(yīng)。人話翻譯:兩個點越靠近,則我們認(rèn)為這兩個樣本越相似。有多種常見的距離衡量方法。 如歐幾里得距離、曼哈頓距離、閔科夫斯基距離、切比雪夫距離及余弦距離)

②按照距離的遞增關(guān)系進(jìn)行排序;

③選取距離最小的K個樣本;

④根據(jù)這K個樣本的標(biāo)簽進(jìn)行投票,K個樣本中出現(xiàn)最多次的類別為預(yù)測結(jié)果


算法過程:

1)?輸入訓(xùn)練數(shù)據(jù)集:T%20%3D?{(x_1%2Cy_1)%2C(x_2%2Cy_2)%2C...%2C(x_i%2Cy_i)} ,x_i%3D{x_%7Bi1%7D%2Cx_%7Bi2%7D%2C...%2Cx_%7Bid%7D} (x_i是實例的特征向量,x_id個特征,y_i是實例的類別,y_i%5Cin%20(c_1%2Cc_2%2C...%2Cc_j)i%3D1%2C2%2C3%2C...%2CN%2Cj%3D1%2C2%2C...%2CK

2)?對給定測試樣本實例X(x_%7B1%7D%2Cx_%7B2%7D%2C...%2Cx_%7Bd%7D),選擇訓(xùn)練數(shù)據(jù)集樣本Y(x_%7Bi1%7D%2Cx_%7Bi2%7D%2C...%2Cx_%7Bid%7D)

3)?通過選定的距離度量方法(此處使用歐式距離),計算樣本點之間的距離:

dist_%7Bed%7D(X%2CY)%3D%5Csqrt%5B%5D%7B(x_1-x_%7Bi1%7D)%5E2%2B(x_2-x_%7Bi2%7D)%5E2%2B...%2B(x_d-x_%7Bid%7D)%5E2%7D%20

4)?依次計算距離得到距離集合distance,將集合distance從小到大進(jìn)行排序

5)?根據(jù)集合distance選取最鄰近的k個點

6)?將以測試樣本實例點X為中心,周圍涵蓋K個點的鄰域記作B_k(x)

7)?通過多數(shù)分類決策(即“投票法”,少數(shù)服從多數(shù)):y%3D%5Cunderset%7Bcj%7Dargmax%5Csum_%7Bx_i%5Cin%20B_k(x)%7D%5Cmathbb%20I(y_i%3Dc_j)%2Ci%3D1%2C2%2C...%2CN%2Cj%3D1%2C2%2C...%2CK

(%5Cmathbb%20I()為指示函數(shù),當(dāng)輸入為True時返回1,輸入為False時返回0)

8)?得到實例x所屬的類別y


K值的選擇:

近似誤差對現(xiàn)有訓(xùn)練集的訓(xùn)練誤差

估計誤差:對測試集的測試誤差

過擬合:訓(xùn)練誤差和測試誤差之間的差距太大 ,對訓(xùn)練集的預(yù)測比較準(zhǔn)確,但對未知的測試集的預(yù)測將出現(xiàn)較大誤差

欠擬合:模型不能在訓(xùn)練集上獲得足夠低的誤差,對訓(xùn)練集和測試集的預(yù)測都有較大誤差

1) 選擇較小的K值,就相當(dāng)于用較小的領(lǐng)域中的訓(xùn)練實例進(jìn)行預(yù)測

K值的減小就意味著整體模型變得復(fù)雜,近似誤差減小,估計誤差增大,容易發(fā)生過擬合

取極端最近鄰情況K=1,此時最靠近測試樣本點A的訓(xùn)練樣本點B決定了A的類別,如果B恰好為訓(xùn)練樣本中的噪聲,我們將得出錯誤的結(jié)論,也就是說過小的k值增大了噪聲的影響,產(chǎn)生了偏差

2) 選擇較大的K值,就相當(dāng)于用較大領(lǐng)域中的訓(xùn)練實例進(jìn)行預(yù)測

K值的增大就意味著整體的模型變得簡單,估計誤差減小,近似誤差增大,容易發(fā)生欠擬合

當(dāng)k值過大時,此時距離測試樣本點A非常遠(yuǎn)的訓(xùn)練樣本點C也會對預(yù)測起作用,由于C離A點非常遠(yuǎn),我們可以認(rèn)為C與A不相似,所以同樣會使得預(yù)測產(chǎn)生偏差。

3) K=N(N為訓(xùn)練樣本個數(shù)),那么無論輸入實例是什么,都將簡單地預(yù)測它屬于在訓(xùn)練實例中最多的類,模型過于簡單,忽略了訓(xùn)練實例中大量有用信息。

在實際應(yīng)用中,K值一般取一個比較小的數(shù)值。通常采用交叉驗證法來選取最優(yōu)的k值

K應(yīng)盡量選擇奇數(shù),在二分類問題中,容易防止平局


KD樹

當(dāng)使用KNN算法進(jìn)行預(yù)測時,每預(yù)測一個點,都需要計算訓(xùn)練數(shù)據(jù)集里每個點到這個點的距離,然后選出距離最近的k個點進(jìn)行投票。當(dāng)數(shù)據(jù)集很大時,這個計算成本非常高。(即線性掃描,窮舉搜索

為了避免每次都重新計算?遍距離,算法會把距離信息保存在?棵樹里,在計算之前從樹里查詢距離信息, 盡量避免重新計算。(如果A和B距離很遠(yuǎn),B和C距離很近,那么A和C的距離也很遠(yuǎn)

構(gòu)造方法:

1)構(gòu)造根結(jié)點,使根結(jié)點對應(yīng)于K維空間中包含所有實例點的超矩形區(qū)域;

2)通過遞歸的方法,不斷地對k維空間進(jìn)行切分,生成子結(jié)點。

①對每個維度的數(shù)據(jù)進(jìn)行方差計算,取最大方差的維度作為分割軸

②對當(dāng)前數(shù)據(jù)按分割軸維度進(jìn)行檢索,找到中位數(shù)數(shù)據(jù),作為切分點

③通過切分點并垂直于分割軸,就可以確定一個超平面,這個超平面就將超矩形中的實例分到了兩個子區(qū)域(子結(jié)點),左子結(jié)點對應(yīng)坐標(biāo)小于切分點的子區(qū)域,右子結(jié)點對應(yīng)坐標(biāo)大于切分點的子區(qū)域

3)上述過程直到子區(qū)域內(nèi)沒有實例時終止(終止時的結(jié)點為葉結(jié)點)


K近鄰算法總結(jié)

適用場景:多分類問題
? ? ? ? ? ? ? ? ? 稀有事件分類問題
? ? ? ? ? ? ? ? ? 文本分類問題
? ? ? ? ? ? ? ? ? 模式識別
? ? ? ? ? ? ? ? ? 聚類分析
? ? ? ? ? ? ? ? ? 樣本數(shù)量較少的分類問題

優(yōu)點:

1簡單,易于理解,易于實現(xiàn),無需估計參數(shù),無需訓(xùn)練,既可以用來做分類也可以用來做回歸;

2適合對稀有事件進(jìn)行分類;

3)適合大樣本自動分類,特別適合于多分類問題(multi-modal,對象具有多個類別標(biāo)簽)

缺點:

1計算量大,尤其是特征數(shù)非常多的時候

2樣本不平衡的時候,對稀有類別的預(yù)測準(zhǔn)確率低

3KD樹,球樹之類的模型建立需要大量的內(nèi)存

4是懶散學(xué)習(xí)方法,基本上不學(xué)習(xí),導(dǎo)致預(yù)測時速度比起邏輯回歸之類的算法慢

5相比決策樹模型,KNN模型的可解釋性不強


1.2? Logistic回歸算法(Logistic Regression)

未完待續(xù)....








機器學(xué)習(xí)算法歸納的評論 (共 條)

分享到微博請遵守國家法律
乐都县| 稷山县| 开封市| 昌图县| 德江县| 潮州市| 德安县| 紫金县| 辽阳市| 濮阳县| 吉首市| 谢通门县| 静安区| 汉源县| 定兴县| 葫芦岛市| 新丰县| 肇源县| 永新县| 武安市| 丰都县| 株洲市| 铜川市| 郁南县| 容城县| 藁城市| 嘉荫县| 兰溪市| 萝北县| 卓尼县| 沁阳市| 余庆县| 巴楚县| 阿城市| 开化县| 改则县| 岚皋县| 大洼县| 柳林县| 汝阳县| 云龙县|