最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

人工智能AI面試題-3.34機器學(xué)習(xí)中的L0、L1與L2范數(shù)到底是什么意思?

2023-10-16 08:38 作者:機器愛上學(xué)習(xí)  | 我要投稿

3.34機器學(xué)習(xí)中的L0、L1與L2范數(shù)到底是什么意思? ??監(jiān)督機器學(xué)習(xí)問題??就是“minimize your error while regularizing your parameters”,也就是在規(guī)則化參數(shù)的同時最?化誤差。最?化誤差是為了讓我們的模型擬合我們的訓(xùn)練數(shù)據(jù),?規(guī)則化參數(shù)是防?我們的模型過分擬合我們的訓(xùn)練數(shù)據(jù)。??? 多么簡約的哲學(xué)??!因為參數(shù)太多,會導(dǎo)致我們的模型復(fù)雜度上升,容易過擬合,也就是我們的訓(xùn)練誤差會很?。但訓(xùn)練誤差?并不是我們的最終?標(biāo),我們的?標(biāo)是希望模型的測試誤差?,也就是能準(zhǔn)確的預(yù)測新的樣本。 所以,我們需要保證模型“簡單”的基礎(chǔ)上最?化訓(xùn)練誤差,這樣得到的參數(shù)才具有好的泛化性能(也 就是測試誤差也?),?模型“簡單”就是通過規(guī)則函數(shù)來實現(xiàn)的。另外,規(guī)則項的使?還可以約束我 們的模型的特性。這樣就可以將?對這個模型的先驗知識融?到模型的學(xué)習(xí)當(dāng)中,強?地讓學(xué)習(xí)到的模型具有?想要的特性,例如稀疏、低秩、平滑等等。 要知道,有時候?的先驗是?常重要的。前?的經(jīng)驗會讓你少?很多彎路,這就是為什么我們平時學(xué)習(xí)最好找個??帶帶的原因。?句點撥可以為我們撥開眼前烏云,還我們??晴空萬?,醍醐灌頂。對機器學(xué)習(xí)也是?樣,如果被我們?稍微點撥?下,它肯定能更快的學(xué)習(xí)相應(yīng)的任務(wù)。只是由于?和???機器的交流?前還沒有那么直接的?法,?前這個媒介只能由規(guī)則項來擔(dān)當(dāng)了。 有?種?度來看待規(guī)則化的。規(guī)則化符合奧卡姆剃?(Occam's?razor)原理。這名字好霸?,razor!不過它的思想很平易近?:在所有可能選擇的模型中,我們應(yīng)該選擇能夠很好地解釋已知數(shù)據(jù)并且?分簡單的模型。從貝葉斯估計的?度來看,規(guī)則化項對應(yīng)于模型的先驗概率。民間還有個說法就是,規(guī)則化是結(jié)構(gòu)風(fēng)險最?化策略的實現(xiàn),是在經(jīng)驗風(fēng)險上加?個正則化項(regularizer)或懲罰項(penalty term)。 ?般來說,監(jiān)督學(xué)習(xí)可以看做最?化下?的?標(biāo)函數(shù): ?? min(損失函數(shù)L(yi,f(xi;w)) + 規(guī)則項Ω(w)) 其中,第?項L(yi,f(xi;w))??衡量我們的模型(分類或者回歸)對第i個樣本的預(yù)測值f(xi;w)和真實的標(biāo)簽yi 之前的誤差。因為我們的模型是要擬合我們的訓(xùn)練樣 本的嘛,所以我們要求這?項最?,也就是要求我們的模型盡量的擬合我們的訓(xùn)練數(shù)據(jù)。?? 但正如上?說?,我們不僅要保證訓(xùn)練誤差最?,我們更希望我們的模型測試誤差?,所以我們需要加上第?項,也就是對參數(shù)w的規(guī)則化函數(shù)Ω(w)去約束我們的模型盡量的簡單。 OK,到這?,如果你在機器學(xué)習(xí)浴?奮戰(zhàn)多年,你會發(fā)現(xiàn),哎喲喲,機器學(xué)習(xí)的?部分帶參模型都和這個不但形似,?且神似。是的,其實?部分??就是變換這兩項?已。?? 對于第?項Loss函數(shù),如果是Square loss,那就是最??乘了;如果是Hinge Loss,那就是著名的SVM 了;如果是exp-Loss,那就是?逼的?Boosting了;如果是log-Loss,那就是Logistic?Regression了;還有等等。 不同的loss函數(shù),具有不同的擬合特性,這個也得就具體問題具體分析的。但這?,我們先不究loss函數(shù)的問題,我們把?光轉(zhuǎn)向“規(guī)則項Ω(w)”。 規(guī)則化函數(shù)Ω(w)也有很多種選擇,?般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜,規(guī)則化值就越 ?。?如,規(guī)則化項可以是模型參數(shù)向量的范數(shù)。然?,不同的選擇對參數(shù)w的約束不同,取得的效果也不同,但我們在論?中常見的都聚集在:零范數(shù)、?范數(shù)、?范數(shù)、跡范數(shù)、Frobenius范數(shù)和核???范數(shù)等等。 這么多范數(shù),到底它們表達啥意思?具有啥能??什么時候才能??什么時候需要?呢? ?、L0范數(shù)與L1范數(shù) L0范數(shù)是指向量中?0的元素的個數(shù)。如果我們?L0范數(shù)來規(guī)則化?個參數(shù)矩陣W的話,就是希望W的 ?部分元素都是0。這太直觀了,太露?了吧,換句話說,讓參數(shù)W是稀疏的。????♂? OK,看到了“稀疏”?字,?家都應(yīng)該從當(dāng)下風(fēng)風(fēng)??的“壓縮感知”和“稀疏編碼”中醒悟過來,原來??的漫?遍野的“稀疏”就是通過這玩意來實現(xiàn)的。但你又開始懷疑了,是這樣嗎?看到的papers世界中, 稀疏不是都通過L1范數(shù)來實現(xiàn)嗎?腦海?是不是到處都是||W||1影?呀!?乎是抬頭不見低頭見。?? 沒錯,這就是這節(jié)的題?把L0和L1放在?起的原因,因為他們有著某種不尋常的關(guān)系。那我們再來看看L1范數(shù)是什么?它為什么可以實現(xiàn)稀疏?為什么?家都?L1范數(shù)去實現(xiàn)稀疏,?不是L0范數(shù)呢??? L1范數(shù)是指向量中各個元素絕對值之和,也有個美稱叫“稀疏規(guī)則算?”(Lasso??regularization)。現(xiàn)在我們來分析下這個價值?個億的問題:為什么L1范數(shù)會使權(quán)值稀疏?有?可能會這樣給你回答“它是L0??范數(shù)的最優(yōu)凸近似”。 實際上,還存在?個更美的回答:任何的規(guī)則化算?,如果他在Wi=0的地?不可微,并且可以分解為 ?個“求和”的形式,那么這個規(guī)則化算?就可以實現(xiàn)稀疏。這說是這么說,W的L1范數(shù)是絕對值,|w| ? 在w=0處是不可微,但這還是不夠直觀。這?因為我們需要和L2范數(shù)進?對?分析。所以關(guān)于L1范數(shù)??的直觀理解,請待會看看第?節(jié)。 對了,上?還有?個問題:既然L0可以實現(xiàn)稀疏,為什么不?L0,?要?L1呢?個?理解?是因為L0 范數(shù)很難優(yōu)化求解(NP難問題),?是L1范數(shù)是L0范數(shù)的最優(yōu)凸近似,?且它?L0范數(shù)要容易優(yōu)化求???解。所以?家才把?光和萬千寵愛轉(zhuǎn)于L1范數(shù) 。?? OK,來個?句話總結(jié):L1范數(shù)和L0范數(shù)可以實現(xiàn)稀疏,L1因具有?L0更好的優(yōu)化求解特性?被?泛??應(yīng)?。?? 好,到這?,我們?概知道了L1可以實現(xiàn)稀疏,但我們會想呀,為什么要稀疏?讓我們的參數(shù)稀疏有什么好處呢?這?扯兩點: 1)特征選擇(Feature Selection): ?家對稀疏規(guī)則化趨之若鶩的?個關(guān)鍵原因在于它能實現(xiàn)特征的?動選擇。?般來說,xi的?部分元素(也就是特征)都是和最終的輸出yi沒有關(guān)系或者不提供任何信息的,在最?化?標(biāo)函數(shù)的時候考???慮xi這些額外的特征,雖然可以獲得更?的訓(xùn)練誤差,但在預(yù)測新的樣本時,這些沒?的信息反?會被考慮,從??擾了對正確yi的預(yù)測。 稀疏規(guī)則化算?的引?就是為了完成特征?動選擇的光榮使命,它會學(xué)習(xí)地去掉這些沒有信息的特征,也就是把這些特征對應(yīng)的權(quán)重置為0。 2)可解釋性(Interpretability): 另?個青睞于稀疏的理由是,模型更容易解釋。例如患某種病的概率是y,然后我們收集到的數(shù)據(jù)x是1000維的,也就是我們需要尋找這1000種因素到底是怎么影響患上這種病的概率的。 假設(shè)我們這個是個回歸模型:y=w1*x1+w2*x2+…+w1000*x1000+b(當(dāng)然了,為了讓y限定在[0,1]的范??圍,?般還得加個Logistic函數(shù))。通過學(xué)習(xí),如果最后學(xué)習(xí)到的w*就只有很少的?零元素,例如只有???5個?零的wi,那么我們就有理由相信,這些對應(yīng)的特征在患病分析上?提供的信息是巨?的,決策性的。 也就是說,患不患這種病只和這5個因素有關(guān),那醫(yī)?就好分析多了。但如果1000個wi都?0,醫(yī)????對這1000種因素,累覺不愛。?? 以上為原題目的改寫解答全文,希望對你的理解有所幫助。如果有任何問題或需要進一步解釋,請隨時提問。????

人工智能AI面試題-3.34機器學(xué)習(xí)中的L0、L1與L2范數(shù)到底是什么意思?的評論 (共 條)

分享到微博請遵守國家法律
门源| 临清市| 凤山县| 和田市| 浦北县| 稻城县| 潜山县| 宜昌市| 宣汉县| 扎鲁特旗| 凤阳县| 永春县| 东丽区| 商洛市| 靖西县| 获嘉县| 阜新市| 剑川县| 微山县| 商水县| 泸西县| 沧州市| 昆山市| 深泽县| 成武县| 保亭| 顺平县| 永寿县| 大田县| 韶山市| 松滋市| 建德市| 嘉峪关市| 德保县| 正阳县| 荣成市| 文登市| 于田县| 福建省| 五峰| 平潭县|