最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

介紹人工智能技術(shù)應(yīng)用下機(jī)器學(xué)習(xí)里的6種偏差

2021-11-03 16:54 作者:深度之眼官方賬號(hào)  | 我要投稿

在人工智能的學(xué)習(xí)過(guò)程中,你會(huì)發(fā)現(xiàn)偏差會(huì)以多種不同的形式出現(xiàn)在機(jī)器學(xué)習(xí)中。在我們研究在機(jī)器學(xué)習(xí)中的6種偏差如何出現(xiàn)之前,我們先了解一下這個(gè)詞的定義。



Bias的定義


Bias:“對(duì)某人或某一群體的傾向或偏見(jiàn),尤指被認(rèn)為不公平的方式”。


Bias被解釋為偏差也可解釋為偏見(jiàn),其定義包括“不公平”一詞。


偏差幾乎可以在每個(gè)階段影響機(jī)器學(xué)習(xí)系統(tǒng)。


舉個(gè)例子??,來(lái)說(shuō)明我們周?chē)澜绲钠钍侨绾螡撊肽愕臄?shù)據(jù)的:


想象一下,我們正在構(gòu)建一個(gè)模型來(lái)預(yù)測(cè)文本序列中的下一個(gè)單詞。為了確保你有大量的訓(xùn)練數(shù)據(jù),你把過(guò)去50年里寫(xiě)的每一本書(shū)都給了它。然后你讓它預(yù)測(cè)這句話中的下一個(gè)單詞:


“The CEOs name is ____”.


你會(huì)發(fā)現(xiàn),你的模型更可能預(yù)測(cè)CEO的姓名是個(gè)男性姓名,而不是女性姓名。這種情況就是你無(wú)意中將我們社會(huì)中存在的歷史刻板印象融入到你的模型中。


偏差不僅僅出現(xiàn)在數(shù)據(jù)中,它也可能出現(xiàn)在模型中。如果用于測(cè)試模型的數(shù)據(jù)不能準(zhǔn)確地代表現(xiàn)實(shí)世界,最后就會(huì)得到所謂的評(píng)估偏差。



訓(xùn)練面部識(shí)別的例子就能夠說(shuō)明這個(gè)情況:


我們使用來(lái)自Instagram的照片進(jìn)行測(cè)試。我們的模型在測(cè)試集上可能具有非常高的準(zhǔn)確率,但在現(xiàn)實(shí)世界中就可能表現(xiàn)不佳。


因?yàn)榇蠖鄶?shù)Instagram用戶(hù)的年齡在18到35歲之間(甚至經(jīng)過(guò)了強(qiáng)大的美顏功能)。你的模型現(xiàn)在偏向于那個(gè)年齡組,所以在現(xiàn)實(shí)生活中老年人和青少年的臉上表現(xiàn)得很差。



“bias”這個(gè)詞字面意思有極強(qiáng)的負(fù)面含義,但在機(jī)器學(xué)習(xí)中并非總是如此。事先了解您要解決的問(wèn)題可以幫助您在建模期間選擇相關(guān)特征。這會(huì)引入人為偏見(jiàn),但通常可以加快或改進(jìn)建模過(guò)程。



講到這里也許你會(huì)發(fā)現(xiàn),訓(xùn)練機(jī)器學(xué)習(xí)模型很像撫養(yǎng)孩子。


為什么這樣說(shuō)?


因?yàn)槿嗽诔砷L(zhǎng)過(guò)程中是通過(guò)使用聽(tīng)覺(jué)、視覺(jué)和觸覺(jué)等感官來(lái)向周?chē)氖澜鐚W(xué)習(xí)。整個(gè)人對(duì)世界的理解,形成的觀點(diǎn),以及遇事做出的決定都與成長(zhǎng)種所受到的影響有關(guān)。例如,一個(gè)在性別歧視社區(qū)長(zhǎng)大和生活的孩子可能永遠(yuǎn)不會(huì)意識(shí)到他們看待不同性別的方式存在任何偏見(jiàn),這與又偏差的機(jī)器學(xué)習(xí)模型完全相同。



在訓(xùn)練時(shí)我們不是使用感官作為輸入,而是使用數(shù)據(jù)——我們提供給他們的數(shù)據(jù)!?這就是為什么在用于訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)中盡量避免偏差是如此重要。


下面詳細(xì)說(shuō)明機(jī)器學(xué)習(xí)中一些最常見(jiàn)的偏差形式:



歷史偏差


在收集用于訓(xùn)練機(jī)器學(xué)習(xí)算法的數(shù)據(jù)時(shí),抓取歷史數(shù)據(jù)幾乎總是最容易開(kāi)始的地方。但是,如果我們不小心,很容易將歷史數(shù)據(jù)中存在的偏差包括在內(nèi)。


亞馬遜有一個(gè)非常典型的例子:


2014年,亞馬遜曾著手建立一個(gè)自動(dòng)篩選求職者的系統(tǒng)。當(dāng)時(shí)的想法是,向系統(tǒng)輸入數(shù)百份簡(jiǎn)歷,讓系統(tǒng)自動(dòng)挑選出最優(yōu)秀的候選人。該系統(tǒng)是根據(jù)10年的工作申請(qǐng)及其結(jié)果進(jìn)行培訓(xùn)的。


出現(xiàn)了什么問(wèn)題呢?


亞馬遜的大多數(shù)員工都是男性(尤其是在技術(shù)崗位上)。該算法了解到,由于亞馬遜的男性比女性多,男性更適合應(yīng)聘者,因此對(duì)非男性應(yīng)聘者積極歧視。因?yàn)槠?,算法雖然“聰明”但也讓人哭笑不得。




樣本偏差


當(dāng)訓(xùn)練數(shù)據(jù)不能準(zhǔn)確反映模型在現(xiàn)實(shí)世界中的使用情況時(shí),就會(huì)發(fā)生樣本偏差。原因通常是,一個(gè)群體的代表性要么嚴(yán)重過(guò)高,要么代表性不足。


David Keene他給出了一個(gè)很好的樣本偏差示例。


在訓(xùn)練語(yǔ)音到文本系統(tǒng)時(shí),需要大量音頻剪輯及其相應(yīng)的轉(zhuǎn)錄。哪里比有聲讀物更能獲得大量此類(lèi)數(shù)據(jù)?這種方法有什么問(wèn)題?


事實(shí)證明,絕大多數(shù)有聲讀物都是由受過(guò)良好教育的中年白人男性講述的。不出所料,當(dāng)用戶(hù)來(lái)自不同的社會(huì)經(jīng)濟(jì)或種族背景時(shí),使用這種方法訓(xùn)練的語(yǔ)音識(shí)別軟件表現(xiàn)不佳。


來(lái)源:https : //www.pnas.org/content/117/14/7684


上圖顯示了大型科技公司語(yǔ)音識(shí)別系統(tǒng)的單詞錯(cuò)誤率 [WER]。可以清楚地看到所有算法在處理黑人語(yǔ)音和白人語(yǔ)音時(shí)都表現(xiàn)不佳。



標(biāo)簽偏差


訓(xùn)練ML算法所需的大量數(shù)據(jù)需要標(biāo)記才能有用。


當(dāng)你登錄網(wǎng)站的時(shí)候你可能經(jīng)常會(huì)被要求識(shí)別有紅綠燈的廣場(chǎng)。實(shí)際上,您是在為該圖像確認(rèn)一組標(biāo)簽,以幫助訓(xùn)練視覺(jué)識(shí)別模型。然而,我們給數(shù)據(jù)貼標(biāo)簽的方式千差百別,貼標(biāo)簽的不一致會(huì)給系統(tǒng)帶來(lái)偏差。



想象一下,我們正在用上圖中的框標(biāo)記獅子來(lái)訓(xùn)練系統(tǒng)。然后,給系統(tǒng)顯示此圖像:



你會(huì)發(fā)現(xiàn)它無(wú)法識(shí)別圖片中非常明顯的獅子。通過(guò)僅標(biāo)記面孔,在無(wú)意中把系統(tǒng)訓(xùn)練成偏向于正面獅子圖片。



聚合偏差


有時(shí)我們聚合數(shù)據(jù)用以簡(jiǎn)化它,或以特定的方式呈現(xiàn)它。無(wú)論是在創(chuàng)建模型之前還是之后,這都會(huì)導(dǎo)致偏差。看看這個(gè)圖表:



它顯示了工資如何根據(jù)工作年數(shù)增加。這里有一個(gè)非常強(qiáng)的相關(guān)性,你工作的時(shí)間越長(zhǎng),你得到的報(bào)酬就越多。現(xiàn)在讓我們看看用于創(chuàng)建此聚合的數(shù)據(jù):



我們看到,對(duì)于運(yùn)動(dòng)員來(lái)說(shuō),情況恰恰相反。他們能夠在職業(yè)生涯的早期獲得高薪,而他們?nèi)蕴幱谏眢w巔峰狀態(tài),但隨著他們停止競(jìng)爭(zhēng),薪水就會(huì)下降。通過(guò)將他們與其他職業(yè)合并,我們的算法會(huì)對(duì)他們產(chǎn)生偏見(jiàn)。



確認(rèn)偏差


簡(jiǎn)而言之,確認(rèn)偏差是我們傾向于相信能證實(shí)我們現(xiàn)有信念的信息或丟棄不符合我們現(xiàn)有信念的信息。從理論上講,我可以構(gòu)建最精確的ML系統(tǒng),在數(shù)據(jù)或模型上都沒(méi)有偏差,但如果你打算根據(jù)自己的“直覺(jué)”改變結(jié)果,那么這也沒(méi)關(guān)系。


確認(rèn)偏差在機(jī)器學(xué)習(xí)應(yīng)用中尤為普遍,在這些應(yīng)用中,在采取任何行動(dòng)之前都需要人工審查。人工智能在醫(yī)療保健中的使用讓醫(yī)生對(duì)算法診斷不屑一顧,因?yàn)樗c他們自己的經(jīng)驗(yàn)或理解不符。



通常在研究病例時(shí),因?yàn)獒t(yī)生們沒(méi)有閱讀最新的研究文獻(xiàn),做出的判斷這些文獻(xiàn)指出癥狀、技術(shù)或診斷結(jié)果略有不同。


所以一名醫(yī)生可以閱讀的研究期刊數(shù)量有限(尤其是在全職挽救生命的情況下),但機(jī)器學(xué)習(xí)系統(tǒng)可以將它們?nèi)渴珍洝?/p>



評(píng)價(jià)偏差


舉一個(gè)不是很恰當(dāng)?shù)睦踝印?/p>



假設(shè)我們正在構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型來(lái)預(yù)測(cè)綜藝比賽期間全國(guó)的投票率。我們通過(guò)采用年齡、職業(yè)、收入和喜好標(biāo)簽等一系列特征,準(zhǔn)確預(yù)測(cè)某人是否會(huì)投票。然后構(gòu)建了模型,使用最常見(jiàn)的投票方式對(duì)其進(jìn)行了測(cè)試,得到了滿(mǎn)意的結(jié)果,看起來(lái)好像成功了。


等投票結(jié)束,最后你發(fā)現(xiàn)你花了很長(zhǎng)時(shí)間設(shè)計(jì)和測(cè)試的模型只有55%的時(shí)間是正確的——性能只比隨機(jī)猜測(cè)好一點(diǎn)。這個(gè)糟糕的結(jié)果就是評(píng)估偏差的一個(gè)例子。



通過(guò)僅用一種投票方式評(píng)估模型,無(wú)意中設(shè)計(jì)了一個(gè)只對(duì)他們有效的系統(tǒng)。但是這次比賽投票模式還有其他好幾種,我們沒(méi)有考慮進(jìn)去,即使它已經(jīng)包含我們初始訓(xùn)練數(shù)據(jù)中的投票方式。



總結(jié)


本文講解了偏差影響機(jī)器學(xué)習(xí)的六種不同情況,雖然有些例子很蹩腳,但是還是能夠有助于與大家理解機(jī)器學(xué)習(xí)中很好地理解ML系統(tǒng)出現(xiàn)偏差的常見(jiàn)方式。


文章來(lái)源:

https://pub.towardsai.net/6-types-of-ai-bias-everyone-should-know-e72b2259cb1a


免責(zé)聲明:所載內(nèi)容來(lái)源互聯(lián)網(wǎng),僅供參考。轉(zhuǎn)載稿件版權(quán)歸原作者和機(jī)構(gòu)所有,如有侵權(quán),請(qǐng)聯(lián)系我們刪除。



介紹人工智能技術(shù)應(yīng)用下機(jī)器學(xué)習(xí)里的6種偏差的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
龙州县| 甘南县| 浦江县| 扬州市| 永登县| 嘉兴市| 禄丰县| 织金县| 太和县| 阳春市| 安陆市| 德兴市| 武清区| 嫩江县| 株洲县| 建瓯市| 东至县| 桓台县| 太康县| 额尔古纳市| 朝阳县| 汤原县| 通河县| 阳朔县| 阜新市| 广南县| 浮梁县| 轮台县| 永川市| 淮南市| 抚松县| 揭东县| 固安县| 灵宝市| 札达县| 邳州市| 察哈| 潜山县| 东港市| 南召县| 会泽县|