介紹人工智能技術(shù)應(yīng)用下機(jī)器學(xué)習(xí)里的6種偏差
在人工智能的學(xué)習(xí)過(guò)程中,你會(huì)發(fā)現(xiàn)偏差會(huì)以多種不同的形式出現(xiàn)在機(jī)器學(xué)習(xí)中。在我們研究在機(jī)器學(xué)習(xí)中的6種偏差如何出現(xiàn)之前,我們先了解一下這個(gè)詞的定義。
Bias的定義
Bias:“對(duì)某人或某一群體的傾向或偏見(jiàn),尤指被認(rèn)為不公平的方式”。
Bias被解釋為偏差也可解釋為偏見(jiàn),其定義包括“不公平”一詞。
偏差幾乎可以在每個(gè)階段影響機(jī)器學(xué)習(xí)系統(tǒng)。
舉個(gè)例子??,來(lái)說(shuō)明我們周?chē)澜绲钠钍侨绾螡撊肽愕臄?shù)據(jù)的:
想象一下,我們正在構(gòu)建一個(gè)模型來(lái)預(yù)測(cè)文本序列中的下一個(gè)單詞。為了確保你有大量的訓(xùn)練數(shù)據(jù),你把過(guò)去50年里寫(xiě)的每一本書(shū)都給了它。然后你讓它預(yù)測(cè)這句話中的下一個(gè)單詞:
“The CEOs name is ____”.
你會(huì)發(fā)現(xiàn),你的模型更可能預(yù)測(cè)CEO的姓名是個(gè)男性姓名,而不是女性姓名。這種情況就是你無(wú)意中將我們社會(huì)中存在的歷史刻板印象融入到你的模型中。
偏差不僅僅出現(xiàn)在數(shù)據(jù)中,它也可能出現(xiàn)在模型中。如果用于測(cè)試模型的數(shù)據(jù)不能準(zhǔn)確地代表現(xiàn)實(shí)世界,最后就會(huì)得到所謂的評(píng)估偏差。

訓(xùn)練面部識(shí)別的例子就能夠說(shuō)明這個(gè)情況:
我們使用來(lái)自Instagram的照片進(jìn)行測(cè)試。我們的模型在測(cè)試集上可能具有非常高的準(zhǔn)確率,但在現(xiàn)實(shí)世界中就可能表現(xiàn)不佳。
因?yàn)榇蠖鄶?shù)Instagram用戶(hù)的年齡在18到35歲之間(甚至經(jīng)過(guò)了強(qiáng)大的美顏功能)。你的模型現(xiàn)在偏向于那個(gè)年齡組,所以在現(xiàn)實(shí)生活中老年人和青少年的臉上表現(xiàn)得很差。

“bias”這個(gè)詞字面意思有極強(qiáng)的負(fù)面含義,但在機(jī)器學(xué)習(xí)中并非總是如此。事先了解您要解決的問(wèn)題可以幫助您在建模期間選擇相關(guān)特征。這會(huì)引入人為偏見(jiàn),但通常可以加快或改進(jìn)建模過(guò)程。
講到這里也許你會(huì)發(fā)現(xiàn),訓(xùn)練機(jī)器學(xué)習(xí)模型很像撫養(yǎng)孩子。
為什么這樣說(shuō)?
因?yàn)槿嗽诔砷L(zhǎng)過(guò)程中是通過(guò)使用聽(tīng)覺(jué)、視覺(jué)和觸覺(jué)等感官來(lái)向周?chē)氖澜鐚W(xué)習(xí)。整個(gè)人對(duì)世界的理解,形成的觀點(diǎn),以及遇事做出的決定都與成長(zhǎng)種所受到的影響有關(guān)。例如,一個(gè)在性別歧視社區(qū)長(zhǎng)大和生活的孩子可能永遠(yuǎn)不會(huì)意識(shí)到他們看待不同性別的方式存在任何偏見(jiàn),這與又偏差的機(jī)器學(xué)習(xí)模型完全相同。

在訓(xùn)練時(shí)我們不是使用感官作為輸入,而是使用數(shù)據(jù)——我們提供給他們的數(shù)據(jù)!?這就是為什么在用于訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)中盡量避免偏差是如此重要。
下面詳細(xì)說(shuō)明機(jī)器學(xué)習(xí)中一些最常見(jiàn)的偏差形式:
歷史偏差
在收集用于訓(xùn)練機(jī)器學(xué)習(xí)算法的數(shù)據(jù)時(shí),抓取歷史數(shù)據(jù)幾乎總是最容易開(kāi)始的地方。但是,如果我們不小心,很容易將歷史數(shù)據(jù)中存在的偏差包括在內(nèi)。
亞馬遜有一個(gè)非常典型的例子:
2014年,亞馬遜曾著手建立一個(gè)自動(dòng)篩選求職者的系統(tǒng)。當(dāng)時(shí)的想法是,向系統(tǒng)輸入數(shù)百份簡(jiǎn)歷,讓系統(tǒng)自動(dòng)挑選出最優(yōu)秀的候選人。該系統(tǒng)是根據(jù)10年的工作申請(qǐng)及其結(jié)果進(jìn)行培訓(xùn)的。
出現(xiàn)了什么問(wèn)題呢?
亞馬遜的大多數(shù)員工都是男性(尤其是在技術(shù)崗位上)。該算法了解到,由于亞馬遜的男性比女性多,男性更適合應(yīng)聘者,因此對(duì)非男性應(yīng)聘者積極歧視。因?yàn)槠?,算法雖然“聰明”但也讓人哭笑不得。

樣本偏差
當(dāng)訓(xùn)練數(shù)據(jù)不能準(zhǔn)確反映模型在現(xiàn)實(shí)世界中的使用情況時(shí),就會(huì)發(fā)生樣本偏差。原因通常是,一個(gè)群體的代表性要么嚴(yán)重過(guò)高,要么代表性不足。
David Keene他給出了一個(gè)很好的樣本偏差示例。
在訓(xùn)練語(yǔ)音到文本系統(tǒng)時(shí),需要大量音頻剪輯及其相應(yīng)的轉(zhuǎn)錄。哪里比有聲讀物更能獲得大量此類(lèi)數(shù)據(jù)?這種方法有什么問(wèn)題?
事實(shí)證明,絕大多數(shù)有聲讀物都是由受過(guò)良好教育的中年白人男性講述的。不出所料,當(dāng)用戶(hù)來(lái)自不同的社會(huì)經(jīng)濟(jì)或種族背景時(shí),使用這種方法訓(xùn)練的語(yǔ)音識(shí)別軟件表現(xiàn)不佳。

來(lái)源:https : //www.pnas.org/content/117/14/7684
上圖顯示了大型科技公司語(yǔ)音識(shí)別系統(tǒng)的單詞錯(cuò)誤率 [WER]。可以清楚地看到所有算法在處理黑人語(yǔ)音和白人語(yǔ)音時(shí)都表現(xiàn)不佳。
標(biāo)簽偏差
訓(xùn)練ML算法所需的大量數(shù)據(jù)需要標(biāo)記才能有用。
當(dāng)你登錄網(wǎng)站的時(shí)候你可能經(jīng)常會(huì)被要求識(shí)別有紅綠燈的廣場(chǎng)。實(shí)際上,您是在為該圖像確認(rèn)一組標(biāo)簽,以幫助訓(xùn)練視覺(jué)識(shí)別模型。然而,我們給數(shù)據(jù)貼標(biāo)簽的方式千差百別,貼標(biāo)簽的不一致會(huì)給系統(tǒng)帶來(lái)偏差。

想象一下,我們正在用上圖中的框標(biāo)記獅子來(lái)訓(xùn)練系統(tǒng)。然后,給系統(tǒng)顯示此圖像:

你會(huì)發(fā)現(xiàn)它無(wú)法識(shí)別圖片中非常明顯的獅子。通過(guò)僅標(biāo)記面孔,在無(wú)意中把系統(tǒng)訓(xùn)練成偏向于正面獅子圖片。
聚合偏差
有時(shí)我們聚合數(shù)據(jù)用以簡(jiǎn)化它,或以特定的方式呈現(xiàn)它。無(wú)論是在創(chuàng)建模型之前還是之后,這都會(huì)導(dǎo)致偏差。看看這個(gè)圖表:

它顯示了工資如何根據(jù)工作年數(shù)增加。這里有一個(gè)非常強(qiáng)的相關(guān)性,你工作的時(shí)間越長(zhǎng),你得到的報(bào)酬就越多。現(xiàn)在讓我們看看用于創(chuàng)建此聚合的數(shù)據(jù):

我們看到,對(duì)于運(yùn)動(dòng)員來(lái)說(shuō),情況恰恰相反。他們能夠在職業(yè)生涯的早期獲得高薪,而他們?nèi)蕴幱谏眢w巔峰狀態(tài),但隨著他們停止競(jìng)爭(zhēng),薪水就會(huì)下降。通過(guò)將他們與其他職業(yè)合并,我們的算法會(huì)對(duì)他們產(chǎn)生偏見(jiàn)。
確認(rèn)偏差
簡(jiǎn)而言之,確認(rèn)偏差是我們傾向于相信能證實(shí)我們現(xiàn)有信念的信息或丟棄不符合我們現(xiàn)有信念的信息。從理論上講,我可以構(gòu)建最精確的ML系統(tǒng),在數(shù)據(jù)或模型上都沒(méi)有偏差,但如果你打算根據(jù)自己的“直覺(jué)”改變結(jié)果,那么這也沒(méi)關(guān)系。
確認(rèn)偏差在機(jī)器學(xué)習(xí)應(yīng)用中尤為普遍,在這些應(yīng)用中,在采取任何行動(dòng)之前都需要人工審查。人工智能在醫(yī)療保健中的使用讓醫(yī)生對(duì)算法診斷不屑一顧,因?yàn)樗c他們自己的經(jīng)驗(yàn)或理解不符。

通常在研究病例時(shí),因?yàn)獒t(yī)生們沒(méi)有閱讀最新的研究文獻(xiàn),做出的判斷這些文獻(xiàn)指出癥狀、技術(shù)或診斷結(jié)果略有不同。
所以一名醫(yī)生可以閱讀的研究期刊數(shù)量有限(尤其是在全職挽救生命的情況下),但機(jī)器學(xué)習(xí)系統(tǒng)可以將它們?nèi)渴珍洝?/p>
評(píng)價(jià)偏差
舉一個(gè)不是很恰當(dāng)?shù)睦踝印?/p>

假設(shè)我們正在構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型來(lái)預(yù)測(cè)綜藝比賽期間全國(guó)的投票率。我們通過(guò)采用年齡、職業(yè)、收入和喜好標(biāo)簽等一系列特征,準(zhǔn)確預(yù)測(cè)某人是否會(huì)投票。然后構(gòu)建了模型,使用最常見(jiàn)的投票方式對(duì)其進(jìn)行了測(cè)試,得到了滿(mǎn)意的結(jié)果,看起來(lái)好像成功了。
等投票結(jié)束,最后你發(fā)現(xiàn)你花了很長(zhǎng)時(shí)間設(shè)計(jì)和測(cè)試的模型只有55%的時(shí)間是正確的——性能只比隨機(jī)猜測(cè)好一點(diǎn)。這個(gè)糟糕的結(jié)果就是評(píng)估偏差的一個(gè)例子。

通過(guò)僅用一種投票方式評(píng)估模型,無(wú)意中設(shè)計(jì)了一個(gè)只對(duì)他們有效的系統(tǒng)。但是這次比賽投票模式還有其他好幾種,我們沒(méi)有考慮進(jìn)去,即使它已經(jīng)包含我們初始訓(xùn)練數(shù)據(jù)中的投票方式。
總結(jié)
本文講解了偏差影響機(jī)器學(xué)習(xí)的六種不同情況,雖然有些例子很蹩腳,但是還是能夠有助于與大家理解機(jī)器學(xué)習(xí)中很好地理解ML系統(tǒng)出現(xiàn)偏差的常見(jiàn)方式。
文章來(lái)源:
https://pub.towardsai.net/6-types-of-ai-bias-everyone-should-know-e72b2259cb1a
免責(zé)聲明:所載內(nèi)容來(lái)源互聯(lián)網(wǎng),僅供參考。轉(zhuǎn)載稿件版權(quán)歸原作者和機(jī)構(gòu)所有,如有侵權(quán),請(qǐng)聯(lián)系我們刪除。
