如果Siri也是養(yǎng)成類游戲,該如何避免它成為種族主義者?
無人駕駛真的安全嗎?智能管家可以依靠嗎?人臉識(shí)別又是否準(zhǔn)確呢?
近日,澳大利亞五家機(jī)構(gòu)發(fā)布了一份報(bào)告-《使用人工智能做出決策:解決算法偏見問題》(Using artificial intelligence to make decisions: Addressing the problem of algorithmic bias),詳細(xì)講述了人工智能在演算中可能存在的算法偏見,與解決辦法。

人工智能也有“偏見” 可能加劇社會(huì)歧視
人工智能(AI,Artificial Intelligence)已滲入我們的日常生活當(dāng)中,我們使用電子設(shè)備所留下的每一個(gè)足跡,點(diǎn)贊的每一支抖音視頻,在淘寶購入的每一件商品,都將構(gòu)成我們的虛擬形象,在算法的推演下,以推薦、預(yù)測(cè)我們的下一個(gè)行為。
不僅如此,AI在政府決策與商業(yè)投資中也逐漸扮演著重要角色,影響著人們的日常生活,例如銀行可以使用大數(shù)據(jù)來判斷是否為某一申請(qǐng)人提供房屋貸款,政府也可以通過計(jì)算機(jī)圖像識(shí)別等技術(shù)對(duì)食品加工場(chǎng)所、建筑工地、交通要塞等進(jìn)行監(jiān)管。
但AI并不是絕對(duì)正確的,在決策過程中也存在著算法偏見(Algorithmic Bias),導(dǎo)致社會(huì)歧視與不公平的現(xiàn)象加劇。
什么是算法偏見?研究者認(rèn)為算法偏見是指在經(jīng)由人工智能所導(dǎo)出的預(yù)測(cè)或結(jié)果中存在錯(cuò)誤或?qū)Σ煌后w的差異與不公正的對(duì)待。例如,曾經(jīng)谷歌照片(Google Photo)在對(duì)圖像進(jìn)行分類時(shí),將兩名黑人的照片標(biāo)記為大猩猩。
報(bào)告中提出了一些假設(shè)情況,例如在招聘網(wǎng)站中,系統(tǒng)推給男性與女性的工作在工資上具有明顯的區(qū)別,男性獲得更多的高薪工作,而女性則正好相反。
算法偏見直接或間接地影響著我們的生活,它可能不經(jīng)意地出現(xiàn)在我們的手機(jī)中,例如你的淘寶推薦中突然出現(xiàn)你完全沒有興趣的商品。?
或是因?yàn)槟愕哪w色、所居住的位置、宗教信仰等因素,將你歸類為易犯罪群體中。為了盡量避免這種情況的發(fā)生,研究者認(rèn)為人們需要進(jìn)一步了解造成算法偏見的原因。
原始數(shù)據(jù)與算法結(jié)構(gòu)是造成偏見的關(guān)鍵
造成這些算法偏見的原因有三個(gè):第一,是算法系統(tǒng)本身固有的設(shè)計(jì)與配置造成預(yù)判的錯(cuò)誤,即代碼上的錯(cuò)誤。這便好比是我們?cè)谧鰯?shù)學(xué)題時(shí),用錯(cuò)了數(shù)學(xué)公式,將加號(hào)寫成了除號(hào),于是便得到了錯(cuò)誤的結(jié)果。
第二,研究者認(rèn)為原始數(shù)據(jù)是產(chǎn)生算法偏見的另一源頭。無論是機(jī)器學(xué)習(xí),還是深度學(xué)習(xí),對(duì)原始數(shù)據(jù)都存在一定的依賴性,當(dāng)原始數(shù)據(jù)存在不精準(zhǔn)、不完整、沒有代表性、沒有時(shí)效性等問題時(shí),人工智能便會(huì)輸出錯(cuò)誤的結(jié)果。例如上述Google對(duì)于圖片的錯(cuò)誤標(biāo)注,便是因?yàn)楹谌苏掌臉颖具^少,無法準(zhǔn)確地對(duì)其進(jìn)行識(shí)別。
?數(shù)據(jù)缺失與不完整是較為顯性的問題,相比之下,社會(huì)原有的不公正與事實(shí)造成的算法偏見則較為隱性,不易被察覺,也較難解決。
招聘網(wǎng)站的推薦系統(tǒng)對(duì)于男女職業(yè)的差異推薦便是基于社會(huì)原有的性別結(jié)構(gòu)所做出的判斷,當(dāng)這部分的數(shù)據(jù)越精準(zhǔn)與具有代表性,其輸出的結(jié)果便越容易存在偏見。
又例如在2016年年初,微軟曾推出一款人工智能聊天機(jī)器人Tay,它能夠在與推特用戶的交流過程中學(xué)習(xí)與成長(zhǎng),但不到24小時(shí),受到推特用戶輸入信息的影響,Tay從一張白紙,變成了推崇厭女文化的種族主義者。
試想一下,如果Siri在與我們的日常交流中學(xué)習(xí)與成長(zhǎng),它又會(huì)變成一個(gè)怎樣的機(jī)器人呢?是否也會(huì)像Tay一樣,成為一名種族主義者呢?

報(bào)告建議在保護(hù)隱私的基礎(chǔ)上增加數(shù)據(jù)多樣性
報(bào)告指出,通過修改AI系統(tǒng),增加模型的復(fù)雜度可以解決算法本身的錯(cuò)誤。簡(jiǎn)單的模型因?yàn)楦菀妆粶y(cè)量、監(jiān)督、替換而被商業(yè)公司所青睞,但過于簡(jiǎn)化的版本會(huì)削弱預(yù)測(cè)結(jié)果的準(zhǔn)確性,更難鑒定出不同群體間的差異。
但同時(shí),研究者也認(rèn)為模型不應(yīng)過于復(fù)雜,要避免模型與樣本過于匹配而喪失普遍性;此外,在訓(xùn)練模式的過程中,也應(yīng)不斷調(diào)整應(yīng)用與預(yù)測(cè)的決策邏輯和參數(shù),以取得預(yù)測(cè)結(jié)果中公平與準(zhǔn)確性的平衡。?

針對(duì)數(shù)據(jù)的顯性與隱性的問題,研究者建議,不斷更新數(shù)據(jù)庫、尋找更適合的數(shù)據(jù)來訓(xùn)練AI系統(tǒng)是一個(gè)好方法。例如當(dāng)使用AI來預(yù)測(cè)各國(guó)新冠肺炎患者的數(shù)量走勢(shì)時(shí),需要每天更新各國(guó)患者的數(shù)據(jù),而不是停留在2020年的上半年。
當(dāng)然,在不斷更新數(shù)據(jù),增加數(shù)據(jù)多樣性的同時(shí),也需要注意保護(hù)個(gè)人的隱私,需要在不違反法律、不侵害用戶權(quán)利的原則下,進(jìn)行數(shù)據(jù)的補(bǔ)充與完善。
其次,在輸入原始數(shù)據(jù)前,需要對(duì)其進(jìn)行預(yù)處理,包括對(duì)數(shù)據(jù)的清理和相關(guān)屬性的隱藏。例如上述招聘網(wǎng)站的推薦系統(tǒng),隱藏性別屬性,強(qiáng)調(diào)職業(yè)中所需要的技能與經(jīng)歷,這樣便可以減緩與避免性別在職業(yè)分工中占據(jù)過大比重。?
最后,在搭建模型的過程中,需要有明確的目標(biāo),避免使用過于抽象化的概念來進(jìn)行預(yù)測(cè),并且準(zhǔn)對(duì)不同的主體,需要有不同的參考標(biāo)準(zhǔn)。
例如一家銀行在考慮是否為申請(qǐng)者提供貸款時(shí),往往會(huì)考慮他的盈利能力、信譽(yù)度、還貸能力等,但這些都屬于較為抽象的名詞,無法用具體的數(shù)據(jù)來展示,研究者認(rèn)為可以用信用卡的消費(fèi)金額、消費(fèi)次數(shù)、還貸時(shí)間等具體指標(biāo)來進(jìn)行衡量。
并且,報(bào)告還特別提醒,即使是具體化的指標(biāo)也不一定適用所有人群,例如,信用卡的數(shù)據(jù)便無法用于第一次貸款的年輕人,因?yàn)樗麄兇饲翱赡軟]有使用信用卡的記錄。
AI能夠帶來更好的決策,但如果無法徹底理解與解決算法偏見,它對(duì)于人們來說是空洞的,研究員Edward Santow認(rèn)為,只有嚴(yán)謹(jǐn)?shù)某淌皆O(shè)計(jì)、無數(shù)次的測(cè)試、與實(shí)時(shí)的監(jiān)測(cè),才可以最大程度地避免人工智能犯下錯(cuò)誤。