最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

AI性別歧視,是訓練不好的“蠢”,還是人類教的“壞”?

2022-12-09 16:35 作者:聯合國開發(fā)計劃署  | 我要投稿

作者:李子/佐治亞理工大學科學技術研究博士候選人

?

在你的印象里,醫(yī)生是男還是女?護士呢?工程師呢?教師呢?

?

這個社會對人的性別存在著各種各樣的刻板印象,職業(yè)刻板印象就是其中之一。不過,隨著社會的進步、女性的解放,男性和女性職業(yè)之間存在的鴻溝正在縮小,優(yōu)秀的女工程師、女醫(yī)生也層出不窮,不應該以性別本身界定一個人是否適合從事某種職業(yè)。

?

那你覺得,人工智能(AI)又會覺得這些職業(yè)應當由男性擔當還是女性呢?

答案是:人工智能認為,從事這些職業(yè)的都是男性。

?

你是不是對AI的判斷有點意外呢?

看似“客觀中立無情感”的AI,對職業(yè)這塊抱持的性別偏見,卻比我們更加頑固,歧視的范圍甚至更加廣泛。


清華大學交叉信息研究院的于洋團隊開發(fā)了評估AI模型職業(yè)性別歧視的方法,并做了一個網頁(aijustice.sqz.ac.cn),向公眾如實披露不同?AI模型?的職業(yè)性別偏向和程度。


1. BERT(Bidirectional Encoder Representations from Transformers)是由Google開發(fā)的大規(guī)模預訓練模型。2019 年,谷歌宣布已開始在其搜索引擎中使用 BERT。2020 年底,Google在幾乎所有英語查詢中都使用了BERT。BERT中的歧視可能誘導它在執(zhí)行下游任務時產生歧視行為。
2. GPT-2 (Generative Pre-trained Transformer 2)是 OpenAI 于 2019 年 2 月創(chuàng)建的開源人工智能。GPT-2能夠高質量完成翻譯文本、回答問題、總結段落等文本生成任務。帶有歧視的GPT-2可能產生帶有歧視的文本,造成歧視言論的進一步擴散。
3. RoBERTa(Robustly Optimized BERT Pretraining Approach)是由Facebook在2019年提出的一種用于訓練 BERT 模型的改進方法,得到比BERT更好的性能。 類似BERT,RoBERTa中的歧視也可能誘導它在執(zhí)行下游任務時產生歧視行為。


這個網站背后的數據來源,是當下最流行的三種大規(guī)模預訓練語言模型:BERT,RoBERTa?和?GPT-2。這些語言模型積累了大量的語料數據,再用機器學習的方式,對語言進行“理解”。這些模型被廣泛應用在了例如翻譯、文本篩選、內容生成、自動回復等等領域。而在訓練過程中,算法機制和數據集的缺陷,一起讓人工智能帶上了有色眼鏡”比如,輸入“醫(yī)生”,AI?就會自動將其和“男性”聯系起來,

?

于洋團隊開發(fā)的工具,測試的不僅僅是人工智能在某一個詞匯或者某一個領域的偏見,而是整個模型里的系統(tǒng)性偏見。這一研究的難點,是如何全面而有代表性的抽樣生活中的句子,從而正確的估計出一個AI模型的偏誤。這項研究通過數據挖掘,抽樣了一萬多個樣本。這些樣本包含了職業(yè)詞匯,但本身都是和性別無關的。例如“一個(職業(yè))說,(他/她)”,讓模型做聯想的填空預測,看模型是填“他”,還是“她”。

?

人工智能的“聯想”機制,就是把詞進行分類,并把可能出現在一起的詞組合配對,做出一個“可能性最大”的預測。這個預測,可能是和社會偏見無關,和社會偏見相符,也有可能和社會偏見相反。偏見的出現與否,也可以說是一個概率問題。他們要做的事情,就是把一個模型的偏見,轉化為概率問題來解決。

?

他們測試了幾十種職業(yè),中英文皆有,給出的整體結果,的確不樂觀。以“教師”(teacher)為例,BERT?模型發(fā)生歧視的概率,是63.51%,歧視程度為0.13(0為無歧視,0.5為絕對的歧視)。10次輸入中,有超過6成的概率,“教師”被聯想成為男性。整體計算下來,BERT?模型對所有職業(yè)的歧視程度,分布在0.05和0.35之間——也就是說,AI?預測某些職業(yè)的性別,會有超過85%的可能性與社會偏見相符,基本是和某種性別?“鎖死”?了。


AI預測的一些職業(yè)與性別“鎖死” | Pixabay

一個模型,總是出現和社會偏見相符的預測,而這種出現的概率也非常穩(wěn)定的話,就說明這個模型的訓練結果,的確有“系統(tǒng)性”的偏見。

?

?如果這個?AI?的表現總是飄忽不定,它做出的預測里有的和社會偏見重合、有的相反,但整體非常隨機,那只能說它沒訓練好,算是‘蠢’?!?/strong>?于洋說,如果性別-職業(yè)相關的預測錯誤,整體性地偏向一方,且還總和社會已有的偏見相符,那么我們可以說,這個?AI?的確是‘學壞了’?!?/strong>

?

區(qū)分AI是?“蠢”還是“壞”很重要?,AI?犯“蠢”,是它作為統(tǒng)計工具無法避免的,我們根據技術特點來制定標準,規(guī)范?AI?到底可以被允許“有多蠢”。如果學“壞”了,那么AI模型就必須被糾正后才能應用。總體來說,不管是從技術層面,還是社會層面,AI “犯錯”,都值得重視。

?

?

AI?歧視,不是新聞

?

從2014年起,亞馬遜公司就開始開發(fā)用于簡歷篩選的人工智能,希望從海量的簡歷中,快速地篩選出最理想的候選人。不過,這個技術僅僅過了一年,有人就發(fā)現,AI?的篩選中有著強烈的性別傾向。即使候選簡歷里面并未明示性別,AI?也會在文本的蛛絲馬跡里尋找“線索”,例如“女子棋社隊長”,或者畢業(yè)于女子大學。知情人士表示,這個人工智能的訓練材料,是公司過去10年的雇傭歷史,而在科技領域,長期的職業(yè)刻板印象以及“男人俱樂部”文化,都導致了男性雇員數量大于女性,尤其是技術崗位。2017年,亞馬遜棄用了這個篩簡歷的?AI?模型。

科技領域的雇員男性居多,導致亞馬遜簡歷篩選出現偏見 | Pixabay

這反映了基于文本的人工智能偏見的重要來源:既有的數據庫本身就存在偏差。不管是行業(yè)的既有性別偏見,還是社會上對于性別的廣泛認知,這些偏見都會以或明或暗的方式體現在語料庫里。同樣的,種族的、文化的偏見,也會滲透在機器學習的過程中。

?

加州大學洛杉磯分校的機器學習團隊,將自然語言學習中的偏見表現,具體分成了四類:刻板印象的(stereotyping),識別性的(recognition),缺乏代表性的(Under-representation),以及貶低的(denigration)。在不同的人工智能的任務中,這四類偏見都會以各種方式帶來或大或小的麻煩。比如,在語言情感判定中,刻板印象的偏見會讓有女性代詞的句子被判定為更憤怒。識別性的問題,常常會出現在例如語音識別方面的任務上——人工智能對男性的聲音判斷準確度更高。剛剛提到的職業(yè)方面的歧視,包含了刻板印象的問題,也包含了缺乏代表性的問題——女性和職業(yè)相關的數據不足,導致了?AI?的偏向性。從這幾個問題上來看,開發(fā)更有代表性、涵蓋面更廣、質量更高的數據庫成為了關鍵。

女性也需要被正確地“識別” | Freepik

不過,當今,語言學習的?AI?正在向更廣、也更深層的語言理解機制演進,而一種廣泛使用的訓練機制,叫詞嵌入”(word embedding,通俗來講,就是用深度神經網絡,把單個的詞或者句子與更廣的詞、句發(fā)展出聯系。而在這種學習任務中,AI?不僅會發(fā)展出刻板印象、識別性、缺乏代表性的問題,還會進一步發(fā)展出貶低性的問題——將女性相關的詞匯更容易與負面的、低級的意向聯系起來。深度神經網絡的訓練,常常是不透明的,人們只管輸入和輸出,讓機器本身去發(fā)展聯系。在這種訓練過程中,一些偏見與聯系,是在更底層的機制中發(fā)展出來的,到底機器怎么習得了人類社會中潛藏極深的固有偏見,研究人員本身也不是特別明白。于洋也認為,這種語言結構上的偏見,也很難用直接給AI喂更多更全的數據來解決。

社會固有的性別偏見被AI習得 | Pexels

這個問題不僅出現在語言識別和訓練中,也常常出現在圖片識別中。AI?會將站在廚房中的男性識別成女性,辦公室里的人則是男性。人工智能會把印度婚紗認成中世紀鎧甲,或者干脆識別不出深色皮膚的人,等等。谷歌的圖像識別數據庫ImageNet?里面,大量圖片數據都來源于歐美世界,對世界其它地方的人和物知之甚少,識別準確度堪憂。

左:女子身著中世紀鎧甲;右:印度婚紗 | Pexels

還有一個問題是數據的質量——圖像識別人工智能的訓練材料,是打上了標簽的圖片,例如一個圖片里面有貓,標簽里也有“貓”,AI?就會不斷地對貓的圖像特征歸類,提取出“貓”的特征。不過,大量的給圖片打“標簽”的臟活累活,是由類似于?Mechanic Turk?這樣的眾包平臺分發(fā)進行的,誰打的標簽、標簽怎么打,這個過程都是十分模糊的。關于物體的標簽還能保證客觀”,而給人打標簽的工作,自然就會帶上人群的偏見,而這個工作過程又及其繁重、繁瑣,難以保證質量。臟數據自然帶不來好結果,AI?模型訓練就成了“垃圾進、垃圾出”的過程。


AI以打上標簽的圖片做圖像識別訓練 | Pexels

在某些情況下,AI?甚至會放大數據庫里已有的偏見。許多算法模型會直接辨認文字和圖像的特征,也會根據各個特征之間的聯系來判定概率。而問題就在于,如果要通過現有的聯系來進行識別,那么機器可能會在訓練中將現有的聯系夸大,從而在不那么確定的情況下,給出一個更可能靠近正確答案”的結果。就曾經研究過圖像數據庫的性別偏見。她發(fā)現,用MSCOCO和ImSitu數據集訓練的人工智能,在對一般的圖片進行預測的時候,會體現出比數據集本身更大的偏差——比如,在imSitu數據集中,“下廚”和女性聯系起來的頻率為66%,男性有33%;然而,被這個數據集訓練過的人工智能,預測下廚和女性聯系起來的比率被放大到了84%,男性則只有區(qū)區(qū)16%。

imSitu 圖片預測,把廚房里的男性識別為女性 | 參考文獻4

既然?AI?如此容易在數據訓練中“學壞”,還耍上了小聰明,這個問題就不僅僅是算法和數據本身的“不足”那么簡單了。我們人的偏見,可以通過教育和科普解決,也可以立法禁止在找工作的時候性別歧視。那要怎樣才能教會?AI?公平公正呢?畢竟,將來的社會,AI?會越來越多地參與信息的篩選、輸出甚至生產(比如,最近的AI?“明星”?chatGPT?寫文章的能力已經讓人驚嘆了),我們并不希望機器將人類的偏見固化下來。

?

AI?糾偏,也是一個翻譯和教育的過程


于洋的團隊正在致力于糾偏這個問題。前文介紹的“AI?職業(yè)性別歧視”的測量,就是糾偏的第一步:想要糾偏,就先要知道到底有多偏。此前的研究,多聚焦于模型應用的個例上,例如簡歷篩選等具體任務。而他們運用統(tǒng)計的方式,把模型固有的偏見程度“測量”了出來。于洋介紹說,系統(tǒng)性的測量,對整個行業(yè)認清并監(jiān)管問題有極其重要的意義。也就是說,AI?語言識別上的偏見問題,需要用統(tǒng)計工具“翻譯”成數學問題。“量化之后,我們就可以對這個問題有判定的程度和標準,”?于洋說,“比如,我們可以規(guī)定說現有的語言訓練模型的偏見程度不能超過多少,不然就不合格?!?給?AI?定一個硬標準,是解決問題的第一步。


AI 糾偏,是個“數字問題” | Pexels


那么到底要怎么做,才能把偏見問題糾正過來,盡量保證?AI?模型的公平公正呢?對于“學壞”的?AI,“單純‘打罵’可不行?!?于洋說。當下的糾偏手段都相對簡單粗暴,要么是給數據庫加量加料,要么就是各種算法層面的花式微調,在于洋看來都有點像是?AI?犯錯之后的“一頓暴揍”,這樣反而會讓?AI “變笨”。比如,想要解決性別歧視問題,如果只簡單粗暴地把性別變量抹去或者調整權重,AI?可能就會分不清爸爸媽媽的男女了?!熬拖衲憬逃⒆硬荒芄饪看蛄R、得理解孩子怎么想的、然后跟它們講道理一樣;對?AI,你也得如此。”?于洋說。

?

把道理講給?AI?聽,這同樣也是一個“翻譯”問題。賓夕法尼亞大學的計算倫理教授邁克爾·基恩斯(Michael Kearns)在《講倫理的算法:如何科學地設計有社會觀念的算法》(The Ethical Algorithm: The science of socially aware algorithm design)一書中提出,偏見問題和公平問題亦可以轉換為偏差的分布”來理解。拿找工作為例,篩簡歷的AI,實際上是對候選人的簡歷內容,與“在崗位上成功與否”的結果,進行的一個預測。預測有準的時候,也有失手的時候。在往年數據庫本身有問題(女工程師數據少)的情況下,為了達成計算上最優(yōu)的結果,AI?模型常?!胺胚^”失敗的男工程師,而“冤枉”了有潛力的女工程師。要調整這個偏見,與其讓?AI “一視同仁”,不如把這個問題挑明,讓偏差的分布更加公正。

《講倫理的算法:如何科學地設計有社會觀念的算法》| 亞馬遜

而計量經濟學出身的于洋則用了另外一種工具:用統(tǒng)計模型,找出偏見的原因”,然后從原因上下手。一個簡單的例子——現有的數據顯示,身體好的人收入更高。AI?可能理解為身體是工作的本錢,從而在簡歷里找身體好的候選人。但用經濟學工具對更細致的統(tǒng)計數據,進行進一步分析之后,真正的結論可能是相反:收入更高的人,更能有錢有閑健身,從而身體更好。把這個“道理”“告訴” AI,那么?AI?就會在職業(yè)預測里抹掉身體這方面的因素。和職業(yè)相關的性別偏見也如此——從語料庫數據中,找出偏見的來源,對來源進行處理。于洋團隊的研究表明,在對模型進行數據處理之后,模型的表現不會變差,反而更好了,公平和效率得到了兼顧。

找出偏見的來源,把“道理”“告訴”AI | Pixabay

這也反映出了當下人工智能和計算機領域研究的一個問題——如果只關注模型的表現(performance),只從算法上下功夫,暴力堆砌數據,反而會忽略了更加核心的問題:你究竟要達到什么目的?這些社會的、經濟的、組織上的目的,有沒有和技術語言更好地契合?美國數學家、《算法霸權?:?數學殺傷性武器的威脅》作者凱西·奧尼爾(Cathy O’Neil)就指出,亞馬遜的簡歷篩選的偏見問題,其實是技術語言的一種濫用:人工智能的首要目的,就是有效、快速地篩選簡歷,當下的速度和表現就是一切,公司人才庫的長遠發(fā)展則受到了忽視。

?

要解決?AI?的偏見問題,學科間的合作很重要。“關于糾偏,計量經濟學的工具庫里有大量現成的東西,計算機和人工智能專業(yè)應該展開合作。”?于洋說。而社會學、倫理學、心理學,乃至工程設計、人機交互和技術政策等領域,都應該充分參與到這個問題的討論中,貢獻自己的學科長處。

學科間的合作能幫助AI更好地糾偏 | Pexels

吃進數據的?AI?像是“照妖鏡”,映照出了整個社會的頑疾。而解決這個問題,也不僅僅是“技術調整”,需要更多智慧和洞察,讓?AI?和人類一起“對話”,一起進步。

?

-----

?

關于這個問題,12月9日,在2022人工智能合作與治理國際論壇上,來自聯合國、學術、企業(yè)的專家將共同探討“正視人工智能引發(fā)的性別歧視”話題,歡迎預約直播參與。

直播預約:專題論壇4:正視人工智能引發(fā)的性別歧視


訪問網站,歡迎留言告訴我們你測試后的感想:https://aijustice.sqz.ac.cn


參考文獻:

1.???????Reuters, Amazon scraps secret AI recruiting tool that showed bias against women. Oct 18, 2018.?https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G

2.???????Liu, Y., Liu, X., Chen, H., & Yu, Y. (2022). Does Debiasing Inevitably Degrade the Model Performance.?arXiv preprint arXiv:2211.07350.

3.???????Sun, T., Gaut, A., Tang, S., Huang, Y., ElSherief, M., Zhao, J., ... & Wang, W. Y. (2019, July). Mitigating Gender Bias in Natural Language Processing: Literature Review. In?Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics?(pp. 1630-1640).

4.???????Zhao, J., Wang, T., Yatskar, M., Ordonez, V., & Chang, K. W. (2017, September). Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints. In?Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing?(pp. 2979-2989).

5.???????Kearns, M., & Roth, A. (2019).?The ethical algorithm: The science of socially aware algorithm design. Oxford University Press.

6.???????O'neil, C. (2017).?Weapons of math destruction: How big data increases inequality and threatens democracy. Crown.

AI性別歧視,是訓練不好的“蠢”,還是人類教的“壞”?的評論 (共 條)

分享到微博請遵守國家法律
华安县| 泗洪县| 民丰县| 玉树县| 嘉定区| 罗山县| 晋江市| 庆云县| 达尔| 平塘县| 万盛区| 广汉市| 张家港市| 昌平区| 安仁县| 曲麻莱县| 东方市| 分宜县| 武强县| 巍山| 永康市| 萨迦县| 穆棱市| 三亚市| 阿拉善左旗| 云安县| 呼伦贝尔市| 茶陵县| 句容市| 南昌县| 安宁市| 东光县| 诸暨市| 德格县| 巩留县| 称多县| 星座| 张北县| 大新县| 简阳市| 河西区|