人工智能的可解釋性:技術(shù)與倫理維度(論文筆記)
論文基本信息
論文題目 Artificial intelligence explainability: the technical and ethical dimensions
出版雜志:Phylosophical Transactions A
最新IF:4.226 ?綜合性期刊三區(qū) 發(fā)刊年份:1887 ? ?
官網(wǎng)地址:http://rsta.royalsocietypublishing.org/
論文地址:https://royalsocietypublishing.org/doi/10.1098/rsta.2020.0363
作者:John A. McDermid, Yan Jia, Zoe Porter andIbrahim Habli
引用:
@article{JohnMcDermid2021ArtificialIE,?
?title={Artificial intelligence explainability: the technical and ethical dimensions.}, ?
?author={John McDermid and Yan Jia and Zoe Porter and Ibrahim Habli}, ?
journal={Philosophical Transactions of the Royal Society A},?
year={2021},? ?
volume={379}, ?
pages={20200363} }
主要內(nèi)容
摘要
近年來,一些新的技術(shù)方法被開發(fā)出來,以使人工智能模型更加透明和可解釋。這些技術(shù)通常被統(tǒng)稱為“人工智能可解釋性”或“XAI”方法,本文對(duì)XAI方法進(jìn)行了概述,并將它們與利益相關(guān)者的目的聯(lián)系起來,以尋求解釋。因?yàn)闈撛诘睦嫦嚓P(guān)者的目的在本質(zhì)上是廣泛的倫理目的,我們認(rèn)為這一分析是對(duì)將XAI的技術(shù)和倫理維度結(jié)合在一起的貢獻(xiàn)。我們強(qiáng)調(diào),必須將XAI方法的使用與解釋人類在開發(fā)生命周期中所做的決定聯(lián)系起來。在更廣泛的責(zé)任框架內(nèi),我們的分析可能會(huì)為設(shè)計(jì)師、安全工程師、服務(wù)提供商和監(jiān)管機(jī)構(gòu)提供一個(gè)有用的起點(diǎn),他們需要對(duì)采用或要求使用哪些XAI方法做出實(shí)際判斷。本文是主題問題“Towards的共生自主系統(tǒng)”的一部分。
1introduction
人工智能(AI)--具體地說就是機(jī)器學(xué)習(xí)(ML)--正越來越多地被用于“關(guān)鍵”系統(tǒng)。關(guān)鍵系統(tǒng)直接影響人類的福祉、生命或自由。這些系統(tǒng)可能是數(shù)字系統(tǒng)(例如人類專家用來為醫(yī)療或監(jiān)禁判決提供信息的系統(tǒng)),也可能是具體化的自主系統(tǒng)(例如高度自動(dòng)化的汽車或無人駕駛飛行器)。使用基于ML的關(guān)鍵系統(tǒng)來協(xié)助或取代人類決策者提出了很多問題,比如我們何時(shí)以及是否應(yīng)該信任他們。人工智能可解釋性(XAI)方法是答案的一部分。XAI方法的使用有助于在使用ML的關(guān)鍵系統(tǒng)中建立保證或證明可信。
在本文中,我們將把利益相關(guān)者的目的與可解釋性的技術(shù)維度聯(lián)系起來,股東可能出于一系列原因而尋求使用XAI方法,如評(píng)估置信度、告知同意、質(zhì)疑決定或規(guī)范系統(tǒng)的使用。這些原因在本質(zhì)上往往是廣泛的倫理問題。
我們認(rèn)為,XAI方法是幫助實(shí)現(xiàn)這些目的的一種方式,但對(duì)合理性的要求也將解釋權(quán)追溯到設(shè)計(jì)和實(shí)施過程中的人為決定。因此,XAI方法處于一個(gè)更廣泛的問責(zé)生態(tài)系統(tǒng)中。我們的方法與[1]有相似之處,即關(guān)注構(gòu)成XAI方法受眾的利益相關(guān)者群體,但我們的重點(diǎn)更明確地放在利益相關(guān)者尋求解釋的實(shí)際原因上;我們還增加了一些利益相關(guān)者類別,如預(yù)測接受者,與最終用戶和法院有所區(qū)別。我們的方法與[2]也有相似之處,即確定不同利益相關(guān)者對(duì)解釋的要求差異,但鑒于我們更強(qiáng)調(diào)安全和保證,我們更關(guān)注外部利益相關(guān)者,如監(jiān)管機(jī)構(gòu)。
本文的其余部分結(jié)構(gòu)如下。第2節(jié)介紹了基于ML的系統(tǒng)的可解釋性,并對(duì)其進(jìn)行了背景說明。第3節(jié)確定了關(guān)鍵的利益相關(guān)者類別,并考慮了時(shí)間維度和利益相關(guān)者對(duì)XAI方法可能有的一般基本目的。這有助于構(gòu)建對(duì)可解釋性技術(shù)現(xiàn)狀的分析;第4節(jié)調(diào)查了廣泛使用的全局和局部XAI方法,將后者歸類為特征重要性或基于實(shí)例的方法。第5節(jié)說明了這些方法在臨床決策支持系統(tǒng)(DSS)中的一些應(yīng)用。第6節(jié)對(duì)利益相關(guān)者的目的和XAI方法的分析進(jìn)行了整合,其中包括一個(gè)表格,將利益相關(guān)者的需求與可用的XAI方法進(jìn)行交叉對(duì)比。這得到了三個(gè)場景的敘述性描述的支持,以加深理解。第7節(jié)從系統(tǒng)工程的角度出發(fā),討論了可解釋性和性能之間的權(quán)衡,并討論了XAI方法在安全保證中的更廣泛的作用。第8節(jié)考慮了可解釋性在實(shí)現(xiàn)和保證可信賴的人工智能和ML方面的重要性。
2 Explaining explainability 解釋可解釋性
(a)The challenge of AI explainability
從概念上講,傳統(tǒng)的軟件開發(fā)遵循一個(gè)確定的 "生命周期"。它從定義需求開始,經(jīng)過設(shè)計(jì)到實(shí)現(xiàn),例如編碼,然后隨著軟件的各個(gè)部分被集成到整個(gè)系統(tǒng)中,逐步對(duì)軟件進(jìn)行測試。在系統(tǒng)很關(guān)鍵的地方,生命周期是非常嚴(yán)格的。關(guān)鍵的要求,例如安全要求,在開發(fā)的每個(gè)階段都被定義和完善。驗(yàn)證可以保證系統(tǒng)滿足其關(guān)鍵要求;McDermid[3]說明了航空安全關(guān)鍵軟件的這個(gè)過程。通常,在有正式監(jiān)管制度的地方,標(biāo)準(zhǔn)規(guī)定了需要做什么來實(shí)現(xiàn)保證并獲得系統(tǒng)部署的批準(zhǔn)。
相比之下,基于ML的系統(tǒng)的開發(fā)是一個(gè)高度迭代的過程,有一個(gè)非常不同的生命周期,目前的標(biāo)準(zhǔn)并沒有提供保證的基礎(chǔ)?;贛L的系統(tǒng)的核心模型是在代表要解決的問題的數(shù)據(jù)上進(jìn)行訓(xùn)練的,然后根據(jù)預(yù)先定義的標(biāo)準(zhǔn)對(duì)其性能進(jìn)行評(píng)估,例如在檢測X射線圖像中的腫瘤生長時(shí)的假陽性數(shù)量,并加以改進(jìn),直到其性能令人滿意。這些模型具有實(shí)用性,因?yàn)樗鼈兛梢猿狡渥畛醯挠?xùn)練數(shù)據(jù)。例如,自動(dòng)駕駛汽車(AVs)可以在其訓(xùn)練數(shù)據(jù)集中不存在的情況下識(shí)別行人,預(yù)測他們的軌跡并進(jìn)行機(jī)動(dòng)操作以避免碰撞。

圖1?可解釋性的作用和背景
ML有很多類,如神經(jīng)網(wǎng)絡(luò)(NNS)[4]、支持向量機(jī)(SVMs)[5]和(深度)強(qiáng)化學(xué)習(xí)(RL)[6]。神經(jīng)網(wǎng)絡(luò)有子類,例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)[7]和深度神經(jīng)網(wǎng)絡(luò)(DNN)[8]。我們這里的目標(biāo)是盡可能地“解釋性”,而不涉及特定ML方法的細(xì)節(jié)。出于我們的目的,我們可以將基于ML的系統(tǒng)描述為在大數(shù)據(jù)集上接受訓(xùn)練以執(zhí)行分類或回歸任務(wù)。當(dāng)所得到的模型用于分類目的時(shí),它們進(jìn)行概率預(yù)測,例如,圖像包含腫瘤的概率為90%。
ML模型通常是高度復(fù)雜的,因此不能直接接受人類的檢查(或者說是 "不透明 "或 "黑盒子")。此外,ML模型的結(jié)構(gòu)可能不符合人類在做決定時(shí)使用的特征,所以即使模型可以被檢查,解釋仍然是困難的。一些圖像分析系統(tǒng)在加入少量的噪音時(shí),會(huì)對(duì)物體進(jìn)行錯(cuò)誤的分類,這些噪音對(duì)于人類來說是無法察覺的,但是由于已經(jīng)學(xué)習(xí)了一些特征,所以在模型中非常重要[9]。
簡而言之,XAI方法尋求提供ML模型的人類可解釋表示,以幫助克服這些和其他問題。
(b) Context and roles for explainability
我們使用一個(gè)簡單的插圖,基于[10]中的ML生命周期模型,用于 "解釋可解釋性"(圖1)。該圖旨在表明,不同的利益相關(guān)者,如用戶、監(jiān)管者和法院,在試圖理解基于ML的系統(tǒng)正在做什么時(shí)可能有不同的目的。這反過來有助于為人類決策提供信息,例如,決定是否批準(zhǔn)使用基于ML的系統(tǒng)或接受預(yù)測或建議。
圖1中用金棕色陰影的方框表示可能需要的解釋。技術(shù)界的XAI研究主要集中在解釋系統(tǒng)的輸出(預(yù)測)和模型上。但是也經(jīng)常需要解釋數(shù)據(jù)的收集(綠色陰影的方框),以及訓(xùn)練數(shù)據(jù)的準(zhǔn)備,以表明它是平衡的,例如在性別或種族方面,或者表明它涵蓋了在使用自動(dòng)駕駛汽車的特定國家中發(fā)現(xiàn)的所有不同種類的道路交叉口。數(shù)據(jù)準(zhǔn)備是ML模型的一個(gè)關(guān)鍵解釋,人類決策者應(yīng)該能夠解釋對(duì)特定數(shù)據(jù)集的選擇,這是ML生命周期的第一個(gè)步驟。
ML模型反映了系統(tǒng)要解決的問題(以及其解決方案)的特征。在實(shí)踐中,ML系統(tǒng)開發(fā)者通過在選定的數(shù)據(jù)上進(jìn)行訓(xùn)練來塑造模型所代表的特征集,評(píng)估其性能(例如,它正確識(shí)別的行人的比例--稱為真陽性--以及那些被它錯(cuò)誤地歸類為行人的物體,如巴士邊上的廣告中的真人大小的圖片--稱為假陽性),并不斷重復(fù)以提高性能。訓(xùn)練將尋求平衡不同標(biāo)準(zhǔn)之間的性能。這種平衡將由特定系統(tǒng)的開發(fā)者決定,例如,對(duì)于自動(dòng)駕駛汽車來說,為了減少錯(cuò)誤的否定,出于安全考慮,高水平的假陽性可能是可以接受的。ML模型的開發(fā)總是涉及這種平衡或權(quán)衡。XAI方法所能做的就是強(qiáng)調(diào)這種權(quán)衡的后果。事實(shí)上,很多關(guān)于可解釋性的工作,例如[2],都集中在開發(fā)者身上,以幫助他們指導(dǎo)ML模型的開發(fā),但在本文中,我們將主要關(guān)注開發(fā)之外的其他利益相關(guān)者。
為了避免與人類在回路中做出的決定相混淆,圖1中使用了 "預(yù)測 "一詞,但這些可能包括自主系統(tǒng)做出的決定,例如,當(dāng)AV檢測到交通信號(hào)燈為紅色時(shí),可能決定停下來。在本文的其余部分,我們繼續(xù)使用這個(gè)術(shù)語:基于ML的系統(tǒng)的所有輸出--無論是決定、建議、預(yù)測還是分類--都將被稱為 "預(yù)測"。
types of explainability method 可解釋性方法的例子
在我們分析的第一個(gè)層面,我們將重點(diǎn)關(guān)注XAI方法的兩個(gè)維度:
局部與全局-局部解釋涉及單個(gè)預(yù)測(產(chǎn)生于ML模型的單個(gè)輸入),而全局解釋尋求將模型作為整體來解釋[2],從而闡明可能預(yù)測的范圍。
時(shí)間--我們把解釋的時(shí)間分成三類:事前--在作出預(yù)測之前;同時(shí)--與預(yù)測同時(shí);事后--在作出預(yù)測之后。
在第4節(jié),我們將考慮特征重要性和基于實(shí)例的方法。我們還將采用特定模型和模型無關(guān)的解釋之間的區(qū)別。一個(gè)與模型無關(guān)的解釋可以獨(dú)立于用于開發(fā)模型的方法,例如神經(jīng)網(wǎng)絡(luò)或支持向量機(jī),而特定模型的解釋則取決于所使用的ML模型的類型。
3. Stakeholders and explanations 利益相關(guān)者和解釋
(a) Stakeholders
有幾個(gè)利益相關(guān)者團(tuán)體可能需要解釋ML模型及其預(yù)測。在本文的范圍內(nèi),我們確定了以下幾類利益相關(guān)者,每一類都與系統(tǒng)有不同的關(guān)系:
預(yù)測-受助人(例如抵押貸款申請(qǐng)者、在押罪犯、住院病人)。這些持有者本身并不使用基于ML的系統(tǒng)(預(yù)測通常是由專家用戶中介的),但他們直接受到其預(yù)測的影響。
最終用戶(如汽車司機(jī)、網(wǎng)上購物者)。這些利益相關(guān)者既是基于ML的系統(tǒng)的直接用戶,也直接受其影響。雖然終端用戶經(jīng)常會(huì)是預(yù)測的接受者,但我們把他們排除在這個(gè)類別之外,因?yàn)樗麄冎苯邮褂迷撓到y(tǒng)。即便如此,終端用戶也不一定能直接看到個(gè)別預(yù)測,例如對(duì)AV的預(yù)測。
專家用戶(例如臨床醫(yī)生、遠(yuǎn)程飛行員)。這些利益相關(guān)者是基于ML的系統(tǒng)的直接用戶,但他們不會(huì)直接受到其預(yù)測的影響。他們受到間接影響,因?yàn)樗麄兛赡芤獙?duì)制定的預(yù)測的后果負(fù)責(zé)(無論是法律上還是道德上)。
監(jiān)管機(jī)構(gòu)(例如,金融服務(wù)管理局、車輛認(rèn)證機(jī)構(gòu)、醫(yī)療和保健產(chǎn)品監(jiān)管機(jī)構(gòu))。這些利益相關(guān)者既不是基于ML系統(tǒng)的直接用戶,也不直接受其影響。然而,他們確實(shí)保護(hù)預(yù)測接受者和最終用戶的利益。監(jiān)管生態(tài)系統(tǒng)很復(fù)雜,需要適應(yīng)基于ML的系統(tǒng)[11]。即便如此,這些機(jī)構(gòu)還是負(fù)責(zé)系統(tǒng)的批準(zhǔn)和部署;他們還監(jiān)督系統(tǒng)的持續(xù)(安全)使用。評(píng)估者和保險(xiǎn)公司資助的研究中心,如Thatcham,通常提供專家指導(dǎo)和審查,以支持這一監(jiān)管活動(dòng)。
服務(wù)提供商(例如谷歌、自動(dòng)駕駛系統(tǒng)實(shí)體(ADSE)[12])。這些利益相關(guān)者是將系統(tǒng)提交授權(quán)的公司和法律實(shí)體,并在系統(tǒng)部署時(shí)為其擔(dān)保。他們可能是制造商或軟件開發(fā)商,或兩者之間的合資企業(yè)[12]。這些利益相關(guān)者可能要對(duì)基于ML的系統(tǒng)在部署后的行為承擔(dān)法律責(zé)任[13]。
事故和事件調(diào)查員(例如,國家運(yùn)輸安全委員會(huì)(NTSB)、海洋事故調(diào)查處(MAIB)、健康和安全執(zhí)行委員會(huì)(HSE))。這些利益相關(guān)者負(fù)責(zé)分析事故或事件,并提出建議,以避免未來在同一系統(tǒng)或類似系統(tǒng)中發(fā)生此類事件。在某些情況下,例如HSE,他們也可能負(fù)責(zé)啟動(dòng)法律程序。
律師和法院(如大律師、皇家檢察署(CPS))。這些利益相關(guān)者對(duì)確定基于ML系統(tǒng)造成的傷害的責(zé)任感興趣。個(gè)人律師可以代表預(yù)測接受者或最終用戶尋求賠償。終端用戶尋求賠償。
保險(xiǎn)公司(如DirectLine, AViva)。這些利益相關(guān)者代表服務(wù)提供者和用戶承擔(dān)財(cái)務(wù)風(fēng)險(xiǎn)。在實(shí)踐中,他們?cè)诖_保安全標(biāo)準(zhǔn)得到滿足方面發(fā)揮了有益的作用:他們可能會(huì)要求提供證據(jù),證明服務(wù)提供商已經(jīng)滿足了監(jiān)管要求,甚至對(duì)他們自己施加更嚴(yán)格的標(biāo)準(zhǔn)。
(b) Purpose of explanation
對(duì)解釋的研究跨越了科學(xué)、心理學(xué)、認(rèn)知科學(xué)和哲學(xué)[14]。研究人員已經(jīng)注意到,"解釋 "一詞基本上被XAI社區(qū)重新使用[15]。它在技術(shù)意義上的含義只觸及了關(guān)于解釋及其功能的多學(xué)科討論的某些層面。
XAI方法所提供的解釋是描述性的。這說明了這些技術(shù)可以提供的透明度。這里與科學(xué)建模有相似之處。兩者都是處理提供現(xiàn)象或行為描述的近似值[15]。XAI方法還可以提供因果關(guān)系和邏輯解釋。它們提供了對(duì)ML模型如何產(chǎn)生預(yù)測的一些理解。這說明這些技術(shù)可以提供可解釋性(因此我們?cè)趫D1中使用了 "解釋 "一詞)。因果關(guān)系是哲學(xué)、法律、心理學(xué)和認(rèn)知科學(xué)中解釋的核心[14]。但哲學(xué)上的解釋也強(qiáng)調(diào)規(guī)范性解釋[16]。這些解釋為一個(gè)信念、決定或行動(dòng)提供了很好的理由;這樣,他們可以向受影響的人證明一個(gè)過程或一個(gè)結(jié)果的合理性。XAI方法所提供的解釋并不提供這種意義上的解釋[17]。例如,這些方法可以強(qiáng)調(diào)數(shù)據(jù)中的哪些特征被模型分配了較大的權(quán)重,這決定了一個(gè)特征對(duì)預(yù)測的影響或該特征在模型中的重要性[18]。這種權(quán)重的分配又是由該特征在訓(xùn)練階段產(chǎn)生準(zhǔn)確結(jié)果的成功性決定的。因此,為某一特征的重要性給出的理由必須回到模型訓(xùn)練期間的人為決策。這就是XAI方法所處的更廣泛的責(zé)任框架。人,而不是(僅僅)系統(tǒng),要對(duì)ML開發(fā)生命周期中的決策負(fù)責(zé)。
在社會(huì)科學(xué)領(lǐng)域,關(guān)于人們對(duì)解釋的期望已經(jīng)做了大量的工作。其中一些,比如人們更喜歡帶有潛在因果解釋的對(duì)比性解釋的發(fā)現(xiàn),可以通過XAI方法滿足或在一定程度上接近[14]。心理學(xué)研究表明,解釋者的價(jià)值觀為解釋的選擇和評(píng)價(jià)提供了依據(jù),而這些選擇又會(huì)對(duì)接受者對(duì)事件的理解產(chǎn)生重大影響;因此,解釋者應(yīng)該仔細(xì)思考所使用的XAI方法及其與接受者的溝通[15]。重要的是,解釋要以適當(dāng)?shù)某橄蟪潭葌鬟_(dá)給利益相關(guān)者[19]。使用可視化界面也可以提高一些利益相關(guān)者對(duì)解釋的認(rèn)識(shí)水平[20]。但同樣地,對(duì)系統(tǒng)行為的解釋如果表現(xiàn)得比實(shí)際情況更嚴(yán)謹(jǐn)、更完整,也會(huì)造成不合理的信任[21,22]。
下面,我們確定了利益相關(guān)者尋求XAI方法所提供的解釋的一些一般基本原因。這種描述并不打算被理解為同質(zhì)性或排他性。一個(gè)利益相關(guān)者,如專家用戶,可能有一個(gè)以上的基本目的,例如,他們可能尋求解釋以確定一個(gè)模型是否符合法規(guī),也可能尋求解釋以在采取行動(dòng)前評(píng)估對(duì)某一特定預(yù)測的信心。同樣地,來自不同利益相關(guān)者類別的個(gè)人可能有類似的目的,例如,使用信息來挑戰(zhàn)一個(gè)特定的預(yù)測。因此,我們的分析,特別是第6節(jié)的分析,應(yīng)該被看作是指示性的,而不是確定的或詳盡的,它是作為一個(gè)起點(diǎn)來建立的。
我們的假設(shè)是,理解這些基本目的--我們根據(jù)與開發(fā)商、行業(yè)和監(jiān)管機(jī)構(gòu)合作的第一手經(jīng)驗(yàn),將其提煉為以下的一般類別--將有助于了解解釋要求,例如是否需要全局或局部解釋,這反過來又可以告知哪些XAI方法在特定情況下最合適。解釋的時(shí)間也將與解釋要求有關(guān)。我們的分析與[23,24]中的分析大致一致。我們認(rèn)為,進(jìn)一步的實(shí)證研究將有好處,以確認(rèn)利益相關(guān)者類別之間的關(guān)系的性質(zhì)和重要性,以及他們尋求ML模型和預(yù)測的解釋的根本原因。
1. 清晰度。更清晰的模型或其預(yù)測幾乎是所有利益相關(guān)者(幾乎按照定義)所要求的。XAI方法的所有方面都與滿足這一需求有關(guān):部署前的全局解釋;同時(shí)進(jìn)行的局部解釋和回顧性的本地解釋。然而,同樣重要的是,提供XAI方法的人要以誠實(shí)的態(tài)度對(duì)待這一要求。當(dāng)這種明確性不可行時(shí),不應(yīng)認(rèn)為他們會(huì)提供明確或準(zhǔn)確的解釋[21]。
2. 遵守。確定是否符合法律、法規(guī)或最佳做法是XAI方法可能有助于實(shí)現(xiàn)的另一個(gè)基本目的。特定部門的監(jiān)管機(jī)構(gòu)將對(duì)基于ML的系統(tǒng)的批準(zhǔn)有自己的要求。此外,跨領(lǐng)域的議會(huì)法案也適用(例如,2018年數(shù)據(jù)保護(hù)法、英國GDPR、2010年平等法案)。有人提出,利益相關(guān)者可以依靠XAI方法來履行法律義務(wù),向受影響的個(gè)人提供關(guān)于特定產(chǎn)出的邏輯信息[25]。這些將是事后的局部解釋。此外,全球XAI方法可以成為監(jiān)管機(jī)構(gòu)和合規(guī)官員的工具箱的一部分,以審問和證明系統(tǒng)對(duì)目的的適用性[26]。而本地的同期XAI方法可能會(huì)在持續(xù)保證模型的性能方面發(fā)揮作用。
3. 信心。利益相關(guān)者通常希望在繼續(xù)執(zhí)行由預(yù)測所提供的決策之前,評(píng)估他們對(duì)預(yù)測的信心。研究表明,提供足夠詳細(xì)的解釋可以影響用戶--主要是專家用戶--對(duì)算法決定的接受程度[25]。XAI方法可用于這一目的。全局解釋可以在部署前告知對(duì)模型預(yù)測范圍的信心程度。當(dāng)基于ML的系統(tǒng)被人類專家用來為決策提供信息時(shí),將需要一個(gè)局部的和同期的解釋,以決定是否對(duì)一個(gè)特定的預(yù)測實(shí)時(shí)采取行動(dòng)。
4.同意與控制。XAI方法還可能在使利益相關(guān)者更好地行使與ML模型相關(guān)的人類自主性方面發(fā)揮作用[24]。適當(dāng)?shù)慕忉尶梢允褂脩魧?duì)基于ML的個(gè)人助理的建議給予知情同意,例如,在AV的情況下,可以充分理解一個(gè)過渡需求,以恢復(fù)對(duì)系統(tǒng)的有效控制。這一目的與信心密切相關(guān),因?yàn)閮烧咦罱K都涉及接受。就像之前的案例一樣,最能滿足這一目的的解釋可能是本地的和同期的。
5. 挑戰(zhàn)。尋求挑戰(zhàn)或質(zhì)疑某一特定預(yù)測的利益相關(guān)者也可以部分地依靠XAI方法來實(shí)現(xiàn)。特定人口群體的成員受到基于ML的預(yù)測的不利和不公平影響的例子不勝枚舉。一個(gè)特別惡劣的例子是COMPAS系統(tǒng),該系統(tǒng)預(yù)測個(gè)人的累犯風(fēng)險(xiǎn),并經(jīng)常錯(cuò)誤地將高風(fēng)險(xiǎn)分?jǐn)?shù)分配給黑人被告,將低風(fēng)險(xiǎn)分?jǐn)?shù)分配給白人被告[27]。其他的例子包括招聘和貸款決定中的偏見[28]。對(duì)公平性的要求往往導(dǎo)致對(duì)可解釋模型的要求[17]。XAI方法可以幫助識(shí)別何時(shí)發(fā)生了錯(cuò)誤,或者提供證據(jù)來質(zhì)疑預(yù)測。出于這樣的目的,在提出建議后,要求進(jìn)行局部解釋。
6. 持續(xù)改進(jìn)。最后,XAI方法可以幫助基于ML的系統(tǒng)的開發(fā)者,以及其他利益相關(guān)者,如事故調(diào)查員和監(jiān)管者,以確保系統(tǒng)的持續(xù)改進(jìn)和更新。這里的要求將是對(duì)全局和局部的解釋。
這些尋求解釋的不同根本原因在本質(zhì)上是廣泛的道德問題。它們涉及到人們和組織對(duì)彼此的義務(wù)。它們關(guān)系到人們對(duì)公平和尊重的合理期望是否被模型的預(yù)測所滿足。它們與個(gè)人的自主權(quán)的行使有關(guān)。它們與利益相關(guān)者對(duì)模型的行為是否與系統(tǒng)的規(guī)范性目標(biāo)一致的評(píng)估有關(guān)。但必然的是,這些目的只能由XAI方法部分地實(shí)現(xiàn)。這些方法本身往往是近似的,并提供部分和有選擇的信息。此外,XAI方法并不提供規(guī)范性的解釋。它們需要在一個(gè)更廣泛的論證中進(jìn)行,在這個(gè)論證中,人類組織和決策者為導(dǎo)致模型在整個(gè)生命周期中被開發(fā)的選擇提供理由。
4 Explainability methods
研究表明,對(duì)于復(fù)雜的ML模型,局部XAI方法遠(yuǎn)比全局XAI方法更常見[2]。在本節(jié)中,我們首先簡要討論了一些相對(duì)簡單的ML模型,這些模型具有內(nèi)在的可解釋性,可以提供局部和全局的解釋。然后,我們重點(diǎn)討論更復(fù)雜的ML模型,這些模型往往用于關(guān)鍵的應(yīng)用中,局部XAI方法可以提供寶貴的信息。對(duì)于這些更復(fù)雜的模型,我們研究了特征重要性方法,它可以與模型無關(guān),也可以針對(duì)模型,以及基于例子的方法,它通常與模型無關(guān)。
(a)intrinsically interpretable ML models
一些類型的ML模型由于其簡單性而被認(rèn)為是內(nèi)在可解釋的(可解釋的),例如線性回歸和決策樹[29] 。例如,線性回歸模型的權(quán)重可以被看作是一個(gè)粗略的特征重要性分?jǐn)?shù),如果輸入的特征處于類似的規(guī)模,就可以對(duì)模型進(jìn)行全面了解。決策樹的特征重要性可以根據(jù)吉尼雜質(zhì)的平均減少量來計(jì)算[30],或者作為一種選擇,使用包絡(luò)特征重要性[31],根據(jù)數(shù)據(jù)集中單個(gè)特征值隨機(jī)洗牌時(shí)模型得分的減少量來計(jì)算重要性。這些解釋方法可以為決策樹模型提供全局性的洞察力,而且包絡(luò)特征重要性已經(jīng)被證明可以避免基于Gini雜質(zhì)的方法的一些缺陷[32],并且是模型無關(guān)的。此外,這些可解釋的ML模型經(jīng)常被用作近似其他復(fù)雜ML模型的代用品,給人以更復(fù)雜的ML模型的啟示[33]。
(b)Explainability methods for complex ML models
如上所述,有許多不同的方法可以對(duì)XAI方法進(jìn)行分類。在此,我們將對(duì)復(fù)雜的ML模型有用的方法細(xì)分為特征重要性和基于實(shí)例的方法。特征重要性方法可以是模型無關(guān)的,也可以是針對(duì)模型的,這與內(nèi)在可解釋模型的解釋不同,后者通常是針對(duì)模型的。基于實(shí)例的解釋通常是與模型無關(guān)的,對(duì)于解釋關(guān)鍵應(yīng)用中使用的復(fù)雜ML模型非常重要。文獻(xiàn)中有許多不同的XAI方法。我們?cè)诖撕喴榻B一些更廣泛使用的方法,在第5節(jié)中給出一個(gè)說明性的例子,并在第6節(jié)中說明XAI方法如何映射到利益相關(guān)者的需求。
(c) Feature importance methods
特征重要性是迄今為止可解釋性研究中最流行的方法[34]。特征重要性方法有兩個(gè)主要的子類別。一個(gè)是基于擾動(dòng)的方法。另一個(gè)是基于梯度的方法。基于擾動(dòng)的方法通過移除、掩蓋或改變一個(gè)輸入特征或一組輸入特征來對(duì)單個(gè)輸入進(jìn)行擾動(dòng),并觀察其與原始輸出的差異。這種方法可用于許多不同的應(yīng)用,如圖像數(shù)據(jù)、表格數(shù)據(jù)或文本數(shù)據(jù)[35,36]。例如,在一個(gè)使用CNN的圖像分類任務(wù)中,擾動(dòng)是通過遮擋輸入圖像的不同部分來實(shí)現(xiàn)的,并將分類預(yù)測概率的變化可視化[37]。
LIME(Local Interpretable Model-Agnostic Explanations)是一種流行的基于pertubation的方法[38]。它通過使用一個(gè)可解釋的模型(如線性模型)來接近復(fù)雜的ML模型,并通過對(duì)感興趣的單一輸入樣本的擾動(dòng)進(jìn)行學(xué)習(xí)來產(chǎn)生解釋。LIME假設(shè)有可能圍繞單一輸入樣本擬合一個(gè)可解釋的模型,該模型模仿復(fù)雜ML模型的局部行為。然后,這個(gè)簡單的可解釋模型可以用來解釋更復(fù)雜的ML模型對(duì)這個(gè)單一輸入樣本的預(yù)測。
基于合作博弈理論中Shapley值的擾動(dòng)方法也非常流行[39]。Shapley值是一種將合作博弈的總收益分配給玩家的方法,保證了唯一的解決方案。在使用Shapley值解釋模型預(yù)測時(shí),模型的輸入特征被看作是游戲者,而模型預(yù)測是合作博弈的收益。然而,在實(shí)踐中很難計(jì)算出準(zhǔn)確的Shapley值,因?yàn)樗鼈冊(cè)谀P洼斎胩卣鞯拇笮∩鲜侵笖?shù)級(jí)的。因此,人們提出了一些近似的方法,例如,基于聚合的方法[40]、蒙特卡洛抽樣[41]和針對(duì)圖結(jié)構(gòu)數(shù)據(jù)的方法,例如語言和圖像數(shù)據(jù)[42]。
SHAP. (SHapley Additive exPlanations)[43]是另一種近似Shapley值的方法。SHAP結(jié)合了幾個(gè)工具,例如KernelSHAP和TreeSHAP[44]。KernelSHAP是一個(gè)受LIME啟發(fā)的精確Shapley值的加權(quán)線性回歸近似,它可以用來為任何ML模型提供局部解釋。TreeSHAP是一種僅適用于基于樹的模型的有效估計(jì)方法,也就是說,它是針對(duì)特定模型的。關(guān)于SHAP的工作定義了一類新的加性特征重要性度量,它統(tǒng)一了幾個(gè)現(xiàn)有的可解釋性方法。
基于擾動(dòng)的方法可以直接估計(jì)特征的重要性,但它們往往非常緩慢,因?yàn)樗鼈兠看味紩?huì)擾動(dòng)一個(gè)或一組特征,所以隨著ML模型中輸入特征數(shù)量的增加,可能需要很長時(shí)間才能生成所有特征的重要性分?jǐn)?shù),例如用于圖像分析[45]。另外,由于復(fù)雜的ML模型通常是非線性的,解釋受選擇的一組特征的影響很大,這些特征會(huì)被放在一起。相比之下,基于梯度的方法有可能更有效率。
基于梯度的基本方法只是計(jì)算輸出相對(duì)于輸入的梯度。例如,在圖像分類任務(wù)中,通過計(jì)算輸出相對(duì)于輸入的梯度來產(chǎn)生一個(gè) "顯著性地圖",以識(shí)別對(duì)分類有重大影響的像素[46]。基于梯度的方法有幾個(gè)變種。梯度*輸入將梯度(嚴(yán)格來說是偏導(dǎo)數(shù))乘以輸入值,以提高特征重要性的清晰度[47]。集成梯度與梯度*輸入類似,它通過在從基線到特征當(dāng)前值的范圍內(nèi)集成計(jì)算輸出相對(duì)于每個(gè)輸入特征的梯度,以產(chǎn)生平均梯度[48].這種方法有許多與之相關(guān)的理想特性。DeepLIFT(Deep Learning Important FeaTures)[49]是專門為使用深度神經(jīng)網(wǎng)絡(luò)而開發(fā)的。DeepLIFT將每個(gè)神經(jīng)元的激活與它的 "參考激活 "進(jìn)行比較,并根據(jù)差異給每個(gè)輸入分配一個(gè)重要性分?jǐn)?shù)。參考激活 "是通過一些用戶定義的參考輸入獲得的,代表一個(gè)無信息的背景值,例如,對(duì)于圖像分類,這可能是一個(gè)完全黑色的圖像。DeepLIFT已經(jīng)被證明在大多數(shù)情況下是綜合梯度的良好近似[50]。
(d) Example-based methods
基于實(shí)例的方法使用特定的輸入實(shí)例來解釋復(fù)雜的ML模型,因此它們通常提供局部解釋。這是由人類的推理方式所激發(fā)的,使用類似的情況來提供解釋[51]。這是常見的做法,例如,在法律中[52,53],司法判決通常是基于先例(稱為案例法)。人們對(duì)使用基于實(shí)例的方法來解釋復(fù)雜的ML模型越來越感興趣,有些人認(rèn)為它們是對(duì)基于特征的解釋的有益補(bǔ)充[54]。我們描述了三種基于例子的方法。
Wachter等人提出了ML模型的反事實(shí)解釋[ 55]。他們使用類似的情況,對(duì)ML模型的當(dāng)前輸入實(shí)例進(jìn)行不同的預(yù)測,例如,在醫(yī)療保健中實(shí)現(xiàn)一個(gè)理想的結(jié)果。例如,這些可以用來說明病人的狀態(tài)或治療需要什么變化才能讓他們出院。要以這種方式使用,重要的是,反事實(shí)的解釋要盡量減少當(dāng)前輸入特征和反事實(shí)例子之間的差異。應(yīng)該使用什么樣的指標(biāo)來最小化差異是一個(gè)正在進(jìn)行的研究領(lǐng)域[56,57]。
Szegedy等人發(fā)現(xiàn)并討論了對(duì)抗性例子[58]。它們是小的、有意的、導(dǎo)致ML模型做出錯(cuò)誤預(yù)測的特征擾動(dòng),例如,在圖像分析中對(duì)物體進(jìn)行錯(cuò)誤分類[59]或在文本分類任務(wù)中愚弄閱讀理解系統(tǒng)[60,61]。它與反事實(shí)解釋不同,反事實(shí)解釋通常在ML模型固定時(shí)使用。自動(dòng)駕駛中的一個(gè)對(duì)抗性例子可能是在停車標(biāo)志的圖像中添加噪音,這樣它就不會(huì)被ML模型所識(shí)別,盡管它在人類看來是沒有變化的。一旦確定了這樣的問題,它們就可以被用來提高復(fù)雜的ML模型的魯棒性。因此,在模型訓(xùn)練過程中一般使用對(duì)抗性例子,而不是像特征重要性方法那樣提供解釋,但更穩(wěn)健的ML模型可以提高特征重要性結(jié)果的質(zhì)量[62]。
影響性實(shí)例是訓(xùn)練數(shù)據(jù)集中對(duì)ML模型預(yù)測影響最大的輸入,即ML模型參數(shù)受這些輸入的影響很大。尋找影響性實(shí)例的一個(gè)簡單方法是刪除訓(xùn)練數(shù)據(jù)集中的輸入,重新訓(xùn)練模型并評(píng)估其影響;雖然簡單明了,但對(duì)于大型數(shù)據(jù)集來說這是不現(xiàn)實(shí)的。通常使用不需要重新訓(xùn)練模型的數(shù)學(xué)技巧[63]。與對(duì)抗性例子一樣,有影響力的例子最好在訓(xùn)練期間使用,對(duì)ML模型的穩(wěn)健性貢獻(xiàn)更大,而不是提供直接解釋。
5. Explainability example
在這一節(jié)中,我們介紹了一個(gè)具體的例子,將特征重要性方法(DeepLIFT)應(yīng)用于醫(yī)療應(yīng)用。在重癥監(jiān)護(hù)室(ICU),機(jī)械通氣是一種復(fù)雜的臨床干預(yù),消耗了ICU很大一部分的資源[64,65]。確定病人脫離機(jī)械支持的正確時(shí)間是非常重要的。

圖2 示例神經(jīng)網(wǎng)絡(luò)的ROC曲線
????然而評(píng)估患者的脫機(jī)準(zhǔn)備情況是一項(xiàng)復(fù)雜的臨床任務(wù),使用ML來協(xié)助臨床醫(yī)生是有潛在益處的[66]。該示例使用基于MIMIC-III數(shù)據(jù)集[67]的NNS來預(yù)測下一小時(shí)的脫機(jī)準(zhǔn)備情況。神經(jīng)網(wǎng)絡(luò)模型根據(jù)1839名患者入院的數(shù)據(jù)進(jìn)行訓(xùn)練,神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)和超參數(shù)使用229名患者入院的驗(yàn)證數(shù)據(jù)集進(jìn)行調(diào)整,并在231名患者入院時(shí)進(jìn)行性能評(píng)估。更多細(xì)節(jié)見[54],它還顯示了反事實(shí)解釋的使用。

????表1 實(shí)例神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率
????一個(gè)ML模型的性能通常以預(yù)測的準(zhǔn)確性和接受者操作特征曲線下的面積(AUC-ROC)來評(píng)估。對(duì)于一個(gè) "隨機(jī) "模型,AUC-ROC是0.5,而對(duì)于一個(gè)完美的模型,AUC-ROC是1。這個(gè)例子對(duì)CNN和DNN進(jìn)行了比較?;谛阅?,兩者都很有希望,達(dá)到約87%的準(zhǔn)確率和0.93-0.94的AUC-ROC(圖2和表1)?;谛阅?,它們之間似乎沒有什么可選擇的。然而,我們隨后使用DeepLIFT來確定兩個(gè)神經(jīng)網(wǎng)絡(luò)的特征重要性,見圖3,其中較長的條形意味著特征的重要性更高。請(qǐng)注意,符號(hào)表示對(duì)結(jié)果的積極和消極影響,零意味著該特征的重要性不大。這顯示了兩個(gè)模型之間的顯著差異。
首先,DeepLIFT顯示,CNN顯示種族、性別和年齡的重要性都接近零,而DNN顯示年齡和性別的重要性更高。這些信息對(duì)監(jiān)管機(jī)構(gòu)決定批準(zhǔn)哪些模型至關(guān)重要。從這些信息中推斷出CNN比DNN的偏見要小,那就過于簡單了,因?yàn)樽屇P蛯?duì)受保護(hù)的特征正式 "失明 "很少能消除偏見的風(fēng)險(xiǎn),甚至可能產(chǎn)生相反的效果,這取決于背景[68]。但是,讓醫(yī)療監(jiān)管者看到特征的重要性,使他們能夠就擬議的基于ML的應(yīng)用對(duì)某些人口群體的潛在負(fù)面影響提出正確的問題。
第二,CNN的特征重要性與臨床知識(shí)更加一致。一些特征,例如Richardson-RAS量表[69],顯示了病人的警覺程度,在兩個(gè)NN中都有很高的重要性。然而,CNN更重視一些病人的情況,如潮氣量(呼吸深度)和治療的特征,如呼吸機(jī)的操作模式,這些通常是由臨床醫(yī)生考慮的??山忉屝缘氖褂檬菫閷<矣脩籼峁Q策支持的一個(gè)例子,但它在幫助ML模型開發(fā)者產(chǎn)生更有效的結(jié)果,以及幫助監(jiān)管機(jī)構(gòu)確定批準(zhǔn)方面也有作用。
這個(gè)例子顯示了XAI方法對(duì)復(fù)雜的ML模型的重要性,以及僅使用性能不足以評(píng)估一個(gè)給定的ML模型是否是安全關(guān)鍵情況下的合適咨詢工具。這也說明了如何將解釋可視化,如圖1中確定的那樣,以便讓利益相關(guān)者能夠理解。

圖3 比較特征重要性。(a)CNN特征重要性,(b)DNN特征重要性
6. Integration of stakeholder purposes and XAI methods 利益相關(guān)者目的與XAI方法的整合
第3節(jié)中關(guān)于利益相關(guān)者的討論和第4節(jié)中關(guān)于XAI方法的調(diào)查被整合到表2中。在這里,我們首先解釋了表的結(jié)構(gòu),然后對(duì)需要解釋的利益相關(guān)者和場景的三種組合進(jìn)行了更深入的討論,強(qiáng)調(diào)了每種情況下的倫理考慮;我們還重新審視了上一節(jié)的例子,說明它與表的關(guān)系。
表2確定了利益相關(guān)者和特定場景下的解釋目的,例如,從事系統(tǒng)審批的監(jiān)管者的信心和合規(guī)性。解釋的時(shí)間已經(jīng)確定,最后三行與圖1中的金棕色陰影框相對(duì)應(yīng),并確定了解釋應(yīng)該是局部的還是全局的,最后兩行是對(duì)候選XAI方法的說明(數(shù)據(jù)可視化的方法不在本文的討論范圍內(nèi))。該表旨在說明問題,并非詳盡無遺。為了保持表格的緊湊,調(diào)查涵蓋了一些案例,而不僅僅是物理事故。例如,一個(gè)預(yù)測接受者可能會(huì)立即對(duì)一個(gè)決定提出質(zhì)疑(如最右邊一欄所示),但法院和代表接受者的律師可能會(huì)對(duì)全局和局部的解釋感興趣,例如,看一個(gè)ML模型是否顯示出系統(tǒng)的偏差。
預(yù)測對(duì)象作為直接受影響的個(gè)人,應(yīng)該始終是道德和安全的核心焦點(diǎn)。我們?cè)谶@里也包括被排除在預(yù)測系統(tǒng)之外的直接受影響的個(gè)人。在刑事司法和零售銀行等領(lǐng)域,對(duì)預(yù)測接受者的一個(gè)重要的倫理考慮是,他們不會(huì)受到不公平的歧視性預(yù)測的影響。有很多基于ML的模型的例子被證明會(huì)加強(qiáng)對(duì)個(gè)人的種族和性別[70]以及郵編或社會(huì)經(jīng)濟(jì)地位[71]的偏見。雖然這里的主要解釋是創(chuàng)建數(shù)據(jù)集的人類決定(圖1),但也需要XAI方法來幫助確定ML模型是否反映或加劇了偏見[72]。如上所述,特征重要性方法可以幫助確定這一點(diǎn)。應(yīng)該注意的是,在個(gè)人可識(shí)別的情況下,關(guān)于個(gè)人的自動(dòng)預(yù)測構(gòu)成了個(gè)人數(shù)據(jù)[26]。因此,它們屬于數(shù)據(jù)保護(hù)法的范圍。這就產(chǎn)生了對(duì)事后本地解釋的要求,如果個(gè)人試圖挑戰(zhàn)已經(jīng)對(duì)他們做出的自動(dòng)預(yù)測。這在表2的最右邊一欄中有所說明,顯示了可解釋的模型在提供同期解釋方面的相關(guān)性,但也注意到在支持法律程序時(shí)可能需要事后解釋。
專家用戶,如放射技師和腫瘤學(xué)家,是大多數(shù)基于ML的咨詢系統(tǒng)的設(shè)計(jì)對(duì)象。目的是讓這些利益相關(guān)者能夠確定信心,以便就是否接受預(yù)測并采取行動(dòng)做出知情決定,從而行使同意和控制。目前還不清楚對(duì)ML生成的預(yù)測的不充分審查是否會(huì)構(gòu)成對(duì)醫(yī)生護(hù)理責(zé)任的法律違反;然而,他們也可能想挑戰(zhàn)或質(zhì)疑預(yù)測。但是,臨床醫(yī)生顯然有強(qiáng)烈的道德責(zé)任來確保他們病人的福祉和安全[73]。XAI方法可以幫助他們履行這一職責(zé)。臨床醫(yī)生通過考慮和權(quán)衡一系列的特征、數(shù)據(jù)點(diǎn)和臨床標(biāo)志物來做出診斷決定[74];也可參見第5節(jié)中的例子。因此,臨床醫(yī)生可能會(huì)發(fā)現(xiàn)基于實(shí)例的解釋的價(jià)值,例如反事實(shí)的解釋,特別是當(dāng)他們對(duì)病人的直接理解,以及從未包括在ML模型中的額外信息(例如活檢結(jié)果)中收集到的見解,表明與系統(tǒng)提供的預(yù)測不同的結(jié)果[73]。
鑒于服務(wù)提供者需要遵守法規(guī)、確保系統(tǒng)安全、滿足終端用戶的要求,以及向調(diào)查人員提供事后解釋,他們有若干解釋要求。這就產(chǎn)生了一系列全面的解釋要求,既包括部署前的全局性解釋,以達(dá)到信任、合規(guī)的目的,也包括事后的局部解釋,以支持持續(xù)發(fā)展。表2中的中間一欄顯示了XAI方法在服務(wù)提供者部署前情況下的作用;調(diào)查一欄也包括服務(wù)提供者尋求了解非預(yù)期行為和改進(jìn)系統(tǒng)。
此外,第5節(jié)中的示例是DSS,它反映了專家用戶的需求。具體地說,該示例顯示了用于提供模型可解釋性的特征重要性方法,以支持置信度。

表2 對(duì)不同利益相關(guān)者和情景的可解釋性要求的說明。
Discussion
對(duì)XAI方法的研究通常是從純技術(shù)的角度進(jìn)行的。但是,什么時(shí)候需要解釋,需要什么類型的解釋,需要由哪些利益相關(guān)者解釋,這往往也是一個(gè)倫理問題。我們?cè)谶@里試圖做的是將這兩個(gè)維度結(jié)合在一起。表2中所示表單中的信息可以用來識(shí)別候選的XAI方法,盡管我們承認(rèn)表中的覆蓋范圍并不是詳盡的。此外,這不會(huì)產(chǎn)生“唯一”的解決方案,例如,石灰和深度壽命都可以用來為使用深度神經(jīng)網(wǎng)絡(luò)的事故調(diào)查提供當(dāng)?shù)亟忉?。ML和XAI方法的發(fā)展都在快速進(jìn)行,因此XAI方法的選擇不太可能在不久的將來被編纂,如果確實(shí)有可能的話,但希望表2形式的分析將有助于為方法選擇提供信息。
有些人認(rèn)為,只有可解釋的模型才能用于關(guān)鍵決策[22],而表 2 似乎支持這一觀點(diǎn)。我們采取了一個(gè)更廣泛的觀點(diǎn),即在性能和可解釋性之間要進(jìn)行權(quán)衡。例如,如果理解模型是至關(guān)重要的,那么ML方法的選擇可能是有限的,主要是可解釋的模型,這些模型的好處是可以提供即時(shí)的解釋。但這些方法不如其他許多ML方法強(qiáng)大,而且在任務(wù)目標(biāo)方面可能表現(xiàn)不佳。此外,像DeepLIFT這樣的算法速度很快--圖3a、b所示的例子在一臺(tái)普通的計(jì)算機(jī)上產(chǎn)生大約1-2分鐘,因此在產(chǎn)生解釋的輕微延遲可以接受的情況下,這些算法可能是有用的。這表明,在選擇ML方法時(shí),如果保證是一個(gè)關(guān)鍵因素,應(yīng)該對(duì)XAI方法給予更明確的認(rèn)可。例如,對(duì)于自動(dòng)駕駛汽車,雖然從理論上講,當(dāng)時(shí)的解釋可能是有價(jià)值的,但在實(shí)踐中,這些解釋對(duì)司機(jī)是否有用是值得懷疑的--使用更強(qiáng)大的ML方法,仍然允許使用XAI方法來支持事件分析可能是合理的。
人們普遍認(rèn)為,ML的驗(yàn)證和確認(rèn)(V&V)是具有挑戰(zhàn)性的,而且沒有廣泛認(rèn)可的 "最佳 "方法來進(jìn)行V&V。建立V&V保證模型的工作產(chǎn)生了通過ML生命周期保證的 "必要條件",使用的模型啟發(fā)了圖1的結(jié)構(gòu)[10]。ML的保證過程似乎不太可能達(dá)到與 "傳統(tǒng)軟件 "的現(xiàn)行標(biāo)準(zhǔn)相當(dāng)?shù)膰?yán)格程度。因此,隨著時(shí)間的推移,可解釋性將在保證中發(fā)揮更大的作用。相信這一點(diǎn)的原因之一是,自主性在本質(zhì)上是將決策從人類轉(zhuǎn)移到了機(jī)器上--獲得對(duì)這一過程令人滿意的信心的方法是暴露決策過程的性質(zhì)--這正是可解釋性所要做的。
最后,有證據(jù)支持的結(jié)構(gòu)化論證形式的保證案例[75],在溝通為什么認(rèn)為一個(gè)系統(tǒng)可以安全部署方面發(fā)揮了重要作用,特別是在安全關(guān)鍵型行業(yè)。系統(tǒng)及其背景越復(fù)雜、越新穎,保證案例在為基于風(fēng)險(xiǎn)的部署決策提供信息方面的作用就越重要。人們對(duì)使用保證案例來證明基于ML的系統(tǒng)的安全性越來越感興趣,特別是在汽車[76]和醫(yī)療應(yīng)用[77]方面??山忉屝缘母拍?,特別是在部署前,可以構(gòu)成ML保證案例的一個(gè)關(guān)鍵部分,用于解釋和證明,例如向監(jiān)管機(jī)構(gòu)解釋關(guān)于ML模型的選擇以及數(shù)據(jù)集的質(zhì)量和適用性的關(guān)鍵決定。部署后,局部XAI方法可以幫助實(shí)施高度動(dòng)態(tài)的保證案例[78,79],其中,與部署前的評(píng)估相比,基于ML的系統(tǒng)做出的關(guān)鍵預(yù)測可用于更新關(guān)于部署的系統(tǒng)的假設(shè)和信心。
Conclusion總結(jié)
基于ML的系統(tǒng)已經(jīng)被用于可能對(duì)人類福祉、生命和自由有影響的情況。這一點(diǎn),再加上它們將決策權(quán)從人類手中轉(zhuǎn)移出去的事實(shí),使得提供證據(jù)以證明這種轉(zhuǎn)移是適當(dāng)?shù)?、?fù)責(zé)任的和安全的成為一種保證。對(duì)ML模型和ML生成的預(yù)測的解釋可以作為這種證據(jù)的一部分來提供。但它們處于一個(gè)更廣泛的責(zé)任框架內(nèi),在這個(gè)框架內(nèi),人類決策者仍然需要為ML模型提供規(guī)范的理由或證明(XAI方法無法提供)。我們對(duì)利益相關(guān)者需求的分析以及與XAI方法能力的對(duì)比,我們認(rèn)為是理解如何在保證作用中采用可解釋性的一個(gè)起點(diǎn)。部署在生活環(huán)境中的基于ML的系統(tǒng)的保證有一個(gè)道德層面。這反映在理由的基本倫理性質(zhì)上--告知同意、挑戰(zhàn)不公平的預(yù)測、在執(zhí)行決定前評(píng)估信心,如果錯(cuò)誤的話,可能會(huì)傷害接受者--利益相關(guān)者可能需要ML模型的可見性或?qū)ζ淠硞€(gè)預(yù)測的解釋。我們希望本文將有助于將XAI方法的工作平衡從主要的技術(shù)性工作轉(zhuǎn)移到更廣泛地考慮可解釋性在保證和實(shí)現(xiàn)ML的循證接受方面的作用。
參考文獻(xiàn)
1. Arrieta AB et al. 2020 Explainable Artificial Intelligence (XAI): concepts, taxonomies,
opportunities and challenges toward responsible AI. Inf. Fusion 58, 82–115.
(doi:10.1016/j.inffus.2019.12.012)
2. Bhatt U et al. 2020 Explainable machine learning in deployment. In PROC. of the 2020 Conf. on?Fairness, Accountability, and Transparency, pp. 648–657.
3. McDermid JA. 2010 Safety Critical Software. In Encyclopedia of Aerospace Engineering (eds?R Blockley, W Shyy). https://doi.org/10.1002/9780470686652.eae506.
4. Zhang GP. 2000 Neural networks for classification: a survey. IEEE Trans. Syst. Man Cybern.?Part C (Appl. Rev.) 30, 451–462. (doi:10.1109/5326.897072)
5. Wang G. 2008 A survey on training algorithms for support vector machine classifiers. In
2008 Fourth Int. Conf. on Networked Computing and Advanced Information Management, vol. 1,
Gyeongju, South Korea, 2–4 September 2008, pp. 123–128. New York, NY: IEEE.
6. Arulkumaran K, Deisenroth MP, Brundage M, Bharath AA. 2017 Deep reinforcement
learning: a brief survey. IEEE Signal PROCess Mag. 34, 26–38. (doi:10.1109/MSP.2017.
2743240)
7. Rawat W, Wang Z. 2017 Deep convolutional neural networks for image classification: a
comprehensive review. Neural Comput. 29, 2352–2449. (doi:10.1162/neco_a_00990)
8. Sze V, Chen Y, Yang T, Emer JS. 2017 Efficient pROCessing of deep neural networks: a tutorial?and survey. PROC. IEEE 105, 2295–2329. (doi:10.1109/JPROC.2017.2761740)
9. Marcus G, DAVis E. 2019 Rebooting AI: building artificial intelligence we can trust. London, UK:?Vintage.
10. AshmoreR,CalinescuR,PatersonC.2019Assuringthemachinelearninglifecycle:desiderata,
methods, and challenges. http://arxiv.org/abs/190504223.
11. Centre for Data Ethics and Innovation. Barometer Report. https://assets.publishing.
service.gov.uk/government/uploads/system/uploads/attachment_data/file/894170/CDEI
_AI_Barometer.pdf. 2020.
12. Law Commission/The Scottish Law Commission. Automated Vehicles: Consultation Paper 2?on Passenger Services and Public Transport A joint consultation paper. 2019.
13. Burton S, Habli I, Lawton T, McDermid J, Morgan P, Porter Z. 2020 Mind the gaps: assuring?the safety of autonomous systems from an engineering, ethical, and legal perspective. Artif.
Intell. 279, 103201. (doi:10.1016/j.artint.2019.103201)
14. Miller T. 2019 Explanation in artificial intelligence: insights from the social sciences. Artif.
Intell. 267, 1–38. (doi:10.1016/j.artint.2018.07.007)
15. Mittelstadt B, Russell C, Wachter S. 2019 Explaining explanations in AI. In PROC. of the Conf.on fairness, accountability, and transparency, Atlanta, GA, 29–31 January 2019, pp. 279–288.?New York, NY: ACM.
16. Raz J. 2011 From normativity to responsibility. Oxford, UK: Oxford University Press.
17. Lipton ZC. 2018 The mythos of model interpretability: in machine learning, the
concept of interpretability is both important and slippery. Queue 16, 31–57. (doi:10.1145/
3236386.3241340)
18. Biran O, McKeown K. 2014 Justification narratives for individual classifications. In PROC. of the?AutoML workshop at ICML, vol. 2014, pp. 1–7.
19. Ward FR, Habli I. 2020 An assurance case pattern for the interpretability of machine learning?in safety-critical systems. In Int. Conf. on Computer Safety, Reliability, and Security, Lisbon,
Portugal, 15–18 September 2020, pp. 395–407. Berlin, Germany: Springer.
20. Tsamados A, Aggarwal N, Cowls J, Morley J, Roberts H, Taddeo M, Floridi L. 2021 The ethics?of algorithms: key problems and solutions. AI & SOCIETY 1–16.
21. Brundage M et al. 2020 Toward trustworthy AI development: mechaniSMs for supporting
verifiable claims. http://arxiv.org/abs/200407213.
22. Rudin C. 2019 Stop explaining black box machine learning models for high stakes
decisions and use interpretable models instead. Nat. Mach. Intell. 1, 206–215.
(doi:10.1038/s42256-019-0048-x)
23. Weller A. 2019 Transparency: motivations and challenges. In Explainable AI: interpreting,
explaining and visualizing deep learning (eds W Samek, G MontAVon, A Vedaldi, LK Hansen,
K-R Müller), pp. 23–40. Berlin, Germany: Springer.
24. Langer M, Oster D, Speith T, Hermanns H, K?stner L, Schmidt E, Sesing A, Baum K. 2021?What do we want from Explainable Artificial Intelligence (XAI)? A stakeholder perspective on XAI and a conceptual model guiding interdisciplinary XAI research. Artif. Intel. 296, 103473.(doi:10.1016/j.artint.2021.103473)
25. Binns R, Van Kleek M, Veale M, Lyngs U, Zhao J, Shadbolt N. 2018 ‘It’s Reducing a Human?Being to a Percentage’ perceptions of justice in algorithmic decisions. In PROC. of the 2018?Chi Conf. on human factors in computing systems, Montreal, Canada, 21–26 April 2018, pp. 1–14.?New York, NY: ACM.
26. Information Commissioners Office & Alan Turing Institute. 2020 Explaining Decisions
made with AI. See https://ico.org.uk/for-organisations/guide-to-data-protection/key-data-
protection-themes/explaining-decisions-made-with-artificial-intelligence/.
27. Freeman K. 2016 Algorithmic injustice: how the Wisconsin Supreme Court failed to protect?due pROCess rights in State v. Loomis. North Carolina. J. Law Technol. 18, 75.
28. BaROCas S, Selbst AD. 2016 Big data’s disparate impact. Calif. L. Rev. 104, 671.
29. Hastie T, Tibshirani R, Friedman J. 2009 The elements of statistical learning. Berlin, Germany:Springer.
30. Louppe G. 2014 Understanding random forests: from theory to practice. http://arxiv.org/
abs/14077502.
31. Breiman L. 2001 Random forests. Mach. Learn. 45, 5–32. (doi:10.1023/A:1010933404324)
32. Parr T, Turgutlu K, Csiszar C, Howard J. 2018 Beware default random forest importances.March 26, 2018.
33. Molnar C. 2020 Interpretable machine learning. See Lulu.com.
34. Gilpin LH, Bau D, Yuan BZ, Bajwa A, Specter M, Kagal L. 2018 Explaining explanations: an?overview of interpretability of machine learning. In 2018 IEEE 5th Int. Conf. on data science and?advanced analytics (DSAA), Turin, Italy, 1–3 October 2018, pp. 80–89. New York, NY: IEEE.
35. Montano J, Palmer A. 2003 Numeric sensitivity analysis Applied to feedforward neural
networks. Neural Comput. Appl. 12, 119–125. (doi:10.1007/s00521-003-0377-9)
36. Liang B, Li H, Su M, Bian P, Li X, Shi W. 2017 Deep text classification can be fooled. http://arxiv.org/abs/170408006.
37. Zeiler MD, Fergus R. 2014 Visualizing and understanding convolutional networks. In
European Conf. on computer vision, Zürich, Switzerland, 6–12 September 2014, pp. 818–833. Berlin,Germany: Springer.
38. Ribeiro MT, Singh S, Guestrin C. 2016 ‘Why should I trust you?’ Explaining the predictions?of any classifier. In PROC. of the 22nd ACM SIGKDD Int. Conf. on knowledge discovery and data?mining, San Francisco, CA, 13–17 August 2016, pp. 1135–1144. New York, NY: ACM.
39. Shapley LS. 1953 A value for n-person games. Contrib. Theory Games 2, 307–317.
40. Bhatt U, RAVikumar P, Moura JM. 2019 Towards aggregating weighted feature attributions.http://arxiv.org/abs/190110040.
41. ?trumbeljE, KononenkoI. 2014 Explainingpredictionmodels and individualpredictionswith
feature contributions. Knowl. Inf. Syst. 41, 647–665. (doi:10.1007/s10115-013-0679-x)
42. Chen J, Song L, Wainwright MJ, Jordan MI. 2018 L-shapley and c-shapley: efficient model?interpretation for structured data. http://arxiv.org/abs/180802610.
43. Lundberg SM, Lee SI. 2017 A unified Approach to interpreting model predictions. In Advances?in neural information pROCessing systems (eds U von Luxburg, I Guyon, S Bengio, H Wallach,
R Fergus), pp. 4765–4774.
44. Lundberg SM et al. 2020 From local explanations to global understanding with explainable AI?for trees. Nat. Mach. Intell. 2, 2522–5839. (doi:10.1038/s42256-019-0138-9)
45. Zintgraf LM, Cohen TS, Adel T, Welling M. 2017 Visualizing deep neural network decisions:?prediction difference analysis. http://arxiv.org/abs/170204595.
46. Simonyan K, Vedaldi A, Zisserman A. 2013 Deep inside convolutional networks: visualising?image classification models and saliency maps. http://arxiv.org/abs/13126034.
47. Shrikumar A, Greenside P, Shcherbina A, Kundaje A. 2016 Not just a black box:
learning important features through propagating activation differences. http://arxiv.org/
abs/160501713.
48. Sundararajan M, Taly A, Yan Q. 2017 Axiomatic attribution for deep networks. http://arxiv.
org/abs/170301365.
49. ShrikumarA,GreensideP,KundajeA.2017Learningimportantfeaturesthroughpropagating
activation differences. http://arxiv.org/abs/170402685.
50. Ancona M, Ceolini E, ?ztireli C, Gross M. 2017 Towards better understanding of gradient-based attribution methods for deep neural networks. http://arxiv.org/abs/171106104.
51. Aamodt A, Plaza E. 1994 Case-based reasoning: foundational issues, methodological
variations, and system Approaches. AI Commun. 7, 39–59. (doi:10.3233/AIC-1994-7104)
52. Kolodner JL. 1992 An introduction to case-based reasoning. Artif. Intell. Rev. 6, 3–34.
(doi:10.1007/BF00155578)
53. Richter MM, Weber RO. 2016 Case-based reasoning. Berlin, Germany: Springer.
54. JiaY,KaulC,LawtonT,Murray-SMithR,HabliI.2020Predictionofweaningfrommechanical
ventilation using convolutional neural networks. Artif. Intell. Med. 117, 102087.
55. Wachter S, Mittelstadt B, Russell C. 2017 Counterfactual explanations without opening
the black box: automated decisions and the GDPR. Harv. JL & Tech. 31, 841.(doi:10.2139/ssrn.3063289)
56. Mothilal RK, Sharma A, Tan C. 2020 Explaining machine learning classifiers through
diverse counterfactual explanations. In PROC. of the 2020 Conf. on Fairness, Accountability, and?Transparency, Barcelona, Spain, 27–30 January 2020, pp. 607–617.
57. Sharma S, Henderson J, Ghosh J. 2019 Certifai: Counterfactual explanations for robustness,?transparency, interpretability, and fairness of artificial intelligence models. http://arxiv.org/abs/190507857.
58. Szegedy C, ZarembaW, Sutskever I, BrunaJ, ErhanD, GoodfellowI,Fergus R. 2013 Intriguing?properties of neural networks. http://arxiv.org/abs/13126199.
59. Xie C, Tan M, Gong B, Wang J, Yuille AL, Le QV. 2020 Adversarial examples improve
image recognition. In PROC. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition,Seattle, WA, 13–19 June 2020, pp. 819–828. New York, NY: IEEE.
60. Jia R, Liang P. 2017 Adversarial examples for evaluating reading comprehension systems.http://arxiv.org/abs/170707328.
61. SatoM,SuzukiJ,ShindoH,MatsumotoY.2018Interpretableadversarialperturbationininput
embedding space for text. http://arxiv.org/abs/180502917.
62. Etmann C, Lunz S, Maass P, Sch?nlieb CB. 2019 On the connection between adversarial
robustness and saliency map interpretability. http://arxiv.org/abs/190504172.
63. Koh PW, Liang P. 2017 Understanding black-box predictions via influence functions. http://arxiv.org/abs/170304730.
64. Wunsch H, Wagner J, Herlim M, Chong D, Kramer A, Halpern SD. 2013 ICU occupancy
and mechanical ventilator use in the United States. Crit. Care Med. 41, 2712–2719.
(doi:10.1097/CCM.0b013e318298a139)
65. Ambrosino N, Gabbrielli L. 2010 The difficult-to-wean patient. Expert Rev. Respiratory Med. 4,?685–692. (doi:10.1586/ers.10.58)
66. Kuo HJ, Chiu HW, Lee CN, Chen TT, Chang CC, Bien MY. 2015 Improvement in the
prediction of ventilator weaning outcomes by an artificial neural network in a medical ICU.
Respir. Care 60, 1560–1569. (doi:10.4187/respcare.03648)
67. Johnson AE et al. 2016 MIMIC-III, a freely accessible critical care database. Sci. Data 3, 1–9.?(doi:10.1038/sdata.2016.35)
68. Kroll JA, BaROCas S, Felten EW, Reidenberg JR, Robinson DG, Yu H. 2016 Accountable?algorithms. U. Pa. L. Rev. 165, 633.
69. Sessler CN, Gosnell MS, Grap MJ, Brophy GM, O’Neal PV, Keane KA, Tesoro EP, Elswick RK.?2002 The Richmond Agitation–Sedation Scale: validity and reliability in adult intensive care unit patients. Am. J. Respir. Crit. Care Med. 166, 1338–1344. (doi:10.1164/rccm.2107138)
70. Mehrabi N, Morstatter F, Saxena N, Lerman K, Galstyan A. 2019 A survey on bias and fairness?in machine learning. http://arxiv.org/abs/190809635.
71. Eubanks VA. 2018 Automating inequality: how high-tech tools profile, police, and punish the poor.
New York, NY: St. Martin’s Press.
72. Centre for Data Ethics and Innovation. Review into Bias in Algorithmic Decision-Making;
2020. See https://assets.publishing.service.gov.uk/government/uploads/system/uploads/
attachment_data/file/939109/CDEI_review_into_bias_in_algorithmic_decision-making.pdf.
73. Habli I, Lawton T, Porter Z. 2020 Artificial intelligence in health care: accountability and
safety. Bull. World Health Organ. 98, 251. (doi:10.2471/BLT.19.237487)
74. Sullivan E. 2019 Understanding from machine learning models. Br. J. Philos. Sci.
(doi:10.1093/bjps/axz035)
75. Kelly TP. Arguing safety: a systematic Approach to managing safety cases. PhD thesis,
University of York.
76. Burton S, Gauerhof L, Heinzemann C. 2017 Making the case for safety of machine learning in?highly automated driving. In Int. Conf. on Computer Safety, Reliability, and Security, Trento, Italy,12–15 September 2017, pp. 5–16. Berlin, Germany: Springer.
77. Picardi C, Hawkins R, Paterson C, Habli I. 2019 A pattern for arguing the assurance of
machine learning in medical diagnosis systems. In Int. Conf. on Computer Safety, Reliability,
and Security, pp. 165–179. Berlin, Germany: Springer.
78. Denney E, Pai G, Habli I. 2015 Dynamic safety cases for through-life safety assurance. In 2015?IEEE/ACM 37th IEEE Int. Conf. on Software Engineering, Florence, Italy, 16–24 May 2015, vol. 2,pp. 587–590. New York, NY: IEEE.
79. Asaadi E, Denney E, Menzies J, Pai GJ, Petroff D. 2020 Dynamic assurance cases: a pathway?to trusted autonomy. Computer 53, 35–46. (doi:10.1109/MC.2020.3022030)