最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

人工智能輔助決策:用認(rèn)知建模的方法來(lái)推斷潛在的依賴策略

2023-06-15 10:12 作者:??☆l道  | 我要投稿

Heliodoro Tejeda?0001-6726-46581、 Aakriti、 Padhraic& 馬克-斯蒂弗斯 《計(jì)算腦與行為》第5,第491-508頁(yè)(2022年)

摘要

在各種決策應(yīng)用中,人類可以隨時(shí)獲得人工智能的幫助。為了充分了解這種聯(lián)合決策的功效,首先必須了解人類對(duì)人工智能的依賴性。然而,在如何研究聯(lián)合決策和如何在現(xiàn)實(shí)世界中實(shí)踐聯(lián)合決策之間存在著脫節(jié)。更多的時(shí)候,研究人員要求人類在顯示人工智能協(xié)助之前提供獨(dú)立的決定。這樣做是為了明確人工智能協(xié)助對(duì)人類決策的影響。我們開發(fā)了一個(gè)認(rèn)知模型,使我們能夠推斷出人類對(duì)人工智能協(xié)助的潛在依賴策略,而不要求人類做出獨(dú)立的決定。我們通過(guò)兩個(gè)行為實(shí)驗(yàn)驗(yàn)證了該模型的預(yù)測(cè)。第一個(gè)實(shí)驗(yàn)遵循一個(gè)并發(fā)的范式,在這個(gè)范式中,人類在決定問(wèn)題的同時(shí)也看到了人工智能的幫助。第二個(gè)實(shí)驗(yàn)遵循一個(gè)順序范式,即在人工智能援助可用之前,人類對(duì)決策問(wèn)題進(jìn)行獨(dú)立判斷。該模型預(yù)測(cè)的依賴策略密切跟蹤人類在兩個(gè)實(shí)驗(yàn)范式中所采用的策略。我們的模型提供了一種原則性的方法來(lái)推斷對(duì)人工智能援助的依賴,并可用于擴(kuò)大對(duì)人與人工智能合作的調(diào)查范圍。

簡(jiǎn)介

在過(guò)去的十年里,人工智能被用于協(xié)助人類的領(lǐng)域越來(lái)越多,在預(yù)測(cè)問(wèn)題的背景下提供建議。這些人工智能推薦系統(tǒng)的例子包括在法律背景下做出保釋決定(Kleinberg等人,2018),檢測(cè)消費(fèi)者評(píng)論中的欺騙(Ott等人,2011),在診斷成像中做出醫(yī)療決定(Esteva等人、2017;Patel等人,2019;Rajpurkar等人,2020),在法醫(yī)分析中識(shí)別人臉(Phillips等人,2018),以及對(duì)天文圖像進(jìn)行分類(Wright等人,2017)。伴隨著人工智能決策輔助工具的這種廣泛采用,人們對(duì)調(diào)查人工智能輔助在協(xié)作決策環(huán)境中的功效的興趣也在不斷增長(zhǎng)(Yin等人、2019;Park等人,2019;Zhang等人,2021;Poursabzi-Sangdeh等人,2021;Bu?inca等人,2021;Kumar等人,2021;Chong等人,2022;Becker等人,2022)。

為了研究這種人工智能輔助決策,研究人員已經(jīng)設(shè)計(jì)了各種工作流程。一些工作流程要求人類首先提供一個(gè)獨(dú)立的決定,然后顯示人工智能的建議,然后人類可以用它來(lái)更新他們的最終決定(Yin等人,2019;Poursabzi-Sangdeh等人,2021;Chong等人,2022)。其他工作流程在預(yù)測(cè)問(wèn)題的同時(shí)提出人工智能建議,人類可以決定遵循建議或忽略它(Rajpurkar等人,2020;Sayres等人,2019)。最后,少數(shù)研究通過(guò)人為地延遲人工智能建議的呈現(xiàn)(Bu?inca等人,2021年;Park等人,2019年)或僅在請(qǐng)求時(shí)提供人工智能建議(Kumar等人,2021年;Liang等人,2022年),迫使個(gè)人花費(fèi)時(shí)間思考決策問(wèn)題。在這項(xiàng)工作中,我們專注于上述人工智能輔助決策的兩個(gè)工作流程,并將其稱為范式;詳細(xì)的說(shuō)明可以在圖1中找到。我們把第一個(gè)范式稱為順序范式,即只有在人類提供了獨(dú)立的判斷之后才會(huì)顯示人工智能的建議,并且人類可以選擇修改他們的初始判斷。我們把第二種模式稱為并發(fā)模式,即人工智能建議是與預(yù)測(cè)問(wèn)題同時(shí)顯示的。

順序范式提供了關(guān)于人類對(duì)人工智能的依賴的直接見解,其基礎(chǔ)是人類的兩個(gè)判斷:最初的獨(dú)立判斷和接受人工智能建議后的最終判斷。這種范式使實(shí)驗(yàn)者更容易分離出人工智能建議對(duì)人類決策的影響。然而,在許多現(xiàn)實(shí)世界的應(yīng)用中,人類用戶在提供人工智能協(xié)助之前并不獨(dú)立做出決定,因?yàn)樘峁┤斯ぶ悄艿慕ㄗh可以立即簡(jiǎn)化工作流程并節(jié)省時(shí)間。并發(fā)范式為研究人工智能輔助決策提供了一個(gè)替代的環(huán)境。并行范式的一個(gè)缺點(diǎn)是數(shù)據(jù)解釋的基本模糊性--不清楚如何評(píng)估人工智能決策輔助對(duì)人類用戶的有用性。由于在提供人工智能建議之前,沒(méi)有最初的人類判斷,所以沒(méi)有直接的經(jīng)驗(yàn)性觀察來(lái)了解人類在決策中的任何變化。在同時(shí)進(jìn)行的范式中,任何觀察到的人類和人工智能之間的一致可能是因?yàn)槿祟惛淖兞怂麄兊呐袛嗖⒔邮芰巳斯ぶ悄艿慕ㄗh,或者人類已經(jīng)得出了獨(dú)立于人工智能的相同判斷。那么,我們?nèi)绾卧u(píng)估人工智能的協(xié)助對(duì)人類決策的影響?

人工智能輔助決策的順序范式和并發(fā)范式的說(shuō)明(最上面兩行)。無(wú)人工智能輔助范式(下行)被用作并發(fā)范式的控制條件。

我們的研究有三個(gè)主要目標(biāo)。首先,我們開發(fā)了一個(gè)用于人工智能輔助決策的并行范式的計(jì)算認(rèn)知模型。該認(rèn)知模型提供了一種原則性的方法來(lái)推斷人類對(duì)人工智能助手的潛在依賴性,盡管在一個(gè)人得到人工智能建議的時(shí)候,并沒(méi)有直接觀察到其轉(zhuǎn)換行為。我們通過(guò)收集行為研究中的經(jīng)驗(yàn)數(shù)據(jù)來(lái)驗(yàn)證該計(jì)算模型,該研究同時(shí)使用了順序和并發(fā)的范式。順序范式的數(shù)據(jù)提供了與并發(fā)范式的比較,并提供了一個(gè)測(cè)試來(lái)評(píng)估計(jì)算框架的優(yōu)點(diǎn)。我們證明,該模型在并發(fā)范式中對(duì)依賴行為的預(yù)測(cè)與在順序范式中觀察到的依賴行為在質(zhì)量上是相似的。此外,我們還證明了該模型可以推廣到同時(shí)進(jìn)行的試驗(yàn)中。

在我們的第二個(gè)目標(biāo)中,我們使用認(rèn)知建模的方法來(lái)理解人類的依賴政策如何取決于與人類和人工智能相關(guān)的一些因素。以前的研究表明,人類對(duì)自己的決定的信心會(huì)影響依賴人工智能協(xié)助的傾向(Lu和Yin,2021;Pescetelli等人,2021;Wang等人,2022)。此外,對(duì)人工智能的依賴也受人工智能對(duì)其決策的信心影響(Zhang等人,2020)。另一個(gè)貢獻(xiàn)因素是人工智能的整體準(zhǔn)確性。在以前的一些研究中,只使用了具有固定準(zhǔn)確度的單一人工智能模型;例如,人工智能模型的準(zhǔn)確度與人類的表現(xiàn)相當(dāng)(Zhang等人,2020)或高于人類的表現(xiàn)(Lai和Tan,2019;Pescetelli等人,2021)。少數(shù)研究已經(jīng)調(diào)查了不同的人工智能準(zhǔn)確性對(duì)依賴策略的影響(Yin等人,2019)。在我們的實(shí)證范式中,我們研究了人類對(duì)人工智能準(zhǔn)確性的多個(gè)層次的依賴是如何變化的。這使得我們能夠更細(xì)致地了解人工智能輔助工具的準(zhǔn)確性對(duì)人類依賴行為的影響。此外,我們還調(diào)查了參與者的信心和人工智能的信心分?jǐn)?shù)是如何影響參與者所使用的逐次試驗(yàn)的依賴策略的。

在我們的第三個(gè)目標(biāo)中,我們使用計(jì)算模型來(lái)量化人類采用的依賴策略的有效性。在某些情況下,人們?cè)谂c人工智能合作時(shí)采取次優(yōu)的依賴政策。例如,已經(jīng)發(fā)現(xiàn),如果人們看到算法犯錯(cuò),他們會(huì)更愿意使用自己的(不太準(zhǔn)確的)預(yù)測(cè)而不是算法(Dietvorst等人,2015)。在另一項(xiàng)研究中,人們對(duì)自動(dòng)系統(tǒng)給予了過(guò)多的信任(Cummings,2017)。對(duì)人工智能建議的過(guò)度依賴和不足可能取決于特定的任務(wù)領(lǐng)域和互動(dòng)方法(Promberger和Baron,2006;Castelo等人,2019;Logg,2017)。在這些先前的研究中,依賴性是在總體水平上評(píng)估的,而我們的認(rèn)知建模方法使我們能夠估計(jì)依賴性的逐次變化,這取決于參與者的信心狀態(tài)和AI對(duì)特定問(wèn)題實(shí)例的信心水平等因素。對(duì)于自我和人工智能信心的特定組合(例如,低自信心和高人工智能信心)以及人類和人工智能整體準(zhǔn)確性的特定組合,我們可以預(yù)期聯(lián)合決策的準(zhǔn)確性要比人類或人工智能單獨(dú)的好(Steyvers等人,2022)。一個(gè)經(jīng)驗(yàn)性的問(wèn)題是參與者是否能夠采用這樣的政策。我們將參與者采用的依賴政策與最優(yōu)政策進(jìn)行了比較,并表明在我們的實(shí)驗(yàn)中,人們?cè)诓捎萌斯ぶ悄芙ㄗh方面相當(dāng)有效。

認(rèn)知模型

在描述計(jì)算模型之前,我們特別注意到同時(shí)接受建議的范式的一些關(guān)鍵方面,這也是模型設(shè)計(jì)的動(dòng)機(jī)。在實(shí)驗(yàn)中,參與者必須預(yù)測(cè)一組圖像的分類標(biāo)簽以及與他們的決定相關(guān)的信心水平。每個(gè)參與者在兩種實(shí)驗(yàn)條件下交替進(jìn)行。在控制(無(wú)援助)條件下,參與者在沒(méi)有人工智能的幫助下表明他們的預(yù)測(cè)。在人工智能協(xié)助條件下,我們采用并行的方法;人工智能根據(jù)人工智能的信心分?jǐn)?shù),通過(guò)突出顯示類別標(biāo)簽,提供一套推薦的預(yù)測(cè)。參與者可以以任何方式使用這些建議,以最大限度地提高自己的準(zhǔn)確性(實(shí)驗(yàn)中的用戶界面圖見圖2)。這個(gè)條件的一個(gè)重要方面是,參與者的預(yù)測(cè)反映了他們自己的獨(dú)立決策(在這個(gè)范式中是不可觀察的)和人工智能預(yù)測(cè)的結(jié)合。換句話說(shuō),參與者用來(lái)依賴人工智能的預(yù)測(cè)并將其與自己的預(yù)測(cè)結(jié)合起來(lái)的政策并不能從他們的行為中直接觀察到。

人工智能輔助條件下的行為實(shí)驗(yàn)界面圖解

計(jì)算模型的主要目標(biāo)是推斷出潛在的建議采納政策。政策可以由許多因素決定,如參與者的信心狀態(tài)和人工智能的信心分?jǐn)?shù)以及人工智能的整體準(zhǔn)確性。我們開發(fā)了一個(gè)分層貝葉斯模型,不僅在群體層面而且在單個(gè)參與者的層面上對(duì)政策進(jìn)行推斷。在模型的第一部分,貝葉斯項(xiàng)目-反應(yīng)模型(Fox,2010)被應(yīng)用于無(wú)援助條件,以推斷出個(gè)人能力的差異以及不同項(xiàng)目(即預(yù)測(cè)問(wèn)題)的難度差異。在模型的人工智能輔助部分,這些潛在的人和項(xiàng)目參數(shù)被用來(lái)解釋參與者的觀察預(yù)測(cè),這取決于他們(不可觀察的)無(wú)輔助預(yù)測(cè)和決定參與者轉(zhuǎn)向人工智能預(yù)測(cè)或保持自己的預(yù)測(cè)的可能性的建議接受政策。圖3直觀地顯示了解釋有人工智能協(xié)助和無(wú)人工智能協(xié)助的人類預(yù)測(cè)的計(jì)算模型的圖形模型。

人工智能輔助決策模型的圖形化模型。在沒(méi)有援助的條件下,_{ij}rij?和?x_{ijxij?和?_jz?j?被觀察。?在提供人工智能援助的條件下,_{ij}rij?和?_{ij}xij?是潛在的,?y_{ijk}?,?z_jz?j?,?c_{jk}?,和\eta_{jk}ηjk?。為了視覺上的清晰,板塊符號(hào)被省略了

在援助之前對(duì)人類的決定進(jìn)行建模

沒(méi)有人工智能協(xié)助的人類預(yù)測(cè)的計(jì)算模型是基于貝葉斯項(xiàng)目-反應(yīng)模型(Fox,2010)。項(xiàng)目-反應(yīng)模型可以方便地模擬準(zhǔn)確度的個(gè)體差異以及項(xiàng)目難度的差異(項(xiàng)目是指參與者必須分類的單個(gè)圖像)。為了對(duì)人類的預(yù)測(cè)進(jìn)行建模,我們使用了一個(gè)三參數(shù)的IRT模型來(lái)捕捉概率\theta_{i,j}i,j?,即一個(gè)正確的反應(yīng)是由人?i對(duì)項(xiàng)目j做出:

\begin{aligned}\begin{aligned}\log \left( frac{theta _{i,j}}{1-theta _{i,j}} `right)&= s_{j} a_i - d_{j}\ end{aligned}\end{aligned}(1)

人的參數(shù)a_i?是一個(gè)能力參數(shù),決定了人在各項(xiàng)目中的總體表現(xiàn)。項(xiàng)目參數(shù)?_jd?j?捕捉項(xiàng)目難度的差異,而項(xiàng)目參數(shù)?_jsj?捕捉辨別力:項(xiàng)目對(duì)高能力和低能力個(gè)體的區(qū)分傾向。

在一個(gè)典型的IRT模型中,做出正確反應(yīng)的概率,theta?,被用來(lái)對(duì)答案的正確性進(jìn)行采樣。然而,在我們的模型中,我們用預(yù)測(cè)的標(biāo)簽來(lái)編碼個(gè)人的反應(yīng)。讓x_{i,j}i,j?代表?i人在沒(méi)有人工智能幫助的情況下對(duì)j項(xiàng)目的預(yù)測(cè)。每個(gè)預(yù)測(cè)都涉及到從一組L標(biāo)簽中的選擇,即x\in\{1,\ldots,L\}x∈{1,...,L}?。讓_jz?j?代表項(xiàng)目?j的真實(shí)標(biāo)簽。我們假設(shè)i人在項(xiàng)目j上產(chǎn)生正確的標(biāo)簽_jz?j?,概率是theta?_{i,j}i,j?,否則從所有其他標(biāo)簽中統(tǒng)一選擇,如下:

\begin{aligned}\p( x_{i,j} = m )&= {left\{ `array}{ll}.\Theta _{i,j} &{}。\紋理{ if }z_j = m (1-theta _{i,j})/(L-1) &{} 。\教科書{ if }z_j = m end{array}\right.} } } }結(jié)束{aligned}。\end{aligned}(2)

可以考慮各種模型的擴(kuò)展,允許反應(yīng)偏差,如一些標(biāo)簽先驗(yàn)地比其他標(biāo)簽更受歡迎。

參與者不僅做出預(yù)測(cè),而且還表達(dá)與他們的預(yù)測(cè)相關(guān)的信心水平,r_{i,j}?i,j?。在實(shí)驗(yàn)范式中,信心水平是從一小部分標(biāo)簽中選擇的,?r_{i,j}是在{mathrm {low}}中的。\在\{mathrm {低},\mathrm{中},\mathrm{高}}r?i,j?∈{低,中,高}?。在這個(gè)模型中,我們假設(shè)與較高準(zhǔn)確率相關(guān)的預(yù)測(cè)平均會(huì)導(dǎo)致較高的置信度,但在項(xiàng)目層面,從準(zhǔn)確率到置信度的映射是有噪聲的。為了捕捉準(zhǔn)確性和置信度之間的嘈雜關(guān)系,我們使用了一個(gè)基于有序Probit模型的簡(jiǎn)單生成模型:

\begin{aligned}\begin{aligned} r_{i,j}&sim {OrderedProbit}( θ _{i,j} , v_i , σ _i )\end{aligned}.\end{aligned}(3)

在這個(gè)生成模型中,標(biāo)準(zhǔn)偏差為sigma _i?的正態(tài)分布噪聲被添加到正確的概率中?θ_{i,j}?。然后將得出的值與一組由參數(shù)?v_i定義的區(qū)間進(jìn)行比較?,包含該值的區(qū)間決定了得出的置信度。?v_i?的變化可以使被試者對(duì)反應(yīng)量表有不同的使用(即相對(duì)頻繁地使用某個(gè)特定的置信度),而?σ_i?決定(反過(guò)來(lái))準(zhǔn)確性和置信度的相關(guān)程度。請(qǐng)注意,參數(shù)?\sigma?和?v是針對(duì)個(gè)人的,以考慮到信心生成過(guò)程中的個(gè)體差異。附錄1提供了更多關(guān)于有序Probit模型的細(xì)節(jié)。

根據(jù)建議建立人類決策的模型

在存在建議的人類決策模型中,讓y_{i,j,k}?代表人?i在考慮了人工智能算法k的建議后對(duì)項(xiàng)目j做出的觀察預(yù)測(cè)。我們包括對(duì)算法類型的依賴,因?yàn)槲覀兊慕?jīng)驗(yàn)范式將呈現(xiàn)不同算法的人工智能建議。在接受建議的模型中,我們假設(shè)參與者最初做出自己的預(yù)測(cè)x_{i,j}?,與人工智能建議無(wú)關(guān),但他們的最終決定?y_{i,j,k}?可以受到人工智能建議的影響。請(qǐng)注意,在無(wú)援助條件下,獨(dú)立的預(yù)測(cè)?x_{i,j}?和相關(guān)的信心水平?r_{i,j}?是可以直接觀察到的,但在人工智能援助條件下,它們是潛在的。然而,我們可以使用上一節(jié)中的IRT模型來(lái)模擬關(guān)于一個(gè)人在沒(méi)有提供人工智能建議的情況下會(huì)做出的預(yù)測(cè)和信心水平的反事實(shí)情況。具體來(lái)說(shuō),我們可以使用公式1-3中的生成模型,根據(jù)被試的總體技能(a)以及特定項(xiàng)目的難度(d_j)的信息,生成對(duì)x_{i,j}?和?r_{i,j}?的預(yù)測(cè)。腳注?1。

在接受建議的模型中,我們假設(shè)參與者將保持他們?cè)瓉?lái)的決定x_{i,j}?,如果它與人工智能的建議一致,用?c_{j,k}表示?。然而,當(dāng)原來(lái)的決定與人工智能的建議不一致時(shí),我們假設(shè)參與者以概率α?_{i,j,k}?,切換到人工智能的建議。因此,我們可以將參與者選擇標(biāo)簽?m作為其最終預(yù)測(cè)的概率建模如下:

\begin{aligned}\p( y_{i,j,k} = m )&= {left\{ `array}{ll}.\alpha _{i,j,k} &{}。\紋理{ if }x_{i,j}\c_{j,k} = m_{j,k} = 1 &{}。\1 &{{}......text{ if }x_{i,j} = m 楔 c_{j,k} = m\0 &{}\0 &{}...text{ if }x_{i,j}\x_{i,j} = m 楔 c_{j,k} = m\end{array}\right.}end{aligned}。\end{aligned}(4)

變量\alpha}?決定了參與者?i對(duì)算法k中與項(xiàng)目j有關(guān)的人工智能建議的信任傾向。在下一節(jié)中,我們將描述這個(gè)潛變量如何取決于參與者的信心狀態(tài)以及人工智能的信心得分等因素。

,j}i,j?在我們的實(shí)驗(yàn)范式中是潛伏的。我們不需要明確地模擬首先對(duì)獨(dú)立預(yù)測(cè)?x_{i,j}i,j?,然后對(duì)最終預(yù)測(cè)?y_{i,j,k}?,j,k?的過(guò)程,而是可以通過(guò)邊緣化掉?x_{i,j}xi,j?來(lái)簡(jiǎn)化生成過(guò)程:

\begin{aligned}\p( y_{i,j,k} = m )&= {left\{ `array}{ll}.\θ _{i,j}+ (1-\theta _{i,j}) Α _{i,j,k} &{}\如果}Z_{j}=mz_{j} = m c_{j,k} = m\frac{1-theta _{i,j}}{L-1} + \left( 1-frac{1-theta _{i,j}}{L-1} 右) \alpha _{i,j,k} &{} 。\紋理{ if }z_{j}\c_{j,k} = m\frac{1-theta _{i,j}}{L-1} ( 1-alpha _{i,j,k} ) &{} 。\教科書{ if }z_{j}\楔子 c_{j,k}。\ne m \end{array}\right.} } } }結(jié)束{aligned}。\end{aligned}(5)

在這個(gè)方程式中,參與者選擇標(biāo)簽m的概率被分成三種不同的情況。第一種情況反映了參與者獨(dú)立做出正確的決定(恰好與人工智能的建議一致)或最初做出不正確的決定但后來(lái)采用了正確的人工智能建議的概率。第二種情況反映了參與者最初選擇了一個(gè)不正確的決定(恰好同意人工智能的建議)或做出了與人工智能不同的另一個(gè)決定但隨后采用了錯(cuò)誤的人工智能建議的概率。第三種情況反映了參與者做出不正確的獨(dú)立決定并決定不改用人工智能的建議的概率。

采納建議中的個(gè)體差異模型

該模型中感興趣的關(guān)鍵潛變量是?Α _{i,j,k}i,j,k?,它決定了每個(gè)項(xiàng)目的參與者在人工智能推薦的預(yù)測(cè)與他們自己的預(yù)測(cè)不同的情況下,是否愿意轉(zhuǎn)換到人工智能的預(yù)測(cè)。一般來(lái)說(shuō),_?{i,j,k}i,j,k?可以取決于與人、項(xiàng)目和分類器有關(guān)的許多特征。在這里,我們將考慮這樣的函數(shù),即?α?取決于參與者對(duì)項(xiàng)目?j的信心狀態(tài)(r_{i,j}i,j?),與項(xiàng)目?j有關(guān)的人工智能信心得分\?????),以及分類器?k的類型:

\begin{aligned}\begin{aligned}\alpha _{i,j,k} = f( r_{i,j} , eta _{j,k} , k ) end{aligned}.\end{aligned}(6)

指定函數(shù)f的一種方法是基于一個(gè)線性模型,該模型可以捕捉到主效應(yīng)以及兩個(gè)假定因素之間的相互作用。然而,為了避免指定f的確是切函數(shù)形式,我們將簡(jiǎn)化模型,函數(shù)f當(dāng)作一個(gè)查找表,根據(jù)參與者信心、AI信心和分類器類型的少量組合來(lái)指定αα?值。具體來(lái)說(shuō),我們創(chuàng)建了3×4×3的查詢表,根據(jù)3個(gè)級(jí)別的參與者信心("低"、"中"、"高")、4個(gè)級(jí)別的AI信心和3種類型的分類器(K)來(lái)指定\?值。我們使用分層貝葉斯建模方法來(lái)估計(jì)政策的個(gè)體差異/?(詳見附錄?2)。

實(shí)驗(yàn)

為了驗(yàn)證我們的認(rèn)知模型,我們?cè)趦蓚€(gè)范式中調(diào)查了有無(wú)人工智能協(xié)助的人類表現(xiàn):同時(shí)和順序范式。我們將把認(rèn)知模型應(yīng)用于同時(shí)進(jìn)行的范式,以推斷個(gè)別參與者對(duì)人工智能的依賴策略。順序范式的結(jié)果是驗(yàn)證我們認(rèn)知模型的一種手段,因?yàn)轫樞蚍妒皆试S我們?cè)谡先斯ぶ悄軈f(xié)助時(shí)對(duì)參與者的策略進(jìn)行經(jīng)驗(yàn)分析。

在這兩個(gè)范式中,參與者必須將噪聲圖像分為16個(gè)不同的類別(用戶界面的例子見圖2)。有兩個(gè)實(shí)驗(yàn)操作。首先,圖像的噪聲被改變以產(chǎn)生分類難度的巨大差異(圖4)。其次,我們改變了人工智能預(yù)測(cè)的總體準(zhǔn)確性,包括三個(gè)條件:分類器A、分類器B和分類器C。分類器A被設(shè)計(jì)為產(chǎn)生預(yù)測(cè),平均而言,其準(zhǔn)確性低于人類的表現(xiàn)。分類器B和C被設(shè)計(jì)為產(chǎn)生平均與人類表現(xiàn)一樣準(zhǔn)確或更準(zhǔn)確的預(yù)測(cè)。每個(gè)參與者都與一種類型的分類器配對(duì)。

兩個(gè)范式之間的主要區(qū)別是,在同時(shí)進(jìn)行的范式中,參與者在提供或不提供人工智能援助的試驗(yàn)塊之間交替進(jìn)行。在順序范式中,沒(méi)有交替的區(qū)塊。在每次試驗(yàn)中,參與者首先對(duì)圖像分類問(wèn)題進(jìn)行獨(dú)立的預(yù)測(cè),然后在人工智能協(xié)助提供后有機(jī)會(huì)修改他們的預(yù)測(cè)。

不同程度的相位噪聲下的三幅圖像的說(shuō)明。原始圖像(左)沒(méi)有在實(shí)驗(yàn)中使用,只是為了說(shuō)明問(wèn)題而顯示。

方法

參與者

使用Amazon Mechanical Turk招募了60名和75名參與者,分別用于同期和連續(xù)實(shí)驗(yàn)。為了確保參與者理解任務(wù),他們得到了一套說(shuō)明,描述了實(shí)驗(yàn)和他們要做的事情。在閱讀了所有的說(shuō)明后,參與者被要求進(jìn)行理解力測(cè)驗(yàn),以確保他們完全理解任務(wù)。測(cè)驗(yàn)包括讓參與者在人工智能幫助關(guān)閉的情況下對(duì)五種不同的嘈雜圖像進(jìn)行分類。為了參與這項(xiàng)研究,參與者必須在測(cè)驗(yàn)中對(duì)五張圖片中的四張進(jìn)行正確分類。參與者有兩次機(jī)會(huì)來(lái)通過(guò)測(cè)驗(yàn)。成功的參與者被允許繼續(xù)進(jìn)行實(shí)驗(yàn)的其余部分。

圖片

本實(shí)驗(yàn)使用的所有圖像都來(lái)自ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ILSRVR)2012年的驗(yàn)證數(shù)據(jù)集(Russakovsky等人,2015)。按照(Geirhos等人,2019),選擇了一個(gè)256張圖像的子集,平均分配給16個(gè)類(椅子、烤箱、刀、瓶子、鍵盤、時(shí)鐘、船、自行車、飛機(jī)、卡車、汽車、大象、熊、狗、貓和鳥)。為了操縱分類難度,圖像在每個(gè)空間頻率被相位噪聲扭曲,其中相位噪聲均勻分布在\omega]?(Geirhos等人,?2019)。八個(gè)級(jí)別的相位噪聲,\omega=\{0, 80, 95, 110, 125, 140, 155,?,被應(yīng)用于圖像,每個(gè)獨(dú)特的圖像有不同的噪聲級(jí)別,導(dǎo)致每個(gè)噪聲級(jí)別每個(gè)類別有2個(gè)獨(dú)特的圖像(見圖?4相位噪聲操作的例子)。

人工智能預(yù)測(cè)

我們使用了基于VGG-19架構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)(Simonyan和Zisserman,2014),在ImageNet數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,作為人工智能協(xié)助的基礎(chǔ)。我們選擇VGG-19的動(dòng)機(jī)是以前的實(shí)驗(yàn)(Steyvers等人,2022),該實(shí)驗(yàn)表明VGG-19模型的性能可以被操縱,在實(shí)驗(yàn)中具有挑戰(zhàn)性的圖像噪聲條件下產(chǎn)生高于人類的性能。

通過(guò)根據(jù)實(shí)驗(yàn)中使用的相位噪聲對(duì)VGG-19架構(gòu)進(jìn)行不同的微調(diào),創(chuàng)造了三種不同級(jí)別的分類器性能。所有的模型都是在所有級(jí)別的相位噪聲下訓(xùn)練的。然而,為了產(chǎn)生這些不同水平的性能,對(duì)模型進(jìn)行了不同時(shí)期的微調(diào)。我們使用了一個(gè)有145名參與者的試點(diǎn)實(shí)驗(yàn)來(lái)評(píng)估人類在不同噪音水平下的表現(xiàn)。分類器A是通過(guò)微調(diào)不到一個(gè)紀(jì)元的時(shí)間(第一個(gè)紀(jì)元的10%的批次)產(chǎn)生的,產(chǎn)生的性能水平平均低于人類性能。分類器B是通過(guò)對(duì)一個(gè)紀(jì)元的全部時(shí)間進(jìn)行微調(diào)而產(chǎn)生的,其性能水平平均接近人類性能。分類器C對(duì)10個(gè)歷時(shí)進(jìn)行了微調(diào),產(chǎn)生的性能水平高于人類的平均性能。

程序

在同時(shí)進(jìn)行的和連續(xù)進(jìn)行的范式中,參與者被要求盡可能地對(duì)圖像進(jìn)行分類,并在提供人工智能協(xié)助時(shí)利用人工智能來(lái)優(yōu)化性能。在實(shí)驗(yàn)開始時(shí),每個(gè)參與者被分配到一個(gè)單一的分類器級(jí)別(A、B或C),并且每個(gè)人都只得到來(lái)自該特定分類器的人工智能幫助;在同時(shí)進(jìn)行的范式中,每個(gè)分類器級(jí)別有20名參與者,而在順序范式中,每個(gè)分類器級(jí)別有25名參與者。參與者沒(méi)有得到關(guān)于分類器準(zhǔn)確性的信息。

并行范式

在同時(shí)進(jìn)行的范式中,總共有256個(gè)試驗(yàn)。每項(xiàng)試驗(yàn)都有一個(gè)從256張圖像中隨機(jī)選擇的獨(dú)特圖像。分類試驗(yàn)被分成4個(gè)區(qū)塊,每個(gè)區(qū)塊包括48個(gè)開啟人工智能協(xié)助的連續(xù)試驗(yàn)和16個(gè)沒(méi)有人工智能協(xié)助的連續(xù)試驗(yàn)。有人工智能協(xié)助的試驗(yàn)數(shù)量較多,是為了更好地評(píng)估參與者在不同程度的人工智能信心下對(duì)人工智能的依賴策略。由于圖像在參與者之間的隨機(jī)排序,在人工智能協(xié)助條件下,一些參與者顯示了一個(gè)特定的圖像,而在沒(méi)有人工智能協(xié)助的控制條件下,其他參與者則顯示了一個(gè)特定的圖像。每張獨(dú)特的圖片在控制條件下被展示給15名參與者,在人工智能輔助條件下被展示給45名參與者。

在每次試驗(yàn)中,參與者都會(huì)看到一個(gè)如圖2所示的界面。參與者通過(guò)按反應(yīng)按鈕將圖像分為16個(gè)類別,這些按鈕用視覺圖標(biāo)以及標(biāo)簽(當(dāng)參與者將鼠標(biāo)懸停在按鈕上時(shí))代表這些類別。對(duì)于每個(gè)分類,參與者提供了一個(gè)離散的信心水平(低、中、高)。最后,界面的最右邊一欄被用于人工智能協(xié)助。當(dāng)人工智能協(xié)助被關(guān)閉時(shí),這一欄沒(méi)有顯示任何東西。然而,當(dāng)人工智能協(xié)助被打開時(shí),16個(gè)類別選項(xiàng)的網(wǎng)格就會(huì)顯示出來(lái),其布局與參與者的回答選項(xiàng)相同。16個(gè)類別中的每一個(gè)都會(huì)根據(jù)與人工智能分類器分配給該類別的概率有關(guān)的梯度刻度而被突出顯示。突出顯示的類別的色調(diào)越深,分類器對(duì)該選擇就越有信心。在分類器對(duì)單一類別非常有信心的情況下,將只有一個(gè)類別以極深的色調(diào)突出顯示。然而,在分類器對(duì)某一分類沒(méi)有信心的情況下,會(huì)有多個(gè)類別以低色調(diào)水平突出顯示。參與者將利用人工智能的幫助來(lái)幫助他們做出分類決定,以優(yōu)化他們自己在任務(wù)中的表現(xiàn)。在每次試驗(yàn)結(jié)束時(shí),都會(huì)提供反饋,以使參與者能夠根據(jù)他們所配對(duì)的特定人工智能算法制定人工智能的依賴策略。在反饋階段,正確的反應(yīng)選項(xiàng)以藍(lán)色突出顯示。如果參與者不正確,不正確的反應(yīng)會(huì)以紅色突出顯示。

循序漸進(jìn)的范式

在順序范式中,總共有192次試驗(yàn)。每項(xiàng)試驗(yàn)都有一張從256張圖片中隨機(jī)選擇的獨(dú)特圖片。在每個(gè)試驗(yàn)中,參與者首先被要求自己對(duì)圖像進(jìn)行分類,并顯示圖2所示的界面,但沒(méi)有人工智能協(xié)助(顯示人工智能協(xié)助的第三欄完全空白)。在選擇他們最初的分類決定并通過(guò)選擇信心水平提交他們的反應(yīng)后,參與者被提供了人工智能協(xié)助。這個(gè)階段的用戶界面與圖2完全一樣,顯示人工智能信心的程序也與同時(shí)進(jìn)行的程序相同。在人工智能的幫助下,參與者對(duì)所顯示的圖像進(jìn)行最后的分類決定,并通過(guò)選擇他們的信心水平來(lái)提交他們的反應(yīng)。一旦做出最后的分類,參與者將得到3秒鐘的反饋。

結(jié)果

圖5顯示了不同噪音水平、人工智能分類器準(zhǔn)確度水平、人工智能輔助條件、以及同時(shí)和連續(xù)接受建議模式的平均準(zhǔn)確度。在同步和順序程序中,隨著圖像噪聲水平的變化,觀察到了實(shí)質(zhì)性的性能差異,從零噪聲水平的接近上限的性能到最高噪聲水平的接近機(jī)會(huì)水平的性能(即1/16 = 0.0625)。在所有的分類器條件下,人類的表現(xiàn)在人工智能的幫助下得到了改善,特別是在中間的噪音水平,如圖6所示。對(duì)于分類器B和C,人工智能協(xié)助產(chǎn)生的性能水平與人工智能本身相當(dāng)。對(duì)于分類器A,盡管人工智能協(xié)助的準(zhǔn)確度平均低于人類的表現(xiàn),但人工智能協(xié)助還是提高了人類的表現(xiàn)。請(qǐng)注意,當(dāng)參與者在選定的試驗(yàn)中依賴人工智能協(xié)助時(shí),當(dāng)參與者處于低信心狀態(tài),而分類器處于相對(duì)高的信心狀態(tài)時(shí),這一結(jié)果是可能的(關(guān)于人類和人工智能信心之間的關(guān)系分析,見附錄5)。總的來(lái)說(shuō),這些結(jié)果表明,參與者能夠依靠人工智能的協(xié)助來(lái)產(chǎn)生恭維性--人類和人工智能的聯(lián)合準(zhǔn)確度等于或優(yōu)于人類或人工智能單獨(dú)的準(zhǔn)確性。

并行和順序范式的結(jié)果非常相似。在人工智能的幫助下,分類器A、B和C的平均人類準(zhǔn)確率在同步范式中分別為57%、62%和68%,在順序范式中分別為56%、61%和65%。貝葉斯獨(dú)立樣本t檢驗(yàn)顯示,沒(méi)有證據(jù)表明任何分類器的性能有差異(即所有貝葉斯系數(shù)<1)腳注2。這些結(jié)果在同時(shí)和順序?qū)嶒?yàn)中都是一致的,而且非常相似,這表明實(shí)驗(yàn)性的建議接受范式在人類如何依賴和整合人工智能協(xié)助方面沒(méi)有產(chǎn)生重要的差異。

在有和沒(méi)有人工智能協(xié)助的情況下,人類的準(zhǔn)確率以及人工智能的準(zhǔn)確率作為噪音水平(橫軸)的函數(shù),跨越并發(fā)和順序范式(行)。列中顯示了不同類型的人工智能分類器:分類器A的準(zhǔn)確性低于人類的平均準(zhǔn)確性,分類器B的準(zhǔn)確性與人類的平均準(zhǔn)確性相當(dāng),而分類器C的準(zhǔn)確性高于人類的平均準(zhǔn)確性。誤差條反映了基于二項(xiàng)式模型的平均值的95%置信區(qū)間


Model-Based Analysis

實(shí)證結(jié)果顯示,在所有的實(shí)驗(yàn)操作中,同時(shí)和順序接受建議的范式產(chǎn)生了類似的準(zhǔn)確度。在本節(jié)中,我們報(bào)告了將認(rèn)知模型應(yīng)用于同期范式的數(shù)據(jù)的結(jié)果。

我們使用馬爾科夫鏈蒙特卡洛(MCMC)程序來(lái)推斷圖形模型的模型參數(shù),如圖3所示(詳見附錄2)。一般來(lái)說(shuō),該模型能夠捕捉到同期范式中的所有定性趨勢(shì)(見附錄4對(duì)模型擬合度的樣本外評(píng)估)。我們把分析的重點(diǎn)放在該模型估計(jì)的兩個(gè)關(guān)鍵參數(shù)上:\β?,人口層面的建議接受政策,以及α?,個(gè)體參與者的建議接受政策。在接下來(lái)的章節(jié)中,我們說(shuō)明了推斷出的政策,并將結(jié)果與經(jīng)驗(yàn)觀察到的順序接受建議的策略進(jìn)行比較。此外,我們還分析了這些政策相對(duì)于參與者可能采取的所有政策的有效性,從最差到最好的政策。

推斷的建議接受政策

圖7,最上面一行,顯示了推斷出的采納建議的政策beta?作為分類器信心、參與者信心和分類器的函數(shù)。這些政策代表了模型的群體水平上的平均參與者的行為。圖?8顯示了從個(gè)體參與者的子集中推斷出的接受建議政策的例子\alpha?)??偟膩?lái)說(shuō),接受人工智能建議的概率在不同的分類器中差別很大。當(dāng)參與者處于低信心決策狀態(tài),而分類器提供高信心建議時(shí),建議更有可能被接受。此外,在不同的分類器準(zhǔn)確性水平上,建議更有可能被高準(zhǔn)確性分類器接受。總的來(lái)說(shuō),這些結(jié)果表明,接受建議的行為取決于多種因素,而不是基于單純依靠人工智能的信心水平或參與者的信心水平的簡(jiǎn)單策略。此外,結(jié)果顯示,當(dāng)人工智能的協(xié)助變得更加準(zhǔn)確時(shí),建議接受行為會(huì)被調(diào)整,從分類器A到分類器C,表明參與者對(duì)人工智能的準(zhǔn)確性是敏感的。

從并發(fā)范式(上行)和順序范式(下行)中觀察到的接受建議的行為推斷出的建議政策。該政策決定了接受人工智能建議的概率是人類信心(顏色)、分類器信心(橫軸)和分類器類型(列)的函數(shù)。上行的彩色區(qū)域顯示95%的后驗(yàn)可信區(qū)間。底行的彩色區(qū)域反映了基于二項(xiàng)式模型的平均值的95%置信區(qū)間。推斷出的接受建議的參數(shù)\beta?)在此可視化中從對(duì)數(shù)轉(zhuǎn)換為概率

在同時(shí)進(jìn)行的范式中,7個(gè)參與者中的一個(gè)子集的推斷建議接受政策。該政策決定了接受分類器建議的概率alpha?),作為人類信心(顏色)、分類器信心(橫軸)和分類器類型(行)的函數(shù)。有色區(qū)域顯示95%的后驗(yàn)可信區(qū)間

全尺寸圖片

圖7,最下面一行,顯示了經(jīng)驗(yàn)上觀察到的順序范式的依賴策略。這個(gè)分析集中在參與者的初始預(yù)測(cè)與人工智能預(yù)測(cè)不同的試驗(yàn)子集(尚未顯示),然后計(jì)算參與者切換到人工智能預(yù)測(cè)的試驗(yàn)的比例。重要的是,即使在兩個(gè)范式的依賴策略之間可以觀察到一些數(shù)量上的差異,但質(zhì)量上的模式是相同的。因此,順序范式的結(jié)果為認(rèn)知模型提供了一個(gè)關(guān)鍵的驗(yàn)證。認(rèn)知模型在同期范式中發(fā)現(xiàn)的潛在策略與順序范式中觀察到的非常相似。

接受建議政策的有效性

我們現(xiàn)在要解決的問(wèn)題是,參與者的建議接受政策的有效性如何。如果參與者改變他們接受建議的策略,他們的表現(xiàn)會(huì)好多少(或差多少)?圖9顯示了在不同的采納建議政策實(shí)例中所有可能的結(jié)果范圍。最差和最好的建議接受策略的準(zhǔn)確度是通過(guò)分析推斷出來(lái)的,該分析以參與者的表現(xiàn)為條件優(yōu)化表現(xiàn)(附錄3)。請(qǐng)注意,最差到最好的準(zhǔn)確度跨越了所有可能的結(jié)果的范圍。為了了解參與者的平均政策\(yùn)beta?)在這個(gè)范圍內(nèi)的有效性,我們使用蒙特卡洛抽樣程序得出所有策略的準(zhǔn)確性分布(詳見附錄?3),并計(jì)算出參與者策略在這個(gè)分布中的百分位數(shù)排名。這些結(jié)果表明,參與者采取的實(shí)際政策是非常有效的,在所有可能的策略中得分在前10%或接近10%。圖10顯示了當(dāng)有效性分析應(yīng)用于單個(gè)參與者數(shù)據(jù)時(shí),所有單個(gè)參與者的百分位數(shù)排名。雖然有一小部分參與者使用了次優(yōu)的依賴策略,但大多數(shù)參與者使用了高度有效的策略。

相對(duì)于最佳和最差的建議政策,人口水平上的建議政策的準(zhǔn)確性。分布圖顯示了隨機(jī)抽樣的接受建議政策的準(zhǔn)確性。為了量化參與者的表現(xiàn)水平,百分比顯示他們的表現(xiàn)相對(duì)于所有可能的政策的準(zhǔn)確性分布的百分位數(shù)排名

以相對(duì)于所有可能的建議政策分布的百分位數(shù)來(lái)評(píng)估建議接受策略的有效性的個(gè)體差異

討論

適當(dāng)?shù)匾蕾嚾斯ぶ悄艿慕ㄗh對(duì)于人類和人工智能之間的有效合作至關(guān)重要。大多數(shù)關(guān)于人工智能輔助決策的研究都集中在深入了解人類對(duì)人工智能的依賴上,通過(guò)基于信任度的經(jīng)驗(yàn)觀察以及對(duì)人類和人工智能的觀察準(zhǔn)確性和最終決定的比較。例如,在使用信任作為依賴的代表的工作中,個(gè)人被要求報(bào)告他們對(duì)人工智能助手的信任(Lee和See,2004)。然而,自我報(bào)告的信任并不是一個(gè)可靠的信任指標(biāo)(Schaffer等人,2019)。研究人員還比較了提供人工智能協(xié)助時(shí)人類-人工智能團(tuán)隊(duì)的準(zhǔn)確性和沒(méi)有協(xié)助時(shí)的準(zhǔn)確性(Lai和Tan,2019)。然而,這種準(zhǔn)確性的差異與人工智能的性能直接相關(guān)。另一種用于研究依賴性的方法是基于分析人類的最終決定和人工智能的預(yù)測(cè)之間的一致性(Zhang等人,2020)。這種方法在同時(shí)進(jìn)行的范式中使用時(shí)是有問(wèn)題的--雖然一致可能是因?yàn)閭€(gè)人對(duì)人工智能的信任而發(fā)生,但也可能是因?yàn)榧词箾](méi)有人工智能的幫助,個(gè)人也可能得出與人工智能相同的預(yù)測(cè)結(jié)果。最后,在使用順序范式的實(shí)驗(yàn)中,可以通過(guò)個(gè)人在其最初的獨(dú)立決定與人工智能不同的情況下轉(zhuǎn)向人工智能的建議的傾向來(lái)評(píng)估依賴性(Zhang等人,2020;Yin等人,2019)。雖然這是一個(gè)簡(jiǎn)單明了的程序,可以深入了解依賴策略,但它不能適用于并發(fā)范式,因?yàn)閭€(gè)人的獨(dú)立反應(yīng)本身是不可觀察的。

我們沒(méi)有使用經(jīng)驗(yàn)措施來(lái)評(píng)估依賴性,而是開發(fā)了一種認(rèn)知建模方法,將依賴性視為一種潛在的結(jié)構(gòu)。該建??蚣芴峁┝艘环N原則性的方法,通過(guò)使用并發(fā)范式中接受建議行為的概率模型來(lái)揭示個(gè)體的潛在依賴策略。它可以用來(lái)推斷人類對(duì)某一項(xiàng)目獨(dú)立做出正確決定的可能性,即使他們的獨(dú)立決定沒(méi)有被直接觀察到。該模型能夠進(jìn)行這種推斷,因?yàn)樗俣ㄌ幱谙嗤寄芩降娜丝赡軙?huì)做出相同的預(yù)測(cè)。該模型使我們能夠調(diào)查與人工智能達(dá)成一致和轉(zhuǎn)而接受人工智能建議之間的差異(兩個(gè)經(jīng)常用于評(píng)估信任的指標(biāo)),而無(wú)需明確要求人類對(duì)每個(gè)問(wèn)題作出獨(dú)立的回應(yīng)。為了應(yīng)用該模型,需要進(jìn)行經(jīng)驗(yàn)觀察,評(píng)估人們?cè)跊](méi)有人工智能協(xié)助下的獨(dú)立決定。

我們表明,認(rèn)知模型在并發(fā)范式的基礎(chǔ)上推斷出的人工智能依賴策略與順序范式中觀察到的人工智能依賴策略在性質(zhì)上是相似的。因此,這表明潛在的建模方法可以用來(lái)研究人工智能輔助決策。該模型估計(jì)的依賴策略顯示,參與者對(duì)人工智能的依賴是有區(qū)別的,并且在不同的問(wèn)題上有不同的依賴性。如果參與者對(duì)自己的決策不太自信,或者當(dāng)人工智能相對(duì)自信時(shí),他們更有可能依賴人工智能。此外,參與者對(duì)總體上更準(zhǔn)確的人工智能的依賴程度更高。這一發(fā)現(xiàn)與(Liang等人,2022)相一致,后者表明當(dāng)任務(wù)困難時(shí),以及當(dāng)他們得到關(guān)于他們的表現(xiàn)和人工智能的表現(xiàn)的反饋時(shí),人們更依賴人工智能的幫助。

結(jié)果還顯示,與最佳依賴策略相比,參與者能夠建立非常有效的依賴策略。我們認(rèn)為,參與者能夠做到這一點(diǎn)是因?yàn)橐韵略颉J紫?,這是一個(gè)簡(jiǎn)單的圖像分類任務(wù),而大多數(shù)人都是從圖像中識(shí)別日常物品的專家。這使人們對(duì)自己的專業(yè)知識(shí)和對(duì)任何呈現(xiàn)的圖像的信心有一個(gè)很好的了解。第二,在我們的實(shí)驗(yàn)中,人們?cè)诿看卧囼?yàn)后都會(huì)收到反饋,這讓他們有機(jī)會(huì)了解人工智能助手的準(zhǔn)確性和信心校準(zhǔn)。這種反饋使人們?cè)谂c三個(gè)分類器中的任何一個(gè)配對(duì)時(shí),能夠?yàn)槿斯ぶ悄苤纸⒑侠淼男睦砟P汀?/p>

最后,我們的結(jié)果顯示,并發(fā)式和順序式人工智能輔助范式導(dǎo)致了相當(dāng)?shù)臏?zhǔn)確性。一些研究者認(rèn)為,順序范式優(yōu)于并發(fā)范式,因?yàn)樽畛醯臒o(wú)援助預(yù)測(cè)鼓勵(lì)獨(dú)立思考,這可能導(dǎo)致檢索額外的問(wèn)題相關(guān)信息(Green和Chen,2019)。然而,與我們的研究相一致的是,其他研究發(fā)現(xiàn)并發(fā)范式和順序范式之間的整體表現(xiàn)沒(méi)有差異(Bu?inca等人,2021)。另一個(gè)可能相關(guān)的因素是人工智能協(xié)助的時(shí)間。人工智能建議可以在一些延遲后提出,這為決策者提供了額外的時(shí)間來(lái)思考問(wèn)題并提高他們自己的決策準(zhǔn)確性(Park等人,2019)。另一種可能性是在人工智能預(yù)測(cè)顯示后,改變?nèi)藗兲幚砣斯ぶ悄茴A(yù)測(cè)的時(shí)間,使人們更有可能發(fā)現(xiàn)人工智能的錯(cuò)誤(Rastogi等人,2022)。總的來(lái)說(shuō),需要更多的研究來(lái)了解征求獨(dú)立的人類預(yù)測(cè)和改變?nèi)斯ぶ悄芙ㄗh的時(shí)間的效果。

我們的經(jīng)驗(yàn)和理論工作伴隨著一些限制。首先,我們提供了逐個(gè)試驗(yàn)的反饋,以幫助參與者建立一個(gè)合適的人工智能性能的心理模型。然而,在現(xiàn)實(shí)世界的場(chǎng)景中,反饋并不總是可能的(Lu and Yin,2021)。未來(lái)的研究應(yīng)該研究在參與者完全沒(méi)有收到反饋或在延遲后收到反饋時(shí)的認(rèn)知過(guò)程的建模擴(kuò)展。第二,雖然認(rèn)知模型捕捉到了基于潛在依賴政策的建議采納的一般過(guò)程,但它并沒(méi)有對(duì)隨著時(shí)間推移建立依賴政策的過(guò)程進(jìn)行建模。因此,一個(gè)重要的模型擴(kuò)展--我們將其留給未來(lái)的研究--是將依賴政策的逐次試驗(yàn)調(diào)整作為參與者對(duì)人工智能算法準(zhǔn)確性的先驗(yàn)信念、人工智能信心和準(zhǔn)確性的外部信號(hào)以及內(nèi)部產(chǎn)生的信心信號(hào)的函數(shù)。





人工智能輔助決策:用認(rèn)知建模的方法來(lái)推斷潛在的依賴策略的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
江孜县| 易门县| 孟州市| 贡觉县| 宁波市| 温宿县| 建始县| 佛坪县| 阿图什市| 吴桥县| 崇信县| 德令哈市| 房产| 民权县| 山丹县| 泽州县| 施秉县| 三亚市| 石柱| 铜陵市| 宝坻区| 水富县| 纳雍县| 恭城| 大关县| 健康| 湘乡市| 湾仔区| 红桥区| 尤溪县| 资阳市| 泸州市| 临邑县| 湘乡市| 大方县| 英超| 丽江市| 利津县| 陵川县| 商丘市| 卓资县|