Validation of dermoscopy-based open-source AI for melanoma diagn
論文全文為:
Prospective validation of dermoscopy-based open-source artificial intelligence for melanoma diagnosis (PROVE-AI study
一篇發(fā)表在Natrure上的文章,近日拜讀了一下,看看Nature的實(shí)力。
1. 簡介:
醫(yī)療診斷中,想要診斷黑色素瘤需要進(jìn)行多次皮膚活檢,具有挑戰(zhàn)性。
非侵入式的黑色素瘤診斷方法有這些:多光譜成像、反射共聚焦顯微鏡 (RCM)、電阻抗光譜和粘合劑,皮膚貼片測試,這些方法都沒有得到廣泛應(yīng)用。
AI方法相比這些方法,具有圖片獲取簡單,成本低的優(yōu)勢,診斷能力已經(jīng)超過了專家水平,還可以作為輔助手段提升皮膚科醫(yī)生的準(zhǔn)確率,但目前存在外部驗(yàn)證的問題(訓(xùn)練測試都在私有數(shù)據(jù)集上)。
于是他們(authors)通過ISIC,舉辦了五年的黑色素瘤檢測比賽,解決外部數(shù)據(jù)問題,其中2020年的ALL Data Are Ext(ADAE)算法就專門針對公共皮膚鏡圖像進(jìn)行了訓(xùn)練。(這個算法開源、非商業(yè)、可修改適配任務(wù),所以具有很大潛力)
1.1 數(shù)據(jù)集情況
參與者:
435名參與者,603份病變數(shù)據(jù),平均年齡59(年齡區(qū)間50-71歲),54%為女性,96%為白人。
病變情況:
95例黑色素瘤,508例非黑色素瘤數(shù),經(jīng)過活檢后被納入。
49份(52%)黑色素瘤出現(xiàn)在原位(位于皮膚最外層),另外46份侵入式黑色素瘤的中位厚度為0.56mm(范圍0.2-7.3mm),其中兩例大于1mm。
非黑色素瘤中,包括312例痣,45例斑紋(雀斑),28例非典型黑素細(xì)胞增生,23例脂溢性角化病,22例角質(zhì)細(xì)胞癌。
醫(yī)生相關(guān)信息
11位醫(yī)生提供了參與者數(shù)據(jù),其中5位醫(yī)生貢獻(xiàn)了超過20位參與者,97%病變相關(guān)的數(shù)據(jù),提供了黑色素瘤數(shù)據(jù)中的94%和非黑色素瘤數(shù)據(jù)中的98%。這些醫(yī)生的平均從業(yè)時間16年,臨床經(jīng)驗(yàn)也為16年(范圍3-33年)。
1.2 結(jié)果
AUC結(jié)果
ADAE能達(dá)到0.857AUC,高于醫(yī)生的黑色素瘤估計(jì)概率0.780(P=0.007),病變最大直徑 (0.758; p < 0.001)
和患者年齡 (0.649; p < 0.001),該結(jié)果和 2020 年組織病理學(xué)證實(shí)的2020 SIIM-ISIC 挑戰(zhàn)測試集下測試得到的 ?AUC 相似(0.854; p = 0.882)。
敏感性
在預(yù)先設(shè)定的95%的敏感性閾值下,ADAE對于黑色素瘤的敏感性為96.8%(95% CI:91.1-98.9%),特異性為37.4%(95% CI:33.3-41.7%)。在這個閾值(95%)下,侵入性和原位黑色素瘤的ADAE敏感性差異不顯著(95.7% vs 98.0%,p = 0.609)。ADAE對于不確定性黑色素瘤(排除邊緣病例)的敏感性為96.3%。子組分析沒有發(fā)現(xiàn)與較低敏感性相關(guān)的患者或病變因素(這些比較的統(tǒng)計(jì)功效較低)。
特異性
敏感性部分中已經(jīng)定量特異性,接下來是定性描述。
多元分析表明,算法的特異性與患者年齡、解剖部位和最大直徑顯著相關(guān),65歲以上的患者和頭頸部病變以及直徑>6mm的病變的特異性較低。皮膚類型III的患者的特異性也比皮膚類型I的患者高(p = 0.002)。
1.3 醫(yī)生對ADAE的影響
分析不同的皮膚科醫(yī)生和不同的病變特征對ADAE算法表現(xiàn)的影響。他們發(fā)現(xiàn),不同的皮膚科醫(yī)生招募了不同類型和數(shù)量的病變,導(dǎo)致他們看到的ADAE分?jǐn)?shù)分布也不同。例如,有些醫(yī)生招募了更多高風(fēng)險或低風(fēng)險的病變,而有些醫(yī)生招募了更多中等風(fēng)險的病變。這可能反映了他們對于黑色素瘤診斷的經(jīng)驗(yàn)和信心,以及他們對于ADAE算法的信任度和使用方式。
受到這些醫(yī)生的影響,ADAE算法的敏感性在預(yù)先設(shè)定的閾值下范圍為89%到100%不等,而特異性則是0%到45%不等。
對于一些沒有黑色素的皮膚病變的診斷也有較高的準(zhǔn)確性,表現(xiàn)均高于閾值,其中包括1個黑色素瘤、1個非典型黑素細(xì)胞增生、1個原位鱗癌和8個良性病變。
大多數(shù)(518例,86%)的病變皮膚周邊都伴隨著光損傷,存在光損傷的病變更容易是黑色素瘤(16.9% vs. 8.2%; p = 0.038)。
在非黑色素瘤的病變類型中,基底細(xì)胞癌和鱗狀細(xì)胞癌的ADAE評分最高,達(dá)到100%,其次是非黑色素瘤碰撞腫瘤(94%)、光化性角化?。?2%)、非典型黑素細(xì)胞增生(89%)、色素性痣(87%)、脂溢性角化病(74%)和痣(45%)。
在其他數(shù)據(jù)集上也達(dá)到了較好的表現(xiàn),ADAE算法在另一項(xiàng)回顧性研究中,對黑色素瘤的敏感度為100%,特異度為34.7%
1.4 ADAE輔助醫(yī)生的影響
置信度
醫(yī)生在使用ADAE輔助前的平均置信度為3.4(IQR:3-4),使用ADAE輔助后的平均置信度為3.3(IQR:3-4)。
在考慮ADAE的輸出后,16.4%的案例置信度上升,而百分之18.7%的案例置信度下降。分析結(jié)果表明,有一位醫(yī)生在接觸ADAE之后信心下降,有一位醫(yī)生信心上升,其他醫(yī)生則沒有顯著變化。
AUC
在使用ADAE后,AUC從0.7798上升到了0.8161,即使去掉提供最多病變的醫(yī)生(最見多識廣)后,AUC仍然從0.7663上升到0.8081,最主要的四名醫(yī)生(五名提供了最多樣本的醫(yī)生減去剛才的最見多識廣醫(yī)生)的AUC均上升了(增長3.94%到11.57%)。
預(yù)測黑色素瘤概率影響
皮膚科醫(yī)生在看到ADAE的結(jié)果后,他們預(yù)測黑色素瘤概率的平均值從20%變?yōu)?4%,而黑色素瘤的患病率只有16%,這表明他們的平均校準(zhǔn)變差了。這種影響在5位主要參與招募的皮膚科醫(yī)生中存在差異,其中3位醫(yī)生的平均校準(zhǔn)得到了改善,而另外2位醫(yī)生則變得更差。
活檢影響
在看到皮膚ADAE的結(jié)果后,皮膚科醫(yī)生結(jié)合理論上的考量,避免了29%的活檢,但這一數(shù)據(jù)存在個體差異。在116個病例中,選擇了非侵入性測試(即STM、RCM、粘貼貼片),而在59個病例中選擇了沒有測試(即常規(guī)隨訪)?;顧z與不活檢決策閾值的敏感度和特異度分別為96%和34%。這意味著95個黑色素瘤中有4個不會進(jìn)行活檢,但508個良性病變中有171個可以避免不必要的活檢。
總結(jié)
基于以上結(jié)果,ADAE算法對醫(yī)生的決斷是存在潛在影響的,使用決策曲線分析后得到,這是一種考慮避免不必要活檢所帶來的收益以及忽略黑色素瘤活檢的風(fēng)險的方法,它顯示了在不同的風(fēng)險閾值下,皮膚科醫(yī)生在接觸ADAE結(jié)果后再根據(jù)理論選擇的方法(不活檢),與默認(rèn)策略(活檢所有皮損)相比具有更高或相當(dāng)?shù)?span id="s0sssss00s" class="color-pink-03">凈效益(圖3)。
圖3它顯示了一個決策曲線圖,該圖顯示了避免不必要干預(yù)次數(shù)與風(fēng)險閾值之間的關(guān)系。這個圖表顯示了在不同的風(fēng)險閾值下,皮膚科醫(yī)生在接觸ADAE結(jié)果后的理論管理選擇與默認(rèn)策略(活檢所有皮損)相比具有更高或相當(dāng)?shù)膬粜б?。這個圖表還提到了一個閾值概率為5%的例子,這意味著錯過1個黑色素瘤的危害相當(dāng)于19個不必要的良性皮膚活檢的危害。在這種情況下,暴露于ADAE結(jié)果的皮膚科醫(yī)生理論上可以將不必要的活檢數(shù)量降低約15-20個/100,而不會漏診任何患有黑色素瘤的患者。這段文字還指出,所有22個組織病理學(xué)鱗狀細(xì)胞癌都被排除在決策曲線分析之外,因?yàn)樗鼈儾槐灰暈榈韧诹夹云つw病變。
2. 討論
2.1 特異性
對于65+的老人和一型皮膚,ADAE的特異性都更低。與此同時,對于頭/頸部病變(直徑 > 6 毫米、周圍有病變周圍光損傷)、光化性角化病、日光性雀斑和非黑素細(xì)胞碰撞瘤的特異性也較低。(對于其他病變)
這些都可以證明ADAE可以針對強(qiáng)化訓(xùn)練,具有更多的潛力。同時根據(jù)以上說法,ADAE在評估疑似黑色素瘤的皮膚病變時,可能對軀干或四肢(這些部位與突發(fā)的強(qiáng)烈日曬有關(guān),臨床上黑色素瘤又容易與痣混淆)上的年輕人,臨床鑒別診斷為痣時最有幫助。
2.2 前瞻相關(guān)
認(rèn)為前瞻性的研究可以減少實(shí)驗(yàn)中或診斷中帶來的誤差,驗(yàn)證方法和標(biāo)準(zhǔn)的更新也可以減少過往實(shí)驗(yàn)中產(chǎn)生的誤差(如何處理邊界數(shù)據(jù)等)
這項(xiàng)研究的獨(dú)到之處是將ADAE的診斷準(zhǔn)確性與在真實(shí)臨床環(huán)境中從事皮膚癌檢測的專家皮膚科醫(yī)生進(jìn)行比較(ADAE顯著高于醫(yī)生)。以前的研究都涉及到臨床信息不完整,重點(diǎn)放在了實(shí)習(xí)醫(yī)師或遠(yuǎn)程皮膚科醫(yī)生上,沒有完全評估皮膚科醫(yī)生的表現(xiàn)。
這項(xiàng)研究的局限性包括其單中心設(shè)計(jì)、少數(shù)皮膚科醫(yī)生的納入以及病變樣本量相對較小,特別是罕見的黑色素瘤亞型。這些會影響多中心設(shè)計(jì)以及數(shù)據(jù)的生成,這些局限性影響了我們數(shù)據(jù)的有效性和普適性。
總而言之,該文章實(shí)驗(yàn)彌補(bǔ)了臨床方面的空白,驗(yàn)證了ADAE的有效性,但也指出了ADAE具有很多潛力可挖,同時數(shù)據(jù)的來源(多醫(yī)院,多種人群)以及研究對象(更多皮膚?。┛梢愿訌V泛,之后會進(jìn)行這方面的工作。
3. 方法
在實(shí)驗(yàn)部分主要研究主題是
1.ADAE的準(zhǔn)確度
2.ADAE對皮膚科醫(yī)生決策的潛在影響
3.1 算法及選擇理由
選擇了ADAE算法,該算法是ISIC2020黑色素瘤分類挑戰(zhàn)者中的冠軍,3308個隊(duì)伍中脫穎而出,平均AUC 0.9490。
ADAE使用了18個預(yù)測模型,每一個模型都進(jìn)行了五折訓(xùn)練,總共90個模型權(quán)重,其中16個網(wǎng)絡(luò)是基于EfficientNet,2個使用ResNet,其中4個使用了醫(yī)療原始數(shù)據(jù)(age,sex,imagesize..),所有模型分?jǐn)?shù)參考挑戰(zhàn)要求,對分?jǐn)?shù)進(jìn)行對數(shù)之后平均。
之后文章部分很多細(xì)節(jié),總而言之就是經(jīng)過多重驗(yàn)證和專業(yè)人員層層審核,再通過隨機(jī)抽樣等方法,確認(rèn)了數(shù)據(jù)集的可靠性。都是具體實(shí)施過程,個人認(rèn)為沒有太多參考價值,多是與數(shù)據(jù)獲取有關(guān)。
花費(fèi)了好多時間看的,真辛苦呀,ISIC數(shù)據(jù)集都是這批人弄出來的,如此大量實(shí)驗(yàn),有經(jīng)費(fèi)真的是為所欲為,難怪上Nature,羨慕。
https://doi.org/10.1038/s41746-023-00872-1