上??萍即髮W(xué)在聯(lián)邦學(xué)習(xí)與可視分析的研究中取得重要進(jìn)展
上海訊 上??萍即髮W(xué)信息學(xué)院李權(quán)課題組與合作者在聯(lián)邦學(xué)習(xí)與可視分析的研究中取得重要進(jìn)展,成功實(shí)現(xiàn)了使用可視分析技術(shù)對聯(lián)邦學(xué)習(xí)運(yùn)行全過程的探查。該成果目前以 “Inspecting the Running Process of Horizontal Federated Learning via Visual Analytics”為題在可視化與計(jì)算機(jī)圖形領(lǐng)域旗艦期刊《IEEE可視化與計(jì)算機(jī)圖形學(xué)匯刊 》(IEEE Transactions on Visualization and Computer Graphics,TVCG)上在線發(fā)表。
作為一種去中心化的機(jī)器學(xué)習(xí)模型訓(xùn)練方法,聯(lián)邦學(xué)習(xí)使多個(gè)參與方在數(shù)據(jù)隱私保護(hù)、滿足合法合規(guī)要求的前提下進(jìn)行大數(shù)據(jù)合作,解決了數(shù)據(jù)孤島問題。但由于聯(lián)邦學(xué)習(xí)隱私保護(hù)特性,決策者通常缺乏足夠信息去探查建模過程中各參與方及聯(lián)邦模型,只能對潛在異常行為進(jìn)行淺層次分析,評估參與方貢獻(xiàn)及實(shí)施必要的干預(yù)手段非常有限。李權(quán)課題組通過將可視分析技術(shù)與橫向聯(lián)邦學(xué)習(xí)框架進(jìn)行無縫對接,嚴(yán)格遵循聯(lián)邦學(xué)習(xí)數(shù)據(jù)隱私保護(hù)原則,設(shè)計(jì)并實(shí)現(xiàn)支持探查橫向聯(lián)邦學(xué)習(xí)運(yùn)行全過程的可視分析框架,幫助聯(lián)邦學(xué)習(xí)實(shí)踐者和大數(shù)據(jù)合作決策者方便地探查橫向聯(lián)邦學(xué)習(xí)運(yùn)行全過程,分析所有參與方在不同通信輪的信息相關(guān)性,識別潛在的異常情況及評估各參與方貢獻(xiàn)。
李權(quán)課題組針對典型的聯(lián)邦學(xué)習(xí)的應(yīng)用場景,總結(jié)領(lǐng)域?qū)<沂侨绾卧谡鎸?shí)應(yīng)用場景中使用聯(lián)邦學(xué)習(xí),以及在使用過程中的主要關(guān)注點(diǎn),梳理聯(lián)邦學(xué)習(xí)技術(shù)應(yīng)用及推廣的痛點(diǎn)。根據(jù)調(diào)研結(jié)論,提出一種名為HFLens的交互式可視分析技術(shù),幫助領(lǐng)域?qū)<艺莆章?lián)邦學(xué)習(xí)執(zhí)行過程的概覽,全面了解每個(gè)通信回合各個(gè)聯(lián)邦參與方的狀態(tài),識別可能的異常情況,并評估每個(gè)回合的各個(gè)參與方貢獻(xiàn)。同時(shí),在真實(shí)場景中,HFLens支持在全貌概覽,通信回合和聯(lián)邦參與客戶端三個(gè)層面的細(xì)粒度分析,能夠識別出參與積極性不高及數(shù)據(jù)樣本分布差異較大的客戶端。 兩個(gè)真實(shí)案例研究和專家反饋?zhàn)C實(shí)了該系統(tǒng)的有效性。
此項(xiàng)工作由上??萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院、深圳旭宏醫(yī)療科技有限公司人工智能部、微眾銀行人工智能部及香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)系協(xié)作完成,李權(quán)為第一作者。該研究得到上科大科研啟動經(jīng)費(fèi)及香港研究資助局基金的大力支持。
文章鏈接:https://ieeexplore.ieee.org/document/9408377
圖. (a)三輪通信回合的流程示例。(b)基于(a)的示例生成用于檢查橫向聯(lián)邦學(xué)習(xí)運(yùn)行過程的概述設(shè)計(jì)。 連接關(guān)系指示相應(yīng)的節(jié)點(diǎn)是否參與下一輪聯(lián)邦通信。
圖. (1) 橫向聯(lián)邦學(xué)習(xí)的參與方模型性能演化遵循一條有規(guī)律的路徑,遠(yuǎn)離該路徑的參與方最有可能出現(xiàn)異常。(2)領(lǐng)域?qū)<尹c(diǎn)擊第21輪通信回合,在兩兩比較視圖中檢查每個(gè)橫向聯(lián)邦學(xué)習(xí)參與方的模型性能指標(biāo)分布。(3)他們識別出一個(gè)異??蛻舳恕?4)他們還發(fā)現(xiàn),客戶端5的性能總是低于所有參與方準(zhǔn)確率的中位值。(上科大宣)