Meta研究低秩張量壓縮與稀疏剪枝結(jié)合,降低AR/VR設(shè)備機(jī)器學(xué)習(xí)的內(nèi)存成本
查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)
降低內(nèi)存成本
(映維網(wǎng)?2021年12月09日)使用機(jī)器學(xué)習(xí)在邊緣設(shè)備啟用多個(gè)應(yīng)用程序需要多個(gè)特定于任務(wù)的持久化模型,而所述模型可用于從計(jì)算機(jī)視覺(jué)(Howard et al.,2019)到自動(dòng)語(yǔ)音識(shí)別等多種任務(wù)。但是,多應(yīng)用和多模型的趨勢(shì)受到以下事實(shí)的制約:片外存儲(chǔ)器讀取會(huì)產(chǎn)生高延遲和電源成本。
在名為《Low-Rank+Sparse Tensor Compression For Neural Networks》的研究論文中,加州大學(xué)和Meta組成的團(tuán)隊(duì)把降低內(nèi)存成本作為目標(biāo)。
在這一領(lǐng)域,低秩張量壓縮是一種流行的方法,它可以實(shí)現(xiàn)數(shù)量級(jí)壓縮,不過(guò)會(huì)導(dǎo)致嚴(yán)重的精度損失。低秩張量壓縮已經(jīng)獲得了令人印象深刻的壓縮數(shù),并且由于其依賴(lài)于標(biāo)準(zhǔn)密集線性代數(shù)運(yùn)算,它適合于設(shè)備加速。然而,它通常應(yīng)用于大規(guī)模超參數(shù)化架構(gòu),如VGG或ResNet。最近的稀疏修剪基準(zhǔn)測(cè)試研究提出了一個(gè)問(wèn)題:應(yīng)用于過(guò)參數(shù)化架構(gòu)的壓縮技術(shù)可能無(wú)法達(dá)到SOTA壓縮網(wǎng)絡(luò)的Pareto壓縮/精度水準(zhǔn),如EfficientNet。
另外,張量壓縮對(duì)神經(jīng)網(wǎng)絡(luò)權(quán)重強(qiáng)制執(zhí)行低秩因子分解結(jié)構(gòu)。同時(shí),SOTA計(jì)算機(jī)視覺(jué)主干已經(jīng)通過(guò)深度可分離卷積利用了這種分解結(jié)構(gòu)。這促使團(tuán)隊(duì)考慮以下問(wèn)題:低秩張量壓縮如何影響SOTA計(jì)算機(jī)視覺(jué)架構(gòu)呢?
在論文中,團(tuán)隊(duì)研究了低秩張量壓縮是否可以與稀疏剪枝相結(jié)合,分別捕獲互補(bǔ)的粗結(jié)構(gòu)和精細(xì)結(jié)構(gòu),并且實(shí)現(xiàn)優(yōu)于稀疏剪枝或單獨(dú)的低秩張量因子分解。具體來(lái)說(shuō),研究人員探索了神經(jīng)網(wǎng)絡(luò)權(quán)值的兩種低秩加稀疏分解形式。首先考慮附加結(jié)構(gòu),其中神經(jīng)網(wǎng)絡(luò)權(quán)值可以分解為低秩分量和稀疏分量之和。其次考慮一個(gè)低秩或稀疏結(jié)構(gòu),其中神經(jīng)網(wǎng)絡(luò)權(quán)值來(lái)自于稀疏修剪權(quán)重或低秩權(quán)重。

在high level,團(tuán)隊(duì)的算法以一個(gè)經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)ft作為輸入,然后通過(guò)第一階段和第二階段:低秩加稀疏張量分解;迭代剪枝和微調(diào)輸出一個(gè)低秩加稀疏張量壓縮的神經(jīng)網(wǎng)絡(luò)fs,見(jiàn)圖1。
團(tuán)隊(duì)考慮兩種方法來(lái)表示張量A,并假設(shè)重建A= H(L,S)結(jié)合低秩和稀疏分量,并且在任何前向傳播之前進(jìn)行。根據(jù)H的具體形式,分別使用S和L直接收縮層激活可能更有效。

稀疏權(quán)重S將被迭代剪枝。因此,目標(biāo)是使用L捕獲A中任何可能的粗粒度結(jié)構(gòu),并保留S中非常適合稀疏剪枝的精細(xì)結(jié)構(gòu)。研究人員描述了兩種分解方法。在執(zhí)行因式分解之前,可以對(duì)張量A進(jìn)行重塑。
團(tuán)隊(duì)報(bào)告了在ImageNet-1K上獲得的結(jié)果。所有結(jié)果都是通過(guò)在一臺(tái)搭載32個(gè)CPU核、8個(gè)Tesla V100 GPU和128GB內(nèi)存的機(jī)器進(jìn)行訓(xùn)練獲得。對(duì)每種方法進(jìn)行50個(gè)階段的訓(xùn)練。每次運(yùn)行大約需要12小時(shí)。所有報(bào)告的ImageNet準(zhǔn)確度指標(biāo)均為驗(yàn)證準(zhǔn)確度。
首先,研究人員比較了方法的兩種變體:帶剩余初始化的相加重建和帶掩蔽初始化的掩蔽重建。對(duì)于本實(shí)驗(yàn)和所有其他MobileNet實(shí)驗(yàn),團(tuán)隊(duì)使用動(dòng)量為0.9的SGD,基礎(chǔ)學(xué)習(xí)率為0.1,每5個(gè)時(shí)代應(yīng)用0.7的衰減。使用{0.5,0.7,0.9}上的小網(wǎng)格搜索選擇衰減率,并為稀疏剪枝的MobileNet-v3-Large基線選擇最佳ImageNet-1K驗(yàn)證精度。

圖3比較了剩余初始化策略和掩蔽初始化策略的結(jié)果。團(tuán)隊(duì)觀察到這兩種策略都沒(méi)有明顯的收益?;诮Y(jié)果,研究人員在剩下的實(shí)驗(yàn)中使用了更簡(jiǎn)單的殘差初始化策略和加法重建。

團(tuán)隊(duì)進(jìn)一步繪制了應(yīng)用于MobilNetv3小型高效網(wǎng)絡(luò)模型的CP格式分解結(jié)果。其觀察到,許多層具有較高的相對(duì)誤差,但有幾層突出,因?yàn)榈椭葟埩糠至繋缀跬耆显紡埩縜。研究人員發(fā)現(xiàn),許多(但不是全部)空間卷積都能通過(guò)張量分解很好地?cái)M合,并且相對(duì)誤差較小。圖6提供了一個(gè)示例,其中給出了MobileNetv3 Small中逐點(diǎn)卷積和空間卷積的代表性示例。
總的來(lái)說(shuō),團(tuán)隊(duì)的主要貢獻(xiàn)是研究了最近SOTA中保留的用于計(jì)算機(jī)視覺(jué)任務(wù)的高效神經(jīng)網(wǎng)絡(luò)的低秩結(jié)構(gòu)。研究人員觀察到,建筑設(shè)計(jì)的趨勢(shì)通過(guò)構(gòu)建因子權(quán)重從此類(lèi)網(wǎng)絡(luò)中移除了低秩結(jié)構(gòu)。因此,直接應(yīng)用低秩矩陣和張量方法具有挑戰(zhàn)性。
相關(guān)論文:Low-Rank+Sparse Tensor Compression For Neural Networks
據(jù)其所知,這項(xiàng)研究是第一次考慮低秩張量壓縮與稀疏剪枝的結(jié)合。另外,這是第一次研究依賴(lài)于有效深度可分離卷積的SOTA架構(gòu)的低秩+稀疏權(quán)重壓縮。
---
原文鏈接:https://news.nweon.com/92351