參數(shù)服務(wù)器(Parameter Server)逐段精讀【論文精讀】

論文:Scaling Distributed Machine Learning with the Parameter Sever
論文地址:https://www.usenix.org/system/files/conference/osdi14/osdi14-paper-li_mu.pdf

系統(tǒng)方向
操作系統(tǒng)
OSDI:兩年一開
比較小的地方開,一個會場
會議手冊


用了很大的集群

摘要
提出一個參數(shù)服務(wù)器框架來解決機器學(xué)習(xí)問題。
簡短有利

導(dǎo)言
分布式的優(yōu)化和推理現(xiàn)在已經(jīng)成為了解決大規(guī)模機器學(xué)習(xí)問題的一個前置條件
當(dāng)規(guī)模很大的時候,沒有一臺機器能夠解決這個問題,而且是足夠快的情況下
模型漲,復(fù)雜度也在不斷的漲,而且復(fù)雜的模型通常會導(dǎo)致參數(shù)的一個變動,但實現(xiàn)一個非常有效的分布式算法是非常難的,因為計算的復(fù)雜度高所帶來的數(shù)據(jù)通訊量也是會比較大

三個痛點
網(wǎng)絡(luò)帶寬的應(yīng)用,
機器學(xué)習(xí)算法要不斷地去做全局的通訊
容災(zāi)

機器一多,跑的任務(wù)越長,一兩臺機器出現(xiàn)問題的概率很大
機器容易過熱,因為顯卡一直在跑,電量要求比較大的時候,風(fēng)扇沒有跟上導(dǎo)致過熱,會導(dǎo)致降頻
Nvidia的一些驅(qū)動上偶爾會出現(xiàn)問題,在分布式的時候可能在通訊的時候會出現(xiàn)問題

這里寫的主要是為什么要在機器學(xué)習(xí)里做容災(zāi)
貢獻

設(shè)計根據(jù)系統(tǒng)來的

強一致性模型就是不同機器在不同時間節(jié)點拿到的值是一樣的
弱一致性允許一定程度上的延后
彈性可擴展性,允許新的節(jié)點加進來但不會讓整個任務(wù)停掉
容災(zāi):當(dāng)一臺或幾臺機器出現(xiàn)問題的時候,能夠花多少時間從里面恢復(fù)過來
向量鐘
用起來簡單:全局的參數(shù)可以抽象成一個或一個稀疏的向量或矩陣
新穎性
找到了合適的系統(tǒng)技術(shù),適配到機器學(xué)習(xí)算法里面,改變機器學(xué)習(xí)的算法使得更加的系統(tǒng)友好
放棄了分布式系統(tǒng)要求比較高的一致性如,也對機器學(xué)習(xí)的算法做了一些修改使得它能夠容忍這些丟失的一致性

工程上的挑戰(zhàn)


相關(guān)工作

機器學(xué)習(xí)·

風(fēng)險最小化

算法
