猿代碼GPU并行程序優(yōu)化實(shí)戰(zhàn)課程
多核/多處理器
芯片廠商基于技術(shù)和成本的考慮,向多核心方向發(fā)展,8核心、32核心、64核心等,但是內(nèi)存訪問(wèn)還是使用共享總線的方式,這樣就限制的CPU處理數(shù)據(jù)的帶寬
NUMA
為了解決內(nèi)存帶寬的問(wèn)題,引入了NUMA。只有當(dāng)CPU訪問(wèn)自身直接attach內(nèi)存對(duì)應(yīng)的物理地址時(shí),才會(huì)有較短的響應(yīng)時(shí)間(后稱Local Access)。而如果需要訪問(wèn)其他CPU attach的內(nèi)存的數(shù)據(jù)時(shí),就需要通過(guò)inter-connect通道訪問(wèn),響應(yīng)時(shí)間就相比之前變慢了(后稱Remote Access)。所以NUMA(Non-Uniform Memory Access)就此得名。
?
標(biāo)簽: