集群和節(jié)點(diǎn)的概念及pestat 命令
?????? 在更換服務(wù)器后,相比以往在醫(yī)院工作時(shí)用的服務(wù)器,現(xiàn)在提交命令時(shí)需要指定計(jì)算節(jié)點(diǎn),為了理解大家在pbs腳本中的一些命令行,又補(bǔ)充學(xué)習(xí)了一下linux系統(tǒng)的基礎(chǔ)知識(shí)。
集群和節(jié)點(diǎn)的概念:
集群(cluster)就是一組計(jì)算機(jī),它們作為一個(gè)整體向用戶提供一組網(wǎng)絡(luò)資源。其中單個(gè)的計(jì)算機(jī)系統(tǒng)就是集群的節(jié)點(diǎn)(node)。一個(gè)理想的集群是,用戶從來不會(huì)意識(shí)到集群系統(tǒng)底層的節(jié)點(diǎn),在他/她們看來,集群是一個(gè)系統(tǒng),而非多個(gè)計(jì)算機(jī)系統(tǒng)。并且集群系統(tǒng)的管理員可以隨意增加和刪改集群系統(tǒng)的節(jié)點(diǎn)。
集群優(yōu)越性:
?????? 使用集群起源于其良好的性能可擴(kuò)展性(scalability)。提高cpu主頻和總線帶寬是最初提供計(jì)算機(jī)性能的主要手段。但是這一手段對(duì)系統(tǒng)性能的提供是有限的。接著人們通過增加CPU個(gè)數(shù)和內(nèi)存容量來提高性能,于是出現(xiàn)了向量機(jī),對(duì)稱多處理機(jī)(SMP)等。但是當(dāng)CPU的個(gè)數(shù)超過某一閾值,像SMP這些多處理機(jī)系統(tǒng)的可擴(kuò)展性就變的極差。主要瓶頸在于CPU訪問內(nèi)存的帶寬并不能隨著CPU個(gè)數(shù)的增加而有效增長。因此,集群的優(yōu)勢顯現(xiàn)出來了,集群系統(tǒng)的性能隨著CPU個(gè)數(shù)的增加幾乎是線性變化的。下圖顯示了這種情況:

?????? 其它優(yōu)勢:
?????? 高可用性:集群中的一個(gè)節(jié)點(diǎn)失效,它的任務(wù)可以傳遞給其他節(jié)點(diǎn)??梢杂行Х乐箚吸c(diǎn)失效。
高性能:負(fù)載平衡集群允許系統(tǒng)同時(shí)接入更多的用戶。
高性價(jià)比:可以采用廉價(jià)的符合工業(yè)標(biāo)準(zhǔn)的硬件構(gòu)造高性能的系統(tǒng)。
了解了集群和節(jié)點(diǎn)的概念后,就是使用了。
在服務(wù)器提交任務(wù)之前應(yīng)養(yǎng)成看節(jié)點(diǎn)占用情況的習(xí)慣,然后將任務(wù)提交到free的節(jié)點(diǎn),避免任務(wù)一直在隊(duì)列中等待的情況,查看占用情況有下面兩種方式。
pestat?顯示出當(dāng)前各節(jié)點(diǎn)占用情況,可根據(jù)任務(wù)號(hào)配合?qstat?命令找出占用用戶。

其中node1是登陸節(jié)點(diǎn),node10等是計(jì)算節(jié)點(diǎn),提交任務(wù)時(shí)一定要提到到計(jì)算節(jié)點(diǎn)上去,這種設(shè)置了多節(jié)點(diǎn)分布式的計(jì)算集群,每個(gè)人固定分配幾個(gè)節(jié)點(diǎn),這才是多人使用一臺(tái)服務(wù)器的正確模式。
如上圖所示,state表示當(dāng)前節(jié)點(diǎn)是否空閑,free表示空閑, busy表示繁忙,當(dāng)state顯示busy時(shí),提交任務(wù)時(shí)不建議提交到該節(jié)點(diǎn)。
ncpus為當(dāng)前節(jié)點(diǎn)總核心數(shù),tasks為當(dāng)前已提交任務(wù)占用核心數(shù)量。
pbsnodes -l free 只顯示出當(dāng)前free的節(jié)點(diǎn)。
本文使用 文章同步助手 同步