多機(jī)管理 ,資源共享--集群整合
大家好!中欣科技新一期的技術(shù)分享又到了;今天我們聊聊集群整合!
既然說到集群整合:那集群整合是什么意思呢:
集群整合即HPC集群系統(tǒng):是一組聯(lián)網(wǎng)計(jì)算機(jī)集群,用于協(xié)同處理大型的數(shù)據(jù)集合或計(jì)算任務(wù)。它們通常由集群管理軟件、資源管理器和隊(duì)列調(diào)度器組成,以提高計(jì)算效率。
HPC群集系統(tǒng)的主要特征包括:
1. 可擴(kuò)展性:用戶可以根據(jù)需要增加或減少集群節(jié)點(diǎn)的數(shù)量,以適應(yīng)不同規(guī)模的計(jì)算任務(wù)或數(shù)據(jù)集合。
2. 高可用性:集群系統(tǒng)可以選擇多個(gè)節(jié)點(diǎn)執(zhí)行同一任務(wù),以確保任何單個(gè)節(jié)點(diǎn)故障時(shí)不影響計(jì)算任務(wù)。
3. 高性能:集群系統(tǒng)的節(jié)點(diǎn)可以采用高性能計(jì)算(HPC)技術(shù),如多核心處理器、GPU加速器和Infiniband網(wǎng)絡(luò),以提高計(jì)算速度。
4. 易于管理:集群管理軟件提供了簡化集群節(jié)點(diǎn)的配置、維護(hù)和監(jiān)控的工具。資源管理器和隊(duì)列調(diào)度器可以根據(jù)用戶需求自動(dòng)地分配計(jì) 算資源和調(diào)度任務(wù)。
目前,HPC群集系統(tǒng)在科學(xué)、工程、金融、醫(yī)療等領(lǐng)域廣泛應(yīng)用,幫助用戶快速高效地處理大量數(shù)據(jù)和計(jì)算任務(wù)。
什么情況環(huán)境下需要集群整合呢?
當(dāng)我們擁有兩臺(tái)以上的服務(wù)器時(shí),機(jī)器數(shù)量增加,任務(wù)提交、機(jī)器管理等操作需要一臺(tái)臺(tái)的連接,各機(jī)器的IP、賬戶、密碼不同,使用時(shí)候十分不便;
機(jī)器數(shù)量很多,但是每個(gè)單臺(tái)機(jī)器的資源無法滿足大規(guī)模任務(wù)需求;
機(jī)器數(shù)量眾多,但機(jī)器放置雜亂;
每個(gè)機(jī)器擁有資源不同,但是分配不均,有核數(shù)的機(jī)器缺少存儲(chǔ),有存儲(chǔ)的機(jī)器內(nèi)存資源偏低。
集群整合后的效果:
集群整合后我們可以通過只登錄集群主管理節(jié)點(diǎn),就可以管理整個(gè)并入集群內(nèi)部的機(jī)器;
可以將原本分散的資源進(jìn)行統(tǒng)一調(diào)配,比如:原本只有單臺(tái)40核處理器、128GB內(nèi)存,當(dāng)我們將兩臺(tái)同樣配置機(jī)器整合集群后,就可以使用80核處理器、 256GB內(nèi)存進(jìn)行計(jì)算任務(wù);
賬號(hào)管理方便:原本需要記住多臺(tái)機(jī)器的IP、賬號(hào)、密碼,現(xiàn)在只需要記住主節(jié)點(diǎn)的信息,我們就可以免密登錄其他節(jié)點(diǎn);
任務(wù)、資源管理更加方便,同樣登錄主節(jié)點(diǎn)即可操作其他節(jié)點(diǎn);
集群內(nèi)部的節(jié)點(diǎn)資源共享。
集群整合需要什么設(shè)施:
需要具備一個(gè)交換機(jī),用于將每臺(tái)機(jī)器連接在同一局域網(wǎng)內(nèi);
如果機(jī)器較多現(xiàn)占有空間很大,可以準(zhǔn)備一個(gè)機(jī)柜,用于將機(jī)器統(tǒng)一放置,減少占地面積;
網(wǎng)絡(luò)升級(jí)(非必須選項(xiàng)),因?yàn)榧旱慕⒒A(chǔ)是通過網(wǎng)絡(luò)連接的方式,將所有單獨(dú)機(jī)器整合在一起,如果想提升集群整合之后的計(jì)算效率,當(dāng)然是網(wǎng)絡(luò)傳輸速度越快約好了。
中欣科技集群管理軟件
該軟件是中欣自主研發(fā)的一款面向HPC計(jì)算集群的管理平臺(tái),可快速啟動(dòng)運(yùn)行集群,允許用戶在裸機(jī)上部署完整的集群,并有效地進(jìn)行管理,為硬件、操作系統(tǒng)、HPC 軟件和用戶提供統(tǒng)一管理窗口??蔀槭褂谜咛峁┣逦墓芾斫缑妗⒑唵蔚氖褂貌僮?,安全可靠的監(jiān)控管理、靈活方便的維護(hù)方案等,為您的集群提供前所未有的便利。
硬件層次:
以常規(guī)服務(wù)器為基礎(chǔ),兼容主流X86服務(wù)器與多種規(guī)格基礎(chǔ)硬件,支持TCP/IP,InfiniBand 高速網(wǎng)絡(luò)互聯(lián)、分布式存儲(chǔ)、集中式存儲(chǔ)等。
系統(tǒng)要求:
常用linux系統(tǒng),centos 紅帽 ubuntu均可布置 ,使用slurm資源調(diào)度管理系統(tǒng),實(shí)現(xiàn)高速調(diào)用資源及細(xì)粒度監(jiān)控管理。
核心功能:
1.統(tǒng)一管理界面
提供基于Web的集群管理圖形用戶界面和集群管理Shell模式。圖形界面提供單系統(tǒng)視圖,通過“單窗格”管理集群所有內(nèi)容,管理功能操作簡單,所有任務(wù)通過直觀的可視化界面執(zhí)行。Shell模式通過命令行接口提供與圖形界面相同的功能,通過shell模式可在交互模式和批處理模式間切換使用。
2.快速部署
允許用戶在裸機(jī)上部署完整的集群,幾分鐘即可部署完成,并有效的管理它們,支持Linux、Red Hat、CentOS等發(fā)行版,可添加HPC工作負(fù)載管理器、Kubernetes、Spark和深度學(xué)習(xí)庫等組件。
3.任務(wù)調(diào)度管理器
集成slurm任務(wù)調(diào)度器,可實(shí)時(shí)監(jiān)控節(jié)點(diǎn)的健康狀態(tài),圖形視圖界面及用戶訪問入口為任務(wù)調(diào)度管理器提供一個(gè)友好的用戶接口,可配置了可靠的任務(wù)調(diào)度管理器故障轉(zhuǎn)移。
4.集群監(jiān)控管理
當(dāng)集群超出預(yù)定的系統(tǒng)極限值時(shí),集群管理會(huì)自動(dòng)采取措施,從而節(jié)省時(shí)間并防止硬件損壞。集群任務(wù)統(tǒng)一監(jiān)控、管理,并對(duì)任務(wù)狀態(tài)可設(shè)置,郵箱提醒功能。
5.全面資源管理
從根本上減少了資源管理所需的時(shí)間和精力,并將集群資源完全集成到整個(gè)系統(tǒng)的視圖中,擁有完備的資源管理和監(jiān)控能力,用戶可輕松取得資源占用、剩余可用情況狀態(tài),并獲得各任務(wù)的時(shí)間狀態(tài)監(jiān)測(cè)。增加監(jiān)控功能,隨時(shí)查看集群資源使用情況。
集群軟件使用簡介:
一:注冊(cè)登錄
進(jìn)入超算平臺(tái)管理頁面
輸入賬號(hào)、密碼以及驗(yàn)證碼,點(diǎn)擊注冊(cè),完成注冊(cè)流程后,重新進(jìn)入登錄頁面;登錄成功后,進(jìn)入超算平臺(tái)首頁,如下圖:
二:創(chuàng)建文件夾
點(diǎn)擊文件列表菜單,進(jìn)入文件管理頁面,如下圖:
2.點(diǎn)擊新建文件夾按鈕,創(chuàng)建一個(gè)需要放置源代碼文件的文件夾
三:上傳源代碼文件
1.完成第二步操作后,在文件列表中選擇對(duì)應(yīng)的文件夾,點(diǎn)擊上傳數(shù)據(jù)按鈕,將會(huì)彈出文件上傳彈出框,選擇需要上傳的源代碼文件進(jìn)行上傳。
2.上傳成功后,將如下顯示
四:提交作交
1.點(diǎn)擊作業(yè)管理菜單,選擇作業(yè)提交子菜單。
2.點(diǎn)擊模板提交按鈕,進(jìn)入作業(yè)模板頁面
3.點(diǎn)擊Anconda一欄后的提交作業(yè)按鈕,將會(huì)彈出上傳作業(yè)彈出框,選擇需要上傳作業(yè)文件,完成上傳后,將會(huì)自動(dòng)執(zhí)行作業(yè)。
五:查看作業(yè)狀態(tài)
1.作業(yè)提交成功后,在作業(yè)狀態(tài)頁面可以查看作業(yè)完成狀態(tài)
2.點(diǎn)擊右上角刷新按鈕,將會(huì)更新作業(yè)狀態(tài)
在作業(yè)狀態(tài)頁面,根據(jù)不同需求可以分別下載正常操作日志以及查看錯(cuò)誤日志;其中點(diǎn)擊查看日志按鈕可以下載錯(cuò)誤日志,點(diǎn)擊下載日志按鈕將會(huì)下載正常輸出日志。
如果您有多臺(tái)機(jī)器正在受到文中所提的困擾,那么您可以聯(lián)系我們
我們有經(jīng)驗(yàn)豐富的專業(yè)技術(shù)工程師,為您量身訂制集群整合方案;
并保證方案的順利實(shí)施,讓您花費(fèi)更少的時(shí)間和精力,提升您的工作效率!