自制arm內(nèi)核架構(gòu)的“超算”私人服務(wù)器
https://www.servethehome.com/building-the-ultimate-x86-and-a 許多年前,在 STH,我們有一個(gè)簡(jiǎn)短的 Cluster-in-a-Box 系列。那是在 2013 年左右,當(dāng)時(shí)只有我在網(wǎng)站上兼職工作,我們沒(méi)有今天在 STH 擁有的團(tuán)隊(duì)和資源。也是在像 kubernetes 這樣的概念出現(xiàn)之前,一個(gè)成熟的 Arm 服務(wù)器的想法似乎還很遙遠(yuǎn)。今天,是時(shí)候展示一個(gè)在 STH 上醞釀數(shù)月的項(xiàng)目了:2021 Ultimate Cluster-in-a-Box x86 和 Arm 版本。我們擁有超過(guò) 1.4Tbps 的網(wǎng)絡(luò)帶寬、64 個(gè)基于 AMD 的 x86 內(nèi)核、56 個(gè) Arm Cortex A72 內(nèi)核、624GB 的 RAM 和數(shù) TB 的存儲(chǔ)空間。是時(shí)候進(jìn)入硬件了。






視頻協(xié)作
這個(gè)項(xiàng)目,或者更具體地說(shuō),為什么今天發(fā)布它,是因?yàn)樗桥c Jeff Geerling 合作完成的。我經(jīng)常聽(tīng)到他被稱為“樹(shù)莓派家伙”,因?yàn)樗脴?shù)莓派平臺(tái)做了一些了不起的項(xiàng)目。當(dāng)我在圣路易斯參加 SC21 時(shí),您可能已經(jīng)在大拱門(mén)見(jiàn)過(guò)我。我們?cè)谀抢锱牧艘稽c(diǎn),然后杰夫把我送到安海斯-布希工廠,該工廠在最近?的 SC21作品十大展示中客串。我們的目標(biāo)很簡(jiǎn)單:構(gòu)建我們對(duì)盒裝集群的愿景。
作為一點(diǎn)背景知識(shí),我擁有的集群是 2021 年 5 月下旬的一個(gè)項(xiàng)目,您可能已經(jīng)在 STH 上看到了它。目標(biāo)是在一個(gè)易于運(yùn)輸?shù)钠脚_(tái)上測(cè)試一些新硬件,因?yàn)槲抑缞W斯汀的舉動(dòng)很快就會(huì)發(fā)生。在搬家過(guò)程中,我們從來(lái)沒(méi)有機(jī)會(huì)展示這個(gè)盒子。Jeff 擁有新的 Turing Pi 2 平臺(tái)來(lái)集群 Raspberry Pi,所以這似乎是一個(gè)挑戰(zhàn)。他選擇了成本較低的版本,而我選擇了可能是 2021 年可以實(shí)現(xiàn)的最好的盒裝集群解決方案之一。
基本規(guī)則很簡(jiǎn)單。我們至少需要四個(gè) Arm 服務(wù)器節(jié)點(diǎn),而且它必須安裝在一個(gè)帶有單個(gè)電源的盒子中。公平地說(shuō),在我們拍攝合作之前我就知道杰夫的計(jì)劃,但他不知道我在奧斯汀的一個(gè)包廂里準(zhǔn)備了什么。
對(duì)于那些想看的人,這里是一個(gè)關(guān)于終極集群的 STH 視頻:
這是杰夫使用圖靈 Pi 2 的視頻:
這些都是很好的選擇,可以同時(shí)查看當(dāng)今可能的高端和低端。與往常一樣,最好在新的瀏覽器窗口、選項(xiàng)卡或應(yīng)用程序中打開(kāi)這些,以獲得最佳觀看體驗(yàn)。
構(gòu)建 Ultimate x86 和 Arm Cluster-in-a-Box
讓我們進(jìn)入硬件。首先,在 x86 方面。為此,我們使用了 AMD 銳龍 Threadripper Pro 平臺(tái)。通常,該平臺(tái)具有Threadripper PRO 3995WX,它是羅馬代 64 核、128 線程“WEPYC”或工作站 EPYC。遺憾的是,在冷卻解決方案到來(lái)之前,我唯一的照片是在這塊主板上的 3975WX 和 3955WX。
該系統(tǒng)使用 8 個(gè) 64GB 美光 DIMM,用于 512GB DDR4-3200 ECC 內(nèi)存。這是一個(gè)決定拉著夢(mèng)魘“原諒我”并燃燒起來(lái)的平臺(tái)。值得稱贊的是,美光在 Twitter 上看到了這一點(diǎn),并發(fā)送了一個(gè)替換 DIMM。
使用的主板是?ASUS Pro WS WRX80E-SAGE SE WiFi。對(duì)于 Threadripper Pro 來(lái)說(shuō),這是一個(gè)絕對(duì)很棒的平臺(tái),或者基本上任何東西,除非您正在尋找低功耗、廉價(jià)和低成本的平臺(tái)。這適用于光環(huán)構(gòu)建。
主板安裝在 Fractal Design Define 7 XL 中。這是一個(gè)巨大的機(jī)箱,但考慮到主板有多大,這幾乎是必需的。即便如此,由于主板尺寸的原因,它實(shí)際上比人們想象的要困難得多。
CPU 的冷卻解決方案是華碩 Rog Ryujin 360 RGB AIO 液體冷卻器。使用該冷卻器的原因是,在整個(gè)系統(tǒng)成本的宏偉計(jì)劃中,獲得一個(gè)稍微有趣一點(diǎn)的冷卻器似乎沒(méi)什么大不了的。它更貴,但在 2021 年 5 月,這也是我可以通過(guò)一日送貨在亞馬遜上獲得的東西。
這是安裝了更多組件的外觀:
快速說(shuō)明一下,最初的計(jì)劃是通過(guò) Hyper M.2 x16 Gen4 卡上的三星 980 Pro SSD 提供額外存儲(chǔ)的 6x DPU 集群。然而,如果你在一個(gè)盒子里做一個(gè)集群,你可以通過(guò)添加一個(gè)額外的 DPU 并使用板載 M.2 插槽進(jìn)行存儲(chǔ)來(lái)獲得更多節(jié)點(diǎn)。如果你在 STH 上看到過(guò)這個(gè),那就是原因。在實(shí)際中,這實(shí)際上是在系統(tǒng)使用時(shí)替換第 7 個(gè) DPU 的卡。
DPU 是 Mellanox NVIDIA BF2M516A 單元。敏銳的眼光會(huì)注意到我們有兩個(gè)不同的修訂版,它們?cè)谙到y(tǒng)上略有不同。每張卡都有八個(gè)運(yùn)行在 2.0GHz 的 8 核 Arm Cortex A72 芯片。與 Raspberry Pi 不同,這些對(duì)加密卸載等具有更高端的加速。我們最近討論了為什么加速對(duì) STH 很重要。這些卡的其他重要規(guī)格是它們的操作系統(tǒng)具有 16GB 內(nèi)存和 64GB 板載閃存。由于 STH 使用 Ubuntu,這些卡運(yùn)行 Ubuntu,我們卡的基本映像包括 Docker,因此我們可以開(kāi)箱即用地在它們上運(yùn)行容器。
這些卡本身有兩個(gè) 100Gbps 網(wǎng)絡(luò)端口。我們的特殊卡是 VPI 卡。我們?cè)贛ellanox ConnectX-5 VPI 100GbE 和 EDR InfiniBand 評(píng)論中介紹了 VPI 的含義?;旧?,它們可以在 100GbE 模式下或作為 EDR InfiniBand 運(yùn)行??ǖ呐渲梅绞绞莾煞N方式之一。Arm 芯片可以放置在主機(jī)系統(tǒng)和 NIC 端口之間的線路中。
可以為防火墻、供應(yīng)或其他應(yīng)用程序執(zhí)行此操作。我們實(shí)際如何使用它們,因?yàn)榘藗€(gè) Arm 內(nèi)核通常會(huì)對(duì)網(wǎng)絡(luò)性能產(chǎn)生負(fù)面影響,即主機(jī)和 Arm CPU 同時(shí)訪問(wèn)端口。這不會(huì)將 Arm CPU 置于從主機(jī)到 NIC 的路徑中,并且通常會(huì)提高性能。BlueField-2 感覺(jué)很像早期產(chǎn)品。
我們將很快提到還有低功耗和薄型 25GbE 卡。我們沒(méi)有全高支架,或者可能已經(jīng)使用了這個(gè)支架。
下面是系統(tǒng)中堆疊的七張牌:
這是新的 BlueField-2 卡上的 docker ps 和網(wǎng)絡(luò)配置。可以看到還有一個(gè)返回到主機(jī)系統(tǒng)的接口
另一個(gè)有趣的點(diǎn)是這個(gè)系統(tǒng)背后有多少網(wǎng)絡(luò)。這是一個(gè)外觀:
總結(jié)一下:
2 個(gè) 10Gbase-T 端口 (ASUS)
14x QSFP56/QSFP28 100GbE 端口(7x BlueField-2 卡)
7x 管理端口(7x BlueField-2,在 10G 網(wǎng)卡上有一個(gè)共享的 ASUS 端口)
無(wú)線網(wǎng)絡(luò) 6
總而言之,在這個(gè)系統(tǒng)的背面,我們總共有 24 個(gè)網(wǎng)絡(luò)連接。這就是為什么您將看到的下一個(gè) STH 項(xiàng)目是通過(guò)家庭工作室和辦公室運(yùn)行 1700 根光纖的一個(gè)重要原因。
由于安裝了大量光纖,因此無(wú)需在演播室中放置響亮且耗電的開(kāi)關(guān)即可連接這樣的系統(tǒng)。
總結(jié)解決方案
總而言之,我們有以下規(guī)格,減去運(yùn)行 ASUS ASMB10-iKVM 管理的 ASPEED 基板管理控制器:
處理器:120 核/184 線程
1x AMD Ryzen Threadripper Pro 3995WX,64 核 128 線程
7 個(gè) NVIDIA BlueField-2 8 核 Arm Cortex A72 2.0GHz DPU
內(nèi)存:624GB
512GB 美光 DDR4-3200 ECC RDIMM
7x 16GB DPU RAM
存儲(chǔ):~8.2TB
2 個(gè)美光 7400?3.84TB M.2 SSD
7x 64GB DPU 存儲(chǔ)
網(wǎng)絡(luò):~1.4Tbps
來(lái)自華碩主板的 2 個(gè) 10Gbase-T 端口
來(lái)自 BlueField-2 DPU 的 14 個(gè) 100G 端口
8x 帶外管理端口(一個(gè)共享)
無(wú)線網(wǎng)絡(luò) 6
可以肯定的是,這里有很多東西,這比2013 年的 Mini Cluster in a Box 系列多出幾個(gè)步驟。
最后的話
當(dāng)然,除非您真的想要臺(tái)式 DPU 工作站,否則我們不建議您自行構(gòu)建。這更像是一種“可能的藝術(shù)”構(gòu)建,就像我們所做的Ultra EPYC AMD Powered Sun Ultra 24 Workstation。盡管如此,與我們?cè)?2013 年使用英特爾凌動(dòng) C2000 系列所做的相比,這仍然有效地超過(guò)了 10 倍。這也是我個(gè)人長(zhǎng)期以來(lái)一直想做的事情,所以這就是現(xiàn)在這樣做的原因。
再次,我只想對(duì) Jeff 的合作表示感謝。我暗自嫉妒 Turing Pi 2 平臺(tái),因?yàn)槲乙恢辟I(mǎi)不到。和他合作很有趣,如果沒(méi)有他的推動(dòng),這個(gè)項(xiàng)目會(huì)被推遲得更久。