虹科分享|對網(wǎng)絡(luò)進行有效監(jiān)控的五個最佳實踐

隨著向遠程工作的轉(zhuǎn)變繼續(xù),網(wǎng)絡(luò)監(jiān)控變得越來越復雜,云遷移也越來越普遍。當今的網(wǎng)絡(luò)從核心擴展到邊緣再到云,這使得網(wǎng)絡(luò)可見性對于確保性能和快速解決問題至關(guān)重要。但根據(jù)EMA的最新研究,只有27%的企業(yè)認為他們的網(wǎng)絡(luò)運營團隊是成功的(自2016年以來,這一數(shù)字一直在下降,在16年時這一數(shù)字為49%)。從人員配備問題到無效的云戰(zhàn)略,我們團隊正在尋找如何簡化流程、整合工具和改進網(wǎng)絡(luò)監(jiān)控。
有哪些最佳實踐可以幫助實現(xiàn)這一目標?讓我們深入了解五個。
?
正確的數(shù)據(jù)
為了實現(xiàn)完整的網(wǎng)絡(luò)可見性,必須收集正確的網(wǎng)絡(luò)數(shù)據(jù),而且數(shù)據(jù)越多越好。但是,沒有一個數(shù)據(jù)源可以提供完整的可見性。每種數(shù)據(jù)類型都會為儀表盤帶來獨特的內(nèi)容。因此,許多組織采用各種專門的網(wǎng)絡(luò)工具來訪問它們。這不僅從工作流程的角度來看帶來了生產(chǎn)力挑戰(zhàn)(導致進一步的網(wǎng)絡(luò)盲點),而且在許可、支持、專業(yè)培訓等方面也成本高昂。幸運的是,一些高級網(wǎng)絡(luò)監(jiān)控解決方案提供了整合的功能,能夠使用相同的儀表板查看每個域的隱藏角落,并更好地管理、優(yōu)化和排除混合網(wǎng)絡(luò)故障。
應(yīng)該監(jiān)視哪些數(shù)據(jù)類型?以下是熱門列表:
SNMP 允許您識別和監(jiān)控設(shè)備和網(wǎng)絡(luò)接口的狀態(tài),包括 CPU 利用率、內(nèi)存使用情況、熱狀況、帶寬和許多其他性能指標。
流數(shù)據(jù)收集和匯總 IP 流量,以揭示一段時間內(nèi)網(wǎng)絡(luò)運行狀況的趨勢,并指出事件發(fā)生或網(wǎng)絡(luò)飽和的位置。流數(shù)據(jù)有多種形式,從數(shù)據(jù)包標頭中提取的基本信息到詳細的應(yīng)用程序信息,如 NBAR2 中包含的信息。請記住,并非所有流數(shù)據(jù)都是平等的。
數(shù)據(jù)包數(shù)據(jù)允許您查看流數(shù)據(jù)背后的詳細信息并指出根本原因。
API 數(shù)據(jù)在 API 調(diào)用期間監(jiān)控事務(wù),以檢測應(yīng)用程序延遲、響應(yīng)時間慢或訪問應(yīng)用程序時的可用性問題。

制定數(shù)據(jù)保留政策
并非所有問題都能立即識別或報告,因此成功的網(wǎng)絡(luò)監(jiān)控策略包括一個追溯計劃,以提供審計跟蹤,以便在事后調(diào)查問題。數(shù)據(jù)保留策略通常解決諸如保留不同數(shù)據(jù)類型的時間、數(shù)據(jù)的粒度以及存儲格式和位置等因素。
對于流和 SNMP 數(shù)據(jù),答案是相似的。當然,您希望盡可能長時間地保留數(shù)據(jù),對于流量和 SNMP,保留時間通常以月甚至更長來衡量。總體保留時間只是您愿意承諾多少存儲的問題。盡管如此,合理的存儲承諾(數(shù)十TB)可以快速提供數(shù)月的存儲,具體取決于收集數(shù)據(jù)的設(shè)備數(shù)量。延長該時間的一種方法是對數(shù)據(jù)進行時間平均。例如,獲取當前為一分鐘粒度的數(shù)據(jù)并將其平均為一小時粒度,從而有效地將 60 條記錄轉(zhuǎn)換為一條記錄。執(zhí)行此操作的選擇應(yīng)該是可配置的,并且將根據(jù)您希望完成的長期報告類型進行個人選擇。
數(shù)據(jù)格式可能取決于解決方案。盡管如此,所有解決方案都會盡最大努力使單個記錄盡可能簡短,并使用壓縮等其他技術(shù)來提高效率。長期存儲將始終位于固定介質(zhì)上,無論是硬盤驅(qū)動器 (HDD) 還是固態(tài)驅(qū)動器 (SSD)。SSD 更昂貴,但在運行長期報告時提供更好的響應(yīng)時間。短期報告可能依賴于內(nèi)存中的數(shù)據(jù) (RAM) 來提高性能,但最終,所有數(shù)據(jù)都會移動到固定介質(zhì)。
數(shù)據(jù)包存儲是另一回事。即使在高速網(wǎng)絡(luò) (20+ Gbps) 上有數(shù)百 TB 的存儲空間,您最多也可能獲得數(shù)天的數(shù)據(jù)包存儲。由于您永遠不知道分析中可能需要哪些數(shù)據(jù)包,因此無法像流數(shù)據(jù)記錄那樣對數(shù)據(jù)進行采樣或進行時間平均。壓縮是可以做的最好的方法,但由于數(shù)據(jù)包數(shù)據(jù)的內(nèi)置密度,壓縮只有一點幫助。
兩種有助于幫助的技術(shù)是過濾掉您確定永遠不會分析的數(shù)據(jù)包數(shù)據(jù),例如備份數(shù)據(jù),以及在數(shù)據(jù)包有效負載未加密時存儲數(shù)據(jù)包有效負載。如今,大多數(shù)網(wǎng)絡(luò)流量都是加密的,如果您沒有密鑰,則存儲數(shù)據(jù)包有效負載并不好。尋找一種基于協(xié)議自動執(zhí)行此切片的解決方案。數(shù)據(jù)包存儲將完全在固定介質(zhì)上,并且考慮到任何有意義的時間長度通常需要的存儲量,HDD 仍然是唯一具有成本效益的選擇。
?
使用設(shè)備清單保留網(wǎng)絡(luò)圖
消除可見性差距至關(guān)重要,每個交換機、路由器、端口和端點都必須以虛擬方式定位并實時觀察運行狀況和性能問題。雖然這種網(wǎng)絡(luò)清單映射可能是一項艱巨的手動任務(wù),但許多網(wǎng)絡(luò)監(jiān)控軟件平臺中的設(shè)備自動發(fā)現(xiàn)工具會為您創(chuàng)建這些列表。沒有它,就沒有辦法繪制網(wǎng)絡(luò)的外觀,也沒有辦法以網(wǎng)絡(luò)工程師直觀的方式可視化網(wǎng)絡(luò)的利用率。網(wǎng)絡(luò)庫存映射提供了覆蓋流數(shù)據(jù)的基礎(chǔ)。如果沒有這樣的地圖,就像在舊金山和波士頓之間畫一條直線,并聲稱“這就是我開車穿越全國的路線”,中間絕對沒有細節(jié)。
專業(yè)提示,在考慮網(wǎng)絡(luò)監(jiān)控工具時,請詢問它們是否包括設(shè)備管理系統(tǒng) (DMS),以便您可以輕松地遠程配置、監(jiān)控或重置設(shè)備。這將有助于更有效和精簡的管理。市場上的許多獨立產(chǎn)品都執(zhí)行此功能,但是當此功能集成到您的整體網(wǎng)絡(luò)管理解決方案中時,效率要高得多。

?
創(chuàng)建詳細的升級計劃
升級計劃通常涉及警報優(yōu)先級或威脅評分,因此落在不同閾值范圍內(nèi)的警報會轉(zhuǎn)到正確的預定聯(lián)系人,通常在網(wǎng)絡(luò)工程師、應(yīng)用程序工程師和安全團隊成員之間共享。這有助于立即關(guān)注意外流量激增或異常 IoT 行為等關(guān)鍵問題。更良性的問題(如設(shè)備轉(zhuǎn)速降低或延遲略有增加)可能會篩選到響應(yīng)時間較長的調(diào)查隊列中。
預先確定的響應(yīng)計劃可防止組織擁有一個壓倒性的警報池來釣魚,最大限度地減少響應(yīng)延遲,并創(chuàng)建與警報專門分配到的組或 Pod 的責任。與數(shù)據(jù)保留策略非常相似,這些計劃將有助于制定流程并幫助變更管理、危機預防等。
?
盡可能實現(xiàn)自動化
成功的網(wǎng)絡(luò)監(jiān)控策略側(cè)重于效率和快速反應(yīng),在有意義的地方實現(xiàn)自動化。自動執(zhí)行關(guān)鍵任務(wù),例如每日備份、應(yīng)用安全補丁和軟件更新、重新啟動故障設(shè)備或運行每周報告,可以釋放工程資源,用于優(yōu)化網(wǎng)絡(luò)流路徑和規(guī)劃未來計劃。自動化不僅有助于節(jié)省資源,而且還為您的團隊打開了空間,讓他們隨著公司的發(fā)展將更多時間投入到規(guī)劃、戰(zhàn)略和升級流程上。
自動化不僅限于單個系統(tǒng)或解決方案。一些最關(guān)鍵的自動化發(fā)生在產(chǎn)品之間。示例包括當網(wǎng)絡(luò)監(jiān)視系統(tǒng)在服務(wù)管理系統(tǒng)中自動創(chuàng)建票證時,或者安全信息和事件管理 (SIEM) 直接與網(wǎng)絡(luò)管理解決方案通信以啟動數(shù)據(jù)包記錄以響應(yīng)高優(yōu)先級安全警報。許多產(chǎn)品都能夠?qū)崿F(xiàn)這種級別的自動化,但您通常必須詢問并驗證其中有多少是真正自動化的,以及您必須自己編寫多少腳本。
?
這些只是一些簡單的網(wǎng)絡(luò)監(jiān)控最佳實踐,它們應(yīng)該有助于簡化并確保更好的網(wǎng)絡(luò)可見性。
