計算機病毒分類命名知識百科上線試運行(安天研究院出品)

今日,安天正式上線計算機病毒分類命名知識百科(域名Virusview.net),百科以計算機病毒(惡意代碼)的結(jié)構(gòu)化命名為索引和框架,已經(jīng)上線超過五萬種計算機病毒家族信息詞條,基本在家族級別實現(xiàn)了完整覆蓋,現(xiàn)有計算機病毒和惡意代碼的1300萬個變種,基本都是這些家族的成員。這些知識詞條是安天賽博超腦通過樣本分析的特征向量積累自動化生成的,這一工作是安天以共性能力和公共知識賦能產(chǎn)業(yè)計劃的一部分。安天公眾號轉(zhuǎn)發(fā)安天研究院編寫的Virusview.net網(wǎng)站的About信息。以讓更多人了解相關(guān)工作。
?

關(guān)于計算機病毒分類命名知識百科
安天研究院
?
計算機病毒分類命名知識百科,簡稱“計算機病毒百科”(域名Virusview.net),是安天研究院面對業(yè)界、研究機構(gòu)和公眾開放的計算機病毒/惡意代碼公共知識資源,這套資源基于嚴(yán)格的分類命名索引展開,基于安天的惡意代碼八個基礎(chǔ)類別作為一級分類、按照現(xiàn)有惡意代碼家族的環(huán)境前綴逐層展開,目前顆粒度到達病毒家族一級。目前有家族知識詞條超過5萬個,基本覆蓋了超過99%的計算機病毒/惡意代碼已知家族,并迭代持續(xù)更新。
?
1986年,第一個IBM-PC體系下的計算機病毒產(chǎn)生,標(biāo)志著信息安全的對抗從原始的操作對抗進入到代碼對抗。今天計算機病毒的概念和全貌都已經(jīng)發(fā)生了巨大變化,其已經(jīng)不是原有簡單的感染宿主的代碼片段,而外延成為以惡意目的編寫或運行后能實現(xiàn)侵害行為和后果的代碼和數(shù)據(jù),其學(xué)術(shù)上的名稱也往往被惡意代碼所代替。從安天創(chuàng)業(yè)的2000年,我們看到惡意代碼種類數(shù)不超過幾千個家族的三萬個變種,有效樣本約數(shù)萬個,到今天已經(jīng)有超過五萬個家族,一千三百萬個變種,可以映射到超過百億惡意樣本HASH空間。
?
而提供惡意代碼的精確命名與配套的知識體系,是從最早的反病毒領(lǐng)域到網(wǎng)絡(luò)安全業(yè)界的重要工作。1991年的CARO會議奠定了關(guān)于計算機病毒命名的初始行業(yè)共識原則,提出了最初的四段式命名法則,業(yè)內(nèi)稱之為“CARO公約”?;贑ARO公約,卡巴斯基、賽門鐵克、趨勢等安全廠商基于自己的命名體系,提供了帶有自身特色的惡意代碼知識資源嘗試,其中比較著名的包括卡巴斯基的Viruslist等等。但由于病毒/惡意代碼的快速海量膨脹,不同安全廠商在處理方式和命名標(biāo)準(zhǔn)上都存在很大差異,這就使惡意代碼統(tǒng)一命名成為一種不太現(xiàn)實的工作。特別是CARO公約形成于感染式病毒為主流的DOS時代,其既留下了精確分段命名的遺產(chǎn),但也留下 “分類”概念缺失的遺憾。這就使計算機病毒的知識體系缺少一個相對統(tǒng)一的科學(xué)的分類知識框架。
?
因此我們也希望跳脫出作為一個反病毒引擎研發(fā)組織的本位視角,站在一個公共所需的安全知識體系的角度,來嘗試做一些相關(guān)工作。
?
歷史沿革
我們希望將計算機病毒的相關(guān)信息轉(zhuǎn)化成一個公共知識體系的想法始于2001年初,我們在規(guī)劃ArrectNET預(yù)警監(jiān)測體系中,也規(guī)劃了一部分知識化工作,我們注冊了Virusview.net的域名,并最初命名為“病毒觀察”。我們把我們在分析響應(yīng)工作中,積累分析結(jié)果轉(zhuǎn)化為描述文字和一些狀態(tài)標(biāo)簽信息。我們還和《計算機應(yīng)用文摘》一起開設(shè)了“病毒觀察”專欄并編寫連載。
?

?
在2006年開始,我們嘗試基于靜態(tài)的自動化分析結(jié)果,構(gòu)建一個配套的知識體系,并把其作為一種副產(chǎn)品提供給使用安天AVL SDK反病毒引擎的合作伙伴,我們開放了一個面向合作伙伴的平臺,來查詢和支撐相關(guān)信息。這就是最早的分類命名知識體系。
?
隨著2012年安天的算力成長,我們開始從最早的ArrectNET的自動化分析開始構(gòu)建一個大規(guī)模的算力平臺“賽博超腦”,此時我們已經(jīng)能夠讓動態(tài)沙箱分析覆蓋更多樣本。在2012年,我們進行了第二個版本的更新,利用安天引擎的解析結(jié)果和自動化分析平臺對惡意代碼的行為分析,并自動輸出結(jié)構(gòu)化的惡意代碼知識描述信息。此后由于我們的精力問題,我們沒有堅持和維護,導(dǎo)致virusview一直處在沒有后續(xù)更新的狀態(tài)。
?

從2001年開始研究惡意代碼自動化特征提取開始,我們一直追求的是以自動化作為威脅對抗的主閉環(huán),并不斷把人的經(jīng)驗迭代到特征工程中去,我們一直追求的是用更高水平的自動化,適應(yīng)代碼對象的復(fù)雜性成長和對象的規(guī)模膨脹。今天我們也在進一步強化基于場景的復(fù)雜性實現(xiàn)高水平的自動化。我們?yōu)榇顺掷m(xù)改善賽博超腦,不斷增強算力與存儲能力,我們在原有的近4萬個CPU核的基礎(chǔ)上,開始逐漸增加GPU算力。病毒百科的正式恢復(fù),就是我們用大模型改善特征工程和知識工程質(zhì)量的一個“副產(chǎn)品”。當(dāng)然,目前的工作距離我們的目標(biāo)還是有著巨大的差距,我們期待根據(jù)工業(yè)界和研究界的需求來迭代改進。每天約有3000個詞條會自動更新,我們后續(xù)會再充分完善和豐富家族命名詞條的質(zhì)量,未來也有計劃將知識體系開放的顆粒度從變種一級到達HASH的知識。
?
關(guān)于的關(guān)于
由于我們的經(jīng)驗水平所限,加之病毒百科是自動化生成迭代的,其必然有很多不嚴(yán)謹(jǐn)之處。最后想告訴大家的是,本篇“關(guān)于計算機病毒分類命名知識百科”,這是整個百科所有頁面中唯一不是由“安天賽博超腦”自動化生成的內(nèi)容,事實上我們曾嘗試讓本頁也基于我們一些信息輸入來自動產(chǎn)生,但輸出的結(jié)果總是不能令我們滿意。平臺輸出的內(nèi)容很有條理,很清晰,但總是缺少什么?
有人問我們安天的賽博超腦是什么?
它以巨大的吞吐能力分析安天每日新增的數(shù)百萬個新的威脅樣本,并根據(jù)算法和工程師的預(yù)設(shè)條件發(fā)現(xiàn)隱蔽的威脅,它以我們難以想象的速度和難以理解的方式遍歷并塑造海量的特征與知識體系,它持續(xù)產(chǎn)生威脅監(jiān)測的特征與范式并發(fā)布升級。它是我們每天工作所依賴的平臺。
它難以真正理解我們那些放在人類信息技術(shù)演進中十分微渺,但我們又為之奉獻了青春和智慧的工作歷程;它難以獲得實現(xiàn)有效防護價值時工程師的內(nèi)心榮譽和成就;它難以連接工程師團隊與威脅在刀鋒對抗時的熱血與情感。
所以人類信息社會的歷史永遠(yuǎn)是人機工程的演進史,我們相信未來的計算機病毒百科也是如此。
?
?
安天研究院計算機病毒百科興趣小組
2023/08
?