惡意網(wǎng)址甄別中的機(jī)器學(xué)習(xí)特征工程

惡意網(wǎng)址是指惡意種植木馬、病毒等惡意程序在網(wǎng)站內(nèi),通過(guò)偽裝的網(wǎng)站服務(wù)內(nèi)容,誘導(dǎo)用戶(hù)訪問(wèn)該網(wǎng)站,一旦進(jìn)入這些網(wǎng)站,便會(huì)觸發(fā)網(wǎng)站內(nèi)種植下的木馬、病毒等程序,導(dǎo)致訪問(wèn)者計(jì)算機(jī)被感染,面臨丟失帳號(hào)或者隱私信息等危險(xiǎn)。因此,惡意網(wǎng)址檢測(cè),已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)非常有價(jià)值的應(yīng)用與研究方向。
日前,跨象乘云??發(fā)布了《惡意網(wǎng)址甄別 - 人工智能垂直領(lǐng)域工程項(xiàng)目案例分享》演示視頻。本案例將使用線性插值法、獨(dú)熱編碼等手段,對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,并通過(guò)隨機(jī)森林算法模型實(shí)現(xiàn)惡意網(wǎng)址甄別,最后演示如何通過(guò)特征工程,進(jìn)一步優(yōu)化模型性能指標(biāo),實(shí)現(xiàn)規(guī)避惡意網(wǎng)址,提升瀏覽安全。

同時(shí),通過(guò)案例演示我們可以了解到,對(duì)于惡意網(wǎng)址甄別而言,特征選擇往往是非常關(guān)鍵的節(jié)點(diǎn)。同時(shí),特征工程也是機(jī)器學(xué)習(xí)以及模式識(shí)別領(lǐng)域的關(guān)鍵環(huán)節(jié),分類(lèi)算法模型之間的差異性,對(duì)最終任務(wù)的影響是要遠(yuǎn)遠(yuǎn)小于選擇良好特征對(duì)最終結(jié)果影響。本文就惡意網(wǎng)址甄別,根據(jù)《Malicious URL Detection using Machine Learning: A Survey》對(duì)常用的惡意網(wǎng)址識(shí)別特征進(jìn)行歸納。

1. 黑名單特征
更改頂級(jí)域名
根據(jù)IP地址
目錄的結(jié)構(gòu)相似性
替換查詢(xún)字符
模糊匹配
2. 詞匯特征
URL長(zhǎng)度
主機(jī)/頂級(jí)域名的長(zhǎng)度
特定字符的數(shù)量
是否包含IP地址
path長(zhǎng)度
文件名長(zhǎng)度
傳參個(gè)數(shù)
3. 主機(jī)特征
Response Header
IP地址屬性
WHOIS信息(域名注冊(cè)時(shí)間、供應(yīng)商信息等)
地理位置
請(qǐng)求速度
DNS信息
4. 內(nèi)容/上下文特征
HTML 信息
document長(zhǎng)度
平均詞長(zhǎng)度
單詞數(shù)量
不同詞數(shù)量
每行詞數(shù)量
空字符數(shù)量
是否用了字符串連接操作
非對(duì)稱(chēng)HTML標(biāo)簽數(shù)量
<link href="...">的數(shù)量
隱藏對(duì)象的數(shù)量(例如iframe和div)
iframe的數(shù)量
size=0 的 iframe的數(shù)量
行數(shù)
超鏈接的數(shù)量
JavaScript 信息
eval() unescape() exec() search() 函數(shù)的調(diào)用數(shù)量
保留關(guān)鍵字在字符中比例
長(zhǎng)字符串?dāng)?shù)量
shell 代碼展示的概率
字符串直接賦值的數(shù)量
JS修改HTML DOM的數(shù)量
JS事件的數(shù)量
可疑對(duì)象的數(shù)量
JS代碼的Entropy
Visual 信息
文本塊相似度衡量
圖像相似度衡量(可以是Deep Features + Cosine Similarity)
5. 其他特征
網(wǎng)頁(yè)P(yáng)ageRank值
敏感詞出現(xiàn)次數(shù)(例如:“轉(zhuǎn)賬”、“匯款”、“支付”等等)
友鏈
參考鏈接:
https://arxiv.org/pdf/1701.07179v2.pdf
https://zhuanlan.zhihu.com/p/38470202