散文網(wǎng) » 科技 »數(shù)碼 » 惡意網(wǎng)址甄別中的機(jī)器學(xué)習(xí)特征工程

惡意網(wǎng)址甄別中的機(jī)器學(xué)習(xí)特征工程

2020-08-02 17:44 作者:跨象乘云 0人讀過(guò) | 我要投稿

惡意網(wǎng)址是指惡意種植木馬、病毒等惡意程序在網(wǎng)站內(nèi)，通過(guò)偽裝的網(wǎng)站服務(wù)內(nèi)容，誘導(dǎo)用戶(hù)訪問(wèn)該網(wǎng)站，一旦進(jìn)入這些網(wǎng)站，便會(huì)觸發(fā)網(wǎng)站內(nèi)種植下的木馬、病毒等程序，導(dǎo)致訪問(wèn)者計(jì)算機(jī)被感染，面臨丟失帳號(hào)或者隱私信息等危險(xiǎn)。因此，惡意網(wǎng)址檢測(cè)，已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)非常有價(jià)值的應(yīng)用與研究方向。

日前，跨象乘云??發(fā)布了《惡意網(wǎng)址甄別 - 人工智能垂直領(lǐng)域工程項(xiàng)目案例分享》演示視頻。本案例將使用線性插值法、獨(dú)熱編碼等手段，對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理，并通過(guò)隨機(jī)森林算法模型實(shí)現(xiàn)惡意網(wǎng)址甄別，最后演示如何通過(guò)特征工程，進(jìn)一步優(yōu)化模型性能指標(biāo)，實(shí)現(xiàn)規(guī)避惡意網(wǎng)址，提升瀏覽安全。

同時(shí)，通過(guò)案例演示我們可以了解到，對(duì)于惡意網(wǎng)址甄別而言，特征選擇往往是非常關(guān)鍵的節(jié)點(diǎn)。同時(shí)，特征工程也是機(jī)器學(xué)習(xí)以及模式識(shí)別領(lǐng)域的關(guān)鍵環(huán)節(jié)，分類(lèi)算法模型之間的差異性，對(duì)最終任務(wù)的影響是要遠(yuǎn)遠(yuǎn)小于選擇良好特征對(duì)最終結(jié)果影響。本文就惡意網(wǎng)址甄別，根據(jù)《Malicious URL Detection using Machine Learning: A Survey》對(duì)常用的惡意網(wǎng)址識(shí)別特征進(jìn)行歸納。

Example of a URL - “Uniform Resource Locator”

1. 黑名單特征

更改頂級(jí)域名
根據(jù)IP地址
目錄的結(jié)構(gòu)相似性
替換查詢(xún)字符
模糊匹配

2. 詞匯特征

URL長(zhǎng)度
主機(jī)/頂級(jí)域名的長(zhǎng)度
特定字符的數(shù)量
是否包含IP地址
path長(zhǎng)度
文件名長(zhǎng)度
傳參個(gè)數(shù)

3. 主機(jī)特征

Response Header
IP地址屬性
WHOIS信息（域名注冊(cè)時(shí)間、供應(yīng)商信息等）
地理位置
請(qǐng)求速度
DNS信息

4. 內(nèi)容/上下文特征

HTML 信息

document長(zhǎng)度
平均詞長(zhǎng)度
單詞數(shù)量
不同詞數(shù)量
每行詞數(shù)量
空字符數(shù)量
是否用了字符串連接操作
非對(duì)稱(chēng)HTML標(biāo)簽數(shù)量
<link href="...">的數(shù)量
隱藏對(duì)象的數(shù)量（例如iframe和div）
iframe的數(shù)量
size=0 的 iframe的數(shù)量
行數(shù)
超鏈接的數(shù)量

JavaScript 信息

eval() unescape() exec() search() 函數(shù)的調(diào)用數(shù)量
保留關(guān)鍵字在字符中比例
長(zhǎng)字符串?dāng)?shù)量
shell 代碼展示的概率
字符串直接賦值的數(shù)量
JS修改HTML DOM的數(shù)量
JS事件的數(shù)量
可疑對(duì)象的數(shù)量
JS代碼的Entropy

Visual 信息

文本塊相似度衡量
圖像相似度衡量（可以是Deep Features + Cosine Similarity）

5. 其他特征

網(wǎng)頁(yè)P(yáng)ageRank值
敏感詞出現(xiàn)次數(shù)（例如：“轉(zhuǎn)賬”、“匯款”、“支付”等等）
友鏈

參考鏈接：

https://arxiv.org/pdf/1701.07179v2.pdf

https://zhuanlan.zhihu.com/p/38470202

標(biāo)簽：