最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

惡意網(wǎng)址甄別中的機(jī)器學(xué)習(xí)特征工程

2020-08-02 17:44 作者:跨象乘云  | 我要投稿

惡意網(wǎng)址是指惡意種植木馬、病毒等惡意程序在網(wǎng)站內(nèi),通過(guò)偽裝的網(wǎng)站服務(wù)內(nèi)容,誘導(dǎo)用戶(hù)訪問(wèn)該網(wǎng)站,一旦進(jìn)入這些網(wǎng)站,便會(huì)觸發(fā)網(wǎng)站內(nèi)種植下的木馬、病毒等程序,導(dǎo)致訪問(wèn)者計(jì)算機(jī)被感染,面臨丟失帳號(hào)或者隱私信息等危險(xiǎn)。因此,惡意網(wǎng)址檢測(cè),已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)非常有價(jià)值的應(yīng)用與研究方向。


日前,跨象乘云??發(fā)布了《惡意網(wǎng)址甄別 - 人工智能垂直領(lǐng)域工程項(xiàng)目案例分享》演示視頻。本案例將使用線性插值法、獨(dú)熱編碼等手段,對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,并通過(guò)隨機(jī)森林算法模型實(shí)現(xiàn)惡意網(wǎng)址甄別,最后演示如何通過(guò)特征工程,進(jìn)一步優(yōu)化模型性能指標(biāo),實(shí)現(xiàn)規(guī)避惡意網(wǎng)址,提升瀏覽安全。


同時(shí),通過(guò)案例演示我們可以了解到,對(duì)于惡意網(wǎng)址甄別而言,特征選擇往往是非常關(guān)鍵的節(jié)點(diǎn)。同時(shí),特征工程也是機(jī)器學(xué)習(xí)以及模式識(shí)別領(lǐng)域的關(guān)鍵環(huán)節(jié),分類(lèi)算法模型之間的差異性,對(duì)最終任務(wù)的影響是要遠(yuǎn)遠(yuǎn)小于選擇良好特征對(duì)最終結(jié)果影響。本文就惡意網(wǎng)址甄別,根據(jù)《Malicious URL Detection using Machine Learning: A Survey》對(duì)常用的惡意網(wǎng)址識(shí)別特征進(jìn)行歸納。

Example of a URL - “Uniform Resource Locator”

1. 黑名單特征

  • 更改頂級(jí)域名

  • 根據(jù)IP地址

  • 目錄的結(jié)構(gòu)相似性

  • 替換查詢(xún)字符

  • 模糊匹配

2. 詞匯特征

  • URL長(zhǎng)度

  • 主機(jī)/頂級(jí)域名的長(zhǎng)度

  • 特定字符的數(shù)量

  • 是否包含IP地址

  • path長(zhǎng)度

  • 文件名長(zhǎng)度

  • 傳參個(gè)數(shù)

3. 主機(jī)特征

  • Response Header

  • IP地址屬性

  • WHOIS信息(域名注冊(cè)時(shí)間、供應(yīng)商信息等)

  • 地理位置

  • 請(qǐng)求速度

  • DNS信息

4. 內(nèi)容/上下文特征

HTML 信息

  • document長(zhǎng)度

  • 平均詞長(zhǎng)度

  • 單詞數(shù)量

  • 不同詞數(shù)量

  • 每行詞數(shù)量

  • 空字符數(shù)量

  • 是否用了字符串連接操作

  • 非對(duì)稱(chēng)HTML標(biāo)簽數(shù)量

  • <link href="...">的數(shù)量

  • 隱藏對(duì)象的數(shù)量(例如iframe和div)

  • iframe的數(shù)量

  • size=0 的 iframe的數(shù)量

  • 行數(shù)

  • 超鏈接的數(shù)量

JavaScript 信息

  • eval() unescape() exec() search() 函數(shù)的調(diào)用數(shù)量

  • 保留關(guān)鍵字在字符中比例

  • 長(zhǎng)字符串?dāng)?shù)量

  • shell 代碼展示的概率

  • 字符串直接賦值的數(shù)量

  • JS修改HTML DOM的數(shù)量

  • JS事件的數(shù)量

  • 可疑對(duì)象的數(shù)量

  • JS代碼的Entropy

Visual 信息

  • 文本塊相似度衡量

  • 圖像相似度衡量(可以是Deep Features + Cosine Similarity)

5. 其他特征

  • 網(wǎng)頁(yè)P(yáng)ageRank值

  • 敏感詞出現(xiàn)次數(shù)(例如:“轉(zhuǎn)賬”、“匯款”、“支付”等等)

  • 友鏈

參考鏈接:

https://arxiv.org/pdf/1701.07179v2.pdf

https://zhuanlan.zhihu.com/p/38470202

惡意網(wǎng)址甄別中的機(jī)器學(xué)習(xí)特征工程的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
安岳县| 龙胜| 三门峡市| 广州市| 四会市| 阳山县| 开封市| 盘山县| 富蕴县| 宣恩县| 永春县| 偏关县| 乌拉特前旗| 陆丰市| 民乐县| 米林县| 漳州市| 乌鲁木齐市| 旺苍县| 黑山县| 华阴市| 云龙县| 锡林郭勒盟| 祥云县| 金坛市| 成都市| 南投市| 九江县| 涪陵区| 和硕县| 肇东市| 云安县| 攀枝花市| 奈曼旗| 会同县| 都兰县| 庆元县| 安塞县| 耒阳市| 北流市| 梓潼县|