最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

字體映射反爬

2022-01-15 23:15 作者:灰色de世界  | 我要投稿

?

網(wǎng)站鏈接:http://www.porters.vip/confusion/movie.html


本文涉及

網(wǎng)站的關(guān)鍵數(shù)據(jù)由其他字符替代

F12里面無法顯示可以從網(wǎng)頁源碼里找,如圖

先把其他常規(guī)內(nèi)容搞上,

在試過css,xpath和bs4后,

發(fā)現(xiàn)"\u"型的數(shù)據(jù)只能用re才能提取

接就是解決 字體映射問題

在network里面找到一個(gè)font類型數(shù)據(jù),

woff(Web Open Font Format)文件

目前最主要的幾種網(wǎng)絡(luò)字體(web font)格式包括WOFF,SVG,EOT,OTF/TTF。

從啟動(dòng)器里看,要先獲取movie.css文件,才能提取woff文件

woff文件在線打開方式:FontEditor

使用fontTools庫在py中打開

'&#xe624.&#xe9c7'??

可以發(fā)現(xiàn)字體編碼和woff文件的區(qū)別 :"?&#x",其它字母為大寫

安裝方式:?pip?install?fontTools

通過FontEditor手動(dòng)構(gòu)建字體編碼和所知字體的映射,通過fontTools獲取字形數(shù)據(jù)并md5加密(方便對比,是否為相同字體)

?代碼如下

解密函數(shù)的代碼

?最終結(jié)果

還可以參考這篇文章的思路,

https://blog.csdn.net/qq_59970317/article/details/122421608

使用selenium截取指定標(biāo)簽位置的數(shù)據(jù),配合OCR來識別提取內(nèi)容

?源碼:

?



字體映射反爬的評論 (共 條)

分享到微博請遵守國家法律
三都| 文登市| 吴忠市| 宾川县| 滨州市| 大渡口区| 中山市| 新野县| 西林县| 纳雍县| 鲁山县| 漯河市| 四会市| 炎陵县| 汉寿县| 贺州市| 汨罗市| 宣恩县| 南漳县| 乐安县| 乌拉特前旗| 客服| 财经| 牟定县| 普兰店市| 阿克陶县| 巴青县| 白城市| 台北市| 博罗县| 当涂县| 德昌县| 琼中| 宁远县| 敖汉旗| 攀枝花市| 奈曼旗| 和平县| 行唐县| 连平县| 勃利县|