字體映射反爬
?

網(wǎng)站鏈接:
本文涉及
網(wǎng)站的關(guān)鍵數(shù)據(jù)由其他字符替代

F12里面無法顯示可以從網(wǎng)頁源碼里找,如圖

先把其他常規(guī)內(nèi)容搞上,

在試過css,xpath和bs4后,
發(fā)現(xiàn)"\u"型的數(shù)據(jù)只能用re才能提取
接就是解決 字體映射問題
在network里面找到一個(gè)font類型數(shù)據(jù),
woff(Web Open Font Format)文件
目前最主要的幾種網(wǎng)絡(luò)字體(web font)格式包括WOFF,SVG,EOT,OTF/TTF。

從啟動(dòng)器里看,要先獲取movie.css文件,才能提取woff文件


woff文件在線打開方式:

使用
'.'??
可以發(fā)現(xiàn)字體編碼和woff文件的區(qū)別 :"?&#x",其它字母為大寫

安裝方式:?pip?install?fontTools
通過FontEditor手動(dòng)構(gòu)建字體編碼和所知字體的映射,通過fontTools獲取字形數(shù)據(jù)并md5加密(方便對比,是否為相同字體)
?代碼如下
解密函數(shù)的代碼
?最終結(jié)果

還可以參考
https://blog.csdn.net/qq_59970317/article/details/122421608
使用selenium截取指定標(biāo)簽位置的數(shù)據(jù),配合OCR來識別提取內(nèi)容
?源碼:

?

標(biāo)簽: