最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

圖文混淆,驗(yàn)證碼反爬(Steamboat練習(xí))

2022-01-11 20:05 作者:灰色de世界  | 我要投稿

?

本練習(xí)涉及:css語法、

IO、pytesseract、pillow和parsel庫


目錄

第一步

?第二步

第一部分的源代碼

第二部分? 圖片驗(yàn)證碼

第二部分源代碼


第一部分

練習(xí)網(wǎng)址:http://www.porters.vip/confusion/recruit.html

如圖:

第一步

使用parsel庫的css選擇器,獲取圖片的網(wǎng)址

parsel是一個(gè)強(qiáng)大的數(shù)據(jù)解析庫

里面有css,xpath以及re

常用的css語法

?第二步

請(qǐng)求、處理圖片,識(shí)別成文字

需要用到pillow(原PIL庫)和pytesseract庫

安裝方式:?pip?install?pytesseract,pillow

注意?。?!

安裝是pillow,調(diào)用是import PIL

找不到tesseract語言包的下面拿:

?鏈接: https://pan.baidu.com/s/1B00tHLndwil7-gGWonKXhQ?pwd=ydii 提取碼: ydii?

IO庫的BytesIO方法讀取圖片二進(jìn)制數(shù)據(jù)

配合PIL.Image方法打開圖片

這樣操作可以不用將圖片保存本地,直接在內(nèi)存中處理

最后使用pytesseract.image_to_string方法進(jìn)行文字識(shí)別

輸出結(jié)果

第一部分的源代碼


第二部分? 圖片驗(yàn)證碼

中國知網(wǎng):http://my.cnki.net/Register/

如圖,先提取驗(yàn)證碼的網(wǎng)址,請(qǐng)求網(wǎng)址,

刷新幾次發(fā)現(xiàn),每次請(qǐng)求的驗(yàn)證碼都不同

通過PIL處理圖片,先把圖片黑白色處理(消除彩色),再進(jìn)行二值化處理(消除干擾線)

效果

補(bǔ)充一個(gè)計(jì)算型驗(yàn)證碼:http://www.porters.vip/captcha/mathes.html

多一步,正則re提取

效果


第二部分源代碼

太長了,本文章進(jìn)階的下半部分

https://blog.csdn.net/qq_59970317/article/details/122421608

tesseract是開源免費(fèi)的庫,識(shí)別率有限,

不過支持圖片訓(xùn)練

百度和騰訊的OCR識(shí)別接口效果很好

?

點(diǎn)個(gè)贊唄<( ̄︶ ̄)>

?


圖文混淆,驗(yàn)證碼反爬(Steamboat練習(xí))的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
峨眉山市| 澄迈县| 香格里拉县| 浏阳市| 海淀区| 囊谦县| 社会| 万源市| 朝阳区| 长垣县| 秦皇岛市| 南昌县| 门源| 彭州市| 盘山县| 商洛市| 军事| 体育| 舒兰市| 乌审旗| 锦屏县| 新绛县| 建湖县| 汝州市| 崇阳县| 九龙坡区| 大连市| 光山县| 吴桥县| 泰安市| 城口县| 聂拉木县| 安康市| 溆浦县| 大邑县| 广汉市| 朔州市| 视频| 平山县| 阿拉尔市| 区。|