最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

Splash 的使用,你知道嗎?

2020-08-12 11:15 作者:自學Python的小姐姐呀  | 我要投稿


1. Splash介紹

Splash是一個JavaScript渲染服務,是一個帶有HTTP API的輕量級瀏覽器,同時它對接了Python中的Twisted和QT庫。利用它,我們同樣可以實現(xiàn)動態(tài)渲染頁面的抓取

2. 安裝

2.1 安裝docker

2.2 拉取鏡像

docker pull scrapinghub/splash

2.3 用docker運行scrapinghub/splash

docker run -p 8050:8050 scrapinghub/splash

2.4 查看效果

我們在8050端口上運行了Splash服務,打開192.168.99.100:8050/即可看到其Web頁面

3 Splash對象屬性

上圖中main()方法的第一個參數(shù)是splash,這個對象非常重要,它類似于Selenium中的WebDriver對象

3.1 images_enabled

設置圖片是否加載,默認情況下是加載的。禁用該屬性后,可以節(jié)省網絡流量并提高網頁加載速度
注意的是,禁用圖片加載可能會影響JavaScript渲染。因為禁用圖片之后,它的外層DOM節(jié)點的高度會受影響,進而影響DOM節(jié)點的位置
因此,如果JavaScript對圖片節(jié)點有操作的話,其執(zhí)行就會受到影響

function main(splash, args)
splash.images_enabled = false
splash:go('baidu.com')
return {html=splash:html()}
end

3.2 plugins_enabled

可以控制瀏覽器插件(如Flash插件)是否開啟
默認情況下,此屬性是false,表示不開啟

splash.plugins_enabled = true/false

3.3 scroll_position

控制頁面上下或左右滾動

splash.scroll_position = {x=100, y=200}

4. Splash對象的方法

4.1 go()

該方法用來請求某個鏈接,而且它可以模擬GET和POST請求,同時支持傳入請求頭、表單等數(shù)據

ok, reason = splash:go{url, baseurl=nil, headers=nil, http_method="GET", body=nil, formdata=nil}

返回結果是結果ok和原因reason
如果ok為空,代表網頁加載出現(xiàn)了錯誤,此時reason變量中包含了錯誤的原因

參數(shù)含義url請求的URLbaseurl可選參數(shù),默認為空,表示資源加載相對路徑headers可選參數(shù),默認為空,表示請求頭http_method可選參數(shù),默認為GET,同時支持POSTbody可選參數(shù),默認為空,發(fā)POST請求時的表單數(shù)據,使用的Content-type為application/jsonformdata可選參數(shù),默認為空,POST的時候的表單數(shù)據,使用的Content-type為application/x-www-form-urlencodedsplash:go{"sxt.cn", http_method="POST", body="name=17703181473"}

4.2 wait()

控制頁面的等待時間

splash:wait{time, cancel_on_redirect=false, cancel_on_error=true}

參數(shù)含義time等待的秒數(shù)cancel_on_redirect可選參數(shù),默認為false,表示如果發(fā)生了重定向就停止等待,并返回重定向結果cancel_on_error可選參數(shù),默認為false,表示如果發(fā)生了加載錯誤,就停止等待function main(splash)
? splash:go("taobao.com")
? splash:wait(2)
? return {html=splash:html()}
end

4.3 jsfunc()

直接調用JavaScript定義的方法,但是所調用的方法需要用雙中括號包圍,這相當于實現(xiàn)了JavaScript方法到Lua腳本的轉換

function main(splash, args)
splash:go("sxt.cn")
local scroll_to = splash:jsfunc("window.scrollTo")
scroll_to(0, 300)
return {png=splash:png()}
end

4.4 evaljs()與 runjs()

  • evaljs() 以執(zhí)行JavaScript代碼并返回最后一條JavaScript語句的返回結果

  • runjs() 以執(zhí)行JavaScript代碼,它與evaljs()的功能類似,但是更偏向于執(zhí)行某些動作或聲明某些方法

function main(splash, args)
splash:go("baidu.com")
splash:runjs("foo = function() { return 'sxt' }")
local result = splash:evaljs("foo()")
return result
end

4.5 html()

獲取網頁的源代碼

function main(splash, args)
splash:go("bjsxt.com")
return splash:html()
end

4.6 png()

獲取PNG格式的網頁截圖

function main(splash, args)
splash:go("bjsxt.com")
return splash:png()
end

4.7 har()

獲取頁面加載過程描述

function main(splash, args)
splash:go("bjsxt.com")
return splash:har()
end

4.8 url()

獲取當前正在訪問的URL

function main(splash, args)
splash:go("bjsxt.com")
return splash:url()
end

4.9 get_cookies()

獲取當前頁面的Cookies

function main(splash, args)
splash:go("bjsxt.com")
return splash:get_cookies()
end

4.10 add_cookie()

當前頁面添加Cookie

cookies = splash:add_cookie{name, value, path=nil, domain=nil, expires=nil, httpOnly=nil, secure=nil}function main(splash)
? splash:add_cookie{"sessionid", "123456abcdef", "/", domain="bjsxt.com"}
? splash:go("bjsxt.com/")
? return splash:html()
end

4.11 clear_cookies()

可以清除所有的Cookies

function main(splash)
? splash:go("bjsxt.com/")
? splash:clear_cookies()
? return splash:get_cookies()
end

4.12 set_user_agent()

設置瀏覽器的User-Agent

function main(splash)
splash:set_user_agent('Splash')
splash:go("httpbin.org/get")
return splash:html()
end

4.13 set_custom_headers()

設置請求頭

function main(splash)
splash:set_custom_headers({
? ?["User-Agent"] = "Splash",
? ?["Site"] = "Splash",
})
splash:go("httpbin.org/get")
return splash:html()
end

4.14 select()

選中符合條件的第一個節(jié)點
如果有多個節(jié)點符合條件,則只會返回一個
其參數(shù)是CSS選擇器

function main(splash)
splash:go("baidu.com/")
input = splash:select("#kw")
splash:wait(3)
return splash:png()
end

4.15 send_text()

填寫文本

function main(splash)
splash:go("baidu.com/")
input = splash:select("#kw")
input:send_text('Splash')
splash:wait(3)
return splash:png()
end

4.16 mouse_click()

模擬鼠標點擊操作

function main(splash)
splash:go("baidu.com/")
input = splash:select("#kw")
input:send_text('Splash')
submit = splash:select('#su')
submit:mouse_click()
splash:wait(3)
return splash:png()
end

5 Splash與Python結合

5.1 render.html

此接口用于獲取JavaScript渲染的頁面的HTML代碼,接口地址就是Splash的運行地址加此接口名稱,例如http://192.168.99.100:8050/render.html

import requests
url = '192.168.99.100:8050/ren'
response = requests.get(url)
print(response.text)

5.2 render.png

此接口可以獲取網頁截圖

import requests

url = '192.168.99.100:8050/ren'
response = requests.get(url)
with open('taobao.png', 'wb') as f:
? f.write(response.content)

5.3 execute

最為強大的接口。前面說了很多Splash Lua腳本的操作,用此接口便可實現(xiàn)與Lua腳本的對接

import requests
from urllib.parse import quote

lua = '''
function main(splash)
? return 'hello'
end
'''

url = '192.168.99.100:8050/exe' + quote(lua)
response = requests.get(url)
print(response.text)


Splash 的使用,你知道嗎?的評論 (共 條)

分享到微博請遵守國家法律
阿城市| 连州市| 福清市| 兖州市| 咸阳市| 连平县| 永州市| 称多县| 新河县| 宁强县| 恩平市| 柳林县| 开阳县| 廊坊市| 赤城县| 茶陵县| 平顶山市| 兰溪市| 武乡县| 凌源市| 怀化市| 肃宁县| 黎城县| 九龙城区| 府谷县| 汶上县| 曲麻莱县| 手机| 通江县| 龙岩市| 宜春市| 嘉善县| 板桥市| 河北区| 金堂县| 客服| 阿荣旗| 烟台市| 襄城县| 静安区| 宽甸|