中國互聯(lián)網(wǎng)探索,考古指南及如何存檔網(wǎng)頁
b站在某天后,對某些視頻的av號鏈接做了一定限制:即使視頻存在,結(jié)尾帶"/"的鏈接會顯示視頻無法播放
從n站(niconico)搬運過來的作品可以加上關(guān)鍵詞"sm"搜索
現(xiàn)在b站的搜索體驗越來越"智能"了,越來越像x度了
百度貼吧
國內(nèi)的搜索引擎比較奇葩,多個中文詞連著和拆開搜得的結(jié)果有一定區(qū)別,這點和gg不同
https://tieba.baidu.com/f/search/res?ie=utf-8&kw=吧名&qw=
https://www.so.com/s?q=吧名+site%3Atieba.baidu.com+
https://cn.bing.com/search?q=吧名+site:tieba.baidu.com+
www.baidu.com/baidu?wd=吧名+site:tieba.baidu.com+
中國版必應(yīng)(cn.bing.com)對百度貼吧的檢索最好.國際版根本搜不到什么東西
巧用圖片反向搜索(以圖搜圖)引擎
Selection Context Search這個插件很方便,可以對頁內(nèi)多種內(nèi)容進(jìn)行右鍵搜索
百度 Yandex gg Tineye
雖然百度對國內(nèi)圖片的檢索最全,但百度搜圖也并非完全檢索,如果你要從一組圖片中反向搜索,一定要搜上每一張圖片
現(xiàn)在國內(nèi)的相冊就豆瓣相冊沒關(guān),快去存! 開心網(wǎng)的相冊還沒倒! http://www.kaixin001.com/photo/albumlist.php?uid=
快去注冊個開心網(wǎng)賬戶,用QQ號注冊不用輸身份證!
gecko系和chrome系的網(wǎng)頁保存功能
chrome系比gecko系多出了mhtml的選項,可以保存為單個文件
html;htm方式存在一些問題,可能無法保存部分動態(tài)內(nèi)容,如百度貼吧的回復(fù)
https://wwb.lanzoum.com/b02v3mkyd 密碼 4m9m 藍(lán)奏云
裝個msys2,這是模擬Linux環(huán)境的軟件 www.msys2.org 網(wǎng)頁自帶英文安裝教程
linux的路徑形式與windows不同,Windows的"C:folder\test"在MSYS中為"/c/floder/test"
了解linux命令:ss64.com/bash/ cd指令可以改變當(dāng)前路徑
exe版wget的安裝(可選)下載我整理好的文件并解壓GnuWin32.zip
在環(huán)境變量中添加GnuWin32文件夾并重啟你的電腦
你也可以在命令行中設(shè)置,用setx(永久設(shè)置)而不是set(臨時設(shè)置) 參見 ss64.com/nt
環(huán)境變量啟動命令:rundll32.exe sysdm.cpl,EditEnvironmentVariables 參見 ss64.com/nt/run
這個要多出一步 C:\Windows\System32\rundll32.exe shell32.dll,Control_RunDLL Sysdm.cpl,,3
wget:一個命令行爬蟲軟件 如何呼出幫助:輸入wget --help
重要參數(shù)
-d,? --debug 調(diào)試模式,建議新手使用
-erobots=off 無視robots.txt --span-hosts 爬取其他網(wǎng)站
?--local-encoding=UTF-8? --remote-encoding=UTF-8 編碼修正 --no-check-certificate 跳過驗證 --restrict-file-names=nocontrol 不按系統(tǒng)修正文件名
?-T 1.4 超時時間 -t 3 最大重試次數(shù) --random-wait 隨機(jī)等待時間 --wait=5 等待時間
-U 用戶代理(useragent) -U "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:83.0) Gecko/20100101 Firefox/83.0" 我的火狐83可以在about:support中查看
--load-cookies="" 加上cookies可以通過反爬蟲不強(qiáng)的網(wǎng)站的登錄驗證,請按F12或裝個插件獲取(Export Cookies)
?--keep-session-cookies 載入和保存cookies
?--no-proxy 不使用代理
在Windows中設(shè)置代理環(huán)境變量:setx http_proxy http://127.0.0.1:7890
setx ftp_proxy %HTTP_PROXY%
setx https_proxy %HTTP_PROXY%
-c 繼續(xù)未完成的工作 -p 獲取所有網(wǎng)頁內(nèi)容 -E 對HTML/CSS documents的格式修正
-nc 跳過已有,如果你想備份隨時會更新的內(nèi)容請用 -N (以時間比已有文件新的內(nèi)容覆蓋)
-r -l 0 無限層數(shù)爬取 --no-remove-listing 不太清楚
-m,? --mirror shortcut for -N -r -l inf --no-remove-listing 我一般不用這
?正則 github.com/ziishaned/learn-regex 包含在藍(lán)奏云分享鏈接中 README-cn.md README.md(英文)
--regex-type=posix
--reject-regex="" 不接受 --accept-regex="" 僅接受
示例:
Win版wget
cd /d M:xxxxx
wget -c? -p -E -nc -r -l 0 --no-remove-listing -erobots=off --restrict-file-names=nocontrol --no-check-certificate --span-hosts?? -U "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:83.0) Gecko/20100101 Firefox/83.0" --local-encoding=UTF-8? --remote-encoding=UTF-8 --regex-type=posix --reject-regex="\/photo\/(guangchang|act_view|act_hot|act_new)|(iphone|mark|wapb|wap[0-9]{3}|show|wapa|picwallzoom|pdwrite|pdwritev|pdwriteh|newsThumbn|(grpmid|(o)?w[0-9]{3}p|zoom|mark)[0-9]?|nHD|award_w|gsmall|rotate|homeadp|records|wapb[0-9]|(g)?cover|pdunit|picwallcbase|mip|mid|news(Thumb)?|[0-9]{1,3})(\.|\_)(ani|bmp|gif|ico|jpe|jpeg|jpg|pcx|png|psd|tga|tif|tiff|webp|wmf)|(\/|\?|\&)(signup|login|(tag|total)\=)|\?C\=[a-zA-Z]|\?replytocom\="? --accept-regex="32274147|\/(photo|diary)\/|photo\/view_|_w1280p" --no-proxy --keep-session-cookies -T 1.4 -t 3? --random-wait --wait=
MSYS2:
cd /M/xxxxx;wget -c? -p -E -N -r -l inf --span-hosts? --no-remove-listing -erobots=off --restrict-file-names=nocontrol --no-check-certificate?? -U "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:83.0) Gecko/20100101 Firefox/83.0" --local-encoding=UTF-8? --remote-encoding=UTF-8 --regex-type=posix? --reject-regex="特殊\:(日志)|(return_to|returnto|direction|redirect|target|action)\=|(Special|Wikipedia|File)\:|action\=(history|edit)|\&returnto\=|org\/api\/|\&from\=|zh-(mo|tw|hk|sg|my|hant)|(variant)\=" --accept-regex="\.(epub|chm|mobi|djvu|azw3|doc|ppt|txt|log|xls|pdf)|\.(ani|bmp|gif|ico|jpe|jpeg|jpg|pcx|png|psd|tga|tif|tiff|webp|wmf)|otomad" --no-proxy -T 1.4 -t 3 --random-wait --wait=5 --keep-session-cookies otomad.wiki
開心網(wǎng):已完全存檔的用戶id: 32274147 紅扣子