離線下載整個(gè)網(wǎng)站(比如linux kernel aosp)用wget 具體操作辦法
假設(shè)下載網(wǎng)站是:www.xxxxx.com,命令如下:
wget ?-r -nd -np -k -e robots=off? --adjust-extension --no-check-certificate --page-requisites ?-l -p http://www.xxxxx.com
wget ?-r -nd -np -k -e robots=off ?--adjust-extension --no-check-certificate --page-requisites ?-l -p?
https://www.baidu.com/
wget -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)" -r -p -k -nc http://www.xxx.com ?
wget -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)" -r -p -k -nc http://www.xxx.com
-U 修改agent,偽裝成firefox等瀏覽器,當(dāng)某些網(wǎng)站拒絕下載的時(shí)候,加上這個(gè)參數(shù)就可以下載了。
-p 下載頁面顯示所需的所有文件。## 下載指定目錄 $ wget -c -r -nd -np -k -L -p -A c,h www.xxx.com/doc/path/
-c 斷點(diǎn)續(xù)傳
-r 遞歸下載,下載指定網(wǎng)頁某一目錄下(包括子目錄)的所有文件
-nd 遞歸下載時(shí)不創(chuàng)建一層一層的目錄,把所有的文件下載到當(dāng)前目錄
-np 遞歸下載時(shí)不搜索上層目錄。
-k 將絕對(duì)鏈接轉(zhuǎn)為相對(duì)鏈接,下載整個(gè)站點(diǎn)后脫機(jī)瀏覽網(wǎng)頁,最好加上這個(gè)參數(shù)
-L 遞歸時(shí)不進(jìn)入其它主機(jī),如wget -c -r www.xxx.com/ 如果網(wǎng)站內(nèi)有一個(gè)這樣的鏈接: www.yyy.com,不加參數(shù)-L,就會(huì)像大火燒山一樣,會(huì)遞歸下載www.yyy.com網(wǎng)站
-p 下載網(wǎng)頁所需的所有文件,如圖片等 -A 指定要下載的文件樣式列表,多個(gè)樣式用逗號(hào)分隔 更多的wget命令可以查看這個(gè)教程,https://blog.csdn.net/sdlyhjq/article/details/8596303
最佳答案
wget -e robots=off -H -p -k http://www.myspace.com/
-H 或 --span-hosts 標(biāo)志是完整鏡像所必需的,因?yàn)樵擁撁婵赡馨?www.myspace.com 域之外的主機(jī)上的內(nèi)容。忽略機(jī)器人以獲得良好的衡量標(biāo)準(zhǔn)。
關(guān)于wget 下載用于離線查看,包括絕對(duì)引用,我們在Stack Overflow上找到一個(gè)類似的問題:?https://stackoverflow.com/questions/10842263/