散文網(wǎng) » 生活 »日常 » 百度官方公開課：網(wǎng)站抓取建設(shè)指南!

百度官方公開課：網(wǎng)站抓取建設(shè)指南!

2021-05-26 11:04 作者:盧松松博客 0人讀過 | 我要投稿

大家好，今天百度資源平臺官方直播了一節(jié)公開課，主要是和大家說說網(wǎng)站抓取和收錄的一個原理，這里我給大家做了詳細的筆記(一字不漏)，看完以后，可以說做收錄基本上不是什么大問題了。

百度爬蟲工作原理

首先百度的抓取器會和網(wǎng)站的首頁進行交互，拿到網(wǎng)站首頁之后會對頁面進行理解，理解包含(類型、價值計算)，其次會把網(wǎng)站首頁的所有超鏈接提取出來。如下圖所示，首頁的超鏈接被稱為“后鏈”，等到下一輪抓取的時候，抓取器會繼續(xù)和這些超鏈接的頁面進行交互，拿到頁面進行提煉，依次不斷一層一層的抓取，這就構(gòu)成了抓取環(huán)路。

?

編輯搜圖請點擊輸入圖片描述(最多18字)

抓取友好性優(yōu)化

1、URL規(guī)范：

任何一個資源都是通過URL來抓取的，URL相對于網(wǎng)站的門牌號，那么URL的規(guī)劃就非常重要了。尤其是如上圖所示，“待抓URL”的環(huán)境，爬蟲在首頁的時候，并不知道URL是什么樣子。

優(yōu)秀的URL的特點是主流的、簡單的，竟可能不要去做一些非主流的樣式，讓人看起來很直觀的URL。

優(yōu)秀URL示例：

?

編輯搜圖請點擊輸入圖片描述(最多18字)

如上圖所示，第一條是百度知道的鏈接，整個鏈接分成三段，第一段是網(wǎng)站的站點，第二段是資源類型，第三段是資源的ID。這種就是非常簡單，并且爬蟲看起來非常優(yōu)質(zhì)的URL。

如上圖所示，第三條相對百度知道多了一個段，首先第一段是網(wǎng)站的站點，第二段是站點的一級目錄，第三段是站點的二級目錄，最后一段是站點的內(nèi)容ID。像這種的URL也是符合標準的。

不友好的URL示例：

?

編輯搜圖請點擊輸入圖片描述(最多18字)

如上圖所示，這種鏈接一看就很長很復雜，有經(jīng)驗的站長都看得出，這種URL包含了字符，這個URL內(nèi)包含了文章的標題，導致URL偏長，一個偏長的URL相對比簡單的URL是不占優(yōu)勢的，百度站長平臺的規(guī)則有明確的說到URL不能超過256字節(jié)，個人建議URL長度控制在100字節(jié)之內(nèi)，100個字符足夠展現(xiàn)出URL的資源了。

?

編輯搜圖請點擊輸入圖片描述(最多18字)

如上圖所示，這段URL包含統(tǒng)計參數(shù)，可能會導致重復抓取，浪費站點權(quán)益，所以竟可能不使用參數(shù)，如果一定要使用參數(shù)，那么也可以保留必要參數(shù)，參數(shù)字符竟可能使用常規(guī)的連接符，比如“?”、“&”，避免非主流連接符。

2、合理發(fā)現(xiàn)鏈路：

爬蟲是從首頁開始一層一層抓取的，所以就需要做好首頁與資源頁的URL關(guān)系。這樣爬蟲抓取相對而言比較省力。

?

編輯搜圖請點擊輸入圖片描述(最多18字)

如上圖所示，從首頁到具體內(nèi)容的超鏈路徑關(guān)系叫做發(fā)現(xiàn)鏈路，目前大多數(shù)移動站沒有太注意發(fā)現(xiàn)鏈路的關(guān)系，所以導致爬蟲無法抓取到內(nèi)容頁。

?

編輯搜圖請點擊輸入圖片描述(最多18字)

如上圖所示，這兩個站點是移動網(wǎng)站常見的建站方式，從發(fā)現(xiàn)鏈路的角度來講，這兩類站點是不友好。

Feed流推薦：大多數(shù)做feed流的站點后臺是有非常多的數(shù)據(jù)，用戶不斷的刷會有新的內(nèi)容出現(xiàn)，但你刷新的次數(shù)再多，可能也只能刷到1%左右的內(nèi)容，而爬蟲相當于一個用戶，爬蟲不可能做到以這種方式將網(wǎng)站所有的內(nèi)容都爬取到，所以就會導致一些頁面爬蟲不到，即使你有100萬的內(nèi)容，可能只能抓取到1-2萬。

僅有搜索入口：如上圖所示，首頁只有一個搜索框，用戶需要輸入關(guān)鍵詞，才能找到對應(yīng)的內(nèi)容，但爬蟲不可能做到輸入關(guān)鍵詞然后再去爬取，所以爬蟲只能爬取到首頁后，就沒有后鏈了，自然抓取和收錄就會不理想。

解決方案：索引頁下的內(nèi)容按發(fā)布時間逆序排序的，這樣做有一個好處，搜索引擎可以通過索引頁即使的抓取到你網(wǎng)站最新的資源，另外新發(fā)布的資源要實時在索引頁同步，很多純靜態(tài)的網(wǎng)頁，內(nèi)容更新了，但是首頁(索引頁)卻沒有出來，這樣會導致搜索引擎通過索引頁無法即使的抓取到最新的資源，第三個點是后鏈(最新文章)的URL需要直接在源碼在露出，方便搜索引擎抓取，最后就是索引頁不是越多越好，有少數(shù)優(yōu)質(zhì)的索引頁就足夠了，比如長城號，基本上只利用首頁來做索引頁。

最后這里和大家說一個更高效的解決方案，那就是直接通過百度站長資源平臺去主動提交資源，這樣搜索引擎可以繞過索引頁直接抓取到最新資源，這里需要注意兩個點。

Q：資源提交是不是越多越好?

A：收錄效果的核心永遠是內(nèi)容質(zhì)量，如果大量提交低質(zhì)、泛濫資源會導致懲罰性打擊。

Q：為什么提交了普通收錄但沒有抓?

A：資源提交只能加速資源發(fā)現(xiàn)，不能保證短時間內(nèi)抓取，當然百度方面表示，算法在持續(xù)優(yōu)化，讓優(yōu)質(zhì)的內(nèi)容更快得到抓取。

3、訪問友好性：

抓取器要和網(wǎng)站進行交互，要保證網(wǎng)站的穩(wěn)定的，抓取器才能夠正常的爬取。那么訪問友好性主要包括以下幾個方面。

訪問速度優(yōu)化：加載時間建議控制在2S以內(nèi)，那么無論是用戶還是爬蟲，對于打開速度更快的網(wǎng)站，都會更加青睞，其次是避免非必要的跳轉(zhuǎn)，這種情況雖然是少部分，但依然有網(wǎng)站出現(xiàn)很多級的跳轉(zhuǎn)，那么對于爬蟲來講，很有可能在多級跳轉(zhuǎn)的同時就斷開了。常見的有做了不帶www的域名跳轉(zhuǎn)到帶WWW的域名上，然后帶WWW的域名又要跳轉(zhuǎn)到https上，最后更換新站，這種情況就出現(xiàn)了三四級的跳轉(zhuǎn)。如果出現(xiàn)類似網(wǎng)站改版，建議直接全部跳轉(zhuǎn)到新域名上。

規(guī)范http返回碼：我們常見的301/302的正確使用，以及404的正確使用，主要是常規(guī)的問題，用常規(guī)的方式來解決，比如遇到無效資源，那么就使用404來做，不要用一些特殊的返回狀態(tài)碼了。

訪問穩(wěn)定性優(yōu)化：首先盡可能選擇國內(nèi)大型的DNS服務(wù)，以保證站點的穩(wěn)定性，對于域名的DNS，實際上阿里云還是比較穩(wěn)定靠譜的，那么其次是謹慎使用技術(shù)手段封禁爬蟲抓取，如果說有特定資源不希望在百度上展現(xiàn)，那么可以采用robots來屏蔽，比如說網(wǎng)站的后臺鏈接，大多數(shù)都是通過robots屏蔽的。如果說抓取頻次太高，導致服務(wù)器壓力過大，影響用戶正常訪問，那么可以通過資源平臺的工具降低抓取頻率。其次是避免防火墻誤封禁爬蟲抓取，那么這里建議大家可以把搜索引擎的UA加入到白名單。最后一點是服務(wù)器的穩(wěn)定性，特別是在短時間內(nèi)提交大量優(yōu)質(zhì)資源，這個時候一定要關(guān)注服務(wù)器穩(wěn)定性，因為當你提交大量資源后，爬蟲會隨之增加，這個時候會不會導致你服務(wù)器壓力過大而打不開，這個問題是需要站長關(guān)注的。

?

編輯搜圖請點擊輸入圖片描述(最多18字)

如上圖所示，這三個例子就是第三方防火墻攔截的一個狀態(tài)，當正常用戶打開是這個狀態(tài)的時候，搜索引擎抓取的時候，也會處于這個狀態(tài)，所以如果遇到CC或者DDOS的時候，我們開啟防火墻的前提，一定要放開搜索引擎的UA。

4、識別百度爬蟲

對于部分網(wǎng)站，可能對用戶方面有特殊的優(yōu)化，可能有網(wǎng)站想把用戶和爬蟲區(qū)分開來做優(yōu)化，所以這個時候就需要識別百度爬蟲。

?

編輯搜圖請點擊輸入圖片描述(最多18字)

首先用簡單的方法，我們可以通過百度的UA來識別出百度爬蟲，那么目前來講百度PC、移動、和小程序是三個不同的UA，那么通過簡單的識別方法，有出現(xiàn)有第三方的爬蟲模擬百度爬蟲，導致你識別不出來。那么這個時候，咱們可以通過雙向DNS解析認證來區(qū)分，具體參考《輕松兩步：教你快速識別百度蜘蛛》。

問答環(huán)節(jié)

Q：新站會不會有一個的抓取限制?

A：對于任何一個新站來講，都沒有抓取限制，不過去年開始，我們已經(jīng)開始對新站有一個扶持，讓你的網(wǎng)站，先在百度上收錄起來。然后再進行一個價值判斷，那么如何讓百度知道你是一個新站，有兩個捷徑，第一個是去百度資源平臺提交，第二個點是去工信部做ICP的備案，我們可以從工信部拿到ICP備案的數(shù)據(jù)，備案之后我們就知道有人建了一個新的站點，這樣就可以給新站一個基礎(chǔ)的流量扶持。

Q：每個站點蜘蛛抓取的配額都會有調(diào)整，大概多久調(diào)整一次?

A：確實會有調(diào)整，對于新資源會與你抓取頻率相關(guān)，對于舊資源會與你內(nèi)容質(zhì)量相關(guān)，如果說新資源的質(zhì)量有變化，那么抓取頻率也會有變化，網(wǎng)站的規(guī)模有變化，那么抓取的頻率也會有變化，如果說有很大的改版，那么抓取頻率相對而言也會有變化。

Q：網(wǎng)站降權(quán)能不能恢復?

A：網(wǎng)站降權(quán)恢復的前提是我們會對網(wǎng)站進行重新評估，查看網(wǎng)站是不是有整改，如果有整改是不是做了404，并且有提交到資源平臺，如果說完全符合要求后，搜索引擎會經(jīng)過評估后，對沒有違規(guī)的網(wǎng)站進行恢復。

Q：新站點是不是有考核期?

A：對我們來講是沒有一個考核期這么一個東西，我們前面也講到了，竟可能會對新站的一個流量扶持，假設(shè)一個新站點流量扶持1-2個月以后，發(fā)現(xiàn)網(wǎng)站繼續(xù)保持這種狀態(tài)，那么就不會有一個太大的調(diào)整，當發(fā)現(xiàn)網(wǎng)站質(zhì)量有明顯的提升，那么我們也會相應(yīng)的提升百度排名。

Q：百度對外國的服務(wù)器和國內(nèi)的服務(wù)器有沒有區(qū)別對待?

A：策略角度上來件，沒有硬性區(qū)別對待，但是很多外國的服務(wù)器對國內(nèi)部分區(qū)域封禁，以及國外服務(wù)器網(wǎng)站備案的角度上來講，國內(nèi)的服務(wù)器都具有優(yōu)勢。

Q：新站舊域名是不是更有優(yōu)勢?

A：如果說老域名和新站是相同的內(nèi)容，確實在起步階段有一定的優(yōu)勢，但僅僅是起步階段，后期還是要看內(nèi)容的質(zhì)量，特別要注意的是，如果說老域名的行業(yè)和你新網(wǎng)站的內(nèi)容不相關(guān)，即使是所謂高權(quán)重的老域名，也會適得其反。百度會認為你今天做這個，明天做那個，效果還不如重新做一個新域名。

Q：蜘蛛是不是有權(quán)重之分，比如220和116這種高權(quán)重蜘蛛?

A：蜘蛛是沒有權(quán)重之分的，網(wǎng)站的排名最主要是取決于網(wǎng)站的質(zhì)量。

作者：馮耀宗微信：394062665

相關(guān)閱讀：

百度認為什么樣的網(wǎng)站更有抓取和收錄價值

官方稱百度分享有助于網(wǎng)頁抓取及搜索排名

搜索引擎如何抓取你的網(wǎng)頁

來源：盧松松博客歡迎分享

本文地址：https://lusongsong.com/reed/14624.html

標簽：

百度官方公開課：網(wǎng)站抓取建設(shè)指南!的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

百度官方公開課：網(wǎng)站抓取建設(shè)指南!

百度官方公開課：網(wǎng)站抓取建設(shè)指南!的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

百度官方公開課：網(wǎng)站抓取建設(shè)指南!

本文作者的其他文章

百度官方公開課：網(wǎng)站抓取建設(shè)指南!的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

百度官方公開課：網(wǎng)站抓取建設(shè)指南!的評論 (共條)