以算法為基礎(chǔ)的排名系統(tǒng):爬行、索引和排名
書中講到:
以算法為基礎(chǔ)的排名系統(tǒng):爬行、索引和排名
理解爬行、索引和排名原理,對SEO人員很有用處,可以幫助決定該采取什么行動達(dá)到目標(biāo)。本節(jié)主要論及Google、雅虎和微軟搜索引擎的運(yùn)行方式,不一定適用于其他搜索引擎,比如百度(中國)和Naver(韓國)。
搜索引擎有幾個主要目標(biāo)和功能,包括:
爬行和索引網(wǎng)上可以訪問的億萬文件(網(wǎng)頁和文件)。
對用戶查詢做出反應(yīng), 提供相關(guān)結(jié)果列表。
本節(jié)從非技術(shù)角度簡單介紹這些功能,先從搜索引擎怎樣尋找和發(fā)現(xiàn)內(nèi)容開始。
爬行和索引
可以把互聯(lián)網(wǎng)想象成一個有很多站的大型城市地鐵系統(tǒng)。每一站相當(dāng)于一個獨(dú)特的文件(通常是網(wǎng)頁,有時候可以是PDF、JPEG或其他文件)。搜索引擎需要采用某種方式來爬過整個城市,找到所有地鐵站,所以他們就使用現(xiàn)成的最佳途徑:網(wǎng)頁之間的鏈接。
互聯(lián)網(wǎng)的鏈接結(jié)構(gòu)將所有頁面連接起來。通過鏈接,搜索引擎的自動機(jī)器人,又稱為爬行器或蜘蛛,可以接觸到互相連接的億萬個文件。
搜索引擎找到這些頁面后,下一個工作是分析其中的代碼,然后把頁面上選出來的消息存入大最硬盤陣列以便查詢時調(diào)用這些信息。要存儲能在瞬息間被訪問的億萬網(wǎng)頁是個相當(dāng)龐大的任務(wù),搜索引擎建造了大量的數(shù)據(jù)中心來處理這些數(shù)據(jù)。
雖然從理論上說可以從網(wǎng)上很多不同地方開始,但理想情況是從一些被信任的網(wǎng)站開始爬行。你可以根據(jù)網(wǎng)站與最被信任的網(wǎng)站之間的點(diǎn)擊距離來評估該網(wǎng)站的信任度。