搜索引擎蜘蛛最感興趣的信息是頁面的文字部分
搜索引擎的另一個任務(wù)是判斷內(nèi)容的價值。雖然在判斷的過程中要通過鏈接分析評估其他人對頁面內(nèi)容有什么反應(yīng), 搜索引擎也可以基于在頁面上看的內(nèi)容得到一些結(jié)論。
比如,同樣的內(nèi)容是否出現(xiàn)在另一個網(wǎng)站? 搜索引擎看到的獨特內(nèi)容是兩句話還是500多個字?內(nèi)容是否大最重復(fù)同一個關(guān)鍵詞?這些只是搜索引擎確定一段內(nèi)容的價值時可以考察的幾個方面。
搜索引擎能在頁面上“看”到什么內(nèi)容
搜索引擎蜘蛛和索引程序基本上就是軟件,這些軟件程序非常強大。它們爬過無數(shù)的頁面,分析這些網(wǎng)頁的內(nèi)容 ,并分析它們之間的鏈接方式, 然后把這些信息組織成一系列數(shù)據(jù)庫,當(dāng)用戶搜索時不到一秒就能返回一串排完序的結(jié)果。
這是個很高的成就,不過也有局限性。 軟件是非常機械的, 它只能理解頁面的一部分。搜索引擎蜘蛛分析頁面的原始HTML 代碼。當(dāng)然你自己也可以在瀏覽器中右擊然后選擇查看源代碼。
通過查看源代碼,你可以看到網(wǎng)站服務(wù)器發(fā)送給瀏覽器的代碼。這就是搜索引擎蜘蛛所看到的內(nèi)容(搜索引擎還能看到頁面的 HTTP 頭信息)。蜘蛛會忽略代碼里的很多內(nèi)容。
搜索引擎蜘蛛最感興趣的信息是頁面的文字部分。
但是從代碼中可以清楚地看到普通文字,這就是蜘蛛在尋找的獨特內(nèi)容。
另外,搜索引擎也讀取其他內(nèi)容。其中之一就是頁面標(biāo)題。頁面標(biāo)題是影響排名最重要的因素之一。頁面標(biāo)題里的文字顯示在瀏覽器標(biāo)題欄中(瀏覽器菜單和地址框上面的藍色部分)。