2018-01-28 21:30
百度搜索引擎工作大致可以分為四步。
分別為:1.蜘蛛抓取建庫;2.庫內(nèi)檢索排序;3.外部鏈接;4.結果顯示。
一、蜘蛛爬行網(wǎng)頁抓取內(nèi)容建庫
百度蜘蛛從一些重要的種子URL開始,通過頁面上的超鏈接關系,不斷的發(fā)現(xiàn)新URL并抓取網(wǎng)頁。對于類似百度這樣的大型spider系統(tǒng),因為每時 每刻都存在網(wǎng)頁被修改、刪除或出現(xiàn)新的超鏈接的可能,因此,還要對spider過去抓取過的頁面保持更新,維護一個URL庫和頁面庫。
二、建立索引,檢索排序
抓取入庫后,對頁面進行分析,頁面分析的過程實際上是將原始頁面的不同部分進行識別并標記,例如:title、keywords、content、link、anchor、評論、其他非重要區(qū)域等等。
然后再需要進行分詞,分詞的過程實際上包括了切詞分詞同義詞轉(zhuǎn)換同義詞替換等等,以對某頁面title分詞為例,得到的將是這樣的數(shù)據(jù):term文本、termid、詞類、詞性等等;前面的工作完成后,接下來即是建立倒排索引,形成{termàdoc}
接下來就要進行排序,影響搜索結果排序的因素:相關性、權威性、時效性、重要性、豐富度、受歡迎程度,以上便是百度搜索引擎決定搜索結果排序時考慮的六大原則。
三、外部鏈接,即為外鏈,正所謂內(nèi)容為王超鏈為皇。
通過超鏈計算得分來體現(xiàn)網(wǎng)頁的相關性和重要性,的確曾經(jīng)是搜索引擎用來評估網(wǎng)頁的重要參考因素之一,會直接參與搜索結果排序計算。但隨著該技術被越來越多的SEO人員了解,超鏈已經(jīng)逐漸失去作為投票的重要意義,無論是谷歌還是百度,對超鏈數(shù)據(jù)的依賴程度都越來越低。那么,在現(xiàn)在,超鏈在發(fā)揮著怎樣的作用?