邯鄲SEO:搜索引擎的排名原理?

閱讀 ?·? 發(fā)布日期 2018-11-09 09:10 ?·? admin

邯鄲SEO:搜索引擎的排名原理?搜索引擎對(duì)關(guān)鍵詞的排名主要經(jīng)過三個(gè)階段:爬行和抓取,預(yù)處理,排名。隨著搜索引擎的規(guī)范化,排名原理更加的智能化,SEO也變得更加難以操作,但是所有的排名核心都是圍繞用戶需求而排名,所以做好體驗(yàn)滿足需求,你的站離首頁就不遠(yuǎn)了。

第一階段:爬行和抓取

搜索引擎工作的第一步當(dāng)然就是爬行于抓取;搜索引擎蜘蛛在爬取網(wǎng)站頁面時(shí)相當(dāng)于普通用戶使用的瀏覽器。搜索引擎在訪問頁面的時(shí)候,服務(wù)器返回HTML代碼,蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。搜索引擎為了提高爬行和抓取速度,都使用多個(gè)蜘蛛并發(fā)分布爬行。

蜘蛛在訪問任何一個(gè)網(wǎng)站時(shí),首先訪問的是網(wǎng)站根目錄下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的頁面。

整個(gè)互聯(lián)網(wǎng)就是由相互鏈接的網(wǎng)站和網(wǎng)頁組成的。從理論上說,蜘蛛從任何一個(gè)頁面出發(fā),順著鏈接都可以爬行到網(wǎng)站上的所有頁面。其中,最簡(jiǎn)單的爬行遍歷策略分為兩種,一種是深度優(yōu)先,一種是廣度優(yōu)先。無論是深度優(yōu)先還是廣度優(yōu)先策略,只要給蜘蛛足夠的時(shí)間,都能爬完整個(gè)互聯(lián)網(wǎng)。在實(shí)際工作中,蜘蛛的帶寬資源、時(shí)間都不是無限的,也不可能爬完多有頁面。搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。每個(gè)URL都有一個(gè)獨(dú)特的文件編號(hào)。

第二階段:預(yù)處理

“預(yù)處理“也被稱作為”索引“,因?yàn)樗饕穷A(yù)處理最主要的步驟。

搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。必須經(jīng)過預(yù)處理階段,從HTML文件中去除標(biāo)簽、程序,提取出可以用于排名處理的網(wǎng)頁文字內(nèi)容。蜘蛛會(huì)將提取出來的文字進(jìn)行中文分詞、去除停止詞、消除噪聲、去重等處理,提取出頁面中重要的文字,建立關(guān)鍵詞與頁面的索引,形成索引詞庫表。建立索引的過程中有正向索引和倒排索引兩種排序方式,使得排序更加準(zhǔn)確。

另外,鏈接關(guān)系計(jì)算也是預(yù)處理中很重要的一部分。現(xiàn)在所有的主流搜索引擎排名因素中都包含網(wǎng)頁之間的鏈接流動(dòng)信息。搜索引擎在抓取頁面內(nèi)容后,必須事前計(jì)算出:頁面上有哪些鏈接指向哪些其他頁面,每個(gè)頁面有哪些導(dǎo)入鏈接,鏈接使用了什么描文字,這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁面的鏈接權(quán)重。

第三階段:排名

經(jīng)過搜索引擎蜘蛛抓取頁面,索引程序計(jì)算得到倒排索引后,搜索引擎就準(zhǔn)備隨時(shí)處理用戶的搜索需求了。搜索引擎主要對(duì)用戶的搜索詞進(jìn)行中文分詞處理,去停止詞處理、指令處理、拼寫錯(cuò)誤矯正、整合搜索處罰等處理進(jìn)行用戶搜索詞有搜索引擎索引詞庫的匹配,建立排名。