《SEO教程》第二章:搜索引擎工作原理

閱讀 ?·? 發(fā)布日期 2020-05-29 09:10 ?·? admin
搜索引擎的基本工作原理包括如下三個過程:首先在互聯(lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁信息;同時對信息進行提取和組織建立索引庫;再由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并將查詢結(jié)果返回給用戶。
 
 
工作原理
搜索引擎為了以最快的速度得到搜索結(jié)果,它搜索的內(nèi)容通常是預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫。普通搜索,不能真正理解網(wǎng)頁上的內(nèi)容,它只能機械地匹配網(wǎng)頁上的文字。真正意義上的搜索引擎,通常指的是收集了互聯(lián)網(wǎng)上幾千萬到幾十億個網(wǎng)頁并對網(wǎng)頁中的每一個文字(即關(guān)鍵詞)進行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當用戶查找某個關(guān)鍵詞的時候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法進行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低,依次排列。典型的搜索引擎三大模塊組成:
(一)信息采集模塊
信息采集器是一個可以瀏覽網(wǎng)頁的程序,被形容為“網(wǎng)絡(luò)爬蟲”。它首先打開一個網(wǎng)頁,然后把該網(wǎng)頁的鏈接作為瀏覽的起始地址,把被鏈接的網(wǎng)頁獲取過來,抽取網(wǎng)頁中出現(xiàn)的鏈接,并通過一定算法決定下一步要訪問哪些鏈接。同時,信息采集器將已經(jīng)訪問過的URL存儲到自己的網(wǎng)頁列表并打上已搜索的標記。自動標引程序檢查該網(wǎng)頁并為他創(chuàng)建一條索引記錄,然后將該記錄加入到整個查詢表中。信息收集器再以該網(wǎng)頁到超鏈接為起點繼續(xù)重復(fù)這一訪問過程直至結(jié)束。一般搜索引擎的采集器在搜索過程中只取鏈長比(超鏈接數(shù)目與文檔長度的比值)小于某一閾值的頁面,數(shù)據(jù)采集于內(nèi)容頁面,不涉及目錄頁面。在采集文檔的同時記錄各文檔的地址信息、修改時間、文檔長度等狀態(tài)信息,用于站點資源的監(jiān)視和資料庫的更新。在采集過程中還可以構(gòu)造適當?shù)膯l(fā)策略,指導(dǎo)采集器的搜索路徑和采集范圍,減少文檔采集的盲目性。
(二)查詢表模塊
查詢表模塊是一個全文索引數(shù)據(jù)庫,他通過分析網(wǎng)頁,排除HTML等語言的標記符號,將出現(xiàn)的所有字或詞抽取出來,并記錄每個字詞出現(xiàn)的網(wǎng)址及相應(yīng)位置(比如是出現(xiàn)在網(wǎng)頁標題中,還是出現(xiàn)在簡介或正文中),最后將這些數(shù)據(jù)存入查詢表,成為直接提供給用戶搜索的數(shù)據(jù)庫。
(三)檢索模塊
檢索模塊是實現(xiàn)檢索功能的程序,其作用是將用戶輸入的檢索表達式拆分成具有檢索意義的字或詞,再訪問查詢表,通過一定的匹配算法獲得相應(yīng)的檢索結(jié)果。返回的結(jié)果一般根據(jù)詞頻和網(wǎng)頁鏈接中反映的信息建立統(tǒng)計模型,按相關(guān)度由高到低的順序輸出。 [1] 
工作機制
搜索引擎的工作機制就是采用高效的蜘蛛程序,從指定URL開始順著網(wǎng)頁上的超鏈接,采用深度優(yōu)先算法或廣度優(yōu)先算法對整個Internet進行遍歷,將網(wǎng)頁信息抓取到本地數(shù)據(jù)庫。然后使用索引器對數(shù)據(jù)庫中的重要信息單元,如標題,關(guān)鍵字及摘要等或者全文進行索引,以供查詢導(dǎo)航。最后,檢索器將用戶通過瀏覽器提交的查詢請求與索引數(shù)據(jù)庫中的信息以某種檢索技術(shù)進行匹配,再將檢索結(jié)果按某種排序方法返回給用戶。
 
工作流程
(1)在互聯(lián)中發(fā)現(xiàn)、搜集網(wǎng)頁信息
搜索引擎首先負責數(shù)據(jù)采集,即按照一定的方式和要求對網(wǎng)絡(luò)上的WWW站點進行搜集,并把所獲得的信息
搜索引擎基本工作原理
搜索引擎基本工作原理
保存下來以備建立索引庫和用戶檢索。但是收集網(wǎng)頁只是搜索引擎的一部分工作,他們的其他服務(wù)器要做的還有進行計算/分配/儲存用戶習(xí)慣等等。
(2)對信息進行提取和組織建立索引庫
首先是數(shù)據(jù)分析與標引,搜索引擎對已經(jīng)收集到的資料給與按照網(wǎng)頁中的字符特性予以分類,建立搜索原則,舉例來說,對于"軟件"這個詞,它必須建立一個索引,當用戶查找的時候,他知道到這里來調(diào)取資料。當然,對于網(wǎng)頁語言,該字符的處理(大小寫/中文的斷字方式等等)等方面,各個搜索引擎都有自己的存檔歸類方式,這些方式往往影響著未來搜索結(jié)果。接下來是數(shù)據(jù)組織,搜索引擎負責形成規(guī)范的索引數(shù)據(jù)庫或便于瀏覽的層次型分類目錄結(jié)構(gòu),也就是計算網(wǎng)頁等級,這個原則特別是在Google非常重要,一個接受很多鏈接的網(wǎng)頁,搜索引擎必然在所有的網(wǎng)頁當中將這些連接多的網(wǎng)頁提升上來。
(3)在索引數(shù)據(jù)庫中搜索排序
由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并將查詢結(jié)果返回給用戶。搜索引擎負責幫助用戶用一定的方式檢索索引數(shù)據(jù)庫,獲取符合用戶需要的WWW信息。搜索引擎還負責提取用戶相關(guān)信息,利用這些信息來提高檢索服務(wù)的質(zhì)量,信息挖掘在個性化服務(wù)中起到關(guān)鍵作用。用戶檢索的過程是對前兩個過程的檢驗,檢驗該搜索引擎能否給出最準確、最廣泛的信息,檢驗該搜索引擎能否迅速地給出用戶最想得到的信息。
搜索引擎
在搜索引擎分類部分我們提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。
另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址,它在一定時間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫,以備用戶查詢。由于搜索引擎索引規(guī)則發(fā)生了很大變化,主動提交網(wǎng)址并不保證你的網(wǎng)站能進入搜索引擎數(shù)據(jù)庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你并自動將你的網(wǎng)站收錄。
當用戶以關(guān)鍵詞查找信息時,搜索引擎會在數(shù)據(jù)庫中進行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度,出現(xiàn)的位置、頻次,鏈接質(zhì)量等——計算出各網(wǎng)頁的相關(guān)度及排名等級,然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。
性能指標
在通常情況下,我們可以從以下幾個方面來衡量一個搜索引擎的性能:
查全率指搜索引擎提供的檢索結(jié)果中相關(guān)文檔數(shù)與網(wǎng)絡(luò)中存在的相關(guān)文檔數(shù)之比,他是搜索引擎對網(wǎng)絡(luò)信息覆蓋率的真實反映。
查準率是搜索引擎提供的檢索結(jié)果與用戶信息需求的匹配程度,也是檢索結(jié)果中有效文檔數(shù)與搜索引擎提供的全部文檔數(shù)之比。
響應(yīng)時間一般而言取決于2個因素,即與帶寬有關(guān)的網(wǎng)絡(luò)速度和搜索引擎本身的速度,只有在二者均獲得可靠的技術(shù)支持的情況下,才能保證理想的檢索速度。對搜索引擎來講,查全率和查準率很難做到兩全其美,影響搜索引擎的性能的主要是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進行相關(guān)度反饋的機制。