一位讀者在蜘蛛抓取配額是什麼這篇帖子留言:
不對呀,這個index標簽,是指通知蜘蛛可以抓取該頁面,那麼noindex不就是不允許抓取該頁面嗎?!那麼為何文章最初的幾個闡明里有“noindex標簽不能節省抓取份額。搜索引擎要曉得頁面上有noindex標簽,就得先抓取這個頁面,所以并不節省抓取份額。”
留言闡明,這位讀者并沒有太明白什麼是抓取,什麼是索引,index和noindex標簽的意義又是什麼。noindex標簽不是不允許抓取該頁面,是不允許索引該頁面,這兩者是不同的意思,有不同的功用。
看上海seo 有關博客和論壇時能覺得到,很多SEO并沒有了解匍匐、抓取、索引、收錄這些概念究竟指的是什麼,區別在哪,noindex、nofollow、robots文件的功用又是什麼。對這些概念沒有精準了解,處置大型網站構造,決議什麼頁面需求被抓取,什麼需求被索引,哪些頁面需求制止抓取、索引等等狀況時,就很難明白該怎樣做。甚至就像抓取配額那篇帖子的很多留言說的,提到這些狀況的處置時,基本看不懂在說什麼。
匍匐是什麼?
匍匐指的是搜索引擎蜘蛛從已知頁面上解析出鏈接指向的URL,然后沿著鏈接發現新頁面(也就是鏈接指向的URL)的進程。當然,蜘蛛并不是發現新URL馬上就爬過來抓取新頁面,而是把發現的URL寄存到待抓地址庫中,蜘蛛依照一定順序從地址庫中提取要抓取的URL。
抓取是什麼?
抓取是搜索引擎蜘蛛從待抓地址庫中提取要抓的URL,拜訪這個URL,把讀取的HTML代碼存入數據庫。蜘蛛的抓取就是像閱讀器一樣翻開這個頁面,和用戶閱讀器拜訪一樣,也會在效勞器原始日志中留下記載。
索引是什麼?
索引指的是將一個URL的信息停止整理,存入數據庫,也就是索引庫,用戶搜索時,搜索引擎從索引庫中提取URL信息并排序展示出來。索引的英文是index。索引庫是用于搜索的,所以被索引的URL是可以被用戶搜索到的,沒有被索引的URL用戶在搜索后果中是看不到的。
要留意的是,所謂“一個URL的信息“,并不限于蜘蛛從URL上抓取來的內容,還有來自其它來源的信息,如內部鏈接、鏈接的錨文字等。有的時分,索引庫中關于這個URL的的信息,基本沒有從這個URL抓取來的內容,但搜索引擎曉得這個URL的存在,并且有一些其它信息。
抓取和索引不是一回事。
收錄是什麼?
我團體覺得收錄和索引沒有區別。只不過收錄是從搜索用戶角度看的,搜索時能找到這個URL,就是這個URL被收錄了。從搜索引擎角度看,URL被收錄了,也就是這個URL的信息在索引庫中存在。英文并沒有收錄這個詞,和索援用的是同一個詞index。
noindex的作用是什麼?
頁面頭信息中放上meta noindex標簽是通知搜索引擎不要索引這個URL,也就是用戶搜索時找不到這個URL的信息,這個URL不會前往在搜索后果列表中。
noindex不是通知搜索引擎不要抓取這個URL,實踐上,noindex要起作用,這個URL是必需先被抓取的,不然搜索引擎怎樣看到頁面HTML代碼中有noindex標簽呢?
robots文件的作用是什麼?
robots文件是通知搜索引擎,某些URL不要抓取。留意,這里說的是不要抓取,沒說不要索引。和noindex是正相反的。
nofollow的作用是什麼?
給鏈接加上nofollow屬性是通知搜索引擎,不要沿著這個鏈接匍匐,就當這個鏈接不存在。留意,nofollow只是通知蜘蛛不要爬這個鏈接,沒有說不要抓取鏈接指向的URL,也沒有說不要索引鏈接指向的URL,nofollow既沒制止抓取,也沒制止索引。
概念說當時,指出幾個SEO們常常弄不明白的狀況:
沒有被抓取的頁面是可以被索引的
也就是說,蜘蛛沒有拜訪和抓取這個頁面(比方被robots文件制止抓?。@個頁面卻有信息存在索引庫中,用戶搜索時還能看到。
比方,淘寶整個網站用robots文件制止百度蜘蛛抓取,但沒有用noindex制止索引(如下面說的,制止抓取后,就沒方法制止索引了,不抓取,就看不到noindex標簽了),所以即便百度沒有拜訪和抓取淘寶頁面,但淘寶很多頁面是被百度索引的,用戶可以搜到的:
淘寶制止百度抓取,但沒有制止索引
百度從網上那麼多鏈接曉得淘寶首頁的存在,經過鏈接的錨文字也曉得這個頁面標題大約是淘寶之類的,當然更曉得百度口碑里的評價數。所以即便百度蜘蛛沒有抓取淘寶首頁,用戶還是能搜到,并且顯示一些百度曉得的信息。
要想百度不能前往淘寶首頁該怎樣辦呢?取消robots文件的制止抓取,頁面上用noindex制止索引。
被抓取的頁面是可以不被索引的
最罕見的就是下面說過的,頁面頭信息運用noindex制止索引,頁面被抓取,讀到noindex后,不被索引,不會在搜索后果中前往。
還有能夠是由于頁面內容是剽竊、轉載、低質量的,搜索引擎雖然抓取了頁面,索引進程中檢測出這些內容成績,被丟棄,沒有被索引。所以頁面沒有被收錄,通常要先反省原始日志,看看能否被抓取過,假如被抓取過,能夠是內容質量成績,假如基本沒被抓取,建議先看看網站構造能否有成績。
加了nofollow的鏈接目的頁面可以被抓取和索引
后面說了,nofollow既不由止抓取,也不由止索引。nofollow的作用是通知蜘蛛不要跟著這個鏈接爬,就當這個鏈接不存在,但nofollow只對這個鏈接起作用,對別的鏈接沒作用,這個鏈接加了nofollow,不意味著別的中央就沒有正常的指向這個URL的鏈接,只需別的中央呈現了沒加nofollow的鏈接,目的URL還是會被發現、抓?。俣]被robotx文件制止)、索引(假定沒加noindex )。
下面這些概念和使用在SEO中是很重要的,假如還沒看懂,我也不曉得該怎樣再解釋了,只能建議再多讀幾遍。