搜索引擎不抓取頁面服務器端的五個問題

閱讀 ?·? 發布日期 2018-12-17 11:09 ?·? admin

　搜索引擎不抓取頁面服務器端的五個問題　

1、錯誤的封禁

　　在百度的robots.txt的更新上，如果多次點擊“檢測并更新”就會出現時?？梢愿拢怯謺r常無法更新的問題。如此一來：不應當被收錄的東西，在robots.txt上禁止的被收錄了，又刪除就很正常了。那么它的問題是什么呢？并非服務器負載過度，而是因為防火墻錯誤的將部分Baiduspider列入了黑名單。

　　2、服務器異常

　　常規的服務器就不說了，大家都知道的，北上廣的一般都不錯。不過有一些特殊服務器，想必絕大多數的站長都不知道吧？例如西部數碼的“港臺服務器”就很有趣，真的是港臺的嗎？本身機房在國內，還算什么港臺？為了逃避備案而用一個港臺的IP，數據全部在國內。

　　這樣有什么不好呢？我們會發現：站點的服務器是經過CDN的，哪怕是你上傳的一張圖片，都會顯示為“302狀態碼”，訪問速度是提升上去了，可是這樣利于SEO嗎？

　　3、獲取不到真實IP

　　規模較大的網站，一般都會使用CDN加速，但是有些站點不僅僅對“設備”使用了CDN加速，而且還對Spider使用了加速功能。后的結果是什么呢？如果CDN節點不穩定，那么對網站spider來講，這個問題將是致命的。

　　很多大型站點開放CDN的原因就是容易被攻擊，這個時候如果不做“蜘蛛回源”就可想而知了。你的站點做了CDN了嗎？請登錄百度站長平臺查看一下spider是否可以抓取真實IP地址吧!

　　4、頻繁的50X類錯誤

　　這樣的鏈接其中一個共同的特點是：當打開后，全部都是正常的，那么Spider為什么會報錯提醒呢？只是因為在爬蟲發起抓取的那一刻，httpcode返回了5XX"，你的站點是否頻繁有這樣的問題呢？有的話需要立即安排技術，或者通報IDC服務商做解決了!

　　5、錯誤的抓取比例

　　任何網站都做不到100%不出問題，但是萬事有一個度：我們認為，這個比例不超過5%，對網站基本上是無影響的，且這樣的錯誤不應當每天都出現。常見的抓取錯誤一般都是連接超時："抓取請求連接建立后，下載頁面速度過慢，導致超時，可能原因服務器過載，帶寬不足"這種情況：

　　A：盡量在不影響圖片質量的情況下，對圖片進行壓縮，上傳的時候就進行了壓縮。
　　B：減少如JS腳本文件類型的使用，或者進行合并
　　C：頁面大小進行控制，尤其是一些瀏覽量、抓取量較高的頁面，不建議超過2MB。
　　D：增加網站的帶寬，提升下載速度，或者更換服務器。

乳色吐息在线_娇喘两分钟_美女脱光衣服的视频软件_精品动漫一区二区三区

搜索引擎不抓取頁面服務器端的五個問題