百度网站抓取异常的原因有哪些 有什么影响和解决方法

  
前言: 这是白杨SEO公众号原创第 220 篇 。经常有朋友在我的SEO付费交流群或者私下说,网站收录怎么又下降了,百度好像抓取出问题了,原因是什么怎么办,所以今天就来分享下哈 。  
大纲如下:  
1、抓取异常是什么?百度抓取异常又是什么?  
2、百度抓取异常的原因有哪些?  
3、网站抓取异常的原因有哪些?  
4、百度抓取异常对网站有什么影响?  
5、网站出现抓取异常的解决方法  
抓取异常是什么?百度抓取异常又是什么?  
所谓抓取异常,就是指搜索引擎蜘蛛无法抓取网站页面,网站出现的抓取异常就是抓取异常,具体原因是什么下面会讲到 。  
百度抓取异常是什么?简单理解就是百度的蜘蛛(baiduspider)无法正常抓取,就是百度抓取异常 。如上图,来源网上 。9月3号,百度蜘蛛来抓取时,抓取时连接超时2次 。  
百度抓取异常的原因有哪些?  
百度抓取异常的原原因主要分两大类,一是网站异常,二是链接异常 。在哪里看呢,在百度搜索资源平台(https://ziyuan.baidu.com)你添加后数据统计—抓取异常那里,如下图 。  
网站异常原因:  
1、dns异常  
当百度蜘蛛(Baiduspider)无法解析您网站的IP时,会出现DNS异常 。可能是您的 网站IP地址错误 ,或者 域名服务商把Baiduspider封禁了。  
可以用WHOIS或者host查询自己网站IP地址是否正确而且可以解析,如果不正确或无法解析,与域名注册商联系,更新网站IP地址 。  
2、连接超时  
抓取请求连接超时,可能原因是: 服务器过载 或 网络不稳定 。  
3、抓取超时  
抓取请求连接建立后,下载页面速度 过慢 ,导致超时 。可能原因服务器过载, 带宽不足。  
4、连接错误  
无法连接或者连接建立后对方服务器拒绝 。  
链接异常原因:  
1、访问被拒绝  
爬虫发起抓取,httpcode返回码是403 。  
2、找不到页面  
爬虫发起抓取,httpcode返回码是404 。  
3、服务器错误  
爬虫发起抓取,httpcode返回码是5XX  
4、其他错误  
【百度网站抓取异常的原因有哪些 有什么影响和解决方法】爬虫发起抓取,httpcode返回码是4XX,不包括403和404 。  
关于上面提到的403、404、4XX、5XX等,其实都是网站HTTP状态码,如果不清楚同学,可以看这一篇: 白杨SEO:SEO入门学习之搜索引擎(百度)蜘蛛与网站HTTP状态码 ,再学习一下 。  
网站抓取异常的原因有哪些?  
网站抓取异常的原因主要有以下五个方面:  
1、服务器异常  
服务器连接异常最大的可能是网站服务器过大,超负荷运转,通过检查浏览器输入你的域名是否正常访问 。服务器异常会导致蜘蛛无法连接网站服务器,导致出现抓取失败 。  
2、域名过期  
域名过期网站肯定不能访问,域名解析就会失效了 。如果存在这类情况,你可以与你域名注册商联系解决,看是否被抢注,还是可以续费回来 。  
3、网络运营商异常  
电信和联通这两种都是属于网络运营商,蜘蛛无法访问的网站 。  
如果是因为电信或联通网络运营商出现问题,与网络服务运营商联系或者购买CDN服务 。  
3、robots.txt文件设置问题  
robots.txt的功效主要是一些不重要的文件屏蔽掉告诉搜索引擎这些些页面可以不抓取,但也可能会存在把重要的页面也给屏蔽了,可以检查下robots文件设置 。  
关于ROBOTS.TXT,可以看我之前写的这篇里面有写到:  
白杨SEO:新人学习SEO常遇到的15个SEO术语,建议收藏  
4、死链接因素  
原本正常的链接后来失效了就是死链接,死链接发送请求时,服务器返回404错误页面 。死链的处理方案可以通过百度站长平台提交死链文件 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。