• 注册
    • 查看作者
    • 遇到百度网站抓取异常怎么办

       

      大纲如下:

      1、抓取异常是什么?百度抓取异常又是什么?

      2、百度抓取异常的原因有哪些?

      3、网站抓取异常的原因有哪些?

      4、百度抓取异常对网站有什么影响?

      5、网站出现抓取异常的解决方法

      抓取异常是什么?百度抓取异常又是什么?

      所谓抓取异常,就是指搜索引擎蜘蛛无法抓取网站页面,网站出现的抓取异常就是抓取异常,具体原因是什么下面会讲到。

      百度抓取异常是什么?简单理解就是百度的蜘蛛(baiduspider)无法正常抓取,就是百度抓取异常。如上图,来源网上。9月3号,百度蜘蛛来抓取时,抓取时连接超时2次。

      百度抓取异常的原因有哪些?

      百度抓取异常的原原因主要分两大类,一是网站异常,二是链接异常。在哪里看呢,在百度搜索资源平台(https://ziyuan.baidu.com)你添加后数据统计—抓取异常那里,如下图。

      网站异常原因:

      1、dns异常

      当百度蜘蛛(Baiduspider)无法解析您网站的IP时,会出现DNS异常。可能是您的 网站IP地址错误 ,或者 域名服务商把Baiduspider封禁了 。

      可以用WHOIS或者host查询自己网站IP地址是否正确而且可以解析,如果不正确或无法解析,与域名注册商联系,更新网站IP地址。

      2、连接超时

      抓取请求连接超时,可能原因是: 服务器过载 或 网络不稳定。

      3、抓取超时

      抓取请求连接建立后,下载页面速度 过慢 ,导致超时。可能原因服务器过载, 带宽不足 。

      4、连接错误

      无法连接或者连接建立后对方服务器拒绝。

      链接异常原因:

      1、访问被拒绝

      爬虫发起抓取,httpcode返回码是403。

      2、找不到页面

      爬虫发起抓取,httpcode返回码是404。

      3、服务器错误

      爬虫发起抓取,httpcode返回码是5XX

      4、其他错误

      爬虫发起抓取,httpcode返回码是4XX,不包括403和404。

      关于上面提到的403、404、4XX、5XX等,其实都是网站HTTP状态码,如果不清楚同学,可以看这一篇: 白杨SEO:SEO入门学习之搜索引擎(百度)蜘蛛与网站HTTP状态码 ,再学习一下。

      网站抓取异常的原因有哪些?

      网站抓取异常的原因主要有以下五个方面:

      1、服务器异常

      服务器连接异常最大的可能是网站服务器过大,超负荷运转,通过检查浏览器输入你的域名是否正常访问。服务器异常会导致蜘蛛无法连接网站服务器,导致出现抓取失败。

      2、域名过期

      域名过期网站肯定不能访问,域名解析就会失效了。如果存在这类情况,你可以与你域名注册商联系解决,看是否被抢注,还是可以续费回来。

      3、网络运营商异常

      电信和联通这两种都是属于网络运营商,蜘蛛无法访问的网站。

      如果是因为电信或联通网络运营商出现问题,与网络服务运营商联系或者购买CDN服务。

      3、robots.txt文件设置问题

      robots.txt的功效主要是一些不重要的文件屏蔽掉告诉搜索引擎这些些页面可以不抓取,但也可能会存在把重要的页面也给屏蔽了,可以检查下robots文件设置。

      关于ROBOTS.TXT,可以看我之前写的这篇里面有写到:

      白杨SEO:新人学习SEO常遇到的15个SEO术语,建议收藏

      4、死链接因素

      原本正常的链接后来失效了就是死链接,死链接发送请求时,服务器返回404错误页面。 死链的处理方案可以通过百度站长平台提交死链文件。

      5、网站被挂马

      网站被挂马,要查询挂马文件在哪里并删除。恢复网站,更改登录名和密码,安全密保要从新设置,防止下次被挂马。如果找不到,建议直接更换整个建站程序,换一个程序。

      百度抓取异常对网站有什么影响?

      如果网站上存在大量内容蜘蛛无法正常抓取,百度搜索引擎会认为网站给用户的体验上有缺陷( 访问网站的用户没有得到想要的东西,用户的体验感就会下降 )降低对网站的评价。

      而且,网站在 抓取、索引、权重 上都会受到一定程度的负面影响,更严重的会直接影响到网站从百度获取的流量。 所以,百度网站抓取异常是非常严重的,一旦发现,尽量解决。

      如何解决呢,继续往下看。

      网站出现抓取异常的解决方法

      1、出现5XX类型错误情况

      出现这些情况,并不是网站本身向搜索引擎说自己5XX问题,有时打开还是正常的,那么站长后台的为什么会显示这个错误呢?

      如果出现此类问题百分百是因为你的网站服务器造成,而对于某一个状态码的含义,比如503,直接交给技术来进行解决。如果技术还是解决不了,那么建议更换一家服务器。

      2、抓取出现DNS错误情况

      很多SEO新人发现网站打不开了就会马上找网站服务商,但是吧,域名DNS服务器有可能也会出现问题。当网站出现问题后,比如打不开,第一时间应当确定到底是什么问题?

      如果是域名的DNS问题,那么白杨SEO建议更换DSN。因为有些DSN出现了这个问题,它后面还有可能出现。

      如果要换,就要换大一点的DNS服务商,比如阿里云收购的万网就不错,毕竟大公司,稳定性还可以的。

      3、出现抓取超时问题

      现在做SEO排名已经到了用户为王时代,用户如果不能在第一时间打开你网站的页面,那么就会跳到其他网站上去。而搜索引擎蜘蛛呢,一样的。如果无法第一时间抓取,就会出现抓取超时问题。

      上面说过,这个抓取超时,大多都是因为带宽不足,或者是网站页面太大而引发的所以解决方法建议如下:

      (1)、在不影响图片质量的情况下,对大的图片进行压缩哈;

      (2)、减少比如网站的JS脚本文件类型的使用,或者把一些JS进行合并;跟技术说清楚。

      (3)、整个网站页面长度进行控制,尤其是你的网站首页。很多人网站首页做了十来屏,一般用户最多下拉三到五屏。越长,整个加载就会越久。

      (4)、网页的内链数量,一般一个页面互相之间的内链数量建议不要超过500条哦,其实越多,蜘蛛都会去往下爬取,小网站基本没这个问题。

      总之,百度抓取网站异常这个问题,建议建站时找成熟的程序建站,同时,找像阿里云这样的大的服务商。不要总想着省钱,淘宝随便几百建个站,找个不知名服务商,其实这样得不尝失的。

      文章来源:白杨seo

      来源地址:https://www.baiyangseo.com/blog/222.html

      ,。,!

    • 0
    • 0
    • 0
    • 10
    • 请登录之后再进行评论

      登录
    • 单栏布局 侧栏位置: