下面列举四个特殊的影响页面收录量的原因:
1、防采集系统
有的大网站会经常被人采集,但是技术人员不想让别人采集,就做了一个采集的规则,当一个IP在5分钟左右访问1000个页面的时候屏蔽这个IP,这在技术员眼里是个很正常的规则,但是他不知道蜘蛛爬虫也会有这种行为,由此屏蔽了爬虫。
2、防火墙
防火墙和上面的仿采集系统差不多,服务器经常遇到一些攻击比如***,技术员就会在防火墙上设置策略,当一个IP同一时间连接数大约多少的时候屏蔽这个IP,同样会误屏蔽蜘蛛爬虫
3、爬虫返回
爬虫返回的状态码有200、404、301、500,有的网站会怕损失客户或者流量,会设置404页面,或者301。当蜘蛛爬虫同时连续出现2个或以上的链接出现404、301蜘蛛会停止爬行,这应该属于常识多看日志就知道了。尽量少用的减少404页面和301跳转。
(在此解释下蜘蛛爬虫同时连续出现2个链接出现404、301:拿301做例子,就是你做了几个301跳转规则,A页面跳转到B页面,B页面跳转到C页面,这样A到C就经过了2次,这样蜘蛛就会停止爬行,404同理:404页面上出现404链接)
4、服务器系统升级
一个网站服务器系统为win2003,假如当这个服务器升级到win2008的时候,看似正常的一个服务器,网站访问也正常,但是收录量下降了。细心的技术员查到当升级完后网卡需要安装一个驱动,否则会处于半双工状态,而正常的都是全双工状态。
半双工大概意思是进出的流量都走一个口,全双工是进出流量分开走。这时候处于半双工状态的网卡就会有很多处于排队状态的流量,由此减少了爬虫的爬行数量。
版权所有©2024 产品网