Unknown robot (identified by ‘spider’)蜘蛛爬行消耗掉巨大流量

虚拟主机限制了每月的流量,在通过Awstats工具查看访问流量时发现非浏览器浏览占去大量的流量,通过查看:搜索引擎网站的机器人发现大量流量是被Unknown robot (identified by ‘spider’)消耗掉,除了百度,GOOGLE等常见搜索引擎蜘蛛外,有些不知名搜索引擎蜘蛛违规胡乱爬行我们的网站,造成流量被大量消耗和占用CPU资源,导致网站访问速度变慢,我们需要做一些设置将其屏蔽。
一、robots.txt爬虫协议
对正规的搜索引擎会有效,但对一些不知名的搜索引擎可能会无效,现在GOOGLE被国内封锁,如果你的用户是国内客户,可以将GOOGLE搜索引擎一起屏蔽掉。

以下代码为:禁止除百度、360外的一切搜索引擎索引你的网站
User-agent: Baiduspider
User-agent: 360spider
Disallow:
User-agent: *
Disallow: /

在网站根目录下创建名为robots.txt的记事本文件,把以上代码的红色部份放到robots.txt内即可。
User-agent为充许某个搜索引擎索引你的网站。如要增加搜狗:Sogou web spider、有道:YoudaoBot等,增加User-agent即可。

二、通过访问日志屏蔽搜索引擎IP
通过空间管理面板查看访问日志,找到搜索引擎IP将其屏蔽。

一般搜索引擎蜘蛛大量索引你的网站可能几个月才会发生一次,在不确定的情况下,可先观察在下个月有没有发生同样问题,如没有可不用做以上设置。

ttt1

原创文章,转载请注明:原文转载地址: http://www.ldhost.cn/jc/ot/425.html