Unknown robot (identified by ‘spider’)蜘蛛爬行消耗掉巨大流量

因虚拟主机限制了每月的流量，在通过Awstats工具查看访问流量时发现非浏览器浏览占去大量的流量，通过查看：搜索引擎网站的机器人发现大量流量是被Unknown robot (identified by ‘spider’)消耗掉，除了百度，GOOGLE等常见搜索引擎蜘蛛外，有些不知名搜索引擎蜘蛛违规胡乱爬行我们的网站，造成流量被大量消耗和占用CPU资源，导致网站访问速度变慢，我们需要做一些设置将其屏蔽。
一、robots.txt爬虫协议
对正规的搜索引擎会有效，但对一些不知名的搜索引擎可能会无效，现在GOOGLE被国内封锁，如果你的用户是国内客户，可以将GOOGLE搜索引擎一起屏蔽掉。

以下代码为：禁止除百度、360外的一切搜索引擎索引你的网站
User-agent: Baiduspider
User-agent: 360spider
Disallow:
User-agent: *
Disallow: /

在网站根目录下创建名为robots.txt的记事本文件，把以上代码的红色部份放到robots.txt内即可。
User-agent为充许某个搜索引擎索引你的网站。如要增加搜狗:Sogou web spider、有道:YoudaoBot等，增加User-agent即可。

二、通过访问日志屏蔽搜索引擎IP
通过空间管理面板查看访问日志，找到搜索引擎IP将其屏蔽。

一般搜索引擎蜘蛛大量索引你的网站可能几个月才会发生一次，在不确定的情况下，可先观察在下个月有没有发生同样问题，如没有可不用做以上设置。

相关文章：