网络上存在各种各样的爬虫与蜘蛛,有的是对网站有帮助的,譬如说:百度、谷歌,但是也有一些纯粹是垃圾爬虫,不但本身对网站毫无帮助,还大幅损耗服务器资源,所以我们可以通过用户代理 UserAgent 信息来屏蔽垃圾爬虫,本文注解并汇总了目前常见的爬虫信息,方便大家参考并选择性的屏蔽。
屏蔽的方法是在 robots.txt 文件中添加下面两行代码(以屏蔽AhrefsBot为例
)
user-agent: AhrefsBot
disallow: /
一、搜索引擎
内容目录
✔️此类爬虫大多不会给网站带来太多危害,如果不针对国外用户的话,可以考虑屏蔽部分国外爬虫!
1、Googlebot
Google作为世界上最大的搜索引擎,其爬虫流量也遥遥领先于其他各类搜索引擎爬虫.
2、Google AdsBot
Google旗下,用于审查谷歌广告投放时的着陆页质量的爬虫,该爬虫用于谷歌广告投放时的质量评定。
3、Baiduspider
这个大家都很熟悉,中国排名第一的搜索引擎蜘蛛程序,可以看到和其他搜索引擎来比,爬取占比还是比较低的,占比:0.26%;
4、haosou 360 spider
中国奇虎360旗下搜素引擎,目前来看在中国流量占比第二。
5、sogou spider
中国搜狗旗下搜素引擎。
6、Bingbot
微软旗下必应搜索引擎的网站爬虫。
7、YAHOO! Slurp bot
Yahoo旗下搜索引擎的爬虫,占比:0.85% ;
8、yandex
俄罗斯最大的搜索引擎。
9、Mail.Ru bot
俄罗斯Mail.Ru集团公司使用的搜索引擎爬虫
10、coccocbot
COCCOC 是越南一家成立于2013年的新兴技术公司,提供在线网络搜索引擎服务和浏览器,主要是使用的语言越南语和英语。
11、DuckDuckGo
DuckDuckGo是一款互联网搜索引擎。
12、PetalBot
PetalBot-华为自研搜索引擎,这个蜘蛛就是花瓣蜘蛛,将来或许也会在国内再杀出一个搜索引擎。(华为的搜索引擎目前还在前期阶段,并不能给网站带来流量,如果这个爬虫已经影响到服务器资源消耗的话,可以考虑屏蔽)
二、内容采集
📣此类爬虫大多为第三方订阅平台的内容采集,如果你的网站在第三方RSS平台提供订阅,请不要屏蔽!
1、FeedDemon:RSS订阅采集
2、Feedly:RSS订阅采集
三、数据采集
🚫此类爬虫大多是某些SEO工具或者信息收集公司的爬虫,对网站本身帮助不大,相反某些暴力蜘蛛会短时间大量抓取页面,给服务器资源造成大量损耗,建议屏蔽!
1、ZoominfoBot
zoominfo是一个北美为主的数据网站,用来搜寻北美公司曾经出现在网页上的邮箱,所以是一个数据采集爬虫。
2、MJ12bot
以我观察到的这个蜘蛛MJ12bot为例,我发现每次它的蜘蛛来爬取我的网站的时候,都是在短时间内(30分钟)非常大量的爬取,量大到整个系统资源都被吃光,CPU严重负荷不了,网站随时有挂点的可能,这种我称之为暴力蜘蛛,暴力蜘蛛对你的访客流量通常没有什么贡献,却吃掉你的系统资源以及网路频宽,害处远大于好处,遇到这种暴力蜘蛛,最好的方式就是拒绝它的访问。
3、SemrushBot
SEMrush 是一个强大的、全面的在线营销竞争情报平台,其中包括 SEO、PPC、社交媒体和视频广告研究。Semrush是一家老牌的提供搜索引擎优化数据的公司,建立于2008年,其原理就是semrush的服务器搜刮互联网上所有有价值的网站,对其进行分析归类,然后各个网站的联系,网站在google排名,关键词等等,是一款很好的网站分析工具。类似google,只不过google通过其爬虫把网站索引到他的数据库,semrush的爬虫把获得数据存入他的数据库以供用户查询。
4、AhrefsBot
AhrefsBot 是一个 Web 爬虫,为 Ahrefs 在线营销工具集的 12 万亿链接数据库提供支持。它不断抓取网络以使用新链接填充数据库并检查以前找到的数据的状态,以便为用户提供最全面和最新的数据。
5、DotBot
Dotbot是Moz的网络爬虫蜘蛛,Moz相信不少的SEOer人员使用过,帮助分析网站运行情况的一款工具,立志打造世界上最准确的SEO数据。
6、BLEXBot
Blexbot是WebMeUp的蜘蛛爬虫,WebMeUp是美国的一家外链反向链接查询工具网站,Blexbot每天可以抓取上百亿个页面来收集反向链接数据,并将该数据提供给其链接索引。
7、Grapeshot
Grapeshot公司旗下爬虫程序,用于分析页面关键词与内容。
8、SkypeUriPreview
SkypeUriPreview是Skype机器人用户代理。
9、proximic
Proximic使用的爬虫程序,用于广告分析与网站内容分析匹配。
10、Barkrowler
Barkrowler是eXenSa的BUbiNG爬虫的实验性版本,Exensa 是一家法国的大数据处理公司,专门从事大规模的文本数据分析。据说致力于机器算法学习,社交网络,法律文档,电子商务的数据分析处理。
11、Bytespider
自于头条系,大并发集中式访问,攻击式地采集数据 Bytespider 爬虫虽然不比 Doos,cc,可是对于 web 服务来讲多大的服务(相对来讲)都能拖垮,占满 CPU 带宽等资源。
12、serpstatbot
国外的SEO蜘蛛爬虫,国内是没有用的,可以屏蔽。
四、网站攻击
🚫此类爬虫为针对网站的扫描或爆破,建议屏蔽!
1、BOT/0.1 (BOT for JCE) sql注入
2、CrawlDaddy sql注入
3、ApacheBench cc攻击器
4、ZmEu 漏洞扫描
5、WinHttp 采集cc攻击
6、HttpClient tcp攻击
7、jaunty wordpress爆破扫描器
8、Indy Library 扫描
9、python python爬虫,这个不用多说。
10、Go-http-client Go语言爬虫的默认UA。
11、Nimbostratus-Bot Nimbostratus是目前第一款针对亚马逊AWS的安全工具。
12、Ubuntu 常规用户不会使用Linux访问,建议屏蔽。
本站提供各类电子书下载,有需求可联系站长。微信:guizhen998. WhatsApp:https://wa.me/14422221313