05 | 反爬虫的应对之策：通用且基本的检测规则是什么？

DS Hunter

你好，我是 DS Hunter。
上节课，我通过爬虫方的一整个抓取流程，给你讲了爬虫是如何低调地爬取站点，闷声发大财的。那么今天，我们就要看看反爬虫方要如何应对爬虫的抓取了。
我们都知道，当爬虫诞生的时候，反爬虫的需求就诞生了，而反爬虫这个职业，也就水到渠成，自然而然地出现了。那么我们要想进行反爬虫，要做的第一件事是什么呢？
没错，就是识别爬虫。爬虫如果无法被识别出来，那么剩下的所有架构设计以及扩展性都是在瞎扯。爬虫识别，可以说是整个反爬虫的核心。
这节课是反爬虫的第一课，因此我们只会聚焦一个问题：反爬虫通用且基本的检测规则，是什么？
通用检测规则考虑到是通用且基础，我们先排除一些定制化的拦截检测，总结出如下几种检测方式：
TCP/IP 级别检测；
HTTP 级别检测；
浏览器特征级别检测；
业务相关特性检测。
这四条规则逐级递进，越往后，拦截越贴近应用，拦截效果越好；越靠前，对性能的影响越小，也就是性能越好。而较为特殊的拦截方式，我在第 9 和 10 讲也会给你提到一些。接下来，咱们就从 TCP/IP 级别检测开始了解吧。
TCP/IP 级别检测TCP/IP 级别的检测，其实主要是 IP 级别的检测，也就是俗称的“封 IP”。它可以说是反爬虫的基础操作，人人都能想得到。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文深入探讨了反爬虫技术的基本检测规则，包括TCP/IP级别检测、HTTP级别检测、浏览器特征级别检测和业务相关特性检测。在TCP/IP级别检测中，详细介绍了IP封锁的操作方式和优缺点，并提出了端口检测、运营商检测和SEO洗白等补充操作。建议在SLB层和业务层同时使用多种检测方式，以提高反爬虫效果。文章还探讨了HTTP级别检测中的header检测和浏览器特征级别检测中的DOM指纹。此外，业务相关特性检测也被提及，强调了业务方更了解如何处理数据。总结指出，关键在于找到用户与爬虫的差异点，并进行拦截。文章内容深入浅出，为读者提供了实用的反爬虫技术知识。文章内容丰富，对于反爬虫技术感兴趣的读者具有很高的参考价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《反爬虫兵法演绎 20 讲》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(5)

最新
精选

zznn
DOM指纹这块不太理解，DOM不是在document下不在window下吗，而且DOM是一棵树，为什么会有循环引用，老师是指BOM(浏览器对象模型)吗？另外老师能给一些介绍DOM指纹的文章吗？
作者回复: 后面详细讲dom指纹的地方提过，dom和bom在一起，一会检测dom一会检测bom，就统称dom指纹了。只是为了表述方便。应该没有类似的文章，我也是第一次写。
2022-02-22

1
汤玉民
ip频率识别是不是基本上能识别出所有爬虫? 假设一般ip都是每天10次某个接口请求，爬虫每天1000次，这样是不是能识别出99%的爬虫? 还是说大部分流量都属于爬虫，没法分辨? 这可能也和业务的体量有关
作者回复: 主要ip便宜了，所以拦不住了。早年可以。
2022-02-16

1
宫十三
1 相关经验少，就不班门弄斧了 2 固定版本有两个对抗思路，一是高频，如果某个版本的流量趋势激增，能够说明流量有水分了；二加入DOM检测，多维度验证 3 核心代码保护，也叫代码加密
作者回复: 赞，基本思路没问题了。
2022-02-04

1
webmin
1. 静态封IP的话滞后太多且效果不好，动态封IP的话算法不好容易误伤，特别是某位BOSS被误伤的时候，现在NAT的情况比较多，需要黑白名单一起使用； 2. 浏览器版本只是一个特征点，或者说多重过滤中一重吧； 3. 社会工程学，分别让不同的人知道不同的种特定防爬策略，通过哪一种策略失效来找到泄密口子或方向，验证几次大约就能定位出问题出在哪里；
作者回复: 哈哈哈，某位boss，感觉很有故事啊。尤其是boss和白名单放一起说。。。。
2022-01-30

1
刚毅坚卓
爬虫方常用的ua伪装，在指纹面前是不是就没用了呢
作者回复: 是的，过于低级了。
2022-04-14



收起评论