05 | 反爬虫的应对之策:通用且基本的检测规则是什么?
DS Hunter
你好,我是 DS Hunter。
上节课,我通过爬虫方的一整个抓取流程,给你讲了爬虫是如何低调地爬取站点,闷声发大财的。那么今天,我们就要看看反爬虫方要如何应对爬虫的抓取了。
我们都知道,当爬虫诞生的时候,反爬虫的需求就诞生了,而反爬虫这个职业,也就水到渠成,自然而然地出现了。那么我们要想进行反爬虫,要做的第一件事是什么呢?
没错,就是识别爬虫。爬虫如果无法被识别出来,那么剩下的所有架构设计以及扩展性都是在瞎扯。爬虫识别,可以说是整个反爬虫的核心。
这节课是反爬虫的第一课,因此我们只会聚焦一个问题:反爬虫通用且基本的检测规则,是什么?
通用检测规则
考虑到是通用且基础,我们先排除一些定制化的拦截检测,总结出如下几种检测方式:
TCP/IP 级别检测;
HTTP 级别检测;
浏览器特征级别检测;
业务相关特性检测。
这四条规则逐级递进,越往后,拦截越贴近应用,拦截效果越好;越靠前,对性能的影响越小,也就是性能越好。而较为特殊的拦截方式,我在第 9 和 10 讲也会给你提到一些。接下来,咱们就从 TCP/IP 级别检测开始了解吧。
TCP/IP 级别检测
TCP/IP 级别的检测,其实主要是 IP 级别的检测,也就是俗称的“封 IP”。它可以说是反爬虫的基础操作,人人都能想得到。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
本文深入探讨了反爬虫技术的基本检测规则,包括TCP/IP级别检测、HTTP级别检测、浏览器特征级别检测和业务相关特性检测。在TCP/IP级别检测中,详细介绍了IP封锁的操作方式和优缺点,并提出了端口检测、运营商检测和SEO洗白等补充操作。建议在SLB层和业务层同时使用多种检测方式,以提高反爬虫效果。文章还探讨了HTTP级别检测中的header检测和浏览器特征级别检测中的DOM指纹。此外,业务相关特性检测也被提及,强调了业务方更了解如何处理数据。总结指出,关键在于找到用户与爬虫的差异点,并进行拦截。文章内容深入浅出,为读者提供了实用的反爬虫技术知识。文章内容丰富,对于反爬虫技术感兴趣的读者具有很高的参考价值。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《反爬虫兵法演绎 20 讲》,新⼈⾸单¥59
《反爬虫兵法演绎 20 讲》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(5)
- 最新
- 精选
- zznnDOM指纹这块不太理解,DOM不是在document下不在window下吗,而且DOM是一棵树,为什么会有循环引用,老师是指BOM(浏览器对象模型)吗?另外老师能给一些介绍DOM指纹的文章吗?
作者回复: 后面详细讲dom指纹的地方提过,dom和bom在一起,一会检测dom一会检测bom,就统称dom指纹了。只是为了表述方便。应该没有类似的文章,我也是第一次写。
2022-02-221 - 汤玉民ip频率识别是不是基本上能识别出所有爬虫? 假设一般ip都是每天10次某个接口请求,爬虫每天1000次,这样是不是能识别出99%的爬虫? 还是说大部分流量都属于爬虫,没法分辨? 这可能也和业务的体量有关
作者回复: 主要ip便宜了,所以拦不住了。早年可以。
2022-02-161 - 宫十三1 相关经验少,就不班门弄斧了 2 固定版本有两个对抗思路,一是高频,如果某个版本的流量趋势激增,能够说明流量有水分了;二加入DOM检测,多维度验证 3 核心代码保护,也叫代码加密
作者回复: 赞,基本思路没问题了。
2022-02-041 - webmin1. 静态封IP的话滞后太多且效果不好,动态封IP的话算法不好容易误伤,特别是某位BOSS被误伤的时候,现在NAT的情况比较多,需要黑白名单一起使用; 2. 浏览器版本只是一个特征点,或者说多重过滤中一重吧; 3. 社会工程学,分别让不同的人知道不同的种特定防爬策略,通过哪一种策略失效来找到泄密口子或方向,验证几次大约就能定位出问题出在哪里;
作者回复: 哈哈哈,某位boss,感觉很有故事啊。尤其是boss和白名单放一起说。。。。
2022-01-301 - 刚毅坚卓爬虫方常用的ua伪装,在指纹面前是不是就没用了呢
作者回复: 是的,过于低级了。
2022-04-14
收起评论