反爬虫兵法演绎 20 讲
DS Hunter
反爬虫专家,前某公司研发总监
4905 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 29 讲
特别放送 (1讲)
反爬虫兵法演绎 20 讲
15
15
1.0x
00:00/00:00
登录|注册

05 | 反爬虫的应对之策:通用且基本的检测规则是什么?

你好,我是 DS Hunter。
上节课,我通过爬虫方的一整个抓取流程,给你讲了爬虫是如何低调地爬取站点,闷声发大财的。那么今天,我们就要看看反爬虫方要如何应对爬虫的抓取了。
我们都知道,当爬虫诞生的时候,反爬虫的需求就诞生了,而反爬虫这个职业,也就水到渠成,自然而然地出现了。那么我们要想进行反爬虫,要做的第一件事是什么呢?
没错,就是识别爬虫。爬虫如果无法被识别出来,那么剩下的所有架构设计以及扩展性都是在瞎扯。爬虫识别,可以说是整个反爬虫的核心。
这节课是反爬虫的第一课,因此我们只会聚焦一个问题:反爬虫通用且基本的检测规则,是什么?

通用检测规则

考虑到是通用且基础,我们先排除一些定制化的拦截检测,总结出如下几种检测方式:
TCP/IP 级别检测;
HTTP 级别检测;
浏览器特征级别检测;
业务相关特性检测。
这四条规则逐级递进,越往后,拦截越贴近应用,拦截效果越好;越靠前,对性能的影响越小,也就是性能越好。而较为特殊的拦截方式,我在第 9 和 10 讲也会给你提到一些。接下来,咱们就从 TCP/IP 级别检测开始了解吧。

TCP/IP 级别检测

TCP/IP 级别的检测,其实主要是 IP 级别的检测,也就是俗称的“封 IP”。它可以说是反爬虫的基础操作,人人都能想得到。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文深入探讨了反爬虫技术的基本检测规则,包括TCP/IP级别检测、HTTP级别检测、浏览器特征级别检测和业务相关特性检测。在TCP/IP级别检测中,详细介绍了IP封锁的操作方式和优缺点,并提出了端口检测、运营商检测和SEO洗白等补充操作。建议在SLB层和业务层同时使用多种检测方式,以提高反爬虫效果。文章还探讨了HTTP级别检测中的header检测和浏览器特征级别检测中的DOM指纹。此外,业务相关特性检测也被提及,强调了业务方更了解如何处理数据。总结指出,关键在于找到用户与爬虫的差异点,并进行拦截。文章内容深入浅出,为读者提供了实用的反爬虫技术知识。文章内容丰富,对于反爬虫技术感兴趣的读者具有很高的参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《反爬虫兵法演绎 20 讲》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(5)

  • 最新
  • 精选
  • zznn
    DOM指纹这块不太理解,DOM不是在document下不在window下吗,而且DOM是一棵树,为什么会有循环引用,老师是指BOM(浏览器对象模型)吗?另外老师能给一些介绍DOM指纹的文章吗?

    作者回复: 后面详细讲dom指纹的地方提过,dom和bom在一起,一会检测dom一会检测bom,就统称dom指纹了。只是为了表述方便。应该没有类似的文章,我也是第一次写。

    2022-02-22
    1
  • 汤玉民
    ip频率识别是不是基本上能识别出所有爬虫? 假设一般ip都是每天10次某个接口请求,爬虫每天1000次,这样是不是能识别出99%的爬虫? 还是说大部分流量都属于爬虫,没法分辨? 这可能也和业务的体量有关

    作者回复: 主要ip便宜了,所以拦不住了。早年可以。

    2022-02-16
    1
  • 宫十三
    1 相关经验少,就不班门弄斧了 2 固定版本有两个对抗思路,一是高频,如果某个版本的流量趋势激增,能够说明流量有水分了;二加入DOM检测,多维度验证 3 核心代码保护,也叫代码加密

    作者回复: 赞,基本思路没问题了。

    2022-02-04
    1
  • webmin
    1. 静态封IP的话滞后太多且效果不好,动态封IP的话算法不好容易误伤,特别是某位BOSS被误伤的时候,现在NAT的情况比较多,需要黑白名单一起使用; 2. 浏览器版本只是一个特征点,或者说多重过滤中一重吧; 3. 社会工程学,分别让不同的人知道不同的种特定防爬策略,通过哪一种策略失效来找到泄密口子或方向,验证几次大约就能定位出问题出在哪里;

    作者回复: 哈哈哈,某位boss,感觉很有故事啊。尤其是boss和白名单放一起说。。。。

    2022-01-30
    1
  • 刚毅坚卓
    爬虫方常用的ua伪装,在指纹面前是不是就没用了呢

    作者回复: 是的,过于低级了。

    2022-04-14
收起评论
显示
设置
留言
5
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部