反爬虫兵法演绎 20 讲
DS Hunter
反爬虫专家,前某公司研发总监
4905 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 29 讲
特别放送 (1讲)
反爬虫兵法演绎 20 讲
15
15
1.0x
00:00/00:00
登录|注册

13 | 反爬虫基础理论:这是唯一一节严肃的纯理论课

你好,我是 DS Hunter。
前面 12 讲,我们讲完了反爬虫的所有操作,但是你可能会觉得,这样一攻一防的讲解在应用的时候会存在割裂感,实际工作中,还是摸不透反爬虫的整个流程。
那么今天,我就带你完整地走一遍反爬虫流程,从信息收集开始,到对爬虫的预估、线上测试,对工作需求的分析,最后,也会告诉你在流程中存在的风险点。
希望你能够通过今天的课程,理解那些反爬虫里严肃的纯理论知识。甚至,你可以把今天的课程当作反爬的标准流程手册。当然,我更希望你能通过今天的总结,了解反爬虫到底反的是什么。是爬虫,还是商业竞争?
在课程开始之前,我推荐你点开这一讲的音频,可以说,和课程的风格是完全的 AB 两面,至于如何不同,就等你点开来听了。

爬虫反爬虫基础理论

首先,我们回顾一下爬虫反爬虫的基础理论。我在上一讲提到过,当你不知道采用什么样的手段反爬的时候,回归初心,往往能够帮助你出奇制胜。
有的时候,你的反爬可能真的是因为竞对,也可能这就是一个因为技术界轮子太多,不得不另辟蹊径、完成目标的一个选择。你可以想想:
一个阴霾的晚上,伸手不见五指,你和你的 Leader,在一家小龙虾店聊工作。
 
你的领导剥着小龙虾,对你说:“又一个双月要过去了,我们什么轮子也没造,下个月的目标恐怕不好写啊。”
 
你思考了一下,和领导说:“领导,不如我们另辟蹊径,选一个非主流的方向,我们造个反爬虫的轮子如何?爬虫就是大家说的抓取啊,嚣张点,起个 TCP 链接直接干到对方服务器上,把数据都拉下来就行了,反爬虫就是,别人拉我们数据,我们就干他,让他敢这么嚣张。”
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文深入探讨了反爬虫的基础理论和相关技术,包括爬虫反爬虫基础理论、反爬虫信息收集与埋点理论、爬虫占比预估理论等。文章首先强调了反爬虫需要在保持高拦截与低误伤率的要求下进行,以资源消耗为战争手段,以商业优势为最终目标。信息收集被强调为反爬虫的基石,而埋点信息则可以用于验证反爬虫系统效果。此外,文章还介绍了爬虫占比预估理论,包括拦截率和误伤率的衡量指标,以及爬虫占比的预估方法。在测试方面,文章提到了线下测试和线上测试的理论,以及熔断测试的重要性。最后,文章还探讨了反爬虫立项分析理论,包括需求与收益分析以及风险控制。总的来说,本文对于想要了解反爬虫流程和技术细节的读者具有很高的参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《反爬虫兵法演绎 20 讲》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(5)

  • 最新
  • 精选
  • leslie
    听戏说事 1.吃小龙虾时的雾霾天,反映了你的什么心理活动? 享受时,却见天空雾气重重且呼吸不顺;理想很丰满,现实却充满荆棘和不确定性; 2.伸手不见五指的夜晚,却能看到圆月;,作者想通过这样强烈的反差表达什么思想? 虽各种不确定,一轮圆月照明方向,使得看到希望; 3.小龙虾的配料进行 AB 测试,需要进行 AA 校验吗? 方案测试完成,是否需要校对其中哪些是真实的。 不同情况拿到的数据是不同的,如果某些城市只有冬夏;偶尔出现的小概率春秋拿到的数据可能就有误差。数据拿到后还要再次筛选,祛除杂质方能得到大概率且常态真实数据。 以上是个人的一些浅薄之析,不知是否言中部分。

    编辑回复: 哈哈 言中了言中了!阅读理解满分!

    2022-02-28
    1
  • neohope
    小区封闭不出差才有空刷课程,结果刷到了老师在吃小龙虾。对于课后题,我想说,不管啥AB配料先来两斤。

    作者回复: 客官说了算,顾客是上帝。

    2022-03-17
  • 小虎子🐯
    听完老师的这些理论分析,感觉清楚了很多

    编辑回复: 嘻嘻 谢谢~

    2022-03-01
  • 对于新上线的策略,可以使用线上流量回放来进行验证

    作者回复: 对于后端可以,前端还是要线上测试,因为要访问前端资源。

    2022-02-28
  • peter
    请教老师几个问题啊: Q1:反爬虫代码是独立于业务代码?还是和业务代码混在一起? Q2:反爬虫代码是怎么起作用的?相当于针对请求的一个过滤器吗? 即接收到请求后根据策略决定直接reject还是放行到后端业务代码。 Q3:信息收集的“前端辅助信息”的js是指网页还是node? 信息收集的第一类是“前端辅助信息”,其中谈到“收集手段是使用js代码”, 请问这里的 js 是网页上的 js? 还是node部分的 js? (一说前端,我一般认为是网页,但现在node也算是前端吗?) Q4:误伤用户后会一直拒绝该用户吗? 比如今天误伤了,用户无法购物,那明天用户还是不能购物吗? Q5:京东应该有反爬吧。我一直在京东购物,有五年了,也没有被误伤过。 是不是可以认为京东的反爬做得比较好? Q6:Canvas指纹和DOM指纹是指什么? Q7:客户端的 location.href 是指请求头中的location.href吗? 客户端的 location.href与Ajax的referrer应该是什么关系?
    2022-03-01
    1
收起评论
显示
设置
留言
5
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部