反爬虫兵法演绎 20 讲
DS Hunter
反爬虫专家,前某公司研发总监
4905 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 29 讲
特别放送 (1讲)
反爬虫兵法演绎 20 讲
15
15
1.0x
00:00/00:00
登录|注册

03 | 反爬虫的发展以及展望:我们也不是什么正经工程师

你好,我是 DS Hunter。
在上一节课里,我们讲了反爬虫方是如何对抗爬虫方这个坏人的。这节课,咱们一起看一看,在内卷之下,反爬虫真的能保证“不作恶”吗?
这节课是我们历史背景篇的最后一节课,我们来点轻松的,我会首先讲一讲反爬虫方和爬虫方这两方各自最通用的两个手段——验证码和浏览器模拟的历史过程,然后再用几个故事来带你看看反爬虫的近期发展。
在一些故事的结尾,我也会预言一下后续的发展。当然了,预测未来是一个不怎么靠谱的事情,失败概率极高,不过我还是来无责预测下。

爬虫方和反爬虫方的大招

我们这里把大招理解为以不变应万变的经典招式,它们不会固定存在于爬虫和反爬虫克制链条中的某一环节,但是,却可以无处不在。当然,我还是把它放到了链条中,因为当斗争激烈到某个程度时,大家更倾向于想起这些经典大招(下面的链条图仅供参考)。

低效率的浏览器模拟

我们先来看看爬虫方的进攻手段,浏览器模拟。在我们上一讲中的爬虫第一招——接口定制化部分提到的反转,指的就是这里。爬虫从全面模拟浏览器,变为只抓指定接口,现在又变回了全面模拟浏览器,转了一圈又回到了原地。因为“浏览器模拟”和验证码一样,基本上是万能的——因为被封杀的可能性最低。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

反爬虫技术的发展及展望 本文深入探讨了反爬虫技术的发展历程和未来展望。首先介绍了爬虫方和反爬虫方各自最通用的两个手段——验证码和浏览器模拟,并分析了它们在内卷之下的应用和影响。针对浏览器模拟,文章指出了其低效率和对网站性能的影响,以及业界内对其解决方案的不足。对于验证码,文章则探讨了其在反爬虫中的作用和发展,以及随着技术的发展,对普通用户的伤害逐渐增大,以及“打码平台”工具的存在对其影响。最后,文章提出了反爬虫方在激烈斗争中采取的不正经手段,包括反向注入、社会工程学和心理战争。这些手段在斗争白热化的情况下被使用,展现了反爬虫方的技术阴损和应对策略。 文章内容丰富,涉及技术细节和实际应用,对于了解反爬虫技术的读者具有一定的参考价值。未来,反爬虫工程师可能回归到安全领域,前端和安全合起来,将成为反爬虫未来的主力军。社会工程学等技巧也可能在意想不到的地方起作用,为反爬虫斗争带来意外收获。整体而言,本文展现了技术领域中的斗争和发展趋势,为读者提供了深入了解反爬虫技术的机会。文章还提到了未来爬虫将逐渐变得正规化,不再以偷窃为主,而是走API合作的路线。爬虫最终会在大厂消失,成为一个民间艺术,而反爬虫将成为大厂必备技能。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《反爬虫兵法演绎 20 讲》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(11)

  • 最新
  • 精选
  • 漂泊的小飘
    这一集真好玩,已经发给我们的hr妹子了

    作者回复: 还是你会玩。。。

    2022-01-24
    6
  • 热热身严严实实
    第三题,除了你说的以外,我想不到其他的技术攻击手段,可以举例一下吗

    作者回复: 事实上只要想象力够多,任何常规攻击手段都可以用来攻击,而且对方是引狼入室,一般不对你设防的。比如缓冲区溢出,甚至引导爬虫之间互相302做流量攻击都行。

    2022-05-06
    1
  • 刚毅坚卓
    小白还想学习爬虫,从事爬虫方面的工作。听到大佬后面那句话,心态有点崩

    作者回复: 不要局限于学爬虫,要定位于学技术解决问题。爬虫也是http请求,nginx也是http请求,但是nginx作者就被称为改变世界的人。解决什么问题才是最重要的。

    2022-04-13
    1
  • 么得感情的杀手
    直接报警不行吗 毕竟爬虫是违法的,而且有好多公司都有成功抓取案例。按道理说,你报警,他必进去吃牢饭。

    作者回复: 可以,但是取证极难,一般能取到证据的都报警了。

    2022-02-14
    1
  • 涨见识

    作者回复: 当八卦看也行,能涨到知识最好。

    2022-01-24
    1
  • LipLipLip
    这个心理战争看乐了,果然还是攻城为下,攻心为上啊。那些冰冷的爬虫背后是一个鲜活的人啊,我们只要搞定他就行了。

    作者回复: 是的,杀人诛心。

    2022-08-10归属地:上海
  • ZeroIce
    对于这个:甚至有些人为了炫耀自己的技术,把爬虫代码直接放在了 Github 上面,甚至源代码里还有数据库连接串! 有些时候源代码是私有的,想公开了,就不知道怎样去删除相关的配置文件了,有什么更好的办法?一开始就直接不上传上去?还是新建一个库删掉配置文件,push到新库上面?

    作者回复: 除了重写没啥太好的办法,大公司开源一般都旷日持久,也有这个因素在。

    2022-02-14
  • 涂山二狗
    这集太有趣啦

    作者回复: 谢谢捧场

    2022-02-12
  • webmin
    有一个不正经的想法,打官司的管辖地选择是一个跳脱谁主张谁举证的方法,比如受伤的服务器不在境内在某个西方国家,再者时机的选择也比较重要,在某个融资或重要时刻,目的地就不是要官司的结果,而是要舆论的影响。 上市前可以捞点偏门,上市不走光明正道就危险了。

    作者回复: 这,本来特意跳掉避免教坏大家了。。。😂😂😂

    2022-01-25
    2
  • 程序员二师兄
    项目中很少考虑到财务层面的问题,也没有法务评审的流程。 看了这篇文章,以后会留意这一点,有机会的话拉法务一起参与。 还能想到的反向攻击爬虫团队的方法: 接口随机提供错误数据,进行数据投毒。 最近业务上遇到了被爬虫抓取接口刷单的问题,想向老师请教一个问题: 如何识别爬虫?有哪些比较简单通用的方法? 先提前感谢老师的指导🙏

    作者回复: 在04讲里有,快了快了。后面章节也有更细致的做法。

    2022-01-24
    2
收起评论
显示
设置
留言
11
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部