反爬虫兵法演绎 20 讲
DS Hunter
反爬虫专家,前某公司研发总监
4905 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 29 讲
特别放送 (1讲)
反爬虫兵法演绎 20 讲
15
15
1.0x
00:00/00:00
登录|注册

07 | 反爬虫升级:如何判定你是个真人?

你好,我是 DS Hunter。
上一讲,我们提到了,爬虫使用分布式,可以最大程度地隐藏自己。那么最大程度是到什么程度呢,反爬虫方如何应对呢?
还是回到反爬虫的核心问题:识别爬虫。

真人检测的相关探讨

我最开始做反爬虫的时候,痛苦不堪,完全不知道如何识别爬虫。有一天,我和老婆聊天,提到了这个事情。我说我们技术领域有个新的方向,就是识别一个请求是不是真人。如果不是真人,那就要封杀,但是难点在于识别真假,根本找不到任何通用的规则来指导大家去操作。
我老婆很不屑地说了句:这有什么难的,这和我们会计识别假钱不是一样的?每一个会计都会有一些自己的理论,但是如果说通用的规则,我们只有一个,那就是:假钱一定和真钱不一样。
真的是听妻一席话如听一席话啊。我当时觉得她在逗我,但是随着反爬虫做得越来越深入,我惊讶地发现,这句无心的话,居然真的点破了反爬虫的本质:这个世界上有各种爬虫,它们唯一的共同点就是,它们和真人不一样!
那么,我们可以进行真人检测吗?如果可以,进行真人检测的方法都有什么呢?它们各自的优劣是什么呢?别急,我们一个一个说。

真人检测是否可行

首先,我们可以直接下一个结论:真人检测,理论上不可行。
为什么这么说?
我们都知道,关于真人检测,有个专门的名词,叫图灵测试。在这个测试中,测试者是一个真人,而被测试者是一台机器。在两者隔开的情况下,测试者会通过一些装置向被测试者随意提问。一旦通过,被测试者就可以被判定为真人。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文深入探讨了反爬虫技术中的真人检测问题,从理论和实践两个方面进行了分析。作者指出真人检测在理论上不可行,但在实际应用中可以通过近似解来实现。文章通过讨论各种游戏验证码和变态验证码等方式,展示了如何利用真人和机器人的不同进行检测。这些内容为读者提供了对反爬虫技术中真人检测的深入理解。滑块被认为是最完美的人类检测解决方案,因为它在检测率与伤害性之间取得了平衡。滑块检测方式已经成熟,并且在安全领域有商业化产品。文章还对真人检测的效果进行了对比,强调了在选择检测方式时需要权衡识别率和误伤率,并提出滑块是最优选择。最后,文章提出了思考题,引发读者对反爬虫技术和用户体验之间的权衡思考。整体而言,本文为技术人员提供了对反爬虫技术中真人检测的深入理解,并引发了对相关问题的思考。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《反爬虫兵法演绎 20 讲》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(7)

  • 最新
  • 精选
  • SEC
    佩奇这个梗有意思,佩奇说:我就是一只猪,咋就躺枪了

    作者回复: 哈哈哈哈,那个片子也挺暖心的。

    2022-03-19
  • 圆桌π
    3.首先,我不是爬虫工程师。 说说我的“谬论”:如果对方正在提升机用户体验, 我可以申请一笔经费,让爬虫同事去注册&使用他家的程序——每半天(或更短期限内)报备自己发现的“优化”,汇总、分析; 或者,让同事们根据需要,合理使用对方程序、爬爬自己; 再或者,我尝试申请一大批“新用户”,去轻轻地访问他。

    作者回复: 哈哈哈你很有天赋啊,往后看就会发现可以这么做。

    2022-03-01
  • demo123567
    能不能讲讲API反爬啊,验证码绕过了怎么办?目前你提到的解决方案都是让前端用验证码去做,但是并不是所有数据接口都会走验证码啊。如何识别带有正常TOKEN的API爬虫我感觉才是重点吧

    作者回复: 这个在目录里对应前端反爬部分,不要急,会有。而且实战的规则引擎也会有。

    2022-02-14
    2
  • ZeroIce
    之前遇见一些很变态的验证码:时钟走向,图示一个时钟,让时针或者分针或者秒针知道某个位置,例如:秒针移到38秒。真人去弄,都错了四五次,哈哈哈

    作者回复: 哈哈,这种误伤太高。

    2022-02-12
  • QD账号
    针对H5识别爬虫且是广告投放端的,这个有什么好的方法吗?

    作者回复: 取决于你们的需求是防刷还是商业竞争,防刷依然是特征聚合然后分析,前端辅助采集这套玩法,因为h5上权限并不大,浏览器限制很多不给太多特征,所以依然是以各种指纹为主。此外就是前端加密这一套玩法,无非就是加密狠一点而已。坏消息就是对方利润空间大,敢上浏览器模拟不在乎效率,好消息就是广告反爬不会误伤真人,少看两个广告不是坏事,可以大胆点,误伤了也问题不大。

    2022-02-10
  • leslie
    反爬其实有时和安全类似,不能为了反爬而反爬;而是让他痛到觉得这是利润不大甚至亏本时,自然就会适当控制了

    作者回复: 对的,打仗的是人,不是算法。

    2022-02-09
  • 药师
    滑块除了人为滑动,还有什么更好的解决办法
    2023-11-29归属地:四川
收起评论
显示
设置
留言
7
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部