加餐|反爬虫的专家级鉴别力:用户习惯检测
DS Hunter
你好,我是 DS Hunter。又见面了。
上一讲,我们讨论了反爬虫方检测真人的几种方式,分别是各种游戏验证码、变态验证码以及滑块验证码。当然,除了这三种检验方式,还有一个更简单的验证码,让用户单纯地看图猜字。这些非黑即白的方法,可能会给你一种感觉,让你觉得:这是一个不可解的问题,没有哪个方法是完美的啊!
记不记得上一讲除了真人检测的几种方式,我还说过什么?“完美解不存在,生活中很多方案都是依靠近似解来进行的”。同样,我也给你提到了,我们在成为反爬虫专家的这条路上,需要的不仅仅是一些通用的、非黑即白的鉴别方法,更要有敏感的鉴别力。
那么现在,我就带你回到寻找近似解的问题中,给你补充一个动态拦截方式:用户习惯检测。
检测真人的目的是什么?
这里,我们首先回归一下初心,明确接下来所有动作的目的。你可以想一想,我们为什么要检测真人?是出于对机器人的厌恶?还是有什么洁癖吗?
不是的。进行检测,单纯的只是因为机器人不仅不会带给我们经济利益,反而会消耗我们的资源。
明确目的之后,“真人检测”这个问题近似解的方向就变得简单了:其实,我们并非一定要检测出谁是真人。我们的目标,是检测那些 ROI 不高的账号,我们并不在乎他是不是真人。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
反爬虫专家DS Hunter提出了一种新的动态拦截方式:用户习惯检测。该方法旨在排除ROI不高的账号,而非一味地检测真人。通过用户画像分析,结合订单量和服务器消耗情况,可以综合判断用户类型和可能出现的爬虫类型。针对搬单爬虫,文章提出了多种非技术手段和技术角度的检测方式。最后强调了根据业务形态的不同,需要自行调整和改造检测方法,以适应自身业务的特点。这一方法为反爬虫领域的技术特点提供了新的思路和方法。文章指出,真人检测是一个不可完成的任务,主要是检测某些流量是否与别人不一致,包括作弊的真人,也要被拦截。爬虫与反爬虫的战争大致告一段落,未来将专注于反爬虫的技术细节。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《反爬虫兵法演绎 20 讲》,新⼈⾸单¥59
《反爬虫兵法演绎 20 讲》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(5)
- 最新
- 精选
- 圆桌π说一句无关紧要的话——作为小白,头一回听说:切屏,居然会被发现!想我之前上网课,岂不是会令老师十分气愤😡
作者回复: 网课还好,面试这个扣分会十分严重。
2022-03-20 - 奕根据业务的特征,梳理出适合进行判断的用户行为
作者回复: 对的。
2022-02-12 - leslie姓名复制粘贴的概率很小,除非是完全不会输入法的人;切屏主要还是看信息复杂度和时间维度,如果复杂度不高且时间相近一般都记得,这块可能要看用户对应的人群用大概率去设计+人工服务吧。 手机归属地:用户自己记得但是判断是否在归属地就不合适,毕竟这个年代人的流动性很大-尤其是出差。
作者回复: 是的,每一点都不是一票否决的,要占好多样才拉黑。
2022-02-11 - 阿白有什么指标能够反映价格爬虫造成的损失呢?2022-12-09归属地:广东
- Geek_611de6没想到还能识别复制粘贴之类的操作,这种投入高不高? 手机归属地那个真的不建议,很多人都跨了,我就是2022-11-09归属地:广东
收起评论