反爬虫兵法演绎 20 讲
DS Hunter
反爬虫专家,前某公司研发总监
4905 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 29 讲
特别放送 (1讲)
反爬虫兵法演绎 20 讲
15
15
1.0x
00:00/00:00
登录|注册

06|爬虫攻势升级:分布式的意义在哪里?

你好,我是 DS hunter。
上一讲,我们讲到了反爬虫做为一个合格的保安,会尽力对爬虫进行拦截。当然,不遗余力地拦截,从某种意义上来说也不一定是最优解。
关于最优解问题我们会在后续探讨。今天我们主要看一下:当保安尽力拦截爬虫的时候,爬虫方是怎么处理的?
这里,我就先从基础的爬虫思路给你引入。

爬虫基础思路

一些做过爬虫的人可能都知道,网上主要有两种爬虫思路。
第一种是,你要尽可能少爬一点,避免把服务器爬挂了。比如你的 QPS(Queries-per-second,每秒查询率)本来是 100,那么你尽量放到 50。
而另一种流派则认为,反爬虫会根据单个 IP 的访问请求来统计你的请求是否均匀。如果不均匀,例如只请求价格接口,那么他会直接封锁你的 IP。为了避免这一情况,你应该多请求一些与你无关的接口。这样你的 QPS 如果本来是 100,那么实际上会扩大到 500 甚至更多。
这里可以注意这样一点,如果你的 QPS 本来是 100,那么根据方案一, 你应该缩小到 50。根据方案二,你应该扩大到 500。可是,两者相差了十倍之多,到底哪个是正确的呢?
这里就要引入一个几乎所有的爬虫教程都会提到的词:分布式。似乎不做分布式,爬虫就不能称为爬虫了。那么,我们为什么一定需要分布式呢?还是说,仅仅是别人这么说了,我们就忍不住照做,慢慢成为了一种习惯?
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

爬虫攻势升级:分布式的意义在哪里? 本文探讨了爬虫技术的发展趋势,特别关注了分布式技术在爬虫系统中的重要性。作者首先介绍了爬虫的基本思路,包括QPS控制和IP请求均匀性,并引出了分布式技术的重要性。在IP的分布方面,作者介绍了付费购买和免费自建两种获取多个IP地址的方法,并分析了它们的优缺点。在爬虫节点的分布方面,作者强调了分布式对系统稳定性的重要性,特别是对时间上稳定性的要求。作者认为,分布式技术的应用可以提升取数率的稳定性和时间稳定性,从而保障爬虫系统的稳定运行。此外,文章还提到了数据库的分布式和爬虫策略的分布式,强调了在爬虫系统中各个模块的分布式部署的重要性。最后,文章还讨论了数据汇总模块的分布式,指出了根据业务规模来决定是否需要进行数据集中存储的建议。 文章通过分析爬虫基础思路和分布式技术的应用,阐述了分布式技术在爬虫攻势中的重要意义。作者提出了QPS控制和IP请求均匀性的重要性,并探讨了分布式技术在爬虫系统中的应用,包括IP的获取、爬虫节点的分布、数据库和爬虫策略的分布式部署,以及数据汇总模块的分布式。文章强调了分布式技术对系统稳定性和时间稳定性的重要性,为读者深入了解爬虫技术提供了有益的参考。 总的来说,本文通过深入剖析爬虫技术的发展趋势和分布式技术的应用,为读者呈现了爬虫攻势升级的全貌,展示了分布式技术在爬虫系统中的重要意义。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《反爬虫兵法演绎 20 讲》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(5)

  • 最新
  • 精选
  • SEC
    SQL注入,写SQL使用预编译方式即可

    作者回复: 是的,虽说没有绝对的安全,但是大部分安全漏洞还是懒导致的。

    2022-03-19
    1
  • 圆桌π
    1.感觉“分布式”是爬虫隐藏自己的手段,反爬虫隐藏信息的手段。 如果反爬虫的手段没有那么高明,可以小“赚”一 笔,但怕的就是,反爬虫想让爬虫以为——反爬虫技术拉垮。 2.IP更换,可能会增加服务器的运行压力,需要删除旧的IP,识别心的IP。 同时,有可能增加了用户的访问难度,影响用户体验。 3.说肯定是要说的,不能瞒着上司,更不能瞒着Boss。 作为技术人员,有必要让老板清楚的知道,技术资源的动态。 在此情境中要挑一个合适的时间,分析分布式的利与弊(最好不止你和老板两个人;同时最好是能够代表技术部门全体成员,来提出建议,以免一人背锅),供其做判断。

    作者回复: 其它的没问题,开会这个,要注意保密,还是人少点好。而且人多了也不见得就有人背锅。。。。

    2022-02-28
    1
  • peter
    请教一个问题啊:文中提到ADSL,但现在还用ADSL吗?普通家庭用的宽带应该不是ADSL吧。印象中二零零几年的时候好像用ADSL。

    作者回复: 对的,现在基本都是光纤了,但是还有个拨号过程,一般叫习惯了的很难改过来,而且不影响交流。就像现在还经常不小心写2021年一样。不过严格来说你是对的。

    2022-02-07
    3
    1
  • GAC·DU
    本着有鱼没鱼先捞一网的态度试试对方的水平,基础分布式还是有必要的,比如IP代理,其次还要看爬取数据的体量,如果数据体量较大,爬虫本身就要化整为零,负责不同模块的爬取,每个模块对应着独立的数据库进行数据存储。

    作者回复: 赞

    2022-02-07
    1
  • demo123567
    之前有了解过使用server less 来做代理的替代方法
    2022-02-09
收起评论
显示
设置
留言
5
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部