• 程序员二师兄
    2022-01-20
    本人刚接触爬虫这一块不久,看到思考题留的作业,按照自己对爬虫浅薄的理解回答一下: 1. 假如爬虫冒充搜索引擎,怎么办? 以百度搜索引擎的爬虫为例、爬虫会带有标识,如 baiduspider,可以初步判断为搜索引擎。 假如其他爬虫此时也加上了baiduspider的标识,那么可以根据robots.txt 协议来进行处理。 爬虫所抓取的链接在robots.txt协议中,进一步可以认为搜索引擎。 而往往其他爬虫不像搜索引擎,它是不遵守robots.txt协议的,它抓取的链接以及数据可能也不在约定的协议中,那么可以认为爬虫冒充了搜索引擎。 此时对这类爬虫进行拦截,识别到这类爬虫后,接口可以返回非正常数据,还见过虚假数据,让竞争对手拿到的是虚假数据。 2. 爬虫为这个世界做了什么贡献? 个人认为,爬虫对这个世界最大的贡献是数据的聚合。 没有爬虫之前,每个站点的数据都犹如一座孤岛,很难在众多孤岛找到所需要的数据,解决待满足的需求。 搜索引擎的爬虫很好的解决这个问题,只需要一个输入框,输入想问的问题,搜索引擎将爬虫抓取到的数据进行优化,将更相关的资料优先展示在网页上。 3. 你的爬虫或者反爬虫的经历是什么?有什么奇葩的经历吗? 爬虫经历: 一、 为了找到某些关键词在搜索引擎的需求以及权重。 将某一个关键词,通过爬虫的方式从各大搜索引擎获取前10条返回结果。 搜索引擎能够返回的数据,说明需求量是比较大的。 二、 通过爬虫抓取第三方数据平台,获取文章以及短视频的各方面的数据。 比如通过爬虫对短视频平台的视频去水印、视频文案提取。 反爬虫经历: 接口防刷。 简单介绍一下背景,所在的公司有电商业务,当品牌做一些活动时,参与人数会比较多,而其中有小部分人会利用爬虫来刷接口。 处理方法: 针对用户的请求及频率,如果是爬虫,频率会比较高,增加图形验证码,通过图形验证码才能后续的操作。 自己的奇葩经历: 自从了解一些爬虫知识后,看到有意思的网站或者app,总是忍不住想抓包看一下它们的接口。 经常魔怔,比如看到一些加密的请求,虽然不知道有什么意义,总是想研究一番,常常研究半天还是没能琢磨透。
    展开

    作者回复: 哈哈哈,还抓过搜索引擎,可以。其实搜索引擎并不好抓,只是抓的少的时候不触发任务反爬处理,它们不当回事。

    
    8
  • lidashuang
    2022-01-26
    爬过最难爬的是美团,各种给你下毒

    作者回复: 哈哈哈,美团反爬是很强,他们老板人也不错。主要你得看他是在什么样的对手下成长起来的。强大的对手能让你更强。呃这算招人广告不,无利益相关,理性分析而已😂😂😂

    共 2 条评论
    3
  • ll
    2022-02-11
    我的经历: 1、 16年开始做爬虫,那个时候什么58、美团、淘宝什么的,数据都是免费爬,当时我们的一个目标就是怎么重复利用cpu,带宽,让我们的爬虫采集效率最快。那个时候淘宝的数据都是没有反爬的,我们的工作就是疯狂写爬虫,很少有反爬的,那个时候我记得我3个月写了快100跟网站的爬虫,所有爬虫一键爬起来的时候,那个壮观,现在想想都觉得我疯了; 2、后来发现有些小的障碍了,比如下一页的连接是js生成的,网站要开始限制cookie了,某些登录验证需要梳理他的js逻辑了,比如微博和百度贴吧,不过那个时候捋下逻辑,还是可以搞定的,从那个时候开始,爬虫的速度,就再也不是面试的考点了,都是问怎么安全、稳定; 3、 后来就发现了一些特别恶心的,比如请求的参数就一个很大的字符串,所有请求体的都是加密成一个字符串,验证header里也是加密的,每此请求header里的auth都是一次性的;完了js还没法逆向回去,或者说我没法逆向回去,你调试的时候还会定位到你,把你封ip,之前就被这么搞过,不过后来还是搞定了,我记得是瑞数科技的专门做的,都过去好多些年了,希望不要针对我; 4、再后来就越来越觉得,几乎每个网站都有反爬虫,但是也不是突破不了,然而突破了好像对我们来说也意义不大,因为有些硬性的指标,比如你的账户、跟ip绑定后,限制了你的行为,只能有那么多次的访问上限,基本上限制死了单个账号的数据访问量,爬虫已经不是一个人可以做的事情了,背后需要很多账号、ip这样的资源,有时候感觉就是财力的比拼;甚至后来发现天眼查充了会员后,同样的接口,没充钱的数据你拿到是假数据,还需要研究他的js再处理一下,而会员就可以爬到真数据,我发现后震惊了,立马冲了个会员,工作量一下就降低了不少,才感觉到别人产品经理已经把挣钱放到我们爬虫开发人员身上了,再后来越来越发现,爬虫已经告别了西部牛仔--一个人闯荡的、单靠技术就能过得不错的时代了,以后的数据也会越来越难获取,爬虫也不再是一个人的武林了; 5、 逐渐疏远爬虫,一想到破解后维护也是个大问题,就没有动力; 现在想想,奇葩的经历,肯定要算天眼查要挣我们爬虫开发人员的钱,我是被震惊了
    展开

    作者回复: 免费的就是最贵的,这里完美体现了这一点。

    
    2
  • demo123567
    2022-01-26
    第一个问题应该是user-agent,虽然可以模拟;然后大型搜索引擎爬虫一般都是有固定的IP段,所以应该也可以识别

    作者回复: 没错,两者可以结合用,ua做粗筛,然后ip细筛。

    
    2
  • fsc2016
    2022-01-20
    感觉现在爬虫对抗,慢慢从web转战到移动端了

    作者回复: 是的,移动端如果感兴趣,后续可以再出课程

    
    2
  • peter
    2022-01-20
    写得太好啦,牛啊,文采真好,通顺,有趣,也没有错别字!!!! 我还有很多课程没有看,这个课程和自己目前的关系并不是很大,犹豫再三才买的。真庆幸自己没有错过这么好的文章。理工男能写这么好,不容易,不多见啊。

    作者回复: 太感动了,泣不成声。

    
    2
  • GAC·DU
    2022-01-19
    一次经历见证了一家公司技术的成长,甚至把后端由15人加到了30。从携cookie能登录到手机验证码再到扫脸登录,api加了token,后来把限流和熔断也加上了。

    作者回复: 然而还是有可能无效对吧,最关键,有效无效还很难验证。。。除非把对方收购了直接问他😂😂😂

    
    2
  • 圆桌π
    2022-02-26
    没接触过爬虫,觉得新奇,买课来看看。 第一次听说爬虫,是数据库老师说找数据,然后又半开玩笑的说最好不要。极客时间App的一门法律课里也有提及。 期待课程老师,继续加油!💪

    作者回复: 感谢。爬虫的确有风险,没有法务帮忙的确很难玩下去。

    
    1
  • ZeroIce
    2022-02-05
    虽然说作者没有说出真实名字,但说话风格特别像一个大佬(上一篇文章有那个大佬评论:你是个有故事的人?)

    作者回复: 哈哈哈,我不是那个大佬,匿名是为了低调。不能光教别人低调自己却高调呀。

    
    1
  • Blue
    2022-01-26
    2. 爬虫从技术的角度上来讲,我觉得一方面提升了一些专业人员获取信息的效率,我们可以脱离浏览器,通过爬虫程序来获取我们期望得到的数据(不影响服务性能且不违规违法的前提下),这样就有更多的时间与精力去专注于解决更难更有意义的问题,这也是我当初做爬虫的一个初衷;另一方面我认为爬虫与反爬是存在良性竞争的,互相博弈可以提升各自的技术能力与认知边界,同时也让服务提供方有的放矢地设计出更具容错性,安全性的系统。

    作者回复: 赞

    
    1