• Scott
    2018-12-31
    关于爬虫我有些经验和疑问:
    1. 近期,我能够成功爬取淘宝,天猫的数据,我是直接用requests库直接抓取的,但是,需要伪装headers,cookies,当然还要有自己的proxy池,cookies池。先要分析淘宝网页结构,因为淘宝网页是动态的,很多结果和数据是JS渲染后的结果,直接看源代码看不到,所以,需要找到需要数据对应的url。此种方法同样适用于阿里妈妈
    2. 我有一个疑问,就是selenium,我实验无数次,淘宝(我没试过微博,头条,抖音之类的,但是其反爬机制应该不会比淘宝差多少)会探测出你在用selenium,例如用chrome+selenium,你会发现,淘宝能探测出你的webdriver是true,所以,会出现跳出登陆窗口,尤其他那个验证滑动条很难搞定。我尝试过反编译webdriver,去掉一些关键字,可是还是不成功,好像有一种解决办法,就是中间人,把淘宝检测webdriver的js中的关键字屏蔽掉,但是这么做了以后,如何再加上proxy,我还没有想明白。所以,这就是我还在用朴素的requests,伪装报头,分析网页这些办法,很麻烦的爬淘宝数据的原因。

    所以作者是用selenium,我觉得如果只是教大家如何用selenium,意义不大,因为很多网站都有反爬机制,能探测出你在用selenium,从而防止你爬数据,如此一来,selenium还有什么用?所以,这里,恳求作者针对现在大部分网站反爬机制出现的情况,如果不让网站侦测出我们在用selenium的办法,万分感谢。
    展开
    
     35
  • Non-constant
    2018-12-25
    如果老师能出一个关于Python爬虫的专栏,我一定订阅,毕竟很多时候都没有现成的数据源,大多需要爬取。
    关于数据思维,我觉得就是以结果作为导向,有一个业务需求,然后通过数据分析等手段去达到目的。我现在学习也是如此,首先有一个目标,然后再联想有什么办法可以实现,哪个办法更高效,然后就是实践,不断循环这个过程,最终得到相对最优方案。我是这么理解数据思维的。
    也希望老师具体讲讲您所理解的数据思维,以上。

    作者回复: 非常认同。结果导向是最好的学习方法,设定目标=>找方案=>解决。每次完成目标后,你的熟练度都会提升。
    Python专栏之前和编辑沟通过,确实打算要做一个。爬虫在这个专栏后面的课程里,也会讲到。

    
     24
  • Lin_嘉杰
    2018-12-25
    还没太理解与数据思维有什么关系,可能不太懂。

    作者回复: 我说下自己的体会,数据是一种能力,它可以帮我们做很多事。不是用人工来完成,而是数据本身存在规律,可以让我们去发现和使用。
    我自己编写过Python爬虫,也做过定时发布、转发和互动的机器人。通过编写的微博机器人,粉丝从0积累到100万(当时自动化运营了2000个微博账号,其中@每天学点经济学 和@每天学点心理学 是比较知名的)
    当然要做自动化的机器人,需要先把流程都梳理出来。而且社交网络也有很多反垃圾的措施,这就好比是矛和盾的较量。不过大部分都可以找到规律,从而帮我们进行解决

    
     11
  • MagicDragonPuff
    2018-12-25
    你好,可以详细讲解一下通过控制交换机来切换ip吗?是通过python脚本在网页端登录交换机实现自动切换吗?如果要不间断不停的切换,是否需要多台交换机?切换的频率,根据经验,有没有限制要求?会不会被运营商禁止?
    
     7
  • HxScript
    2018-12-25
    一万个手机号。。。那怎么更换呢?也要一万台设备吗?

    作者回复: 感谢您的兴趣,1万个手机号,主要用于账号注册,所以用“卡池”,就可以了。简单来说,卡池可以帮你做收发短信。一个卡池设备512张卡,并发32路。
    当然有了卡池,还需要算法。你需要让这512张卡,不能每次操作都是系统的,否则微信、Facebook会直接把它们干掉。学过数据挖掘的人,应该会知道,这512张卡如果是协同操作,可以直接被算法识别出来,在微信、Facebook看来这512张卡实际上是同一个人,也就是“机器人”。所以卡池可以帮你做短信验证码,账号登录用。MIFI+SIM帮你做手机流量上网用。这是两套不同的设备

    
     7
  • lipan
    2018-12-25
    特别喜欢这样的加餐,希望可以多分享一些类似的文章。

    作者回复: 感谢支持,社交网络的刷量很流行,但是很少有人从技术角度来报道,我是自己做过,所以可以把经验总结下,给大家做个分享,算是叠加的人生吧

    
     5
  • 舒成
    2018-12-25
    对我而言,课程结束用python做一个定时发送自动化报表,就已经很不错了。大神这是放大招,刺激我们哈。赶紧转发出去

    作者回复: 哈哈 Python可以帮我们做很多事,关键是我们的目标设定和解决问题的能力

    
     5
  • 陈汶鑫 Vincent Che...
    2018-12-25
    圣诞节加餐哇……

    作者回复: 加🍗

    
     5
  • 黄争辉
    2018-12-25
    一直想留言,不知道说点啥。第十一时间毫不犹豫的订阅,因为我正需要这样的思路。一直想做一个自动化运营淘客的方案。已经购买了30部手机,注册了60个微信。主要是因为技术和认知不够,长长是有力无心。现在每天都习惯打开来看,有没有更新。一来怕更新,怕更新了,难度到自己掌握不了。二又期望能看到我自己期望的难度的内容。反正是大爱这门课

    作者回复: 谢谢你们的关注 淘客自动化 做好了还是挺有前途的

    
     4
  • frazer
    2018-12-25
    高产啊,工作日一天一篇呀

    作者回复: 同学们也很给力,还有我们的编辑和运营👍

    
     4
  • 白夜
    2019-01-08
    有两个疑惑,期望大大解答下
    1.小区宽带通过交换机更换ip,能说的详细点么?除了重启路由器还有别的方法么?
    2.用chrome+selenium爬过拉勾,它会发现是爬虫,然后需要重新登录过图形验证码,后来是学习了通过调用库来解决这个问题,但一直想知道怎么使用已经打开的chrome浏览器(手动登录上),而不是创建一个新的浏览器需要重新登录,网上查的中文资料没找到合适的答案。。。
    https://www.cnblogs.com/lovealways/p/9813059.html
    这个里面的"127.0.0.1:9222"端口是怎么知道的?
    展开
    
     3
  • 心中的日月
    2018-12-26
    想问一下老师,那么多技术和产品你是怎么快速学习和掌握的呢?感觉自学每一种都很花时间。
    
     3
  • inzack
    2018-12-25
    puppeteer 也是一款不错的工具

    作者回复: 确实不错,可以控制Headless Chrome

    
     3
  • 左瞳
    2018-12-25
    每次打开以为都没有更新,但都是惊喜

    作者回复: 多谢关注,前面更新的会略快一些。

    
     3
  • 1
    2018-12-25
    老师,小区宽带使用多台手机等设备,不会被检测到吗

    作者回复: 小区宽带和手机飞行是两种解决方案。用手机飞行 不需要用到小区宽带。 用小区宽带需要使用到交换机,这里可以自己来控制交换机,每次自动切换IP

    
     3
  • 刘十一
    2018-12-28
    以前听说过有这么个玩法,觉得很高深,但是听大佬从技术角度一层层扒开,这种看得见的,熟悉的感觉,让人心痒痒。后面会有实战吗?
    
     2
  • 彪彪
    2018-12-26
    老师 你好,关于手机飞行模式重连以及使用小区宽带更换 IP 的方法,有点疑问,不管你本地如何切换,但对应的出口公网 IP 或者出口公网段是不变的,这还是固定的吧
    
     2
  • liy
    2018-12-25
    老师如果可以把其中一个可以落地的小东西所用到的技术和流程列个表就好了

    作者回复: 这个后面的专栏里有会讲到如何给微博加微信,发微博

    
     2
  • 黄争辉
    2018-12-25
    这就好比是矛和盾的较量。作为一个购买软件的我,对这句是深有体会深有感触。

    作者回复: 哈哈哈 👍 不断的竞赛升级

    
     2
  • WZP
    2018-12-25
    哈哈,圣诞节加餐,感谢老师的分享!!!
    
     2
我们在线,来聊聊吧