数据分析实战45讲
陈旸
清华大学计算机博士
立即订阅
17314 人已学习
课程目录
已完结 48 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 你为什么需要数据分析能力?
免费
第一模块:数据分析基础篇 (16讲)
01丨数据分析全景图及修炼指南
02丨学习数据挖掘的最佳路径是什么?
03丨Python基础语法:开始你的Python之旅
04丨Python科学计算:用NumPy快速处理数据
05丨Python科学计算:Pandas
06 | 学数据分析要掌握哪些基本概念?
07 | 用户画像:标签化就是数据的抽象能力
08 | 数据采集:如何自动化采集数据?
09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论
10丨Python爬虫:如何自动化下载王祖贤海报?
11 | 数据科学家80%时间都花费在了这些清洗任务上?
免费
12 | 数据集成:这些大号一共20亿粉丝?
13 | 数据变换:考试成绩要求正态分布合理么?
14丨数据可视化:掌握数据领域的万金油技能
15丨一次学会Python数据可视化的10种技能
16丨数据分析基础篇答疑
第二模块:数据分析算法篇 (20讲)
17 丨决策树(上):要不要去打篮球?决策树来告诉你
18丨决策树(中):CART,一棵是回归树,另一棵是分类树
19丨决策树(下):泰坦尼克乘客生存预测
20丨朴素贝叶斯分类(上):如何让机器判断男女?
21丨朴素贝叶斯分类(下):如何对文档进行分类?
22丨SVM(上):如何用一根棍子将蓝红两色球分开?
23丨SVM(下):如何进行乳腺癌检测?
24丨KNN(上):如何根据打斗和接吻次数来划分电影类型?
25丨KNN(下):如何对手写数字进行识别?
26丨K-Means(上):如何给20支亚洲球队做聚类?
27丨K-Means(下):如何使用K-Means对图像进行分割?
28丨EM聚类(上):如何将一份菜等分给两个人?
29丨EM聚类(下):用EM算法对王者荣耀英雄进行划分
30丨关联规则挖掘(上):如何用Apriori发现用户购物规则?
31丨关联规则挖掘(下):导演如何选择演员?
32丨PageRank(上):搞懂Google的PageRank算法
33丨PageRank(下):分析希拉里邮件中的人物关系
34丨AdaBoost(上):如何使用AdaBoost提升分类器性能?
35丨AdaBoost(下):如何使用AdaBoost对房价进行预测?
36丨数据分析算法篇答疑
第三模块:数据分析实战篇 (7讲)
37丨数据采集实战:如何自动化运营微博?
38丨数据可视化实战:如何给毛不易的歌曲做词云展示?
39丨数据挖掘实战(1):信用卡违约率分析
40丨数据挖掘实战(2):信用卡诈骗分析
41丨数据挖掘实战(3):如何对比特币走势进行预测?
42丨当我们谈深度学习的时候,我们都在谈什么?
43丨深度学习(下):如何用Keras搭建深度学习网络做手写数字识别?
第四模块:数据分析工作篇 (2讲)
44丨如何培养你的数据分析思维?
45丨求职简历中没有相关项目经验,怎么办?
加餐 (1讲)
加餐丨在社交网络上刷粉刷量,技术上是如何实现的?
结束语 (1讲)
结束语丨当大家都在讲知识和工具的时候,我更希望你重视思维和实战
数据分析实战45讲
登录|注册

加餐丨在社交网络上刷粉刷量,技术上是如何实现的?

陈旸 2018-12-25
我们都知道很多社交网络上可以刷粉,也可以刷阅读量,这已经形成了一个“产业链”,我们也经常会看到很多记者报道过这样的灰色产业链。
你也许很好奇,这些技术都是怎么实现的?
首先我梳理了一下整个流程,可以分成 3 个步骤。
在这个流程里,需要有下面三个准备。
1. 多个手机号
尽管早期注册只需要邮箱就可以,但现在账号注册都是需要绑定手机号的,所以手机号是必备的。
2. 多个 IP
因为很多社交网站都会有反垃圾的措施。共用同一个 IP,一定会被封号。
3. 模拟操作
因为我们的需求是个性化的。所以在这一步,可以封装出一些基本的操作,比如关注、发布动态、转发、阅读文章等。

那么多手机号从哪弄?

于是问题来了,从哪里弄这么多手机号?比如说 1 万个!
虚拟手机号:被歧视的号码段
很多从事相关产业的人首先想到的,便是虚拟手机号,因为虚拟手机号不限数量,其他号码段都需要绑定身份证。不过虚拟手机号有个最大的问题,就是“会被歧视”。在社交网络里,虚拟手机号注册的账号被封的概率远超其他账号,比如说以“170”开头的手机号。
阿里小号:一个看似可行的解决方案
既然虚拟手机号容易被封,那怎样才能找到既不会被封,还便宜的号码呢?阿里小号是个选择。阿里小号的价格比较亲民,5 元 / 月。可以自己选择号码段,这些号码段很多都不是 170 号码段的。但是阿里小号有个问题,就是需要用身份证来绑定。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据分析实战45讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(48)

  • Scott
    关于爬虫我有些经验和疑问:
    1. 近期,我能够成功爬取淘宝,天猫的数据,我是直接用requests库直接抓取的,但是,需要伪装headers,cookies,当然还要有自己的proxy池,cookies池。先要分析淘宝网页结构,因为淘宝网页是动态的,很多结果和数据是JS渲染后的结果,直接看源代码看不到,所以,需要找到需要数据对应的url。此种方法同样适用于阿里妈妈
    2. 我有一个疑问,就是selenium,我实验无数次,淘宝(我没试过微博,头条,抖音之类的,但是其反爬机制应该不会比淘宝差多少)会探测出你在用selenium,例如用chrome+selenium,你会发现,淘宝能探测出你的webdriver是true,所以,会出现跳出登陆窗口,尤其他那个验证滑动条很难搞定。我尝试过反编译webdriver,去掉一些关键字,可是还是不成功,好像有一种解决办法,就是中间人,把淘宝检测webdriver的js中的关键字屏蔽掉,但是这么做了以后,如何再加上proxy,我还没有想明白。所以,这就是我还在用朴素的requests,伪装报头,分析网页这些办法,很麻烦的爬淘宝数据的原因。

    所以作者是用selenium,我觉得如果只是教大家如何用selenium,意义不大,因为很多网站都有反爬机制,能探测出你在用selenium,从而防止你爬数据,如此一来,selenium还有什么用?所以,这里,恳求作者针对现在大部分网站反爬机制出现的情况,如果不让网站侦测出我们在用selenium的办法,万分感谢。
    2018-12-31
    33
  • Non-constant
    如果老师能出一个关于Python爬虫的专栏,我一定订阅,毕竟很多时候都没有现成的数据源,大多需要爬取。
    关于数据思维,我觉得就是以结果作为导向,有一个业务需求,然后通过数据分析等手段去达到目的。我现在学习也是如此,首先有一个目标,然后再联想有什么办法可以实现,哪个办法更高效,然后就是实践,不断循环这个过程,最终得到相对最优方案。我是这么理解数据思维的。
    也希望老师具体讲讲您所理解的数据思维,以上。

    作者回复: 非常认同。结果导向是最好的学习方法,设定目标=>找方案=>解决。每次完成目标后,你的熟练度都会提升。
    Python专栏之前和编辑沟通过,确实打算要做一个。爬虫在这个专栏后面的课程里,也会讲到。

    2018-12-25
    24
  • Lin_嘉杰
    还没太理解与数据思维有什么关系,可能不太懂。

    作者回复: 我说下自己的体会,数据是一种能力,它可以帮我们做很多事。不是用人工来完成,而是数据本身存在规律,可以让我们去发现和使用。
    我自己编写过Python爬虫,也做过定时发布、转发和互动的机器人。通过编写的微博机器人,粉丝从0积累到100万(当时自动化运营了2000个微博账号,其中@每天学点经济学 和@每天学点心理学 是比较知名的)
    当然要做自动化的机器人,需要先把流程都梳理出来。而且社交网络也有很多反垃圾的措施,这就好比是矛和盾的较量。不过大部分都可以找到规律,从而帮我们进行解决

    2018-12-25
    11
  • MagicDragonPuff
    你好,可以详细讲解一下通过控制交换机来切换ip吗?是通过python脚本在网页端登录交换机实现自动切换吗?如果要不间断不停的切换,是否需要多台交换机?切换的频率,根据经验,有没有限制要求?会不会被运营商禁止?
    2018-12-25
    7
  • HxScript
    一万个手机号。。。那怎么更换呢?也要一万台设备吗?

    作者回复: 感谢您的兴趣,1万个手机号,主要用于账号注册,所以用“卡池”,就可以了。简单来说,卡池可以帮你做收发短信。一个卡池设备512张卡,并发32路。
    当然有了卡池,还需要算法。你需要让这512张卡,不能每次操作都是系统的,否则微信、Facebook会直接把它们干掉。学过数据挖掘的人,应该会知道,这512张卡如果是协同操作,可以直接被算法识别出来,在微信、Facebook看来这512张卡实际上是同一个人,也就是“机器人”。所以卡池可以帮你做短信验证码,账号登录用。MIFI+SIM帮你做手机流量上网用。这是两套不同的设备

    2018-12-25
    7
  • lipan
    特别喜欢这样的加餐,希望可以多分享一些类似的文章。

    作者回复: 感谢支持,社交网络的刷量很流行,但是很少有人从技术角度来报道,我是自己做过,所以可以把经验总结下,给大家做个分享,算是叠加的人生吧

    2018-12-25
    5
  • 舒成
    对我而言,课程结束用python做一个定时发送自动化报表,就已经很不错了。大神这是放大招,刺激我们哈。赶紧转发出去

    作者回复: 哈哈 Python可以帮我们做很多事,关键是我们的目标设定和解决问题的能力

    2018-12-25
    5
  • 陈汶鑫 Vincent Chen
    圣诞节加餐哇……

    作者回复: 加🍗

    2018-12-25
    5
  • 黄争辉
    一直想留言,不知道说点啥。第十一时间毫不犹豫的订阅,因为我正需要这样的思路。一直想做一个自动化运营淘客的方案。已经购买了30部手机,注册了60个微信。主要是因为技术和认知不够,长长是有力无心。现在每天都习惯打开来看,有没有更新。一来怕更新,怕更新了,难度到自己掌握不了。二又期望能看到我自己期望的难度的内容。反正是大爱这门课

    作者回复: 谢谢你们的关注 淘客自动化 做好了还是挺有前途的

    2018-12-25
    4
  • frazer
    高产啊,工作日一天一篇呀

    作者回复: 同学们也很给力,还有我们的编辑和运营👍

    2018-12-25
    4
  • 白夜
    有两个疑惑,期望大大解答下
    1.小区宽带通过交换机更换ip,能说的详细点么?除了重启路由器还有别的方法么?
    2.用chrome+selenium爬过拉勾,它会发现是爬虫,然后需要重新登录过图形验证码,后来是学习了通过调用库来解决这个问题,但一直想知道怎么使用已经打开的chrome浏览器(手动登录上),而不是创建一个新的浏览器需要重新登录,网上查的中文资料没找到合适的答案。。。
    https://www.cnblogs.com/lovealways/p/9813059.html
    这个里面的"127.0.0.1:9222"端口是怎么知道的?
    2019-01-08
    3
  • 心中的日月
    想问一下老师,那么多技术和产品你是怎么快速学习和掌握的呢?感觉自学每一种都很花时间。
    2018-12-26
    3
  • inzack
    puppeteer 也是一款不错的工具

    作者回复: 确实不错,可以控制Headless Chrome

    2018-12-25
    3
  • 左瞳
    每次打开以为都没有更新,但都是惊喜

    作者回复: 多谢关注,前面更新的会略快一些。

    2018-12-25
    3
  • 1
    老师,小区宽带使用多台手机等设备,不会被检测到吗

    作者回复: 小区宽带和手机飞行是两种解决方案。用手机飞行 不需要用到小区宽带。 用小区宽带需要使用到交换机,这里可以自己来控制交换机,每次自动切换IP

    2018-12-25
    3
  • 刘十一
    以前听说过有这么个玩法,觉得很高深,但是听大佬从技术角度一层层扒开,这种看得见的,熟悉的感觉,让人心痒痒。后面会有实战吗?
    2018-12-28
    2
  • 彪彪
    老师 你好,关于手机飞行模式重连以及使用小区宽带更换 IP 的方法,有点疑问,不管你本地如何切换,但对应的出口公网 IP 或者出口公网段是不变的,这还是固定的吧
    2018-12-26
    2
  • liy
    老师如果可以把其中一个可以落地的小东西所用到的技术和流程列个表就好了

    作者回复: 这个后面的专栏里有会讲到如何给微博加微信,发微博

    2018-12-25
    2
  • 黄争辉
    这就好比是矛和盾的较量。作为一个购买软件的我,对这句是深有体会深有感触。

    作者回复: 哈哈哈 👍 不断的竞赛升级

    2018-12-25
    2
  • WZP
    哈哈,圣诞节加餐,感谢老师的分享!!!
    2018-12-25
    2
收起评论
48
返回
顶部