数据分析实战45讲
陈旸
清华大学计算机博士
立即订阅
17314 人已学习
课程目录
已完结 48 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 你为什么需要数据分析能力?
免费
第一模块:数据分析基础篇 (16讲)
01丨数据分析全景图及修炼指南
02丨学习数据挖掘的最佳路径是什么?
03丨Python基础语法:开始你的Python之旅
04丨Python科学计算:用NumPy快速处理数据
05丨Python科学计算:Pandas
06 | 学数据分析要掌握哪些基本概念?
07 | 用户画像:标签化就是数据的抽象能力
08 | 数据采集:如何自动化采集数据?
09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论
10丨Python爬虫:如何自动化下载王祖贤海报?
11 | 数据科学家80%时间都花费在了这些清洗任务上?
免费
12 | 数据集成:这些大号一共20亿粉丝?
13 | 数据变换:考试成绩要求正态分布合理么?
14丨数据可视化:掌握数据领域的万金油技能
15丨一次学会Python数据可视化的10种技能
16丨数据分析基础篇答疑
第二模块:数据分析算法篇 (20讲)
17 丨决策树(上):要不要去打篮球?决策树来告诉你
18丨决策树(中):CART,一棵是回归树,另一棵是分类树
19丨决策树(下):泰坦尼克乘客生存预测
20丨朴素贝叶斯分类(上):如何让机器判断男女?
21丨朴素贝叶斯分类(下):如何对文档进行分类?
22丨SVM(上):如何用一根棍子将蓝红两色球分开?
23丨SVM(下):如何进行乳腺癌检测?
24丨KNN(上):如何根据打斗和接吻次数来划分电影类型?
25丨KNN(下):如何对手写数字进行识别?
26丨K-Means(上):如何给20支亚洲球队做聚类?
27丨K-Means(下):如何使用K-Means对图像进行分割?
28丨EM聚类(上):如何将一份菜等分给两个人?
29丨EM聚类(下):用EM算法对王者荣耀英雄进行划分
30丨关联规则挖掘(上):如何用Apriori发现用户购物规则?
31丨关联规则挖掘(下):导演如何选择演员?
32丨PageRank(上):搞懂Google的PageRank算法
33丨PageRank(下):分析希拉里邮件中的人物关系
34丨AdaBoost(上):如何使用AdaBoost提升分类器性能?
35丨AdaBoost(下):如何使用AdaBoost对房价进行预测?
36丨数据分析算法篇答疑
第三模块:数据分析实战篇 (7讲)
37丨数据采集实战:如何自动化运营微博?
38丨数据可视化实战:如何给毛不易的歌曲做词云展示?
39丨数据挖掘实战(1):信用卡违约率分析
40丨数据挖掘实战(2):信用卡诈骗分析
41丨数据挖掘实战(3):如何对比特币走势进行预测?
42丨当我们谈深度学习的时候,我们都在谈什么?
43丨深度学习(下):如何用Keras搭建深度学习网络做手写数字识别?
第四模块:数据分析工作篇 (2讲)
44丨如何培养你的数据分析思维?
45丨求职简历中没有相关项目经验,怎么办?
加餐 (1讲)
加餐丨在社交网络上刷粉刷量,技术上是如何实现的?
结束语 (1讲)
结束语丨当大家都在讲知识和工具的时候,我更希望你重视思维和实战
数据分析实战45讲
登录|注册

08 | 数据采集:如何自动化采集数据?

陈旸 2018-12-31
上一节中我们讲了如何对用户画像建模,而建模之前我们都要进行数据采集。数据采集是数据挖掘的基础,没有数据,挖掘也没有意义。很多时候,我们拥有多少数据源,多少数据量,以及数据质量如何,将决定我们挖掘产出的成果会怎样。
举个例子,你做量化投资,基于大数据预测未来股票的波动,根据这个预测结果进行买卖。你当前能够拿到以往股票的所有历史数据,是否可以根据这些数据做出一个预测率高的数据分析系统呢?
实际上,如果你只有股票历史数据,你仍然无法理解股票为什么会产生大幅的波动。比如,当时可能是爆发了 SARS 疫情,或者某地区发生了战争等。这些重大的社会事件对股票的影响也是巨大的。
因此我们需要考虑到,一个数据的走势,是由多个维度影响的。我们需要通过多源的数据采集,收集到尽可能多的数据维度,同时保证数据的质量,这样才能得到高质量的数据挖掘结果。
那么,从数据采集角度来说,都有哪些数据源呢?我将数据源分成了以下的四类。
这四类数据源包括了:开放数据源、爬虫抓取、传感器和日志采集。它们各有特点。
开放数据源一般是针对行业的数据库。比如美国人口调查局开放了美国的人口信息、地区分布和教育情况数据。除了政府外,企业和高校也会开放相应的大数据,这方面北美相对来说做得好一些。国内,贵州做了不少大胆尝试,搭建了云平台,逐年开放了旅游、交通、商务等领域的数据量。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据分析实战45讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(62)

  • Tommy
    能讲讲怎么做埋点嘛,去面试很多人问到
    2018-12-31
    1
    69
  • HxScript
    关于比特币未来走势预测,可以从两个角度考虑:
    1、比特币的生产:价值尺度,生产力和生产成本会影响价格。作为区块链货币,应该具有区块链的属性:会受供给增加机制影响,即产量四年减半。进而会影响产量和挖币成本。但如果区块链协议改变,会直接改变比特币总量。
    2、比特币的交易:作为流通手段和支付手段,主要影响因素可能是税率。但区块如果扩容,会改变交易速度,继而影响交易手续费。

    而以上信息,再按能否用二位表结构来进行逻辑表达,分类为结构化数据和非结构化数据。
    结构化数据:比特币产量(计算得出)、挖币成本(计算得出)、日/周/月交易数(爬取相关交易网站得到,用以预测热度)、交易手续费走势(爬取相关交易网站得到,用以了解交易成本)。
    非结构化数据:比特币相关新闻(都可爬取比特币垂直资讯网站获得)、比特币相关政策(努力固然重要,还要考虑时代的进程)、比特币自身协议变更情况(可爬取比特币垂直资讯网站获得)。

    完全区块链门外汉,如有错误,还望老师同学指出!
    2019-01-01
    21
  • 蜘蛛的梦呓
    据我所知,今年区块链、比特币是在年初时突然间出现了大众的视野,随之比特币高涨,吸引了不少人进场,但是也出现了不少劣币,这些劣币收割了不少韭菜,人们炒币的热度下降了不少,比特币价格大跌,而且政府也有意控制比特币。
    所以,我觉得需要以下的数据来判断比特币的价格走势。

    【所需维度】:
      1. 比特币的价格走势(历史价格和交易数据)
      2. 区块链、比特币的热度指数(分析下降原因,人 们对比特币的使用程度)
      3. 相关的政策(政府的对比特币的态度)
    【如何搜集】:Kaggle、百度指数、各大新闻网站。

    作者回复: 同意,这道题没有标准答案,不过政策确实是个很大的因素,还有人们对于比特币的信心

    2018-12-31
    1
    9
  • Destroy、
    scrapy也是爬虫的利器。。。

    作者回复: 对 爬虫框架

    2018-12-31
    7
  • 预测比特币的未来走势,可以从以下维度抓取数据
    1.认知度:社会对比特币的认可,抓取百度指数、谷歌搜索量、微博数据等
    2.比特币依赖的技术:作为数字货币,核心技术的完善和认可度占比重较大,可以从区块链相关技术网站爬取数据,也可以从微博爬取(微博也是技术人活跃的交流平台)
    3.供给平衡:比特币虽说是一种数字货币,但仍逃脱不掉是一种商品的本质,商品必然受市场平衡调节影响,所以爬取买入量、抛售量还有历史价格也是一种预测维度
    4.政府政策:政府政策的影响占很大比重,若国家出台政策强制打压或者支持,那么对价格的影响起了根本性作用,所以需要爬取相关的新闻
    5.竞争数字货币:作为一种商品,必然要考虑竞争品的相关情况,需要抓取其它数字货币相关信息如其它货币的价格、交易量。资本在流入其它市场的时候,与之对应的竞品必然会受影响。抓取数据途径:其它货币交易平台
    2019-04-09
    5
  • ida
    【所需的维度】:历史价格、交易人数、交易时间、比特币历史挖掘地点和挖掘大小以及成交量大小
    【收集数据】:用于分析预测的数据可以从Kaggle或者Poloniex上收集到
    2018-12-31
    5
  • Mingjie
    老师,做数据分析掌握爬虫是必须的嘛?

    作者回复: 爬虫是工具之一,多一种收集数据的方法。如果你定位是算法工程师,可以着重看数据挖掘的部分。

    2018-12-31
    4
  • qinggeouye
    1、开放数据源 -- 公开地址直接获取
    单位: 政府/企业/高校
    行业: 交通/金融/能源

    2、爬虫抓取 -- 第三方抓取工具/爬虫编程
    特定网站/APP

    3、传感器 -- 特定设备采集的物理信息

    4、日志采集 -- Web服务器采集/自定义采集
    埋点(第三方工具/自定义埋点)
    2019-11-03
    2
  • third
    1.历史价格

    比特币价格

    (矿机价格)



    2,历史时点

    1,区块链协议

    2,政策

    3,当时的国际政治环境

    4,经济形势



    3,搜索热度
    2019-02-01
    2
  • helloling
    爬虫不止php,很多编程语言都是可以写的,java、node.js、.net、go等等编程都可以写,R语言也可以写爬虫。只是python上手比较简单,网上几乎都是python的教程,导致有些人认为只有python能写。

    作者回复: 同意,同样数据分析也不止是Python语言,只是用的人多,资料文档还有第三方工具相比于其他语言更完善

    2018-12-31
    2
  • Andre
    埋点是怎么一种操作?

    作者回复: 比如使用前端埋点,你可以通过JavaScript获取一些信息,包括页面标题,访问的URL,浏览器的语言,显示的颜色深度,分辨率等。同时你还可以通过埋点获取想要监测的业务数据

    2019-06-03
    1
  • 王彬成
    问题:假如你想预测比特币的未来走势,都需要哪些维度的数据源呢?怎样收集到它们呢?
    回答:类似于股票,我认为比特币的走势是与比特币的价值有关,即利用比特币技术能产生收益。所以需要收集与比特币应用相关的新闻。利用百度指数即可得知。
    其次,还需获得比特币的价格走势和挖矿机的价格
    2019-02-11
    1
  • 张国胜
    要收集关于比特币的数据:
    1. 比特币历史交易量 —— 开放数据源
    2. 挖矿芯片的价格及出货量 —— 电商
    3. 二手矿机交易量 —— 二手交易平台
    4. 百度搜索指数、google 搜索指数、微博指数
    2019-01-07
    1
  • Frank
    希望后面的课程能结合实战具体讲讲本节课提到的各种理论方法,包括爬虫编写,埋点,日志分析等等~

    作者回复: 爬虫编写后面会有,这块很多人都感兴趣

    2019-01-04
    1
  • C J J
    app用了友盟,的确是个不错的前端用户行为日志收集利器。可以拿到手机型号,奔溃时间等,极大方便开发人员排查问题,还是免费的。

    作者回复: 是的 基本上现在统计用户行为都会采用第三方工具

    2019-01-03
    1
  • 逗逼师父
    国内用Google analysis会不会数据偏差过大?因为有墙啊

    作者回复: 确实使用国内的工具更稳定些

    2019-01-02
    1
  • Kyle
    比特币未来预测走势,首先需要知道比特币的历史价格走势(每日周月年的数据),成交交易量,交易人数,以及比特币走势发生重大变化时候的外部环境,比如政府政策,股市交易走势(美股,港股,大陆等的大盘指数);
    比特币的交易数据可以通过一些公开数据源获取,如比特币交易平台,kaggle等,外部环境可以通过Python爬取比特币资讯,查看比特币价格发生重大变化所发生的新闻,以及同期的股票数据通过公开的数据源抓取。
    2018-12-31
    1
  • wcs232
    老师,请问如api网址里有start=1574907960时间戳限定,如只能访问一天24小时里的数据,请问这个时间戳有方法代入自变量(一个自动换算距今23小时的时间戳)来访问网址吗,还是只能每次自己写入时间戳来访问网址,谢谢…
    2019-11-28
  • GS
    这节课的心得,之前以为数据采集,真的要靠自己一点点去用爬虫去爬,感觉好难,毕竟巧妇难为无米之炊。看到老师介绍了这么多自动化采集工具,开放的数据源,等等,顿时视野打开了,也有了继续学习下去的信心。
    “不重复造轮子”,把有限的精力集中到思考如何抽象业务,把繁杂的数据简单化,打上标签,为我所用

    作者回复: 对的 GS同学,不重复造轮子,很多时候我也会抑制住自己的冲动,回头想想真的很重要,把有限的时间花在重要的事情上

    2019-11-14
  • 水电工٩(。•ω•。)و
    关于比特币未来价格走势预测需要的数据,我是这么考虑的:首先,比特币是什么,我也不太清楚,但起码它应该是一种商品吧,所以我就根据商品预测价格需要的数据开始思考,大概有三个方面,分别是,谁生产,中间运输,谁消费。从生产者的角度,可以使用的即是制造机构的数量,数量变化,规模大小,生产产量,生产成本;从中间运输角度,可以考虑的是手续费,转手次数;从消费者的角度,大概有购买频率,购买次数,单次购买数量。
    其次,比特币应该算是一种投资,会受到其他替代品的价格影响,可以考虑替代品的价格变化。
    2019-08-04
收起评论
62
返回
顶部