08 | 数据采集:如何自动化采集数据?
陈旸
该思维导图由 AI 生成,仅供参考
上一节中我们讲了如何对用户画像建模,而建模之前我们都要进行数据采集。数据采集是数据挖掘的基础,没有数据,挖掘也没有意义。很多时候,我们拥有多少数据源,多少数据量,以及数据质量如何,将决定我们挖掘产出的成果会怎样。
举个例子,你做量化投资,基于大数据预测未来股票的波动,根据这个预测结果进行买卖。你当前能够拿到以往股票的所有历史数据,是否可以根据这些数据做出一个预测率高的数据分析系统呢?
实际上,如果你只有股票历史数据,你仍然无法理解股票为什么会产生大幅的波动。比如,当时可能是爆发了 SARS 疫情,或者某地区发生了战争等。这些重大的社会事件对股票的影响也是巨大的。
因此我们需要考虑到,一个数据的走势,是由多个维度影响的。我们需要通过多源的数据采集,收集到尽可能多的数据维度,同时保证数据的质量,这样才能得到高质量的数据挖掘结果。
那么,从数据采集角度来说,都有哪些数据源呢?我将数据源分成了以下的四类。
这四类数据源包括了:开放数据源、爬虫抓取、传感器和日志采集。它们各有特点。
开放数据源一般是针对行业的数据库。比如美国人口调查局开放了美国的人口信息、地区分布和教育情况数据。除了政府外,企业和高校也会开放相应的大数据,这方面北美相对来说做得好一些。国内,贵州做了不少大胆尝试,搭建了云平台,逐年开放了旅游、交通、商务等领域的数据量。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
本文介绍了数据采集的重要性以及四类数据源:开放数据源、爬虫抓取、传感器和日志采集。开放数据源包括政府、企业和高校的数据库,爬虫抓取则是针对特定网站或App的数据获取。传感器主要采集物理信息,而日志采集则用于统计用户操作。文章还介绍了如何使用开放数据源和爬虫做抓取,以及介绍了几款常用的抓取工具。其中,八爪鱼是一款知名的采集工具,提供了云采集功能,能够自动切换IP,避免被封,从而实现自动化采集。另外,文章还介绍了日志采集的重要性和方法,包括通过Web服务器采集和自定义采集用户行为两种形式,以及埋点的概念和实现方式。总结指出,数据采集对于数据分析至关重要,不同业务场景需要选择适合的采集工具。整体而言,本文为读者提供了数据采集的基本概念和方法,以及一些实用工具的介绍,对于需要进行数据采集的技术人员具有一定的参考价值。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据分析实战 45 讲》,新⼈⾸单¥59
《数据分析实战 45 讲》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(76)
- 最新
- 精选
- 滢预测比特币的未来走势,可以从以下维度抓取数据 1.认知度:社会对比特币的认可,抓取百度指数、谷歌搜索量、微博数据等 2.比特币依赖的技术:作为数字货币,核心技术的完善和认可度占比重较大,可以从区块链相关技术网站爬取数据,也可以从微博爬取(微博也是技术人活跃的交流平台) 3.供给平衡:比特币虽说是一种数字货币,但仍逃脱不掉是一种商品的本质,商品必然受市场平衡调节影响,所以爬取买入量、抛售量还有历史价格也是一种预测维度 4.政府政策:政府政策的影响占很大比重,若国家出台政策强制打压或者支持,那么对价格的影响起了根本性作用,所以需要爬取相关的新闻 5.竞争数字货币:作为一种商品,必然要考虑竞争品的相关情况,需要抓取其它数字货币相关信息如其它货币的价格、交易量。资本在流入其它市场的时候,与之对应的竞品必然会受影响。抓取数据途径:其它货币交易平台
作者回复: 分析的不错!
2019-04-09279 - 蜘蛛的梦呓据我所知,今年区块链、比特币是在年初时突然间出现了大众的视野,随之比特币高涨,吸引了不少人进场,但是也出现了不少劣币,这些劣币收割了不少韭菜,人们炒币的热度下降了不少,比特币价格大跌,而且政府也有意控制比特币。 所以,我觉得需要以下的数据来判断比特币的价格走势。 【所需维度】: 1. 比特币的价格走势(历史价格和交易数据) 2. 区块链、比特币的热度指数(分析下降原因,人 们对比特币的使用程度) 3. 相关的政策(政府的对比特币的态度) 【如何搜集】:Kaggle、百度指数、各大新闻网站。
作者回复: 同意,这道题没有标准答案,不过政策确实是个很大的因素,还有人们对于比特币的信心
2018-12-31218 - TKbookscrapy也是爬虫的利器。。。
作者回复: 对 爬虫框架
2018-12-3116 - 水电工٩(。•ω•。)و关于比特币未来价格走势预测需要的数据,我是这么考虑的:首先,比特币是什么,我也不太清楚,但起码它应该是一种商品吧,所以我就根据商品预测价格需要的数据开始思考,大概有三个方面,分别是,谁生产,中间运输,谁消费。从生产者的角度,可以使用的即是制造机构的数量,数量变化,规模大小,生产产量,生产成本;从中间运输角度,可以考虑的是手续费,转手次数;从消费者的角度,大概有购买频率,购买次数,单次购买数量。 其次,比特币应该算是一种投资,会受到其他替代品的价格影响,可以考虑替代品的价格变化。
作者回复: 分析的很好
2019-08-0410 - GS这节课的心得,之前以为数据采集,真的要靠自己一点点去用爬虫去爬,感觉好难,毕竟巧妇难为无米之炊。看到老师介绍了这么多自动化采集工具,开放的数据源,等等,顿时视野打开了,也有了继续学习下去的信心。 “不重复造轮子”,把有限的精力集中到思考如何抽象业务,把繁杂的数据简单化,打上标签,为我所用
作者回复: 对的 GS同学,不重复造轮子,很多时候我也会抑制住自己的冲动,回头想想真的很重要,把有限的时间花在重要的事情上
2019-11-1427 - Mingjie老师,做数据分析掌握爬虫是必须的嘛?
作者回复: 爬虫是工具之一,多一种收集数据的方法。如果你定位是算法工程师,可以着重看数据挖掘的部分。
2018-12-316 - helloling爬虫不止php,很多编程语言都是可以写的,java、node.js、.net、go等等编程都可以写,R语言也可以写爬虫。只是python上手比较简单,网上几乎都是python的教程,导致有些人认为只有python能写。
作者回复: 同意,同样数据分析也不止是Python语言,只是用的人多,资料文档还有第三方工具相比于其他语言更完善
2018-12-315 - qinggeouye1、开放数据源 -- 公开地址直接获取 单位: 政府/企业/高校 行业: 交通/金融/能源 2、爬虫抓取 -- 第三方抓取工具/爬虫编程 特定网站/APP 3、传感器 -- 特定设备采集的物理信息 4、日志采集 -- Web服务器采集/自定义采集 埋点(第三方工具/自定义埋点)
作者回复: 对 这四种是比较重要的数据源
2019-11-033 - C J Japp用了友盟,的确是个不错的前端用户行为日志收集利器。可以拿到手机型号,奔溃时间等,极大方便开发人员排查问题,还是免费的。
作者回复: 是的 基本上现在统计用户行为都会采用第三方工具
2019-01-033 - Soul of the Dragon我之前做过一次比特币价格的预测,使用的工具是爬虫中Requests库,获取的数据维度包括比特币的开盘价、收盘价、最高最低价、成交量等,观察其价格变化用的是matplotlib的数据可视化功能,而预测未来价格走势用的是简单的线性回归。
作者回复: 很棒!学完课程,同学也可以尝试通过时间序列等多种模型预测。
2021-04-0622
收起评论