27 | 大数据从哪里来？

李智慧



该思维导图由 AI 生成，仅供参考

大数据就是存储、计算、应用大数据的技术，如果没有数据，所谓大数据就是无源之水、无本之木，所有技术和应用也都无从谈起。可以说，数据在大数据的整个生态体系里面拥有核心的、最无可代替的地位。很多从事机器学习和人工智能的高校学者选择加入互联网企业，并不是贪图企业给的高薪，而是因为只有互联网企业才有他们做研究需要用到的大量数据。
技术是通用的，算法是公开的，只有数据需要自己去采集。因此数据采集是大数据平台的核心功能之一，也是大数据的来源。数据可能来自企业内部，也可能是来自企业外部，大数据平台的数据来源主要有数据库、日志、前端程序埋点、爬虫系统。
从数据库导入在大数据技术风靡之前，关系数据库（RDMS）是数据分析与处理的主要工具，我们已经在关系数据库上积累了大量处理数据的技巧、知识与经验。所以当大数据技术出现的时候，人们自然而然就会思考，能不能将关系数据库数据处理的技巧和方法转移到大数据技术上，于是 Hive、Spark  SQL、Impala 这样的大数据 SQL 产品就出现了。
虽然 Hive 这样的大数据产品可以提供和关系数据库一样的 SQL 操作，但是互联网应用产生的数据却还是只能记录在类似 MySQL 这样的关系数据库上。这是因为互联网应用需要实时响应用户操作，基本上都是在毫秒级完成用户的数据读写操作，通过前面的学习我们知道，大数据不是为这种毫秒级的访问设计的。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文从大数据的来源和采集方式入手，介绍了数据库导入、日志文件导入、前端埋点采集和爬虫系统四个方面的内容。其中，数据库导入介绍了Sqoop和Canal工具的使用，日志文件导入详细介绍了Flume工具的架构和使用方式，前端埋点采集介绍了手工埋点、自动化埋点和可视化埋点三种方式，以及各自的优缺点，最后爬虫系统部分介绍了通过网络爬虫获取外部数据的重要性和应对反爬虫技术的方法。文章还涉及了熵的概念，并将其与数据处理过程进行了类比，强调了大数据平台实现数据熵减的重要性。最后，提出了关于爬虫反爬虫策略的思考题，引发读者思考和讨论。整体而言，本文全面介绍了大数据的来源和采集方式，以及与熵概念的类比，为读者提供了全面的了解和参考。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《从 0 开始学大数据》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(21)

最新
精选

白荣东
反爬虫策略：网页时代，验证header&签名，动态加载，反selenium/phantomjs，ip封禁，有毒数据，动态爬虫阈值（过了阈值后依然允许爬一阵再封禁），各种验证码，云厂商反爬模式识别 app时代，ios和安卓的反逆向，比如安卓的加壳，代码混淆，强制登录token，账户管理，反抓包（ssl pin），包签名校验，反注入（监测），so，LLVM混淆，反Hook，异常账号识别，模式识别应对这些反爬虫策略: 网页，从简单的header伪装，机器学习验证码，验证码打码平台，ip代理商，反动态抓取校验，阈值报警，多策略爬取校验应对手机反爬：这个是逆向安全团队，加壳有脱壳，账号有养账号，短信打码平台，反抓包有xposed切面hook，反sslpinning，签名校验有调试关闭，so包有模拟环境调用，IDA调试。脚本精灵抓包。当爬虫发现爬取收益小于爬取代价，又没法改变，无利可图的时候，就应该放弃。
作者回复: 强，灰常全面~
2019-07-31
4
86
Kevin Zhang
李老师，您知道的大数据框架很多，请问您从哪里第一次知道这些框架的？或者您有哪些获取资讯的渠道？
作者回复: 需求和目标驱动。你要做一件事，就要有清晰的目标和任务，为了达成任务需要什么的手段和工具，通过网络、专家、书籍各种渠道去了解各种可能的工具，因为目标清晰，所以什么样的工具是比较接近需求的，什么样的工具不太合适，可以很快做出判断，对于合适的，就进一步去学习和了解。没有需求和目标怎么办？给自己创造一个。
2019-09-03
2
16
stars
"这是因为互联网应用需要实时响应用户操作，基本上都是在毫级完成用户的数据读写操作，通过前面的学习我们知道，大数据不是为这种毫秒级的访问设计的。"，发现少了一个”秒”字。
作者回复: 谢谢，我们尽快修正
2023-01-06归属地：北京


John
請問老師 MySQL的binlog用Canel 那麼另一個特別流行的postgresql該用什麼工具呢謝謝
作者回复: Sqoop是SQL操作，所以是通用的。
2019-01-17
3

REAL_MADIRD
利用熵增熵减原理来过好这一生
2018-12-31

18
纯洁的憎恶
Sqoop适合离线批量导入关系数据库的数据，Canle适合实时导入关系数据库的数据。 flume是比较常用的大数据日志收集工具。前端埋点采集。很多前端操作不会引发后端响应，但对于分析用户行为十分重要。大数据计算的整个过程确实是熵大大降低的过程，因为很多不为人知、难以发觉的规律，被从海量数据中整理出来了。
2018-12-30

13
ヾ(◍°∇°◍)ﾉﾞ
反爬虫技术：检查头浏览器信息；检查refer是否正常的流程链上的URL；对IP 或者 imei mac进行实时计算请求量高的；避免csrf攻击的办法也可以用在这里调用接口检查ID；针对通过无界面浏览器的爬取行为要进行行为分析比如简单的操作步骤间隔时间等应对策略：对于疯狂的爬虫封禁。想对付的竞争对手进行真假数据混合。消磨对手排查时间
2018-12-29

4
Creso
1.请求头 2.ip地址 3.验证码 4.js加密 5.必须登录 6.真假数据混合 7.据说还有sql注入的，这个没有遇到过
2019-02-20

3
不记年
针对http请求头，通过对token，session验证来反爬针对ip，如果一个ip的行为异常，比如单位时间内请求书过高就封掉一段时间通过验证码，像那种左滑就是针对行为通过机器学习来预测一个请求是人发出的还是机器发出的总之就是尽量为难机器
2020-03-18

1
钱
阅过留痕数据及数据采集是大数据的核心，也是计算机界的核心，没有数据计算机就没有了生产资料。计算机的一切操作无非是对数据的增删改查加上一些业务逻辑，以达到挖掘数据价值，提高社会运行效率的作用。
2020-02-10

1

收起评论