从0开始学大数据
李智慧
同程艺龙交通首席架构师,前Intel大数据架构师,《大型网站技术架构》作者
立即订阅
14239 人已学习
课程目录
已完结 46 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 为什么说每个软件工程师都应该懂大数据技术?
免费
预习模块 (3讲)
预习 01 | 大数据技术发展史:大数据的前世今生
预习 02 | 大数据应用发展史:从搜索引擎到人工智能
预习 03 | 大数据应用领域:数据驱动一切
模块一 Hadoop大数据原理与架构 (7讲)
04 | 移动计算比移动数据更划算
05 | 从RAID看垂直伸缩到水平伸缩的演化
06 | 新技术层出不穷,HDFS依然是存储的王者
07 | 为什么说MapReduce既是编程模型又是计算框架?
08 | MapReduce如何让数据完成一次旅行?
09 | 为什么我们管Yarn叫作资源调度框架?
10 | 模块答疑:我们能从Hadoop学到什么?
模块二 大数据生态体系主要产品原理与架构 (7讲)
11 | Hive是如何让MapReduce实现SQL操作的?
12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
13 | 同样的本质,为何Spark可以更高效?
14 | BigTable的开源实现:HBase
15 | 流式计算的代表:Storm、Flink、Spark Streaming
16 | ZooKeeper是如何保证数据一致性的?
17 | 模块答疑:这么多技术,到底都能用在什么场景里?
模块三 大数据开发实践 (8讲)
18 | 如何自己开发一个大数据SQL引擎?
19 | Spark的性能优化案例分析(上)
20 | Spark的性能优化案例分析(下)
21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项
22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新
23 | 大数据基准测试可以带来什么好处?
24 | 从大数据性能测试工具Dew看如何快速开发大数据系统
25 | 模块答疑:我能从大厂的大数据开发实践中学到什么?
模块四 大数据平台与系统集成 (6讲)
26 | 互联网产品 + 大数据产品 = 大数据平台
27 | 大数据从哪里来?
28 | 知名大厂如何搭建大数据平台?
29 | 盘点可供中小企业参考的商业大数据平台
30 | 当大数据遇上物联网
31 | 模块答疑:为什么大数据平台至关重要?
模块五 大数据分析与运营 (5讲)
32 | 互联网运营数据指标与可视化监控
33 | 一个电商网站订单下降的数据分析案例
34 | A/B测试与灰度发布必知必会
35 | 如何利用大数据成为“增长黑客”?
36 | 模块答疑:为什么说数据驱动运营?
模块六 大数据算法 (6讲)
37 | 如何对数据进行分类和预测?
38 | 如何发掘数据之间的关系?
39 | 如何预测用户的喜好?
40 | 机器学习的数学原理是什么?
41 | 从感知机到神经网络算法
42 | 模块答疑:软件工程师如何进入人工智能领域?
智慧写给你的寄语 (1讲)
所有的不确定都是机会——智慧写给你的新年寄语
结束语 (2讲)
结束语 | 未来的你,有无限可能
第2季回归丨大数据之后,让我们回归后端
从0开始学大数据
登录|注册

27 | 大数据从哪里来?

李智慧 2018-12-29
大数据就是存储、计算、应用大数据的技术,如果没有数据,所谓大数据就是无源之水、无本之木,所有技术和应用也都无从谈起。可以说,数据在大数据的整个生态体系里面拥有核心的、最无可代替的地位。很多从事机器学习和人工智能的高校学者选择加入互联网企业,并不是贪图企业给的高薪,而是因为只有互联网企业才有他们做研究需要用到的大量数据。
技术是通用的,算法是公开的,只有数据需要自己去采集。因此数据采集是大数据平台的核心功能之一,也是大数据的来源。数据可能来自企业内部,也可能是来自企业外部,大数据平台的数据来源主要有数据库、日志、前端程序埋点、爬虫系统

从数据库导入

在大数据技术风靡之前,关系数据库(RDMS)是数据分析与处理的主要工具,我们已经在关系数据库上积累了大量处理数据的技巧、知识与经验。所以当大数据技术出现的时候,人们自然而然就会思考,能不能将关系数据库数据处理的技巧和方法转移到大数据技术上,于是 Hive、Spark SQL、Impala 这样的大数据 SQL 产品就出现了。
虽然 Hive 这样的大数据产品可以提供和关系数据库一样的 SQL 操作,但是互联网应用产生的数据却还是只能记录在类似 MySQL 这样的关系数据库上。这是因为互联网应用需要实时响应用户操作,基本上都是在毫级完成用户的数据读写操作,通过前面的学习我们知道,大数据不是为这种毫秒级的访问设计的。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《从0开始学大数据》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(14)

  • 白荣东
    反爬虫策略:
    网页时代,验证header&签名,动态加载,反selenium/phantomjs,ip封禁,有毒数据,动态爬虫阈值(过了阈值后依然允许爬一阵再封禁),各种验证码,云厂商反爬模式识别
    app时代,ios和安卓的反逆向,比如安卓的加壳,代码混淆,强制登录token,账户管理,反抓包(ssl pin),包签名校验,反注入(监测),so,LLVM混淆,反Hook,异常账号识别,模式识别

    应对这些反爬虫策略: 网页,从简单的header伪装,机器学习验证码,验证码打码平台,ip代理商,反动态抓取校验,阈值报警,多策略爬取校验
    应对手机反爬:这个是逆向安全团队,加壳有脱壳,账号有养账号,短信打码平台,反抓包有xposed切面hook,反sslpinning,签名校验有调试关闭,so包有模拟环境调用,IDA调试。脚本精灵抓包。
    当爬虫发现爬取收益小于爬取代价,又没法改变,无利可图的时候,就应该放弃。

    作者回复: 强,灰常全面~

    2019-07-31
    1
    13
  • REAL_MADIRD
    利用熵增熵减原理来过好这一生
    2018-12-31
    12
  • 纯洁的憎恶
    Sqoop适合离线批量导入关系数据库的数据,Canle适合实时导入关系数据库的数据。

    flume是比较常用的大数据日志收集工具。

    前端埋点采集。很多前端操作不会引发后端响应,但对于分析用户行为十分重要。

    大数据计算的整个过程确实是熵大大降低的过程,因为很多不为人知、难以发觉的规律,被从海量数据中整理出来了。
    2018-12-30
    5
  • 💪😊
    反爬虫技术:检查头浏览器信息;检查refer是否正常的流程链上的URL;对IP 或者 imei mac进行实时计算请求量高的;避免csrf攻击的办法也可以用在这里调用接口检查ID;针对通过无界面浏览器的爬取行为要进行行为分析 比如简单的操作步骤间隔时间等

    应对策略:对于疯狂的爬虫封禁。想对付的竞争对手进行真假数据混合。消磨对手排查时间
    2018-12-29
    3
  • Kevin Zhang
    李老师,您知道的大数据框架很多,请问您从哪里第一次知道这些框架的?或者您有哪些获取资讯的渠道?

    作者回复: 需求和目标驱动。

    你要做一件事,就要有清晰的目标和任务,为了达成任务需要什么的手段和工具,通过网络、专家、书籍各种渠道去了解各种可能的工具,因为目标清晰,所以什么样的工具是比较接近需求的,什么样的工具不太合适,可以很快做出判断,对于合适的,就进一步去学习和了解。

    没有需求和目标怎么办?给自己创造一个。

    2019-09-03
    1
    2
  • Creso
    1.请求头
    2.ip地址
    3.验证码
    4.js加密
    5.必须登录
    6.真假数据混合
    7.据说还有sql注入的,这个没有遇到过
    2019-02-20
    2
  • 杰之7
    通过这一节的学习,用煽减来看待大数据平台。

    整个过程通过初始的数据获取,包括从数据库导入数据,有Sqoop,cancal的方式,日志系统导入数据,有Flume将数据库导入到HDFS中,SDK从前端埋点获取数据,及爬虫系统获取数据。

    通过这些途径获取的数据经过大数据产品的数据处理返回给数据库处理过后的数据,这样得到的数据清洗有用的数据。

    这就是一个大数据煽减的过程。

    2019-01-02
    1
  • 小智e
    敲黑板:文章的小节是重点中的重点。
    2019-07-18
  • Destroy、
    可以用IP地址池、随机的user_agent等来应对反爬虫
    2019-07-04
  • balabala
    关于数据从哪里来这个问题,在当前有这么多自动化数据导入、数据处理手段的前提下,数据获取、整理、清洗仍然存在很多不可避免的dirty work,怎么样看待和处理遇到的这种dirty work?
    2019-05-01
  • 小老鼠
    大数据获取不断地写磁盘会不会影响系统的性能?
    2019-01-22
  • John
    請問老師 MySQL的binlog用Canel 那麼另一個特別流行的postgresql該用什麼工具呢 謝謝

    作者回复: Sqoop是SQL操作,所以是通用的。

    2019-01-17
  • hunterlodge
    “数据埋点需求的价值很多时候不能直观看到,所以在开发排期上往往被当作低优先级的需求。而很多埋点也确实最后没起到任何作用,加剧了大家这种印象。老板觉得数据重要,却又看不到足够的回报,也渐渐心灰意冷。”
    大实话,我们今年的一个大项目也做了很多埋点,目的也是便于分析项目的上线效果,然而采集的大量数据并没有有效利用起来
    2019-01-07
  • 萧杰
    反爬虫如果企业单单是在http请求头上监听,可以用scarpy框架有支持很多类库,模拟真实用户浏览器渲染请求,现在我也发现电商网站在开始使用请求参数加密的方式,而作为一个爬虫者,从技术手段的角度怎么应对,请老师答疑解惑。
    2018-12-29
收起评论
14
返回
顶部