从0开始学大数据
李智慧
同程艺龙交通首席架构师,前Intel大数据架构师,《大型网站技术架构》作者
立即订阅
14340 人已学习
课程目录
已完结 46 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 为什么说每个软件工程师都应该懂大数据技术?
免费
预习模块 (3讲)
预习 01 | 大数据技术发展史:大数据的前世今生
预习 02 | 大数据应用发展史:从搜索引擎到人工智能
预习 03 | 大数据应用领域:数据驱动一切
模块一 Hadoop大数据原理与架构 (7讲)
04 | 移动计算比移动数据更划算
05 | 从RAID看垂直伸缩到水平伸缩的演化
06 | 新技术层出不穷,HDFS依然是存储的王者
07 | 为什么说MapReduce既是编程模型又是计算框架?
08 | MapReduce如何让数据完成一次旅行?
09 | 为什么我们管Yarn叫作资源调度框架?
10 | 模块答疑:我们能从Hadoop学到什么?
模块二 大数据生态体系主要产品原理与架构 (7讲)
11 | Hive是如何让MapReduce实现SQL操作的?
12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
13 | 同样的本质,为何Spark可以更高效?
14 | BigTable的开源实现:HBase
15 | 流式计算的代表:Storm、Flink、Spark Streaming
16 | ZooKeeper是如何保证数据一致性的?
17 | 模块答疑:这么多技术,到底都能用在什么场景里?
模块三 大数据开发实践 (8讲)
18 | 如何自己开发一个大数据SQL引擎?
19 | Spark的性能优化案例分析(上)
20 | Spark的性能优化案例分析(下)
21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项
22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新
23 | 大数据基准测试可以带来什么好处?
24 | 从大数据性能测试工具Dew看如何快速开发大数据系统
25 | 模块答疑:我能从大厂的大数据开发实践中学到什么?
模块四 大数据平台与系统集成 (6讲)
26 | 互联网产品 + 大数据产品 = 大数据平台
27 | 大数据从哪里来?
28 | 知名大厂如何搭建大数据平台?
29 | 盘点可供中小企业参考的商业大数据平台
30 | 当大数据遇上物联网
31 | 模块答疑:为什么大数据平台至关重要?
模块五 大数据分析与运营 (5讲)
32 | 互联网运营数据指标与可视化监控
33 | 一个电商网站订单下降的数据分析案例
34 | A/B测试与灰度发布必知必会
35 | 如何利用大数据成为“增长黑客”?
36 | 模块答疑:为什么说数据驱动运营?
模块六 大数据算法 (6讲)
37 | 如何对数据进行分类和预测?
38 | 如何发掘数据之间的关系?
39 | 如何预测用户的喜好?
40 | 机器学习的数学原理是什么?
41 | 从感知机到神经网络算法
42 | 模块答疑:软件工程师如何进入人工智能领域?
智慧写给你的寄语 (1讲)
所有的不确定都是机会——智慧写给你的新年寄语
结束语 (2讲)
结束语 | 未来的你,有无限可能
第2季回归丨大数据之后,让我们回归后端
从0开始学大数据
登录|注册

40 | 机器学习的数学原理是什么?

李智慧 2019-01-29
最近几年,人工智能(AI)的风头俨然已经盖过大数据,成为各大互联网公司争相追捧的新“风口”。但当我们谈论人工智能时我们到底在谈什么?人工智能跟机器学习有什么关系?跟大数据又有什么关系?“高大上”的机器学习背后的数学原理是什么?
所谓的人工智能,在技术层面很多时候就是指机器学习,通过选择特定的算法对样本数据进行计算,获得一个计算模型,并利用这个模型,对以前未曾见过的数据进行预测。如果这个预测在一定程度上和事实相符,我们就认为机器像人一样具有某种智能,即人工智能。
这个过程和人类的学习成长非常类似,也是经历一些事情(获得样本数据),进行分析总结(寻找算法),产生经验(产生模型),然后利用经验(模型)指导自己的日常行为。
机器学习的完整过程也是如此,利用样本数据经过算法训练得到模型,这个模型会和预测系统部署在一起,当外部需要预测的数据到达预测系统的时候,预测系统调用模型,就可以立即计算出预测结果。
因此,构建一个机器学习系统,需要有三个关键要素:样本、模型、算法。

样本

样本就是通常我们常说的“训练数据”,包括输入和结果两部分。比如我们要做一个自动化新闻分类的机器学习系统,对于采集的每一篇新闻,能够自动发送到对应新闻分类频道里面,比如体育、军事、财经等。这时候我们就需要批量的新闻和其对应的分类类别作为训练数据。通常随机选取一批现成的新闻素材就可以,但是分类需要人手工进行标注,也就是需要有人阅读每篇新闻,根据其内容打上对应的分类标签。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《从0开始学大数据》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(12)

  • 纯洁的憎恶
    大数据是高效处理海里数据的解决方案。机器学习是基于统计学等数学原理,通过机器计算逻辑,实现识别、分类、预测等目的的算法。人工智能是通过大数据技术,在工程上把机器学习算法变成现实,进而让机器具备类似人类智慧,某些方面甚至远高于人类智慧的复杂认知能力。

    作者回复: 👍

    2019-01-29
    18
  • hallo128
    大数据:针对大规模数据的存储和计算,强调框架搭建和编程实现。偏向计算机实现。
    机器学习:以底层算法的深入理解,能按问题选择合适的算法并作出一定的改进。偏向理论研究优化。
    人工智能:结合机器学习算法,面向现在的大数据环境,实现智能交互。包含前两者,但还涉及其他更多的内容。就现在来说,离真正的人工智能还是比较远,现在的各种算法实现还不足以攀登真正的人工智能。
    2019-01-29
    3
  • Hyun
    那两页书,在《雪山飞狐》的剧情中也出现过。读了四页《胡家刀法》的游医,转身成了独霸一方的江洋大盗。遇到对的老师,对的读物,绝对可以少走很多弯路。

    作者回复: 👍

    2019-01-29
    2
  • 张闯
    之前读了几课就落下了。
    昨天早上到现在,除了吃饭睡觉,从第一课开始一口气读完。对大数据技术甚至人工智能技术的全貌和原理有了清晰的理解。

    谢谢智慧哥。

    作者回复: 👍

    2019-04-05
    1
  • Jack
    对算法的概念有些模糊

    1. 模型是通过算法从样板数据得到的
    2. 算法又从模型空间里面找到最优模型

    请问这两类算法有区别吗?
    2019-02-26
    1
  • Twogou27
    老师想问一下模型类型是手动确定的还是可以机器自动识别确定?在数据维度多的时候感觉很难确定是线性,还是指数,或者曲线?

    作者回复: 选择模型算法就是算法工程师的工作,一般有行业经验参考,没有就要自己思考、尝试了。

    2019-01-29
    1
  • Jesse
    老师您好,我想学习关于工业自动化、仪器仪表、机器视觉系统的相关内容,应该选什么课程,这个课程合适吗
    2019-12-11
  • RussellSN
    看到作者大学经历那一节,顺便说一下。大学教科书的内容偏严谨。这种严谨需要老师来给学生带来场景和直观感,如果照本宣科,就是作者的经历,只有少数联想丰富的同学能找到自己的直观感。
    2019-07-03
  • maomaostyle
    看到这个专栏从大数据概念讲到了AI,我虽不是从事研发岗位,但从项目交付及实际应用的角度来看,大部分AI项目主要是利用到了分布式存储环境以及任务调度框架这两个核心模块,具体说就比如hdfs存储各种数据集合,yarn来做训练或预测任务的调度执行,也有直接用k8s来对接的,请老师指正
    2019-03-05
  • Python
    老师算法工程师,是不是也是直接调库,调参的。还是自己去写代码实现
    2019-02-05
  • 天天向上
    函数 就是函数呗 叫模型 显的高大上?数学上的概念 都很精练 但是一般文字描述很难说明白,就开始各种公式,对不熟悉的人半天搞不能白!数学公式中的符号选择不知道到底有什么规律 比如f(x)知道是什么意思,f|Y是个什么鬼?直接Y=f(x)可以看懂!再复杂的都已经还给老师啦或者老师压根就没给过我!码农的数学硬伤啊 表示对数学符号完全懵懵懵
    2019-01-30
  • 杰之7
    通过这一节的阅读机器学习,对其机器学习背后的原理有了一些认识。通过对样本数据进行贴标签和已有的训练样本集,在适当的模型中去训练这些样本集,通过海量的参数调优来找到最优的函数。

    在调优的过程中,会有模型预测与真实预测值得差距,这就是损失函数,在此基础上,为了让损失函数最小,引入了结构分险,使得结果临近精准。

    2019-01-29
收起评论
12
返回
顶部