机器学习40讲
王天一
工学博士,副教授
立即订阅
8017 人已学习
课程目录
已完结 44 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 打通修炼机器学习的任督二脉
免费
机器学习概观 (10讲)
01 | 频率视角下的机器学习
02 | 贝叶斯视角下的机器学习
03 | 学什么与怎么学
04 | 计算学习理论
05 | 模型的分类方式
06 | 模型的设计准则
07 | 模型的验证方法
08 | 模型的评估指标
09 | 实验设计
10 | 特征预处理
统计机器学习模型 (18讲)
11 | 基础线性回归:一元与多元
12 | 正则化处理:收缩方法与边际化
13 | 线性降维:主成分的使用
14 | 非线性降维:流形学习
15 | 从回归到分类:联系函数与降维
16 | 建模非正态分布:广义线性模型
17 | 几何角度看分类:支持向量机
18 | 从全局到局部:核技巧
19 | 非参数化的局部模型:K近邻
20 | 基于距离的学习:聚类与度量学习
21 | 基函数扩展:属性的非线性化
22 | 自适应的基函数:神经网络
23 | 层次化的神经网络:深度学习
24 | 深度编解码:表示学习
25 | 基于特征的区域划分:树模型
26 | 集成化处理:Boosting与Bagging
27 | 万能模型:梯度提升与随机森林
总结课 | 机器学习的模型体系
概率图模型 (14讲)
28 | 最简单的概率图:朴素贝叶斯
29 | 有向图模型:贝叶斯网络
30 | 无向图模型:马尔可夫随机场
31 | 建模连续分布:高斯网络
32 | 从有限到无限:高斯过程
33 | 序列化建模:隐马尔可夫模型
34 | 连续序列化模型:线性动态系统
35 | 精确推断:变量消除及其拓展
36 | 确定近似推断:变分贝叶斯
37 | 随机近似推断:MCMC
38 | 完备数据下的参数学习:有向图与无向图
39 | 隐变量下的参数学习:EM方法与混合模型
40 | 结构学习:基于约束与基于评分
总结课 | 贝叶斯学习的模型体系
结束语 (1讲)
结课 | 终有一天,你将为今天的付出骄傲
机器学习40讲
登录|注册

03 | 学什么与怎么学

王天一 2018-06-09
男孩还是女孩?这是个问题!
在中国人的生活中,生男生女可谓兹事体大,多少幸福与烦恼都因此而起。那么有没有办法提前做出准确的预测呢?当然有啦!通常在怀孕 4 个月时,胎儿的性别就可以通过 B 超得到准确的判断了,所以只要问一问医生轻松搞定。但是出于职业道德和执业法规的要求,医生一般是不会透露胎儿性别的。想要在怀孕的早期判断,终归还是要依赖祖辈流传下来的经验。
可祖辈的经验多了去了,流传最广的可能就是“酸儿辣女”:如果准妈妈突然爱喝柠檬水说明怀了个男孩;突然爱吃老干妈就说明怀了个女孩。可实际上,“酸儿辣女”只是一种互文的说法,表达的是怀孕对饮食口味的影响,想要以此为据预测胎儿的性别纯属无稽之谈。相比之下,另一条经验还更靠谱一些:准妈妈的肚子如果是尖形,则胎儿很可能是个男孩;肚子是圆形的话就更可能是个女孩。至少在我个人的生活经验之中,这条规则的准确率超过了 80%。
剥去所有的伦理道德外延,所谓的“生男生女”完全可以看成一个纯粹的科学问题。虽然说胎儿性别不可能以决定性的方式影响母体的物理特征,但终究会有一定的参考价值。通俗说就是虽说男孩肚子尖女孩肚子圆一定不会以 100% 的概率发生,但 70% 的置信度恐怕还是有的,这相比于纯属瞎猜的对半概率就是个不小的进步,也就意味着肚子形状的特征提供了一定的信息。除此之外,胎儿性别还可能对母体的其他变化产生一些不起眼但确实存在的影响,比如说民间流传的脚部浮肿或者肚脐突出,这些变化都可以作为预测胎儿性别的特征来看待。
除了肉眼可见的物理特征外,更精确的特征是医学上的定量指标。相关的具体信息在这里我就不班门弄斧了。但可以确定的是,胎儿的性别势必会对母体的内分泌特性产生不同的影响,从而在指标上体现出不同趋势的变化。而这些怀孕早期的指标变化反过来又可以为倒推胎儿性别提供有力的证据,从而实现“生男还是生女”的预测。
那么问题来了,能不能通过机器学习来解决这个问题呢?
能不能用机器学习来解决,要从下面这几个角度来分析。首先,预测胎儿的性别不是预测婴儿的活动,没人能知道婴儿的下一声啼哭会发生在什么时候,即使你知道他的血压肺活量脉搏等所有的生理指标,还是没有办法去预测。但胎儿的性别不一样,它可以体现出一些切实的规律,也就是某些特征会表现出固定的变化趋势,蕴含着明显的规律性,这种规律性被称为“模式”(pattern)。
机器学习能够解决的问题必然会包含某些显式或者隐式的模式,没有模式的问题就不能通过机器学习解决。完全随机的问题是不可能被求解,也不可能被学习的,就像我们永远也没法预测示波器下一时刻的本底噪声一样。
一提到模式,你可能会一下子联系到另一个专业词汇——模式识别(pattern recognition)。模式识别和机器学习实际上有大量的共通之处,严格地将两者区分开来既没方法也没必要。如果非要找到些不同的话,模式识别是被更广泛地应用在计算机视觉(computer vision)等专门领域之中的专门概念,工程上的意义更浓一些。如果说机器学习侧重于将预先设定的准确率等指标最大化,那模式识别就更注重于潜在模式的提取与解释
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《机器学习40讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(14)

  • Kevin.zhang🌏
    作业:
    对比机器学习、模式识别、数据挖掘、人工智能:
    我的理解是这样的:
    1、机器学习偏向于学习,对潜在的规律分析完成后,再对未来进行预测。
    2、模式识别主要偏工程应用,是对具体的环境和客体的“模式”进行识别。
    3、数据挖掘主要偏应用,是对历史数据进行分析并发现规律,注重数据的价值体现。
    4、人工智能主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作,它涵盖了机器学习、模式识别、数据挖掘等技术。
    以上就是我的理解,还望老师指点!

    作者回复: 总结的很棒👍机器学习重预测,数据挖掘重解释

    2018-12-19
    1
    10
  • 韶华
    这篇虽然形而上,但是对于系统性切入到机器学习领域还是很有必要的!
    2018-06-09
    3
  • 叫我龙总
    学了好几天都是理论,感觉很枯燥,这就是机器学习吗?

    作者回复: 后面会进入具体模型的介绍模块。机器学习和深度学习不一样,不能归到纯粹的工程领域。领会基本的理论对于理解、分析乃至于自己去设计全新的模型和算法都是有指导意义的。

    2018-06-13
    2
  • 你不是我
    对机器学习的点从生男生女为切入点,让人眼前一亮。但是,在后面的例子中,似乎这已经接不上下文,在中间段再加一个例子是不是会更好更让人印象深刻一点😊

    作者回复: 感谢你的建议🤝这个承上启下的例子要好好构思一下

    2018-06-11
    1
  • 林彦
    数据挖掘过去包含像回归,分类,聚类这些现在由机器学习这种"挖掘"方式找到最佳答案的问题。过去用统计学推导,像贝叶斯推导这种概率论解题方式也可以看作其中一种。机器学习有时更暴力一些,不需要显式解也能发掘规律。通过标签和大量数据来发掘规律这种解题方式在机器学习没流行之前我个人觉得主流的数据挖掘或统计教材着墨不多。以前模式识别,神经网络更多停留在抽象的理论,一个本科或硕士生很少能自己搭出一个应用来解决平时的实际问题。

    作者回复: 你说的很对,数据挖掘偏重解释,所以预测方面不如机器学习。
    除了没有应用场景之外,个人用户更大的困难是没有数据。当然现在情况有所改善,既有现成的数据集可供下载,也可以自己去抓数据。

    2018-06-10
    1
  • 刘強
    清宫图看成了春 宫 图,吓了我一跳
    2018-06-09
    1
  • ou叮当
    也就是说如果我有大量医院的四个月前孕前检查的各项指标的的数据,并且有医院产后的胎儿的性别数据,就可以通过有监督学习通过分类聚类的方式来学习。假设我没有产后数据,就可以通过无监督学习去看看是不是产生几类数据,这时候就知道了有几类数据了,这时候通过有经验的医生或者少有的先验数据就可以得出结果了。是这样的吗?

    作者回复: 有监督的没错,可以用数据训练分类算法,用来预测新的实例。无监督的只能根据数据属性来对数据聚类,但没办法做预测,因为不知道聚类产生的每一类数据到底对应男还是女。

    2019-09-07
  • ㄟ忘川.
    老师,请问您对迁移学习是否有所研究,有没有考虑开一门关于迁移学习的课程呢?
    2019-03-12
  • 司圭
    老师有个问题,对用户进行分类,目的看怎么划分用户比较好,目前只有两个字段(完成订单数、最近一次完单日期与昨天的间隔),但是数据量有500多万个,这用什么方法比较好,

    作者回复: 属性数不多,可以考虑两者综合使用。假设订单数有10个取值,间隔也有10个取值,总共就是100个类别。当然,还是要结合你的分类目的来设计。

    2018-12-11
  • liyooo
    主动学习的概念第一次听说,看来还要提高知识水平啊
    2018-06-18
  • shougao
    老师您好,非常喜欢您的课,可以在文中加小例子吗?这样更能感受方法的直观作用和目的。比如1.3.5.265.215.209,分成两类。这种

    作者回复: 你的建议很好👍在后面介绍具体模型的时候会有相应的实例的。

    2018-06-11
  • guojian Li
    怎么判断问题蕴含规律?是否有一些统计工具?

    作者回复: 问题本身可学习性的判断需要先验知识,没有人工干预的机器学习是玩不转的,因为它总是能根据数据过拟合出一些“规律”出来。

    2018-06-10
  • guojian Li
    机器学习适用于解决蕴含潜在规律的问题;
    ————-
    怎么判断问题是蕴含规律呢? 主观感觉?还有有一数据统计手段?

    作者回复: 特征选择和提取可以在问题可学习性已经确定的基础上筛选出能够体现规律的有效特征。

    2018-06-10
  • 青刀快马
    就是感觉没弄明白到底要学些什么,以及怎么来学?

    作者回复: 再看看最后的总结

    2018-06-09
收起评论
14
返回
顶部