人工智能基础课
王天一
工学博士,副教授
58937 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 59 讲
开篇词 (1讲)
人工智能基础课
15
15
1.0x
00:00/00:00
登录|注册

07 机器学习 | 数山有路,学海无涯:机器学习概论

提升算法效率
降低人工干预程度
判别方法
生成方法
半监督学习
无监督学习
监督学习
参数配置对性能影响
交叉验证
模型复杂度与测试误差关系
过拟合与欠拟合
训练误差与测试误差
标注问题
回归问题
分类问题
特征空间与特征向量
属性值组成数据/实例
描述对象性质的属性
预测与分析数据
构建概率统计模型
利用经验改善性能
提取规律与模式
观察现象
机器学习的未来挑战
监督学习方法
机器学习任务分类
模型选择与调参
误差与性能
机器学习任务类型
数据与特征
机器学习定义
人类学习机制
机器学习概论

该思维导图由 AI 生成,仅供参考

不知道你在生活中是否留意过这样的现象:我们可以根据相貌轻易区分出日本人、韩国人和泰国人,却对英国人、俄罗斯人和德国人脸盲。造成这种现象的原因一方面在于日韩泰都是我国的邻国,观察这些国家普通人的机会较多;另一方面,抛开衣妆的因素不论,相同的人种也使得面貌特征更加容易进行比较和辨别。
因此,根据大量的观察就能总结出不同国别的相貌特点:中国人下颌适中,日本人长脸长鼻,韩国人眼小颧高,泰国人肤色暗深。在做出路人甲来自日本或是路人乙来自韩国的判断时,正是以这些特征作为依据的。
上面的例子就是简化版的人类学习机制:从大量现象中提取反复出现的规律与模式。这一过程在人工智能中的实现就是机器学习
从形式化角度定义,如果算法利用某些经验使自身在特定任务类上的性能得到改善,就可以说该算法实现了机器学习。而从方法论的角度看,机器学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科
机器学习可说是从数据中来,到数据中去。假设已有数据具有一定的统计特性,则不同的数据可以视为满足独立同分布的样本。机器学习要做的就是根据已有的训练数据推导出描述所有数据的模型,并根据得出的模型实现对未知的测试数据的最优预测。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

机器学习概论:如何让计算机识别特征? 机器学习是一门基于数据构建概率统计模型,并运用模型对数据进行预测与分析的学科。它通过提取反复出现的规律与模式来改善算法在特定任务上的性能。在机器学习中,数据被描述为对象某些性质的属性,属性的取值称为属性值,不同的属性值有序排列得到的向量就是数据,也叫实例。这些属性值构成了特征空间,每个实例都可以视为特征空间中的一个向量,即特征向量。根据特征向量对输入数据进行分类就能够得到输出。 然而,机器学习中也存在着过拟合和欠拟合的问题。为了对测试误差做出更加精确的估计,一种广泛使用的方法是交叉验证,通过将数据切分成若干子集,让不同的子集分别组成训练集与测试集,并在此基础上反复进行训练、测试和模型选择,达到最优效果。参数的取值也是影响模型性能的重要因素,因此调参是机器学习中重要的工程问题。 监督学习是机器学习的主流任务,包括生成方法和判别方法两类。生成方法是根据输入数据和输出数据之间的联合概率分布确定条件概率分布,而判别方法则直接学习条件概率分布或决策函数。在图像识别领域中,如何降低机器学习中的人工干预程度,同时提升算法效率是一个重要的挑战。 总的来说,机器学习是一门通过数据构建概率统计模型,并运用模型对数据进行预测与分析的学科。在实际应用中需要注意过拟合和欠拟合问题,并进行参数调优和模型选择以达到最佳效果。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《人工智能基础课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(19)

  • 最新
  • 精选
  • 天问
    假设一个神经网络中包含 1000 个参数,每个参数又有 10 种可能的取值,对于每一组训练 / 测试集就有 1000的10次方 应该是10的1000次方吧?

    作者回复: 没错,谢谢指正!

    2017-12-23
    2
    31
  • Kongk0ng
    如果可以的话,希望能标注关键名词对应的英文

    作者回复: 这个问题曾经考虑过,最后还是没有在正文里放英文。专栏最后会给出中英文一个索引。

    2017-12-24
    7
  • 听天由己
    看来我们目前的技术条件,对无监督学习领域有很多的前景和展望,目前更多的是弱人工智能,基于现有行业经验与已有数据,通过开源平台来实现效率与应用升级。我一直在想,无监督学习是一种怎样的存在。 希望老师能够在下篇文章中加上对上次课后思考题的开放式答案或是思考方向,我们可能有更多的思路去发挥。

    作者回复: 这么说吧,假如我买了肉买了菜,不看菜谱,完全靠手感炒菜,感觉淡了就多加盐,感觉甜了就少放糖,多做几次直到找到合口味的做法,就是无监督学习。 对问题的定位并不是练习题,很多问题也没有固定的答案,能引发更多关于主题和方法的思考,它的价值就体现了。

    2018-01-13
    5
  • Snail@AI_ML
    王博好,文中标注问题部分提到的变量序列能否解释一下?谢谢。文末提到的阿尔法狗我有一个看法:刚学到pca,貌似可以解释一下,用了降维策略,这样就可以从少量的数据中获得一个比较好模型,不知对否?

    作者回复: 可以举个例子:给出一个句子,判断其中每个词的词性,动词名词还是形容词。每个词的词性再形成一个序列,这就是输出的变量序列,也就是标记序列。这是自然语言处理的常见任务。 PCA本身只是对数据的降维,而且在降维过程中数据的信息还会损失。至于能不能通过降维数据得到较好的模型,可能要具体情况具体分析。

    2019-01-15
    2
    4
  • caocao
    alghago zero 除了有监督学习,还有 图像识别的使用吧,不然 怎么观察棋谱 并进行运算呢,所以1.图像识别 可以使用 已成熟的CNN 技术 2.如果我们有图像识别的应用,可以 使用 正确率高,性能好的 GoogleLenet 模型 做调整 适应我们的业务,使用已有的 框架 应该是 效率 很高的,运行也很快 3.如果有条件 加上gpu,不够 可以 再考虑tpu,这样 运行会超快。 有个问题 请教 王老师:监督学习的 生成方法 和 判别方法 有哪些具体方面的应用 还有 王老师 谈到 交叉验证,没有 涉及到 正则化

    作者回复: 是否使用图像识别我不太清楚,因为棋盘本身是个大坐标系,棋子的位置实际上就是二维的坐标。 生成方法学习的是联合分布,典型算法是朴素贝叶斯;判别方法学习的是条件分布,典型算法是逻辑回归。 交叉验证是验证模型性能的技术,正则化是处理模型本身的技术,两个不是一个范畴。在深度学习里有关于正则化的统一论述,线性回归中也会涉及一点正则化。

    2018-04-03
    2
    3
  • 吴祥龙
    王博,监督学习是基于已知类别的训练数据进行学习,而AlphaGo zero并不借助人类棋谱数据(棋谱数据我理解就是训练数据),而只是依靠棋谱规则做判定,为何说它还是脱不开机器学习的范畴。我理解棋谱规则就像是检验函数,并不是训练数据啊。

    作者回复: 你说的很对,zero不是基于数据的学习,更像是人类启发式的下法。但不管是数据学习还是启发式学习,都需要将最终结果反馈给算法。胜负分类,而不是棋谱规则(最早的alphago好像就不需要规则),才是监督信息。如果只是让zero自己去下,不去管棋局的输赢,他也不会进化到今天的程度。

    2018-03-30
    1
  • 孙伟贤
    这一篇终于跟通俗易懂了,谢谢王博士
    2017-12-23
    13
  • qiang.li
    还是要学好概率统计和线性代数啊,体会到了数学的意义了!
    2017-12-23
    11
  • 秦龙君
    学习了,这篇好看懂。
    2017-12-29
    5
  • 孔祥红 Hunter
    分类问题和回归问题可以理解,感觉打标签也是分类问题啊,为什么打标签单独一类。
    2021-04-21
    3
收起评论
显示
设置
留言
19
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部