AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33454 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

128 | 数据科学家基础能力之机器学习

模型评估
参数求解
数据内在联系假设
模型评估
参数求解
抽象现实场景
三步套路分析
K均值算法
三步套路分析
神经网络模型
决策树模型
线性模型
聚类模型
问题解决思路
线性回归模型
回归问题
分类问题
基础模型
问题解决思路
思考题
三步套路分析
机器学习任务
无监督学习
监督学习
总结
机器学习基础知识
数据科学家必备的机器学习基础知识

该思维导图由 AI 生成,仅供参考

想要成为合格的,或者更进一步成为优秀的人工智能工程师或数据科学家,机器学习的各种基础知识是必不可少的。然而,机器学习领域浩如烟海,各类教材和入门课程层出不穷。特别是机器学习基础需要不少的数学知识,这对于想进入这一领域的工程师而言,无疑是一个比较高的门槛。
今天,我来和你聊一聊如何学习和掌握机器学习基础知识,又如何通过核心的知识脉络快速掌握更多的机器学习算法和模型。

监督学习和无监督学习

要问机器学习主要能解决什么问题,抛开各式各样的机器学习流派和层出不穷的算法模型不谈,机器学习主要解决的是两类问题:监督学习和无监督学习。掌握机器学习,主要就是学习这两类问题,掌握解决这两类问题的基本思路
什么是解决这两类问题的基本思路呢?基本思路,简而言之就是“套路”。放在这里的语境,那就是指:
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文介绍了机器学习的核心概念,包括监督学习和无监督学习。监督学习通过外部响应变量指导模型学习任务,解决分类和回归问题;而无监督学习则旨在发现数据内部的潜在结构和规律。文章还介绍了监督学习的基础模型,包括线性模型、决策树模型和神经网络模型,以及这些模型的基本思路和求解方法。此外,文章还深入探讨了无监督学习中的聚类模型,以K均值算法为例,阐述了如何通过“三步套路”来掌握其核心思路。作者强调了对机器学习模型算法进行讨论时,牢牢把握模型与现实问题的联系、模型的求解以及模型的评估三个方面的重要性。通过本文的阐述,读者可以快速了解机器学习的核心思路和算法模型之间的联系,为成为合格的人工智能工程师或数据科学家奠定基础。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(15)

  • 最新
  • 精选
  • RZ_diversity
    置顶
    我认为是第一步,如果针对现实问题的抽象出现了偏差,对抽象设定的假设有问题的话,后续步骤再怎么高效求解参数,评估模型准确性都没办法改正第一步出现的问题。因为模型实际解决的domain已经不一样了。
    2017-10-19
    12
  • damonhao
    置顶
    最容易出问题的是对现实问题的抽象。如果抽象成功,在数学的范围内求解都是比较有保证的。ps:其实我是来抛砖引玉的。。。
    2017-10-18
    5
  • 橙子
    三步套路可以总结为: 1. 提出模型 2. 求解模型 3. 评估模型 如果求解的模型没有很好地解决问题,我觉得应该从两种方面考虑:如果模型在训练集的评估误差过大,这就是欠拟合,问题很有可能出在第一步,模型的复杂度不够,模型对问题的模拟不够准确;如果模型在训练集的评估误差比较小,但是在测试集的评估误差过大,这就是过拟合,问题就很可能出现在第二步。

    作者回复: 你总结得很有道理。

    2017-12-14
    30
  • 鬼猫猫
    这总结得太到位了,作为对机器学习有兴趣的外行人,虽然读了很多书,教程,但还是在云里雾里,看了本篇文章之后,对机器学习有了个整体上的认识。这个专栏订的太值了。

    作者回复: 谢谢。

    2017-11-08
    5
  • 套码的汉子
    实际应用中,应该是第一步来背锅的几率较大。第三步评估的标准,往往生产环境已经决定。而作者也说,第二步已经有许多现成算法,在实际开发中改进的空间不大。所以,我以前参与开发的测量软件都提供几个算法,一个算法测不准技术支持就会让客户换一个,直到测得准为止。。。

    作者回复: 的确需要从第一步多找原因。

    2017-12-07
    1
  • 吴文敏
    最容易出问题应该是假设,也就是说现实的问题与所用模型的假设不一致。
    2017-10-19
    2
  • 李佳
    针对今天的思考题,我觉得最容易出问题的地方就是最重要的第一步,弄清楚模型和现实的联系。如果这一步有问题,那后面做得再好也是白费,方向就错了,当然没办法解决问题。
    2017-10-18
    2
  • chenshaxiong
    虽然直觉上我也认为是第一步模型容易出问题,但是我在做人脸聚类的经验恰恰是困在第三部----我们花了大量的时间和精力,来设计评估数据模型的准确性,中间可能有硬编码导致的异常结果;也可能是最初设想的模型不够充分导致结果;更有我们设计出一些组合性的数学模型,就连显而易见的数学意义都找不到了,也就更加不好评估. 所以啊,第三步,如果评价模型和算法反而是最容易出问题,也需要反复检查,验证的.
    2018-10-04
    1
  • 孤帆
    老师没有提标注,在《统计机器学习方法》中,周航老师将监督学习分为分类、回归、标注。而老师没有提“标注”,请问是什么原因呢?
    2018-03-04
    1
  • 小田
    # 本节重点内容 1. 机器学习基本思路:三步套路 2. 学习方法:围绕三步套路展开 3. 监督学习基础:两类问题、三个模型 4. 无监督学习基础:问题--聚类,模型--聚类模型
    2020-02-27
收起评论
显示
设置
留言
15
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部