机器学习 40 讲
王天一
工学博士,副教授
35375 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 46 讲
机器学习 40 讲
15
15
1.0x
00:00/00:00
登录|注册

19 | 非参数化的局部模型:K近邻

距离的定义方式
超参数k的影响
计算复杂度较高
非参数的局部化模型
特征提取
特征选择
用于数据的概率密度估计
k近邻算法
学习样本之间的关系
积极学习
消极学习
降低特征空间的维度
增加数据点的数量
核方法
基于实例的学习
全局性模型的结构和参数
求解一般性知识
其他方法
k近邻方法
近邻密度估计
核密度估计
直方图法
参数方法 vs. 非参数方法
解决方式
高维空间中的近邻
非参数模型
参数模型
消极学习 vs. 积极学习
密度估计
维数灾难
机器学习模型

该思维导图由 AI 生成,仅供参考

到目前为止,专栏中介绍的机器学习模型都属于参数模型,它们利用训练数据求解出关于问题的一般性知识,再将这些知识通过全局性模型的结构和参数加以外化。
一旦模型的结构和参数被确定,它们就不再依赖训练数据,可以直接用于未知数据的预测。而径向基核的出现一定程度上打破了这种规律,它将普适的全局特性打散成若干局部特性的组合,每个局部特性只能在它所覆盖的近邻区域内得以保持,由此产生的非结构化模型会具有更加灵活的表示能力。
在我看来,局部化的核心作用是模型复杂度和拟合精确性的折中。如果将整个输入空间看作一个大的整体区间,对它进行全局式的建模,那么单个模型就足以描述输入输出之间的规律,但这不可避免地会对表达能力造成较大的限制。
一个极端的情形是让所有输入的输出都等于同一个常数,这样的模型显然毫无信息量可言。可是在另一个极端,如果将局部特性继续加以细化,细化到让每个数据点都定义出不同局部特性的子区间,其结果就是基于实例的学习。
基于实例的学习(instance-based learning)也叫基于记忆的学习(memory-based learning),它学习的不是明确的泛化模型,而是样本之间的关系
当新的样本到来时,这种学习方式不会用拟合好的算式去计算输出结果或是输出结果的概率,而是根据这个新样本和训练样本之间的关系来确定它的输出。在本地化的语境里,这就叫“近朱者赤,近墨者黑”。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

基于实例的学习方法和非参数密度估计方法是机器学习领域的重要内容。其中,$k$近邻算法作为基于实例的学习的典型代表,通过寻找与未知实例最接近的$k$个训练实例来进行分类,具有灵活的表示能力,适用于处理复杂的非线性问题。然而,超参数$k$的选择对算法性能有重要影响,需要注意过拟合和模型复杂度的问题。另外,非参数密度估计方法通过核密度估计和近邻密度估计来灵活估计概率密度,避免了对概率密度形式的假设,但需要注意带宽和$k$值的选择。总的来说,这些方法在处理数据分类和概率密度估计时具有各自的优势和适用场景。同时,文章还提到了消极学习和积极学习方法的区别,引发了对这两种方法的原理和性能优缺点的思考。通过对这些方法的理解和比较,读者可以更好地把握基于实例的学习方法和非参数密度估计方法的特点和应用。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《机器学习 40 讲》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(6)

  • 最新
  • 精选
  • Eric
    K取基数也只能保证二分类问题不会出现平票呀 其实好的排序选最前面的那个分类就行吧 即使出现平票 还是选择平票中距离小的类

    作者回复: 多分类问题还是选择基于似然的方法为妙。

    2019-05-11
    2
  • 张立春
    训练集的样本库是不是也需要随着新数据的增加而不断扩大,否则怎么与时俱进呢?

    作者回复: 是的,训练数据绝对多多益善

    2018-09-20
    1
  • TomZ,张锐
    替老师回答一下,k尽量取奇数,避免出现平票的问题

    作者回复: 说的对

    2018-07-20
  • 风华神使
    knn如何处理平票?

    作者回复: k取奇数,就像NBA季后赛的场次都是奇数

    2018-07-19
  • ifelse
    学习打卡
    2023-06-04归属地:浙江
  • 建强
    积极方法:根据训练样本直接训练模型,新样本出现时,直接根据训练模型就可以得到结果, 优点:预测新样本简单、高效; 缺点:模型训练的时间复杂度受制于训练样本的数据质量和数据规模以及某些超参数的配置,会产生过拟合或欠拟合现象,影响新样本的预测精度 消极方法:不预先训练模型,只存贮训练样本,等到新样本出现时,根据优化的算法对新样本进行预测 优点:不需要预先训练模型,没有模型训练的开销,新样本根据现有样本进行预测,由于样本的不断累积,会使预测精度逐步改善和提升。 缺点:当样本累积到一定程度,新样本的预测时间复杂度会增加,同样,受超参数的影响也会有过拟合或欠拟合现象。
    2021-05-10
收起评论
显示
设置
留言
6
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部