极客时间
21天打卡行动 45/21
<<机器学习40讲/07>>模型的验证方法
回答老师问题:
参数和超参数之间的关系?
在机器学习的
上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。
在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数。 相反,其他参数的值通过训练得出。
超参数:
• 定义关于模型的更高层次的概念,如复杂性或学习能力。
• 不能直接从标准模型培训过程中的数据中学习,需要预先定义。
• 可以通过设置不同的值,训练不同的模型和选择更好的测试值来决定
超参数的一些示例:
• 树的数量或树的深度
• 矩阵分解中潜在因素的数量
• 学习率(多种模式)
• 深层神经网络隐藏层数
• k均值聚类中的簇数
[来源:百度百科https://baike.baidu.com/item/%E8%B6%85%E5%8F%82%E6%95%B0/3101858?fr=aladdin]
今日所学:
1,泛化性能是机器学习的核心问题;
2,由于模型的泛化性能和它的复杂度是直接挂钩的,所以模型验证的任务就是确定模型的复杂度以避免过拟合的发生;
3,估计泛化性能时,最重要的依据就是模型在训练数据集上的精度(accuracy)。
4,泛化误差也被称为样本外误差(extra-sample error)。
5,样本内误差:核心在于刻画噪声的影响。
6,利用样本训练出的模型 \hat f 在样本上的表现和在总体上的表现之间的差值,就是所谓的样本内误差。
7,对样本内误差的估计又可以转化成对它和训练误差之间的差值的估计,这个差值在《统计学习基础》中被称为乐观度(optimism)。
8,赤池信息量准则(Akaike Information Criterion, AIC)或者贝叶斯信息量准则(Bayesian Information Criterion, BIC)是计算有效参数的数目;
9,原则就是确保训练集、验证集和测试集三者两两互不相交。
10,留出法的思想稍做推广: k 折交叉验证法;
11,模型验证是模型原型设计的最后完善。一旦完成了模型验证,模型就不能再做调整了;
重点:
模型验证的作用是选择最佳模型并确定其性能;
对数据的重采样可以直接实现对样本外误差,也就是泛化误差的估计;
k 折交叉验证是无放回的重采样方法;
自助采样是有放回的重采样方法。
展开