09 | 实验设计
王天一
该思维导图由 AI 生成,仅供参考
和其他科学学科一样,机器学习也会借助实验获取关于目标的信息。宏观来看,实验的设计与分析正在逐渐脱离具体问题的限定,有成为一门独立学科的趋势。不管是物理学还是经济学,对实验的处理都存在着一些共性的准则。在本篇文章中,我就和你简单谈谈机器学习中有关实验设计与分析的一些原则性问题。
在讨论实验设计之前,先得知道实验设计到底是怎么回事。实验设计(experimental design),或者叫设计实验(designed experiment),指的是在实验之前制定详细的实验计划,确定实验目标并选择待研究的过程因子(process factor)。精心挑选的实验设计可以在给定资源的条件下使实验获得的信息量最大化,让实验结果最大程度地接近真实结果。实验设计需要人为改变一个或多个过程因子,以观察这种变化对一个或多个因变量的影响,其目的是分析获得的数据以产生有效和客观的结论。
在现有的关于机器学习的文献中,对设计实验部分的讨论似乎并不多见,其原因在于这部分工作已经由他人代劳,而不需要放在机器学习的应用层面来解决。在各种各样的图像识别竞赛中,无论是训练集还是测试集都是预先给定的,其中的每张图片都有精确的标注。看起来,设计实验似乎是一项蓝领工作,它被处理高大上算法的白领工作给人为地屏蔽了。可真实情况是什么呢?通过人工数据训练出来的算法,在真实世界中的行为可能完全不同,从“人工智能”变成“人工智障”只是捅破一层窗户纸这么简单。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
实验设计在机器学习中的重要性不容忽视。与模型调参类似,实验设计关注的是模型外部因子的选择和调节,以获取客观有效的结论。因素的设置取决于实验目的,可以包括算法类型、超参数、数据集等。连续实验和响应面方法可用于评估多个因子对实验的影响,并寻找可变因子的最佳取值。因此,实验设计在优化学习过程并取得更好结果方面扮演着重要角色。在机器学习实践中,实验设计往往被忽视,但其重要性不可低估。读者应该关注并重视实验设计这一环节,以提升机器学习实验的有效性和可靠性。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《机器学习 40 讲》,新⼈⾸单¥59
《机器学习 40 讲》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(9)
- 最新
- 精选
- 林彦现在投入的时间有限,实践少,模型的形式,超参数的选择,如何选择衡量的方法和参数都只会照搬,还不太理解后面的因果和细节。因此是否做错了或者掉进什么坑里已自己现在的认知都还未意识到,怎么探索的思路也不清晰。
作者回复: 其实都是试错试出来的。
2018-07-027 - 青刀快马老师,什么时候能具体说下如何创建一个模型?
作者回复: 先跟据任务来选择分类模型或者回归模型,再来选择模型具体的形式,比如线性回归或者逻辑回归,模型的形式也可以根据你的数据来调整。确定模型的形式以后就要用数据训练出最优的参数,再对不同的模型进行比较,选出一个最合适的。
2018-06-246 - 王宇直老师你好,如果把超参也一样用grid search来选择,会有什么不好的结果?
作者回复: 运算量太大……
2019-03-13 - 狂浪讲的不错。虽说很理论,但我自己也是很解惑了很多2021-03-212
- 皮皮侠模型的解析式其实是存在的,只是现在还无法表达,只能通过模拟出来?机器学习这种求解模型的办法在理论上有推导的依据么2020-04-042
- ifelse学习打卡2023-05-30归属地:浙江
- 杨家荣极客时间 21天打卡行动 47/21 <<机器学习40讲/09>>实验设计 今日所学: 1,实验设计(experimental design),或者叫设计实验(designed experiment),指的是在实验之前制定详细的实验计划,确定实验目标并选择待研究的过程因子(process factor); 2,设计实验比机器学习本身更加注重策略的作用; 3,设计实验要完成的任务是对整个机器学习过程的优化; 4,一次一因子:首先为所有因子都设定一个基线值,再在其他因子保持在基线水平的前提下令单个因子波动,观察它对学习性能的影响。 5,如果在每次实验中不是控制单个因子,而是让所有的因子一起变化来发现它们之间的协同关系,这就是因子设计(factorial design)的方法; 6,在对筛选出的少量因子进行微调时,可以使用响应面方法(response surface methodology)来降低计算开销。微调的目的是找到最优的因子取值,在不可能对所有取值都计算出性能指标的情况下,通过插值的方法来拟合出因子和性能之间的响应面就是一种更容易操作的办法。在得到的响应面上寻找最值,找到的就是最优的因子取值。 7,替代模型(surrogate model)是对真实模型的逼近,以数据驱动的自底向上的方法构建,目标是尽可能地模拟真实模型的行为。 重点: 实验设计的任务是观察一个或多个因子对实验结果的影响; 机器学习中,实验设计中的因子包括算法类型、超参数、数据集等; 连续实验可以用来评估多个因子对实验的影响; 响应面方法通过二次曲面的拟合寻找可变因子的最佳取值。2020-02-04
- Kevin.zhang🌏作业:王老师是我的机器学习入门老师,所以还没有真正开始的实践,不过后续我会注意老师叮嘱的地方,期待进一步学习!2018-12-26
- 极客时间工程师学习了2018-06-25
收起评论