算法分析已经成为科学研究的重要方法，但谷歌高级研究员帕特里克·赖利（Patrick Riley）近日在 Nature 上发表的文章认为，科研工作者对机器学习的预期普遍过高，这可能会导致研究者将资源浪费在错误的研究方向上。他在文中列出了科研工作者在使用机器学习时可能遇到的一些陷阱和应对思路。
1. 不恰当地分割数据在构建模型时，机器学习实践者通常会将数据划分为训练集和测试集。训练集用于模型学习，测试集则用于评估模型在未知数据上的表现。研究者通常以随机方式分割数据，但现实生活中的数据很少是随机的。它们可能包含随时间变化的趋势——比如数据收集方式的变化趋势或所要收集信息的变化。分割数据的“正确”做法可能并不显而易见，但审慎考虑和尝试多种方法能为你提供更多见解。
2. 隐变量在一个理想的实验中，研究者只需要改变感兴趣的变量，其他都是固定不变的。这种水平的变量控制在现实中往往是不可能实现的。设备的准确性会随着时间的推移而发生变化，试剂的批次也会发生变化，一种实验条件先于另一种执行，实验结果甚至可能被天气影响。这些不可控变量在机器学习模型中可能是有害的。
一个经验教训是，使用多个机器学习模型来检测意料之外和隐藏的变量。一个模型集中于你关心的问题，其他模型则排除这些混杂因子。如果后者的效果非常好，则对数据进行标准化处理，做进一步的实验或调整结论。
3. 定错训练目标机器学习算法要求研究者指定一个“损失函数”，以确定各种误差的严重程度。从业者倾向于使用一小组函数，这组函数可能无法捕获到他们真正关心的东西。
机器学习从业者很容易受限于一个“显而易见”的目标，该目标所需的数据和标签都很清楚。但是，他们设计的算法可能无法解决真正的问题。你必须牢记整体目标，否则就会开发出不实用的精确系统。
那么，如何解决这些问题呢？
第一点，机器学习专家自身及其同事需要保持更高的标准。当收到新的实验室设备时，希望实验室伙伴可以了解它的功能、如何校正、如何检测误差以及设备的功能限制。机器学习也是如此，使用相关工具的人必须充分了解它们的功能。
第二点，不同的学科需要在各自领域就如何执行和衡量机器学习制定明确的标准。适当的控制、稳定性检查和误差测量将因领域而异，并且需要清楚地阐明，这样研究人员、评审者和编辑才可以鼓励良好的行为。
第三点，科学家在机器学习领域的教育内容需要涵盖这些更广泛的问题。虽然可以参考现有的一些资源（如 Google AI），但依然需要做更多的事情。谷歌通常会教给学生算法和工具，但他们需要更多地学习如何应用这些算法，并适当地提出问题。
以上就是今天的内容，希望对你有所帮助。
原文链接：https://www.nature.com/articles/d41586-019-02307-y

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

该免费文章来自《极客视点》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论

大纲



1. 不恰当地分割数据

2. 隐变量

3. 定错训练目标



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部