微软的数据科学工作流程
极客时间编辑部
讲述:初明明大小:5.59M时长:06:07
你好,欢迎收听极客视点。
最近,阿里云产品经理鱼哲听了一场微软关于数据科学团队协作和工作流的 Podcast 分享,于是他在公众号“数据科学老司机”描述了微软的数据科学项目是如何被执行落地和交付的。鱼哲认为,工作流最有价值的点不是具体执行什么内容,而是为什么要执行这些内容和什么时候去执行这些内容。以下是重点内容,供你参考。
微软的数据科学项目主要 5 个流程:商业理解、数据获取清理、建模、部署、成果检测与交付。
阶段一:商业理解
阶段目标
定义问题:明确模型要解决的问题以及相关的评估标准。
定义数据源:明确解决这个问题所需要的数据是否是已有的或者是可能需要额外收集的。
如何达到这些目标
首先,明确问题的类型。微软把数据科学解决的问题分为了回归、分类、分组、异常检测、推荐这 5 个大类。
其次,定义团队角色和分工。然后定义可衡量的项目成功标准,微软推荐用 SMART 标准来制定这一标准。
在定义数据源方面,数据主要可以分为两类,一类就是相关数据或者特征,即 Indpendent Variables。还有一类就是 Dependent Variable。前者可以确保我们通过建模来解决问题,后者可以帮助我们评估模型的效果。
阶段性交付内容
阶段二:数据获取清理
阶段目标
构建一个干净的,质量优秀的,与阶段一中的目标量相关且了解关系是什么样的数据集,并且将这份数据放在即将要建模的环境中。
构建一个能够方便产生上述数据集的数据清洗管道。
如何达到这些目标
主要有三步:
第一步:获取数据。这一步需要明确如何获取数据,具体内容视架构而定。解决方案架构师也要帮助数据科学团队明确技术选型。
第二步:探索数据集。数据探索分析,也就是常说的 EDA。微软提供了一个样例的数据探索分析的 JupyterNotebook , 非常具有参考价值。在数据探索完成之后,就可以开始着手对数据的组成以及情况进行了解,之后才是进行建模。对数据分布、组成以及意义进行了解之后,在模型选择以及构建这一步其实会更加的游刃有余。
第三步:设置数据工作流。需要根据数据以及软件架构建造一个相对简便的数据获取自动化的流程。通常,数据收集方式包括批式收集、流式收集或二者混合这三种方式。
阶段性交付内容
数据质量报告:可参考前面提到的样例的数据探索分析 JupyterNotebook。
解决方案架构:它可以是数据管道的架构图或者是解释。我们会用这个架构来测试新构建的模型,这个结构应该也能够支持我们基于新的数据来刷新之前构建的模型。
决策点: 重新评估项目,评估项目是否可行。
阶段三:建模
阶段目标
找出对于模型来说最适合的特征。
构造出一个最精准的可用于解决业务问题的机器学习模型。
构造出一个适合部署的机器学习模型。
如何达到这些目标
首先通过对于数据的总结、聚合以及变形来帮助构造新的特征以达到分析的目的。如果我们想知道模型的背后是怎么构成的,就得去理解特征构成的规则以及我们使用的机器学习算法是如何利用特征来构造出这些模型的。这一步其实需要算法能力和业务能力结合。
切割数据为训练集合和测试集合
构建模型
评估模型
选择最优解决方案
阶段性交付内容
决策点:这个模型是否能够解决我们提出的问题,如果不能,我们是否需要回到阶段 二重新收集数据,建模。
阶段四:部署
阶段目标
将模型成功部署到生产环境,为线上业务提供稳定的服务。
如何达到这些目标
尽可能的将模型的部署做到组件化、积木化,具体取决于业务场景。
阶段性交付内容包括:
模型性能以及表现的看板。
模型部署结果报告。
解决方案架构。
阶段五:成果检测与交付
阶段目标
交付项目,确认数据管道工作流以及模型效果和部署都能满足需求方的目标。
如何达到这些目标
确认功能上模型能够解决需求方的问题。
将项目交付给使用模型的组,或者是 ML ops 团队。
阶段性交付内容
以上就是微软的数据科学工作流程,它降低了公司的管理成本,同时也能帮助职员们更好的执行内容。但是,当你参考时,有必要了解哪些流程是必要的,哪些流程是可以省略的,以免影响效率。希望今天的内容对你有所帮助。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论