如何成为10x数据科学家?
极客时间编辑部
讲述:丁婵大小:1.43M时长:03:07
来自 Algorithmia 的布道师斯蒂芬妮·金(Stephanie Kim)在西雅图举办的 PyData 大会上,分享了数据工程师如何从开发者社区借鉴经验来提升数据科学技能。
10x 开发者是指那些能够产生 10 倍于普通开发者效能的开发者。他们在相同的时间内可以写出更多的代码,而且这些代码的质量更高、bug 更少。那么,如何从高效率的开发者那里借鉴经验,让自己成为卓有成效的 10x 数据科学家呢?
首先,要了解业务。不管从事哪个领域的工作,你都应该对所在领域的业务有所了解。
在数据分析的背后,你需要了解的是什么在推动业务的发展,需要了解业务的目标是什么、业务的流程是什么样的。你还需要知道利益相关者是谁,并让你的数据分析为他们带来好处。这样,你无疑会成为公司里更有价值的无形资产。
其次,要了解数据。了解业务固然重要,但了解数据的重要性也是有过之而无不及。
你需要知道数据是如何以及何时被抽取出来的、是谁在负责质量管控、数据之间可能存在哪些差异、数据可能丢失掉哪些信息,以及可以通过增加哪些数据源来提高数据模型的准确性等。
这需要与团队展开沟通。你可以大胆地问他们在做什么,也告诉他们你目前的工作,避免大家重复劳作,也让他们对你想要访问的数据有清晰的了解,这样可以为彼此都节省很多时间。
最后,要了解代码设计。对数据科学家来说,代码条理清晰(clearness)比灵巧(cleverness)更加重要,同时,命名也非常重要,良好的命名风格和清晰的代码逻辑能让重构和调试都变得更加简单和快速。凭借这两个代码设计原则,你离成为 10x 数据科学家又近了一步。
另外,保持代码风格的一致性也很重要。为此,你需要始终如一,比如不要在同一个脚本里混杂驼峰式命名和蛇形命名方式,也不要使用多种方式来完成同一种任务。你要做的是在你的整个代码里使用一种清晰而不取巧的方式,让代码易于阅读,让调试更加简单。
接下来是注释和文档,你要在代码里加入简洁的注释,不仅要写明代码的用处,还要指出输入和输出是什么的。这样,当要调试代码或往里面添加新功能时,所有人都会因此而感激你。
最后,知道怎么部署数据模型对于成为一个 10x 数据科学家来说也是至关重要的。一旦知道如何部署,你就可以很容易地与团队成员分享你的数据模型,或者把模型部署到生产环境里,把它们分享给成千上万的用户。同时,你也能知道如何有效地改进模型来满足用户需求。只要用户开心了,业务所有者也会开心。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论