适用于数据项目的7种开源工具
极客时间编辑部
讲述:初明明大小:3.47M时长:03:48
近日,企业网 D1Net 编译了科技作者凯拉·马修斯(Kayla Matthews)的文章,马修斯认为,功能强大的数据项目开源工具可以使企业业务更加无缝和功能化,因此无论是数据科学专业人士还是 IT 部门,都需要使用一些必不可少的数据科学工具。以下就是本文想和你分享的 7 种开源工具。
1.Ludwig
这是一个能够建立基于数据的深度学习模型进行预测的工具,不具备编码知识的人也可以使用它。它除了能够为机器学习目的训练数据集,还具有可视化组件,可以使数据更加直观,即便是非专业人员也可以更好地理解数据。
Ludwig 还是一个基于 TensorFlow 的工具箱,旨在让用户在没有大量先验知识的情况下就可以在数据工作期间使用机器学习。你可以在 Ludwig 的帮助下开展一些项目,包括文本或图像分类、基于机器的语言翻译和情感分析。
2. 谷歌差异性隐私库
差异性隐私是通过将用户数据与人工“白噪声”相结合来实现的。这样做可以确保恶意人员无法将数据源追溯到个人,或以其他方式泄露其身份,以此来保护所涉及人员的隐私。
2019 年 9 月,谷歌公司决定将其差异性隐私库作为开源工具提供,希望帮助用户保持数据安全,即使他们可能没有大量隐私性的资源。同时,谷歌在其博客中指出,如果企业不保护用户数据,就有可能失去用户的信任。
3.Kubernetes
这是一个应用程序管理和部署平台,允许在容器环境中使用应用程序。它可以帮助你平衡负载,并在波动的情况下按预期保持应用程序的正常运行。该工具之所以稳定,是因为它使用了 API Contracts。
Kubernetes 虽然不能快速适合你的数据科学项目,但它简化了应用程序管理的许多方面,并且可以简化你的数据科学项目。
4.Apache Drill
如果你准备开始查询数据而无需处理太多开销,则可以采用这款工具。它消除了在执行查询之前加载数据、维护架构或转换数据的需求,你只需要在 SQL 查询中包括相应的路径即可开始工作。
此外,该工具还支持 PB 级的安全和交互式 SQL 分析。如果你只是开始使用数据,但不能在数据分析上进行大量投资,那也不必担心。Apache Drill 提供了个人或小组使用的资源。简而言之,它使大数据分析更易于使用。
5.ParaView
该工具用于分析庞大的数据集,它既可以在普通笔记本电脑上使用,也可以在超级计算机上运行。它可以帮助你使用定性或定量技术分析数据,然后通过可视化获得另一种视角,让你的数据能以容易理解的方式显示出来。
6.Plotly Python 开源图形库
如果你想将数据转换为交互式图形,那么图形库就是理想的选择。
Plotly 将图表的类型分为几类,并提供了多种样式可供参考,从条形图到热图,甚至还有地图。你可能会发现某个地图与数据科学项目保持一致,该项目显示了企业在过去一年中在哪个社区获得了最多的新客户,或者发现该地图特别适合显示经常出差的销售团队成员的路线。
7.Jamovi
该工具在网站中表示,它可以缩小研究人员和统计学家之间的差距。它像功能齐全的电子表格一样,而且你可以很快就上手。
如果你还不擅长统计信息也没关系,你可以将它作为入门工具,而且还有一套分析工具可帮助你进行探索。
要想成功完成数据科学项目,好用的工具是必不可少的。以上是马修斯推荐的 7 个适用于数据项目的开源工具,希望对你有所帮助。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论