10个不常见但却十分实用的Python库
极客时间编辑部
讲述:丁婵大小:5.51M时长:04:01
Python 是世界上发展最快的编程语言之一,它在数据科学方面发挥了巨大作用。日前,公众号“开源最前线(ID:OpenSourceTop)”整理了 10 个用于数据科学任务的 Python 库,这些库虽然并不常见,知名度也不高,但却十分实用。
1. Wget
这是一个免费的工具,用于从 Web 下载非交互式的文件,它支持 HTTP、HTTPS 和 FTP 协议,并通过 HTTP 代理进行检索。由于它是非交互式的,所以即使用户没有登录,它也可以在后台工作。Wget 非常适合用于下载一个网站或一个页面的所有图像。
2. Pendulum
它是一个用于简化 Datetimes 操作的 Python 包,完全可以替代 Python 的原生类,很适合那些需要在 Python 项目中使用日期时间的开发人员。
3. Imbalanced-learn
在每个类的样本数量几乎相同的情况下,分类算法的效果是最好的。但在实际项目中,大部分的数据集是不平衡的,这些数据集对机器学习算法的学习阶段和后续预测都有影响,Imbalanced-learn 的创建就是为了解决此类问题。当你遇到不平衡的数据集时,可以考虑使用它。
4. FlashText
在 NLP 任务中,清理文本数据通常需要替换句子中的关键字,或者从句子中提取关键字。这类操作一般使用正则表达式来完成。如果你需要搜索的关键词数量达到数千个,使用正则表达式就很麻烦。Python 的 FlashText 模块是基于 FlashText 算法,它为这种情况提供了一个合适的替代方案,不管搜索词的数量是多少,运行时都是一样的。
5. Fuzzywuzzy
这个名字听起来确实很奇怪,当你涉及到字符匹配问题时,就可以使用这个库。它能快速实现诸如字符串匹配度、令牌匹配度等操作,还可以方便地匹配保存在不同数据库中的记录。
6. PyFlux
时间序列分析是机器学习领域最常遇到的问题之一。PyFlux 是为处理时间序列问题而构建的 Python 开源库,该库拥有一系列优秀的现代时间序列模型,包括但不限于 ARIMA、GARCH 和 VAR 模型。
7. Ipyvolume
该库可用于在 Jupyter 笔记本中可视化三维图形,如三维立体图等。不过目前,该库还处于测试版本阶段。
8. Dash
这是一个用于构建 Web 应用程序的高效 Python 框架,它是基于 Flask、Plotly.js 和 React.js 创建的,并结合了现代 UI 元素(如下拉框、滑块和图形)与用户分析性 Python 代码绑定在一起,不需要再借助 JavaScript。
Dash 非常适合构建数据可视化应用,并在 Web 浏览器中呈现这些应用程序。
9. Bashplotlib
这是一款命令行工具,用于在终端绘制基本的图形。假如你没有 GUI 的话,它能让你迅速地可视化数据。
10. Colorama
这是一个 Python 专门用来在控制台、命令行输出彩色文字的模块,它使用标准的 ANSI 转义码来着色和样式终端输出。此外,它还可以跨平台使用,在 Windows、Linux 下都能良好地工作。
以上推荐的 10 个用于数据科学任务的 Python 库,希望对你有所帮助。
![](https://static001.geekbang.org/resource/image/cf/2f/cf38a14e2932b17b8d000489c030332f.jpg?wh=1242*526)
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(3)
- 最新
- 精选
- 风行万里,不问归期很好,收藏了1
- 小斧工具就是武器,Python 数据不断延伸。1
- 固态U盘很好,收藏了
收起评论