NLP工具、库和服务推荐
极客时间编辑部
讲述:丁婵大小:7.60M时长:05:32
在现代文本数据分析中, NLP 工具和 NLP 库是必不可少的。为帮助开发者给自己的项目找到完美的解决方案,技术作家林亨迪(Hengtee Lim)整理汇编了一份最佳 NLP 工具、库和服务的列表。以下为具体内容。
免费的 NLP 工具
1. NTLK (Natural Language Toolkit)
这是一个用于构建 Python 程序以处理人类语言数据的平台。它包括词法分析、命名实体识别、标记化、词性标注、句法分析和语义推理。它还提供了一些很好的入门资源。但是,由于 NLTK 在处理大数据时会占用大量资源,因此推荐将它用于简单项目。
2. PyTorch-Transformers
该 NLP 库包含了 NLP 的预训练模型。它具有 PyTorch 实现、预训练的模型权重、使用脚本和转换工具,包括 BERT、GPT-2、Transformer-XL 和 RoBERTa。
3. TextBlob
它构建在 NLTK 的基础上,就像是一个扩展,简化了 NLTK 的许多功能,它为任务提供了一个易于理解的界面,包括情感分析、词性标注和名词短语提取等。TextBlob 是一个推荐给初学者的自然语言处理工具,它也具有可扩展性。
4. SpaCy
这是一个流畅、快速、高效的开源库,由 Cython 编写。它具有一个简单的 API、预训练的词向量、11 种语言的 23 个统计模型、用于语法和 NER 的内置可视化工具,它的更新时间表也非常一致。
5. Stanford CoreNLP
该工具用于对文本片段进行语言分析。它提供了 7 种语言的支持,可扩展性使其成为一个很好的自然语言处理工具,可用于信息抓取、聊天机器人训练以及文本处理和生成。需要说明的是,它是按照 GNU 通用公共许可证 V3 许可的,因此在构建任何专用软件时,都需要商业许可证。
6. Apache OpenNLP
这个由 Java 编写的 NLP 库以其简单性而备受推崇。它包括标记化、句子分割、词性标注、分块、解析和基于感知器的机器学习。然而,Apache 是一个由志愿者开发的项目,因此更新计划是不稳定的。
7. AllenNLP
这是一个基于 PyTorch 构建的 Apache 2.0 研究库,是为那些想要快速简单地建立语言分析模型的研究人员提供的。AllenNLP 具有广泛的文本分析选项,它是一个简单的 NLP 工具,也是可扩展的。
8. GenSim
这是一个用于自然语言处理的免费 Python 库,是主题建模和文档相似性比较的推荐选项。此外,它还提供了可扩展的统计语义和语义结构分析。GenSim 具有高水平的处理速度和处理大量文本的能力。
9. NLP Architect
它由 Intel AI Lab 开发,是一个开源 Python 库,用于优化 NLP 和探索深度学习拓扑。它旨在使训练和运行模型成为一个简单的过程。
对于业余爱好者、数据研究人员以及有时间在内部执行注释任务的团队来说,上述选项非常适合。但是,如果你的项目时间表比较紧迫且有大数据要处理,那么寻求合格的 NLP 服务的帮助可能会更简单、更高效。
下面汇总了四个 NLP 服务列表,以帮助你满足数据分析的需求。
NLP 服务
1. Lionbridge
作为训练数据和数据注释的领先提供商,Lionbridge 拥有 500000 名众包专业人员,能够使用 300 多种语言进行工作。他们的定制注释平台使得针对各种用例的数据分析变得容易,并且可以轻松满足特殊的项目需求。Lionbridge 是快速、大规模进行高质量数据注释的理想选择。
2. AMT (Amazon Mechanical Turk )
AMT 集群是一种廉价、可扩展的 NLP 解决方案,用于数据收集和数据标记。由于它们并不提供项目管理、质量保证或定制发票,因此对于那些不需要这些因素的项目来说,AMT 是一个很好的服务。
3. Figure Eight
这是一个机器学习辅助的数据标注平台,能够处理各种 NLP 服务。Figure Eight 很适合创建独特的项目本体。
4. Scale
它提供 NLP 数据注释服务,包括实体注释、OCR 转录、文本分类和情感分析。通过将人工和机器学习的注释实践相结合,它们的分类和内容审核服务是可扩展的。
以上就是今天的内容,希望对你有所帮助。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论