极客视点
极客时间编辑部
极客时间编辑部
113243 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/05:32
登录|注册

NLP工具、库和服务推荐

讲述:丁婵大小:7.60M时长:05:32
在现代文本数据分析中, NLP 工具和 NLP 库是必不可少的。为帮助开发者给自己的项目找到完美的解决方案,技术作家林亨迪(Hengtee Lim)整理汇编了一份最佳 NLP 工具、库和服务的列表。以下为具体内容。

免费的 NLP 工具

1. NTLK (Natural Language Toolkit)

这是一个用于构建 Python 程序以处理人类语言数据的平台。它包括词法分析、命名实体识别、标记化、词性标注、句法分析和语义推理。它还提供了一些很好的入门资源。但是,由于 NLTK 在处理大数据时会占用大量资源,因此推荐将它用于简单项目。

2. PyTorch-Transformers

该 NLP 库包含了 NLP 的预训练模型。它具有 PyTorch 实现、预训练的模型权重、使用脚本和转换工具,包括 BERT、GPT-2、Transformer-XL 和 RoBERTa。

3. TextBlob

它构建在 NLTK 的基础上,就像是一个扩展,简化了 NLTK 的许多功能,它为任务提供了一个易于理解的界面,包括情感分析、词性标注和名词短语提取等。TextBlob 是一个推荐给初学者的自然语言处理工具,它也具有可扩展性。

4. SpaCy

这是一个流畅、快速、高效的开源库,由 Cython 编写。它具有一个简单的 API、预训练的词向量、11 种语言的 23 个统计模型、用于语法和 NER 的内置可视化工具,它的更新时间表也非常一致。

5. Stanford CoreNLP

该工具用于对文本片段进行语言分析。它提供了 7 种语言的支持,可扩展性使其成为一个很好的自然语言处理工具,可用于信息抓取、聊天机器人训练以及文本处理和生成。需要说明的是,它是按照 GNU 通用公共许可证 V3 许可的,因此在构建任何专用软件时,都需要商业许可证。

6. Apache OpenNLP

这个由 Java 编写的 NLP 库以其简单性而备受推崇。它包括标记化、句子分割、词性标注、分块、解析和基于感知器的机器学习。然而,Apache 是一个由志愿者开发的项目,因此更新计划是不稳定的。

7. AllenNLP

这是一个基于 PyTorch 构建的 Apache 2.0 研究库,是为那些想要快速简单地建立语言分析模型的研究人员提供的。AllenNLP 具有广泛的文本分析选项,它是一个简单的 NLP 工具,也是可扩展的。

8. GenSim

这是一个用于自然语言处理的免费 Python 库,是主题建模和文档相似性比较的推荐选项。此外,它还提供了可扩展的统计语义和语义结构分析。GenSim 具有高水平的处理速度和处理大量文本的能力。

9. NLP Architect

它由 Intel AI Lab 开发,是一个开源 Python 库,用于优化 NLP 和探索深度学习拓扑。它旨在使训练和运行模型成为一个简单的过程。
对于业余爱好者、数据研究人员以及有时间在内部执行注释任务的团队来说,上述选项非常适合。但是,如果你的项目时间表比较紧迫且有大数据要处理,那么寻求合格的 NLP 服务的帮助可能会更简单、更高效。
下面汇总了四个 NLP 服务列表,以帮助你满足数据分析的需求。

NLP 服务

1. Lionbridge

作为训练数据和数据注释的领先提供商,Lionbridge 拥有 500000 名众包专业人员,能够使用 300 多种语言进行工作。他们的定制注释平台使得针对各种用例的数据分析变得容易,并且可以轻松满足特殊的项目需求。Lionbridge 是快速、大规模进行高质量数据注释的理想选择。

2. AMT (Amazon Mechanical Turk )

AMT 集群是一种廉价、可扩展的 NLP 解决方案,用于数据收集和数据标记。由于它们并不提供项目管理、质量保证或定制发票,因此对于那些不需要这些因素的项目来说,AMT 是一个很好的服务。

3. Figure Eight

这是一个机器学习辅助的数据标注平台,能够处理各种 NLP 服务。Figure Eight 很适合创建独特的项目本体。

4. Scale

它提供 NLP 数据注释服务,包括实体注释、OCR 转录、文本分类和情感分析。通过将人工和机器学习的注释实践相结合,它们的分类和内容审核服务是可扩展的。
以上就是今天的内容,希望对你有所帮助。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
大纲
固定大纲
免费的 NLP 工具
1. NTLK (Natural Language Toolkit)
2. PyTorch-Transformers
3. TextBlob
4. SpaCy
5. Stanford CoreNLP
6. Apache OpenNLP
7. AllenNLP
8. GenSim
9. NLP Architect
NLP 服务
1. Lionbridge
2. AMT (Amazon Mechanical Turk )
3. Figure Eight
4. Scale
显示
设置
留言
收藏
98
沉浸
阅读
分享
手机端
快捷键
回顶部