推荐7个优秀的开源中文分词库
极客时间编辑部
讲述:丁婵大小:1.46M时长:03:12
在进行中文自然语言处理时,通常需要先进行分词。在整个开源领域,陆陆续续做中文分词的也有不少,不过,目前仍在维护的并且质量较高的并不多。本文整理了一些比较优秀的中文分词库,以供开发者参考使用。
1.jieba —— Python 中文分词组件
这个库支持三种分词模式:精确模式、全模式、搜索引擎模式。另外,它还支持繁体分词和自定义词典。
2.HanLP —— 汉语言处理包
这个库的目标是普及自然语言处理在生产环境中的应用,具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,同时自带一些语料处理工具,帮助用户训练自己的模型。
3.Jcseg —— 轻量级 Java 中文分词器
Jcseg 是基于 MMSEG 算法的一个轻量级中文分词器,同时集成了关键字提取、关键短语提取、关键句子提取和文章自动摘要等功能,并且提供了一个基于 Jetty 的 web 服务器,方便各大语言直接使用 http 调用。
4.sego —— Go 中文分词
它的词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。这个库支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务。
5.FoolNLTK
这个库可能不是最快的开源中文分词,但很可能是最准的开源中文分词。它是基于 BiLSTM 模型训练而成的,包含分词、词性标注、实体识别等,都有比较高的准确率。可以让用户自定义词典,也可以训练自己的模型和进行批量处理。
6.Ansj 中文分词 —— 基于 N-Gram+CRF+HMM 的中文分词的 Java 实现
这个库的分词速度达到了每秒钟大约 200 万字左右(mac air 下测试),准确率能达到 96% 以上。目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能,可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。
7.word 分词 —— Java 分布式中文分词组件
word 分词提供了多种基于词典的分词算法,并利用 Ngram 模型来消除歧义。能够自定义用户词库、自动检测词库变化、支持大规模分布式环境,还能使用词频统计、词性标注、同义标注、反义标注、拼音标注等功能。它提供了 10 种分词算法,并且还提供了 10 种文本相似度算法。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- 不记年THULAC分词比结巴强很多
收起评论