极客视点
极客时间编辑部
极客时间编辑部
113233 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/03:12
登录|注册

推荐7个优秀的开源中文分词库

讲述:丁婵大小:1.46M时长:03:12
在进行中文自然语言处理时,通常需要先进行分词。在整个开源领域,陆陆续续做中文分词的也有不少,不过,目前仍在维护的并且质量较高的并不多。本文整理了一些比较优秀的中文分词库,以供开发者参考使用。
1.jieba —— Python 中文分词组件
这个库支持三种分词模式:精确模式、全模式、搜索引擎模式。另外,它还支持繁体分词和自定义词典。
2.HanLP —— 汉语言处理包
这个库的目标是普及自然语言处理在生产环境中的应用,具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,同时自带一些语料处理工具,帮助用户训练自己的模型。
3.Jcseg —— 轻量级 Java 中文分词器
Jcseg 是基于 MMSEG 算法的一个轻量级中文分词器,同时集成了关键字提取、关键短语提取、关键句子提取和文章自动摘要等功能,并且提供了一个基于 Jetty 的 web 服务器,方便各大语言直接使用 http 调用。
4.sego —— Go 中文分词
它的词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。这个库支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务。
5.FoolNLTK
这个库可能不是最快的开源中文分词,但很可能是最准的开源中文分词。它是基于 BiLSTM 模型训练而成的,包含分词、词性标注、实体识别等,都有比较高的准确率。可以让用户自定义词典,也可以训练自己的模型和进行批量处理。
6.Ansj 中文分词 —— 基于 N-Gram+CRF+HMM 的中文分词的 Java 实现
这个库的分词速度达到了每秒钟大约 200 万字左右(mac air 下测试),准确率能达到 96% 以上。目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能,可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。
7.word 分词 —— Java 分布式中文分词组件
word 分词提供了多种基于词典的分词算法,并利用 Ngram 模型来消除歧义。能够自定义用户词库、自动检测词库变化、支持大规模分布式环境,还能使用词频统计、词性标注、同义标注、反义标注、拼音标注等功能。它提供了 10 种分词算法,并且还提供了 10 种文本相似度算法。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • 不记年
    THULAC分词比结巴强很多
收起评论
显示
设置
留言
1
收藏
99+
沉浸
阅读
分享
手机端
快捷键
回顶部