北大开源中文分词工具包pkuseg
极客时间编辑部
讲述:丁婵大小:2.07M时长:02:16
近日,北京大学语言计算与机器学习研究组研制推出了一套全新的中文分词工具包 pkuseg,据了解,这一工具包的特点包括:
高分词准确率。相比于其他的分词工具包,当使用相同的训练数据和测试数据时,它可以取得更高的分词准确率。
多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。而其他现有分词工具包,一般仅提供通用领域模型。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。
在训练中,研究人员将该工具包与 jieba、THULAC 等国内代表分词工具包进行了性能比较。考虑到 jieba 分词和 THULAC 工具包等并没有提供细领域的预训练模型,为了便于比较,开发团队重新使用它们提供的训练接口在细领域的数据集上进行训练,用训练得到的模型进行中文分词。
他们选择 Linux 作为测试环境,在新闻数据 (MSRA)、混合型文本 (CTB8)、网络文本 (WEIBO) 的数据上,对不同工具包进行了准确率测试。
在此过程中,他们使用第二届国际汉语分词评测比赛提供的分词评价脚本。对于不同的分词工具包,训练测试数据的划分都是一致的,也就是所有的分词工具包都在相同的训练集上训练,在相同的测试集上测试。
同时,为了比较细领域分词的优势,开发团队比较了他们的方法和通用分词模型的效果对比。其中 jieba 和 THULAC 都使用了软件包提供的、默认的分词模型。
从结果上来看,当用户了解待分词文本的领域时,细领域分词可以取得更好的效果。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- 小不六网上的风评好像并没有文中描写的这么优秀1
收起评论