https://gitee.com/geektime-geekbang/geektime-ELK
Elasticsearch IK 分词插件 https://github.com/medcl/elasticsearch-analysis-ik/releases
Elasticsearch hanlp 分词插件 https://github.com/KennFalcon/elasticsearch-analysis-hanlp
分词算法综述 https://zhuanlan.zhihu.com/p/50444885
中科院计算所 NLPIR http://ictclas.nlpir.org/nlpir/
ansj 分词器 https://github.com/NLPchina/ansj_seg
哈工大的 LTP https://github.com/HIT-SCIR/ltp
清华大学 THULAC https://github.com/thunlp/THULAC
斯坦福分词器 https://nlp.stanford.edu/software/segmenter.shtml
Hanlp 分词器 https://github.com/hankcs/HanLP
结巴分词 https://github.com/yanyiwu/cppjieba
KCWS 分词器 (字嵌入 +Bi-LSTM+CRF) https://github.com/koth/kcws
ZPar https://github.com/frcchang/zpar/releases
IKAnalyzer https://github.com/wks/ik-analyzer
作者回复: 赞👍
作者回复: 👍
作者回复: 方案1。 不同语言用不同索引,例如 orders-cn ,orders-en 方案二:可以通过设置mulfi field 为期创建多个子字段,这个子字段可以使用不同的分词器。 至于用户在搜索的时候使用什么语言,可以让用户指定,或者通过http header中的accept language来判定。 至于你索引的数据,如果你明确知道他所用的语言,用方案一会很简单。否则你需要使用一个学习算法对文档的语言进行归类。有一些现成的库可以使用,例如 chromiu-compact-language-detector ,基于google的CLD开发,支持160多种语言的detect
作者回复: 第一种方式,需要写Dockerfile,然后去build出你特定的image。你查一下如何写docker image,然后只需要吧插件安装那行命令写进dockerfile即可 第二种,运行后attach到container中,执行plugin 安装的命令,但是container销毁后,需要重做
作者回复: 第一个确实如此。需要rolling restart。 第二个应该不会这样。
作者回复: 具体是指哪方面的需求?
作者回复: 有中文分词的需求 可以一起使用啊。担心性能 可以做一个性能测试,看看是否满足你的实际负载
作者回复: 1. install 必须提供zip文件 2. 如果安装后需要修改相应目录下的文件,你需要通过在dockerfile中写shell脚本去执行这一些列的操作
作者回复: 找到github,点开release,提过没有就需要等一下。有些插件需要一定时间才能跟上最新的版本
作者回复: 你可以把相关的问题提到jieba的github上。按照道理你index和search都没有使用,应该不会有什么开销。分词一般会对cpu有开销,你的es慢,你看是cpu消耗大还是有内存方面的gc?