极客时间 | Elasticsearch核心技术与实战

当前播放: 13 | 通过Analyzer进行分词







00:00 / 00:00

高清

高清

1.0x

2.0x
1.5x
1.25x
1.0x
0.5x



网页全屏



全屏

00:00

付费课程，可试看

课程目录

第一章：概述 (4讲)



01 | 课程介绍

免费

02 | 内容综述及学习建议

免费

03 | Elasticsearch简介及其发展历史

免费

04 | Elastic Stack家族成员及其应用场景

免费

第二章：安装上手 (4讲)



05 | Elasticsearch的安装与简单配置

免费

06 | Kibana的安装与界面快速浏览

07 | 在Docker容器中运行Elasticsearch Kibana和Cerebro

08 | Logstash安装与导入数据

第三章：Elasticsearch入门 (15讲)



09 | 基本概念：索引、文档和REST API

10 | 基本概念：节点、集群、分片及副本

11 | 文档的基本CRUD与批量操作

12 | 倒排索引介绍

13 | 通过Analyzer进行分词

14 | Search API概览

15 | URI Search详解

16 | Request Body与Query DSL简介

17 | Query String&Simple Query String查询

18 | Dynamic Mapping和常见字段类型

19 | 显式Mapping设置与常见参数介绍

20 | 多字段特性及Mapping中配置自定义Analyzer

21 | Index Template和Dynamic Template

22 | Elasticsearch聚合分析简介

23 | 第一部分总结

第四章：深入搜索 (13讲)



24 | 基于词项和基于全文的搜索

25 | 结构化搜索

26 | 搜索的相关性算分

27 | Query&Filtering与多字符串多字段查询

28 | 单字符串多字段查询：Dis Max Query

29 | 单字符串多字段查询：Multi Match

30 | 多语言及中文分词与检索

31 | Space Jam，一次全文搜索的实例

32 | 使用Search Template和Index Alias查询

33 | 综合排序：Function Score Query优化算分

34 | Term&Phrase Suggester

35 | 自动补全与基于上下文的提示

36 | 配置跨集群搜索

第五章：分布式特性及分布式搜索的机制 (8讲)



37 | 集群分布式模型及选主与脑裂问题

38 | 分片与集群的故障转移

39 | 文档分布式存储

40 | 分片及其生命周期

41 | 剖析分布式查询及相关性算分

42 | 排序及Doc Values&Fielddata

43 | 分页与遍历：From, Size, Search After & Scroll API

44 | 处理并发读写操作

第六章：深入聚合分析 (4讲)



45 | Bucket & Metric聚合分析及嵌套聚合

46 | Pipeline聚合分析

47 | 作用范围与排序

48 | 聚合分析的原理及精准度问题

第七章：数据建模 (7讲)



49 | 对象及Nested对象

50 | 文档的父子关系

51 | Update By Query & Reindex API

52 | Ingest Pipeline & Painless Script

53 | Elasticsearch数据建模实例

54 | Elasticsearch数据建模最佳实践

55 | 第二部分总结回顾

第八章：保护你的数据 (3讲)



56 | 集群身份认证与用户鉴权

57 | 集群内部安全通信

58 | 集群与外部间的安全通信

第九章：水平扩展Elasticsearch集群 (6讲)



59 | 常见的集群部署方式

60 | Hot & Warm架构与Shard Filtering

61 | 分片设计及管理

62 | 如何对集群进行容量规划

63 | 在私有云上管理Elasticsearch集群的一些方法

64 | 在公有云上管理与部署Elasticsearch集群

第十章：生产环境中的集群运维 (10讲)



65 | 生产环境常用配置与上线清单

66 | 监控Elasticsearch集群

67 | 诊断集群的潜在问题

68 | 解决集群Yellow与Red的问题

69 | 提升集群写性能

70 | 提升进群读性能

71 | 集群压力测试

72 | 段合并优化及注意事项

73 | 缓存及使用Breaker限制内存使用

74 | 一些运维的相关建议

第十一章：索引生命周期管理 (2讲)



75 | 使用Shrink与Rollover API有效管理时间序列索引

76 | 索引全生命周期管理及工具介绍

第十二章：用Logstash和Beats构建数据管道 (3讲)



77 | Logstash入门及架构介绍

78 | 利用JDBC插件导入数据到Elasticsearch

79 | Beats介绍

第十三章：用Kibana进行数据可视化分析 (4讲)



80 | 使用Index Pattern配置数据

81 | 使用Kibana Discover探索数据

82 | 基本可视化组件介绍

83 | 构建Dashboard

第十四章：探索X-Pack套件 (6讲)



84 | 用Monitoring和Alerting监控Elasticsearch集群

85 | 用APM进行程序性能监控

86 | 用机器学习实现时序数据的异常检测（上）

87 | 用机器学习实现时序数据的异常检测（下）

88 | 用ELK进行日志管理

89 | 用Canvas做数据演示

实战1：电影搜索服务 (3讲)



90 | 项目需求分析及架构设计

91 | 将电影数据导入Elasticsearch

92 | 搭建你的电影搜索服务

实战2：Stackoverflow用户调查问卷分析 (3讲)



93 | 需求分析及架构设计

94 | 数据Extract & Enrichment

95 | 构建Insights Dashboard

备战：Elastic认证 (5讲)



96 | Elastic认证介绍

97 | 考点梳理

98 | 集群数据备份

99 | 基于Java和Elasticseach构建应用

100 | 结束语

13 | 通过Analyzer进行分词

阮一鸣

eBay Pronto平台技术负责人

100讲约1000分钟16687

单独订阅¥129

2人成团¥99







登录后留言

精选留言(77)

老男孩

老师，建议以后加一节java整合es的课

作者回复: 好的，记下这个需求了。之前没有这方面的计划。目前有收到2位同学提出这方面的需要了。

2019-07-02

 12

 64
.两个调味罐

老师，课后面会教怎么和java或者springboot整合吗？

作者回复: 暂时没有这个计划。如果有很多同学有这个需求，我可以➕一节

2019-07-01

 7

 40
有铭

给各位使用docker跑Elasticsearch安装插件的简单办法，无需dockerFile自制镜像。以本帖的双es启动为例：
1.进入es的容器并启动bash。命令 docker exec -it es7_01 bash
注：es7_01 即容器名称
2..第一步成功你会发现你已经在容器内部，此时输入 pwd 命令会发现自己处于/usr/share/elasticsearch 路径。此时即可输入插件安装命令 bin/elasticsearch-plugin install analysis-icu
等待插件下载并安装完毕
3.输入exit退出容器bash。
4.如法炮制es7_02并安装插件。
5.docker-compose restart 重启容器
6.重启后，检查安装是否成功，输入 curl 127.0.0.1:9200/_cat/plugins，输出：
es7_01 analysis-icu 7.2.0
es7_02 analysis-icu 7.2.0
代表成功

作者回复: 非常棒的分享。这样操作更为方便。

2019-07-06

 6

 17
王俊杰

老师，建议以后加一节java整合es的课

作者回复: 👌

2019-07-02

 1

 17
天琪

ik分析器安装：
bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.1.0/elasticsearch-analysis-ik-7.1.0.zip

kibana 演示：

POST _analyze
{
  "analyzer": "ik_smart",
  "text": "中华人民共和国国歌"
}

POST _analyze
{
  "analyzer": "ik_max_word",
  "text": "中华人民共和国国歌"
}

ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合，适合 Term Query；

ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”，适合 Phrase 查询

作者回复: 谢谢分享！

2019-07-01

 3

 17
施小江

老师，你好，能不能保持每天或者隔天更新一到两集，这样可以保持一个学习的习惯。

作者回复: 具体的更新节奏，编辑同学会有所控制，已经录制了一部分课程

2019-07-01



 7
Dev.M

老师讲得很好，不过更新速度有些慢呀

作者回复: 可以多看一些相关文档，自己多做一些练习。争取夯基础，一下看很多的内容也未必一下记得住，细水长流，贵在坚持。

2019-07-02



 6
无笔秀才

其实个人项目中已经在重度使用es,也遇到了一些问题，购买课程主要是想向老师学习，并请教一些问题的解决方案。
1. 自动创建的mapping 如text.keyword 后面如果想修改怎么办，比如按月分 index_201901/ index_201902
,那么新旧不一致，导致查询语句也不一致。
如:
"title": {
  "type": "text",
  "fields": {
    "keyword": {
      "type": "keyword",
      "ignore_above": 256
    }
  }
}
现在想改成
"title": {
  "type": "keyword"
}
由于之前的查询语句都已经写成title.keyword了。如果修改了之后就会导致index_201901 - index_201906都是带keyword的。但是index_201907及以后的都都是不带keyword的。这种情况是需要将前面的index数据先备份，再删除重新建立mapping 再导入原来的数据吗？

2. 由于需求要对某些字段（如title）进行复杂条件查询，and / or ,我就想到了query_string，查找性能较慢。有时候甚至会超时。

3. 副本数设置的多，那么稳定性就会增强，那么势必会造成同步的成本，这里想跟老师确认一下副本同步过程是强一致性，还是最终一致性？一个写请求过来，是等所有副本都同步完了才返回给客户端，还是先把主节点操作完成就返回主节点呢？我个人感觉应该是强一致性。不然副本同步失败也无法通知客户端了。

4. 我们现在想存文章正文但是不想分词，于是我就设置成了如下格式。但是遇到了一些变态文章很长，超长了。就会写入失败，而不是被截断。再确认一点我看文档说 ignore_above 设置的是字节数，而不是字数。
"content": {
      "type": "keyword",
      "ignore_above": 20000
    }

5. 在课程中也发现ik分词可以自定义词库等，这里有一个疑惑就算是用自己的词库，那么加入当发现一个新词的时候，我需要热更新自定义词库，这时候文章已经写入es了，但还是按照旧的词库去分词的。还有热更新词库会不会较慢影响读写性能。以至于要停机更新？

多谢老师指教

作者回复: 1. mapping修改，需要做reindex。基于时间序列的index可以结合index template来创建。可以配置index alias来解决index改名产生的问题
。

2查询的性能问题，你能给出具体的例子吗？否则我不知道如何回答

3. 分片数的设定，读写文件的流程。在后续会做讲解。简单来说，如果写入频率不高，设置多个副本会提升读取性能

4. 我觉得你不应该设置keyword，而是应该在mapoing中将那个字段设置成ignore。

5.ik和hanlp等分析器支持词库的动态更新的。后续课程会讲。

希望这些简单的回答对你有用。

2019-06-30



 5
暖色浮余生

我也提一下spring boot整个es😬

作者回复: ➕1

2019-07-08



 3
醉美柳舞之众星捧月

我也需要Java整合ES的，我是用的springCloud,谢谢老师

作者回复: 好！

2019-07-05



 3
soul

老师你好，我现在的项目也用到了es，但是不怎么深入，以后会有es结合springboot系列吗，还有就是es怎么保证和MySQL的数据增删改差同步

作者回复: 数据库可以通过external version控制。springbot我原本没有计划，现在会考虑增加一节讲解

2019-07-02



 3
PLADahuzi

老师，请问你在中文分词时使用的是post方法，而之前你用的是get方法，有什么区别吗？我用get进行分词也好像是没有什么问题，解答一下吗？

作者回复: 查询时get和post可以混着用，一般用post更加好，因为不会有uri 参数过长的问题。_analyze api也一样

2019-08-02

 1

 2
Geek_Dream

老师怎么在ES集群中安装中文分词器插件，我是在docker中运javascript:;行的，多谢指导。

作者回复: docker需要写Dockerfile，然后在dockerfile中加上install plugin的命令。然后执行 docker build . 即可以编译出带插件的image

2019-07-25



 2
种菜大哥

Python和es的整合，也加一点吧

作者回复: 有部分例子有用到python

2019-07-09



 2
石将从

使用中文分词时报错，
POST /_analyze
{
  "analyzer": "icu_analyzer",
  "text": "北京大学"
}

{
  "error": {
    "root_cause": [
      {
        "type": "remote_transport_exception",
        "reason": "[F2nqCBO][127.0.0.1:9300][indices:admin/analyze[s]]"
      }
    ],
    "type": "illegal_argument_exception",
    "reason": "failed to find global analyzer [icu_analyzer]"
  },
  "status": 400
}

作者回复: 不知道你是否已经安装了icu-analyzer？

http://localhost:9200/_cat/plugins
查看插件。否则使用elasticsearch-plugin install analysis-icu

2019-07-03

 1

 2
Hurt

建议来个python整合和分词的处理 😁

作者回复: 分词不需要python。使用python写入其实是用rest api。课程space jam 一节，有提供相关的代码。并不难的

2019-08-15



 1
Hurt

es 是不是中文分词不是很友好吧推荐是用jieba在处理是吧

作者回复: 中文分词可以选择几个相关插件，后面有一节介绍。然后不断完善符合自己需求的词库。

2019-08-15



 1
塘渡

课程更新频率是怎么安排的？

作者回复: 应该会在2个月内更新完毕

2019-07-01



 1
无笔秀才

老师你好，在进行区间聚合的时候，如根据age 年龄段进行聚合，0-18 ， 18-* 分为未成年人和成年人。
聚合如下:
{
    "aggs" : {
        "age_ranges" : {
            "range" : {
                "field" : "age",
                "keyed" : true,
                "ranges" : [
                    { "key" : "未成年", "to" : 18 },
                    { "key" : "成年人", "from" : 18 }
                ]
            }
        }
    }
}
现在有10条记录，结果是未成年3条，成年的4条。发现有3条记录根本就没有age字段，现在产品想把剩下的3条放到"其他"项里。这里我想到的办法是先count 一下，再减去aggs 里每一项的值。就是其他的数量。请老师赐教。

作者回复: 你需要为空值设置默认值，在你的例子里设置成“其他”的keyword即可

文档

https://www.elastic.co/guide/en/elasticsearch/reference/5.2/null-value.html

2019-06-30



 1
oldriver

老师， docker环境怎么安装cu analyzer

作者回复: docker如何需要安装需要自己写 Dockerfile。把es的image作为base image。然后执行install icu，然后打成新的image。在compose中使用你自己生成的新的image

2019-06-30

 1

 1