

下载APP



关闭

讲堂

算法训练营

Python 进阶训练营

企业服务

极客商城

客户端下载

兑换中心

渠道合作

推荐作者

当前播放: 31 | Space Jam，一次全文搜索的实例



00:00 / 00:00

标清

标清

1.0x

2.0x
1.5x
1.25x
1.0x
0.5x



网页全屏



全屏

00:00

付费课程，可试看

Elasticsearch核心技术与实战



共100讲 · 约1000分钟

 16516

免费

01 | 课程介绍

免费

02 | 内容综述及学习建议

免费

03 | Elasticsearch简介及其发...

免费

04 | Elastic Stack家族成员及...

免费

05 | Elasticsearch的安装与...

06 | Kibana的安装与界面快速...

07 | 在Docker容器中运行Elas...

08 | Logstash安装与导入数据

09 | 基本概念：索引、文档和...

10 | 基本概念：节点、集群、分...

11 | 文档的基本CRUD与批量操...

12 | 倒排索引介绍

13 | 通过Analyzer进行分词

14 | Search API概览

15 | URI Search详解

16 | Request Body与Query ...

17 | Query String&Simple ...

18 | Dynamic Mapping和常见...

19 | 显式Mapping设置与常见参...

20 | 多字段特性及Mapping中配...

21 | Index Template和Dynami...

22 | Elasticsearch聚合分析简...

23 | 第一部分总结

24 | 基于词项和基于全文的搜索

25 | 结构化搜索

26 | 搜索的相关性算分

27 | Query&Filtering与多字...

28 | 单字符串多字段查询：Dis...

29 | 单字符串多字段查询：Mult...

30 | 多语言及中文分词与检索

31 | Space Jam，一次全文搜索...

32 | 使用Search Template和In...

33 | 综合排序：Function Scor...

34 | Term&Phrase Suggester

35 | 自动补全与基于上下文的提...

36 | 配置跨集群搜索

37 | 集群分布式模型及选主与脑...

38 | 分片与集群的故障转移

39 | 文档分布式存储

40 | 分片及其生命周期

41 | 剖析分布式查询及相关性算...

42 | 排序及Doc Values&Field...

43 | 分页与遍历：From, Siz...

44 | 处理并发读写操作

45 | Bucket & Metric聚合分...

46 | Pipeline聚合分析

47 | 作用范围与排序

48 | 聚合分析的原理及精准度问...

49 | 对象及Nested对象

50 | 文档的父子关系

51 | Update By Query &...

52 | Ingest Pipeline & Pa...

53 | Elasticsearch数据建模实...

54 | Elasticsearch数据建模最...

55 | 第二部分总结回顾

56 | 集群身份认证与用户鉴权

57 | 集群内部安全通信

58 | 集群与外部间的安全通信

59 | 常见的集群部署方式

60 | Hot & Warm架构与Shard...

61 | 分片设计及管理

62 | 如何对集群进行容量规划

63 | 在私有云上管理Elasticsea...

64 | 在公有云上管理与部署Elas...

65 | 生产环境常用配置与上线清...

66 | 监控Elasticsearch集群

67 | 诊断集群的潜在问题

68 | 解决集群Yellow与Red的问...

69 | 提升集群写性能

70 | 提升进群读性能

71 | 集群压力测试

72 | 段合并优化及注意事项

73 | 缓存及使用Breaker限制内...

74 | 一些运维的相关建议

75 | 使用Shrink与Rollover AP...

76 | 索引全生命周期管理及工具...

77 | Logstash入门及架构介绍

78 | 利用JDBC插件导入数据到El...

79 | Beats介绍

80 | 使用Index Pattern配置数...

81 | 使用Kibana Discover探索...

82 | 基本可视化组件介绍

83 | 构建Dashboard

84 | 用Monitoring和Alerting监...

85 | 用APM进行程序性能监控

86 | 用机器学习实现时序数据的...

87 | 用机器学习实现时序数据的...

88 | 用ELK进行日志管理

89 | 用Canvas做数据演示

90 | 项目需求分析及架构设计

91 | 将电影数据导入Elasticsea...

92 | 搭建你的电影搜索服务

93 | 需求分析及架构设计

94 | 数据Extract & Enrichm...

95 | 构建Insights Dashboard

96 | Elastic认证介绍

97 | 考点梳理

98 | 集群数据备份

99 | 基于Java和Elasticseach构...

100 | 结束语

本节摘要

课程 Demo

课件地址

深入了解 Elasticsearch

相关

Windows 安装 pyenv https://github.com/pyenv-win/pyenv-win
Mac 安装 pyenv https://segmentfault.com/a/1190000017403221
Linux 安装 pyenv https://blog.csdn.net/GX_1_11_real/article/details/80237064
Python.org https://www.python.org/

展开



精选留言(16)

Wing

2019-07-24

老师是否可以进行一些java结合es的实战演示，比如与springboot结合。

作者回复: 完成所有的课程后，我可以增加这部分的内容

 1

 8
yu

2019-07-25

老师这个教学演示工具做的真棒

作者回复: 因为在查询时，经常性的需要对参数做一些调整，查看一些参数的修改对搜索结果的影响。希望通过这个，大家可以自己设置不同的mapping，写不同的query，比较一下不同的结果。这是写这个脚本的主要意图



 3
木木

2019-07-25

请问老师后面的课程会安排针对logstash的filter的详细讲解吗？

有一些项目想可以通过logstash的filter定义来处理一些格式相对简单的log文件导入到es里面进行查询？
例如：固定位置的字符串的截取以及配合正则表达式的字符串处理等方法。

作者回复: logstash我争取cover你提到的例子。也争取讲一下jdbc的input plugin

 1

 2
QuITh

2019-07-24

SublimeText很亲切^_^

作者回复: ^_^



 2
Sunqc

2019-07-31

最近被一个问题困扰着，match和term查询一个字段，字段默认会有查询分词和索引分词，用match会按照查询分词，然后term每一个；而term不会进行分词。
对于字段的keyword，是不进行分词的，这时候用match和term是一样的吧。
我在想是keyword的特性比match高还是执行时机不同

作者回复: keyword就用term查询。设定keyword的字段直接可以做aggregation，而设定为text的，需要打开fielddata才能进行aggregation



 1
小美

2019-11-14

老师之前提的keyword就用term查询不太对吧，比如我有个keyword字段存的aaa，用term查询Aaa就不会命中，而用match查询Aaa就会命中因为默认标准分词器会转小写，同一个keyword字段用不同方式查询就产生了不一致情况，具体用哪种要具体分析，比如keyword可以做聚合




godtrue

2019-09-20

https://github.com/onebirdrocks/geektime-ELK
代码演示的github，非常棒，需要加速呀！金九银十错过就要等金三银四啦！




sugar

2019-08-25

没有java的教程吗？

作者回复: 后续会加一节




抢地瓜的阿姨

2019-08-11

在一个查询中，我想问一下：_source和query前后顺序对查询速度有影响吗？有上亿的数据量

作者回复: 前后顺序没有大的问题。能用filter的地方就借用query context，另外要避免使用脚本和通配符查询。

我会在后面专门➕两节，讲一下关于数据写入和读取的性能优化




Hellboy1989

2019-08-07

老师，你好，请问这一节的代码在哪里能找到呢？

作者回复: 所有的代码和演示脚本都在

https://github.com/onebirdrocks/geektime-ELK




周廷泽℡¹³⁵⁴⁰¹...

2019-07-27

老师，ingest_tmdb_from_file.py这些文件放在什么地方的啊我想看下谢谢

作者回复: https://github.com/onebirdrocks/geektime-ELK




光

2019-07-26

老师我有几个问题想要提前问下。
1、filebeat 中 tags 和 filelds 有什么本质区别么。使用场景分别是什么。
2、filebeat 中 processors中得add_tags 以及 add_fields 和上面得tags 有什么区别。




我来也

2019-07-26

前一篇的多语言分词，这一篇的python插入/重建/查询脚本。正好是我这周在弄的。
我是通过kibana的dev tool把重建索引的句子填好，每次修改mapping的配置然后重建索引，再测试效果。这样就不用频繁的导数据了。
老师这个pyrhon显然更方便！

作者回复: 代码可以自己拿去改的更加适合自己的需求。我这个是为课程demo所写，所以应该有很多地方写的比较简陋




旺旺

2019-07-25

大神，我的elasticsearch是怎么了?跑着跑着挂了？是磁盘空间不够了吗？
[2019-07-25T07:51:06,578][WARN ][o.e.x.m.e.l.LocalExporter] unexpected error while indexing monitoring document
org.elasticsearch.xpack.monitoring.exporter.ExportException: RemoteTransportException[[godYxs-][172.17.0.24:9300][indices:data/write/bulk[s]]]; nested: RemoteTransportException[[godYxs-][192.168.66.243:9300][indices:data/write/bulk[s][p]]]; nested: EsRejectedExecutionException[rejected execution of org.elasticsearch.transport.TransportService$7@3876f4d3 on EsThreadPoolExecutor[name = godYxs-/write, queue capacity = 200, org.elasticsearch.common.util.concurrent.EsThreadPoolExecutor@22705a2f[Running, pool size = 24, active threads = 24, queued tasks = 219, completed tasks = 1244615442]]];
        at org.elasticsearch.xpack.monitoring.exporter.local.LocalBulk.lambda$throwExportException$2(LocalBulk.java:128) ~[?:?]
        at java.util.stream.ReferencePipeline$3$1.accept(ReferencePipeline.java:193) ~[?:1.8.0_181]
        at java.util.stream.ReferencePipeline$2$1.accept(ReferencePipeline.java:175) ~[?:1.8.0_181]
        at java.util.Spliterators$ArraySpliterator.forEachRemaining(Spliterators.java:948) ~[?:1.8.0_181]
        at java.util.stream.AbstractPipeline.copyInto(AbstractPipeline.java:481) ~[?:1.8.0_181]
        at java.util.stream.AbstractPipeline.wrapAndCopyInto(AbstractPipeline.java:471) ~[?:1.8.0_181]
        at java.util.stream.ForEachOps$ForEachOp.evaluateSequential(ForEachOps.java:151) ~[?:1.8.0_181]
        at java.util.stream.ForEachOps$ForEachOp$OfRef.evaluateSequential(ForEachOps.java:174) ~[?:1.8.0_181]
        at java.util.stream.AbstractPipeline.evaluate(AbstractPipeline.java:234) ~[?:1.8.0_181]
        at java.util.stream.ReferencePipeline.forEach(ReferencePipeline.java:418) ~[?:1.8.0_181]

展开

作者回复: 我看你打开了monitoring的功能，这应该就会源源不断的搜集你集群的指标信息并发送给ES。

在本地开发，除非是想学习监控的功能。否则个人建议不要打开monitoring的功能




Victor

2019-07-25

老师，请问如何查看relocation的进度？




Geek_469160

2019-07-24

老师好，有一个关于聚合查询返回的buckets的问题，hits中的value返回的不是bucktes的个数。
我本地数据的测试
GET perioddespurchase/_search
{
  "size": 0,
  "aggs": {
    "customerGrade": {
      "terms": {
        "field": "customerGrade.keyword"
      }
    }
  }

}

--------------------------------------这里是分割线,下面是返回值--------------

{
  "took" : 8,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 10000,
      "relation" : "gte"
    },
    "max_score" : null,
    "hits" : [ ]
  },
  "aggregations" : {
    "customerGrade" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "E",
          "doc_count" : 199624
        },
        {
          "key" : "B",
          "doc_count" : 158675
        },
        {
          "key" : "A",
          "doc_count" : 2160
        },
        {
          "key" : "C",
          "doc_count" : 682
        },
        {
          "key" : "D",
          "doc_count" : 235
        },
        {
          "key" : "O",
          "doc_count" : 61
        }
      ]
    }
  }
}

其实我本地只定义了六种Key分别是 A B C D E O，
hits中的value不是应该返回 "6"吗？

展开

作者回复: 你应该用 cardinality的 aggs去看这6个唯一值





去订阅《Elasticsearch核心技术与实战》