

下载APP



关闭

讲堂

算法训练营

Python 进阶训练营

企业服务

极客商城

客户端下载

兑换中心

渠道合作

推荐作者

当前播放: 48 | 聚合分析的原理及精准度问题



00:00 / 00:00

标清

标清

1.0x

2.0x
1.5x
1.25x
1.0x
0.5x



网页全屏



全屏

00:00

付费课程，可试看

Elasticsearch核心技术与实战



共100讲 · 约1000分钟

 16569

免费

01 | 课程介绍

免费

02 | 内容综述及学习建议

免费

03 | Elasticsearch简介及其发...

免费

04 | Elastic Stack家族成员及...

免费

05 | Elasticsearch的安装与...

06 | Kibana的安装与界面快速...

07 | 在Docker容器中运行Elas...

08 | Logstash安装与导入数据

09 | 基本概念：索引、文档和...

10 | 基本概念：节点、集群、分...

11 | 文档的基本CRUD与批量操...

12 | 倒排索引介绍

13 | 通过Analyzer进行分词

14 | Search API概览

15 | URI Search详解

16 | Request Body与Query ...

17 | Query String&Simple ...

18 | Dynamic Mapping和常见...

19 | 显式Mapping设置与常见参...

20 | 多字段特性及Mapping中配...

21 | Index Template和Dynami...

22 | Elasticsearch聚合分析简...

23 | 第一部分总结

24 | 基于词项和基于全文的搜索

25 | 结构化搜索

26 | 搜索的相关性算分

27 | Query&Filtering与多字...

28 | 单字符串多字段查询：Dis...

29 | 单字符串多字段查询：Mult...

30 | 多语言及中文分词与检索

31 | Space Jam，一次全文搜索...

32 | 使用Search Template和In...

33 | 综合排序：Function Scor...

34 | Term&Phrase Suggester

35 | 自动补全与基于上下文的提...

36 | 配置跨集群搜索

37 | 集群分布式模型及选主与脑...

38 | 分片与集群的故障转移

39 | 文档分布式存储

40 | 分片及其生命周期

41 | 剖析分布式查询及相关性算...

42 | 排序及Doc Values&Field...

43 | 分页与遍历：From, Siz...

44 | 处理并发读写操作

45 | Bucket & Metric聚合分...

46 | Pipeline聚合分析

47 | 作用范围与排序

48 | 聚合分析的原理及精准度问...

49 | 对象及Nested对象

50 | 文档的父子关系

51 | Update By Query &...

52 | Ingest Pipeline & Pa...

53 | Elasticsearch数据建模实...

54 | Elasticsearch数据建模最...

55 | 第二部分总结回顾

56 | 集群身份认证与用户鉴权

57 | 集群内部安全通信

58 | 集群与外部间的安全通信

59 | 常见的集群部署方式

60 | Hot & Warm架构与Shard...

61 | 分片设计及管理

62 | 如何对集群进行容量规划

63 | 在私有云上管理Elasticsea...

64 | 在公有云上管理与部署Elas...

65 | 生产环境常用配置与上线清...

66 | 监控Elasticsearch集群

67 | 诊断集群的潜在问题

68 | 解决集群Yellow与Red的问...

69 | 提升集群写性能

70 | 提升进群读性能

71 | 集群压力测试

72 | 段合并优化及注意事项

73 | 缓存及使用Breaker限制内...

74 | 一些运维的相关建议

75 | 使用Shrink与Rollover AP...

76 | 索引全生命周期管理及工具...

77 | Logstash入门及架构介绍

78 | 利用JDBC插件导入数据到El...

79 | Beats介绍

80 | 使用Index Pattern配置数...

81 | 使用Kibana Discover探索...

82 | 基本可视化组件介绍

83 | 构建Dashboard

84 | 用Monitoring和Alerting监...

85 | 用APM进行程序性能监控

86 | 用机器学习实现时序数据的...

87 | 用机器学习实现时序数据的...

88 | 用ELK进行日志管理

89 | 用Canvas做数据演示

90 | 项目需求分析及架构设计

91 | 将电影数据导入Elasticsea...

92 | 搭建你的电影搜索服务

93 | 需求分析及架构设计

94 | 数据Extract & Enrichm...

95 | 构建Insights Dashboard

96 | Elastic认证介绍

97 | 考点梳理

98 | 集群数据备份

99 | 基于Java和Elasticseach构...

100 | 结束语

本节摘要

课程 Demo

课件地址

深入了解 Elasticsearch

展开



精选留言(13)

yu

2019-08-19

老师，我觉得doc_count_error_upper_bound=4+2不是4+3？？？

 3

 5
godtrue

2019-09-21

本节好玩，刷新了认知
1：size和shard_size的区别？
size是最终返回多少个buckt的数量。
shard_size是每个bucket在一个shard上取回的bucket的总数。然后，每个shard上的结果，会在coordinate节点上在做一次汇总，返回总数。
2：doc_count_error_upper_bound：被遗漏的term分桶里面包含的文档有可能的最大值——千万注意“可能的最大值”！
文中的例子 4+3没毛病，因为取回的三个的最小的桶里面是4个。所以遗漏的最大的可能数值是4。注意是“可能最大”而不是“实际最大值”。
3：关于coordinate的注意事项？
任何节点都具备coordinate的能力，也就是说你无法配置一个节点，不具备coordinate的角色。但是你可以配置只负责coordinate的节点。数据存储，都保存在数据节点上。——一个节点如果是数据节点，则必然具备存储数据的能力，而ES中任何节点都天生具备路由的能力。

展开



 3
eureka

2019-09-24

老师，右边的为什么遗漏数是3？最大可能数，不应该是2吗？



 2
Geek_5b11b8

2019-10-04

关于4+3等于7是遗漏的数据量，我的理解是这样的，首先在左边因为全部在结果里面包含，所以遗漏的最大可能值就是左边数量最小的那个也就是4，而右边因为AB都在结果里面(这也是为什么不是2的原因)，所以不能算遗漏而D在合并后丢掉了，所以取值是3，所以和为7，应该是这样的。



 1
氧气🌙 🐟 🌺

2019-08-20

doc_count_error_upper_bound：被遗漏的term分桶里面包含的文档有可能的最大值
左边分片返回分桶ABC，剩下的有可能遗漏的term的总数最大只可能是4，这里不明白。明明遗漏的是3嘛

作者回复: 因为取回的三个的最小的桶里面是4个。所以遗漏的最大的可能数值是4。注意是“可能最大”而不是“实际最大值”

 1

 1
Pantheon

2019-08-15

老师,,没明白shard_size的原理,获取更多的bucket吗?那和size有啥区别

作者回复: size是最终返回多少个buckt的数量。
shard_size是每个bucket在一个shard上取回的bucket的总数。然后，每个shard上的结果，会在coordinate节点上在做一次汇总，返回总数



 1
冷冽

2019-11-30

这个termsaggs的例子里面的 doc_count_error_upper_bound经过我实际操作，elasticsearch返回的结果就是6，所以应该是分片1的可能最大遗漏值是4，分片2的可能最大遗漏值是2.加起来是6。经过实际操作可以了解更多细节内容，比如实际操作的时候如果要实现错误场景还需要使用到 size和shard_size两个参数。size表示最终结果返回的数量，shard_size表示从每个分片中聚合的结果返回的数量。shard_size设置为3时结果就不准确了，可以将这个值设置大一点，就可以让结果跟准确




踮脚时光

2019-11-07

没有说明白为什么是 4+3

 1


Frode

2019-10-02

老师请教一下您建议使用rest api 的意思是什么？例如我用java开发，使用resttemplate来发送dsl语法，获取json数据么？我现在用的是springdata的api，用的像是9300的端口呢，并且不熟悉api的用法，操作很麻烦。

作者回复: 9300是transport API。9200是rest api。rest api就是基于http的。支持使用全部的es的dsl。你可以看一下后面关于java调用es的相关课程。你可以调用hlrc。在全部课程的倒数几个视频中




Geek_0ac7f5

2019-09-16

老师，cardinality可以精确统计吗？




Ryoma

2019-09-05

一个分区可以支持多少文档数或文档大小，或者老师可以给个经验标准

作者回复: 一个shard的存储容量控制在30gb 以内，后面容量规划中有相关的讲解




Jayden

2019-08-28

能否增加集群性能优化的讲解。现在我们遇到查询性能问题，TP99怎么能够优化提升




RXTM

2019-08-18

老师，我想问一下coordinate节点和普通的节点一样会存储数据么？还是它只负责协调？

作者回复: 任何节点都具备coordinate的能力，也就是说你无法配置一个节点，不具备coordinate的角色。但是你可以配置只负责coordinate的节点。数据存储，都保存在数据节点上





去订阅《Elasticsearch核心技术与实战》