下载APP
登录
关闭
讲堂
算法训练营
Python 进阶训练营
企业服务
极客商城
客户端下载
兑换中心
渠道合作
推荐作者
当前播放: 28 | 单字符串多字段查询:Dis Max Query
00:00 / 00:00
标清
  • 标清
1.0x
  • 2.0x
  • 1.5x
  • 1.25x
  • 1.0x
  • 0.5x
网页全屏
全屏
00:00
付费课程,可试看

Elasticsearch核心技术与实战

共100讲 · 约1000分钟
16576
免费
01 | 课程介绍
免费
02 | 内容综述及学习建议
免费
03 | Elasticsearch简介及其发...
免费
04 | Elastic Stack家族成员及...
免费
05 | Elasticsearch的安装与...
06 | Kibana的安装与界面快速...
07 | 在Docker容器中运行Elas...
08 | Logstash安装与导入数据
09 | 基本概念:索引、文档和...
10 | 基本概念:节点、集群、分...
11 | 文档的基本CRUD与批量操...
12 | 倒排索引介绍
13 | 通过Analyzer进行分词
14 | Search API概览
15 | URI Search详解
16 | Request Body与Query ...
17 | Query String&Simple ...
18 | Dynamic Mapping和常见...
19 | 显式Mapping设置与常见参...
20 | 多字段特性及Mapping中配...
21 | Index Template和Dynami...
22 | Elasticsearch聚合分析简...
23 | 第一部分总结
24 | 基于词项和基于全文的搜索
25 | 结构化搜索
26 | 搜索的相关性算分
27 | Query&Filtering与多字...
28 | 单字符串多字段查询:Dis...
29 | 单字符串多字段查询:Mult...
30 | 多语言及中文分词与检索
31 | Space Jam,一次全文搜索...
32 | 使用Search Template和In...
33 | 综合排序:Function Scor...
34 | Term&Phrase Suggester
35 | 自动补全与基于上下文的提...
36 | 配置跨集群搜索
37 | 集群分布式模型及选主与脑...
38 | 分片与集群的故障转移
39 | 文档分布式存储
40 | 分片及其生命周期
41 | 剖析分布式查询及相关性算...
42 | 排序及Doc Values&Field...
43 | 分页与遍历:From, Siz...
44 | 处理并发读写操作
45 | Bucket & Metric聚合分...
46 | Pipeline聚合分析
47 | 作用范围与排序
48 | 聚合分析的原理及精准度问...
49 | 对象及Nested对象
50 | 文档的父子关系
51 | Update By Query &...
52 | Ingest Pipeline & Pa...
53 | Elasticsearch数据建模实...
54 | Elasticsearch数据建模最...
55 | 第二部分总结回顾
56 | 集群身份认证与用户鉴权
57 | 集群内部安全通信
58 | 集群与外部间的安全通信
59 | 常见的集群部署方式
60 | Hot & Warm架构与Shard...
61 | 分片设计及管理
62 | 如何对集群进行容量规划
63 | 在私有云上管理Elasticsea...
64 | 在公有云上管理与部署Elas...
65 | 生产环境常用配置与上线清...
66 | 监控Elasticsearch集群
67 | 诊断集群的潜在问题
68 | 解决集群Yellow与Red的问...
69 | 提升集群写性能
70 | 提升进群读性能
71 | 集群压力测试
72 | 段合并优化及注意事项
73 | 缓存及使用Breaker限制内...
74 | 一些运维的相关建议
75 | 使用Shrink与Rollover AP...
76 | 索引全生命周期管理及工具...
77 | Logstash入门及架构介绍
78 | 利用JDBC插件导入数据到El...
79 | Beats介绍
80 | 使用Index Pattern配置数...
81 | 使用Kibana Discover探索...
82 | 基本可视化组件介绍
83 | 构建Dashboard
84 | 用Monitoring和Alerting监...
85 | 用APM进行程序性能监控
86 | 用机器学习实现时序数据的...
87 | 用机器学习实现时序数据的...
88 | 用ELK进行日志管理
89 | 用Canvas做数据演示
90 | 项目需求分析及架构设计
91 | 将电影数据导入Elasticsea...
92 | 搭建你的电影搜索服务
93 | 需求分析及架构设计
94 | 数据Extract & Enrichm...
95 | 构建Insights Dashboard
96 | Elastic认证介绍
97 | 考点梳理
98 | 集群数据备份
99 | 基于Java和Elasticseach构...
100 | 结束语
本节摘要
展开

精选留言(18)

  • 输入错误??在讲dis_max的时候,第一次查询用的是brown fox,,第二次用的是quick fox哦。
    1
    7
  • 2019-07-20
    3.乘以匹配语句总数
    4.除以所有语句
    我对语句的理解是{"match": {"title": "Brown fox"}}是一个语句,{"match": {"body": "Brown fox"}}是第二个语句,不知道这样想法对不对

    而且我看视频里_explanation中均是sum of啊?should算分除以所有语句总数的过程没有啊
    展开
    3
  • 引入tie_breaker后详细算分过程不明白。
    https://www.elastic.co/guide/en/elasticsearch/reference/7.3/query-dsl-dis-max-query.html
    以上文档中写到:
    1.Take the relevance score from a matching clause with the highest score.
    2.Multiply the score from any other matching clauses by the tie_breaker value.
    3.Add the highest score to the multiplied scores.
    If the tie_breaker value is greater than 0.0, all matching clauses count, but the clause with the highest score counts most.
    还是不明白。
    老师能否举例比较引入tie_breaker前后具体算分过程
    展开
    1
  • 2019-07-24
    老师,你好,请问一个问题:
          比如我要查询名字为“张三”的人,我希望包含张三这个完整的字段排在最前面,其他和张三有关的词排在后面,这个请问咋设计啊?

    作者回复: 不是很明白你的问题。但是出现在这一节。我猜你的意思是:
    用户的查询输入是“张三”。文档有很多字段,你希望名字字段中包含张三的内容出现在最前面。其他字段中包含张三的出现在相对后面。

    思路如下,第一,这个情况下,每个字段应该属于竞争的关系。需要选择best_fields的方式。但是你期望其他的字段如果包含了张三,也要被命中,你可以通过设置tie_breaker,考虑进其他字段的算分。

    另外,你还可以设置每个字段的booster数值进行调整。

    tie_breaker和booster具体取值,你需要通过数据进行一些测试后给出合适的取值

    1
  • 2019-07-21
    阮老师,关于tie breaker的0-1说明,是不是说反了,0是代表所有语句同等重要。1是代表使用最佳匹配?

    作者回复: 可以看一下API的说明

    https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-dis-max-query.html

    看一下计算的几个步骤,最后写,
    If the tie_breaker value is greater than 0.0, all matching clauses count, but the clause with the highest score counts most.

    这个参数默认是0,只算最佳字段上的,因为其他情况都乘0了:)。理解了过程,这样就不需要死记硬背0和1的区别了。

    2
    1
  • 2019-07-20
    请问一下老师竞争字段具体是啥意思, 能不能解释一下这个概念, 我有点不太理解

    作者回复: 当用户输入了单个字符串查询的时候,通常会遇到以下三种情形:

    最佳字段(best match)
    当搜索词语具体概念的时候,比如 “brown fox” ,词组比各自独立的单词更有意义。像 title 和 body 这样的字段,尽管它们之间是相关的,但同时又彼此相互竞争。文档在 相同字段 中包含的词越多越好,评分也来自于 最匹配字段

    多数字段(most fields)
    为了对相关度进行微调,常用的一个技术就是将相同的数据索引到不同的字段,它们各自具有独立的分析链。

    主字段可能包括它们的词源、同义词以及 变音词 或口音词,被用来匹配尽可能多的文档。

    1
  • 2019-12-12
    tie breaker老师说的不是特别清晰,大概是这样子的,单纯disjunction(默认tie breaker为0)的话是以最高的评分作为排序依据,那就容易忽略其他条件对分数做出的贡献,如果想要增强相关度,那么需要加入tie breaker大于零来增强其他条件做出的贡献。
  • POST blogs/_search
     {
       "explain": true,
        "query": {
            "dis_max": {
                "queries": [
                    { "match": { "title": "Quick pets" }},
                    { "match": { "body": "Quick pets" }}
                ]
            }
        }
     }
    针对这个查询,之所以查询结果中文档1、2的算分相同,是不是因为分别都是文档1、2针对 title: Qucik pets这个条件的算分最高,文档1的title有qucik,文档2的title有pets,且TF词频都是1/3。

    而针对IDF我有个疑问,如果根据 IDF是体现检索词在所有文档中出现的频率,那么检索词qucik在两个文档中都出现了,分别是文档1的title,文档2的body,而pets只在文档2的title出现,按道理pets的IDF应该更高,可实际是explain:true之后,quick和pets的IDF相同。
    所以,请问IDF含义中的检索词在所有文档中出现的频率是不是应该理解为:title:quick在所有文档中出现的频率???
    这样的话就可以解释为啥qucik也只出现在1个文档中了
    展开
    1
  • 2019-10-10
    查询的时候必须要两个文档的版本号相同才会返回正确的算分结果吗?我测试时,一个文档索引了两次,版本号为2,另一个文档索引了1次版本号为1,查询就是错误的。。文档版本号都是2的时候查询就是对的。。咋回事
  • 2019-10-09
    Api怎么查询字段为空或字段不存在

    作者回复: 关于 null,exists,你可以查看这篇文档
    https://www.elastic.co/guide/cn/elasticsearch/guide/current/_dealing_with_null_values.html

    1
  • 2019-09-20
    打卡,感谢分享,大体理解这个意思,具体使用还需要查询相关文档说明,这是控制查询的细节,应该非常多。不过没到原理层面的解释,印象不深,可以用好。
  • 2019-09-06
    输入错误??在讲dis_max的时候,第一次查询用的是brown fox,,第二次用的是quick fox.
  • 2019-08-15
    dis_max查询的功能和should是一样的吗,都是只要满足其中一个条件就行?
  • 2019-08-05
    由于篇幅太长了 代码我简化了些 和视频中的例子一样的
    文档1
     "title": "Quick brown rabbits",
    "body": "Brown rabbits are commonly seen."
    文档2
    "title": "Keeping pets healthy",
    "body": "My quick brown fox eats rabbits on a regular basis."

        "dis_max": {
                "queries": [
                    { "match": { "title": "Brown fox" }},
                    { "match": { "body": "Brown fox" }}
                ],
                "tie_breaker": 0.5
            }

    这个例子的文档只要2个,用眼睛就能看出来, 如果搜索 Quick pets 需要用tie_breake,如果搜索Brown fox 就不用加tie_breake。 我们在实际使用中 index中的文档 肯定很多 具体是不是用tie_breake怎么判断 使用的话 tie_breaker设置成多少合适呢?有没有什么标准或建议呢。
    展开
  • 2019-07-29
    "shards" : [
        [
          {
            "state" : "STARTED",
            "primary" : true,
            "node" : "3k6dFPKLT9CdbGCP6Rj7lQ",
            "relocating_node" : null,
            "shard" : 0,
            "index" : "news",
            "allocation_id" : {
              "id" : "nV3SQ7IERhGwBKRk0bI_Kg"
            }
          },
          {
            "state" : "STARTED",
            "primary" : false,
            "node" : "kyHa1PjbQZW_ArXtkkqv7A",
            "relocating_node" : null,
            "shard" : 0,
            "index" : "news",
            "allocation_id" : {
              "id" : "NF_GmxA0SQOu-AMIeL9zlQ"
            }
          }
        ]
      ]

    老师。请问下 这一段是什么意思呢 ,是指 该index有两个分片 "primary" : true这个时住分片另一个是副分片么,可是 这个"shard" : 0,是代表什么意思呀
    展开
    1
  • 2019-07-27
    加入tie breaker之后文档1的body怎么没有quick了,没加之前都有的,如果没有的话,体现不出tie breaker的作用。
  • 2019-07-25
    老师,关于上个问题,我其实想问的是:查询“张三”名字,我希望是匹配到“张三”这个名字的放在最前面,而其他的“张”或者“三”放到后面去,这个es是不是在查询的时候最终展示的结果就是这个顺序?

    作者回复: 按照算分,其他的只有张或者只有三的算分肯定没有 又有张又有三的高。
    肯定排在后面

  • 2019-07-20
    例子中should的平均化没看出来啊
    2