极客时间-轻松学习，高效学习-极客邦

公号:阿Q看世界

2019-08-01

输入错误？？在讲dis_max的时候，第一次查询用的是brown fox,,第二次用的是quick fox哦。

 1

 7
colin

2019-07-20

3.乘以匹配语句总数
4.除以所有语句
我对语句的理解是{"match": {"title": "Brown fox"}}是一个语句，{"match": {"body": "Brown fox"}}是第二个语句，不知道这样想法对不对

而且我看视频里_explanation中均是sum of啊？should算分除以所有语句总数的过程没有啊

展开



 4
SuperSnow

2019-07-21

阮老师，关于tie breaker的0-1说明，是不是说反了，0是代表所有语句同等重要。1是代表使用最佳匹配？

作者回复: 可以看一下API的说明

https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-dis-max-query.html

看一下计算的几个步骤，最后写，
If the tie_breaker value is greater than 0.0, all matching clauses count, but the clause with the highest score counts most.

这个参数默认是0，只算最佳字段上的，因为其他情况都乘0了:）。理解了过程，这样就不需要死记硬背0和1的区别了。

 2

 2
anker

2019-12-12

tie breaker老师说的不是特别清晰，大概是这样子的，单纯disjunction（默认tie breaker为0）的话是以最高的评分作为排序依据，那就容易忽略其他条件对分数做出的贡献，如果想要增强相关度，那么需要加入tie breaker大于零来增强其他条件做出的贡献。



 1
氧气🌙 🐟 🌺

2019-10-22

引入tie_breaker后详细算分过程不明白。
https://www.elastic.co/guide/en/elasticsearch/reference/7.3/query-dsl-dis-max-query.html
以上文档中写到：
1.Take the relevance score from a matching clause with the highest score.
2.Multiply the score from any other matching clauses by the tie_breaker value.
3.Add the highest score to the multiplied scores.
If the tie_breaker value is greater than 0.0, all matching clauses count, but the clause with the highest score counts most.
还是不明白。
老师能否举例比较引入tie_breaker前后具体算分过程

展开

 2

 1
超威丶

2019-07-24

老师，你好，请问一个问题：
比如我要查询名字为“张三”的人，我希望包含张三这个完整的字段排在最前面，其他和张三有关的词排在后面，这个请问咋设计啊？

作者回复: 不是很明白你的问题。但是出现在这一节。我猜你的意思是：
用户的查询输入是“张三”。文档有很多字段，你希望名字字段中包含张三的内容出现在最前面。其他字段中包含张三的出现在相对后面。

思路如下，第一，这个情况下，每个字段应该属于竞争的关系。需要选择best_fields的方式。但是你期望其他的字段如果包含了张三，也要被命中，你可以通过设置tie_breaker，考虑进其他字段的算分。

另外，你还可以设置每个字段的booster数值进行调整。

tie_breaker和booster具体取值，你需要通过数据进行一些测试后给出合适的取值



 1
WL

2019-07-20

请问一下老师竞争字段具体是啥意思, 能不能解释一下这个概念, 我有点不太理解

作者回复: 当用户输入了单个字符串查询的时候，通常会遇到以下三种情形：

最佳字段（best match）
当搜索词语具体概念的时候，比如 “brown fox” ，词组比各自独立的单词更有意义。像 title 和 body 这样的字段，尽管它们之间是相关的，但同时又彼此相互竞争。文档在相同字段中包含的词越多越好，评分也来自于最匹配字段

多数字段（most fields）
为了对相关度进行微调，常用的一个技术就是将相同的数据索引到不同的字段，它们各自具有独立的分析链。

主字段可能包括它们的词源、同义词以及变音词或口音词，被用来匹配尽可能多的文档。



 1
DDs moving castle

2019-10-26

POST blogs/_search
{
   "explain": true,
    "query": {
        "dis_max": {
            "queries": [
                { "match": { "title": "Quick pets" }},
                { "match": { "body": "Quick pets" }}
            ]
        }
    }
}
针对这个查询，之所以查询结果中文档1、2的算分相同，是不是因为分别都是文档1、2针对 title: Qucik pets这个条件的算分最高，文档1的title有qucik，文档2的title有pets，且TF词频都是1/3。

而针对IDF我有个疑问，如果根据 IDF是体现检索词在所有文档中出现的频率，那么检索词qucik在两个文档中都出现了，分别是文档1的title，文档2的body，而pets只在文档2的title出现，按道理pets的IDF应该更高，可实际是explain:true之后，quick和pets的IDF相同。
所以，请问IDF含义中的检索词在所有文档中出现的频率是不是应该理解为：title:quick在所有文档中出现的频率？？？
这样的话就可以解释为啥qucik也只出现在1个文档中了

展开

 1


拾光

2019-10-10

查询的时候必须要两个文档的版本号相同才会返回正确的算分结果吗？我测试时，一个文档索引了两次，版本号为2，另一个文档索引了1次版本号为1，查询就是错误的。。文档版本号都是2的时候查询就是对的。。咋回事




Geek_d2d67a

2019-10-09

Api怎么查询字段为空或字段不存在

作者回复: 关于 null，exists，你可以查看这篇文档
https://www.elastic.co/guide/cn/elasticsearch/guide/current/_dealing_with_null_values.html

 1


godtrue

2019-09-20

打卡，感谢分享，大体理解这个意思，具体使用还需要查询相关文档说明，这是控制查询的细节，应该非常多。不过没到原理层面的解释，印象不深，可以用好。




fc123

2019-09-06

输入错误？？在讲dis_max的时候，第一次查询用的是brown fox,,第二次用的是quick fox.




Yang

2019-08-15

dis_max查询的功能和should是一样的吗，都是只要满足其中一个条件就行？




wangdexing

2019-08-05

由于篇幅太长了代码我简化了些和视频中的例子一样的
文档1
"title": "Quick brown rabbits",
"body": "Brown rabbits are commonly seen."
文档2
"title": "Keeping pets healthy",
"body": "My quick brown fox eats rabbits on a regular basis."

    "dis_max": {
            "queries": [
                { "match": { "title": "Brown fox" }},
                { "match": { "body": "Brown fox" }}
            ],
            "tie_breaker": 0.5
        }

这个例子的文档只要2个，用眼睛就能看出来, 如果搜索 Quick pets 需要用tie_breake,如果搜索Brown fox 就不用加tie_breake。我们在实际使用中 index中的文档肯定很多具体是不是用tie_breake怎么判断使用的话 tie_breaker设置成多少合适呢？有没有什么标准或建议呢。

展开




Coisini

2019-07-29

"shards" : [
    [
      {
        "state" : "STARTED",
        "primary" : true,
        "node" : "3k6dFPKLT9CdbGCP6Rj7lQ",
        "relocating_node" : null,
        "shard" : 0,
        "index" : "news",
        "allocation_id" : {
          "id" : "nV3SQ7IERhGwBKRk0bI_Kg"
        }
      },
      {
        "state" : "STARTED",
        "primary" : false,
        "node" : "kyHa1PjbQZW_ArXtkkqv7A",
        "relocating_node" : null,
        "shard" : 0,
        "index" : "news",
        "allocation_id" : {
          "id" : "NF_GmxA0SQOu-AMIeL9zlQ"
        }
      }
    ]
  ]

老师。请问下这一段是什么意思呢，是指该index有两个分片 "primary" : true这个时住分片另一个是副分片么，可是这个"shard" : 0,是代表什么意思呀

展开

 1


书策稠浊

2019-07-27

加入tie breaker之后文档1的body怎么没有quick了，没加之前都有的，如果没有的话，体现不出tie breaker的作用。




超威丶

2019-07-25

老师，关于上个问题，我其实想问的是：查询“张三”名字，我希望是匹配到“张三”这个名字的放在最前面，而其他的“张”或者“三”放到后面去，这个es是不是在查询的时候最终展示的结果就是这个顺序?

作者回复: 按照算分，其他的只有张或者只有三的算分肯定没有又有张又有三的高。
肯定排在后面




colin

2019-07-20

例子中should的平均化没看出来啊

 2

