• Paul Shan
    2019-10-17
    向量空间求出的结果顺序是基于文本的统计信息。当商品名包含的关键词过少而描述包含的关键词过多,这种相关性就更多的反映了描述的相关性,而描述中的词汇不如文章中的词汇有代表性,还反映了卖家卖出货物的意愿,信息的准确度大打折扣。为了解决这个问题,在查询结果的排序中优先显示和查询类别一致的结果。为了让类别信息优先处理,需要构建查询到商品类别的映射,这个映射可以通过贝叶斯模型来处理,也就是求出查询为条件,各个类别出现的概率,这种方法对于商品数据分布不均匀的情况下会有不少误差。还可以观察用户行为,构建查询到商品类别的映射,这种方法动态实时高效,缺点是没有历史数据的情况下如何处理。可以综合这两者来加权处理。用户数据量少的时候,贝叶斯模型权重大,用户数据量大的时候,基于用户行为的模型权重大。
    
     1
  • 拉欧
    2019-04-05
    是否还是通过朴素贝叶斯进行优化?

    作者回复: 这里确实可以通过朴素贝叶斯来构建一个分类器

    
     1
  • Paul Shan
    2019-10-17
    思考题
    多个词为条件的概率可以近似看成这些词是独立的,然后求出条件概率的乘积。

    作者回复: 是的👍

    
    
  • 张九州
    2019-10-14
    我想的是先按照每个分类计算,方法和只有一个分类的情况一样,然后再根据用户对每个分类的浏览搜索行为作为排序权重,不知道对不对

    作者回复: 这个思考题的重点是考虑多个词的联合分布概率和每个词的分布概率之间的关系,是否用到相互之间的独立性等等

    
    
  • Geek_94b54f
    2019-08-27
    这样的思路和实践 是否可行
    
    
  • Geek_94b54f
    2019-08-27
    先算出关键词的分类 再给分类字段 提升权重 查询

    作者回复: 具体分类字段,是指有一个指定的字段用于表示其分类吗?

     3
    
我们在线,来聊聊吧