• 科技狗 置顶
    2018-04-02
    真的太好了!还有一些困惑希望老师解答一下,gbdt的ntrees都是提前定好的,n颗树为什么产生的是n个特征,为什么不乘以叶子节点数?n颗树的建树过程和做特征组合的过程是浑然一体的还是先建树再做特征?
    
     3
  • slvher
    2018-09-17
    在Facebook那篇CTR论文中,GBDT起到特征变换器的作用,其每颗子树的叶子节点的输出把原始输入特征映射为以1-of-K方式编码的高阶组合特征(其中K为子树的叶子节点数)。也即,GBDT同时实现了高阶特征组合和特征值布尔化,故可提升LR模型效果。

    本文对这个关键细节的解释不够清楚,感兴趣的话,一定要读原论文。

    作者回复: 你说得对。

    
     3
  • 漂浮
    2018-04-03
    请教老师个问题,有必要区分用户群进行不同推荐策略模型的开发吗?比如,按照地域,长三角用户执行某种推荐策略,珠三角用户执行某种推荐策略?或者按照用户,学生执行某种策略,非学生执行另外一种?是不是在推荐效果有些明显差异的情况下才需要,差异不大的话,不太需要精细化做?
    
     3
  • Geek_b95d22
    2018-09-12
    “除了要学习出偏差和方差都较小的模型,还需要能够给工程上留出很很多余地,具体来说就是两点,一个是希望越多权重为 0 越好,权重为 0 称之为稀疏,可以减小很多计算复杂度,并且模型更简单,方差那部分会可控。”

    请问,如果很多的权重都是0,其实意味着这个特征对于结果是没有什么影响的,也就是这个特征其实是没啥意义的,特征工程的目的是生成很多特征,模型训练又希望大多数的特征权重为0,那这两个步骤似乎有些矛盾?

    还是说特征工程是尽可能多地寻找特征,而训练是把其中海量特征里最有用的特征(训练前未知)找出来?

    展开
    
     1
  • arfa
    2018-09-11
    老师好,请问用户id和itemid是否作为特征,多谢
    
     1
  • 明华
    2018-08-10
    无刀老师,在实际情况下用户ID也需要作为一个特征吗?如果是,那这个特征学出来的权重的意义在哪?还有就是一个系统里如果用户ID用one hot编码那样特征不会很多吗?
    
     1
  • 米乐乐果
    2018-05-06
    楼上的几个朋友可以看看facebook那篇ctr预估的论文,更详细一点,是个不错的补充

    作者回复: 对,那篇非常好!

    
     1
  • jacket
    2018-04-18
    老师,最终送入逻辑回归的特征,仅仅是经过GBDT决策的结果,还是会加上原始特征向量呢?为什么?
    
     1
  • 林彦
    2018-04-05
    谢谢陈老师的无私和专业的分享。学到了好多。

    1. 第二棵树用是否喜欢打游戏来作根节点,累积的误差平方和是1764.57,用是否喜欢戴帽子来作根节点,累积的误差平方和是1986.706。因此第二棵树选择用是否喜欢打游戏。49,71,73岁的人的预测值是-7.13,13、14、15、25、35、68岁的人的预测值是3.57。所有样本按原始顺序的残差(保留小数点后2位)是-2.68,-1.68,-0.68,-28.63,19.32,-15.33,14.37,6.67,8.67。

    2. 请问损失函数−ylog(p)−(1−y)log(1−p)中y是预测值,这个预测值是0或1对应点或不点,还是一个点击的概率值。这里的p对应什么值,如何计算?这个损失函数的公式看着和某些文章中逻辑回归的一类损失函数的计算公式有些接近。其中里面的p的位置对应的是文中提到的sigmoid 函数σ(w×x)。

    3. N 棵 GBDT 树对应N个特征组合我的理解是每一个样本只会被分配到一棵树的某个叶子节点上,相应这棵树从树根到这个叶子的所有问题回答的是否组合就是这个样本的特征组合。“到了叶子节点后,就是 1 或者 0,点或者不变。”这句话我有点不太明白,是不是应该是“点或者不点”?

    4. 文中有2个数值可能有点小的错误。(1)文中选择第一棵树时是否喜欢戴帽子的累积的误差平方和我算出来的是5125.55;(2)第2个数据表格里35岁样本的残差应该是-15.75。
    展开
    
     1
  • Geek_86533a
    2019-08-18
    请问老师,这里输入的特征和前面的矩阵分解、协同过滤有什么联系吗?
    
    
  • 小陈🥑
    2019-07-17
    老师请问一下如何将movielens类似的数据集转化为特征矩阵呢?行列分别代表什么呢,每个单元的值又代表什么呢?谢谢🙏
    
    
  • Geek_405444
    2019-03-17
    其实考虑另一个问题,假设系统性能足够好,召回阶段召回所有物品,再排序,这种排序的结果是否会比在一个有限的召回集合中进行排序效果好,求刑无刀老师给分析分析
    
    
  • mgxs
    2018-06-14
    你好,请问一下融合的时候,样本的标签是由召回阶段不同算法的预测结果构成的吗?比如某个算法预测某个样本喜欢,则该样本类别为1。
    
    
  • kijiang
    2018-06-11
    老师,请教一个问题,在本篇文章的图1里,就是排序,召回,融合示意图里,中间的挖掘算法部分,看到了svd,als,fm。我的理解是als是求解fm的一种手段,是fm求解的一部分,为何要独立出来呢?我发现不少资料都会单独把als放在一个挖掘算法中,是否是业内一种约定的写法?

    作者回复: 你理解没错,als是求解svd及很多模型的一个方法。这里说的als通常值得als原始论文中那个模型,用于挖掘召回的,fm常用于CTR 预估。

    
    
  • kijiang
    2018-06-07
    老师,请教一个问题,在ctr阶段,使用逻辑回归,将用户与物品组成cp,然后抽取特征。这个特征,与挖掘时期对用户利用各种算法建立的特征,和对物品采取各种手段建立的特征,有何不同?这个阶段的特征提取,是否主要靠人工?
    
    
  • atlas
    2018-05-19
    老师,召回使用了多个算法召回一些内容,在召回的过程不需要考虑哪个算法最优吗?要是在召回的阶段已经考虑了最好的算法,那么该算法产出的内容应该是最好的,为什么还需要融合排序这个步骤?
    
    
  • cook150
    2018-05-12
    facebook 那篇写CTR预估的论文叫什么呢?
    
    
  • zgl
    2018-04-29
    请问逻辑回归重排序后,对所有用户特征权重岂不是都一样的?只不过每个人特征的值不一样,是不是这个意思?
    
    
  • derek
    2018-04-25
    老师,我在考虑一个问题,召回策略这么多,如果想要保证策略的多样性,同时又保证线上收益,这种问题有什么比较好的思考切入点吗?如果用规则做,那样非常不优雅
    
    
  • 卓越
    2018-04-20
    GBDT送到LR的向量应该是叶子结点的个数吧?每个叶子结点表示一系列特征的组合。
    
    
我们在线,来聊聊吧