• 江枫
    2018-04-14
    老师好,问个工程实现上的问题。用lda训练出来的k个主题概率分布作为ctr模型的其中k维特征,进行训练和预测,这是个很好的思路。但是训练一般是离线的,预测是在线的,需要一个kv存储特征,那么训练好的模型更新到线上服务器,势必需要确保离线训练特征和在线预测特征的一致性。这样问题来了,lda的抽取主题,是无监督的,没法保证两次抽取的主题是一个顺序的,导致训练和预测特征没法绝对一致,直到kv库和模型都更新完成。老师这边有好的解决方案吗?不知道我又没有表达清楚,哈哈。
    
     6
  • 叶晓锋
    2018-03-16
    这一篇的含金量太高了,我要认真仔细的读,因为信息量太大,需要花点时间消化。

    作者回复: 不要急,慢慢来。

    
     6
  • 嘉文
    2018-05-30
    我也有相同的困惑:

    老师好,问个工程实现上的问题。用lda训练出来的k个主题概率分布作为ctr模型的其中k维特征,进行训练和预测,这是个很好的思路。但是训练一般是离线的,预测是在线的,需要一个kv存储特征,那么训练好的模型更新到线上服务器,势必需要确保离线训练特征和在线预测特征的一致性。这样问题来了,lda的抽取主题,是无监督的,没法保证两次抽取的主题是一个顺序的,导致训练和预测特征没法绝对一致,直到kv库和模型都更新完成。老师这边有好的解决方案吗?不知道我又没有表达清楚,哈哈。
     1
     3
  • 💪😊
    2018-03-19
    其中说到的抓数据为了就是丰富内容源避免产品单调(有法律风险),还是说抓了用来分析热度来有利于自己内容的推荐

    作者回复: 前者。

    
     2
  • 李绍滔
    2019-05-25
    如果短视频本身没有任何结构化信息,如果不挖掘内容,那么除了强...

    感觉短视频其实可以用cv来做检测和分类,获得一些信息

    作者回复: 当然。可以尝试对视频做一些embedding。

    
     1
  • lone
    2019-04-17
    机器学习到底是啥啊?怎么预估用户行为啊?
    
     1
  • Aries
    2019-01-17
    老师,可以用标注标签来聚类用户群组吗?这样有意义吗 还是通过标签来分类产生群组

    作者回复: 有意义,可以尝试。早期能做到用户分群就很好,不苛求个性化。

    
     1
  • Vito
    2018-03-30
    非常感谢老师的分享!我们目前在做视频资源的推荐,也是从内容推荐起步,用户数在千万级,媒资数据在90万,这样做余弦相似度,形成的矩阵太大,计算效率太低,老师有什么好的建议吗?
     1
     1
  • Drxan
    2018-03-16
    点赞
    
     1
  • 北冥Master
    2019-07-13
    现在抓数据的官司越来越多,怎么避免爬虫惹上官司呢
    
    
  • J.T
    2019-01-17
    老师 我想问一下 对于用机器学习方法来建模推荐内容这块,用结构化内容和用户标签数据来做训练特征,是/否有某种行为作为目标特征,拟合出来的模型,具体是应用到内容推荐的?比如是否是对于具有某些标签的人直接推给他可能导致他点击/收藏行为几率更高的内容是吗?

    作者回复: 差不多是这样。

    
    
  • 爱谁谁
    2018-11-14
    推荐系统的表格那里,内容源和用户行为分析时间说的是:跟据消费的内容来矫正用户行为
    吗
    
    
  • gaolinjie
    2018-09-23
    老师你好,请问下您所说的采用机器学习的方法训练预估模型和吴恩达机器学习中说的Content Based Recommendations是一样的吗?谢谢!
     1
    
  • 明华
    2018-07-20
    老师您好! 对于这句话
    "每一条样本由两部分构成:一部分是特征,包含用户端的画像内容,物品端的结构化内容,可选的还有日志记录时一些上下文场景信息,如时间、地理位置、设备等等,另一部分就是用户行为,作为标注信息,包含“有反馈”和“无反馈”两类。"

    想问:
    当训练的时候是选取一个用户的所有行为训练呢,还是选择所有用户的所有行为进行训练呢。如果是所有用户,那逻辑回归训练出来的模型意义又是什么呢?
    展开

    作者回复: 你想问的是为每个用户构建一个模型还是为所有用户构建一个模型吗?答案是不冲突,对那些非常活跃和深度的用户,他的数据足够多,有必要给他个人构建一个模型。而更多的用户数据是稀疏的,需要靠全局数据去泛化。

    
    
  • 我要飞上月球
    2018-06-08
    “每一条样本由两部分构成:一部分是特征,包含用户端的画像内容,物品端的结构化内容,可选的还有日志记录时一些上下文场景信息,如时间、地理位置、设备等等,另一部分就是用户行为,作为标注信息,包含“有反馈”和“无反馈”两类。”我理解这里的用户端画像内容是包含用户行为统计的,这两个分开怎么理解;后面提到的有无反馈是否可以理解为用户有没有响应推荐的物品?
    
    
  • 会飞的书2008
    2018-05-10
    讲解得很好,一口气反复读了三遍,谢谢大牛
    
    
  • 潘多拉魔盒
    2018-04-08
    你好,有个问题想咨询下,我这是要做电影,电视剧等推荐,用户正向反馈,电影有标签,那么,如何去给用户做标签权重划分,
    
    
  • 尹士
    2018-03-31
    你好,购买了你的作品,非常好!是我见过的最好的推荐系统整体剖析,不知道作者能否建群,交流沟通?

    作者回复: 请下载“知识星球”(以前叫小密圈),搜resyschina加群。

    
    
  • travi
    2018-03-28
    有个点没看懂:文章最后你提到2分类器,我理解输入是<item向量,user向量>,输出是点击/不点击。既然是2个类别,后面提到按概率排序,这个概率是怎么由模型得到的?
    
    
  • EAsY
    2018-03-20
    能否详细介绍下 物品画像怎么作用到用户画像 比如阅读物品的次数或时间 怎么影响用户画像的更新 感觉这个没做好很影响推荐效果😂
    
    
我们在线,来聊聊吧