极客时间-轻松学习，高效学习-极客邦

Lucifer
2020-12-06
思考题：推荐服务器内部专门开发特征加工模块，进行一些人工的处理。比如点击率特征，实际上“点击”会包含多种点击行为，各种行为如何融合，需要灵活配置。既不能放在离线存（更新不便），也不能放在tf serving里（逻辑多了太慢） 1、tf serving只负责简单的模型运算； 2、离线redis等负责通用特征数据的存储； 3、推荐系统服务器进行数据加工
作者回复: 非常好
22
Sebastian
2020-12-04
思考题：特征分为静态特征和动态特征。对于静态特征，基本长时间不会变更，这块直接从特征池（可以是Redis）里取。但是对于动态特征，比如用户实时行为的特征，这种会通过流式处理（比如spark streaming或者flink）后，直接落盘，同时可以避免特征穿越。特征实时更新后，线上服务阶段，模型的输入就是未进行处理的原格式数据，tf serving 接受请求后，在模型里进行特征预处理，比如使用tf.feature_column进行处理，转为one hot和embedding格式。但是在QPS很高的场景下，这种处理可能达不到上线要求，想问老师有什么好的解决方案？
作者回复: 大致流程确实是这样的。但是其实在实际应用中，tf serving的延迟问题会比较严重。我们会想尽一切办法去减少tf serving的负担。所以特征预处理这块会尽量放到推荐服务器内部来做，或者放到离线做好预存到线上存储。比如id 2 embeding这一步，可以把id和emb的对应关系放到redis里或者其他线上数据库，减轻tf serving的压力和模型体积。
共 4 条评论
9
tuomasiii
2021-01-06
想问下老师图1里，“候选物品库”里是放的embeddings还是actual data？因为我们召回层用embedding来算similarity的话，到底是从redis里读还是到候选物品库拿？
作者回复: 真实的环境下，候选物品库中存放的是物品的一些基本信息，一般不包含embedding。 embedding应该从特征数据库redis中去拿。我们的课程项目做了一定程度的简化，候选物品库是直接从数据文件中预载入的。
6
Wiiki
2020-12-14
非常感谢王老师的细心分享，让我们从零到一建立起推荐系统的概念和实践经验~ 谢谢~
作者回复: 这就是咱们课程的目的，还是多感谢自己的努力，相信能坚持下来的同学一定可以在工作中有所收获，有所提高。
5
Wiiki
2020-12-17
王老师，您好。更新了你最近的工程代码，发现新增了pyspark推荐系统的工程实现部分，想请教一下：对于大数据量的特征工程处理，选择用scala还是python版的spark实现有没有什么建议？谢谢~
作者回复: pyspark的部分是咱们课程的学员贡献的。现实工作中建议最好还是用scala来维护，毕竟是spark原生支持的语言，真正的大数据工程师一般会使用scala。但是也不反对python来维护，跟其他python项目在一起维护会方便些。
共 5 条评论
3
金鹏
2020-12-06
王喆老师好，请教个问题，现在边缘计算或端智能，多大程度解决了用户特征更新的问题，端智能的应用前景如何？
作者回复: 我看好边缘计算的发展，一直是近两年我看好的方向。至于多大程度解决了特征更新的问题，我觉得他们会一直共存。边缘计算永远也替代不了服务器端的特征更新设施。
3
Berton
2020-12-04
特征处理这部分，应该是离线计算好得到每个特征的map数据，在推荐服务器内部加载这些map数据，直接将原始特征映射成深度学习需要的向量，将得到的向量送入Tensorflow Serving得到推荐结果如果在Tensorflow Serving做特征预处理的工作，会导致推荐服务的响应时间边长
作者回复: 是的，最好是可以在推荐服务器内部把特征都准备好，处理好。tf serving只做inference，不承担太多特征预处理压力。
3
abc-web
2021-07-14
王老师请问一下，在线推断需要拼装数据提交请求，但数据量大的情况下会影响效率，那除了拼装还有没有其他的方式可用
作者回复: 几乎没有，除非你通过某种方式把模型本身进行蒸馏压缩，让模型需要的特征数量减少。
2
liuqqwwe
2021-07-19
王老师，如果想要结合移动端上实时反馈信息，比如迅速划过以及短播这种隐式负反馈，长播、点赞这些正反馈，结合后端下发的用户和部分物品的embedding信息对缓存内容进行前端重排序，这种场景选用什么模型合适呢，如何合并新操作产生的输入呢
作者回复: 这是一个模型更新的问题，不是选用模型的问题。基本思路是做模型的online learning，和embedding的实时生成。
1
tuomasiii
2021-01-01
想问下图中Redis到排序层的线上特征具体是指的哪些特征？是像geographic和current timestamp这些feature吗？还有就是排序层模型的loss都是使用entropy的loss？像warp loss和bpr这些能被使用到吗？谢谢！
作者回复: 1.是的，所有线上inference用到的特征都可以放入redis 2.一般二分类问题倾向于用cross entropy loss，当然，不排除可以用其他loss function。
1