33|技术权衡:解决方案这么多,哪个最合适?
该思维导图由 AI 生成,仅供参考
工程师职责的本质
- 深入了解
- 翻译
- 解释
- 总结
推荐系统工程师在技术选择上面临多种解决方案,如模型选择、框架选用、存储方式等。这些选择对系统开销、团队工作量以及最终推荐效果产生重大影响。本文探讨了工程师在技术权衡中的思考方式,强调了工程思维对推荐系统工程师的重要性。工程师需要在现实条件的制约下,以技术落地为目标,寻找并实现最优的解决方案。文章通过Redis容量和模型上线方式的权衡案例,阐述了工程师在实际上线推荐系统时需要进行的取舍和思考过程。针对模型和特征的“瘦身”方法,提出了相应的工程策略,包括提高稀疏性、降低复杂度以及离线和线上的效果测试。文章还讨论了研发周期和平台迁移之间的权衡,以及业务逻辑对推荐模型的制约。最后,强调了工程师需要具备的基本素质,以及在工程实践中的具体思考和操作方法。整体而言,本文通过具体案例和实践经验,为推荐系统工程师提供了技术权衡的思路和方法。
《深度学习推荐系统实战》,新⼈⾸单¥68
全部留言(10)
- 最新
- 精选
- 一轩明月个人觉得核心都是“看情况”。以内容推荐来说,如果是微信公众号文章这种冷启动,生产、消费两端多对多关系复杂,优先做好内容理解更重要;而如果是极客时间这种,直接上规则,用运营活动给流量比死磕冷启动工程方法好使
作者回复: 非常好
2021-01-1315 - 胡译匀airbnb这个冷启动似乎可以用HNSW等来解决
作者回复: 大概扫了一眼这个论文,感觉确实不错,应该会是个使用的解决方案。 推荐大家参考https://arxiv.org/abs/1603.09320
2021-01-0112 - Will王老师,非常感谢这门深度学习推荐系统实战课,让我跟着您很好的系统梳理了深度学习推荐系统。 我最近工作中遇到一个问题,就是排序学习(Learning to Rank)的三种类型(pointwise, pairwise, listwise)在推荐系统中目前的应用情况。我们在课程中着重讲解了很多深度学习模型(Wide&Deep, DeepFM)等,这些是不是都是pointwise的类型?我看到一些文献里说了很多pointwise的局限性,以及listwise的优势,我想了解下在实际的推荐系统场景下(比如电影推荐),listwise的L2R的位置是怎么样的?谢谢! (ps: 我在尝试使用mmlspark 的lightgbm实现ranking, 是一种listwise的方法)
作者回复: pointwise的局限性可以用一些debias的方法去除,而且因为训练和inference的过程都相对方便直观很多,所以基本是目前的主流应用。 pairwise和listwise当然都是可行的,但一般因为inference比较困难(需要向模型输入pair或者list),所以应用起来并不容易。
2021-03-3132 - Jack王老师你好,您的课程非常好,受益良多,我是推荐算法初学者,有两个个问题想向您咨询一下: 1. Spark MLlib和tensorflow对比如何呢?最近买了本Spark Mllib的书 2. tensorflow有什么深入了解的资料吗?基础的部分了解了,用法也容易查到,想精通应该怎么做呢?
作者回复: 1. spark mllib一般用来训练一些传统的,简单的模型,深度学习模型一般使用tf或者pytorch 2. 资料我也没有太多推荐的,希望能够多实践,在实践中遇到问题,解决问题吧。
2021-03-1922 - MutouMan学习物品属性的embedding,对新物品可以通过属性的embedding来初始化 比如流浪地球,可以通过科幻,中国,吴京来组成一个初始化embedding
作者回复: 是这样,通过side information可以初始化emb
2021-07-231 - 张智想请教一下老师,冷启动那块看上去比较理想的是可以通过内容生成emb,那样我们是不是可以训练一个学生模型,这个学生模型的输入没有id信息,但是有内容信息,然后尽量学习接近带id作为输入的老师网络的输出?在使用的时候,直接用学生网络的输出或者用学生网络里面的knn对应的老师网络里面的emb做mean?
作者回复: 听上去貌似是可行的,但还真没有这么做过,我建议尝试。 一般大家是通过直接把content feature加入模型去拟合优化目标来实现的。
2021-04-151 - Alan1、从业务角度:新用户注册(让其选取感兴趣标签)、新物品注册(提取特征属性、计算与类库前三相似度高的特征均值)、实物与非实物(NLP与CV特征提取与识别技术)。 2、从技术角度来说,本质是特征工程问题:难点在NLP与CV技术应用于成熟度。针对精细化文章文字的内容,建议使用NLP word2Dev等Embeding方法计算文本相似性(新闻行业等);针对新物品入库建议使用CV图像技术扫描,扫描入库的同时自然也会得到相近物品图像信息,也就有了特征信息(国家文物局等)!2021-04-183
- 高向中视频与源码在哪2022-07-06
- 时间小偷王老师好!Airbnb案例中的第二步,在这些相似房屋中找到离它最近的三个;这里的最近指的是物理距离?还是Embedding最相似? 我个人认为是物理距离,这是由住宿的位置属性所决定的;不知道理解对不对?2022-04-14
- 一只小小niao1.当前内容feeds个性化推荐系统,通常是比如短视频,图文,长视频这种多类型内容多类型的内容形式,这些内容通常优化目标不一样,比如图文在乎点击率,视频在乎完播率和时长,如何通过一个排序模型把所有不同类型的内容统一建模,可以分别满足各自的优化目标呢,业界有什么好的思路可以参考呢 2.关于内容生态问题,特别是ugc定位的产品,比如YouTube,如何保证整个内容生态链稳定健康的发展呢,都有哪些好的人思路呢2022-01-04