深度学习推荐系统实战
王喆
Roku 推荐系统架构负责人,前 hulu 高级研究员,《深度学习推荐系统》作者
33298 人已学习
新⼈⾸单¥68
登录后,你可以任选4讲全文学习
课程目录
已完结/共 44 讲
深度学习推荐系统实战
15
15
1.0x
00:00/00:00
登录|注册

33|技术权衡:解决方案这么多,哪个最合适?

冷启动等业务逻辑对推荐模型的制约
研发周期和平台迁移之间的权衡
Redis容量和模型上线方式之间的权衡
工程师的制约条件
工程师职责的本质
技术权衡的问题

该思维导图由 AI 生成,仅供参考

你好,我是王喆。
在实际的工作中,我们经常会面临一些技术上的抉择。比如说,在设计推荐系统的时候,我们是应该用模型 A 还是用模型 B,是用 TensorFlow 还是用 PyTorch,是用 Redis 还是用 EVCache 呢?从理论上来说,其实选择哪个方案都可以,但在工程落地中,不同的方案往往对系统整体的开销,整个团队的工作量,甚至最终的推荐效果都有着非常大的影响。
我想这也是很多算法工程师的困惑:在工程落地环节,解决方案这么多,我们到底该选哪个?
今天,我们就一起来探讨一下技术权衡的问题,看看能不能在理论知识和工程落地之间找到一条最优的路径。

工程师职责的本质

“工程”和“理论”之间的权衡是所有工程师都要考虑的问题,对这个问题的思考方式决定了你具备的是“工程思维”还是“研究思维”,抑或是“学生思维”。推荐系统是一个工程性极强,以技术落地为首要目标的领域,因此,“工程思维”对推荐系统工程师是最重要的。
事实上,无论是算法工程师,还是研发工程师,甚至是设计电动汽车、神舟飞船、长征火箭的工程师,他们的职责都相同,那就是在现有实际条件的制约下,以工程完成和技术落地为目标,寻找并实现最优的解决方案。这里面有一个词最关键,那就是“制约”。我们该怎么理解这个制约呢?
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

推荐系统工程师在技术选择上面临多种解决方案,如模型选择、框架选用、存储方式等。这些选择对系统开销、团队工作量以及最终推荐效果产生重大影响。本文探讨了工程师在技术权衡中的思考方式,强调了工程思维对推荐系统工程师的重要性。工程师需要在现实条件的制约下,以技术落地为目标,寻找并实现最优的解决方案。文章通过Redis容量和模型上线方式的权衡案例,阐述了工程师在实际上线推荐系统时需要进行的取舍和思考过程。针对模型和特征的“瘦身”方法,提出了相应的工程策略,包括提高稀疏性、降低复杂度以及离线和线上的效果测试。文章还讨论了研发周期和平台迁移之间的权衡,以及业务逻辑对推荐模型的制约。最后,强调了工程师需要具备的基本素质,以及在工程实践中的具体思考和操作方法。整体而言,本文通过具体案例和实践经验,为推荐系统工程师提供了技术权衡的思路和方法。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《深度学习推荐系统实战》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(10)

  • 最新
  • 精选
  • 一轩明月
    个人觉得核心都是“看情况”。以内容推荐来说,如果是微信公众号文章这种冷启动,生产、消费两端多对多关系复杂,优先做好内容理解更重要;而如果是极客时间这种,直接上规则,用运营活动给流量比死磕冷启动工程方法好使

    作者回复: 非常好

    2021-01-13
    15
  • 胡译匀
    airbnb这个冷启动似乎可以用HNSW等来解决

    作者回复: 大概扫了一眼这个论文,感觉确实不错,应该会是个使用的解决方案。 推荐大家参考https://arxiv.org/abs/1603.09320

    2021-01-01
    12
  • Will
    王老师,非常感谢这门深度学习推荐系统实战课,让我跟着您很好的系统梳理了深度学习推荐系统。 我最近工作中遇到一个问题,就是排序学习(Learning to Rank)的三种类型(pointwise, pairwise, listwise)在推荐系统中目前的应用情况。我们在课程中着重讲解了很多深度学习模型(Wide&Deep, DeepFM)等,这些是不是都是pointwise的类型?我看到一些文献里说了很多pointwise的局限性,以及listwise的优势,我想了解下在实际的推荐系统场景下(比如电影推荐),listwise的L2R的位置是怎么样的?谢谢! (ps: 我在尝试使用mmlspark 的lightgbm实现ranking, 是一种listwise的方法)

    作者回复: pointwise的局限性可以用一些debias的方法去除,而且因为训练和inference的过程都相对方便直观很多,所以基本是目前的主流应用。 pairwise和listwise当然都是可行的,但一般因为inference比较困难(需要向模型输入pair或者list),所以应用起来并不容易。

    2021-03-31
    3
    2
  • Jack
    王老师你好,您的课程非常好,受益良多,我是推荐算法初学者,有两个个问题想向您咨询一下: 1. Spark MLlib和tensorflow对比如何呢?最近买了本Spark Mllib的书 2. tensorflow有什么深入了解的资料吗?基础的部分了解了,用法也容易查到,想精通应该怎么做呢?

    作者回复: 1. spark mllib一般用来训练一些传统的,简单的模型,深度学习模型一般使用tf或者pytorch 2. 资料我也没有太多推荐的,希望能够多实践,在实践中遇到问题,解决问题吧。

    2021-03-19
    2
    2
  • MutouMan
    学习物品属性的embedding,对新物品可以通过属性的embedding来初始化 比如流浪地球,可以通过科幻,中国,吴京来组成一个初始化embedding

    作者回复: 是这样,通过side information可以初始化emb

    2021-07-23
    1
  • 张智
    想请教一下老师,冷启动那块看上去比较理想的是可以通过内容生成emb,那样我们是不是可以训练一个学生模型,这个学生模型的输入没有id信息,但是有内容信息,然后尽量学习接近带id作为输入的老师网络的输出?在使用的时候,直接用学生网络的输出或者用学生网络里面的knn对应的老师网络里面的emb做mean?

    作者回复: 听上去貌似是可行的,但还真没有这么做过,我建议尝试。 一般大家是通过直接把content feature加入模型去拟合优化目标来实现的。

    2021-04-15
    1
  • Alan
    1、从业务角度:新用户注册(让其选取感兴趣标签)、新物品注册(提取特征属性、计算与类库前三相似度高的特征均值)、实物与非实物(NLP与CV特征提取与识别技术)。 2、从技术角度来说,本质是特征工程问题:难点在NLP与CV技术应用于成熟度。针对精细化文章文字的内容,建议使用NLP word2Dev等Embeding方法计算文本相似性(新闻行业等);针对新物品入库建议使用CV图像技术扫描,扫描入库的同时自然也会得到相近物品图像信息,也就有了特征信息(国家文物局等)!
    2021-04-18
    3
  • 高向中
    视频与源码在哪
    2022-07-06
  • 时间小偷
    王老师好!Airbnb案例中的第二步,在这些相似房屋中找到离它最近的三个;这里的最近指的是物理距离?还是Embedding最相似? 我个人认为是物理距离,这是由住宿的位置属性所决定的;不知道理解对不对?
    2022-04-14
  • 一只小小niao
    1.当前内容feeds个性化推荐系统,通常是比如短视频,图文,长视频这种多类型内容多类型的内容形式,这些内容通常优化目标不一样,比如图文在乎点击率,视频在乎完播率和时长,如何通过一个排序模型把所有不同类型的内容统一建模,可以分别满足各自的优化目标呢,业界有什么好的思路可以参考呢 2.关于内容生态问题,特别是ugc定位的产品,比如YouTube,如何保证整个内容生态链稳定健康的发展呢,都有哪些好的人思路呢
    2022-01-04
收起评论
显示
设置
留言
10
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部