10 | 存储模块：如何用Redis解决推荐系统特征的存储问题？

王喆



该思维导图由 AI 生成，仅供参考

你好，我是王喆。今天，我们来解决系统特征的存储问题。
在特征工程篇我们说过，在推荐系统这个大饭馆中，特征工程就是负责配料和食材的厨师，那我们上堂课搭建的推荐服务器就是准备做菜的大厨。配料和食材准备好了，做菜的大厨也已经开火热锅了，这时候我们得把食材及时传到大厨那啊。这个传菜的过程就是推荐系统特征的存储和获取过程。
可是我们知道，类似 Embedding 这样的特征是在离线环境下生成的，而推荐服务器是在线上环境中运行的，那这些离线的特征数据是如何导入到线上让推荐服务器使用的呢？
今天，我们先以 Netflix 的推荐系统架构为例，来讲一讲存储模块在整个系统中的位置，再详细来讲推荐系统存储方案的设计原则，最后以 Redis 为核心搭建起 Sparrow Recsys 的存储模块。
推荐系统存储模块的设计原则你还记得，我曾在第 1 讲的课后题中贴出过 Netflix 推荐系统的架构图（如图 1）吗？Netflix 采用了非常经典的 Offline、Nearline、Online 三层推荐系统架构。架构图中最核心的位置就是我在图中用红框标出的部分，它们是三个数据库 Cassandra、MySQL 和 EVcache，这三个数据库就是 Netflix 解决特征和模型参数存储问题的钥匙。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文介绍了如何使用Redis解决推荐系统特征的存储问题。首先，强调了分级存储的重要性，并介绍了Netflix采用的三个数据库（Cassandra、MySQL和EVcache）来解决特征和模型参数存储问题的实例。然后，详细介绍了SparrowRecsys的存储系统方案，包括使用基础文件系统保存离线特征和模型数据，Redis保存线上所需特征和模型数据，以及服务器内存缓存频繁访问的特征。提供了对Redis的基础知识，包括数据存储形式和存储在内存中的特点。强调了在实际应用中，Redis提供高效的存储和查询服务的重要性。总体而言，本文通过实例和具体方案，深入浅出地介绍了如何利用Redis解决推荐系统特征存储的问题，为读者提供了清晰的技术指导。文章还提到了Sparrow Recsys中的Redis部分的实践流程，包括安装Redis、写入数据和读取数据的具体步骤。最后，鼓励读者思考存储Embedding的方式是否还有优化的空间，以及使用不同的Redis value的数据结构存储Embedding数据的优缺点。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《深度学习推荐系统实战》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(25)

最新
精选

An
redis keys命令不能用在生产环境中，如果数量过大效率十分低，导致redis长时间堵塞在keys上。
作者回复: 非常好的点。生产环境我们一般选择提前载入一些warm up物品id的方式载入物品embedding。这里做了一个简化，推荐大家参考这条评论，多谢！
2020-10-26
5
57
AIGeek
Redis value 可以用pb格式存储, 存储上节省空间. 解析起来相比string, cpu的效率也应该会更高
作者回复: 生产环境确实经常使用protobuf进行压缩，非常好的经验。
2020-10-26
4
40
范闲
1.redis这种缓存中尽量放活跃的数据，存放全量的embedding数据，对内存消耗太大。尤其物品库，用户embedding特别多的情况下。 2.分布式kv可以做这种embedding的存储 3.关于embedding的编码可以用pb来解决。embedding维度太大的时候，redis里的数据结构占用空间会变大，因为除了embedding本身的空间，还有数据结构本身占用的空间。
作者回复: 优秀。非常好的经验之谈，推荐其他同学学习。
2020-11-26
5
33
fsc2016
老师，有俩个问题 1，文中关于RecForYou，是来一个用户访问，就把用户的embding存入推荐服务器内存，如果一个短时间一下来百万级用户，都存入服务器内存，这样会不会出问题，优化的话应当也可以对用户分级，活跃用户存下来，非活跃其他还是从Redis实时读取用户特征。 2，RecForYou中，给用户推荐电影，使用的用户embding和候选电影embding的余弦距离来排序，这俩个不同维度embding计算余弦相似度有意义嘛，还是因为本例子中用户embding由其看过的电影embbding 相加来的。所以这么做嘛
作者回复: 这两个问题都是非常好的问题，推荐其他同学思考。 1. 我们并没有把用户embedding保存在内存中，只是把item embedding提前load到内存里，所以其实不存在这样的情况。但你说的也是非常好的用户数据缓存的方案，我们一般会指定一个用户内存区域的大小，用FIFO的方案来缓存，这样内存用完了，就自动把早进来的用户pop出去。另外分级的想法也非常好，如果有条件可以判断活跃用户，可以尽量选择活跃用户进行缓存。 2、你说的没错，用户emb和物品emb必须在一个向量空间内才能够做相似度计算。咱们项目中的用户emb是通过item emb平均生成的，所以可以这样计算。
2020-11-04

20
Geek_ddf8b1
用户特征分为长期兴趣特征和实时兴趣特征，长期兴趣特征一般是按天更新，实时特征可能按分钟或者秒级更新。请问实际项目中是长期特征按天更新写入redis，短期特征分钟级更新写入redis这样吗？
作者回复: 是这样，长期兴趣或这说周期比较长的metadata特征，按天写入特征数据库，实时特征进行实时更新。
2020-12-06

6
shenhuaze
王老师，想问一下关于全量特征存储的数据库选型。业界用来存储全量特征的最主流的数据库是什么？Cassandra吗？HBase是否合适？
作者回复: 一般来说Cassandra的读性能会比HBase好很多，包括类似的AWS用的dynamoDB，现在用得多一些。但也有对HBase的读性能做优化的，比如加缓存，做一些读取命令的优化，但作为服务线上的实时数据库，确实会用的少一些。
2020-11-04

6
Geek_b6bf29
老师你好，关于这一步 “我们完全可以把所有物品特征阶段性地载入到服务器内存中，大大减少 Redis 的线上压力。” 该如何具体操作呢。比如离线计算每6个小时更新物品特征，是不是在线服务也要重启更新，把最新的物品特征载入服务器？还是有更好的方法，可以支持热更新，不用重启在线服务？
作者回复: 在线服务内部可以有各种载入和维护feature的缓存逻辑。最简单比如设置一个timer去定期load热门的新feature。不用重启服务器。
2021-01-08

5
张宏宇
老师，我想问的是特征在更新的时候可能发生数据不一致的情况，比如用户特征先更新，物品特征后更新，在两个特征更新过程中线上服务读取特征数据的时候，可能用户特征是新的，物品特征是老的，不知道老师是否遇到过这样的问题以及如何解决的，谢谢！
作者回复: 这个肯定会存在。但我觉得要点还得具体问题具体分析，要看一下物品和用户特征有没有必要完全协同的更新，比如物品历史ctr这个特征，完全可以独立更新。如果一定要一起更新，那么就只能在streaming平台上每次都协同更新这些特征。我个人觉得有一些秒级、分钟级的差异，影响不会那么大，没有那么关键。
2021-03-17

4
浣熊当家
请问老师，文中的两部分redis相关的代码，可以在Maven项目中找到吗？老师可不可以提供以下路径信息方便找到？
作者回复: 可以，请参照 com.wzhe.sparrowrecsys.offline.spark.embedding.Embedding中的trainItem2vec函数以及com.wzhe.sparrowrecsys.online.datamanager.DataManager中的loadMovieEmb函数
2020-10-26

3
Geek_ddf8b1
为保证线上请求特征和线下日志特征数据一致性，用户线上请求时用户特征和物品特征是从redis查询得到后写到日志文件吗？这时用户的实时特征比如过去几分钟点击的物品序列特征是从kafka读取还是从redis读取？还是kafka发送用户的行为物品序列数据每隔几分钟写入redis，然后线上请求获取特征做预估打分和写特征数据到日志文件统一从redis读取？
作者回复: 不可能直接从kafka读取的，线上系统不可能接入任何流处理系统。需要以redis这类特征数据库作为所有数据的线上中转存储。
2020-12-06

2

收起评论