30｜推荐系统的后处理及日志回采

黄鸿波

你好，我是黄鸿波。
到现在，可以说我们已经把推荐系统从头到尾学习了一遍。这节课是最后一节正课内容，也就是推荐系统的后续处理和日志回采。
我把本节课分成了下面三个要点。
推荐列表给到用户后的操作。
如何进行推荐系统的后处理。
如何进行日志回采。
现在正式开始本节课的内容。
推荐列表给到用户后的操作到现在推荐系统从最开始的数据到最终给到用户的推荐列表策略，都已经完成了。按理来说，已经跑完了整个流程，但站在推荐系统的角度，我们还需要确认用户是否对推荐进行了进一步的了解和行动，以及反馈他们的反应。
在推荐的后续步骤中，往往需要建立日志系统，记录用户的行为以及系统的运行状态，以便于对系统进行优化和监控，并做好用户反馈等工作。具体来说，主要有下面五个方面。
建立日志系统：在推荐系统中建立日志系统来记录用户行为、推荐结果和系统运行状态，可以使用日志收集工具（如 Logstash、FluentD 等）。在建立日志系统时，需要考虑哪些数据需要记录，如用户 ID、访问时间、推荐结果、点击次数等。
日志分析：使用数据分析工具（如 Hadoop、Spark 等）对日志数据进行分析，提取有用的信息，例如用户兴趣、推荐结果点击率等。
对结果影响评估：结合分析结果，评估用户行为对推荐结果的影响，发现可能出现的问题，例如推荐结果展现不足、推荐结果与用户兴趣不匹配等。
改进系统：针对问题做出改进，例如优化推荐算法、调整推荐策略等，以提高推荐结果的准确性和满意度。
监控系统：对系统进行监控，发现问题及时解决，提高系统的稳定性和推荐准确性。在监控过程中，可以使用运维工具（如 Nagios、Zabbix 等）对系统的运行情况进行实时监控，快速发现和解决问题。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

推荐系统的后处理及日志回采是推荐系统学习的最后一节课内容。文章分为三个要点：推荐列表给到用户后的操作、推荐系统的后处理和日志回采。在推荐列表给到用户后的操作中，需要建立日志系统、进行日志分析、对结果影响评估、改进系统和监控系统。在推荐系统的后处理中，可以利用日志系统改进推荐算法，收集用户行为数据进行多维度分析和建模。日志回采包括原始日志、点击日志、会话日志和反馈行为日志，可以通过埋点技术和服务端日志采集进行数据采集。文章介绍了相关技术和库的应用，如高性能分布式文件系统、分布式数据处理框架、分布式数据库、分布式 Web 日志收集器和分布式机器学习平台。通过这些技术和库，可以方便地对推荐系统的日志进行处理和分析，并实现数据存储、清洗、转换、机器学习建模等一系列操作。在服务端日志采集方面，文章介绍了使用AOP技术和Kafka消息系统进行用户行为信息采集的方法。AOP技术可以在不修改原有业务代码的情况下，将日志采集逻辑统一添加到共同的切点中，提高代码的可维护性和可扩展性。同时，Kafka消息系统实现了日志数据的异步发送，减少对系统性能的影响，并提供高可靠性的消息传输和存储功能。另外，文章还介绍了Logback的应用，实现对日志数据的规范化和标准化输出，方便后续的日志分析和处理工作。总结来说，本文重点介绍了推荐系统后处理和日志回采的重要性，以及相关技术和库的应用。读者可以了解到推荐系统的日志处理和分析方法，以及在服务端日志采集方面的实际应用。同时，文章还提出了两个思考题，引发读者对推荐系统和日志采集的深入思考和讨论。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《手把手带你搭建推荐系统》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(2)

最新
精选

Geek_ccc0fd
请问老师：基于tensorflow的模型实时更新在线上是如何实现的，能否讲述一下完整的实现流程，从数据采集到特征工程，及最终的线上更新，分别都是如何实现以及衔接的
作者回复: 基于TensorFlow的模型实时更新在线上需要一系列步骤。下面是一个大致的实现流程，从数据采集到特征工程，最终到线上更新的步骤：数据采集：首先，您需要选择合适的数据源来进行数据采集。这可能包括从数据库、API、日志文件、消息队列等地方获取数据。您可以使用Python中的各种库和工具来编写脚本或应用程序来获取数据。数据预处理：一旦您获得了数据，您需要对其进行预处理。这包括数据清洗、缺失值处理、异常值处理、特征选择、数据转换等。您可以使用Python中的Pandas库或其他相关库来进行数据预处理。特征工程：接下来，您需要进行特征工程，以提取和构建适合您的模型的特征。这可能包括特征缩放、特征编码、特征选择、特征组合等。您可以使用Scikit-learn等库来进行特征工程。模型训练与调优：一旦您准备好数据和特征，您可以使用TensorFlow来构建和训练您的模型。您可以选择适合您问题的模型类型，如神经网络、决策树、SVM等。通过迭代训练和调优，您可以提高模型的性能。模型部署与线上更新：一旦您训练好模型，您需要将其部署到线上进行实时更新。这通常涉及将模型导出为TensorFlow格式，并将其嵌入到您的线上系统中。您可以使用TensorFlow Serving、TensorFlow Lite或将模型封装为API等方式进行线上部署。在线上系统中，您可以定期或实时获取新数据并使用模型进行预测。
2023-07-17


peter
请教老师几个问题： Q1：推荐系统在整个网站一般占多大比重？一个网站，包含很多系统，推荐系统一般占多大分量？可以从人力投入角度来衡量，或者从硬件资源占用角度等方面来衡量。 Q2：用spark来分析日志，具体有什么方法？ Q3：会话日志和会话记录会和其他日志重复吗？如果说会话记录是用户的操作，那么就会和“点击日志”和“反馈行为日志”重复啊，因为后两者就是用户的操作。 Q4：Java中用了AOP，Python中也有吗？ Q5：对于日志，不需要用ES(ElasticSearch)吗？
作者回复: 一般来讲，推荐系统在一个系统中用作用户留存，还是比较重要的
2023-06-24归属地：北京



收起评论