• 大寒
    2025-12-18 来自北京
    思考题3:我认为会融合演进,就像老师课上描述特征工程理论上会被大模型时代的transformer更好的取代(由人工标注转变为系统理解),但是在早期阶段还是需要一些传统方式介入(比如新平台冷气阶段)。同时实际生产中在线学习在早期也需要人工进行干预(即Human in the Loop的概念)。所以传统推荐工程在现阶段我理解还是会成为大模型时代的前置学习阶段而融入其中。这方面我接触到的也是课程知识,恳请老师指点一二。同时追问一个问题,老师能否讲解下作为数据从业者应该如何去接触学习推荐系统与广告系统这方面的内容(相关书籍买了些但是并不知道该如何融合进工作来),因为我的理解是如果能有这方面的接触就能站上一个更广阔的视角去看待数据平台的建设,使用与维护。我一方面认为数据从业者(相较于前后端开发)应该是更便利接触到各个领域的,而另一方面虽然浅显接触过这些但是不知道怎样算是对这个领域有所了解(如何对自我有一个评判标准)以及如何去破圈应用。

    作者回复: 你好,你的问题触及了数据从业者职业发展中一个很重要的议题。 “传统推荐工程会成为大模型时代的前置学习阶段而融入其中”,这个观点很有见地。确实,大模型并不会完全取代传统方法,而是会形成一种融合和分工。 具体来说,传统方法在以下场景仍然不可替代:冷启动阶段,新用户、新物品没有足够数据时,基于规则和统计的方法更稳定;实时性要求极高的场景,传统模型推理速度快、成本低;可解释性要求高的场景,传统特征工程的逻辑更容易解释给业务方。 而大模型的优势在于:处理非结构化数据,比如理解用户评论、商品描述的语义;捕捉复杂的用户意图,不依赖人工定义的特征;跨域知识迁移,利用预训练知识解决数据稀疏问题。 你提到的 Human in the Loop 概念也很重要。即使在大模型时代,人工干预仍然是必要的,无论是冷启动时的人工规则,还是模型输出的人工审核,还是反馈数据的人工标注,人始终是系统的重要组成部分。 关于如何学习推荐系统和广告系统,这是你追问的核心问题,我详细回答一下。 第一,关于学习路径的建议。 对于数据从业者来说,学习推荐系统和广告系统,不需要像算法工程师那样深入模型细节,而是要理解“数据如何在这些系统中流动和发挥作用”。 我建议分三个层次来学习: 第一层,理解业务逻辑。推荐系统要解决什么问题?用户、物品、场景三要素如何交互?常见的推荐场景有哪些,比如首页推荐、相关推荐、搜索排序?广告系统的商业模式是什么?CPM、CPC、CPA 分别是什么含义?广告主、平台、用户三方的利益如何平衡?这一层不需要看技术书籍,多看产品分析、行业报告,多体验各类产品的推荐和广告功能。 第二层,理解数据链路。推荐系统需要哪些数据?用户画像、物品特征、行为日志、上下文信息。这些数据如何采集、存储、加工?实时特征和离线特征如何配合?效果如何评估?曝光、点击、转化、留存这些指标如何计算?AB 测试如何设计?这一层和你现在的数据工作高度相关,可以结合实际项目来学习。 第三层,理解算法原理。不需要自己实现算法,但要理解主流方法的基本思想:协同过滤的原理是什么?为什么需要 Embedding?深度学习推荐模型解决了什么问题?这一层可以看一些经典书籍和论文,但不要陷入公式推导,重点是理解思想。 第二,关于如何融入工作。 你说“买了书但不知道如何融入工作”,这是很多人的困惑。我的建议是:不要等“学会了”再用,而是带着问题去学。 几个具体的切入点: 如果你们公司有推荐系统,主动去了解它的数据链路。推荐系统用了哪些数据?这些数据是怎么加工的?特征是怎么构建的?效果指标是怎么算的?你作为数据从业者,很可能就是这些数据的提供者或加工者,只是之前没有从“推荐系统”的视角来看。 如果你们公司没有推荐系统,可以从数据分析的角度切入。比如,分析用户的行为序列,看看用户通常的浏览路径是什么;分析物品的共现关系,看看哪些商品经常被一起购买;这些分析本身就是推荐系统的基础。 参与或发起一个小项目。比如,为某个场景设计一个简单的推荐规则,基于用户最近浏览的品类推荐热门商品;或者,搭建一个推荐效果的监控看板,跟踪点击率、转化率的变化。这种小项目不需要复杂的算法,但能让你把学到的知识用起来。 第三,关于如何评判自己的掌握程度。 你问“怎样算是对这个领域有所了解”,我给你几个自测标准: 入门级:能说清楚推荐系统的基本组成,召回、排序、重排;能理解常见的评估指标,CTR、CVR、AUC;能画出推荐系统的数据流图,从用户行为到推荐结果。 进阶级:能分析一个推荐场景的问题,比如为什么点击率下降了;能设计一个简单的推荐策略,并说清楚需要哪些数据;能和算法工程师有效沟通,理解他们的需求和痛点。 高阶级:能从数据角度优化推荐效果,比如特征工程、样本构建;能设计推荐系统的数据架构,支撑实时和离线的需求;能识别数据质量问题对推荐效果的影响,并给出解决方案。 作为数据从业者,达到进阶级就已经很有价值了。 第四,关于“破圈应用”。 你说得很对,数据从业者确实比前后端开发更容易接触到各个领域。这是因为数据是业务的“血液”,流经所有环节。 破圈的关键不是“学会所有领域的技术”,而是“用数据视角去理解各个领域”。你不需要会写推荐算法,但你要知道推荐系统需要什么数据、数据质量如何影响效果;你不需要会搭建广告系统,但你要知道广告归因是怎么做的、数据口径有哪些坑。 这种“数据视角”的跨领域能力,正是数据从业者的核心竞争力。它让你能够:和不同团队有效协作,成为业务和技术之间的桥梁;发现数据层面的问题和机会,推动业务优化;在职业发展上有更多选择,数据产品、数据架构、甚至业务方向。 最后想说的是,保持好奇心和学习动力,持续积累,一定能在数据领域走得更远。

    
    
  • 大寒
    2025-12-18 来自北京
    思考题1:拿视听内容平台举例吧,我的理解是首页的feeds,搜索界面的猜你想搜索的内容,以及每个节目下边的推荐节目都属于推荐系统驱动的。从我的体验来说,推荐效果除了算法推荐本身而言,也依赖于平台内容的储备,当平台某些板块内容储备有限时再好的算法也是无能为力;同时随着近年来营销号的兴起和AI能力加持,推荐系统也面临着被垃圾内容充斥的窘境。所以大模型时代不仅能带给平台能力上的提升,也同时面临着被一些垃圾内容霸占的风险,而这一博弈的特点也会是道高一尺,魔高一丈的反复较量。另一点来说,行业外的人也会感觉到推荐系统反馈过快,比如在他们的视角下聊天中刚聊到家具,马上电商就推荐了相关内容,从而感到隐私被侵犯。当然,这个涉及到的点也不仅仅是技术层面而是涉及到伦理社会层面,也不太想过多展开探讨(自己经历也并不丰富,不敢妄言)。 思考题2:我觉得有两种思路,一种是借鉴google PageRank思路,在其中加入一个随机跳转因子,在推荐基于用户看来相似内容基础上加一些随机跳转内容。思路可以类比为生活中不完全循规蹈矩,而是在某些时刻做一些出圈的事情来破圈。另一种则可能适用某些特殊场景,比如时政类节目不同博主观点是可以分为几类的,而用户大部分喜欢看的是其中一类观点,一直推送强化肯定会造成信息茧房,但是某些平台(比如知乎,头条等)经常会时不时推送不同类观点的内容,虽然很多时候我自己并不大愿意看但是也不失为打破“信息茧房”的方式。综上,推荐系统主推用户潜在感兴趣的(比如80%)和一些经由这些思路产生的内容(比如20%)可能是一个值得考虑的选择。
    展开

    作者回复: 你好,非常感谢你对两个思考题的深入回答。 关于思考题一,你对推荐系统应用场景的识别很准确。 首页 Feeds、搜索联想、相关推荐,这些确实是推荐系统最典型的应用场景。你提到的两个观察非常有洞察力。 第一,“推荐效果依赖于平台内容储备”。这个判断非常到位。推荐系统本质上是在做“匹配”,把合适的内容匹配给合适的用户。如果内容池本身就很贫乏,再好的算法也是“巧妇难为无米之炊”。这也是为什么很多平台在做推荐系统之前,首先要解决的是内容供给问题。从数据角度看,内容的丰富度和质量是推荐系统效果的上限。 第二,“大模型时代的双刃剑效应”。你提到 AI 能力加持下垃圾内容泛滥的问题,这是一个非常现实的挑战。大模型降低了内容生产的门槛,既让优质创作者更高效,也让低质量内容更容易批量生产。你用“道高一尺,魔高一丈”来形容这种博弈,非常贴切。从技术角度,应对这个问题通常需要多管齐下:内容质量评估模型、用户反馈信号(举报、负向行为)、账号信誉体系等。这确实是一场持续的攻防战。 关于“推荐系统反馈过快导致隐私担忧”的问题,我想补充一点。很多用户感知到的“刚聊完就推荐”,实际上大部分情况并不是监听聊天内容,而是因为:你和朋友可能有相似的兴趣画像,你们同时被推荐了相关内容;或者是“确认偏误”,你平时可能也收到过类似推荐但没注意,聊完之后特别留意了。当然,这并不是说隐私问题不存在,只是说这个问题比表面看起来更复杂。你说得对,这涉及伦理和社会层面,技术人员也需要有这种意识。 关于思考题二,你提出的两种打破信息茧房的思路都很有价值。 第一种思路,借鉴 PageRank 的随机跳转因子。这个类比非常巧妙。在推荐系统中,这种做法通常叫做“探索与利用”(Exploration vs Exploitation)的平衡。”利用“是推荐用户已知喜欢的内容,“探索”是尝试推荐一些用户可能喜欢但还没表现出兴趣的内容。你说的“生活中不完全循规蹈矩,偶尔做些出圈的事情来破圈”,正是“探索”的价值所在。 第二种思路,主动推送不同观点的内容。这个在学术上叫“观点多样性”(Viewpoint Diversity)。你观察到的知乎、头条推送不同观点内容的做法,正是平台在有意识地对抗信息茧房。虽然用户短期内可能不愿意看,但从长期来看,有助于用户获得更全面的信息视角。 你提出的“80% 主推 + 20% 探索”的比例设计思路很务实。实际上,很多推荐系统确实会采用类似的策略。具体比例因业务而异:如果是电商,用户目的性强,探索比例可以低一些;如果是内容平台,适当提高探索比例有助于发现用户新的兴趣点,也有助于平台内容生态的健康发展。 我想补充几种业界常用的打破信息茧房的方法: 第一,基于内容属性的多样性约束。在推荐结果中强制包含不同类别、不同来源、不同时间段的内容,避免结果过于单一。 第二,基于用户反馈的动态调整。如果用户长期只看某一类内容,系统可以主动提示“是否想看看其他类型”,或者在某些位置插入跨类内容。 第三,社交关系的引入。推荐用户好友喜欢但用户自己没看过的内容,借助社交信任来拓展用户的兴趣边界。 第四,时间衰减机制。降低用户历史行为的权重,避免被过去的兴趣“锁定”,让用户当前的兴趣有更大的表达空间。

    
    