• 大寒
    2025-11-26 来自北京
    思考题一:在数据仓库建立了表级及任务级血缘关系,之前在做数仓迭代时能够准确的找到下游需要替换的表(当然代码还是得自己看然后修改);做存储优化时辅助决策保留的数据情况。目前的话更多是用于探测数据孤岛。结合应用层输出内容使用情况的定期自动化采集 + 部分人工标注来实现应用层任务基本的自动化管理。贴源层和中间层还是需要定期查看看板进行人工巡视,执行不定期清除操作。但是呢,由于没有到字段级别,所以面对计算数据有问题时只能看代码一步步排查(当然比没有血缘时强很多)。 思考题二:目前来看AI应用大部分是将原先人工的操作转化为AI来进行,而根据我自己的体会大部分问题排查场景思路是较为固定的。所以如果能够建设血缘关系,那么调度故障和影响等方面是可以让AI来辅助生成问题排查点和相应报告的;如果能建设到字段级别,也可以畅想下AI辅助生成对应的排查点,进一步讲再结合数据质量监控,那么很可能就是AI来主动帮我们写大部分报告了。

    作者回复: 你好,非常感谢你对两个思考题的深入回答,你的实践经验和对 AI 应用的思考都很有价值。 关于思考题一,你们的血缘建设路径很有代表性。 你提到已经建立了表级和任务级血缘,并且在几个场景中发挥了实际价值:数仓迭代时快速定位下游影响、存储优化时辅助决策、探测数据孤岛。这些都是血缘关系最直接的应用场景,说明你们的血缘建设已经产生了实际的 ROI。 “结合应用层输出内容使用情况的定期自动化采集 + 部分人工标注”,这个做法很务实。应用层的血缘往往涉及到 BI 报表、数据服务接口、导出文件等多种形态,纯自动化采集确实很难覆盖全面,人工标注作为补充是合理的选择。 你提到“贴源层和中间层还需要定期人工巡视”,这也是很多团队的现状。我的建议是:可以尝试建立一些自动化的规则来辅助巡视。比如,超过 N 天没有下游访问的表自动标记为“待清理候选”;存储空间超过阈值且增长异常的表自动告警;血缘链路中断超过 N 层的表标记为“孤岛候选”。这些自动化规则可以帮助你更高效地识别问题,减少人工巡视的工作量。 关于“没有到字段级别,计算数据有问题时只能看代码一步步排查”,这确实是字段级血缘的核心价值所在。字段级血缘的建设成本较高,但在特定场景下价值也很高。 我的建议是:不需要一开始就追求全量的字段级血缘。可以先从几类核心表开始:第一类是核心指标表,这些表被大量下游使用,一旦出问题影响面很大;第二类是数据质量问题高发的表,历史上经常出问题,需要频繁排查;第三类是跨团队边界的表,比如中间层到应用层的交接表,权责不清容易扯皮。对这些表建立字段级血缘,投入产出比会比较高。 关于思考题二,你对 AI 应用场景的分析很有洞察。 “大部分问题排查场景思路是较为固定的”,这个观察非常准确。问题排查本质上是一个基于规则和经验的推理过程:先看是不是调度失败,再看是不是上游数据延迟,再看是不是数据质量问题,再看是不是计算逻辑变更……这种固定的思路,正是 AI 可以发挥作用的地方。 你畅想的几个场景我都很认同,而且在技术上已经具备可行性。 第一,AI 辅助生成问题排查点。基于血缘关系,当某个任务失败或数据异常时,AI 可以自动分析:这个任务依赖哪些上游?上游的执行状态如何?上游的数据质量指标有没有异常?然后生成一份排查清单,告诉你应该先检查哪里。 第二,AI 辅助生成影响分析报告。当需要变更某个表或任务时,AI 可以基于血缘自动分析所有下游影响,生成一份影响报告:会影响哪些表、哪些任务、哪些报表、哪些业务方,预计影响范围有多大。 第三,AI 辅助生成故障报告。当故障发生后,AI 可以自动汇总:故障时间、影响范围、根因分析、处理过程、后续改进建议,生成一份标准化的故障报告。这在很多公司是需要人工写的,而且格式要求很严格,AI 来做可以大大节省时间。 第四,AI 主动发现潜在问题。结合数据质量监控和血缘关系,AI 可以主动分析:某个上游表的数据分布发生了变化,虽然还没有触发告警阈值,但基于历史模式,这种变化可能会导致下游某些计算结果异常。这种“预测性”的分析,是人工很难做到的。 要实现这些场景,有几个前提条件。第一,血缘数据的完整性和准确性。AI 的分析质量取决于血缘数据的质量,如果血缘本身就是残缺的、过时的,AI 的分析也会出错。第二,历史故障案例的积累。AI 需要从历史案例中学习排查模式,所以要有意识地积累和结构化记录历史故障。第三,与现有系统的集成。AI 需要能够访问调度系统、监控系统、元数据系统等,获取实时的状态信息。 你现在已经有了表级和任务级血缘的基础,这是一个很好的起点。我的建议是:可以从最简单的场景开始尝试,比如“任务失败时自动生成上游检查清单”,这个场景相对简单,依赖的信息也比较少,可以快速验证效果。然后再逐步扩展到更复杂的场景。 在课程的后面,我们也会讨论 Data Agent 的话题,包括 AI 如何与数据系统结合。期待你在实践中继续探索,也欢迎分享你的尝试和经验!

    
    1