• 大寒
    2025-12-01 来自北京
    答:这个事情可以说是从无到有一步步过来的,所以两个思考题一并回答了。最开始的时候其实是没有任何机制的,所以遇到了这样几个典型问题:1.存储占多少不知道;2.数据出了问题怎么办,一点点看代码查;3.数据任务有多少是知道的,但是有多少僵尸任务不知道。后续团队迭代中台时候把数据血缘开发放在了重中之重,但是呢其他问题并没有过多关注(可能也是因为大数据存储不算太贵,这方面成本不太敏感)。到了22-23年的时候,由于业务收缩各部门开始了降本增效,而这个时候我们才发现存储/僵尸任务还是一片迷雾。这个时候我个人在看王朝兴衰,人体健康等内容,从中突然想到了是否数据是否也该有生命周期(我觉得这也算是仿生学的指导意义所在,也一直在思考如何触类旁通)并提了出来。当时的思考还不甚清晰,经过小组讨论后,先开发做到了分区数据保留。后续尝试陆续做了报表层数据使用探测,存储占用测算等等,最后形成了一份使用报表。但是呢,也就止步于此了,依然需要人定期去看相关报表/数据展示。所以这节课算是收获不小,知道了下一步应该做到的是如何自动化定期报告触达出来而非钻牛角尖去想如何完善(因为之前想再推动时会被收益过低被拒),让现有成果能够更好的表现出来。 另追问一个问题,关于统一日志收集。因为现在大部分组件依赖于云厂商,但仍有自建的内容。所以大部分日志可以到对应云厂商那里查询,但是仍有组件的日志会保存到部署的机器上。老师是否建议做功能开发将这部分内容统一归入到云厂商提供的日志服务中吗?比如我们的DolphinScheduler是自己搭的,他的运行日志等内容就是存在了部署机上,需要去那台机器查询。
    展开
    
    