13｜ETL：让数据从“原始”到“可用”

曹犟

你好，我是曹犟。
在上一节课中，我们学习了数据模型，了解了如何将业务需求转化为合理的数据结构。有了好的数据模型，接下来的问题是：如何让原始数据按照这个模型组织起来？这就是今天要讨论的核心话题——ETL。
对于 ETL 的重要性，我想举一个真实的例子。在神策的项目交付中，ETL 相关的成本占到了总成本的 70% 以上，远超系统部署和培训等其他环节。而且神策所做的项目，已经是数据模型相当标准，应用范围非常明确的项目了。
由此可以看出，ETL 是数据治理中最重要的环节，也是数据从“原始”到“可用”的必经之路。数据模型再完美，如果 ETL 做不好，数据就无法准确、及时地流转到该去的地方。
ETL 的本质与核心概念ETL 是 Extract、Transform、Load 三个英文单词的缩写，分别代表数据的提取、转换和加载。这三个步骤构成了对数据进行预处理的完整链路。
Extract：从各种数据源提取数据。这些数据源可能是关系型数据库、数据仓库、日志文件、API 接口、消息队列等。
Transform：对提取的数据进行清洗、转换和整合。包括去除脏数据、统一字段格式、多源数据 Join 和 Union、计算派生字段、ID-Mapping 等。
Load：将处理好的数据加载到目标系统。目标系统从逻辑上可以是数据仓库、数据湖等，是为特定应用准备的数据存储。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. ETL包括Extract、Transform、Load三个步骤，分别代表数据的提取、转换和加载。 2. ETL和ELT的区别：传统ETL适合数据仓库场景，ELT更适合数据湖场景，而在湖仓一体架构中，两种方式结合使用。 3. 数据提取的实践要点包括全量抽取与抽样选择、质量检测、安全合规、血缘与追踪、性能优化。 4. 数据转换的核心技巧包括数据清洗、数据标准化、字段派生、多数据源整合。 5. ID-Mapping是识别出同一个用户在不同系统、不同渠道的不同数据源中的身份，是数据处理中的重要问题。 6. 数据加载的策略选择包括覆盖写入、追加写入和Upsert，需要根据目标表的更新方式选择合适的加载策略。 7. ETL开发的最佳实践包括幂等性设计、可重跑设计、完善的错误处理机制和调度与依赖管理能力。 8. 通过统一日志规范，将ETL工作“前置”可以提升效率，减少重复开发、维护困难和资源浪费。 9. 在实际的实践中，会碰到一些常见的陷阱，如数据倾斜问题、NULL值的处理、精度损失问题等，需要特别注意和处理。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《大数据应用实战》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论