大数据应用实战
曹犟
神策数据联合创始人 & CTO
71 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 2 讲/共 30 讲
第一章 大数据系统架构设计 (1讲)
大数据应用实战
15
15
1.0x
00:00/19:30
登录|注册

开篇词|在存量竞争时代,充分挖掘数据的价值

讲述:曹犟AI版大小:6.70M时长:19:30
你好,我是曹犟,一个在大数据领域从业十七年的“老”工程师,欢迎你来到《大数据应用实战》这门课程,跟我一起在这个全新的时代讨论如何发挥大数据的价值。
先简单介绍一下我自己。我是湖北某市 2002 年的高考状元,数学满分,之后在清华大学计算机系读完了本科和研究生。毕业后,我在百度工作了六年,先后参与了百度日志平台、用户数据仓库、用户画像等内部大数据系统的研发,是 Hadoop 等大数据系统在国内最早一批的使用者。
2015 年,我作为联合创始人和 CTO,共同创建了神策数据这家公司,领导研发了神策分析、神策用户画像、神策智能运营等一系列 2B 的大数据产品,累计服务了两千多家客户,在国内市场处于领先地位。公司累计也融资了几十亿人民币,算得上国内大数据和企业服务领域有相当影响力的独角兽公司。
这十几年里,我作为亲历者,见证了大数据技术从萌芽,到勃发,再到如今成为绝大部分公司基础设施的整个发展过程。我自己写过很多代码,管理过最多 800 人的技术团队,从 0 开始负责过多个大数据系统的研发,积累了非常多的系统架构、产品设计和数据应用的经验。
此时此刻,我自己也在大模型的辅助下,尝试做一个 AI Native 的原生数据产品。在百度还是 BAT 老大的时候,我在百度做过内部大数据系统的研发,对于一个企业如何搭建自己的内部数据系统有着亲身经验。
而在在过去十年创业,服务 2000 多家分布于国内外几十个行业的众多客户的过程中,对于大数据技术如何在各行各业的不同业务场景中发挥价值,我对于如何根据客户的不同情况,确定完整的大数据应用方案,也有充足的第一手认知。
以上这些,都非常希望通过这个专栏与你交流。

为什么大数据很重要,但又很难做好?

经常会有不同企业的技术负责人问我这样的问题:
我们公司业务规模不大,有必要构建一个自己的大数据系统吗?
我们每天已经有了例行的报表,大数据还能有其它更有价值的应用吗?
我们团队主要做业务开发,深入了解和学习大数据技术是否值得?
在大模型时代,我已有的大数据应用值得重做一遍吗?
对于这些问题,我的答案都是“非常有必要”。
我们都知道,随着用户规模增长的停滞,和宏观经济环境和政策的影响,当下的商业竞争早已从增量扩张转向存量博弈。
而在存量竞争的时代,数据已经成为企业精细化经营的关键生产要素。在这样的竞争态势下,数据不再只是辅助决策的静态资源,而是决定企业精细化运营水准的关键生产要素。单靠传统的统计报表只能让管理层看到“事情发生了什么”,却回答不了“为什么会这样”以及“接下来应该怎样”。
而大数据体系能让企业穿透这些盲点——通过构建统一的数据资产和分析范式,企业不仅能实时洞察用户、实时精准触达目标客群,还能为运营、供应链乃至财务管理提供动态决策依据,从而在变幻莫测的市场中保持灵活和韧性。我在与众多客户、潜在客户的接触中也发现,那些真正把数据用好的企业,通常情况下具有更高的组织效率和内部协作,也的确具备更强的市场竞争力和决策效率。
而另一方面,随着技术的进步,网络、存储、计算硬件成本的大幅度降低,而各种大数据开源组件和商业产品的发展,以及公有云云托管的大数据服务的成熟,都让企业构建自己的大数据系统的成本大幅度降低。“旧时王谢堂前燕,飞入寻常百姓家”,大数据技术在过去十年中,早就不再是少数巨头的专利,而成为每一个企业都可以尝试的基础设施了。
大模型时代的到来,让我们在数据采集、处理、理解与应用上迎来了前所未有的能力跃迁。曾经依赖人工或传统工具才能完成的工作,如今借助大模型,可以在更短时间内、从更丰富的渠道获取数据,并自动完成高质量的清洗、标注与结构化处理。
更重要的是,大模型具备深度理解语义与上下文的能力,可以从海量数据中洞察真实的业务语境与用户意图,帮助我们构建更准确的分析模型与决策体系。
因此,每一个既有的大数据系统与数据应用都值得重新审视——数据采集的覆盖是否完整?采集频率能否支撑实时场景?数据口径是否统一、留存是否规范?在分析环节,我们是否利用了多模态信息、非结构化数据以及知识图谱等新能力?在应用层,能否嵌入 AI 自动化推理、实时决策或智能交互?同时,这也是检查数据安全、隐私合规与伦理治理体系是否同步升级的最好时机。
数据价值的增长,技术难度的下降,使得企业构建自己的大数据系统成为一个性价比更高的选项。但是,大数据的应用落地,依然存在一些不容忽视的挑战。即使是技术实力很强的团队,在大数据落地应用时也经常会感觉力不从心。更别说那些刚刚起步的企业,困难更甚,甚至不知道从何下手。
不知你是否也遇到过这样的一些困惑。
规划设计阶段,缺少对整个大数据系统完整设计和实现有通盘理解的相关人才,不了解用巨大的软硬件成本,完成数据采集和存储之后,到底能有什么应用?
技术选型阶段,各个开源大数据组件应该如何选型?数据湖、数据仓库、湖仓一体这些概念到底有什么区别?明明学会了 Hadoop、Spark、Flink 这些组件的使用方法,但面对真 实业务需求时,却不知道该如何组合这些工具?
数据采集阶段,不知道根据自己的应用,应该采集哪些种类的数据,每种数据应该分别如何采集?在国内外合规要求越来越严格的当下,数据应该怎么采集和处理才是合规的?
数据治理阶段,不知道如何保证数据的质量,从而避免因为数据质量原因影响最后的结论;不知道为什么系统刚上线之后明明挺好用的,为什么持续运行几年却逐渐变得不可用了?
应用实施阶段,同样采集用户行为数据,有些公司能构建完整的用户画像,实现精准用户触达,而你仅仅做了统计分析,结果差强人意;为什么 Netflix 的推荐算法那么准确?为什么阿里能做到千人千面的个性化营销?为什么有些公司的数据驱动决策如此高效?
面临大数据的技术革命,也在焦虑,如何才能不掉队跟上潮流?
如果你也思考过上面这些问题,那么,我希望能够用我的经验和积累,帮助充满求知欲的你。这些问题,都将在本课程后面的学习中,得到解决。

我会怎么设计这门课?

那为什么我有信心,能够帮你解决这些困惑呢?这还要从我自己的踩坑经历说起。
在过去十几年的大数据系统构建和应用实践中,我发现,问题的根源不在技术,而在于我们缺少一套从业务需求出发的系统性方法论。一个大数据项目失败的原因,往往并不是技术不够先进,而是如下的一些问题:
不清楚要解决什么具体的业务问题,盲目追求技术的先进性,做出了错误的技术选型。
缺少对整个大数据系统的全局设计思维,各个组件之间配合不好,技术架构上存在问题。
忽视了数据质量的重要性,导致最终的数据应用结果不可信。
采用整风式的方式实施项目,忽略了系统和数据流的长期可维护性,导致系统上线运行几年之后就不可用。
没有考虑合规和安全要求,在巨大的风险之下,后期不得不推倒重来。
面对大模型之类的新技术,不知道如何与现有体系结合。
经过多年的实践和反思,我自己总结出了一套完整的大数据应用方法论,希望通过这门课程能够分享给你,帮助你建立大数据应用的系统性思维。
那么,具体应该怎么实现这一目标呢?我的答案是:靠记忆和单纯的技术学习,是成不了优秀的大数据工程师的,真正的成长,主要靠实战中的思考力提升。
因此,在这门课中,我不会简单地教你各种组件的使用方法,给你现成的配置文档,这些资料通过大模型非常容易就能获取,它们的回答远远比我要详细。
我会通过三种方法,来培养你解决实际问题的能力。
第一,从业务需求出发推导技术方案,而不是从技术出发找应用场景。手上拿着锤子,就容易看所有东西都是钉子。但是,系统架构和产品设计一样,都需要有逆向思维,始终从最终要解决的问题出发,来完成后续的一系列工作。在这门课程中,我会讨论很多不同场景的技术选择,这些选择听起来都有道理,但我会花很多篇幅去分析业务背景、解释约束条件,最后推导出最适合的技术方案。我希望通过这种思路,让你养成从业务需求出发思考技术问题的习惯。
第二,我会结合大量真实的应用案例。用户行为分析、客户数据平台、智能营销、广告推荐系统,这些典型应用都是我过去十几年亲身负责过的。我会设计专门的篇幅,详细讲解这些产品的设计思路、技术架构,以及我们踩过的坑和解决方案。除此之外,在很多节具体的课程中,也会有一些类似的案例,作为该节课程内容的佐证。在课程的实际内容中,我也会尽量选择免费、开源的技术方案为主,希望你听完之后直接就可以参考,能够对你未来的工作有所启发。
第三,课程中的所有内容都来自我的亲身感受。之所以强调这一点,是因为大数据项目往往有很多细节,也容易踩坑,这些都只有真正经历过的人才能体会到。我会把我过去在百度、神策十几年中积累的经验,把服务几千家客户过程中得到的认知,毫无保留地分享给你。当然,为了保护商业机密,一些敏感信息会经过脱敏处理。
按照上面这三大原则,并充分考虑了实际应用中的挑战和前沿技术的进展,我系统性地梳理了整门课程需要覆盖的知识点,这些知识点可以分为四个部分。
第一章,大数据系统架构设计。
在这部分中,我会系统地从头开始,带你学习一个典型的大数据应用系统应该如何进行架构设计和实现。数据的采集、接入、传输、存储、计算等各个环节中,应该如何进行技术选型和设计,并且尽量从实际的案例出发,提醒你这个过程中可能会踩的坑。同时,由于信创对于部分行业来说已经是一个必须满足的合规需求,云原生也是很多企业技术选型的重要选择,这部分也会讨论这两块的内容。
第二章,数据与平台治理。
这部分会针对一个大数据系统建设过程中,最重要的数据处理、元数据管理、ETL、数据质量和血缘等话题展开讨论。
而除了数据的治理之外,一个大数据系统能否持续运行,是需要充分考虑监控、报警、资源管理和调度等偏向于平台治理方面的需求的。这就好比我们建立好、装修好一个房子之后,需要持续打扫房间,房子才能住得舒适安心。另外,合规和安全也是当前环境下,一个大数据系统不得不考虑的问题,也会在这部分进行讨论。
第三章,典型应用场景与大数据产品的设计。
这部分会结合我本人的实际经验,帮你熟悉典型的用大数据技术来解决的业务场景,以及对应的产品应该如何设计与实现。这些产品包括用户行为分析系统、用户数据平台、自动化营销、广告和个性化推荐系统等。
希望这部分内容能够向你展示,数据如何在业务的方方面面都是能够发挥价值的,也希望当你在碰到具体的应用场景时,能够直接上手参考。
第四章,大模型与大数据。
此时此刻,大模型技术正在成为各行各业的最大技术变量,大数据行业也不例外。包括神策在内的很多大数据公司,都在基于大模型技术,或者给产品增加 Agent 功能,或者重新从头开始打造下一代 AI Native 产品,甚至是重新设计商业模式。而在大模型时代,国外很多与大数据有关的公司,例如 Snowflake、Databricks,都在大模型数据基建这个领域找到了新的增长点,公司价值得到了巨大的提升。
因此,在这部分,我一方面会跟你分享大模型技术对于大数据应用的颠覆式影响,一方面也会反过来讨论如何构建数据基建来服务于大模型。
我用下面这张知识地图,向大家展示了这四部分具体的知识点,供你查阅。在每个模块的每一节课中,我都会尽我所能,把我所知道的、经历过的,都坦诚分享给你。

你将获得什么能力?

这门课程主要适合对大数据应用系统开发感兴趣的数据开发工程师,尤其是已经对于各个常见的大数据组件有一些基本了解和使用经验,但在面对一个实际的需求时,不知道该如何搭建一个应用系统,解决自己面临的实际问题的同学们。
对于产品经理、数据产品经理、数据分析师,也有参考价值。
本课程不会深入介绍各个常见大数据组件的实现原理,而是会介绍如何根据实际的业务需求来搭建一个可以正式运行的大数据系统,解决实际的业务问题。
对于数据开发工程师,通过本课程,可以获得如下能力:
掌握大数据系统的整体架构设计思路;
学会根据业务需求进行合理的技术选型;
了解数据质量管理和数据治理的最佳实践;
具备解决实际业务问题的系统性思维。
对于产品经理和分析师,通过本课程,可以获得如下收获:
深入理解大数据系统的技术实现
学会评估大数据项目的技术可行性和商业价值
提升与技术团队的沟通效率
拓展数据应用的视野和想象空间
一个大数据系统的架构设计和其它业务系统虽然有很大的差别,但是在底层逻辑和方法论上还是有很多可以互相参考的地方。他山之石可以攻玉,对于非大数据行业的研发同学和架构师来说,则可以通过学习这门课,扩大自己在系统架构方面的知识面,反哺到自己所在的领域。

开篇寄语

最后,在开始这门课程之前,我想和你分享几个重要的观点。
之前在一些技术大会上,或者是一些私下交流的场合,经常有人问我要怎么样能够快速学好大数据技术,因为当时大数据工程师薪资高、职业前景好、市场需求大。这种动机没有问题,技术也不是没有快速掌握的路径,当然,如果只是想着该怎么通过速成来应付面试,那就大错特错了。
大数据没有速成班,真正的能力提升主要靠实战中的思考力积累。这门课不是教你背诵各种组件的配置参数,你在这里也找不到所谓的“大数据面试宝典”。
我期望在这门课程的学习过程中,你能够和我一起,静下心来,认真讨论解决实际问题的思维方式和方法论。通过这种深入细致的探讨,才能提升你在面对复杂业务需求时的判断和决策能力,最终通过技术为企业创造真正的价值。我认为这才是一个大数据从业者成长中最重要的能力,是真正的“渔”而不是“鱼”。
我不能保证我的所有观点都是正确的,但是能够保证,所有课程内容,都是本人亲身参与与经历过的,都是来自于前线的第一手信息。在课程讲述过程中,我都以最终解决问题为目的,避免空谈理论。
我不仅是一个工程师,还是一个创业者,也因此,在课程讲述过程中,会有一个更高的视角和站位。课程内容不会局限在技术本身,而是更多讨论如何用技术解决业务问题。整个过程中也会伴随着商业逻辑的思维,这是因为很多技术问题首先是一个商业问题,是一个业务问题。
我目前依然在行业前沿负责具体的产品研发工作,对于大模型等新的技术革新也有非常多的应用经验和思考。因此,我相信课程内容是能够保持新颖、紧跟时代的。
最后,我想分享几个重要的技术理念:
技术服务于业务,而不是相反。任何技术方案的选择,都应该以解决实际业务问题为出发点。
没有银弹,只有权衡。任何架构设计都是在成本、性能、可靠性、复杂度之间的权衡。
数据质量比数据数量更重要。宁可要少量高质量的数据,也不要大量低质量的数据。
在存量竞争的时代,如何充分挖掘数据的价值,如何用数据驱动业务增长,这不仅是技术问题,更是战略问题。我相信,掌握了正确的方法论,你就能够在这个数据驱动的时代中脱颖而出。
现在,让我们一起开启这段探索数据价值的旅程吧!
期待在接下来的学习中与你深度交流,与你相伴,度过一段充满挑战也会充满收获的时光!
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 大数据在存量竞争时代的重要性,成为企业精细化经营的关键生产要素,提供动态决策依据,保持灵活和韧性。 2. 大数据系统的成本降低和技术能力提升,使得企业构建自己的大数据系统成为一个性价比更高的选项,数据采集、处理、理解与应用能力有了前所未有的跃升。 3. 企业在大数据落地应用时面临的挑战和困惑,如缺乏相关人才、技术选型、数据采集和处理合规性、数据质量保证等问题。 4. 作者希望通过自己的经验和积累,帮助有求知欲的读者解决大数据应用中的困惑和问题。 5. 大数据系统的应用落地挑战,即使是技术实力很强的团队,在大数据落地应用时也经常会感觉力不从心,更别说刚刚起步的企业。 6. 面临大数据的技术革命,企业需要跟上潮流,解决大数据应用中的技术挑战和困惑。 7. 真正把数据用好的企业通常具有更高的组织效率和内部协作,也具备更强的市场竞争力和决策效率。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据应用实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
大纲
固定大纲
为什么大数据很重要,但又很难做好?
我会怎么设计这门课?
你将获得什么能力?
开篇寄语
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)