AI 数据分析课
尹会生
太乙人工智能技术合伙人 
20 人已学习
新⼈⾸单¥59
课程目录
已更新 3 讲/共 34 讲
AI 数据分析课
登录|注册
留言
收藏
沉浸
阅读
分享
手机端
回顶部
当前播放: 开篇词|AIGC时代,数据分析可以很简单
00:00 / 00:00
高清
  • 高清
1.0x
  • 2.0x
  • 1.5x
  • 1.25x
  • 1.0x
  • 0.75x
  • 0.5x
网页全屏
全屏
00:00
付费课程,可试看
开篇词|AIGC时代,数据分析可以很简单
01|数据分析入门:从掌握基础流程开始
02|大模型基础:掌握核心原理,知其所以然
本节摘要

点击“展开”查看“精华文字稿”

你好,我是尹会生。

用数据分析辅助决策

在现代生活中,你是否经常会面临各种决策?像是上下班高峰期坐地铁是件麻烦事。你工作了一天,累得要命,却还得在地铁站里面临一个艰难抉择。

选择 A,花更多时间等待有空位的车厢,虽然得多等一会儿,但一上车就能立马坐下;还是选择 B,直接上第一班来的车,一开始可能得挤着站,不过中途说不定就有人下车给你腾出个座儿。

作为职场人,我们的日子可谓应接不暇。除了日常工作,还得时刻面对大大小小的抉择。有些抉择事关个人,比如新的一年是否向老板要求加薪?人力资源部门咨询是走管理还是技术发展路线?这些都将影响到你的职业生涯规划。还有些抉择与业务相关,比如新开发的功能是否需要上线?是否拍板投入大笔营销费用?这些则直接关乎公司的战略布局。

无论大小决策,其实都在 Left-and-Right 你的生活质量。一旦决策失误,可能就是事业止步,甚至身心俱疲。决策质量的高低,核心关乎两个问题:过往的经验是否还够用?个人的视野和阅历是否太过局限?

在当今瞬息万变的社会,单凭个人或组织过往经验已无法解决所有问题。而随着全球化发展,业务日趋多元化,个人所掌握的知识有限。不过,我们回顾一下那些屡立决策傲娇的高手,就不难发现他们的过人之处:高超的数据分析能力。他们善于从更高更宏观的视角出发,细致入微地挖掘企业内部及市场上的各种数据信息,反复对比分析,直到找到一个令人信服的解释和结论。

换句话说,数据分析这项基础能力,是提高你我决策水平的关键所在。掌握了它,再遇到任何难题,我们都能从容应对,作出明智抉择。

数据分析的门槛

纵观过往,数据分析的门槛一直很高,根据我的多年从业经验,门槛主要源于以下几方面障碍:

  1. 专业知识要求高,需要掌握统计学、编程、数据库等多门学科 ;
  2. 许多分析工具使用复杂,需要一定的培训和实践经验 ;
  3. 数据分析流程冗长繁琐,从清洗、探索到建模,每个步骤都考验专业能力 ;
  4. 对行业和业务领域的理解至关重要,缺乏背景知识难以深入分析。

正因如此,数据分析一直被视为“玄之又玄”的高深学问,普通人难以驾驭。幸运的是,随着人工智能的飞速发展,尤其是 AIGC 的崛起,我们终于找到了降低这一门槛的良方,用大模型来辅助你编写公式,编写代码,编写 SQL 语句访问数据库等。

而且,大模型能以自然语言与人交互,除了能自动编程和数据处理外,还能输出人类可读的分析报告。通过将 AIGC 与人类专家知识相结合,我们不仅能提高分析效率,更能普及分析能力,让数据分析不再是少数人的专利。

可能这样说你没有感觉,我为你举两个日常生活中能用到 AIGC 技术降低数据分析门槛的案例。

用大模型降低数据门槛的两个案例

案例一:个人理财规划

作为普通人,很多人对于如何合理规划个人财务状况一头雾水。通过 AIGC 技术,我们可以将自己的收支记录输入给 AI 助手,它将自动清洗和整理数据,帮助识别异常支出、分析收入和支出模式。基于此,AIGC 可以生成可视化的报告和图表,直观展示财务状况,并提供节省开支、理性消费等个性化建议,助您制定切实可行的理财计划。

以下面的个人财务流水数据为例,你能从流水中一眼发现有哪些异常吗?

复制代码
2024/03/01,支出,-2500,房租
2024/03/03,支出,-80,外卖
3.5,支出,-120,加油
3.7,收入,8000,薪资
3.8,支出,-1200,衣服鞋包
2024/03/10,支出,-300,超市购物
2024/03/12,支出,-6000,亲戚借款
2024/03/15,支出,-80, 外卖
2024/03/17,支出,-50,网费
2024/03/20,支出,-500, 吃喝玩乐
2024/03/22,支出,-3000,新手机
2024/03/25, 收入,5000,兼职收入
2024/03/27,支出,-15000,旅游
2024/03/28,支出,-100,加油
2024/03/30,支出,-80,外卖

你能找到明显异常的支出和有点高但不明显的支出吗? 能找到支出最频繁的类目吗?

你看,如果没有 AIGC 的帮忙,除了不能马上找到异常值外,你还必须要提前处理那些格式异常的数据。

我们来用一句话搞定上面的问题,这里我采用以下问题向 GPT 提问:

复制代码
你现在是一名专业的数据分析工程师,我将为你提供个人财务流水数据,请你为我:
- 整理数据格式
- 找出明显异常支出项目
- 不太明显但也有点高的支出项目
- 重复出现的小额支出
- 主要收入来源
并把数据进行分类汇总,形成图表,并给出个性化的理财建议,帮助规划合理的收支预算

GPT 根据我的问题给到了如下的答案:

复制代码
明显异常支出项目:
2023/03/12,支出,-6000,亲戚借款
2023/03/27,支出,-15000,旅游
不太明显但较高支出项目:
2023/03/22,支出,-3000,新手机
2023/03/20,支出,-500,吃喝玩乐
重复出现的小额支出:
外卖: 共 3 次,约 240
加油: 共 2 次,220
主要收入来源:
2023/03/07,收入,8000,薪资
2023/03/25,收入,5000,兼职收入
数据报表:
收支类型 总金额 均值 占比
收入 13000 6500 37.5%
支出 -21960 -1097 62.5%
个性化理财建议:
控制不必要的大额支出,如亲戚借款、旅游等。
减少重复性小额支出,如外卖、加油等。
新手机等可选费用可考虑压低预算。
增加除薪资和兼职外的其他收入来源。
建立固定的记账习惯,合理制定收支预算。

我给你对比一下,要实现这一功能,不使用 AIGC 能力,需要做哪些工作。

复制代码
具体步骤如下:
整理数据格式
将原始数据导入 Python pandas 数据框
检查和清洗数据,处理任何格式不一致或异常值
" 收支类型 " 列转换为类别数据类型
" 金额 " 列数据类型转换为数字
找出明显异常支出项目
" 金额 " 列的支出数据进行排序,查看最大值
使用 pandas 的查询函数,提取支出金额超过一定阈值 (如 5000 元) 的数据
不太明显但也有点高的支出项目
对支出金额进行分箱,确定中高价位区间 (如 1000-5000 元)
提取该区间内的支出项目及金额
重复出现的小额支出
汇总按 " 说明 " 分组的支出金额
找到金额小于一定值 (如 500 元) 但出现频率较高的项目
主要收入来源
对收入数据根据 " 金额 " 列进行排序
列出金额较大 (如大于 2000 元) 的收入项目
分类汇总和可视化
使用 pandas 根据 " 收支类型 " 对数据进行分组
计算每组的总收入 / 支出金额、均值、占比等统计量
使用 matplotlib 生成收支类型的饼图或条形图
生成按日期的收支时序线图
个性化理财建议
根据数据分析结果,总结主要开支类型及潜在问题
给出减少不必要开支 (如外卖、旅游等) 的建议
考虑是否需要增加收入来源
推荐建立消费记录和理财规划的习惯

借助 AIGC 和不借助 AIGC 的复杂度,高下立判吧。我再给你举一个工作相关的例子吧。

案例二:社交媒体内容营销

无论是企业主还是个人品牌都需要打造影响力,要在社交平台上进行有效的内容营销都需要数据分析的支持。AIGC 能够自动抓取你的账号数据,对粉丝人群画像、内容互动数据等进行分析和可视化,发现热门趋势和用户偏好。根据分析结果,AIGC 可以推荐优化策略,如何投放广告、发布什么样的内容等,最大化营销 ROI。

以下是一个社交媒体账号数据的示例,包括了一系列帖子的互动数据和粉丝反馈。请问,根据这些数据,你能发现哪些内容类型最受欢迎吗?哪些时间段发布内容能获得更多互动吗?

复制代码
2024/03/01,帖子 ID:001,内容类型: 教育,互动量:300,点赞:200,评论:50,分享:50
2024/03/02,帖子 ID:002,内容类型: 娱乐,互动量:1000,点赞:700,评论:150,分享:150
2024/03/03,帖子 ID:003,内容类型: 科技,互动量:500,点赞:300,评论:100,分享:100
2024/03/04,帖子 ID:004,内容类型: 旅游,互动量:800,点赞:500,评论:200,分享:100
2024/03/05,帖子 ID:005,内容类型: 美食,互动量:1200,点赞:900,评论:200,分享:100
2024/03/06,帖子 ID:006,内容类型: 生活,互动量:400,点赞:250,评论:100,分享:50

你能根据这些数据找出互动量最高的帖子类型吗?能发现哪些帖子类型虽然互动量不是最高,但拥有良好的参与度(如评论和分享)吗?此外,能否从数据中分析出发布内容的最佳时间?

如果没有 AIGC 的帮助,分析这些数据会非常耗时和困难。我们将利用 AIGC 来自动化这一过程,从而加速数据分析,提供以下信息:

  • 按内容类型分类的互动量、点赞、评论和分享数据的汇总
  • 识别出最受欢迎的内容类型
  • 分析出参与度高的内容类型(即使互动量不是最高)
  • 确定发布内容的最佳时间段
  • 基于分析结果,提出个性化的内容策略和广告投放建议

为了完成这些任务,如果不利用 AIGC 技术,我们需要进行以下步骤:

  • 数据收集和清洗:手动或使用自动化工具从社交媒体平台收集帖子数据,然后清洗数据,确保数据质量。
  • 数据分析:使用数据分析工具,如 Python 的 pandas 库,对数据进行分类汇总、统计分析。
  • 趋势识别:通过分析帖子的互动数据,识别出哪些内容类型最受欢迎,以及哪些时间段发布内容能获得更多互动。
  • 策略制定:基于分析结果,制定内容发布策略和广告投放计划,以优化营销效果。

这个案例,我们换另一种方法来问 GPT:

复制代码
你是数据分析和开发专家,请基于以上数据,开发 Python 程序,要求实现以下功能,并对程序进行自动化测试,提供执行结果

这次 GPT 为我提供了分析数据的代码,为了让你更好的比较两个案例,我把代码也贴在下面供你参考:

复制代码
import pandas as pd
# 构建示例数据
data = {
'日期': ['2024/03/01', '2024/03/02', '2024/03/03', '2024/03/04', '2024/03/05', '2024/03/06'],
'帖子 ID': ['001', '002', '003', '004', '005', '006'],
'内容类型': ['教育', '娱乐', '科技', '旅游', '美食', '生活'],
'互动量': [30010005008001200400],
'点赞': [200700300500900250],
'评论': [50150100200200100],
'分享': [5015010010010050]
}
# 创建 DataFrame
df = pd.DataFrame(data)
# 按内容类型分类的互动量、点赞、评论和分享数据的汇总
summary_by_content_type = df.groupby('内容类型').sum()
# 识别出最受欢迎的内容类型(基于互动量)
most_popular_content_type = summary_by_content_type['互动量'].idxmax()
# 分析出参与度高的内容类型(即使互动量不是最高)- 以评论和分享的总和作为参与度指标
summary_by_content_type['参与度'] = summary_by_content_type['评论'] + summary_by_content_type['分享']
high_engagement_content_type = summary_by_content_type['参与度'].idxmax()
# 分析数据,提供结论
summary_by_content_type, most_popular_content_type, high_engagement_content_type

有了代码之后, 你可以更轻松的应对类似的问题,我们一起来看看执行的结果

复制代码
程序执行结果
( 互动量 点赞 评论 分享 参与度
内容类型
娱乐 1000 700 150 150 300
教育 300 200 50 50 100
旅游 800 500 200 100 300
生活 400 250 100 50 150
科技 500 300 100 100 200
美食 1200 900 200 100 300,
'美食',
'娱乐')

得到的结论:

  1. 按内容类型分类的互动量、点赞、评论和分享数据的汇总如下:
  • 娱乐:互动量 1000,点赞 700,评论 150,分享 150,参与度 300
  • 教育:互动量 300,点赞 200,评论 50,分享 50,参与度 100
  • 旅游:互动量 800,点赞 500,评论 200,分享 100,参与度 300
  • 生活:互动量 400,点赞 250,评论 100,分享 50,参与度 150
  • 科技:互动量 500,点赞 300,评论 100,分享 100,参与度 200
  • 美食:互动量 1200,点赞 900,评论 200,分享 100,参与度 300
  1. 最受欢迎的内容类型(基于互动量)是美食,互动量达到了 1200。
  2. 参与度高的内容类型(即使互动量不是最高),在这里,我们以评论和分享的总和作为参与度指标。结果显示,娱乐和美食的参与度均为最高,达到了 300。但考虑到问题的独特性,我们可以认为娱乐和旅游的参与度高,因为它们在不同内容类型中共享最高参与度值。
  3. 基于上述分析结果,我们可以提出以下个性化的内容策略和广告投放建议:
  • 强化美食内容:由于美食内容类型拥有最高的互动量,建议增加关于美食的内容发布,尤其是那些能引发高度互动的主题。
  • 增加娱乐和旅游内容:考虑到娱乐和旅游内容的高参与度,建议制作更多能引起讨论和分享的娱乐和旅游相关内容。
  • 优化发布时间:尽管数据中没有提供具体的最佳发布时间,但通过长期跟踪互动量与发布时间的关系,可以确定吸引更多互动的最佳时间段,并据此调整内容发布计划。
  • 针对性广告投放:利用分析结果针对性地投放广告,例如在美食、娱乐或旅游高峰期投放相关广告,以吸引目标受众。

由于数据量较少,这里只为你演示了描述性统计(比如平均数、中位数、模式、最大值、最小值等)基本方法。我们最常用的就是总和、平均值来分析帖子。如果你需要面临更多维度的数据,得到更准确的结论,还需要结合自然语言处理能力,分析帖子内容的文本,识别热门话题或情感倾向。甚至还可以利用预测时间序列数据的未来点,如预测不同时间段帖子的互动量。

通过上面两个案例,不难发现,以往进行数据清洗的“脏活累活”都可以让 GPT 帮你完成。而那些你需要而不擅长的统计学模型、程序代码,也可以让 GPT 为你编写,你来结合业务进行验证。

课程内容是怎么设计的?

在即将到来的系列课程中,我将带你深入了解 AIGC 在数据分析中的运用,学会利用大模型掌握数据分析的方方面面,包括但不限于:数据清洗预处理、探索性分析、预测建模、报告自动化、决策支持等,让你在降低学习门槛的同时,全面提升数据分析素养。

我们的课程目标是:结合 AIGC 和数据分析时,找到人工智能自动化和人类专业知识之间的平衡点。AIGC 可以大大提高数据分析的效率和范围,但它的输出应该由数据分析师或领域专家进行验证和解释,以确保分析结果的准确性和可行性。

展开
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论