点击“展开”查看“精华文字稿”
你好,我是尹会生。
在现代生活中,你是否经常会面临各种决策?像是上下班高峰期坐地铁是件麻烦事。你工作了一天,累得要命,却还得在地铁站里面临一个艰难抉择。
选择 A,花更多时间等待有空位的车厢,虽然得多等一会儿,但一上车就能立马坐下;还是选择 B,直接上第一班来的车,一开始可能得挤着站,不过中途说不定就有人下车给你腾出个座儿。
作为职场人,我们的日子可谓应接不暇。除了日常工作,还得时刻面对大大小小的抉择。有些抉择事关个人,比如新的一年是否向老板要求加薪?人力资源部门咨询是走管理还是技术发展路线?这些都将影响到你的职业生涯规划。还有些抉择与业务相关,比如新开发的功能是否需要上线?是否拍板投入大笔营销费用?这些则直接关乎公司的战略布局。
无论大小决策,其实都在 Left-and-Right 你的生活质量。一旦决策失误,可能就是事业止步,甚至身心俱疲。决策质量的高低,核心关乎两个问题:过往的经验是否还够用?个人的视野和阅历是否太过局限?
在当今瞬息万变的社会,单凭个人或组织过往经验已无法解决所有问题。而随着全球化发展,业务日趋多元化,个人所掌握的知识有限。不过,我们回顾一下那些屡立决策傲娇的高手,就不难发现他们的过人之处:高超的数据分析能力。他们善于从更高更宏观的视角出发,细致入微地挖掘企业内部及市场上的各种数据信息,反复对比分析,直到找到一个令人信服的解释和结论。
换句话说,数据分析这项基础能力,是提高你我决策水平的关键所在。掌握了它,再遇到任何难题,我们都能从容应对,作出明智抉择。
纵观过往,数据分析的门槛一直很高,根据我的多年从业经验,门槛主要源于以下几方面障碍:
正因如此,数据分析一直被视为“玄之又玄”的高深学问,普通人难以驾驭。幸运的是,随着人工智能的飞速发展,尤其是 AIGC 的崛起,我们终于找到了降低这一门槛的良方,用大模型来辅助你编写公式,编写代码,编写 SQL 语句访问数据库等。
而且,大模型能以自然语言与人交互,除了能自动编程和数据处理外,还能输出人类可读的分析报告。通过将 AIGC 与人类专家知识相结合,我们不仅能提高分析效率,更能普及分析能力,让数据分析不再是少数人的专利。
可能这样说你没有感觉,我为你举两个日常生活中能用到 AIGC 技术降低数据分析门槛的案例。
作为普通人,很多人对于如何合理规划个人财务状况一头雾水。通过 AIGC 技术,我们可以将自己的收支记录输入给 AI 助手,它将自动清洗和整理数据,帮助识别异常支出、分析收入和支出模式。基于此,AIGC 可以生成可视化的报告和图表,直观展示财务状况,并提供节省开支、理性消费等个性化建议,助您制定切实可行的理财计划。
以下面的个人财务流水数据为例,你能从流水中一眼发现有哪些异常吗?
2024/03/01,支出,-2500,房租 2024/03/03,支出,-80,外卖 3.5,支出,-120,加油 3.7,收入,8000,薪资 3.8,支出,-1200,衣服鞋包 2024/03/10,支出,-300,超市购物 2024/03/12,支出,-6000,亲戚借款 2024/03/15,支出,-80, 外卖 2024/03/17,支出,-50,网费 2024/03/20,支出,-500, 吃喝玩乐 2024/03/22,支出,-3000,新手机 2024/03/25, 收入,5000,兼职收入 2024/03/27,支出,-15000,旅游 2024/03/28,支出,-100,加油 2024/03/30,支出,-80,外卖
你能找到明显异常的支出和有点高但不明显的支出吗? 能找到支出最频繁的类目吗?
你看,如果没有 AIGC 的帮忙,除了不能马上找到异常值外,你还必须要提前处理那些格式异常的数据。
我们来用一句话搞定上面的问题,这里我采用以下问题向 GPT 提问:
你现在是一名专业的数据分析工程师,我将为你提供个人财务流水数据,请你为我: - 整理数据格式 - 找出明显异常支出项目 - 不太明显但也有点高的支出项目 - 重复出现的小额支出 - 主要收入来源 并把数据进行分类汇总,形成图表,并给出个性化的理财建议,帮助规划合理的收支预算
GPT 根据我的问题给到了如下的答案:
明显异常支出项目: 2023/03/12,支出,-6000,亲戚借款 2023/03/27,支出,-15000,旅游 不太明显但较高支出项目: 2023/03/22,支出,-3000,新手机 2023/03/20,支出,-500,吃喝玩乐 重复出现的小额支出: 外卖: 共 3 次,约 240 元 加油: 共 2 次,220 元 主要收入来源: 2023/03/07,收入,8000,薪资 2023/03/25,收入,5000,兼职收入 数据报表: 收支类型 总金额 均值 占比 收入 13000 6500 37.5% 支出 -21960 -1097 62.5% 个性化理财建议: 控制不必要的大额支出,如亲戚借款、旅游等。 减少重复性小额支出,如外卖、加油等。 新手机等可选费用可考虑压低预算。 增加除薪资和兼职外的其他收入来源。 建立固定的记账习惯,合理制定收支预算。
我给你对比一下,要实现这一功能,不使用 AIGC 能力,需要做哪些工作。
具体步骤如下: 整理数据格式 将原始数据导入 Python pandas 数据框 检查和清洗数据,处理任何格式不一致或异常值 将 " 收支类型 " 列转换为类别数据类型 将 " 金额 " 列数据类型转换为数字 找出明显异常支出项目 对 " 金额 " 列的支出数据进行排序,查看最大值 使用 pandas 的查询函数,提取支出金额超过一定阈值 (如 5000 元) 的数据 不太明显但也有点高的支出项目 对支出金额进行分箱,确定中高价位区间 (如 1000-5000 元) 提取该区间内的支出项目及金额 重复出现的小额支出 汇总按 " 说明 " 分组的支出金额 找到金额小于一定值 (如 500 元) 但出现频率较高的项目 主要收入来源 对收入数据根据 " 金额 " 列进行排序 列出金额较大 (如大于 2000 元) 的收入项目 分类汇总和可视化 使用 pandas 根据 " 收支类型 " 对数据进行分组 计算每组的总收入 / 支出金额、均值、占比等统计量 使用 matplotlib 生成收支类型的饼图或条形图 生成按日期的收支时序线图 个性化理财建议 根据数据分析结果,总结主要开支类型及潜在问题 给出减少不必要开支 (如外卖、旅游等) 的建议 考虑是否需要增加收入来源 推荐建立消费记录和理财规划的习惯
借助 AIGC 和不借助 AIGC 的复杂度,高下立判吧。我再给你举一个工作相关的例子吧。
无论是企业主还是个人品牌都需要打造影响力,要在社交平台上进行有效的内容营销都需要数据分析的支持。AIGC 能够自动抓取你的账号数据,对粉丝人群画像、内容互动数据等进行分析和可视化,发现热门趋势和用户偏好。根据分析结果,AIGC 可以推荐优化策略,如何投放广告、发布什么样的内容等,最大化营销 ROI。
以下是一个社交媒体账号数据的示例,包括了一系列帖子的互动数据和粉丝反馈。请问,根据这些数据,你能发现哪些内容类型最受欢迎吗?哪些时间段发布内容能获得更多互动吗?
2024/03/01,帖子 ID:001,内容类型: 教育,互动量:300,点赞:200,评论:50,分享:50 2024/03/02,帖子 ID:002,内容类型: 娱乐,互动量:1000,点赞:700,评论:150,分享:150 2024/03/03,帖子 ID:003,内容类型: 科技,互动量:500,点赞:300,评论:100,分享:100 2024/03/04,帖子 ID:004,内容类型: 旅游,互动量:800,点赞:500,评论:200,分享:100 2024/03/05,帖子 ID:005,内容类型: 美食,互动量:1200,点赞:900,评论:200,分享:100 2024/03/06,帖子 ID:006,内容类型: 生活,互动量:400,点赞:250,评论:100,分享:50
你能根据这些数据找出互动量最高的帖子类型吗?能发现哪些帖子类型虽然互动量不是最高,但拥有良好的参与度(如评论和分享)吗?此外,能否从数据中分析出发布内容的最佳时间?
如果没有 AIGC 的帮助,分析这些数据会非常耗时和困难。我们将利用 AIGC 来自动化这一过程,从而加速数据分析,提供以下信息:
为了完成这些任务,如果不利用 AIGC 技术,我们需要进行以下步骤:
这个案例,我们换另一种方法来问 GPT:
你是数据分析和开发专家,请基于以上数据,开发 Python 程序,要求实现以下功能,并对程序进行自动化测试,提供执行结果
这次 GPT 为我提供了分析数据的代码,为了让你更好的比较两个案例,我把代码也贴在下面供你参考:
import pandas as pd # 构建示例数据 data = { '日期': ['2024/03/01', '2024/03/02', '2024/03/03', '2024/03/04', '2024/03/05', '2024/03/06'], '帖子 ID': ['001', '002', '003', '004', '005', '006'], '内容类型': ['教育', '娱乐', '科技', '旅游', '美食', '生活'], '互动量': [300, 1000, 500, 800, 1200, 400], '点赞': [200, 700, 300, 500, 900, 250], '评论': [50, 150, 100, 200, 200, 100], '分享': [50, 150, 100, 100, 100, 50] } # 创建 DataFrame df = pd.DataFrame(data) # 按内容类型分类的互动量、点赞、评论和分享数据的汇总 summary_by_content_type = df.groupby('内容类型').sum() # 识别出最受欢迎的内容类型(基于互动量) most_popular_content_type = summary_by_content_type['互动量'].idxmax() # 分析出参与度高的内容类型(即使互动量不是最高)- 以评论和分享的总和作为参与度指标 summary_by_content_type['参与度'] = summary_by_content_type['评论'] + summary_by_content_type['分享'] high_engagement_content_type = summary_by_content_type['参与度'].idxmax() # 分析数据,提供结论 summary_by_content_type, most_popular_content_type, high_engagement_content_type
有了代码之后, 你可以更轻松的应对类似的问题,我们一起来看看执行的结果
程序执行结果 ( 互动量 点赞 评论 分享 参与度 内容类型 娱乐 1000 700 150 150 300 教育 300 200 50 50 100 旅游 800 500 200 100 300 生活 400 250 100 50 150 科技 500 300 100 100 200 美食 1200 900 200 100 300, '美食', '娱乐')
得到的结论:
由于数据量较少,这里只为你演示了描述性统计(比如平均数、中位数、模式、最大值、最小值等)基本方法。我们最常用的就是总和、平均值来分析帖子。如果你需要面临更多维度的数据,得到更准确的结论,还需要结合自然语言处理能力,分析帖子内容的文本,识别热门话题或情感倾向。甚至还可以利用预测时间序列数据的未来点,如预测不同时间段帖子的互动量。
通过上面两个案例,不难发现,以往进行数据清洗的“脏活累活”都可以让 GPT 帮你完成。而那些你需要而不擅长的统计学模型、程序代码,也可以让 GPT 为你编写,你来结合业务进行验证。
在即将到来的系列课程中,我将带你深入了解 AIGC 在数据分析中的运用,学会利用大模型掌握数据分析的方方面面,包括但不限于:数据清洗预处理、探索性分析、预测建模、报告自动化、决策支持等,让你在降低学习门槛的同时,全面提升数据分析素养。
我们的课程目标是:结合 AIGC 和数据分析时,找到人工智能自动化和人类专业知识之间的平衡点。AIGC 可以大大提高数据分析的效率和范围,但它的输出应该由数据分析师或领域专家进行验证和解释,以确保分析结果的准确性和可行性。