05｜让大模型帮你干活：数据清洗之处理数据存储形式不一致-AI数据分析课-极客时间

AI 数据分析课

尹会生

太乙人工智能技术合伙人

345 人已学习

新⼈⾸单¥59

课程目录

已更新 6 讲/共 34 讲

开篇词 (1讲)



开篇词｜AIGC时代，数据分析可以很简单

时长 14:56

模块一：数据清洗与预处理 (5讲)



01｜数据分析入门：从掌握基础流程开始

时长 48:27

02｜大模型基础：掌握核心原理，知其所以然

时长 52:09

03｜Prompt提示词：与大模型交互的主要方式

时长 47:18

04｜让大模型替你干活：数据清洗之自动识别数据格式与纠正异常

时长 37:13

05｜让大模型帮你干活：数据清洗之处理数据存储形式不一致

时长 41:30



AI 数据分析课



留言





沉浸
阅读





手机端



回顶部

当前播放: 05｜让大模型帮你干活：数据清洗之处理数据存储形式不一致

00:00 / 00:00

高清

高清

1.0x

2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

付费课程，可试看



开篇词｜AIGC时代，数据分析可以很简单

01｜数据分析入门：从掌握基础流程开始

02｜大模型基础：掌握核心原理，知其所以然

03｜Prompt提示词：与大模型交互的主要方式

04｜让大模型替你干活：数据清洗之自动识别数据格式与纠正异常

05｜让大模型帮你干活：数据清洗之处理数据存储形式不一致

本节摘要

点击“展开”查看“精华文字稿”

这一讲咱们继续让大模型帮我们干数据清洗的活儿，看看怎么利用大模型来解决数据存储形式不一致的问题。

想象一下，你手头上有来自不同部门的邮件、文档，里面包含了各类数据，这些数据分别存储在 txt 文件、Excel 表格、CSV 文件，甚至是 Word 文档中。现在你要做数据分析，看到一堆这样的数据，是不是一个头两个大？

具体来说，数据存储形式不一致的问题主要表现在两个方面：一是不同格式的文件需要不同的处理方法和工具来读取；二是即使是相同类型的数据，由于格式不同，其数据结构也可能有所差异，这就需要在数据整合前进行格式统一和结构对齐。

那这个问题可以像上节课那样直接用 ChatGPT 来处理吗？还真不行，主要有两个原因。一个是一旦数据较大，大语言模型容易产生“幻觉”，导致你的数据由 ChatGPT 处理后出现不完整的输出问题；另一个是每次有新的数据都需要与 ChatGPT 交互，它还容易“忘掉”早先的数据。

既然不能直接丢给 ChatGPT 来做，那该怎么办呢？也好解决，咱换个思路，让 ChatGPT 编写程序，辅助我们处理存储不一致的形式。

这节课里会涉及到编程技能，但是你也不用太担心，几乎全部代码我们都是由 ChatGPT 生成的，你只需将编程当做是工具来使用即可。

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论