点击“展开”查看“精华文字稿”
这一讲咱们继续让大模型帮我们干数据清洗的活儿,看看怎么利用大模型来解决数据存储形式不一致的问题。
想象一下,你手头上有来自不同部门的邮件、文档,里面包含了各类数据,这些数据分别存储在 txt 文件、Excel 表格、CSV 文件,甚至是 Word 文档中。现在你要做数据分析,看到一堆这样的数据,是不是一个头两个大?
具体来说,数据存储形式不一致的问题主要表现在两个方面:一是不同格式的文件需要不同的处理方法和工具来读取;二是即使是相同类型的数据,由于格式不同,其数据结构也可能有所差异,这就需要在数据整合前进行格式统一和结构对齐。
那这个问题可以像上节课那样直接用 ChatGPT 来处理吗?还真不行,主要有两个原因。一个是一旦数据较大,大语言模型容易产生“幻觉”,导致你的数据由 ChatGPT 处理后出现不完整的输出问题;另一个是每次有新的数据都需要与 ChatGPT 交互,它还容易“忘掉”早先的数据。
既然不能直接丢给 ChatGPT 来做,那该怎么办呢?也好解决,咱换个思路,让 ChatGPT 编写程序,辅助我们处理存储不一致的形式。
这节课里会涉及到编程技能,但是你也不用太担心,几乎全部代码我们都是由 ChatGPT 生成的,你只需将编程当做是工具来使用即可。