AI 数据分析课
尹会生
太乙人工智能技术合伙人 
345 人已学习
新⼈⾸单¥59
AI 数据分析课
登录|注册
留言
收藏
沉浸
阅读
分享
手机端
回顶部
当前播放: 05|让大模型帮你干活:数据清洗之处理数据存储形式不一致
00:00 / 00:00
高清
  • 高清
1.0x
  • 2.0x
  • 1.5x
  • 1.25x
  • 1.0x
  • 0.75x
  • 0.5x
网页全屏
全屏
00:00
付费课程,可试看
开篇词|AIGC时代,数据分析可以很简单
01|数据分析入门:从掌握基础流程开始
02|大模型基础:掌握核心原理,知其所以然
03|Prompt提示词:与大模型交互的主要方式
04|让大模型替你干活:数据清洗之自动识别数据格式与纠正异常
05|让大模型帮你干活:数据清洗之处理数据存储形式不一致
本节摘要

点击“展开”查看“精华文字稿”

这一讲咱们继续让大模型帮我们干数据清洗的活儿,看看怎么利用大模型来解决数据存储形式不一致的问题。

想象一下,你手头上有来自不同部门的邮件、文档,里面包含了各类数据,这些数据分别存储在 txt 文件、Excel 表格、CSV 文件,甚至是 Word 文档中。现在你要做数据分析,看到一堆这样的数据,是不是一个头两个大?

具体来说,数据存储形式不一致的问题主要表现在两个方面:一是不同格式的文件需要不同的处理方法和工具来读取;二是即使是相同类型的数据,由于格式不同,其数据结构也可能有所差异,这就需要在数据整合前进行格式统一和结构对齐。

那这个问题可以像上节课那样直接用 ChatGPT 来处理吗?还真不行,主要有两个原因。一个是一旦数据较大,大语言模型容易产生“幻觉”,导致你的数据由 ChatGPT 处理后出现不完整的输出问题;另一个是每次有新的数据都需要与 ChatGPT 交互,它还容易“忘掉”早先的数据。

既然不能直接丢给 ChatGPT 来做,那该怎么办呢?也好解决,咱换个思路,让 ChatGPT 编写程序,辅助我们处理存储不一致的形式

这节课里会涉及到编程技能,但是你也不用太担心,几乎全部代码我们都是由 ChatGPT 生成的,你只需将编程当做是工具来使用即可。

登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论