AI 数据分析课
尹会生
太乙人工智能技术合伙人 
230 人已学习
新⼈⾸单¥59
AI 数据分析课
登录|注册
留言
收藏
沉浸
阅读
分享
手机端
回顶部
当前播放: 04|让大模型替你干活:数据清洗之自动识别数据格式与纠正异常
00:00 / 00:00
高清
  • 高清
1.0x
  • 2.0x
  • 1.5x
  • 1.25x
  • 1.0x
  • 0.75x
  • 0.5x
网页全屏
全屏
00:00
付费课程,可试看
开篇词|AIGC时代,数据分析可以很简单
01|数据分析入门:从掌握基础流程开始
02|大模型基础:掌握核心原理,知其所以然
03|Prompt提示词:与大模型交互的主要方式
04|让大模型替你干活:数据清洗之自动识别数据格式与纠正异常
本节摘要

点击“展开”查看“精华文字稿”

数据清洗,是检测和纠正不合理数据的过程。在大多数情况下,数据分析前都需要这个过程,将错误的、不准确的、缺失的以及多余的数据进行修改或删除。

具体来说,数据清洗会面临以下四个问题。

  1. 存储格式不一致:不同的数据源在存储数据时可能存在大小写和单位的不同,导致不同数据源之间无法直接比较和整合,需要进行格式转换。
  2. 数据不完整:可能存在数据重复、数据缺失和数据异常等情况,需要进行数据清洗,以确保数据的准确性和完整性。
  3. 存储形式不一致:不同的数据源可能以不同的格式存储,如 txt、excel、csv、word 等,需要将数据统一转换为一种格式。
  4. 存储位置不一致:不同的数据源可能存在于不同的文件夹或压缩文件中,需要进行数据整理。

这四个问题,我们会用两节课来解决。这节课,我们先掌握直接利用 ChatGPT 解决前两个问题,下一讲我们再学习利用 ChatGPT 生成程序来解决后两个问题。

存储格式不一致问题

我先来为你展示几个存储不一致的问题,咱们看看使用 ChatGPT 进行处理的提示词和处理结果。

案例 1:客户名称大小写不一致问题

第一个案例是关于大小写不一致的问题,我先将需要处理的数据和提示词写出来,然后再为你分析为什么这样写。

登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论