大数据应用实战
曹犟
神策数据联合创始人 & CTO
1348 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 27 讲/共 30 讲
第四章 大模型与大数据 (1讲)
大数据应用实战
15
15
1.0x
00:00/00:00
登录|注册

25|非结构化数据处理:大模型带来的增量能力

你好,我是曹犟。
在前面的课程中,我们讨论了典型的大数据应用。仔细回顾这些内容,会发现它们有一个共同特点,那就是主要处理的都是结构化数据。订单表、用户表、行为事件表,这些数据都有明确的 Schema,字段含义清晰。哪怕是日志,某种意义上因为语义固定,也可以划到结构化数据的范畴内。
但实际上,企业中 80% 的数据是非结构化的,而这些数据覆盖了企业业务的整个流程。传统的大数据系统对这些数据经常束手无策。你可能会说,我们可以用关键词匹配、用传统的 NLP 技术等,但这些方法成本高、效果差、扩展性弱。而大模型的出现,带来了突破性的变化。
今天这节课,我们就来讨论大模型如何赋能非结构化数据处理,这是大模型给大数据领域带来的最重要的增量能力之一。

非结构化数据的价值与传统挑战

什么是非结构化数据

我们先来明确什么是非结构化数据。
从数据的组织方式来看,数据可以分为三类:
结构化数据,有明确的 Schema,存储在关系数据库或数据仓库中,比如订单表、用户表。
半结构化数据,有一定的结构,但不够严格,比如 JSON、XML 等。
非结构化数据,没有预定义的数据模型,无法用表格来表示,比如文本、图片、音频、视频。
企业中常见的非结构化数据类型很多。文本类数据包括客服对话、用户评论、问卷回答、合同文档、邮件、社交媒体内容。图像类数据包括产品图片、用户上传图片、营销素材。音频类数据包括客服录音、会议录音、语音留言。视频类数据包括产品宣传视频、直播内容、培训视频。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 大模型的出现为处理非结构化数据带来了突破性的变化,赋能非结构化数据处理,提高处理效率和准确率,实现更深层次的数据洞察。 2. 大模型具有强大的语义理解能力,包括多轮对话理解、隐含意图识别、情感与态度分析、跨语言理解等。 3. 大模型具有知识整合与推理能力,能结合常识进行推理、实现跨领域知识迁移、分析因果关系等。 4. 大模型具有多模态统一理解能力,能统一处理文本、图像、音频,并实现跨模态信息关联。 5. 大模型具有零样本与少样本学习能力,无需标注数据即可完成任务,大幅降低了使用门槛。 6. 大模型在实际应用中可用于客服质量提升、产品改进、增购意向识别、竞品分析等典型场景。 7. 大模型处理非结构化数据的局限包括成本高、准确率与幻觉问题、可解释性不足,但这些局限正在快速改善。 8. 大模型的应用场景将会越来越丰富,从视频理解、实时音频理解到更复杂的推理任务,大模型将在非结构化数据处理领域发挥重要作用。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据应用实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部