25｜非结构化数据处理：大模型带来的增量能力

曹犟

你好，我是曹犟。
在前面的课程中，我们讨论了典型的大数据应用。仔细回顾这些内容，会发现它们有一个共同特点，那就是主要处理的都是结构化数据。订单表、用户表、行为事件表，这些数据都有明确的 Schema，字段含义清晰。哪怕是日志，某种意义上因为语义固定，也可以划到结构化数据的范畴内。
但实际上，企业中 80% 的数据是非结构化的，而这些数据覆盖了企业业务的整个流程。传统的大数据系统对这些数据经常束手无策。你可能会说，我们可以用关键词匹配、用传统的 NLP 技术等，但这些方法成本高、效果差、扩展性弱。而大模型的出现，带来了突破性的变化。
今天这节课，我们就来讨论大模型如何赋能非结构化数据处理，这是大模型给大数据领域带来的最重要的增量能力之一。
非结构化数据的价值与传统挑战什么是非结构化数据我们先来明确什么是非结构化数据。
从数据的组织方式来看，数据可以分为三类：
结构化数据，有明确的 Schema，存储在关系数据库或数据仓库中，比如订单表、用户表。
半结构化数据，有一定的结构，但不够严格，比如 JSON、XML 等。
非结构化数据，没有预定义的数据模型，无法用表格来表示，比如文本、图片、音频、视频。
企业中常见的非结构化数据类型很多。文本类数据包括客服对话、用户评论、问卷回答、合同文档、邮件、社交媒体内容。图像类数据包括产品图片、用户上传图片、营销素材。音频类数据包括客服录音、会议录音、语音留言。视频类数据包括产品宣传视频、直播内容、培训视频。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 大模型的出现为处理非结构化数据带来了突破性的变化，赋能非结构化数据处理，提高处理效率和准确率，实现更深层次的数据洞察。 2. 大模型具有强大的语义理解能力，包括多轮对话理解、隐含意图识别、情感与态度分析、跨语言理解等。 3. 大模型具有知识整合与推理能力，能结合常识进行推理、实现跨领域知识迁移、分析因果关系等。 4. 大模型具有多模态统一理解能力，能统一处理文本、图像、音频，并实现跨模态信息关联。 5. 大模型具有零样本与少样本学习能力，无需标注数据即可完成任务，大幅降低了使用门槛。 6. 大模型在实际应用中可用于客服质量提升、产品改进、增购意向识别、竞品分析等典型场景。 7. 大模型处理非结构化数据的局限包括成本高、准确率与幻觉问题、可解释性不足，但这些局限正在快速改善。 8. 大模型的应用场景将会越来越丰富，从视频理解、实时音频理解到更复杂的推理任务，大模型将在非结构化数据处理领域发挥重要作用。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《大数据应用实战》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论