25|非结构化数据处理:大模型带来的增量能力
曹犟

你好,我是曹犟。
在前面的课程中,我们讨论了典型的大数据应用。仔细回顾这些内容,会发现它们有一个共同特点,那就是主要处理的都是结构化数据。订单表、用户表、行为事件表,这些数据都有明确的 Schema,字段含义清晰。哪怕是日志,某种意义上因为语义固定,也可以划到结构化数据的范畴内。
但实际上,企业中 80% 的数据是非结构化的,而这些数据覆盖了企业业务的整个流程。传统的大数据系统对这些数据经常束手无策。你可能会说,我们可以用关键词匹配、用传统的 NLP 技术等,但这些方法成本高、效果差、扩展性弱。而大模型的出现,带来了突破性的变化。
今天这节课,我们就来讨论大模型如何赋能非结构化数据处理,这是大模型给大数据领域带来的最重要的增量能力之一。
非结构化数据的价值与传统挑战
什么是非结构化数据
我们先来明确什么是非结构化数据。
从数据的组织方式来看,数据可以分为三类:
结构化数据,有明确的 Schema,存储在关系数据库或数据仓库中,比如订单表、用户表。
半结构化数据,有一定的结构,但不够严格,比如 JSON、XML 等。
非结构化数据,没有预定义的数据模型,无法用表格来表示,比如文本、图片、音频、视频。
企业中常见的非结构化数据类型很多。文本类数据包括客服对话、用户评论、问卷回答、合同文档、邮件、社交媒体内容。图像类数据包括产品图片、用户上传图片、营销素材。音频类数据包括客服录音、会议录音、语音留言。视频类数据包括产品宣传视频、直播内容、培训视频。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 大模型的出现为处理非结构化数据带来了突破性的变化,赋能非结构化数据处理,提高处理效率和准确率,实现更深层次的数据洞察。 2. 大模型具有强大的语义理解能力,包括多轮对话理解、隐含意图识别、情感与态度分析、跨语言理解等。 3. 大模型具有知识整合与推理能力,能结合常识进行推理、实现跨领域知识迁移、分析因果关系等。 4. 大模型具有多模态统一理解能力,能统一处理文本、图像、音频,并实现跨模态信息关联。 5. 大模型具有零样本与少样本学习能力,无需标注数据即可完成任务,大幅降低了使用门槛。 6. 大模型在实际应用中可用于客服质量提升、产品改进、增购意向识别、竞品分析等典型场景。 7. 大模型处理非结构化数据的局限包括成本高、准确率与幻觉问题、可解释性不足,但这些局限正在快速改善。 8. 大模型的应用场景将会越来越丰富,从视频理解、实时音频理解到更复杂的推理任务,大模型将在非结构化数据处理领域发挥重要作用。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据应用实战》,新⼈⾸单¥59
《大数据应用实战》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论