21｜视觉模型：试卷题目分析解答

邢云阳

你好，我是邢云阳。
通过前面两节课，我们借助 Dify 熟悉了平台化开发的基础知识。
这节课，我们就进入项目实现环节。那在这一章呢，我为你准备的项目是“作业帮”。准备这个项目的初衷，是考虑了三点。
第一点是项目的通俗性，“作业帮”是干啥的，大家被广告洗脑了这么多年，对此一定不陌生，类似的还有“猿辅导”，选择这样的一个项目，很容易就能理解需求，并上手开发，不至于被一些所谓“隔行如隔山”的门槛拦在门外。
第二点是这两年各家的大模型都在“卷”数学题，通过解数学题的能力，来证明自己家的模型，推理能力强。因此我们可以用这个项目来体验一下这种推理能力。
第三点是多模态模型的发展，我们除了语言大模型的应用，对于视觉模型等多模态模型或者是 OCR 技术等，也需要掌握，才能在开发项目时更加游刃有余。而“作业帮”的一个主要功能就是可以给试卷拍照，识别题目后进行解答。于是综合这三点，我设计了这个项目。
今天我们就先从视觉技术开始了解。
OCR 识别在视觉大模型没出来以前，比较传统的 OCR 技术是如何识别图片内容的呢？这项技术虽然我说了“传统”二字，但并不过时。如果你经常使用 RAG 的话，应该会接触过，比如对 PDF 文档的识别，就会用到 OCR 技术。接下来，我就为大家演示一下 OCR 的手法。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 介绍了项目“作业帮”的初衷和设计，以及为什么选择了这个项目。 2. 讲解了如何开通 OCR 服务，并演示了如何使用腾讯云的 OCR SDK 进行图片识别。 3. 探讨了视觉模型的重要性，介绍了火山引擎提供的豆包大模型，并演示了如何注册和添加豆包大模型。 4. 演示了在 Dify 中搭建“作业帮”项目的工作流，包括图片识别和解决调用最新版本的火山引擎 SDK 导致的问题。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《DeepSeek 应用开发实战》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论