21|视觉模型:试卷题目分析解答
邢云阳

你好,我是邢云阳。
通过前面两节课,我们借助 Dify 熟悉了平台化开发的基础知识。
这节课,我们就进入项目实现环节。那在这一章呢,我为你准备的项目是“作业帮”。准备这个项目的初衷,是考虑了三点。
第一点是项目的通俗性,“作业帮”是干啥的,大家被广告洗脑了这么多年,对此一定不陌生,类似的还有“猿辅导”,选择这样的一个项目,很容易就能理解需求,并上手开发,不至于被一些所谓“隔行如隔山”的门槛拦在门外。

第二点是这两年各家的大模型都在“卷”数学题,通过解数学题的能力,来证明自己家的模型,推理能力强。因此我们可以用这个项目来体验一下这种推理能力。
第三点是多模态模型的发展,我们除了语言大模型的应用,对于视觉模型等多模态模型或者是 OCR 技术等,也需要掌握,才能在开发项目时更加游刃有余。而“作业帮”的一个主要功能就是可以给试卷拍照,识别题目后进行解答。于是综合这三点,我设计了这个项目。
今天我们就先从视觉技术开始了解。
OCR 识别
在视觉大模型没出来以前,比较传统的 OCR 技术是如何识别图片内容的呢?这项技术虽然我说了“传统”二字,但并不过时。如果你经常使用 RAG 的话,应该会接触过,比如对 PDF 文档的识别,就会用到 OCR 技术。接下来,我就为大家演示一下 OCR 的手法。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 介绍了项目“作业帮”的初衷和设计,以及为什么选择了这个项目。 2. 讲解了如何开通 OCR 服务,并演示了如何使用腾讯云的 OCR SDK 进行图片识别。 3. 探讨了视觉模型的重要性,介绍了火山引擎提供的豆包大模型,并演示了如何注册和添加豆包大模型。 4. 演示了在 Dify 中搭建“作业帮”项目的工作流,包括图片识别和解决调用最新版本的火山引擎 SDK 导致的问题。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《DeepSeek 应用开发实战》,新⼈⾸单¥59
《DeepSeek 应用开发实战》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论