DeepSeek 应用开发实战
云阳
某大厂 AI 与容器技术专家
5620 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 25 讲/共 34 讲
第三章 理解力+数学推理能力:实现AI版“作业帮” (3讲)
DeepSeek 应用开发实战
15
15
1.0x
00:00/00:00
登录|注册

21|视觉模型:试卷题目分析解答

你好,我是邢云阳。
通过前面两节课,我们借助 Dify 熟悉了平台化开发的基础知识。
这节课,我们就进入项目实现环节。那在这一章呢,我为你准备的项目是“作业帮”。准备这个项目的初衷,是考虑了三点。
第一点是项目的通俗性,“作业帮”是干啥的,大家被广告洗脑了这么多年,对此一定不陌生,类似的还有“猿辅导”,选择这样的一个项目,很容易就能理解需求,并上手开发,不至于被一些所谓“隔行如隔山”的门槛拦在门外。
第二点是这两年各家的大模型都在“卷”数学题,通过解数学题的能力,来证明自己家的模型,推理能力强。因此我们可以用这个项目来体验一下这种推理能力。
第三点是多模态模型的发展,我们除了语言大模型的应用,对于视觉模型等多模态模型或者是 OCR 技术等,也需要掌握,才能在开发项目时更加游刃有余。而“作业帮”的一个主要功能就是可以给试卷拍照,识别题目后进行解答。于是综合这三点,我设计了这个项目。
今天我们就先从视觉技术开始了解。

OCR 识别

在视觉大模型没出来以前,比较传统的 OCR 技术是如何识别图片内容的呢?这项技术虽然我说了“传统”二字,但并不过时。如果你经常使用 RAG 的话,应该会接触过,比如对 PDF 文档的识别,就会用到 OCR 技术。接下来,我就为大家演示一下 OCR 的手法。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 介绍了项目“作业帮”的初衷和设计,以及为什么选择了这个项目。 2. 讲解了如何开通 OCR 服务,并演示了如何使用腾讯云的 OCR SDK 进行图片识别。 3. 探讨了视觉模型的重要性,介绍了火山引擎提供的豆包大模型,并演示了如何注册和添加豆包大模型。 4. 演示了在 Dify 中搭建“作业帮”项目的工作流,包括图片识别和解决调用最新版本的火山引擎 SDK 导致的问题。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《DeepSeek 应用开发实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)