03｜图片转文字：如何提高识别准确率？

尹会生



该思维导图由 AI 生成，仅供参考

你好，我是尹会生。
不知道你有没有遇见过这样的场景：在工作中，你遇见了一个紧急情况，对方给你发了一串儿聊天记录的长截图，当你处理完事情想要复盘的时候，必须要把这些记录处理成文字，然后就发现图片转文字过程中会出现很多问题，还需要自己二次手动校对。
经过不断尝试，就发现用互联网上的 AI 产品可以非常准确地识别出图片中的印刷体文字。而且再通过 Python 还可以实现把识别到的文字进行格式处理、文件保存等自动化操作。
那么今天，我就给你介绍两种能够精准、快速地把图片转成文字的方式：在线识别和离线识别。我会给你讲解具体的操作方法，当你再遇见这样的需求的时候，就可以很轻松应对了。
图片转文字的两种处理方法我先来对图片转文字的两种处理方法进行介绍。
目前能够达到较高文字识别正确率的一般分为两种识别方式：一种是文字识别工作都需要在网络侧完成的方式，我们称为在线识别；另一种是不需要互联网功能的，我们称作离线识别。
根据不同的工作场景，我会选择不同的方式实现文字识别。那么，接下来我就带你了解下这两种方式各自的特性。
先看第一种，在线识别的方式。
在线识别方式最大的优点就是，它在初次进行文字识别的时候，准确率非常高。比如对聊天截图中的识别准确率就高达 99%。因为在线识别使用了人工智能领域的深度学习算法和文字识别相结合的技术，能够把图片转换成文字后，还能在语义上把相近的字进行二次纠正。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

图片转文字技术在工作中具有重要应用价值。本文介绍了在线识别和离线识别两种图片转文字的方式。在线识别利用互联网上的AI产品，能够高效准确地识别图片中的印刷体文字，但需要上传图片至公有云服务器，存在信息泄露风险。离线识别方式不需要连接网络，适合对实时性要求高或网络信号较差的场景，但初次识别准确率较低，需要人工二次纠正。文章详细介绍了在线文字识别和离线文字识别的具体实现方法，包括用户验证、图片加密传输等功能。在线文字识别通过百度云提供的OCR Python SDK客户端实现，而离线文字识别则利用pytesseract库进行实现。总的来说，本文通过具体的代码示例和操作步骤，为读者提供了实用的图片转文字技术应用指南。文章还提到了对于识别结果的处理和保存，以及思考题部分引导读者进行进一步思考和讨论。整体而言，本文内容丰富，涵盖了图片转文字技术的多个方面，为读者提供了全面的技术指导和思考启发。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《Python 自动化办公实战课》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(13)

最新
精选

🐑
置顶
编辑小提示：专栏的完整代码位置是https://github.com/wilsonyin123/python_productivity，可点击链接下载查看。或者通过网盘链接提取后下载，链接是: https://pan.baidu.com/s/1UvEKDCGnU6yb0a7gHLSE4Q?pwd=5wf1，提取码: 5wf1。
2022-03-30


Soul of the Dragon
我在运行当中出现了这样的报错：“TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.”，请问应该怎么解决呢？
作者回复: 你好，pytesseract是依赖c++编写的tesseract工具才能正常工作的，tesseract的下载地址是 https://github.com/tesseract-ocr 如果下载速度慢可以通过搜索引擎以 teseract-ocr 作为关键字下载安装后即可顺祝新年快乐
2021-02-10
3
6
惜心（伟祺）
其实有表格模式识别可以定位到文字所在位置行列比如easyocr paddle pub
作者回复: 没错,表格模式对于票据识别场景非常有用,但是受篇幅限制,和大部分用户还处于python新手阶段,我想先让大家解决从0到0.1,如何建立自动化思维的问题. 其实paddle 还有高级识别功能的, 能直接处理发票的文字位置,还有提高了工具,用于方便标记文字位置,如果投入生产,建议你可以了解一下
2021-02-09

5
陈兆卓
离线文字识别方法中，我按照网上教程安装pytesseract库和tesseract_OCR，添加环境变量，将pytesseract.py中的tesseract_cmd修改成tesseract.exe的安装路径，为了避免转义，我试过在路径前加r或者直接用斜杠（我的路径是D:/Anaconda3/Lib/site-packages/pytesseract/tesseract_OCR/tesseract.exe）完成这些操作后，在jupyter中运行您提供的源码，一直提示错误（TesseractNotFoundError: D:\Anaconda3\Lib\site-packages\pytesseract esseract_OCR esseract.exe is not installed or it's not in your PATH. See README file for more information.），这个报错里面的路径强行给我把\t转义了，而在vscode中却可以正常运行，输出识别结果，请问下这是什么情况？
作者回复: 我提供一种解决办法： jupyter中显事指定路径，看看能否让jupyter找到tesseract.exe 路径 pytesseract.pytesseract.tesseract_cmd = r"D:/Anaconda3/Lib/site-packages/pytesseract/tesseract_OCR/tesseract.exe"
2021-03-09

1
鹏
PS C:\Users\xxx> & C:/xxx/AppData/Local/Programs/Python/Python311/python.exe d:/python_Training/my_image_processing.py froot@lucalhust appl ocnebula consule v3.3.8 pacbula console WchH: Line #2 syntax errar near imexpected token ‘newline’ mebula-console-v3.3.8: line 8: '<fHUCTYPE Itml>' Crout@lucalhust appl 两个脚本需要修改，文件无法找到
作者回复: 从报错情况来看，错误原因如下： froot@lucalhust appl ocnebula consule v3.3.8 pacbula console WchH: Line #2 syntax errar near imexpected token 'newline' 这一行指出Python解释器在您脚本的第2行发现了语法错误,遇到了一个非预期的新行符token。 mebula-console-v3.3.8: line 8: '<fHUCTYPE Itml>' 这一行看起来像是HTML代码,可能是您不小心将HTML代码粘贴到了Python脚本中。 Crout@lucalhust appl 两个脚本需要修改,文件无法找到这一行说明有两个脚本需要修改,并且文件无法找到。解决办法是： 1 打开 my_image_processing.py 脚本文件, 仔细检查第2行代码是否存在语法错误,如缺少冒号、引号、关键字拼写等。 2 搜索整个脚本,删除任何非Python代码,如HTML标记，文件中不应该出现html代码
2024-02-18归属地：北京


Bill
打卡第二天
编辑回复: 很棒！
2021-10-18


彭程
def get_file_content(filePath): with open(filePath, 'rb') as fp: return fp.read()image = get_file_content('example.png') 报错invalid syntax 请问什么原因
作者回复: 两个地方有问题： 1 return fp.read() 从代码逻辑上不通顺，不知道要完成什么功能 2 注意缩进
2021-08-25


派森
试了一下在线，代码图片识别的效果不是很好
作者回复: 代码图片识别的场景比较少，所以在线识别软件应该没有对这类场景进行优化
2021-03-09


谢韬 Fragos
在使用pytesseract 过程中我有下面几点需要记录和大家分享的： 1，由于我的是Mac系统M1芯片的，brew安装后的地址和别的芯片安装完成后的不一样。所以安装brew 后需要修改系统环境变量 “.zshrc” 中添加 “export PATH="/opt/homebrew/bin:$PATH" export PATH="/opt/homebrew/sbin:$PATH"”。修改后才能顺畅使用brew 安装 tesseract。 2，tesseract 安装完成以后你使用pytesseract 时会报错“tesseract is not installed or it's not in your PATH”。这个问题让我崩溃了好几次。还是要给pytesseract 签上和tesseract的线-配置环境变量。如下，在terminal中用 open -e .bash_profile，打开配置文件，然后把这句话加上： export TESSDATA_PREFIX=/opt/homebrew/Cellar/tesseract/5.0.1/share/tessdata。等号后面的就是tesseract的数据地址。 3，要记得去https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata 上下载中文识别数据包放到tesseract 的tessdata 文件下下面。 4，最后我的程序跑通了还是有点点开心。
2022-04-13

1
鹏
jTessBoxEditorFX能否协助提供软件的下载，源站地址无法访问。
2024-02-19归属地：北京



收起评论