作者回复: 你好,pytesseract是依赖c++编写的tesseract工具才能正常工作的,tesseract的下载地址是 https://github.com/tesseract-ocr 如果下载速度慢可以通过搜索引擎以 teseract-ocr 作为关键字下载安装后即可 顺祝新年快乐
作者回复: 没错,表格模式对于票据识别场景非常有用,但是受篇幅限制,和大部分用户还处于python新手阶段,我想先让大家解决从0到0.1,如何建立自动化思维的问题. 其实paddle 还有高级识别功能的, 能直接处理发票的文字位置,还有提高了工具,用于方便标记文字位置,如果投入生产,建议你可以了解一下
作者回复: 我提供一种解决办法: jupyter中显事指定路径,看看能否让jupyter找到tesseract.exe 路径 pytesseract.pytesseract.tesseract_cmd = r"D:/Anaconda3/Lib/site-packages/pytesseract/tesseract_OCR/tesseract.exe"
编辑回复: 很棒!
作者回复: 两个地方有问题: 1 return fp.read() 从代码逻辑上不通顺,不知道要完成什么功能 2 注意缩进
作者回复: 代码图片识别的场景比较少,所以在线识别软件应该没有对这类场景进行优化