财商书苑
全民财商训练提升,认真负责我们的每句话

debian OCR 图像文字识别工具

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。

Windows下:

windows下可以用Microsoft Office Document Imaging 来处理, 查看微软的介绍下载程序

Debian 下:

Debian 下可以安装 ocrfeeder (界面工具),并下载相应的OCR引擎。

ocrfeeder默认可以识别的引擎有: Tesseract, GOCR, Cuneiform, Ocrad

安装完成后点击[工具]->[OCR引擎]设置相应的引擎。

如果您也是Debian wheezy那么就可以用以下命令来安装所有的程序了。

注:Tesseract是支持中文的, 但默认不安装中文包,可以去tesseract-ocr项目主页下载相应语言的数据包,并解压到相应的目录下,不要忘了设置引擎的语言参数。

其中Debian wheezy 默认的语言包路径为:/usr/share/tesseract-ocr/tessdata/。

Debian 最终效果如下:

Debian ocrfeeder

Debian ocrfeeder

最终识别的效果都不是特别的好,距离实用还有一段路要走。

赞(0)
未经允许不得转载:财商书苑-全民财商训练提升 » debian OCR 图像文字识别工具

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址