安装Tesseract-OCR
准备工作:
编译环境: gcc gcc-c++ make(这个环境一般机器都具备,可以忽略)
1
yum install gcc gcc-c++ make
依赖的包: autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel leptonica(1.67以上)
1. autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel 可以通过yum安装:
1
yum install autoconf automake libtool
2
yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel
2. leptonica 需要源码编译安装
参考资料:
http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113
http://www.leptonica.org/source/README.html
下载leptonica 包: http://www.leptonica.org/source/leptonica-1.68.tar.gz
解压后切换到leptonica-1.68 根目录
1
./configure
2
make
3
make install
tesseract安装:
依赖安装完毕后开始安装tesseract
下载tesseract-3.01 安装包: http://tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz
解压后切换到tesseract-3.01 根目录
(如果在make时遇到类似strngs.h:1: error: stray '\357' in program 的错误,请将tesseract-3.01/ccutil/strngs.h 文件转为ANSI 编码保存,再重新编译)
1
./autogen.sh
2
./configure
3
make
4
make install
5
ldconfig
tesseract英文语言包安装:
下载tesseract-3.01 英文语言包: http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.01.eng.tar.gz
解压后将tesseract-ocr/tessdata 下的所有文件全部拷贝到/usr/local/share/tessdata 下
安装完毕.
测试一下:
切换到解压后的tesseract-3.01 根目录(这个目录下有一个自带的phototest.tif 可以做测试用)
命令行:
1
tesseract phototest.tif phototest -l eng
输出:
1
Tesseract Open Source OCR Engine v3.01 with Leptonica
2
Page 0
这时应该在当前目录生成一个phototest.txt 文本文件,内容就是phototest.tif 显示的文字.
准备工作:
编译环境: gcc gcc-c++ make(这个环境一般机器都具备,可以忽略)
1
yum install gcc gcc-c++ make
依赖的包: autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel leptonica(1.67以上)
1. autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel 可以通过yum安装:
1
yum install autoconf automake libtool
2
yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel
2. leptonica 需要源码编译安装
参考资料:
http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113
http://www.leptonica.org/source/README.html
下载leptonica 包: http://www.leptonica.org/source/leptonica-1.68.tar.gz
解压后切换到leptonica-1.68 根目录
1
./configure
2
make
3
make install
tesseract安装:
依赖安装完毕后开始安装tesseract
下载tesseract-3.01 安装包: http://tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz
解压后切换到tesseract-3.01 根目录
(如果在make时遇到类似strngs.h:1: error: stray '\357' in program 的错误,请将tesseract-3.01/ccutil/strngs.h 文件转为ANSI 编码保存,再重新编译)
1
./autogen.sh
2
./configure
3
make
4
make install
5
ldconfig
tesseract英文语言包安装:
下载tesseract-3.01 英文语言包: http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.01.eng.tar.gz
解压后将tesseract-ocr/tessdata 下的所有文件全部拷贝到/usr/local/share/tessdata 下
安装完毕.
测试一下:
切换到解压后的tesseract-3.01 根目录(这个目录下有一个自带的phototest.tif 可以做测试用)
命令行:
1
tesseract phototest.tif phototest -l eng
输出:
1
Tesseract Open Source OCR Engine v3.01 with Leptonica
2
Page 0
这时应该在当前目录生成一个phototest.txt 文本文件,内容就是phototest.tif 显示的文字.
转自:http://blog.csdn.net/cxf7394373/article/details/20370635
相关推荐
sudo apt install tesseract-ocr-chi-sim tesseract-ocr-chi-trad ``` 在RPM系统上: ```bash sudo dnf install tesseract-langpack-chinese # 或者 sudo yum install tesseract-langpack-chinese ``` 安装完成后...
1. 安装tesseract-OCR引擎:首先,确保Linux系统上已经安装了tesseract-OCR引擎。通常,这可以通过包管理器(如apt-get或yum)来完成。 2. 下载并运行GUI:获取这个Java编写的GUI版本,可能是通过源代码编译或者直接...
在Linux系统中搭建Tesseract-OCR环境是一项关键任务,它涉及到图像识别技术,特别是对于文本自动提取和处理。Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,由Google维护,广泛...
在Linux环境中,Tesseract OCR(Optical Character Recognition)是一款强大的开源文字识别引擎,它能够将图像中的文字转换为可编辑的文本格式。在CentOS系统上安装和配置Tesseract OCR,需要确保安装了一系列的依赖...
linux 安装图像识别系统 tesseract-ocr-3.02.02(含中文、英文语言包) 含所需包 leptonica-1.71.tar.gz tesseract-ocr-3.02.02.tar.gz chi_sim.traineddata eng.traineddata
通常,这个路径是`/usr/share/tesseract-ocr/4.00/tessdata`(Linux)或`C:\Program Files\Tesseract-OCR\tessdata`(Windows)。 - **添加环境变量**:为了使Tesseract能够自动找到新添加的语言包,你可能需要更新...
在Linux和MacOS上通常是`/usr/share/tesseract-ocr/4.00/tessdata`,在Windows上可能是`C:\Program Files\Tesseract-OCR\tessdata`。 4. 如果找不到正确路径,可以通过运行`tesseract --list-langs`命令来查找。 **...
sudo apt-get install tesseract-ocr-zh ``` 在macOS上,安装中文语言包的命令可能类似: ```bash brew cask install tesseract-lang --languages zh ``` **Tesseract OCR中文支持** Tesseract OCR对中文的支持...
tesseract-ocr linux安装包+离线依赖包+中文语言包+示例截图+离线安装文档。2020-10-28 亲测可用,截图为证。tesseract最新版本4.1.1。 文档:https://blog.csdn.net/zhaohuihua/article/details/109340779
1. **下载与安装**:Tesseract OCR的压缩包下载后,无需安装,直接解压即可使用。包含有各种平台的预编译版本,如Windows的exe文件或Linux的可执行文件。 2. **命令行使用**:在命令行中,你可以使用`tesseract`...
Tesseract-OCR 安装包:提供了适用于Windows、macOS和Linux系统的Tesseract-OCR的最新版本安装包。安装包中包含了所有必要的二进制文件和库,用户可以根据自己的操作系统选择相应的安装包。 中文语言包:附带了中文...
**Tesseract OCR Java版**是将开源的Tesseract光学字符识别(OCR)引擎与Java环境相结合,用于在图像中识别和提取文字。Tesseract最初由HP开发,后来由Google维护,它具有高度的准确性和可扩展性,尤其适用于处理...
在 **Linux** 或 **Mac** 上编译和运行 tesseract-OCR 源码,需要安装必要的依赖库,如 Leptonica(图像处理库)、OpenCV(计算机视觉库)等,并设置相应的环境变量。编译过程通常涉及配置、生成 Makefile 和执行 ...
- 在Windows上,通过提供的`tesseract-ocr-w64-setup-v5.0.0-alpha.20201127.exe`安装程序进行安装,这个文件就是Tesseract OCR的Windows 64位安装包。 - 安装后,确保添加Tesseract到系统路径,以便在命令行或...
对于Windows用户,通常是`%USERPROFILE%\Tesseract-OCR\tessdata`路径,而对于Linux或Mac用户,可能是在`/usr/share/tesseract-ocr/4.00/tessdata`或者自定义的配置路径。 **中文识别流程** 1. **预处理图像**:在...
2. 找到Tesseract OCR的安装路径,通常在Windows系统上是 "C:\Program Files\Tesseract-OCR\tessdata",在Linux或Mac上可能在 "/usr/share/tesseract-ocr/4.00/tessdata" 或者自定义的路径。 3. 将解压后的 "chi_sim...
总的来说,tesseract-ocr-3.02.chi_sim.tar这个压缩包文件是Tesseract OCR识别中文简体字的关键组件,它的存在使得Tesseract能够处理中文文本,极大地拓展了其在中文环境下的应用范围。正确安装和使用这个字库,可以...