`

linux 安装Tesseract-OCR java运行

 
阅读更多

安装Tesseract-OCR
准备工作:
编译环境: gcc gcc-c++ make(这个环境一般机器都具备,可以忽略)  
1
yum install gcc gcc-c++ make
 依赖的包: autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel leptonica(1.67以上)
 
 
1. autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel 可以通过yum安装:
1
yum install autoconf automake libtool
2
yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel
2. leptonica 需要源码编译安装
 参考资料:
 http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113
 http://www.leptonica.org/source/README.html
 下载leptonica 包: http://www.leptonica.org/source/leptonica-1.68.tar.gz
 解压后切换到leptonica-1.68 根目录  
1
./configure
2
make
3
make install
tesseract安装:
 依赖安装完毕后开始安装tesseract
 下载tesseract-3.01 安装包: http://tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz
 解压后切换到tesseract-3.01 根目录
 (如果在make时遇到类似strngs.h:1: error: stray '\357' in program 的错误,请将tesseract-3.01/ccutil/strngs.h 文件转为ANSI 编码保存,再重新编译)  
1
./autogen.sh
2
./configure
3
make
4
make install
5
ldconfig
tesseract英文语言包安装:  
 下载tesseract-3.01 英文语言包: http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.01.eng.tar.gz
 解压后将tesseract-ocr/tessdata 下的所有文件全部拷贝到/usr/local/share/tessdata 下
安装完毕.
测试一下:
 切换到解压后的tesseract-3.01 根目录(这个目录下有一个自带的phototest.tif 可以做测试用)
 命令行:
1
tesseract phototest.tif phototest -l eng
 输出:
1
Tesseract Open Source OCR Engine v3.01 with Leptonica
2
Page 0
 这时应该在当前目录生成一个phototest.txt 文本文件,内容就是phototest.tif 显示的文字.

 

 

--------------------------------------------以上安装完成-------------------------------------

java实现

方法:

private static String recognizeText(File imageFile){
		/**
		 * 设置输出文件的保存的文件目录
		 */
		File outputFile = new File(imageFile.getParentFile(), "output");
		StringBuffer strB = new StringBuffer();

		// 设置cmd命令行字符串形式
		List<String> cmd = new ArrayList<String>();
		cmd.add("tesseract");
		cmd.add(imageFile.getName());
		cmd.add(outputFile.getName());
		cmd.add("-l");
		cmd.add("eng");

		try {
			// 启动exe进程
			ProcessBuilder pb = new ProcessBuilder();
			pb.directory(imageFile.getParentFile());
			pb.command(cmd);
			pb.redirectErrorStream(true);
			Process process = pb.start();
			// 等待此进程完成
			int w = process.waitFor();
			if (w == 0) {// 0代表正常退出
				BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath() + ".txt"), "UTF-8"));
				String str;
				while ((str = in.readLine()) != null) {
					strB.append(str).append(EOL);
				}
				in.close();
			} else {
				String msg;
				switch (w) {
				case 1:
					msg = "Errors accessing files. There may be spaces in your image's filename.";
					break;
				case 29:
					msg = "Cannot recognize the image or its selected region.";
					break;
				case 31:
					msg = "Unsupported image format.";
					break;
				default:
					msg = "Errors occurred.";
				}
				logger.error(msg);
			}
		} catch (Exception e) {
			logger.error(e.getMessage(), e);
		}
		new File(outputFile.getAbsolutePath() + ".txt").delete();
		return strB.toString().replaceAll("\\s*", "");
	}

 

分享到:
评论

相关推荐

    Linux下安装tesseract-ocr教程及相关资源包

    本教程将详细讲解如何在Linux环境下安装和使用Tesseract OCR,并提供相关资源包。 首先,我们需要确保系统已经更新到最新版本,以获取最新的软件包和依赖项。打开终端并输入以下命令: ```bash sudo apt update ...

    linux系统下搭建Tesseract-OCR环境所需安装包、中文语言包及训练所需软件

    在Linux系统中搭建Tesseract-OCR环境是一项关键任务,它涉及到图像识别技术,特别是对于文本自动提取和处理。Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,由Google维护,广泛...

    tesseract-OCR GUI版本-Linux版本

    例如,`tesseract4java-0.1.0-linux-x86_64.jar`这个文件名暗示了这是一个Java Archive (JAR) 文件,它是Java应用程序的可执行文件。这个特定的JAR文件可能是为Linux x86_64架构设计的,用于在Java环境中调用...

    Tesseract-OCR java版

    **Tesseract OCR Java版**是将开源的Tesseract光学字符识别(OCR)引擎与Java环境相结合,用于在图像中识别和提取文字。Tesseract最初由HP开发,后来由Google维护,它具有高度的准确性和可扩展性,尤其适用于处理...

    tesseract-ocr安装包和中文语言包.zip

    在Linux和MacOS上通常是`/usr/share/tesseract-ocr/4.00/tessdata`,在Windows上可能是`C:\Program Files\Tesseract-OCR\tessdata`。 4. 如果找不到正确路径,可以通过运行`tesseract --list-langs`命令来查找。 **...

    Tesseract-OCR.zip 图片文字识别 无需安装,直接解压即可

    1. **下载与安装**:Tesseract OCR的压缩包下载后,无需安装,直接解压即可使用。包含有各种平台的预编译版本,如Windows的exe文件或Linux的可执行文件。 2. **命令行使用**:在命令行中,你可以使用`tesseract`...

    光学字符识别-Tesseract-OCR-安装包与语言包-软件部署-tesseract-ocr安装包和中文语言包

    Tesseract-OCR 安装包:提供了适用于Windows、macOS和Linux系统的Tesseract-OCR的最新版本安装包。安装包中包含了所有必要的二进制文件和库,用户可以根据自己的操作系统选择相应的安装包。 中文语言包:附带了中文...

    tesseract-ocr实现图片识别功能(java)

    一个Google支持的开源的OCR图文识别开源项目。去持多语言(当前3.02 版本支持包括英文,简体中文,繁体中文),支持Windows,Linux,Mac OSX 多平台。使用中Tesseract 的识别率非常高。可以参考网上的相关资料进行对...

    java实现Tesseract-OCR示例

    Java实现Tesseract-OCR示例主要涉及的是利用Tesseract OCR(Optical Character Recognition,光学字符识别)库进行文字识别的技术。Tesseract是一个开源的OCR引擎,最初由HP开发,后来被Google接手并维护,它能识别...

    tesseract-ocr安装包和中文语言包

    1. **系统要求**:Tesseract OCR可在Windows、Linux、Mac OS X等操作系统上运行,确保你的系统满足安装需求。 2. **获取安装包**:从官方网站或第三方软件仓库下载对应操作系统的Tesseract OCR安装包。在提供的...

    tesseract-ocr 字符识别总结

    Tesseract-OCR 可以在 Linux 和 Windows 平台上运行。 安装 Tesseract-OCR 需要安装 Leptonica 和 Tesseract 两个组件。Leptonica 是一个图像处理库,提供了图像处理和分析的功能。Tesseract 是 OCR 引擎的核心组件...

    tesseract-OCR识别实例工程(vs2015+win10)+tesseract 4.0(32位和64位编译库)

    **Tesseract OCR识别技术详解** Tesseract OCR(Optical Character Recognition,光学字符识别)是一种开源的文本识别引擎,由Google维护。它最初由HP开发,后来转移到了Google,现在是世界上最广泛使用的OCR引擎之...

    tesseract-ocr-w64-setup-v5.0.0-alpha.20191010.zip

    1. **安装**:下载并安装`tesseract-ocr-w64-setup-v5.0.0-alpha.20191010.exe`,按照安装向导进行操作。 2. **命令行使用**:安装完成后,可以在命令行中通过`tesseract`命令进行文本识别,例如`tesseract image....

    tesseract-ocr-w64-setup-v5.0.0

    **Tesseract OCR 引擎详解** Tesseract OCR(Optical Character Recognition)引擎是HP实验室的产物,后来由Google接手并持续发展,成为了一个强大的开源项目。它的主要功能是将图像中的文字识别为可编辑的文本格式...

    【图片验证码提取工具】tesseract-ocr下载

    2. **安装**:按照平台的指示进行安装,例如在Windows上运行安装程序,Linux环境下使用包管理器的安装命令。 3. **配置环境变量**:确保Tesseract的可执行文件路径添加到系统的PATH环境变量中,以便于在任何目录下...

    Tesseract-OCR使用相关的so文件

    在Java项目中使用Tesseract-OCR时,通常需要依赖特定的库,其中包括动态链接库(.so文件),这些文件是为Linux系统编译的原生库。 在Java中使用Tesseract-OCR,我们首先需要引入相关的Java库,例如`tess4j`,这是一...

    Java 调用tesseract-ocr 项目实例

    1. **环境准备**:在进行Java项目之前,你需要确保在你的计算机上安装了Tesseract-OCR的可执行文件`tesseract.exe`。这个文件通常可以从Tesseract的官方网站或者其他可靠的源下载,并按照安装指南进行安装。安装完成...

    tesseract-ocr:linux安装使用文档

    tesseract-ocr linux安装使用文档详情见doc.txt 服务器使用jar:打包放到服务器中,使用java -cp xxx.jar com.hwp.ocr.Test执行(注意图片路径及生成output的路径配置) Apache-2.0 license

    Tesseract OCR图像识别类库 v5.3.4.zip

    在压缩包中的"说明.htm"可能是关于如何安装、配置和使用Tesseract OCR v5.3.4的详细指南,而"tesseract-5.3.4"则包含了库文件和可能的示例程序。开发者可以依据这些资源快速上手并实现自己的OCR解决方案。 总之,...

    tesseract-ocr,可识别图片中文

    1. **安装Tesseract**: 首先,需要在计算机上安装Tesseract OCR软件。在不同的操作系统上(如Windows、Linux、macOS),安装方法会有所不同,但通常可以通过包管理器或者直接从源代码编译来完成。 2. **添加中文...

Global site tag (gtag.js) - Google Analytics