-
下载windows版本的tesseract安装包,我下载的版本是是http://3.onj.me/tesseract/网站所维护的,安装后有个doc文件夹,里面有英文的使用文档。为了在全局使用方便,比如安装路径为D:\Application\tesseract,将D:\Application\tesseract添加到环境变量的path中。
-
为了进行测试,我们在其他文件夹下,比如在桌面建立了一个文件夹进行测试,C:\Users\Administrator\Desktop\pythonTest\tesseract,此文件夹有个验证码图片1.jpg, 在此文件夹打开cmd命令,输入tesseract 1.jpg res, 这个是最基础的用法,就是将1.jpg这个图片的文字转为res.text。默认用英语的语言包。运行完后,文件夹里面出现res.text, 内容就是被转换的文字但是一开始,我却发现报以下错误
Error opening data file ….
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your “tessdata” directory.
Failed loading language ‘eng’
Teseract couldn’t load any languages!
Counld not initialize tesseract上面的意思就是说不能加载’eng’语言包。请将tessdata的父文件夹路径设置为TESSDATA_PREFIX环境变量值,这个就是说在环境变量中新建一个系统变量,变量名称为TESSDATA_PREFIX,tessdata是放置语言包的文件夹,一般在你安装tesseract的目录下,即tesseract的安装目录就是tessdata的父目录,把TESSDATA_PREFIX的值设置为它就行了
- 重启电脑(我就是没有干这事儿,浪费了2小时折腾各种文档),然后按照第二部就能成功了
- 满怀希望发现识别率极差,需要自己做数据训练目前也没这个水平我放弃了
-
# -*- coding: utf-8 -*- import csv import string from PIL import Image import pytesseract pytesseract.pytesseract.tesseract_cmd = 'D:\\Program Files\\tesseract\\tesseract.exe' def ocr(img): # 获取图片的像素数组 pixdata = img.load() colors = {} # 统计字符颜色像素情况 for y in range(img.size[1]): for x in range(img.size[0]): if pixdata[x,y] in colors: colors[pixdata[x, y]] += 1 else: colors[pixdata[x,y]] = 1 # 排名第一的是背景色,第二的是主要颜色 colors = sorted(colors.items(), key=lambda d:d[1], reverse=True) significant = colors[1][0] for y in range(img.size[1]): for x in range(img.size[0]): if pixdata[x,y] != significant: pixdata[x,y] = (255,255,255) else: pixdata[x, y] = (0,0,0) img.save('bw.png') # threshold the image to ignore background and keep text # gray = img.convert('L') # bw = gray.point(lambda x: 0 if x < 1 else 255, '1') # bw.save('captcha_gray.png') word = pytesseract.image_to_string(img, lang='chi_sim+') ascii_word = ''.join(c for c in word if c in string.ascii_letters).lower() return ascii_word files = ('whgn.jpeg', 'fwuo.png', 'ke8m.png', 'm3hn.png', '5enn.png', '54xe.jpeg','ea6d.jpeg','kwdg.jpeg','mkek.jpeg','nkng.jpeg', 'w3lh.jpeg', 'teew.png', '0325.png','37IH') def test_samples(): for file in files: img = Image.open(file) print ('%s is recognized as %s' %(file,ocr(img))) test_samples()
- 后来用百度的ai,瞎解析的很多都不对
- github里面的代码和oschina 里面的python-OCR 也是不行,很多都是py2 我又改成py3 也是不行,也需要训练
- 最后我选择https://www.jsdama.com/ 联系了客服给了100点体验分,感觉很稳
- 该投入还得投入,免费的是最麻烦的搞了 1天。浪费1天时间
- 浏览: 76313 次
- 性别:
- 来自: 郑州
文章分类
最新评论
发表评论
-
用Python处理HTML转义字符的5种方式
2018-02-04 15:55 785写爬虫是一个发送请求,提取数据,清洗数据,存储数据的过程。在 ... -
查找python项目依赖并生成requirements.txt
2018-02-03 11:42 13321、如果使用virtualenv环 ... -
python后台运行一个命令美滋滋
2018-02-01 11:13 1234python的输出有缓冲,导致python.log3并不能够 ... -
阿里云python2.6.6 升级到python3.5
2018-01-30 21:00 897CentOS 下将 Python2 升级到Python3 ... -
requests爬取猫眼电影top100
2018-01-28 21:51 622import requests from requests ... -
requests爬虎牙频道和主播信息
2018-01-23 19:50 671#!/usr/bin/env python # ... -
python-selenium
2018-01-07 00:53 1094from selenium import webdr ... -
scrapy架构及原理
2018-01-02 23:59 948scrapy data flow(流程图) Scrapy使 ... -
Scrapy之crawSpider和BaseSpider的区别
2018-01-01 17:01 760Scrapy中的BaseSpider爬虫类只能抓取start ... -
postman完成教程-自动生成代码获取代码信息
2017-12-27 00:42 14881.下载 Postman Interceptor 2 ... -
python之scrapy(二)
2017-12-10 16:32 436extract_first("") = ... -
python之scrapy(一)
2017-12-10 13:35 592通过workon进入后创建的虚拟环境article_spi ... -
python虚拟环境搭建
2017-12-05 17:13 489在开发Python应用程序的时候,系统安装的Python3只 ... -
python基本数据类型
2017-06-25 22:39 4981、数字 int(整型) 在32位机器上,整数 ... -
python运算符
2017-06-25 22:29 7311、算数运算: 2、比较运算: 3、赋值运算 ... -
mac下的python3自动化安装pycharm
2017-06-11 22:52 10481.在mac安装homebrew https ...
相关推荐
**Tesseract 4.0.0 源代码详解** Tesseract 4.0.0 是一个基于 C++ 的开源 OCR(光学字符识别)引擎,它由 Google 维护并广泛应用于各种文字识别项目。其高识别率使得它在处理图像中的文字时表现出色,无论是扫描...
tesseract3.04最新源代码,从github下载而来。
这个“tesseract配置及代码.zip”压缩包提供了在Visual Studio 2013环境下使用C++集成Tesseract OCR的实例代码和配置步骤。以下是关于Tesseract OCR、VS2013和C++集成的相关知识点: 1. **Tesseract OCR**:...
**正文** ...无论你是想开发一款文本识别软件,还是希望提升现有应用的文字处理能力,Tesseract都是一个值得考虑的优秀选择。不过,使用和定制源代码需要一定的技术门槛,建议有经验的C++程序员进行操作。
《Tesseract 4.0源代码解析与应用》 Tesseract 4.0是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,由谷歌维护,它在识别中文字符方面有着显著的提升。该软件的主要功能是将扫描文档、图片...
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印...本文主要介绍其中的一种tesseract识别技术
应公司要求研究ocr网上教程比较少,这是我一周收集的 累死的 几乎包括现在网上的教程例子了,5分绝对不贵,还做了一份26页doc教程 其中有ocr2能识别英文的 ocr3能识别中文,不过中文...TesseractOCR Tutorials.dco 详细教程
在本资源中,我们主要探讨的是OCR(Optical Character Recognition,光学字符识别)技术的应用,具体涉及了两个不同的实现方式:谷歌的Tesseract库和百度的OCR服务。这两种方法都是为了将图像中的文本转换为可编辑和...
**Tesseract OCR 5 与 tessdata 语言包详解** Tesseract OCR(Optical Character Recognition,光学字符识别)是一款开源的、高度可扩展的文本识别引擎,由Google维护。它能够从图像中自动识别出文本,并将其转换...
Tesseract拥有活跃的开源社区,用户可以在GitHub上找到源代码,参与贡献或获取最新更新。此外,社区还提供了众多第三方库和工具,如PIL(Python Imaging Library)用于图像预处理,以及各种图形界面工具,如...
在本文中,我们将深入探讨如何在Android平台上利用Tesseract OCR(光学字符识别)库实现身份证号码的扫描与识别。Tesseract是一个开源OCR引擎,最初由HP开发,后来由Google维护并持续改进,它能有效地从图像中提取...
在IT行业中,GitHub是一个至关重要的平台,特别是在软件开发领域,它是一个用于版本控制和协作的分布式版本控制系统,...通过学习和实践,无论是个人项目还是团队协作,都能在GitHub平台上实现高效、高质量的软件开发。
**Tesseract OCR 4.0 引擎与中文字库详解** Tesseract OCR(Optical Character Recognition,光学字符识别)是一款由谷歌维护的开源OCR引擎,最初由HP开发并在1985年发布。它能够从图像中识别并转换文本,广泛应用...
tesseract代码和exe文件,博客还没写完,随后补博客地址
Tesseract默认是不支持中文的,如果想要识别中文或者其它语言需要下载相应的语言包,下载地址如下:https://tesseract-ocr.github.io/tessdoc/Data-Files ,一个Chinese-Simplified和Chinese-Traditional,它们分别...
在"tesseract和中文语言包亲测好用.zip"压缩包中,应包含有中文语言包。解压后,将语言包(通常是名为`chi_sim`或`chi_tra`的文件夹)复制到Tesseract的安装目录下的`tessdata`子目录。这样,Tesseract就能识别简体...
测试环境: vs2019 netframework4.7.2 博客地址: blog.csdn.net/FL1623863129/article/details/135525157 视频演示: https://www.bilibili.com/video/BV1uT4y1n7SK/
**Tesseract OCR 简介** ...无论是个人还是企业,都可以根据自身需求利用Tesseract来提高工作效率和自动化水平。随着技术的不断发展,Tesseract的后续版本将带来更高的识别精度和更丰富的功能,持续推动OCR技术的进步。
2. **下载语言包**: 可以从Tesseract的GitHub仓库下载中文语言数据包,例如`chi_sim`(简体中文)和`chi_tra`(繁体中文)。 3. **安装语言包**: 将下载的语言包解压后,将`lstm`或`traineddata`文件复制到...
tesseract-job-分布式调度后端代码