`
lineageII
  • 浏览: 83066 次
  • 来自: ...
社区版块
存档分类
最新评论

训练验证码识别程序-training tessertact

阅读更多
Simplest steps to train tesseract
参考

http://groups.google.com/group/tesseract-ocr/browse_thread/thread/983317066a5acbd1/58ccdd7c1da5884e?lnk=gst&q=train#58ccdd7c1da5884e

1.收集验证码,把所有验证码图片二值化,去噪点后,用PS合并在一张图片上如图,把图片转换成tif格式。如scan.tif

2.生成box文件

 运行"tesseract scan.tif scan batch.nochop makebox"; 会生成scan.txt文本文件,修正错误的字符。把scan.txt改名为scan.box(这一步可以用bbtesseract代替。bbtesseract下载地址http://code.google.com/p/bbtesseract/downloads/list)

3.开始训练tesseract

 运行"tesseract scan.tif junk nobatch box.train"; 生成文件scan.tr

4.Clustering

 运行"mftraining scan.tr"; 生成文件"inttemp", "pffmtable" and "Microfeat"(Not used)

 运行"cnTraining scan.tr";生成文件"normproto";

5.Compute the Character Set
 运行"unicharset_extractor scan.box"; 生成文件"unicharset"

6.Dictionary Data

这一步操作可以不用,直接复制其他的。

 Create two UTF-8 text file, "frequent_words_list" and "words_list",
the words in the files should not be duplicated;
 Run "wordlist2dawg frequent_words_list freq-dawg"
 Run "wordlist2dawg words_list word-dawg";
 This will generate two files, "freq-dawg" and "word-dawg";

7. Putting it all together
 All you need to do now is collect together all 8 files and rename
them with a lang. prefix;
 File "eng.DangAmbigs" and "eng.user-words" could be empty;
 If create "eng.DangAmbigs" file, the characters must be exist in the
"scan.box";

8. Try it
 Run "tesseract scan.tif output -l eng"
 The file "output.txt" is the result;

 

 

快速步骤

1.收集验证码,把所有验证码图片二值化,去噪点后,用PS合并在一张图片上如图,把图片转换成tif格式。如scan.tif

2.生成box文件

 运行"tesseract scan.tif scan batch.nochop makebox"; 会生成scan.txt文本文件,修正错误的字符。把scan.txt改名为scan.box(这一步可以用bbtesseract代替。bbtesseract下载地址http://code.google.com/p/bbtesseract/downloads/list)

3.把tesseract中training中的所有文件复制到tesseract.exe所在目录中,在tesseract.exe所在目录新建batch

tesseract scan.tif junk nobatch box.train
mftraining scan.tr
cnTraining scan.tr
unicharset_extractor scan.box

 

运行后,生成的inttemp,normproto,pffmtable,unicharset有用。

  • 大小: 5.7 KB
分享到:
评论
4 楼 luohoufu 2009-05-02  
这样做的目的,不了解。
3 楼 diddyrock 2009-02-21  
v861 写道

请教一下  用tesseract可以识别中文吗?如何实现  交流一下  wanglm@live.cn  thinks!

可以识别,有cnTraing,自己编写一个train文件,按照wiki上面的步骤
2 楼 v861 2009-02-17  
请教一下  用tesseract可以识别中文吗?如何实现  交流一下  wanglm@live.cn 
thinks!
1 楼 mslk 2008-12-14  
tesseract真是好东西,值得好好学习

相关推荐

    2020-Rethinking Pre-training and Self-training.pdf

    预训练指的是在一个大型和多样化的数据集上训练模型,以便模型学会识别数据中的通用特征和模式。这种训练方法的优势在于,它能够利用额外的数据集来捕捉到的数据分布,从而为特定任务提供更好的初始化权重。然而,...

    cs-training.csv

    标题 "cs-training.csv" 暗示我们正在处理一个与计算机科学(CS)相关的数据集,特别是用于训练机器学习模型。在这个案例中,目标是构建一个评分卡模型,该模型能够预测个人在未来两年内是否会遭遇财务危机。这在...

    co-training.zip_co-training_co-training matlab_cotraining

    《基于Matlab实现的协同训练(Co-Training)算法详解》 协同训练(Co-Training)是一种机器学习中的半监督学习方法,由Blum和Mitchell于1998年提出。该方法主要应用于大量未标记数据和少量标记数据的场景,通过两个...

    yolov7-e6e-training.pt yolov7-w6-training.pt yolov7x-training.pt

    这些文件"yolov7-e6e-training.pt"、"yolov7-w6-training.pt"和"yolov7x-training.pt"代表了使用不同训练设置训练得到的YOLOv7模型的权重文件。 1. **YOLOv7的核心概念**:YOLOv7的核心在于它的网络结构和训练策略...

    Tri-training_test_python_

    3. 训练循环:在Tri-training中,三个分类器会交替地在有标签和无标签数据上进行训练。这通常涉及复杂的迭代过程,每个分类器在其他分类器的预测结果上进行学习。 4. 算法集成:在训练过程中,可能会有一个机制来...

    yolov7-training.pt yolov7-d6-training.pt yolov7-e6-training.pt

    预训练模型如`yolov7-training.pt`、`yolov7-d6-training.pt`和`yolov7-e6-training.pt`是在大规模图像数据集(如COCO或ImageNet)上预先训练好的,这些数据集包含大量标注的对象实例。这些预训练模型已经学习到了...

    NLP:Improving Language Understanding by Generative Pre-Training

    这种方法的核心在于无监督的预训练(generative pre-training)和有监督的微调(fine-tuning)。由于大规模的无标注文本数据丰富,但针对特定任务的标注数据稀缺,因此直接用少量标注数据训练判别式模型往往表现不佳...

    yolov3 人脸识别 yolo-training

    使用YOLOv3进行人脸识别的训练过程,即yolo_training,通常需要以下步骤:数据收集、数据标注、配置YOLOv3模型、进行模型训练、评估模型性能。在训练前,需要收集包含人脸的大量图片,并进行人工标注,确定人脸的...

    cs-training-new.csv

    申请评分卡训练测试数据

    论文研究-基于辅助学习与富信息策略的Tri-training算法.pdf

    提出辅助学习策略,结合富信息策略设计辅助学习器,并将辅助学习器应用在Tri-training训练以及说话声识别中。实验结果表明,辅助学习器在Tri-training训练的基础上不仅降低每次迭代可能产生的误标记样例数,而且能够...

    Co-training机器学习方法在中文组块识别中的应用.pdf

    通过对比自我训练方法(self-training)和仅使用小规模树库语料的结果,实验表明Co-training在中文组块识别中的表现更优。在小规模汉语树库语料和大规模未标注汉语语料上进行实验,F值分别达到85.34%和83.41%,相比...

    2019-何凯明-预训练-Rethinking ImageNet Pre-training1

    论文"Rethinking ImageNet Pre-training"对当前的预训练paradigm进行了重新思考,挑战了计算机视觉领域中的一种常见 wisdom,并鼓励人们探索新的方法来提高模型的性能。 知识点: 1. 预训练-imageNet 预训练是一种...

    人工智能-项目实践-预训练-NLP实验:新词挖掘+预训练模型继续Pre-training.zip

    接下来,预训练模型继续预训练(Continual Pre-training)部分,是指在预训练模型如BERT、GPT或其他变体的基础上,利用特定领域的大量文本数据进行进一步训练。这样做的目的是让模型适应特定领域的语言特性,从而...

    PN544 - Training FRI

    PN544官方开发工具,PN544 Training FRI.exe,目前官网无法下载。

    基于Matlab直方图Histogram的人脸识别程序-Processed histogram based Face Recognition.part3.rar

    基于Matlab直方图Histogram的人脸识别程序-Processed histogram based Face Recognition.part3.rar 基于Matlab 直方图Histogram的人脸识别程序 因为数据库图片太大,所以分成几个压缩文件。 Face ...

    cs-training_信用评分模型代码_

    5. 训练与验证:将数据集划分为训练集和验证集,使用训练集训练模型,然后在验证集上调整模型参数以优化性能。 6. 测试与评估:最后,在独立的测试数据集上评估模型的预测能力,常用指标有准确率、精确率、召回率和...

    COREG_co-training_协同训练回归_ringawf_协同训练_

    一个协同回归的软件 机器学习,半监督学习,协同训练,数据编辑,偏差方差分解。

    BERT: Pre-training of Deep Bidirectional Transformers翻译

    由于BERT已经在大规模未标记数据上进行了预训练,它已经捕获了大量的语言知识,因此只需要少量的标记数据就可以在诸如问答、情感分析、命名实体识别等任务上达到出色性能。 BERT在多项自然语言处理任务上取得了显著...

    基于co-training的手写数字识别Multiple+Features数据集

    在本数据集中,我们关注的是利用"co-training"这一机器学习策略来提高识别精度。Co-training是一种半监督学习方法,适用于大量未标记数据和少量标记数据的情况。在手写数字识别中,它通过利用数据的不同表示或特征...

Global site tag (gtag.js) - Google Analytics