这个文本 OCR 小工具,能让你「所截即所得」。更多实用工具和干货,记得关注小编哈!
在我们办公时,是不是经常遇到图片内容转文字的需求?
你是用什么工具解决的呢?是手机自带拍照转文字功能?还是使用 QQ 里面的工具?
今天我们就为大家介绍一款 GitHub 用户 ianzhao05 刚发布的小工具——textshot,只需要截屏就能实时生成文字。读者也可以通过此项目大致了解如何对图像中的文本进行识别。
项目链接:https://github.com/ianzhao05/textshot
使用方法
运行 textshot.py,在屏幕上打开一个 overlay,在你希望提取的文字区域画一个矩形。
使用可选的命令行参数指定语言。例如,python textshot.py eng + fra 将使用英语作为主要语言,使用法语作为次要语言。默认值为英语(eng)。同时确保为其他语言安装了适用于 Tesseract 的数据文件。
建议将热键附加到此工具上。对于 Windows 来说,可以使用 AutoHotkey 脚本来完成此操作;textshot.ahk 同时也包含一个可以使用的示例 AHK 脚本。
如果是 Ubuntu 系统,可以打开「键盘设置」,其中显示了所有 Gnome 快捷方式。底部有一个「+」按钮,可用于添加你自己的快捷方式。单击并将其命令设置为 / usr / bin / python3 <path-to-textshot.py>。如果使用的是 venv,则上面的 python3 路径应指向 venv 的 python3 而不是全局 python3。
部分代码展示
如何安装
- 安装 Python 3;
- 复制 TextShot 库,并使用跳转命令 cd 进入该库;
- (可选项)创建一个虚拟环境,例如使用 python -m venv .venv ;
- 使用 pip install -r requirements.txt 安装所需的软件包;
- 安装 Google 的 Tesseract OCR 引擎(https://github.com/tesseract-ocr/tesseract),并通过将目录添加到系统路径来确保可以从命令行访问 tesseract。
这个实用小工具的开发也离不开谷歌经典 OCR 开源项目 Tesseract。
Tessract 的使用
Tesseract 是目前最好的用于机器打印字符识别的开源 OCR 工具。20 世纪 80 年代由 Hewlett Packard 开发,2005 年开源,自 2006 年起由谷歌赞助开发。该工具在受控条件下也能很好地运行,但是如果存在大量噪声或者图像输入 Tesseract 前未经恰当处理,则性能较差。
Tesseract OCR 引擎于 20 世纪 80 年代出现,更新迭代至今,它已经包括内置的深度学习模型,变成了十分稳健的 OCR 工具。
Tesseract 支持 Unicode(UTF-8)字符集,可以识别超过 100 种语言,还包含多种输出支持,比如纯文本、PDF、TSV 等。但是为了得到更好的 OCR 结果,还必须提升提供给 Tesseract 的图像的质量。
值得注意的是,在执行实际的 OCR 之前,Tesseract 会在内部执行多种不同的图像处理操作(使用 Leptonica 库)。通常情况下表现不错,但在一些特定的情况下的效果却不够好,导致准确度显著下降。在将图像传递给 Tesseract 之前,可以尝试以下图像处理技术,但具体使用哪些技术取决于使用者想要读取的图像:
- 反转图像
- 重新缩放
- 二值化
- 移除噪声
- 旋转/调整倾斜角度
- 移除边缘
所有这些操作都可以使用 OpenCV 或通过 Python 使用 numpy 实现。
Tesseract (v4) 最新版本支持基于深度学习的 OCR,准确率显著提高。底层的 OCR 引擎使用的是一种循环神经网络(RNN)——LSTM 网络。
中文 OCR 项目
中文 OCR,像身份证识别、火车票识别都是常规操作,它也可以实现更炫酷的功能,例如翻译笔在书本上滑动一行,自动获取完整的图像,并识别与翻译中文。
目前比较常用的中文 OCR 开源项目是 chineseocr,它基于 YOLO V3 与 CRNN 实现中文自然场景文字检测及识别,目前该项目已经有 2.5K 的 Star 量。
之前介绍过另一个开源的中文 OCR 项目,基于 chineseocr 做出改进,是一个超轻量级的中文字符识别项目。
项目地址:https://github.com/ouyanghuiyu/chineseocr_lite
该项目表示,相比 chineseocr,chineseocr_lite 采用了轻量级的主干网络 PSENet,轻量级的 CRNN 模型和行文本方向分类网络 AngleNet。尽管要实现多种能力,但 chineseocr_lite 总体模型只有 17M。目前 chineseocr_lite 支持任意方向文字检测,在识别时会自动判断文本方向。如下图所示实测效果示例:
逆锋起笔
是一个专注于程序员圈子的技术平台,你可以收获最新技术动态
、最新内测资格
、BAT等大厂的经验
、精品学习资料
、职业路线
、副业思维
,微信搜索逆锋起笔
关注!
相关推荐
综上所述,OCR图片文字提取工具作为一款高科技含量的软件产品,不仅提高了工作效率,还为用户带来了极大的便利。它的出现,是数字化时代对传统办公方式的一次革新,让我们在处理图片和文档时变得更加轻松、高效。...
对于经常需要处理纸质文档、扫描件或图片中文字的用户来说,雨梦OCR文字提取器是一个非常实用的工具。它简化了传统手动输入的过程,大大提高了工作效率,尤其适合从事文档管理和翻译工作的专业人士。同时,随着 OCR ...
绿色先锋小编给大家带来一款非常的方便的图片文字识别工具——截图OCR识别工具,该软件体积小巧,操作简单,它能够将图片上的文字识别并转化为可以复制的文字,让你不再为了提取图片上的文字而浪费时间,是一款实用...
开源OCR图片提取文字小工具是一款高效实用的软件,主要用于从图像中识别并提取文本,尤其适合需要处理大量图片文档的用户。它采用先进的光学字符识别(OCR)技术,能够准确地将图片中的文字转化为可编辑的文本格式。...
《电脑截图OCR识别工具精小版V2.023:高效识别与便捷操作的完美融合》 在当今数字化时代,电脑截图OCR识别工具已经成为了许多用户...如果你正在寻找一款既实用又轻便的OCR工具,那么这款V2.023版本绝对值得你拥有。
标题中的“截图 离线文字识别提取OCR”是指一种技术,它允许用户通过截取屏幕图像并使用光学字符识别(OCR,Optical Character Recognition)技术来识别并提取图片中的文本,无需依赖互联网连接,即“离线”状态。...
屏幕截图文字提取是该软件的一大亮点。传统的手动复制粘贴方式效率低下,尤其对于大量文字信息时更是如此。而“截屏文字提取v2.3”允许用户快速捕捉屏幕上的任何文字信息,无论是网页、应用程序还是电子邮件,只需...
总之,"截图文字提取V3.81"是一款实用的OCR软件,借助其先进的技术,用户可以高效地从图像中解放文字,极大地提升了信息处理的效率和便利性。在日常工作和学习中,合理利用这一工具,可以让我们更好地驾驭信息,提升...
这款软件确实是一款集截图工具与OCR文字识别于一体的强大工具,相较于QQ、Snipaste等同类产品,其优势在于功能更加丰富且操作体验更为出色。 首先,在截图功能方面,这款软件不仅提供了基础的截图功能,还加入了...
总结来说,“基于QT/C++图片文字提取器”是一个结合了高效编程语言、强大OCR引擎和友好的用户界面的实用工具。它的开源性质不仅鼓励了代码的透明性和改进,也为开发者提供了一个学习和实践C++、QT以及Tesseract OCR...
"天若OCR文字识别V4.46"作为一款OCR工具,以其便捷的操作和较高的识别率,为用户提供了高效的文本提取服务,无论是学术研究、办公文档处理还是日常信息获取,都能发挥积极作用。在未来,随着人工智能和深度学习技术...
总之,"OCR文字识别V4.48(免安装)"是一款高效便捷的文字识别工具,它结合了先进的OCR技术,为用户提供快速准确的截图文字识别服务,极大地提升了办公效率。无论是日常工作中需要摘录文字,还是学术研究中需要提取...
本“OCR图片文字识别工具”显然是一款能够帮助用户快速从截图中提取并转换文字为可编辑文本的软件。 在日常工作中,我们经常会遇到需要从图片、扫描件或PDF文档中提取文字的情况,例如发票、合同、笔记等。传统的...
总的来说,"截图文字提取V3.81"是一款实用的工具,它的存在大大简化了文本处理的过程。借助OCR技术,我们可以轻松地从各种图像中提取出文字,无论是用于文档整理、翻译工作还是数据分析,都能带来极大的便利。同时,...
天若OCR是一款高效实用的文字识别软件,它以其高度准确的文本识别能力和免费共享的特点,深受用户喜爱。这款工具专为需要从图像中提取文字的用户设计,无论你是学生、研究人员还是办公人员,都能轻松利用它来提高...
QQ截图工具是腾讯公司开发的一款高效实用的截图软件,它被广泛应用于日常的工作、学习和生活中,方便用户快速捕获屏幕图像并进行编辑分享。"QQ截图工具提取版"可能是从QQ客户端中独立出来的版本,专门针对截图功能...
天若OCR是一款小巧而实用的开源本地版文字识别软件,其主要功能是将扫描文档或图片中的文字提取出来,以便用户进行编辑和处理。天若OCR的特点包括: - **多语言支持**:支持多种语言的文字识别,满足不同用户的需要...
【标题】"带截屏OCR工具源码.zip" 提供的是一个使用了百度AI技术的OCR(Optical Character Recognition,光学字符识别)工具的源代码。这个工具集成了截屏功能,可以方便地捕获屏幕上的文本并进行识别。值得注意的是...
总之,“离线ocr文字提取翻译.rar”提供的功能强大且实用,结合了OCR技术和离线翻译,能够满足用户在多种场景下的需求,无论是学术研究、工作还是日常生活。它的高准确率和简单易用的操作界面使得它成为一个值得信赖...
OCR技术的应用范围非常广泛,从将纸质文档电子化到提取扫描件中的文字内容,再到识别图片中的文字信息,这一技术的应用场景无处不在。本文将对OCR技术进行深入的探讨,特别是针对那些体积小但功能强大的OCR文字识别...