阅读更多

2顶
0踩

互联网

转载新闻 Google已可通过OCR检索扫描PDF文档

2008-11-02 12:26 by 副主编 QQbyte 评论(5) 有4299人浏览
过去,电子扫描文档很少被纳入搜索结果中,因为受技术限制,我们对其中的具体内容不是很有把握,顶多只能针对文档标题进行检索。

Google产品经理Evin Levey自豪地宣布,这一切在今天都不同了,因为Google已经可以对任何Adobe PDF格式的扫描文档进行OCR检索,将其转换成文字并纳入索引,在用户搜索的时候就能显示在结果里了,很多重要的文件也可以轻松找到了。

Google表示,这是搜索技术上一个微小而重大的进步,也是Google致力于让全球信息都能轻松检索、使用的宏伟目标的一部分。

遗憾的是,Google没有透露这种技术现在都支持哪些语言,但估计是以英语为主,中文可能性不大,毕竟难度太大了。

点击下边的链接就能看到Google的最新成果了。注意搜索结果已经包含了被检索文档的内容提要,用户既可以直接下载PDF文档并打开原始拷贝,也可以选择“View as HTML”以网页的形式查看Google OCR识别后的结果。

2
0
评论 共 5 条 请登录后发表评论
5 楼 liusong1111 2008-11-03 11:19
google申请这方面专利是很早的新闻了,今天终于看到实际应用了。
国内OCR技术发展不慢,windows的中文OCR技术,m$买的清华的技术。
整体感觉OCR开发商的商业嗅觉太差,虽然大多提供了dll、sdk,却多只在自己产品中使用,即使外部应用也限于OA、ERP等企业应用或扫描仪、数码相机这些专业设备。
google的动作,应该给他们一些启发。越来越多的技术,应该以平民化的姿态向互联网发展。这是个广阔的领域。
想像一下,一个网民,如果有个聊天用的普通摄像头,使用网上记帐系统时,把超市小票在前面拍一下就轻松记帐,诸如此类...
广大的web2.0网站,在呼唤OCR服务。不知道国内厂商赶不赶得上了。

4 楼 laiseeme 2008-11-03 10:05
google服务器硬盘又大了
3 楼 rubynroll 2008-11-02 18:41
中文OCR技术已经非常成熟,Google若想上,花点钱买就可以了。
2 楼 gml520 2008-11-02 13:05
这个google早就出来了!
1 楼 QQbyte 2008-11-02 12:26
这个挺强的,PDF文档也能被检索了。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 纵观jBPM从jBPM3到jBPM5以及Activiti

    今年最大的事件莫过于jBPM的创建者Tom ...Tom Baeyens离开的具体原因尚不清楚,但他的离开产生了两个结果:一是jBPM的下一个版本jBPM5完全放弃了jBPM4的基础代码,基于Drools Flow重头来过;二是Tom Baeyens加入A......

  • JBPM4常用错误汇总

    1.在tomcat6.0下布署错误 基于JBPM4的web项目jsp页面发布出错现象: javax.servlet.ServletException: java.lang.LinkageError: loader constraint violation: when resolving interface method "javax.servlet....

  • JBPM4常用错误汇总 收藏

    JBPM4常用错误汇总 收藏 http://blog.csdn.net/cnham/archive/2009/12/16/5013068.aspx1.在tomcat6.0下布署错误 基于JBPM4的web项目jsp页面发布出错现象: javax.servlet.ServletException: java.lang.LinkageErro.....

  • jbpm4的错误汇总

    1.在tomcat6.0下布署错误  基于JBPM4的web项目jsp页面发布出错 现象:  javax.servlet.ServletException: java.lang.LinkageError: loader constraint violation: w

  • SSH2+JBPM4.4 整合常见错误

    java.lang.LinkageError: loader constraint violation: when resolving interface method异常 ...严重: Servlet.service() for servlet jsp threw exception java.lang.LinkageError: loader constraint viola

  • jbpm4.4 配置邮件错误 如何解决啊?

    at org.jbpm.jpdl.internal.activity.JpdlAutomaticActivity.execute(JpdlAutomaticActivity.java:15) at org.jbpm.pvm.internal.model.op.ExecuteActivity.perform(ExecuteActivity.java:60) at org.jbpm.pvm....

  • JBPM4常用错误汇总(转)

    1.在tomcat6.0下布署错误  基于JBPM4的web项目jsp页面发布出错 现象:  javax.servlet.ServletException: java.lang.LinkageError: loader constraint violation: when resolving interface ...

  • 纵观jBPM:从jBPM3到jBPM5以及Activiti5

    Tom Baeyens离开的具体原因尚不清楚,但他的离开产生了两个结果:一是jBPM的下一个版本jBPM5完全放弃了jBPM4的基础代码,基于Drools Flow重头来过;二是Tom Baeyens加入Alfresco后很快推出了新的基于jBPM4的开源工作...

  • JBPM4常用错误汇总 -- 转载

    基于JBPM4的web项目jsp页面发布出错现象: javax.servlet.ServletException: java.lang.LinkageError: loader constraint violation: when resolving interface method "javax.servlet.jsp....

  • jbpm3.2.2部署流程定义文件的错误

    今天按照jbpm开发指南里的数据库持久存储方式存储流程定义文件,一直出现插入字段错误,原来是jbpm3.2.2在mysql中字段的类型的错误. 错误如下: [java] view plaincopy 警告: SQL Error: 1406, SQLStat...

  • 【转】JBPM4常用错误汇总

    1.在tomcat6.0下布署错误 基于JBPM4的web项目jsp页面发布出错现象: javax.servlet.ServletException: java.lang.LinkageError: loader constraint violation: when resolving interface method "javax....

  • 转:JBPM4常用错误汇总

    在tomcat6.0下布署错误[/color] 基于JBPM4的web项目jsp页面发布出错 现象: javax.servlet.ServletException: java.lang.LinkageError: loader constraint violation: when resolving interface method "...

  • JBPM4.0 执行流程的结点时,出现错误

    当执行流程的结点时,出现错误,如下:严重: Cannot delete or update a parent row: a foreign key constraint fails2009-11-6 22:39:08 org.hibernate.event.def.AbstractFlushingEventListener performExecutions...

  • TinyYolo2实时视频流物体检测ONNX模型

    TinyYolo2实时视频流物体检测ONNX模型 运行 ONNX 模型,并结合 OpenCV 进行图像处理。具体流程包括: 1. 加载并初始化 ONNX 模型。 2. 从摄像头捕获实时视频流。 3. 对每一帧图像进行模型推理,生成物体检测结果。 4. 在界面上绘制检测结果的边界框和标签。

  • chromedriver-linux64-134.0.6998.23(Beta).zip

    chromedriver-linux64-134.0.6998.23(Beta).zip

  • Web开发:ABP框架4-DDD四层架构的详解

    Web开发:ABP框架4-DDD四层架构的详解

  • chromedriver-linux64-135.0.7029.0(Canary).zip

    chromedriver-linux64-135.0.7029.0(Canary).zip

  • (参考项目)MATLAB人脸门禁系统.zip

    实现人脸识别的考勤门禁系统可以分为以下步骤: 1. 采集人脸图像数据集:首先需要采集员工的人脸图像数据集,包括正面、侧面等多个角度的图像。可以使用MATLAB中的图像采集工具或者第三方库进行采集。 2. 预处理人脸图像数据:对采集到的人脸图像数据进行预处理,包括人脸检测、人脸对齐、人脸裁剪等操作。MATLAB提供了相关的图像处理工具箱,可以用于实现这些处理步骤。 3. 特征提取与特征匹配:使用人脸识别算法提取人脸图像的特征,比如使用人脸识别中常用的特征提取算法如Eigenfaces、Fisherfaces或者基于深度学习的算法。然后将员工的人脸数据与数据库中的人脸数据进行匹配,判断是否为注册员工。 4. 考勤记录与门禁控制:如果人脸匹配成功,系统可以记录员工的考勤时间,并且控制门禁系统进行开启。MATLAB可以与外部设备进行通信,实现门禁控制以及考勤记录功能。

Global site tag (gtag.js) - Google Analytics