0 0

关于对 word 、PDF等常见格式文档的 内容的搜索3

 

 现在上传 word 文档 或者PDF 文档到服务器硬盘上面 或者 以流的方式存储到数据库中,

做一个搜索,要求可以对word文档 或者 PDF 文档的 内容 进行搜索,如何实现这样的技术?

各位有什么建议 ,给提示提示,有参考文档最好,多谢!

2009年3月16日 11:49

4个答案 按时间排序 按投票排序

0 0

lucence直接支持附件内是word、pdf等文件的检索

2009年3月16日 12:49
0 0


使用jacob或者poi组件,可以将文档转换成可读的字节流。

或者,更直接的,采用lucence,支持全文检索,直接在lucence上面做就可以了。

2009年3月16日 12:45
0 0

采用ecm,或者基于JCR的某个实现,比如alfresco

2009年3月16日 12:28
0 0

你上传后应该存了这些文档的路径了吧,你应该是把附件都存在一个文件夹内,或者一个文件夹中又分几级这个无所谓,那么你在上传的时候把你的pdf和work通过itext这个包中的方法可以解析pdf和word中的内容,你解析出来后可以把解析出来的内容以xml的形式存在库里,对应到你的这个附件的名字,然后在搜索的时候只需要在读取你存的这个xml的文件就可以了,然后就可以实现查询的功能了,我没有做过这样的,但是你可以试下

对于work和pdf的操作可以用itext这个包
而对于xml这个可以用jdom这个包,试下吧,不知道我的方法,好不好,给你做个参考!呵呵!

2009年3月16日 12:26

相关推荐

    java读取word,pdf格式文档方法

    Java 读取 Word、PDF 格式文档方法 Java 是一种广泛应用的编程语言,对文档操作是其重要的应用场景之一。本文将介绍 Java 如何读取 Word、PDF 格式文档的几种方法。 使用 Jacob Jacob 是一个桥接工具,连接 Java ...

    C++QT实现对pdf、word文档预览以及文本内容的读取

    这个方法网上很常见,但是大多只有预览,对word文字提取基本都有不足之处(比如带组件的word文字提取失败等),我对这些不足之处进行了完善。 文本相似度比较我试过余弦比较、最小距离比较、jaccard等方法,目前里面有...

    Word、pdf、txt等文档转FLASH(类百度文库)

    这个项目应用了“Word、pdf、txt等文档转FLASH(类百度文库)”的技术,意味着它能将这些常见的文本格式转化为类似百度文库的互动式FLASH展示形式。 首先,我们来探讨一下为什么要进行这种转换。FLASH格式的文档...

    用C#.NET实现生成PDF文档和将WORD转换为PDF

    在现代信息化社会中,处理文档是最常见的任务之一,其中生成PDF文档以及转换文件格式尤为重要。尤其在使用C#.NET进行编程时,能够实现这两种功能,不仅可以提高工作效率,还可以满足多种业务需求。本文将详细探讨...

    PDF格式转换器(把PDF文档转换成word文档的转换器)

    PDF格式转换器是一种工具软件,专门设计用于将PDF(Portable Document Format)文件转换为Word(Microsoft Word)文档格式。PDF格式是由Adobe Systems公司开发的,主要用于保持文档的原始布局和样式,而Word文档则...

    js在线预览wordpdf.rar

    "js在线预览wordpdf.rar"这个资源提供了一种利用JavaScript技术实现在线预览这两种常见文档的解决方案。以下将详细讲解涉及的技术和知识点: 1. PDF在线预览: - **PDF.js**:这是一个由Mozilla开发的开源库,专门...

    根据word模板导出word、PDF文档

    根据word模板导出word、PDF文档,功能全,内容多,介绍详细。主要实现根据word模板及模板中的坐标($[标明.字段名])的形式进行查询出所对应的数据,然后分别生成PDF 和 WORD功能。 本功能是将各个模板的数据均查询...

    PDFBox pdf 转换为word文档

    在这个特定的场景中,我们关注的是使用PDFBox将PDF文档转换为Word文档的功能。 PDF到Word的转换是一个常见的需求,因为尽管PDF格式在保持文档样式和布局方面非常出色,但有时用户可能需要在Word中进行编辑或进一步...

    java swing 实现的word文档转换成pdf文档

    在给定的场景中,我们关注的是如何使用Java Swing来实现一个功能,即把Word文档转换为PDF文档。 首先,理解这个任务的背景,我们需要知道Word和PDF是两种常见的文档格式,各有其特点。Word文档通常用于编辑和格式化...

    PDF 完美转 WORD 文档(免安装 免注册)

    通过这样的工具,用户可以轻松地将PDF文档转换为Word格式,便于编辑、修改和分享。同时,这款软件也适用于那些不希望在计算机上安装额外软件或者对安装过程感到困扰的用户。因此,无论是个人还是企业,"Solid ...

    word文档转pdf

    在IT行业中,转换文件格式是一项常见的任务,尤其是在处理文档时。Word和PDF是两种广泛使用的文件格式,各有其特点和用途。"word文档转pdf"这个主题涉及到的是使用Java Swing来实现这一转换过程,尤其强调了对中文...

    实现word文档格式转化成PDF格式功能的源代码

    2. **构建PDF文档**:基于Word文档的内容,使用iText或Aspose等库创建一个新的PDF文档结构。 3. **格式转换**:将Word的格式信息(如字体、颜色、段落样式)映射到PDF的相应元素。 4. **图像和对象处理**:将Word...

    springboot+es实现对word,pdf,txt等文件的非结构化数据全文内容检索

    在现代的信息化环境中,非结构化数据如Word文档、PDF和TXT文本的处理变得日益重要。Spring Boot结合Elasticsearch的解决方案为这类问题提供了一种高效且灵活的途径。本教程将详细介绍如何利用Spring Boot集成Elastic...

    Delphi实现Word、PDF文档转Image

    本项目涉及的是使用Delphi编程语言将Word和PDF文档转换为图像(JPG)格式。这在某些场景下非常有用,例如预览文档内容、制作网页或移动应用中的嵌入式文档,以及在不支持原生文件格式查看的环境中展示文档。 Delphi...

    pdf格式文件转换成为word格式

    4. **编辑Word文档**:转换完成后,用户可以在Word中对文本进行编辑、修改格式、插入新内容或删除不需要的部分。Word提供了丰富的编辑工具和功能,如拼写检查、样式编辑、页眉页脚设置等。 5. **再次转换回PDF**:...

    JAVA利用poi完成word转pdf,内容包括两个现成工具类和使用到的所有jar包

    Apache POI提供对Word文档的读取,Docx4j负责转换为PDF,而iText或PDFBox则用于格式优化。这种转换方法虽然涉及的组件较多,但能确保转换的准确性和灵活性,满足各种项目需求。在实际使用中,一定要注意依赖库的版本...

    PDF转换成其他可编辑格式文档(word txt 等)工具

    总的来说,这款"PDF转换成其他可编辑格式文档(word txt 等)工具"是一款实用且便捷的软件,尤其对于需要处理受密码保护的PDF或者需要将PDF内容整合到其他文档中的用户来说,它极大地提高了工作效率。其绿色免安装的...

    包括pdf、word、csv等格式的文件都可以查看的小工具

    PDF(Portable Document Format)是一种常见的文件格式,用于保持文档的原始布局和样式。通用查看器能够完美地打开和显示PDF文件,无论是文字、图像还是复杂的表格,都能清晰呈现,让用户无需依赖Adobe Acrobat或...

    office word文档解析

    本项目专注于“Office Word文档解析”,它提供了对doc和docx两种格式的支持,允许开发者获取文档的段落内容、表格数据以及图片信息。下面将详细介绍这个项目涉及的关键知识点。 1. **Microsoft Word文档格式**: -...

    利用poi+itextpdf进行word转pdf.rar

    在IT行业中,转换文档格式是一项常见的任务,例如将Word文档转换为PDF。在这个场景中,我们看到一个关于如何使用Java编程语言实现此功能的资源包:“利用poi+itextpdf进行word转pdf.rar”。这个压缩包包含源码、依赖...

Global site tag (gtag.js) - Google Analytics