Lucene学习之使用Apache Tika进行文档内容抽取 -

yangwei0915

浏览: 465207 次
性别:
来自: 西安

最近访客更多访客>>

haitwin

绿窗明月

cuityang

javaDog_li

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Lucene学习之使用Apache Tika进行文档内容抽取

博客分类：

Lucene学习
Java技术

在上一篇关于Lucene的博客中，介绍了Lucene的入门以及中文文件的搜索问题解决，其中使用的例子是以文本文件作为搜索的文档，在创建索引时使用了Reader读取文件。但是在实际的应用过程中，经常需要对各种各样的非文本文件的内容进行全文搜索。我们常用的除了txt、html、xml等文本格式的文档外，还有大量的例如pdf、word、ppt等非文本格式的文档，在对这些文档中的内容进行搜索时，就需要先抽取其内容，然后再跟进其内容创建索引，才能被正确搜索。Apache Tika 就是一款强大的文档内容抽取框架，它集成了各种文档解析器，能够识别大多数的文档，并且能够扩展其他的解析器，而且对中文的识别也较好。经过不完全测试，能够识别的文档格式如下：

pdf文档
doc、docx、ppt、excel
txt、html、xml
zip、tar

以上4类文档基本上包含了我们在创建一个资料库时所使用的文档格式。

这个框架的使用也非常简单，代码如下（使用tika-app-1.4.jar）：

import org.apache.tika.Tika;

public class SimpleTextExtractor {
	public static void main(String[] args) throws Exception {
		// 创建 Tika实例
		Tika tika = new Tika();
		// 使用tika对文件内容进行抽取，对常用的文档格式进行测试
//		String filePath="D:/tikatest/test.pdf";
//		String filePath="D:/tikatest/test.doc";
//		String filePath="D:/tikatest/test.docx";
//		String filePath="D:/tikatest/test.txt";
//		String filePath="D:/tikatest/test.ppt";
//		String filePath="D:/tikatest/test.wps";
		String filePath="D:/tikatest/test.zip";
		String text = tika.parseToString(new File(filePath));
		System.out.println(text);
	}
}

需要下载Apacke tika的jar文件，下载链接：

http://mirrors.hust.edu.cn/apache/tika/tika-app-1.4.jar

分享到：

Lucene学习之构建简单的文档库 | Lucene学习之Lucene入门暨中文文件搜索问题 ...

2013-10-30 16:18
浏览 8638
评论(1)
分类:开源软件
查看更多

1 楼 baiyingtao 2016-06-24

这些信息不太够，我们希望得到相关Keyword的段落，页码，区域等信息。Tika可以拿到吗？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene学习之使用Apache Tika进行文档内容抽取

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene学习之使用Apache Tika进行文档内容抽取

评论

发表评论

相关推荐

redis 无法远程连接的问题

通过maven向启动的tomcat中部署web应用

启动Tomcat出现Unsupported major.minor version 51.0错误的解决方法

关于Java的面试题

ResultSet 调用getString 抛出NullPointException问题的解决

Lucene学习之构建简单通用的搜索查询接口

Lucene学习之中文查询问题的解决

Lucene学习之构建简单的文档库

Lucene学习之Lucene入门暨中文文件搜索问题的解决

java图片裁剪

按行读取字符文件

[转]让java程序在后台一直执行（例如putty关闭后后台程序继续运行）

Java的反射应用的场合

使用Java的nio实现高效能的网络通信

线程的对象同步

使用正则表达式分隔字符串

最近访客更多访客>>