Apache Lucene Tika 文件内容提取工具

summerbell

浏览: 821213 次
性别:
来自: 武汉

最近访客更多访客>>

wangweihuamy

icnd

wyhappiness

玫瑰步道

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Lucene&切分词

Apache lucene HTML XML Google

Tika入门

Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次，Tika也提供了便利的扩展API，用来丰富其对第三方文件格式的支持。

在当前版本中，Tika提供了对如下文件格式的支持:

PDF - 通过Pdfbox

MS-* - 通过POI

HTML - 使用nekohtml将不规范的html整理成为xhtml

OpenOffice 格式 - Tika提供

Archive - zip, tar, gzip, bzip等

RTF - Tika提供

Java class - Class解析由ASM完成

Image - 只支持图像的元数据抽取

XML

下面来一个例子：

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.html.HtmlParser;
import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;

public class TikaDemo {
	// public static String PATH = "E:\\test.docx";
	// public static String PATH = "g:\\丁聪生前访谈：画漫画有个屁用！_夏冬红_新浪博客.htm";
	public static String PATH = "g:\\你眷恋的 都已离去 歌词 - Google 搜索.htm";

	// public static String PATH = "E:\\summerbell的博客文章(32).pdf";

	public static String OUTPATH = PATH + ".OUT";

	/**
	 * @param args
	 * @throws TikaException
	 * @throws SAXException
	 * @throws IOException
	 */
	public static void main(String[] args) throws IOException, SAXException,
			TikaException {
		// Parser parser = new OOXMLParser();
		// Parser parser = new PDFParser();
		Parser parser = new HtmlParser();
		/**
		 * */
		// InputStream iStream = new BufferedInputStream(new FileInputStream(
		// new File(PATH)));
		// OutputStream oStream = new BufferedOutputStream(new FileOutputStream(
		// new File(OUTPATH)));
		// ContentHandler iHandler = new BodyContentHandler(oStream);
		// parser.parse(iStream, iHandler, new Metadata(), new ParseContext());
		/**
		 * 处理指定编码的html.
		 */
		InputStream iStream = new BufferedInputStream(new FileInputStream(
				new File(PATH)));
		OutputStream oStream = new BufferedOutputStream(new FileOutputStream(
				new File(OUTPATH)));
		ContentHandler iHandler = new BodyContentHandler(oStream);
		Metadata meta = new Metadata();
		meta.add(Metadata.CONTENT_ENCODING, "utf-8");
		parser.parse(iStream, iHandler, meta, new ParseContext());

	}
}

为了检测tika的效率，选取了一个较大的docx文档。

利用=rand(x,y)功能写出1000个段落，每个段落100包含100句文字。

Tika可以正常处理。

源码已附上，用到的jar包在这里：

(如果要处理其他类型的文件，如pdf，还需引入其他的jar包。如Pdfbox等。)

tika-core-0.5.jar (245.7 KB)
下载次数: 422

tika-parsers-0.5.jar (171.9 KB)
下载次数: 372

xmlbeans-2.5.0.rar (2.6 MB)
下载次数: 570

poi-bin-3.6-20091214.rar (8.2 MB)
下载次数: 697

fontbox-0.8.0-incubating.jar (72.4 KB)
下载次数: 271

nekohtml-0.9.5.jar (103.2 KB)
下载次数: 435

tagsoup-1.1.3.jar (57.8 KB)
下载次数: 269

分享到：

dbutils入门 | 用UltraEdit添加回车换行符

2010-01-08 15:56
浏览 17337
评论(12)
分类:编程语言
查看更多

12 楼 gzklyzf 2015-03-13

为啥我解析的PDF文档没有作者、文章题目等信息啊，下面是我的代码
public class TikaTest {
public static void main(String[] args) throws Exception {
Parser parser = new PDFParser();
BodyContentHandler handler = new BodyContentHandler();
ParseContext context = new ParseContext();
context.set(Parser.class,parser);
String filepath = "G:\\3.pdf";
InputStream is = new FileInputStream(filepath);
Metadata metadata = new Metadata();
parser.parse(is, handler, metadata, context);
for(String name:metadata.names()) {
System.out.println(name+":"+metadata.get(name));
}

}
}求大神指教

11 楼 hesai_vip 2014-01-07

正在学习，mark一下

10 楼 wyczlexus 2012-12-10

请问楼主
Metadata meta = new Metadata();
        meta.add(Metadata.CONTENT_ENCODING, "utf-8");
        parser.parse(iStream, iHandler, meta, new ParseContext());
这段代码是干什么的啊？
我把这段注释掉了以后还是可以正常解析pdf文档的

9 楼 summerbell 2010-01-27

kexzcle 写道

summerbell 写道

kexzcle 写道

谢谢。！！！
还有个问题，就是解析字很少的txt文本。
比如：2-7个字。就会出现乱码。。。

这个问题请假LZ 怎么解决！

你指定的编码和txt文件的编码是一致的么？

是的！！只是在少于8个字的随便建个txt中文，提取编码格式是utf-16le

你试一下建立索引时候解析应该是乱码~！

我们用HtmlParser去抽取一个包含4个字的txt，txt的编码和meta的编码都指定为utf8，可以正常提取的。

8 楼 kexzcle 2010-01-26

summerbell 写道

kexzcle 写道

谢谢。！！！
还有个问题，就是解析字很少的txt文本。
比如：2-7个字。就会出现乱码。。。

这个问题请假LZ 怎么解决！

你指定的编码和txt文件的编码是一致的么？

是的！！只是在少于8个字的随便建个txt中文，提取编码格式是utf-16le

你试一下建立索引时候解析应该是乱码~！

7 楼 summerbell 2010-01-26

kexzcle 写道

谢谢。！！！
还有个问题，就是解析字很少的txt文本。
比如：2-7个字。就会出现乱码。。。

这个问题请假LZ 怎么解决！

你指定的编码和txt文件的编码是一致的么？

6 楼 kexzcle 2010-01-26

谢谢。！！！
还有个问题，就是解析字很少的txt文本。
比如：2-7个字。就会出现乱码。。。

这个问题请假LZ 怎么解决！

5 楼 summerbell 2010-01-25

kexzcle 写道

有进展么！HTML 编码！

指定编码方式的html处理已经包含在新代码中。
在Metadata中指定即可~

4 楼 kexzcle 2010-01-25

有进展么！HTML 编码！

3 楼 kexzcle 2010-01-22

好啊！
最近就想把指定目录或服务器盘符下的html文档格式的charset提取出来，是UTF-8的给转换成GBK，结果不太会
呵呵。辛苦楼主哈！
希望早日听到你的捷报！

2 楼 summerbell 2010-01-22

summerbell 写道

kexzcle 写道

你好，我想问一下，TIKA对html解析时吗，不同编码格式是怎么处理的，
是我们自己提取再转换么，我用TIKA 解析html时UTF-8出现乱码

应该都是tika自己处理的啊，我试过utf8和gbk都可以正常转换啊

额，我搞错了~
果然是有编码的问题。我研究研究哈。

1 楼 summerbell 2010-01-22

kexzcle 写道

你好，我想问一下，TIKA对html解析时吗，不同编码格式是怎么处理的，
是我们自己提取再转换么，我用TIKA 解析html时UTF-8出现乱码

应该都是tika自己处理的啊，我试过utf8和gbk都可以正常转换啊

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论