浏览 5670 次
锁定老帖子 主题:Tika 项目介绍
精华帖 (0) :: 良好帖 (1) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2009-10-14
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。
Tika的API十分便捷,核心是Parser interface,其中定义了一个parse方法:
我写一个解析word的例子: package com.kongjob.test; import java.io.IOException; import java.io.InputStream; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.microsoft.OfficeParser; import org.apache.tika.sax.BodyContentHandler; import org.xml.sax.ContentHandler; import org.xml.sax.SAXException; /** * Filename: TikaTest.java Description: * @author: jason.he * @version: 1.0 Create at: Oct 14, 2009 2:38:22 PM * * Modification History: Date Author Version Description * 2009 jason.he 1.0 1.0 Version */ public class TikaTest { public static void main(String[] args){ TikaTest tt = new TikaTest(); tt.testWordParser(); } public String testWordParser(){ String result = ""; InputStream input = TikaTest.class.getResourceAsStream("/testWORD.doc"); try { ContentHandler handler = new BodyContentHandler(); Metadata metadata = new Metadata(); new OfficeParser().parse(input, handler, metadata); System.out.println(handler.toString()); } catch (IOException e) { e.printStackTrace(); } catch (SAXException e) { e.printStackTrace(); } catch (TikaException e) { e.printStackTrace(); } finally { try { input.close(); } catch (IOException e) { e.printStackTrace(); } } return result; } }
输出结果:
Sample Word Document This is a sample Microsoft Word Document.
声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2009-10-17
很好的东西
|
|
返回顶楼 | |