- 浏览: 812121 次
- 性别:
- 来自: 武汉
文章分类
最新评论
-
107x:
不错,谢谢!
log4j.properties配置详解 -
gzklyzf:
为啥我解析的PDF文档没有作者、文章题目等信息啊,下面是我的代 ...
Apache Lucene Tika 文件内容提取工具 -
mervyn1024:
解压密码是啥
ictclas4j调整 -
百卉含英:
如果我的文件输出路径是这个log4j.appender.Fil ...
log4j.properties配置详解 -
lxhxklyy:
mark……
log4j.properties配置详解
Tika入门
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。
在当前版本中,Tika提供了对如下文件格式的支持:
PDF - 通过Pdfbox
MS-* - 通过POI
HTML - 使用nekohtml将不规范的html整理成为xhtml
OpenOffice 格式 - Tika提供
Archive - zip, tar, gzip, bzip等
RTF - Tika提供
Java class - Class解析由ASM完成
Image - 只支持图像的元数据抽取
XML
下面来一个例子:
import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.html.HtmlParser;
import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;
public class TikaDemo {
// public static String PATH = "E:\\test.docx";
// public static String PATH = "g:\\丁聪生前访谈:画漫画有个屁用!_夏冬红_新浪博客.htm";
public static String PATH = "g:\\你眷恋的 都已离去 歌词 - Google 搜索.htm";
// public static String PATH = "E:\\summerbell的博客文章(32).pdf";
public static String OUTPATH = PATH + ".OUT";
/**
* @param args
* @throws TikaException
* @throws SAXException
* @throws IOException
*/
public static void main(String[] args) throws IOException, SAXException,
TikaException {
// Parser parser = new OOXMLParser();
// Parser parser = new PDFParser();
Parser parser = new HtmlParser();
/**
* */
// InputStream iStream = new BufferedInputStream(new FileInputStream(
// new File(PATH)));
// OutputStream oStream = new BufferedOutputStream(new FileOutputStream(
// new File(OUTPATH)));
// ContentHandler iHandler = new BodyContentHandler(oStream);
// parser.parse(iStream, iHandler, new Metadata(), new ParseContext());
/**
* 处理指定编码的html.
*/
InputStream iStream = new BufferedInputStream(new FileInputStream(
new File(PATH)));
OutputStream oStream = new BufferedOutputStream(new FileOutputStream(
new File(OUTPATH)));
ContentHandler iHandler = new BodyContentHandler(oStream);
Metadata meta = new Metadata();
meta.add(Metadata.CONTENT_ENCODING, "utf-8");
parser.parse(iStream, iHandler, meta, new ParseContext());
}
}
为了检测tika的效率,选取了一个较大的docx文档。
利用=rand(x,y)功能写出1000个段落,每个段落100包含100句文字。
Tika可以正常处理。
源码已附上,用到的jar包在这里:
(如果要处理其他类型的文件,如pdf,还需引入其他的jar包。如Pdfbox等。)
- tika-core-0.5.jar (245.7 KB)
- 下载次数: 422
- tika-parsers-0.5.jar (171.9 KB)
- 下载次数: 372
- xmlbeans-2.5.0.rar (2.6 MB)
- 下载次数: 570
- poi-bin-3.6-20091214.rar (8.2 MB)
- 下载次数: 697
- fontbox-0.8.0-incubating.jar (72.4 KB)
- 下载次数: 271
- nekohtml-0.9.5.jar (103.2 KB)
- 下载次数: 435
- tagsoup-1.1.3.jar (57.8 KB)
- 下载次数: 269
评论
public class TikaTest {
public static void main(String[] args) throws Exception {
Parser parser = new PDFParser();
BodyContentHandler handler = new BodyContentHandler();
ParseContext context = new ParseContext();
context.set(Parser.class,parser);
String filepath = "G:\\3.pdf";
InputStream is = new FileInputStream(filepath);
Metadata metadata = new Metadata();
parser.parse(is, handler, metadata, context);
for(String name:metadata.names()) {
System.out.println(name+":"+metadata.get(name));
}
}
}求大神指教
Metadata meta = new Metadata();
meta.add(Metadata.CONTENT_ENCODING, "utf-8");
parser.parse(iStream, iHandler, meta, new ParseContext());
这段代码是干什么的啊?
我把这段注释掉了以后还是可以正常解析pdf文档的
还有个问题,就是解析字很少的txt文本。
比如:2-7个字。 就会出现乱码。。。
这个问题请假LZ 怎么解决!
你指定的编码和txt文件的编码是一致的么?
是的!! 只是在 少于8个字的随便建个txt中文 ,提取编码格式是utf-16le
你试一下建立索引时候 解析应该是乱码~!
我们用HtmlParser去抽取一个包含4个字的txt,txt的编码和meta的编码都指定为utf8,可以正常提取的。
还有个问题,就是解析字很少的txt文本。
比如:2-7个字。 就会出现乱码。。。
这个问题请假LZ 怎么解决!
你指定的编码和txt文件的编码是一致的么?
是的!! 只是在 少于8个字的随便建个txt中文 ,提取编码格式是utf-16le
你试一下建立索引时候 解析应该是乱码~!
还有个问题,就是解析字很少的txt文本。
比如:2-7个字。 就会出现乱码。。。
这个问题请假LZ 怎么解决!
你指定的编码和txt文件的编码是一致的么?
还有个问题,就是解析字很少的txt文本。
比如:2-7个字。 就会出现乱码。。。
这个问题请假LZ 怎么解决!
指定编码方式的html处理已经包含在新代码中。
在Metadata中指定即可~
最近就想把指定目录或服务器盘符下的html文档格式的charset提取出来,是UTF-8的给转换成GBK,结果不太会
呵呵。辛苦楼主哈!
希望早日听到你的捷报!
是我们自己提取再转换么,我用TIKA 解析html时UTF-8出现乱码
应该都是tika自己处理的啊,我试过utf8和gbk都可以正常转换啊
额,我搞错了~
果然是有编码的问题。我研究研究哈。
是我们自己提取再转换么,我用TIKA 解析html时UTF-8出现乱码
应该都是tika自己处理的啊,我试过utf8和gbk都可以正常转换啊
发表评论
-
Stanford Dependence Relations(zz)
2014-09-08 10:50 1127中心语为谓词 subj -- 主语 nsubj -- 名 ... -
发现庖丁分词器的一个小问题
2014-09-06 11:02 606”深圳市集银科技有限公司“ 会被切分成: ... -
ictclas4j调整
2012-01-17 17:12 2254Ictclas4j在处理一些文档片段时候,会报如下异常: ... -
Ictclas的一个bug(转)
2011-12-15 17:44 1653SegTag tag=new SegTag(4); S ... -
Ubuntu下ICTCLAS JNI的使用
2011-11-14 17:46 4289首先下载ICTCLAS2011_Linux_32_jni ,解 ... -
OneMain
2011-10-24 17:09 1332import org.ictclas4j.bean.SegRe ... -
资料准备
2010-03-09 16:16 1112筹备 RegExr(正则表达式)(舍去) Tika ... -
如何对一个Document的不同Filed使用不同的分词器
2010-02-25 15:13 1403如何对一个Document的不同Filed使用不同的分词器 ... -
Lucene搜索方法总结
2010-01-13 16:07 6195Lucene搜索方法总结 更多lucene信息欢迎查看 ... -
Luke简介
2010-01-11 19:49 2210Luke简介 Luke是一个方便的开发和诊断工具,它能访问L ... -
What Is Lucene?
2010-01-05 22:43 1342What Is Lucene? The Apache ... -
ictclas4j词性表
2009-11-15 22:14 21201. 名词 (1个一类,7个二类,5个三类) 名词分为以下 ... -
Lucene Hack之通过缩小搜索结果集来提升性能
2009-08-23 20:19 1202一、缘起 Lucene在索引文件上G之后的搜索性能下降很严 ... -
Lucene基础排序算法改进
2009-08-23 17:47 2908Lucene基础排序算法: score_d = sum_t( ... -
ictclas4j分词模块
2009-05-19 14:39 3251ictclas4j中文分词模块ms也是采用了 ... -
关于imdict-chinese-analyzer中文分词模块
2009-05-19 12:00 3187CJK中文分词模块是很重要的工具。imdic ...
相关推荐
2. 创建Lucene索引:利用`Directory`、`Analyzer`和`IndexWriter`等类,将Tika提取的文本内容建立索引。 3. 查询Lucene索引:使用`IndexSearcher`和`QueryParser`创建查询,并获取匹配的结果集。 4. 更新和删除索引...
Tika与Apache Lucene项目密切相关,Lucene是一个高性能、全文本搜索库,而Tika则为Lucene提供了一种方便的方式去解析各种复杂的文件类型,从而提取出可用于索引的文本内容。 Tika的核心功能包括: 1. **文件解析**...
Apache Tika是一款强大的内容检测和元数据提取工具,主要用于从各种文件格式中抽取文本内容和元数据。在Java环境中,Tika提供了丰富的API,使得开发者能够轻松地处理各种类型的文件,包括但不限于文档、图片、音频和...
总结,利用Apache Lucene、POI和Tika,我们可以有效地处理doc.xlsx文档,将其内容纳入Lucene索引,从而实现高效的全文搜索。在实际开发中,根据项目需求,可能还需要考虑性能优化、错误处理以及与其他系统的集成等...
在提交文档时,Solr会调用Tika来提取内容,并自动将其索引到指定的字段。这使得你可以对PDF中的内容进行全文检索,而不仅仅是基于文件名或元数据。 在实际应用中,你可能还需要处理一些复杂情况,比如PDF中的表格、...
《Lucene实战 第2版 》基于Apache的Lucene 3 0 从Lucene核心 Lucene应用 案例分析3个方面详细系统地介绍了Lucene 包括认识Lucene 建立索引 为应用程序添加搜索功能 高级搜索技术 扩展搜索 使用Tika提取文本 Lucene...
《Lucene实战(第2版)》基于Apache的Lucene 3.0,从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用Tika提取文本...
Tika,全称为Apache Tika,是另一个Apache项目,主要用于内容检测和元数据提取。它能够解析各种格式的文件,包括但不限于PDF、Word、Excel、HTML、图片等,并从中提取出文本内容和元数据。这对于构建搜索引擎来说至...
Lucene和Tika是Java开发中两个非常重要的工具,它们分别在全文检索和内容提取领域发挥着关键作用。本文将详细探讨这两个库的功能、原理以及如何在实际项目中进行集成和应用。 一、Lucene:Java全文搜索引擎 1. ...
例如,可能有一个项目展示了如何使用CXF创建一个RESTful服务,该服务接收不同类型的文件,然后利用Tika提取内容,最后用Lucene建立索引进行搜索。 总的来说,Apache CXF、Tika和Lucene是Java开发者构建复杂系统时的...
如果要支持其他格式的文件,比如PDF和DOC,可能还需要借助于额外的库,如Apache Tika,来提取文件内容。 为了实现对中文的支持,你需要引入能处理中文分词的Analyzer,如IKAnalyzer或SmartChineseAnalyzer,并确保...
例如,对于PDF或DOC文件,可以使用BinaryField来存储二进制内容,然后使用Tika或者Apache POI库进行解析,提取文本内容用于索引。 **3. 分析器的选择与自定义** Lucene中的Analyzer负责分词和词形还原等任务。3.0...
为了从PDF中提取可搜索的文本,我们需要一个PDF解析库,如PDFBox或Apache Tika。这些库可以读取PDF内容,并将其转换为纯文本,以便Lucene进行处理。在处理中文PDF时,确保选择的解析库能正确处理中文字符集,如UTF-8...
《Lucene实战(第2版)》基于Apache的Lucene 3.0,从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用Tika提取文本...
例如,使用Apache Tika库解析非纯文本文件。 3. **索引优化**:为了提高性能,可以定期进行索引合并和优化,减少索引碎片,同时也可以设置实时更新机制,即时索引新创建或修改的文件。 4. **用户体验**:提供友好的...
《Lucene实战(第2版)》基于Apache的Lucene 3.0,从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用Tika提取文本...
lcene实战(第2版)》基于apache的lucene3.0,从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene,包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、...
Tika能够提取文档内容,为Lucene提供可索引的数据。通过集成Tika,系统能够处理不同类型的文档,确保全文检索的广泛覆盖。 在实现全文检索的过程中,Lucene的高亮功能是关键。为了突出显示与查询匹配的关键词,我们...