使用tika解析各种类型的文本文件 - ···· - ITeye博客

`

alleni123

浏览: 379163 次
来自: 北京

最近访客更多访客>>

swx316

aininim

wangcaster

dongguangming88

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wxpsjm：好直接
HV000030: No validator could be found for type: java.lang.Integer.
wxhhbdx：学习了，对新手来说很不错的教程。
SpringMVC入门（二）数值传递
xgcai：正好在学dwr
DWR入门（二）用户实例

使用tika解析各种类型的文本文件

博客分类：

lucene

阅读更多

1. 导入tika-app-1.5.jar

https://tika.apache.org/download.html

2.1
方法1：


import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;


public String fileToTxt(File f){
		InputStream is=null;
		try
		{
			Parser parser=new AutoDetectParser();
			is=new FileInputStream(f);
			
			ContentHandler handler=new BodyContentHandler();
			
			ParseContext context=new ParseContext();
			context.set(Parser.class, parser);
			parser.parse(is, handler, new Metadata(), context);

                        for(String name:metadata.names()){
				              System.out.println(name+":"+metadata.get(name));
				
				
			}
			return handler.toString();
		}

IndexUtil util=new IndexUtil();
		 System.out.println(util.fileToTxt(new File("d:/1.doc")));

2.2 方法2:

public String tikaTool(File f){
		Tika tika=new Tika();
		try
		{
			return tika.parseToString(f);
		}
		catch (IOException e)
		{
			
			e.printStackTrace();
		}
		catch (TikaException e)
		{
			
			e.printStackTrace();
		}
		return null;
	}

这个方法很简单。直接就可以返回文本内容。

分享到：

solr命令窗口关闭指令 | mmseg4j分词器导致的java.lang.AbstractMe ...

2014-04-13 16:09
浏览 1944
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

tika提取文本内容: Tika是一款强大的开源Java库，专门用于从各种文件格式中提取元数据和文本内容。它在信息技术领域，尤其是文本处理和信息检索中扮演着重要角色。Tika利用Apache的MIME类型识别系统来识别文件类型，并且能够处理大量的...

利用TikaAPI解析各种文档: 对于PDF文档，Tika使用PDFBox库进行解析，它可以提取文本、图像、元数据等。PDFBox提供了低级API用于处理PDF的内部结构，而Tika则将其封装成更友好的接口。对于HTML文档，Tika结合了Jsoup和NekoHTML等库，确保能够...

tika读取文件专用包: Apache Tika是一款强大的内容检测和元数据提取工具，主要...综上所述，"tika读取文件专用包"是一个包含Tika所需组件的集合，用于高效地从各种文件类型中提取信息，是进行文本挖掘、数据分析或信息管理项目的强大工具。

tika-app-1.14 文本解析文件内容抽取: Tika是Apache下开源的文档内容解析工具，支持上千种文档格式（如PPT、XLS、PDF）。Tika使用统一的方法对各种类型文件进行内容解析,封装了各种格式解析的内部实现，可用于搜索引擎索引、内容分析、转换等场景。

tika-example:使用Apache Tika进行文件类型检测: Apache Tika是一个强大的内容分析工具库，主要用于从各种文件中提取元数据和结构化文本。在Java开发中，Tika是处理文档解析和内容识别的一个重要组件，它可以帮助开发者识别和提取不同文件格式中的信息。在"tika-...

ofd-parser:OFD文件的Apache Tika解析器: 而Apache Tika作为一个内容分析工具库，它可以帮助开发者从各种类型的文件中提取元数据和结构化文本。首先，我们需要理解什么是OFD。OFD全称为Open Fixed-layout Document，是由中国国家标准化管理委员会制定的一...

apache中的tika包: Apache Tika是一个强大的内容检测和元数据提取库，主要用于解析各种不同格式的文件。它被广泛应用于信息检索、文本挖掘和内容分析等领域...通过了解和掌握Tika的使用，开发者可以更好地处理和利用各种类型的数据资源。

跟益达学Solr5之使用Tika从PDF中提取数据导入索引: Tika可能无法完美地解析这些元素，但可以通过自定义Tika解析器或后处理索引数据来改进。例如，可以使用OCR（光学字符识别）技术处理图像中的文字，或者通过额外的处理步骤来解析表格数据。此外，为了提高性能和...

TikaExamples:Apache Tika 解析、检测和翻译的示例用法: Apache Tika 是一个开源的库，专为解析和检测各种文件格式而设计，它在Java环境中尤为适用。TikaExamples项目则提供了丰富的示例代码，帮助开发者了解如何有效地利用Tika进行文本提取、元数据获取以及语言检测等功能...

tika1.4.zip: Apache Tika是一个强大的开源内容检测和解析库，主要用于从各种文件格式中提取元数据和文本。这个名为“tika1.4.zip”的压缩包包含了Tika的1.4版本源代码，这对于开发者来说是一个宝贵的资源，可以深入理解其内部...

tika jar包: 它是一个内容分析工具，能够识别和解析超过500种不同的文件类型，包括文档、图像、音频和视频文件。在Java环境中，Tika是通过JAR（Java Archive）文件来提供的，如在描述中提到的`tika-core-1.5.jar`和`tika-parsers...

tika+lucene完整jar包: 1. 使用Tika解析文件：通过`Tika`的`parseToString()`方法，可以获取文件的纯文本内容。 2. 创建Lucene索引：利用`Directory`、`Analyzer`和`IndexWriter`等类，将Tika提取的文本内容建立索引。 3. 查询Lucene索引：...

tika0.5基本jar包: 在Java环境中，Tika提供了丰富的API，使得开发者能够轻松地处理各种类型的文件，包括但不限于文档、图片、音频和视频等。"tika0.5基本jar包"就是这个版本的Tika库的集合，包含了运行Tika所需的基本组件。 Tika的...

apache-tika-1.2-src.zip_ tika-app-1.2_java poi word_tika-app-1.2: 在实际开发中，你可以使用Tika来实现各种功能，例如从大量文档中提取关键词，进行全文搜索，或者在不打开原始文件的情况下分析内容。由于Tika支持的文件格式广泛，因此在处理多样化的文档输入时，它是一个非常实用的...

apache-tika-1.0-src.zip: Apache Tika是一款强大的内容检测和元数据提取工具，主要用于从各种类型的文件中抽取文本和元数据。Tika是Apache软件基金会的一个项目，它构建在Java之上，为开发者提供了丰富的API来解析不同格式的文档，包括但不...

Python库 | tika-1.13.tar.gz: 1. **内容提取**：tika库提供了`parse()`方法，可以将非文本文件中的文本内容提取出来。这对于处理大量非结构化的文档非常有用，例如从PDF或Word文档中获取纯文本。 2. **元数据获取**：除了文本内容，tika还能获取...

lucence7.7.1+tika: 总之，Lucene 7.7.1与Tika的结合，提供了一种高效、全面的全文检索解决方案，不仅能够处理大量的文本数据，还能处理各种非文本文件，满足了现代信息检索的多样化需求。对于开发者来说，理解并掌握这两款工具的使用，...

apache-tika-0.8-src.jar: Apache Tika是一款强大的内容检测和元数据提取工具，主要用于从各种文件类型中抽取文本和元数据。这个"apache-tika-0.8-src.jar"文件是Tika项目在0.8版本的源代码，它提供了深入理解Tika内部工作原理的机会，对于...

Global site tag (gtag.js) - Google Analytics