`

使用tika解析各种类型的文本文件

阅读更多
1. 导入tika-app-1.5.jar

https://tika.apache.org/download.html


2.1 
方法1:

import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;


public String fileToTxt(File f){
		InputStream is=null;
		try
		{
			Parser parser=new AutoDetectParser();
			is=new FileInputStream(f);
			
			ContentHandler handler=new BodyContentHandler();
			
			ParseContext context=new ParseContext();
			context.set(Parser.class, parser);
			parser.parse(is, handler, new Metadata(), context);

                        for(String name:metadata.names()){
				              System.out.println(name+":"+metadata.get(name));
				
				
			}
			return handler.toString();
		}



IndexUtil util=new IndexUtil();
		 System.out.println(util.fileToTxt(new File("d:/1.doc")));





2.2 方法2:
public String tikaTool(File f){
		Tika tika=new Tika();
		try
		{
			return tika.parseToString(f);
		}
		catch (IOException e)
		{
			
			e.printStackTrace();
		}
		catch (TikaException e)
		{
			
			e.printStackTrace();
		}
		return null;
	}


这个方法很简单。 直接就可以返回文本内容。



分享到:
评论

相关推荐

    tika提取文本内容

    Tika是一款强大的开源Java库,专门用于从各种文件格式中提取元数据和文本内容。它在信息技术领域,尤其是文本处理和信息检索中扮演着重要角色。Tika利用Apache的MIME类型识别系统来识别文件类型,并且能够处理大量的...

    利用TikaAPI解析各种文档

    对于PDF文档,Tika使用PDFBox库进行解析,它可以提取文本、图像、元数据等。PDFBox提供了低级API用于处理PDF的内部结构,而Tika则将其封装成更友好的接口。对于HTML文档,Tika结合了Jsoup和NekoHTML等库,确保能够...

    tika读取文件专用包

    Apache Tika是一款强大的内容检测和元数据提取工具,主要...综上所述,"tika读取文件专用包"是一个包含Tika所需组件的集合,用于高效地从各种文件类型中提取信息,是进行文本挖掘、数据分析或信息管理项目的强大工具。

    tika-app-1.14 文本解析文件内容抽取

    Tika是Apache下开源的文档内容解析工具,支持上千种文档格式(如PPT、XLS、PDF)。Tika使用统一的方法对各种类型文件进行内容解析,封装了各种格式解析的内部实现,可用于搜索引擎索引、内容分析、转换等场景。

    tika-example:使用Apache Tika进行文件类型检测

    Apache Tika是一个强大的内容分析工具库,主要用于从各种文件中提取元数据和结构化文本。在Java开发中,Tika是处理文档解析和内容识别的一个重要组件,它可以帮助开发者识别和提取不同文件格式中的信息。在"tika-...

    ofd-parser:OFD文件的Apache Tika解析器

    而Apache Tika作为一个内容分析工具库,它可以帮助开发者从各种类型的文件中提取元数据和结构化文本。 首先,我们需要理解什么是OFD。OFD全称为Open Fixed-layout Document,是由中国国家标准化管理委员会制定的一...

    apache中的tika包

    Apache Tika是一个强大的内容检测和元数据提取库,主要用于解析各种不同格式的文件。它被广泛应用于信息检索、文本挖掘和内容分析等领域...通过了解和掌握Tika的使用,开发者可以更好地处理和利用各种类型的数据资源。

    跟益达学Solr5之使用Tika从PDF中提取数据导入索引

    Tika可能无法完美地解析这些元素,但可以通过自定义Tika解析器或后处理索引数据来改进。例如,可以使用OCR(光学字符识别)技术处理图像中的文字,或者通过额外的处理步骤来解析表格数据。 此外,为了提高性能和...

    TikaExamples:Apache Tika 解析、检测和翻译的示例用法

    Apache Tika 是一个开源的库,专为解析和检测各种文件格式而设计,它在Java环境中尤为适用。TikaExamples项目则提供了丰富的示例代码,帮助开发者了解如何有效地利用Tika进行文本提取、元数据获取以及语言检测等功能...

    tika1.4.zip

    Apache Tika是一个强大的开源内容检测和解析库,主要用于从各种文件格式中提取元数据和文本。这个名为“tika1.4.zip”的压缩包包含了Tika的1.4版本源代码,这对于开发者来说是一个宝贵的资源,可以深入理解其内部...

    tika jar包

    它是一个内容分析工具,能够识别和解析超过500种不同的文件类型,包括文档、图像、音频和视频文件。在Java环境中,Tika是通过JAR(Java Archive)文件来提供的,如在描述中提到的`tika-core-1.5.jar`和`tika-parsers...

    tika+lucene完整jar包

    1. 使用Tika解析文件:通过`Tika`的`parseToString()`方法,可以获取文件的纯文本内容。 2. 创建Lucene索引:利用`Directory`、`Analyzer`和`IndexWriter`等类,将Tika提取的文本内容建立索引。 3. 查询Lucene索引:...

    tika0.5基本jar包

    在Java环境中,Tika提供了丰富的API,使得开发者能够轻松地处理各种类型的文件,包括但不限于文档、图片、音频和视频等。"tika0.5基本jar包"就是这个版本的Tika库的集合,包含了运行Tika所需的基本组件。 Tika的...

    apache-tika-1.2-src.zip_ tika-app-1.2_java poi word_tika-app-1.2

    在实际开发中,你可以使用Tika来实现各种功能,例如从大量文档中提取关键词,进行全文搜索,或者在不打开原始文件的情况下分析内容。由于Tika支持的文件格式广泛,因此在处理多样化的文档输入时,它是一个非常实用的...

    apache-tika-1.0-src.zip

    Apache Tika是一款强大的内容检测和元数据提取工具,主要用于从各种类型的文件中抽取文本和元数据。Tika是Apache软件基金会的一个项目,它构建在Java之上,为开发者提供了丰富的API来解析不同格式的文档,包括但不...

    Python库 | tika-1.13.tar.gz

    1. **内容提取**:tika库提供了`parse()`方法,可以将非文本文件中的文本内容提取出来。这对于处理大量非结构化的文档非常有用,例如从PDF或Word文档中获取纯文本。 2. **元数据获取**:除了文本内容,tika还能获取...

    lucence7.7.1+tika

    总之,Lucene 7.7.1与Tika的结合,提供了一种高效、全面的全文检索解决方案,不仅能够处理大量的文本数据,还能处理各种非文本文件,满足了现代信息检索的多样化需求。对于开发者来说,理解并掌握这两款工具的使用,...

    apache-tika-0.8-src.jar

    Apache Tika是一款强大的内容检测和元数据提取工具,主要用于从各种文件类型中抽取文本和元数据。这个"apache-tika-0.8-src.jar"文件是Tika项目在0.8版本的源代码,它提供了深入理解Tika内部工作原理的机会,对于...

Global site tag (gtag.js) - Google Analytics