`
qindongliang1922
  • 浏览: 2208000 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:118248
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:126634
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:60700
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71866
社区版块
存档分类
最新评论

Tika解析文件Demo

    博客分类:
  • JAVA
阅读更多
package com.qin.testparser;

import java.io.File;
import java.io.FileInputStream;

import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MimeType;
import org.apache.tika.mime.MimeTypes;
import org.apache.tika.mime.MimeTypesFactory;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.microsoft.OfficeParser;
import org.apache.tika.sax.BodyContentHandler;


/**
 * 使用Tika解析
 * 各种文件
 * 
 * 
 * @author qindongliang
 * 
 * 
 * ***/



public class ParseDoc {
	
	
	
	
	public static void main(String[] args)throws Exception {
		
		//FileInputStream f=new FileInputStream(new File("D:\\校讯通产品用户使用手册.doc"));
		//FileInputStream f=new FileInputStream(new File("E:\\tika\\tika in action.pdf"));
		 FileInputStream f=new FileInputStream(new File("D:\\345.jpg"));
		 Parser p= new AutoDetectParser();//自动获取一个合适的解析器类型  
		 //如果文件很大,那么这个值可以适当调大
		 BodyContentHandler hand= new BodyContentHandler(10000);
		 Metadata me=new  Metadata();		 
		 ParseContext pct=new ParseContext();
		// p.parse(f, hand ,new Metadata(), new ParseContext());
		 p.parse(f, hand ,me, pct);
		//打印读取的文本
		System.out.println(hand.toString());
		
		
	}

}
分享到:
评论

相关推荐

    tika读取文件专用包

    - **内容检测**:通过MIME类型识别,Tika能确定文件的类型,有助于正确处理和解析文件。 2. **Tika的架构**: - **Parser**:Tika的核心组件是解析器,每个解析器专门处理一种或一类文件格式。例如,`PDFParser`...

    利用TikaAPI解析各种文档

    4. 解析文件:使用`tika.parse()`方法解析文件并获取内容,例如`String content = tika.parseToString(new File(filePath));`。 5. 处理结果:提取的内容通常是纯文本,可以根据需求进一步处理,如保存到数据库、...

    ofd-parser:OFD文件的Apache Tika解析器

    在IT行业中,文件解析是至关重要的一个环节,特别是在文档处理和信息提取领域。本文将深入探讨“ofd-parser”项目,这是一个专为解析OFD(开放式固定格式文档)设计的Apache Tika解析器。OFD作为一种开放标准的电子...

    tika-app-1.14 文本解析文件内容抽取

    Tika是Apache下开源的文档内容解析工具,支持上千种文档格式(如PPT、XLS、PDF)。Tika使用统一的方法对各种类型文件进行内容解析,封装了各种格式解析的内部实现,可用于搜索引擎索引、内容分析、转换等场景。

    tika-ffmpeg:一个 Apache Tika 解析器,它使用 FFmpeg 命令行工具从音频和视频文件中提取元数据

    概述一个解析器,它使用命令行工具从音频和视频文件中提取元数据。 元数据是使用一部分以类似 XPath 的语法报告的,即: pbcore:instantiationDuration=00:00:01.07pbcore:instantiationDataRate=362 kb/spbcore:...

    apache tika检测文件是否损坏的方法

    将上传文件至服务器,进行解析文件时,经常需要判断文件是否损坏。我们可以使用tika来检测文件是否损坏 maven引入如下: <groupId>org.apache.tika <artifactId>tika-app <version>1.18 <groupId>xerces ...

    tika提取文本内容

    9. **错误处理**:在处理损坏或格式不正确的文件时,Tika提供了错误处理机制,能够捕获并报告问题,帮助开发者解决文件解析中的异常情况。 10. **版本更新**:Tika项目持续发展,新版本会添加对更多文件格式的支持...

    tika1.4.zip

    5. **集成到其他Java应用**:Tika可以轻松地集成到Java应用程序、Web服务或者大数据处理系统中,提供统一的文件解析能力。 通过研究tika-1.4源代码,开发者可以学习到如何自定义内容处理器,处理特定格式的文件,...

    java解析dbf文件方案.pdf

    Java 解析 DBF 文件方案 Java 解析 DBF 文件方案是使用 Java 语言来读取和解析 DBF 文件的方法。DBF 文件是一种常见的数据库文件格式,广泛应用于许多行业。为了读取和解析 DBF 文件,需要使用 Java 语言中的数据库...

    TikaExamples:Apache Tika 解析、检测和翻译的示例用法

    - **Parser**:抽象类,代表一个文件解析器。Tika中有多个子类实现,每个对应一种或多种文件格式。 - **ContentHandler**:处理解析结果的接口,例如TextContentHandler用于获取文本内容,MetadataContentHandler...

    apache中的tika包

    1. **文件解析**:Tika能够处理多种文件格式,如PDF、Microsoft Office文档(Word、Excel、PowerPoint)、HTML、XML、图片、音频和视频等。它通过集成多种解析器库来实现这一点,如Apache POI用于处理Microsoft ...

    tika jar包

    Tika是一个强大的Apache...总的来说,Tika是Java开发中处理文件解析和内容提取的强大工具,其灵活性和广泛的支持使其在许多领域都有广泛的应用。正确理解和使用这两个JAR文件,可以极大地提高处理各种文件格式的能力。

    FileCheck_排查损坏文件_tika_

    Tika可以通过其内置的解析器来尝试打开和读取文件,如果文件损坏,解析过程中可能会出现异常,从而帮助我们识别出问题文件。 描述中指出,使用Tika时可能会遇到文件`tika-server-1.24.1.jar`较大,这可能导致下载或...

    tika-example:使用Apache Tika进行文件类型检测

    在Java开发中,Tika是处理文档解析和内容识别的一个重要组件,它可以帮助开发者识别和提取不同文件格式中的信息。在"tika-example"这个项目中,我们将深入探讨如何利用Apache Tika来检测文件类型,例如CSV和XML。 ...

    tika-parsers-1.9.jar是 Apache Tika 中用于解析各种文档格式的核心组件之一

    tika-parsers-1.9.jar是 Apache Tika 中用于解析各种文档格式的核心组件之一

    tika+lucene完整jar包

    1. 使用Tika解析文件:通过`Tika`的`parseToString()`方法,可以获取文件的纯文本内容。 2. 创建Lucene索引:利用`Directory`、`Analyzer`和`IndexWriter`等类,将Tika提取的文本内容建立索引。 3. 查询Lucene索引:...

    MimeType文件校验demo

    Tika通过解析文件内容,提供更精确的MimeType识别,尤其对于非标准扩展名的文件。 在"MimeTypeDemo"这个示例项目中,可能会包含上述方法的实现,以及如何在实际应用中整合这些功能的代码。这可能涉及到创建一个...

    tika0.5基本jar包

    Tika的核心功能是通过解析器(Parser)来识别并处理不同的文件类型。在Tika 0.5版本中,它可能支持以下几种解析器: 1. **MIME类型检测**:Tika能够通过文件头信息确定文件的MIME类型,这是处理不同文件格式的基础...

    ISATabParser:ISA-Tab 数据格式的 Tika 解析器

    每个 ISA-Tab 文件类型一个 Tika 解析器(三个解析器:调查、研究、分析) 调查解析器仅获取元数据。 由于 ISA-Tab 文件是自上而下组织的,我正在努力扩展它,以便从调查开始解析相关文件(研究和分析文件)。 ...

Global site tag (gtag.js) - Google Analytics