package com.qin.testparser;
import java.io.File;
import java.io.FileInputStream;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MimeType;
import org.apache.tika.mime.MimeTypes;
import org.apache.tika.mime.MimeTypesFactory;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.microsoft.OfficeParser;
import org.apache.tika.sax.BodyContentHandler;
/**
* 使用Tika解析
* 各种文件
*
*
* @author qindongliang
*
*
* ***/
public class ParseDoc {
public static void main(String[] args)throws Exception {
//FileInputStream f=new FileInputStream(new File("D:\\校讯通产品用户使用手册.doc"));
//FileInputStream f=new FileInputStream(new File("E:\\tika\\tika in action.pdf"));
FileInputStream f=new FileInputStream(new File("D:\\345.jpg"));
Parser p= new AutoDetectParser();//自动获取一个合适的解析器类型
//如果文件很大,那么这个值可以适当调大
BodyContentHandler hand= new BodyContentHandler(10000);
Metadata me=new Metadata();
ParseContext pct=new ParseContext();
// p.parse(f, hand ,new Metadata(), new ParseContext());
p.parse(f, hand ,me, pct);
//打印读取的文本
System.out.println(hand.toString());
}
}
分享到:
相关推荐
- **内容检测**:通过MIME类型识别,Tika能确定文件的类型,有助于正确处理和解析文件。 2. **Tika的架构**: - **Parser**:Tika的核心组件是解析器,每个解析器专门处理一种或一类文件格式。例如,`PDFParser`...
4. 解析文件:使用`tika.parse()`方法解析文件并获取内容,例如`String content = tika.parseToString(new File(filePath));`。 5. 处理结果:提取的内容通常是纯文本,可以根据需求进一步处理,如保存到数据库、...
在IT行业中,文件解析是至关重要的一个环节,特别是在文档处理和信息提取领域。本文将深入探讨“ofd-parser”项目,这是一个专为解析OFD(开放式固定格式文档)设计的Apache Tika解析器。OFD作为一种开放标准的电子...
Tika是Apache下开源的文档内容解析工具,支持上千种文档格式(如PPT、XLS、PDF)。Tika使用统一的方法对各种类型文件进行内容解析,封装了各种格式解析的内部实现,可用于搜索引擎索引、内容分析、转换等场景。
概述一个解析器,它使用命令行工具从音频和视频文件中提取元数据。 元数据是使用一部分以类似 XPath 的语法报告的,即: pbcore:instantiationDuration=00:00:01.07pbcore:instantiationDataRate=362 kb/spbcore:...
将上传文件至服务器,进行解析文件时,经常需要判断文件是否损坏。我们可以使用tika来检测文件是否损坏 maven引入如下: <groupId>org.apache.tika <artifactId>tika-app <version>1.18 <groupId>xerces ...
9. **错误处理**:在处理损坏或格式不正确的文件时,Tika提供了错误处理机制,能够捕获并报告问题,帮助开发者解决文件解析中的异常情况。 10. **版本更新**:Tika项目持续发展,新版本会添加对更多文件格式的支持...
5. **集成到其他Java应用**:Tika可以轻松地集成到Java应用程序、Web服务或者大数据处理系统中,提供统一的文件解析能力。 通过研究tika-1.4源代码,开发者可以学习到如何自定义内容处理器,处理特定格式的文件,...
Java 解析 DBF 文件方案 Java 解析 DBF 文件方案是使用 Java 语言来读取和解析 DBF 文件的方法。DBF 文件是一种常见的数据库文件格式,广泛应用于许多行业。为了读取和解析 DBF 文件,需要使用 Java 语言中的数据库...
- **Parser**:抽象类,代表一个文件解析器。Tika中有多个子类实现,每个对应一种或多种文件格式。 - **ContentHandler**:处理解析结果的接口,例如TextContentHandler用于获取文本内容,MetadataContentHandler...
1. **文件解析**:Tika能够处理多种文件格式,如PDF、Microsoft Office文档(Word、Excel、PowerPoint)、HTML、XML、图片、音频和视频等。它通过集成多种解析器库来实现这一点,如Apache POI用于处理Microsoft ...
Tika是一个强大的Apache...总的来说,Tika是Java开发中处理文件解析和内容提取的强大工具,其灵活性和广泛的支持使其在许多领域都有广泛的应用。正确理解和使用这两个JAR文件,可以极大地提高处理各种文件格式的能力。
Tika可以通过其内置的解析器来尝试打开和读取文件,如果文件损坏,解析过程中可能会出现异常,从而帮助我们识别出问题文件。 描述中指出,使用Tika时可能会遇到文件`tika-server-1.24.1.jar`较大,这可能导致下载或...
在Java开发中,Tika是处理文档解析和内容识别的一个重要组件,它可以帮助开发者识别和提取不同文件格式中的信息。在"tika-example"这个项目中,我们将深入探讨如何利用Apache Tika来检测文件类型,例如CSV和XML。 ...
tika-parsers-1.9.jar是 Apache Tika 中用于解析各种文档格式的核心组件之一
1. 使用Tika解析文件:通过`Tika`的`parseToString()`方法,可以获取文件的纯文本内容。 2. 创建Lucene索引:利用`Directory`、`Analyzer`和`IndexWriter`等类,将Tika提取的文本内容建立索引。 3. 查询Lucene索引:...
Tika通过解析文件内容,提供更精确的MimeType识别,尤其对于非标准扩展名的文件。 在"MimeTypeDemo"这个示例项目中,可能会包含上述方法的实现,以及如何在实际应用中整合这些功能的代码。这可能涉及到创建一个...
Tika的核心功能是通过解析器(Parser)来识别并处理不同的文件类型。在Tika 0.5版本中,它可能支持以下几种解析器: 1. **MIME类型检测**:Tika能够通过文件头信息确定文件的MIME类型,这是处理不同文件格式的基础...
每个 ISA-Tab 文件类型一个 Tika 解析器(三个解析器:调查、研究、分析) 调查解析器仅获取元数据。 由于 ISA-Tab 文件是自上而下组织的,我正在努力扩展它,以便从调查开始解析相关文件(研究和分析文件)。 ...