package com.qin.testparser;
import java.io.File;
import java.io.FileInputStream;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MimeType;
import org.apache.tika.mime.MimeTypes;
import org.apache.tika.mime.MimeTypesFactory;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.microsoft.OfficeParser;
import org.apache.tika.sax.BodyContentHandler;
/**
* 使用Tika解析
* 各种文件
*
*
* @author qindongliang
*
*
* ***/
public class ParseDoc {
public static void main(String[] args)throws Exception {
//FileInputStream f=new FileInputStream(new File("D:\\校讯通产品用户使用手册.doc"));
//FileInputStream f=new FileInputStream(new File("E:\\tika\\tika in action.pdf"));
FileInputStream f=new FileInputStream(new File("D:\\345.jpg"));
Parser p= new AutoDetectParser();//自动获取一个合适的解析器类型
//如果文件很大,那么这个值可以适当调大
BodyContentHandler hand= new BodyContentHandler(10000);
Metadata me=new Metadata();
ParseContext pct=new ParseContext();
// p.parse(f, hand ,new Metadata(), new ParseContext());
p.parse(f, hand ,me, pct);
//打印读取的文本
System.out.println(hand.toString());
}
}
分享到:
相关推荐
- **内容检测**:通过MIME类型识别,Tika能确定文件的类型,有助于正确处理和解析文件。 2. **Tika的架构**: - **Parser**:Tika的核心组件是解析器,每个解析器专门处理一种或一类文件格式。例如,`PDFParser`...
4. 解析文件:使用`tika.parse()`方法解析文件并获取内容,例如`String content = tika.parseToString(new File(filePath));`。 5. 处理结果:提取的内容通常是纯文本,可以根据需求进一步处理,如保存到数据库、...
在IT行业中,文件解析是至关重要的一个环节,特别是在文档处理和信息提取领域。本文将深入探讨“ofd-parser”项目,这是一个专为解析OFD(开放式固定格式文档)设计的Apache Tika解析器。OFD作为一种开放标准的电子...
Tika是Apache下开源的文档内容解析工具,支持上千种文档格式(如PPT、XLS、PDF)。Tika使用统一的方法对各种类型文件进行内容解析,封装了各种格式解析的内部实现,可用于搜索引擎索引、内容分析、转换等场景。
概述一个解析器,它使用命令行工具从音频和视频文件中提取元数据。 元数据是使用一部分以类似 XPath 的语法报告的,即: pbcore:instantiationDuration=00:00:01.07pbcore:instantiationDataRate=362 kb/spbcore:...
将上传文件至服务器,进行解析文件时,经常需要判断文件是否损坏。我们可以使用tika来检测文件是否损坏 maven引入如下: <groupId>org.apache.tika <artifactId>tika-app <version>1.18 <groupId>xerces ...
9. **错误处理**:在处理损坏或格式不正确的文件时,Tika提供了错误处理机制,能够捕获并报告问题,帮助开发者解决文件解析中的异常情况。 10. **版本更新**:Tika项目持续发展,新版本会添加对更多文件格式的支持...
5. **集成到其他Java应用**:Tika可以轻松地集成到Java应用程序、Web服务或者大数据处理系统中,提供统一的文件解析能力。 通过研究tika-1.4源代码,开发者可以学习到如何自定义内容处理器,处理特定格式的文件,...
Java 解析 DBF 文件方案 Java 解析 DBF 文件方案是使用 Java 语言来读取和解析 DBF 文件的方法。DBF 文件是一种常见的数据库文件格式,广泛应用于许多行业。为了读取和解析 DBF 文件,需要使用 Java 语言中的数据库...
- **Parser**:抽象类,代表一个文件解析器。Tika中有多个子类实现,每个对应一种或多种文件格式。 - **ContentHandler**:处理解析结果的接口,例如TextContentHandler用于获取文本内容,MetadataContentHandler...
1. **文件解析**:Tika能够处理多种文件格式,如PDF、Microsoft Office文档(Word、Excel、PowerPoint)、HTML、XML、图片、音频和视频等。它通过集成多种解析器库来实现这一点,如Apache POI用于处理Microsoft ...
Tika是一个强大的Apache...总的来说,Tika是Java开发中处理文件解析和内容提取的强大工具,其灵活性和广泛的支持使其在许多领域都有广泛的应用。正确理解和使用这两个JAR文件,可以极大地提高处理各种文件格式的能力。
Tika可以通过其内置的解析器来尝试打开和读取文件,如果文件损坏,解析过程中可能会出现异常,从而帮助我们识别出问题文件。 描述中指出,使用Tika时可能会遇到文件`tika-server-1.24.1.jar`较大,这可能导致下载或...
在Java开发中,Tika是处理文档解析和内容识别的一个重要组件,它可以帮助开发者识别和提取不同文件格式中的信息。在"tika-example"这个项目中,我们将深入探讨如何利用Apache Tika来检测文件类型,例如CSV和XML。 ...
1. 使用Tika解析文件:通过`Tika`的`parseToString()`方法,可以获取文件的纯文本内容。 2. 创建Lucene索引:利用`Directory`、`Analyzer`和`IndexWriter`等类,将Tika提取的文本内容建立索引。 3. 查询Lucene索引:...
Tika通过解析文件内容,提供更精确的MimeType识别,尤其对于非标准扩展名的文件。 在"MimeTypeDemo"这个示例项目中,可能会包含上述方法的实现,以及如何在实际应用中整合这些功能的代码。这可能涉及到创建一个...
tika-python 绑定到 Apache Tika REST 服务 Python binding to the Apache Tika REST services Apache Tika 库的 Python 端口,可使用 Tika REST 服务器使 Tika 可用。这使得 Apache Tika 可作为 Python 库使用,可...
Tika的核心功能是通过解析器(Parser)来识别并处理不同的文件类型。在Tika 0.5版本中,它可能支持以下几种解析器: 1. **MIME类型检测**:Tika能够通过文件头信息确定文件的MIME类型,这是处理不同文件格式的基础...
每个 ISA-Tab 文件类型一个 Tika 解析器(三个解析器:调查、研究、分析) 调查解析器仅获取元数据。 由于 ISA-Tab 文件是自上而下组织的,我正在努力扩展它,以便从调查开始解析相关文件(研究和分析文件)。 ...