`

内容解析工具:TIKA

阅读更多

一、TIKA是什么

 

        它是这样的一个工具集:使用已有的各种解析库(parser libraries),从各种类型的文档中,探测、抽取其中的头数据(metadata)和结构化文本内容。

 

二、TIKA的作用

 

       1.能识别文档类型、编码、语言、其他属性

       2.抽取文档内容

 

三、获取TIKA

 

       1.得到TIKA:http://tika.apache.org/download.html

                             要是不想不想重新打包项目,可以直接下载:tika-app-1.3.jar



 

       2.得到MAVEN:http://maven.apache.org/download.cgi

      

      3.设置JAVA_HOME变量

    

      4.用mven来编译项目了。

         下面用的是我的解压路径。在tika的目录中打开cmd,运行maven

 

 最后会在每个项目中生成target目录,里面有jar文件



 

 四、TIKA的简单用法

 

Tika tika=new Tika();
		//System.out.println(tika.parseToString(new URL("http://www.taobao.com")));
//		System.out.println(tika.parseToString(new File("TikaSample.class")));
		String[] tt=new String[]{"E:\\lucene\\test_tika\\1.class",
				                  "E:\\lucene\\test_tika\\2.txt",
				                  "E:\\lucene\\test_tika\\1.docx",
				                  "E:\\lucene\\test_tika\\1.xls",
				                  "E:\\lucene\\test_tika\\1.pdf",
				                  "E:\\lucene\\test_tika\\1.mp3",
				                  "E:\\lucene\\test_tika\\死神.rmvb"};
		 for (String file : tt) {  
			      System.out.println(file);
			      System.out.println(tika.detect(new File(file))); 
			      String text = tika.parseToString(new File(file));  
			      System.out.print(text); 
	}

 部分效果图:



 

  • 大小: 54.7 KB
  • 大小: 39.2 KB
  • 大小: 40.8 KB
  • 大小: 33.1 KB
  • 大小: 10.3 KB
分享到:
评论

相关推荐

    tika提取文本内容

    3. **内容提取流程**:当Tika接收到一个文件时,它首先识别MIME类型,然后选择合适的解析器进行解析。解析器将文件内容转化为文本,同时提取元数据,如作者、创建日期等。 4. **元数据处理**:Tika不仅提供文本提取...

    tika jar包

    在Java程序中,可以这样导入和使用Tika: ```java import org.apache.tika.Tika; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.ParseContext; import org.apache.tika.parser....

    tika读取文件专用包

    - **ContentHandler**:内容处理器接收解析器从文件中提取的文本和元数据。 3. **使用Tika的步骤**: - 引入Tika所需的jar包,包括`tika-core`和特定格式的解析器,如`tika-parsers`,这个压缩包中的`mapper-...

    tika0.5基本jar包

    Apache Tika是一款强大的内容检测和元数据提取工具,主要用于从各种文件格式中抽取文本内容和元数据。在Java环境中,Tika提供了丰富的API,使得开发者能够轻松地处理各种类型的文件,包括但不限于文档、图片、音频和...

    apache-tika-0.9-source

    10. **文档转换(Document Conversion)**:虽然Tika主要用于提取内容,但也可以配合其他工具(如Apache PDFBox或Apache POI)进行文档转换,将一种格式的文档转换为另一种。 由于Tika 0.9源码中不包含应用程序...

    apache-tika-0.8-src.jar

    Apache Tika是一款强大的内容检测和元数据提取工具,主要用于从各种文件类型中抽取文本和元数据。这个"apache-tika-0.8-src.jar"文件是Tika项目在0.8版本的源代码,它提供了深入理解Tika内部工作原理的机会,对于...

    tika1.4.zip

    Apache Tika是一个强大的开源内容检测和解析库,主要用于从各种文件格式中提取元数据和文本。...通过深入研究Tika的实现细节,你可以更好地理解和利用这个强大的文件解析工具,提升你的项目开发效率。

    利用TikaAPI解析各种文档

    总之,Tika API是一个强大的文档解析工具,它简化了跨格式内容提取的过程,使得开发者可以更加专注于应用程序的业务逻辑,而不是底层的文件处理细节。通过熟练掌握Tika,IT专业人员可以提高文档处理的效率和质量,...

    apache-tika-0.1-incubating-src.tar.gz_垂直搜索引擎

    Apache Tika是一个强大的开源工具,专门用于从各种文件格式中提取元数据和文本内容。它在信息技术领域,尤其是在搜索引擎和内容分析应用中扮演着重要角色。"apache-tika-0.1-incubating-src.tar.gz"是Apache Tika...

    tika-app-1.14 文本解析文件内容抽取

    Tika是Apache下开源的文档内容解析工具,支持上千种文档格式(如PPT、XLS、PDF)。Tika使用统一的方法对各种类型文件进行内容解析,封装了各种格式解析的内部实现,可用于搜索引擎索引、内容分析、转换等场景。

    custom-detector-tika,.zip

    【标题解析】:“custom-detector-tika.zip”这个文件名暗示了一个与Tika相关的自定义检测器项目。Tika是Apache软件基金会的一个开源项目,主要功能是用于内容检测和元数据提取,尤其在处理多种文件格式时非常有用。...

    Tika in Action

    - **文件结构解析**:对于复杂格式的文件(例如PDF),Tika还能解析其内部结构,以便更好地理解文件内容。 - **应用场景**:Tika适用于多种场景,包括但不限于搜索引擎、内容管理系统、大数据分析平台等。 ##### 2...

    Python库 | tika-1.13.tar.gz

    "tika-1.13.tar.gz"是一个针对Python的库,它封装了Apache Tika,一个强大的内容分析工具。Apache Tika最初是为Java设计的,但通过Python库tika,我们可以在Python环境中利用其功能。 **Apache Tika** Apache Tika...

    apache-tika-1.2-src.zip_ tika-app-1.2_java poi word_tika-app-1.2

    在描述中提到的"poi"标签,表明了Tika利用Apache POI来解析和提取Word文档的内容。 "Tika-App-1.2.jar"是Tika的命令行应用程序,你可以直接运行这个JAR文件来测试Tika的功能,例如,从一个文件中抽取出文本或元数据...

    tika+lucene完整jar包

    Apache Tika是一个内容分析工具,主要用于从各种文件格式中提取元数据和文本内容。它内置了多种解析器,能够处理从简单文本到复杂的PDF、Microsoft Office文档等各种格式。Tika的核心组件是`TikaParser`,它通过识别...

    Tika.in.Action D.Chris.A.Mattmann

    通过Tika这类工具,能够从复杂多变的文档中提取出元数据和内容,这对于后续的信息处理、数据分析、搜索归档等环节至关重要。元数据的解析能力是现代文档管理系统的核心功能之一。 3. Java在文档处理中的应用:Tika...

    tika:Apache Tika的镜像

    欢迎使用Apache Tika Apache Tika TM是使用现有解析器库从各种文档中检测和提取元数据和结构化文本内容的工具包。 Tika是的项目。 Apache Tika,Tika,Apache,Apache Feather徽标和Apache Tika项目徽标是The Apache...

    ofd-parser:OFD文件的Apache Tika解析器

    作为Apache Tika的一个解析器插件,ofd-parser的主要任务是解析OFD文件并将其内容转换为结构化的文本,以便于进一步的数据分析或者内容检索。Apache Tika是一个强大的库,它集成了多种解析器,能够处理包括OFD在内的...

Global site tag (gtag.js) - Google Analytics