Tika解析文件Demo

qindongliang1922

浏览: 2207488 次
性别:
来自: 北京

最近访客更多访客>>

北风norther

godandghost

youhere

tanss

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：118234

: 证道Hadoop
浏览量：126622

: 证道shell编程
浏览量：60675

: ELK修真
浏览量：71856

文章分类

社区版块

存档分类

博客分类：

JAVA

java tika

package com.qin.testparser;

import java.io.File;
import java.io.FileInputStream;

import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MimeType;
import org.apache.tika.mime.MimeTypes;
import org.apache.tika.mime.MimeTypesFactory;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.microsoft.OfficeParser;
import org.apache.tika.sax.BodyContentHandler;


/**
 * 使用Tika解析
 * 各种文件
 * 
 * 
 * @author qindongliang
 * 
 * 
 * ***/



public class ParseDoc {
	
	
	
	
	public static void main(String[] args)throws Exception {
		
		//FileInputStream f=new FileInputStream(new File("D:\\校讯通产品用户使用手册.doc"));
		//FileInputStream f=new FileInputStream(new File("E:\\tika\\tika in action.pdf"));
		 FileInputStream f=new FileInputStream(new File("D:\\345.jpg"));
		 Parser p= new AutoDetectParser();//自动获取一个合适的解析器类型  
		 //如果文件很大，那么这个值可以适当调大
		 BodyContentHandler hand= new BodyContentHandler(10000);
		 Metadata me=new  Metadata();		 
		 ParseContext pct=new ParseContext();
		// p.parse(f, hand ,new Metadata(), new ParseContext());
		 p.parse(f, hand ,me, pct);
		//打印读取的文本
		System.out.println(hand.toString());
		
		
	}

}

分享到：

Git入门及上传项目到github中 | Nutch1.8插件编译步骤

2014-05-27 10:40
浏览 1790
评论(0)
论坛回复 / 浏览 (0 / 1275)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

tika-ffmpeg:一个 Apache Tika 解析器，它使用 FFmpeg 命令行工具从音频和视频文件中提取元数据: 概述一个解析器，它使用命令行工具从音频和视频文件中提取元数据。元数据是使用一部分以类似 XPath 的语法报告的，即： pbcore:instantiationDuration=00:00:01.07pbcore:instantiationDataRate=362 kb/spbcore:...

MimeType文件校验demo: Tika通过解析文件内容，提供更精确的MimeType识别，尤其对于非标准扩展名的文件。在"MimeTypeDemo"这个示例项目中，可能会包含上述方法的实现，以及如何在实际应用中整合这些功能的代码。这可能涉及到创建一个...

jsp上传demo: 可以使用MIME类型检测库，如Apache Tika，来识别文件类型。同时，限制上传文件的大小，避免消耗过多服务器资源。 7. **错误处理**：确保添加适当的错误处理代码，比如捕获并处理上传过程中的异常，如IO异常、非法...

poi导入excel的demo: 在这个"poi导入excel的demo"中，我们将深入探讨如何使用Apache POI库来读取和写入Excel文件，支持.xls（BIFF8格式）和.xlsx（OOXML格式）这两种常见的Excel版本。 1. **Apache POI简介** Apache POI 是Java平台上...

《基于YOLOv8的核废料运输容器表面污染监测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

《基于YOLOv8的智慧社区独居老人生命体征监测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 《基于YOLOv8的智慧社区独居老人生命体征监测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计

Android Studio Meerkat 2024.3.1 Patch 1（android-studio-2024.3.1.14-mac.zip.001）: Android Studio Meerkat 2024.3.1 Patch 1（android-studio-2024.3.1.14-mac.dmg）适用于macOS Intel系统，文件使用360压缩软件分割成两个压缩包，必须一起下载使用： part1: https://download.csdn.net/download/weixin_43800734/90557060 part2: https://download.csdn.net/download/weixin_43800734/90557056

侧轴承杯加工工艺编制及夹具设计.zip: 侧轴承杯加工工艺编制及夹具设计.zip

NASA数据集锂电池容量特征提取（Matlab完整源码和数据）: NASA数据集锂电池容量特征提取（Matlab完整源码和数据）作者介绍：机器学习之心，博客专家认证，机器学习领域创作者，2023博客之星TOP50，主做机器学习和深度学习时序、回归、分类、聚类和降维等程序设计和案例分析，文章底部有博主联系方式。从事Matlab、Python算法仿真工作8年，更多仿真源码、数据集定制私信。

板料折弯机液压系统设计.zip: 板料折弯机液压系统设计.zip

C6150车床的设计.zip: C6150车床的设计.zip

机器学习之KNN实现手写数字: 机器学习之KNN实现手写数字

python爬虫例程智能代理池爬虫（自适应切换代理）: python爬虫；智能切换策略，反爬检测机制

mpls-vpn-optionA-all: mpls-vpn-optionA-all

软件工程中期答辩1234567: 56tgyhujikolp[

GB 6442-86企业职工伤亡事故调查分析规则.pdf: GB 6442-86企业职工伤亡事故调查分析规则.pdf

汽车液压式主动悬架系统的设计().zip: 汽车液压式主动悬架系统的设计().zip

【更新至2024年】2000-2024年各省专利侵权案件结案数数据: 2000-2024年各省专利侵权案件结案数数据 1、时间：2000-2024年 2、来源：国家知识产权J 3、指标：专利侵权案件结案数 4、范围：31省 5、用途：可用于衡量知识产权保护水平

《基于YOLOv8的零售柜商品有效期识别系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

金融数学课程作业复现：MATLAB实现期权定价与投资组合优化（复现论文或解答问题，含详细可运行代码及解释）: 内容概要：本文档详细复现了金融数学课程作业，涵盖欧式看涨期权定价和投资组合优化两大部分。对于欧式看涨期权定价，分别采用Black-Scholes模型和蒙特卡洛方法进行了计算，并对彩虹期权进行了基于最大值的看涨期权定价。投资组合优化部分则探讨了最小方差组合、给定收益的最小方差组合、最大效用组合以及给定风险的最大收益组合四种情形，还对比了拉格朗日乘数法和二次规划求解器两种方法。文中不仅提供了详细的MATLAB代码，还有详尽的中文解释，确保每一步骤清晰明了。适合人群：金融工程专业学生、量化分析师、金融数学爱好者。使用场景及目标：①帮助学生理解和掌握金融衍生品定价的基本原理和方法；②为从事量化分析的专业人士提供实用工具和技术支持；③作为教学材料辅助高校教师讲授相关内容。其他说明：文档还包括了完整的论文结构建议，从封面页到结论，再到附录，涵盖了所有必要元素，确保提交的作业符合学术规范。此外，还特别强调了数据预处理步骤，确保代码可以顺利运行。

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Tika解析文件Demo

评论

发表评论

相关推荐

记一次log4j不打印日志的踩坑记

在Java里面如何解决进退两难的jar包冲突问题？

如何轻松理解二叉树的深度遍历策略

为什么单线程Redis性能也很出色

如何将编程语言里面的字符串转成数字？

为什么Java里面String类是不可变的

关于Java里面volatile关键字的重排序

多个线程如何轮流打印ABC特定的次数？

聊聊Java里面的引用传递

理解计数排序算法的原理和实现

理解Java7和8里面HashMap+ConcurrentHashMap的扩容策略

关于Java里面多线程同步的一些知识

Java单例模式之双检锁深入思考

关于Java里面多线程同步的一些知识

重新认识同步与异步，阻塞和非阻塞的概念

线程的基本知识总结

Java里面volatile关键字修饰引用变量的陷阱

关于Java里面的字符串拼接，你了解多少？

深入理解Java内存模型的语义

如何证明Java多线程中的成员变量数据是互不可见的

最近访客更多访客>>