java 解析文件大全 -

ansjsun

浏览: 205033 次
性别:
来自: 北京

最近访客更多访客>>

永无止境2313

mysql_dba

慕容诗雨

heartandheart

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

java 解析文件大全

博客分类：

JAVASE

Java Apache Excel F#Office

公司有个项目让java从各种文档中抽取正文.
于是费了很多经历来写起初..去网上找demo
一下是摘抄一个哥们的例子

package org.css.resource.businesssoft.searchengine.quwenjiansuo;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;

import org.apache.poi.POITextExtractor;
import org.apache.poi.POIXMLDocument;
import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.extractor.ExtractorFactory;
import org.apache.poi.hssf.usermodel.HSSFCell;
import org.apache.poi.hssf.usermodel.HSSFRow;
import org.apache.poi.hssf.usermodel.HSSFSheet;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.openxml4j.exceptions.OpenXML4JException;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xssf.usermodel.XSSFCell;
import org.apache.poi.xssf.usermodel.XSSFRow;
import org.apache.poi.xssf.usermodel.XSSFSheet;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.xmlbeans.XmlException;
/**
 * 
 * @author lizh
 *
 */
public class CovertFile {

	/**
	 * 从word 2003文档中提取纯文本
	 * @param is
	 * @return
	 * @throws IOException
	 */
	public static String extractTextFromDOC(InputStream is) throws IOException {
		WordExtractor ex = new WordExtractor(is); // is是WORD文件的InputStream
		return ex.getText();
	}

	/**
	 * 从word 2007文档中提取纯文本
	 * @param fileName
	 * @return
	 */
	public static String extractTextFromDOC2007(String fileName) {
		try {
			OPCPackage opcPackage = POIXMLDocument.openPackage(fileName);
			POIXMLTextExtractor ex = new XWPFWordExtractor(opcPackage);
			return ex.getText();
		} catch (Exception e) {
			return "";
		}
	}

	/**
	 * 从excel 2003文档中提取纯文本
	 * @param is
	 * @return
	 * @throws IOException
	 */
	private static String extractTextFromXLS(InputStream is) throws IOException {
		StringBuffer content = new StringBuffer();
		HSSFWorkbook workbook = new HSSFWorkbook(is); // 创建对Excel工作簿文件的引用

		for (int numSheets = 0; numSheets < workbook.getNumberOfSheets(); numSheets++) {
			if (null != workbook.getSheetAt(numSheets)) {
				HSSFSheet aSheet = workbook.getSheetAt(numSheets); // 获得一个sheet

				for (int rowNumOfSheet = 0; rowNumOfSheet <= aSheet
						.getLastRowNum(); rowNumOfSheet++) {
					if (null != aSheet.getRow(rowNumOfSheet)) {
						HSSFRow aRow = aSheet.getRow(rowNumOfSheet); // 获得一行

						for (short cellNumOfRow = 0; cellNumOfRow <= aRow
								.getLastCellNum(); cellNumOfRow++) {
							if (null != aRow.getCell(cellNumOfRow)) {
								HSSFCell aCell = aRow.getCell(cellNumOfRow); // 获得列值

								if (aCell.getCellType() == HSSFCell.CELL_TYPE_NUMERIC) {
									content.append(aCell.getNumericCellValue());
								} else if (aCell.getCellType() == HSSFCell.CELL_TYPE_BOOLEAN) {
									content.append(aCell.getBooleanCellValue());
								} else {
									content.append(aCell.getStringCellValue());
								}
							}
						}
					}
				}
			}
		}
		return content.toString();
	}

	/**
	 * 从excel 2007文档中提取纯文本
	 * @param fileName
	 * @return
	 * @throws Exception
	 */
	private static String extractTextFromXLS2007(String fileName)
			throws Exception {
		StringBuffer content = new StringBuffer();

		// 构造 XSSFWorkbook 对象，strPath 传入文件路径
		XSSFWorkbook xwb = new XSSFWorkbook(fileName);

		// 循环工作表Sheet
		for (int numSheet = 0; numSheet < xwb.getNumberOfSheets(); numSheet++) {
			XSSFSheet xSheet = xwb.getSheetAt(numSheet);
			if (xSheet == null) {
				continue;
			}

			// 循环行Row
			for (int rowNum = 0; rowNum <= xSheet.getLastRowNum(); rowNum++) {
				XSSFRow xRow = xSheet.getRow(rowNum);
				if (xRow == null) {
					continue;
				}

				// 循环列Cell
				for (int cellNum = 0; cellNum <= xRow.getLastCellNum(); cellNum++) {
					XSSFCell xCell = xRow.getCell(cellNum);
					if (xCell == null) {
						continue;
					}

					if (xCell.getCellType() == XSSFCell.CELL_TYPE_BOOLEAN) {
						content.append(xCell.getBooleanCellValue());
					} else if (xCell.getCellType() == XSSFCell.CELL_TYPE_NUMERIC) {
						content.append(xCell.getNumericCellValue());
					} else {
						content.append(xCell.getStringCellValue());
					}
				}
			}
		}

		return content.toString();
	}
	
	/**
	 * 从excel 2007文档中提取纯文本
	 * @param fileName
	 * @return
	 */
	public static String getXLS2007(String fileName){
		String doc = "";
		try{
			doc = extractTextFromXLS2007(fileName);
			return doc;
		}catch(Exception e){
			return "";
		}
	}
	
	/**
	 * 从ppt 2003、2007文档中提取纯文本
	 * @param fileName
	 * @return
	 */
	public static String getPPTX(String fileName){
		String doc = "";
		try{
			File inputFile = new File(fileName);   
			POITextExtractor extractor = ExtractorFactory.createExtractor(inputFile);
			doc = extractor.getText();
			return doc;
		}catch(Exception e){
			return "";
		}
	}
	
	
	public static void main(String[] args) {
		try {
//			String wordFile = "D:/松山血战.docx";
//			String wordText2007 = CovertFile.extractTextFromDOC2007(wordFile);
//			System.out.println("wordText2007=======" + wordText2007);
//
//			InputStream is = new FileInputStream("D:/XXX研发中心技术岗位职位需求.xls");
//			String excelText = CovertFile.extractTextFromXLS(is);
//			System.out.println("text2003==========" + excelText);

//			String excelFile = "D:/zh.xlsx";
//			String excelText2007 = CovertFile.extractTextFromXLS2007(excelFile);
//			System.out.println("excelText2007==========" + excelText2007);
			
			String pptFile = "D:/zz3.ppt";
			String pptx = CovertFile.getPPTX(pptFile);
			System.out.println("pptx==========" + pptx);

		} catch (Exception e) {
			e.printStackTrace();
		}
	}

}

最后突然发现其实只用两行代码就能搞定
office 2003 - office 2007

POITextExtractor extractor = ExtractorFactory.createExtractor(f);
			return extractor.getText();

于是我泪流满面....白忙乎了..顺路奉上解析pdf的吧

package com.lingjoin.extractors;

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.StringReader;
import java.util.Date;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDDocumentInformation;
import org.apache.pdfbox.util.PDFTextStripper;
import com.lingjoin.paser.LingJoinFile;

/**
 * PDF解析器
 * 
 * @author Ansj
 * 
 */
public class PDFExtractor extends AbstractExtractor {
	
	private String getContent(LingJoinFile f) {
		// TODO Auto-generated method stub
		PDDocument doc = null ;
		try {
			doc = PDDocument.load(f);
			PDFTextStripper stripper = new PDFTextStripper();
			/**
			 * 设置文件的信息
			 */
			this.setLingJoinFileInfo(f, doc
					.getDocumentInformation());
			return stripper.getText(doc);
		} catch (FileNotFoundException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} finally {
			if (doc != null) {
				try {
					doc.close();
				} catch (IOException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
			}
		}
		return "";
	}

	private BufferedReader getContentReader(LingJoinFile f) {
		return new BufferedReader(new StringReader(this.getContent(f)));
	}

	/**
	*    
	* 项目名称：FilePaser 
	* 类描述：   设置文件的信息
	* 创建人：ANSJ   
	* 创建时间：2010-4-14 下午04:27:57  
	* 修改备注：   
	* @version    
	 */
	private void setLingJoinFileInfo(LingJoinFile f, PDDocumentInformation info) {
		if (info.getAuthor() != null) {
			f.setlAuthor(info.getAuthor());
		}
//		try {
//			if (info.getModificationDate() != null) {
//				Date date = info.getModificationDate().getTime();
//				f.setlModificationDate(date.getTime());
//			}
//		} catch (IOException e) {
//			// TODO Auto-generated catch block
//			e.printStackTrace();
//		}
		//设置标题
//		if (info.getTitle() != null) {
//			f.setlTitle(info.getTitle());
//		}
	}

	public void paserFileToReader(LingJoinFile f) throws Exception {
		f.setlContentReader(this.getContentReader(f)) ;

	}

	public void paserFileToString(LingJoinFile f) throws Exception {
		// TODO Auto-generated method stub
		f.setlContent(this.getContent(f)) ;
	}
	
	public PDFExtractor(Integer typeFlag) {
		// TODO Auto-generated constructor stub
		this.typeFlag = typeFlag ;
	}
	
	private Integer typeFlag = null ;
	
	public Integer getTypeFlag() {
		// TODO Auto-generated method stub
		return typeFlag;
	}
}

分享到：

mysql 备份还原命令 | OpenOffice学习笔记二创建一个Openoffice文 ...

2010-10-22 09:21
浏览 9560
评论(5)
分类:企业架构
查看更多

5 楼 ansjsun 2013-04-25

xiaorongrongcc 写道

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.poi.poifs.filesystem.POIFSFileSystem.hasPOIFSHeader(Ljava/io/InputStream;)Z
我一直会报这个错误，网上有说是包的问题，请问下你加的那些包咯

weka 神器..你用哪个吧..比这些好用

4 楼 xiaorongrongcc 2013-04-24

3 楼 ansjsun 2012-04-02

fxiaozj 写道

能不能发下全部的源码，AbstractExtractor LingJoinFile

这已经是历史了..我告诉你四个字母 tiki 自己去搜去吧

2 楼 fxiaozj 2012-04-02

能不能发下全部的源码，AbstractExtractor LingJoinFile

1 楼 jordan421 2010-11-28

···

正好，好东西，入我库拉

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java 解析文件大全

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java 解析文件 大全

评论

发表评论

相关推荐

介绍一种基于角色标注+字词体位法的人名识别方式-Ansj中文分词

介绍一种基于角色标注+字词体位法的人名识别方式-Ansj中文分词

Combining Probabilities-结合概率

贝叶斯学习笔记

大话字符编码发展史

新浪微博采集利用javascript爬取

元宵爬虫-YuanXiaoSpider

到1亿的自然数，求所有数的拆分后的数字之和

<<这就是搜索引擎>>学习笔记-算法之索引压缩

文本相似度计算-Levenshtein

一个不会重复的HelloWord 随机大小写....

简单版数独计算器-升级版

java算法专题-归并排序

一个关键字标红的通用类

二分法查找

二叉树法插入查找例子

java Hash算法大全(转载的)

Java版本的BloomFilter (布隆过滤器)

BitMap 用于查重..只能查数字

2B高亮.单位要用凑合用吧..自己趁着老婆洗狗的时候写的

最近访客更多访客>>

java 解析文件大全