`
GoodWell
  • 浏览: 29681 次
  • 性别: Icon_minigender_1
  • 来自: 河北邢台
社区版块
存档分类

word、pdf等转换称txt格式

阅读更多

1,Word文件转TXT文件

这里是用了一个apache的poi工具,可以在http://poi.apache.org/下载它的jar包,将poi-3.1-FINAL-20080629.jar,poi-contrib-3.1-FINAL-20080629.jar,poi-scratchpad-3.1-FINAL-20080629.jar三个文件复制到工程的WEB-INF\lib目录下。

解析的代码如下:

/**
* 将Word文件转换成txt文本文件
* @author annlee
*
* @param fis,源文件的文件输入流
* @param outputPath,输出文件的路径,这里指文件夹的路径
* @param outputFileName,输出文件的文件名,包括文件后缀名
* @return 转换成功返回字符串"OK";转换失败返回失败原因.
*/
public static String convertWordToTxt(FileInputStream fis,
String outputPath, String outputFileName) {
try {
WordExtractor extractor = new WordExtractor(fis);
String str = extractor.getText().trim(); // 获取Word文件中的字符

String outputFile = outputPath + outputFileName + ".txt"; // 组装输出TXT文件的绝对路径

FileOutputStream fos = new FileOutputStream(outputFile);
fos.write(str.getBytes());
fos.close();
} catch (FileNotFoundException e) {
return "文件不存在!";
} catch (IOException e) {
return "文件读写错误!";
}
return "OK";
}

2,PDF文件转TXT文件

这里是用了一个PDFBox工具,可以在http://www.netlikon.de/docs/PDFBox-0.7.2/lib/下载它的jar包,将PDFBox-0.7.2-log4j.jar,PDFBox-0.7.2.jar这两个文件复制到工程的WEB-INF\lib目录下。

这里多说一下,如果要通过程序生成PDF文件,有个工具很好用:iText是一个能够快速产生PDF文件的java类库。iText的java类对于那些要产生包含文本,表格,图形的只读文档是很有用的。它的类库尤其与java Servlet有很好的给合。使用iText与PDF能够使你正确的控制Servlet的输出。

解析的代码如下:

/**
* 将PDF文件转换成txt文本文件
* @author annlee
*
* @param fis,源文件的文件输入流
* @param outputPath,输出文件的路径,这里指文件夹的路径
* @param outputFileName,输出文件的文件名,包括文件后缀名
* @return 转换成功返回字符串"OK";转换失败返回失败原因.
*/
public static String convertPdfToTxt(FileInputStream fis,
String outputPath, String outputFileName) {

// 是否排序
boolean sort = false;

// 开始提取页数
int startPage = 1;
// 结束提取页数
int endPage = Integer.MAX_VALUE;

try {
// 内存中存储的PDF Document
PDDocument document = PDDocument.load(fis);

String outputFile = outputPath + outputFileName + ".txt"; // 组装输出TXT文件的绝对路径

FileOutputStream fos = new FileOutputStream(outputFile);

OutputStreamWriter writer = new OutputStreamWriter(fos);

// PDFTextStripper来提取文本
PDFTextStripper stripper = new PDFTextStripper();
// 设置是否排序
stripper.setSortByPosition(sort);
// 设置起始页
stripper.setStartPage(startPage);
// 设置结束页
stripper.setEndPage(endPage);
// 调用PDFTextStripper的writeText提取并输出文本
stripper.writeText(document, writer);

fos.close();
writer.close();
} catch (FileNotFoundException e) {
return "文件不存在!";
} catch (IOException e) {
return "文件读写错误!";
}
return "OK";
}

3,PPT文件转TXT文件

这里也用的是apache的poi工具,解析的代码如下:

/**
* 将PPT文件转换成txt文本文件
*
* @author annlee
*
* @param fis,源文件的文件输入流
* @param outputPath,输出文件的路径,这里指文件夹的路径
* @param outputFileName,输出文件的文件名,包括文件后缀名
* @return 转换成功返回字符串"OK";转换失败返回失败原因.
*/
public static String convertPptToTxt(FileInputStream fis,
String outputPath, String outputFileName) {

StringBuffer content = new StringBuffer();
try {
SlideShow ss = new SlideShow(new HSLFSlideShow(fis));// 建立SlideShow
Slide[] slides = ss.getSlides();// 获得每一张幻灯片
for (int i = 0; i < slides.length; i++) {
TextRun[] t = slides[i].getTextRuns();// 为了取得幻灯片的文字内容,建立TextRun
for (int j = 0; j < t.length; j++) {
content.append(t[j].getText());// 这里会将文字内容加到content中去
}
content.append(slides[i].getTitle()); //这里会将标题加到content中去
}
String outputFile = outputPath + outputFileName + ".txt"; // 组装输出TXT文件的绝对路径

FileOutputStream fos = new FileOutputStream(outputFile);
fos.write(content.toString().getBytes());
fos.close();
} catch (FileNotFoundException e) {
return "文件不存在!";
} catch (IOException e) {
return "文件读写错误!";
}
return "OK";
}

3,EXCEL文件转TXT文件

这里也用的是apache的poi工具,解析的代码如下:

/**
* 将EXCEL文件转换成txt文本文件
*
* @author annlee
*
* @param fis,源文件的文件输入流
* @param outputPath,输出文件的路径,这里指文件夹的路径
* @param outputFileName,输出文件的文件名,包括文件后缀名
* @return 转换成功返回字符串"OK";转换失败返回失败原因.
*/
public static String convertXlsToTxt(FileInputStream fis,
String outputPath, String outputFileName) {

StringBuffer content = new StringBuffer();
try {
HSSFWorkbook workbook = new HSSFWorkbook(fis);// 创建对Excel工作簿文件的引用
for (int numSheets = 0; numSheets < workbook.getNumberOfSheets(); numSheets++) {
if (null != workbook.getSheetAt(numSheets)) {
HSSFSheet aSheet = workbook.getSheetAt(numSheets);// 获得一个sheet
for (int rowNumOfSheet = 0; rowNumOfSheet <= aSheet
.getLastRowNum(); rowNumOfSheet++) {
if (null != aSheet.getRow(rowNumOfSheet)) {
HSSFRow aRow = aSheet.getRow(rowNumOfSheet); // 获得一个行
for (short cellNumOfRow = 0; cellNumOfRow <= aRow
.getLastCellNum(); cellNumOfRow++) {
if (null != aRow.getCell(cellNumOfRow)) {
HSSFCell aCell = aRow.getCell(cellNumOfRow);// 获得列值
if (aCell.getCellType() == 1) {
content.append(aCell
.getStringCellValue());
} else if (aCell.getCellType() == 0) {
content.append(Double.toString(aCell
.getNumericCellValue())
+ ",");
}
}
}
}
}
}
}
String outputFile = outputPath + outputFileName + ".txt"; // 组装输出TXT文件的绝对路径

FileOutputStream fos = new FileOutputStream(outputFile);
fos.write(content.toString().getBytes());
fos.close();
} catch (FileNotFoundException e) {
return "文件不存在!";
} catch (IOException e) {
return "文件读写错误!";
}
return "OK";
}

这里生成的TXT文件中可能包含着一些另类的字符,我们可以在写文件之前将这些字符去掉:

/**
* 去掉字符串中多余的字符
*/
public static String washString(String str){
byte[] buffer = str.getBytes();
byte[] buffernew = new byte[buffer.length];
int j = 0;
for(int i =0 ; i< buffer.length; i++){
if((buffer[i] >=20 )||(buffer[i] < 0 )) {
buffernew[j++] = buffer[i];
}
}
String newStr = new String(buffernew);
newStr = newStr.replaceAll("FORMTEXT", "");
return newStr.trim();
}

分享到:
评论

相关推荐

    Word转换成PDF转换器 v3.0.exe

    Word转换成PDF转换器能批量转换微软办公软件格式到PDF, 节省时间, 同时支持多核CPU,让你转换的过程中更快捷更有效。 Word转换成PDF转换器可以设置个别或所有输出PDF打开密码。 Word转换成PDF转换器是一个多语种的...

    PDF格式转换器(把PDF文档转换成word文档的转换器)

    在使用PDF转换器时,用户需要注意以下几点: 1. **格式保留**:并非所有的转换器都能完美地保留原始PDF的格式。在选择转换器时,要确保它能够处理常见的文本样式、图像和表格。 2. **数据安全性**:在上传或转换...

    Word,PDF,PPT,TXT之间的转换方法

    Word、PDF、PPT和TXT是办公中使用最为频繁的四种文件格式。为了满足不同工作场景的需求,熟练掌握这些格式之间的转换方法就显得尤为重要。 首先,我们来谈谈如何将PPT文件转换为Word文档。这一转换过程常见的方法...

    pdf转word pdf转txt pdf转换器 pdf转换软件 绿色免安装

    然而,有时我们需要将PDF转换成其他格式,比如Word或TXT,以便于编辑、注释或在不同设备上阅读。这里我们将深入探讨PDF转换的相关知识点。 首先,PDF转Word是一个常见的需求。PDF文件在格式保留方面表现出色,但不...

    文件Tools工具 支持WORD/PDF/EXCEL/PDF等格式的转换软件

    文件Tools工具 支持WORD/PDF/Excel/PDF等格式的转换软件 支持功能 Word转PDF WORD转EXCEL WORD转EPUB PDF转WORD PDF转EXCEL PDF转PPT PDF版本转换 EXCEL转PDF EXCEL转WORD PDF转EXCEL EPUB转WORD EPUB...

    pdf格式文件转换成为word格式

    这时,将PDF转换为Word(Document)格式就显得非常有必要了。Word文件支持直接编辑、格式调整和内容插入,对于频繁修改的文档来说更加方便。 转换过程通常涉及以下几个关键知识点: 1. **PDF到Word转换工具**:有...

    pdf在线转换成word免费版

    迅捷PDF转换成Word转换器在线是这类工具的代表,它以其出色的转换质量和高效的处理速度赢得了用户的青睐。 PDF(Portable Document Format)是由Adobe公司开发的一种文件格式,它能够保留文档的原始布局和格式,...

    word2pdf转换器

    【标题】"word2pdf转换器"是一款专为用户设计的高效工具,旨在将Word文档无缝转换成PDF格式,确保转换后的PDF文件能够保持原始Word文档的完整布局和功能特性。 【描述】这款转换器的独特之处在于它能够完美地保留...

    PDF转换_PDF转换word_pdf转换_

    首先,PDF转换成Word是常见的需求,因为Word文档允许用户轻松地编辑文本、插入图片和调整格式。转换工具通常会尽可能保留原文档的样式和排版,但可能会出现轻微的差异,特别是在处理复杂的表格和图形时。转换过程...

    word文档转换为PDF格式文件

    在IT行业中,文档格式的转换是一项...总的来说,将Word文档转换为PDF是一种常见的文件格式转换需求,它涉及到文件的兼容性、一致性以及安全性等多个方面。了解并熟练掌握转换方法,对于日常办公和跨平台协作至关重要。

    PDF转换成word格式

    - **Solid Converter PDF**:一款专业的PDF转换工具,能够将PDF文件转换为Word、Excel等多种格式,同时尽可能保持原有格式和布局。 ##### 使用步骤: 1. **下载与安装**:访问官方网站下载Solid Converter PDF...

    批量WORD转PDF转换器

    批量Word转PDF转换器是一款Windows平台下的Word转PDF转换工具,它可以方便快捷地一次性将多个Word文件转换成PDF格式文件。由于软件抛弃了传统虚拟打印生成PDF的方法,而采用直接分析WORD文件并转换到PDF的技术,因此...

    word转换pdf、excel转换pdf、jpeg转换pdf等的工具PDF转换器注册码

    word转换pdf、excel转换pdf、jpeg转换pdf等的工具PDF转换器注册码

    PDF转换成word转换器

    PDF转换成Word转换器是一种工具,它允许用户将原本以PDF格式存储的文档转换成可编辑的Word文档。PDF(Portable Document Format)是一种常见的文件格式,用于保存文档的布局和内容,但通常不便于编辑。而Word文档(....

    pdf转换工具 Word Doc RTF TXT Excel XLS PowerPoint PPT

    PDF转换器可方便的将各种流行的文件格式(Word,Excel,TXT等)转换成PDF文件,也可以将PDF文件转换为各种流行文件格式。  PDF转换器支持Word, Doc, RTF, TXT, Excel XLS, PowerPoint PPT以及所有可打印格式,方便将...

    免费pdf转换成word转换器pdf转换成word转换器

    1. 下载并安装免费的PDF转Word转换器,如提供的"免费pdf转换成word转换器pdf转换成word转换器.exe"文件。 2. 打开软件,点击“添加文件”或拖放PDF到指定区域。 3. 设置转换选项,如选择输出格式(Word DOC或DOCX)...

    word pdf在线转换器

    “迅捷PDF转换成Word转换器在线”是该工具的名称,它强调了其主要功能——将PDF格式的文档高效地转换成Word格式。这款软件的界面设计简洁明了,使得即使是对技术不太熟悉的用户也能快速上手。其稳定的性能意味着在...

    Word、PDF、PPT、TXT 格式之间的转换方法

    本文主要介绍如何在Word、PDF、PPT和TXT格式之间进行转换。 首先,我们来看如何将PPT转换为Word格式。有多种方法可以实现这个转换: 1. **利用“另存为”功能**:打开PPT文件,选择“文件”&gt;“另存为”,然后在...

    pdf 转换成 word/txt 格式

    然而,有时我们需要将PDF文件转换为Word或TXT格式,以便于编辑、检索文本或者在不支持PDF的设备上使用。本文将详细介绍如何进行PDF到Word或TXT的转换,并提供相关工具的使用指南。 1. PDF转Word转换器: 转换PDF到...

    小丑鱼 word 相互转换 pdf 格式转换

    反之,从PDF转换为Word时,它会尽可能地恢复原文档的结构和样式,便于用户进行进一步编辑。 在实际应用中,这个工具可能包括以下特点: 1. **用户友好的界面**:提供直观的操作界面,使得非技术人员也能轻松上手。 ...

Global site tag (gtag.js) - Google Analytics