Java获取TXT文本和Word文件的内容并显示在页面
注意2003版本的word和2007以上的word需要用不同的jar包来获取!
1.TXT文本:
import java.io.BufferedReader; import java.io.FileReader; StringBuffer texts =new StringBuffer(); BufferedReader br = new BufferedReader(new FileReader(file)); // String line = null; while ((line = br.readLine()) != null) { texts.append(line); } br.close();
注意:按照上面的方式,会出现中文乱码问题!
解决方式:加上编码转换
StringBuffer texts =new StringBuffer(); InputStreamReader isr = new InputStreamReader(new FileInputStream(file), "UTF-8");//加上编码转换 BufferedReader read = new BufferedReader(isr); String line = null; while ((line = br.readLine()) != null) { texts.append(line); } br.close();
2.Word2003——doc格式:
import java.io.FileInputStream; import org.apache.poi.hwpf.extractor.WordExtractor; try { FileInputStream inputStream = new FileInputStream(file); WordExtractor extractor = new WordExtractor(inputStream); text = extractor.getText(); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (Exception e) { e.printStackTrace(); }
或者
import java.io.FileInputStream; import org.textmining.text.extraction.WordExtractor;//引入包不同 try { FileInputStream inputStream = new FileInputStream(file); WordExtractor extractor = new WordExtractor();//此处无参数 text = extractor.getText(inputStream);//此处有参数 } catch (FileNotFoundException e) { e.printStackTrace(); } catch (Exception e) { e.printStackTrace(); }
注意注释的不同之处!
3.Word2007及以上版本——docx格式:
使用到的 jar 包
* poi-3.9-20121203.jar
* poi-ooxml-3.9-20121203.jar
* poi-ooxml-schemas-3.9-20121203.jar
* poi-scratchpad-3.9-20121203.jar
* xmlbeans-2.3.0.jar
* dom4j-1.6.1.jar
import org.apache.poi.POIXMLDocument; import org.apache.poi.POIXMLTextExtractor; import org.apache.poi.openxml4j.opc.OPCPackage; import org.apache.poi.xwpf.extractor.XWPFWordExtractor; try { OPCPackage opcPackage = POIXMLDocument.openPackage(filePath); POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage); text = extractor.getText(); } catch (IOException e) { e.printStackTrace(); } catch (XmlException e) { e.printStackTrace(); } catch (OpenXML4JException e) { e.printStackTrace(); }
4.实例分析:
long id = Long.valueOf(request.getParameter("id")); PolicyDao policyDao = new PolicyDao(); Policy policy = policyDao.getPolicy(id); //读取文件中的内容 StringBuffer fileContent = new StringBuffer(); String fileName = policy.getFilePath(); String uploadPath = Configuration.getConfig().getString("policyFilesPath"); File file = new File(uploadPath+fileName); if(file.exists()){ String suffix = file.getName().substring(file.getName().lastIndexOf(".")+1); //Word2003 if (suffix.equals("doc")) { FileInputStream fis = new FileInputStream(file); WordExtractor wordExtractor = new WordExtractor(fis); String text = wordExtractor.getText(); fileContent.append(text); } //Word2007 else if (suffix.equals("docx")) { OPCPackage opcPackage = POIXMLDocument.openPackage(uploadPath+fileName); POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage); String text = extractor.getText(); fileContent.append(text); } //TXT else if (suffix.equals("txt")) { BufferedReader bufferReader = new BufferedReader(new InputStreamReader(new FileInputStream(file),"utf-8")); //每从BufferedReader对象中读取一行字符。 String line = null; while((line=bufferReader.readLine()) !=null){ fileContent.append(line); } bufferReader.close(); } }else{ System.out.println("文件不存在!"); } //输出 request.setAttribute("content", fileContent); request.setAttribute("name", policy.getTitle()); request.setAttribute("id", policy.getId()); request.getRequestDispatcher("/frontShow/document-info.jsp").forward(request, response); return;
出现类似于: IOException:Unable to read entire block; 362 bytes read; expected 512 bytes的异常
解决办法:既然expected 512 bytes ,那我就写够512bytes
ByteArrayOutputStream byteOS = new ByteArrayOutputStream(); FileInputStream fis = new FileInputStream(fileToBeRead); byte[] by = new byte[512]; int t = fis.read(by,0,by.length); while(t>0){ byteOS.write(by, 0, 512); //这里别写成t,写够512,呵呵,SB的方法对付SB的java API t = fis.read(by,0,by.length); } byteOS.close(); InputStream byteIS = new ByteArrayInputStream(byteOS.toByteArray()); HSSFWorkbook workbook = new HSSFWorkbook(byteIS);
实例如下:
if(file.exists()){ String suffix = file.getName().substring(file.getName().lastIndexOf(".")+1); if (suffix.equalsIgnoreCase("doc")) { FileInputStream fis = new FileInputStream(file); /*byte buf[] = IOUtils.toByteArray(fis); ByteArrayInputStream bs = new ByteArrayInputStream(buf);*/ ByteArrayOutputStream byteOS = new ByteArrayOutputStream(); byte[] by = new byte[512]; int t = fis.read(by,0,by.length); while(t>0){byteOS.write(by, 0, 512); //这里别写成t,写够512,呵呵,SB的方法对付SB的java API t = fis.read(by,0,by.length); } InputStream byteIS = new ByteArrayInputStream(byteOS.toByteArray()); WordExtractor wordExtractor = new WordExtractor(byteIS); String text = wordExtractor.getText(); fileContent.append(text); fis.close(); byteOS.close(); byteIS.close(); } ......
相关推荐
在Java编程环境中,实现两个Word文档的比较是一项常见的任务,特别是在文档处理或自动化测试的场景中。本篇文章将深入探讨如何使用Java技术有效地完成这个任务,重点在于理解文档的结构、选择合适的库以及如何标记...
在IT行业中,生成自定义内容的Word文件是一个常见的需求,特别是在自动化报告、文档生成或个性化信函等场景。Java提供了一些强大的库来实现这个功能,其中就包括利用Word模板生成自定义内容。在这个案例中,我们将...
在这个场景中,我们将重点讨论如何使用Java POI读取Word文档并将其内容转换为HTML网页,同时确保图片和公式等复杂元素能够正确显示。 首先,你需要在你的Java项目中引入Apache POI库。可以通过Maven或Gradle来添加...
读取word文件的内容,并将内容返回为String类型!
java读取txt文件,可以以文件路径构造这个流,:FileInputStream fin = new FileInputStream("d:/test.txt"); 然后使用这个流直接读取到文件,再使用reader构造BufferedReader,按行读取一整行的文本,作为字符串返回...
"Java去重txt文件内容(按行)"这个主题涉及到如何利用Java语言有效地读取TXT文件,并通过比较两份文件的内容来消除重复的行。在这个过程中,Java 8引入的新特性——流(Stream)和并行流(Parallel Stream)起到了关键...
在Java开发中,实现Word文档的在线预览是一项常见的需求,尤其在企业级应用中,例如文档管理系统或者协同办公平台。这项功能可以让用户无需下载原始文件就能查看文档内容,提高工作效率并减少服务器存储压力。本资源...
JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法(poi) JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法是使用 ...使用 Apache POI 库可以轻松地读取 WORD_EXCEL_POWERPOINT_PDF 文件,并提取其中的文本内容。
在Java编程环境中,将Word文档转换为HTML是一种常见的需求,特别是在数据处理、文档共享或网页展示等场景。本文将详细讲解如何使用Java实现这一功能,包括必要的库引用、代码示例以及转换过程。 首先,我们需要引入...
1. **解压 .docx 文件**:使用 `java.util.ZipFile` 类来打开并读取 .docx 文件,获取 `word/document.xml` 的 `ZipEntry`。 2. **解析 XML**:使用 `javax.xml.parsers.DocumentBuilderFactory` 和 `...
在处理文件导出,尤其是办公文档如Word、Excel、PDF和TXT时,Java提供了多个库来帮助开发者实现这些功能。本教程将详细介绍如何使用Java进行文件导出,并确保与Office 2003和Office 2007的兼容性。 首先,我们要...
在实际应用中,Apache POI 的功能不仅限于简单的读写操作,还支持复杂的格式转换、样式调整和模板填充等功能,是 Java 开发者处理 Word 文件的强大工具。然而,需要注意的是,由于 `.doc` 文件格式的复杂性,处理...
在Java编程环境中,读取Word文档的页码是一项常见的任务,尤其在处理大量文档数据时。这个场景下,我们通常会使用Apache POI库,这是一个强大的API,专门用于处理Microsoft Office格式的文件,包括Word(.doc和.docx...
在IT行业中,尤其是在Java开发领域,批量生成Word文档是一项常见的需求,特别是在大数据处理、报告生成或自动化办公场景中。PageOffice是一款强大的Java组件,专为处理Office文档提供解决方案,包括创建、编辑、转换...
Apache POI是Java社区中广泛采用的API,它允许程序员创建、修改和显示Microsoft Office格式的文件,包括Word(.docx)、Excel(.xlsx)和PowerPoint(.pptx)。在描述中提到的三个jar包,即stax-api-1.0.1.jar、...
在Java编程中,有时我们需要处理来自不同文档格式的数据,例如从Word文档中提取表格内容,并将其转换成Excel文件。这通常涉及到使用Apache POI库,一个强大的API,用于读写Microsoft Office格式的文件,包括Word(....
这个代码段是关于在Java环境中使用FreeMarker模板引擎生成Word文件并提供下载服务的实现。以下是详细的知识点解析: 1. **FreeMarker**:FreeMarker是一个基于模板的Java库,用于生成文本输出(如HTML、XML、Word...
在Java编程语言中,处理文本文件,特别是TXT文件,是一项常见的任务。无论是读取现有文件的内容,还是创建新的TXT文件并写入数据,都是开发者必须掌握的基本技能。本篇文章将详细探讨如何使用Java来实现这些功能。 ...
对于每个文件,`convertWordToText`方法被调用,它打开Word应用,加载文档,获取文档内容,将其转换为纯文本并写入到目标文件中,最后关闭Word文档和应用程序。 需要注意的是,由于Jacob库是基于COM接口的,因此在...
在IT行业中,经常需要处理各种类型的文件格式转换,其中一种常见的需求是从Microsoft Word文档转换为HTML页面。Word文档通常用于撰写报告、论文或商务文档,而HTML则适用于网页展示。Java作为一种广泛使用的编程语言...