- 浏览: 466729 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
yuan_bin1990:
您好,请问下demo如何运行啊,准备研究研究,但不知道入口啊。 ...
ssh2(struts2+spring2.5+hibernate3.3)自动生成代码程序 -
luyulong:
[b][/b][i][/i][ ...
jQuery进度条插件 jQuery progressBar -
txin0814:
mark..
读取文件目录 -
vurses:
[align=center][color=red][size= ...
include 与 jsp:include区别 -
Roshan2:
http://lijiejava.iteye.com/blog ...
Spring AOP 入门实例
JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的方法 http://blog.sina.com.cn/u/54c1567b010008vh OFFICE文档使用POI控件,PDF可以使用PDFBOX0.7.3控件,完全支持中文,用XPDF也行,不过感觉PDFBOX比较好,而且作者也在更新。水平有限,万望各位指正 WORD: import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.poi.hwpf.extractor.WordExtractor; import java.io.File; import java.io.InputStream; import java.io.FileInputStream; import com.search.code.Index; public Document getDocument(Index index, String url, String title, InputStream is) throws DocCenterException ...{ String bodyText = null; try ...{ WordExtractor ex = new WordExtractor(is);//is是WORD文件的InputStream bodyText = ex.getText(); if(!bodyText.equals(""))...{ index.AddIndex(url, title, bodyText); } }catch (DocCenterException e) ...{ throw new DocCenterException("无法从该Mocriosoft Word文档中提取内容", e); }catch(Exception e)...{ e.printStackTrace(); } } return null; } Excel: import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.poi.hwpf.extractor.WordExtractor; import org.apache.poi.hssf.usermodel.HSSFWorkbook; import org.apache.poi.hssf.usermodel.HSSFSheet; import org.apache.poi.hssf.usermodel.HSSFRow; import org.apache.poi.hssf.usermodel.HSSFCell; import java.io.File; import java.io.InputStream; import java.io.FileInputStream; import com.search.code.Index; public Document getDocument(Index index, String url, String title, InputStream is) throws DocCenterException ...{ StringBuffer content = new StringBuffer(); try...{ HSSFWorkbook workbook = new HSSFWorkbook(is);//创建对Excel工作簿文件的引用 for (int numSheets = 0; numSheets < workbook.getNumberOfSheets(); numSheets++) ...{ if (null != workbook.getSheetAt(numSheets)) ...{ HSSFSheet aSheet = workbook.getSheetAt(numSheets);//获得一个sheet for (int rowNumOfSheet = 0; rowNumOfSheet <= aSheet.getLastRowNum(); rowNumOfSheet++) ...{ if (null != aSheet.getRow(rowNumOfSheet)) ...{ HSSFRow aRow = aSheet.getRow(rowNumOfSheet); //获得一个行 for (short cellNumOfRow = 0; cellNumOfRow <= aRow.getLastCellNum(); cellNumOfRow++) ...{ if (null != aRow.getCell(cellNumOfRow)) ...{ HSSFCell aCell = aRow.getCell(cellNumOfRow);//获得列值 content.append(aCell.getStringCellValue()); } } } } } } if(!content.equals(""))...{ index.AddIndex(url, title, content.toString()); } }catch (DocCenterException e) ...{ throw new DocCenterException("无法从该Mocriosoft Word文档中提取内容", e); }catch(Exception e) ...{ System.out.println("已运行xlRead() : " + e ); } return null; } PowerPoint: import java.io.InputStream; import org.apache.lucene.document.Document; import org.apache.poi.hslf.HSLFSlideShow; import org.apache.poi.hslf.model.TextRun; import org.apache.poi.hslf.model.Slide; import org.apache.poi.hslf.usermodel.SlideShow; public Document getDocument(Index index, String url, String title, InputStream is) throws DocCenterException ...{ StringBuffer content = new StringBuffer(""); try...{ SlideShow ss = new SlideShow(new HSLFSlideShow(is));//is 为文件的InputStream,建立SlideShow Slide[] slides = ss.getSlides();//获得每一张幻灯片 for(int i=0;i<slides.length;i++)...{ TextRun[] t = slides[i].getTextRuns();//为了取得幻灯片的文字内容,建立TextRun for(int j=0;j<t.length;j++)...{ content.append(t[j].getText());//这里会将文字内容加到content中去 } content.append(slides[i].getTitle()); } index.AddIndex(url, title, content.toString()); }catch(Exception ex)...{ System.out.println(ex.toString()); } return null; } PDF: import java.io.InputStream; import java.io.IOException; import org.apache.lucene.document.Document; import org.pdfbox.cos.COSDocument; import org.pdfbox.pdfparser.PDFParser; import org.pdfbox.pdmodel.PDDocument; import org.pdfbox.pdmodel.PDDocumentInformation; import org.pdfbox.util.PDFTextStripper; import com.search.code.Index; public Document getDocument(Index index, String url, String title, InputStream is)throws DocCenterException ...{ COSDocument cosDoc = null; try ...{ cosDoc = parseDocument(is); } catch (IOException e) ...{ closeCOSDocument(cosDoc); throw new DocCenterException("无法处理该PDF文档", e); } if (cosDoc.isEncrypted()) ...{ if (cosDoc != null)
发表评论
-
javascript 打印指定区域
2010-11-18 16:34 1584javascript网页html 打印指定区域在一张网页里面, ... -
MyEclipse 8.5 开发环境配置,汉化,Aptana2.0插件,SVN 插件,Flex Builder 3/4 插件安装
2010-10-26 14:27 1545MyEclipse 8.5 开发环境配置,汉化,Aptana2 ... -
java读取properties文件
2010-10-11 13:43 767使用J2SE API读取Properties文件的六种方法 1 ... -
dbcp基本配置和重连配置
2010-09-28 09:29 2663最近在看一些dbcp的相 ... -
JAVA实现文件转移
2010-09-28 09:26 946/** * //1.从旧文件拷贝内容到新文件 ... -
Properties读取类
2010-09-25 14:06 948package cn.feigme.util; ... -
JAVA读写ftp
2010-09-21 16:41 3540import java.io.DataInputStream; ... -
apache tomcat mysql负载均衡和集群
2010-09-14 10:30 1691前言:公司开发了一个网站,估计最高在线人数是3万,并发人数最多 ... -
Flash Builder 4 正式版序列号
2010-09-01 15:51 3980江湖上又出现新的FlashBuilder(Flex4)序列号: ... -
利用 org.apache.commons.io.FileUtils快速读写文件
2010-08-17 10:33 2725利用 org.apache.commons.io.FileUt ... -
netbeans常用快捷键
2010-08-10 16:26 9071、Application应用程序的 ... -
ERWIN7.1注册码
2010-06-23 12:15 1359终于找到ERWIN7.1注册码,也可在ERWIN7.2上注册。 ... -
Java压缩文件zip
2010-06-21 09:42 1137可以使用jdk提供的java.util.zip包的类来进行文件 ... -
文件资源操作
2010-06-16 21:52 10861.访问文件资源 假设有一个文件地位于 ... -
Java Regex To Use
2010-06-16 21:46 807Java代码 /** * 得到 ... -
Java Random and Java Disabuse
2010-06-16 21:46 1124一、Random 1、创建Random ... -
java 线程池
2010-06-16 21:44 11551)threadpool.xml Java代码 ... -
使用ThreadLocal,隔离多个线程之间的共享冲突
2010-06-16 21:29 1541早在Java 1.2推出之时,Java平台中就引入了一个新的 ... -
MyEclipse下开发Web Service
2010-06-16 21:28 1525开发环境 Sun Java 5+ ... -
jexcel使用
2010-06-16 21:23 1457Java代码 package excel.jx ...
相关推荐
JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法(poi) JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法是使用 Apache POI 库来实现的。POI 库是一个开放源代码的 Java 库,提供了对 Microsoft Office 文件格式...
这个压缩包"java OpenOffice wordExcel转换PDF.zip"包含了必要的jar包和其他资源,帮助开发者实现这个功能。 首先,我们要了解OpenOffice的架构。OpenOffice是由Apache基金会维护的开源办公套件,它包含了处理文字...
### JAVA读取Word、Excel、PowerPoint及PDF文件方法详解 #### 一、概述 在企业级应用开发中,经常需要处理Office文档(如Word、Excel、PowerPoint)以及PDF文件。这些文件格式广泛用于存储数据和信息。本文将详细...
本主题主要关注如何使用JAVA编程语言将常见的办公软件格式,如Word(.doc)、Excel(.xls)、PowerPoint(.ppt)以及图像文件(如.tif)转换为统一的PDF格式。PDF(Portable Document Format)因其跨平台兼容性和...
本Demo主要关注将Microsoft Office的三种主要文件类型——Word(.doc或.docx)、PowerPoint(.ppt或.pptx)和Excel(.xls或.xlsx)转换为PDF格式,并在此过程中读取转换后的PDF文件的页数。以下是对这个主题的详细...
Java POI库是Apache软件基金会开发的一个开源项目,专门用于处理Microsoft Office格式的文件,包括Word、Excel和PowerPoint等。在这个场景中,我们将重点讨论如何使用Java POI读取Word文档并将其内容转换为HTML网页...
描述中提到的"word文件,excel文件,ppt文件转换成pdf文件,java代码实现,已经集成为工具类,可以直接使用,自测ok"表明已经有开发者编写了一个工具类,该类能够处理这些转换操作,并且经过测试,功能正常。...
Java 读取Word文档主要涉及的是处理不同类型的文档格式,如.doc、.docx或.rtf等。在Java中,由于Microsoft的Word文档格式复杂,直接读取并不简单,因此通常需要借助第三方库来实现。在给定的描述中提到了几种常用的...
Apache POI 是一个广泛使用的 Java 库,专为处理 Microsoft Office 格式的文件,包括 Excel、Word 和 PowerPoint。它是一个免费且开源的解决方案,允许开发者使用 Java 读取、创建和修改这些文件。在本文中,我们将...
在Java编程环境中,将文档(如Excel、Word、PDF、PPT)转换为图片是一种常见的需求,这在处理大量文档预览、数据可视化或者移动设备兼容性问题时尤其有用。以下是一些关于如何使用Java实现这种转换的关键知识点: 1...
【JAVA读取WORD/PDF等】的技术领域主要集中在Java编程语言中对Microsoft Office文档(如Word、Excel、PowerPoint)以及PDF格式文件的处理。在Java中,有多种方法可以实现对这些文件的读取、操作和转换。以下将详细...
读取Word文件通常需要有Microsoft Office套件或者兼容的第三方软件,如WPS Office。在线读取可以通过Google Docs或其他云办公服务实现,它们提供了浏览器上的文件预览和编辑功能。对于开发者来说,可以使用API,如...
本教程将详细介绍如何使用Free Spire.Office for Java库为Word、PPT和PDF文档添加文本水印,以及如何利用Apache POI库为Excel文档实现相同功能。 1. **Free Spire.Office for Java** Free Spire.Office for Java是...
Apache POI是一个强大的Java库,专门用于处理Microsoft Office格式的文件,如Word(.doc, .docx)、Excel(.xls, .xlsx)、PowerPoint(.ppt, .pptx)等。通过使用POI,开发者可以创建、读取、修改这些文件,并且将...
在Java中,可以使用Apache POI库来处理Microsoft Office的文件(如Word、Excel和PowerPoint),而Kingsoft WPS也有相应的API接口供开发者使用。Apache POI提供了对Office文件的低级别访问,允许读取和写入文件内容。...
1. **Apache POI** - 这是用于处理Microsoft Office格式(如Word、Excel和PowerPoint)的Java库。通过Apache POI,我们可以读取、写入和修改这些文件,并将其转换为其他格式,包括HTML。 2. **PDFBox** - 是Apache...
1. **读取Word文档** - 使用 Apache POI 库中的 `HWPFDocument` 类可以处理 `.doc` 文件,而 `XWPFDocument` 类则用于 `.docx` 文件。例如,你可以通过 `WordExtractor` 来提取文档中的文本内容。 ```java import...
Apache POI是Java平台上用于读写Microsoft Office格式文件的开源库,包括Word(.doc/.docx)、PowerPoint(.ppt/.pptx)和Excel(.xls/.xlsx)等。 首先,Apache POI提供了API,允许开发者以编程方式操作这些文件,...