`
ssydxa219
  • 浏览: 622503 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论

WRPDF

 
阅读更多

package com.mycom.common.base.pdf;

import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;

import org.apache.poi.hslf.HSLFSlideShow;
import org.apache.poi.hslf.model.Slide;
import org.apache.poi.hslf.model.TextRun;
import org.apache.poi.hslf.usermodel.SlideShow;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

public class WRPDF {

    public static String convertPptToTxt(FileInputStream fis,
            String outputPath, String outputFileName) {
         
           StringBuffer content = new StringBuffer();
           try {
           SlideShow ss = new SlideShow(new HSLFSlideShow(fis));// 建立SlideShow
            Slide[] slides = ss.getSlides();// 获得每一张幻灯片
            for (int i = 0; i < slides.length; i++) {
             TextRun[] t = slides[i].getTextRuns();// 为了取得幻灯片的文字内容,建立TextRun
             for (int j = 0; j < t.length; j++) {
              content.append(t[j].getText());// 这里会将文字内容加到content中去
             }
             content.append(slides[i].getTitle()); //这里会将标题加到content中去
            }
            String outputFile = outputPath + outputFileName + ".doc"; // 组装输出TXT文件的绝对路径
            FileOutputStream fos = new FileOutputStream(outputFile);
            fos.write(content.toString().getBytes());
            fos.close();
           } catch (FileNotFoundException e) {
            return "文件不存在!";
           } catch (IOException e) {
            return "文件读写错误!";
           }
           return "OK";
        }

    public static String convertPdfToTxt(FileInputStream fis,
        String outputPath, String outputFileName) {
       // 是否排序
       boolean sort = false;
       // 开始提取页数
       int startPage = 1;
       // 结束提取页数
       int endPage = Integer.MAX_VALUE;
       try {
        // 内存中存储的PDF Document
      PDDocument document = PDDocument.load(fis);
        String outputFile = outputPath + outputFileName + ".doc"; // 组装输出TXT文件的绝对路径
        FileOutputStream fos = new FileOutputStream(outputFile);
        OutputStreamWriter writer = new OutputStreamWriter(fos);
        // PDFTextStripper来提取文本
        PDFTextStripper stripper = new PDFTextStripper();
        // 设置是否排序
        stripper.setSortByPosition(sort);
        // 设置起始页
        stripper.setStartPage(startPage);
        // 设置结束页
        stripper.setEndPage(endPage);
        // 调用PDFTextStripper的writeText提取并输出文本
        stripper.writeText(document, writer);
        fos.close();
        writer.close();
       } catch (FileNotFoundException e) {
        return "文件不存在!";
       } catch (IOException e) {
        return "文件读写错误!";
       }
       return "OK";
    }
   
   
    public static void main(String[] args) {
           // TODO Auto-generated method stub
        WRPDF pdfReader = new WRPDF();
           try {
            // 取得E盘下的SpringGuide.pdf的内容
               //FileInputStream
               //outputPath
               //outputFileName
               FileInputStream isfile = new FileInputStream("D:\\logs\\基于NOSQL的云环境下数据分析和存储.pdf");
           // pdfReader.convertPptToTxt(isfile,"D:\\logs\\", "mytest");
                    //readFdf("D:\\dev\\chat\\TESTS.pdf");
           
            String str = pdfReader.convertPdfToTxt(isfile,"D:\\logs\\", "mytest");
            System.out.println(str);
           } catch (Exception e) {
            e.printStackTrace();
           }
        }
}

 

 

\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\

<!-- [if gte mso 9]><xml> <w:WordDocument> <w:View>Normal</w:View> <w:Zoom>0</w:Zoom> <w:TrackMoves/> <w:TrackFormatting/> <w:PunctuationKerning/> <w:DrawingGridVerticalSpacing>7.8 pt</w:DrawingGridVerticalSpacing> <w:DisplayHorizontalDrawingGridEvery>0</w:DisplayHorizontalDrawingGridEvery> <w:DisplayVerticalDrawingGridEvery>2</w:DisplayVerticalDrawingGridEvery> <w:ValidateAgainstSchemas/> <w:SaveIfXMLInvalid>false</w:SaveIfXMLInvalid> <w:IgnoreMixedContent>false</w:IgnoreMixedContent> <w:AlwaysShowPlaceholderText>false</w:AlwaysShowPlaceholderText> <w:DoNotPromoteQF/> <w:LidThemeOther>EN-US</w:LidThemeOther> <w:LidThemeAsian>ZH-CN</w:LidThemeAsian> <w:LidThemeComplexScript>X-NONE</w:LidThemeComplexScript> <w:Compatibility> <w:SpaceForUL/> <w:BalanceSingleByteDoubleByteWidth/> <w:DoNotLeaveBackslashAlone/> <w:ULTrailSpace/> <w:DoNotExpandShiftReturn/> <w:AdjustLineHeightInTable/> <w:BreakWrappedTables/> <w:SnapToGridInCell/> <w:WrapTextWithPunct/> <w:UseAsianBreakRules/> <w:DontGrowAutofit/> <w:SplitPgBreakAndParaMark/> <w:DontVertAlignCellWithSp/> <w:DontBreakConstrainedForcedTables/> <w:DontVertAlignInTxbx/> <w:Word11KerningPairs/> <w:CachedColBalance/> <w:UseFELayout/> </w:Compatibility> <w:BrowserLevel>MicrosoftInternetExplorer4</w:BrowserLevel> <m:mathPr> <m:mathFont m:val="Cambria Math"/> <m:brkBin m:val="before"/> <m:brkBinSub m:val="&#45;-"/> <m:smallFrac m:val="off"/> <m:dispDef/> <m:lMargin m:val="0"/> <m:rMargin m:val="0"/> <m:defJc m:val="centerGroup"/> <m:wrapIndent m:val="1440"/> <m:intLim m:val="subSup"/> <m:naryLim m:val="undOvr"/> </m:mathPr></w:WordDocument> </xml><![endif]--><!-- [if gte mso 9]><xml> <w:LatentStyles DefLockedState="false" DefUnhideWhenUsed="true" DefSemiHidden="true" DefQFormat="false" DefPriority="99" LatentStyleCount="267"> <w:LsdException Locked="false" Priority="0" SemiHidden="false" UnhideWhenUsed="false" QFormat="true" Name="Normal"/> <w:LsdException Locked="false" Priority="9" SemiHidden="false" UnhideWhenUsed="false" QFormat="true" Name="heading 1"/> <w:LsdException Locked="false" Priority="9" QFormat="true" Name="heading 2"/> <w:LsdException Locked="false" Priority="9" QFormat="true" Name="heading 3"/> <w:LsdException Locked="false" Priority="9" QFormat="true" Name="heading 4"/> <w:LsdException Locked="false" Priority="9" QFormat="true" Name="heading 5"/> <w:LsdException Locked="false" Priority="9" QFormat="true" Name="heading 6"/> <w:LsdException Locked="false" Priority="9" QFormat="true" Name="heading 7"/> <w:LsdException Locked="false" Priority="9" QFormat="true" Name="heading 8"/> <w:LsdException Locked="false" Priority="9" QFormat="true" Name="heading 9"/> <w:LsdException Locked="false" Priority="39" Name="toc 1"/> <w:LsdException Locked="false" Priority="39" Name="toc 2"/> <w:LsdException Locked="false" Priority="39" Name="toc 3"/> <w:LsdException Locked="false" Priority="39" Name="toc 4"/> <w:LsdException Locked="false" Priority="39" Name="toc 5"/> <w:LsdException Locked="false" Priority="39" Name="toc 6"/> <w:LsdException Locked="false" Priority="39" Name="toc 7"/> <w:LsdException Locked="false" Priority="39" Name="toc 8"/> <w:LsdException Locked="false" Priority="39" Name="toc 9"/> <w:LsdException Locked="false" Priority="35" QFormat="true" Name="caption"/> <w:LsdException Locked="false" Priority="10" SemiHidden="false" UnhideWhenUsed="false" QFormat="true" Name="Title"/> <w:LsdException Locked="false" Priority="1" Name="Default Paragraph Font"/> <w:LsdException Locked="false" Priority="11" SemiHidden="false" UnhideWhenUsed="false" QFormat="true" Name="Subtitle"/> <w:LsdException Locked="false" Priority="22" SemiHidden="false" UnhideWhenUsed="false" QFormat="true" Name="Strong"/> <w:LsdException Locked="false" Priority="20" SemiHidden="false" UnhideWhenUsed="false" QFormat="true" Name="Emphasis"/> <w:LsdException Locked="false" Priority="59" SemiHidden="false" UnhideWhenUsed="false" Name="Table Grid"/> <w:LsdException Locked="false" UnhideWhenUsed="false" Name="Placeholder Text"/> <w:LsdException Locked="false" Priority="1" SemiHidden="false" UnhideWhenUsed="false" QFormat="true" Name="No Spacing"/> <w:LsdException Locked="false" Priority="60" SemiHidden="false" UnhideWhenUsed="false" Name="Light Shading"/> <w:LsdException Locked="false" Priority="61" SemiHidden="false" UnhideWhenUsed="false" Name="Light List"/> <w:LsdException Locked="false" Priority="62" SemiHidden="false" UnhideWhenUsed="false" Name="Light Grid"/> <w:LsdException Locked="false" Priority="63" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Shading 1"/> <w:LsdException Locked="false" Priority="64" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Shading 2"/> <w:LsdException Locked="false" Priority="65" SemiHidden="false" UnhideWhenUsed="false" Name="Medium List 1"/> <w:LsdException Locked="false" Priority="66" SemiHidden="false" UnhideWhenUsed="false" Name="Medium List 2"/> <w:LsdException Locked="false" Priority="67" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 1"/> <w:LsdException Locked="false" Priority="68" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 2"/> <w:LsdException Locked="false" Priority="69" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 3"/> <w:LsdException Locked="false" Priority="70" SemiHidden="false" UnhideWhenUsed="false" Name="Dark List"/> <w:LsdException Locked="false" Priority="71" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful Shading"/> <w:LsdException Locked="false" Priority="72" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful List"/> <w:LsdException Locked="false" Priority="73" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful Grid"/> <w:LsdException Locked="false" Priority="60" SemiHidden="false" UnhideWhenUsed="false" Name="Light Shading Accent 1"/> <w:LsdException Locked="false" Priority="61" SemiHidden="false" UnhideWhenUsed="false" Name="Light List Accent 1"/> <w:LsdException Locked="false" Priority="62" SemiHidden="false" UnhideWhenUsed="false" Name="Light Grid Accent 1"/> <w:LsdException Locked="false" Priority="63" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Shading 1 Accent 1"/> <w:LsdException Locked="false" Priority="64" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Shading 2 Accent 1"/> <w:LsdException Locked="false" Priority="65" SemiHidden="false" UnhideWhenUsed="false" Name="Medium List 1 Accent 1"/> <w:LsdException Locked="false" UnhideWhenUsed="false" Name="Revision"/> <w:LsdException Locked="false" Priority="34" SemiHidden="false" UnhideWhenUsed="false" QFormat="true" Name="List Paragraph"/> <w:LsdException Locked="false" Priority="29" SemiHidden="false" UnhideWhenUsed="false" QFormat="true" Name="Quote"/> <w:LsdException Locked="false" Priority="30" SemiHidden="false" UnhideWhenUsed="false" QFormat="true" Name="Intense Quote"/> <w:LsdException Locked="false" Priority="66" SemiHidden="false" UnhideWhenUsed="false" Name="Medium List 2 Accent 1"/> <w:LsdException Locked="false" Priority="67" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 1 Accent 1"/> <w:LsdException Locked="false" Priority="68" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 2 Accent 1"/> <w:LsdException Locked="false" Priority="69" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 3 Accent 1"/> <w:LsdException Locked="false" Priority="70" SemiHidden="false" UnhideWhenUsed="false" Name="Dark List Accent 1"/> <w:LsdException Locked="false" Priority="71" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful Shading Accent 1"/> <w:LsdException Locked="false" Priority="72" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful List Accent 1"/> <w:LsdException Locked="false" Priority="73" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful Grid Accent 1"/> <w:LsdException Locked="false" Priority="60" SemiHidden="false" UnhideWhenUsed="false" Name="Light Shading Accent 2"/> <w:LsdException Locked="false" Priority="61" SemiHidden="false" UnhideWhenUsed="false" Name="Light List Accent 2"/> <w:LsdException Locked="false" Priority="62" SemiHidden="false" UnhideWhenUsed="false" Name="Light Grid Accent 2"/> <w:LsdException Locked="false" Priority="63" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Shading 1 Accent 2"/> <w:LsdException Locked="false" Priority="64" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Shading 2 Accent 2"/> <w:LsdException Locked="false" Priority="65" SemiHidden="false" UnhideWhenUsed="false" Name="Medium List 1 Accent 2"/> <w:LsdException Locked="false" Priority="66" SemiHidden="false" UnhideWhenUsed="false" Name="Medium List 2 Accent 2"/> <w:LsdException Locked="false" Priority="67" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 1 Accent 2"/> <w:LsdException Locked="false" Priority="68" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 2 Accent 2"/> <w:LsdException Locked="false" Priority="69" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 3 Accent 2"/> <w:LsdException Locked="false" Priority="70" SemiHidden="false" UnhideWhenUsed="false" Name="Dark List Accent 2"/> <w:LsdException Locked="false" Priority="71" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful Shading Accent 2"/> <w:LsdException Locked="false" Priority="72" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful List Accent 2"/> <w:LsdException Locked="false" Priority="73" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful Grid Accent 2"/> <w:LsdException Locked="false" Priority="60" SemiHidden="false" UnhideWhenUsed="false" Name="Light Shading Accent 3"/> <w:LsdException Locked="false" Priority="61" SemiHidden="false" UnhideWhenUsed="false" Name="Light List Accent 3"/> <w:LsdException Locked="false" Priority="62" SemiHidden="false" UnhideWhenUsed="false" Name="Light Grid Accent 3"/> <w:LsdException Locked="false" Priority="63" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Shading 1 Accent 3"/> <w:LsdException Locked="false" Priority="64" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Shading 2 Accent 3"/> <w:LsdException Locked="false" Priority="65" SemiHidden="false" UnhideWhenUsed="false" Name="Medium List 1 Accent 3"/> <w:LsdException Locked="false" Priority="66" SemiHidden="false" UnhideWhenUsed="false" Name="Medium List 2 Accent 3"/> <w:LsdException Locked="false" Priority="67" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 1 Accent 3"/> <w:LsdException Locked="false" Priority="68" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 2 Accent 3"/> <w:LsdException Locked="false" Priority="69" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 3 Accent 3"/> <w:LsdException Locked="false" Priority="70" SemiHidden="false" UnhideWhenUsed="false" Name="Dark List Accent 3"/> <w:LsdException Locked="false" Priority="71" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful Shading Accent 3"/> <w:LsdException Locked="false" Priority="72" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful List Accent 3"/> <w:LsdException Locked="false" Priority="73" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful Grid Accent 3"/> <w:LsdException Locked="false" Priority="60" SemiHidden="false" UnhideWhenUsed="false" Name="Light Shading Accent 4"/> <w:LsdException Locked="false" Priority="61" SemiHidden="false" UnhideWhenUsed="false" Name="Light List Accent 4"/> <w:LsdException Locked="false" Priority="62" SemiHidden="false" UnhideWhenUsed="false" Name="Light Grid Accent 4"/> <w:LsdException Locked="false" Priority="63" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Shading 1 Accent 4"/> <w:LsdException Locked="false" Priority="64" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Shading 2 Accent 4"/> <w:LsdException Locked="false" Priority="65" SemiHidden="false" UnhideWhenUsed="false" Name="Medium List 1 Accent 4"/> <w:LsdException Locked="false" Priority="66" SemiHidden="false" UnhideWhenUsed="false" Name="Medium List 2 Accent 4"/> <w:LsdException Locked="false" Priority="67" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 1 Accent 4"/> <w:LsdException Locked="false" Priority="68" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 2 Accent 4"/> <w:LsdException Locked="false" Priority="69" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 3 Accent 4"/> <w:LsdException Locked="false" Priority="70" SemiHidden="false" UnhideWhenUsed="false" Name="Dark List Accent 4"/> <w:LsdException Locked="false" Priority="71" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful Shading Accent 4"/> <w:LsdException Locked="false" Priority="72" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful List Accent 4"/> <w:LsdException Locked="false" Priority="73" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful Grid Accent 4"/> <w:LsdException Locked="false" Priority="60" SemiHidden="false" UnhideWhenUsed="false" Name="Light Shading Accent 5"/> <w:LsdException Locked="false" Priority="61" SemiHidden="false" UnhideWhenUsed="false" Name="Light List Accent 5"/> <w:LsdException Locked="false" Priority="62" SemiHidden="false" UnhideWhenUsed="false" Name="Light Grid Accent 5"/> <w:LsdException Locked="false" Priority="63" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Shading 1 Accent 5"/> <w:LsdException Locked="false" Priority="64" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Shading 2 Accent 5"/> <w:LsdException Locked="false" Priority="65" SemiHidden="false" UnhideWhenUsed="false" Name="Medium List 1 Accent 5"/> <w:LsdException Locked="false" Priority="66" SemiHidden="false" UnhideWhenUsed="false" Name="Medium List 2 Accent 5"/> <w:LsdException Locked="false" Priority="67" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 1 Accent 5"/> <w:LsdException Locked="false" Priority="68" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 2 Accent 5"/> <w:LsdException Locked="false" Priority="69" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 3 Accent 5"/> <w:LsdException Locked="false" Priority="70" SemiHidden="false" UnhideWhenUsed="false" Name="Dark List Accent 5"/> <w:LsdException Locked="false" Priority="71" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful Shading Accent 5"/> <w:LsdException Locked="false" Priority="72" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful List Accent 5"/> <w:LsdException Locked="false" Priority="73" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful Grid Accent 5"/> <w:LsdException Locked="false" Priority="60" SemiHidden="false" UnhideWhenUsed="false" Name="Light Shading Accent 6"/> <w:LsdException Locked="false" Priority="61" SemiHidden="false" UnhideWhenUsed="false" Name="Light List Accent 6"/> <w:LsdException Locked="false" Priority="62" SemiHidden="false" UnhideWhenUsed="false" Name="Light Grid Accent 6"/> <w:LsdException Locked="false" Priority="63" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Shading 1 Accent 6"/> <w:LsdException Locked="false" Priority="64" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Shading 2 Accent 6"/> <w:LsdException Locked="false" Priority="65" SemiHidden="false" UnhideWhenUsed="false" Name="Medium List 1 Accent 6"/> <w:LsdException Locked="false" Priority="66" SemiHidden="false" UnhideWhenUsed="false" Name="Medium List 2 Accent 6"/> <w:LsdException Locked="false" Priority="67" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 1 Accent 6"/> <w:LsdException Locked="false" Priority="68" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 2 Accent 6"/> <w:LsdException Locked="false" Priority="69" SemiHidden="false" UnhideWhenUsed="false" Name="Medium Grid 3 Accent 6"/> <w:LsdException Locked="false" Priority="70" SemiHidden="false" UnhideWhenUsed="false" Name="Dark List Accent 6"/> <w:LsdException Locked="false" Priority="71" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful Shading Accent 6"/> <w:LsdException Locked="false" Priority="72" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful List Accent 6"/> <w:LsdException Locked="false" Priority="73" SemiHidden="false" UnhideWhenUsed="false" Name="Colorful Grid Accent 6"/> <w:LsdException Locked="false" Priority="19" SemiHidden="false" UnhideWhenUsed="false" QFormat="true" Name="Subtle Emphasis"/> <w:LsdException Locked="false" Priority="21" SemiHidden="false" UnhideWhenUsed="false" QFormat="true" Name="Intense Emphasis"/> <w:LsdException Locked="false" Priority="31" SemiHidden="false" UnhideWhenUsed="false" QFormat="true" Name="Subtle Reference"/> <w:LsdException Locked="false" Priority="32" SemiHidden="false" UnhideWhenUsed="false" QFormat="true" Name="Intense Reference"/> <w:LsdException Locked="false" Priority="33" SemiHidden="false" UnhideWhenUsed="false" QFormat="true" Name="Book Title"/> <w:LsdException Locked="false" Priority="37" Name="Bibliography"/> <w:LsdException Locked="false" Priority="39" QFormat="true" Name="TOC Heading"/> </w:LatentStyles> </xml><![endif]--><!-- [if !mso]> <object classid="clsid:38481807-CA0E-42D2-BF39-B33AF135CC4D" id=ieooui> </object> <style> st1\:*{behavior:url(#ieooui) } </style> <![endif]--><!-- [if gte mso 10]> <style> /* Style Definitions */ table.MsoNormalTable {mso-style-name:"Table Normal"; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-priority:99; mso-style-qformat:yes; mso-style-parent:""; mso-padding-alt:0cm 5.4pt 0cm 5.4pt; mso-para-margin:0cm; mso-para-margin-bottom:.0001pt; mso-pagination:widow-orphan; font-size:10.5pt; mso-bidi-font-size:11.0pt; font-family:"Calibri","sans-serif"; mso-ascii-font-family:Calibri; mso-ascii-theme-font:minor-latin; mso-fareast-font-family:宋体; mso-fareast-theme-font:minor-fareast; mso-hansi-font-family:Calibri; mso-hansi-theme-font:minor-latin; mso-bidi-font-family:"Times New Roman"; mso-bidi-theme-font:minor-bidi; mso-font-kerning:1.0pt;} </style> <![endif]-->

JAVA 读取PDF 中的文件

2009-12-10 09:55

Java 简单的读取pdf 文件中的数据:

第一步:下载PDFBox-0.7.2.jar 。提供一个下载地址: http://pdfhome.hope.com.cn/Resource.aspx?CID=63844604-5253-4ae1-b023-258c9e324061&RID=20cd8f94-1cee-40b6-a3df-0ef024f8e0d2 解压后,把lib 文件下的PDFBox-0.7.2.jarPDFBox-0.7.2-log4j.jar 放到你classpath 路径下。(我把源码以及jar 包都放到下面的附件里,方面你的使用。)

第二步:写个简单的读取pdf 文件的程序。(PdfReader.java)

import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.net.MalformedURLException;
import java.net.URL;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

public class PdfReader {

public void readFdf(String file) throws Exception {
   //
是否排序
   boolean sort = false;
   // pdf
文件名
   String pdfFile = file;
   //
输入文本文件名称
   String textFile = null;
   //
编码方式
   String encoding = "UTF-8";
   //
开始提取页数
   int startPage = 1;
   //
结束提取页数
   int endPage = Integer.MAX_VALUE;
   //
文件输入流,生成文本文件
   Writer output = null;
   //
内存中存储的PDF Document
   PDDocument document = null;
   try {
    try {
     //
首先当作一个URL 来装载文件,如果得到异常再从本地文件系统// 去装载文件
     URL url = new URL(pdfFile);

    // 注意参数已不是以前版本中的URL. 而是File
    document = PDDocument.load(pdfFile);
     //
获取PDF 的文件名
     String fileName = url.getFile();
     //
以原来PDF 的名称来命名新产生的txt 文件
     if (fileName.length() > 4) {
      File outputFile = new File(fileName.substring(0, fileName
        .length() - 4)
        + ".txt");
      textFile = outputFile.getName();
     }
    } catch (MalformedURLException e) {
     //
如果作为URL 装载得到异常则从文件系统装载

   // 注意参数已不是以前版本中的URL. 而是File
    document = PDDocument.load(pdfFile);
     if (pdfFile.length() > 4) {

      textFile = pdfFile.substring(0, pdfFile.length() - 4)
        + ".txt";
     }
    }
    //
文件输入流,写入文件倒textFile
    output = new OutputStreamWriter(new FileOutputStream(textFile),
      encoding);
    // PDFTextStripper
来提取文本
    PDFTextStripper stripper = null;
    stripper = new PDFTextStripper();
    //
设置是否排序
    stripper.setSortByPosition(sort);
    //
设置起始页
    stripper.setStartPage(startPage);
    //
设置结束页
    stripper.setEndPage(endPage);
    //
调用PDFTextStripperwriteText 提取并输出文本
    stripper.writeText(document, output);
   } finally {
    if (output != null) {
     //
关闭输出流
     output.close();
    }
    if (document != null) {
     //
关闭PDF Document
     document.close();
    }
   }
}

/**
* @param args
*/
public static void main(String[] args) {
   // TODO Auto-generated method stub
   PdfReader pdfReader = new PdfReader();
   try {
    //
取得E 盘下的SpringGuide.pdf 的内容
    pdfReader.readFdf("E:\\SpringGuide.pdf");
   } catch (Exception e) {
    e.printStackTrace();
   }
}

}

    这样就简单的完成了从pdf 中读取数据了。在你的pdf 文件所在的目录下生成一个同名的txt 文件。

 

 

最近在做一个电子书的项目,这里面用到了一些文件转换的工具,在这里介绍一下:

1 Word 文件转TXT 文件

这里是用了一个apachepoi 工具,可以在http://poi.apache.org/ 下 载它的jar 包,将poi-3.1-FINAL-20080629.jarpoi-contrib-3.1-FINAL- 20080629.jarpoi-scratchpad-3.1-FINAL-20080629.jar 三个文件复制到工程的WEB-INF/lib 目 录下。

解析的代码如下:

/**
*
Word 文件转换成txt 文本文件
* @author annlee
*
* @param fis,
源文件的文件输入流
* @param outputPath,
输出文件的路径, 这里指文件夹的路径
* @param outputFileName,
输出文件的文件名, 包括文件后缀名
* @return
转换成功返回字符串"OK"; 转换失败返回失败原因.
*/
public static String convertWordToTxt(FileInputStream fis,
    String outputPath, String outputFileName) {
   try {
   WordExtractor extractor = new WordExtractor(fis);
    String str = extractor.getText().trim(); //
获取Word 文件中的字符

    String outputFile = outputPath + outputFileName + ".txt"; // 组装输出TXT 文件的绝对路径

    FileOutputStream fos = new FileOutputStream(outputFile);
    fos.write(str.getBytes());
    fos.close();
   } catch (FileNotFoundException e) {
    return "
文件不存在!";
   } catch (IOException e) {
    return "
文件读写错误!";
   }
   return "OK";
}

2 PDF 文件转TXT 文件

这里是用了一个PDFBox 工具,可以在http://www.netlikon.de/docs/PDFBox-0.7.2/lib/ 下载它的jar 包,将PDFBox-0.7.2-log4j.jarPDFBox-0.7.2.jar 这两个文件复制到工程的WEB-INF/lib 目录下。

这里多说一下,如果要通过程序生成PDF 文件,有个工具很好用:iText 是一个能够 快速产生PDF 文件的java 类库。iTextjava 类对于那些要产生包含文本,表格,图形的只读文档是很有用的。它的类库尤其与java Servlet 有很好的给合。使用iTextPDF 能够使你正确的控制Servlet 的输出。

解析的代码如下:

/**
*
PDF 文件转换成txt 文本文件
* @author annlee
*
* @param fis,
源文件的文件输入流
* @param outputPath,
输出文件的路径, 这里指文件夹的路径
* @param outputFileName,
输出文件的文件名, 包括文件后缀名
* @return
转换成功返回字符串"OK"; 转换失败返回失败原因.
*/
public static String convertPdfToTxt(FileInputStream fis,
    String outputPath, String outputFileName) {

   // 是否排序
   boolean sort = false;

   // 开始提取页数
   int startPage = 1;
   //
结束提取页数
   int endPage = Integer.MAX_VALUE;

   try {
    //
内存中存储的PDF Document
  PDDocument document = PDDocument.load(fis);

    String outputFile = outputPath + outputFileName + ".txt"; // 组装输出TXT 文件的绝对路径

    FileOutputStream fos = new FileOutputStream(outputFile);

    OutputStreamWriter writer = new OutputStreamWriter(fos);

    // PDFTextStripper 来提取文本
    PDFTextStripper stripper = new PDFTextStripper();
    //
设置是否排序
    stripper.setSortByPosition(sort);
    //
设置起始页
    stripper.setStartPage(startPage);
    //
设置结束页
    stripper.setEndPage(endPage);
    //
调用PDFTextStripperwriteText 提取并输出文本
    stripper.writeText(document, writer);

    fos.close();
    writer.close();
   } catch (FileNotFoundException e) {
    return "
文件不存在!";
   } catch (IOException e) {
    return "
文件读写错误!";
   }
   return "OK";
}

 

 

 

 

3 PPT 文件转TXT 文件

这里也用的是apachepoi 工具,解析的代码如下:

/**
*
PPT 文件转换成txt 文本文件
*
* @author annlee
*
* @param fis,
源文件的文件输入流
* @param outputPath,
输出文件的路径, 这里指文件夹的路径
* @param outputFileName,
输出文件的文件名, 包括文件后缀名
* @return
转换成功返回字符串"OK"; 转换失败返回失败原因.
*/
public static String convertPptToTxt(FileInputStream fis,
    String outputPath, String outputFileName) {
  
   StringBuffer content = new StringBuffer();
   try {
   SlideShow ss = new SlideShow(new HSLFSlideShow(fis));//
建立SlideShow
    Slide[] slides = ss.getSlides();//
获得每一张幻灯片
    for (int i = 0; i < slides.length; i++) {
     TextRun[] t = slides[i].getTextRuns();//
为了取得幻灯片的文字内容,建立TextRun
     for (int j = 0; j < t.length; j++) {
      content.append(t[j].getText());//
这里会将文字内容加到content 中去
     }
     content.append(slides[i].getTitle()); //
这里会将标题加到content 中去
    }
    String outputFile = outputPath + outputFileName + ".txt"; //
组装输出TXT 文件的绝对路径

    FileOutputStream fos = new FileOutputStream(outputFile);
    fos.write(content.toString().getBytes());
    fos.close();
   } catch (FileNotFoundException e) {
    return "
文件不存在!";
   } catch (IOException e) {
    return "
文件读写错误!";
   }
   return "OK";
}

3 EXCEL 文件转TXT 文件

这里也用的是apachepoi 工具,解析的代码如下:

/**
*
EXCEL 文件转换成txt 文本文件
*
* @author annlee
*
* @param fis,
源文件的文件输入流
* @param outputPath,
输出文件的路径, 这里指文件夹的路径
* @param outputFileName,
输出文件的文件名, 包括文件后缀名
* @return
转换成功返回字符串"OK"; 转换失败返回失败原因.
*/
public static String convertXlsToTxt(FileInputStream fis,
    String outputPath, String outputFileName) {

   StringBuffer content = new StringBuffer();
   try {
  HSSFWorkbook workbook = new HSSFWorkbook(fis);//
创建对Excel 工作簿文件的引用
    for (int numSheets = 0; numSheets < workbook.getNumberOfSheets(); numSheets++) {
     if (null != workbook.getSheetAt(numSheets)) {
      HSSFSheet aSheet = workbook.getSheetAt(numSheets);//
获得一个sheet
      for (int rowNumOfSheet = 0; rowNumOfSheet <= aSheet
        .getLastRowNum(); rowNumOfSheet++) {
       if (null != aSheet.getRow(rowNumOfSheet)) {
        HSSFRow aRow = aSheet.getRow(rowNumOfSheet); //
获得一个行
        for (short cellNumOfRow = 0; cellNumOfRow <= aRow
          .getLastCellNum(); cellNumOfRow++) {
         if (null != aRow.getCell(cellNumOfRow)) {
          HSSFCell aCell = aRow.getCell(cellNumOfRow);//
获得列值
          if (aCell.getCellType() == 1) {
           content.append(aCell
             .getStringCellValue());
          } else if (aCell.getCellType() == 0) {
           content.append(Double.toString(aCell
             .getNumericCellValue())
             + ",");
          }
         }
        }
       }
      }
     }
    }
    String outputFile = outputPath + outputFileName + ".txt"; //
组装输出TXT 文件的绝对路径

    FileOutputStream fos = new FileOutputStream(outputFile);
    fos.write(content.toString().getBytes());
    fos.close();
   } catch (FileNotFoundException e) {
    return "
文件不存在!";
   } catch (IOException e) {
    return "
文件读写错误!";
   }
   return "OK";
}

这里生成的TXT 文件中可能包含着一些另类的字符,我们可以在写文件之前将这些字符去掉:

/**
*
去掉字符串中多余的字符
*/
public static String washString(String str){
   byte[] buffer = str.getBytes();
   byte[] buffernew = new byte[buffer.length];
   int j = 0;
   for(int i =0 ; i< buffer.length; i++){
    if((buffer[i] >=20 )||(buffer[i] < 0 )) {
     buffernew[j++] = buffer[i];
    }
   }
   String newStr = new String(buffernew);
   newStr = newStr.replaceAll("FORMTEXT", "");
   return newStr.trim();
}

 

分享到:
评论

相关推荐

    实验室管理系统 微信小程序+SSM毕业设计 源码+数据库+论文+启动教程.zip

    实验室管理系统 微信小程序+SSM毕业设计 源码+数据库+论文+启动教程 项目启动教程:https://www.bilibili.com/video/BV1BfB2YYEnS

    基于java的苹果网吧计费管理系统设计与实现.docx

    基于java的苹果网吧计费管理系统设计与实现.docx

    纸中世界-跳跃游戏.sb3

    纸中世界-跳跃游戏.sb3

    Keysight 网络分析仪新建校准件操作指导

    本操作指导用于在 ENA 系列网络分析仪 E5080B 上自定义校准件。目前 Keysight 网络分析仪的 PNA 系列 N52xxB、P50xx 系列、P937x 系列、PXI 板卡式网分以及 ENA 系列的 E5080B、E5081B 的操作界面均统一到如下界面,操作方式相同。

    调查海域浮游动物各类群栖息密度的空间分布表格.docx

    调查海域浮游动物各类群栖息密度的空间分布表格.docx

    ssm框架Java项目源码-高校毕业生就业管理系统+jsp毕设-大作业.zip

    本项目“高校毕业生就业管理系统”是一套基于SSM框架(Spring+SpringMVC+MyBatis)精心开发的Java Web应用,旨在为高校毕业生、高校就业指导部门以及企业用户提供一个高效、便捷的就业信息管理平台。 系统主要功能包括:学生用户可以查看和发布个人简历,搜索并筛选合适的工作岗位,申请心仪的职位;企业用户可以发布招聘信息,筛选和查看应聘者的简历,进行面试邀请等操作;高校就业指导部门则可以对学生的就业情况进行统计和分析,以更好地提供就业指导服务。 此外,系统采用了B/S架构,用户只需通过浏览器即可访问,无需安装客户端软件,方便快捷。数据库设计合理,数据存储安全,系统性能稳定。 本项目的开发,不仅为计算机相关专业的学生提供了一个实践SSM框架的好机会,帮助他们更好地理解和掌握Java Web开发技术,还能有效提升高校毕业生的就业效率和质量。

    使用 Python 进行视频编辑.zip

    电影剪辑 笔记MoviePy 最近升级到 v2.0,引入了重大的重大变化。有关如何更新 v2.0 代码的更多信息,请参阅本指南。MoviePy(在线文档在此处)是一个用于视频编辑的 Python 库剪切、连接、插入标题、视频合成(又名非线性编辑)、视频处理和创建自定义效果。MoviePy 可以读取和写入所有最常见的音频和视频格式,包括 GIF,并且可以在 Windows/Mac/Linux 上运行,并搭载 Python 3.9+。例子在此示例中,我们打开一个视频文件,选择 10 到 20 秒之间的子剪辑,在屏幕中心添加标题,然后将结果写入新文件# Import everything needed to edit video clipsfrom moviepy import *# Load file example.mp4 and keep only the subclip from 00:00:10 to 00:00:20clip = VideoFileClip("long_examples/example2.mp4").with_subcl

    基于java的视频播放器系统设计与实现.docx

    基于java的视频播放器系统设计与实现.docx

    基于java的车辆出租管理系统设计与实现.docx

    基于java的车辆出租管理系统设计与实现.docx

    mqtt等协议的pcap文件

    mqtt等协议的pcap文件

    小白的Python入门教程部分章节源码.zip

    学习python

    修木工施工规范及流程.docx

    修木工施工规范及流程.docx

    适用于 Windows,Linux 和 Python 3 (3.5,3.6,3.7) 的 Tensorflow Faster R-CNN.zip

    适用于 Windows/Linux 和 Python 3 (3.5/3.6/3.7) 的 Tensorflow Faster R-CNNtf-faster-rcnn使用 Python 3 在 Windows 和 Linux 上使用 Tensorflow Faster R-CNN这是在 Windows 和 Linux 上编译 Faster R-CNN 的分支。它深受这里和这里的出色工作的启发。目前,此存储库支持 Python 3.5、3.6 和 3.7。感谢@morpheusthewhite请注意我没有时间或意图修复此分支的所有问题,因为我不将其用于商业用途。我创建此分支只是为了好玩。如果您想做出任何承诺,我们非常欢迎。Tensorflow 已经发布了一个对象检测 API。请参考它。https: //github.com/tensorflow/models/tree/master/research/object_detection如何使用此分支安装 tensorflow,最好是 GPU 版本。按照说明操作。如果没有安装 GPU 版本,则需要注释掉代码中的所有 GP

    章节2:编程基本概念之python程序的构成

    Python是一种高级、解释型、面向对象的编程语言,以其简洁的语法、强大的功能和广泛的应用领域而著称。它无需事先编译,代码在运行时逐行解释执行,提供了极大的灵活性和快速开发的能力。Python支持多种数据类型,包括整数、浮点数、字符串、布尔值、列表、元组、字典和集合等,以及丰富的操作符和流程控制结构,使得开发者可以编写出复杂且灵活的代码。 Python拥有一个广泛的标准库,涵盖了文件操作、网络通信、文本处理、正则表达式、数学运算等多个领域,为开发者提供了大量的模块和函数。此外,Python还拥有丰富的第三方库,如NumPy、Pandas、Matplotlib等用于数据分析和可视化的库,以及Django、Flask等用于Web开发的框架,这些库和框架进一步扩展了Python的应用领域和功能。 Python在Web开发、数据科学、人工智能、自动化运维和游戏开发等多个领域都有广泛的应用。在Web开发方面,Python提供了Django和Flask等强大的Web框架,使得开发者可以轻松地开发出各种Web应用和网站。在数据科学领域,Python是数据科学家的首选工具,其强大的数据处理能力和丰

    毕设源码-基于python的西西家居全屋定制系统的设计与实现_ijsj--论文-期末大作业+说明文档.rar

    本项目是基于Python语言开发的西西家居全屋定制系统,旨在为家居行业提供一个高效、智能的定制解决方案。项目涵盖了从客户需求分析、设计方案生成、材料选购到最终订单生成的全过程,力求实现家居定制的数字化和智能化。 在主要功能方面,系统具备强大的客户管理模块,能够详细记录和分析客户的定制需求。设计模块则采用先进的三维建模技术,为客户提供直观、真实的家居设计方案预览。此外,系统还整合了丰富的材料数据库,方便客户根据自身喜好和预算进行材料选择。 框架方面,项目采用了B/S架构,确保了系统的稳定性和可扩展性。后端使用Python的Django框架,前端则结合了HTML、CSS和JavaScript等技术,实现了用户界面的友好和响应速度。 开发此项目的目的,不仅是为了满足家居行业对个性化定制的需求,也为计算机相关专业的学生提供了一个实践和学习的平台,有助于提升他们的实际开发能力。

    简单连接到 Binance Public API.zip

    Binance公共API连接器Python 这是一个轻量级库,可作为Binance 公共 API的连接器支持的 API/api/*/sapi/*现货 Websocket 市场动态现货用户数据流现货 WebSocket API包含测试用例和示例可定制的基本 URL、请求超时和 HTTP 代理可以显示响应元数据安装pip install binance-connector文档https://binance-connector.readthedocs.ioRESTful API使用示例from binance.spot import Spotclient = Spot()# Get server timestampprint(client.time())# Get klines of BTCUSDT at 1m intervalprint(client.klines("BTCUSDT", "1m"))# Get last 10 klines of BNBUSDT at 1h intervalprint(client.k

    离线安装eclipse的aptana插件详细中文最新版本

    Aptana是一个非常强大,开源,JavaScript-focused的AJAX开发IDE。 Aptana的特点包括: 1JavaScript,HTML,CSS语言的Code Assist功能。 2Outliner(大纲):显示JavaScript,HTML和CSS的代码结构。

    学习自律养成小程序 微信小程序+SSM毕业设计 源码+数据库+论文+启动教程.zip

    学习自律养成小程序 微信小程序+SSM毕业设计 源码+数据库+论文+启动教程 项目启动教程:https://www.bilibili.com/video/BV1BfB2YYEnS

    认知能力评估表.docx

    认知能力评估表.docx

    数学建模学习资料 粒子群算法 先进算法讲义.pdf

    数学建模学习资料 粒子群算法 先进算法讲义.pdf

Global site tag (gtag.js) - Google Analytics