`
xinyoulinglei
  • 浏览: 126540 次
社区版块
存档分类
最新评论

java 中的文件读取信息

    博客分类:
  • java
阅读更多
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;

import org.apache.log4j.Logger;
import org.apache.poi.hssf.usermodel.HSSFCell;
import org.apache.poi.hssf.usermodel.HSSFRow;
import org.apache.poi.hssf.usermodel.HSSFSheet;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.pdfbox.encryption.DecryptDocument;
import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;
import org.textmining.text.extraction.WordExtractor;


public class FileReader
{
    /**
     * Description:解析文件,返回文档内容 <br>
     * 
     * 
     * @param logger
     *            Longger
     * @param realPath
     *            String
     * @return String
     */
    
    public static String readOneFile(Logger logger, String realPath)
    {
        FileInputStream in = null;
        BufferedReader reader = null;
        
        String content = "";
        try
        {
            File file = new File(realPath);
            
            if (!file.canRead())
            {
                logger.error(MessageCode.getPageMessage("iiss.info.common.filenotread") + realPath);
                return "";
            }
            
            String suffix = realPath.substring(realPath.lastIndexOf(".") + 1, realPath.length());
            
            if ("doc".equalsIgnoreCase(suffix))
            {
                WordExtractor extractor = new WordExtractor();
                content = extractor.extractText(new FileInputStream(file));
                
                if (logger.isDebugEnabled())
                {
                    logger.debug("summary=" + content);
                }
            }//解析excel文件
            else if ("xls".equalsIgnoreCase(suffix))
            {
                StringBuffer rowData = new StringBuffer(KeyConstant.INITIAL_BUFFER);
                
                in = new FileInputStream(file);
                // 创建对Excel对象
                HSSFWorkbook workbook = new HSSFWorkbook(in);
                //获得excel的页数
                int sheetNo = workbook.getNumberOfSheets();
                
                if (sheetNo > 0)
                {
                    for (int i = 0; i < sheetNo; i++)
                    {
                        // 获取每一页对象
                        HSSFSheet sheet = workbook.getSheetAt(i);
                        
                        if (sheet != null)
                        {
                            //逐行获得内容
                            HSSFRow row = null;
                            for (int j = 0; j <= sheet.getLastRowNum(); j++)
                            {
                                try
                                {
                                    row = sheet.getRow(j);
                                }
                                catch (Exception e)
                                {
                                    row = null;
                                }
                                
                                if (row == null)
                                {
                                    continue;
                                }
                                
                                //逐个单元格获得内容
                                HSSFCell cell = null;
                                String fieldValue = null;
                                for (int k = 0; k <= row.getLastCellNum() - 1; k++)
                                {
                                    try
                                    {
                                        cell = row.getCell((short)k);
                                    }
                                    catch (Exception e)
                                    {
                                        cell = row.createCell((short)k);
                                        cell.setCellType(HSSFCell.CELL_TYPE_STRING);
                                        cell.setCellValue("");
                                    }
                                    
                                    fieldValue = POITools.getCellValue(cell);
                                    
                                    if (fieldValue != null && !"".equals(fieldValue))
                                    {
                                        rowData.append(fieldValue);
                                        rowData.append("");
                                    }
                                    
                                }
                                
                            }
                        }
                        
                    }
                }
                
                content = rowData.toString();
                
                if (logger.isDebugEnabled())
                {
                    logger.debug("summary=" + content);
                }
            }
            else if ("txt".equalsIgnoreCase(suffix))
            {
                in = new FileInputStream(file);
                reader = new BufferedReader(new InputStreamReader(in));
                
                StringBuffer sBuffer = new StringBuffer();
                String s = null;
                do
                {
                    s = reader.readLine();
                    if (s != null)
                    {
                        sBuffer.append(s);
                    }
                } while (s != null);
                
                content = sBuffer.toString();
                
                if (logger.isDebugEnabled())
                {
                    logger.debug("summary=" + content);
                }
            }
            else if ("html".equalsIgnoreCase(suffix) || "htm".equalsIgnoreCase(suffix))
            {
                HTMLParser parser = new HTMLParser(file);
                content = parser.getContent();
            }
            else if ("pdf".equalsIgnoreCase(suffix))
            {
                PDDocument pdf = null;
                try
                {
                    PDFParser parser = new PDFParser(new FileInputStream(file));
                    parser.parse();
                    pdf = parser.getPDDocument();
                    if (pdf.isEncrypted())
                    {
                        DecryptDocument decryptor = new DecryptDocument(pdf);
                        decryptor.decryptDocument("");
                    }
                    
                    PDFTextStripper stripper = new PDFTextStripper();
                    content = stripper.getText(pdf);
                    if (logger.isDebugEnabled())
                    {
                        logger.debug("summary=" + content);
                    }
                }
                catch (Exception e)
                {
                    logger.error(e, e);
                }
                catch (OutOfMemoryError t)
                {
                    logger.error(t, t);
                }
                finally
                {
                    try
                    {
                        if (pdf != null)
                        {
                            pdf.close();
                        }
                        
                    }
                    catch (IOException e)
                    {
                        logger.error(MessageCode.getPageMessage("iiss.info.common.readfilefail") + realPath);
                    }
                }
            }
            else
            {
                content = " ";
            }
        }
        catch (FileNotFoundException e)
        {
            logger.error(MessageCode.getPageMessage("iiss.info.common.filenotfound") + realPath);
        }
        catch (IOException e)
        {
            logger.error(MessageCode.getPageMessage("iiss.info.common.readfilefail") + realPath);
        }
        catch (InterruptedException e)
        {
            logger.error(MessageCode.getPageMessage("iiss.info.common.readhtmlfilefail") + realPath);
        }
        catch (Exception e)
        {
            logger.error(MessageCode.getPageMessage("iiss.info.common.parsefilefail") + e, e);
        }
        finally
        {
            try
            {
                if (in != null)
                {
                    in.close();
                }
                
            }
            catch (IOException e)
            {
                logger.error(e, e);
            }
            
            try
            {
                if (reader != null)
                {
                    reader.close();
                }
                
            }
            catch (IOException e)
            {
                logger.error(e, e);
            }
        }
        return content;
    }
    
}
分享到:
评论

相关推荐

    java 按顺序读取文件

    首先,Java提供了多种类来处理文件读取,如`FileReader`,`BufferedReader`等。`FileReader`主要用于读取字符流,而`BufferedReader`则通过缓冲区提高读取效率。在按顺序读取文件时,通常我们会先创建一个`...

    java 读取文件 文件读取操作

    在Java编程语言中,文件读取是常见的任务,可以用于处理各种类型的数据,如文本、图像、音频等。本文将详细介绍Java中四种不同的文件读取方法:按字节读取、按字符读取、按行读取以及随机读取。 1. **按字节读取...

    java中文文件读写类

    最近在用java的IO包下面的RandomAccessFile类读写中文文件时遇到了乱码问题,解决不了。于是索性自己写个类,可以进行中文文件读写而不乱码。 压缩包里提供了.jar包和源代码。 ************************************...

    java读取文件方法大全

    根据给定的文件信息,...综上所述,Java提供了丰富的API来处理文件读取,开发者可以根据具体需求选择合适的方法。掌握这些技术对于任何从事软件开发的人来说都是至关重要的,尤其是在处理大量数据和复杂文件格式时。

    JAVA实现远程文件读取

    JAVA实现远程文件读取 JAVA是一种广泛应用于软件开发的编程语言,随着网络技术的发展,JAVA也提供了许多支持远程文件读取的功能,本文将详细介绍JAVA实现远程文件读取的知识点。 1. Socket 编程 在JAVA中,Socket...

    java实现文件的读写操作

    在Java编程语言中,文件的读写操作是日常开发中不可或缺的部分。无论是处理用户数据、配置文件,还是进行数据持久化,都需要用到文件的读写功能。本篇将详细介绍如何在Java中实现文件的读写操作,并通过一个小例子...

    Java读取大文件的处理

    Java读取大文件的处理是Java编程中的一项重要技术,特别是在处理大文件时需要注意性能和响应速度。下面我们将对Java读取大文件的处理技术进行详细的介绍。 标题解释 Java读取大文件的处理是指使用Java语言来读取大...

    java读写csv文件,中文乱码问题

    在Java编程中,CSV(Comma Separated Values)文件是一种常用的格式,用于存储表格数据,如电子表格或数据库。然而,当处理包含中文字符的CSV文件时,可能会遇到乱码问题。这个问题通常与字符编码设置有关,特别是...

    java中读取目录下指定的文件

    在Java 7及以上版本,你可以使用try-with-resources语句更优雅地处理文件读取。例如,要读取一个文件的内容: ```java try (BufferedReader reader = new BufferedReader(new FileReader(file))) { String line; ...

    java中用FileUtil实现文件读写

    - **文件读取**:利用`BufferedReader` 和 `BufferedWriter` 对象实现文件内容的读写操作。 #### 示例代码 ```java // 示例代码片段,展示如何使用FileUtil类 public class TestFileUtil { public static void ...

    java读取mpp文件

    总之,`mpxj`是Java开发者处理MPP文件的强大工具,它简化了与Microsoft Project文件的交互,让你能够在Java应用中轻松读取、修改和创建项目计划。在实际开发中,可以根据具体需求灵活运用这个库的功能,实现复杂的...

    详解Java无需解压直接读取Zip文件和文件内容

    Java无需解压直接读取Zip文件和文件内容是Java语言中的一种常见操作,通过使用java.util.zip包中的ZipFile、ZipInputStream和ZipEntry类,我们可以轻松地读取Zip文件和文件内容。下面,我们将详细介绍如何使用Java...

    用java读取ini文件(支持中文)

    在Java中,由于标准库并未提供内置的INI文件读取支持,我们需要自定义一个解析器。`IniReader.java`很可能就是这样一个解析器,它可能实现了以下功能: 1. **读取文件**:首先,`IniReader`类会使用`BufferedReader...

    Java读取TIFF文件

    在IT行业中,图像处理是不可或缺的一部分,特别是在...总的来说,Java通过第三方库如Apache Commons Imaging,提供了读取和处理TIFF文件的能力,这使得开发者能够在Java应用程序中灵活地处理这种专业级别的图像格式。

    java如何读取文件

    在Java编程语言中,读取文件是一项常见的操作,尤其是在处理数据、日志文件或配置信息时。本文将详细解析如何使用Java读取文本文件,基于提供的代码示例,深入探讨其工作原理及最佳实践。 ### Java读取文本文件的...

    java 随机读写Java类文件

    在Java编程中,随机读写Java类文件是一个高级主题,涉及到对字节码级别的操作,通常用于类的动态加载、代码注入或者逆向工程等场景。以下是对这一主题的详细阐述: 1. **Java类文件结构**:首先,了解Java类文件的...

    java读取metadata元信息

    在Java编程中,元数据(Metadata)是指关于数据的数据,它提供有关文件、数据库记录、类、方法等的附加信息,但不直接构成这些实体的实际内容。元数据可以帮助理解和处理这些对象,例如,图片的元数据可能包含拍摄...

    java中读取shp文件数据存入数据库

    shp文件:地理信息系统,也被称作GIS,它主要的扩展类型是SHAPEFILE (.SHP),一个包含了矢量地理空间数据的流行文件格式,描述了几何形态,点,线和多边形...该方法通过java代码实现将shp文件的数据读取以及存入数据库

Global site tag (gtag.js) - Google Analytics