`
boys236
  • 浏览: 45694 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

解决大批量数据导出Excel产生内存溢出的方案

阅读更多
  1. 上面的代码也不支持sheet,下面的就可以了:
  2. @SuppressWarnings("unchecked")   
  3. public class XlsMergeUtil {   
  4.   private static Logger logger = LoggerFactory.getLogger(XlsMergeUtil.class);   
  5.   
  6.   /**  
  7.    * 将多个Xls文件合并为一个,适用于只有一个sheet,并且格式相同的文档  
  8.    * @param inputs 输入的Xls文件,第一个XLS文件必须给出足够sheet空间  
  9.    * 例如,总共200000行数据,第一个文件至少3个空白sheet  
  10.    * @param out 输出文件  
  11.    */  
  12.   public static void merge(InputStream[] inputs, OutputStream out) {   
  13.     if (inputs == null || inputs.length <= 1) {   
  14.       throw new IllegalArgumentException("没有传入输入流数组,或只有一个输入流.");   
  15.     }   
  16.   
  17.     List<Record> rootRecords = getRecords(inputs[0]);   
  18.     Workbook workbook = Workbook.createWorkbook(rootRecords);   
  19.     List<Sheet> sheets = getSheets(workbook, rootRecords);   
  20.     if(sheets == null || sheets.size() == 0) {   
  21.       throw new IllegalArgumentException("第一篇文档的格式错误,必须有至少一个sheet");   
  22.     }   
  23.     //以第一篇文档的第一个sheet为根,以后的数据都追加在这个sheet后面   
  24.     Sheet rootSheet = sheets.get(0);    
  25.     int rootRows = getRowsOfSheet(rootSheet); //记录第一篇文档的行数,以后的行数在此基础上增加   
  26.     rootSheet.setLoc(rootSheet.getDimsLoc());   
  27.     Map<Integer, Integer> map = new HashMap(10000);   
  28.     int sheetIndex = 0;   
  29.        
  30.     for (int i = 1; i < inputs.length; i++) { //从第二篇开始遍历   
  31.       List<Record> records = getRecords(inputs[i]);   
  32.       //达到最大行数限制,换一个sheet   
  33.       if(getRows(records) + rootRows >= RowRecord.MAX_ROW_NUMBER) {   
  34.         if((++sheetIndex) > (sheets.size() - 1)) {   
  35.           logger.warn("第一个文档给出的sheets小于需要的数量,部分数据未能合并.");   
  36.           break;   
  37.         }   
  38.         rootSheet = sheets.get(sheetIndex);   
  39.         rootRows = getRowsOfSheet(rootSheet);   
  40.         rootSheet.setLoc(rootSheet.getDimsLoc());   
  41.         logger.debug("切换Sheet{}", sheetIndex);   
  42.       }   
  43.       int rowsOfCurXls = 0;   
  44.       //遍历当前文档的每一个record   
  45.       for (Iterator itr = records.iterator(); itr.hasNext();) {   
  46.         Record record = (Record) itr.next();   
  47.         if (record.getSid() == RowRecord.sid) { //如果是RowRecord   
  48.           RowRecord rowRecord = (RowRecord) record;   
  49.           //调整行号   
  50.           rowRecord.setRowNumber(rootRows + rowRecord.getRowNumber());   
  51.           rootSheet.addRow(rowRecord); //追加Row   
  52.           rowsOfCurXls++; //记录当前文档的行数   
  53.         }   
  54.         //SST记录,SST保存xls文件中唯一的String,各个String都是对应着SST记录的索引   
  55.         else if (record.getSid() == SSTRecord.sid) {   
  56.           SSTRecord sstRecord = (SSTRecord) record;   
  57.           for (int j = 0; j < sstRecord.getNumUniqueStrings(); j++) {   
  58.             int index = workbook.addSSTString(sstRecord.getString(j));   
  59.             //记录原来的索引和现在的索引的对应关系   
  60.             map.put(Integer.valueOf(j), Integer.valueOf(index));   
  61.           }   
  62.         } else if (record.getSid() == LabelSSTRecord.sid) {   
  63.           LabelSSTRecord label = (LabelSSTRecord) record;   
  64.           //调整SST索引的对应关系   
  65.           label.setSSTIndex(map.get(Integer.valueOf(label.getSSTIndex())));   
  66.         }   
  67.         //追加ValueCell   
  68.         if (record instanceof CellValueRecordInterface) {   
  69.           CellValueRecordInterface cell = (CellValueRecordInterface) record;   
  70.           int cellRow = cell.getRow() + rootRows;   
  71.           cell.setRow(cellRow);   
  72.           rootSheet.addValueRecord(cellRow, cell);   
  73.         }   
  74.       }   
  75.       rootRows += rowsOfCurXls;   
  76.     }   
  77.        
  78.     byte[] data = getBytes(workbook, sheets.toArray(new Sheet[0]));   
  79.     write(out, data);   
  80.   }   
  81.   
  82.   static void write(OutputStream out, byte[] data) {   
  83.     POIFSFileSystem fs = new POIFSFileSystem();   
  84.     // Write out the Workbook stream   
  85.     try {   
  86.       fs.createDocument(new ByteArrayInputStream(data), "Workbook");   
  87.       fs.writeFilesystem(out);   
  88.       out.flush();   
  89.     } catch (IOException e) {   
  90.       e.printStackTrace();   
  91.     } finally {   
  92.       try {   
  93.         out.close();   
  94.       } catch (IOException e) {   
  95.         e.printStackTrace();   
  96.       }   
  97.     }   
  98.   }   
  99.   
  100.   static List<Sheet> getSheets(Workbook workbook, List records) {   
  101.     int recOffset = workbook.getNumRecords();   
  102.     int sheetNum = 0;   
  103.   
  104.     // convert all LabelRecord records to LabelSSTRecord   
  105.     convertLabelRecords(records, recOffset, workbook);   
  106.     List<Sheet> sheets = new ArrayList();   
  107.     while (recOffset < records.size()) {   
  108.       Sheet sh = Sheet.createSheet(records, sheetNum++, recOffset);   
  109.   
  110.       recOffset = sh.getEofLoc() + 1;   
  111.       if (recOffset == 1) {   
  112.         break;   
  113.       }   
  114.       sheets.add(sh);   
  115.     }   
  116.     return sheets;   
  117.   }   
  118.   
  119.   static int getRows(List<Record> records) {   
  120.     int row = 0;   
  121.     for (Iterator itr = records.iterator(); itr.hasNext();) {   
  122.       Record record = (Record) itr.next();   
  123.       if (record.getSid() == RowRecord.sid) {   
  124.         row++;   
  125.       }   
  126.     }   
  127.     return row;   
  128.   }   
  129.      
  130.   static int getRowsOfSheet(Sheet sheet) {   
  131.     int rows = 0;   
  132.     sheet.setLoc(0);   
  133.     while(sheet.getNextRow() != null) {   
  134.       rows++;   
  135.     }   
  136.     return rows;   
  137.   }   
  138.   
  139.   @SuppressWarnings("deprecation")   
  140.   static List<Record> getRecords(InputStream input) {   
  141.     try {   
  142.       POIFSFileSystem poifs = new POIFSFileSystem(input);   
  143.       InputStream stream = poifs.getRoot().createDocumentInputStream("Workbook");   
  144.       return org.apache.poi.hssf.record.RecordFactory.createRecords(stream);   
  145.     } catch (IOException e) {   
  146.       logger.error("IO异常:{}", e.getMessage());   
  147.       e.printStackTrace();   
  148.     }   
  149.     return Collections.EMPTY_LIST;   
  150.   }   
  151.   
  152.   static void convertLabelRecords(List records, int offset, Workbook workbook) {   
  153.   
  154.     for (int k = offset; k < records.size(); k++) {   
  155.       Record rec = (Record) records.get(k);   
  156.   
  157.       if (rec.getSid() == LabelRecord.sid) {   
  158.         LabelRecord oldrec = (LabelRecord) rec;   
  159.   
  160.         records.remove(k);   
  161.         LabelSSTRecord newrec = new LabelSSTRecord();   
  162.         int stringid = workbook.addSSTString(new UnicodeString(oldrec.getValue()));   
  163.   
  164.         newrec.setRow(oldrec.getRow());   
  165.         newrec.setColumn(oldrec.getColumn());   
  166.         newrec.setXFIndex(oldrec.getXFIndex());   
  167.         newrec.setSSTIndex(stringid);   
  168.         records.add(k, newrec);   
  169.       }   
  170.     }   
  171.   }   
  172.   
  173.   public static byte[] getBytes(Workbook workbook, Sheet[] sheets) {   
  174.     // HSSFSheet[] sheets = getSheets();   
  175.     int nSheets = sheets.length;   
  176.   
  177.     // before getting the workbook size we must tell the sheets that   
  178.     // serialization is about to occur.   
  179.     for (int i = 0; i < nSheets; i++) {   
  180.       sheets[i].preSerialize();   
  181.     }   
  182.   
  183.     int totalsize = workbook.getSize();   
  184.     // pre-calculate all the sheet sizes and set BOF indexes   
  185.     int[] estimatedSheetSizes = new int[nSheets];   
  186.     for (int k = 0; k < nSheets; k++) {   
  187.       workbook.setSheetBof(k, totalsize);   
  188.       int sheetSize = sheets[k].getSize();   
  189.       estimatedSheetSizes[k] = sheetSize;   
  190.       totalsize += sheetSize;   
  191.     }   
  192.     logger.debug("分配内存{}bytes", totalsize);   
  193.     byte[] retval = new byte[totalsize];   
  194.     int pos = workbook.serialize(0, retval);   
  195.   
  196.     for (int k = 0; k < nSheets; k++) {   
  197.       int serializedSize = sheets[k].serialize(pos, retval);   
  198.       if (serializedSize != estimatedSheetSizes[k]) {   
  199.         // Wrong offset values have been passed in the call to setSheetBof() above.   
  200.         // For books with more than one sheet, this discrepancy would cause excel   
  201.         // to report errors and loose data while reading the workbook   
  202.         throw new IllegalStateException("Actual serialized sheet size (" + serializedSize   
  203.             + ") differs from pre-calculated size (" + estimatedSheetSizes[k] + ") for sheet (" + k   
  204.             + ")");   
  205.         // TODO - add similar sanity check to ensure that Sheet.serializeIndexRecord() does not   
  206.         // write mis-aligned offsets either   
  207.       }   
  208.       pos += serializedSize;   
  209.     }   
  210.     return retval;   
  211.   }   
  212.   
  213.   public static void main(String[] args) throws Exception {   
  214.     final String PATH = "E:\\projects\\java\\ws_0\\export\\data\\";   
  215.     InputStream[] inputs = new InputStream[25];   
  216.     inputs[0] = new java.io.FileInputStream(PATH + "07_10.xls");   
  217.     for(int i = 1; i < 25 ; i++) {   
  218.       inputs[i] = new java.io.FileInputStream(PATH + "07_01.xls");   
  219.     }   
  220.     OutputStream out = new FileOutputStream(PATH + "xx.xls");   
  221.     long t1 = System.currentTimeMillis();   
  222.     merge(inputs, out);   
  223.     System.out.println(System.currentTimeMillis() - t1);   
  224.   }   
  225.   
  226. }  
分享到:
评论

相关推荐

    java解决大批量数据导出Excel产生内存溢出的方案

    在Java开发中,当面临大批量数据导出到Excel文件时,可能会遇到内存溢出的问题。这是因为Excel文件格式本身的设计,以及Java默认处理大数据的方式,可能导致内存占用过高,尤其是在一次性加载大量数据到内存中进行...

    java导出30万数据量的excel(采用生成多个excel,最后打包zip)

    在Java开发中,处理大数据量的Excel导出是一项常见的任务,尤其当数据量达到数十万条时,单个Excel文件可能会遇到性能瓶颈或格式限制。本项目针对这一问题提出了一种解决方案,即分块生成多个Excel文件,然后将它们...

    大批量excel导出下载

    这个标题和描述提到的是一个针对批量导出Excel的工具类,它包括了两个核心类:`ExcelReader.java` 和 `ExcelWriter.java`,以及关于大批量导出的解决方案。下面将详细解释这些知识点。 1. **ExcelReader.java**: 这...

    java多线程导出excel(千万级别)优化

    Java多线程导出Excel是处理大数据量时的一种高效策略,尤其在面对千万级别的数据时。传统的Apache POI库在处理大规模数据时可能会遇到栈溢出(StackOverflowError)和内存溢出(OutOfMemoryError)等问题,因为这些...

    java中使用poi导出Excel大批量数据到客户端

    在java web系统应用中我们经常会用到大批量数据的导出,动辄就上几十万几百万的数据让我们的程序感觉压力很大,甚至都出现无法导出的情况,如内存溢出等。 java中使用poi导出Excel大批量数据到客户端 存在两个导出...

    easyExcel实现大数据导出

    `easyExcel`是专门为处理大量数据设计的一个轻量级工具,它能够有效地解决内存溢出问题,特别适合大数据量的Excel读写操作。下面将详细阐述`easyExcel`的核心功能、使用方法以及如何实现大数据导出。 `easyExcel`的...

    poi_模板导出excel,支持百万级数据模板导出

    poi导入、导出,支持百万级数据模板导出、合并excel。项目为spring-boot-2上开发。resource里面有模板,在junit...注意此版本不支持分页导出,一次性导出大批量数据也会出现内存溢出问题,最新上传的版本支持分页导出,

    Excel大批量导入导出解决方案.docx

    ### Excel大批量导入导出解决方案 #### 概述 在处理大规模Excel文件的过程中,经常会遇到内存溢出或者频繁Full Garbage Collection (FGC)的问题,这些问题通常与Java中使用Apache POI库操作Excel文件的方式有关。...

    CSV大数据分批并压缩导出

    总的来说,CSV大数据分批并压缩导出是一种实用且高效的解决方案,特别适用于需要处理海量数据且内存资源有限的环境。它结合了分批处理的内存管理策略和压缩技术的空间优化,确保了大数据操作的可行性和性能。

    java实现csv导出千万级数据实例

    本实例聚焦于“java实现csv导出千万级数据实例”,旨在提供一个高效、稳定的解决方案,避免因数据量过大而导致的性能问题,如Java中的栈溢出(Stack Overflow)。CSV(Comma Separated Values)格式因其简单、通用性...

    [rar文件] java导出100万以上excel大数据样例

    1、 大数据导出excel文件; 2、 Excel导出大数据时内存溢出; 二、思路:将数据存储到一个.xls的文件内,实际写入的是可以通过excel打开的html文本文件。由于文本文件可以进行续写,可以避免内存溢出。 三、优点:...

    真香!Java 导出 Excel 表格竟变得如此简单优雅

    poi 和 jxl 对内存的消耗很大,在处理大批量的数据时,容易造成内存溢出。比如处理一个 3M 的 Excel,poi 和 jxl 可能需要上百兆的内存,但 easyexcel 可能只需要几百或几千 KB(内存消耗对比有些夸张)。在性能这...

    Android-Android使用jxl快速导出excel表

    本文将详细探讨如何在Android应用中使用jxl库快速导出Excel表格。 首先,我们需要理解jxl库的基本概念。jxl是一个Java API,它支持Microsoft Excel 97-2004的文件格式(.xls)。通过jxl,我们可以创建新的工作簿、...

    Java使用POI导出大数据量Excel的方法

    在Java开发中,导出大数据量的Excel文件可能会面临内存溢出的问题,特别是在使用Apache POI库时。这是因为默认情况下,POI会将整个Excel工作簿存储在内存中,当数据量过大时,内存消耗非常显著,可能导致系统崩溃。...

    excel java中导入导出

    博文链接提供的资源“数据大批量导出(有代码有真相).docx”可能包含具体的示例代码和实践案例,可以作为学习和参考的依据。通过深入研究这些示例,开发者能够更好地掌握如何在Java中高效地进行Excel文件的导入导出。

    Java实现excel大数据量导入

    Java实现Excel大数据量导入是一项常见的任务,特别是在处理企业级数据导入导出时。Apache POI 是Java中广泛使用的库,用于处理Microsoft Office格式的文件,包括Excel。然而,当涉及大量数据时,直接使用POI的用户...

    NPOI 2.0 DLL文件

    3. **大批量数据导出**:对于大数据量的应用场景,NPOI能有效地处理和导出大量数据,通过优化内存管理和流式处理,避免了内存溢出问题。这对于需要快速生成报表或分析结果的系统来说,是非常有用的。 4. **跨平台...

    sql数据导入到access,和xml等文件中

    另外,大批量数据导入可能需要考虑分批处理,以避免内存溢出或锁表问题。 总的来说,数据库的转换和数据迁移是IT工作中不可或缺的部分,涉及数据集成、ETL(抽取、转换、加载)流程以及跨平台的兼容性问题。熟练...

Global site tag (gtag.js) - Google Analytics