poi 的usermodel api读取大数据量excel会导致OOM,可以使用eventmodel api来处理这种excel.
import java.io.IOException; import java.io.InputStream; import java.util.LinkedList; import java.util.List; import javax.xml.parsers.ParserConfigurationException; import org.apache.poi.openxml4j.opc.OPCPackage; import org.apache.poi.openxml4j.opc.PackageAccess; import org.apache.poi.util.SAXHelper; import org.apache.poi.xssf.eventusermodel.ReadOnlySharedStringsTable; import org.apache.poi.xssf.eventusermodel.XSSFReader; import org.apache.poi.xssf.eventusermodel.XSSFSheetXMLHandler; import org.apache.poi.xssf.eventusermodel.XSSFSheetXMLHandler.SheetContentsHandler; import org.apache.poi.xssf.model.StylesTable; import org.apache.poi.xssf.usermodel.XSSFComment; import org.xml.sax.InputSource; import org.xml.sax.SAXException; import org.xml.sax.XMLReader; public class ExcelEventParser { private String filename; private SheetContentsHandler handler; public ExcelEventParser(String filename){ this.filename = filename; } public ExcelEventParser setHandler(SheetContentsHandler handler) { this.handler = handler; return this; } public void parse(){ OPCPackage pkg = null; InputStream sheetInputStream = null; try { pkg = OPCPackage.open(filename, PackageAccess.READ); XSSFReader xssfReader = new XSSFReader(pkg); StylesTable styles = xssfReader.getStylesTable(); ReadOnlySharedStringsTable strings = new ReadOnlySharedStringsTable(pkg); sheetInputStream = xssfReader.getSheetsData().next(); processSheet(styles, strings, sheetInputStream); } catch (Exception e) { throw new RuntimeException(e.getMessage(), e); }finally { if(sheetInputStream != null){ try { sheetInputStream.close(); } catch (IOException e) { throw new RuntimeException(e.getMessage(), e); } } if(pkg != null){ try { pkg.close(); } catch (IOException e) { throw new RuntimeException(e.getMessage(), e); } } } } private void processSheet(StylesTable styles, ReadOnlySharedStringsTable strings, InputStream sheetInputStream) throws SAXException, ParserConfigurationException, IOException{ XMLReader sheetParser = SAXHelper.newXMLReader(); if(handler != null){ sheetParser.setContentHandler(new XSSFSheetXMLHandler(styles, strings, handler, false)); }else{ sheetParser.setContentHandler(new XSSFSheetXMLHandler(styles, strings, new SimpleSheetContentsHandler(), false)); } sheetParser.parse(new InputSource(sheetInputStream)); } public static class SimpleSheetContentsHandler implements SheetContentsHandler{ protected List<String> row = new LinkedList<>(); @Override public void startRow(int rowNum) { row.clear(); } @Override public void endRow(int rowNum) { System.err.println(rowNum + " : " + row); } @Override public void cell(String cellReference, String formattedValue, XSSFComment comment) { row.add(formattedValue); } @Override public void headerFooter(String text, boolean isHeader, String tagName) { } } }
用法:
public static void main(String[] args) throws Throwable{ long start = System.currentTimeMillis(); final List<List<String>> table = new ArrayList<>(); new ExcelEventParser("D:/ExcelTestModel.xlsx").setHandler(new SimpleSheetContentsHandler(){ private List<String> fields; @Override public void endRow(int rowNum) { if(rowNum == 0){ // 第一行中文描述忽略 }else if(rowNum == 1){ // 第二行字段名 fields = row; }else { // 数据 table.add(row); } } }).parse(); long end = System.currentTimeMillis(); System.err.println(table.size()); System.err.println(end - start); }
经测试,读取100万行excel大概需要二十多秒!!!
由于100万行excel有三十多M,没法放附件, 请自行填充测试数据。(例如:A1:A1000000选中第一列100万行,然后ctrl+D会自动填充第一列, 以此类推填充10列)
相关推荐
### Java处理100万行超大Excel文件秒级响应 #### 一、问题背景与需求分析 在项目开发过程中,经常会遇到需要处理大量Excel数据的情况。这些数据可能包括成千上万条记录,每条记录又包含多个字段。传统的处理方式...
在本例中,为了读取4.5MB、包含14万条数据的Excel文件,使用SXSSF是非常合适的策略。 读取大文件的基本步骤如下: 1. **创建SXSSFWorkbook对象**:这是SXSSF的工作起点,它会指定在内存中保留的行数。例如,`...
在本项目中,我们主要探讨如何使用SpringMVC、Hibernate框架与Apache POI库来实现对MySQL数据库的操作以及数据导出为Excel的功能。这是一项常见的需求,在企业级应用开发中非常实用,尤其对于数据管理和报告生成场景...
本示例“java-poi-excel-导出20万条记录【源代码】”展示了如何使用Apache POI库来高效地处理大数据量的Excel导出,避免内存溢出的问题。Apache POI是一个流行的开源Java API,用于读写Microsoft Office格式的文件,...
### 使用Apache POI导出Excel 2007并避免内存溢出问题 #### 背景介绍 在处理大量数据时,使用Java导出Excel文件可能会遇到内存溢出的问题,尤其是在导出Excel 2007(.xlsx格式)时更为常见。这是因为传统的`...
在Java开发中,导出大数据量的Excel文件可能会面临内存溢出的问题,特别是在使用Apache POI库时。这是因为默认情况下,POI会将整个Excel工作簿存储在内存中,当数据量过大时,内存消耗非常显著,可能导致系统崩溃。...
3. **数据分批处理**:对百万数据进行分批读取,每次处理一批,创建行并添加单元格。 ```java int batchSize = 1000; for (int i = 0; i ; i += batchSize) { List<DataRow> batch = fetchData(i, batchSize); // ...
当文件超过一定大小,如超过100万行,Excel的性能会显著下降。 为了解决这些问题,开发者通常会选择使用编程语言中的库来处理Excel文件,比如Java中的Apache POI、JExcelAPI、Aspose.Cells等。其中,Apache POI是...
当处理大量数据(例如100万行)时,一次性写入可能导致性能问题。此时,可以采用分块写入或流式写入的方式。在Pandas中,可以设置`to_excel()`的`chunksize`参数来分批写入。在Apache POI中,可以使用SXSSF...
此外,根据需求,可能需要处理写入和读取过程中的并发问题,或者使用更复杂的公式和样式,这就需要对POI API有深入的理解和熟练的使用技巧。 总之,Apache POI 3.8 中的SXSSFWorkbook是处理大数据量Excel文件的理想...
使用POI的SXSSFWorkbook类,我们可以实现流式写入Excel文件,只保留最近100行数据在内存中,其余数据写入磁盘,这样极大地降低了内存消耗。以下是基本步骤: 1. 创建`SXSSFWorkbook`实例,设置保留行数,例如`...
- **行数据缓存**:SXSSFWorkbook允许用户自定义一个窗口大小(默认为100),在生成Excel文件过程中,仅在内存中维护这个窗口大小内的行数据。 - **动态释放**:当行数据超出窗口大小时,之前的行数据会被写入到一...
- 分批处理:由于Excel 2003每个Sheet的限制是65536行,而2007版虽然可以容纳更多(超过100万行),但一次性加载这么多数据仍然会导致内存压力。因此,可以考虑将数据分批写入不同的Sheet,或者创建多个Excel文件,...
3. **线程安全**:如果需要并发处理,可能需要使用多线程,并确保对文件的访问是线程安全的,比如使用synchronized关键字或者ReentrantLock等同步机制。 4. **性能优化**:考虑使用缓冲区提高写入效率,以及关闭...