参考:http://thinkgem.iteye.com/blog/2150940
前端时间写了注解方式Excel的读取和写入,它是根据注解完成Excel的操作,虽说支持大数据,但对于超大数据就无能为力了,因为它的读写期间都是将所有数据放入系统内存的,除非你有超大的内存。
因项目需要对超大数据的Excel读写操作,于是网上找了个超大数据的读写代码,这个不需要太大内存。并对此进行了简单的修改。
原理如下:
Excel超大数据读取:抽象Excel2007读取器,excel2007的底层数据结构是xml文件,采用SAX的事件驱动的方法解析 xml,需要继承DefaultHandler,在遇到文件内容时,事件会触发,这种做法可以大大降低内存的耗费,特别使用于大数据量的文件。
Excel超大数据写入:抽象excel2007读入器,先构建.xlsx一张模板,改写模板中的sheet.xml, 使用这种方法 写入.xlsx文件,不需要太大的内存。
先看调用示例:
- String file = "E:/导入测试数据.xlsx";
- ExcelReader reader = new ExcelReader() {
- public void getRows(int sheetIndex, int curRow, List<String> rowList) {
- System.out.println("Sheet:" + sheetIndex + ", Row:" + curRow + ", Data:" +rowList);
- }
- };
- reader.process(file, 1);
- String file = "E:/导出测试数据.xlsx";
- ExcelWriter writer = new ExcelWriter() {
- public void generate() throws Exception {
- // 电子表格开始
- this.beginSheet();
- for (int rownum = 0; rownum < 100; rownum++) {
- // 插入新行
- this.insertRow(rownum);
- // 建立新单元格,索引值从0开始,表示第一列
- this.createCell(0, "第 " + rownum + " 行");
- this.createCell(1, 34343.123456789);
- this.createCell(2, "23.67%");
- this.createCell(3, "12:12:23");
- this.createCell(4, "2014-10-11 12:12:23");
- this.createCell(5, "true");
- this.createCell(6, "false");
- // 结束行
- this.endRow();
- }
- // 电子表格结束
- this.endSheet();
- }
- };
- writer.process(file);
- }
这里只展示了对数据的读取和写入,如果正式保存到数据库时建议读取一部分(如100条)再写入一次数据库,尽量不要读取一条就写入一条,这样会非常耗费资源。
源代码如下:
- import java.io.InputStream;
- import java.math.BigDecimal;
- import java.text.SimpleDateFormat;
- import java.util.ArrayList;
- import java.util.Date;
- import java.util.Iterator;
- import java.util.List;
- import org.apache.poi.hssf.usermodel.HSSFDateUtil;
- import org.apache.poi.openxml4j.opc.OPCPackage;
- import org.apache.poi.xssf.eventusermodel.XSSFReader;
- import org.apache.poi.xssf.model.SharedStringsTable;
- import org.apache.poi.xssf.usermodel.XSSFRichTextString;
- import org.xml.sax.Attributes;
- import org.xml.sax.InputSource;
- import org.xml.sax.SAXException;
- import org.xml.sax.XMLReader;
- import org.xml.sax.helpers.DefaultHandler;
- import org.xml.sax.helpers.XMLReaderFactory;
- /**
- * Excel超大数据读取,抽象Excel2007读取器,excel2007的底层数据结构是xml文件,采用SAX的事件驱动的方法解析
- * xml,需要继承DefaultHandler,在遇到文件内容时,事件会触发,这种做法可以大大降低 内存的耗费,特别使用于大数据量的文件。
- * @version 2014-9-2
- */
- public abstract class ExcelReader extends DefaultHandler {
- // 共享字符串表
- private SharedStringsTable sst;
- // 上一次的内容
- private String lastContents;
- private boolean nextIsString;
- private int sheetIndex = -1;
- private List<String> rowList = new ArrayList<String>();
- // 当前行
- private int curRow = 0;
- // 当前列
- private int curCol = 0;
- // 日期标志
- private boolean dateFlag;
- // 数字标志
- private boolean numberFlag;
- private boolean isTElement;
- /**
- * 遍历工作簿中所有的电子表格
- * @param filename
- * @throws Exception
- */
- public void process(String filename) throws Exception {
- OPCPackage pkg = OPCPackage.open(filename);
- XSSFReader r = new XSSFReader(pkg);
- SharedStringsTable sst = r.getSharedStringsTable();
- XMLReader parser = fetchSheetParser(sst);
- Iterator<InputStream> sheets = r.getSheetsData();
- while (sheets.hasNext()) {
- curRow = 0;
- sheetIndex++;
- InputStream sheet = sheets.next();
- InputSource sheetSource = new InputSource(sheet);
- parser.parse(sheetSource);
- sheet.close();
- }
- }
- /**
- * 只遍历一个电子表格,其中sheetId为要遍历的sheet索引,从1开始,1-3
- * @param filename
- * @param sheetId
- * @throws Exception
- */
- public void process(String filename, int sheetId) throws Exception {
- OPCPackage pkg = OPCPackage.open(filename);
- XSSFReader r = new XSSFReader(pkg);
- SharedStringsTable sst = r.getSharedStringsTable();
- XMLReader parser = fetchSheetParser(sst);
- // 根据 rId# 或 rSheet# 查找sheet
- InputStream sheet2 = r.getSheet("rId" + sheetId);
- sheetIndex++;
- InputSource sheetSource = new InputSource(sheet2);
- parser.parse(sheetSource);
- sheet2.close();
- }
- public XMLReader fetchSheetParser(SharedStringsTable sst)
- throws SAXException {
- XMLReader parser = XMLReaderFactory.createXMLReader("org.apache.xerces.parsers.SAXParser");
- this.sst = sst;
- parser.setContentHandler(this);
- return parser;
- }
- public void startElement(String uri, String localName, String name,
- Attributes attributes) throws SAXException {
- // System.out.println("startElement: " + localName + ", " + name + ", " + attributes);
- // c => 单元格
- if ("c".equals(name)) {
- // 如果下一个元素是 SST 的索引,则将nextIsString标记为true
- String cellType = attributes.getValue("t");
- if ("s".equals(cellType)) {
- nextIsString = true;
- } else {
- nextIsString = false;
- }
- // 日期格式
- String cellDateType = attributes.getValue("s");
- if ("1".equals(cellDateType)) {
- dateFlag = true;
- } else {
- dateFlag = false;
- }
- String cellNumberType = attributes.getValue("s");
- if ("2".equals(cellNumberType)) {
- numberFlag = true;
- } else {
- numberFlag = false;
- }
- }
- // 当元素为t时
- if ("t".equals(name)) {
- isTElement = true;
- } else {
- isTElement = false;
- }
- // 置空
- lastContents = "";
- }
- public void endElement(String uri, String localName, String name)
- throws SAXException {
- // System.out.println("endElement: " + localName + ", " + name);
- // 根据SST的索引值的到单元格的真正要存储的字符串
- // 这时characters()方法可能会被调用多次
- if (nextIsString) {
- try {
- int idx = Integer.parseInt(lastContents);
- lastContents = new XSSFRichTextString(sst.getEntryAt(idx))
- .toString();
- } catch (Exception e) {
- }
- }
- // t元素也包含字符串
- if (isTElement) {
- String value = lastContents.trim();
- rowList.add(curCol, value);
- curCol++;
- isTElement = false;
- // v => 单元格的值,如果单元格是字符串则v标签的值为该字符串在SST中的索引
- // 将单元格内容加入rowlist中,在这之前先去掉字符串前后的空白符
- } else if ("v".equals(name)) {
- String value = lastContents.trim();
- value = value.equals("") ? " " : value;
- try {
- // 日期格式处理
- if (dateFlag) {
- Date date = HSSFDateUtil.getJavaDate(Double.valueOf(value));
- SimpleDateFormat dateFormat = new SimpleDateFormat("dd/MM/yyyy");
- value = dateFormat.format(date);
- }
- // 数字类型处理
- if (numberFlag) {
- BigDecimal bd = new BigDecimal(value);
- value = bd.setScale(3, BigDecimal.ROUND_UP).toString();
- }
- } catch (Exception e) {
- // 转换失败仍用读出来的值
- }
- rowList.add(curCol, value);
- curCol++;
- } else {
- // 如果标签名称为 row ,这说明已到行尾,调用 optRows() 方法
- if (name.equals("row")) {
- getRows(sheetIndex + 1, curRow, rowList);
- rowList.clear();
- curRow++;
- curCol = 0;
- }
- }
- }
- public void characters(char[] ch, int start, int length)
- throws SAXException {
- // 得到单元格内容的值
- lastContents += new String(ch, start, length);
- }
- /**
- * 获取行数据回调
- * @param sheetIndex
- * @param curRow
- * @param rowList
- */
- public abstract void getRows(int sheetIndex, int curRow, List<String> rowList);
- /**
- * 测试方法
- */
- public static void main(String[] args) throws Exception {
- String file = "E:/导入测试数据.xlsx";
- ExcelReader reader = new ExcelReader() {
- public void getRows(int sheetIndex, int curRow, List<String> rowList) {
- System.out.println("Sheet:" + sheetIndex + ", Row:" + curRow + ", Data:" +rowList);
- }
- };
- reader.process(file, 1);
- }
- }
- import java.io.File;
- import java.io.FileInputStream;
- import java.io.FileOutputStream;
- import java.io.FileWriter;
- import java.io.IOException;
- import java.io.InputStream;
- import java.io.OutputStream;
- import java.io.Writer;
- import java.util.Calendar;
- import java.util.Enumeration;
- import java.util.zip.ZipEntry;
- import java.util.zip.ZipFile;
- import java.util.zip.ZipOutputStream;
- import org.apache.poi.hssf.util.CellReference;
- import org.apache.poi.ss.usermodel.DateUtil;
- import org.apache.poi.xssf.usermodel.XSSFSheet;
- import org.apache.poi.xssf.usermodel.XSSFWorkbook;
- /**
- * Excel超大数据写入,抽象excel2007读入器,先构建.xlsx一张模板,改写模板中的sheet.xml,
- * 使用这种方法 写入.xlsx文件,不需要太大的内存
- * @version 2014-9-2
- */
- public abstract class ExcelWriter {
- private SpreadsheetWriter sw;
- /**
- * 写入电子表格的主要流程
- *
- * @param fileName
- * @throws Exception
- */
- public void process(String fileName) throws Exception {
- // 建立工作簿和电子表格对象
- XSSFWorkbook wb = new XSSFWorkbook();
- XSSFSheet sheet = wb.createSheet("sheet1");
- // 持有电子表格数据的xml文件名 例如 /xl/worksheets/sheet1.xml
- String sheetRef = sheet.getPackagePart().getPartName().getName();
- // 保存模板
- FileOutputStream os = new FileOutputStream("template.xlsx");
- wb.write(os);
- os.close();
- // 生成xml文件
- File tmp = File.createTempFile("sheet", ".xml");
- Writer fw = new FileWriter(tmp);
- sw = new SpreadsheetWriter(fw);
- generate();
- fw.close();
- // 使用产生的数据替换模板
- File templateFile = new File("template.xlsx");
- FileOutputStream out = new FileOutputStream(fileName);
- substitute(templateFile, tmp, sheetRef.substring(1), out);
- out.close();
- // 删除文件之前调用一下垃圾回收器,否则无法删除模板文件
- System.gc();
- // 删除临时模板文件
- if (templateFile.isFile() && templateFile.exists()) {
- templateFile.delete();
- }
- }
- /**
- * 类使用者应该使用此方法进行写操作
- *
- * @throws Exception
- */
- public abstract void generate() throws Exception;
- public void beginSheet() throws IOException {
- sw.beginSheet();
- }
- public void insertRow(int rowNum) throws IOException {
- sw.insertRow(rowNum);
- }
- public void createCell(int columnIndex, String value) throws IOException {
- sw.createCell(columnIndex, value, -1);
- }
- public void createCell(int columnIndex, double value) throws IOException {
- sw.createCell(columnIndex, value, -1);
- }
- public void endRow() throws IOException {
- sw.endRow();
- }
- public void endSheet() throws IOException {
- sw.endSheet();
- }
- /**
- *
- * @param zipfile
- * the template file
- * @param tmpfile
- * the XML file with the sheet data
- * @param entry
- * the name of the sheet entry to substitute, e.g.
- * xl/worksheets/sheet1.xml
- * @param out
- * the stream to write the result to
- */
- private static void substitute(File zipfile, File tmpfile, String entry,
- OutputStream out) throws IOException {
- ZipFile zip = new ZipFile(zipfile);
- ZipOutputStream zos = new ZipOutputStream(out);
- @SuppressWarnings("unchecked")
- Enumeration<ZipEntry> en = (Enumeration<ZipEntry>) zip.entries();
- while (en.hasMoreElements()) {
- ZipEntry ze = en.nextElement();
- if (!ze.getName().equals(entry)) {
- zos.putNextEntry(new ZipEntry(ze.getName()));
- InputStream is = zip.getInputStream(ze);
- copyStream(is, zos);
- is.close();
- }
- }
- zos.putNextEntry(new ZipEntry(entry));
- InputStream is = new FileInputStream(tmpfile);
- copyStream(is, zos);
- is.close();
- zos.close();
- }
- private static void copyStream(InputStream in, OutputStream out)
- throws IOException {
- byte[] chunk = new byte[1024];
- int count;
- while ((count = in.read(chunk)) >= 0) {
- out.write(chunk, 0, count);
- }
- }
- /**
- * 在写入器中写入电子表格
- *
- */
- public static class SpreadsheetWriter {
- private final Writer _out;
- private int _rownum;
- private static String LINE_SEPARATOR = System
- .getProperty("line.separator");
- public SpreadsheetWriter(Writer out) {
- _out = out;
- }
- public void beginSheet() throws IOException {
- _out.write("<?xml version=\"1.0\" encoding=\"UTF-8\"?>"
- + "<worksheet xmlns=\"http://schemas.openxmlformats.org/spreadsheetml/2006/main\">");
- _out.write("<sheetData>" + LINE_SEPARATOR);
- }
- public void endSheet() throws IOException {
- _out.write("</sheetData>");
- _out.write("</worksheet>");
- }
- /**
- * 插入新行
- *
- * @param rownum
- * 以0开始
- */
- public void insertRow(int rownum) throws IOException {
- _out.write("<row r=\"" + (rownum + 1) + "\">" + LINE_SEPARATOR);
- this._rownum = rownum;
- }
- /**
- * 插入行结束标志
- */
- public void endRow() throws IOException {
- _out.write("</row>" + LINE_SEPARATOR);
- }
- /**
- * 插入新列
- *
- * @param columnIndex
- * @param value
- * @param styleIndex
- * @throws IOException
- */
- public void createCell(int columnIndex, String value, int styleIndex)
- throws IOException {
- String ref = new CellReference(_rownum, columnIndex)
- .formatAsString();
- _out.write("<c r=\"" + ref + "\" t=\"inlineStr\"");
- if (styleIndex != -1)
- _out.write(" s=\"" + styleIndex + "\"");
- _out.write(">");
- _out.write("<is><t>" + encoderXML(value) + "</t></is>");
- _out.write("</c>");
- }
- public void createCell(int columnIndex, String value)
- throws IOException {
- createCell(columnIndex, value, -1);
- }
- public void createCell(int columnIndex, double value, int styleIndex)
- throws IOException {
- String ref = new CellReference(_rownum, columnIndex)
- .formatAsString();
- _out.write("<c r=\"" + ref + "\" t=\"n\"");
- if (styleIndex != -1)
- _out.write(" s=\"" + styleIndex + "\"");
- _out.write(">");
- _out.write("<v>" + value + "</v>");
- _out.write("</c>");
- }
- public void createCell(int columnIndex, double value)
- throws IOException {
- createCell(columnIndex, value, -1);
- }
- public void createCell(int columnIndex, Calendar value, int styleIndex)
- throws IOException {
- createCell(columnIndex, DateUtil.getExcelDate(value, false),
- styleIndex);
- }
- }
- // XML Encode
- private static final String[] xmlCode = new String[256];
- static {
- // Special characters
- xmlCode['\''] = "'";
- xmlCode['\"'] = "\""; // double quote
- xmlCode['&'] = "&"; // ampersand
- xmlCode['<'] = "<"; // lower than
- xmlCode['>'] = ">"; // greater than
- }
- /**
- * <p>
- * Encode the given text into xml.
- * </p>
- *
- * @param string
- * the text to encode
- * @return the encoded string
- */
- public static String encoderXML(String string) {
- if (string == null)
- return "";
- int n = string.length();
- char character;
- String xmlchar;
- StringBuffer buffer = new StringBuffer();
- // loop over all the characters of the String.
- for (int i = 0; i < n; i++) {
- character = string.charAt(i);
- // the xmlcode of these characters are added to a StringBuffer
- // one by one
- try {
- xmlchar = xmlCode[character];
- if (xmlchar == null) {
- buffer.append(character);
- } else {
- buffer.append(xmlCode[character]);
- }
- } catch (ArrayIndexOutOfBoundsException aioobe) {
- buffer.append(character);
- }
- }
- return buffer.toString();
- }
- /**
- * 测试方法
- */
- public static void main(String[] args) throws Exception {
- String file = "E:/导出测试数据.xlsx";
- ExcelWriter writer = new ExcelWriter() {
- public void generate() throws Exception {
- // 电子表格开始
- this.beginSheet();
- for (int rownum = 0; rownum < 100; rownum++) {
- // 插入新行
- this.insertRow(rownum);
- // 建立新单元格,索引值从0开始,表示第一列
- this.createCell(0, "第 " + rownum + " 行");
- this.createCell(1, 34343.123456789);
- this.createCell(2, "23.67%");
- this.createCell(3, "12:12:23");
- this.createCell(4, "2014-10-11 12:12:23");
- this.createCell(5, "true");
- this.createCell(6, "false");
- // 结束行
- this.endRow();
- }
- // 电子表格结束
- this.endSheet();
- }
- };
- writer.process(file);
- }
- }
相关推荐
对于Excel的写操作,POI 对 Excel 2007 的支持更加完善。在写入过程中,主要分为三步:首先创建工作簿和电子表格对象,然后在流中构建文本文件,最后用流中的数据替换模板中的电子表格。这种方式允许处理大规模数据...
通过以上示例代码,我们可以清楚地看到如何使用Java POI库来操作Excel文件,包括读取Sheet、获取行数和列数等。这对于自动化办公和数据分析任务来说是非常有用的技能。希望本文能帮助读者更好地理解和掌握这一技术。
Excel读写类库,封装其他几个有POI类库实现对Excel文件的读取和保存数据到Excel,比较实用强大! 此Excel读写类库,比调用DotNet自带office库,强大。自己已经比较,稳定性、效率都大大提高。 DotNet自带Excel类库...
- 读写操作:除了读取,POI还可以用来创建新的Excel文件,或者更新已有的文件。 7. **性能考虑** - 由于`.xlsx`文件是基于XML的,所以处理起来可能会比`.xls`文件更耗资源。在处理大量数据时,应考虑优化内存使用...
在Java世界中,如果你想对Excel进行读写操作,POI库是不可或缺的工具。下面将详细介绍如何使用Java POI来操作Excel以及相关的知识点。 1. **基本概念** - HSSF(Horrible Spreadsheet Format):这是POI库处理...
标题中的“poi包 EXCEL模板读取填数据并导出以及在模板某行插入新的行”涉及到了Apache POI库的使用,这是一个Java API,专门用于处理Microsoft Office格式的文件,如Excel。以下是对这个主题的详细解释: Apache ...
本篇将深入探讨如何利用Apache POI来实现大数据量的Excel文件解析。 首先,Apache POI提供了两种主要的API用于处理Excel文件:HSSF(Horizontally Stored Sheet Format)用于处理.xls文件(老版本的Excel),而XSSF...
Easy-Poi提供了更简洁的API,便于开发者快速地实现Excel的读写操作,尤其适合于批量处理Excel文件。 在使用Easy-Poi之前,确保引入了必要的依赖。在本实例中,我们有以下四个jar包: 1. poi-3.15.jar:这是Apache ...
EasyExcel是一个基于Java的简单、易用且高效的Excel处理工具,它支持读写Excel文件,并且能够有效地避免内存溢出问题。 **EasyExcel特点:** - **内存消耗低:** EasyExcel使用流式处理的方式读取Excel文件,只在...
Apache POI是一个用于读写Microsoft Office格式档案的Java API,包括Excel、Word等文件格式。本文将详细介绍如何使用Apache POI结合JSF技术框架来实现一个简单的Excel文件导出功能。 #### 技术栈与环境准备 - **...
Apache POI是Java的一个开源项目,专门用于读写Microsoft Office格式的文件,包括Excel。本文将深入探讨如何利用Java和Apache POI来高效地解析百万行的Excel数据。 首先,理解Excel文件的结构至关重要。Excel 2007...
在实际开发中,这些方法的组合使用可以实现对 Excel 文件的全面操作,包括读取数据、写入数据、格式化单元格、合并单元格、设置样式等。通过 POI,开发者可以构建出复杂的 Excel 处理功能,例如报表生成、数据导入...
`initial_data`变量定义了Excel表格可容纳的初始数据量,这是为了避免超过Excel 2003的最大行数限制(65535行)。 5. **方法实现**: 类中可能包含各种方法,用于创建Excel工作簿、工作表,设置标题行,以及根据...
Apache POI是一个开源项目,提供了对Microsoft Office格式文件的读写支持,包括Excel。在Spring Boot中,我们可以借助Apache POI创建HSSFWorkbook对象,然后通过工作表(Sheet)、行(Row)和单元格(Cell)进行数据...
在Java世界中,如果你需要对Excel进行读写操作,POI是首选的库。下面将详细介绍如何使用Java POI进行Excel的操作,以及相关的知识点。 **1. 导入与导出Excel** 在Java POI中,主要使用`HSSFWorkbook`(针对老版的...
7. **优化性能**:对于大数据量的读写,可以使用SXSSF(Streaming Usermodel API),它在内存中仅保留有限行数,其余行存储在磁盘上,从而降低内存消耗。 综上,Apache POI是Java操作Excel的强大工具,无论是在读取...
尽管POI HSSF提供了丰富的API来操作Excel表格数据,但它在直接支持Excel图表方面存在局限性。截止至POI版本2.5.1,org.apache.poi.hssf.usermodel包中虽包含HSSFChart类,但该类仅提供了一个空的createBarChart()...
POI提供了两种主要的API来操作Excel文件:HSSF(用于处理.xls文件,即Excel 97-2003格式)和XSSF(用于处理.xlsx文件,即Excel 2007及以上版本)。由于现代Excel文件通常采用.xlsx格式,我们将主要关注XSSF API。 ...