`
gaosheng08
  • 浏览: 32226 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

大数据量的excel文件读取——excel2007

阅读更多

    此篇是紧接上篇 《大数据 的excel文件读取——2003及之前版本》

 

    excel2007文件格式与之前版本不同,之前版本采用的是微软自己的存储格式。07版内容的存储采用XML格式,所以,理所当然的,对大数据量的xlsx文件的读取采用的也是XML的处理方式SAX。

    同之前的版本一样,大数据量文件的读取采用的是事件模型eventusermodel。usermodel模式需要将文件一次性全部读到内存中,07版的既然采用的存储模式是xml,解析用的DOM方式也是如此,这种模式操作简单,容易上手,但是对于大量数据占用的内存也是相当可观,在Eclipse中经常出现内存溢出。

    下面就是采用eventusermodel对07excel文件读取。

    同上篇,我将当前行的单元格数据存储到List中,抽象出 optRows 方法,该方法会在每行末尾时调用,方法参数为当前行索引curRow(int型)及存有行内单元格数据的List。继承类只需实现该行级方法即可。


补充:今天发现 读取2007的脚本存在存在一处问题,在遇到空单元格时会跳过该单元格,由于工作紧张没有时间去解决该问题,这里给出一个暂时的处理办法。打开文件,在开始菜单中选择"查找和选择","定位条件",选择"空值",确定,这时会找出所有的空单元格,直接按空格,然后Ctrl+enter,就会将所有空单元格填入一个空格,保存即可。

 

2010.6.10补充:空单元格的问题已经解决,在2007的文档中空单元格是不存储的,单元格的r属性是单元格位置信息,格式为[A-Z]+[0-9]+。字母部分是列索引,数字部分是行索引。

 

抽象类:XxlsAbstract ,作用:遍历excel文件,提供行级操作方法 optRows

package com.gaosheng.util.xls;

import java.io.InputStream;
import java.sql.SQLException;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;

import org.apache.poi.xssf.eventusermodel.XSSFReader;
import org.apache.poi.xssf.model.SharedStringsTable;
import org.apache.poi.xssf.usermodel.XSSFRichTextString;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.xml.sax.Attributes;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;
import org.xml.sax.helpers.DefaultHandler;
import org.xml.sax.helpers.XMLReaderFactory;

/**
 * XSSF and SAX (Event API)
 */
public abstract class XxlsAbstract extends DefaultHandler {
	private SharedStringsTable sst;
	private String lastContents;
	private boolean nextIsString;

	private int sheetIndex = -1;
	private List<String> rowlist = new ArrayList<String>();
	private int curRow = 0;		//当前行
	private int curCol = 0;		//当前列索引
	private int preCol = 0;		//上一列列索引
	private int titleRow = 0;	//标题行,一般情况下为0
	private int rowsize = 0;	//列数
	
	//excel记录行操作方法,以行索引和行元素列表为参数,对一行元素进行操作,元素为String类型
//	public abstract void optRows(int curRow, List<String> rowlist) throws SQLException ;
	
	//excel记录行操作方法,以sheet索引,行索引和行元素列表为参数,对sheet的一行元素进行操作,元素为String类型
	public abstract void optRows(int sheetIndex,int curRow, List<String> rowlist) throws SQLException;
	
	//只遍历一个sheet,其中sheetId为要遍历的sheet索引,从1开始,1-3
	public void processOneSheet(String filename,int sheetId) throws Exception {
		OPCPackage pkg = OPCPackage.open(filename);
		XSSFReader r = new XSSFReader(pkg);
		SharedStringsTable sst = r.getSharedStringsTable();
		
		XMLReader parser = fetchSheetParser(sst);

		// rId2 found by processing the Workbook
		// 根据 rId# 或 rSheet# 查找sheet
		InputStream sheet2 = r.getSheet("rId"+sheetId);
		sheetIndex++;
		InputSource sheetSource = new InputSource(sheet2);
		parser.parse(sheetSource);
		sheet2.close();
	}

	/**
	 * 遍历 excel 文件
	 */
	public void process(String filename) throws Exception {
		OPCPackage pkg = OPCPackage.open(filename);
		XSSFReader r = new XSSFReader(pkg);
		SharedStringsTable sst = r.getSharedStringsTable();

		XMLReader parser = fetchSheetParser(sst);

		Iterator<InputStream> sheets = r.getSheetsData();
		while (sheets.hasNext()) {
			curRow = 0;
			sheetIndex++;
			InputStream sheet = sheets.next();
			InputSource sheetSource = new InputSource(sheet);
			parser.parse(sheetSource);
			sheet.close();
		}
	}

	public XMLReader fetchSheetParser(SharedStringsTable sst)
			throws SAXException {
		XMLReader parser = XMLReaderFactory
				.createXMLReader("org.apache.xerces.parsers.SAXParser");
		this.sst = sst;
		parser.setContentHandler(this);
		return parser;
	}

	public void startElement(String uri, String localName, String name,
			Attributes attributes) throws SAXException {
		// c => 单元格
		if (name.equals("c")) {
			// 如果下一个元素是 SST 的索引,则将nextIsString标记为true
			String cellType = attributes.getValue("t");
			String rowStr = attributes.getValue("r");
			curCol = this.getRowIndex(rowStr);
			if (cellType != null && cellType.equals("s")) {
				nextIsString = true;
			} else {
				nextIsString = false;
			}
		}
		// 置空
		lastContents = "";
	}

	public void endElement(String uri, String localName, String name)
			throws SAXException {
		// 根据SST的索引值的到单元格的真正要存储的字符串
		// 这时characters()方法可能会被调用多次
		if (nextIsString) {
			try {
				int idx = Integer.parseInt(lastContents);
				lastContents = new XSSFRichTextString(sst.getEntryAt(idx))
						.toString();
			} catch (Exception e) {

			}
		}

		// v => 单元格的值,如果单元格是字符串则v标签的值为该字符串在SST中的索引
		// 将单元格内容加入rowlist中,在这之前先去掉字符串前后的空白符
		if (name.equals("v")) {
			String value = lastContents.trim();
			value = value.equals("")?" ":value;
			int cols = curCol-preCol;
			if (cols>1){
				for (int i = 0;i < cols-1;i++){
					rowlist.add(preCol,"");
				}
			}
			preCol = curCol;
			rowlist.add(curCol-1, value);
		}else {
			//如果标签名称为 row ,这说明已到行尾,调用 optRows() 方法
			if (name.equals("row")) {
				int tmpCols = rowlist.size();
				if(curRow>this.titleRow && tmpCols<this.rowsize){
					for (int i = 0;i < this.rowsize-tmpCols;i++){
						rowlist.add(rowlist.size(), "");
					}
				}
				try {
					optRows(sheetIndex,curRow,rowlist);
				} catch (SQLException e) {
					e.printStackTrace();
				}
				if(curRow==this.titleRow){
					this.rowsize = rowlist.size();
				}
				rowlist.clear();
				curRow++;
				curCol = 0;
				preCol = 0;
			}
		}
	}

	public void characters(char[] ch, int start, int length)
			throws SAXException {
		//得到单元格内容的值
		lastContents += new String(ch, start, length);
	}
	
	//得到列索引,每一列c元素的r属性构成为字母加数字的形式,字母组合为列索引,数字组合为行索引,
	//如AB45,表示为第(A-A+1)*26+(B-A+1)*26列,45行
	public int getRowIndex(String rowStr){
		rowStr = rowStr.replaceAll("[^A-Z]", "");
		byte[] rowAbc = rowStr.getBytes();
		int len = rowAbc.length;
		float num = 0;
		for (int i=0;i<len;i++){
			num += (rowAbc[i]-'A'+1)*Math.pow(26,len-i-1 );
		}
		return (int) num;
	}

	public int getTitleRow() {
		return titleRow;
	}

	public void setTitleRow(int titleRow) {
		this.titleRow = titleRow;
	}
}

 

继承类:XxlsBig,作用:将数据转出到数据库临时表

package com.gaosheng.util.examples.xls;

import java.io.FileInputStream;
import java.io.IOException;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.SQLException;
import java.sql.Statement;
import java.util.List;
import java.util.Properties;

import com.gaosheng.util.xls.XxlsAbstract;

public class XxlsBig extends XxlsAbstract {
	public static void main(String[] args) throws Exception {
		XxlsBig howto = new XxlsBig("temp_table");
		howto.processOneSheet("F:/new.xlsx",1);
		howto.process("F:/new.xlsx");
		howto.close();
	}
	
	public XxlsBig(String tableName) throws SQLException{
		this.conn = getNew_Conn();
		this.statement = conn.createStatement();
		this.tableName = tableName;
	}

	private Connection conn = null;
	private Statement statement = null;
	private PreparedStatement newStatement = null;

	private String tableName = "temp_table";
	private boolean create = true;
	
	public void optRows(int sheetIndex,int curRow, List<String> rowlist) throws SQLException {
		if (sheetIndex == 0 && curRow == 0) {
			StringBuffer preSql = new StringBuffer("insert into " + tableName
					+ " values(");
			StringBuffer table = new StringBuffer("create table " + tableName
					+ "(");
			int c = rowlist.size();
			for (int i = 0; i < c; i++) {
				preSql.append("?,");
				table.append(rowlist.get(i));
				table.append("  varchar2(100) ,");
			}

			table.deleteCharAt(table.length() - 1);
			preSql.deleteCharAt(preSql.length() - 1);
			table.append(")");
			preSql.append(")");
			if (create) {
				statement = conn.createStatement();
				try{
					statement.execute("drop table "+tableName);
				}catch(Exception e){
					
				}finally{
					System.out.println("表 "+tableName+" 删除成功");
				}
				if (!statement.execute(table.toString())) {
					System.out.println("创建表 "+tableName+" 成功");
					// return;
				} else {
					System.out.println("创建表 "+tableName+" 失败");
					return;
				}
			}
			conn.setAutoCommit(false);
			newStatement = conn.prepareStatement(preSql.toString());

		} else if(curRow>0) {
			// 一般行
			int col = rowlist.size();
			for (int i = 0; i < col; i++) {
				newStatement.setString(i + 1, rowlist.get(i).toString());
			}
			newStatement.addBatch();
			if (curRow % 1000 == 0) {
				newStatement.executeBatch();
				conn.commit();
			}
		}
	}
	
    private static Connection getNew_Conn() {
        Connection conn = null;
        Properties props = new Properties();
        FileInputStream fis = null;

        try {
            fis = new FileInputStream("D:/database.properties");
            props.load(fis);
            DriverManager.registerDriver(new oracle.jdbc.driver.OracleDriver());
            // String jdbcURLString =
            // "jdbc:oracle:thin:@192.168.0.28:1521:orcl";
            StringBuffer jdbcURLString = new StringBuffer();
            jdbcURLString.append("jdbc:oracle:thin:@");
            jdbcURLString.append(props.getProperty("host"));
            jdbcURLString.append(":");
            jdbcURLString.append(props.getProperty("port"));
            jdbcURLString.append(":");
            jdbcURLString.append(props.getProperty("database"));
            conn = DriverManager.getConnection(jdbcURLString.toString(), props
                    .getProperty("user"), props.getProperty("password"));
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            try {
                fis.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        return conn;
    }
    
	public int close() {
		try {
			newStatement.executeBatch();
			conn.commit();
			System.out.println("数据写入完毕");
			this.newStatement.close();
			this.statement.close();
			this.conn.close();
			return 1;
		} catch (SQLException e) {
			return 0;
		}
	}
}

 继承类:XxlsPrint,作用:将数据输出到控制台

package com.gaosheng.util.examples.xls;

import java.sql.SQLException;
import java.util.List;

import com.gaosheng.util.xls.XxlsAbstract;

public class XxlsPrint extends XxlsAbstract {

	@Override
	public void optRows(int sheetIndex,int curRow, List<String> rowlist) throws SQLException {
		for (int i = 0; i < rowlist.size(); i++) {
			System.out.print("'" + rowlist.get(i) + "',");
		}
		System.out.println();
	}

	public static void main(String[] args) throws Exception {
		XxlsPrint howto = new XxlsPrint();
		howto.processOneSheet("F:/new.xlsx",1);
//		howto.processAllSheets("F:/new.xlsx");
	}
}

 源代码在附件中,还包含了说明文件、数据库配置文件、以及整合xls文件和xlsx文件读取的类:Xls2Do。

14
1
分享到:
评论
21 楼 wabiaozia 2016-05-18  
wabiaozia 写道
谁能分享一份附件。。。。。。。。

今天又可以下载了。。。。。。。。。。。
20 楼 wabiaozia 2016-05-12  
谁能分享一份附件。。。。。。。。
19 楼 wabiaozia 2016-05-12  
附件怎么下载不下来,谁分享一份。。。。。。。。
18 楼 jiaoxianli 2015-05-08  
写得好!太感谢你了,请问能遍历指定的SHEET名称的SHEET页吗?我不想根据sheet索引遍历。谢谢!
17 楼 youyanweixiao 2015-01-28  
求指教这个好用不?
16 楼 yanyuan904 2014-07-18  
读取的数据不对,有串行的,有重复的。能说说c,row,col,v分别代表什么意思么,说说结构上的。。。。谢谢了。
15 楼 tzming1212 2014-06-18  
2万行还是大数据,我的40万行,文件大小有190M.
到 OPCPackage pkg = OPCPackage.open(filename);  ,就out了.
请问各位大侠有什么好的方案吗?
14 楼 unique.wu 2013-11-26  
参照楼主的方法,好像是解决了问题。
13 楼 fair_jm 2013-10-16  
顶 好大一个坑...多谢lz的文章
12 楼 sjgsjgsjg123 2013-06-27  
我也想知道是怎样解决的空单元格,首先感谢
11 楼 gaosheng08 2012-11-19  
rowStr
zjf_1103 写道
想问下博主,你说的那个空单元格被忽略的问题是如何解决的,能否解答下,这个问题很困扰啊,首先它进入不了end方法,太搞人了

附件已更新
10 楼 fangtinghua 2012-11-16  
rowStr 想问下博主,你说的那个空单元格被忽略的问题是如何解决的,能否解答下,这个问题很困扰啊,首先它进入不了end方法,太搞人了
9 楼 zjf_1103 2012-10-29  
想问下博主,你说的那个空单元格被忽略的问题是如何解决的,能否解答下
8 楼 luozhanbin 2012-10-22  
我在linux下执行报Can't open the specified file: '/usr/local/tomcatforsearch/webapps/search/upload/tbhonggmonth20121011.xlsx'但是我看了路径没问题呀,是不是不支持linux
7 楼 web1001 2012-09-28  
楼主,我想问你一下,你补充的问题,就是空单元格的问题,你说解决了,可共享下么?
6 楼 aigyoo 2012-07-31  
使用你上面的这个方法去读取2007的EXCEL
文件为4.49M 每行 44列

下面是测试结果

开始读取:Tue Jul 31 17:11:15 CST 2012
读取结束:Tue Jul 31 17:26:33 CST 2012
读取总行:20383
共花时间:918.719s

感觉时间太久了 这是什么原因?
5 楼 gaosheng08 2012-03-29  
yylovelei 写道
yylovelei 写道
yylovelei 写道
你好,howto.close(); 如果等于1则 进行删除F:/new.xlsx 为什么删除不了呢? F:/new.xlsx 应该还被使用着呢,想问问博主哪里在使用这个文件,为什么删除不了呢


博主 很忙吗?


XxlsAbstract.java

56行  sheet2.close();//下面加一句如下
57行  pkg.close();//


77行  }//下面加一句如下
78行  pkg.close();//


不好意思,最近工作太忙,很久没上了,看来你已经找到方法了,excel读取的两篇文章里存在的bug不少,之后更正过后一直没有维护博客上的,惭愧。
4 楼 yylovelei 2012-03-28  
yylovelei 写道
yylovelei 写道
你好,howto.close(); 如果等于1则 进行删除F:/new.xlsx 为什么删除不了呢? F:/new.xlsx 应该还被使用着呢,想问问博主哪里在使用这个文件,为什么删除不了呢


博主 很忙吗?


XxlsAbstract.java

56行  sheet2.close();//下面加一句如下
57行  pkg.close();//


77行  }//下面加一句如下
78行  pkg.close();//

3 楼 yylovelei 2012-03-27  
yylovelei 写道
你好,howto.close(); 如果等于1则 进行删除F:/new.xlsx 为什么删除不了呢? F:/new.xlsx 应该还被使用着呢,想问问博主哪里在使用这个文件,为什么删除不了呢


博主 很忙吗?
2 楼 yylovelei 2012-03-19  
你好,howto.close(); 如果等于1则 进行删除F:/new.xlsx 为什么删除不了呢? F:/new.xlsx 应该还被使用着呢,想问问博主哪里在使用这个文件,为什么删除不了呢

相关推荐

    (转)大数据量的excel文件读取——2003及之前版本(含代码及示例)

    在IT行业中,处理大数据量的Excel文件是一项常见的任务,特别是在数据分析、报表生成和数据导入导出等场景。本文主要探讨如何高效地读取2003及之前版本的Excel文件,这些版本通常采用.BIFF(Binary Interchange File...

    labview——excel文件读写

    在LabVIEW中,与Excel文件的交互是常见的需求,例如读取数据进行分析或把实验结果写入到Excel报告中。本文将详细介绍如何使用LabVIEW来实现Excel文件的读写操作。 首先,LabVIEW提供了VIs(Virtual Instruments,...

    安卓Android源码——安卓读取Excel文件获取表格数据.rar

    这个名为"安卓Android源码——安卓读取Excel文件获取表格数据.rar"的压缩包文件,很可能包含了一个示例项目,教你如何在Android应用中实现这一功能。 首先,让我们了解在Android中读取Excel文件的基本步骤。Android...

    python直接读取网页excel文件(无需下载)(csdn)————程序.pdf

    接下来,使用`pandas`库的`read_excel`函数,可以从二进制数据流中直接读取Excel文件: ```python df = pd.read_excel(ret.content, header=0) ``` `pd.read_excel`函数的`content`参数接受二进制数据,`header=0`...

    安卓Android源码——安卓读取Excel文件获取表格数据.zip

    本项目“安卓Android源码——安卓读取Excel文件获取表格数据”提供了一个示例,展示了如何在Android应用中实现这一功能。下面将详细探讨相关知识点。 1. **Excel文件格式** Excel文件通常以`.xls`或`.xlsx`为扩展...

    安卓Andriod源码——安卓读取Excel文件获取表格数据.zip

    此外,考虑到性能和内存消耗,可能需要对大数据量的Excel文件进行分页处理,而不是一次性加载所有数据。 这个压缩包中的“cf_shuangSeQiu”文件可能是源码的一部分,但具体细节无法在此处分析,因为它不是一个明确...

    C++读写Excel文件

    6. **性能优化**:OpenXLSX库设计时考虑了性能,通过流式处理和内存管理优化,处理大文件时不会消耗大量内存,提高了效率。 7. **示例代码**:提供的示例代码可以帮助开发者快速上手。通过这些示例,你可以学习如何...

    读取excel文件数据_excel复制_MATLABexcel_

    然而,当数据量达到一定规模时,传统的手动复制粘贴方式显然无法满足需求,这时就需要借助编程语言,如MATLAB,来实现自动化处理。本文将详细介绍如何使用MATLAB来读取和操作Excel文件,以此提高工作效率。 标题中...

    Excel——DBC互转工具_c#dbc转excel_nan_dbc文件excel_DBCCAN_DBC文件

    而Excel文件则是一个表格形式的数据结构,易于查看、编辑和分析大量数据,因此,DBC到Excel的转换对于数据可视化和分析非常有帮助。 要实现DBC到Excel的转换,我们需要理解DBC文件的结构,并使用C#的文本处理库读取...

    android读取Excel文件(Android studio开发环境)

    在Android平台上,读取Excel文件是一项常见的需求,例如在数据导入、数据分析或报表展示等场景。本项目将探讨如何在Android Studio开发环境中实现这一功能。首先,我们需要了解Android对文件操作的基本方法,以及...

    C# 导入Excel读取图片上传

    总的来说,C#中导入Excel读取图片的方法主要分为使用.NET Interop组件和第三方库如EPPlus。选择哪种方法取决于项目需求,如性能、兼容性、是否依赖Office等因素。对于图片上传,通常还会涉及文件流处理、网络传输等...

    java使用EasyExcel导入导出excel(csdn)————程序.pdf

    Java使用EasyExcel进行Excel的导入导出是一种高效且便捷的方式,尤其对于大数据量的处理,EasyExcel能够很好地解决内存溢出的问题。以下是关于EasyExcel在Java中应用的详细讲解: 一、准备工作 在使用EasyExcel之前...

    Excel导入工具——通用版本(大家学习研究)

    确保路径是正确无误的,且Excel文件具有相应的读取权限,这是成功导入数据的关键。如果路径不正确,工具将无法找到文件,导致导入失败。 由于此工具一次只能导入一张表,这意味着如果你的Excel文件中包含多个工作表...

    POI处理Excel文件.zip

    例如,可以创建一个简单的Excel读取器,逐行逐列读取数据,或者创建一个写入器,动态生成数据并保存到Excel文件。无论是在数据分析、报表生成还是自动化处理场景中,Apache POI都是Java开发人员处理Excel文件的强大...

    Unity——读写Excel文件所需的dll

    在Unity游戏开发中,有时我们需要处理数据,例如存储玩家进度、管理资源或进行数据分析,这时Excel文件因其方便性成为常用的选择。为了在Unity中读写Excel文件,我们需要引入一些外部库,这些库提供了与Excel文件...

    VC读写Excel速度慢问题解决方案的源代码

    这主要是因为这些接口在处理Excel文件时,不仅要解析复杂的文件格式,还需要维护工作簿的样式、公式等信息,这在大数据量下会消耗大量的计算资源。因此,当我们只需要处理纯文本数据时,可以考虑绕过这些接口,转而...

    Labview读取Excel表格到数组中,并获取行列信息

    此外,如果Excel文件非常大,或者包含大量公式和复杂格式,可能会影响读取速度。在某些情况下,你可能需要考虑使用其他数据导入方法,如使用LabVIEW的CSV文件读取功能,或者利用第三方库如JACE(Java for LabVIEW)...

    java poi 读取百万数据OOM优化

    Excel文件通常存储为二进制格式,如`.xls`或`.xlsx`,这些文件可以容纳大量的行和列,但当数据量过大时,可能会引发内存溢出(Out Of Memory, OOM)错误。在这种情况下,我们需要对代码进行优化以避免此类问题。本篇...

Global site tag (gtag.js) - Google Analytics