`
peterwei
  • 浏览: 250967 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

为什么PrepareStatement和Batch性能相差不大,欢迎分析

阅读更多
    今天在Javaeye论坛上看到有位网友得出结论:主题:Hibernate性能 - 30倍普通SQL操作 - 探讨 地址:[url]http://www.iteye.com/topic/743613 [/url].贴子中说JDBC测试插入10000条数据花费时间:Total spent 249531毫秒.而且贴子还说:这个时间我觉得是比较合理的执行一条SQL花费25毫秒左右,之前有关效率方面的测试和这个结果差不多。

    不知他在什么配置情况下操作。因为结果是4分多钟。对于此结论很是惊奇,因为以前做过数据同步的东西,于是马上亲自验证,数据库和测试参数和他的都一样。

    先说结果:我的测试最慢的只用了2.6秒。Statement最慢,PrepareStaement快了5秒钟,Batch和PrepareStatement并没有实质性的提高,只是一小点(这个倒是让我奇怪)。从一万到十万数据量都做过测试,但变化不大。我一直认为Batch会提高不少数量级的,可是结果让我失望,也不知哪写得不对,大家可以分析一下代码。
------------------------------------------------------------
结果已出来,是默认的Mysql不是InnoDB,所以没有事务,所以之前测的没有本质变化。实际上在事务下,Batch能提高数量级的提高。

直接pringln 10000的一些对比数据:

清空表
普通的Statement插入数据:
插入数据量:10000
<运行时间: 2.656 秒>
运行时间:2656 毫秒
2.656
================================
清空表
通过PrepareStatement插入数据:
插入数据量:10000
<运行时间: 2.156 秒>
运行时间:2156 毫秒
2.156
================================
清空表
用批处理插入数据:
批量更新成功 10000 条记录!
<运行时间: 2.078 秒>
运行时间:2078 毫秒
2.078
================================

代码如下:

package test;

import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.SQLException;
import java.sql.Statement;

import com.fastbo.util.Clock;
import com.fastbo.util.ConnectionFactory;
import com.fastbo.util.DbUtil;

/**
 * Description: Jdbc相关性能测试,batch处理,PrepareStatement,Statement等。
 * 
 * <p>
 * Mysql数据库:表结构为简单的id,name(varchar:255),type(varchar:255)字段,id自增
 * </p>
 * 
 * @author Peter Wei Email: <a href="mailto:weigbo@163.com">weigbo@163.com </a>
 * 
 * @version 1.0 2010-8-21
 */
public class JdbcTest {

 /**
  * 测试数据量
  */
 public static int TEST_NUM = 10000;

 /**
  * 批处理大小
  */
 public static int BATCH_SIZE = 300;

 /**
  * 清空数据表
  * 
  * @param con
  */
 public static void clear(Connection con) {
  PreparedStatement ps = null;
  StringBuffer buff = new StringBuffer();
  try {
   buff.append("truncate table bobo");
   ps = con.prepareStatement(buff.toString());
   ps.executeUpdate();
   System.out.println("清空表");
  } catch (SQLException e) {
   e.printStackTrace();
  } finally {
   DbUtil.close(ps);
  }
 }

 /**
  * 普通的Statement插入数据
  * 
  * @param con
  */
 public static int add(Connection con) {
  Statement stmt = null;
  int num = 0;
  String sql = "insert into bobo(name,type) values('Peter Wei','test')";
  try {
   stmt = con.createStatement();
   for (int i = 0; i < TEST_NUM; i++) {
    num += stmt.executeUpdate(sql);
   }
   System.out.println("插入数据量:" + num);
  } catch (SQLException e) {
   e.printStackTrace();
  } finally {
   DbUtil.close(stmt);
  }
  return num;

 }

 /**
  * 用PrepareStatement插入数据
  * 
  * @param con
  */
 public static void addByPrepareStatement(Connection con) {

  PreparedStatement ps = null;
  StringBuffer buff = new StringBuffer();
  int num = 0;
  try {
   buff.append("insert into bobo(name,type)");
   buff.append(" values(?,?)");
   ps = con.prepareStatement(buff.toString());
   con.setAutoCommit(false);
   for (int i = 0; i < TEST_NUM; i++) {
	int index = 1;
	ps.setString(index++, "Peter Wei");
	ps.setString(index++, "test");
	num += ps.executeUpdate();
   }
   con.commit();
   con.setAutoCommit(true);
   System.out.println("插入数据量:" + num);
  } catch (SQLException e) {
   e.printStackTrace();
  } finally {
   DbUtil.close(ps);
  }
 }

 /**
  * 用批处理插入数据
  * 
  * @param con
  */
 public static void addByBatch(Connection con) {
  PreparedStatement ps = null;
  StringBuffer buff = new StringBuffer();
  int sum = 0;
  int[] num = null;
  try {
   buff.append("insert into bobo(name,type) values(?,?)");

   con.setAutoCommit(false);
   ps = con.prepareStatement(buff.toString());
   for (int i = 0; i < TEST_NUM; i++) {
    int index = 1;
    ps.setString(index++, "Peter Wei");
    ps.setString(index++, "test");
    ps.addBatch();
    if (i != 0 && i % BATCH_SIZE == 0) {
     num = ps.executeBatch();
     sum += num.length;
     con.commit();
     // System.out.println("batch:" + i);
    }

   }
   num = ps.executeBatch();
   sum += num.length;
   con.commit();
   con.setAutoCommit(true);
   System.out.println("批量更新成功 " + sum + " 条记录!");
  } catch (SQLException e) {
   e.printStackTrace();
  } finally {
   DbUtil.close(ps);
  }
 }

 public static void main(String[] args) {
  Connection con = ConnectionFactory.getConnection();
  clear(con);
  Clock c = new Clock();
  // 普通的Statement插入数据
  System.out.println("普通的Statement插入数据:");
  c.start();
  add(con);
  c.stop();
  System.out.println(c.toString());
  c.readMilli();
  System.out.println(c.read());
  System.out.println("================================");

  clear(con);
  // 通过PrepareStatement插入数据
  System.out.println("通过PrepareStatement插入数据:");
  c = new Clock();
  c.start();
  addByPrepareStatement(con);
  c.stop();
  System.out.println(c.toString());
  c.readMilli();
  System.out.println(c.read());
  System.out.println("================================");

  clear(con);
  // 用批处理插入数据
  System.out.println("用批处理插入数据:");
  c = new Clock();
  c.start();
  addByBatch(con);
  c.stop();
  System.out.println(c.toString());
  c.readMilli();
  System.out.println(c.read());
  System.out.println("================================");

 }

}

分享到:
评论
22 楼 peterwei 2010-09-01  
哈哈,这个贴比较好玩。不过回贴后,认识又有了一个提高。
21 楼 joynet007 2010-09-01  
http://www.iteye.com/topic/743613
你说的这篇文章是有问题的,他的jdbc 提交到数据库中是 分10000次的
每次都获得一个connection 。但是 用Hibernate 的方式放入一个事物当中的,就是说他只获得一次connection 当然hibernate 比 jdbc 快

20 楼 dingjun1 2010-08-31  
这个例子时间的差别是在数据库 写缓存中的数据写到数据文件的所花的时间上。

楼主如果把statement 也改成在一个事务里完成再测试一下就更明显。
楼主的第一种,数据库数据文件与数据缓存区被同步了1000次,
第二种,第三种数据库数据文件被同步的次数就大大减少了,如果忽略定时同步,可以认为就写了一次。

batch的目的是为了一次发送多条SQL指令(节省网络传递时间)
preparestatment是为了重用执行计划(节省数据库端硬解析时间)

在这里,就把传输时间和解析时间忽略吧。

如果楼主再试一下,statement 方式放到一个事务里,测一下时间是不是三个都差不多。就更有说服力了。
19 楼 sdh5724 2010-08-31  
说的是2个不同的东西, 何来误导之说? 楼主的测试已经是基于mysql非事务表了。

谁都知道JDBC/DBMS需要有对应的支持功能。 
18 楼 mikewang 2010-08-31  
sdh5724 写道
兄弟, 我投个精华, 把票数拉回来。 8票~~~

给个总结:
在没有事务的情况下, Batch和PrepareStatement比Statemen 是没有什么区别的。 Batch所能获得优势就是CPU连续处理, 差异估计不大。我猜猜也就1-5%的差异。
有事务的情况, 我相信这个差异是很大的。 这个情况可以分为:
Batch一次提交多少条SQL, 或者一条SQL
PrepareStatement/Statemen  一次提交一条为一个事务, 或者一个事务包含多个SQL。 这些性能都是有比较大的差异的。

楼主对细节关心说明考虑问题很周到。




你的结论下的不对,不要误导大众

Batch, PrepareStatement, Statemen 和事务没有任何关系!

batch , preparestatement 需要数据库和jdbc驱动的双方面支持
首先, dbms 要提供批处理和预编译的功能
其次, jdbc 对上述2个功能要有所支持
上述2着缺一不可。

至于事务方面, 每一语句一事务, 和手动划分事务, 当然后者要快的多。但这个和Batch, PrepareStatement, Statemen没有任何关系。
17 楼 sdh5724 2010-08-31  
兄弟, 我投个精华, 把票数拉回来。 8票~~~

给个总结:
在没有事务的情况下, Batch和PrepareStatement比Statemen 是没有什么区别的。 Batch所能获得优势就是CPU连续处理, 差异估计不大。我猜猜也就1-5%的差异。
有事务的情况, 我相信这个差异是很大的。 这个情况可以分为:
Batch一次提交多少条SQL, 或者一条SQL
PrepareStatement/Statemen  一次提交一条为一个事务, 或者一个事务包含多个SQL。 这些性能都是有比较大的差异的。

楼主对细节关心说明考虑问题很周到。




16 楼 skzr.org 2010-08-31  
呵呵,兄弟
被投了新手吧、啥了吧,要答题了吧
通过此帖,看出楼主的求真务实的态度——非常好,心态比那些投新手的人强太多了
大家都喜欢不明真相的围观、喷口水;看看很多人的扯谈,楼主明明说是mysql,最后扯到了oracle
现在大家看东西都很浮躁,被习惯性批判所左右了思想和心态——值得警惕啊

祝楼主答题愉快,保持一颗求真务实的心态

前行的路上,有你我他同行



peterwei 写道
Batch和PrepareStatement比Statement并没有实质性的提高,只是一小点(这个倒是让我奇怪)。
--------------------------------------
ok,结果出来了。确实是setAutoCommit(false);不起作用。原来默认装的mysql数据库不是InnoDB,而是MyISAM,所以是没有事务的。楼上的skzr.org说得对。改数据库后,重测了一下,得到我想要的结果。

清空表
普通的Statement插入数据:
插入数据量:10000
<运行时间: 17.828 秒>
运行时间:17828 毫秒
17.828
================================
清空表
通过PrepareStatement插入数据:
插入数据量:10000
<运行时间: 2.594 秒>
运行时间:2594 毫秒
2.594
================================
清空表
用批处理插入数据:
批量更新成功 10000 条记录!
<运行时间: 2.187 秒>
运行时间:2187 毫秒
2.187
================================

15 楼 wenshao 2010-08-30  
感觉以前的经验,oci driver很多bug的,少用为好
14 楼 sdh5724 2010-08-27  
murainwood 写道
不同驱动实现,效率确实往往差别很大。
另外我其实很想知道Oracle OCI相比Thin,性能到底大概可以提高多少...手头没有环境,不知道哪位同仁能透露一下。



如果不是想找麻烦, 建议你别用oci driver. 另外, 我想提醒的是, 现在JAVA的速度和用NATIVE代码, 性能几乎没有什么差异。
13 楼 whaosoft 2010-08-24  
确实用 Oracle 就看出了差距
不过本地数据库 和非本地数据库 时间也差好多。
12 楼 wenshao 2010-08-24  
mysql的JDBC Batch做得很烂的,如果是Oracle,性能会相差很大的。

MySQL需要使用一个Insert多个Values的方式性能才会好。
11 楼 finallygo 2010-08-23  
sswh 写道
用Statement,使用批处理,但autoCommit=true的时候,
结果如下:

清空表
用批处理4插入数据:
批量更新成功 10000 条记录!
1719
================================

按上面的测试,影响性能最大的应该是

事务的大小,
批处理的影响次之,
PreparedStatement和Statement似乎区别不是很大

PreparedStatement和Statement区别不大是因为sql并没有发生变化
10 楼 murainwood 2010-08-22  
不同驱动实现,效率确实往往差别很大。
另外我其实很想知道Oracle OCI相比Thin,性能到底大概可以提高多少...手头没有环境,不知道哪位同仁能透露一下。
9 楼 kimmking 2010-08-22  
murainwood 写道
dotaking 写道
找不到以前的测试数据量

pcserver,redhat5.4,oracle10g,jdk6,表中有10几个字段,
批量2000,插入效率约每秒3w+,大概是逐条插入的近10倍。

不过用plsql写procedures的话,是每秒7w+,
这说明oracle的native驱动还是比jdbc驱动强太多




不是你说的那个原因。
如果是procedure的话,很多操作直接是在DB Server端进行的,客户端调用,省却了很多网络传输的时间和资源开销。



局域网,网络不是瓶颈。
而且,我说的最后两句,是另外的东西。前面两句才是批量和逐条的效率比较。
只是我找不到测试报告了。~ :(
8 楼 peterwei 2010-08-22  
Batch和PrepareStatement比Statement并没有实质性的提高,只是一小点(这个倒是让我奇怪)。
--------------------------------------
ok,结果出来了。确实是setAutoCommit(false);不起作用。原来默认装的mysql数据库不是InnoDB,而是MyISAM,所以是没有事务的。楼上的skzr.org说得对。改数据库后,重测了一下,得到我想要的结果。

清空表
普通的Statement插入数据:
插入数据量:10000
<运行时间: 17.828 秒>
运行时间:17828 毫秒
17.828
================================
清空表
通过PrepareStatement插入数据:
插入数据量:10000
<运行时间: 2.594 秒>
运行时间:2594 毫秒
2.594
================================
清空表
用批处理插入数据:
批量更新成功 10000 条记录!
<运行时间: 2.187 秒>
运行时间:2187 毫秒
2.187
================================
7 楼 murainwood 2010-08-22  
dotaking 写道
找不到以前的测试数据量

pcserver,redhat5.4,oracle10g,jdk6,表中有10几个字段,
批量2000,插入效率约每秒3w+,大概是逐条插入的近10倍。

不过用plsql写procedures的话,是每秒7w+,
这说明oracle的native驱动还是比jdbc驱动强太多




不是你说的那个原因。
如果是procedure的话,很多操作直接是在DB Server端进行的,客户端调用,省却了很多网络传输的时间和资源开销。
6 楼 dotaking 2010-08-22  
找不到以前的测试数据量

pcserver,redhat5.4,oracle10g,jdk6,表中有10几个字段,
批量2000,插入效率约每秒3w+,大概是逐条插入的近10倍。

不过用plsql写procedures的话,是每秒7w+,
这说明oracle的native驱动还是比jdbc驱动强太多。



5 楼 skzr.org 2010-08-22  
peterwei 写道
清空表
通过PrepareStatement插入数据:
插入数据量:10000
3985
================================
清空表
用批处理插入数据:
批量更新成功 10000 条记录!
296

=========================
你确定用我相同的代码,批处理和preparestatement相差有10倍?难道是mysql和sql server数据库内部的机制问题。我有空用oracle测一下。难道是mysql setCommit(false),不起作用,奇怪了。


^ ^
如果mysql的表不是事务的,那应该测试不出多少差异
4 楼 kimmking 2010-08-22  
跟驱动的jdbc实现有直接关系,
所以各个数据库是不同的。

and 跟每条记录的数据量和复杂度也有关系。

3 楼 peterwei 2010-08-22  
清空表
通过PrepareStatement插入数据:
插入数据量:10000
3985
================================
清空表
用批处理插入数据:
批量更新成功 10000 条记录!
296

=========================
你确定用我相同的代码,批处理和preparestatement相差有10倍?难道是mysql和sql server数据库内部的机制问题。我有空用oracle测一下。难道是mysql setCommit(false),不起作用,奇怪了。

相关推荐

    SpringBatch+SpringBoot构建海量数据企业批处理系统和性能优化

    SpringBatch+SpringBoot构建海量数据企业批处理系统和性能优化,Spring Batch是一个基于Spring的企业级批处理框架,所谓企业批处理就是指在企业级应用中,不需要人工干预,定期读取数据,进行相应的业务处理之后,再...

    SpringBatch+SpringBoot构建海量数据企业批处理系统和性能优化.rar

    分享视频教程——SpringBatch+SpringBoot构建海量数据企业批处理系统和性能优化;SpringBatch为我们提供了统一的读写接口、丰富的任务处理方式、灵活的事务管理及并发处理、日志、监控、任务重启与跳过等特性,功能...

    springbatch 详解PDF附加 全书源码 压缩包

    通过阅读《Spring.Batch批处理框架.pdf》和源码,你将能够掌握 Spring Batch 的核心概念和实践技巧,为你的企业级应用开发带来高效、可靠的批量处理能力。同时,源码可以直接运行,提供了动手实践的机会,加深理解和...

    Spring Batch in Action英文pdf版

    Spring Batch框架以处理大量记录和复杂业务逻辑为核心。它提供了一套丰富的特性来处理任务执行、数据读取和写入、事务管理等批处理常见的复杂性。Spring Batch通过批次作业(Batch Jobs)来组织和控制大规模数据处理...

    spring-batch包

    在 Spring Batch 中,批处理作业被分解为一系列步骤(steps),每个步骤又由读取(read)、处理(process)和写入(write)操作组成。这些操作可以通过各种类型的 ItemReader、ItemProcessor 和 ItemWriter 进行实现...

    Spring Batch批处理框架

    事务保证了步骤中进行的操作要么全部成功,要么全部回滚,这为批处理作业提供了数据一致性和完整性保障。 4. 错误处理 错误处理是批处理中不可避免的问题。Spring Batch提供了强大的错误处理机制,比如可以配置当...

    batch_decision_tree_决策树计算_决策树_batch_影像数据_

    决策树是一种广泛应用于数据分析和机器学习的算法,尤其在处理影像数据时表现出高效性和易于理解的优势。本主题主要关注批量决策树(Batch Decision Tree)的计算及其在影像数据中的应用。 决策树算法基于一系列...

    基于Spring Batch的大数据量并行处理

    - **高性能与可扩展性**:Spring Batch支持高并发处理,可以通过简单的配置实现应用的纵向和横向扩展。 - **丰富的特性**:包括但不限于事务管理、重试机制、跳过机制、作业监控等。 - **全面的API支持**:提供了...

    spring-batch分区处理示例

    Spring Batch 是一个强大的Java框架,专门用于处理批量数据处理任务。在Spring Batch中,分区处理是一种优化策略,它将大型工作负载分解成多个较小、独立的任务,这些任务可以在不同的线程或甚至不同的节点上并行...

    spring batch 源码

    - **Chunk**:Chunk 是 Item 的批量,Spring Batch 默认以 100 个 Item 为一个 Chunk 进行处理。 - **JobRepository**:用于存储 Job 和 Step 的运行时信息,如状态、跳过的 Item 等。 - **Retry & Rollback**:...

    SpringBatch+Spring+Mybatis+MySql (spring batch 使用jar)

    Spring Batch以POJO和大家熟知的Spring框架为基础,使开发者更容易的访问和利用企业级服务。Spring Batch可以提供大量的,可重复的数据处理功能,包括日志记录/跟踪,事务管理,作业处理统计工作重新启动、跳过,和...

    详细spring batch资料

    - **日志处理**:收集、分析和归档大量日志数据。 - **ETL(提取、转换、加载)**:数据仓库中的数据处理。 - **报告生成**:定期生成报表,如销售统计、用户活动分析等。 6. **监控和管理** - **Spring Batch ...

    pro spring batch 源码

    "Pro Spring Batch" 源码分析是一个深入学习和理解该框架工作原理的好资源。 在 "Pro Spring Batch" 中,你可以找到关于以下几个核心知识点的详细信息: 1. **基础概念**: - **Job**:Spring Batch 的基本执行...

    spring-batch.jar

    Spring Batch 提供了详细的执行元数据存储,可以追踪作业和步骤的状态、日志和性能指标,方便进行监控和问题排查。 7. **版本及依赖** 在给定的`spring-batch-2.1.6.RELEASE`版本中,这是Spring Batch的一个较旧...

    spring-batch同步数据库mysql源码

    Spring-Batch作为Spring框架的一部分,为批量处理和数据同步提供了强大的支持。本文将深入探讨Spring-Batch如何与MySQL数据库进行同步,并结合给定的源码进行分析。 首先,Spring-Batch是一个轻量级、全面的批处理...

    quartz整合springbatch动态集群定时实现mysql参考

    5. **数据库脚本**:为Quartz和Spring Batch创建必要的数据库表,存储作业元数据和执行信息。 通过这个项目,开发者可以学习到如何在分布式环境中使用Quartz进行定时任务调度,以及如何利用Spring Batch进行批量...

    Spring Batch In Action

    - **监控与日志记录**:Spring Batch 提供了强大的监控功能,帮助开发者监控 Job 的执行状态和性能指标;同时,还提供了丰富的日志记录机制,便于问题定位和调试。 #### 知识点七:Spring Batch 的应用场景 - **...

    Spring Boot整合Spring Batch,实现批处理

    在这个提供的压缩包文件中,名为"batch"的文件可能包含了一个简单的Spring Boot和Spring Batch整合的示例项目。这些文件可能包括Java源代码、配置文件以及可能的测试用例。通过查看这些文件,你可以学习如何将批处理...

    Spring.Batch批处理框架

    Spring Batch是Spring的一个子项目,使用Java语言并基于Spring框架为基础开发,使得已经使用 Spring 框架的开发者或者企业更容易访问和利用企业服务。 Spring Batch 提供了大量可重用的组件,包括了日志、追踪、事务、...

    batch normalization 和 layer normalization 在RNN(LSTM、GRU)上的TensorFlow实现

    总结来说,Batch Normalization和Layer Normalization是深度学习中用于改善模型训练的重要技术,它们在RNNs中的应用可以显著提升模型的稳定性和性能。在TensorFlow中,我们可以方便地实现和集成这些技术,以优化如...

Global site tag (gtag.js) - Google Analytics