yourenyouyu2008

浏览: 291038 次
性别:
来自: 北京

最近访客更多访客>>

a454213722

xgwzw0011

HarborChung

linchers

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

关于hibernate的批处理

博客分类：

jpa/hibernate

Hibernate JDBC Seam EJB JPA

很多系统中大数据批量处理在所难免，网上也有很多关于hibernate的批处理建议，基本上都是一样的，但如果我们的系统设计的比较纯面向对象，这种方案是非常失败的。下面我来讲述下我使用这种方法碰到的问题，然后分析问题的原因，给出我们目前能接受的方案。

传统方案

利用hibernate.jdbc.batch_size参数，session.flush();，session.clear();来释放内存

<hibernate-configuration>
<session-factory>
.........
<property name=” hibernate.jdbc.batch_size”>50</property>
.........
<session-factory>
<hibernate-configuration>

Session session=HibernateUtil.currentSession();
Transatcion tx=session.beginTransaction();
for(int i=0;i<100000;i++)
...{
Student s=new Student();
s.setName(“Paul”);
session.save(s);
if(i%50==0) //以每50个数据作为一个处理单元
...{
session.flush(); //保持与数据库数据的同步
session.clear(); //清除内部缓存的全部数据，及时释放出占用的内存
}
}
tx.commit();

问题

1）如果Student的某个属性是别的对象，这样.flush()时会去find每一个关联的对象，这样速度是大打折扣了

2） session.clear()是个相当耗时的方法，特别是当缓存中数据量大的时候。Hibernate从来不建议程序调用该方法，由于session是基于线程的，所以当一个请求结束后session占用的内存自然会释放，这种速度可以忽略不计。

上面的问题主要出在问题1）

新的方案

以空间换时间

针对传统方案一一解决

1）预先批量查出Student关联的属性对象，这样.flush()时就不需要去find了。

一般我们的对象关联都设置为延迟加载，所以循环时才去find，这样性能也是很慢的

有两种办法来解决

1-1】 select h,m 查询多个对象，用List <Object[]>来接收，这样一次就把需要的数据全查到内存中了

1-2】 join fetch，具体参加jpa语言中的join

2）不调用.clear()，用做够的内存来跑

List <Object[]> addlist=em.createQuery("select h,m from OweTmpVO h,Meter m join fetch m.contract where h.meterid=m.id and h.je<0 and h.cbdate<:date")

.setParameter("date",date)

.getResultList();

System.out.println("--addlist--size:"+addlist.size());

for(Object[] obs:addlist){

Meter meter=(Meter)obs[1];

OweTmpVO oweTmp=(OweTmpVO)obs[0];

Owe newowe=new Owe();

newowe.setId(oweTmp.getOweid());

newowe.setQfdate(oweTmp.getCbdate());

newowe.setQfje(oweTmp.getJe());

newowe.setMeter(meter);

newowe.setXzqh(meter.getXzqh());

OweCustomerInfo oci=new OweCustomerInfo();

oci.setAddress(meter.getAddress());

oci.setId(newowe.getId());

oci.setLxr(meter.getLinkMan().getLxr());

oci.setName(meter.getUsername());

oci.setTel(meter.getLinkMan().getTel());

if (meter.getContract()!=null){

oci.setHbh(meter.getContract().getHbh());

oci.setLxr(meter.getContract().getLinkMan().getLxr());

oci.setName(meter.getContract().getUsername());

oci.setTel(meter.getContract().getLinkMan().getTel());

}

newowe.setCustomerInfo(oci);

em.persist(newowe);

em.remove(oweTmp);

}

需要解决的问题

新的方案需要大量的内存，而虚拟机只能提供1G多的内存，1百万的记录足够让内存溢出。

我们需要将数据分批来处理，比如根据某些条件来限制查出的记录数，或者用分页（一次50万条），还有就是不能让这些分批在同一线程中，在同一线程中就没有分批的意义了（问题同样存在）。我们可以有两种选择

1）通过页面来手动操作，这样就把每批放到不同的线程中了。但这需要用户参与，一般来说客户不会采取的。

2）采用异步调用（定时任务），每个任务相当与一个独立的线程，这样就不用考虑session内存释放的问题了。

把每批用一个任务来完成，间隔执行每个任务即可，注意设置任务间隔，尽量保证同一时间只有一个任务在执行，要不内存还是会溢出的。

3）利用ejb来分布式处理，由于ejb可以独立部署，这样就相当于扩大了内存，可以在web层调用多个ejb来不一个大的任务分成多个小的任务来处理。

下面是我们基于seam的异步调用

public void createReportByYear(){

//临时设置session为足够长，与本方案无关

javax.servlet.http.HttpServletRequest request=(HttpServletRequest)javax.faces.context.FacesContext.getCurrentInstance().getExternalContext().getRequest();

int timeout=request.getSession().getMaxInactiveInterval();

request.getSession().setMaxInactiveInterval(60000);

em.createQuery("delete OweYearReport").executeUpdate();

XzqhVO DCQ=getXzqh();

//处理一个区的数据

createReportByYear1(DCQ);

//为每个区的任务设置个开始时间

TimerSchedule timerSchedule0=new TimerSchedule(10l);//马上

TimerSchedule timerSchedule1=new TimerSchedule(1000*60*1l);//一分钟后

TimerSchedule timerSchedule2=new TimerSchedule(1000*60*2l);

TimerSchedule timerSchedule3=new TimerSchedule(1000*60*3l);

TimerSchedule timerSchedule4=new TimerSchedule(1000*60*4l);

TimerSchedule timerSchedule5=new TimerSchedule(1000*60*4l);

TimerSchedule timerSchedule6=new TimerSchedule(1000*60*5l);

//seam中的事件机制，用来启动任务，

events.raiseTimedEvent("createReportByYear_xzqh1", timerSchedule0);

events.raiseTimedEvent("createReportByYear_xzqh2", timerSchedule1);

events.raiseTimedEvent("createReportByYear_xzqh3", timerSchedule2);

events.raiseTimedEvent("createReportByYear_xzqh4", timerSchedule3);

events.raiseTimedEvent("createReportByYear_xzqh5", timerSchedule4);

events.raiseTimedEvent("createReportByYear_xzqh6", timerSchedule5);

events.raiseTimedEvent("createReportByYear_xzqh7", timerSchedule6);

}

//具体任务

@Observer("createReportByYear_xzqh1")

public void createReportByYearXzqh1(){

em.getTransaction().begin();

createReportByYear1(XzqhVO.XCQ);

em.getTransaction().commit();

}

//真正的业务方法，按区来处理

public void createReportByYear1(XzqhVO xzqh){

xzqh=(XzqhVO)DataDictionaryAction.instance().getDataItemById(XzqhVO.class, xzqh.getId());

List<Owe> oweList=em.createQuery("select h from Owe h left join fetch h.meter left join fetch h.customerInfo where h.xzqh=:xzqh order by h.meter")

.setParameter("xzqh", xzqh)

.getResultList();

关于hibernate的大数据批量处理.rar (8.9 KB)
下载次数: 109

9
顶

5
踩

分享到：

seam对话( conversation )概述 | 用hibernate的关联代替数据库的外键关联

2008-08-14 13:42
浏览 10504
评论(6)
分类:企业架构
查看更多

6 楼 iamzealotwang 2008-08-19

Javaeye的表情有问题-。- 没想发那个表情貌似他这个表情都是混的。。

5 楼 iamzealotwang 2008-08-19

引用

这样用jdbc写起来不是相当的麻烦吗，即使单个对象有几十个字段用jdbc做起来也是相当容易出错。

这个问题我自己想过了，具体的实现都要借助Hibernate一些方法才行，需要具体研读一下其代码才行。我试着读了读，感觉很吃力。不知道您对Hibernate代码有研究么，可否指点指点我？

引用

这样批量主要是在一些大规模的运算中使用，比如产生一个统计报表等。

这个要是不麻烦的话，您能具体的举个例子么，因为报表这个东西我是一点概念都没有。

麻烦您了。。。

4 楼 yourenyouyu2008 2008-08-19

我想的是对于 one-to-many的表采用的方法是先批量插入one端，然后再批量插入many端，这样的话也不会违反主键为空的约束。

这样用jdbc写起来不是相当的麻烦吗，即使单个对象有几十个字段用jdbc做起来也是相当容易出错。

这样批量主要是在一些大规模的运算中使用，比如产生一个统计报表等。

3 楼 iamzealotwang 2008-08-18

您好，是这样的。我自己测试了一下单表Hibernate回调JDBC API 的操作速度是你所说的传统解决方案的6~10倍左右。
传统方法：3000ms
回调API：300ms

不过我也同意你关于多表连接情况下的批量插入看法。

我想的是对于 one-to-many的表采用的方法是先批量插入one端，然后再批量插入many端，这样的话也不会违反主键为空的约束。

不过我想不出来，具体的业务例子不能够采用这种批量插入策略的。其实我几乎想不出来在什么情况下需要进行批量插入，还是大规模的。我还没有参加工作所以没有什么相关的经验。您能帮我举出一个例子么？谢谢了。

2 楼 yourenyouyu2008 2008-08-16

用JDBC基本上是误导，如果是级联对象就要增加级联对象的sql，批量selct所用的时间也就几十秒而已。百万级的数据十分钟内就可以了。

1 楼 iamzealotwang 2008-08-14

我看书上写的是
建议批量更新删除等方法还是用Hibernate回调JDBC的API好因为Hibernate批量处理的时候都是先Select出来再批量处理数据的，所以感觉你给出的这个方案好像还是没有从根本上解决这个问题。不知道我说的对不对。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

关于hibernate的批处理

传统方案

问题

新的方案

需要解决的问题

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

关于hibernate的批处理

传统方案

问题

新的方案

需要解决的问题

评论

发表评论

相关推荐

hibernate实体状态

Hibernate的FlushMode 和seam对话中的FlushMode

jpa相关知识总结

hibernate一级和二级缓存

conversation flush-mode

hibernate 的find与普通createQuery的区别

用hibernate的关联代替数据库的外键关联

最近访客更多访客>>