`
阅读更多

  XXXX项目是目前在实际工作中正在做的事情,该项目是一个大型系统的内容管理内核,负责最核心的meta data的集中管理,性能有较高的要求,设计初期就要求能够支持cluster。项目使用hibernate 3.2,针对开发过程中对于各种缓存的不同看法,撰写了本文。重点在于澄清一些hibernate的缓存细节,纠正一些错误的缓存用法。

一、hibernate的二级缓存
       如果开启了二级缓存,hibernate在执行任何一次查询的之后,都会把得到的结果集放到缓存中,缓存结构可以看作是一个hash table,key是数据库记录的id,value是id对应的pojo对象。当用户根据id查询对象的时候(load、iterator方法),会首先在缓存中查找,如果没有找到再发起数据库查询。但是如果使用hql发起查询(find, query方法)则不会利用二级缓存,而是直接从数据库获得数据,但是它会把得到的数据放到二级缓存备用。也就是说,基于hql的查询,对二级缓存是只写不读的。

       针对二级缓存的工作原理,采用iterator取代list来提高二级缓存命中率的想法是不可行的。Iterator的工作方式是根据检索条件从数据库中选取所有目标数据的id,然后用这些id一个一个的到二级缓存里面做检索,如果找到就直接加载,找不到就向数据库做查询。因此假如iterator检索 100条数据的话,最好情况是100%全部命中,最坏情况是0%命中,执行101条sql把所有数据选出来。而list虽然不利用缓存,但是它只会发起1 条sql取得所有数据。在合理利用分页查询的情况下,list整体效率高于iterator。

       二级缓存的失效机制由hibernate控制,当某条数据被修改之后,hibernate会根据它的id去做缓存失效操作。基于此机制,如果数据表不是被hibernate独占(比如同时使用jdbc或者ado等),那么二级缓存无法得到有效控制。

       由于hibernate的缓存接口很灵活,cache provider可以方便的切换,因此支持cluster环境不是大问题,通过使用swarmcache、jboss cache等支持分布式的缓存方案,可以实现。但是问题在于:
1、 分布式缓存本身成本偏高(比如使用同步复制模式的jboss cache)
2、 分布式环境通常对事务控制有较高要求,而目前的开源缓存方案对事务缓存(transaction cache)支持得不够好。当jta事务发生会滚,缓存的最后更新结果很难预料。这一点会带来很大的部署成本,甚至得不偿失。

结论:XXXX不应把hibernate二级缓存作为优化的主要手段,一般情况下建议不要使用。

原因如下:
1、 XXXX的DAO类大部分是从1.0升级过来,由于1.0采用的是hibernate 2.1,所以在批量删除数据的时候采用了native sql的方式。虽然XXXX2.0已经完全升级到hibernate 3.2,支持hibernate原生的批量删改,但是由于hibernate批量操作的性能不如sql,而且为了兼容1.0的dao类,所以很多地方保留了sql操作。哪些数据表是单纯被hibernate独占无法统计,而且随着将来业务的发展可能会有很大变数。因此不宜采用二级缓存。
2、 针对系统业务来说,基于id检索的二级缓存命中率极为有限,hql被大量采用,二级缓存对性能的提升很有限。
3、 hibernate 3.0在做批量修改、批量更新的时候,是不会同步更新二级缓存的,该问题在hibernate 3.2中是否仍然存在尚不确定。


二、hibernate的查询缓存

       查询缓存的实现机制与二级缓存基本一致,最大的差异在于放入缓存中的key是查询的语句,value是查询之后得到的结果集的id列表。表面看来这样的方案似乎能解决hql利用缓存的问题,但是需要注意的是,构成key的是:hql生成的sql、sql的参数、排序、分页信息等。也就是说如果你的hql有小小的差异,比如第一条hql取1-50条数据,第二条hql取20-60条数据,那么hibernate会认为这是两个完全不同的key,无法重复利用缓存。因此利用率也不高。

       另外一个需要注意的问题是,查询缓存和二级缓存是有关联关系的,他们不是完全独立的两套东西。假如一个查询条件hql_1,第一次被执行的时候,它会从数据库取得数据,然后把查询条件作为key,把返回数据的所有id列表作为value(请注意仅仅是id)放到查询缓存中,同时整个结果集放到class缓存(也就是二级缓存),key是id,value是pojo对象。当你再次执行hql_1,它会从缓存中得到id列表,然后根据这些列表一个一个的到 class缓存里面去找pojo对象,如果找不到就向数据库发起查询。也就是说,如果二级缓存配置了超时时间(或者发呆时间),就有可能出现查询缓存命中了,获得了id列表,但是class里面相应的pojo已经因为超时(或发呆)被失效,hibernate就会根据id清单,一个一个的去向数据库查询,有多少个id,就执行多少个sql。该情况将导致性能下降严重。

       查询缓存的失效机制也由hibernate控制,数据进入缓存时会有一个timestamp,它和数据表的timestamp对应。当hibernate 环境内发生save、update等操作时,会更新被操作数据表的timestamp。用户在获取缓存的时候,一旦命中就会检查它的timestamp是否和数据表的timestamp匹配,如果不,缓存会被失效。因此查询缓存的失效控制是以数据表为粒度的,只要数据表中任何一条记录发生一点修改,整个表相关的所有查询缓存就都无效了。因此查询缓存的命中率可能会很低。

结论:XXXX不应把hibernate二级缓存作为优化的主要手段,一般情况下建议不要使用。

原因如下:
1、 XXXX的上层业务中检索条件都比较复杂,尤其是涉及多表操作的地方。很少出现重复执行一个排序、分页、参数一致的查询,因此命中率很难提高。
2、 查询缓存必须配合二级缓存一起使用,否则极易出现1+N的情况,否则性能不升反降
3、 使用查询缓存必须在执行查询之前显示调用Query.setCacheable(true)才能激活缓存,这势必会对已有的hibernate封装类带来问题。



总结
       详细分析hibernate的二级缓存和查询缓存之后,针对XXXX项目的具体情况做出结论,在底层使用通用缓存方案的想法基本上是不可取的。比较好的做法是在高层次中(业务逻辑层面),针对具体的业务逻辑状况手动使用数据缓存,不仅可以完全控制缓存的生命周期,还可以针对业务具体调整缓存方案提交命中率。Cluster中的缓存同步可以完全交给缓存本身的同步机制来完成。比如开源缓存swarmcache采用invalidate的机制,可以根据用户指定的策略,在需要的时候向网络中的其他swarmcache节点发送失效消息,这一机制和XXXX1.0中已经采用的MappingCache的同步方案基本一致。建议采用。

分享到:
评论

相关推荐

    Hibernate 二级缓存 总结整理

    **Hibernate 二级缓存总结整理** 在Java的持久化框架中,Hibernate是一个广泛使用的ORM(对象关系映射)工具,它极大地简化了数据库操作。在处理大数据量或高并发的场景下,为了提高性能和减少数据库负载,...

    Hibernate-二级缓存总结 开发技术 - Java.zip

    文档"Hibernate_二级缓存总结 开发技术 - Java.doc"可能详细阐述了如何配置和使用Hibernate的二级缓存,包括配置文件的设置、缓存提供者的选用、实体和集合的缓存配置,以及实战中的优化技巧。阅读该文档将有助于...

    Hibernate_二级缓存总结

    **Hibernate 二级缓存详解** 缓存是一种提升应用程序性能的技术,它通过将常用数据存储在内存中,减少了对持久层数据库的访问,从而提高系统响应速度。在Hibernate框架中,缓存主要分为一级缓存和二级缓存。 **1. ...

    hibernate缓存总结

    本篇将详细总结Hibernate的缓存机制,包括一级缓存、二级缓存和查询缓存,并探讨相关的优化策略。 一、Hibernate一级缓存 一级缓存是Hibernate内置的Session级别的缓存,它默认开启且不可关闭。当对象被加载到...

    php缓存技术总结

    查询缓存是针对数据库查询结果的缓存,它保存特定查询的数据结果,当下次执行相同查询时,直接从缓存中读取数据,不再执行数据库查询。这种方式需要缓存机制能够识别并匹配相同的查询语句,以便提供正确的缓存内容。...

    ASP.NET缓存技术应用总结

    本文主要总结了ASP.NET中的各种缓存策略及其应用。 首先,我们要了解缓存的基本类型。根据位置,缓存可以分为浏览器端缓存和服务器端缓存。 1. 浏览器端缓存:通过设置HTTP响应头,如`Last-Modified`和`If-...

    hibernate一级缓存、二级缓存和查询缓存

    ### 总结 Hibernate的一级缓存、二级缓存和查询缓存共同构建了一个层次化的缓存体系,有效地缓解了数据库的压力,提升了应用的运行效率。理解并掌握这些缓存机制,对于优化Hibernate应用至关重要。在实践中,合理...

    Java缓存技术总结初见

    【Java缓存技术总结初见】 缓存技术在IT领域中扮演着至关重要的角色,尤其在高并发和大数据量的应用场景下,缓存能够显著提升系统性能,减轻服务器压力。本文将简要介绍缓存的基本概念,分析其优缺点,并探讨几种...

    ASP.Net缓存总结及分析 分享

    提高性能最好最快的办法当然是通过缓存来改善,对于任何一个web开发者都应该善用...Asp.net下的缓存机制十分强大,用好缓存机制可以让我们极大的改善web应用的性能,下面是一些总结的缓存的知识点,与大家分享交流:

    JSP 页面缓存以及清除缓存

    #### 五、总结 JSP页面缓存是一项重要的优化技术,能够有效提升用户体验和服务器性能。通过合理配置服务端和客户端的缓存策略,开发者可以在保证数据实时性的前提下减少网络流量消耗和服务器负载压力。在实际应用中...

    hibernate一级缓存和二级缓存的区别与联系

    总结来说,Hibernate 的一级缓存和二级缓存都是为了提高数据访问效率,但它们在范围和并发控制方面有所不同。一级缓存是事务级别的,保证了数据的强一致性,而二级缓存提供了更多的灵活性,可以跨事务共享,但需要...

    redis本地缓存与redis缓存

    总结来说,本地缓存和Redis缓存各有优势,适用于不同的场景。理解它们的工作原理和应用场景,可以帮助我们更好地设计和优化系统的数据存储和访问策略。同时,掌握Redis的高级特性及最佳实践,能有效提升系统性能和...

    geoserver配置图层缓存

    总结来说,正确配置和利用Geoserver的图层缓存功能,能有效提升地图服务的性能,降低服务器负担,改善用户访问体验。通过不断优化缓存策略,可以更好地适应不同场景和需求,实现高效、稳定的空间数据服务。

    MyBatis缓存(一级缓存、二级缓存)

    总结来说,MyBatis的一级缓存和二级缓存是提高数据库操作效率的有效工具。一级缓存适用于单个SqlSession内的重复查询,而二级缓存则能在更广的范围内复用数据。然而,在使用缓存时,开发者必须考虑数据一致性、缓存...

    php文件缓存方法总结

    输入参数包括缓存ID、缓存内容和可选的缓存生命周期(默认为0,表示永不过期)。缓存数据会被序列化并写入文件,同时记录创建时间和过期时间。 4. `delete($id)`:此方法用于删除指定ID的缓存。首先检查缓存是否...

    清空本地DNS缓存

    #### 总结 以上介绍了三种清空本地DNS缓存的方法:通过命令行工具、服务管理器以及浏览器设置。每种方法都有其适用场景和特点,用户可以根据自己的需求和操作系统的类型选择合适的方法。需要注意的是,在执行任何...

Global site tag (gtag.js) - Google Analytics