- 浏览: 185532 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
iteeye:
$是元字符,需要转义
java转义字符对照表 -
huajuande:
haha
java转义字符对照表 -
crazyox:
吼吼,否则又被评为隐藏贴......
看看外国人的幽默感 -
imjl:
恩。。。我想看高级特性。
各种cache技术基本特性 -
Arden:
ehcache是基于RMI的cluster的!
各种cache技术基本特性
摘自: http://hi.baidu.com/xproduct/blog/item/28297009f7016ccd3bc76
首先,介绍一下我(作者)自己使用Cache的背景,以便读者更清楚地了解我下面要讲述哪些内容。
我主要是一个Cache实现者,而不是使用者。为了给一些ORM(比如JPA实现)提供Cache支持,我需要包装其它的Open Source Cache,并考察它们的特性。
我对这些Open Source Cache的一些工作原理,了解得比较多。具体配置和使用细节,了解的比较少。
本文主要讲述的也是Cache的特性和工作原理,而不是一个安装、配置、使用的入门手册。
本文简述Cache的一般特性,详述Cache的高级特性,比如,分布式Cache,关联对象的Cache,POJO Cache等。
阅读本文需要具备基本的Cluster知识,ORM知识,数据库事务知识。本文不解释这些基本概念。
-------------------------------------------------------
Cache Features
首先,我们来浏览一下常见的Cache。
这个链接给出了常用的Java Open Source Cache。
http://java-source.net/open-source/cache-solutions
memcached,JBoss Cache,SwarmCache,OSCache,JCS,EHCache等开源项目的出镜率和关注率比较高。
memcached和其他几个不同,后面会详述。
JBoss Cache的特点是,功能大而全,可算是Cache集大成者,几乎什么都支持。
其余的几个都很轻量。SwarmCache,OSCache,JCS支持Cluster。EHCache不支持Cluster。
下面列出Cache的基本特性。
1. 时间记录
数据进入Cache的时间。
2. timeout过期时间
Cache里面的数据多久过期
3. Eviction Policy 清除策略
Cache满了之后,根据什么策略,应该清除哪些数据。
比如,最不经常被访问的数据,最久没有访问到的数据。
4. 命中率
Cache的数据被选中的比率
5. 分级Cache
有些Cache有分级的概念。比如,几乎所有的Cache都支持Region分区的概念。可以指定某一类的数据存放在特定的Region里面。JBoss Cache可以支持更多的级别。
6. 分布式Cache
分布在不同计算机上的Cache
7. 锁,事务,数据同步
一些Cache提供了完善的锁,事务支持。
以上特性,大部分Cache都有相应的API支持。这些API很直观,也很简单,本文不打算展开讲述。
本文下面主要介绍,memcached和JBoss Cache这两个具有代表意义的Cache的高级特性,包括分布式Cache的支持。
-------------------------------------------------------
memcached
http://www.danga.com/memcached/
memcached是一个Client Server结构的远程Cache实现。
Server是用C写的,提供了多种语言的客户端API,包括Java, C#, Ruby, Python, PHP, Perl, C等多种语言。
memcached主要使用在Shared Nothing Architecture中。应用程序通过客户端API,从memcached server存取数据。
典型的应用,比如,用memcached作为数据库缓存。
也常有这样的用法,用memcached存放HTTP Session的数据。具体做法是包装Session Interface,截获setAttribute(), getAttribute()方法。
MemcachedSessionWrapper {
Object getAttribute( key ){
return memcachedClient.get (session.getId() + key);
}
void setAttribute( key, value ){
memcachedClient.setObject(session.getId() + key, value);
}
}
不同计算机上的应用程序通过一个IP地址来访问memcahced Server。
同一个key对应的数据,只存在于一台memcached server的一份内存中。
memcached server也可以部署在多台计算机上。Memcached通过key的hashcode来判断从哪台memcached server上存取数据数据。我们可以看到,同一个key对应的数据,还是只存在于一台memcached server的一份内存中。
所以,memcached不存在数据同步的问题。这个特性很关键,我们后面讲到Cluster Cache的时候,就会涉及到数据同步的问题。
memcached由于是远程Cache,要求放到Cache的Key和Value都是Serializable。
远程Cache,最令人担心的网络通信开销。据有经验的人说,memcached网络通信开销很小。
memcached的API设计也是远程通信友好的,提供了getMulti()等高粒度的调用方法,能够批量获取数据,从而减少网络通信次数。
-------------------------------------------------------
JBoss Cache
http://www.jboss.org/products/jbosscache
有一个商业Cluster Cache,叫做tangosol。
JBoss Cache是我唯一知道的能够和tangosol媲美的开源Cache。
Cluster Cache的数据同步,需要网络通信,这就要求放到Cache的数据是Serializable。
JBoss Cache提出了POJO Cache的概念,意思是数据不是Serializable,一样能够在Cluster中同步。
JBoss POJO Cache通过AOP机制,支持对象同步,支持对象属性的同步,支持关联对象的Cache,支持继承,集合,Query,并支持不同级别的事务,俨然一个小型内存数据库级别的数据存储系统。
下面进行解释。
最令人迷惑不解的是这个POJO的Cluster同步如何实现。
JBoss POJO Cache采用AOP来照管了POJO的通信和传播工作。天下没有免费的午餐,POJO不支持序列化,框架本身就要做这个工作——Marshal and Unmarshal,比如通过把Java对象翻译成XML,传播出去,对方收到XML,再翻译成Java对象。
上面说了,JBoss POJO Cache很像一个小型存储容器,JBoss POJO Cache的对象管理也非常类似Hibernate,JDO,JPA等ORM工具,同样有Detach和Attach的概念。
Attach就是put,把对象放入到Cache中。Detach就是remove,把对象从Cache中删除。为啥要多起个名?
原因是,put的时候,放进去的是个干干净净的POJO,出来的时候,就是Enhanced Object,里面夹杂了很多Interceptor代码,监听对象的方法。
你操作这个对象的时候,JBoss AOP框架就获得了相应的通知,能够做出相应的反应,比如数据同步等。
JBoss POJO Cache支持对集合类型的AOP。同样需要把集合Attach(Put)进Cache,然后get出来,然后对集合进行操作,就可以被JBoss AOP截获了。
JBoss POJO Cache的基础是JBoss Tree Cache。这个Tree Cache类似于一个XML DOM树形数据结构。
JBoss Cache采用Full Qualified Name作为Cache Key,类似于XPath。比如,a/b/c/d。
当你删除a/b的时候,a/b/c,a/b/c/d等所有属于a/b的Key和对应数据,都被删除。
JBoss Cache的findObjects方法能够找出一串对象。比如,findObjects根据a/b/c/d能够找出a,b,c,d等4个对象,放在一个Map中返回。
具体用法要参见API详细说明,因为JBoss POJO Cache提供了很多行为模式。
这 种分级的Cache功能很有用,实现起来也不难。只是,我觉得,还是不够强大。既然支持了类似于XPath的Key,不如索性支持XPath的条件查询。 比如,a[name=”n”]/b/c。当然,实现这种功能的代价非常大,需要遍历整个Cache Tree,正如XPath需要遍历整个DOM节点一样。
最后,JBoss Cache和tangosol一样,都支持了一个我认为如同鸡肋一般的功能,锁机制和事务支持。这个事务支持的意思是,Cache本身实现了类似于数据库的4种事务隔离级别。
在我看来,这种支持无疑是为了赚取眼球。Cache不当做Cache来用,搞些歪门邪道,大而不当。想当作数据库来用,那还不如把主要功夫花在上述提到的那种精确批量查询功能上。
-------------------------------------------------------
Cluster同步
Cluster 之间的Cache同步有多种实现方法。比如,JMS,RMI,Client Server Socket等方法,用的最多的,支持最广的方法是JGroups开源项目实现的Multicast。配置Cluster Cache,通常就相当于配置JGroups,需要阅读JGroups配置文档。
Cache的操作通常有4个,get,put,remove,clear。
对 于Cluster Cache来说,读操作(get)肯定是Local方法,只需要从本台计算机内存中获取数据。Remove/clear两个写操作,肯定是Remote方 法,需要和Cluster其他计算机进行同步。Put这个写方法,可以是Local,也可以是Remote的。
Remote Put方法的场景是这样,一台计算机把数据放到Cache里面,这个数据就会被传播到Cluster其他计算机上。这个做法的好处是Cluster各台计算机的Cache数据可以及时得到补充,坏处是传播的数据量比较大,这个代价比较大
Local Put方法的场景是这样,一台计算机把数据放到Cache里面,这个数据不会被传播到Cluster其他计算机上。这个做法的好处是不需要传播数据,坏处 是Cluster各台计算机的Cache数据不能及时得到补充,这个不是很明显的问题,从Cache中得不到数据,从数据库获取数据是很正常的现象。
Local Put比起Remote Put的优势很明显,所以,通常的Cluster Cache都采用Local Put的策略。各Cache一般都提供了Local Put的配置选项,如果你没有看到这个支持,那么请换一个Cache。
-------------------------------------------------------
Center vs Cluster
Memcached可以看作是Center Cache。
Center Cache和Cluster Cache的特性比较如下:
Center Cache没有同步问题,所以,remove/clear的时候,比较有优势,不需要把通知发送到好几个计算机上。
但是,Center Cache的所有操作,get/put/remove/clear都是Remote操作。而Cluster Cache的get/put都是Local操作,所以,Cluster Cache在get/put操作上具有优势。
Local get/put在关联对象的组装和分拆方面,优势比较明显。
关联对象的分拆是这个意思。
比如,有一个Topic对象,下面有几个Post对象,每个Post对象都有一个User对象。
Topic对象存放到Cache中的时候,下面的关联对象都要拆开来,分成各自的Entity Region来存放。
Topic Region -> Topic ID -> Topic Object
Post Region -> Post ID -> Post Object
User Region -> User ID -> User Object
这个时候,put的动作可能发生多次。Remote Put的开销就比较大。
Get的过程类似,也需要get多次,才能拼装成一个完整的Topic对象。
-------------------------------------------------------
过期数据
Cache可以用在任何地方,比如,页面缓存。但Cache的最常用场景是用在ORM中,比如,Hibernate,JDO,JPA中。
ORM Cache的使用方法有个原则——不要把没有Commit的修改数据放入到缓存中。这是为了防止Read Dirty。
数据库事务分为两种,一种是读事务,不修改数据,一种是写事务,修改数据。
写事务的操作流程如下:
db.commt();
cache.remove(key); // 这一步操作,清除了Cache数据,也记录了一个时间removeTime。
读事务的操作流程如下:
readTime = current time;
data = cache.get(key);
if(data is null){
data = db.load(key);
cache.put(key, data, readTime); // 这里要readTime传进去
}
这里需要注意的是put的时候,需要readTime这个参数。
这个readTime要和上一次的removeTime进行比较。
如果readTime > removeTime,这个put才能成功,数据才能够进入缓存。
这是为了保证不把过期数据放入到Cache中,及时反映数据库的变化。
另外,需要注意的是,cache.remove(key); 这个事件需要传播到Cluster其他计算机,通知它们清理缓存。
为什么需要这个通知?
一定要注意,这不是为了避免并发修改冲突。并发修改冲突的避免需要引入乐观锁版本控制机制。
有可能存在这样的误解,认为有了乐观锁版本控制机制,就不需要Cache.remove通知了。这是不对的。
Cache.remove通知的主要目的是,保证缓存能够及时清理过期数据,反映数据的变化,保证大部分时间内,应用程序显示给用户的不是过期数据。
另外,db.commt(); cache.remove(key); 这两步调用之间,有很小的可能发生另外的事务。这段极小的时间内,可能无法保证Read Committed,可能出现很短期的过期数据。
为什么说很短期,因为紧接着的Cache.remove就会清理过期数据。
如果偏执到这种程度,这么短期的几乎不可能发生的小概率事件,都不能容忍,那么可以,db.commt()之前,给Cache加一个悲观锁,不让别的事务,把数据Put进入Cache,就可以防止这个小概率、微影响的事件。
JBoss Cache和Tangosol就提供了这类鸡肋一般的悲观锁机制。典型的开发资源配置不当,有用的需要的不做,没用的功能使劲做。
ORM Query Cache
ORM Cache一般分为两种。一种是ID Cache(ORM文档中称为二级Cache),用来存放Entity ID对应的Entity对象;一种是Query Cache,用来存放一条查询语句对应的查询结果集。
ID Cache非常直观,如同上述讲述的,一般是一个Entity Class对应一个Region,Entity存放到对应的Region里面。
Query Cache比较复杂,而且潜在作用很大,值得仔细讲解。
现有的ORM对Query Cache的支持并不是很理想。
比如,Hibernate把整个结果集直接放在Query Cache中。这样,有任何风吹草动,发生了任何数据库的写操作,Query Cache都需要清空。
有 一种比较好的做法,把ID List存放在Query Cache中,每次获取的时候,先获取ID List,然后根据ID List获取Entity List。Query Cache根据Query涉及到的Table Name来进行清理,一旦发生对这些Table Name的修改操作,就可以根据不同情况,清理Query Cache。
比如,select t2.* from t1, t2 where t1.id = t2.foreign_id and t1.name = ‘a’
那么insert into t1, delete from t1, insert into t2, delete from t2都会清除这条Query Cache。
同样的 update t1 set 这样的语句也会清除这条Query Cache。
Hibernate为什么不这么做,因为Query Cache的情况比较复杂。也许选择的结果集并不是只有一个Entity类型,也许只是几个字段。
这个地方,如果细分,还是有很多功夫可以做的。而且也很值得花功夫做,因为Query Cache对于性能的提高,有很大作用。
-------------------------------------------------------
ORM Query Cache
Cache可以用在任何地方,比如,页面缓存。但Cache的最常用场景是用在ORM中,比如,Hibernate,JDO,JPA中。
ORM Cache一般分为两种。一种是ID Cache(ORM文档中称为二级Cache),用来存放Entity ID对应的Entity对象;一种是Query Cache,用来存放一条查询语句对应的查询结果集。
ID Cache非常直观,如同上述讲述的,一般是一个Entity Class对应一个Region,Entity存放到对应的Region里面。
Query Cache比较复杂,而且潜在作用很大,值得仔细讲解。
现有的ORM对Query Cache的支持并不是很理想。
比如,Hibernate把整个结果集直接放在Query Cache中。这样,有任何风吹草动,发生了任何数据库的写操作,Query Cache都需要清空。
有 一种比较好的做法,把ID List存放在Query Cache中,每次获取的时候,先获取ID List,然后根据ID List获取Entity List。Query Cache根据Query涉及到的Table Name来进行清理,一旦发生对这些Table Name的修改操作,就可以根据不同情况,清理Query Cache。
比如,select t2.* from t1, t2 where t1.id = t2.foreign_id and t1.name = ‘a’
那么insert into t1, delete from t1, insert into t2, delete from t2都会清除这条Query Cache。
同样的 update t1 set 这样的语句也会清除这条Query Cache。
Hibernate为什么不这么做,因为Query Cache的情况比较复杂。也许选择的结果集并不是只有一个Entity类型,也许只是几个字段。
这个地方,如果细分,还是有很多功夫可以做的。而且也很值得花功夫做,因为Query Cache对于性能的提高,有很大作用。
-----------------------------------------------------------
Query Key
Query Cache的性能需要考虑几个方面。比如,Query Key。Query Key一般由2个部分组成:Query String部分,SQL, HQL, EQL, or OQL;参数部分。
寻找Query Key的对应数据的时候,Query Key的比较有两个步骤,先hash,然后equals。所以,Query Key的hashcode和equals两个方法很重要。尤其是equals方法。
equals 方法需要比较很长的Query String。如果没有命中,Query String不相等,那么开销很小,因为通常来说,不相等的String长度都不同,或者前面的字符串都不相同。开销最大的是命中的时候,Query String相等,那么需要把String从头比到尾。
我们可以采取一些方法来提高String的比较速度。比如,大部分的情况属于静态查 询,我们可以采用Singleton String。相同reference的String之间的比较速度很快。对于ORM来说,最好直接使用最外面的HQL, EQL, OQL作为Query Key,而不是采用生成的SQL结果。因为生成的SQL结果每次都是一个新String,具有不同的reference,Cache命中的时候,需要比较 整个字符串。
动态拼装的Query String的性能提高比较难办。因为最终的结果,都是一个新String。我采用的一种方式是,动态拼装的结果是一个String[]。两个 String[]如果相等,那么里面的元素String的reference都是相等的,这是由JVM对一个Class内部的String常量进行优化的 结果。
比如,
String[] a = {
“select * from t where”
“a = 1”
“and b = 2”
};
String[] b = {
“select * from t where”
“a = 1”
“and b = 2”
};
那么a和b的比较只需要3次String reference的比较
评论
这个是不正确得,ehcache1.2之后就支持cluster了,
还有一点就是关于query cache描述也不是很正确,
1 query cache其实应该是一个很大得范畴,不应该只用在orm那一层,也不局限把sql语句作为key,orm里这样使用定义query cache只是情况之一。
2 查询结果集也可以被缓存。只有当经常使用同样的参数进行查询时,这才会有些用处。在查询缓存中,它并不缓存结果集中所包含的实体的确切状态;它只缓存这些实体的标识符属性的值、以及各值类型的结果。需要将打印sql语句与最近的cache内容相比较,将不同之处修改到cache中,所以查询缓存通常会和二级缓存一起使用。而query cache虽然能提高性能,但是按照hibernate in action的话来说适用场景较少。
而如果我们放大query cache的概念,那么对于实时性要求不是很高的数据,它就能极大的提高性能,比如说主页,如果主页更新的时间为5分钟,那么query cache就能发挥其所长了。
发表评论
-
理解OO
2007-10-27 16:28 3771OO的特征: 封装: 封装是指隐藏对象的属性和实现细节.封 ... -
hibernate与ibatis
2007-10-22 15:39 4022ibatis比hibernate灵活,易学. ibatis对于 ... -
strictfp 与 volatile
2007-10-19 22:51 3150转自:http://hi.baidu.com/liyunqi1 ... -
TCP协议总结
2007-10-16 00:39 3956TCP/IP协议遵守四层的模型概念:应用层、传输层、网络层和网 ... -
TCP/IP协议详解
2007-10-16 00:08 4583转自:http://www.blogcn.com/u2/51/ ... -
POP3与SMTP协议
2007-10-12 16:49 4937简单的说:pop3协议是收 ... -
UDP协议简介
2007-10-12 16:32 2342摘自:http://www.cnpaf.net/cla ... -
Java EE术语
2007-10-12 16:29 1185J2SE - java 2 stan ... -
使用JAXB处理XML文档
2007-10-11 14:57 2170JAXB介绍: http://www.itisedu.com/ ... -
java转义字符对照表
2007-09-14 16:06 29011点的转义:. ==> u002E 美元符号的转义:$ ... -
IzPack 打包工具
2007-08-08 14:28 1520IzPack is an installers generat ... -
Hermes JMS监控工具
2007-08-08 14:22 3367HermesJMS is a console that hel ... -
Eclipse的远程调试(for tomcat server)
2007-04-25 13:23 4560前一阵,做了一个项目,项目分为若干个小模块,要求每个模 ... -
Re: Maven和Ant相比好在哪儿?
2007-04-23 16:18 1565clark 写道转贴www.matrix.org.cn 上的 ... -
推荐的几个比较帅的快捷键(for eclipse)
2006-10-11 20:47 12101.自动运行java application ctrl+F ...
相关推荐
### CACHE技术手册核心知识点概述 #### 一、CACHE技术概览 - **CACHE技术**:CACHE是一种高性能的数据管理平台,由InterSystems开发。它结合了关系数据库管理系统(RDBMS)与对象数据库的功能,并且提供了丰富的工具...
InterSystems社区活跃,开发者们可以在这里交流经验,解决问题,共同推动Cache技术的发展。 总的来说,Cache数据库是医疗行业的重要技术基石,它的强大功能和易用性使其成为构建高效医疗信息系统的理想选择。通过...
### Cache性能分析 #### 一、引言 随着计算机技术的快速发展,CPU的运算速度显著提升,这无疑推动了整个计算机系统的性能飞跃。...随着技术的进步,未来Cache的设计也将更加智能化,更好地适应各种复杂的应用场景。
Galbanum.Cache可能包含对各种异常情况的处理,比如缓存击穿、缓存穿透等问题。 7. **监控与日志**:为了便于系统运维,Galbanum.Cache可能提供了监控指标和日志记录,帮助开发者分析缓存的使用情况,定位潜在问题...
多级流水线技术是现代高性能CPU的关键特性之一。流水线技术将CPU的执行过程分为多个独立阶段,比如取指、解码、执行、写回等,使得每个阶段可以并行进行,从而提高了指令执行速度。多级流水线则是在单一流水线基础上...
这次的“Cache数据库系统开发培训”资料将深入探讨Cache的核心特性和开发实践,帮助开发者提升对这一技术的理解和应用能力。 1. **Cache的基本概念** - Cache是一种对象数据库,它结合了关系型数据库和面向对象...
首先,我们需要理解PrimoCache的基本工作方式。PrimoCache通过在内存中创建一个高速缓存层,将频繁访问的数据暂存其中,从而减少对硬盘的直接读写操作。这就好比在硬盘和应用程序之间设置了一个高速通道,使得数据...
同时,这也将涵盖Verilog HDL的基本语法和使用技巧,以及Cache设计的关键技术。 在整个设计过程中,开发者需要特别注意数据传输的分块问题,以及如何在有限的带宽下实现LRU替换策略。此外,理解和应用无限写缓冲...
通过使用这个简易的cache模拟器,学习者可以亲手实践各种缓存配置,观察它们如何影响命中率和程序性能,从而深入理解缓存工作原理。此外,对于计算机系统设计和优化的研究者,这样的工具也提供了实验平台,以探索新...
7.5 客户端Result Cache技术 Oracle还提供了客户端级别的Result Cache,允许应用程序在本地缓存查询结果,减轻数据库服务器的压力。这需要客户端支持Oracle Call Interface (OCI) 或其他高级连接库,如JDBC的Oracle...
除了MMU之外,ARM920T还支持Cache技术,用以提高数据访问速度。Cache是一种高速存储器,位于CPU与主内存之间,用于存储频繁访问的数据副本,从而减少CPU等待时间。 **Cache的基本原理** - **多级Cache**:ARM920T...
1. **STM32的Cache特性**:STM32的Cache通常包括I-Cache(指令Cache)和D-Cache(数据Cache),支持独立配置和控制。 2. **启用与配置**:通过寄存器配置开启或关闭Cache,同时需考虑启动时序,防止数据一致性问题...
本文将详细讲解"cache/ehcache缓存使用"的相关知识点,包括缓存的基本概念、Ehcache的介绍、以及如何在Java应用中使用Ehcache进行缓存操作。 首先,我们要理解什么是缓存。缓存是一种存储技术,它临时存储常用或...
这一系列的知识点覆盖了缓存的基本原理、设计考虑、性能优化以及在C6000系列DSP中的具体应用细节。 ### 一、缓存基础 缓存是计算机系统中一种高速存储器,用于存储数据或指令,以便CPU能够快速访问,从而减少等待...
### FlashSystem 9100系支持19TB FCM NVMe和MRAM Cache技术 #### 技术背景与概述 IBM推出的FlashSystem 9100系列存储系统集成了最新的19TB FCM NVMe技术和MRAM缓存技术,旨在提供高性能、高可靠性的存储解决方案。...