原文链接:http://soft.zdnet.com.cn/software_zone/2013/1230/3007113.shtml
ZDNet至顶网软件频道消息: 中国铁路客户服务中心网站www.12306.cn是世界规模最大的实时交易系统之一,媲美Amazon.com,节假日尤其是春节的访问高峰,网站压力巨大。2012年6月选择了Pivotal GemFire分布式内存计算平台(Distributed In-memory computing)改造12306,由铁科院项目小组负责人王明哲主任和资拓宏宇(IISI)信息科技有限公司在铁科院主管朱建生所长领导下提供技术实施。
GemFire是Pivotal企业级大数据PaaS平台的一部分。Pivotal公司的企业级大数据PaaS平台主要有三个层次:云基础架构层 Cloud Fabric、大数据基础架构层Data Fabric、应用开发基础架构层Application Fabric。GemFire属于大数据基础架构层,此外,Greenplum数据库也属于这一层;云基础架构层的技术是Cloud Foundry;应用开发基础架构层的技术是Spring Framework和RabbitMQ等。
12306之前采用Unix小型机架构,采用GemFire技术改造成Linux/X86服务器集群架构,就意味着一下跨越三代。从小型机到大内存X86服务器集群,不仅让性能提升了一个数量级,而且成本也要低得多。
2012年3月开始,铁路总公司(原铁道部)开始调研、改造12306。2012年6月选择了Pivotal GemFire分布式内存计算平台(Distributed In-memory computing)改造12306,一期先改造12306的主要瓶颈——余票查询系统。9月份完成代码改造,系统上线。2012年国庆,又是网上订票高峰期间,大家可以显著发现,可以登录12306,虽然还是很难订票,但是查询余票很快。2012年10月份,二期用 GemFire改造订单查询系统(客户查询自己的订单记录)。2013年春节,又是网上订票高峰期间,大家可以显著发现,可以登录12306,虽然还是很难订票,但是查询余票很快,而且查询自己的订票和下订单也很快。
中国铁道科学研究院电子计算技术研究所副所长朱建生表示,“通过技术改造解决了困扰我们多时的尖峰高流量并发问题,让全国人民不再因为技术原因而抱怨,我们终于舒了一口气。Pivotal GemFire分布式集群内存数据技术对整个技术改造发挥了关键的作用。同时,感谢Pivotal公司及其实施方项目团队的努力,在技术开改造过程中确保旧系统顺畅运行、旧系统到新系统平滑迁移,快速实现新系统的上线。”
据统计, 在2012年初的春运高峰期间,每天有2000万人访问12306网站,日点击量最高达到14亿。大量同时涌入的网络访问造成12306几近瘫痪。 中国铁道科学院电子计算技术研究所作为12306互联网购票系统的承建单位,急需寻求办法解决问题。
根据系统运行数据记录,技术改造之后,在只采用10几台X86服务器实现了以前数十台小型机的余票计算和查询能力,单次查询的最长时间从之前的15秒左右下降到0.2秒以下,缩短了75倍以上。2012年春运的极端高流量并发情况下,系统几近瘫痪。而在改造之后,支持每秒上万次的并发查询,高峰期间达到2.6万个查询/秒吞吐量,整个系统效率显著提高。如上图所示。
订单查询系统改造,在改造之前的系统运行模式下,每秒只能支持300-400个查询/秒的吞吐量,高流量的并发查询只能通过分库来实现。改造之后,可以实现高达上万个查询/秒的吞吐量,而且查询速度可以保障在20毫秒左右。
新的技术架构可以按需弹性动态扩展,并发量增加时,还可以通过动态增加X86服务器来应对,保持毫秒级的响应时间。
12306能够取得这样翻天覆地的效果,靠技术上的小修小补是不可能的,必须有全新的思路,能够给性能提升带来杠杆式的作用。12306发现GemFire分布式内存数据平台就是这样一种技术。
GemFire分布式内存数据平台的技术原理如上图所示:通过云计算平台虚拟化技术,将若干X86服务器的内存集中起来,组成最高可达数十TB的内存资源池,将全部数据加载到内存中,进行内存计算。计算过程本身不需要读写磁盘,只是定期将数据同步或异步方式写到磁盘。GemFire在分布式集群中保存了多份数据,任何一台机器故障,其它机器上还有备份数据,因此通常不用担心数据丢失,而且有磁盘数据作为备份。GemFire支持把内存数据持久化到各种传统的关系数据库、Hadoop库和其它文件系统中。
大家知道,当前计算架构的瓶颈在存储,处理器的速度按照摩尔定律翻番增长,而磁盘存储的速度增长很缓慢,由此造成巨大高达10万倍的差距。这样就很好理解GemFire为什么能够大幅提高系统性能了。
按照计算与存储的关系,我们可以将计算架构分为四代:
第一代,基于磁盘的单一系统:计算过程中需要从磁盘读取数据。小型机、大型机是其中的佼佼者,将单一系统的性能做到极致。
第二代,基于磁盘的分布式集群系统:计算过程中需要从磁盘读取数据,但通过分布系统将数据分散到不同的服务器磁盘上,提高整个系统的处理能力。目前很多大型互联网和电子商务公司采用基于X86服务器的分布式集群系统,依靠海量的X86服务器部署解决高流量并发的问题。
第三代,基于内存的单一系统:将整个数据库放在内存中,计算过程不需要从磁盘读取数据。整个系统的性能取决于单一系统的性能。传统的内存数据库就是这样的系统,对于企业级的应用可以很好地解决访问速度的问题,但面对海量数据或是海量并发访问的扩展性问题就无能为力。
第四代,基于内存的分布式集群系统:GemFire就是这样的系统,并行计算是其关键技术之一,因而可以通过增加服务器部署规模,在内存计算的基础上,线性扩展性能。
相关推荐
总结,SpringBoot集成Gemfire 9.1.1版本为开发者提供了一种强大的数据存储和处理解决方案,它不仅简化了配置过程,还带来了高效、灵活的分布式缓存功能。通过深入理解和熟练运用,我们可以构建出更稳定、性能卓越的...
- **Pivotal GemFire**:一种分布式内存数据网格解决方案,用于存储和处理大量数据,并提供高性能的数据访问。 - **主要特点**: - **高性能**:通过内存中的数据存储来提高应用性能。 - **可扩展性**:支持水平...
Pivotal GemFire是一款高性能的内存数据网格解决方案,它源自于VMware的项目,并由Pivotal公司负责进一步开发与推广。GemFire为分布式系统提供了一个弹性、可伸缩的数据层,能够处理大量并发事务,并确保数据的实时...
Spring Data for Pivotal GemFire项目的主要目标是简化使用作为底层分布式内存数据管理平台来构建高度可扩展的Spring支持的应用程序的过程。 特征 XML名称空间,用于地 批注模型可 简化 附加支持 增强了对Pivotal ...
标题中的"spring-data-gemfire-1.3.4.RELEASE.zip"指的是Spring Data GemFire的一个版本,这是Spring框架的一部分,专门用于集成Apache Geode或Pivotal GemFire分布式内存数据网格。Spring Data GemFire提供了高级...
gemfire是一款分布式数据管理解决方案,旨在提高应用程序性能和可扩展性。它支持高速的数据访问和处理,适用于需要实时数据分析的应用场景。gemfire的主要特点包括: - **高可用性**:gemfire通过复制和分区策略...
Pivotal tc Server 和 Pivotal GemFire 等技术能够无缝集成到西南航空公司的基础架构之中,提供了轻量级的 Java 应用服务器和分布式的数据管理平台,提高了业务效率和客户服务质量。 知识点6:数字化转型的结果 ...
此文件夹结构包含用于构建具有 1 个定位器和 2 个或更多服务器进程的 Pivotal GemFire XD 集群的 Dockerfile。 结构: 有4个文件夹。 gfxd-base - 这是在 CentOS 映像上构建并在映像上安装 Gemfire XD 二进制文件...
Pivotal GemFire是一种高性能、分布式内存数据存储,广泛用于大规模实时业务场景。 ### 环境部署与安装 文档首先介绍了GemFire的安装与环境部署,包含了以下关键步骤: 1. **系统要求**:介绍了安装GemFire所需...
GemFire 是一款高性能、分布式内存数据网格系统,由 Pivotal 公司开发,主要用于构建大规模、高可用性的企业级应用程序。它提供了一个分布式的数据存储解决方案,支持实时数据访问和处理,适用于需要快速数据交换和...
EMC 的税务行业云解决方案提供了核心解决方案,包括全闪存存储 XtremIO、分布式存储 Isilon 和混合云平台解决方案 EMC Hybrid Cloud。同时,EMC 也提供了 PAAS 层云计算方案 CloudFoundry 和大数据平台解决方案 ...
在构建分布式高并发的商品秒杀系统中,SpringBoot、Zookeeper和Dubbo是三个关键的技术组件,它们共同协作以实现高效、稳定且可扩展的架构。以下是对这些技术及其在秒杀系统中应用的详细解释: 1. **SpringBoot**: ...
【标题】基于SpringBoot+Zookeeper+Dubbo打造分布式高并发商品秒杀系统 这个项目是利用SpringBoot、Zookeeper和Dubbo这三个核心技术构建的分布式高并发商品秒杀系统。让我们逐一深入理解这些技术及其在项目中的应用...
**基于Greenplum-Hadoop的分布式大数据解决方案** 在当今数据爆炸的时代,大数据处理已经成为企业和组织不可或缺的能力。Greenplum和Hadoop是两个重要的大数据处理工具,它们分别在不同的场景下发挥着关键作用。本...
EMC的税务行业核心解决方案提供了多层次的存储方案,包括领先的全闪存XtremIO(高性能)、高端稳定存储VMAX 10K(高性能+大容量)以及分布式存储Isilon(大容量+分布式)。这些产品组合支持基于Vmware的IAAS层云计算...
本文将深入探讨基于Greenplum Hadoop分布式平台的大数据解决方案及其商业应用案例。 首先,Hadoop是Apache软件基金会开发的一个开源框架,主要用于处理和存储大量数据。它基于分布式文件系统(HDFS)和MapReduce...