`
java风
  • 浏览: 57578 次
  • 来自: 北京
社区版块
存档分类
最新评论
  • 泛泛evil: 总结的很好,谢谢分享
    JavaScript
  • wanxkl: 哇!总结的太好了。。凤哥哥,你好强大啊。。请问您跟凤姐什么关系 ...
    css应用

分布式存储(转载)

    博客分类:
  • java
阅读更多

 

L1、HTML静态化
其实大家都知道,效率最高、消耗最小的就是纯静态化的html页面,所以我们尽可能使我们的网站上的页面采 用静态页面来实现,这个最简单的方法其实也是最有效的方法。但是对于大量内容并且频繁更新的网站,我们无法全部手动去挨个实现,于是出现了我们常见的信息 发布系统CMS,像我们常访问的各个门户站点的新闻频道,甚至他们的其他频道,都是通过信息发布系统来管理和实现的,信息发布系统可以实现最简单的信息录 入自动生成静态页面,还能具备频道管理、权限管理、自动抓取等功能,对于一个大型网站来说,拥有一套高效、可管理的CMS是必不可少的。

除了门户和信息发布类型的网站,对于交互性要求很高的社区类型网站来说,尽可能的静态化也是提高性能的必要手段,将社区内的帖子、文章进行实时的静态化,有更新的时候再重新静态化也是大量使用的策略,像Mop的大杂烩就是使用了这样的策略,网易社区等也是如此。

同 时,html静态化也是某些缓存策略使用的手段,对于系统中频繁使用数据库查询但是内容更新很小的应用,可以考虑使用html静态化来实现,比如论坛中论 坛的公用设置信息,这些信息目前的主流论坛都可以进行后台管理并且存储再数据库中,这些信息其实大量被前台程序调用,但是更新频率很小,可以考虑将这部分 内容进行后台更新的时候进行静态化,这样避免了大量的数据库访问请求。

2、图片服务器分离
大家知道,对于Web服务器来说,不管 是 Apache、IIS还是其他容器,图片是最消耗资源的,于是我们有必要将图片与页面进行分离,这是基本上大型网站都会采用的策略,他们都有独立的图片服 务器,甚至很多台图片服务器。这样的架构可以降低提供页面访问请求的服务器系统压力,并且可以保证系统不会因为图片问题而崩溃,在应用服务器和图片服务器 上,可以进行不同的配置优化,比如apache在配置ContentType的时候可以尽量少支持,尽可能少的LoadModule,保证更高的系统消耗 和执行效率。

3、数据库集群和库表散列
大型网站都有复杂的应用,这些应用必须使用数据库,那么在面对大量访问的时候,数据库的瓶颈很快就能显现出来,这时一台数据库将很快无法满足应用,于是我们需要使用数据库集群或者库表散列。

在数据库集群方面,很多数据库都有自己的解决方案,Oracle、Sybase等都有很好的方案,常用的MySQL提供的Master/Slave也是类似的方案,您使用了什么样的DB,就参考相应的解决方案来实施即可。

上 面提到的数据库集群由于在架构、成本、扩张性方面都会受到所采用DB类型的限制,于是我们需要从应用程序的角度来考虑改善系统架构,库表散列是常用并且最 有效的解决方案。我们在应用程序中安装业务和应用或者功能模块将数据库进行分离,不同的模块对应不同的数据库或者表,再按照一定的策略对某个页面或者功能 进行更小的数据库散列,比如用户表,按照用户ID进行表散列,这样就能够低成本的提升系统的性能并且有很好的扩展性。sohu的论坛就是采用了这样的架 构,将论坛的用户、设置、帖子等信息进行数据库分离,然后对帖子、用户按照板块和ID进行散列数据库和表,最终可以在配置文件中进行简单的配置便能让系统 随时增加一台低成本的数据库进来补充系统性能。

4、缓存
缓存一词搞技术的都接触过,很多地方用到缓存。网站架构和网站开发中的缓存也是非常重要。这里先讲述最基本的两种缓存。高级和分布式的缓存在后面讲述。
架构方面的缓存,对Apache比较熟悉的人都能知道Apache提供了自己的缓存模块,也可以使用外加的Squid模块进行缓存,这两种方式均可以有效的提高Apache的访问响应能力。
网 站程序开发方面的缓存,Linux上提供的Memory Cache是常用的缓存接口,可以在web开发中使用,比如用Java开发的时候就可以调用MemoryCache对一些数据进行缓存和通讯共享,一些大 型社区使用了这样的架构。另外,在使用web语言开发的时候,各种语言基本都有自己的缓存模块和方法,PHP有Pear的Cache模块,Java就更多 了,.net不是很熟悉,相信也肯定有。

5、镜像
镜像是大型网站常采用的提高性能和数据安全性的方式,镜像的技术可以解决不同网 络接入商和地域带来的用户访问速度差异,比如ChinaNet和EduNet之间的差异就促使了很多网站在教育网内搭建镜像站点,数据进行定时更新或者实 时更新。在镜像的细节技术方面,这里不阐述太深,有很多专业的现成的解决架构和产品可选。也有廉价的通过软件实现的思路,比如Linux上的rsync等 工具。

6、负载均衡
负载均衡将是大型网站解决高负荷访问和大量并发请求采用的终极解决办法。
负载均衡技术发展了多年,有很多专业的服务提供商和产品可以选择,我个人接触过一些解决方法,其中有两个架构可以给大家做参考。
硬件四层交换
第 四层交换使用第三层和第四层信息包的报头信息,根据应用区间识别业务流,将整个区间段的业务流分配到合适的应用服务器进行处理。 第四层交换功能就象是虚 IP,指向物理服务器。它传输的业务服从的协议多种多样,有HTTP、FTP、NFS、Telnet或其他协议。这些业务在物理服务器基础上,需要复杂的 载量平衡算法。在IP世界,业务类型由终端TCP或UDP端口地址来决定,在第四层交换中的应用区间则由源端和终端IP地址、TCP和UDP端口共同决 定。
在硬件四层交换产品领域,有一些知名的产品可以选择,比如Alteon、F5等,这些产品很昂贵,但是物有所值,能够提供非常优秀的性能和很灵活的管理能力。Yahoo中国当初接近2000台服务器使用了三四台Alteon就搞定了。

软件四层交换
大家知道了硬件四层交换机的原理后,基于OSI模型来实现的软件四层交换也就应运而生,这样的解决方案实现的原理一致,不过性能稍差。但是满足一定量的压力还是游刃有余的,有人说软件实现方式其实更灵活,处理能力完全看你配置的熟悉能力。
软 件四层交换我们可以使用Linux上常用的LVS来解决,LVS就是Linux Virtual Server,他提供了基于心跳线heartbeat的实时灾难应对解决方案,提高系统的鲁棒性,同时可供了灵活的虚拟VIP配置和管理功能,可以同时满 足多种应用需求,这对于分布式的系统来说必不可少。

一个典型的使用负载均衡的策略就是,在软件或者硬件四层交换的基础上搭建squid集群,这种思路在很多大型网站包括搜索引擎上被采用,这样的架构低成本、高性能还有很强的扩张性,随时往架构里面增减节点都非常容易。

 

 

下面也是一个牛人所做的总结,跟上面部分相同。 
高并发时,性能瓶颈及当前常用的应对措施 


1.数据库瓶颈。Mysql并发链接100 

2.apache 并发链接1500 

3.程序执行效率 



1.有数据库瓶颈时,当前处理方案无外乎 主从,集群。增加cache(memcached). 

如:手机之家新系统介绍及架构分享(http://www.slideshare.net/Fenng/ss-1218991?from=ss_embed) 

就是在cache层做优化 

又拍网架构(http://www.bopor.com/?p=652) 

是以增加数据库,分表分库的方法解决。 

Sina增加了mq(消息队列)来分发数据。 

还有风站用了key-value的数据库。其实这可以理解成一个持久化的缓存。 



2.apache瓶颈。 

增加服务器。负载均衡。如sina的F5 

由于进程数的限制。会把一些基本不变的代码挪出来放到单独的服务器。如css/js/图片。 

国内成功的案例是tom的cdn 


又如nginx的横空出世和squid的反向代理都是基于这个原因出来的。 


3.php的执行效率。原因有多个。 

1).本身的效率低。 

解决的成功案例是Zend Optimizer 和 facebooke的hiphop 

Taobao是把php代码编译成模块解决效率问题。 

2). 数据库查询效率问题。如可能有order by ,group by 等Sql数据问题。 

这个其实应该归结到数据库设计问题。 


解决的办法是建立正确的索引。增加memcache.。 

对like表 用专用的sphinx.和lucence 等搜索服务。 

程序员都应该会用explain对sql语句作分析。

 

 

Nginx代理图片、css等静态文件

varnish反向代理,缓存shtml(可缓存动态文件)

resin处理不必缓存的动态文件

MVC和Hibernate中增加缓存

并发量大的时候加集群

分享到:
评论

相关推荐

    深信服企业级分布式存储智能巡检工具aDeploy用户指南_V1.0.pdf

    【深信服企业级分布式存储智能巡检工具aDeploy】是一款专为EDS3.0.0-3.0.4以及aStor单节点3.0.0.10之后版本设计的智能管理工具,旨在提升存储系统的运维效率和稳定性。aDeploy具备自动巡检功能,帮助用户识别并解决...

    DistributedSystem-Series:深度浅出分布式基础架构,Linux与操作系统篇|分布式系统文章|分散计算篇|数据库篇|网络篇|虚拟化与编排篇|大数据与云计算篇

    所谓的分布式系统,其主要由网络,分布式存储与分布式计算等部分构成,分布式存储侧重于数据的读取访问和一致性等方面,而分布式计算则侧重于资源,任务的编排调度。 导航|关联导航 如果你想了解微服务/云原生等...

    网上转载的nutanix技术架构分析文章

    Nutanix的分布式存储技术能够跨多个节点实现数据的冗余和负载均衡。这意味着即使某个节点发生故障,数据仍然可访问,从而保证了系统的高可用性和数据的安全性。 ##### 3.5 开放平台 尽管标签中提到了“OpenStack”...

    对SQL说不 NoSQL的数据库 技术革命 转载.doc

    Google的BigTable是另一个重要的NoSQL技术代表,它是一个分布式存储系统,用于管理结构化的数据。BigTable不是SQL数据库,因为它不支持SQL查询,而是设计为支持快速的读写操作和分布式数据处理。BigTable与MapReduce...

    视频监控源码(转载)

    本文将基于提供的"视频监控源码(转载)"进行深入探讨,分析相关知识点。 首先,视频监控系统的核心在于图像采集、传输、存储和分析。源码中可能包含以下几个关键部分: 1. 图像采集:这部分通常涉及摄像头驱动程序...

    Hadoop官方中文文档

    Apache Hadoop是一个开源的分布式存储和计算框架,它允许用户存储大量数据,并在这些数据上运行分布式处理程序。 在文档描述中提到,文档是一本中文手册,内容包括Hadoop的快速入门指南、集群搭建步骤、Hadoop...

    云计算环境中的计算机网络安全 (3).pdf

    在云计算环境中,数据存储不受地域限制,用户的数据可能存储在世界任何一个角落,这种分布式存储增加了数据的风险系数。因此,用户在享受云计算带来的便利的同时,必须认识到其潜在的安全风险。 移动设备的便携性使...

    区块链技术在新闻业中的应用前景及其发展局限.docx

    1. 打击虚假新闻:区块链技术通过分布式存储和共识机制,确保新闻信息的透明度和准确性。在新闻生产过程中,每个环节都可以通过区块链进行验证,防止不实信息的传播。一旦新闻内容被录入区块链,任何试图修改的行为...

    Hibernate缓存机制,转载

    **标题:“Hibernate缓存机制,转载”** **描述:**这篇博客主要探讨了Hibernate框架中的缓存机制,包括一级缓存和二级缓存的概念、工作原理以及如何在实际开发中应用。 **标签:“源码 工具”** **知识点详解:*...

    hadoop在支付宝的应用

    Hadoop是一个开源的分布式存储与计算框架,它能够存储大量数据,并在这些数据上高效运行大规模的并行处理任务。支付宝对Hadoop的应用包括但不限于数据存储、计算、资源管理和数据分析。 Hadoop在支付宝的应用主要...

    hadoop.dll winutils.exe hadoop2.6,2.7,2.8,3.0版本

    Hadoop是一款开源的大数据处理框架,由Apache基金会开发,它主要设计用于分布式存储和处理海量数据。在Windows环境中,Hadoop的某些组件如HDFS和MapReduce需要特定的本地库来支持,其中`hadoop.dll`和`winutils.exe`...

    zipkin-server.rar

    Zipkin 是一个开放源代码分布式的跟踪系统,每个服务向zipkin报告计时数据,zipkin会根据调用关系通过Zipkin UI生成依赖关系图。 Zipkin提供了可插拔数据存储方式:In-Memory、MySql、Cassandra以及Elasticsearch。...

    Spring + Quartz配置实例(转载)

    标题 "Spring + Quartz配置实例(转载)" 暗示了我们将讨论如何在Java环境中整合Spring框架与Quartz作业调度库的使用。Quartz是一个开源的作业调度库,它允许开发者安排任务以在特定时间执行,而Spring框架则是一个...

    tomcat使用memcached集群session共享(转载并修改)

    Memcached 是一个高性能、分布式的内存对象缓存系统,它允许应用程序存储和检索数据,以减少数据库负载。在 Tomcat 中,我们可以利用 Memcached Session Manager (MSM) 这一工具来实现这一目标。该工具有多种序列化...

    关于元数据管理的一些概念(转载)

    分布式管理则直接从原有系统获取元数据,保持较好的实时性和数据质量,但可能过于依赖这些系统,无法存储附加元数据。混合式管理结合两者优点,既拥有独立的元数据存储库,又可以实时连接到原系统,实现元数据的灵活...

    亿级数据的高并发通用搜索引擎架构设计[转载]

    数据存储方面,分布式文件系统如Hadoop HDFS或Google的GFS为大数据提供了可靠的存储解决方案。它们能有效处理大规模数据,并支持水平扩展,满足不断增长的数据量需求。 此外,搜索引擎还需要支持实时索引和搜索,这...

    使用open source产品组装你的web应用架构(转载)

    2. Memcached:轻量级的分布式内存对象缓存系统,适用于缓解数据库压力,提高性能。 五、框架与开发工具 1. Spring Boot:Spring框架的简化版,为快速开发Java Web应用提供便利,内置了许多默认配置。 2. Django...

    RocketMQ〖六〗消息的存储,高可用性机制,负载均衡

    RocketMQ〖六〗消息的存储,高可用性机制,负载均衡一....分布式队列因为有高可靠性的要求,所以数据要进行持久化存储。 消息生成者发送消息 MQ收到消息,将消息进行持久化,在存储中新增一条记录 返

Global site tag (gtag.js) - Google Analytics