- 浏览: 219259 次
- 性别:
- 来自: 南京
文章分类
- 全部博客 (132)
- 企业开发 (46)
- SSO (5)
- CAS (1)
- SOAP (8)
- Oracle (5)
- Eclipse IDE (3)
- 事业 (14)
- Lucene (4)
- 课间十分钟 (2)
- maven (1)
- CMS (5)
- 设计模式 (0)
- 软件开发流程 (0)
- midas/GTS (1)
- Java Hibernate (1)
- SqlServer2005 (1)
- Jquery (1)
- Java (1)
- Java Maven Pom (1)
- Java Velocity (1)
- Jira 项目管理 (2)
- 软件开发 需求分析 (1)
- 单点登录 (1)
- 项目管理 (1)
- 时间管理 (1)
- UI 交互设计流程 (1)
- SVN (1)
- css w3c (1)
- ASP.NET FrameWork (1)
- Oracle Session Process (1)
- tomcat (1)
- Web (0)
最新评论
-
fendou3754:
程序可以运行,不过对于中文的搜索,貌似要将txt文件存为UTF ...
Lucene开发实例--代码篇 -
ewf_momo:
...
Lucene开发实例--代码篇 -
dbh0512:
我的是一段文本 每次只能创建一个索引 但是搜索不到 求解答
Lucene开发实例--代码篇 -
a496649849:
终于安装了 多谢
m2安装Eclipse3.6.1(eclipse-jee-helios-SR1-win32.zip)问题 -
lyj57:
那个"E:\\renwg\\茶余饭后\\新建文件夹& ...
Lucene开发实例--代码篇
这里的大型网站架构只包括高互动性高交互性的数据型大型网站,基于大家众所周知的原因,我们就不谈新闻类和一些依靠HTML静态化就可以实现的架构了,我们以高负载高数据交换高数据流动性的网站为例,比如海内,开心网等类似的web2.0系列架构。我们这里不讨论是PHP还是JSP或者.NET环境,我们从架构的方面去看问题,实现语言方面并不是问题,语言的优势在于实现而不是好坏,不论你选择任何语言,架构都是必须要面对的。
这里讨论一下大型网站需要注意和考虑的问题
1、海量数据的处理
众所周知,对于一些相对小的站点来说,数据量并不是很大,select和update就可以解决我们面对的问题,本身负载量不是很大,最多再加几个索引就可以搞定。对于大型网站,每天的数据量可能就上百万,如果一个设计不好的多对多关系,在前期是没有任何问题的,但是随着用户的增长,数据量会是几何级的增长的。在这个时候我们对于一个表的select和update的时候(还不说多表联合查询)的成本的非常高的。
2、数据并发的处理
在一些时候,2.0的CTO都有个尚方宝剑,就是缓存。对于缓存,在高并发高处理的时候也是个大问题。在整个应用程序下,缓存是全局共享的,然而在我们进行修改的时候就,如果两个或者多个请求同时对缓存有更新的要求的情况下,应用程序会直接的死掉。这个时候,就需要一个好的数据并发处理策略以及缓存策略。
另外,就是数据库的死锁问题,也许平时我们感觉不到,死锁在高并发的情况下的出现的概率是非常高的,磁盘缓存就是一个大问题。
3、文件存贮的问题
对于一些支持文件上传的2.0的站点,在庆幸硬盘容量越来越大的时候我们更多的应该考虑的是文件应该如何被存储并且被有效的索引。常见的方案是对文件按照日期和类型进行存贮。但是当文件量是海量的数据的情况下,如果一块硬盘存贮了500个G的琐碎文件,那么维护的时候和使用的时候磁盘的Io就是一个巨大的问题,哪怕你的带宽足够,但是你的磁盘也未必响应过来。如果这个时候还涉及上传,磁盘很容易就over了。
也许用raid和专用存贮服务器能解决眼下的问题,但是还有个问题就是各地的访问问题,也许我们的服务器在北京,可能在云南或者新藏的访问速度如何解决?如果做分布式,那么我们的文件索引以及架构该如何规划。
所以我们不得不承认,文件存贮是个很不容易的问题
4、数据关系的处理
我们可以很容易的规划出一个符合第三范式的数据库,里面布满了多对多关系,还能用GUID来替换INDENTIFY COLUMN 但是,多对多关系充斥的2.0时代,第三范式是第一个应该被抛弃的。必须有效的把多表联合查询降到最低。
5、数据索引的问题
众所周知,索引是提高数据库效率查询的最方面最廉价最容易实现的方案。但是,在高UPDATE的情况下,update和delete付出的成本会高的无法想想,笔者遇到过一个情况,在更新一个聚焦索引的时候需要10分钟来完成,那么对于站点来说,这些基本上是不可忍受的。
索引和更新是一对天生的冤家,问题A,D,E这些是我们在做架构的时候不得不考虑的问题,并且也可能是花费时间最多的问题。
6、分布式处理
对于2.0网站由于其高互动性,CDN实现的效果基本上为0,内容是实时更新的,我们常规的处理。为了保证各地的访问速度,我们就需要面对一个绝大的问题,就是如何有效的实现数据同步和更新,实现各地服务器的实时通讯有是一个不得不需要考虑的问题。
7、Ajax的利弊分析
成也AJAX,败也AJAX,AJAX成为了主流趋势,突然发现基于XMLHTTP的post和get是如此的容易。客户端get或者post 到服务器数据,服务器接到数据请求之后返回来,这是一个很正常的AJAX请求。但是在AJAX处理的时候,如果我们使用一个抓包工具的话,对数据返回和处理是一目了然。对于一些计算量大的AJAX请求的话,我们可以构造一个发包机,很容易就可以把一个webserver干掉。
8、数据安全性的分析
对于HTTP协议来说,数据包都是明文传输的,也许我们可以说我们可以用加密啊,但是对于G问题来说的话,加密的过程就可能是明文了(比如我们知道的QQ,可以很容易的判断他的加密,并有效的写一个跟他一样的加密和解密方法出来的)。当你站点流量不是很大的时候没有人会在乎你,但是当你流量上来之后,那么所谓的外挂,所谓的群发就会接踵而来(从qq一开始的群发可见端倪)。也许我们可以很的意的说,我们可以采用更高级别的判断甚至HTTPS来实现,注意,当你做这些处理的时候付出的将是海量的database,io以及CPU的成本。对于一些群发,基本上是不可能的。笔者已经可以实现对于百度空间和qq空间的群发了。大家愿意试试,实际上并不是很难。
9、数据同步和集群的处理的问题
当我们的一台databaseserver不堪重负的时候,这个时候我们就需要做基于数据库的负载和集群了。而这个时候可能是最让人困扰的的问题了,数据基于网络传输根据数据库的设计的不同,数据延迟是很可怕的问题,也是不可避免的问题,这样的话,我们就需要通过另外的手段来保证在这延迟的几秒或者更长的几分钟时间内,实现有效的交互。比如数据散列,分割,内容处理等等问题。
10、数据共享的渠道以及OPENAPI趋势
Openapi已经成为一个不可避免的趋势,从google,facebook,myspace到海内校内,都在考虑这个问题,它可以更有效的留住用户并激发用户的更多的兴趣以及让更多的人帮助你做最有效的开发。这个时候一个有效的数据共享平台,数据开放平台就成为必不可少的途径了,而在开放的接口的情况保证数据的安全性和性能,又是一个我们必须要认真思考的问题了。
这里讨论一下大型网站需要注意和考虑的问题
1、海量数据的处理
众所周知,对于一些相对小的站点来说,数据量并不是很大,select和update就可以解决我们面对的问题,本身负载量不是很大,最多再加几个索引就可以搞定。对于大型网站,每天的数据量可能就上百万,如果一个设计不好的多对多关系,在前期是没有任何问题的,但是随着用户的增长,数据量会是几何级的增长的。在这个时候我们对于一个表的select和update的时候(还不说多表联合查询)的成本的非常高的。
2、数据并发的处理
在一些时候,2.0的CTO都有个尚方宝剑,就是缓存。对于缓存,在高并发高处理的时候也是个大问题。在整个应用程序下,缓存是全局共享的,然而在我们进行修改的时候就,如果两个或者多个请求同时对缓存有更新的要求的情况下,应用程序会直接的死掉。这个时候,就需要一个好的数据并发处理策略以及缓存策略。
另外,就是数据库的死锁问题,也许平时我们感觉不到,死锁在高并发的情况下的出现的概率是非常高的,磁盘缓存就是一个大问题。
3、文件存贮的问题
对于一些支持文件上传的2.0的站点,在庆幸硬盘容量越来越大的时候我们更多的应该考虑的是文件应该如何被存储并且被有效的索引。常见的方案是对文件按照日期和类型进行存贮。但是当文件量是海量的数据的情况下,如果一块硬盘存贮了500个G的琐碎文件,那么维护的时候和使用的时候磁盘的Io就是一个巨大的问题,哪怕你的带宽足够,但是你的磁盘也未必响应过来。如果这个时候还涉及上传,磁盘很容易就over了。
也许用raid和专用存贮服务器能解决眼下的问题,但是还有个问题就是各地的访问问题,也许我们的服务器在北京,可能在云南或者新藏的访问速度如何解决?如果做分布式,那么我们的文件索引以及架构该如何规划。
所以我们不得不承认,文件存贮是个很不容易的问题
4、数据关系的处理
我们可以很容易的规划出一个符合第三范式的数据库,里面布满了多对多关系,还能用GUID来替换INDENTIFY COLUMN 但是,多对多关系充斥的2.0时代,第三范式是第一个应该被抛弃的。必须有效的把多表联合查询降到最低。
5、数据索引的问题
众所周知,索引是提高数据库效率查询的最方面最廉价最容易实现的方案。但是,在高UPDATE的情况下,update和delete付出的成本会高的无法想想,笔者遇到过一个情况,在更新一个聚焦索引的时候需要10分钟来完成,那么对于站点来说,这些基本上是不可忍受的。
索引和更新是一对天生的冤家,问题A,D,E这些是我们在做架构的时候不得不考虑的问题,并且也可能是花费时间最多的问题。
6、分布式处理
对于2.0网站由于其高互动性,CDN实现的效果基本上为0,内容是实时更新的,我们常规的处理。为了保证各地的访问速度,我们就需要面对一个绝大的问题,就是如何有效的实现数据同步和更新,实现各地服务器的实时通讯有是一个不得不需要考虑的问题。
7、Ajax的利弊分析
成也AJAX,败也AJAX,AJAX成为了主流趋势,突然发现基于XMLHTTP的post和get是如此的容易。客户端get或者post 到服务器数据,服务器接到数据请求之后返回来,这是一个很正常的AJAX请求。但是在AJAX处理的时候,如果我们使用一个抓包工具的话,对数据返回和处理是一目了然。对于一些计算量大的AJAX请求的话,我们可以构造一个发包机,很容易就可以把一个webserver干掉。
8、数据安全性的分析
对于HTTP协议来说,数据包都是明文传输的,也许我们可以说我们可以用加密啊,但是对于G问题来说的话,加密的过程就可能是明文了(比如我们知道的QQ,可以很容易的判断他的加密,并有效的写一个跟他一样的加密和解密方法出来的)。当你站点流量不是很大的时候没有人会在乎你,但是当你流量上来之后,那么所谓的外挂,所谓的群发就会接踵而来(从qq一开始的群发可见端倪)。也许我们可以很的意的说,我们可以采用更高级别的判断甚至HTTPS来实现,注意,当你做这些处理的时候付出的将是海量的database,io以及CPU的成本。对于一些群发,基本上是不可能的。笔者已经可以实现对于百度空间和qq空间的群发了。大家愿意试试,实际上并不是很难。
9、数据同步和集群的处理的问题
当我们的一台databaseserver不堪重负的时候,这个时候我们就需要做基于数据库的负载和集群了。而这个时候可能是最让人困扰的的问题了,数据基于网络传输根据数据库的设计的不同,数据延迟是很可怕的问题,也是不可避免的问题,这样的话,我们就需要通过另外的手段来保证在这延迟的几秒或者更长的几分钟时间内,实现有效的交互。比如数据散列,分割,内容处理等等问题。
10、数据共享的渠道以及OPENAPI趋势
Openapi已经成为一个不可避免的趋势,从google,facebook,myspace到海内校内,都在考虑这个问题,它可以更有效的留住用户并激发用户的更多的兴趣以及让更多的人帮助你做最有效的开发。这个时候一个有效的数据共享平台,数据开放平台就成为必不可少的途径了,而在开放的接口的情况保证数据的安全性和性能,又是一个我们必须要认真思考的问题了。
发表评论
文章已被作者锁定,不允许评论。
-
Velocity浅析及与Jsp、Freemarker对比
2011-08-21 18:10 878Velocity 是一个基于java ... -
Google首页电吉他Doodle源代码
2011-06-10 12:22 991为了纪念电吉他之父莱斯·保罗(Les Paul,1915 ... -
Caused by: javax.imageio.IIOException: Can't create cache file!
2011-05-23 20:17 3616验证码 无法显示问题。 错误日志为: Cause ... -
配置Resin 3+iis 支持JSP且共享80端口
2011-05-20 17:21 2323软件环境 操作系统:win2003 SDK:JDK 1.6 服 ... -
This class does not support SAAJ 1.1, weblogic?
2011-05-15 19:21 2031项目 将要迁移到 Weblogic 10.3. ... -
javax.xml.ws.soap.SOAPFaultException: This class does not support SAAJ 1.1
2011-05-15 18:24 2006]] Root cause of ServletExcepti ... -
Date 与 Calendar 计算时间及天数
2011-03-09 21:19 1606有时我们会比较时间,例如:7天前,7天后。 虽然 ... -
m2安装Eclipse3.6.1(eclipse-jee-helios-SR1-win32.zip)问题
2011-02-25 15:36 23151. m2eclipse------------------- ... -
Eclipse is running in a JRE, but a JDK is required 解决方法
2011-02-25 11:54 1557装Maven后每次启动出现警告信息: Eclipse is ... -
Apache Tomcat Tomcat5 服务因 0 (0x0) 服务性错误而停止”问题的解决
2011-02-17 20:38 1508今天又找到一个解决方法,应该比较通用。就是删除服务再重新安装。 ... -
随机产生26个英文字母
2010-12-28 16:45 1835char paramChar = (char)(Math ... -
Java字符串反转问题
2010-12-28 14:18 931java反转:可以使用 StringBuffer中的 r ... -
Java解析XML文件的四种方法
2010-12-14 21:15 6801.介绍 1)DOM(JAXP Crimson ... -
java 调用.net DLL的方法
2010-12-14 20:44 972背景: 近日一个java的项目,客户要求项目中必须使用其提 ... -
提供Java性能的十一个用法
2010-12-14 15:44 835Java语言习惯用语 1。循环 ■ 在重要的循环里,消除循 ... -
Java中的DOS下常用命令积累
2010-12-13 18:33 10311:解压jar包: xf org.eclipse.swt.w ... -
优化C盘
2010-12-08 16:44 906主要讲讲Windows操作系 ... -
Win XP使用100%网速的方法
2010-12-08 16:17 1037开始菜单里点击”运行”,输入gpedit. ... -
现实生活即将被虚拟化
2010-12-08 14:20 1134往往好的创 ... -
JAVA程序员软件开发工具下载地址总结
2010-12-08 12:49 12871:JDK6 update23 : http://www.o ...
相关推荐
### 大型网站架构不得不考虑的关键问题 #### 一、海量数据处理 在构建大型网站时,海量数据处理是首要考虑的问题之一。对于小型站点,简单的`SELECT`和`UPDATE`语句配合适当的索引就能满足需求。但在大型网站中,...
在构建大型网站架构时,需要面对一系列复杂的问题,这些问题直接影响到网站的性能、稳定性和安全性。以下是关于这些关键问题的详细分析: A. 海量数据的处理:随着用户数量和数据量的增长,传统的数据库查询方式...
在系列的第一部分,"疯狂代码,大型网站架构系列之一,前言,不得不考虑的问题.doc",作者引入了大型网站架构设计所面临的根本问题。这部分可能包括了对高可用性、可扩展性、性能优化、数据一致性以及故障恢复等关键...
高可用与可伸缩性也是大型分布式网站架构设计中不得不考虑的问题。本书可能会介绍怎样通过服务拆分、微服务架构设计来提高系统的伸缩性,以及如何设计冗余机制和灾难恢复策略来保证系统的高可用性。 最后,大型...
### 开源魔兽世界服务器架构——mangos #### 一、引言 随着网络游戏的兴起和发展,越来越多的人开始关注网络游戏背后的服务器架构和技术实现。...因此,在搭建服务器时,还需要考虑到合法性和用户体验等问题。
三层架构是一种常见的软件设计模式,它将应用程序分为三个逻辑层:用户界面层(UI Layer)、业务逻辑层(Business Logic Layer,简称BL层)和数据访问层(Data Access Layer,简称DAL层)。这种分层设计能够提高代码...
智能化预警体系的核心在于实时、真实和准确地防控企业网络风险,是企业在新的网络安全形势下不得不采取的策略。通过这一系列的建设工作,大型企业不仅能够保障自身网络安全,同时也为维护整个网络安全生态做出应有的...
布鲁克斯提倡将大型项目划分为多个独立可管理的子任务,每个子任务由专门的团队负责。 3. **项目经理的角色**:布鲁克斯提出了项目经理不仅需要技术能力,还需要领导力和决策力。他提倡项目经理应该专注于整体协调...
【超酷网站整站下载器】是一款专门用于下载整个网站内容的工具,它能够帮助用户将互联网上的一个网站完整地保存到本地计算机上,以便离线浏览或进行其他用途。这款下载器通常具备多线程下载、自定义下载深度、过滤...
这些大型的 JS 文件会经常做局部的修改或完善,可能只是很少的修改,但是也会强制客户端更新缓存,重新下载整个的 JS 文件,而对于像 Google Map 这样访问量巨大的网站,这是不得不考虑的性能问题。聪明的程序员想到...
如今互联网产品如如雨后春笋般层出不穷,程序员们每天都要面对变化无穷的需求,来满足产品的需要,他们不得不加班加点,来完成他们的使命,由最初的web1.0,web2.0,3.0到现在的移到互联网,可谓是变化莫测。eBSite网站...
总之,大型建筑物沉降变形监测是一项系统工程,需要综合考虑多个因素,并运用多项技术手段。通过精确的数据收集和分析,可以为建筑物的长期安全提供保障。同时,建筑物的设计和施工人员也应通过监测结果不断优化设计...
随着基础设施数字化的发展,为Windows和Linux等系统提供的安全解决方案,供应商将不得不适应这个变化,为混合部署模式提供支持。 文档还谈到了在DevOps环境下,安全将成为持续集成/持续部署(CI/CD)的一个关键环节。...
电商平台为缓解配送压力,不得不进行成本的大幅增加。 文章通过对电商战略性缺货问题的研究,提出了一系列启示与建议。首先,对于电商平台而言,重视并理解消费者选择行为对于制定有效策略至关重要。其次,电商企业...