`
wbj0110
  • 浏览: 1611217 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

企业追逐的--网络热点(云、海量数据、虚拟化)(转载)

阅读更多

云之所以热,是因为现在以及未来市场的业务推动力(回报率),现在哪个家庭中只有一台计算机?哪个企业只有几台计算机?计算机多了就会出现耗电、占地、维修保养、商业软件升级等问题,对于家庭而且这个成本算不上什么,但是对于服务行业的企业而言,这个成本是不可估量的,所以加快信息化脚步的同时,也会无形中出现相应的负担,成本越来越高,大家都在琢磨该如何解决?


我们现在家庭中用水、用电是没有在自己家里安装发电机的,我们都是利用了统一的资源,这个交由国家统一在管理,我们
也无需去管理水是怎么来的,电是怎么来的,我们只需要每个月按照使用的量来付费即可,这是一个很好的模式,同样如果
有哪家公司能够自己创办一个这样的IT中心,让其他的客户到他那里按需使用,这样就和用水电一样方便了,问题来了,10几20年前,一层楼的所有家庭都用同一块水、电表,过去的做法让电表的承载过大,电表一坏都停电,而且还无法确认家庭用电消耗的准确性(基本公摊),但是现在的我们家庭用水、用电都有相应的电表、水表,都是独立的,这样解决了过去的一系列问题。

 

虚拟化
同样,作为上述介绍的IT中心,也需要这样来保证客户的个理性,但是我们不可能把一台非常高端的服务器来运行一个应用,那么这样的it中心吃什么?这样虚拟化就出现了,它使得一个机器可以切片,这样一台高端的服务器上就可以跑多个应用了,并且它可以把操作系统的存储器和CPU都切片,切了以后它可以保证给应用程序分配多大的存储器,多大速度的CPU,从而保证这个框架能够运行,但是这样相应的问题又来了,把数据存到it中心的存储设备,和我同行竞争对手的数据放到一起,那我就不放心了。

 


上述最后描述的数据存储的地方就是就是云空间,也就是存储,用户不必自己买很大的存储器,把自己的大量数据放在云上,这样就相对比较简单。Email就是很好的例子,Email也是最早的软件即服务(Softwareas a Service),但是我们介绍的都是把数据放在it中心去,也就是放到公有云上,那么就有问题了,还是会有安全性的问题。私有云的出现比较适合解决这样的问题,但是成本不低,他们自己本身已经有相当可观的IT基础设施,比如说一个大型公司,可以拥有自己的发电机,可能比公用的电还更合算。同样的道理,大的IT公司拥有很多的机器,比如说像AMD、Intel他自己做设计的计算机都是上万的,好几万。如果这些都到亚马逊去借机器,可能最后成本还不如自己买机器划得来,因为它的利用率非常高,机器的使用率也非常高,这样就使得私有云的回报率和公有云的回报率几乎是一样的,这样的企业肯定不会舍弃本身的基础设施而去使用公有云,因为算下来用自己的更合算。而且私有云,没有公有云所有的障碍,比如安全性,因为它处于防火墙内,各方面都没有问题,而且从可靠性的角度来讲,不会像公有云那么容易发生问题。因为公有云是网络公司搭建的,互联网公司毕竟不像银行这些单位那么至关重要,宕几秒钟没关系,宕几分钟没关系,银行的交易失效几分钟,可能就丢失很多的商机,可能该买的就没买到,该买的商品没买,该卖的没卖,就会有很大的影响,所以私有云在这种大企业还是很火的。

 

云技术和云计算
云技术和云计算是两个不同的概念,云计算它是一个经营模式,云计算就说把IT的拥有者或是运营者和IT的使用者分开,原来是IT的使用者自己买机器,所以他自己有资产,资产就是机器,他自己又是用户又是资产的拥有者。那进入云计算的这个模式以后,使用者不必购买机器,拥有者不使用机器,所以把两个供应商和需求者分开了,这样就叫云了。但是用什么技术去实现?要实现这个云计算的这个模式,那么近几年发展起来的很多技术,都可以把它叫做云技术,包括虚拟化,包括网格计算,还有IT数据中心的自动化等,这些管理自动化的技术,过去几年都在发展,都是趋渐成熟,特别是虚拟化,解决了很大的问题。还有网格计算,以网格计算为代表的很多中间件它本身具有这个弹性,它在哪运行,在哪个机器运行都可以。

所以云计算这个模式,在需要的时候,分配机器,而且这个机器不是事先定制好的,就是中间件,一个云平台上的中间件,如果是移动性比较强的话,还可以不限制在某一台机器上运行的话。云计算的这个技术可以用来做很多事情(比如用户要去做一些化学计算、分析,他不需要自己为了做那件事情去买很多计算机,他就直接到去建立一个帐户,使用完了,付钱就可以,这就是一个很典型的云计算),高性能计算不是用虚拟机,而是物理机,那么就存在一个应用之间的干扰问题,就说两个作业在同一台计算机上,如果一个作业把这个存储器都占完了,那么另外一个作业就没有空间可以运行了,所以软件里要有这些控制,比如可以设置这个限制,比如说应用程序不要超过一个GB,那您就不要超过,超过一个GB就死掉了,通过操作系统设置一些设置,那么这样就保证两个应用程序之间没有相互的干扰。还有记账,比如使用了多少,系统会自动的记录下来,谁从几点钟到几点钟运行了哪几个作业,占用了多少CPU,多少存储器,多长时间,都可以记录下来,最后他可以用这个去收费,这是一个比较传统的云模式。

 

差异

从网上看到Platform公司技术副总裁王敬文的视频中提出国内和国外有点最大不同,国外的云是以结果为导向(清楚要什么,先做最后一步,再想第一步,一定要看到我做了以后能为我省多少钱,或者能帮我多赚多少钱,有这个目标以后再考虑花多少钱),国内就是跟潮流(好像国内好多云项目就是我要做云,至于就是做云要达到什么目的,慢慢再去研究,目标就是为了做云而做云),不是说先开始了再说,先想好最后一步就是你要的是什么样的,哪怕你最后才知道,我要的东西和我现在其实第一步的东西一定要是相关的,这样才能把云做好。国内的做法当然也有好处,说动就能动起来,但是它的坏处就是做的时候还不知道目的是什么,所以这个可能各有优缺点了。

云管理平台
云是IT实现,是造出来的,不是买来的。我们可以买服务器,买数据库,但买不了云,不可能说买来以后一装就行了,那就不是云了,那只能是买一个服务器,或者买一个集群,要想买一个云的是不大可能。反过来说,这个集成本身就有复杂性,所以会遇到比如说多种虚机不一样的,不同厂家的虚拟机,多种存储设备,很多API都不一样。然后物理机和虚机又混着使用,有些应用在物理机上运行,有些应用在虚机上运行,还有跟已有的应用要集成起来,所以有很多事情要做。这也是为什么会有云管理平台,云管理平台就是一个框架,这个框架是个云框架,它基本上搭建好了一个架构,就是关于云应该如何来设计,把这个架子搭建起来,然后需要把该放的东西放上去,该连接的东西连接起来,该定制的地方定制起来,该要加工的地方加工好,因为云必须要做集成,云管理平台本身就相当于集成的一个中间件,而不是应用的中间件,就是把基础设施中不同的部件连接起来,把存储和操作系统以及不同的虚机更多的聚合起来,形成给上层应用的一个易用的平台。

 

如何走好第一步
第一,要用别人的云管理平台,不要自己从头做,不要说只买虚拟机,有现成的物理机,自己雇上一大堆人,就能做出来,这样的话就走了很大的弯路,风险也很大,所以一定要用一种云管理平台来做集成;

第二,得力的技术力量,自己要有得力的技术力量,因为是自己的平台,自己要知道要什么,自己要不知道,那就很难做到。如果自己不懂的话,最好找一家集成商,来对整个设计进行统筹计划,这样会做的比较全面些。如果是想自己亲手做的话,那么最好不要野心太大,小步走,先做一小步,看见效益再做下一步,这样会比较好一点。能够减少工程失败的机会;第三,要有有效的项目管理,不能说这个走到那是那,一定要最开始,就想到结尾,从结尾开始做计划,计划到开头,这样做出来,一直到最后实现这种东西。

 

海量数据维度与云
目前互联网系统平台化,比如才上市的Facebook,现在大数据已经蔓延到了企业里头,有的企业看到了这个商机,自己也已经有很多数据,比如说银行,比如说大零售业,还有政府等,但是现在大数据技术基本上大部分是基于开源的,如:Hadoop,它是一系列开源的产品,包括文件系统、并行文件系统和MapReduce,然后在上面还有一些应用的工具,比如说Pig、Hive、HBase这类工具,能够让用户比较容易的编程,进行数据处理。除此以外,还有一些传统的数据仓库的工具,最近几年由于大数据进入企业,对于传统的数据仓库已经不足以满足了,因此出现了一些新的数据库,比如NoSQL这样的数据库,它的结构已经不再是那种关系型数据库,能够处理一些类似于大数据的一些概念,其实还可以做分布式计算,把多台计算机当作一台计算机来管理和使用,能够形成一个非常强大的功能的具有很多CPU、很多处理能力的这样一个大机器,逻辑上的一台大机器。


大数据分析,首先要知道什么是大数据,大数据它并不是一个绝对的数据,多大就算大数据,它实际上是一个多维的问题,一个是数据量肯定是比以前要大了,第二个是数据的复杂度,它不再是这种表格型的数据,也不仅仅是重复格式的问题,比如说一张用户表有名字、性别、年龄等字段,这样就好处理一点(结构化数据),那么大数据面临的复杂度叫做非结构化数据,它没有结构,就像一个服务器日志一样,写到哪儿是哪儿,所以它没有什么结构,也就很难用传统的数据处理方式去处理,所以数据量是一个维度,数据复杂度是第二个维度;第三个就是时间压力,数据量如此之大,数据又这么复杂,还要能够及时的处理。

 

MapReduce
MapReduce是一个比较成熟的技术,MapReduce是一个技术,它有相关的像Pig、Hive,那是在它上面做查询,比如实现算平均值,算某某关键字出现的次数,能够帮助用户做一些简单的直观的一些分析(前面文章有介绍),但Hadoop和开源的MapReduc在设计时只考虑到互联网环境下单一的使用,所以还有很多的工作需要做才能满足企业的应用,比如:Master Node宕机以后,你还得重新提交你的作业,还不能自动切换(Fail-Over),再比如:Hadoop MapReduce必须绑定HDFS,不能用其他的文件系统,这样Master Node宕机以后,文件系统也随之瘫痪,这对很多被用来执行关键任务的应用软件是不能接受的。所以很多用户在寻求其他的方案,如果能只做MapReduce这一层,文件系统可以是任何的文件系统,但也支持HDFS、Hadoop就好了(目前我了解的已经有了fourinone(淘宝)、Platform)。

 

后记

很多的人有个误区,就是说SaaS建立在PaaS上,PaaS是建立在IaaS,这个模式是不对的,很多时候是独立的,各做各的,其实只要做到服务产品就是想要的云,只要做任何一个就是云,不一定非要把三个都做了才是云;多听用户、客户的意见,因为最终做云,是给客户做的,否则的话,做出来没有客户,云也就意味着失败。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics