企业追逐的--网络热点(云、海量数据、虚拟化)（转载）

wbj0110

浏览: 1638038 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

云计算
虚拟化

企业追逐的--网络热点(云、海量数据、虚拟化)云计算虚拟化

云之所以热，是因为现在以及未来市场的业务推动力（回报率），现在哪个家庭中只有一台计算机？哪个企业只有几台计算机？计算机多了就会出现耗电、占地、维修保养、商业软件升级等问题，对于家庭而且这个成本算不上什么，但是对于服务行业的企业而言，这个成本是不可估量的，所以加快信息化脚步的同时，也会无形中出现相应的负担，成本越来越高，大家都在琢磨该如何解决？

我们现在家庭中用水、用电是没有在自己家里安装发电机的，我们都是利用了统一的资源，这个交由国家统一在管理，我们
也无需去管理水是怎么来的，电是怎么来的，我们只需要每个月按照使用的量来付费即可，这是一个很好的模式，同样如果
有哪家公司能够自己创办一个这样的IT中心，让其他的客户到他那里按需使用，这样就和用水电一样方便了，问题来了，10几20年前，一层楼的所有家庭都用同一块水、电表，过去的做法让电表的承载过大，电表一坏都停电，而且还无法确认家庭用电消耗的准确性（基本公摊），但是现在的我们家庭用水、用电都有相应的电表、水表，都是独立的，这样解决了过去的一系列问题。

虚拟化
同样，作为上述介绍的IT中心，也需要这样来保证客户的个理性，但是我们不可能把一台非常高端的服务器来运行一个应用，那么这样的it中心吃什么？这样虚拟化就出现了，它使得一个机器可以切片，这样一台高端的服务器上就可以跑多个应用了，并且它可以把操作系统的存储器和CPU都切片，切了以后它可以保证给应用程序分配多大的存储器，多大速度的CPU，从而保证这个框架能够运行，但是这样相应的问题又来了，把数据存到it中心的存储设备，和我同行竞争对手的数据放到一起，那我就不放心了。

云
上述最后描述的数据存储的地方就是就是云空间，也就是存储，用户不必自己买很大的存储器，把自己的大量数据放在云上，这样就相对比较简单。Email就是很好的例子，Email也是最早的软件即服务（Softwareas a Service），但是我们介绍的都是把数据放在it中心去，也就是放到公有云上，那么就有问题了，还是会有安全性的问题。私有云的出现比较适合解决这样的问题，但是成本不低，他们自己本身已经有相当可观的IT基础设施，比如说一个大型公司，可以拥有自己的发电机，可能比公用的电还更合算。同样的道理，大的IT公司拥有很多的机器，比如说像AMD、Intel他自己做设计的计算机都是上万的，好几万。如果这些都到亚马逊去借机器，可能最后成本还不如自己买机器划得来，因为它的利用率非常高，机器的使用率也非常高，这样就使得私有云的回报率和公有云的回报率几乎是一样的，这样的企业肯定不会舍弃本身的基础设施而去使用公有云，因为算下来用自己的更合算。而且私有云，没有公有云所有的障碍，比如安全性，因为它处于防火墙内，各方面都没有问题，而且从可靠性的角度来讲，不会像公有云那么容易发生问题。因为公有云是网络公司搭建的，互联网公司毕竟不像银行这些单位那么至关重要，宕几秒钟没关系，宕几分钟没关系，银行的交易失效几分钟，可能就丢失很多的商机，可能该买的就没买到，该买的商品没买，该卖的没卖，就会有很大的影响，所以私有云在这种大企业还是很火的。

云技术和云计算
云技术和云计算是两个不同的概念，云计算它是一个经营模式，云计算就说把IT的拥有者或是运营者和IT的使用者分开，原来是IT的使用者自己买机器，所以他自己有资产，资产就是机器，他自己又是用户又是资产的拥有者。那进入云计算的这个模式以后，使用者不必购买机器，拥有者不使用机器，所以把两个供应商和需求者分开了，这样就叫云了。但是用什么技术去实现？要实现这个云计算的这个模式，那么近几年发展起来的很多技术，都可以把它叫做云技术，包括虚拟化，包括网格计算，还有IT数据中心的自动化等，这些管理自动化的技术，过去几年都在发展，都是趋渐成熟，特别是虚拟化，解决了很大的问题。还有网格计算，以网格计算为代表的很多中间件它本身具有这个弹性，它在哪运行，在哪个机器运行都可以。
所以云计算这个模式，在需要的时候，分配机器，而且这个机器不是事先定制好的，就是中间件，一个云平台上的中间件，如果是移动性比较强的话，还可以不限制在某一台机器上运行的话。云计算的这个技术可以用来做很多事情（比如用户要去做一些化学计算、分析，他不需要自己为了做那件事情去买很多计算机，他就直接到去建立一个帐户，使用完了，付钱就可以，这就是一个很典型的云计算），高性能计算不是用虚拟机，而是物理机，那么就存在一个应用之间的干扰问题，就说两个作业在同一台计算机上，如果一个作业把这个存储器都占完了，那么另外一个作业就没有空间可以运行了，所以软件里要有这些控制，比如可以设置这个限制，比如说应用程序不要超过一个GB，那您就不要超过，超过一个GB就死掉了，通过操作系统设置一些设置，那么这样就保证两个应用程序之间没有相互的干扰。还有记账，比如使用了多少，系统会自动的记录下来，谁从几点钟到几点钟运行了哪几个作业，占用了多少CPU，多少存储器，多长时间，都可以记录下来，最后他可以用这个去收费，这是一个比较传统的云模式。

差异

从网上看到Platform公司技术副总裁王敬文的视频中提出国内和国外有点最大不同，国外的云是以结果为导向（清楚要什么，先做最后一步，再想第一步，一定要看到我做了以后能为我省多少钱，或者能帮我多赚多少钱，有这个目标以后再考虑花多少钱），国内就是跟潮流（好像国内好多云项目就是我要做云，至于就是做云要达到什么目的,慢慢再去研究，目标就是为了做云而做云），不是说先开始了再说，先想好最后一步就是你要的是什么样的，哪怕你最后才知道，我要的东西和我现在其实第一步的东西一定要是相关的，这样才能把云做好。国内的做法当然也有好处，说动就能动起来，但是它的坏处就是做的时候还不知道目的是什么，所以这个可能各有优缺点了。

云管理平台
云是IT实现，是造出来的，不是买来的。我们可以买服务器，买数据库，但买不了云，不可能说买来以后一装就行了，那就不是云了，那只能是买一个服务器，或者买一个集群，要想买一个云的是不大可能。反过来说，这个集成本身就有复杂性，所以会遇到比如说多种虚机不一样的，不同厂家的虚拟机，多种存储设备，很多API都不一样。然后物理机和虚机又混着使用，有些应用在物理机上运行，有些应用在虚机上运行，还有跟已有的应用要集成起来，所以有很多事情要做。这也是为什么会有云管理平台，云管理平台就是一个框架，这个框架是个云框架，它基本上搭建好了一个架构，就是关于云应该如何来设计，把这个架子搭建起来，然后需要把该放的东西放上去，该连接的东西连接起来，该定制的地方定制起来，该要加工的地方加工好，因为云必须要做集成，云管理平台本身就相当于集成的一个中间件，而不是应用的中间件，就是把基础设施中不同的部件连接起来，把存储和操作系统以及不同的虚机更多的聚合起来，形成给上层应用的一个易用的平台。

如何走好第一步
第一，要用别人的云管理平台，不要自己从头做，不要说只买虚拟机，有现成的物理机，自己雇上一大堆人，就能做出来，这样的话就走了很大的弯路，风险也很大，所以一定要用一种云管理平台来做集成；
第二，得力的技术力量，自己要有得力的技术力量，因为是自己的平台，自己要知道要什么，自己要不知道，那就很难做到。如果自己不懂的话，最好找一家集成商，来对整个设计进行统筹计划，这样会做的比较全面些。如果是想自己亲手做的话，那么最好不要野心太大，小步走，先做一小步，看见效益再做下一步，这样会比较好一点。能够减少工程失败的机会；第三，要有有效的项目管理，不能说这个走到那是那，一定要最开始，就想到结尾，从结尾开始做计划，计划到开头，这样做出来，一直到最后实现这种东西。

海量数据维度与云
目前互联网系统平台化，比如才上市的Facebook，现在大数据已经蔓延到了企业里头，有的企业看到了这个商机，自己也已经有很多数据，比如说银行，比如说大零售业，还有政府等，但是现在大数据技术基本上大部分是基于开源的，如：Hadoop，它是一系列开源的产品，包括文件系统、并行文件系统和MapReduce，然后在上面还有一些应用的工具，比如说Pig、Hive、HBase这类工具，能够让用户比较容易的编程，进行数据处理。除此以外，还有一些传统的数据仓库的工具，最近几年由于大数据进入企业，对于传统的数据仓库已经不足以满足了，因此出现了一些新的数据库，比如NoSQL这样的数据库，它的结构已经不再是那种关系型数据库，能够处理一些类似于大数据的一些概念，其实还可以做分布式计算，把多台计算机当作一台计算机来管理和使用，能够形成一个非常强大的功能的具有很多CPU、很多处理能力的这样一个大机器，逻辑上的一台大机器。

大数据分析，首先要知道什么是大数据，大数据它并不是一个绝对的数据，多大就算大数据，它实际上是一个多维的问题，一个是数据量肯定是比以前要大了，第二个是数据的复杂度，它不再是这种表格型的数据，也不仅仅是重复格式的问题，比如说一张用户表有名字、性别、年龄等字段，这样就好处理一点（结构化数据），那么大数据面临的复杂度叫做非结构化数据，它没有结构，就像一个服务器日志一样，写到哪儿是哪儿，所以它没有什么结构，也就很难用传统的数据处理方式去处理，所以数据量是一个维度，数据复杂度是第二个维度；第三个就是时间压力，数据量如此之大，数据又这么复杂，还要能够及时的处理。

MapReduce
MapReduce是一个比较成熟的技术，MapReduce是一个技术，它有相关的像Pig、Hive，那是在它上面做查询,比如实现算平均值，算某某关键字出现的次数，能够帮助用户做一些简单的直观的一些分析（前面文章有介绍），但Hadoop和开源的MapReduc在设计时只考虑到互联网环境下单一的使用，所以还有很多的工作需要做才能满足企业的应用，比如:Master Node宕机以后，你还得重新提交你的作业，还不能自动切换（Fail-Over），再比如：Hadoop MapReduce必须绑定HDFS，不能用其他的文件系统，这样Master Node宕机以后，文件系统也随之瘫痪，这对很多被用来执行关键任务的应用软件是不能接受的。所以很多用户在寻求其他的方案,如果能只做MapReduce这一层，文件系统可以是任何的文件系统，但也支持HDFS、Hadoop就好了（目前我了解的已经有了fourinone(淘宝)、Platform）。

后记

很多的人有个误区，就是说SaaS建立在PaaS上，PaaS是建立在IaaS，这个模式是不对的，很多时候是独立的，各做各的，其实只要做到服务产品就是想要的云，只要做任何一个就是云，不一定非要把三个都做了才是云；多听用户、客户的意见，因为最终做云，是给客户做的，否则的话，做出来没有客户，云也就意味着失败。

分享到：

Netlog中数据库演变过程(转载) | eclipse中storm实战入门

2013-11-14 09:51
浏览 978
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论