`

大数据

阅读更多
如何从海量数据中快速获取自己需要的数据?如何能够完成越来越复杂的数据计算?在数据仓库和数据库中的数据以TB\GB级增长的时候,如何能够保证数据查询和计算的高效率和响应度?

当前数据计算所面临的问题,主要集中在三个方面:第一是数据存取和数据交换时的I/O瓶颈问题,第二是复杂计算模型的完备性问题,第三是数据计算本身的性能问题。

I/O瓶颈问题,主要表现在和硬盘的交互以及通过网络输入输出,一般来说使用高转速的硬盘以及增加网络带宽可以获得一定程度的缓解,大部分情况下不会成为瓶颈。数据量大到一定程度时可以使用数据库集群,不过数据库扩容成本很高,该方案不是一个很优的选择。

数据计算本身的性能问题则是一个最严重的问题。

能有效解决性能问题的唯一办法就是并行计算。目前提供并行计算的产品有两大类,一类是以TD、GreenPlum为代表的MPP数据库产品,其优点是计算快,并行算法透明,缺点是数据库扩容成本太高,每增加一个并行节点则要增加不菲的费用,一般用户承受不起。

另一类以Hadoop为代表的分布式数据处理的软件框架,该方案把数据存储在分布式文件系统HDFS里。HDFS分布式文件系统很好地解决了IO问题,并具有很强的容错能力,是个很优秀的数据存储方案。但是Hadoop提供的并行框架MapReduce则不敢苟同了,该框架是为非结构化数据的搜索统计而设计的, 由于本身不提供算法,又没有现成的类库,导致程序员编写算法难度很高,工作量很大。同时由于MapReduce框架把任务拆分得过细,使得很简单的一个计算任务,需要编写数个Map 和Reduce方法来实现,开发和运行效率都很低。

理想的大数据计算模式,应该具备以下特征:

1、计算层独立于数据库和应用程序之外,既不受数据库难扩容的影响,也不受应用程序的限制。
2、计算层能够访问分布式文件系统(如HDFS等),便于在海量数据时避开IO瓶颈。
3、具有足够完备的计算体系,在编写算法时,有丰富的类库和方法支持,减轻开发工作量。
4、计算层提供并行框架,并行节点扩充容易,成本低廉。且数据块的拆分比较灵活,允许程序员根据实际情况随意指定。
5、计算层对外提供标准的数据访问接口, 如JDBC等

分享到:
评论
1 楼 布鲁斯薛 2014-11-25  

相关推荐

    GZ033 大数据应用开发赛项赛题(师生同赛)

    全国职业院校技能大赛(高职组)“大数据应用开发”赛项是针对大数据技术与应用的一次重要竞赛,旨在提升学生和教师对大数据处理、分析和应用的实际操作能力。该赛题GZ033涵盖了大数据领域的核心知识点,下面将详细...

    《大数据》

    《大数据》一书由徐子沛撰写,是深入探讨大数据领域的权威著作。徐子沛,作为业界知名的数据科学家,他的作品对于理解大数据的概念、技术及其对社会的影响具有极高的参考价值。这本书主要围绕以下几个核心知识点展开...

    阿里大数据之路:阿里巴巴大数据实践-339页.zip

    《阿里大数据之路:阿里巴巴大数据实践》是一本深入探讨阿里巴巴集团在大数据领域实践经验的书籍,共计339页,全面展示了阿里巴巴在大数据领域的技术积累和创新应用。这本书籍旨在分享阿里巴巴如何利用大数据技术来...

    阿里巴巴大数据实践之路.pdf

    阿里巴巴大数据实践之路 阿里巴巴是一家数据公司,阿里大数据发展历程可以分为三个阶段:Data 1.0、Data 2.0 和 Data 3.0。Data 1.0 主要关注数据仓库(DW)和商业智能(BI),旨在“看”数据;Data 2.0 着重于数据...

    考试——山东省大数据工程专业技术人员.docx

    【大数据技术与隐私权保护】 在大数据工程领域,随着数据量的爆炸性增长,隐私权和个人信息保护成为了不可忽视的重要议题。《民法典》明确规定了自然人的隐私权和个人信息受法律保护,禁止任何形式的侵犯。隐私权...

    大数据治理

    《大数据治理》一书较好地满足了理解大数据治理框架的需要,系统地阐述了大数据治理的各个版块,分析了五大类大数据的治理,考察了大数据治理在典型行业的实践,并深入浅出地介绍了当今主流的大数据技术与平台。...

Global site tag (gtag.js) - Google Analytics