如何从海量数据中快速获取自己需要的数据?如何能够完成越来越复杂的数据计算?在数据仓库和数据库中的数据以TB\GB级增长的时候,如何能够保证数据查询和计算的高效率和响应度?
当前数据计算所面临的问题,主要集中在三个方面:第一是数据存取和数据交换时的I/O瓶颈问题,第二是复杂计算模型的完备性问题,第三是数据计算本身的性能问题。
I/O瓶颈问题,主要表现在和硬盘的交互以及通过网络输入输出,一般来说使用高转速的硬盘以及增加网络带宽可以获得一定程度的缓解,大部分情况下不会成为瓶颈。数据量大到一定程度时可以使用数据库集群,不过数据库扩容成本很高,该方案不是一个很优的选择。
数据计算本身的性能问题则是一个最严重的问题。
能有效解决性能问题的唯一办法就是并行计算。目前提供并行计算的产品有两大类,一类是以TD、GreenPlum为代表的MPP数据库产品,其优点是计算快,并行算法透明,缺点是数据库扩容成本太高,每增加一个并行节点则要增加不菲的费用,一般用户承受不起。
另一类以Hadoop为代表的分布式数据处理的软件框架,该方案把数据存储在分布式文件系统HDFS里。HDFS分布式文件系统很好地解决了IO问题,并具有很强的容错能力,是个很优秀的数据存储方案。但是Hadoop提供的并行框架MapReduce则不敢苟同了,该框架是为非结构化数据的搜索统计而设计的, 由于本身不提供算法,又没有现成的类库,导致程序员编写算法难度很高,工作量很大。同时由于MapReduce框架把任务拆分得过细,使得很简单的一个计算任务,需要编写数个Map 和Reduce方法来实现,开发和运行效率都很低。
理想的大数据计算模式,应该具备以下特征:
1、计算层独立于数据库和应用程序之外,既不受数据库难扩容的影响,也不受应用程序的限制。
2、计算层能够访问分布式文件系统(如HDFS等),便于在海量数据时避开IO瓶颈。
3、具有足够完备的计算体系,在编写算法时,有丰富的类库和方法支持,减轻开发工作量。
4、计算层提供并行框架,并行节点扩充容易,成本低廉。且数据块的拆分比较灵活,允许程序员根据实际情况随意指定。
5、计算层对外提供标准的数据访问接口, 如JDBC等
分享到:
相关推荐
大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT...
清华大学精品大数据课程PPT课件(35页) 第1章 大数据概念与应用.pptx 清华大学精品大数据课程PPT课件(40页) 第2章 大数据的架构.pptx 清华大学精品大数据课程PPT课件(48页) 第3章 大数据采集及预处理.pptx 清华...
大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与...
大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据...
简要地介绍了大数据技术发展的背景以及大数据技术标准的需求,综述了国际大数据平台标准化和评测的现状,详细介绍了数据中心联盟在大数据平台技术标准化和测评方面的实践,最后总结了当前工作的问题,并展望了下一步...
大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据...
《阿里大数据之路:阿里巴巴大数据实践》是一本深入探讨阿里巴巴集团在大数据领域实践经验的书籍,共计339页,全面展示了阿里巴巴在大数据领域的技术积累和创新应用。这本书籍旨在分享阿里巴巴如何利用大数据技术来...
大数据参考架构围绕代表大数据价值链的信息价值链(水平轴)和IT价值链(垂直轴)两个维度组织展开。信息价值链表示大数据的应用理论作为一种数据科学方法,从数据到知识的处理过程中所实现的信息价值,其核心价值...
大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据...
### 大数据认知实习报告知识点总结 #### 一、大数据的认知背景及意义 - **大数据的概念**:大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。它具有“4V”特征:Volume(大量)...
大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据...
本指南旨在为医疗机构提供医疗大数据平台建设、应用和运维工作的参考方案,帮助医疗信息工作者面对医疗大数据发展建设挑战、解决当前医疗大数据建设中的问题,推广医疗大数据的建设和应用。 医疗大数据平台建设指南...
阿里巴巴大数据实践之路.pdf 阿里巴巴大数据实践之路概述 阿里巴巴是一家数据公司,经过多年的发展,阿里巴巴大数据实践之路可以分为三个阶段:Data 1.0、Data 2.0 和 Data 3.0。Data 1.0阶段,阿里巴巴主要关注...
大数据应用场景及相关技术 大数据预测是指基于大数据和预测模型来预测未来某件事情的概率。它的逻辑基础是,每一种非常规的变化事前一定有征兆,每一件事情都有迹可循,如果找到了征兆与变化之间的规律,就可以进行...
企业大数据治理平台需求规格说明书 大数据治理平台是企业实现大数据管理和分析的重要工具,本文档对企业大数据治理平台的需求规格进行了详细的说明。 概要 大数据治理平台是企业实现大数据管理和分析的重要工具,...
第五届工业大数据比赛-风机-测试集_初赛 第五届工业大数据比赛-风机-测试集_初赛 第五届工业大数据比赛-风机-测试集_初赛 第五届工业大数据比赛-风机-测试集_初赛 第五届工业大数据比赛-风机-测试集_初赛 第五届工业...
国家十三五规划纲要中提出:“实施国家大数据战略,推进数据资源开放共享” 国发【2015】50号《促进大数据发展行动纲要》中明确提出“鼓励高校设立数据科学和数据工程相关专业,重点培养专业化数据工程师等大数据...
阿里巴巴大数据实践之路 大数据是阿里巴巴的核心竞争力,阿里巴巴大数据实践之路是阿里巴巴数据事业部高级专家的经验总结。本文将从阿里巴巴的大数据发展历程、数据体系结构、公共技术平台、数据共享、算法共享、...
《大数据与城市规划》是清华大学龙瀛教授开设的一门课程,该课程深入探讨了如何利用大数据技术进行城市规划和管理。大数据,作为一种新兴的技术手段,已经深刻地影响了各行各业,其中包括城市管理这一重要领域。本...
根据大数据行业的技术参考架构、业务形态和应用规律,大数据从业人员的职业种类可以分为六类:大数据处理、 大数据管理、大数据分析、大数据系统、大数据安全、大数据服务。每类职业种类都有对应的岗位名称和等级...