`
liangyan9966
  • 浏览: 39801 次
  • 性别: Icon_minigender_2
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

基于分布式数据库的存储和hadoop的分布式计算的分布式sql计算方法

 
阅读更多
阅读全文http://click.aliyun.com/m/23098/
1.   目录
2.      目录

3.      背景和设计思想

4.      架构

没有代理节点

有代理节点

模块说明

两种架构的区别

5.      应用架构

6.      基本概念说明

7.      增删改操作

8.      查询操作

阶段树

阶段

查询步骤

9.      例子

均衡策略

查询

9..1       排序

9..2       分组聚合

9..3       连接

9..4       子查询

10.             与已有系统的区别和优点

11.             应用场景




3.   背景和设计思想


为了解决分布式数据库下,复杂的sql(如全局性的排序、分组、join、子查询,特别是非均衡字段的这些逻辑操作)难以实现的问题;在有了一些分布式数据库和hadoop实际应用经验的基础上,对比两者的优点和不足,加上自己的一些提炼和思考,设计了一套综合两者的系统,利用两者的优点,补充两者的不足,具体的说,使用数据库水平分割的思想实现数据存储,使用mapreduce的思想实现sql计算。



这里的数据库水平分割的意思是只分库不分表,对于不同数量级别的表,分库的数量可以不一样,例如1亿的数据量分10个分库,10亿的分50个分库。对于使用mapreduce的思想实现计算;对于一个需求,转换成一个或多个有依赖关系的sql,其中的每个sql分解成一个或多个mapreduce任务,每个mapreduce任务又包含mapsql、洗牌(shuffle)、reducesql,这个过程可以理解为类似hive,区别是连mapreduce任务中的map和reduce操作也是通过sql实现,而非hadoop中的map和reduce操作.



这是基本的mapreduce的思想,但是在hadoop的生态圈中,第一代的mapreduce将结果存储于磁盘,第二代的mapreduce根据内存使用情况将结果存储于内存或磁盘,类比一下用数据库来存储,那么mapreduce的结果就是存储在表中,而数据库的缓存机制天然支持根据内存情况决定存储在内存还是磁盘;另外,hadoop生态圈中,计算模型也并非mareduce一种,这里的mapreduce的计算思想,可以用类似spark的RDD迭代计算方式来替代;本系统还是基于mapreduce来说明的.



4.   架构
根据以上的思想,系统的架构如下:

没有代理节点
阅读全文http://click.aliyun.com/m/23098/
分享到:
评论

相关推荐

    基于分布式数据库的ROLAP数据自助分析系统的研究与应用.pdf

    本文针对基于分布式数据库的ROLAP(Relational Online Analytical Processing,关系型在线分析处理)数据自助分析系统展开了深入研究,特别关注了在处理海量数据时分布式数据库技术的应用,以期为大数据决策分析系统...

    分布式数据库和Hadoop都不够好,于是我们设计了分布式SQL计算系统

    为了解决分布式数据库下,复杂的SQL(如全局性的排序、分组、join、子查询,特别是非均衡字段的这些逻辑操作)难以实现的问题;在有了一些分布式数据库和 Hadoop实际应用经验的基础上,对比两者的优点和不足,加上...

    基于Hadoop的分布式数据库系统.pdf

    针对如何从数据库中获取有效信息的问题,即云计算成功应用的关键,本文分析了现有云计算技术的关键,并选择了开源的Hadoop分布式计算平台作为解决方案。通过使用HBase存储数据,Hive作为数据仓库工具用于查询和分析...

    分布式数据库2019考题.rar

    分布式数据库是现代信息技术领域中的一个重要概念,特别是在大数据和云计算时代,其重要性日益凸显。2019年的分布式数据库考题可能涵盖了这个领域的核心概念、设计原则、系统架构以及实际应用等多个方面。以下是对...

    分布式数据库系统

    "第10章 分布式数据库系统的发展趋势"展望了分布式数据库的未来,可能包括新型的数据存储模型(如NoSQL和NewSQL)、云计算对分布式数据库的影响、大数据处理技术(如Hadoop和Spark)与分布式数据库的融合,以及...

    基于分布式数据库的大数据平台动态页面数据生成技术.zip

    总结起来,基于分布式数据库的大数据平台动态页面数据生成技术,涵盖了数据存储、处理、传输和展示等多个环节,旨在提供高性能、高可用的数据服务,满足大数据时代下企业和用户对实时信息的需求。在实施此类技术时,...

    分布式数据库Hive笔记_HDFS_Hadoop_分布式数据库

    分布式数据库Hive是大数据处理领域中的重要工具,它与Hadoop生态系统紧密相连,主要用于实现对大规模数据集的存储和查询。Hive构建在Hadoop的HDFS(分布式文件系统)之上,利用MapReduce进行分布式计算,同时引入了...

    大数据技术下,分布式数据库何去何从.pdf

    Hadoop技术并非数据库,而是基于分布式文件系统(HDFS)和分布式调度器(YARN)的计算框架,起初是为了处理大规模非结构化数据(如网页信息)的批处理计算。随着时间的推移,Hadoop生态系统发展出了多种接口,如Pig...

    基于Hadoop的分布式SQL数据库索引设计与实践.pdf

    文章基于Hadoop分布式文件系统(DFS),提出了一个分层的分布式索引结构,该结构包括全局索引、局部索引和数据分片三层。通过实验验证,这种方法对于处理海量数据展现出了高效的访问性能。 分布式系统的概念:...

    数据库到分布式框架

    数据库技术与分布式计算框架是现代数据处理领域的两大基石,本文将带领读者从基础的数据库出发,逐步深入到分布式计算框架的核心,特别适用于想要从数据存储转移到分布式计算的初学者。 首先,从数据库层面来看,...

    【Hadoop与大数据38】构建生态化分布式数据库架构体系(陶勇)

    ### 构建生态化分布式数据库架构体系 #### 关键词: - MySQL协议 - Schema垂直拆分 ...总体而言,阿里巴巴通过不断的技术创新和实践探索,不仅解决了现有问题,还在不断推动着分布式数据库领域的进步和发展。

    SQL Server创建分布式数据库

    在SQL Server中,分布式数据库是一种将数据存储和处理任务分散到多个物理服务器的架构,以提高系统的可伸缩性、性能和可用性。这种技术的主要优势在于,它能有效地利用多台服务器的CPU和I/O资源,从而分散IO负担,...

    基于SQL-on-Hadoop的分布式广电数据仓库的设计与实现.pdf

    总结来说,该文章提出了一种创新的数据仓库构建方案,采用SQL-on-Hadoop技术结合分布式计算框架,以提高对非结构化数据处理的能力和系统的扩展性。同时,利用通用硬件降低了成本,使得广电行业能够更加高效地分析和...

    分布式数据库助力金融科技架构转型.pptx

    分布式数据库技术在统计分析和大数据处理中展现出诸多优势,如支持多种数据类型、高效计算和大量数据存储。然而,它也存在一些不足,如可靠性较弱、并发能力不足和响应速度不够快,特别是在处理OLTP(在线事务处理)...

    NoSQL类型分布式数据库简介.pdf

    随着互联网和大数据时代的到来,传统的基于SQL的关系型数据库在处理海量数据时遇到了挑战,如扩展性差、性能瓶颈等问题。NoSQL数据库应运而生,其主要特点是高可扩展性、高并发性和高可用性。 NoSQL数据库的核心...

Global site tag (gtag.js) - Google Analytics