`

hadoop框架结构的说明介绍

阅读更多

 

近年,随着互联网的发展特别是移动互联网的发展,数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过1亿个(2000年数据,)数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架,解决了海量数据处理的问题。谷歌公司随即将设计思路开源,发表了具有划时代意义的三篇论文,很快根据谷歌设计思路的开源框架就出现了,就是如今非常火爆的hadoopMaperduce和许多Nosql系统。这三大技术也是整个大数据技术的核心基础。

目前国内的hadoop商业发行版也是比较多,这些hadoop商业版大部分都是由国外发行的,纯国产的发行版不是很多,比如DKhadoop,可以说是目前国内自主做hadoop商业版比较好的了。下面就以大快搜索DKhadoop为例来给大家介绍一下hadoop框架结构!

 



 

图示:DKhadoop技术技术架构图

hadoop框架结构核心:

hadoop的框架结构最核心的设计就是:HDFSMapReduceHDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。

大数据一体化开发框架:

大数据的应用开发过于偏向底层,设计技术面非常广泛,学习的难度自然要大的很多。对于新手入门更是难上加难。DKhadoop则是大快搜索将一系列技术框架在底层进行了重新封装。把大数据开发中的一些通用的,重复使用的基础代码、算法封装为类库,降低了大俗局的学习门槛,降低开发难度。

DKhadoop框架结构构成模块:

我们以DKhadoop发行版为例:

1、框架由:数据源与SQL引擎、数据采集(自定义爬虫)模块、数据处理模块、机器学习算法、自然语言处理模块、搜索引擎模块,六部分组成。

2、大快的大数据通用计算平台(DKH),已经集成相同版本号的开发框架的全部组件。如果在开源大数据框架上部署大快的开发框架,需要平台的组件支持如下:

1)数据源与SQL引擎:DK.Hadoopsparkhivesqoopflumekafka

2)数据采集:DK.hadoop

3)数据处理模块:DK.Hadoopsparkstormhive

4)机器学习和AIDK.Hadoopspark

5NLP模块:上传服务器端JAR包,直接支持

6)搜索引擎模块:不独立发布

Dkhadoop是大快深度整合,重新编译后的HADOOP发行版,可单独发布。独立部署FreeRCH(大快大数据一体化开发框架)时,必需的组件。DK.HADOOP整合集成了NOSQL数据库,简化了文件系统与非关系数据库之间的编程;DK.HADOOP改进了集群同步系统,使得HADOOP的数据处理更加高效。

关于hadoop框架结构暂且简单介绍这些,感兴趣的朋友可以找一下大快搜索的DKhadoop试一下。

 

  • 大小: 143.4 KB
分享到:
评论

相关推荐

    Hadoop课程设计说明书(1).doc

    Hadoop作为一个分布式计算框架,能够处理海量数据,非常适合用于商品推荐这种需要处理大规模用户行为数据的任务。推荐系统通常由多个组件构成,包括计算用户购买向量、计算物品相似度矩阵、计算推荐度及相关处理、...

    hadoop 安装配置说明,以及相关实验等

    Hadoop框架能够高效地对大量数据进行分布式处理,适用于多种数据密集型应用。为了在大数据方向的学习和研究中深入理解Hadoop的工作原理与应用,必须掌握Hadoop的安装配置以及相关编程实验。本文从Linux基础操作讲起...

    Hadoop源码分析 完整版 共55章

    - **包结构及依赖**:Hadoop的包结构非常复杂,这主要归因于HDFS提供了统一的文件系统接口,使得开发者能够无缝地在不同的文件系统之间切换,包括本地文件系统、分布式文件系统乃至云存储服务(如Amazon S3)。...

    Hadoop从入门到上手企业开发

    025 Hadoop 目录结构 026 Eclipse导入Hadoop源码项目 027 HDFS 设计目标 028 HDFS 文件系统架构概述 029 HDFS架构之NameNode和DataNode 030 HDFS 架构讲解总结 031 回顾NameNode和DataNode 032 HDFS架构之Client和...

    hadoop-3.2.4.tar.gz

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的核心设计目标是处理和存储大规模数据。这个名为“hadoop-3.2.4.tar.gz”的压缩包文件包含了Hadoop 3.2.4版本的所有源代码、二进制文件、配置文件和其他...

    hadoop,hbase,hive版本整合兼容性最全,最详细说明【适用于任何版本】

    本文将介绍Hadoop、HBase、Hive以及ZooKeeper的版本整合兼容性,以及如何根据版本找到兼容性信息。 首先,Hadoop是一个开源的分布式存储和计算框架,它由HDFS和MapReduce两部分组成。HDFS用于存储大数据,而...

    Hadoop电影数据集,包含字段说明

    标题中的“Hadoop电影数据集”指的是一个使用Hadoop框架处理的关于电影的数据集合,它可能包含了大量关于电影的信息,如电影名称、导演、演员、评分、评论等。Hadoop是一个开源的分布式计算框架,由Apache软件基金会...

    hadoop-eclipse-plugin插件和hadoop.dll和winutile.exe.zip

    在IT行业中,Hadoop是一个广泛使用的开源框架,用于存储和处理大数据。`hadoop-eclipse-plugin`是Eclipse集成开发环境中的一个插件,它使得开发者能够在Eclipse中直接编写、调试和运行Hadoop MapReduce程序,极大地...

    大数据基础操作说明-HADOOP HIVE IMPALA

    大数据基础操作说明-HADOOP HIVE IMPALA Hadoop 是一个基于分布式存储和计算的开源框架,Hive 是基于 Hadoop 的一个数据仓库工具,Impala 是一个高性能的分布式SQL查询引擎。在这篇文章中,我们将会了解 Hadoop ...

    Hadoop系统安装配置说明

    2. **HBase**:构建在Hadoop Core之上的一种非关系型数据库系统,用于存储大量结构化数据,并提供实时读写访问的能力。 3. **ZooKeeper**:一个分布式的协调服务,用于管理和维护分布式环境中各节点间的通信和状态...

    基于hadoop的云盘系统

    - `README.md`: 项目介绍和指南,可能包含如何构建和运行项目的说明。 - `hadoop_disk/`: 可能是云盘系统与Hadoop交互的模块,包含了与HDFS和HBase的接口实现。 总结来说,这个基于Hadoop的云盘系统是一个综合性的...

    Hadoop3.x系统文档

    Hadoop3.x系统文档深入地介绍了Hadoop 3.x版本的新特性和配置方法。Hadoop作为一个开源框架,允许使用简单的编程模型跨计算机集群存储和处理大数据。它被广泛用于数据仓库和大规模数据集的应用程序,特别是用于处理...

    大数据hadoop部分的介绍、环境部署、安装说明

    本文将详细介绍Hadoop的基本概念,环境部署,以及安装过程。 首先,我们需要理解Hadoop的核心组件。Hadoop主要由两个主要部分组成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是一种分布式文件系统...

    hadoop-eclipse-plugin-2.7.3

    在大数据处理领域,Hadoop作为开源的分布式计算框架,扮演着至关重要的角色。而Eclipse,作为广受欢迎的Java集成开发环境(IDE),是开发者进行软件开发的主要工具。Hadoop Eclipse Plugin 2.7.3正是将这两者完美...

    hadoop学习资料书

    Hadoop是大数据处理领域的一个核心框架,由Apache软件基金会开发,以其分布式计算模型和高容错性而闻名。本学习资料书主要针对Hadoop的初学者,旨在提供全面的基础知识解析,帮助读者快速掌握这一强大的大数据处理...

    Hadoop面试100题.pdf

    - **知识点说明**:配置机架感知可以让Hadoop更好地利用网络拓扑结构,将数据块尽可能地放在同一机架内的DataNode上,以减少跨机架的数据传输延迟。正确配置机架感知涉及到设置`dfs.hosts`和`dfs.hosts.exclude`等...

    windows下安装hadoop的依赖库

    8. **验证安装**: 执行`hadoop fs -ls /`命令,如果返回HDFS的根目录信息,说明Hadoop已经成功安装并运行。 以上就是Windows环境下安装Hadoop依赖库的基本过程。安装完成后,可以进一步探索Hadoop的数据处理能力,...

Global site tag (gtag.js) - Google Analytics