近年,随着互联网的发展特别是移动互联网的发展,数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过1亿个(2000年数据,)数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架,解决了海量数据处理的问题。谷歌公司随即将设计思路开源,发表了具有划时代意义的三篇论文,很快根据谷歌设计思路的开源框架就出现了,就是如今非常火爆的hadoop、Maperduce和许多Nosql系统。这三大技术也是整个大数据技术的核心基础。
目前国内的hadoop商业发行版也是比较多,这些hadoop商业版大部分都是由国外发行的,纯国产的发行版不是很多,比如DKhadoop,可以说是目前国内自主做hadoop商业版比较好的了。下面就以大快搜索DKhadoop为例来给大家介绍一下hadoop框架结构!
图示:DKhadoop技术技术架构图
hadoop框架结构核心:
hadoop的框架结构最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。
大数据一体化开发框架:
大数据的应用开发过于偏向底层,设计技术面非常广泛,学习的难度自然要大的很多。对于新手入门更是难上加难。DKhadoop则是大快搜索将一系列技术框架在底层进行了重新封装。把大数据开发中的一些通用的,重复使用的基础代码、算法封装为类库,降低了大俗局的学习门槛,降低开发难度。
DKhadoop框架结构构成模块:
我们以DKhadoop发行版为例:
1、框架由:数据源与SQL引擎、数据采集(自定义爬虫)模块、数据处理模块、机器学习算法、自然语言处理模块、搜索引擎模块,六部分组成。
2、大快的大数据通用计算平台(DKH),已经集成相同版本号的开发框架的全部组件。如果在开源大数据框架上部署大快的开发框架,需要平台的组件支持如下:
(1)数据源与SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka
(2)数据采集:DK.hadoop
(3)数据处理模块:DK.Hadoop、spark、storm、hive
(4)机器学习和AI:DK.Hadoop、spark
(5)NLP模块:上传服务器端JAR包,直接支持
(6)搜索引擎模块:不独立发布
Dkhadoop是大快深度整合,重新编译后的HADOOP发行版,可单独发布。独立部署FreeRCH(大快大数据一体化开发框架)时,必需的组件。DK.HADOOP整合集成了NOSQL数据库,简化了文件系统与非关系数据库之间的编程;DK.HADOOP改进了集群同步系统,使得HADOOP的数据处理更加高效。
关于hadoop框架结构暂且简单介绍这些,感兴趣的朋友可以找一下大快搜索的DKhadoop试一下。
相关推荐
Hadoop作为一个分布式计算框架,能够处理海量数据,非常适合用于商品推荐这种需要处理大规模用户行为数据的任务。推荐系统通常由多个组件构成,包括计算用户购买向量、计算物品相似度矩阵、计算推荐度及相关处理、...
Hadoop框架能够高效地对大量数据进行分布式处理,适用于多种数据密集型应用。为了在大数据方向的学习和研究中深入理解Hadoop的工作原理与应用,必须掌握Hadoop的安装配置以及相关编程实验。本文从Linux基础操作讲起...
- **包结构及依赖**:Hadoop的包结构非常复杂,这主要归因于HDFS提供了统一的文件系统接口,使得开发者能够无缝地在不同的文件系统之间切换,包括本地文件系统、分布式文件系统乃至云存储服务(如Amazon S3)。...
025 Hadoop 目录结构 026 Eclipse导入Hadoop源码项目 027 HDFS 设计目标 028 HDFS 文件系统架构概述 029 HDFS架构之NameNode和DataNode 030 HDFS 架构讲解总结 031 回顾NameNode和DataNode 032 HDFS架构之Client和...
本文将介绍Hadoop、HBase、Hive以及ZooKeeper的版本整合兼容性,以及如何根据版本找到兼容性信息。 首先,Hadoop是一个开源的分布式存储和计算框架,它由HDFS和MapReduce两部分组成。HDFS用于存储大数据,而...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的核心设计目标是处理和存储大规模数据。这个名为“hadoop-3.2.4.tar.gz”的压缩包文件包含了Hadoop 3.2.4版本的所有源代码、二进制文件、配置文件和其他...
标题中的“Hadoop电影数据集”指的是一个使用Hadoop框架处理的关于电影的数据集合,它可能包含了大量关于电影的信息,如电影名称、导演、演员、评分、评论等。Hadoop是一个开源的分布式计算框架,由Apache软件基金会...
在IT行业中,Hadoop是一个广泛使用的开源框架,用于存储和处理大数据。`hadoop-eclipse-plugin`是Eclipse集成开发环境中的一个插件,它使得开发者能够在Eclipse中直接编写、调试和运行Hadoop MapReduce程序,极大地...
本课件主要围绕Hadoop框架展开,包括其设计原理、核心组件以及实际应用。以下是PPT课件可能涵盖的关键知识点: 1. **Hadoop简介**:Hadoop是一个开源的分布式计算框架,由Apache基金会维护。它基于Google的...
大数据基础操作说明-HADOOP HIVE IMPALA Hadoop 是一个基于分布式存储和计算的开源框架,Hive 是基于 Hadoop 的一个数据仓库工具,Impala 是一个高性能的分布式SQL查询引擎。在这篇文章中,我们将会了解 Hadoop ...
标题中的“基于Hadoop的股票大数据分析系统”指的是利用Apache Hadoop框架来处理和分析海量的股票市场数据。Hadoop是一个开源的分布式计算框架,它允许在大规模集群中存储和处理大量数据。在这个系统中,Hadoop可能...
1. Hadoop系统:Hadoop是一个能够存储和处理大量数据的分布式系统框架,是大数据技术的重要组成部分。它主要包括HDFS(Hadoop Distributed File System,分布式文件系统)和MapReduce编程模型。Hadoop能够处理各种...
- `README.md`: 项目介绍和指南,可能包含如何构建和运行项目的说明。 - `hadoop_disk/`: 可能是云盘系统与Hadoop交互的模块,包含了与HDFS和HBase的接口实现。 总结来说,这个基于Hadoop的云盘系统是一个综合性的...
Hadoop3.x系统文档深入地介绍了Hadoop 3.x版本的新特性和配置方法。Hadoop作为一个开源框架,允许使用简单的编程模型跨计算机集群存储和处理大数据。它被广泛用于数据仓库和大规模数据集的应用程序,特别是用于处理...
本文将详细介绍Hadoop的基本概念,环境部署,以及安装过程。 首先,我们需要理解Hadoop的核心组件。Hadoop主要由两个主要部分组成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是一种分布式文件系统...
在大数据处理领域,Hadoop作为开源的分布式计算框架,扮演着至关重要的角色。而Eclipse,作为广受欢迎的Java集成开发环境(IDE),是开发者进行软件开发的主要工具。Hadoop Eclipse Plugin 2.7.3正是将这两者完美...
Hadoop是大数据处理领域的一个核心框架,由Apache软件基金会开发,以其分布式计算模型和高容错性而闻名。本学习资料书主要针对Hadoop的初学者,旨在提供全面的基础知识解析,帮助读者快速掌握这一强大的大数据处理...