`
szjian
  • 浏览: 74365 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Hadoop 1.0 体系结构

阅读更多

HDFSMapReduceHadoop的两大核心。Hadoop的体系结构主要是通过HDFS来实现分布式存储的底层支持的,通过MapReduce来实现分布式并行任务处理的程序支持。

 

一、HDFS的体系结构。

HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中:NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;DataNode管理存储的数据。

HDFS允许用户以文件的形式存储数据。从内部来看,文件被分成若干个数据块,而且这若干个数据块存放在一组DataNode上。

NameNode执行文件系统的命名空间操作,比如打开、关闭、重命名文件或目录等,它也负责数据块到具体DataNode的映射。

DataNode负责处理文件系统客户端的文件读写请求,并在NameNode的统一调度下进行数据块的创建、删除和复制工作。

 

二、MapReduce的体系结构。

MapReduce是一种并行编程模式,利用这种模式软件开发者可以轻松地编写出分布式并行程序。在Hadoop的体系结构中,MapReduce是一个简单易用的软件框架,基于它可以将任务分发到由上千台商用机器组成的集群上,并以一种可靠容错的方式并行处理大量的数据集,实现Hadoop的并行任务处理功能。

MapReduce框架是由一个单独运行在主节点的JobTracker和运行在每个集群从节点的TaskTracker共同组成的。

主节点负责调度构成一个作业的所有任务,这些任务分布在不同的从节点上。主节点监控它们的执行情况,并且重新执行之前失败的任务;

从节点仅负责由主节点指派的任务。当一个Job被提交时,JobTracker接收到提交作业和其配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。

从上面的介绍可以看出,HDFSMapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现了分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。HDFSMapReduce任务处理过程中提供了对文件操作和存储等的支持,MapReduceHDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成了Hadoop分布式集群的主要任务。

分享到:
评论

相关推荐

    Hadoop学习资料

    它解决了大数据存储和处理的问题,尤其适合处理非结构化数据,其核心组件包括Hadoop分布式文件系统(HDFS)和MapReduce编程模型。 Hadoop的版本衍化历史可以追溯到第一代Hadoop,主要包含三个大版本,分别是0.20.x...

    hadoop技术

    HDFS体系结构由一个NameNode管理元数据和多个DataNode存储实际数据构成。HDFS通过数据块的复制策略来确保数据的可靠性和容错能力,它能够在节点故障时通过重新分配数据块来保证数据不丢失。 MapReduce计算框架是...

    Hadoop大数据实战手册

    - **Hadoop 1.0**:第一代Hadoop,包含了0.20.x、0.21.x和0.22.x三个主要版本,最终0.20.x演化成了稳定的1.0.x版本。 - **Hadoop 2.0**:第二代Hadoop,包括0.23.x和2.x两个版本。这些版本相比1.0进行了重大重构,...

    大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第11期_HBase简介及安装_V1.0 共21页.pdf

    2. **HBase体系结构** - **主从结构**:HBase由HBase Master服务器和HRegion Server群组成,Master负责管理和分配HRegion,不存储数据。 - **HRegion Server**:实际存储数据,每个表可能被分割成多个HRegion分布...

    大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第13期_Hive简介及安装_V1.0 共23页.pdf

    【Hive 简介】 Hive 是一个用于大数据处理的开源数据仓库工具,它建立在 Hadoop 生态...通过其灵活的体系结构和对 MapReduce 的支持,Hive 成为了处理海量数据的有力工具,广泛应用于互联网、广告、金融等多个行业。

    【Hadoop与大数据38】构建生态化分布式数据库架构体系(陶勇)

    ### 构建生态化分布式数据库架构体系 #### 关键词: - MySQL协议 - Schema垂直拆分 - Table水平拆分 - 实时日志解析 - 事务顺序 - 实时镜像 - 双向同步 - 同步事务支持 - GlobalID - GlobalFailover #### 分布式...

    HadoopYARN大数据计算框架及其资源调度机制研究

    随着技术发展,Hadoop的1.0版本中的MapReduce成为了当时唯一的计算框架。MapReduce能够处理大规模数据集的离线处理,并且简化了并行化、负载均衡和灾备管理等复杂问题的处理。MapReduce因其良好的伸缩性在推出初期...

    HCIP-Big Data Operation & Maintenance V1.0培训教材.zip

    《HCIP-Big Data Operation & Maintenance V1.0》培训教材是华为认证体系中的一个重要组成部分,专注于大数据的运维与管理。这个课程旨在培养具备大数据平台搭建、管理、监控和优化能力的专业人士,以应对现代企业对...

    大数据的架构特征.docx

    Hadoop 1.0由HDFS和MapReduce组成,而Hadoop 2.0引入了YARN作为资源管理系统,提高了扩展性和兼容性,支持更多的计算框架。HBase作为NoSQL数据库,适用于处理大规模的非结构化数据,提供高并发读写能力。 总结来说...

    Python库 | zbb_fc_bigdata-1.0-py3-none-any.whl

    "py3-none-any"部分表示此库是针对Python 3编写的,不依赖于特定的体系结构("none")和操作系统("any"),这意味着它可以在任何支持Python 3的平台上运行。 Python大数据库通常会包含以下几个关键组成部分: 1. ...

    医疗大数据解决方案1.0 - 副本.docx

    为了克服这些挑战,医疗大数据解决方案应采取一系列策略,包括采用更适合大数据处理的技术如Hadoop、Spark,利用NoSQL数据库来存储非结构化数据,以及利用机器学习和人工智能技术进行深度挖掘。同时,加强数据标准化...

    大数据入门指南v1.0

    【大数据入门指南】是针对初学者...这份指南提供了从基础到进阶的大数据技术体系,适合初学者逐步掌握大数据处理的核心技术。通过阅读和实践,读者可以对大数据处理有一个全面的认识,并能逐步构建自己的大数据技能树。

    总结10个最重要的开源软件

    Hadoop 的体系结构包括 HDFS(Hadoop Distributed File System)、MapReduce、YARN 等组件。HDFS 是一个分布式文件系统,用于存储大规模数据。MapReduce 是一个分布式计算框架,用于处理大规模数据。YARN 是一个资源...

    大数据平台及在推荐广告的应用.pptx

    Hadoop1.0到Yarn的演进,实现了资源管理和调度的分离,提高了资源利用率,将slot转换为container进行更精细化的资源划分。此外,Spark作为高效的数据处理框架,提供输入迭代、实时处理等功能,进一步提升了处理速度...

    大数据平台及在推荐广告的应用20.pptx

    在实时和离线处理方面,Hadoop1.0到Yarn的演进显著提高了资源管理和调度的效率,从单点到分离的资源管理,再到container的资源划分。 在推荐广告的应用中,特征工程和机器学习算法库如Mahout和MLlib是核心部分。...

    模拟样题1

    【天河一号体系结构】天河一号是中国的一台超级计算机,其体系结构属于MPP(Massively Parallel Processing,大规模并行处理),选项C是正确答案。 【DNS并行矩阵算法】DNS并行矩阵算法的时间复杂度分析中,当输入...

    大数据基础期末复习(速成不挂科版)

    - **任务跟踪**:MapReduce1.0体系结构中的Task、TaskTracker、JobTracker等。 以上内容覆盖了大数据基础知识的关键要点,包括大数据的基本特征、发展阶段、Hadoop的核心技术和生态系统等内容。希望这些总结能帮助...

    阿里巴巴大数据实践之路.pdf

    阿里巴巴大数据体系结构由公共技术平台 One Platform、公共数据服务 One Data 和中台后台前台业务 DWODPS、ADS 统一的大数据技术平台组成。公共技术平台 One Platform 提供了统一的数据仓库、数据共享、算法共享、...

    中位物联网大数据平台总体设计V1.0.doc

    - **采用最新技术栈**:选择成熟稳定的开源技术作为核心组件,如Hadoop、Spark等。 - **前瞻性规划**:考虑到未来五年内的技术发展趋势,预留足够的扩展空间。 - **兼容性考虑**:确保新旧技术之间的良好兼容性,...

    京东金融大数据剖析平台总体架构-v1.0-0827-图文精彩.pptx

    在这个体系中,通常包括以下几个核心组成部分: 1. 数据采集层:这是整个架构的基础,负责从各种来源(如交易系统、用户行为日志、社交媒体等)收集数据。这一层可能包含多种工具,如Flume、Kafka或Logstash,用于...

Global site tag (gtag.js) - Google Analytics