`
tjuximo
  • 浏览: 50589 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop学习,hadoop基本概念了解

阅读更多
项目中需要用到hadoop,恰好对数据处理特别感兴趣,所以就申请做hadoop相关的东西,现在还处于学习阶段。

hadoop是apache的一个项目,是一个能对BigFile、BigData进行分布式计算的框架,由Hadoop Common、HDFS、Hadoop MapReduce三个子项目构成,另外还有Avro、Pig等项目是和Hadoop相关的一些项目。

它有以下一些优点:
1)可靠。因为它会为需要处理的数据创建多个副本,以应对数据计算或存储过程的失败,确保某些计算或存储结点发生问题时,能够重新处理。
2)高效。hadoop是以并行的方式工作的,通过并行处理加快数据处理的速度。
3)可伸缩的。能够处理PB级的数据。
此外,hadoop依赖集群运算,因此成本很低,任何人都可以用。
hadoop框架是用Java写的,所以很适合运行在Java平台上。但是支持python、C++、Java等语言的客户端调用。

Hadoop框架有很多模块构成,其底层是HDFS(Hadoop Distributed File System),它存储的是Hadoop计算书所有存储节点上的文件。HDFS上层是MapReduce引擎,该引擎由JobTracker上和TaskTracker上组成。


先看一些概念。
HDFS:是Hadoop应用的基本的分布式存储系统,一个HDFS集群包括一个管理文件系统内部元数据的namenode和若干个真实存储数据的DataNodes。
Namenode:是在hdfs实例中的单台机器上运行的,它负责管理文件系统名称空间和控制外部客户机的访问。Namenode决定是否将文件映射到DataNode上的复制块上。
DataNode:DataNode在HDFS中有若干个,它响应来自namenode的命令。同时dataNode会向namenode发送心跳,表示工作正常,namenode也可以根据心跳中的参数值验证块映射和其他文件系统的元数据。如果dataNode不发送心跳,NameNode认为该dataNode上的task运行不正常,需要运行副本块上的数据。
MapReduce:Map是把输入Input分解成中间的Key/Value对,Reduce把Key/Value合成最终输出Output。Map和Reduce操作分布在集群上运行,并把结果存储在HDFS上。


分享到:
评论

相关推荐

    java及hadoop学习资料

    这份“java及hadoop学习资料”压缩包提供了丰富的学习资源,帮助初学者或进阶者深入理解和掌握这两个领域的核心概念。 Java部分: 1. **Java基础知识**:Java的学习通常从基础语法开始,包括数据类型、变量、控制...

    Hadoop学习必看路线图2.pdf

    - **Linux安装及基本操作**:这是Hadoop学习的基础,包括Linux系统的安装、常用的命令行操作(如文件管理、进程管理等)。熟悉Linux环境对于后续的学习至关重要。 - **Python编程基础**:虽然Hadoop的主要编程语言是...

    hadoop学习资料书

    对于初学者,了解Hadoop的基本概念和架构是第一步,然后可以深入学习HDFS和MapReduce的工作原理。接下来,通过实际项目实践,熟悉Hadoop的安装配置和数据处理流程。同时,学习Hadoop生态系统中的其他工具,如Hive,...

    Hadoop入门学习文档

    通过以上知识点的总结,可以清晰地了解到Hadoop作为大数据处理领域的重要工具,不仅拥有强大的存储和计算能力,还拥有丰富的生态系统和广泛的商业支持。对于希望进入大数据领域的技术人员来说,掌握Hadoop的基础知识...

    hadoop学习笔记.rar

    初学者可以从这里了解Hadoop的基本架构和工作原理,为后续的学习打下基础。 总结,Hadoop的学习涵盖了从理论理解到实践操作的多个层面,包括使用开发工具、编写MapReduce代码、进行单元测试和集成测试等。通过深入...

    hadoop学习资料

    通过孙老师的全套Hadoop视频教程及其配套资料,不仅可以快速掌握Hadoop的基本概念和技术要点,还能通过实践加深理解,最终成为大数据领域的专业人士。同时,积极参与社区交流也能帮助学习者解决实际问题,拓展知识面...

    hadoop学习资料(一)

    4. **Hadoop的安装与配置**:学习Hadoop,首先要了解如何在本地或集群环境中安装和配置Hadoop,包括设置环境变量、配置HDFS和MapReduce参数,以及启动和停止Hadoop服务。 5. **Hadoop实战**:通过实际操作,如上传...

    hadoop3.1.3学习资料

    Hadoop 3.1.3 是一个开源框架,主要用于分布式...学习Hadoop 3.1.3,你需要理解这些基本概念,并通过实际操作加深理解。笔记可能会涵盖这些问题的解决方案、案例研究以及常见问题解答,帮助你快速掌握Hadoop的使用。

    学习hadoop--java零基础学习hadoop手册

    ### Hadoop与Java基础知识学习手册 #### 一、Hadoop简介及Java基础知识 **标题**:“学习hadoop--java零基础学习hadoop手册” **描述**:“学习hadoop--java零基础学习hadoop手册” 本手册旨在为完全没有Java基础...

    hadoop学习总结1-5

    总的来说,"hadoop学习总结1-5"这份资料可能涵盖了从Hadoop的基本概念到实际操作的各个方面,对于想要深入了解和掌握Hadoop的初学者来说,是一份宝贵的参考资料。通过系统学习,可以逐步提升在大数据处理领域的专业...

    3.Hadoop学习笔记.pdf

    YARN引入了资源管理器、节点管理器以及应用程序历史服务器等概念,使得在Hadoop上运行的计算框架不仅仅是MapReduce,也可以是其他框架,如Spark。 Hadoop的生态系统还包括Hive、HBase、Pig、Zookeeper等多种工具和...

    Hadoop学习总结

    总结来说,Hadoop的学习涵盖了HDFS的基础概念、数据读写流程,以及Map-Reduce模型的理解和应用。掌握这些知识点,不仅能够帮助你理解和操作Hadoop系统,也为进一步探索大数据处理和分析打下坚实基础。在实践中不断...

    Hadoop学习资料1

    这个“Hadoop学习资料1”的压缩包包含了几个重要的资源,可以帮助我们深入了解和掌握Hadoop的核心概念和技术。 首先,"Deep Learning with Hadoop"可能是一本关于如何在Hadoop生态系统中实施深度学习的书籍或教程。...

    hadoop学习资料汇总

    这份"hadopp学习资料汇总"包含的资源旨在帮助初学者系统地理解和掌握Hadoop的核心概念和技术。 首先,Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS是Hadoop的数据存储系统,它将...

    Python+Spark 2.0+Hadoop机器学习与大数据

    《Python+Spark 2.0+Hadoop机器学习与大数据》是一本深入探讨大数据处理与机器学习技术结合的著作。...通过学习,读者不仅可以理解这些技术的基本概念,还能掌握将它们应用于实际项目中的技巧和最佳实践。

    Hadoop基本概念与架构

    Hadoop基本概念与架构,背景介绍和hadoop介绍,Hadoop生态系统介绍

    零基础学习Hadoop

    对于零基础的学习者来说,Hadoop的学习可以划分为几个主要步骤:了解Hadoop基本概念、学习相关技术、搭建环境以及实操练习。 首先,了解Hadoop基本概念是入门的基础。Hadoop的主要组成部分包括HDFS(Hadoop ...

    Hadoop大数据教学视频100集

    通过这100集的教学视频,学习者将能够理解大数据处理的基本概念,以及如何利用Hadoop进行大规模数据处理。 Hadoop是Apache软件基金会开发的一个开源框架,专为处理和存储大量数据而设计。其核心组件包括HDFS...

    hadoop学习步骤说明

    此外,还需要了解Hadoop的工作流程、数据存储方式、数据处理机制等核心概念。通过阅读官方文档、观看教程视频或参加线上课程来加深对Hadoop的理解是非常必要的。 #### 二、安装配置Hadoop环境 在掌握了Hadoop的...

Global site tag (gtag.js) - Google Analytics