`
Imagination_Fly
  • 浏览: 23466 次
  • 性别: Icon_minigender_1
  • 来自: 山城
社区版块
存档分类
最新评论

hadoop大数据处理工具

阅读更多
    Apache Hadoop:http://hadoop.apache.org/在近几年已成为大数据行业发展背后的驱动力。各行业对hadoop的广泛应用以及开发出自己的大数据产品.Hadoop带来了廉价的处理大数据(数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化、非结构化等)的能力。现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据。但成本昂贵。Hadoop核心还是一套批处理系统,数据加载进HDFS、处理然后检索。
    该项目包括如下模块:
        Hadoop Common: 支持其它hadoop模块的公用工具.
        Hadoop Distributed File System (HDFS™):分布式文件系统。
        Hadoop YARN: 负责作业调度和集群资源管理的框架
        Hadoop MapReduce: 基于YARN并行处理大型数据集系统
    其它相关的项目包括:
         Ambari™:基于web的工具,用于配置、管理和监控Apache Hadoop集群,包括Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop的支持。
         Avro™-数据序列化系统。
         Cassandra™:没有单点故障可伸缩的多主机数据库
         Chukwa™:管理大量分布系统的数据采集系统
         HBase™:支持结构化数据存储的可伸缩的、分布式数据库
         Hive™:数据仓库基础设施提供了数据查询等
         Mahout™:可扩展的机器学习和数据挖掘库
         Pig™:用于并行计算的高级数据流语言和执行框架
         ZooKeeper™:为高性能分布式应用程序的协调服务
     核心记忆下Hadoop系统的组成部分及功能
     1、MapReduce—Hadoop的核心
          具体流程:输入文件 ->映射阶段(map)->存储->归并阶段(reduce)->输出文件
          MapReduce的重要创新是当处理一个大数据集查询时会将其任务分解并在运行的多个节点中处理。当数据量很大时就无法在一台服务器上解决问题,这时候分布式计算优势就体现出来了
     2、HDFS
          具体流程:NameNode -> hdfs ->map/reduce工作
          各台服务器必须具备对数据的访问能力,这就是HDFS所起到的作用.HDFS与MapReduce的结合是强大的。在处理大数据的过程中,当Hadoop集群中的服务器出现错误时,整个计算过程并不会终止。同时 HFDS可保障在整个集群中发生故障错误时的数据冗余。当计算完成时将结果写入HFDS的一个节点之中。HDFS对存储的数据格式并无苛刻的要求,数据可 以是非结构化或其它类别。
     3、PIG和HIVE
          PIG是一种编程语言,Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(比如:日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。
         Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS(hive superimposes structure on data in HDFS),并允许使用类似于SQL语法进行数据查询(HiveQL)。跟Pig类似,Hive的核心功能也是可扩展的。
         Hive具备的友好SQL查询是与繁多数据库的理想结合点,数据库工具通过JDBC或ODBC数据库驱动程序连接。
     4、HBase
          HBase作为面向列的数据库运行在HDFS之上。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。HBase利用MapReduce来处理内部的海量数据。同 时Hive和Pig都可以与HBase组合使用,Hive和Pig还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的相对要简单。HBase不适合用于ad-hoc分析,HBase更适合整合大数据作为大 型应用的一部分,包括日志、计算以及时间序列数据
     5、Sqoop
          主要是从关系数据库导入数据到Hadoop,并可直接导入到HFDS或Hive
     6、ZooKeeper(负责协调工作流程)
          大数据处理系统需要ZooKeeper负责协调工作,计算节点的增多,集群成员需要彼此同步并了解去哪里访问服务和如何配置
     7、MHout
          Mahout提供一些可扩展的机器学习领域经典算法的实现。Mahout包含许多实现,包括集群、分类、推荐过滤、频繁子项挖掘。

分享到:
评论

相关推荐

    4703031《Hadoop大数据处理实战》(康开锋)423-1资源包.rar

    《Hadoop大数据处理实战》是康开锋撰写的一本深入探讨Hadoop技术的书籍,旨在帮助读者理解并掌握Hadoop在大数据处理中的实际应用。这本书的内容涵盖了Hadoop生态系统的核心组件,以及如何利用这些组件解决实际问题。...

    Hadoop大数据处理技术基础与实践(第2版)(微课版)PPT-课件.rar

    《Hadoop大数据处理技术基础与实践(第2版)(微课版)PPT-课件》是一个关于Hadoop在大数据处理领域的核心课程资源。这个压缩包包含了丰富的教学资料,帮助学习者深入理解和掌握Hadoop生态系统的核心概念和技术。...

    Hadoop大数据处理方面的文献

    在大数据处理领域,Hadoop是一个不可或缺的关键技术。它是由Apache软件基金会开发的开源框架,主要用于存储和处理海量数据。Hadoop的设计理念是分布式计算,它能够将大规模数据集分散到多台廉价服务器上进行处理,...

    Hadoop大数据处理技术基础与实践1

    【Hadoop大数据处理技术基础与实践1】 Hadoop是一个开源的分布式计算框架,它源于谷歌的云计算和大数据处理理念,现已成为业界事实上的标准。在21世纪的云计算和大数据领域,Hadoop扮演着至关重要的角色,特别是在...

    spark+hadoop大数据处理学习笔记

    《Spark与Hadoop在大数据处理中的深度探索》 在当今数据爆炸的时代,大数据处理技术的重要性...在实际工作中,根据项目需求选择合适的处理工具,并掌握它们之间的协作,将极大地提升数据处理效率和项目成功率。

    数据算法 Hadoop Spark大数据处理技巧.zip

    《数据算法 Hadoop Spark大数据处理技巧》这本书深入探讨了大数据处理的核心技术和工具,主要涵盖了Hadoop和Spark两个关键框架。大数据是当前信息技术领域的重要趋势,它涉及到如何从海量、多源、快速生成的数据中...

    数据算法: Hadoop+Spark大数据处理技巧.pdf

    《数据算法:Hadoop+Spark大数据处理技巧》是一本深入探讨大数据处理技术的专业书籍,主要聚焦于两大主流的大数据处理框架——Hadoop和Spark。这本书不仅涵盖了基础理论,还提供了丰富的实践指导,对于想要深入了解...

    基于Hadoop的大数据处理关键技术综述.pptx

    大数据处理技术的关键不仅限于Hadoop,还包括数据分析技术(如自然语言处理、统计分析、数据挖掘等)、存储技术(结构化、非结构化和半结构化数据的处理)、大数据技术(如ETL工具、NoSQL数据库等)以及解决方案(如...

    Hadoop构建数据仓库实践1_hadoop_

    在大数据处理领域,Hadoop是一个不可或缺的关键工具,它以其分布式计算框架著称,为企业和组织提供了海量数据存储和处理的能力。本实践指南将深入探讨如何利用Hadoop来构建高效的数据仓库系统,以此来提升数据分析的...

    基于大数据Hadoop框架的数据处理流程研究与案例实践.pdf

    在大数据处理方面,Hadoop并不是唯一的解决方案,但它在开源社区的支持和广泛应用中,已经成为了大数据处理技术的一个重要代表。对于希望在大数据领域取得进展的企业和个人来说,理解Hadoop框架的数据处理流程并掌握...

    Hadoop大数据处理技术基础与实践 -源代码.7z

    这些工具扩展了Hadoop的功能,使其在大数据处理领域更加全能。 4. **Hadoop源代码分析**:压缩包中的源代码可以帮助读者深入理解Hadoop的工作原理。通过阅读和实践,可以学习到如何编写MapReduce程序,如何配置和...

    基于Hadoop的大数据处理系统.pdf

    总的来说,Hadoop及其生态系统为大数据处理提供了强大的工具和框架,使得企业和组织能够有效地存储、处理和分析海量数据,推动业务洞察和决策支持。随着大数据技术的发展,Hadoop不断进化,适应更多样的数据处理需求...

    Hadoop 大数据分析工具,全球前10强生产商排名及市场份额.pdf

    【Hadoop大数据分析工具全球市场概述】 Hadoop大数据分析工具在全球范围内正日益受到重视,根据QYResearch的最新调研报告,预计到2029年,该市场的规模将达到57.2亿美元,年复合增长率(CAGR)为7.5%。这个增长趋势...

    Hadoop/Spark大数据处理技巧

    在大数据处理领域,Hadoop和Spark是两个至关重要的开源框架,它们为海量数据的存储、管理和分析提供了强大的支持。本书《数据算法:Hadoop/Spark算法》深入探讨了这两个平台上的算法实现,对于理解大数据处理的内在...

    Hadoop数据分析_大数据_hadoop_数据分析_

    MapReduce是Hadoop用于大规模数据处理的编程模型,由“Map”阶段(数据分发和预处理)和“Reduce”阶段(聚合和总结数据)组成。 Hadoop生态系统的其他重要组件还包括: 1. **YARN(Yet Another Resource ...

    数据算法 HadoopSpark大数据处理技巧.pptx

    新的技术和工具也将不断涌现,为大数据处理带来更多可能性。 本书的知识点包括: * Hadoop和Spark的基本概念和原理 * Hadoop的数据存储和处理基础设施,如HDFS和MapReduce * Hadoop生态系统中的重要组件,例如Hive...

    第2章-大数据处理架构Hadoop.pdf

    大数据处理架构Hadoop是当前处理大规模数据集的重要工具,它的出现极大地推动了大数据技术的发展。Hadoop最初由Apache Lucene项目的创始人Doug Cutting开发,起初是一个文本搜索库,随后发展成为了一个开源分布式...

    大数据处理工具Hadoop的使用文档概述

    Apache Hadoop 是一个开源的分布式数据处理框架,它在大数据时代扮演着至关重要的角色,尤其在处理大规模数据集时表现出色。Hadoop 的设计旨在实现高可靠性、可扩展性和容错性,使得处理海量数据变得既高效又简单。...

Global site tag (gtag.js) - Google Analytics