Apache Hadoop:
http://hadoop.apache.org/在近几年已成为大数据行业发展背后的驱动力。各行业对hadoop的广泛应用以及开发出自己的大数据产品.Hadoop带来了廉价的处理大数据(数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化、非结构化等)的能力。现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据。但成本昂贵。Hadoop核心还是一套批处理系统,数据加载进HDFS、处理然后检索。
该项目包括如下模块:
Hadoop Common: 支持其它hadoop模块的公用工具.
Hadoop Distributed File System (HDFS™):分布式文件系统。
Hadoop YARN: 负责作业调度和集群资源管理的框架
Hadoop MapReduce: 基于YARN并行处理大型数据集系统
其它相关的项目包括:
Ambari™:基于web的工具,用于配置、管理和监控Apache Hadoop集群,包括Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop的支持。
Avro™-数据序列化系统。
Cassandra™:没有单点故障可伸缩的多主机数据库
Chukwa™:管理大量分布系统的数据采集系统
HBase™:支持结构化数据存储的可伸缩的、分布式数据库
Hive™:数据仓库基础设施提供了数据查询等
Mahout™:可扩展的机器学习和数据挖掘库
Pig™:用于并行计算的高级数据流语言和执行框架
ZooKeeper™:为高性能分布式应用程序的协调服务
核心记忆下Hadoop系统的组成部分及功能
1、MapReduce—Hadoop的核心
具体流程:输入文件 ->映射阶段(map)->存储->归并阶段(reduce)->输出文件
MapReduce的重要创新是当处理一个大数据集查询时会将其任务分解并在运行的多个节点中处理。当数据量很大时就无法在一台服务器上解决问题,这时候分布式计算优势就体现出来了
2、HDFS
具体流程:NameNode -> hdfs ->map/reduce工作
各台服务器必须具备对数据的访问能力,这就是HDFS所起到的作用.HDFS与MapReduce的结合是强大的。在处理大数据的过程中,当Hadoop集群中的服务器出现错误时,整个计算过程并不会终止。同时 HFDS可保障在整个集群中发生故障错误时的数据冗余。当计算完成时将结果写入HFDS的一个节点之中。HDFS对存储的数据格式并无苛刻的要求,数据可 以是非结构化或其它类别。
3、PIG和HIVE
PIG是一种编程语言,Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(比如:日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。
Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS(hive superimposes structure on data in HDFS),并允许使用类似于SQL语法进行数据查询(HiveQL)。跟Pig类似,Hive的核心功能也是可扩展的。
Hive具备的友好SQL查询是与繁多数据库的理想结合点,数据库工具通过JDBC或ODBC数据库驱动程序连接。
4、HBase
HBase作为面向列的数据库运行在HDFS之上。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。HBase利用MapReduce来处理内部的海量数据。同 时Hive和Pig都可以与HBase组合使用,Hive和Pig还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的相对要简单。HBase不适合用于ad-hoc分析,HBase更适合整合大数据作为大 型应用的一部分,包括日志、计算以及时间序列数据
5、Sqoop
主要是从关系数据库导入数据到Hadoop,并可直接导入到HFDS或Hive
6、ZooKeeper(负责协调工作流程)
大数据处理系统需要ZooKeeper负责协调工作,计算节点的增多,集群成员需要彼此同步并了解去哪里访问服务和如何配置
7、MHout
Mahout提供一些可扩展的机器学习领域经典算法的实现。Mahout包含许多实现,包括集群、分类、推荐过滤、频繁子项挖掘。
分享到:
相关推荐
《Hadoop大数据处理实战》是康开锋撰写的一本深入探讨Hadoop技术的书籍,旨在帮助读者理解并掌握Hadoop在大数据处理中的实际应用。这本书的内容涵盖了Hadoop生态系统的核心组件,以及如何利用这些组件解决实际问题。...
《Hadoop大数据处理技术基础与实践(第2版)(微课版)PPT-课件》是一个关于Hadoop在大数据处理领域的核心课程资源。这个压缩包包含了丰富的教学资料,帮助学习者深入理解和掌握Hadoop生态系统的核心概念和技术。...
Hadoop能够高效地存储和处理大量数据,特别适用于需要进行海量数据分析的场合,因此在大数据处理领域得到了广泛的应用。 ### Hadoop核心组件 1. **HDFS(Hadoop Distributed File System)** HDFS是Hadoop项目的...
此外,Hadoop生态系统还包括众多其他组件,如Hive(数据仓库工具)、Pig(数据分析平台)、Spark(快速、通用的集群计算系统)、HBase(非关系型数据库)等,它们共同构建了一个强大的大数据处理平台。这些工具与...
3. **数据分析**:利用Hadoop提供的工具进行数据分析,例如使用Hive编写SQL查询语句,或者使用Pig进行复杂的数据处理任务。 4. **结果展示**:将分析结果可视化展示,为企业决策提供依据。 通过以上步骤,不仅...
在大数据处理领域,Hadoop是一个不可或缺的关键技术。它是由Apache软件基金会开发的开源框架,主要用于存储和处理海量数据。Hadoop的设计理念是分布式计算,它能够将大规模数据集分散到多台廉价服务器上进行处理,...
三、Hadoop数据处理 MapReduce是Hadoop处理数据的核心。Map阶段将输入数据分割成小块,并在多个节点上并行处理,生成中间键值对;Reduce阶段则根据键进行聚合,将Map阶段的结果进行整合。这种并行处理方式使得...
【Hadoop大数据处理技术基础与实践1】 Hadoop是一个开源的分布式计算框架,它源于谷歌的云计算和大数据处理理念,现已成为业界事实上的标准。在21世纪的云计算和大数据领域,Hadoop扮演着至关重要的角色,特别是在...
《Spark与Hadoop在大数据处理中的深度探索》 在当今数据爆炸的时代,大数据处理技术的重要性...在实际工作中,根据项目需求选择合适的处理工具,并掌握它们之间的协作,将极大地提升数据处理效率和项目成功率。
《数据算法 Hadoop Spark大数据处理技巧》这本书深入探讨了大数据处理的核心技术和工具,主要涵盖了Hadoop和Spark两个关键框架。大数据是当前信息技术领域的重要趋势,它涉及到如何从海量、多源、快速生成的数据中...
这本书的核心内容围绕Hadoop框架展开,详细讲解了如何利用Hadoop进行大规模数据处理、分析和挖掘。通过阅读本书,读者能够掌握大数据领域的关键技能,从而在实际工作中提升效率,解决复杂的数据问题。 Hadoop是...
《Hadoop海量数据处理》这本书全面且深入地探讨了在大数据时代如何利用Hadoop进行高效的数据管理和分析。Hadoop作为开源的分布式计算框架,因其在处理海量数据时的强大能力而备受业界关注。以下是对该书内容的详细...
《数据算法:Hadoop+Spark大数据处理技巧》是一本深入探讨大数据处理技术的专业书籍,主要聚焦于两大主流的大数据处理框架——Hadoop和Spark。这本书不仅涵盖了基础理论,还提供了丰富的实践指导,对于想要深入了解...
大数据处理技术的关键不仅限于Hadoop,还包括数据分析技术(如自然语言处理、统计分析、数据挖掘等)、存储技术(结构化、非结构化和半结构化数据的处理)、大数据技术(如ETL工具、NoSQL数据库等)以及解决方案(如...
在大数据处理领域,Hadoop是一个不可或缺的关键工具,它以其分布式计算框架著称,为企业和组织提供了海量数据存储和处理的能力。本实践指南将深入探讨如何利用Hadoop来构建高效的数据仓库系统,以此来提升数据分析的...
在大数据处理方面,Hadoop并不是唯一的解决方案,但它在开源社区的支持和广泛应用中,已经成为了大数据处理技术的一个重要代表。对于希望在大数据领域取得进展的企业和个人来说,理解Hadoop框架的数据处理流程并掌握...
这些工具扩展了Hadoop的功能,使其在大数据处理领域更加全能。 4. **Hadoop源代码分析**:压缩包中的源代码可以帮助读者深入理解Hadoop的工作原理。通过阅读和实践,可以学习到如何编写MapReduce程序,如何配置和...