`
xinyeyouxiang
  • 浏览: 6187 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

初学Hadoop(一)

阅读更多
1. Hadoop官网:http://hadoop.apache.org/

2. 目录结构:

关于Hadoop

什么是Hadoop 

 Hadoop apache 子项目 专注于分布式计算的 稳定高效标准的开源软件体系。

模块:

Hadoop Common :公用类支出协同模块

Hadoop Distributed File System (HDFS)分布式文件系统

Hadoop YARN :定时任务和集群资源管理框架(2.x版本,1.x版本没有)

Hadoop MapReduce :并行处理大数据

文档信息

http://hadoop.apache.org/docs/current/

相关子项目

*Ambari:一个基于网络的工具,配置,管理,监控的Apache Hadoop集群包括Hadoop HDFS及其Hadoop体系的性能诊断的管理工具

Avro : 系列化系统

Cassandra可扩展的多主数据库没有单点故障(HA)

Chukwa一种用于管理大型分布式系统的数据采集系统。

*HBase:一个可扩展的,支持大型表的结构化数据存储的分布式数据库。

*Hive:数据仓库的基础设施,提供数据汇总和专案查询。

*Mahout:一个可扩展的机器学习和数据挖掘库。(用于数据挖掘)

Pig :一个高层次的数据流语言支持并行计算的一种框架。

*Spark::一个Hadoop数据进行快速整体计算提供了一个简单而富有表现力的编程模型,支持多种应用,包括ETL,机器学习,数据流处理,和图形计算。

Tez:广义的数据流编程框架,基于Hadoop Yarn,它提供了一个强大和灵活的引擎执行任务的任意DAG为批处理和交互式的使用情况。tezHive,PigHadoop生态系统中的其他框架广泛采用,在Hadoop生态猪等框架,以及其他的商业软件(如ETL工具),以取代Hadoop MapReduce™作为底层的执行引擎。

*zookeeper:一个高性能协调分布式程序的应用。

0
0
分享到:
评论
1 楼 bitray 2015-03-18  
计算为主还是挖掘为主,还是存储为主

相关推荐

    Hadoop和Spark初学者指南:基础安装与实践应用 0基础!!易懂!!.html

    Hadoop和Spark初学者指南Hadoop和Spark初学者指南Hadoop和Spark初学者指南Hadoop和Spark初学者指南Hadoop和Spark初学者指南Hadoop和Spark初学者指南Hadoop和Spark初学者指南Hadoop和Spark初学者指南Hadoop和Spark...

    hadoop组件程序包.zip

    总结,"hadoop组件程序包.zip"是一个为Hadoop初学者量身定制的学习资源,通过深入学习和实践,初学者可以全面掌握Hadoop的核心组件及其工作原理,为未来在大数据领域的探索和发展打下坚实基础。

    hadoop几个实例

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在大规模集群中高效处理和存储海量数据。这个压缩包文件包含的"hadop实用案例"很可能是为了帮助初学者理解和应用Hadoop技术。以下是关于Hadoop的一些...

    Hadoop第一次培训材料

    【Hadoop第一次培训材料】是针对初学者设计的一份详细教程,旨在介绍分布式计算框架Hadoop的核心概念和技术。Hadoop是Apache软件基金会开发的一个开源项目,它为处理和存储大量数据提供了可扩展的、可靠的解决方案。...

    hadoop学习资料(一)

    这份资料对于那些想要踏入大数据处理领域的初学者或者是正在提升Hadoop技能的人来说,无疑是一份宝贵的资源。下面,我们将详细探讨Hadoop的基本概念、核心组件以及相关技术。 Hadoop是Apache软件基金会开发的一个...

    Hadoop源码分析 第一章 Hadoop脚本

    对于初学者,建议先从官方文档和社区资源入手,理解Hadoop的基本概念和工作流程。然后逐步深入源码,结合实际案例分析,例如研究如何自定义InputFormat、OutputFormat、Mapper和Reducer等组件。此外,熟悉Java编程...

    传智黑马赵星老师hadoop七天课程资料笔记-第一天(全)

    【标题】"传智黑马赵星老师hadoop七天课程资料笔记-第一天(全)" 提供的是一份关于Hadoop的全面学习...这份资料集为Hadoop初学者提供了一个全面的学习路径,通过理论与实践的结合,帮助他们建立起对Hadoop的坚实理解。

    hadoop入门实战

    对于初学者来说,理解并掌握Hadoop是进入大数据行业的关键步骤。 1. **概述** Hadoop是基于Java实现的一个分布式计算框架,它设计的目标是处理和存储大规模数据。核心组件包括两个:Hadoop Distributed File ...

    hadoop-2.4.1版本大数据

    对于初学者来说,通过单机模拟分布式Hadoop环境是学习和理解Hadoop工作原理的有效方式。以下是一个简单的步骤指南: 1. **环境准备**:确保安装了Java环境,并设置好环境变量。 2. **下载Hadoop**:从Apache官网...

    Hadoop 2.7.5 Windows 7 64位 编译bin(包含winutils.exe, hadoop.dll等)

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.5是Hadoop发展中的一个重要版本,它提供了稳定性和性能上的改进。本资源针对的是Windows 7 64位操作系统用户,帮助他们在...

    hadoop-eclipse-plugin-2.6.0.jar.zip_2.6.0_hadoop_hadoop plugin

    《Hadoop Eclipse Plugin 2.6.0:高效开发与测试工具》 Hadoop作为大数据处理的核心框架,为开发者提供了强大的...对于Hadoop初学者和专业开发者来说,熟练掌握并运用这款插件,无疑是提升开发体验和工作效率的关键。

    Hadoop权威指南,hadoop权威指南pdf,Hadoop

    通过阅读《Hadoop权威指南》,无论是初学者还是有经验的开发者,都能对Hadoop有全面而深入的理解,从而更好地利用Hadoop处理大数据挑战。这本书不仅是理论知识的积累,更是实践操作的指南,对于从事大数据工作的专业...

    Hadoop开发者第一期-带书签文字版.pdf

    《Hadoop开发者第一期-带书签文字版》是一份专为Hadoop初学者和开发者设计的高清版学习资料,包含完整的目录结构和便于查阅的书签功能,且所有文字内容均可以复制,极大地提升了学习和参考的便利性。这份资料深入浅...

    快速配置Hadoop开发环境 Win7+Eclipse&CentOS7+Hadoop2 5 1

    本文来自近一周从零开始摸索的操作的笔记 在此过程中得感谢XXTV 感谢互联网 整理出来一是自己备忘 二是希望能初学Hadoop的人一些参考 并节约宝贵时间 本文分两部分 第一部分为Hadoop2 5 1集群的架设 基于CentOS 7...

    eclipse hadoop2 插件

    Eclipse Hadoop2 插件是为开发人员提供的一种强大工具,它允许用户在Eclipse集成开发环境中(IDE)直接编写、调试和管理Hadoop项目。这个插件针对Hadoop 2.x版本进行了优化,提供了丰富的功能来简化Hadoop应用程序的...

    hadoop权威指南代码(Hadoop: The Definitive Guide code)

    除了核心组件,书中还会涉及其他Hadoop生态系统的组件,例如HBase(一个分布式的、面向列的数据库)、Hive(一个数据仓库工具,用于查询和分析存储在HDFS中的大数据集)、Pig(一个用于大数据分析的平台),以及 ...

    hadoop2.6.5中winutils.exe+hadoop.dll

    在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本文将深入探讨Hadoop 2.6.5版本中与Windows环境相关的两个关键组件:winutils.exe和hadoop.dll,以及它们在Hadoop安装和运行...

Global site tag (gtag.js) - Google Analytics