Apache Hadoop更准确的说是一个基础架构平台。主要提供分布式文件存储,云计算。
具体这个大平台包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目,有Apache Hive和Apache HBase等等。
使用hadoop,要结合zookeeper,Hbase使用。
目前有2个主要版本,1.0和2.0。其中各个版本的文件结构都是不兼容的。但是原理都差不多。而对于map/reduce,2.0中采用了新的架构yarn。进一步解决了单点问题。
目前hadoop有2个开源版本,一个是Apache的版本,另一个是Cloudera在Apache的基础上进行优化的版本,也称为CDH3版。
参考文章
apache官方网站
http://hadoop.apache.org/
企业版hadoop官方
http://www.cloudera.com/hadoop/
hadoop基础介绍
http://zh.wikipedia.org/wiki/Apache_Hadoop
hadoop版本对比
http://blog.csdn.net/zhaobisha/article/details/6941841
论坛
http://bbs.chinaunix.net/thread-4063597-1-1.html
developerworks
https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/
https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/
https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop3/
hadoop资料-源码分析
http://liuxinglanyue.iteye.com/blog/853484
MapReduce的输入输出格式
http://blog.csdn.net/codestinity/article/details/7032158
hadoop精品资料
http://sishuok.com/forum/blogPost/list/5833.html
map/reduce详细介绍
http://blog.csdn.net/a221133/article/details/8605218
http://caibinbupt.iteye.com/blog/336467
namenode 与 secondarynamenode的区别和作用,配置方式
http://www.cnblogs.com/ggjucheng/archive/2012/04/18/2454692.html
部署注意事项
http://sishuok.com/forum/blogPost/list/5607.html
hadoop native library
http://www.cnblogs.com/gpcuster/archive/2011/02/17/1957042.html
压力测试工具
hbase:ycsb
map/reduce:terasort,http://grepcode.com/file/repository.cloudera.com/content/repositories/releases/com.cloudera.hadoop/hadoop-examples/0.20.2-320/org/apache/hadoop/examples/terasort/TeraSort.java
性能优化
linux操作系统提高io性能noatime
http://www.itlearner.com/article/4922
hadoop平台优化概述
http://www.cnblogs.com/flyoung2008/articles/2282731.html
map/reduce数量参考文章
http://blog.sina.com.cn/s/blog_69d9bff301019wqw.html
http://hi.baidu.com/qimeishi/item/7bc1680220c7f968d45a11f7?qq-pf-to=pcqq.c2c
map/reduce参数优化
http://my.oschina.net/JJREN/blog/71314
hadoop源码分析
http://blog.csdn.net/luyee2010/article/details/8623124
hadoop互相ssh配置
http://blog.csdn.net/suileisl/article/details/10474545
Hadoop 新 MapReduce 框架 Yarn 详解
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/
新老版本配置对比
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/#_3.1_hadoop_0.23.0
hadoop balance
http://www.cnblogs.com/gpcuster/archive/2011/02/16/1956555.html
hadoop版本对比
http://www.cnblogs.com/xuxm2007/archive/2013/04/04/2999741.html
分享到:
相关推荐
《Hadoop大数据开发实战》教学教案—01初识Hadoop的内容主要涵盖了大数据的基本概念、核心需求以及Hadoop框架的初步介绍。在这个章节中,学习者将了解到大数据在当今信息化社会中的重要地位,并掌握大数据的基本特征...
本资源"【IT十八掌徐培成】Hadoop第02天-01.Hadoop基础回顾-进程初识-webui.zip"聚焦于Hadoop的基础知识,特别是对Hadoop进程的理解以及如何通过Web UI进行监控。这里我们将深入探讨Hadoop的核心组件、进程架构以及...
【初识Hadoop之Hadoop安装】 Hadoop是Apache软件基金会的一个开源分布式计算框架,它设计用于处理和存储海量数据。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,前者负责数据的分布式...
通过将复杂的大数据处理任务分解为一系列较小的任务来提高效率。 - **Hadoop Yet Another Resource Negotiator (YARN)**:这是Hadoop 2.x中的一个新组件,负责集群资源管理和任务调度,提高了系统的灵活性和可扩展性...
### Hadoop基础知识详解 #### 一、Hadoop概述 Hadoop是一个开源的、可靠的、可扩展的系统架构,主要用于利用分布式架构存储海量数据并实现分布式的计算任务。它由Apache基金会维护,旨在解决大规模数据处理的问题...
### 初识Hadoop知识点详解 #### 一、大数据概览 **1. 大数据定义** - **概念解析**:大数据的概念并非特指某个具体的数据量级,而是指那些无法用传统的数据处理工具进行有效捕捉、管理和处理的数据集合。这种...
1. **第三章:初识Hadoop 2.x** - Hadoop概述:介绍Hadoop的起源、发展及在大数据处理中的地位。 - Hadoop生态系统:包括HDFS、MapReduce、YARN、HBase、Hive、Pig等组件的基本概念和作用。 - Hadoop 2.x的新特性...
《HadoopDemo:初识与实践》 HadoopDemo是一个专为Hadoop初学者设计的项目,它通过一系列实例展示了Hadoop的核心功能和使用方法。Hadoop,作为大数据处理领域的重要框架,以其分布式、容错性和扩展性著称,是理解和...
第1讲:初识hadoop
第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统 网格计算 志愿计算 1.3.4 Hadoop 发展简史 Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce 一个气象数据...
《Hadoop开发者全集》和《Pro Hadoop》是一系列专为Hadoop开发人员准备的资源,涵盖了Hadoop生态系统的核心概念、技术应用以及高级实践。这些资料分为三个阶段,逐步深入,旨在帮助读者从初识到精通Hadoop的开发工作...
在本套“Hadoop大数据管理实验详细参考文档”中,我们涵盖了从初识Hadoop到进行实际操作的全过程,旨在帮助新手快速入门大数据处理的世界。Hadoop是一个开源框架,主要用于处理和存储海量数据,它的核心组件包括HDFS...
第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统 网格计算 志愿计算 1.3.4 Hadoop 发展简史 Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce 一个气象数据集 数据的格式 使用...
**Hadoop 2.x 入门指南** Hadoop 2.x 是一个开源的分布式计算框架,它是Apache Hadoop项目的最新版本,旨在提供高效、可...通过学习"0101+初识Hadoop+2.x.pdf"这样的文档,你可以逐步掌握这个领域的核心概念和技术。
第一章:初识Hadoop 第2章 关于MapReduce 第3章 Hadoop分布式文件系统 第4章 Hadoop I/O 第5章:MapReduce 应用开发 第6章:MapReduce 的工作原理 第7章:MapReduce 的类型与格式
1. **初识Hadoop**:讨论为何学习Hadoop,Hadoop与云计算和大数据的关系,所需基础知识,以及学习环境。这将帮助学生理解Hadoop的背景和应用场景。 2. **Hadoop基础知识**:涵盖Hadoop的简介、版本演进、HDFS、...
六、hadoop学习笔记之一:初识Hadoop 这篇笔记介绍了Hadoop的基本概念,包括Hadoop的诞生背景、核心组件以及Hadoop的优势。初学者可以从这里了解Hadoop的基本架构和工作原理,为后续的学习打下基础。 总结,Hadoop...
### 高级软件人才培训专家-Hadoop课程资料-1-初识Linux #### 知识点一:操作系统概述 - **定义与作用**:操作系统(Operating System, OS)是一种系统软件,它作为用户与计算机硬件之间的接口,负责管理和协调...
1. 初识HADOOP HADOOP最初由Apache软件基金会开发,是大数据处理领域的核心工具。它基于Google的MapReduce计算模型和GFS(Google文件系统)的理念,为海量数据的处理提供了高效、可靠的解决方案。HADOOP的设计目标...