下面我们来一步步的进行hadoop安装部署:
从零开始
机器环境
Distributor ID: CentOS
Description: CentOS release 5.8 (Final)
Release: 5.8
Codename: Final
jdk 版本
java version "1.6.0_45"
hadoop 版本
2.5.2
http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.5.2/
安装jdk:
从甲骨文官方下载:
http://www.oracle.com/technetwork/java/javasebusiness/downloads/java-archive-downloads-javase6-419409.html#jdk-6u45-oth-JPR
jdk-6u45-linux-i586.bin
在linux下面运行命令 ./jdk-6u45-linux-i586.bin
配置环境变量
vi /etc/profile
export JAVA_HOME=/snwz/java/install/jdk1.6.0_45
export JAVA_BIN=/snwz/java/install/jdk1.6.0_45/bin
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME JAVA_BIN PATH CLASSPATH
运行 java -version 检查是否jdk安装成功
解压缩hadoop安装包,配置环境变量
$ cd /snwz/hadoop/install/hadoop-2.5.2/etc/hadoop
$ vi hadoop-env.sh
配置 java 和 hadoop 的目录
# set to the root of your Java installation
export JAVA_HOME=/usr/java/latest
# Assuming your installation directory is /usr/local/hadoop
export HADOOP_PREFIX=/usr/local/hadoop
配置完成后 运行 bin/hadoop
显示hadoop信息后,说明环境配置完成,下面开始我们的hadoop之旅!!!!!!
首先 使用hadoop自带的mapreduce实例实测一下
$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.2.jar grep input output 'dfs[a-z.]+'
$ cat output/*
成功后进入到output目录下
-rw-r--r-- 1 hadoop hadoop 11 01-08 14:04 part-r-00000
-rw-r--r-- 1 hadoop hadoop 0 01-08 14:04 _SUCCESS
如果看到这两个文件,则说明mapreduce任务运行成功。
下面我们来部署一个假分布模式
在分布模式下,因为其他hadoop服务器要通过ssh访问本机hadoop,我们配置ssh免密码登陆
$ ssh localhost
如果登陆不成功则执行下列命名
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
在测试 ssh localhost
如果还是需要输入密码,从网上搜的解决办法,有一大堆呢:
http://lunae.cc/tag/authorized_keys
为什么叫假分布呢?因为我们配置副本冗余为1,就是只存放在一个节点上,配置如下:
etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
配置完成后 需要将hadoop 的名称节点格式化
$ bin/hdfs namenode -format
启动dfs
$ sbin/start-dfs.sh
$ netstat -an | grep 9000
如果出现什么异常,日志都存放在 /snwz/hadoop/install/hadoop-2.5.2/logs
hadoop还提供了可视化界面来让用户更好了解当前hadoop各个节点情况,在浏览器中输入
http://IP:50070
目前推荐使用yarn框架进行hadoop 的部署,关于yarn框架,我在后面会慢慢学习并和大家分享!!!!
今天因为任务提前完成,才有时间记录下忙里偷闲学习的内容,改天继续,下一篇文章要详细介绍集群环境下的配置,在下一章,一个基本的大框架就要搭建起来了,我们拭目以待吧
发表评论
-
Sort-based Shuffle的设计与实现
2016-03-15 08:49 807原文 http://www.cnblogs.com/hsea ... -
spark的几个重要概念
2015-12-04 14:09 0本节主要记录以下几个概念 一:RDD的五大特点 二:RDD 窄 ... -
spark部署安装调试
2015-12-02 11:28 735本节记录spark下载-->编译-->安装--&g ... -
spark基本概念
2015-11-12 10:45 783记录一下课堂笔记: ... -
hadoop计算能力调度器配置
2015-10-29 10:39 1012问题出现 hadoop默认调度器是FIFO,其原理就是先按照作 ... -
HBase在各大应用中的优化和改进
2015-10-28 14:59 688Facebook之前曾经透露过Facebook的hbase架构 ... -
一篇很好的解决系统问题过程描述文章
2015-09-23 08:40 498在网上看到的一篇解决h ... -
通过GeoHash核心原理来分析hbase rowkey设计
2015-09-08 15:49 3513注:本文是结合hbase ... -
从OpenTsdb来分析rowkey设计
2015-09-06 16:04 4943讨论此问题前,先理解 ... -
HBase中asynchbase的使用方式
2015-08-25 10:32 8187Hbase的原生java 客户端是完全同步的,当你使用原生AP ... -
Mapreduce优化的点滴
2015-07-16 15:18 821注:转载 1. 使用自定义Writable 自带的Text ... -
hadoop 如何自定义类型
2015-07-15 09:37 1236记录一下hadoop 数据类型章节的笔记,以便后期使用,本文是 ... -
napreduce shuffle 过程记录
2015-07-10 11:23 755在我看来 hadoop的核心是mapre ... -
ZooKeeper伪分布式集群安装及使用
2015-02-13 08:29 9161. zookeeper介绍 ZooKeeper是一个为分 ... -
hadoop-mahout 核心算法总结
2015-02-07 10:08 1551其实大家都知道hadoop为我们提供了一个大的框架,真正的 ... -
推荐引擎内部原理--mahout
2015-01-22 11:11 568转载自:https://www.ibm.com/devel ... -
hadoop 动态添加删除节点
2015-01-20 13:39 658转自:http://www.cnblogs.com/rill ... -
hbase hadoop zookeeper
2015-01-19 14:47 0hadoop 部署手册 http://www.iteblo ... -
mapreduce 开发以及部署
2015-01-16 13:56 833前面几篇文章的梳理让我对hadoop新yarn 框架有了一 ... -
hadoop yarn几个问题的记录
2015-01-13 11:48 651本文主要介绍以下几 ...
相关推荐
### Hadoop单节点部署指导知识点详解 #### 一、实验目的 - **理解Hadoop原理机制**:深入了解Hadoop的工作原理及其背后的技术架构。 - **熟悉Hadoop集群体系结构**:掌握Hadoop集群中各组成部分的功能及其交互方式...
ubuntu 搭建 Hadoop 单节点 Hadoop 是一个由 Apache 基金会所开发的分布式系统根底架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop 实现了一个分布式文件系统(HDFS),简称 HDFS。HDFS 有...
用户可以在单节点模式下快速部署和测试 Hadoop,降低了学习和部署的成本。 前提条件 在安装和配置 Hadoop 之前,需要确保机器上已经安装了以下软件: 1. JAVA 1.6.x:Hadoop 需要 JAVA 1.6.x 或更高版本来运行。 ...
在这个主题“4、Hadoop多节点部署和测试(HA_HDFS)”中,我们将深入探讨如何在高可用性(HA)模式下配置和测试Hadoop的HDFS(Hadoop分布式文件系统)组件。这里我们将详细讨论涉及的知识点: 1. **HDFS高可用性**:...
在单节点部署中,所有这些目录通常都会指向同一台机器的不同位置。 最后,`mapred-site.xml`是MapReduce的配置文件,它定义了MapReduce作业的执行方式。在Hadoop 2.x中,MapReduce运行在YARN之上。一个重要的配置是...
总之,理解并掌握Hadoop单节点部署对于初学者来说是一个良好的起点,有助于逐步深入到分布式环境的学习。通过实践,你可以更好地理解Hadoop的运行机制,为进一步探索Hadoop生态系统中的其他组件,如Hive、Pig、Spark...
实验2的目的是在Hadoop平台上部署WordCount程序,以此来理解和体验云计算的基础应用。这个实验主要涉及以下几个关键知识点: 1. **Linux系统基础**:实验要求学生具备Linux系统的使用知识,包括基本的命令行操作、...
### Hadoop单机与集群部署知识点 #### 一、Hadoop单机系统版本安装配置 **1.1 配置前的准备工作** - **添加hadoop用户并设置密码:** - 在Linux环境下,首先需要创建一个专用的`hadoop`用户,并为其设置一个安全...
3. **节点部署** - **安装操作系统**:常用的操作系统为Linux,如CentOS或Ubuntu,因为它们对Hadoop有更好的支持。 - **开启SSH服务**:SSH(Secure Shell)用于远程登录和命令执行,是配置集群的基础。 - **修改...
本文档提供了Hadoop 2.0在Linux系统上安装部署的详细步骤和方法。 一、准备工作 首先,需要准备足够的硬件资源和软件包。硬件方面,测试环境通常需要一台配置较高(建议内存不小于4GB)的PC或服务器,而生产环境则...
- **目录统一**:所有节点上Hadoop的部署目录结构需要保持一致。例如,在本例中,主目录是`/home/hadoop`。 - **版本管理**:为了避免未来版本升级带来的不便,可以采用软链接的方式指向当前使用的Hadoop版本,便于...
该存储库包含Ansible Playbook和角色,以通过AWS EC2实例部署Hadoop多节点集群。 角色扮演- 角色名称 角色描述 awsInfra4Hadoop 为Hadoop MultiNode Cluster创建AWS基础架构 Hadoop名称节点 配置Hadoop名称节点 ...
【Hadoop及Hbase部署与应用】涉及到的关键知识点如下: 1. **Hadoop基础**: - Hadoop是一个开源的分布式计算框架,基于Java开发,主要用于处理和存储大规模数据。它由两个主要组件组成:HDFS(Hadoop Distributed...
"Hadoop集群部署方案" Hadoop 集群部署方案是指在分布式系统中部署 Hadoop 集群的详细步骤和配置过程。下面是该方案的详细知识点解释: 1. Hadoop 简介 Hadoop 是Apache软件基金会旗下的开源项目,主要用于大数据...
根据给定的文件标题、描述、标签以及部分内容,本文将详细介绍如何进行Hadoop 2.4.1集群的部署步骤。对于初次接触Hadoop集群搭建的学习者来说,本指南将提供一个全面且易于理解的过程。 ### 一、准备工作 #### 1. ...
为了实现Hadoop节点间的无密码登录,需要配置SSH公钥认证。首先确保SSH已安装并启动,接着在所有主机的`/etc/hosts`文件中添加主机名和IP对应关系。然后,通过在namenode节点生成公钥,并将其复制到所有datanode...
1. **环境准备**:在安装Hadoop集群之前,你需要有一组服务器作为集群节点,以及一台运行Ansible的控制节点。确保所有节点之间可以互相通信,并在控制节点上安装Ansible。 2. **Ansible配置**:创建一个名为`hadoop...
首先,我们来看任务1——Hadoop集群的部署。这一步至关重要,因为它为整个大数据处理系统提供了基础架构。在虚拟机中安装Ubuntu Kylin 16.04.4是常见的选择,因为这是一个稳定且支持Hadoop的Linux发行版。安装完成后...
本教程的目标是在Ubuntu Linux操作系统上建立一个基于Hadoop分布式文件系统(HDFS)的单节点Hadoop集群。读者完成本教程后,将能够运行简单的MapReduce作业,并了解Hadoop集群的基本操作流程。 #### 前置条件 在...