`

Linux下安装hadoop的步骤

阅读更多
一、前期准备:
下载hadoop: http://hadoop.apache.org/core/releases.html
http://hadoop.apache.org/common/releases.html
http://www.apache.org/dyn/closer.cgi/hadoop/core/
http://labs.xiaonei.com/apache-mirror/hadoop/core/hadoop-0.20.1/hadoop-0.20.1.tar.gz
http://labs.xiaonei.com/apache-mirror/hadoop/
二、硬件环境
共有3台机器,均使用的CentOS,Java使用的是jdk1.6.0。

三、安装JAVA6
sudo apt-get install sun-java6-jdk

/etc/environment
打开之后加入:#中间是以英文的冒号隔开,记得windows中是以英文的分号做为分隔的
CLASSPATH=.:/usr/local/java/lib
JAVA_HOME=/usr/local/java


三、配置host表
[root@hadoop ~]# vi /etc/hosts
127.0.0.1       localhost
192.168.13.100     namenode
192.168.13.108     datanode1
192.168.13.110     datanode2

[root@test ~]# vi /etc/hosts
127.0.0.1       localhost
192.168.13.100     namenode
192.168.13.108     datanode1

[root@test2 ~]# vi /etc/host
127.0.0.1       localhost
192.168.13.100     namenode
192.168.13.110     datanode2
添加用户和用户组
addgroup hadoop
adduser  hadoop
usermod -a -G hadoop hadoop
passwd hadoop

配置ssh:

服务端:
su hadoop
ssh-keygen  -t  rsa
cp id_rsa.pub authorized_keys

客户端
chmod 700 /home/hadoop
chmod 755 /home/hadoop/.ssh
su hadoop
cd /home
mkdir .ssh

服务端:
chmod 644 /home/hadoop/.ssh/authorized_keys
scp authorized_keys datanode1:/home/hadoop/.ssh/
scp authorized_keys datanode2:/home/hadoop/.ssh/

ssh datanode1
ssh datanode2

 如果ssh配置好了就会出现以下提示信息
The authenticity of host [dbrg-2] can't be established.
Key fingerpr is 1024 5f:a0:0b:65:d3:82:df:ab:44:62:6d:98:9c:fe:e9:52.
Are you sure you want to continue connecting (yes/no)?
  OpenSSH告诉你它不知道这台主机但是你不用担心这个问题你是第次登录这台主机键入“yes”这将把
这台主机“识别标记”加到“~/.ssh/know_hosts”文件中第 2次访问这台主机时候就不会再显示这条提示信


不过别忘了测试本机ssh dbrg-1
 


mkdir /home/hadoop/HadoopInstall
tar -zxvf hadoop-0.20.1.tar.gz -C /home/hadoop/HadoopInstall/
cd /home/hadoop/HadoopInstall/
ln  -s  hadoop-0.20.1  hadoop

export JAVA_HOME=/usr/local/java
export CLASSPATH=.:/usr/local/java/lib
export HADOOP_HOME=/home/hadoop/HadoopInstall/hadoop
export HADOOP_CONF_DIR=/home/hadoop/hadoop-conf
export PATH=$HADOOP_HOME/bin:$PATH

cd $HADOOP_HOME/conf/
mkdir /home/hadoop/hadoop-conf
cp hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml masters slaves /home/hadoop/hadoop-conf

vi $HADOOP_HOME/hadoop-conf/hadoop-env.sh


# The java implementation to use.  Required. --修改成你自己jdk安装的目录
export JAVA_HOME=/usr/local/java 
 
export  HADOOP_CLASSPATH=.:/usr/local/java/lib
# The maximum amount of heap to use, in MB. Default is 1000.--根据你的内存大小调整
export HADOOP_HEAPSIZE=200          

vi /home/hadoop/.bashrc
export JAVA_HOME=/usr/local/java
export CLASSPATH=.:/usr/local/java/lib
export HADOOP_HOME=/home/hadoop/HadoopInstall/hadoop
export HADOOP_CONF_DIR=/home/hadoop/hadoop-conf
export PATH=$HADOOP_HOME/bin:$PATH



配置

namenode

#vi $HADOOP_CONF_DIR/slaves
192.168.13.108
192.168.13.110

#vi $HADOOP_CONF_DIR/core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 
<!-- Put site-specific property overrides in this file. -->
 
<configuration>
<property>
   <name>fs.default.name</name>
   <value>hdfs://192.168.13.100:9000</value>
</property>
</configuration>

#vi $HADOOP_CONF_DIR/hdfs-site.xml 
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 
<!-- Put site-specific property overrides in this file. -->
 
<configuration>
<property>
  <name>dfs.replication</name>
  <value>3</value>
  <description>Default block replication.
  The actual number of replications can be specified when the file is created.
  The default is used if replication is not specified in create time.
  </description>
</property>
</configuration>


#vi $HADOOP_CONF_DIR/mapred-site.xml 

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 
<!-- Put site-specific property overrides in this file. -->
 
<configuration>
<property>
        <name>mapred.job.tracker</name>
        <value>192.168.13.100:11000</value>
   </property>
</configuration>
~                




在slave上的配置文件如下(hdfs-site.xml不需要配置):
[root@test12 conf]# cat core-site.xml 
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://namenode:9000</value>
   </property>
</configuration>

[root@test12 conf]# cat mapred-site.xml 
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
   <property>
        <name>mapred.job.tracker</name>
        <value>namenode:11000</value>
   </property>
</configuration>



启动
export PATH=$HADOOP_HOME/bin:$PATH

hadoop namenode -format
start-all.sh
停止stop-all.sh

在hdfs上创建danchentest文件夹,上传文件到此目录下
$HADOOP_HOME/bin/hadoop fs -mkdir danchentest
$HADOOP_HOME/bin/hadoop fs -put $HADOOP_HOME/README.txt danchentest

cd $HADOOP_HOME
hadoop jar hadoop-0.20.1-examples.jar wordcount  /user/hadoop/danchentest/README.txt output1
09/12/21 18:31:44 INFO input.FileInputFormat: Total input paths to process : 1
09/12/21 18:31:45 INFO mapred.JobClient: Running job: job_200912211824_0002
09/12/21 18:31:46 INFO mapred.JobClient:  map 0% reduce 0%
09/12/21 18:31:53 INFO mapred.JobClient:  map 100% reduce 0%
09/12/21 18:32:05 INFO mapred.JobClient:  map 100% reduce 100%
09/12/21 18:32:07 INFO mapred.JobClient: Job complete: job_200912211824_0002
09/12/21 18:32:07 INFO mapred.JobClient: Counters: 17
09/12/21 18:32:07 INFO mapred.JobClient:   Job Counters 
09/12/21 18:32:07 INFO mapred.JobClient:     Launched reduce tasks=1

查看输出结果文件,这个文件在hdfs上
[root@test11 hadoop]# hadoop fs -ls output1
Found 2 items
drwxr-xr-x   - root supergroup          0 2009-09-30 16:01 /user/root/output1/_logs
-rw-r--r--   3 root supergroup       1306 2009-09-30 16:01 /user/root/output1/part-r-00000

[root@test11 hadoop]# hadoop fs -cat output1/part-r-00000
(BIS),  1
(ECCN)  1

查看hdfs运行状态,可以通过web界面来访问http://192.168.13.100:50070/dfshealth.jsp;查看map-reduce信息,
可以通过web界面来访问http://192.168.13.100:50030/jobtracker.jsp;下面是直接命令行看到的结果。


出现08/01/25 16:31:40 INFO ipc.Client: Retrying connect to server: foo.bar.com/1.1.1.1:53567. Already tried 1 time(s).
的原因是没有格式化:hadoop namenode -format


分享到:
评论

相关推荐

    Linux系统上安装Hadoop的详细步骤

    Linux系统上安装Hadoop的详细步骤,该文档详细的描述了在linux上面如何安装hadoop,如何信息配置,初始化,启动hadoop等等,喜欢的朋友可以拿去使用

    Linux下安装Hadoop完全分布式

    ### Linux下安装Hadoop完全分布式 #### 知识点概览 - **环境搭建**:包括操作系统选择、硬件配置需求、用户与权限管理等。 - **JDK安装与配置**:涉及JDK版本的选择、环境变量配置及版本切换方法。 - **主机名与...

    Linux下Hadoop集群安装指南

    Linux 下 Hadoop 集群安装指南 一、Linux 下 Hadoop 集群安装前的准备工作 在开始安装 Hadoop 集群之前,我们需要安装 VMware 和 Ubuntu Linux 作为操作系统。这一步骤非常重要,因为 Hadoop 集群需要在 Linux ...

    Hadoop集群安装详细步骤

    下面是在Linux平台下安装Hadoop的过程: 1. 创建安装目录:mkdir /opt/hadoop 2. 更改所属关系和权限:chown root ./; chmod 755 ./ 3. 下载项目包:wget ...

    在linux环境安装hadoop集群

    "在 Linux 环境安装 Hadoop 集群" 在 Linux 环境中安装 Hadoop 集群是大数据处理和分析的重要步骤。Hadoop 是 Apache 基金会开发...只有按照正确的步骤安装和配置 Hadoop 集群,才能确保大数据处理和分析的顺利进行。

    实验1 安装Hadoop.doc

    根据给定文件的信息,我们可以总结出以下几个重要的知识点: ...综上所述,通过本次实验,学生不仅能够学会如何在Linux虚拟机中搭建Hadoop集群,还能掌握Hadoop的基本使用技巧,为进一步学习大数据分析打下坚实基础。

    linux下载,安装,JDK配置,hadoop安装

    ### Linux下载、安装、JDK配置、Hadoop安装相关知识点 #### 一、Linux环境准备与安装 **1.1 Linux版本选择** - **CentOS 6.5**:适用于本教程,是一款稳定且广受支持的企业级操作系统。 **1.2 下载Linux** - **...

    Linux 安装Hadoop.pdf

    在Linux环境下安装Apache Hadoop是一项重要的任务,特别是在大数据处理和分布式计算的场景中。本文将详细解析如何在Linux系统上安装Hadoop 3.3.0,包括必要的环境配置、安装步骤、配置文件的修改以及启动和管理...

    hadoop 组件详细安装步骤

    大数据组件 详细安装步骤(linux配置 hadoop集群搭建 hive flume kafka spark zk 搭建安装)

    大数据技术基础实验报告-Linux环境下hadoop集群的搭建与基本配置.doc

    【大数据技术基础实验报告-Linux环境下hadoop集群的搭建与基本配置】 实验主要涉及了大数据技术中的基础概念,包括Linux操作系统、Java环境、SSH服务、Hadoop集群的搭建与配置。以下是具体步骤和知识点的详细解释:...

    单机版hadoop安装(linux)

    单机版 Hadoop 安装(Linux) 单机版 Hadoop 安装是指在单台机器上安装 Hadoop 环境,以便快速入门 Hadoop 和了解 Hadoop 的基本原理和使用方法。在这个安装过程中,我们将创建 Hadoop 用户组和用户,安装 JDK,...

    Linuxhadoop集群安装

    下面,我们将深入探讨Hadoop在Linux环境下的安装过程,以及相关文件可能提供的详细信息。 首先,"jdk1.7 安装 .doc"文件很可能包含了Java Development Kit(JDK)的安装指南。Hadoop依赖Java运行环境,通常推荐使用...

    linux环境下hadoop及其组件分别安装

    以上步骤完成后,你将拥有一个运行在Linux下的Hadoop伪分布式环境,可以进一步探索Hadoop生态系统的其他组件,如Spark、Pig、Hive和HBase,进行大数据处理和分析。记得在实际操作中根据你的具体需求和硬件资源进行...

    linux下的hadoop安装及配置详解

    ### Linux 下 Hadoop 安装及配置详解 #### 前言 ...通过以上步骤,您就可以在 Linux 环境下成功安装和配置 Hadoop,并且进行初步的数据处理测试了。这些配置对于搭建稳定高效的大数据处理平台至关重要。

    Linux环境下Hadoop搭建与Eclipse配置

    在Linux环境下搭建Hadoop并配置Eclipse开发环境是大数据处理工作中的重要步骤。Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据。而Eclipse是一款强大的集成开发环境(IDE),通过特定的插件可以...

    linux下Hadoop集群环境搭建

    以上就是Linux环境下搭建Hadoop集群的基本步骤。这个过程中可能会遇到各种问题,如网络配置、权限问题或文件权限等,解决这些问题需要对Linux和Hadoop有深入的理解。一旦集群搭建成功,就可以开始处理大规模的数据了...

    Linux-Hadoop-安装和操作指南(内涵代码,工具,以及文档指南)

    《Linux-Hadoop-安装和操作指南》是一份全面解析Linux环境下Hadoop安装与操作的教程,旨在帮助初学者和IT专业人员轻松上手Hadoop分布式计算框架。这份指南包含了从零开始搭建Hadoop环境的详细步骤,代码示例,以及...

    安装hadoopCDH5安装服务步骤.doc

    本篇将详细阐述使用Cloudera Manager在CDH5上安装和配置Hive、HBase、Impala以及Spark的服务步骤。 **一、安装前准备工作** 在开始安装CDH5之前,确保完成以下准备工作: 1. **下载安装所需文件**:这包括...

    widowsXP安装hadoop步骤及问题

    ### Windows XP 上安装 Hadoop 的步骤与常见问题 在 Windows XP 操作系统上安装 Hadoop 并非一件简单的事情,尤其是考虑到 Hadoop 是基于 Linux 平台开发的,且 Windows XP 已经是一款较为老旧的操作系统。下面将...

    linux下hadoop集群搭建

    总之,搭建Linux下的Hadoop集群需要对Hadoop的基本架构有深入理解,熟悉Linux网络配置,并能熟练进行系统级别的设置。这个过程虽然繁琐,但通过良好的规划和细致的实施,可以构建出稳定、高效的数据处理平台。在实践...

Global site tag (gtag.js) - Google Analytics