`

Hadoop安装部署

 
阅读更多

本节课程概览
Hadoop 在windows 上伪分布式的安装过程 
Hadoop 在linux  上单节点伪分布式的安装过程 
集成Eclipse 开发环境 
Hadoop UI 介绍
运行WordCounter  事例
 
 
第一部分:Hadoop 在windows 上伪分布式的安装过程
安装JDK
1.下载JDK
       http://www.oracle.com/technetwork/java/javaee/downloads/java-ee-sdk-6u3-jdk-6u29-downloads-523388.html
2.解压
   或者直接运行.exe安装
后面根据项目的实际需要来进行调整。
安装 Cygwin
1.下载Cygwin
    网址: http://www.cygwin.com/setup.exe
 2.安装Cygwin
1. Net Category 下的OpenSSL
2.    Base Category 下的sed
3.Editors Category 下的vim
4.Devel Category  下subversion
后面根据项目的实际需要来进行调整。
 
配置环境变量
1.配置JAVA 环境变量
    PATH 和JAVA_HOME:
        JAVA_HOME 指向JDK安装目录;
        PATH 指向JDK的bin
 
启动 SSHD 服务
1.安装SSHD
   ssh-host-config
2. 启动SSHD
    net start sshd 
ssh 的安装和配置
实现ssh无密码登陆
$ssh-keygen -t rsa  
直接回车,完成后会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。这两个是成对
出现,类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys 
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机
 
安装 Hadoop
1.下载Hadoop
   http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/
2.解压Hadoop
         tar xzvf hadoop-0.21.0.tar.gz
配置 Hadoop
1. 配置hadoop-env.sh
2 .配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件
概念
HDFS:
      NameNode  :管理节点
      DataNode   :数据节点
      SecondaryNamenode : 数据源信息备份整理节点
 
MapReduce
       JobTracker  :任务管理节点
       Tasktracker  :任务运行节点
 
配置文件
       core-site.xml   common属性配置
       hdfs-site.xml    HDFS属性配置
       mapred-site.xml  MapReduce属性配置
       hadoop-env.sh     hadooop 环境变量配置
修改 hadoop-env.sh
配置JDK即可
export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25
core-site.xml

java代码:
  1. <configuration>       
  2. <property>    
  3.        <name>fs.default.name</name>    
  4.        <value>hdfs://localhost:9000</value>    
  5. </property>    
  6. <property>  
  7.        <name>hadoop.tmp.dir</name>  
  8.         <value>/hadoop</value>  
  9.      </property>  
  10. </configuration>    

hdfs-site.xml
  
java代码:
  1. <configuration>       
  2.    <property>    
  3.          <name>dfs.replication</name>    
  4.          <value>1</value>    
  5.     </property>    
  6. </configuration>    
mapred-site.xml
java代码:
  1. <configuration>       
  2.     <property>    
  3.          <name>mapred.job.tracker</name>    
  4.          <value>localhost:9001</value>    
  5.     </property>    
  6. </configuration>    

启动 Hadoop
 1.格式化文件系统
      hadoop namenode –format
 2. 启动hadoop
      启动所有任务start-all.sh/stop-all.sh
      启动关闭HDFS: start-dfs.sh/stop-dfs.sh
      启动关闭MapReduce:  start-mapred.sh/stop-mapred.sh      
 3. 用jps命令查看进程,确保有   namenode,dataNode,JobTracker,TaskTracker
      
第二部分:Hadoop 在linux  上单节点伪分布式的安装过程
安装 JDK
$chmod +x jdk-6u27-linux-i586.bin
$./jdk-6u27-linux-i586.bin
安装完后设置java 环境变量如下
命令 :/home路径下
$vi .bashrc
然后添加如下语句
export JAVA_HOME=/home/test/ jdk1.6.0_27
export PATH =/bin:$JAVA_HOME/bin:/usr/bin:$PATH:.
然后. .bashrc使其生效
 
ssh 的安装和配置
$实现ssh无密码登陆
$sudo apt-get install ssh
$ssh-keygen 
直接回车,完成后会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。这两个是成对
出现,类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys 
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机
 
 
Hadoop 安装
1.下载Hadoop
   http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/
2.解压Hadoop
         tar xzvf hadoop-0.21.0.tar.gz
3. 添加Hadoop Bin到环境变量中
 
修改 hadoop-env.sh
配置JDK即可
export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25
 
 
conf/core-site.xml

java代码:
  1. <configuration>       
  2.     <property>    
  3.           <name>fs.default.name</name>    
  4.           <value>hdfs://localhost:9000</value>    
  5.       </property>    
  6.       <property>  
  7.            <name>hadoop.tmp.dir</name>  
  8.            <value>/hadoop</value>  
  9.        </property>  
  10. </configuration>    

conf/hdfs-site.xml

java代码:
  1. <configuration>       
  2.    <property>    
  3.          <name>dfs.replication</name>    
  4.          <value>1</value>    
  5.     </property>    
  6. </configuration>    

conf/mapred-site.xml

java代码:
  1. <configuration>       
  2.      <property>    
  3.          <name>mapred.job.tracker</name>    
  4.          <value>localhost:9001</value>    
  5.     </property>    
  6. </configuration>    
启动 Hadoop
 1.格式化文件系统
      hadoop namenode –format
 2. 启动hadoop
     启动关闭所有服务 start-all.sh/stop-all.sh
     启动关闭HDFS: start-dfs.sh/stop-dfs.sh
     启动关闭MapReduce:  start-mapred.sh/stop-mapred.sh
 3. 用jps命令查看进程,确保有   namenode,dataNode,JobTracker,TaskTracker
      
第三部分:Hadoop UI 介绍
Hadoop 重要的端口
1.Job Tracker 管理界面:50030
2.HDFS 管理界面 :50070
3.HDFS通信端口:9000
4.MapReduce通信端口:9001
常用访问页面
1. HDFS 界面
        http://hostname:50070
2. MapReduce 管理界面
        http://hostname:50030
 
第四部分:运行Word Count 示例
相关步骤及命令
1.先在本地磁盘上建立两个文件file1和file2
      $ echo ”Hello world Bye world" > >~/input/file1
      $ echo ”hello hadoop bye hadoop” > >~/input/file2
2.在HDFS上建立一个input目录
       $ hadoop fs -mkdir /tmp/input
3.将file1和file2拷贝到hdfs的input目录下
       $ hadoop fs -put input/* /tmp/input
4.检查hdfs上有没有file1,file2
     $ hadoop fs -ls /tmp/input
5.执行wordcount
   hadoop jar hadoop-examples-1.0.0.jar wordcount  /tmp/input  /tmp/output
6.运行完成,查看结果
   hadoop fs -cat /output/part-r-00000
 
 
第五部分:集成 Eclipse 开发环境
通过 Eclipse 编写 Hadoop 程序
1.导入hadoop-core.jar及hadoop/lib下所有Jar包
2.加入Hadoop配置文件,包括conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml,并修改相应参数。
本节课程小结
掌握了在Windows ,Linux(ubuntu)上安装Hadoop 单节点伪分布式安装 
初次体验了Hadoop运行的WordCounter程序 
了解了Hadoop UI
 掌握了Hadoop 集成到 Eclipse的情况
私塾在线学习网原创内容,转载请注明出处【 http://sishuok.com/forum/blogPost/list/0/5337.html
25
29
分享到:
评论

相关推荐

    HADOOP安装部署文档

    《Hadoop安装部署详解》 Hadoop,作为Google文件系统(GFS)的开源实现,是分布式计算领域的重要工具,其强大的数据处理能力和高容错性吸引了众多开发者和企业的关注。本文将详细介绍如何在Linux环境下安装和部署...

    hadoop 安装部署手册

    Hadoop安装部署手册是针对初学者的全面指南,旨在帮助用户了解和实践Hadoop的安装与运行。Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储大规模数据集。以下是详细的步骤和关键知识点:...

    Hadoop安装部署及教学

    本教程涵盖了Hadoop的安装部署及教学,旨在帮助初学者和进阶者全面理解并掌握这一分布式计算框架。以下将详细阐述Hadoop的相关知识点,包括其概念、架构、安装步骤、配置优化以及实际应用。 一、Hadoop概述 Hadoop...

    hadoop安装部署说明文档

    《Hadoop安装部署详解》 Hadoop是一款开源的分布式计算框架,由Apache基金会开发,用于处理和存储海量数据。本文将详细介绍如何在Linux集群和Windows环境下进行Hadoop的安装与配置,以及对Hadoop核心配置文件的属性...

    hadoop安装部署 完全分布式

    【Hadoop 安装部署完全分布式】 在搭建Hadoop完全分布式集群时,我们需要遵循一系列步骤,确保所有组件正确配置并协同工作。以下是基于三台机器的集群安装部署过程的详细说明: 1. **所需软件及版本** - Hadoop: ...

    hadoop安装部署手册

    《Hadoop安装部署手册》是指导用户在Linux环境中配置和管理Hadoop分布式文件系统的详尽指南。Hadoop作为开源的大数据处理框架,以其高容错性、可扩展性和高效的并行处理能力,广泛应用于大数据处理领域。本手册将...

    Hadoop安装部署.pptx

    【Hadoop安装部署】是大数据应用基础的重要环节。Hadoop是一个基于Java的开源框架,用于在大规模计算机集群中处理海量数据的分布式计算。它能够支持上千个节点和PB级别的数据存储与处理,使得处理大数据变得更加高效...

    Hadoop安装部署实验材料

    【Hadoop 安装部署详解】 Hadoop 是一个开源的分布式计算框架,广泛应用于大数据处理。本实验将指导你如何在Linux环境下安装部署Hadoop,包括单机模式、伪分布式模式和分布式模式的概述,以及如何使用Vim编辑器、...

    07-Hadoop安装部署.pdf

    在Hadoop安装部署的过程中,涉及到很多关键的步骤和技术点。Hadoop是一种开源的框架,它允许使用简单的编程模型在集群上分布式存储和处理大量数据。Hadoop安装和部署是大数据处理的第一步,下面将详细解释标题和描述...

    Hadoop安装部署问题文档.rar

    建议仔细阅读这份文档,结合Ambari的使用,能够更好地理解和应对Hadoop部署过程中的挑战。 总的来说,Hadoop的安装部署虽然复杂,但借助Ambari这样的管理工具,可以显著降低难度。在实践中不断学习和积累经验,是...

    支持自动化Hadoop安装部署的研究.pdf

    参考文献中提到了其他与Hadoop相关的研究,如基于Hadoop架构的分布式计算和存储技术及其应用,基于HDFS的云数据备份系统,Hadoop框架的扩展和性能调优,以及数据中心Hadoop部署与追踪系统的研究。这些研究都为Hadoop...

    实验1:Hadoop安装部署

    Hadoop 安装部署实验 Hadoop 是一个大数据处理的开源框架,它是基于 Java 语言开发的,因此需要安装 Java 环境。在这个实验中,我们将安装和配置 Hadoop 环境,并学习基本的 Hadoop 操作。 一、实验准备 在开始...

    Hadoop安装部署手册范本.doc

    Hadoop安装部署手册范本.doc

    Hadoop安装部署简明步骤详解

    Hadoop安装部署简明步骤详解,详细说明如何安装、编译Hadoop,实现云计算环境

    hadoop安装部署

    大数据hadoop安装部署,主要是介绍hadoop的部署及应用

    支持自动化Hadoop安装部署的研究.rar

    支持自动化Hadoop安装部署的研究.rar

    hadoop安装部署最新版

    在本文中,我们将深入探讨如何安装和部署Hadoop的最新版本,主要依据"自己操作实践,归纳总结出来的hadoop按照部署文档"。Hadoop是一种分布式计算框架,广泛应用于大数据处理和存储,尤其在处理海量非结构化数据时...

    大数据Hadoop安装部署文档

    ### Hadoop在Windows上的伪分布式安装过程 #### 第一部分:Hadoop在Windows上伪分布式的安装过程 **一、安装JDK** 1. **下载JDK** - 访问Oracle官网下载页面:...

Global site tag (gtag.js) - Google Analytics