`
cansoft
  • 浏览: 4807 次
  • 性别: Icon_minigender_1
  • 来自: 东莞
最近访客 更多访客>>
社区版块
存档分类
最新评论

Hadoop安装摘要

阅读更多
硬件环境:
3台老爷机,P3/1GB/64GB

软件系统:
ubuntu-12.04.1-server-i386 安装时,选择安装OpenSSH、smb(文件共享)服务
jdk1.6.0_32
hadoop-1.0.3
hbase-0.94.2
zookeeper-3.4.4

相关配置
主机:--- NameNode & JobTracker
  名称:hdfsmaster
  IP :192.168.61.190
  用户名:administrator

从机1---DataNode & TaskTracker
  名称:hdfs01
  IP :192.168.61.191
  用户名:administrator

从机2---DataNode & TaskTracker
  名称:hdfs02
  IP :192.168.61.192
  用户名:administrator

SSH互信内容,单身即可,不需要密码直接可以访问(第一次输入要Yes)
192.168.61.190-->192.168.61.191,192.168.61.192

1.启动root帐号
   $sudo passwd root

2.配置IP地址
  修改文件 /etc/network/interfaces 添加以下内容:
  auto eth0
  iface eth0 inet static
  address 192.168.61.191
  netmask 255.255.248.0
  gateway 192.168.60.1

3.应用scp,复制各种安装文件
$scp -rp /usr/local/java/ administrator@192.168.61.191:/usr/local/java

4.安装JDK
  $tar -xzvf hadoop-1.0.3.tar.gz
  $sudo chmod 777 jdk-6u32-linux-i586.bin
  $./jdk-6u32-linux-i586.bin

5.配置JDK环境
  修改 /etc/profile 文件,增加以下内容

  #SET JAVA environment
  export JAVA_HOME=/usr/local/java/jdk1.6.0_32
  export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/classes12.jar
  export PATH=$PATH:$JAVA_HOME/bin
  export JRE_HOME=$JAVA_HOME/jre

  #SET HADOOP
  export HADOOP_HOME=/usr/local/java/hadoop-1.0.3
  export PATH=$PATH:/usr/local/java/hadoop-1.0.3/bin
  export CLASSPATH=.:$CLASSPATH:$HADOOP_HOME

6.SSH环境互信
  参考信息http://blog.csdn.net/laoyi19861011/article/details/6254743
  6.1 在主机hdfsmaster(192.168.61.190上操作)
    $ssh-keygen -t rsa   ##中间提示一直按回车到底
    $cat .ssh/id_rsa.pub >> .ssh/authorized_keys
    $cd .ssh
    $ls -a     ##将见到以下3个文件或目录 authorized_keys  id_rsa  id_rsa.pub
    $ssh localhost   ## 测试是否不需要密码

  6.2在需要互信的主机上操作
    $scp id_rsa.pub administrator@192.168.61.191:/home/administrator ##把hdfsmaster中的id_rsa.pub拷贝到hdfs01中,其中administrator为用户名

  6.3 在从机hdfs01(192.168.61.191上操作)
    $cat id_rsa.pub >> .ssh/authorized_keys   ##注意这个要在/administrator目录中,完成这部之后,hdfsmaster访问hdfs01就不需要密码访问了。

7.检验sshd服务(要求服务一直启动)
  $ps aux

8.配置DNS,使应用机器名可以相互ping通
  $sudo vi /etc/hosts
  增加以下内容:
  192.168.61.190 hdfsmaster
  192.168.61.191 hdfs01
  192.168.61.192 hdfs02
###127.0.1.1    hdfsmaster  ---------类似这个IP的都要注释掉
这里配置错了,会导致dataNode启动错误,见dataNode中的日志描述,会见到与主机(192.168.61.190)通讯上不。 

9.修改 hadoop-env.sh 指明JDK的路径
  $sudo vi hadoop-env.sh
  内容:
  export JAVA_HOME=/usr/local/java/jdk1.6.0_32

10.修改conf/core-site.xml
<property>  
        <name>fs.default.name</name>   
        <value>hdfs://hdfsmaster:9000</value>
</property> 
<property>   
        <name>hadoop.tmp.dir</name>   
        <value>/home/administrator/data/hdfs/tmp</value>
</property> 

11.修改conf/hdfs-site.xml
<property>
        <name>dfs.name.dir</name>
        <value>/home/administrator/data/hdfs/name</value>
</property>
<property>
        <name>dfs.data.dir</name>
        <value>/home/administrator/data/hdfs/data</value>
</property>
<property> 
        <name>dfs.datanode.max.xcievers</name> 
        <value>4096</value> 
</property> 
<property> 
        <name>dfs.replication</name> 
        <value>2</value>
</property>

12.修改conf/mapred-site.xml
<property> 
        <name>mapred.job.tracker</name>
        <value>hdfsmaster:9001</value> 
</property> 

13.conf/masters
hdfsmaster

14.修改conf/slaves
hdfs01
hdfs02

15.将配置好的hadoop拷贝到所有的datanode
$scp -rp /usr/local/java/hadoop-1.0.3/conf administrator@192.168.61.191:/usr/local/java/hadoop-1.0.3
$scp -rp /usr/local/java/hadoop-1.0.3/conf administrator@192.168.61.192:/usr/local/java/hadoop-1.0.3

16.调整系统时间
$sudo cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 
#中国国家授时中心服务器IP地址
$sudo apt-get install ntpdate
$sudo ntpdate 210.72.145.44
#写入到Bios
$sudo hwclock -w

测试
1.格式化一个新的分布式文件系统
$ bin/hadoop namenode -format

2.在分配的NameNode上,运行下面的命令启动HDFS,所有列出(${HADOOP_CONF_DIR}/slaves文件的内容)的slave上都被会启动DataNode守护进程
$ bin/start-dfs.sh

3.在分配的JobTracker上,运行下面的命令启动Map/Reduce:,同理,相应的TaskTracker也会被启动
$ bin/start-mapred.sh

4.停止HDFS  (在DataNode机上操作)
$ bin/stop-dfs.sh

5.停止JobTracker(在JobTracker上操作)
$ bin/stop-mapred.sh

6.常用的hdfs命令 参考 http://www.classcloud.org/cloud/wiki/Hadoop_Lab2
  查看目录
  $hadoop fs -ls

7.运行例子
$hadoop fs -mkdir input
$hadoop fs -put conf/ input
$hadoop jar hadoop-examples-1.0.3.jar  grep input/conf output 'dfs[a-z.]+'
$hadoop jar $HADOOP_HOME/hadoop-examples-1.0.3.jar wordcount input/conf output18_04


8.重启或添加节点:在需要重启的客户机操作
$bin/hadoop-daemon.sh start datanode
$bin/hadoop-daemon.sh start tasktracker

$bin/hadoop-daemon.sh stop datanode
$bin/hadoop-daemon.sh stop tasktracker



分享到:
评论

相关推荐

    hadoop安装配置共51页.pdf.zip

    【标签】:“hadoop安装配置共51页.p”标签明确了这是关于Hadoop安装配置的资料,可能是PDF文档的一部分或者摘要,提示读者这是一份详尽的指南。 【压缩包子文件的文件名称列表】:“赚钱项目”这个文件名可能与...

    Hadoop安装与配置.docx

    本资源摘要信息专门介绍Hadoop的安装与配置过程,对于大数据和分布式系统的学习者来说非常实用。 一、安装准备 1.1 创建Hadoop用户 在Ubuntu 20.04操作系统下,创建一个名为Hadoop的用户,并更新APT以确保环境的...

    hadoop安装最终版.doc

    - 确认安装摘要,然后开始安装 - 安装完成后,重启并登录新系统 5. **安装Hadoop** - 更新系统软件包:`sudo apt-get update && sudo apt-get upgrade` - 安装Java运行环境:`sudo apt-get install openjdk-6-...

    Hadoop下载 hadoop-2.9.2.tar.gz

    摘要 Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 ...

    Hadoop下载 hadoop-3.3.3.tar.gz

    摘要 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以...

    基于Hadoop的电影影评数据分析

    【基于Hadoop的电影影评数据分析】是一项大数据课程的大作业,旨在利用Hadoop的分布式处理能力来分析电影影评数据。Hadoop是一个由Apache软件基金会开发的开源框架,专为处理和存储大规模数据而设计。它由四个核心...

    hadoop的经典讲义

    Hadoop的安装通常在Linux环境下进行,但也有针对Windows的解决方案,如Hadoop4win,简化了安装过程。安装完成后,需要进行NameNode的格式化,然后启动所有节点。启动Hadoop涉及配置文件的设置,如`Core-site.xml`、`...

    Hadoop学习资料

    Hadoop的安装环境涉及配置Hadoop的运行环境,包括Java环境、SSH免密登录设置以及Hadoop的配置文件设置等。 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心子项目之一,它是一个高度容错的系统,适合在廉价硬件上...

    Hadoop期末考试题总结.doc

    本资源摘要信息主要介绍了Hadoop的相关知识点,涵盖了Hadoop的版本、4V特征、大数据存储、HDFS、MapReduce、SecondaryNameNode、Hadoop shell命令、集群管理工具等方面。 1. Hadoop的最高版本是Hadoop 3.x,当前...

    hadoop技术

    Hive是一个建立在Hadoop之上的数据仓库工具,它提供了一种数据摘要语言(HiveQL)来查询数据。HiveQL最终会转换为MapReduce作业来执行,这使得即使是不具备分布式编程经验的数据库管理员也可以操作Hadoop。 Storm是...

    Hadoop3.0分布式集群搭建(HA)详细文档.docx

    本资源摘要信息主要介绍了 Hadoop 3.0 分布式集群搭建的详细步骤和要求,从搭建前的准备工作到集群的安装和配置,涵盖了主机规划、软件规划、用户规划、数据目录规划、环境检查、时钟同步、hosts 文件检查、防火墙...

    Hadoop原理与技术MapReduce实验

    (1)熟悉Hadoop开发包 (2)编写MepReduce程序 (3)调试和运行MepReduce程序 (4)完成上课老师演示的内容 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 二、实验内容 1.单词计数实验...

    基于Hadoop技术的大数据就业岗位数据分析.docx

    摘要:大數据是一门新兴技术,为了进一步了解与之有关的就业岗位情况,通过使用Java程序爬取出真实的大数据就业岗位数据,再结合Hadoop技术进行统计分析,最后使用可视化技术呈现大数据技术岗位不同地区招聘的薪资...

    Hadoop命令手册

    12. hdfs dfsadmin -report:此命令用于报告HDFS的统计信息,包括健康状况、容量使用和文件系统摘要。 13. hdfs dfsadmin -safemode enter/leave/retreive/state:该命令用于管理HDFS的安全模式。安全模式下,文件...

    Hadoop框架下的容灾系统研究

    #### 摘要 在信息技术日益发展的今天,确保信息系统的稳定性变得尤为重要。无论是企业还是个人用户,都面临着数据安全的风险。一旦数据发生丢失或损坏,可能会对业务造成不可估量的影响。因此,构建有效的容灾系统...

    HADOOP权威指南 第3版 完整版

    Hive则是一个数据仓库基础设施,它位于Hadoop之上,提供数据摘要、查询和分析功能。Pig是一个高级脚本语言,它提供了一个用户友好的接口来处理大数据,主要通过Pig Latin语言实现。 Oozie是一个用于管理Hadoop作业...

    基于Hadoop的网盘管理系统(后端).zip

    随着人工智能技术的发展,Hadoop网盘管理系统有望结合AI技术,实现智能文件分类、推荐,甚至自动生成文件摘要,进一步提升用户效率。此外,结合容器化技术如Docker和Kubernetes,可以更灵活地管理和调度Hadoop集群...

    hadoop海量数据处理详解与项目实战

    Hive适用于需要进行数据摘要、查询和分析的场景。 4. **Sqoop** Sqoop是一个用于在Hadoop和关系型数据库服务器之间高效传输批量数据的工具。它可以将关系数据库中的数据导入到Hadoop的HDFS中,或者将数据从HDFS...

Global site tag (gtag.js) - Google Analytics