硬件环境:
3台老爷机,P3/1GB/64GB
软件系统:
ubuntu-12.04.1-server-i386 安装时,选择安装OpenSSH、smb(文件共享)服务
jdk1.6.0_32
hadoop-1.0.3
hbase-0.94.2
zookeeper-3.4.4
相关配置
主机:--- NameNode & JobTracker
名称:hdfsmaster
IP :192.168.61.190
用户名:administrator
从机1---DataNode & TaskTracker
名称:hdfs01
IP :192.168.61.191
用户名:administrator
从机2---DataNode & TaskTracker
名称:hdfs02
IP :192.168.61.192
用户名:administrator
SSH互信内容,单身即可,不需要密码直接可以访问(第一次输入要Yes)
192.168.61.190-->192.168.61.191,192.168.61.192
1.启动root帐号
$sudo passwd root
2.配置IP地址
修改文件 /etc/network/interfaces 添加以下内容:
auto eth0
iface eth0 inet static
address 192.168.61.191
netmask 255.255.248.0
gateway 192.168.60.1
3.应用scp,复制各种安装文件
$scp -rp /usr/local/java/ administrator@192.168.61.191:/usr/local/java
4.安装JDK
$tar -xzvf hadoop-1.0.3.tar.gz
$sudo chmod 777 jdk-6u32-linux-i586.bin
$./jdk-6u32-linux-i586.bin
5.配置JDK环境
修改 /etc/profile 文件,增加以下内容
#SET JAVA environment
export JAVA_HOME=/usr/local/java/jdk1.6.0_32
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/classes12.jar
export PATH=$PATH:$JAVA_HOME/bin
export JRE_HOME=$JAVA_HOME/jre
#SET HADOOP
export HADOOP_HOME=/usr/local/java/hadoop-1.0.3
export PATH=$PATH:/usr/local/java/hadoop-1.0.3/bin
export CLASSPATH=.:$CLASSPATH:$HADOOP_HOME
6.SSH环境互信
参考信息http://blog.csdn.net/laoyi19861011/article/details/6254743
6.1 在主机hdfsmaster(192.168.61.190上操作)
$ssh-keygen -t rsa ##中间提示一直按回车到底
$cat .ssh/id_rsa.pub >> .ssh/authorized_keys
$cd .ssh
$ls -a ##将见到以下3个文件或目录 authorized_keys id_rsa id_rsa.pub
$ssh localhost ## 测试是否不需要密码
6.2在需要互信的主机上操作
$scp id_rsa.pub administrator@192.168.61.191:/home/administrator ##把hdfsmaster中的id_rsa.pub拷贝到hdfs01中,其中administrator为用户名
6.3 在从机hdfs01(192.168.61.191上操作)
$cat id_rsa.pub >> .ssh/authorized_keys ##注意这个要在/administrator目录中,完成这部之后,hdfsmaster访问hdfs01就不需要密码访问了。
7.检验sshd服务(要求服务一直启动)
$ps aux
8.配置DNS,使应用机器名可以相互ping通
$sudo vi /etc/hosts
增加以下内容:
192.168.61.190 hdfsmaster
192.168.61.191 hdfs01
192.168.61.192 hdfs02
###127.0.1.1 hdfsmaster ---------类似这个IP的都要注释掉
这里配置错了,会导致dataNode启动错误,见dataNode中的日志描述,会见到与主机(192.168.61.190)通讯上不。
9.修改 hadoop-env.sh 指明JDK的路径
$sudo vi hadoop-env.sh
内容:
export JAVA_HOME=/usr/local/java/jdk1.6.0_32
10.修改conf/core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://hdfsmaster:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/administrator/data/hdfs/tmp</value>
</property>
11.修改conf/hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/home/administrator/data/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/administrator/data/hdfs/data</value>
</property>
<property>
<name>dfs.datanode.max.xcievers</name>
<value>4096</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
12.修改conf/mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<value>hdfsmaster:9001</value>
</property>
13.conf/masters
hdfsmaster
14.修改conf/slaves
hdfs01
hdfs02
15.将配置好的hadoop拷贝到所有的datanode
$scp -rp /usr/local/java/hadoop-1.0.3/conf administrator@192.168.61.191:/usr/local/java/hadoop-1.0.3
$scp -rp /usr/local/java/hadoop-1.0.3/conf administrator@192.168.61.192:/usr/local/java/hadoop-1.0.3
16.调整系统时间
$sudo cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
#中国国家授时中心服务器IP地址
$sudo apt-get install ntpdate
$sudo ntpdate 210.72.145.44
#写入到Bios
$sudo hwclock -w
测试
1.格式化一个新的分布式文件系统
$ bin/hadoop namenode -format
2.在分配的NameNode上,运行下面的命令启动HDFS,所有列出(${HADOOP_CONF_DIR}/slaves文件的内容)的slave上都被会启动DataNode守护进程
$ bin/start-dfs.sh
3.在分配的JobTracker上,运行下面的命令启动Map/Reduce:,同理,相应的TaskTracker也会被启动
$ bin/start-mapred.sh
4.停止HDFS (在DataNode机上操作)
$ bin/stop-dfs.sh
5.停止JobTracker(在JobTracker上操作)
$ bin/stop-mapred.sh
6.常用的hdfs命令 参考 http://www.classcloud.org/cloud/wiki/Hadoop_Lab2
查看目录
$hadoop fs -ls
7.运行例子
$hadoop fs -mkdir input
$hadoop fs -put conf/ input
$hadoop jar hadoop-examples-1.0.3.jar grep input/conf output 'dfs[a-z.]+'
$hadoop jar $HADOOP_HOME/hadoop-examples-1.0.3.jar wordcount input/conf output18_04
8.重启或添加节点:在需要重启的客户机操作
$bin/hadoop-daemon.sh start datanode
$bin/hadoop-daemon.sh start tasktracker
$bin/hadoop-daemon.sh stop datanode
$bin/hadoop-daemon.sh stop tasktracker
分享到:
相关推荐
【标签】:“hadoop安装配置共51页.p”标签明确了这是关于Hadoop安装配置的资料,可能是PDF文档的一部分或者摘要,提示读者这是一份详尽的指南。 【压缩包子文件的文件名称列表】:“赚钱项目”这个文件名可能与...
本资源摘要信息专门介绍Hadoop的安装与配置过程,对于大数据和分布式系统的学习者来说非常实用。 一、安装准备 1.1 创建Hadoop用户 在Ubuntu 20.04操作系统下,创建一个名为Hadoop的用户,并更新APT以确保环境的...
- 确认安装摘要,然后开始安装 - 安装完成后,重启并登录新系统 5. **安装Hadoop** - 更新系统软件包:`sudo apt-get update && sudo apt-get upgrade` - 安装Java运行环境:`sudo apt-get install openjdk-6-...
摘要 Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 ...
摘要 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以...
【基于Hadoop的电影影评数据分析】是一项大数据课程的大作业,旨在利用Hadoop的分布式处理能力来分析电影影评数据。Hadoop是一个由Apache软件基金会开发的开源框架,专为处理和存储大规模数据而设计。它由四个核心...
Hadoop的安装通常在Linux环境下进行,但也有针对Windows的解决方案,如Hadoop4win,简化了安装过程。安装完成后,需要进行NameNode的格式化,然后启动所有节点。启动Hadoop涉及配置文件的设置,如`Core-site.xml`、`...
Hadoop的安装环境涉及配置Hadoop的运行环境,包括Java环境、SSH免密登录设置以及Hadoop的配置文件设置等。 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心子项目之一,它是一个高度容错的系统,适合在廉价硬件上...
本资源摘要信息主要介绍了Hadoop的相关知识点,涵盖了Hadoop的版本、4V特征、大数据存储、HDFS、MapReduce、SecondaryNameNode、Hadoop shell命令、集群管理工具等方面。 1. Hadoop的最高版本是Hadoop 3.x,当前...
Hive是一个建立在Hadoop之上的数据仓库工具,它提供了一种数据摘要语言(HiveQL)来查询数据。HiveQL最终会转换为MapReduce作业来执行,这使得即使是不具备分布式编程经验的数据库管理员也可以操作Hadoop。 Storm是...
本资源摘要信息主要介绍了 Hadoop 3.0 分布式集群搭建的详细步骤和要求,从搭建前的准备工作到集群的安装和配置,涵盖了主机规划、软件规划、用户规划、数据目录规划、环境检查、时钟同步、hosts 文件检查、防火墙...
(1)熟悉Hadoop开发包 (2)编写MepReduce程序 (3)调试和运行MepReduce程序 (4)完成上课老师演示的内容 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 二、实验内容 1.单词计数实验...
摘要:大數据是一门新兴技术,为了进一步了解与之有关的就业岗位情况,通过使用Java程序爬取出真实的大数据就业岗位数据,再结合Hadoop技术进行统计分析,最后使用可视化技术呈现大数据技术岗位不同地区招聘的薪资...
12. hdfs dfsadmin -report:此命令用于报告HDFS的统计信息,包括健康状况、容量使用和文件系统摘要。 13. hdfs dfsadmin -safemode enter/leave/retreive/state:该命令用于管理HDFS的安全模式。安全模式下,文件...
#### 摘要 在信息技术日益发展的今天,确保信息系统的稳定性变得尤为重要。无论是企业还是个人用户,都面临着数据安全的风险。一旦数据发生丢失或损坏,可能会对业务造成不可估量的影响。因此,构建有效的容灾系统...
Hive则是一个数据仓库基础设施,它位于Hadoop之上,提供数据摘要、查询和分析功能。Pig是一个高级脚本语言,它提供了一个用户友好的接口来处理大数据,主要通过Pig Latin语言实现。 Oozie是一个用于管理Hadoop作业...
随着人工智能技术的发展,Hadoop网盘管理系统有望结合AI技术,实现智能文件分类、推荐,甚至自动生成文件摘要,进一步提升用户效率。此外,结合容器化技术如Docker和Kubernetes,可以更灵活地管理和调度Hadoop集群...
Hive适用于需要进行数据摘要、查询和分析的场景。 4. **Sqoop** Sqoop是一个用于在Hadoop和关系型数据库服务器之间高效传输批量数据的工具。它可以将关系数据库中的数据导入到Hadoop的HDFS中,或者将数据从HDFS...