Hadoop学习 之单节点集群配置
1.官网下载Hadoop
http://hadoop.apache.org/releases.html 下载hadoop-2.7.3.tar.gz 在hadoop工作目录 eg: ~/SoftWare/BigData/Hadoop
2 cd eg: ~/SoftWare/BigData/Hadoop/
tar -zxvf adoop-2.7.3.tar.gz
3.检查JDK是否安装,如未安装,则安装JDK7+,并设定$JAVA_HOME, $PATH, $CLASSPATH
4 检查ssh, rsync是否安装
若未安装,则安装
$ sudo apt-get install ssh
$ sudo apt-get install rsync
5 修改${HADOOP_HOME}/etc/hadoop/hadoop-env.sh中JAVA_HOME设置,使用实际的绝对路径
eg:export JAVA_HOME=/home/username/SoftWare/Java/jdk1.8.0_65
6 Standalone Operation下执行一个mapreduce计算
$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'dfs[a-z.]+'
$ cat output/*
可以看到
$dfsadmin 1
此时表明Standalone Operation下,Hadoop运行成功
7 Pseudo-Distributed Operation
1)修改${HADOOP_HOME}/etc/hadoop/core-site.xml
<configuration>
<property>
<!-- 指定HDFS老大(namenode)的通信地址 -->
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<!-- 指定hadoop运行时产生文件的存储路径 -->
<name>hadoop.tmp.dir</name>
<value>/home/username/SoftWare/BigData/Hadoop/tmp</value>
</property>
</configuration>
2)修改${HADOOP_HOME}/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<!-- 设置hdfs副本数量 -->
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3)检查SSH可否无密码登陆localhost
$ ssh localhost
4) 若无需密码SSH可以登陆localhost,则忽略此步,若需要密码,则执行
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
5)HDFS的启动与执行
HDFS的初次执行需要先格式化,执行${HADOOP_HOME}/bin/hdfs namenode -format
启动HDFS ${HADOOP_HOME}/sbin/start-dfs.sh
使用JPS查看HDFS是否启动成功
$ jps
63842 SecondaryNameNode
63381 NameNode
8470 Jps
63565 DataNode
看到NameNode,DataNode,SecondaryNameNode进程已经启动,表示HDFS启动成功
此时可通过 http://localhost:50070/ 查看namenode, 通过 http://localhost:50090 查看datanode
6) 上传并测试一个文件
本地创建一个文件words.txt, 内容如下
Hello World!
Hello China!
Hello Jim
Hello Tom
The People's Republic Of China!
上传words.txt至HDFS根目录 ${HADOOP_HOME}/bin/hadoop fs -put words.txt /
此时可在http://localhost:50070/explorer.html#/ 查看到上传的文件
7)运行一个例子$ ${HADOOP_HOME}/bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'dfs[a-z.]+'
查看结果$ ${HADOOP_HOME}/bin/hdfs dfs -cat output/*
China! 2
Hello 4
Jim 1
Of 1
People's 1
Republic 1
The 1
Tom 1
World! 1
8)Pseudo-Distributed Operation下mapreduce可以运行在Yarn上,若需运行在Yarn上
则修改${HADOOP_HOME}/etc/hadoop/mapred-site.xml
<configuration>
<property>
<!-- 通知框架MR使用YARN -->
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
修改${HADOOP_HOME}/etc/hadoop/yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<!-- reducer取数据的方式是mapreduce_shuffle -->
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<!--表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。 MB为单位-->
<name>yarn.nodemanager.resource.memory-mb</name>
<value>3072</value>
</property>
<property>
<!--nodemanager可供分配的最小内存 MB为单位-->
<name>yarn.nodemanager.minmum-allocation-mb</name>
<value>2048</value>
</property>
<property>
<!--单个任务可申请的最多物理内存量,默认是8192(MB) MB为单位-->
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>2048</value>
</property>
<property>
<!--用于磁盘空间检查,低于某一值时,会导致mapreduce无法正常运行-->
<name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>
<value>99</value>
</property>
</configuration>
9)启动yarn, ${HADOOP_HOME}/sbin/start_yarn.sh
10)使用jps检查yarn是否启动成功
$ jps
13761 SecondaryNameNode
13410 NameNode
13923 ResourceManager
16744 Jps
14057 NodeManager
13567 DataNode
此时表明yarn启动成功
可通过http://localhost:8088/cluster查看cluster信息
11)运行一个mapreduce程序
${HADOOP_HOME}/bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output_wordcount
17/05/13 10:38:05 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
17/05/13 10:38:06 INFO input.FileInputFormat: Total input paths to process : 1
17/05/13 10:38:06 INFO mapreduce.JobSubmitter: number of splits:1
17/05/13 10:38:07 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1494642975142_0001
17/05/13 10:38:07 INFO impl.YarnClientImpl: Submitted application application_1494642975142_0001
17/05/13 10:38:07 INFO mapreduce.Job: The url to track the job: http://tizen-HP-Compaq-Pro-6380-MT:8088/proxy/application_1494642975142_0001/
17/05/13 10:38:07 INFO mapreduce.Job: Running job: job_1494642975142_0001
17/05/13 10:38:13 INFO mapreduce.Job: Job job_1494642975142_0001 running in uber mode : false
17/05/13 10:38:13 INFO mapreduce.Job: map 0% reduce 0%
17/05/13 10:38:18 INFO mapreduce.Job: map 100% reduce 0%
17/05/13 10:38:23 INFO mapreduce.Job: map 100% reduce 100%
17/05/13 10:38:24 INFO mapreduce.Job: Job job_1494642975142_0001 completed successfully
17/05/13 10:38:24 INFO mapreduce.Job: Counters: 49
File System Counters
FILE: Number of bytes read=113
FILE: Number of bytes written=237983
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
HDFS: Number of bytes read=180
HDFS: Number of bytes written=71
HDFS: Number of read operations=6
HDFS: Number of large read operations=0
HDFS: Number of write operations=2
Job Counters
Launched map tasks=1
Launched reduce tasks=1
Data-local map tasks=1
Total time spent by all maps in occupied slots (ms)=2214
Total time spent by all reduces in occupied slots (ms)=2302
Total time spent by all map tasks (ms)=2214
Total time spent by all reduce tasks (ms)=2302
Total vcore-milliseconds taken by all map tasks=2214
Total vcore-milliseconds taken by all reduce tasks=2302
Total megabyte-milliseconds taken by all map tasks=2267136
Total megabyte-milliseconds taken by all reduce tasks=2357248
Map-Reduce Framework
Map input records=5
Map output records=13
Map output bytes=130
Map output materialized bytes=113
Input split bytes=102
Combine input records=13
Combine output records=9
Reduce input groups=9
Reduce shuffle bytes=113
Reduce input records=9
Reduce output records=9
Spilled Records=18
Shuffled Maps =1
Failed Shuffles=0
Merged Map outputs=1
GC time elapsed (ms)=88
CPU time spent (ms)=1410
Physical memory (bytes) snapshot=445538304
Virtual memory (bytes) snapshot=3855974400
Total committed heap usage (bytes)=290979840
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=78
File Output Format Counters
Bytes Written=71
表明运行成功 可通过${HADOOP_HOME}/bin/hadoop fs -cat /output_wordcount/* 查看到
China! 2
Hello 4
Jim 1
Of 1
People's 1
Republic 1
The 1
Tom 1
World! 1
注:使用Yarn时运行一个MapReduce任务 出现
2017-05-13 10:38:07,465 WARN org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.LeafQueue: maximum-am-resource-percent is insufficient to start a single application in queue, it is likely set too low. skipping enforcement to allow at least one application to start
2017-05-13 10:38:07,465 WARN org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.LeafQueue: maximum-am-resource-percent is insufficient to start a single application in queue for user, it is likely set too low. skipping enforcement to allow at least one application to start
必须在${HADOOP_HOME}/etc/hadoop/yarn-site.xml 添加
<property>
<!--用于磁盘空间检查,低于某一值时,会导致mapreduce无法正常运行-->
<name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>
<value>99</value>
</property>
相关推荐
Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和...
提供的文档`hadoop_zookeeper_hbase集群配置.docx`应包含详细的步骤和配置示例,而`配置文件.rar`则可能包含了预设的配置模板,可以作为配置参考。在实际操作时,务必根据具体环境调整配置,确保所有节点之间的网络...
3. **安装rsync**:rsync是一个用于文件同步的工具,对于Hadoop集群配置非常重要。使用`sudo apt-get install rsync`命令进行安装。 4. **配置SSH免密码登录**: - 检查`.ssh`目录是否存在,如果不存在,使用`...
Hadoop 2.8.2 三节点集群安装及 native 编译 本文详细介绍了在 RHEL 6.7 操作系统上安装 Hadoop 2.8.2 三节点...本文详细介绍了 Hadoop 2.8.2 三节点集群的安装步骤和环境准备,适合初学者搭建大数据基础学习环境。
在IT领域,Hadoop是一个广泛使用的开源大...这将帮助你更好地掌握Hadoop的工作原理,为后续的多节点集群部署和大数据处理打下坚实基础。通过实践和不断学习,你将能够充分利用Hadoop的强大功能,解决复杂的大数据问题。
### Hadoop 2.6 集群配置详解 #### 一、环境配置 ##### 1.1 服务器环境 1. **IP地址配置**:根据实际情况为每台服务器分配唯一的IP地址,例如: - hadoop140 的 IP 地址为 192.168.50.140 - hadoop141 的 IP ...
资源名称:CentOS 6.5 x64下安装19实体节点Hadoop 2.2.0集群配置指南内容简介: CentOS 6.5 x64下安装19实体节点Hadoop 2.2.0集群配置指南主要讲述的是CentOS 6.5 x64下安装19实体节点Hadoop 2.2.0集群配置指南;...
配置Hadoop HA集群需要对这些文件进行精确调整,以实现命名节点的自动故障切换、保证数据的安全性和一致性,以及优化资源分配和任务调度。在实际操作中,还需要关注其他配置,比如Zookeeper的设置(用于协调NN的故障...
本文将深入探讨“Hadoop集群配置文件备份”的重要性、步骤和最佳实践。 **1. Hadoop配置文件概述** Hadoop的配置文件主要包括`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`、`mapred-site.xml`等,这些XML...
#### 三、Hadoop单机集群配置步骤详解 ##### 1. 设置固定IP 为了保证网络通信稳定,首先需要设置虚拟机的静态IP。这一步骤中,`DEVICE`的值应与`/etc/udev/rules.d/70-persistent-net.rules`文件中的`NAME`值相对应...
通过上述步骤,我们可以成功地在一个单节点上部署并配置Hadoop环境。这不仅有助于深入理解Hadoop的工作原理和技术特点,还能够在实际项目中运用这些知识解决大规模数据处理问题。对于希望深入了解和掌握Hadoop技术的...
Hadoop分布式集群配置是大数据处理的关键步骤之一,本指南将指导读者成功配置一个由5台计算机构成的Hadoop集群,并成功运行wordcount处理大型数据(大于50G)。 一、Hadoop集群架构简介 Hadoop集群由一个Master...
大数据之 Hadoop 多节点集群搭建 本文将详细介绍如何搭建一个多节点 Hadoop 集群,包括集群架构设计、虚拟机配置、节点设置等内容。 一、集群架构设计 在搭建 Hadoop 集群之前,需要设计集群的架构。本文中的示例...
本文将详细介绍如何搭建多节点 Hadoop 环境,包括安装 Ubuntu 操作系统、安装 Hadoop 软件、配置 SSH 无密码登录、配置 Hadoop 集群等步骤。 一、安装 Ubuntu 操作系统 在开始搭建 Hadoop 环境之前,需要安装 ...
Hadoop作为大数据处理的核心组件,包括HDFS(Hadoop Distributed File System)和MapReduce等模块,构建一个Hadoop集群通常涉及多台服务器的配置、软件安装、服务启动和集群配置。通过Ansible,我们可以简化这个过程...
Hadoop 集群配置是一个复杂的过程,涉及到多台服务器之间的通信和数据存储。在这个详解中,我们将深入理解如何在Fedora和Ubuntu系统上搭建一个Hadoop集群。 首先,为了确保集群中的节点能够相互识别,我们需要配置...