一、hadoop2.4编译方法可参考:Linux64位操作系统(CentOS6.6)上如何编译hadoop2.4.0 。
二、准备工具
1.部署准备两个机器test1为Master,test2为Slave。
在两个机器上分别vim /etc/hosts 加入如下内容: 192.168.1.100 test1 192.168.1.200 test2
2.增加hadoop用户
groupadd hadoop useradd hadoop -g hadoop passwd hadoop
3.设置Master无密码登录slave
在test1下生成公钥/私钥对并复制到test2上。 su hadoop ssh-keygen -t rsa -P '' scp ~/.ssh/id_rsa.pub hadoop@test2:~/.ssh/id_rsa.pub test2把从test1复制的id_rsa.pub添加到.ssh/authorzied_keys文件里 cat id_rsa.pub >> authorized_keys chmod 600 .ssh/authorized_keys
4.修改句柄数:
ulimit -n 65535 vim /etc/security/limits.conf增加如下内容: \* hard nofile 65535 \* soft nofile 65535
三、配置hadoop
将编译好的hadoop2.4.0解压后修改etc/hadoop目录里的配置文件。
1.修改hadoop-env.sh
export JAVA_HOME=/opt/jdk
2.修改core-site.xml
<property> <name>fs.default.name</name> <value>hdfs://HDP125:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/${user.name}/tmp</value> </property> <property> <name>fs.trash.interval</name> <value>1440</value> </property>
说明:
fs.defaultDFS:设置NameNode的IP和端口
hadoop.tmp.dir:设置Hadoop临时目录,(默认/tmp,机器重启会丢失数据!)
fs.trash.interval:开启Hadoop回收站
3.修改hdfs-site.xml
<property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/home/${user.name}/dfs_name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/${user.name}/dfs_data</value> </property> <property> <name>dfs.support.append</name> <value>true</value> </property> <property> <name>dfs.datanode.max.xcievers</name> <value>4096</value> </property>
说明:
dfs.replication:文件复本数
dfs.namenode.name.dir:设置NameNode存储元数据(fsimage)的本地文件系统位置
dfs.datanode.data.dir:设置DataNode存储数据的本地文件系统位置
dfs.support.append:设置HDFS是否支持在文件末尾追加数据
dfs.datanode.max.xcievers:设置datanode可以创建的最大xcievers数
4.修改yarn-site.xml
<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.timeline-service.hostname</name> <value>master</value> </property>
5.修改mapred-site.xml
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
6.修改slave
test1 test2
7.把配置好的Hadoop程序复制到其它节点
scp -r /opt/hadoop hadoop@test2:/opt/ chown -R hadoop:hadoop /opt/hadoop
四、启动和关闭hadoop
1.第一次使用一个分布式文件系统,需要对其进行格式化:
./bin/hadoop namenode –format
2.启动Hadoop:
sbin/start-all.sh
3.关闭Hadoop:
sbin/stop-all.sh
4.Hadoop自带的WEB管理界面
相关推荐
Hadoop2.4linux安装配置过程详细过程。
在给定的压缩包文件"spark-1.6.0-bin-hadoop2.4.tgz"中,包含了Spark的1.6.0版本,该版本已经集成了与Hadoop 2.4版本的兼容性,使得用户可以在Hadoop环境下运行Spark应用。 Spark的核心组件包括: 1. **Spark Core*...
总结一下,Spark 2.0.2-bin-hadoop2.4.tgz是针对特定Hadoop版本的Spark二进制发行版,其安装涉及解压、环境配置、启动等多个步骤。Spark作为一个强大的大数据处理框架,具备多种数据处理能力,适用于各种数据分析和...
Hadoop是大数据处理领域的重要框架,它以分布式计算模型为基础,提供高可靠性和高扩展性的数据存储和处理能力。...对于需要处理大量数据的企业和开发者来说,理解和掌握Hadoop 2.4的安装和使用是至关重要的。
Hadoop 2.4是Hadoop发展过程中的一个重要版本,它带来了许多改进和新特性,使得大数据处理更加高效和稳定。 在Hadoop 2.4中,最重要的改进之一是引入了YARN(Yet Another Resource Negotiator),这是一个资源管理...
Hadoop2.4、Hbase0.98、Hive集群安装配置手册
Hadoop的文档和指导通常会涵盖安装配置、使用示例、API详解以及故障排查等内容,对于开发者和管理员来说是非常宝贵的资源。通过阅读这些文档,你可以了解如何搭建Hadoop集群,如何编写MapReduce程序,以及如何进行...
这次我们关注的是一个特别的构建——"spark-1.6.3-bin-hadoop2.4-without-hive",它强调了不包含 Hive 组件的特性。Hadoop 2.4 是一个稳定且广泛采用的分布式存储和计算框架,而 Hive 则是基于 Hadoop 的数据仓库...
"spark-1.6.3-bin-hadoop2.4.tgz"是一个压缩包,包含了Spark 1.6.3版本与Hadoop 2.4兼容的二进制文件,适用于那些运行在Hadoop环境中的Spark应用。 Spark的核心特性在于它的弹性分布式数据集(Resilient ...
"hadoop2.4-bin-winutils"是一个专为Windows用户提供的工具包,它包含了运行Hadoop在Windows上所需的关键组件——winutils.exe。这个工具对于在Windows上配置和使用Hadoop是至关重要的,因为它提供了与Linux系统中...
标题“Ubuntu 14.04.1 + Hadoop 2.4 完全分布式搭建要点”涉及到的是在Ubuntu 14.04.1操作系统上安装和配置Hadoop 2.4版本的过程,这是一个大数据处理框架,常用于分布式存储和计算任务。Hadoop的核心组件包括HDFS...
《Hadoop 2.4.1版本:大数据处理的核心与实践》 Hadoop,作为大数据处理领域的核心组件,自诞生以来就备受关注。Hadoop 2.4.1是其发展过程中的一个重要版本,它在稳定性、性能和可扩展性上都有显著提升,为大数据的...
在Hadoop生态系统中,Java...总之,Java与Hadoop 2.4的HDFS交互涉及配置、连接、I/O操作以及文件和目录的管理。通过熟练掌握`FileSystem` API,你可以有效地编写管理HDFS的Java程序,实现对大数据集的高效存储和处理。
#### 四、关键配置与注意事项 1. **NameNode HA**: - 确保JournalNode数量为奇数个,一般为3个或更多。 - 使用Zookeeper进行状态协调,确保Zookeeper集群稳定运行。 2. **ResourceManager HA**: - ...
- 同样,安装Spark版本为spark-1.1.0-bin-hadoop2.4。 - 配置文件和启动脚本需要根据具体环境进行相应的修改,如hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml等。 - 启动Hadoop...
这里详细介绍了hadoop2.4.1的伪分布式的搭建,主要是一些配置文件的修改
标题中的“hadoop-2.4.rar”表明这是一个关于Hadoop 2.4版本的压缩包,可能包含了源代码、文档、配置文件等资源,供开发者学习、研究或部署使用。 Hadoop的核心由两个主要组件构成:HDFS(Hadoop Distributed File ...
### hadoop集成snappy安装配置知识点详解 #### 一、snappy安装配置 **1.1 下载源码** Snappy是一种高效的压缩和解压缩算法,适用于数据压缩场景。为了集成Snappy到Hadoop中,首先需要下载Snappy的源码。 - **...