`
liyong0802
  • 浏览: 5203 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop 2.4安装与配置

阅读更多

一、hadoop2.4编译方法可参考:Linux64位操作系统(CentOS6.6)上如何编译hadoop2.4.0 。

二、准备工具

  1.部署准备两个机器test1为Master,test2为Slave。

在两个机器上分别vim /etc/hosts
    加入如下内容:
    192.168.1.100 test1
    192.168.1.200 test2

 2.增加hadoop用户

    groupadd hadoop
    useradd hadoop -g hadoop
    passwd hadoop

 3.设置Master无密码登录slave

 在test1下生成公钥/私钥对并复制到test2上。
   su hadoop
   ssh-keygen -t rsa -P ''
   scp ~/.ssh/id_rsa.pub hadoop@test2:~/.ssh/id_rsa.pub 
 test2把从test1复制的id_rsa.pub添加到.ssh/authorzied_keys文件里
   cat id_rsa.pub >> authorized_keys
   chmod 600 .ssh/authorized_keys

 4.修改句柄数:

   ulimit -n 65535
   vim /etc/security/limits.conf增加如下内容:
      \*    hard    nofile   65535
      \*    soft    nofile   65535

三、配置hadoop

    将编译好的hadoop2.4.0解压后修改etc/hadoop目录里的配置文件。

   1.修改hadoop-env.sh

  export JAVA_HOME=/opt/jdk

 2.修改core-site.xml

<property>
    <name>fs.default.name</name>
    <value>hdfs://HDP125:9000</value>
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/home/${user.name}/tmp</value>
</property>
<property>
    <name>fs.trash.interval</name>
    <value>1440</value>
</property>

    说明:

  fs.defaultDFS:设置NameNode的IP和端口

  hadoop.tmp.dir:设置Hadoop临时目录,(默认/tmp,机器重启会丢失数据!)

  fs.trash.interval:开启Hadoop回收站 

 3.修改hdfs-site.xml

<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>
<property>
    <name>dfs.namenode.name.dir</name>
    <value>/home/${user.name}/dfs_name</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>/home/${user.name}/dfs_data</value>
</property>
<property>
        <name>dfs.support.append</name>
        <value>true</value>
</property>
<property>
        <name>dfs.datanode.max.xcievers</name>
        <value>4096</value>
</property>

  说明:

  dfs.replication:文件复本数

  dfs.namenode.name.dir:设置NameNode存储元数据(fsimage)的本地文件系统位置

  dfs.datanode.data.dir:设置DataNode存储数据的本地文件系统位置

  dfs.support.append:设置HDFS是否支持在文件末尾追加数据

  dfs.datanode.max.xcievers:设置datanode可以创建的最大xcievers数

 

 4.修改yarn-site.xml

<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>master</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
  <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
  <name>yarn.timeline-service.hostname</name>
  <value>master</value>
</property>

 5.修改mapred-site.xml

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

 6.修改slave

test1
test2

 7.把配置好的Hadoop程序复制到其它节点

scp -r /opt/hadoop hadoop@test2:/opt/
chown -R hadoop:hadoop /opt/hadoop

 

四、启动和关闭hadoop

  1.第一次使用一个分布式文件系统,需要对其进行格式化:

  ./bin/hadoop namenode –format

  2.启动Hadoop:

  sbin/start-all.sh

  3.关闭Hadoop:

  sbin/stop-all.sh

  4.Hadoop自带的WEB管理界面

   http://test1:50070

 

分享到:
评论

相关推荐

    Hadoop2.4环境搭建与安装详解

    Hadoop2.4linux安装配置过程详细过程。

    spark-1.6.0-bin-hadoop2.4.tgz

    在给定的压缩包文件"spark-1.6.0-bin-hadoop2.4.tgz"中,包含了Spark的1.6.0版本,该版本已经集成了与Hadoop 2.4版本的兼容性,使得用户可以在Hadoop环境下运行Spark应用。 Spark的核心组件包括: 1. **Spark Core*...

    spark-2.0.2-bin-hadoop2.4.tgz

    总结一下,Spark 2.0.2-bin-hadoop2.4.tgz是针对特定Hadoop版本的Spark二进制发行版,其安装涉及解压、环境配置、启动等多个步骤。Spark作为一个强大的大数据处理框架,具备多种数据处理能力,适用于各种数据分析和...

    Hadoop2.4.tgz下载

    Hadoop是大数据处理领域的重要框架,它以分布式计算模型为基础,提供高可靠性和高扩展性的数据存储和处理能力。...对于需要处理大量数据的企业和开发者来说,理解和掌握Hadoop 2.4的安装和使用是至关重要的。

    hadoop-2.4.zip

    Hadoop 2.4是Hadoop发展过程中的一个重要版本,它带来了许多改进和新特性,使得大数据处理更加高效和稳定。 在Hadoop 2.4中,最重要的改进之一是引入了YARN(Yet Another Resource Negotiator),这是一个资源管理...

    Hadoop2.4、Hbase0.98、Hive集群安装配置手册

    Hadoop2.4、Hbase0.98、Hive集群安装配置手册

    Hadoop 2.4 开源码

    Hadoop的文档和指导通常会涵盖安装配置、使用示例、API详解以及故障排查等内容,对于开发者和管理员来说是非常宝贵的资源。通过阅读这些文档,你可以了解如何搭建Hadoop集群,如何编写MapReduce程序,以及如何进行...

    spark-1.6.3-bin-hadoop2.4-without-hive.tgz

    这次我们关注的是一个特别的构建——"spark-1.6.3-bin-hadoop2.4-without-hive",它强调了不包含 Hive 组件的特性。Hadoop 2.4 是一个稳定且广泛采用的分布式存储和计算框架,而 Hive 则是基于 Hadoop 的数据仓库...

    spark-1.6.3-bin-hadoop2.4.tgz

    "spark-1.6.3-bin-hadoop2.4.tgz"是一个压缩包,包含了Spark 1.6.3版本与Hadoop 2.4兼容的二进制文件,适用于那些运行在Hadoop环境中的Spark应用。 Spark的核心特性在于它的弹性分布式数据集(Resilient ...

    hadoop2.4-bin-winutils

    "hadoop2.4-bin-winutils"是一个专为Windows用户提供的工具包,它包含了运行Hadoop在Windows上所需的关键组件——winutils.exe。这个工具对于在Windows上配置和使用Hadoop是至关重要的,因为它提供了与Linux系统中...

    ubuntu-14.04.1+hadoop2.4完全分布式搭建要点

    标题“Ubuntu 14.04.1 + Hadoop 2.4 完全分布式搭建要点”涉及到的是在Ubuntu 14.04.1操作系统上安装和配置Hadoop 2.4版本的过程,这是一个大数据处理框架,常用于分布式存储和计算任务。Hadoop的核心组件包括HDFS...

    hadoop-2.4.1版本大数据

    《Hadoop 2.4.1版本:大数据处理的核心与实践》 Hadoop,作为大数据处理领域的核心组件,自诞生以来就备受关注。Hadoop 2.4.1是其发展过程中的一个重要版本,它在稳定性、性能和可扩展性上都有显著提升,为大数据的...

    java管理hdfs文件和文件夹项目hadoop2.4

    在Hadoop生态系统中,Java...总之,Java与Hadoop 2.4的HDFS交互涉及配置、连接、I/O操作以及文件和目录的管理。通过熟练掌握`FileSystem` API,你可以有效地编写管理HDFS的Java程序,实现对大数据集的高效存储和处理。

    hadoop2.4.1

    #### 四、关键配置与注意事项 1. **NameNode HA**: - 确保JournalNode数量为奇数个,一般为3个或更多。 - 使用Zookeeper进行状态协调,确保Zookeeper集群稳定运行。 2. **ResourceManager HA**: - ...

    Hadoop与Spark安装配置手册

    - 同样,安装Spark版本为spark-1.1.0-bin-hadoop2.4。 - 配置文件和启动脚本需要根据具体环境进行相应的修改,如hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml等。 - 启动Hadoop...

    hadoop2.4的搭建

    这里详细介绍了hadoop2.4.1的伪分布式的搭建,主要是一些配置文件的修改

    hadoop-2.4.rar

    标题中的“hadoop-2.4.rar”表明这是一个关于Hadoop 2.4版本的压缩包,可能包含了源代码、文档、配置文件等资源,供开发者学习、研究或部署使用。 Hadoop的核心由两个主要组件构成:HDFS(Hadoop Distributed File ...

    hadoop集成snappy安装配置文档

    ### hadoop集成snappy安装配置知识点详解 #### 一、snappy安装配置 **1.1 下载源码** Snappy是一种高效的压缩和解压缩算法,适用于数据压缩场景。为了集成Snappy到Hadoop中,首先需要下载Snappy的源码。 - **...

Global site tag (gtag.js) - Google Analytics