`
luliangy
  • 浏览: 96892 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

hadoop集群搭建(二)——集群环境配置

阅读更多

团队力量让我们站在云端!

 

真的感觉团队的力量太强大了,整个集群配置能够顺利进行,完全是靠大家合作才能完成。我们确实有很多不明白的地方,但是我们的每一个人都敢于探索,敢于去实践,敢于去做各种尝试,最终的结果就是我们克服了各种困难完成了云端的搭建!

 

好了进入正题,假设每台机器都按照前一篇所属配置好了hadoop环境,那么接下来开始配置集群环境。

 

 

集群配置分为以下几个步骤:

1、 修改机器的IP地址等信息

2、 配置namenode的hosts文件;

3、 配置namenode的masters和slaves文件;

4、 配置namenode的core-site、mapred-site、hdfs-site文件;

5、 远程拷贝(可选操作)上述文件给所有的slaves;

6、 在namenode上生成公钥,远程拷贝公钥给所有的slaves,slaves上将公钥添加到授权文件;

7、s laves ssh连接master;

8、d ata结点启动datanode和tasktracker,name结点启动所有的data结点;

 

 

 

 

一、 修改机器IP;

 

这里我们总共准备了十台机器,依次将机器的IP地址改为192.168.1.2-192.168.1.11

选定11号机器为namenode,10号机器作为secondarynamenode;

 

 

 

 

二、 配置namenode的hosts文件;

sudo gedit /etc/hosts

修改文件如下:

127.0.0.1 localhost

127.0.1.1 ubuntu.ubuntu-domain ubuntu

192.168.1.11 master

192.168.1.7 s7

192.168.1.4 s4

192.168.1.2 s2

192.168.1.3 s3

192.168.1.5 s5

192.168.1.6 s6

192.168.1.8 s8

192.168.1.9 s9

192.168.1.10 s10

 

# The following lines are desirable for IPv6 capable hosts

::1     ip6-localhost ip6-loopback

fe00::0 ip6-localnet

ff00::0 ip6-mcastprefix

ff02::1 ip6-allnodes

ff02::2 ip6-allrouters

 

 

 

 

三、 配置namenode的masters和slaves文件

cd /usr/local/hadoop

sudo gedit conf/masters

修改如下:

master

sudo gedit conf/slaves

s2

s3

S4

s5

S6

S7

S8

S9

这里配置的masters和slaves文件只是作为一种映射关系,将对应的名称映射到hosts文件中的IP;

 

 

 

四、 配置namenode的core-site、mapred-site、hdfs-site文件

   

sudo gedit conf/core-site.xml

  <configuration>   

 <property>   

  <name>fs. default .name</name>   

  <value>hdfs:// master :9000</value>    

 </property>   

 <property>   

  <name>dfs.replication</name>    

  <value>1</value>    

 </property>   

10   <property>   

 

参数详解:第一个属性表示namenode的主机和端口,第二个属性表示hdfs中文件备份个数。

   

sudo gedit conf/mapred-site.xml

  <configuration>   

     <property>    

        <name>mapred.job.tracker</name>   

         <value> master :9001</value>    

     </property>   

</configuration>  

 

   参数详解:JobTracker的主机和端口;

 

    sudo geidt conf/hdfs-site.xml   

 

<property>   

     <name> dfs.name.dir </name>   

     <value> /home/hadoop/hdfs/name </value>   

</property>   

  

<property>   

     <name> dfs.data.dir </name>   

     <value> /home/hadoop/hdfs/data </value>   

</property>   

 

    参数详解:第一个属性表示 NameNode 持久存储名字空间及事务日志的本地文件系统路径。

    第二个属性表示 DataNode 存放块数据的本地文件系统路径    

  

五、远程拷贝(可选操作)slaves上的文件给master;

    scp /etc/hosts hadoop@s2:/etc/hosts

    .

    .

    .

    scp conf/core-site.xml hadoop@s2:/usr/local/hadoop/conf/core-site.xml

    .

    .

    scp conf/mapred-site.xml hadoop@s2:/usr/local/hadoop/conf/mapred-site.xml

    .

    .

    scp conf/hdfs-site.xml hadoop@s2:/usr/local/hadoop/conf/hdfs-site.xml

    .

    data结点上修改master文件同name结点,经过实践我们发现data结点作为slave,slaves文件其实不用修改。

 

 

 

 

六、 在namenode上生成公钥,远程拷贝公钥给所有的slaves,slaves上将公钥添加到授权文件;

    1.  生成公钥: ssh-keygen -t dsa -P "" -f ~/.ssh/id_ r sa    

    2.  远程拷贝: scp  ~/.ssh/id_rsa.pub hadoop@master  ~/.ssh/    

    3.  data结点上添加到收信任列表: cat  ~/.ssh/id_rsa.pub >>  ~/.ssh/authorizedkeys

 

 

 

七、 datanode ssh连接namenode

ssh master

 

 

八、 配置SecondaryNamenode( 号外! )

    修改masters 文件,改为 s10

    修改hdfs-site.xml 文件

     <property>
          <name>dfs.http.address</name>
          <value> 192.168.1.11  :50070</value> >
    </property>

 

 

九、data结点启动datanode和tasktracker,name结点启动所有的data结点

 

       namenode启动之前做一次 block 负载均衡

     sudo gedit  conf/hdfs-site.xml

 

     <property> 
                <name>dfs.balance.bandwidthPerSec</name> 
                <value>10485760</value> 
                <description>
                       Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in 

                       term of the number of bytes per second.
                 </description> 
     </property>  

     bin/start-balancer.sh

 

     在新的结点上启动datanode 

  bin/hadoop-daemon.sh start datanode  

     启动tasktracker

      bin/hadoop-daemon.sh start tasktracker 

     启动SecondaryNameNode

  bin/hadoop-daemon.sh start SecoondaryNameNode

     启动namenode

  bin/start-dfs.sh  

 

       

    连接时可以在namenode上查看连接情况:

      bin/hadoop dfsadmin -report

 

 

    运行测试和单机版基本步骤一致,参见前文!

 

     好了配置完毕!由于是新手,还有N 多问题没有理解,敬请各位大牛指点!不过此文还会经过修改,敬请期待!   

<!--EndFragment-->

分享到:
评论

相关推荐

    hadoop集群配置之———hive安装与配置(超详细)

    这个过程中需要保证Hadoop集群本身已经搭建好并且运行正常。在安装Hive之前,一般需要先安装和配置好MySQL数据库,因为Hive会使用MySQL来存储其元数据。元数据是关于数据的数据,例如表结构定义、表之间关系、数据...

    hadoop集群搭建——JDK的安装

    ### hadoop集群搭建——JDK的安装 #### 实验背景及目标 在部署Hadoop集群的过程中,第一步往往是安装Java Development Kit (JDK),因为Hadoop是基于Java开发的,因此在集群上的每个节点都需要安装JDK。本实验旨在...

    Hadoop集群搭建部署与MapReduce程序关键点个性化开发.doc

    最后,进行Hadoop集群的分布式环境配置,包括配置Hadoop的配置文件如`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`和`mapred-site.xml`,确保集群可以正确地运行和交互。 任务2涉及MapReduce程序的开发。首先...

    Hadoop集群搭建及Hive的安装与使用

    2. **配置Hive**:修改`conf/hive-site.xml`,设置Hive的 metastore数据库(可以是本地的MySQL或Derby),Hadoop相关配置(指向已搭建好的Hadoop集群),以及Hive的其他参数。 3. **创建metastore数据库**:根据...

    hadoop环境配置(单机集群)

    ### Hadoop环境配置详解——单机集群篇 #### 一、引言 随着大数据时代的到来,Hadoop作为处理海量数据的利器,其重要性不言而喻。本文旨在详细介绍如何在虚拟机上安装Hadoop环境,并搭建单机集群。通过图文并茂的...

    hadoop集群部署手册

    - **WordCount案例**:实验最后将测试运行Hadoop的经典案例——WordCount程序,以验证Hadoop集群的正确配置及功能完整性。 ### 结语 通过以上步骤,不仅可以完成Hadoop集群的基础部署,还能进一步加深对Hadoop生态...

    两台 Ubuntu 机器实现 Hadoop 集群

    集群搭建完成后,可以通过编写 MapReduce 程序并提交到集群来执行分布式计算任务。这通常涉及使用 Java API 或者支持 Hadoop 的其他编程语言(如 Python 的 PySpark)来编写程序,然后使用 `hadoop jar` 命令提交...

    hadoop2.6.4-ha集群搭建

    ### Hadoop 2.6.4 HA 集群搭建详解 #### 一、概述 在当前的大数据处理环境中,Hadoop作为一个强大的分布式计算框架,其稳定性和可用性至关重要。Hadoop 2.x版本引入了High Availability (HA)机制来确保系统在遇到...

    CDH5 Hadoop集群完全离线安装说明

    ### CDH5 Hadoop集群完全离线安装说明 #### 系统环境 - 操作系统:CentOS 6.5 64位 #### 必备软件与工具 ...这些准备工作是搭建稳定、高效的Hadoop集群的基础,对于后续Hadoop集群的配置与管理至关重要。

    集群搭建与使用文档

    集群搭建与使用文档是针对大数据处理领域中的两个关键框架——Hadoop和Spark的集群构建与应用的详细指南。本文档将深入探讨这两个分布式计算框架的安装、配置和使用方法,帮助用户更好地理解和操作大规模数据处理...

    完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 02 实施Hadoop集群 共41页.rar

    在本课程中,我们将深入探讨大数据云计算领域中的关键组件——Hadoop,以及如何实施Hadoop集群来构建一个高效的数据分析平台。Hadoop是Apache软件基金会开发的一个开源框架,主要用于存储和处理大规模数据集,尤其...

    Hadoop集群上基于HBase的大数据索引构建

    报告首先讲解了搭建三节点Hadoop集群所需的步骤,并展示了如何成功地配置Zookeeper和HBase组件以确保其在各主机间的同步操作。接下来,详细探讨了一种用于处理大量数据的有效方法——借助MapReduce机制创建倒排索...

    《Hadoop平台技术》校内讲义 (集群搭建)-pdf.pdf

    《Hadoop平台技术》校内讲义专注于介绍大数据处理的核心技术——Hadoop,以及如何在实际环境中搭建Hadoop集群。这份讲义详细阐述了大数据的基本概念、Hadoop的概述及其运行环境的搭建步骤。 首先,大数据概论部分,...

    基于虚拟机集群hadoop2.7.1配置文件

    在搭建Hadoop集群时,我们需要在该文件中输入所有奴隶节点的主机名,这样Hadoop的启动脚本会知道哪些机器应该运行DataNode和NodeManager。 3. `mapred-site.xml.template`:这是一个模板文件,用于配置MapReduce...

    CentOS下Hadoop-0.20.2集群配置文档

    配置Hadoop集群主要包括以下几个步骤: 1. **环境准备**:确保所有节点时间同步,安装Java环境(Hadoop依赖Java运行),设置环境变量`JAVA_HOME`。 2. **下载与解压Hadoop**:从官方网站获取Hadoop-0.20.2的源码或...

    Hadoop平台搭建方案_hadoop_源码.zip

    7. 验证安装:可以通过浏览器访问NameNode的Web界面,查看Hadoop集群状态;或者通过命令行工具上传、读取文件,测试HDFS功能。 8. 关闭Hadoop服务:使用`stop-dfs.sh`和`stop-yarn.sh`命令关闭Hadoop服务。 此外,...

    52498-Hadoop平台搭建与应用-任务实施操作指南手册.rar

    这份指南涵盖了从基础环境配置到实际项目实施的全过程,对于想深入理解并应用Hadoop的人来说,是一份宝贵的参考资料。 1. **Hadoop简介**:Hadoop是由Apache基金会开发的开源框架,基于Java编写,设计目标是处理和...

    完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 11 集群 共33页.rar

    4. **Hadoop集群搭建**:包括硬件需求、软件配置、集群规划、安装部署等步骤,可能还会有YARN(Yet Another Resource Negotiator)资源管理器的介绍。 5. **Hadoop集群管理**:讨论监控、维护、故障排查和性能优化...

    hadoop 搭建教程

    搭建Hadoop集群是一个复杂但必要的过程,特别是在大数据处理和存储的场景中。本文将逐步指导你如何在Ubuntu系统上构建一个Hadoop MapReduce集群。首先,我们从安装基础环境——Java和JDK开始。 1. **安装Java和JDK*...

    大数据核心平台技术-实验记录

    实验记录一、前言二、实验内容实验一 :Hadoop集群搭建三、实验过程记录2.1安装准备2.2 Hadoop集群搭建1、安装文件上传工具2、JDK安装3、Hadoop安装:4、Hadoop集群配置2.3Hadoop集群测试1、格式化文件系统2、启动和...

Global site tag (gtag.js) - Google Analytics