`
kelvinliu117
  • 浏览: 20155 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop平台搭建步骤

阅读更多

一、虚拟机及系统安装

1. 下载vmware,并成功安装;

2. 在vmware中安装Linux系统;

 

二、在虚拟机中配置JAVA环境

1.安装java虚拟机(jdk-6u31-linux-i586.bin);

2.配置环境变量

(1) vi /etc/profile  (编辑文件)

(2) 添加 JAVA_HOME CLASSPATH PATH

<!--[endif]-->

(3) source /etc/profile  (注入环境变量)

 

注:使用ROOT用户

 

 

三、修改hosts

vim /etc/hosts

修改为:

192.168.1.115  hadoop-1
192.168.1.116  hadoop-2
192.168.1.117  hadoop-3

注:使用ROOT用户

 

 

四、修改hostname

vim /etc/sysconfig/network

修改为:

NETWORKING=yes
HOSTNAME=hadoop-1

 

临时修改hostname,使用

hostname hadoop-1

 

查看当前hostname,使用

hostname

 

注:使用ROOT和户

 

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!到此请更换普通hadoop用户

五、配置ssh

1. 在当前用户主目录下执行

(1)ssh-keygen

(2)cat .ssh/id_rsa.pub >> .ssh/authorized_keys

(3)chmod 700 .ssh

(4)chmod 600  .ssh/authorized_keys

(5)ssh hadoop-1

 

SCP将免登陆copy至其他机器:

for i in $(cat iplist)  
do  
    echo $i
    scp –r /home/hadoop/.ssh $i:/home/hadoop/
done  

 

六、压缩包解压

1. 解压hadoop-0.20.2-cdh3u3.tar.gz;

2.

解压hive-0.7.1-cdh3u3.tar.gz;

注:tar –xvf xxxx.tar.gz

 

七、修改hadoop配置文件

(1)进入到 %HADOOP_HOME%/conf

(2)修改core-site.xml  用于配置Common组件的属性

<?xml version="1.0"?>  
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
<!-- Put site-specific property overrides in this file. -->  
<configuration>  
    <property>  
        <name>fs.default.name</name>  
        <value>hdfs://hadoop-1:9000</value>  
        <description>HDFS的URI,文件系统://namenode标识:端口号</description>  
    </property>  
    <property>  
    <name>hadoop.tmp.dir</name>  
      <value>/home/hadoop/tmp</value> 
      <description>namenode上本地的Hadoop临时文件夹</description>         
    </property>
</configuration> 

 

注:fs.default.name配置中用到了自己配的hostname;

 

(3)修改hdfs-site.xml 文件用于配置HDFS属性

<?xml version="1.0"?>  
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
  
<!-- Put site-specific property overrides in this file. -->  
  
<configuration>  
    <property>   
        <name>dfs.name.dir</name>   
        <value>/home/hadoop/name</value>   
        <description>namenode上存储hdfs名字空间元数据 </description>   
    </property>   
  
    <property>   
        <name>dfs.data.dir</name>   
        <value>/home/hadoop/data</value>   
        <description>datanode上数据块的物理存储位置</description>   
    </property>   
  
    <property>  
        <name>dfs.replication</name>    
        <value>1</value>  
        <description>副本个数,不配置默认是3,应小于datanode机器数量</description>  
    </property>  
</configuration> 

 

注:单机时,一般将dfs.replication设置为1

 

(4)修改mapred-site.xml 文件则用于配置MapReduce属性

<?xml version="1.0"?>  
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
  
<!-- Put site-specific property overrides in this file. -->  
  
<configuration>  
    <property>  
        <name>mapred.job.tracker</name>  
        <value>hadoop-1:9001</value>  
        <description>jobtracker标识:端口号,不是URI</description>  
    </property>  
  
    <property>   
        <name>mapred.local.dir</name>   
        <value>/home/hadoop/mapred/local</value>   
        <description>tasktracker上执行mapreduce程序时的本地目录</description>   
    </property>   
  
    <property>   
        <name>mapred.system.dir</name>   
        <value>/home/hadoop/mapred/system</value>   
        <description>这个是hdfs中的目录,存储执行mr程序时的共享文件</description>   
    </property>   
</configuration>

 

注:mapred.job.tracker中用到了自己配的hostname;

 

(5)修改masters

      hadoop-1

 

(6)修改slaves

     hadoop-2

     hadoop-3

 

(7)修改hadoop-env.sh

      export JAVA_HOME=/home/......

 

需要添加环境变量

       HADOOP_HOME

       PATH

 

conf/文件夹里有个hadoop-env.sh的文件,它的作用是配置与hadoop运行环境相关的变量,

export JAVA_HOME=/usr/java/jdk1.6.0_33

 

SCP拷贝至其他节点:建议打个zip包cp,文件太多影响速度

for i in $(cat iplist)  
do  
    echo $i
    scp /home/hadoop/hadoop-1.0.4 $i:/home/hadoop/
done  

 

八、修改hive配置

(1)使用mysql作为元数据库

hive默认使用的是derby数据库,由于需要并发的需要,因此需要使用mysql作为数据库,保证并发响应。原机器上安装的是mysql的client,需要安装server才能运行。可以通过$/etc/init.d/mysqld status查看是否安装server,或服务是否启动。

1、安装mysql server。使用命令$ yum install mysql-server*来安装,可以将依赖的其他包也一起安装。

2、使用sudo权限启动mysql服务 $/etc/init.d/mysqld start

3、使用root帐号在mysql中创建用户与密码,并赋予权限。cm5中默认的用户名和密码均为hadoop。

mysql

mysql> CREATE USER 'hadoop'@'localhost' IDENTIFIED BY 'qazwsx';

mysql> GRANT ALL PRIVILEGES ON * .* TO 'hadoop'@'localhost' WITH GRANT OPTION;

mysql> flush privileges;

mysql> exit

yum install mysql-server*安装mysql

 

(2)进入%HIVE_HOME%/conf 添加hive-site.xml,并配置

<property>
  <name>hive.querylog.location</name>
  <value>/home/hadoop/hive-0.9.0/logs</value>
</property>
<property>
  <name>mapred.job.tracker</name>
  <value>hadoop-1:9001</value>
</property>
<property>
  <name>hive.exec.scratchdir</name>
  <value>hdfs://hadoop-1:9000/tmp/hive-${user.name}</value>
  <description>Scratch space for Hive jobs</description>
</property>
<property>
<name>hive.metastore.local</name>
<value>true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hadoop</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>qazwsx</value>
</property>

 

 

 

(3)使用mysql作为数据库,需要mysqljdbc驱动,需要下载该jar包到对应的hive/lib文件夹中

 

需要添加环境变量

HIVE_HOME     PATH<!--[endif]-->

九、hadoop首次format及启动,停止

1.hadoop的format

hadoop namenode -format

 

2.hadoop的启动

start-all.sh

 

3.hadoop的停止

stop-all.sh

 

 

注:使用jps或ps查看hadoop是否启动,启动时如果有问题,会在屏幕上显示出来的。

可以输入网址:

http://hadoop-1:50070

查看hadoop的运行情况

分享到:
评论

相关推荐

    Hadoop平台搭建步骤.pdf

    Hadoop平台搭建步骤.pdf

    hadoop搭建步骤

    Hadoop搭建步骤 Hadoop是一个大数据处理框架,环境搭建是学习Hadoop的第一步,但要成功搭建一个分布式环境,还是颇费些周折的。以下是Hadoop搭建步骤的详细讲解。 一、静态IP配置 在所有机器上手工设置静态IP,...

    Hadoop平台搭建.ppt

    "Hadoop平台搭建" Hadoop是一个分布式计算框架,具有高可扩展性、高可靠性和高性能的特点。Hadoop平台搭建是指在分布式环境中部署和配置Hadoop集群的过程。该过程涉及到硬件环境、软件环境、虚拟机安装、Ubuntu安装...

    hadoop平台的搭建过程简介

    hadoop平台的搭建过程涉及多个步骤,包括虚拟机的配置、Hadoop环境的安装和配置、集群节点的设置以及开发环境的搭建。以下是对搭建过程中关键知识点的详细介绍。 1. 虚拟机配置:搭建Hadoop平台前,通常需要在...

    基于Hadoop平台的搭建及应用研究.rar

    二、Hadoop平台搭建步骤 1. 安装环境:首先需要准备一台或多台服务器,操作系统通常选择Linux,如Ubuntu或CentOS。 2. 安装Java:Hadoop依赖Java运行环境,需安装JDK并设置环境变量。 3. 下载Hadoop:从Apache官网...

    最详细的Hadoop环境搭建

    通过上述步骤,我们不仅完成了Hadoop环境的搭建,还深入了解了Hadoop的架构组成和技术细节。值得注意的是,无论是本地模式、伪分布式模式还是完全分布式模式,每一步的安装和配置都需要仔细阅读官方文档,并根据实际...

    Hadoop平台搭建方案_hadoop_

    二、Hadoop平台搭建前准备 1. 硬件需求:根据数据量和性能需求,选择合适的服务器或虚拟机。至少需要一台NameNode(主节点)和DataNode(数据节点)。 2. 操作系统:Hadoop通常运行在Linux环境下,如Ubuntu、CentOS...

    hadoop分布式平台搭建手册

    ### Hadoop分布式平台搭建手册 #### 一、安装开发集群于Windows环境 ##### 目的 本章节的主要目的是介绍如何在多台计算机上(本文档案例中为4台)搭建Hadoop开发集群,并确保读者能够运行由Hadoop开发者提供的示例...

    Hadoop平台搭建 1.搭建 步骤文档 2.搭建时要用到的组件安装包

    搭建步骤: 准备硬件环境:确保服务器具备足够的内存、存储和网络带宽等资源。 安装Java环境:Hadoop需要Java运行环境,因此需要先安装Java。 下载并解压Hadoop安装包:从官方网站或其他可靠来源下载Hadoop安装包,...

    Hadoop平台详细搭建过程

    Hadoop平台搭建一般包括几个关键步骤,如环境准备、软件安装、集群配置和启动等。搭建Hadoop集群通常需要至少三个节点:一个主节点(NameNode)和多个从节点(DataNode)。 4. 环境要求: 搭建Hadoop集群需要准备...

    Hadoop完全分布式环境搭建步骤

    Hadoop完全分布式环境搭建文档,绝对原创,并且本人亲自验证并使用,图文并茂详细介绍了hadoop完全分布式环境搭建所有步骤,条例格式清楚,不能成功的,请给我留言!将给与在线支持!

    Hadoop平台搭建CentOS7的安装步骤

    ### Hadoop平台搭建CentOS7的安装步骤 #### 一、前言 在大数据处理领域,Hadoop无疑占据着举足轻重的地位。Hadoop是一个能够对大量数据进行分布式处理的软件框架,它使得可以高效地处理PB级别的数据。本文将详细...

    hadoop平台搭建流程.pdf

    Hadoop 平台搭建流程详解 Hadoop 是一个开源的大数据处理平台,由 Apache 基金会开发和维护。它提供了一个可靠、可扩展、可高效的框架,以便存储和处理大量数据。本文将详细介绍 Hadoop 平台的搭建流程,包括环境...

    Hadoop集群搭建(全)

    Hadoop集群搭建步骤: 1. 配置Linux IP 2. 安装Hadoop 3. 配置Hadoop集群 4. 启动Hadoop集群 5. 测试Hadoop集群 常见错误总结: * Namenode未启动 * Datanode未启动 * JobTracker未启动 * TaskTracker未启动 * ...

    hadoop环境搭建教程

    在本教程中,我们将详细介绍如何在Windows系统下搭建Hadoop环境,内容涉及虚拟机的安装、基础环境配置以及Hadoop集群的具体搭建步骤。适合初学者跟随本教程一步步进行操作。 首先,搭建Hadoop环境需要一台高性能...

    Hadoop平台搭建与应用_PPT课件.rar

    本教程"52498-Hadoop平台搭建与应用-PPT课件"将深入探讨Hadoop的核心组件以及如何在实际环境中进行部署和应用。 一、Hadoop简介 Hadoop是由Apache基金会开发的分布式系统基础架构,主要设计目标是处理和存储大规模...

    Hadoop数据分析平台搭建方案.docx

    "Hadoop 数据分析平台搭建方案" 本文档主要讲述了使用 Hadoop 平台搭建数据分析平台的方案,旨在解决传统数据分析平台在数据存储和计算性能方面的挑战。随着数据量的增长,基于数据库的传统数据分析平台的数据存储...

    Hadoop云计算平台搭建最详细过程(共22页).pdf

    Hadoop云计算平台搭建最详细过程 一、Hadoop云计算平台简介 Hadoop是Apache软件基金会旗下的开源分布式计算框架,主要用于存储和处理大规模数据。Hadoop云计算平台是基于Hadoop的云计算解决方案,提供了强大的数据...

Global site tag (gtag.js) - Google Analytics