`
liukunzhou123
  • 浏览: 1873 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

hadoop_环境配置

阅读更多
1 配置时间同步:
    指令:crontab -e
    编辑:0 1 * * * root /usr/sbin/ntpdate cn.pool.ntp.org  【a进入编辑状态,ctrl+c退出编辑状态 ,:wq保存】
2 配置主机名:vi /etc/sysconfig/network
3   配置网络:
     指令:setup  --> network configuration-->eth0-->use dhcp空格-->ip netmask
                     -->ok
      /sbin/service network restart  #重新启动网络服务
      /sbin/ifconfig    #检查网络ip配置
4 配置集群hosts列表
  vi /etc/hosts
   192.168.1.100 master
   192.168.1.101 node1
==================================
5 ssh无秘钥登陆
生成公钥和私钥
ssh-keygen -q -t rsa -N "" -f /home/hadoop/.ssh/id_rsa
cd  /home/hadoop/.ssh
cp id_rsa.pub authorized_keys
chmod go-wx  authorized_keys


6 安装JDK
#下载jdk
wget http://60.28.110.228/source/package/jdk-6u21-linux-i586-rpm.bin
#安装jdk
chmod +x  jdk-6u21-linux-i586-rpm.bin
./jdk-6u21-linux-i586-rpm.bin

#配置环境变量
vi /etc/profile.d/java.sh

#复制粘贴一下内容 到 vi 中。
export JAVA_HOME=/usr/java/jdk1.6.0_21/
export HADOOP_HOME=/opt/modules/hadoop/hadoop-1.0.3/
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH



#手动立即生效
source /etc/profile

7 创建hadoop用户及环境
#创建 hadoop 用户
/usr/sbin/groupadd hadoop

#分配 hadoop 到 hadoop 组中
/usr/sbin/useradd hadoop -g hadoop

#创建 hadoop 代码目录结构
mkdir -p /opt/modules/hadoop/

cp hadoop-1.0.3.tar.gz  /opt/modules/hadoop/

#创建 hadoop 数据目录结构
mkdir -p /opt/data/hadoop/

#修改 目录结构权限为为hadoop
chown -R hadoop:hadoop  /opt/modules/hadoop/
chown -R hadoop:hadoop  /opt/data/hadoop/

#解压并测试
cd /opt/modules/hadoop/
tar -xzvf hadoop-1.0.3.tar.gz
hadoop

8 hadoop单机集群配置
vi /opt/modules/hadoop/hadoop-1.0.3/conf/hadoop-env.sh
修改export HADOOP_HEAPSIZE=32

#Hadoop Common组件 配置 core-site.xml
vi /opt/modules/hadoop/hadoop-1.0.3/conf/core-site.xml
<configuration>
  <property>
    <name>fs.default.name</name>
<value>hdfs://master:9000</value>
<!--hadoop namenode 服务器地址和端口,以域名形式-->
  </property>
  <property>
    <name>fs.checkpoint.dir</name>
    <value>/data/hadoop/hdfs/namesecondary</value>
    <!--hadoop secondary 数据存储路径,可以配置成多个目录,用,号分隔。-->
  </property>
  <property>
    <name>fs.checkpoint.period</name>
<value>1800</value>
<!-- editlog 每隔 30分钟 触发一次合并 -->
  </property>
  <property>
    <name>fs.checkpoint.size</name>
<value>33554432</value>
<!-- editlog 达到32m的时候触发一次合并 -->
  </property>
  <property>
    <name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache
.hadoop.io.compress.BZip2Codec</value>
<!-- 配置 Hadoop 压缩包 -->
  </property>

  <property>
    <name>fs.trash.interval</name>
    <value>1440</value>
    <description>Hadoop文件回收站,自动回收时间,单位分钟,这里设置是1天。</description>
  </property>
</configuration>
#HDFS NameNode,DataNode组建配置 hdfs-site.xml
vi /opt/modules/hadoop/hadoop-1.0.3/conf/hdfs-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
  <property>
    <name>dfs.name.dir</name>
<value>/data/hadoop/hdfs/name</value>
<!--HDFS namenode image 文件保存地址-->
    <description>  </description>
  </property>
  <property>
    <name>dfs.data.dir</name>
<value>/data/hadoop/hdfs/data</value>
<!-- HDFS数据文件 存储路径,可以配置多个不同的分区和磁盘中,使用,号分隔 -->
    <description> </description>
  </property>
  <property>
    <name>dfs.http.address</name>
<value>master:50070</value>
<!---HDFS Web查看主机和端口-->
  </property>
  <property>
    <name>dfs.secondary.http.address</name>
<value>node1:50090</value>
<!--辅控HDFS web查看主机和端口-->
  </property>
  <property>
    <name>dfs.replication</name>
<value>3</value>
<!--HDFS数据保存份数,通常是3-->
  </property>
  <property>
    <name>dfs.datanode.du.reserved</name>
<value>1073741824</value>
<!-- datanode 写磁盘会预留 1G空间 给其他程序使用,而非写满,单位 bytes->
  </property>
  <property>
    <name>dfs.block.size</name>
<value>134217728</value>
<!--HDFS数据块大小,当前设置为128M/Block-->
  </property>

  <property>
    <name>dfs.permissions</name>
<value>false</value>
<!-- HDFS 关闭文件权限 -->
  </property>
</configuration>
#配置MapReduce - JobTracker TaskTracker 启动配置
vi /opt/modules/hadoop/hadoop-1.0.3/conf/mapred-site.xml
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
   
<!-- Put site-specific property overrides in this file. -->
 
<configuration>
  <property>
    <name>mapred.job.tracker</name>
<value>master:9001</value>
<!--JobTracker rpc主机和端口-->
  </property>
  <property>
    <name>mapred.local.dir</name>
<value>/data/hadoop/mapred/mrlocal</value>
<!--MapReduce 产生的中间文件数据,按照磁盘可以配置成多个-->
    <final>true</final>
  </property> 
  <property>
    <name>mapred.system.dir</name>
    <value>/data/hadoop/mapred/mrsystem</value>
<final>true</final>
<!-- MapReduce的系统控制文件-->
  </property> 
  <property>
    <name>mapred.tasktracker.map.tasks.maximum</name>
<value>2</value>
<final>true</final>
<!-- 最大map槽位数量,默认是3个 -->
  </property> 
  <property>
    <name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
<final>true</final>
<!-- 单台机器最大reduce槽位数量 -->
  </property>

  <property>
    <name>io.sort.mb</name>
    <value>32</value>
<final>true</final>
<!--reduce排序使用内存大小,默认100M,要小于mapred.child.java.opts-->
  </property>

  <property>
    <name>mapred.child.java.opts</name>
<value>-Xmx64M</value>
<!-- map 和 reduce 进程 JVM 最大内存配置 -->
  </property>


  <property>
    <name>mapred.compress.map.output</name>
<value>true</value>
<!-- map 和 reduce 输出中间文件默认开启压缩 -->
  </property>
</configuration>
#Hadoop单机系统,启动执行和异常检查
#创建Hadoop mapred 和 hdfs namenode 和 datanode 目录 在 root 下
mkdir -p /data/hadoop/
chown -R hadoop:hadoop /data/*

#切换到 hadoop 用户下
su hadoop

#创建mapreduce
mkdir -p /data/hadoop/mapred/mrlocal
mkdir -p /data/hadoop/mapred/mrsystem

mkdir -p /data/hadoop/hdfs/name
mkdir -p /data/hadoop/hdfs/data
mkdir -p /data/hadoop/hdfs/namesecondary

#启动 切换到hadoop用户

在root下,配置权限
sudo chmod -R a+w /opt/modules/hadoop/

su hadoop

#格式化文件
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop namenode -format

#启动 Master node :
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.sh start namenode

#启动 JobTracker:
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.sh start jobtracker

#启动 secondarynamenode:
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.sh start secondarynamenode

#启动 DataNode && TaskTracker:

/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.sh start datanode
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.sh start tasktracker

停止,命令相同,将start换为stop

#出现错误可查看日志
tail -f /opt/modules/hadoop/hadoop-1.0.3/logs/*

jps命令,jdk下用来查看一些java相关进程
注意: chmod go-w /data/hadoop/hdfs/data
分享到:
评论

相关推荐

    pc机连接集群的HADOOP_HOME

    标题“pc机连接集群的HADOOP_HOME”指的是在个人计算机(PC)上配置Hadoop环境,以便能够远程连接并操作一个Hadoop集群。 首先,我们来详细解释一下`HADOOP_HOME`。这是Hadoop环境中的一个重要变量,它指向Hadoop...

    hadoop_join.jar.zip_hadoop_hadoop query_reduce

    `hadoop_join.jar`是一个针对Hadoop环境设计的Join查询工具,它可能包含了实现上述某种或多种Join策略的代码。用户可以使用Hadoop的命令行工具`hadoop jar`来运行这个JAR文件,执行特定的Join查询任务。例如,命令...

    hadoop_hadoop-2.7.2-hbase-jar.rar linux下包

    6. **Linux环境下的配置**:在Linux上部署HBase,需要安装Java环境,配置Hadoop和HBase的环境变量,以及正确设置HBase的配置文件如`hbase-site.xml`。 7. **HBase的应用场景**:HBase常用于实时分析、日志处理、...

    单机伪分布hadoop-spark配置_Spark!_spark_spark配置_hadoop_

    接下来,我们将详细探讨如何在单机环境下配置Hadoop和Spark的伪分布式模式。 首先,我们需要理解Hadoop的伪分布式配置。这涉及到以下几个步骤: 1. **下载Hadoop**: 获取Hadoop的源码或者二进制发行版,确保版本与...

    安装hadoop_配置hadoop的运行环境视频

    5. **配置环境变量**:在系统的环境变量中添加`HADOOP_HOME`,指向Hadoop的安装目录,并将`HADOOP_HOME/bin`和`HADOOP_HOME/sbin`添加到`PATH`变量中,使得可以在命令行直接运行Hadoop相关命令。 6. **配置Hadoop**...

    hadoop_dll_winutil_2.7

    这个包可能包含了如`hadoop.dll`、`winutils.exe`等核心组件,这些组件对于Hadoop环境的初始化、HDFS的访问以及Hadoop命令行工具的执行至关重要。例如,`winutils.exe`是一个用于执行各种系统操作的实用程序,如设置...

    hadoop_test.rar_API_client_hadoop test 作用_hadoop test_hadoop-te

    2. **Hadoop配置**:理解如何配置Hadoop环境,包括`core-site.xml`, `hdfs-site.xml`等配置文件的设置。 3. **错误处理和容错**:学习如何处理API调用中可能出现的异常,并理解HDFS的自动故障恢复机制。 4. **性能...

    hadoop-streaming-2.8.0_jar_2.8.0_hadoop_streaming_

    3. **Environment.class**: 这可能涉及到 Hadoop Streaming 中的任务环境设置,包括配置参数和系统变量,这些对运行脚本的上下文非常重要。 4. **HadoopStreaming.class**: 这个类是 Hadoop Streaming 的核心,它...

    hdfs-webdav.rar_hadoop_hadoop webdav_hadoop 系统_hadoop2.0 d_hdfs

    综上所述,这个压缩包可能包含如何在Hadoop 2.0环境下,通过WebDAV实现HDFS的远程访问和挂载为NFS的详细步骤、源代码示例、配置文件以及相关的操作指南。具体操作可能涉及到配置Hadoop的WebDAV服务,设置NFS服务器,...

    hadoop_dll_winutil_2.7.1

    描述中的信息简洁,没有提供额外的技术细节,但我们可以推断这是关于如何在 Windows 环境中配置和使用 Hadoop 的知识。 标签 "hadoop_dll_w" 强调了这个主题与 Hadoop 在 Windows 平台上的 DLL 文件相关,暗示了...

    windows连接Hadoop需要的文件winutils和hadoop_dll

    在使用这些文件之前,你需要确保你的Windows环境已经安装了Java Development Kit(JDK)并且配置了JAVA_HOME环境变量。接着,解压相应的winutils和hadoop.dll到你的Hadoop安装目录的bin子目录下,或者将它们添加到...

    hadoop2.7_winutils_exe和hadoop_dll

    通常,这些文件可以从Apache Hadoop的镜像站点获取,或者通过已经成功配置的Hadoop环境导出。下载完成后,需要将它们放置在正确的目录结构下,比如在 `%HADOOP_HOME%\bin` 目录下,并且确保添加`HADOOP_HOME`到系统...

    hadoop_win7_32位环境配置

    为了完成环境配置,你还需要设置Hadoop的相关环境变量,如`HADOOP_HOME`,并将其添加到系统路径。此外,确保Java SDK已安装并配置正确,因为Hadoop依赖于Java运行。 最后,进行一些基本的Hadoop命令测试,如启动...

    hdfs.rar_hadoop_hadoop ubuntu_hdfs_分布式系统_基于hadoop

    "hadoop"和"hadoop_ubuntu"指出了与Hadoop在Ubuntu环境下的相关性;"hdfs"明确了讨论的是Hadoop的文件系统部分;"分布式系统"表明Hadoop是在分布式环境中运行的;"基于hadoop"则强调了所有内容都是围绕Hadoop生态...

    hadoop_windows_tools.rar

    2. **winutils.exe**:这是Hadoop在Windows上的一个实用工具,用于执行与Hadoop环境配置和管理相关的任务,如设置Hadoop环境变量、创建HDFS目录、管理HDFS文件权限等。在Linux上,这些功能通常由名为`hadoop`或`hdfs...

    Hadoop集群pdf文档

    Hadoop_Hadoop集群(第7期)_Eclipse开发环境设置 Hadoop_Hadoop集群(第8期)_HDFS初探之旅 Hadoop_Hadoop集群(第9期)_MapReduce初级案例 Hadoop_Hadoop集群(第10期)_MySQL关系数据库 Web(Json-Lib类库使用...

    hadoop2.7.x_winutils_exe&&hadoop;_dll

    在Windows环境中配置和运行Hadoop,特别是Hadoop 2.7版本,可能会遇到一些与Linux不同的问题,因为Hadoop最初是为Linux设计的。在这个场景中,我们关注的是两个关键组件:winutils.exe和hadoop.dll。 **winutils....

    hadoop_dll2.6.0_64bit_windows_dll_hadoop_

    2. 设置Hadoop环境变量,包括HADOOP_HOME、JAVA_HOME和PATH。 3. 配置Hadoop的配置文件,根据实际需求调整设置,例如数据节点、名称节点的数量等。 4. 将压缩包中的DLL文件放置到正确的位置,通常是系统的PATH环境...

    hadoop_mysql-libs.rar 在linux用

    总结来说,"hadoop_mysql-libs.rar" 是一组用于在Linux下的Hadoop环境中连接和操作MySQL数据库的库文件。理解如何正确安装、配置和使用这些库对于实现Hadoop和MySQL的有效集成至关重要,这对于大数据环境下的数据...

Global site tag (gtag.js) - Google Analytics