Hadoop Configuration
新增hadoopuser用户
[root@noc rou]# adduser
bash: adduser: command not found
[root@noc rou]# cd /usr/bin/
[root@noc bin]# ln -s /usr/sbin/adduser adduser
[root@noc bin]# adduser hadoopuser
passwd wpsop
修改系统允许打开的文件数
有时候在程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -n可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。
修改办法:
重启就OK
修改2个文件。
1)/etc/security/limits.conf
vi /etc/security/limits.conf
加上:
* soft nofile 8192
* hard nofile 20480
2)./etc/pam.d/login
session required /lib/security/pam_limits.so
注意:要重启才能生效(也就是把putty关了再打开)
创建mysql用户kwps和密码kwps
grant all privileges on *.* to 'kwps'@'%' identified by 'kwps' ;
flush privileges ;
简化输入
sudo -s 切换到root
vi /usr/bin/wpsop 新建
#! /bin/bash
ssh s$1-opdev-wps.rdev.kingsoft.net -l hadoopuser 指定用户wpsop
更改hosts
1) sudo vi /etc/hosts
2) sudo vi /etc/sysconfig/network
3) hostname -v newhostname
SSH免密码公钥认证
1) mkdir .ssh
2) cd .ssh
sudo chmod 700 . //这一步很重要
3) ssh-keygen -t rsa
4) cat rsa_d.pub >> authorized_keys
当然也可以: cp rsa_d.pub authorized_keys
使用 scp向其他服务器发送,注意不要覆盖原有的文件!!
5) chmod 644 authorized_keys //这一步很重要
注意:要保证所有的结点间(包括自连接)都是免密码ssh连接的
解压Hadoop-0.19.1
tar -xvf Hadoop-0.19.1
Hadoop配置
Hadoop下载地址
http://apache.etoak.com/hadoop/core/
http://hadoop.apache.org/common/releases.html
本机环境:
版本:Hadoop-0.191
操作系统:CentOS
五台服务器:
S2 (namenode)
S5 (secondarynamenode datanode)
S6 (datanode)
S7 (datanode)
S8 (datanode)
S9 (datanode)
***/home/wps/hadoop-0.19.1/conf***
修改masters:
s5
修改slaves:
s5
s6
s7
s8
s9
修改log4j.propperties
hadoop.log.dir=/data/hadoop-0.19.1/logs
修改hadoop-env.sh
export JAVA_HOME=/opt/JDK-1.6.0.14
export HADOOP_HEAPSIZE=4000
修改hadoop-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://s2-opdev-wps.rdev.kingsoft.net:9000/</value>
<description>The name of the default file system. Either the literal string "local" or a host:port for DFS.</description>
</property>
<property>
<name>mapred.job.tracker</name>
<value>s2-opdev-wps.rdev.kingsoft.net:9001</value>
<description>The host and port that the MapReduce job tracker runs at. If "local", then jobs are run in-process as a single map and reduce task.</description>
</property>
<property>
<name>dfs.name.dir</name>
<value>/data/hadoop-0.19.1/name</value>
<description>Determines where on the local filesystem the DFS name node should store the name table. If this is a comma-delimited list of directories then the name table is
replicated in all of the directories, for redundancy. </description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/data/hadoop-0.19.1/dfsdata</value>
<description>Determines where on the local filesystem an DFS data node should store its blocks. If this is a comma-delimited list of directories, then data will be stored in
all named directories, typically on different devices. Directories that do not exist are ignored.</description>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/data/hadoop-0.19.1/tmp</value>
<description>A base for other temporary directories.</description>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
<description>Default block replication. The actual number of replications can be specified when the file is created. The default is used if replication is not specified in
create time.</description>
</property>
<property>
<name>fs.checkpoint.dir</name>
<value>/data/hadoop-0.19.1/namesecondary</value>
<description>Determines where on the local filesystem the DFS secondary
name node should store the temporary images to merge.
If this is a comma-delimited list of directories then the image is
replicated in all of the directories for redundancy.
</description>
</property>
<property>
<name>dfs.http.address</name>
<value>s2-opdev-wps.rdev.kingsoft.net:50070</value>
<description>
The address and the base port where the dfs namenode web ui will listen on.
If the port is 0 then the server will start on a free port.
</description>
</property>
<property>
<name>mapred.map.tasks</name>
<value>50</value>
<description>The default number of map tasks per job. Typically set
to a prime several times greater than number of available hosts.
Ignored when mapred.job.tracker is "local".
</description>
</property>
<property>
<name>mapred.reduce.tasks</name>
<value>7</value>
<description>The default number of reduce tasks per job. Typically set
to a prime close to the number of available hosts. Ignored when
mapred.job.tracker is "local".
</description>
</property>
启动hadoop
bin/hadoop namenode —format
&& Do not format a running Hadoop namenode ,this will cause all your data in the HDFS filesystem to be erased. &&
bin/start-all.sh
bin/stop-all.sh
查看文件目录:
bin/hadoop fs -ls /
查看数据块:
/home/wpsop/hadoop-0.19.1/running/dfsdata/current
Bin/hadoop fs -ls /data/user/hiveware
分享到:
相关推荐
hadoop配置文件hadoop配置文件hadoop配置文件hadoop配置文件hadoop配置文件hadoop配置文件hadoop配置文件hadoop配置文件hadoop配置文件
2. **配置同步**:在所有节点上保持Hadoop配置文件的一致性。 3. **启动服务**:按照启动顺序依次启动NameNode、Secondary NameNode、DataNode、ResourceManager和NodeManager。 4. **格式化NameNode**:首次部署...
这篇博客“Hadoop配置文件表”虽然没有提供详细的描述,但从标题我们可以推断,它可能包含了关于Hadoop系统中各种配置文件的详细信息。这些配置文件对于理解和优化Hadoop集群的性能至关重要。 Hadoop的核心组件主要...
7. **core-site.xml**: 核心Hadoop配置文件,包含了Hadoop系统的基本属性,如默认文件系统、I/O操作的缓冲区大小等。其中,`fs.defaultFS`属性指定了HDFS的URI,是所有Hadoop操作的基础。 8. **mapred-site.xml**: ...
在Hadoop配置中,还涉及到NameNode高可用性(HA)的配置参数,如: - dfs.namenode.secondary.http-address:为Secondary NameNode指定一个用于管理任务的HTTP地址。 - dfs.nameservices:用逗号分隔的NameService...
4. **配置Hadoop配置文件**: - **core-site.xml**:定义HDFS的基本属性,如`fs.defaultFS`,设置为`hdfs://localhost:9000`表示HDFS的NameNode运行在本地主机的9000端口。 - **hdfs-site.xml**:配置HDFS的参数,...
本文将深入解析Hadoop的常用配置,包括HDFS(Hadoop Distributed File System)和MapReduce的端口配置,以及一些核心的默认配置参数。 首先,让我们关注HDFS的端口配置: 1. **fs.default.name**: 这个参数定义了...
2. 配置文件格式错误:配置文件的格式错误可能导致 Hadoop 无法正常运行。 3. 集群节点配置错误:集群节点的配置错误可能导致 Hadoop 集群无法正常运行。 结论 Windows 下 Hadoop 配置是一个复杂的过程,需要了解 ...
Hadoop 配置完全手册 Hadoop 是一个开源的大数据处理框架,由 Apache 软件基金会开发和维护。它提供了一个分布式文件系统和一个分布式计算框架,用于处理大规模数据集。 Hadoop 配置 Hadoop 的配置文件是对 ...
### Hadoop单机配置详解 在大数据处理领域,Apache Hadoop是一个开源软件框架,用于分布式存储和处理大型数据集。本文将详细介绍如何在单机环境下配置Hadoop,使其能够运行基本的大数据处理任务。 #### 一、配置...
这涉及到多台机器的网络配置,Hadoop配置文件的定制,以及数据节点的添加和测试。完全分布式模式能够充分利用多台机器的计算资源,处理更大规模的数据。 总的来说,这个教程涵盖了从零开始搭建Hadoop环境的全过程,...
这个压缩包"**HADOOP配置文件-有注释版.rar**"包含了Hadoop的配置文件,并且带有注释,这对于理解和配置Hadoop环境至关重要。下面我们将详细探讨Hadoop的配置体系以及这些配置文件中的关键知识点。 首先,Hadoop的...
在这个主题下,我们将深入探讨与Hadoop配置相关的知识,这些知识通常会在一本高质量的Hadoop图书中详细阐述。 首先,我们关注的是"namenode"。NameNode是Hadoop HDFS(Hadoop Distributed File System)的核心组件...
Eclipse 配置 Hadoop 及 MapReduce 开发指南 一、Eclipse 中配置 Hadoop 插件 配置 Hadoop 插件是使用 Eclipse 进行 MapReduce 开发的第一步。首先,需要安装 Eclipse 3.3.2 和 Hadoop 0.20.2-eclipse-plugin.jar ...
2. 启动Hadoop以及hbase的集群,配置好NameNode和DataNode。 3. 保证hbase和hive能够正常工作并进行数据交换。 六、常见问题及解决方法 在Hadoop安装配置过程中,可能会遇到各种问题,如安装失败、配置错误或集群...
Hadoop 配置文件编辑 Hadoop 配置文件是 Hadoop 集群的核心组件之一,它们控制着集群的行为和性能。本文将对 Hadoop 的配置文件进行详细的解释,并对每个配置文件中的关键参数进行详细的说明。 一、core-site.xml ...
经过多次反复试验,完全可用的hadoop配置,有0.19的版本,也有0.20的版本。并且有脚本可以在两个版本之间切换,无需格式化文件系统。Without "hadoop namenode -format" 目录结构: /data/hadoop 为工作目录,实际为...