一、创建用户
groupadd analyzer -f
useradd analyzer -d /opt/analyzer -g analyzer -p searchanalyzer
二、处理/etc/hosts文件
三、设置免密码登录(多台机器的id_rsa.pub,相互拷贝)
生成公钥、密钥:
ssh-keygen -t rsa
复制本地id_rsa.pub到远程服务器,使远程服务器登录本地可以免密码
scp
scp analyzer@10.1.4.34:/opt/analyzer/.ssh/id_rsa.pub id_rsa_pub_dir/id_rsa_xxx.pub
生成authorized_keys文件内容:
cat id_rsa_179.pub id_rsa.pub >authorized_keys
设置权限,权限问题可能导致远程免密码登录失败
chmod 644 authorized_keys
-rw-r--r-- 1 analyzer analyzer 397 May 12 16:53 authorized_keys
四、设置环境变量
[analyzer@linux434 ~]$ vi ~/.bash_profile
PATH=$PATH:$HOME/bin
export PATH
unset USERNAME
export JAVA_HOME=$HOME/jdk1.6.0_18
export PATH=$JAVA_HOME/bin:$PATH
export HADOOP_HOME=$HOME/hadoop
export HIVE_HOME=$HOME/hive
[analyzer@linux434 ~]$ source ~/.bash_profile
五、安装hadoop,hive
scp -r /opt/analyzer/hadoop analyzer@10.1.4.34:/opt/analyzer/hadoop
scp -r /opt/analyzer/hive analyzer@10.1.4.34:/opt/analyzer/hive
scp -r /opt/analyzer/db-derby-10.6.1.0-bin analyzer@10.1.4.34:/opt/analyzer/db-derby-10.6.1.0-bin
scp -r /opt/analyzer/jdk1.6.0_18 analyzer@10.1.4.34:/opt/analyzer/jdk1.6.0_18
六、 在新节点上启动datanode和tasktracker
/opt/analyzer/hadoop/bin/hadoop-daemon.sh start datanode
/opt/analyzer/hadoop/bin/hadoop-daemon.sh start tasktracker
七、进行block块的均衡
在hdfs-site.xml中增加设置balance的带宽,默认只有1M:
<property>
<name>dfs.balance.bandwidthPerSec</name>
<value>10485760</value>
<description>
Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second.
</description>
</property>
运行以下命令:
/opt/sohuhadoop/hadoop/bin/start-balancer.sh -threshold 5
均衡10个节点,移动400G数据,大概花费了3个小时
The cluster is balanced. Exiting…
Balancing took 2.9950980555555557 hours
分享到:
相关推荐
Hadoop 1.0能够处理TB级别的数据,吸引了众多大型互联网公司如Google、Yahoo和Facebook等使用。Hadoop的前身是Nutch,一个基于Web的搜索引擎项目,后来在Google的GFS和MapReduce论文启发下,通过Doug Cutting的努力...
MapReduce则是Hadoop处理大数据的主要计算模型,它通过“映射”和“化简”两个阶段,将复杂的计算任务分解到集群中的各个节点执行。 Hadoop 2.0引入了YARN(Yet Another Resource Negotiator),这是一个资源管理...
开源思想,少要积分,仅供学习。 Hadoop1.0伪分布式安装步骤。 开源思想,少要积分,仅供学习。 Hadoop1.0伪分布式安装步骤。
它的上一个版本是0.20.205.0,新版的版本号原是 0.20.205.1,但开发者表示,Hadoop已经成熟几年前就做好了应用于生产的准备,但有些客户在采用前希望看到版本号是1.0,所以他们决定直接跳到了1.0。
该文档主要是Hadoop的集群搭建的方式,对每个人都很有帮助
最新hadoop1.0帮助文档,学习hadoop必备
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的出现为大数据处理提供了高效、可靠的解决方案。这个名为“hadoop-1.0源代码(全)”的压缩包包含的是一整套Hadoop 1.0版本的源代码,这对于开发者来说是...
Centos7.0系统下配置Hadoop集群(以3节点为例)超详细过程
Hadoop三节点集群安装 使用VMare 虚拟机创建三台CentOS7Linux机器
基于ZooKeeper的Hadoop HA集群可以提供高可用性和可扩展性,满足企业对大数据处理的需求。在本文中,我们将详细介绍基于ZooKeeper的Hadoop HA集群的安装过程。 一、 安装环境介绍 在安装基于ZooKeeper的Hadoop HA...
Hadoop分布式集群配置是大数据处理的关键步骤之一,本指南将指导读者成功配置一个由5台计算机构成的Hadoop集群,并成功运行wordcount处理大型数据(大于50G)。 一、Hadoop集群架构简介 Hadoop集群由一个Master...
Hadoop 集群配置详解 Hadoop_Hadoop集群(第1期)_CentOS安装配置 Hadoop_Hadoop集群(第2期)_机器信息分布表 Hadoop_Hadoop集群(第4期)_SecureCRT使用 Hadoop_Hadoop集群(第5期)_Hadoop安装配置 Hadoop_Hadoop...
Hadoop作为大数据处理的核心组件,包括HDFS(Hadoop Distributed File System)和MapReduce等模块,构建一个Hadoop集群通常涉及多台服务器的配置、软件安装、服务启动和集群配置。通过Ansible,我们可以简化这个过程...
Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和...
第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式...
"基于多元线性回归模型的Hadoop集群节点性能计算方法" 本文档介绍了一种基于多元线性回归模型的Hadoop集群节点性能计算方法,该方法可以对Hadoop集群节点的性能进行准确的评估和优化。 什么是Hadoop集群节点性能...
- 接下来,需要进行集群的格式化操作,这通常涉及到使用Hadoop的格式化命令,格式化HDFS文件系统以存储数据。 - 配置和启动Hadoop集群的过程中,需要启动NameNode和DataNode,以及YARN的ResourceManager和...
在安装Hadoop集群时,需要创建Hadoop用户,以便Hadoop节点之间可以通信。 修改主机名和IP地址映射 在安装Hadoop集群时,可以根据需要修改主机名和IP地址映射,以便方便地标识不同的机器。 ssh无密码登录配置 在...