- 浏览: 1184206 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (350)
- Ajax研究 (2)
- javascript (22)
- struts (15)
- hibernate (12)
- spring (8)
- 我的生活 (28)
- jsp (2)
- 我的随笔 (84)
- 脑筋急转弯 (1)
- struts2 (2)
- ibatis (1)
- groovy (1)
- json (4)
- flex (20)
- Html Css (5)
- lucene (11)
- solr研究 (2)
- nutch (25)
- ExtJs (3)
- linux (6)
- 正则表达式 (2)
- xml (1)
- jetty (0)
- 多线程 (1)
- hadoop (40)
- mapreduce (5)
- webservice (2)
- 云计算 (8)
- 创业计划 (1)
- android (8)
- jvm内存研究 (1)
- 新闻 (2)
- JPA (1)
- 搜索技术研究 (2)
- perl (1)
- awk (1)
- hive (7)
- jvm (1)
最新评论
-
pandaball:
支持一下,心如大海
做有气质的男人 -
recall992:
山东分公司的风格[color=brown]岁的法国电视[/co ...
solr是如何存储索引的 -
zhangsasa:
-services "services-config ...
flex中endpoint的作用是什么? -
来利强:
非常感谢
java使用json所需要的几个包 -
zhanglian520:
有参考价值。
hadoop部署错误之一:java.lang.IllegalArgumentException: Wrong FS
hadoop集群详解
我这里是两台机子(可以n台),所以每台机子都给了相同的用户名和密码(最好是这样,放在root下更好)。Hadoop需要使用SSH协议,namenode将使用SSH协议启动namenode和datanode进程。
【1】: 安装和启动SSH协议
所有机器上安装SSH协议并启动服务,在所有机器上执行以下命令:
$ sudo apt-get install ssh 安装SSH协议
$ sudo apt-get install rsync
$ ssh sudo /etc/init.d/ssh restart 启动服务
命令执行完毕,各台机器之间可以通过密码验证相互登陆
【2】:配置Namenode无密码登录所有Datanode
<1> : 原理
Namenode作为客户端,要实现无密码公钥认证,连接到服务端datanode上时,需要在namenode上生成一个密钥对,包括一个公钥和一个私钥,而后将公钥复制到 datanode上。当namenode通过ssh连接datanode时,datanode就会生成一个随机数并用namenode的公钥对随机数进行加密,并发送给namenode。namenode收到加密数之后再用私钥进行解密,并将解密数回传给datanode,datanode确认解密数无误之后就允许namenode进行连接了。这就是一个公钥认证过程,其间不需要用户手工输入密码。重要过程是将客户端namenode公钥复制到 datanode上。
<2> : 所有机器上生成密码对
hadoop@user-desktop:~$ ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): 默认路径
Enter passphrase (empty for no passphrase): 回车,空密码
Enter same passphrase again:
Your identification has been saved in /home/hadoop/.ssh/id_rsa.
Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub.
这将在/home/hadoop/.ssh/目录下生成一个私钥id_rsa和一个公钥id_rsa.pub。
cat id_rsa.pub >> authorized_keys
<3> : 配置每个Datanode无密码登录Namenode
Namenode连接 datanode时namenode是客户端,需要将namenode上的公钥复制到datanode上,那么,如果datanode主动连接 namenode,datanode是客户端,此时需要将datanode上的公钥信息追加到namenode中的authorized_keys之中。(此时,由于namenode中已经存在authorized_keys文件,所以这里是追加)。
在namenode上把id_rsa.pub复制到datanode上并且重新给命名
scp id_rsa.pub hadoop@172.0.8.226:~/.ssh/id_rsa_xp.pub
在datanode上把id_rsa.pub复制到namenode上并且重新给命名
scp id_rsa.pub hadoop@172.0.8.232:~/.ssh/id_rsa_br.pub
【3】 : 在各个namenode和datanode --- 执行命令 vi /etc/hosts 进入编辑状态
添加IP-主机映射关系
172.0.8.232 user-desktop
172.0.8.226 br-desktop
【3】 :开始配置hadoop-0.19.2
<1> : hadoop-0.19.2/conf/hadoop-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://172.0.8.232:9090/</value> <!--启动namenode-->
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://172.0.8.232:9091/</value> <!--启动jobtracker-->
</property>
<property>
<name>dfs.name.dir</name>
<value>/hadoop/namedata</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop/temp</value>
</property>
<2> : masters 配置namenode
<3> : slavers 配置datanode
<4> : 在namdenode的根目录下执行一下命令实行同步
rsync -ave ssh --delete --progress hadoop-0.19.2 br-desktop:~/
我这里是两台机子(可以n台),所以每台机子都给了相同的用户名和密码(最好是这样,放在root下更好)。Hadoop需要使用SSH协议,namenode将使用SSH协议启动namenode和datanode进程。
【1】: 安装和启动SSH协议
所有机器上安装SSH协议并启动服务,在所有机器上执行以下命令:
$ sudo apt-get install ssh 安装SSH协议
$ sudo apt-get install rsync
$ ssh sudo /etc/init.d/ssh restart 启动服务
命令执行完毕,各台机器之间可以通过密码验证相互登陆
【2】:配置Namenode无密码登录所有Datanode
<1> : 原理
Namenode作为客户端,要实现无密码公钥认证,连接到服务端datanode上时,需要在namenode上生成一个密钥对,包括一个公钥和一个私钥,而后将公钥复制到 datanode上。当namenode通过ssh连接datanode时,datanode就会生成一个随机数并用namenode的公钥对随机数进行加密,并发送给namenode。namenode收到加密数之后再用私钥进行解密,并将解密数回传给datanode,datanode确认解密数无误之后就允许namenode进行连接了。这就是一个公钥认证过程,其间不需要用户手工输入密码。重要过程是将客户端namenode公钥复制到 datanode上。
<2> : 所有机器上生成密码对
hadoop@user-desktop:~$ ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): 默认路径
Enter passphrase (empty for no passphrase): 回车,空密码
Enter same passphrase again:
Your identification has been saved in /home/hadoop/.ssh/id_rsa.
Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub.
这将在/home/hadoop/.ssh/目录下生成一个私钥id_rsa和一个公钥id_rsa.pub。
cat id_rsa.pub >> authorized_keys
<3> : 配置每个Datanode无密码登录Namenode
Namenode连接 datanode时namenode是客户端,需要将namenode上的公钥复制到datanode上,那么,如果datanode主动连接 namenode,datanode是客户端,此时需要将datanode上的公钥信息追加到namenode中的authorized_keys之中。(此时,由于namenode中已经存在authorized_keys文件,所以这里是追加)。
在namenode上把id_rsa.pub复制到datanode上并且重新给命名
scp id_rsa.pub hadoop@172.0.8.226:~/.ssh/id_rsa_xp.pub
在datanode上把id_rsa.pub复制到namenode上并且重新给命名
scp id_rsa.pub hadoop@172.0.8.232:~/.ssh/id_rsa_br.pub
【3】 : 在各个namenode和datanode --- 执行命令 vi /etc/hosts 进入编辑状态
添加IP-主机映射关系
172.0.8.232 user-desktop
172.0.8.226 br-desktop
【3】 :开始配置hadoop-0.19.2
<1> : hadoop-0.19.2/conf/hadoop-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://172.0.8.232:9090/</value> <!--启动namenode-->
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://172.0.8.232:9091/</value> <!--启动jobtracker-->
</property>
<property>
<name>dfs.name.dir</name>
<value>/hadoop/namedata</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop/temp</value>
</property>
<2> : masters 配置namenode
<3> : slavers 配置datanode
<4> : 在namdenode的根目录下执行一下命令实行同步
rsync -ave ssh --delete --progress hadoop-0.19.2 br-desktop:~/
发表评论
-
Java并发编程总结---Hadoop核心源码实例解读
2012-04-01 15:46 2193程序设计需要同步(synchronization),原因:1) ... -
使用hadoop的lzo问题!
2011-08-24 17:12 2638使用lzo压缩替换hadoop原始的Gzip压缩。相比之下有如 ... -
secondarynamenode配置使用总结
2011-07-07 08:37 7550一、环境 Hadoop 0.20.2、JDK 1.6、Lin ... -
Map/Reduce中的Combiner的使用
2011-07-07 08:36 4764一、作用 1、combiner最基本是实现本地key的聚合, ... -
Map/Reduce中的Partiotioner使用
2011-07-07 08:35 1870一、环境 1、hadoop 0.20.2 2、操作系统Li ... -
hadoop如何添加节点
2011-07-06 12:43 14901.部署hadoop 和普通的datanode一样。安装 ... -
hadoop如何恢复namenode
2011-07-06 12:36 8536Namenode恢复 1.修改conf/core-site.x ... -
Hadoop删除节点(Decommissioning Nodes)
2011-07-06 11:52 25721.集群配置 修改conf/hdfs-site.xml ... -
hadoop知识点整理
2011-07-06 11:51 26771. Hadoop 是什么? Hadoop 是一种使用 Ja ... -
喜欢hadoop的同学们值得一看
2011-07-03 15:50 2016海量数据正在不断生成,对于急需改变自己传统IT架构的企业而 ... -
hadoop优化
2011-07-03 15:43 1337一. conf/hadoop-site.xml配置, 略过. ... -
hadoop分配任务的问题
2011-05-16 23:09 5请教大家一个关于hadoop分配任务的问题: 1、根据机器 ... -
hadoop-FAQ
2011-05-15 11:38 725hadoop基础,挺详细的。希望对大家有用! -
Apache Hadoop 0.21版本新功能ChangeNode
2011-04-21 22:04 2000Apache Hadoop 0.21.0 在2010年8月23 ... -
Hadoop关于处理大量小文件的问题和解决方法
2011-04-21 11:07 2517小文件指的是那些size比 ... -
hadoop常见错误及解决办法!
2011-04-07 12:18 96470转: 1:Shuffle Error: Exceede ... -
Hadoop节点热拔插
2011-04-07 12:16 1635转 : 一、 Hadoop节点热 ... -
hadoop动态添加节点
2011-04-07 12:14 2013转: 有的时候, datanode或者tasktrac ... -
欢迎大家讨论hadoop性能优化
2011-04-06 15:42 1301大家知道hadoop这家伙是非常吃内存的。除了加内存哦! 如 ... -
hadoop错误之二:could only be replicated to 0 nodes, instead of 1
2011-02-22 08:23 2360WARN hdfs.DFSClient: NotReplic ...
相关推荐
Hadoop_Hadoop集群(第6期)_WordCount运行详解 Hadoop_Hadoop集群(第7期)_Eclipse开发环境设置 Hadoop_Hadoop集群(第8期)_HDFS初探之旅 Hadoop_Hadoop集群(第9期)_MapReduce初级案例 Hadoop_Hadoop集群(第10...
### Hadoop集群构建实训知识点详解 #### 一、运行平台构建 在构建Hadoop集群之前,需要对各台服务器进行必要的配置,确保集群能够稳定运行。主要包括修改主机名称、配置域名解析规则、关闭防火墙以及配置免密登录...
Hadoop集群·WordCount运行详解(第6期) Hadoop集群·Eclipse开发环境设置(第7期) Hadoop集群·HDFS初探之旅(第8期) Hadoop集群·MapReduce初级案例(第9期) Hadoop集群·MySQL关系数据库(第10期) Hadoop...
在linux环境下部署的Hadoop集群-WordCount运行详解。
Hadoop集群搭建详解 Hadoop是一个开源的分布式计算平台,由 Apache 软件基金会开发,核心组件包括HDFS(Hadoop Distributed Filesystem)和MapReduce。HDFS是一个分布式文件系统,提供了对文件系统的命名空间和...
【搭建Hadoop集群详解】 Hadoop是一个开源的分布式计算框架,专为处理和存储大量数据而设计。它的核心设计理念是高容错性、高效性和可扩展性,这使得Hadoop能够在大规模集群中处理PB级别的数据。Hadoop的可靠性源于...
在这个详解中,我们将深入理解如何在Fedora和Ubuntu系统上搭建一个Hadoop集群。 首先,为了确保集群中的节点能够相互识别,我们需要配置静态IP地址。在Ubuntu系统中,可以通过图形界面进行配置,而在Fedora系统中,...
根据提供的文件信息,下面将详细介绍在虚拟机上搭建Hadoop集群环境的相关知识点。 1. 安装虚拟机和操作系统 首先,需要安装虚拟机软件,例如文档中提到的VMware Workstation,它是一款流行的虚拟化软件,可以安装在...
如何诊断并解决Hadoop集群中的各种错误,以及如何实施用户权限控制、数据加密和网络安全措施,都是运维人员必须掌握的技能。 总之,《Hadoop技术详解》这本书会深入讲解Hadoop的各个方面,包括其核心组件、生态系统...
Hadoop集群搭建详解 Hadoop是一个大数据处理框架,由Apache基金会开发和维护。它提供了一个分布式计算环境,能够处理大量数据。Hadoop生态系统包括了多个组件,如HDFS、MapReduce、YARN、HBase、Hive等。 Hadoop...
本篇文档深入浅出地介绍了Hadoop集群的WordCount运行详解,从MapReduce理论到WordCount程序的运行,再到源码分析,内容丰富且详细,对于想要入门和深入了解Hadoop分布式计算和MapReduce模型的读者来说,是一份宝贵的...
### Hadoop集群搭建总结 #### 一、Hadoop概述与应用场景 Hadoop是一个由Apache基金会维护的开源分布式计算框架,其主要目标是处理大规模数据集的存储与计算问题。通过Hadoop,用户能够轻松地在分布式环境中开发和...
### Hadoop集群安装与配置详解 #### 一、引言 随着互联网技术的快速发展和企业数据量的激增,高效处理大规模数据的需求日益迫切。Hadoop作为一种开源的大数据处理框架,因其优秀的分布式处理能力和可扩展性,成为...
【大数据技术基础实验报告——Hadoop集群的使用和管理】 Hadoop是Apache开源项目中一个分布式计算框架,它为处理和存储大规模数据提供了强大的支持。本实验报告将深入探讨Hadoop集群的启动、管理和使用,以及如何...
### 基于Hadoop集群搭建HBase集群详解 #### 一、引言 随着大数据技术的迅猛发展,海量数据的高效存储与处理成为企业关注的重点。Hadoop作为一款能够处理大量数据的基础框架,被广泛应用于各类场景之中。然而,在...
【搭建Ubuntu版Hadoop集群详解】 在本文中,我们将详细阐述如何在Ubuntu 16.04环境下搭建Hadoop集群。Hadoop是一个开源的分布式计算框架,它允许处理和存储大量数据,尤其适合大数据分析。Ubuntu是Linux发行版中的...
#### 二、Hadoop集群配置详解 Hadoop不仅可以单机运行,还可以通过配置集群模式实现高性能数据处理。集群配置是Hadoop部署的关键步骤之一,下面详细介绍Hadoop集群的配置过程: 1. **环境准备**:选择合适的操作...
在搭建Hadoop集群的过程中,首先需要一个可靠的虚拟化平台,VMware Workstation 8.0.0 是一个常用的选择。这个版本支持创建和管理虚拟机,对于初学者来说,它提供了一个理想的环境来实践Hadoop集群的安装和配置。在...