最近帮公司搭建hadoop集群,现在总结一下相关要点:
1、没有搭建过hadoop的,建议先搭建一个伪集群体验一下
2、建议最少集群机器配置:5台。 1台NameNode 1台 ResourceManager 3台DataNode
3、完全分布集群搭建的重点、难点就是无密SSH登录,很多人会卡在这里。
重点:
<1> 各个服务器创建同一个账号,同一个用户组
<2> ssh-keygen -t rsa生成无密密钥文件
<3> cat id_rsa.pub >> ./authorized_keys把公钥追加到authorized_keys,注意重点使用>>,这样可以把公钥追加进去,而不是覆盖。网上很多教程,都是用scp命令从master向所有slave
传输authorized_keys,但是你会发现resourcemanager主机并不能ssh无密访问datanode。解决方案就是在resourcemanager主机再做一次cat id_rsa.pub >> ./authorized_keys,然后把authorized_keys scp到所有datanode。
4、一般经过以上配置后,namenode和resourcemanager都很容易就启动起来,但很多人会碰到datanode不能启动。一般原因就是datanode id跟集群ID不一致。处理方案就是删除version文件夹,重新格式化dfs。
5、hadoop集群终于启动起来,在namenode主机使用eclipse能正常上传文件和跑mapreduce程序。但是,win7主机上,使用eclipse开发hadoop程序,发现跑起来报错:
java.io.IOException: HADOOP_HOME or hadoop.home.dir are not set.
设置了系统变量 HADOOP_HOME发现不行,最后只能这样:System.setProperty("hadoop.home.dir", "D:/hadoop-2.4.0");
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
缺少winutils.exe,找到后放到$hadoop_home/bin里面。(文章提供附件下载)
Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z
缺少hadoop.dll,找到后放到$hadoop_home/bin和system32里面。(文章提供附件下载)
以上问题都解决了,就可愉快地开发hadoop了。
相关推荐
在Hadoop 2.4的环境中,Spark能够利用Hadoop的分布式存储系统HDFS和资源管理系统YARN,实现数据的读取和计算。Hadoop 2.4引入了YARN(Yet Another Resource Negotiator),作为新的资源管理器,取代了原来的...
在标题中提到的"spark-2.0.2-bin-hadoop2.4.tgz"是一个压缩包,包含了Spark 2.0.2版本的二进制发行版,兼容Hadoop 2.4/2.5/2.6版本。这个版本的Spark支持Java Development Kit (JDK) 7,同时要求Scala编程环境为2.11...
Hadoop 分布式环境搭建指南 本文档将指导您如何搭建 Hadoop 分布式环境,包括安装和配置 Hadoop、ZooKeeper 和 HBase。同时,本文档还将介绍相关的网络配置和 Linux 系统安装。 一、准备环境 1.1 安装 Linux 系统...
Hadoop-2.2.0+Hbase-0.96.2+Hive-0.13.1分布式整合,Hadoop-2.X使用HA方式
对于想学习 Spark 的人而言,如何构建 Spark 集群是其最大的难点之一, 为了解决大家构建 Spark 集群的一切困难,Spark 集群的构建分为了五个步骤,从 零起步,不需要任何前置知识,涵盖操作的每一个细节,构建完整...
Hadoop 2.4 是一个稳定且广泛采用的分布式存储和计算框架,而 Hive 则是基于 Hadoop 的数据仓库工具,用于处理和管理大规模数据。但在这个特定的版本中,Spark 并没有集成 Hive,使得它更适合那些不需要 Hive 支持,...
"spark-1.6.3-bin-hadoop2.4.tgz"是一个压缩包,包含了Spark 1.6.3版本与Hadoop 2.4兼容的二进制文件,适用于那些运行在Hadoop环境中的Spark应用。 Spark的核心特性在于它的弹性分布式数据集(Resilient ...
此文以命令行+截图的形式详细的记录了Hadoop-2.6.4+Zookeeper-3.4.9+Hbase-1.2.4分布式开发平台的环境配置过程,希望能对大家有所帮助。
在本教程中,我们将深入探讨如何在VMware虚拟机中安装...通过这个过程,你将不仅学会如何在VMware上的CentOS7搭建Hadoop伪分布式环境,还能深入理解Hadoop的组件和工作原理,为进一步的大数据学习打下坚实的基础。
Docker(Hadoop_3.3.1+HBase_2.4.16+Zookeeper_3.7.1+Hive_3.1.3 )配置文件 搭建集群环境
大数据hadoop安装伪分布式成熟虚拟机镜像,只需改本地虚拟网卡ip地址为192.168.6.1,网关192.168.6.2即可
2、大数据环境-安装Hadoop2.5.2伪分布式傻瓜教程 原创
Hadoop是Apache另一个关键项目,是一个分布式文件系统(HDFS)和MapReduce计算框架的集合,旨在处理和存储大量数据。Hadoop 1.x版本是Hadoop的早期版本,它包括HDFS和MapReduce 1.0(也称为Hadoop 1.0或Hadoop MR1)...
### 基于VM+CentOS+hadoop2.7搭建Hadoop完全分布式集群的知识点解析 #### 一、概述 本文旨在详细介绍如何使用VMware Workstation(简称VM)结合CentOS 6.5操作系统来搭建Hadoop 2.7的完全分布式集群。此文档是根据...
[Doker+HBASE+HADOOP+Zookeeper]全分布式环境搭建
Hadoop是一个分布式文件系统,而Eclipse则是一款强大的Java集成开发环境,通过Hadoop Eclipse插件,可以在Eclipse中直接编写、调试和运行Hadoop MapReduce程序,极大地提高了开发效率。 首先,选择合适的软件版本至...