`
memorymyann
  • 浏览: 270625 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hdfs集群搭建

 
阅读更多

网上很多hadoop集群搭建的文章,我这里只写下hdfs,不写mapreduce那块了。主要用来自己记得。

 

hadoop版本,我用的是比较新的2.3.0。

 

集群环境

mater 10.19.70.114

slave1 10.19.71.144

slave2 10.19.70.145

系统 ubuntu。windows用户不好意思,已经很久不怎么用windows了。

 

解压hadoop后,添加配置项$HADOOP_HOME到你解压的目录的hadoop下面。比如我的~/hadoop-2.3.0。至于这个配置项有没有用,我确实不知道。

 

添加JAVA_HOME,好吧,我试了用配置项,死活不行。好吧,我不知道网上那些是怎么信誓旦旦的成功的,可能是版本问题,我后来改了 $HADOOP_HOME/etc/hadoop-env.sh脚本,在里面加了JAVA_HOME配置。

注意$HADOOP_HOME/etc/hadoop这个目录,后面基本上所有的配置文件都在这里改,可能和老版本位置不太一样。

 

添加ssh免登权限。这个很多人都只是说配置,没说为什么要配置。其实说白了,集群么,你如果在master启动整个集群时候,master会根据配置,去找所有slave机器,然后通过ssh去启动slave上面的启动脚本。问题来了,他是用什么账号去ssh的,说实话我没搞清楚,我估计就是用你现在master上的那个账号,比如我登陆master机器的账号是hadoop,估计他就直接ssh hadoop@master了。所以你最好在整个集群所有机器上配置相同名字的账号,至于密码,随便吧,这个大家应该知道的。

另外一个,没有必要配置那么多免登,如果你是在master机器上启动集群,那就让master免登所有的slave。如果你在slave1上启动所有集群,那就让slave1免登整个集群其它机器。这个不难理解吧,至于免登,随便找找吧,到处都有,记得别弄反了,我经常弄反。

 

好关键的hadoop配置,记得我的版本是2.3.0,配置文件和老版本可能不太一样。另外这里只说hdfs,所以我没改map reduce配置,我也不会去启动map reduce的相关东西,东西一点一点来。

 

到$HADOOP/etc/hadoop下面找到一个core-site.xml。

其中将master机器改成

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://0.0.0.0:9000</value>

</property>

<property>

<name>io.file.buffer.size</name>

<value>131072</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/home/hadoop/tmp</value>

</property>

</configuration>

所有的slave改成

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://master-hadoop:9000</value>

</property>

<property>

<name>io.file.buffer.size</name>

<value>131072</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/home/hadoop/tmp</value>

</property>

</configuration>

在所有的slave机器上,添加host绑定 masterIP master-hadoop

大家可能看到master配置fs.defaultFS和slave不太一样,我用的是0.0.0.0,知道网络的朋友,你们懂得,我就不多做解释了。我一开始没注意,到后来发现slave死活链接不到master上去,启动时候是不会报错啦,但一旦你想操作datanode时候,你懂得,直接报错是没有datanode.原因就是没连上。

 

最后改下hdfs-site.xml,不管master还是slave都一样。

<configuration>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/hadoop/dfs/name</value>

</property>

<property>

<name>dfs.namenode.data.dir</name>

<value>file:/home/hadoop/dfs/data</value>

</property>

<property>

<name>dfs.replication</name>    #数据副本数量,默认3,我们是两台设置2

<value>2</value>

</property>

 

 

</configuration>

注意,我有2台slave所以我的dfs.replication配置是2。

 

最后启动,好吧,我只配置了hdfs,所以我启动的如下:

$HADOOP_HOME/sbin/start-dfs.sh。然后我只配置master免登slave,所以我只能在master上启动,你们要是不嫌麻烦,所以机器俩俩之间都配置了免登,那就随便哪台都可以启动。

 

分享到:
评论

相关推荐

    python 零基础学习篇-04.HDFS集群搭建--服务器-网络配置准备.mp4

    python 零基础学习篇-04.HDFS集群搭建--服务器-网络配置准备.mp4

    搭建手工切换HA的HDFS集群

    搭建手工切换HA的HDFS集群,学习大数据hadoop搭建环境的可以看下,通俗易懂

    搭建自动切换HA的HDFS集群

    搭建自动切换HA的HDFS集群,学习大数据的同学看到这个学着搭建

    hive-install:hive的安装,前提是已经配置好了HDFS集群,DownLoad hdfs的客户端

    HIVE的安装及使用@[周小龙]hive其实就是一个客户端工具,根据sql语义转化为相应的mapreduce,跑在hdfs集群上面,返回结果在返回给hive,这篇操作手册是在HDFS集群搭建成功的基础上而写,所有前提是你已经有HDFS集群,此...

    hdfs安装详细步骤

    通过以上步骤,您可以完成一个基本的HDFS集群搭建工作。此过程不仅包含了详细的配置说明,还附带了实际操作中的截图,帮助您更好地理解和操作。对于初学者来说,这是一个非常实用的指南,可以有效避免很多常见的错误...

    【大数据处理技术实践】期末考查题目:集群搭建、合并文件与数据统计可视化

    采用虚拟机的方式搭建一个具有3个DataNode节点的HDFS集群,将搭建过程记录在实验报告中。采用虚拟机的方式,先配置好Hadoop的主节点,然后通过克隆的方式创建Slave节点,实现3节点的HDFS集群 任务二: 实验一:使用...

    Hadoop 2.6.4 呕心沥血的笔记,HDFS集群及Yarn的搭建

    Hadoop 2.6.4 呕心沥血的笔记,HDFS集群及Yarn的搭建,按照我的笔记一步一步的执行,可以很快的搭建出来大数据平台,适合初接触的同学们奥。。。。。

    集群搭建与使用文档

    在集群搭建过程中,你需要配置Hadoop的环境变量,如HADOOP_HOME,设置HDFS和YARN的配置文件(如hdfs-site.xml和yarn-site.xml),并进行节点间通信的网络设置。在手册中,你会找到详细的步骤和配置示例,以确保集群...

    基于Linux平台下的Hadoop和Spark集群搭建研究.pdf

    "基于Linux平台下的Hadoop和Spark集群搭建研究" 本文主要研究了基于Linux平台下的Hadoop和Spark集群搭建,旨在提高计算速率和数据性能。Hadoop是最流行的处理平台,主要解决了数据存储和分布式计算的问题,而Spark...

    hdfs的高可用搭建

    通过上述步骤,我们可以成功搭建一个基于Hadoop 2.6的HDFS HA集群。这种架构不仅可以有效避免单点故障的问题,还能显著提高系统的稳定性和可靠性。对于需要处理大规模数据的企业来说,HDFS HA是一种非常实用且必要的...

    Hadoop集群搭建详细简明教程

    本教程“Hadoop集群搭建详细简明教程”将带你逐步走进Hadoop的世界,了解并掌握如何构建一个高效稳定的Hadoop集群。 Hadoop是由Apache基金会开发的一个开源项目,其核心包括两个主要组件:Hadoop Distributed File ...

    flume集群搭建与使用文档

    Flume集群搭建与使用文档 Flume是一种分布式、可靠、可扩展的日志聚合系统,用于收集、聚合和移动大量日志数据。下面是Flume集群搭建与使用文档的知识点总结: Flume集群搭建 1. 硬件环境:三台物理服务器,,每...

    hadoop集群搭建(超级详细)

    在大数据领域,Hadoop是一个广泛使用的开源框架,用于存储和处理海量数据。本文将详细讲解如何搭建一个...这个超详细的教程覆盖了从零开始到集群搭建完成的全过程,按照步骤执行,可以轻松掌握Hadoop集群搭建技术。

    java查看函数源码-BigDataArchitect:大数据架构师

    3. hadoop-HDFS集群搭建-伪分布式模式 4. hadoop-HDFS集群搭建-HA模式概念 5. hadoop-HDFS集群搭建-HA模式验证 6. hadoop-HDFS权限、企业级搭建、idea+maven开发HDFS 7. hadoop-MapReduce原理精讲、轻松入门 8. ...

    HDFS存储集群.pdf

    - **稳定性**: 即使计算集群出现故障,也不会直接影响到独立的HDFS集群中的数据安全性。 - **运维简化**: 故障排查更快速,降低了整体运维成本。 - **资源隔离**: - **物理隔离**: 实现计算资源按照业务需求进行...

    hadoop高可用集群搭建手册.docx

    Hadoop高可用集群搭建手册 本文档主要介绍了Hadoop 2.6高可用集群的搭建过程,包括集群规划、搭建准备、集群搭建和配置等步骤。下面是从中提取的知识点: 1. 集群规划 在规划Hadoop集群时,需要考虑到集群的拓扑...

    Hadoop集群搭建(全)

    Hadoop集群搭建详解 Hadoop是一个开源的分布式计算平台,由 Apache 软件基金会开发,核心组件包括HDFS(Hadoop Distributed Filesystem)和MapReduce。HDFS是一个分布式文件系统,提供了对文件系统的命名空间和...

Global site tag (gtag.js) - Google Analytics