`
bat0906
  • 浏览: 27699 次
  • 性别: Icon_minigender_1
  • 来自: 第九天堂
社区版块
存档分类
最新评论

HDFS 分布式文件系统的安装和部署

 
阅读更多

HDFS文件系统

 

分布式存储环境

 

HDFS的安装和部署

1.准备工作

准备3台机器,设置好hosts

一台作为Namenode,cc-staging-session2命名为master,

两台作为dataNode,cc-staging-front命名为slave1, cc-staging-imcenter 命名为slave2


#3台机器都创建Hadoop用户

useradd hadoop

passwd hadoop

 


# 安装JDK,并设置JAVA_HOME和PATH

#下载安装jdk1.7

http://www.Oracle.com/technetwork/java/javase/downloads/index.html

tar zxvf jdk-7u21-linux-x64.gz -C /usr/local/

 


#/etc/profile增加环境变量

pathmunge /usr/local/jdk1.7.0_21/bin

export JAVA_HOME=/usr/local/jdk1.7.0_21/

export JRE_HOME=/usr/local/jdk1.7.0_21/jre

export  CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar

 

2.下载安装hadoop


#下载hadoop

下载地址https://ccp.cloudera.com/display/SUPPORT/CDH3+Downloadable+Tarballs

wget  http://archive.cloudera.com/cdh/3/hadoop-0.20.2-cdh3u6.tar.gz

wget  http://archive.cloudera.com/cdh/3/hbase-0.90.6-cdh3u6.tar.gz

wget  http://archive.cloudera.com/cdh/3/hive-0.7.1-cdh3u6.tar.gz

 


#在3太机器上创建相同的目录路径, name目录只存放在master上,且权限为755,否则会导致后面的格式化失败

mkdir -p  /hadoop/{install,name,data1, data2,tmp}

 


#解压安装包到/hadoop/install下

tar zxvf hadoop-0.20.2-cdh3u6.tar.gz -C /hadoop/install/

 


#修改属主为hadoop

chown -R hadoop.hadoop /hadoop

 

3.设置hadoop账户的ssh信任关系

 

#在master机器上操作

su – hadoop

ssh-keygen

ssh-copy-id -i .ssh/id_rsa.pub  hadoop@cc-staging-front

ssh-copy-id -i .ssh/id_rsa.pub  hadoop@cc-staging-imcenter

ssh-copy-id -i .ssh/id_rsa.pub  hadoop@cc-staging-session2

 


#测试一下,都能成功登录就行

ssh hadoop@master

ssh hadoop@slave1

ssh hadoop@slave2

 

 

4.编辑HDFS配置文件,所以节点都有保持一致

cd /hadoop/install/hadoop-0.20.2-cdh3u6/conf

#core-site.xml核心配置

<configuration>

<property>

      <name>fs.default.name</name>

      <value>hdfs://master:9000</value>

  </property>

</configuration>

 


#hdfs-site.xml:站点多项参数配置

<configuration>

<property>

      <name>dfs.replication</name>

      <value>2</value>

</property>

<property>

      <name>dfs.name.dir</name>

      <value>/hadoop/name</value>

</property>

<property>

      <name>dfs.data.dir</name>

      <value>/hadoop/data1,/hadoop/data2</value>

</property>

<property>

      <name>dfs.tmp.dir</name>

      <value>/hadoop/tmp</value>

</property>

</configuration>

 


#在hadoop-env.sh中配置JAVA_HOME变量

export JAVA_HOME=/usr/local/jdk1.7.0_21/

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    构建HDFS分布式文件系统

    ### 构建HDFS分布式文件系统 #### 在CentOS 6.6 X64上用Hadoop 2.7.0构建HDFS分布式文件系统。 本文档详细介绍了如何在CentOS 6.6 X64操作系统上搭建Hadoop 2.7.0版本的HDFS(Hadoop Distributed File System)...

    单元5--分布式文件系统HDFS.pptx

    Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错...

    HDFS分布式文件系统-任务3.pdf

    【HDFS分布式文件系统】是Apache Hadoop项目的核心组件,主要设计用于处理和存储大量数据。它是一个高度容错性的系统,适合部署在廉价的硬件上。本篇内容主要涉及HDFS的Shell操作,这对于Hadoop开发人员和系统管理员...

    大数据课程-Hadoop集群程序设计与开发-3.HDFS分布式文件系统_lk_edit.pptx

    Hadoop分布式文件系统(HDFS)是Google在2003年发表的GFS(Google File System)论文的开源实现,旨在处理和存储海量数据。HDFS是一个高容错性的分布式文件系统,它能够在由普通商用硬件构建的集群上运行。HDFS的...

    基于Spark Streaming将图片以流的方式写入HDFS分布式文件系统.zip

    标题中的“基于Spark Streaming将图片以流的方式写入HDFS分布式文件系统”是一个关于大数据处理和存储的项目,主要涉及的技术栈是Apache Spark的Streaming组件和Hadoop的HDFS(Hadoop Distributed File System)。...

    分布式文件系统hdfs.docx

    分布式文件系统HDFS(Hadoop Distributed File System)是Hadoop生态系统中的核心组件之一,以下是对HDFS的详细介绍: 一、定义与背景 HDFS是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件...

    分布式文件系统需求

    在实际部署和使用分布式文件系统时,我们需要考虑网络环境、硬件资源、数据分布策略、容错机制、性能优化等多个方面。例如,数据的分片策略应根据数据的访问模式来设计,常见的有按照大小、哈希或时间序列等方式。...

    Hadoop分布式文件系统:架构和设计要点

    总的来说,Hadoop分布式文件系统HDFS以其高容错、高吞吐量和面向大数据处理的特点,成为大数据分析和处理的首选工具。其设计考虑了硬件故障、大规模数据处理、数据复制和分布的复杂性,确保了系统在大规模部署时的...

    Hadoop分布式文件系统——翻译

    其主要组成部分包括HDFS(分布式文件系统)和MapReduce(分布式计算框架)。Hadoop通过将数据和计算任务分布在成千上万台主机上,并在这些主机上直接执行计算任务,实现了高效的并行处理。 - **Hadoop生态系统**: ...

    分布式文件系统在铁路信息系统中的应用.pdf

    此外,HDFS的部署和维护并不经济,会带来额外费用。因此,作者提出了一种专为铁路信息系统设计的分布式文件存储备份系统。 系统架构是基于客户端-服务器(CS)模型,包含客户端、配置服务器、元数据服务器集群和...

    hdfs.rar_hadoop_hadoop ubuntu_hdfs_分布式系统_基于hadoop

    描述中提到"基于Java的Hadoop分布式文件系统",意味着Hadoop是用Java语言实现的,这使得它可以在任何支持Java的平台上运行。HDFS的设计目标是提供高吞吐量的数据访问,尤其适合大规模数据集的批处理应用。它的设计...

    hdfs官方文档 Hadoop分布式文件系统:结构与设计.pdf

    总体而言,HDFS是为处理大数据和应对硬件故障而设计的分布式文件系统,其核心设计目标是提供高可用性和高吞吐量,适应大规模的批处理任务。通过流式数据访问和简单的一致性模型,HDFS成为了大数据分析领域的重要基础...

    分布式文件系统HDFS大数据存储简单介绍

    分布式文件系统HDFS(Hadoop Distributed File System)是Hadoop大数据存储解决方案的核心组件之一,它是一个高度容错性的系统,设计用于在廉价硬件上运行。HDFS提供高吞吐量的数据访问,非常适合大规模数据集的应用...

    Hadoop分布式文件系统使用.pdf

    Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,主要用于存储和管理大规模数据集。它提供了一种高容错性的文件存储方式,并且能够为大数据应用提供高吞吐量的数据访问能力。 #### HDFS的关键特性 1. **...

    02_Hadoop 分布式文件系统(HDFS).docx

    Hadoop分布式文件系统(HDFS)是Apache Hadoop项目的核心组件之一,它是一个高度容错、可扩展的分布式文件系统,旨在运行在廉价的硬件上,处理和存储海量数据。HDFS的设计灵感来源于Google的GFS(Google文件系统),...

Global site tag (gtag.js) - Google Analytics