HDFS文件系统
分布式存储环境
HDFS的安装和部署
1.准备工作
准备3台机器,设置好hosts
一台作为Namenode,cc-staging-session2命名为master,
两台作为dataNode,cc-staging-front命名为slave1, cc-staging-imcenter 命名为slave2
#3台机器都创建Hadoop用户
useradd hadoop
passwd hadoop
# 安装JDK,并设置JAVA_HOME和PATH
#下载安装jdk1.7
http://www.Oracle.com/technetwork/java/javase/downloads/index.html
tar zxvf jdk-7u21-linux-x64.gz -C /usr/local/
#/etc/profile增加环境变量
pathmunge /usr/local/jdk1.7.0_21/bin
export JAVA_HOME=/usr/local/jdk1.7.0_21/
export JRE_HOME=/usr/local/jdk1.7.0_21/jre
export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar
2.下载安装hadoop
#下载hadoop
下载地址https://ccp.cloudera.com/display/SUPPORT/CDH3+Downloadable+Tarballs
wget http://archive.cloudera.com/cdh/3/hadoop-0.20.2-cdh3u6.tar.gz
wget http://archive.cloudera.com/cdh/3/hbase-0.90.6-cdh3u6.tar.gz
wget http://archive.cloudera.com/cdh/3/hive-0.7.1-cdh3u6.tar.gz
#在3太机器上创建相同的目录路径, name目录只存放在master上,且权限为755,否则会导致后面的格式化失败
mkdir -p /hadoop/{install,name,data1, data2,tmp}
#解压安装包到/hadoop/install下
tar zxvf hadoop-0.20.2-cdh3u6.tar.gz -C /hadoop/install/
#修改属主为hadoop
chown -R hadoop.hadoop /hadoop
3.设置hadoop账户的ssh信任关系
#在master机器上操作
su – hadoop
ssh-keygen
ssh-copy-id -i .ssh/id_rsa.pub hadoop@cc-staging-front
ssh-copy-id -i .ssh/id_rsa.pub hadoop@cc-staging-imcenter
ssh-copy-id -i .ssh/id_rsa.pub hadoop@cc-staging-session2
#测试一下,都能成功登录就行
ssh hadoop@master
ssh hadoop@slave1
ssh hadoop@slave2
4.编辑HDFS配置文件,所以节点都有保持一致
cd /hadoop/install/hadoop-0.20.2-cdh3u6/conf
#core-site.xml核心配置
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
#hdfs-site.xml:站点多项参数配置
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/hadoop/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/hadoop/data1,/hadoop/data2</value>
</property>
<property>
<name>dfs.tmp.dir</name>
<value>/hadoop/tmp</value>
</property>
</configuration>
#在hadoop-env.sh中配置JAVA_HOME变量
export JAVA_HOME=/usr/local/jdk1.7.0_21/
相关推荐
### 构建HDFS分布式文件系统 #### 在CentOS 6.6 X64上用Hadoop 2.7.0构建HDFS分布式文件系统。 本文档详细介绍了如何在CentOS 6.6 X64操作系统上搭建Hadoop 2.7.0版本的HDFS(Hadoop Distributed File System)...
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错...
【HDFS分布式文件系统】是Apache Hadoop项目的核心组件,主要设计用于处理和存储大量数据。它是一个高度容错性的系统,适合部署在廉价的硬件上。本篇内容主要涉及HDFS的Shell操作,这对于Hadoop开发人员和系统管理员...
Hadoop分布式文件系统(HDFS)是Google在2003年发表的GFS(Google File System)论文的开源实现,旨在处理和存储海量数据。HDFS是一个高容错性的分布式文件系统,它能够在由普通商用硬件构建的集群上运行。HDFS的...
标题中的“基于Spark Streaming将图片以流的方式写入HDFS分布式文件系统”是一个关于大数据处理和存储的项目,主要涉及的技术栈是Apache Spark的Streaming组件和Hadoop的HDFS(Hadoop Distributed File System)。...
分布式文件系统HDFS(Hadoop Distributed File System)是Hadoop生态系统中的核心组件之一,以下是对HDFS的详细介绍: 一、定义与背景 HDFS是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件...
在实际部署和使用分布式文件系统时,我们需要考虑网络环境、硬件资源、数据分布策略、容错机制、性能优化等多个方面。例如,数据的分片策略应根据数据的访问模式来设计,常见的有按照大小、哈希或时间序列等方式。...
总的来说,Hadoop分布式文件系统HDFS以其高容错、高吞吐量和面向大数据处理的特点,成为大数据分析和处理的首选工具。其设计考虑了硬件故障、大规模数据处理、数据复制和分布的复杂性,确保了系统在大规模部署时的...
其主要组成部分包括HDFS(分布式文件系统)和MapReduce(分布式计算框架)。Hadoop通过将数据和计算任务分布在成千上万台主机上,并在这些主机上直接执行计算任务,实现了高效的并行处理。 - **Hadoop生态系统**: ...
此外,HDFS的部署和维护并不经济,会带来额外费用。因此,作者提出了一种专为铁路信息系统设计的分布式文件存储备份系统。 系统架构是基于客户端-服务器(CS)模型,包含客户端、配置服务器、元数据服务器集群和...
描述中提到"基于Java的Hadoop分布式文件系统",意味着Hadoop是用Java语言实现的,这使得它可以在任何支持Java的平台上运行。HDFS的设计目标是提供高吞吐量的数据访问,尤其适合大规模数据集的批处理应用。它的设计...
总体而言,HDFS是为处理大数据和应对硬件故障而设计的分布式文件系统,其核心设计目标是提供高可用性和高吞吐量,适应大规模的批处理任务。通过流式数据访问和简单的一致性模型,HDFS成为了大数据分析领域的重要基础...
分布式文件系统HDFS(Hadoop Distributed File System)是Hadoop大数据存储解决方案的核心组件之一,它是一个高度容错性的系统,设计用于在廉价硬件上运行。HDFS提供高吞吐量的数据访问,非常适合大规模数据集的应用...
Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,主要用于存储和管理大规模数据集。它提供了一种高容错性的文件存储方式,并且能够为大数据应用提供高吞吐量的数据访问能力。 #### HDFS的关键特性 1. **...
Hadoop分布式文件系统(HDFS)是Apache Hadoop项目的核心组件之一,它是一个高度容错、可扩展的分布式文件系统,旨在运行在廉价的硬件上,处理和存储海量数据。HDFS的设计灵感来源于Google的GFS(Google文件系统),...