- 浏览: 209167 次
- 性别:
- 来自: 广州
文章分类
最新评论
-
谁说我不是会员:
不错,学习了。
查看java对象的内存占用情况 -
郭小小小:
solr之functionQuery(函数查询) -
LinApex:
这篇文章你忘记写了
使用redis实现自动补全 -
13534608437:
进价排名,每次往elevate.xml里面添加一条新的数据,是 ...
solr中竞价排名实现 -
飞天奔月:
不错的文章, 丝丝入扣 有条理
使用Log4j的邮件功能
配置HDFS
配置HDFS应该是一件不难的事情。首先,我们先配好HDFS的配置文件,再对NameNode进行format操作。
配置Cluster
这里,我们假定,你已经下载了Hadoop的一个版本,并解压完毕。
Hadoop安装目录下的conf是hadoop存放配置文件的目录,里面有一些XML文件需要配置。conf/hadoop-defaults.xml 文件包含了hadoop的任何参数的默认值。这个文件应该是只读的。你可以通过在conf/hadoop-site.xml中设置新值的方式来覆盖默认的配置。集群上所有的机器的hadoop-site.xml文件应该是一致的。
配置文件本身是键值对的一个集合。
<property> <name>property-name</name> <value>property-value</value> </property>
property 中有 <final>true</final>
这样的一行的,则表示这个属性是不能被用户应用程序覆盖的。
下面的一些属性是必须要配置的,这样HDFS才能跑起来:
fs.default.name | protocol ://servername :port | hdfs://alpha.milkman.org:9000 |
dfs.data.dir | pathname | /home/username /hdfs/data |
dfs.name.dir | pathname | /home/username /hdfs/name |
这些属性的有着如下的意思:
fs.default.name - 这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。
dfs.data.dir - 这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要完全相同,因为每台机器的环境很可能是不一样的。但如果每台机器上的这个路径都是统一配置的话,会使工作变得简单一些。默认的情况下,它的值是/temp, 这个路径只能用于测试的目的,因为,它很可能会丢失掉一些数据。所以,这个值最好还是被覆盖。
dfs.name.dir - 这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效,DataNode并不需要使用到它。上面对于/temp类型的警告,同样也适用于这里。在实际应用中,它最好被覆盖掉。
这里再介绍一个配置参数,它叫dfs.replication 。它决定着 系统里面的文件块的数据备份个数。对于一个实际的应用,它 应该被设为3(这个数字并没有上限,但更多的备份可能并没有作用,而且会占用更多的空间)。少于三个的备份,可能会影响到数据的可靠性(系统故障时,也许会造成数据丢失)。
下面是一个模板文件。
<configuration> <property> <name>fs.default.name</name> <value>hdfs://your.server.name.com:9000</value> </property> <property> <name>dfs.data.dir</name> <value>/home/username/hdfs/data</value> </property> <property> <name>dfs.name.dir</name> <value>/home/username/hdfs/name</value> </property> </configuration>
your.server.name.com 需要被配置成正确的主机名,端口号的指定是随意的。
配置好conf/hadoop-site.xml文件以后,你可以将conf目录拷贝到其他的机器上了。
master结点有必要知道集群里其他机器的的地址,这样启动脚本才能正常运行。conf/slaves这个文件列举了所有的可用的主机名,一个主机名一行。在一个集群的环境中,这个文件不需要包含master的地址。但是单机的情况下,master也要有,因为除了master以外,没有其他的机器可以作为DataNode结点了。
然后,建立我们要使用的目录:
user@EachMachine$ mkdir -p $HOME/hdfs/data user@namenode$ mkdir -p $HOME/hdfs/name
执行Hadoop的用户需要这些目录的读写权限,使用chmod命令为该用户设置权限。在一个大的集群环境中,我建议你在每台机器上都创建一个hadoop的用户,用它来执行hadoop相关的程序。对于一个单机系统,使用自己的用户名就可以了。我不推荐使用root用户来执行hadoop。
启动HDFS
现在,我们先格式化一下我们刚刚配置的hadoop文件系统。
user@namenode:hadoop$ bin/hadoop namenode -format
这个操作应该值被执行一次,当这个执行完毕之后,我们就可以启动分布式系统了。
user@namenode:hadoop$ bin/start-dfs.sh
这个命令将会启动master机器上的Namenode程序。它也会启动slave机器上的DataNode程序。在一个单机版的集群中,slave跟master是同一台机器。在一个真实的集群环境中,这个命令就通过ssh登录到slave上,并启动DataNode程序。
Interacting With HDFS
这个部分,我们将会熟悉与HDFS交互、存储文件、获取文件所需要用到的一些命令。
大多数命名都是由 bin/hadoop 脚本执行的。它将会在java虚拟机上加载hadoop系统,并执行用户地方命令。这些命令通常有下列的格式。
user@machine:hadoop$ bin/hadoop moduleName -cmd args...
The moduleName 告诉脚本程序,要使用哪个hadoop模块。-cmd 在这被指定模块支持的,要执行的命令名称。紧跟在命令名称后面的是该命令的参数。
HDFS主要的模块有: dfs 和 dfsadmin。 它们的使用将会在下面介绍。
通用操作的例子
dfs 模块,我们也叫它“FsShell”,提供基本的文件处理功能。以下是它的一些用法介绍。
集群之所以有用,是因为,它存有我们感兴趣的数据。所以,我们要介绍的第一个操作是,往集群里面写数据。我们假定用户为“someone”,这个要根据你的实际情况而定。操作是可以在任何一台能够访问到集群的机器上进行的,其中,conf/hadoop-site.xml文件必须设为集群中NameNode的地址。命令可以在安装目录下被运行,安装目录可以是/home/someone/src/hadoop也可以是/home/foo/hadoop,具体随你自己的情况而定。下面介绍的命令,主要是关于将数据导入HDFS,验证数据是不是真的导入了,并将数据导出来。
列出文件
当我们试图使用HDFS的时候,会发现它并没有想象中的有趣:
someone@anynode:hadoop$ bin/hadoop dfs -ls someone@anynode:hadoop$
没有带参数的这个“-ls”命令,没有返回任何值,它默认返回你在HDFS“home”目录下的内容,这个目录跟我们平常系统上的home目录 “/home/$user”不太一样(HDFS跟本地系统是独立的)。在HDFS中,没有当前工作目录这样的一个概念,也没有cd这个命令。
给-ls一些参数,比如说/,或许可以看到以下的内容:
someone@anynode:hadoop$ bin/hadoop dfs -ls / Found 2 items drwxr-xr-x - hadoop supergroup 0 2008-09-20 19:40 /hadoop drwxr-xr-x - hadoop supergroup 0 2008-09-20 20:08 /tmp
这些结果是由系统产生的,结果中的"hadoop"是我们用来启动的Hadoop的用户,supergroup是包含hadoop的一个组。这些目录允许 Hadoop MapReduce system 将数据移动到不同的结点上。具体的细节在Module 4 中介绍.
我们要创建我们自己的home目录,然后导入一些文件。
导入数据
典型的UNIX或Linux将用户文件存储在/home/$user目录下,但是hadoop将用户文件存储在/home/$user下。对于某些命令,例如 ls,目录参数是被要求有的,但实际上却没有填写,这时候的目录参数的值为默认目录。(其他的命令一般要求明确的源路径和目的路径)。在HDFS中使用的相对路径,都是基于刚刚介绍的基本路径的(也即是用户目录)。
Step 1: 如果你的用户目录还不存在,那么创建一个吧
someone@anynode:hadoop$ bin/hadoop dfs -mkdir /user
如果没有/user目录,那么首先要先创建它。它其实会被自动创建的,但是为了介绍的目的,我们先手动的创建一下这个目录。
下面我们就可以创建我们的home目录了。
someone@anynode:hadoop$ bin/hadoop dfs -mkdir /user/someone
将 /user/someone 改成 /user/yourUserName .
Step 2: 导入一个文件。我们可以使用"put"命令。
someone@anynode:hadoop$ bin/hadoop dfs -put /home/someone/interestingFile.txt /user/yourUserName/
它将会把 /home/someone/interestingFile.txt从本地文件系统中拷贝到 HDFS的 /user/yourUserName /interestingFile.txt 。
Step 3: 验证刚才的操作。这里我们有两个命令可以使用,它们是等效的:
someone@anynode:hadoop$ bin/hadoop dfs -ls /user/yourUserName someone@anynode:hadoop$ bin/hadoop dfs -ls
你应该能够看见一个文件列表,它的前面是"Found 1 items"的字样,文件列表里面包含了你刚刚插入的文件。
The following table demonstrates example uses of the put command, and their effects:
下面这个列表将展示“put”命令的用法,以及它们的效果。
bin/hadoop dfs -put foo bar | 在 HDFS中没有/user/$User/bar这样的文件存在 | 将本地文件foo上传到hdfs系统,并命名为/user/$USER/bar |
bin/hadoop dfs -put foo bar | /user/$USER/bar 是一个目录 | 将本地文件foo上传到hdfs系统,并命名为 /user/$USER/bar/foo |
bin/hadoop dfs -put foo somedir/somefile | /user/$USER/somedir 不存在 | 将本地文件foo上传到hdfs系统,并命名为 /user/$USER/somedir/somefile , 创建没有存在的目录 |
bin/hadoop dfs -put foo bar | /user/$USER/bar 已经是系统中的一个文件 | 操作无效,系统将返回一个错误给用户。 |
当执行一个"put"操作时,它的结果是要么全做,要么全不做。上传文件的时候,文件首先被拷贝到DataNode节点上。当所有的DataNode都接收完数据的时候,文件句柄被关闭,这个文件才真正的上传完。根据"put"命令的返回值,我们可以知道这个操作是成功了,还是完全失败了。文件不可能会只被上传一半。如果文件上传到一半时,上传操作被中断了,那么hdfs就会当作什么事情也没有发生一样。
Step 4: 一次上传多个文件. "put"命令是可以一次上传多个命令的,它能够将一整个目录上传到HDFS中。
创建一个本地目录,然后往里面拷一些文件。情况像下面的那样。
someone@anynode:hadoop$ ls -R myfiles myfiles: file1.txt file2.txt subdir/ myfiles/subdir: anotherFile.txt someone@anynode:hadoop$
目录 myfiles/能够这样被拷贝进HDFS中:
someone@anynode:hadoop$ bin/hadoop -put myfiles /user/myUsername someone@anynode:hadoop$ bin/hadoop -ls Found 1 items /user/someone/myfiles <dir> 2008-06-12 20:59 rwxr-xr-x someone supergroup user@anynode:hadoop bin/hadoop -ls myfiles Found 3 items /user/someone/myfiles/file1.txt <r 1> 186731 2008-06-12 20:59 rw-r--r-- someone supergroup /user/someone/myfiles/file2.txt <r 1> 168 2008-06-12 20:59 rw-r--r-- someone supergroup /user/someone/myfiles/subdir <dir> 2008-06-12 20:59 rwxr-xr-x someone supergroup
上面的例子也证明了,这个目录是完全的被拷贝进来了。注意文件路径旁边的<r 1>,里面的数字1 表示备份的数量是1。同时ls命令也列出了文件大小,上传时间,权限,所有者这些信息。
-put 的另外一种写法是 -copyFromLocal . 它们的功能和用法是一样的。
从 HDFS中导出数据
从HDFS中导出数据是有许多的方法的,最简单的那种应该是使用"cat"将一个文件的内容输出到标准输出上。(当然,它也能够作为参数传到程序里面,或者是其他地方)
Step 1: cat 命令 .
在这个例子中,我们假定你已经传了一些文件进入你的HDFS中了。
someone@anynode:hadoop$ bin/hadoop dfs -cat foo (contents of foo are displayed here) someone@anynode:hadoop$
Step 2: 将HDFS中的文件拷贝到本地系统中。
"get"命令有跟"put"命令相反的功能,它能够将HDFS中文件或目录拷贝到本地系统中。“get”命令的别名叫做copyToLocal .
someone@anynode:hadoop$ bin/hadoop dfs -get foo localFoo someone@anynode:hadoop$ ls localFoo someone@anynode:hadoop$ cat localFoo (contents of foo are displayed here)
跟 "put"命令一样,"get"操作既可以操作文件,也可以操作目录。
HDFS的关闭
如果你想关闭集群上的HDFS系统,你可以在NameNode结点执行以下的命令:
someone@namenode:hadoop$ bin/stop-dfs.sh
这个命令必须由启动HDFS的用户来执行。
HDFS 命令参考
当然 bin/hadoop dfs 的命令远不只这几个,不过这些命令已经可以让你开始使用HDFS了。执行没有带参数的bin/hadoop dfs命令,会列出所有的FsShell system的命令。 bin/hadoop dfs -help commandName 会列出某一个具体的命令的用法指南。
所有的命令都作为一个表格列在下面了,这里是这个表格的一些注释:
- italics 表示这个变量是用户应该填的。
- "path" 一个文件名,或者目录名。
- "path..." 多个文件名,或者多个目录名。
- "file" 任何文件名.
- "src" and "dest" 路径名称。
- "localSrc" and "localDest" 跟上面的路径类似,只不过限定在了本地系统中。其他形式的路径都表示HDFS中的路径。
- 在"[]"里面的参数是可选的。
-ls path | Lists the contents of the directory specified by path , showing the names, permissions, owner, size and modification date for each entry. |
-lsr path | Behaves like -ls , but recursively displays entries in all subdirectories of path . |
-du path | Shows disk usage, in bytes, for all files which match path ; filenames are reported with the full HDFS protocol prefix. |
-dus path | Like -du , but prints a summary of disk usage of all files/directories in the path. |
-mv src dest | Moves the file or directory indicated by src to dest , within HDFS. |
-cp src dest | Copies the file or directory identified by src to dest , within HDFS. |
-rm path | Removes the file or empty directory identified by path . |
-rmr path | Removes the file or directory identified by path . Recursively deletes any child entries (i.e., files or subdirectories of path ). |
-put localSrc dest | Copies the file or directory from the local file system identified by localSrc to dest within the DFS. |
-copyFromLocal localSrc dest | Identical to -put |
-moveFromLocal localSrc dest | Copies the file or directory from the local file system identified by localSrc to dest within HDFS, then deletes the local copy on success. |
-get [-crc] src localDest | Copies the file or directory in HDFS identified by src to the local file system path identified by localDest . |
-getmerge src localDest [addnl] | Retrieves all files that match the path src in HDFS, and copies them to a single, merged file in the local file system identified by localDest . |
-cat filename | Displays the contents of filename on stdout. |
-copyToLocal [-crc] src localDest | Identical to -get |
-moveToLocal [-crc] src localDest | Works like -get , but deletes the HDFS copy on success. |
-mkdir path | Creates a directory named path in HDFS. Creates any parent directories in path that are missing (e.g., like mkdir -p in Linux). |
-setrep [-R] [-w] rep path | Sets the target replication factor for files identified by path to rep . (The actual replication factor will move toward the target over time) |
-touchz path | Creates a file at path containing the current time as a timestamp. Fails if a file already exists at path , unless the file is already size 0. |
-test -[ezd] path | Returns 1 if path e xists; has z ero length; or is a d irectory, or 0 otherwise. |
-stat [format] path | Prints information about path . format is a string which accepts file size in blocks (%b), filename (%n), block size (%o), replication (%r), and modification date (%y, %Y). |
-tail [-f] file | Shows the lats 1KB of file on stdout. |
-chmod [-R] mode,mode,... path... | Changes the file permissions associated with one or more objects identified by path... . Performs changes recursively with -R . mode is a 3-digit octal mode, or {augo}+/-{rwxX} . Assumes a if no scope is specified and does not apply a umask. |
-chown [-R] [owner ][:[group ]] path... | Sets the owning user and/or group for files or directories identified by path... . Sets owner recursively if -R is specified. |
-chgrp [-R] group path... | Sets the owning group for files or directories identified by path... . Sets group recursively if -R is specified. |
-help cmd | Returns usage information for one of the commands listed above. You must omit the leading '-' character in cmd |
DFSAdmin 命令参考
''dfs"模块提供了对文件和目录的操作命令,"dfsadmin"则提供了管理整个文件系统的操作。
全局状态信息: 通过 bin/hadoop dfsadmin -report命令,我们可以得到一份全局状态报告。这份报告包含了HDFS集群的基本信息,当然也有每台机器的一些情况。
详细的状态信息: 如果你想要知道关于文件的详细信息,你可以使用bin/hadoop dfsadmin -metasave filename 命令,filename是你要查看的文件的名称。NB:它的帮助说,这个命令可以得到NameNode 的主要的结构,这个说法是不恰当的。从这个命令所返回的信息无法得到NameNode的状态。不过,它却说明了,NameNode是怎么样存储HDFS的文件块的。
Safemode: 在Safemode(安全模式) 下,HDFS是只读的。任何的复制,创建,删除操作都是禁止的。在NameNode启动的时候,系统会自动进入这个模式,DataNode 会在这时候注册到NameNode中,并告诉NameNode它们拥有哪些文件块,NameNode由此知道哪些文件块的备份被丢失了。一直到一定百分比的的数量的DataNodes正常工作后,NameNode会退出安全模式。这个百分比在dfs.safemode.threshold.pct 中配置。当达到一定的百分比的时候,安全模式会自动退出,HDFS就允许正常操作了。用户可以通过dfsadmin -safemode what 来操作安全模式,参数what的说明如下:
- enter - 进入安全模式
- leave - 强制NameNode离开安全模式
- get - 返回安全模式是否开启的信息
- wait - 等待,一直到安全模式结束。
改变 HDFS 成员组成 - 删除结点的时候,我们要按步骤的和结点断开链接以保证数据不会丢失。关于decommissioning 命令的一些详细的信息,我们会在后面讨论。
升级 HDFS - 但HDFS从一个版本升级到另外一个版本的时候,NameNode和DataNode使用的文件格式有可能会改变。当你第一次使用新版本的时候,你要使用bin/start-dfs.sh -upgrade告诉Hadoop 去改变HDFS版本(否则,新版本不会生效)。然后它开始升级,你可以通过 bin/hadoop dfsadmin -upgradeProgress 命令来查看版本升级的情况。当然你可以使用bin/hadoop dfsadmin -upgradeProgress details来查看更多的详细信息。当升级过程被阻塞的时候,你可以使用bin/hadoop dfsadmin -upgradeProgress force 来强制升级继续执行(当你使用这个命令的时候,一定要慎重考虑)。
当HDFS升级完毕后,Hadoop依旧保留着旧版本的有关信息,以便你可以方便的对HDFS进行降级操作。你可以使用bin/start-dfs.sh -rollback来执行降级操作。
Hadoop一次只保存一个版本的备份。当新版本运行几天以后还是没有出现什么问题,你就可以使用bin/hadoop dfsadmin -finalizeUpgrade命令把旧版本的备份从系统中删掉了。删除以后rollback 命令就失效了。在另外一次版本升级前,这个操作是一定要做的。
获取帮助 - 跟 dfs 模块是一样的, 你可以使用 bin/hadoop dfsadmin -help命令来获取特定的命令的一些用法。
发表评论
-
MapR 让 Hadoop 跑得更快
2011-07-08 11:16 2244MapR 创造性的使用了更多的大数据分析方法, ... -
搞定 hadoop Permission denied
2010-03-25 12:12 3501hadoop Permission denied ,很显然是 ... -
_temporary doesn't exist
2010-01-05 18:02 0_temporary doesn't exist -
反反复复方法
2009-12-31 15:05 0org.apache.hadoop.fs.permissi ... -
hadoop分布式系统(上)
2008-11-28 10:55 1369简介 HDFS, the ...
相关推荐
基于Hadoop分布式系统的地质环境大数据框架探讨,涉及了地质环境大数据的特性分析,以及提出了一种基于Hadoop生态系统架构的框架。这个框架支持数据清洗转换、分布式数据存储管理、数据挖掘、文本搜索和数据可视化等...
### Hadoop分布式文件系统(HDFS):关键技术与实践 #### 摘要 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,旨在为大规模数据集提供高效可靠的存储解决方案。HDFS的设计原则强调了数据的分布式存储与...
基于SpringMVC+Spring+HBase+Maven搭建的Hadoop分布式云盘系统。使用Hadoop HDFS作为文件存储系统、HBase作为数据存储仓库,采用SpringMVC+Spring框架实现,包括用户注册与登录、我的网盘、关注用户、我的分享、我...
Hadoop分布式文件系统的数据存储是基于分布式文件系统的架构,采用块存储的方式将数据分割成小块,分布式存储在多个Datanode中。HDFS数据存储的特点包括: * 分布式存储:HDFS数据存储采用分布式存储的方式,将数据...
《高可用性的HDFS——Hadoop分布式文件系统深度实践》专注于Hadoop分布式文件系统(hdfs)的主流ha解决方案,内容包括:hdfs元数据解析、hadoop元数据备份方案、hadoop backup node方案、avatarnode解决方案以及最新...
【实验名称】基于华为云的Hadoop分布式系统搭建1 【实验目的】 1. 学习和理解华为云平台的基本操作和资源管理,包括如何在华为云控制台上创建和管理弹性云服务器。 2. 掌握分布式文件系统HDFS(Hadoop Distributed...
第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件...
综上所述,Hadoop作为分布式系统中的重要组成部分,已经在大数据分析领域发挥着关键作用。它的分布式存储机制和处理模型,使得交通大数据的存储和分析变得更加高效和灵活,为智能交通管理提供了可靠的数据支持和技术...
《HDFS——Hadoop分布式文件系统深度实践》这本书是针对Hadoop分布式文件系统(HDFS)的详尽指南,旨在帮助读者深入理解HDFS的工作原理、设计思想以及在实际应用中的最佳实践。HDFS是Apache Hadoop项目的核心组件之...
Hadoop分布式缓存是Hadoop生态系统中的一个重要组成部分,它允许应用程序在执行MapReduce任务时共享和重用数据,从而提高整体性能。这份源码提供了深入理解Hadoop如何管理和利用分布式缓存的机会,对于想要优化...
Hadoop生态系统中的其它工具还有ZooKeeper,用于配置管理、命名服务、提供分布式同步和提供组服务;Avro,是一个数据序列化系统,提供数据快速读写的能力;以及Oozie,一个工作流调度系统,用于管理Hadoop作业。 ...
为了搭建Hadoop分布式系统,需要先进行 CentOS7 的安装和基础环境配置。本期知识概览将指导您完成 CentOS7 的安装和基础环境配置,逐步构建伪式分布式系统。 一、虚拟机准备 在开始安装 CentOS7 之前,需要准备...
Hadoop分布式大数据系统.pptx
2. 分布式锁机制:分布式锁机制是为了解决分布式系统中的一致性问题,保证数据的一致性和可靠性。 3. 大规模分布式数据库:大规模分布式数据库是为了解决大规模数据存储和检索问题,能够提供高性能、可扩展性强的...
在毕业设计论文中,Hadoop分布式系统是一个典型的计算机案例,因为它涉及到分布式系统的设计原则、数据处理算法以及大规模数据的管理。研究者可以深入探究Hadoop的架构、优化策略,甚至对其进行扩展和定制,以满足...
【标题】:“基于Hadoop的分布式搜索代码” ...通过学习和理解这个项目,开发者可以深入掌握Hadoop在搜索系统中的应用,进一步提升处理大数据的能力,同时也能对分布式系统的设计和优化有更深刻的认识。
hadoop分布式文件系统架构
Hadoop分布式集群搭建的...总结来说,Hadoop分布式集群的搭建是一个涉及到硬件环境、软件安装、网络配置、系统参数调优等多方面知识的综合过程。搭建完成后,应该进行充分的测试以确保集群的稳定性和性能表现符合预期。