`
qianshangding
  • 浏览: 129186 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Hadoop之HDFS命令

 
阅读更多

概述

所有的HDFS命令都调用bin/hdfs脚本文件,如果运行hdfs脚本没有带任何参数的话,则打印所有命令的描述。

使用: hdfs [SHELL_OPTIONS] COMMAND [GENERIC_OPTIONS] [COMMAND_OPTIONS]

Hadoop是一个参数解析框架,采用解析泛型选项以及运行类。

命令参数 描述
--config
--loglevel
指定一个默认的配置文件目录,默认值是:${HADOOP_PREFIX}/conf.
重载Log级别。有效的日志级别包含:FATAL, ERROR, WARN, INFO, DEBUG, and TRACE。默认是INFO。
GENERIC_OPTIONS YARN支持表A的通用命令项。
COMMAND COMMAND_OPTIONS YARN分为用户命令和管理员命令。

表A:

通用项 Description
-archives <comma separated list of archives> 用逗号分隔计算中未归档的文件。 仅仅针对JOB。
-conf <configuration file> 制定应用程序的配置文件。
-D <property>=<value> 使用给定的属性值。
-files <comma separated list of files> 用逗号分隔的文件,拷贝到Map reduce机器,仅仅针对JOB
-jt <local> or <resourcemanager:port> 指定一个ResourceManager. 仅仅针对JOB。
-libjars <comma seperated list of jars> 将用逗号分隔的jar路径包含到classpath中去,仅仅针对JOB。

用户命令:

对于Hadoop集群用户很有用的命令:

dfs

使用: hdfs dfs [COMMAND [COMMAND_OPTIONS]]

在hadoop中运行支持文件系统的命令。各种[COMMAND_OPTIONS]命令可以查看Hadoop之文件系统Shell

fetchdt

使用: hdfs fetchdt [--webservice <namenode_http_addr>] <path>

命令参数 描述
--webservicehttps_address 使用HTTP端口代替RPC
fileName 存储token的文件名。
从NameNode获取DelegationToken授权标识

hdfs脚本支持fetchdt命令来获取DelegationToken(授权标识,并存储在本地文件系统的一个文件中。这样“非安全”的客户端可以使用该标识去访问受限的服务器(例如NameNode)。可以采用RPC或HTTPS(over Kerberos)方式获取该标示,在获取之前需要提交Kerberos凭证(运行kinit来获得凭证)。当你获得授权标识后,通过指定环境变量HADOOP_TOKEN_FILE_LOCATION为授权标识文件名,你就可以运行HDFS命令,而不需要Kerberros凭证了。

fsck

使用:

   hdfs fsck <path>
          [-list-corruptfileblocks |
          [-move | -delete | -openforwrite]
          [-files [-blocks [-locations | -racks]]]
          [-includeSnapshots]

命令选项 描述
path 指定诊断的路径(既可以是文件也可以是目录)
-delete 删除损坏的文件。
-files 打印被诊断的文件。
-files-blocks 打印被诊断的文件的块信息。
-files-blocks-locations 打印每个块的位置信息。
-files-blocks-racks 打印数据块的网络拓扑结构
-includeSnapshots 如果给定的路径包含快照的路径或者快照在该路径下,则包含快照的数据。
-list-corruptfileblocks 打印丢失的块列表以及块所属的文件。
-move 移动损坏的文件到/lost+found目录。
-openforwrite 打印正在被写入的文件。
诊断文件系统健康状态的工具,能够帮助发现丢失的文件或数据块。

示例:

[hadoop@hadoopcluster78 bin]$ hdfs fsck /test/fish -files -blocks
Connecting to namenode via http://hadoopcluster78:50070
FSCK started by hadoop (auth:SIMPLE) from /10.0.1.78 for path /test/fish at Fri Aug 14 12:01:50 CST 2015
/test/fish <dir>
/test/fish/box_log_20150721.txt 2018468864 bytes, 16 block(s): OK
0. BP-701099497-10.0.1.78-1430101367576:blk_1073749326_8927 len=134217728 repl=3
1. BP-701099497-10.0.1.78-1430101367576:blk_1073749327_8928 len=134217728 repl=3
2. BP-701099497-10.0.1.78-1430101367576:blk_1073749328_8929 len=134217728 repl=3
3. BP-701099497-10.0.1.78-1430101367576:blk_1073749329_8930 len=134217728 repl=3
4. BP-701099497-10.0.1.78-1430101367576:blk_1073749330_8931 len=134217728 repl=3
5. BP-701099497-10.0.1.78-1430101367576:blk_1073749331_8932 len=134217728 repl=3
6. BP-701099497-10.0.1.78-1430101367576:blk_1073749332_8933 len=134217728 repl=3
7. BP-701099497-10.0.1.78-1430101367576:blk_1073749333_8934 len=134217728 repl=3
8. BP-701099497-10.0.1.78-1430101367576:blk_1073749334_8935 len=134217728 repl=3
9. BP-701099497-10.0.1.78-1430101367576:blk_1073749335_8936 len=134217728 repl=3
10. BP-701099497-10.0.1.78-1430101367576:blk_1073749336_8937 len=134217728 repl=3
11. BP-701099497-10.0.1.78-1430101367576:blk_1073749337_8938 len=134217728 repl=3
12. BP-701099497-10.0.1.78-1430101367576:blk_1073749338_8939 len=134217728 repl=3
13. BP-701099497-10.0.1.78-1430101367576:blk_1073749339_8940 len=134217728 repl=3
14. BP-701099497-10.0.1.78-1430101367576:blk_1073749340_8941 len=134217728 repl=3
15. BP-701099497-10.0.1.78-1430101367576:blk_1073749341_8942 len=5202944 repl=3

Status: HEALTHY
Total size: 2018468864 B
Total dirs: 1
Total files: 1
Total symlinks:  0
Total blocks (validated): 16 (avg. block size 126154304 B)
Minimally replicated blocks: 16 (100.0 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 0 (0.0 %)
Mis-replicated blocks:  0 (0.0 %)
Default replication factor: 3
Average block replication: 3.0
Corrupt blocks:  0
Missing replicas:  0 (0.0 %)
Number of data-nodes:  4
Number of racks:  1
FSCK ended at Fri Aug 14 12:01:50 CST 2015 in 1 milliseconds


The filesystem under path '/test/fish' is HEALTHY

getconf

使用:

   hdfs getconf -namenodes
   hdfs getconf -secondaryNameNodes
   hdfs getconf -backupNodes
   hdfs getconf -includeFile
   hdfs getconf -excludeFile
   hdfs getconf -nnRpcAddresses
   hdfs getconf -confKey [key]


命令选项 描述
-namenodes 在集群中获取NameNode列表。
-secondaryNameNodes 在集群中获取secondaryNameNode列表
-backupNodes 在集群中获取backup node节点列表。
-includeFile 获取dfs.hosts配置的值,该值定义了哪些DataNode加入到集群。
-excludeFile 获取dfs.hosts.exclude配置的值,该值定义了哪些DataNode排除在集群之外。
-nnRpcAddresses 获取Namenode的RPC地址
-confKey[key] 获取配置文件中的值。
从配置文件目录获取配置信息。

示例:

[hadoop@hadoopcluster78 bin]$ hdfs getconf -namenodes
hadoopcluster78 hadoopcluster79

[hadoop@hadoopcluster78 bin]$ hdfs getconf -nnRpcAddresses
hadoopcluster78:8020
hadoopcluster79:8020

[hadoop@hadoopcluster78 bin]$ hdfs getconf -confKey dfs.webhdfs.enabled
true

groups

使用: hdfs groups [username ...]

返回给定的一个或多个用户组信息。

[hadoop@hadoopcluster78 bin]$ hdfs groups hadoop
hadoop : clustergroup  //hadoop属于clustergroup组

lsSnapshottableDir

使用: hdfs lsSnapshottableDir [-help]

命令选项 描述
-help 打印帮助
获取快照目录的列表。当这是运行在超级用户,它返回所有的snapshottable目录。否则它返回当前用户所拥有的目录。

jmxget

使用: hdfs jmxget [-localVM ConnectorURL | -port port | -server mbeanserver | -service service]

命令选项 描述
-help 打印帮助信息
-localVMConnectorURL 连接到同一台机器上的虚拟机
-portmbean server port 指定的Mbean服务端口,如果找不到,则尝试连接本地的虚拟机。
-service 指定JMX服务,DataNode 或者 NameNode。
从服务中Dump JMX信息。

示例:

[hadoop@hadoopcluster78 bin]$ hdfs jmxget -service NameNode
init: server=localhost;port=;service=NameNode;localVMUrl=null

Domains:
	Domain = JMImplementation
	Domain = com.sun.management
	Domain = java.lang
	Domain = java.nio
	Domain = java.util.logging

MBeanServer default domain = DefaultDomain

MBean count = 22

Query MBeanServer MBeans:
List of all the available keys:
15/08/18 16:26:37 INFO util.ExitUtil: Exiting with status 0

oev

使用: hdfs oev [OPTIONS] -i INPUT_FILE -o OUTPUT_FILE

必选的命令行参数:

命令参数 描述
-i,--inputFilearg 需要处理的edits file。以xml扩展的就是xml格式的,其他的都是二进制格式的。
-o,--outputFilearg 输出文件的名字,如果指定的输出文件存在,则会被覆盖,文件的格式由-p选项定义。
可选的命令行参数:
命令参数 描述
-f,--fix-txids s
-h,--help 打印使用的帮助信息。
-r,--ecover 当读取二进制编辑日志时,使用recovery模式。这将给你机会跳过编辑日志的损坏部分。
-p,--processorarg
选择应用于image file处理器的类型,当前支持的处理有:binary (hadoop使用的二进制类型), xml (默认XML格式), stats (打印关于edits file的统计数据)
-v,--verbose 打印更相信的输出,包含输入和输出的文件名,处理器写入到文件,并打印在屏幕上。如果是大的image file文件,会大大的加大处理时间。(默认是false)
Hadoop edit文件离线查看器。

oiv

使用: hdfs oiv [OPTIONS] -i INPUT_FILE
hdfs oiv_legacy [OPTIONS] -i INPUT_FILE -o OUTPUT_FILE 该命令属于老版本,无法使用

必选的命令行参数:

命令参数 描述

-i,--inputFilearg

处理edits file,xml (区分大小写) ,二进制格式。

可选的命令行参数:

命令参数 描述

-h,--help

打印使用信息和退出。

-o,--outputFilearg

文件的输出名,如果指向的文件存在,将覆盖它,文件的格式由-p参数决定。

-p,--processorarg

选择应用于image file处理器的类型,当前支持的处理有:binary (hadoop使用的二进制类型), xml (默认XML格式),

stats (打印关于edits file的统计数据)

Hadoop新的离线Image文件查看器。

snapshotDiff

使用: hdfs snapshotDiff <path> <fromSnapshot> <toSnapshot>

确认两个HDFS快照版本的差异。

管理员命令

下列这些命令对hadoop集群的管理员是非常有用的。

balancer

使用:

    hdfs balancer
          [-threshold <threshold>]
          [-policy <policy>]
          [-exclude [-f <hosts-file> | <comma-separated list of hosts>]]
          [-include [-f <hosts-file> | <comma-separated list of hosts>]]
          [-idleiterations <idleiterations>]

命令选项 描述
-policy<policy> datanode(default) :如果集群每个DataNode节点是平衡的,运行该命令将各个DataNode均衡。
blockpool: 在每个DataNode的每个Block Pool是均衡的,集群也会均衡。
-threshold<threshold> 硬盘容量的百分比,默认的阀值会被覆盖。
-exclude -f<hosts-file> | <comma-separated list of hosts> balancer不包括指定的数据节点,用逗号分隔
-include -f<hosts-file> | <comma-separated list of hosts> balancer指定的数据节点,用逗号分隔
-idleiterations<iterations> 退出前的最大空闲迭代次数,默认值是5。

balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题 。管理员可以按Ctrl-C停止Balancer进程。

请注意,blockpool策略比datanode策略更严格。

cacheadmin

使用: hdfs cacheadmin -addDirective -path <path> -pool <pool-name> [-force] [-replication <replication>] [-ttl <time-to-live>]

datanode

使用: hdfs datanode [-regular | -rollback | -rollingupgrace rollback]

命令选项 描述
-regular 正常的DataNode启动(默认)
-rollback 回滚datanode到上一个版本。.
-rollingupgraderollback 回滚更新操作。

dfsadmin

使用:
    hdfs dfsadmin [GENERIC_OPTIONS]
          [-report [-live] [-dead] [-decommissioning]]
          [-safemode enter | leave | get | wait]
          [-saveNamespace]
          [-rollEdits]
          [-restoreFailedStorage true |false |check]
          [-refreshNodes]
          [-setQuota <quota> <dirname>...<dirname>]
          [-clrQuota <dirname>...<dirname>]
          [-setSpaceQuota <quota> <dirname>...<dirname>]
          [-clrSpaceQuota <dirname>...<dirname>]
          [-setStoragePolicy <path> <policyName>]
          [-getStoragePolicy <path>]
          [-finalizeUpgrade]
          [-rollingUpgrade [<query> |<prepare> |<finalize>]]
          [-metasave filename]
          [-refreshServiceAcl]
          [-refreshUserToGroupsMappings]
          [-refreshSuperUserGroupsConfiguration]
          [-refreshCallQueue]
          [-refresh <host:ipc_port> <key> [arg1..argn]]
          [-reconfig <datanode |...> <host:ipc_port> <start |status>]
          [-printTopology]
          [-refreshNamenodes datanodehost:port]
          [-deleteBlockPool datanode-host:port blockpoolId [force]]
          [-setBalancerBandwidth <bandwidth in bytes per second>]
          [-allowSnapshot <snapshotDir>]
          [-disallowSnapshot <snapshotDir>]
          [-fetchImage <local directory>]
          [-shutdownDatanode <datanode_host:ipc_port> [upgrade]]
          [-getDatanodeInfo <datanode_host:ipc_port>]
          [-triggerBlockReport [-incremental] <datanode_host:ipc_port>]
          [-help [cmd]]

COMMAND_OPTION Description
-report[-live][-dead][-decommissioning] 报告文件系统的信息和统计,其他的选项可以用来过滤节点。
-safemodeenter|leave|get|wait 安全模式维护命令。NameNode安全模式:
1. 不接受更改命名空间(只读)
2. 不复制和删除块。
安全模式在NameNode启动的时候自动进入,也会自动退出,详情请看:Hadoop之机房down机后...

安全模式可以手动进入,但是也只能手动退出。
-saveNamespace
将当前命名空间保存到存储目录和重置编辑日志。需要安全模式。
-rollEdits 在活动的NameNode中,Roll EditLog文件。
-restoreFailedStoragetrue|false|check 这个选项打开或关闭自动尝试存储失败的副本。
-refreshNodes 重新读取在Namenode中,哪些DataNode是包含或者是排除在外的。哪些是应该退役的或者是重新启动。
-setQuota<quota> <dirname>…<dirname>
-clrQuota<dirname>…<dirname>
-setSpaceQuota<quota> <dirname>…<dirname>
-clrSpaceQuota<dirname>…<dirname>
-setStoragePolicy<path> <policyName> 对一个文件或者目录设置存储策略。
-getStoragePolicy<path> 从一个文件或者目录中获取存储策略。
-finalizeUpgrade 完成升级的HDFS。Datanode将删除前一个版本的工作目录。接下来NameNode也一样。这个升级就完成了。
-rollingUpgrade[<query>|<prepare>|<finalize>]
-metasavefilename 保存NameNode主数据结构到filename中,目录是由hadoop.log.dir property配置参数指定的,filename如果存在会被覆盖包含下列信息:
1。DataNode和NameNode的心跳。
2。等待复制的块
3。目前正在复制的块
4。等待被删除的块
-refreshServiceAcl 新装入服务级别的授权策略文件。
-refreshUserToGroupsMappings 刷新用户和组的对应关系。
-refreshSuperUserGroupsConfiguration 刷新超级用户代理组的对应关系。
-refreshCallQueue 从配置中加载Call Queue。
-refresh<host:ipc_port> <key> [arg1..argn] 触发在指定的<host:ipc_port>上指定的<key>上做运行时刷新。
-reconfig<datanode |…> <host:ipc_port> <start|status> 开始重新加载配置或者获取重新加载配置的状态。第二个参数是指定节点的类型。
-printTopology 打印哪些有在Namenode报告的节点的网络拓扑结构。
-refreshNamenodesdatanodehost:port 对于给定的节点,重新加载配置文件,停止服务删除块池和启动服务新块池。
-deleteBlockPooldatanode-host:port blockpoolId [force]
-setBalancerBandwidth<bandwidth in bytes per second> 在块平衡期间,使用这个命令可以改变每个DataNode的网路带宽。<bandwidth>定义了DataNode的每秒的流量。
-allowSnapshot<snapshotDir> 允许在一个目录创建快照,如果操作成功完成,这个目录将变成快照目录。
-disallowSnapshot<snapshotDir> 取消被创建的快照目录,所有的快照目录都会被删除。
-fetchImage<local directory> 下载最新的fsimage,保存在本地的目录中。
-shutdownDatanode<datanode_host:ipc_port> [upgrade] 对给定的DataNode提交一个关闭请求。
-getDatanodeInfo<datanode_host:ipc_port> 获得给定的DataNode的信息
-triggerBlockReport[-incremental]<datanode_host:ipc_port> 触发一个给定的DataNode块报告,如果带了-incremental参数,则将是一个完整的块报表。
-help[cmd] 如果没有带参数,则打印所有命令参数的说明。

示例:

[hadoop@hadoopcluster78 bin]$ hdfs dfsadmin -printTopology
Rack: /default-rack
   10.0.1.80:50010 (hadoopcluster80)
   10.0.1.82:50010 (hadoopcluster82)
   10.0.1.83:50010 (hadoopcluster83)
   10.0.1.84:50010 (hadoopcluster84)

journalnode

使用: hdfs journalnode

做NameNode高可用,使用该命令启动journalnode。

namenode

使用:

  hdfs namenode [-backup] |
          [-checkpoint] |
          [-format [-clusterid cid ] [-force] [-nonInteractive] ] |
          [-upgrade [-clusterid cid] [-renameReserved<k-v pairs>] ] |
          [-upgradeOnly [-clusterid cid] [-renameReserved<k-v pairs>] ] |
          [-rollback] |
          [-rollingUpgrade <downgrade |rollback> ] |
          [-finalize] |
          [-importCheckpoint] |
          [-initializeSharedEdits] |
          [-bootstrapStandby] |
          [-recover [-force] ] |
          [-metadataVersion ]

命令选项 描述
-backup 启动BackNode
-checkpoint 启动checkpoint node.
-format[-clusterid cid][-force][-nonInteractive] 格式化指定的NameNode。它是先启动NameNode,格式化,然后关闭Namenode。-force 选项即使name目录存在也会强行格式化。 -nonInteractive选项表示如果name目录存在,则终止操作。
-upgrade[-clusterid cid][-renameReserved<k-v pairs>] .
-upgradeOnly[-clusterid cid][-renameReserved<k-v pairs>] 升级指定的NameNode,然后关闭它。
-rollback 回滚NameNode到前一个版本。但是必须在集群停止后,并且部署了老的hadoop版本。
-rollingUpgrade<downgrade|rollback|started> 回滚升级。
-finalize 删除文件系统的前一个状态,当前升级的版本将变成永久的。使用了这个命令,Rollback没有任何作用。finalize之后NameNode将被关闭。
-importCheckpoint 从checkpoint 目录加载Image。Checkpoint目录从fs.checkpoint.dir 配置中读取。
-initializeSharedEdits namenode通过initializeSharedEdits命令来初始化journalnode,把edits文件共享到journalnode上,以至于standby NameNode能够启动。
-bootstrapStandby 在配置了高可用集群的情况下,允许standby NameNode在引导的时候从active NameNode拷贝最新的命名空间快照。
-recover[-force] 恢复损坏的文件系统上的元数据
-metadataVersion 验证配置目录是否存在,并且打印metadata的软件版本和image。
运行NameNode。

实例:

[hadoop@hadoopcluster78 bin]$ hdfs namenode -metadataVersion
15/08/18 19:16:46 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = hadoopcluster78/10.0.1.78
STARTUP_MSG:   args = [-metadataVersion]
STARTUP_MSG:   version = 2.4.1
STARTUP_MSG:   classpath = /home/hadoop/apache/hadoop-2.4.1。。。省略

nfs3

Usage: hdfs nfs3

和网络文件系统有关的命令。

portmap

使用: hdfs portmap

和网络文件系统有关的命令。

secondarynamenode

使用: hdfs secondarynamenode [-checkpoint [force]] | [-format] | [-geteditsize]

命令选项 描述
-checkpoint[force] 如果EditLog size >= fs.checkpoint.size,在SecondaryNameNode中Checkpoint。如果带了-force参数就不用管EditLog size大小了。
-format 在启动时格式化本地存储
-geteditsize 在NameNode打印没有checkpoint事务的数量。
运行HDFS的secondary namenode。

zkfc

使用: hdfs zkfc [-formatZK [-force] [-nonInteractive]]

命令选项
描述
-formatZK 格式化Zookeeper实例。
-h 打印帮助
该命令在启动Zookeeper高可用的时候使用。

分享到:
评论

相关推荐

    Hadoop-HDFS常用命令

    Hadoop-HDFS常用命令

    hadoop 2.7.1 hdfs-over-ftp

    在本文档中,我们首先了解了如何通过Hadoop 2.7.1实现HDFS与FTP的结合使用,称为hdfs-over-ftp。为了实现这一功能,我们需要经过几个步骤来配置和启动一个支持Hadoop文件系统的FTP服务器。 首先,文档提到了安装和...

    Hadoop_HDFS安装和管理

    ### Hadoop HDFS安装与管理知识点详解 #### 一、Hadoop HDFS概述 Hadoop是一种分布式计算框架,主要用于处理大规模数据集。它由多个组件组成,其中最核心的是Hadoop Distributed File System (HDFS) 和 MapReduce。...

    Hadoop_HDFS开发参考

    - **HDFS**:作为Hadoop的核心组件之一,HDFS是一种高容错性的分布式文件系统,设计用于部署在商用硬件上。它具有高吞吐量的特点,适合于存储大量数据。 - **MapReduce**:这是一种分布式计算模型,用于处理海量数据...

    hadoop的hdfs笔记

    #### 二、HDFS命令详解 HDFS提供了一系列的命令用于管理文件系统。这些命令类似于Unix/Linux系统中的命令,对于熟悉Linux命令行的用户来说非常友好。 ##### 1. 使用`usage`或`help`查看帮助 - **命令格式**: ``` ...

    Hadoop HDFS_Shell命令详解.pdf

    ### Hadoop HDFS Shell 命令详解 #### 概述 Hadoop HDFS Shell 是一组用于与Hadoop分布式文件系统 (HDFS) 进行交互的命令行工具。通过这些命令,用户能够执行诸如创建、删除、移动文件以及设置文件权限等操作。本文...

    大数据技术之Hadoop(HDFS).docx

    大数据技术之Hadoop(HDFS) Hadoop是Apache开源组织中的一個大数据处理项目,HDFS(Hadoop Distributed File System)是Hadoop项目中的分布式文件系统组件。HDFS是基于Google的GFS(Google File System)设计的,...

    Hadoop-hdfs下载

    ### Hadoop-HDFS环境下文件上传与下载操作指南 #### 一、Windows环境下配置Hadoop环境 **1.1 下载Hadoop** 为了在Windows环境下配置Hadoop环境,首先需要下载Hadoop软件包。推荐下载Hadoop 2.7.7版本,可以从清华...

    大数据技术之Hadoop(HDFS文件系统).doc

    - `bin/hadoop fs`是基本命令,后面可以跟具体的HDFS操作命令。 - `-appendToFile`用于追加本地文件到HDFS文件末尾。 - `-cat`用于查看HDFS文件内容。 - `-count`统计HDFS路径下文件和目录的数量。 - `-cp`复制...

    7-0大数据技术之Hadoop(HDFS)

    《大数据技术之Hadoop(HDFS)》 Hadoop分布式文件系统(HDFS)是处理海量数据的核心组件之一,其设计初衷是为了解决单机操作系统无法应对大规模数据存储的问题。HDFS是一种分布式文件系统,它将文件分布在多台...

    外网无法访问HDFS org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block

    报错 org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block 2、百度结果 参考 https://blog.csdn.net/xiaozhaoshigedasb/article/details/88999595  防火墙记得关掉; 查看DataNode是否启动;...

    02-Hadoop-HDFS.docx

    ### Hadoop-HDFS知识点解析 #### 一、HDFS概述 **1.1 HDFS产出背景及定义...HDFS作为Hadoop的核心组件之一,在大数据处理领域具有极其重要的地位。掌握HDFS的相关知识对于从事大数据领域的技术人员来说是非常必要的。

    Hadoop-hdfs的安装

    Hadoop的核心组件之一是Hadoop分布式文件系统(HDFS),它为海量数据提供存储支持。本文将详细介绍如何在多台服务器上搭建Hadoop集群,并配置HDFS。 #### 二、准备工作 在开始Hadoop-HDFS的安装之前,我们需要做一些...

    启动Hadoop的HDFS提交一个Spark作业到YARN上运行

    启动Hadoop的HDFS提交一个Spark作业到...停止服务:在示例脚本的末尾,我注释掉了停止YARN和HDFS的命令。在大多数生产环境中,你不会在提交作业的脚本中停止这些服务。相反,它们会在集群的维护窗口期间被管理员停止。

    Hadoop-HDFS.docx

    【Hadoop-HDFS概述】 Hadoop-HDFS,全称为Hadoop Distributed File System,是一种分布式文件系统,旨在解决大规模数据...这些命令是HDFS开发和运维人员日常工作中常用的基本操作,掌握它们对于有效管理HDFS至关重要。

    Hadoop HDFS分布式文件系统 常用命令汇总

    Hadoop HDFS分布式文件系统常用命令汇总 Hadoop HDFS分布式文件系统是大数据存储和处理的核心组件。作为一个分布式文件系统,HDFS提供了高可靠性、高可扩展性和高性能的存储解决方案。在使用HDFS时,经常需要执行...

    Hadoop(HDFS文件系统)命令操作

    ### Hadoop HDFS 文件系统命令操作详解 #### HDFS 概念与组成 **1.1 概念** HDFS,即 Hadoop Distributed File System,是一种分布式文件系统,主要用于存储大规模数据集。它通过目录树结构来组织文件,并且是由...

    Hadoop中一些hdfs的命令

    ### Hadoop与HDFS命令详解 #### 一、HDFS基本概念 Hadoop是一个能够对大量数据进行分布式处理的软件框架,它支持大规模数据集的分布式处理,是大数据技术领域的重要组成部分。Hadoop的核心组件之一是HDFS(Hadoop ...

Global site tag (gtag.js) - Google Analytics