`
awenhaowenchao
  • 浏览: 71934 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

HDFS

阅读更多
注:由学习Hadoop权威指南的

HDFS分布式文件系统

概念:
    hadoop的分布式文件系统hdfs
    hdfs思想:一次写入,多次读取是高效的,但是如果低延迟访问未必完全做得到,hdfs是为了大搞高数据吞吐量而设计,由于hdfs块默认为64M大小,这样减少了磁盘的寻址时间,这样硬盘的传输速度越快相应的数据传输速率就越快,这只是字面理解,当然如果任务特别少作业的运行速度可能就比预期要慢很多,当然我未做过实际的大规模的对比,所以这只能是笔记了,不过想想也大概是这个道理,呵呵,
   名称节点和数据节点
   这里名称节点作为管理者管理众多数据节点这些被管理者,名称节点安全与否至关重要,注意名称节点的备份(远程备份或者第二名称节点备份,后者不完全同步)
配置:
fs.default.name=hdfs://localhost设置默认文件系统
dfs.replication=1//设置HDFS副本保存数量,这里为1,伪分布式下设置其他数目会报出异常

命令:
    以下为hadoop fs的一些命令,跟linux差不多,在具体使用中会学到一些hadoop的hdfs的知识
hadoop@ubuntu:/opt/hadoop-0.20.2$ hadoop fs
Usage: java FsShell
           [-ls <path>]
           [-lsr <path>]
           [-du <path>]
           [-dus <path>]
           [-count[-q] <path>]
           [-mv <src> <dst>]
           [-cp <src> <dst>]
           [-rm [-skipTrash] <path>]
           [-rmr [-skipTrash] <path>]
           [-expunge]
           [-put <localsrc> ... <dst>]
           [-copyFromLocal <localsrc> ... <dst>]
           [-moveFromLocal <localsrc> ... <dst>]
           [-get [-ignoreCrc] [-crc] <src> <localdst>]
           [-getmerge <src> <localdst> [addnl]]
           [-cat <src>]
           [-text <src>]
           [-copyToLocal [-ignoreCrc] [-crc] <src> <localdst>]
           [-moveToLocal [-crc] <src> <localdst>]
           [-mkdir <path>]
           [-setrep [-R] [-w] <rep> <path/file>]
           [-touchz <path>]
           [-test -[ezd] <path>]
           [-stat [format] <path>]
           [-tail [-f] <file>]
           [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
           [-chown [-R] [OWNER][:[GROUP]] PATH...]
           [-chgrp [-R] GROUP PATH...]
           [-help [cmd]]

还有hdfs的几个类
FileSystem文件系统 ,提供了对hdfs文件系统文件或者目录的定位,打开资源流访问等
FSDataInputStream文件系统数据输入流 FileSystem.open() return FSdis
FSDataOutputStream
FileStatus文件状态 fs.getFileStatus(Path);获取文件或者目录的属性状态
PathFilter与java的FileFilter类似

分享到:
评论

相关推荐

    HDFS管理工具HDFS Explorer下载地址、使用方法.docx

    **HDFS管理工具HDFS Explorer** HDFS Explorer是一款专为Windows平台设计的HDFS文件管理系统,它使得用户能够像操作本地文件系统一样便捷地管理和浏览Hadoop分布式文件系统(HDFS)。尽管官方已经停止更新此软件,...

    14、HDFS 透明加密KMS

    【HDFS 透明加密KMS】是Hadoop分布式文件系统(HDFS)提供的一种安全特性,用于保护存储在HDFS中的数据,确保数据在传输和存储时的安全性。HDFS透明加密通过端到端的方式实现了数据的加密和解密,无需修改用户的应用...

    HDFS文件系统基本文件命令、编程读写HDFS

    HDFS 文件系统基本文件命令、编程读写 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统,用于存储和管理大规模数据。它是 Hadoop 云计算平台的核心组件之一,提供了高效、可靠、可扩展的数据存储...

    大数据实验二-HDFS编程实践

    ### 大数据实验二-HDFS编程实践 #### 实验内容概览 本次实验的主要目标是通过对HDFS(Hadoop Distributed File System)的操作实践,加深学生对HDFS在Hadoop架构中的作用及其基本操作的理解。实验内容包括两大部分...

    HDFS实例基本操作

    Hadoop分布式文件系统(HDFS)是Apache Hadoop项目的核心组件之一,它为大数据处理提供了可靠的、可扩展的分布式存储解决方案。在这个“HDFS实例基本操作”中,我们将深入探讨如何在已经安装好的HDFS环境中执行基本...

    hdfs-over-ftp安装包及说明

    【标题】"hdfs-over-ftp安装包及说明"涉及的核心技术是将FTP(File Transfer Protocol)服务与HDFS(Hadoop Distributed File System)相结合,允许用户通过FTP协议访问和操作HDFS上的数据。这个标题暗示了我们将在...

    大数据技术基础实验报告-HDFS常用操作命令.doc

    在大数据技术领域,Hadoop 分布式文件系统(HDFS)是核心组件之一,它为大规模数据存储提供了可扩展和高容错性的解决方案。本实验报告主要关注HDFS的常用操作命令,这些命令是管理员和数据分析师日常工作中不可或缺...

    hadoop-hdfs-client-2.9.1-API文档-中英对照版.zip

    赠送jar包:hadoop-hdfs-client-2.9.1.jar; 赠送原API文档:hadoop-hdfs-client-2.9.1-javadoc.jar; 赠送源代码:hadoop-hdfs-client-2.9.1-sources.jar; 赠送Maven依赖信息文件:hadoop-hdfs-client-2.9.1.pom;...

    HDFS Comics HDFS 漫画

    HDFS是Hadoop分布式计算的存储基础。HDFS具有高容错性,可以部署在通用硬件设备上,适合数据密集型应用,并且提供对数据读写的高吞 吐量。HDFS能 够提供对数据的可扩展访问,通过简单地往集群里添加节点就可以解决...

    8、HDFS内存存储策略支持和“冷热温”存储

    HDFS(Hadoop Distributed File System)是Apache Hadoop项目的核心组件,它提供了一个分布式文件系统,能够处理和存储海量数据。在大数据处理场景中,为了优化性能和降低成本,HDFS支持了多种存储策略,包括“冷热...

    上传文件到HDFS

    在分布式计算领域,Hadoop Distributed File System(HDFS)是一个广泛使用的开源文件系统,它设计用于处理和存储大规模数据集。HDFS具有高容错性和高可扩展性,是大数据处理的重要基础设施。当我们需要将本地文件...

    利用javaAPI访问HDFS的文件

    ### 使用Java API访问HDFS文件的关键知识点 #### 一、HDFS概述 Hadoop Distributed File System(HDFS)是Apache Hadoop项目的核心组件之一,它为海量数据提供了高吞吐量的数据访问,非常适合大规模数据集的应用...

    3、通过datax同步oracle相关-oracle到hdfs

    《通过DataX同步Oracle到HDFS的详细指南》 在大数据处理中,数据的迁移和同步是不可或缺的一环。DataX作为一个高效、稳定且易用的数据同步工具,被广泛应用于不同数据源之间的数据流动,例如从关系型数据库Oracle到...

    实验2常用的HDFS操作.doc

    Shell命令和java两种方式完成了常用的HDFS操作,有源代码及运行结果截图 (1)向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,则由用户来指定是追加到原有文件末尾还是覆盖原有的文件 (2)从HDFS中...

    厦门大学-林子雨-大数据技术基础-第3章 分布式文件系统HDFS-上机练习-熟悉常用的HDFS操作

    "厦门大学-林子雨-大数据技术基础-第3章 分布式文件系统HDFS-上机练习-熟悉常用的HDFS操作" HDFS(Hadoop Distributed File System)是Hadoop生态系统中的核心组件之一,它是基于分布式存储技术的文件系统,旨在...

    为hdfs配置kerberos

    "HDFS 配置 Kerberos" 本文档记录了为 Hadoop 的 HDFS 配置 Kerberos 的过程,Hadoop 的版本是 2.4.1。Kerberos 是一种常用的身份验证协议,用于提供安全的身份验证机制。在 Hadoop 中,Kerberos 可以用于 HDFS 和 ...

    HDFS可靠性策略

    HDFS 可靠性策略 HDFS(Hadoop Distributed File System)作为一种分布式文件系统,其高可靠性主要是由多种策略及机制共同作用实现的。下面我们来分析这些策略和机制,对分布式文件系统的高可靠性进行详细的解释。 ...

    Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

    标题中的知识点主要涉及Python连接HDFS进行文件上传下载以及Pandas转换文本文件到CSV的操作。在描述中,提到了Python在Linux环境下与HDFS交互的需求,以及使用Pandas进行数据处理的场景。从标签中我们可以进一步了解...

    hdfs-site.xml配置文件详解

    hdfs-site.xml文件是Hadoop分布式文件系统(HDFS)的核心配置文件之一,它定义了HDFS的很多关键行为和属性。了解hdfs-site.xml的配置项对于调优Hadoop集群,满足特定需求是非常有帮助的。下面对hdfs-site.xml中的...

    HDFS Router-Based Federation Rebalancer.pdf_hdfs_

    《HDFS Router-Based Federation Rebalancer》是针对Hadoop分布式文件系统(HDFS)中联邦均衡器的一个深度探讨。在HDFS中,联邦是一种扩展性的实现方式,它允许多个独立的命名空间(NameSpaces)并存,每个命名空间...

Global site tag (gtag.js) - Google Analytics