`

webhdfs vs https gateway

 
阅读更多

基于hadoop2.7.1版本

 

一、简介

 

1、 WebHDFS官方简介:

 

Introduction

 

The HTTP REST API supports the complete FileSystem/FileContext interface for HDFS.

 

2、HttpFS GateWay官方简介:

 

HttpFS is a server that provides a REST HTTP gateway supporting all HDFS File System operations (read and write). And it is inteoperable with the webhdfs REST HTTP API.

 

HttpFS can be used to transfer data between clusters running different versions of Hadoop (overcoming RPC versioning issues), for example using Hadoop DistCP.

 

HttpFS can be used to access data in HDFS on a cluster behind of a firewall (the HttpFS server acts as a gateway and is the only system that is allowed to cross the firewall into the cluster).

 

HttpFS can be used to access data in HDFS using HTTP utilities (such as curl and wget) and HTTP libraries Perl from other languages than Java.

 

The webhdfs client FileSytem implementation can be used to access HttpFS using the Hadoop filesystem command (hadoop fs) line tool as well as from Java aplications using the Hadoop FileSystem Java API.

 

HttpFS has built-in security supporting Hadoop pseudo authentication and HTTP SPNEGO Kerberos and other pluggable authentication mechanims. It also provides Hadoop proxy user support.

 

二、使用原因:

 

二者都提供基于REST的API,这使得一个集群外的host可以不用安装HADOOP和JAVA环境就可以对集群内的HADOOP进行访问,并且client不受语言的限制。

 

三、两者的区别:

 

1、WebHDFS是HDFS内置的、默认开启的一个服务,而HttpFS是HDFS一个独立的服务,若使用需要配置并手动开启。 

2、HttpFS重在后面的GateWay。即WebHDFS面向的是集群中的所有节点,首先通过namenode,然后转发到相应的datanode,而HttpFS面向的是集群中的一个节点(相当于该节点被配置为HttpFS的GateWay) 

3、WebHDFS是HortonWorks开发的,然后捐给了Apache;而HttpFS是Cloudera开发的,也捐给了Apache。

 

四、使用步骤:

 

1、使用WebHDFS的步骤:

 

(1)WebHDFS服务内置在HDFS中,不需额外安装、启动。需要在hdfs-site.xml打开WebHDFS开关,此开关默认打开。

 

<property>

    <name>dfs.webhdfs.enabled</name>

    <value>true</value>

</property>

 

(2)连接NameNode的50070端口进行文件操作。

 

curl "http://ctrl:50070/webhdfs/v1/?op=liststatus&user.name=root"

 

2、使用HttpFS GateWay的步骤:

 

(1)根据需求配置:httpfs-site.xml 

(2)配置:hdfs-site.xml,需要增加如下配置,其他两个参数名称中的root代表的是启动hdfs服务的OS用户,应以实际的用户名称代替。

 

<property>  

    <name>hadoop.proxyuser.root.hosts</name>  

    <value>*</value>  

</property>  

<property>  

<name>hadoop.proxyuser.root.groups</name>  

    <value>*</value>  

</property>

 

(3)启动:

 

sbin/httpfs.sh start

sbin/httpfs.sh stop

 

启动后,默认监听14000端口:

 

[hadoop@master hadoop]# netstat -antp | grep 14000

tcp        0      0 :::14000   :::*       LISTEN      7415/java

[hadoop@master hadoop]#

 

(4)使用:

 

#curl -i -L "http://HttpFS_host:14000/webhdfs/v1/foo/bar?op=OPEN"  

 

参考文章:

 

《简单说说WebHDFS和HttpFS》

分享到:
评论

相关推荐

    Apache Hadoop 2.7.2

    Using the OfflineImageViewer, clients can now browse an fsimage via the WebHDFS API. The NFS gateway received a number of supportability improvements and bug fixes. The Hadoop portmapper is no longer...

    apache hadoop 2.7.2.chm

    WebHDFS REST API HttpFS Gateway Short Circuit Local Reads Centralized Cache Management HDFS NFS Gateway HDFS Rolling Upgrade Extended Attributes Transparent Encryption HDFS Support for ...

    一个基于springboot和hdfs的大文件管理系统.zip

    9. **微服务架构**:如果系统采用微服务设计,需要了解如何拆分服务,以及如何通过服务发现(如Eureka或Consul)和API Gateway(如Zuul或Spring Cloud Gateway)来协调各个服务。 10. **测试与持续集成**:编写单元...

    淘宝云梯分布式计算平台整体架构

    该系统包括生产率银弹、自动部署、智能调度、运维平台、监控告警、Web UI 等模块。调度系统还提供了多种任务触发方式,包括 Flow control/Data Trigger 和 Time Trigger。 元数据应用目录是该平台的元数据管理模块...

    HBase in Action

    - 适合构建Web应用程序和服务。 ##### 7. HBase实例应用:OpenTSDB - **OpenTSDB介绍**: - OpenTSDB是一个基于HBase的时间序列数据库。 - 专门设计用于高效地存储和查询时间序列数据。 - **应用场景**: - ...

    第一章 ElasticSearch入门篇.docx

    * Gateway 层:ES 用来存储索引文件的一个文件系统且它支持很多类型,例如:本地磁盘、共享存储(做 snapshot 的时候需要用到)、hadoop 的 hdfs 分布式存储、亚马逊的 S3。它的主要职责是用来对数据进行长持久化...

    xczx学成在线项目后端代码

    可能还涵盖了文件存储策略,如本地存储、分布式文件系统(如HDFS)或云存储服务(如AWS S3)。 2. **xc-service-ucenter-auth** 这部分代码可能是用户中心认证服务,处理用户的登录、注册、权限验证等功能。它可能...

    大型网站技术架构_核心原理与案例分析_李智慧PDF高清

    5. **分布式存储**:HDFS、FastDFS等分布式文件系统在海量数据存储中的角色,以及CDN(内容分发网络)在加快静态资源访问速度中的应用。 6. **消息队列**:RabbitMQ、Kafka等消息中间件的使用,实现异步处理,提高...

    springboot+java-vue基于Hadoop平台的大学多媒体教学资源管理系统的设计与实现论文.docx

    总的来说,这个基于Spring Boot、Java、Vue.js和Hadoop的大学多媒体教学资源管理系统结合了现代Web开发的最佳实践,利用大数据处理能力,为教育领域提供了高效、安全的教学资源管理平台。通过不断优化和迭代,该系统...

    助力云上HadoopEMR新特性解读与展望.pptx

    - **Gateway支持**:通过Gateway实现负载均衡和多租户环境隔离,增强高可用性组件的支持。 2. **更安全** - **权限控制**:基于RAM的认证机制,默认提供了Hadoop Authentication Service(HAS),同时支持Ranger...

    大数据技术原理与应用-实验3熟悉常用的HBase操作(林子雨)

    4. **REST Gateway**:支持HTTP API访问,方便Web应用集成。 5. **Pig**:使用Pig Latin语言处理HBase中的数据,适用于批量数据处理。 6. **Hive**:提供SQL-like查询语言,适用于数据分析场景。 #### HBase数据...

    Java开发知识点、大数据技术应用和常见后端面试题总结.zip

    1. **Hadoop**:分布式存储系统HDFS,MapReduce编程模型,HBase和Hive等数据处理工具。 2. **Spark**:快速计算框架,Spark Core、Spark SQL、Spark Streaming和MLlib等模块的应用。 3. **Storm**:实时流处理系统...

    大型网站系统java控件

    这涉及到分布式缓存(如Redis、Memcached)、分布式数据库(如MySQL的主从复制、分片集群)、分布式文件系统(如Hadoop HDFS)以及分布式任务调度(如Quartz、Celery)。 4. **Java并发编程**:在处理大量用户请求...

    在UbuntuCentos上部署HadoopX集群.docx

    接着,在虚拟机内部,编辑 `/etc/sysconfig/network-scripts/ifcfg-eth0` 文件,配置静态IP,包括IPADDR(静态IP地址)、GATEWAY(默认网关)、NETMASK(子网掩码)等参数。配置完成后,使用 `service network ...

    搭建一个大数据集群.docx

    - `GATEWAY=&lt;网关地址&gt;`:设置网关地址。 - `DNS1=&lt;首选DNS服务器地址&gt;`:设置首选DNS服务器。 - `DNS2=&lt;备用DNS服务器地址&gt;`:设置备用DNS服务器。 - **重启网卡**:配置完成后,需要重启网卡以应用新的设置。 ...

    基于springboot实现的分布式网盘系统.zip

    5. **文件存储**:分布式网盘系统需考虑文件的分布式存储,可能采用了如Hadoop HDFS、FastDFS或者阿里云OSS等解决方案,以实现高可用和扩展性。 6. **权限控制**:Spring Security或Apache Shiro可以用于实现系统的...

    大数据技术原理与应用-第四章-分布式数据库HBase(2016年1月28日版本).ppt

    它位于Hadoop生态系统中,与HDFS、Zookeeper、MapReduce、ETL工具、BI报表、Pig、Hive、Sqoop等紧密协作。HBase的主要目的是解决大规模数据实时处理的问题,弥补Hadoop MapReduce在低延迟数据处理上的不足。 4.1.3 ...

    淘宝技术这十年

    早期的淘宝网站采用的是传统的Web架构,随着用户数量的爆发式增长,这种架构逐渐无法满足需求。于是,淘宝开始引入分布式系统,通过负载均衡和集群技术分散流量,提高系统的可用性和处理能力。这一阶段的知识点包括...

Global site tag (gtag.js) - Google Analytics