`
qindongliang1922
  • 浏览: 2187973 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117632
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:126036
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:59985
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71374
社区版块
存档分类
最新评论

如何远程读取CDH的hadoop上的HDFS数据?

阅读更多
以前,散仙曾写过一篇如何在win上使用eclipse远程读取HDFS上的数据,不过当时使用的hadoop是1.2版本的,而且还是apache的,今天hadoop的最新版本已经到hadoop2.6了,而我们服务器上的hadoop是CHD5.3的版本,使用的hadoop是hadoop2.5.0版本的。

今天,散仙就以hadoop2.x的版本记录下,如何在eclipse中远程连接并读取数据,在网上搜的代码,大部分说的都比较复杂,其实如果只想连接HDFS读取一些数据话,这个是非常简单的,如果还要在Eclipse上远程提交MapReduce作业,这个就比较麻烦了,需要改动几处hadoop的源码才可以,所以建议初学者,还是在eclipse中,写好MR的类,然后打包成一个jar包上传linux并执行。


下面进入正题,在eclipse上连接hadoop,为了方便建议大家把hadoop里面所有的jar包都整理成一份目录的jar包,默认的hadoop的jar中是分散在\hadoop-2.5.0\share\hadoop目录下的各个子文件夹里,这6个目录分别是common,hdfs,httpfs,mapreduce,tools,yarn,然后把集中起来的jar中,引入项目中。

接下来,我们便可以编写我们的工具类,来读取HDFS上的数据了,注意这里并不需要把hadoop的conf下的配置文件core-site.xml,hdfs-site.xml等拷贝到项目的根目录下,而在网上看到的大部分的文章都说把hadoop的配置文件拷贝下来,其实完全没必要,我们只需要在实例化出来的Configuration中加入HDFS的端口路径即可,其他的除了hadoop的jar包外,任何配置文件都不需要,核心代码如下:

	static Configuration conf=new  Configuration();
	static FileSystem fs=null;
	static{
	try {
		//默认的hadoop的fs.defaultFS的端口号为8020,这里需要跟集群里面的配置一致
    	conf.set("fs.defaultFS","hdfs://dnode1:8020/");  
		fs=FileSystem.get(conf);
	} catch (IOException e) {
		log.error("初始化FileSystem失败!",e);
	}
	}

OK,只需要这简单的一行,我们就可以读取HDFS上的数据了,另外如要注意的是,需要把hadoop的对应的host也配置在win上的host文件里,避免访问文件系统出错,只要上面这一步打通,下面的对于HDFS系统上文件和目录增删改查,以及对文件内容的读取和写入,散仙在这里就不多写了,这个很简单,大家看看FileSystem这个类的Api就能很容易掌握的。




如果有什么疑问,欢迎扫码关注微信公众号:我是攻城师(woshigcs)
本公众号的内容是有关大数据技术和互联网等方面内容的分享,也是一个温馨的技术互动交流的小家园,有什么问题随时都可以留言,欢迎大家来访!



1
2
分享到:
评论

相关推荐

    hadoop-2.6.0-cdh5.7.0版本.zip

    4. **CDH**: CDH是Cloudera对Hadoop生态的商业发行版,它包含了经过测试和优化的Hadoop组件,包括HDFS、MapReduce、YARN等,同时也包含了其他如Hive(SQL查询工具)、Pig(数据流编程工具)、Oozie(工作流调度器)...

    CDH4.3.0 HDFS 读写性能测试

    描述中的“HDFS 读写性能测试”意味着测试的重点在于衡量在CDH4.3.0环境下,HDFS在读取和写入数据时的效率、吞吐量以及延迟。这种测试对于理解系统在大数据处理工作负载下的表现至关重要,有助于优化集群配置,确保...

    hadoop-2.6.0-cdh5.14.0.tar.gz for linux 支持snappy

    CDH(Cloudera Distribution Including Apache Hadoop)是由Cloudera公司提供的一种商业化Hadoop发行版,包含了多种大数据处理组件,如HDFS、MapReduce、HBase等。在CDH 5.14.0版本中,Cloudera对Hadoop进行了优化和...

    14、HDFS 透明加密KMS

    【HDFS 透明加密KMS】是Hadoop分布式文件系统(HDFS)提供的一种安全特性,用于保护存储在HDFS中的数据,确保数据在传输和存储时的安全性。HDFS透明加密通过端到端的方式实现了数据的加密和解密,无需修改用户的应用...

    hadoop-2.6.0-cdh5.14.2.tar.gz

    HDFS是一个高度容错性的文件系统,它设计用于存储大量数据并进行高效的读取。MapReduce则是一种编程模型,用于大规模数据集的并行计算,通常与HDFS一起使用,实现数据的处理和分析。 在描述中提到的"Linux"表明这个...

    impala依赖cdh版本的hadoop-hbase-hive相关jar包.zip

    Hadoop-hdfs.jar和hadoop-hdfs-client.jar包含了HDFS的服务器端和客户端API,使得Impala能够读取和写入HDFS中的数据。 Hadoop-MapReduce是另一种处理大规模数据的计算框架,这里包含的hadoop-mapreduce-client-core...

    hadoop-0.20.2-cdh3u6.rar

    在Hadoop-0.20.2-cdh3u6中,HDFS作为Hadoop的基础存储系统,负责数据的分布式存储。它将大文件分割成块并复制到多台机器上,确保了数据的高可用性和容错性。MapReduce则是一种编程模型,用于处理和生成大规模数据集...

    CDH6安装包、大数据平台管理工具、大数据、hadoop、CDH6.2

    在CDH6中,Hadoop主要包括两个核心部分:HDFS(Hadoop Distributed File System)和MapReduce。HDFS为大规模数据提供了分布式存储解决方案,而MapReduce则是一个编程模型,用于并行处理大规模数据集。CDH6对Hadoop...

    hadoop cdh版本伪分布式集群搭建图文教程

    本文将详细介绍如何在单台机器上搭建Hadoop CDH版本的伪分布式集群,并通过图文形式进行指导,帮助初学者快速掌握搭建过程。 #### 二、准备工作 在开始搭建伪分布式集群之前,需要完成以下准备工作: 1. **下载所需...

    cloudera-hive-cdh6.3.2源码包

    在 CDH(Cloudera Distribution Including Apache Hadoop)6.3.2 版本中,Hive 已经发展到了一个成熟的阶段,提供了更高效、稳定的数据处理能力。下面我们将对 `cloudera-hive-cdh6.3.2` 源码包中的关键组件和技术...

    将hdfs上的文件导入hbase的源代码

    本主题将详细讲解如何将HDFS(Hadoop Distributed File System)上的文件导入到HBase中,并以在Cloudera SCM的CDH 4.8.1产品环境中的源代码实现为例进行阐述。 首先,理解HDFS和HBase的基本原理至关重要。HDFS是...

    hadoop-cdh4.3-lzo安装及问题解决

    在大数据处理领域,Hadoop是不可或缺的开源框架,而CDH(Cloudera Distribution Including Apache Hadoop)则是Cloudera公司提供的一个企业级Hadoop发行版。CDH4.3是其中的一个版本,包含了Hadoop生态系统中的多个...

    CDH 6.3.0 allkeys.asc

    同时,HDFS透明加密则允许数据在存储时自动加密,并在读取时解密,而无需修改应用程序。这种加密机制同样依赖于有效的密钥管理,`allkeys.asc`文件就是这个环节的核心。 此外,CDH 6.3.0还支持其他的Hadoop组件,如...

    向hdfs上传Excel文件.doc

    在大数据处理场景中,经常需要将Excel文件上传到Hadoop分布式文件系统(HDFS)中进行进一步的数据处理或分析。然而,由于HDFS本身并不直接支持Excel文件格式,通常的做法是先将Excel文件转换为CSV等更易于处理的格式...

    Hadoop搭建详细流程

    Hadoop的核心组件包括Hadoop Distributed File System (HDFS)和MapReduce,这两个部分共同构建了一个能够处理PB级别数据的系统。 HBase是基于Hadoop的数据存储系统,设计为分布式、可扩展的NoSQL数据库。它支持实时...

    基于hadoop-2.6.0-cdh5.4.3版本的源码阅读,以注释及博客的形式记录阅读笔记.zip

    HDFS 是 Hadoop 的基石,它是一个分布式文件系统,设计目标是存储和处理非常大的数据集。通过将大文件分割成块,并在集群的不同节点上复制这些块,HDFS 实现了高可用性和容错性。在源码阅读中,我们需要关注以下几个...

    hive2.1.1中orc格式读取报数组越界错误解决方法

    CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司提供的Hadoop发行版,其中包含了Hive等组件。`cdh6.3.2`表示CDH的一个特定版本。替换这些jar包意味着升级了Hive在CDH环境中的执行部分和ORC处理...

    Flink在CDH配置部署及读取kafka的实例验证;

    本文主要介绍Flink在Cloudera Distribution Hadoop(CDH)集群上的配置部署流程,以及如何利用Flink从Kafka中读取数据并进行处理的实例验证。在开始前,需要明白几个核心概念及其之间的关系: 1. Flink 是一个开源...

    search-1.0.0-cdh5.13.3.tar.gz

    在压缩包子文件的文件名称列表中提到了"Hive",Hive是Apache Hadoop生态系统中的一个数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)对存储在HDFS上的大量数据进行查询、分析和汇总。Hive将SQL查询...

    hive-1.1.0-cdh5.7.0.tar.gz.rar

    - **压缩**:启用数据压缩可以减少存储空间,同时在一定程度上提升读取速度。 - **元数据优化**:合理设计表和分区的元数据,避免全表扫描,有助于提高查询效率。 7. **Hive在大数据分析的应用** Hive广泛应用于...

Global site tag (gtag.js) - Google Analytics