如何远程读取CDH的hadoop上的HDFS数据？

qindongliang1922

浏览: 2196861 次
性别:
来自: 北京

最近访客更多访客>>

北风norther

godandghost

youhere

tanss

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：117907

: 证道Hadoop
浏览量：126317

: 证道shell编程
浏览量：60273

: ELK修真
浏览量：71616

文章分类

社区版块

存档分类

博客分类：

Hadoop

hadoop eclipse mapreduce hdfs

以前，散仙曾写过一篇如何在win上使用eclipse远程读取HDFS上的数据，不过当时使用的hadoop是1.2版本的，而且还是apache的，今天hadoop的最新版本已经到hadoop2.6了，而我们服务器上的hadoop是CHD5.3的版本，使用的hadoop是hadoop2.5.0版本的。

今天，散仙就以hadoop2.x的版本记录下，如何在eclipse中远程连接并读取数据，在网上搜的代码，大部分说的都比较复杂，其实如果只想连接HDFS读取一些数据话，这个是非常简单的，如果还要在Eclipse上远程提交MapReduce作业，这个就比较麻烦了，需要改动几处hadoop的源码才可以，所以建议初学者，还是在eclipse中，写好MR的类，然后打包成一个jar包上传linux并执行。

下面进入正题，在eclipse上连接hadoop，为了方便建议大家把hadoop里面所有的jar包都整理成一份目录的jar包，默认的hadoop的jar中是分散在\hadoop-2.5.0\share\hadoop目录下的各个子文件夹里，这6个目录分别是common，hdfs，httpfs，mapreduce，tools，yarn，然后把集中起来的jar中，引入项目中。

接下来，我们便可以编写我们的工具类，来读取HDFS上的数据了，注意这里并不需要把hadoop的conf下的配置文件core-site.xml，hdfs-site.xml等拷贝到项目的根目录下，而在网上看到的大部分的文章都说把hadoop的配置文件拷贝下来，其实完全没必要，我们只需要在实例化出来的Configuration中加入HDFS的端口路径即可，其他的除了hadoop的jar包外，任何配置文件都不需要，核心代码如下：

	static Configuration conf=new  Configuration();
	static FileSystem fs=null;
	static{
	try {
		//默认的hadoop的fs.defaultFS的端口号为8020，这里需要跟集群里面的配置一致
    	conf.set("fs.defaultFS","hdfs://dnode1:8020/");  
		fs=FileSystem.get(conf);
	} catch (IOException e) {
		log.error("初始化FileSystem失败！",e);
	}
	}

OK，只需要这简单的一行，我们就可以读取HDFS上的数据了，另外如要注意的是，需要把hadoop的对应的host也配置在win上的host文件里，避免访问文件系统出错，只要上面这一步打通，下面的对于HDFS系统上文件和目录增删改查，以及对文件内容的读取和写入，散仙在这里就不多写了，这个很简单，大家看看FileSystem这个类的Api就能很容易掌握的。

如果有什么疑问，欢迎扫码关注微信公众号：我是攻城师（woshigcs）
本公众号的内容是有关大数据技术和互联网等方面内容的分享，也是一个温馨的技术互动交流的小家园，有什么问题随时都可以留言，欢迎大家来访！

1
顶

2
踩

分享到：

记一次log4j日志文件小事故 | 请小心Hadoop2.5.0和Java Web项目集成bug

2015-01-26 21:37
浏览 6869
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论