从Hadoop URL 中读取数据

king_c

浏览: 229926 次
性别:
来自: 北京

最近访客更多访客>>

jimzhao

xuygfbi

iabtey

ysl_228

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

要从Hadoop文件系统中读取文件，最简单的方法就是使用java.net.URL 对象打开数据流，进而从中读取数据。

例如：

		InputStream in = null;
		try{
			in = new URL("hdfs://host/path").openStream();
		}finally{
			IOUtils.closeStream(in);
		}

但是要让java能够识别hadoop的hdfs 的url 方案还需要一些额外的工作，可以采用通过FsUrlStreamHandlerFactory 的实例调用URL中的setURLStreamHandlerFactory方法。

URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());

但是这样操作，也会存在一定的问题。java虚拟机只能调用一次上述方法，因此通常在静态方法中去调用，这就意味着，如果其他程序已经调用过这个方法，那么你的程序将不再能调用这个方案。

完整实例

package gucas.xiaoxia;

import java.io.InputStream;
import java.net.URL;

import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;
import org.apache.hadoop.io.IOUtils;

public class CatURL {

	static {
		URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());
	}

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		InputStream input = null;
		try {
			input = new URL("hdfs://localhost/user/hadoop/map.txt")
					.openStream();

			IOUtils.copyBytes(input, System.out, 4096, false);

		} catch (Exception e) {

			e.printStackTrace();

		} finally {

			IOUtils.closeStream(input);
		}
	}

}

输出：

hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10
hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10
hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10
hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10

分享到：

通过FileSystem API 读取hadoop文件系统数 ... | Windows平台MySQL Replication入门

2011-12-14 09:40
浏览 2752
评论(2)
分类:开源软件
查看更多

2 楼 king_c 2012-02-21

jiandandecaicai 写道

你好，请教一下是如何通过Eclipse来连接Hadop机群的，或者说Java中是否有接口实现连接到Hadoop机群。还有你有没Hadoop的Jar包，因为我将你的代码贴到Eclipse上
import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;
import org.apache.hadoop.io.IOUtils;
以上这两个显示错误。
可能我的问题不是很清楚，不知道大虾可否给留个QQ，小菜可以跟你请教下Hadoop问题。

我的eclipse 也是没有连接上hadoop 但是可以直接在eclipse里面运行hadoop程序，可以留下个email 我发给你

1 楼 jiandandecaicai 2012-02-17

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论