转自http://brandnewuser.iteye.com/blog/2208709
一般情况下,我们使用Java访问hadoop distributed file system(hdfs)使用hadoop的相应api,添加以下的pom.xml依赖(这里以hadoop2.2.0版本为例):
- <dependency>
- <groupId>org.apache.hadoop</groupId>
- <artifactId>hadoop-common</artifactId>
- <version>2.2.0</version>
- </dependency>
- <dependency>
- <groupId>org.apache.hadoop</groupId>
- <artifactId>hadoop-mapreduce-client-core</artifactId>
- <version>2.2.0</version>
- </dependency>
在其中使用FileSystem就可以访问hdfs:
- FileSystem fileSystem = null;
- try {
- Configuration conf = new Configuration();
- fileSystem = FileSystem.get(conf);
- BufferedReader bufferedReader = = new BufferedReader(new InputStreamReader(fsInputStream));
但是需要注意的一点就是,只能在配置了hadoop环境的服务器上,通过hadoop jar的方式启动,hadoop jar的方式启动实际上调用的是org.apache.hadoop.util。RunJar作为入口。
RunJar会自动将此环境中的hadoop classpath设置,并初始化hadoop的环境变量等信息。
但是这种方式只能够写一个shell脚本来实现调用,其中使用hadoop jar的方式来调用,但是如果我们想要在比较特殊的环境下启动java进程,譬如在web server下(例如Tomcat)调用获取hdfs的信息,则不能够成功;或比如通过java -jar/-cp的方式来进行调用,得到的FileSystem.get(conf)并不是我们想要的。比如如果在本机执行该方法,就会得到本机磁盘相关文件系统,只有通过hadoop jar的方式调用返回DistributedFileSystem。
FileSystem类中还有一个方法,可以根据相应的URI来得到对应的FileSystem:
- /**
- * Get a filesystem instance based on the uri, the passed
- * configuration and the user
- * @param uri of the filesystem
- * @param conf the configuration to use
- * @param user to perform the get as
- * @return the filesystem instance
- * @throws IOException
- * @throws InterruptedException
- */
- public static FileSystem get(final URI uri, final Configuration conf,
- final String user) throws IOException, InterruptedException {
从hadoop file system环境中查找对应hadoop defaultFS配置:
- <property>
- <name>fs.defaultFS</name>
- <value>hdfs://ns1</value>
就会曝出以下的错误,提示缺少一个类定义:
- Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/util/PlatformName
- at org.apache.hadoop.security.UserGroupInformation.getOSLoginModuleName(UserGroupInformation.java:303)
- at org.apache.hadoop.security.UserGroupInformation.<clinit>(UserGroupInformation.java:348)
- at org.apache.hadoop.fs.FileSystem$Cache$Key.<init>(FileSystem.java:2590)
- at org.apache.hadoop.fs.FileSystem$Cache$Key.<init>(FileSystem.java:2582)
- at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2448)
- at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:367)
- at com.xxxx.HdfsMain.main(HdfsMain.java:21)
- Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.util.PlatformName
- at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
- at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
- at java.security.AccessController.doPrivileged(Native Method)
- at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
- at java.lang.ClassLoader.loadClass(ClassLoader.java:423)
- at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308)
- at java.lang.ClassLoader.loadClass(ClassLoader.java:356)
- ... 7 more
通过在网上查找的说法,此种情况下需要额外添加hadoop-auth的相关依赖:
- <dependency>
- <groupId>org.apache.hadoop</groupId>
- <artifactId>hadoop-auth</artifactId>
- <version>2.2.0</version>
- </dependency>
但是jar包添加进去后仍然不能够奏效,
- Exception in thread "main" java.io.IOException: No FileSystem for scheme: hdfs
- at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2421)
- at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2428)
- at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:88)
- at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2467)
- at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2449)
- at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:367)
经过查看源代码,可以看出SERVICE_FILE_SYSTEMS中并没有存在hdfs中scheme:
- public static Class<? extends FileSystem> getFileSystemClass(String scheme,
- Configuration conf) throws IOException {
- if (!FILE_SYSTEMS_LOADED) {
- loadFileSystems();
- }
- Class<? extends FileSystem> clazz = null;
- if (conf != null) {
- clazz = (Class<? extends FileSystem>) conf.getClass("fs." + scheme + ".impl", null);
- }
- if (clazz == null) {
- clazz = SERVICE_FILE_SYSTEMS.get(scheme);
- }
- if (clazz == null) {
- throw new IOException("No FileSystem for scheme: " + scheme);
- }
- return clazz;
- }
可以手动采用Configuration设置fs.[filesystemname].impl的方式,手动将DistributedFileSystem注册进去:
- conf.set("fs.hdfs.impl", DistributedFileSystem.class.getName());
这样启动后发现仍然有坑,因为ns1并不是真实的网络地址,地址配置在hdfs-site.xml文件中,我们的NameNode是两个随时可互相切换的HA服务器:
- <property>
- <name>dfs.nameservices</name>
- <value>ns1</value>
- </property>
- <property>
- <name>dfs.ha.namenodes.ns1</name>
- <value>nn1,nn2</value>
- </property>
- <property>
- <name>dfs.namenode.rpc-address.ns1.nn1</name>
- <value>xxx1.cn:8020</value>
- </property>
- <property>
- <name>dfs.namenode.rpc-address.ns1.nn2</name>
- <value>xxx2.cn:8020</value>
- </property>
于是将fileSystem设置成其中的一台服务器,
fileSystem = FileSystem.get(URI.create("hdfs://xxx1.cn:8020"), conf)
这样终于成功了,注意,如果你连接上的是一个standby服务器,是不能够Read成功的!只有连接上active状态的服务器才能成功,那么如何确定哪台服务器当时是active呢,可以通过命令:
- hdfs haadmin -getServiceState nn1
- standby
- hdfs haadmin -getServiceState nn2
- active
这表示nn2是active NameNode服务器。
那么问题就来了,如果这样的话,当NameNode发生自动切换时,是不能够智能地发生切换操作的,如何避免这个问题?
在Hadoop技术内幕 hadoop common和hdfs架构设计原理与实现一书中,专门有一章节介绍hadoop hdfs configuration的设置。
从其中可以看出整个Configuration的加载过程,如果我们在构造FileSystem的时候,加载服务端中的两个核心文件,比如将代码写成下面这种,是否能够最终成功呢?
- String uri = “/file/config";
- Configuration conf = new Configuration();
- conf.addResource(new Path("/home/xxxx/hadoop/etc/hadoop/core-site.xml"));
- conf.addResource(new Path("/home/xxxx/hadoop/etc/hadoop/hdfs-site.xml"));
- fileSystem = FileSystem.get(conf);
- FileStatus[] fs = fileSystem.listStatus(new Path(uri));
- for (FileStatus f : fs) {
- System.out.println(f.getPath());
- }
答案是可以的,甚至都不需要采用带URI的函数。虽然绕了个大圈回到了原点,解决办法也非常简单,但通过这个过程的分析,可以使得我们可以熟悉整个FileSystem初始化的过程,也算是收获不小吧。
相关推荐
首先,Java是编写应用程序的通用编程语言,它提供了丰富的库和框架来支持各种任务,包括与Spring框架的集成和对Hadoop HDFS的访问。 Spring是一个开源的应用程序框架,它主要用于简化Java企业级应用的开发。它提供...
这些jar包共同构建了访问HDFS所需的完整环境,开发者可以将它们加入到Java项目的类路径中,以编写和运行与HDFS交互的应用程序。例如,使用`FileSystem`接口创建连接,使用`FSDataInputStream`和`FSDataOutputStream`...
这些JAR包包含了Hadoop的相关API和实现,使得用户可以通过编程方式操作HDFS。 标题"hadop之hdfs中所依赖jar"指出的关键点是,为了成功地进行HDFS操作,必须确保正确地引入了必要的JAR包。这里提到的"Hadoop之上传...
总之,通过Hadoop的HDFS Java API,我们可以方便地在Java应用中与HDFS进行集成,实现文件的上传、下载等操作。理解并熟练掌握这些API,对于开发分布式应用,尤其是在大数据处理场景中,是至关重要的。在实际项目中,...
在项目中添加所有必要的jar包,这些通常包括`hadoop-common.jar`、`hadoop-hdfs.jar`等。在描述中提到的压缩包里,你应该能找到这些必要的依赖,确保将它们添加到项目的类路径中,以便能调用HDFS的API。 在Java代码...
标签:apache、hdfs、hadoop、jar包、java、中文文档; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心...
HDFS的JAR包包含了实现文件系统接口的类,如`hadoop-hdfs-client.jar`,以及在集群中运行的DataNode和NameNode的服务器端组件,如`hadoop-hdfs.jar`。 2. **MapReduce**:Hadoop的MapReduce是一种编程模型,用于大...
标签:apache、hdfs、hadoop、jar包、java、API文档、中英对照版; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准...
在Hadoop平台上打开和播放MP4文件并不像在本地文件系统上那么简单,因为HDFS不提供直接的流式访问支持。通常,我们需要通过Hadoop的API或特定的工具来实现。例如,可以使用`hadoop fs`命令行工具来查看和下载HDFS上...
标签:apache、hdfs、hadoop、jar包、java、中文文档; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心...
标签:apache、hadoop、hdfs、client、中英对照文档、jar包、java; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准...
在Hadoop2.2.0中,`hadoop-common-2.2.0.jar`是必不可少的。 2. **HDFS Client**:提供与HDFS交互的客户端API,包括文件操作、文件系统管理和故障检测。对应的jar包是`hadoop-hdfs-client-2.2.0.jar`,它包含了所有...
标题 "运行hadoop jar" 涉及到的是在Hadoop环境中执行自定义Java应用程序的过程。这个过程通常用于分布式计算,比如MapReduce任务。在Hadoop生态系统中,`hadoop jar` 是一个命令行工具,它允许用户通过指定的JAR...
本文将详细介绍如何在Eclipse中使用Hadoop的各种JAR包,包括HDFS、MapReduce、YARN、HTTPFS和KMS,以实现高效的数据操作。 首先,我们需要理解这些组件在Hadoop生态系统中的角色: 1. HDFS(Hadoop Distributed ...
标签:apache、hadoop、hdfs、中文文档、jar包、java; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心...
在Hadoop生态系统中,Java API是开发者与HDFS(Hadoop Distributed File System)进行交互的主要方式。本资料主要涵盖了如何使用Eclipse环境进行Java开发,利用Hadoop的HDFS API来操作分布式文件系统。以下是对这些...
开发者通常会将编写好的Java程序与依赖的Hadoop库一起打包成jar文件,然后通过`hadoop jar`命令在Hadoop集群上运行这个jar文件,执行MapReduce任务。 例如,以下是一个简单的`hadoop jar`命令执行流程: ```bash ...
Hadoop是大数据处理领域的一个核心框架,由Apache软件基金会开发,它主要分为两个主要部分:Hadoop Distributed File System (HDFS) 和 MapReduce。Hadoop 2.7.2 版本是在Hadoop 2.x系列中的一个重要版本,带来了...
在编程时,将这些JAR包导入工程中是确保Hadoop程序正确运行的关键步骤。 首先,我们来了解Hadoop的主要组件和它们对应的JAR包: 1. **Hadoop Common**:这是Hadoop的基础模块,提供了各种通用工具和服务,包括文件...
在开发层面,"hadoop-2.7.2-hbase-jar"提供了Java API,允许开发者编写HBase客户端程序,进行数据的增删查改操作。同时,HBase还支持使用HBase Shell,这是一个基于JRuby的命令行工具,用户可以通过它直接与HBase...